999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據基本概念、技術與挑戰

2015-09-28 06:10:58趙蘇陽李艷軍錢小燕曹愈遠許振騰喬磊汪雷
現代計算機 2015年8期
關鍵詞:挑戰研究

趙蘇陽,李艷軍,錢小燕,曹愈遠,許振騰,喬磊,汪雷

(南京航空航天大學民航學院,南京 210000)

大數據基本概念、技術與挑戰

趙蘇陽,李艷軍,錢小燕,曹愈遠,許振騰,喬磊,汪雷

(南京航空航天大學民航學院,南京210000)

0 引言

隨著云計算、物聯網、移動互連、社交媒體等新興信息技術和應用模式的快速發展,信息技術與人類世界政治、經濟、軍事、科研、生活等方方面面不斷交叉融合,全球數據量急劇增加,推動人類社會邁入大數據時代。大數據時代的到來迅速引起了科技界和企業界甚至世界各國政府關注。2008年Nature推出了Big Data專刊、2008年Computing Community Consortium發表了題為 “Big Data Computing;Creating Revolutionary Breakthrough in Commerce,Science,and Society”的報告、2012年奧巴馬政府公布“大數據研發計劃”、2013年Science推出了“Dealing with Data”,2012年我國學術界亦在北京大學召開了首屆中國大數據應用論壇。這些報告計劃以及論壇都是為了討論大數據的應用價值以及大數據可能面對的若干挑戰。

1 大數據概述

1.1基本概念

大數據本身并不是一個具體的概念,顧名思義,它是指數據的規模非常大,但是以往也有表示數據規模很大的名詞如“大規模數據”、“超大規模數據”等。麥肯錫第一次對大數據作出了定義:大數據是指數據規模大到傳統的數據庫軟件工具已經無法采集、存儲、管理和分析的數據集。也可以這樣理解:大數據是指利用現有理論、方法、技術和工具難以在短時間內完成分析計算、整體呈現高價值的海量復雜數據集合。

1.2基本特征

大數據的特征一般可以用“5V”來表示:Volume、Variety、Velocity、Value以及Virtual。具體的特征描述見表1[1~2]。

表1 大數據的主要特征

1.3應用

谷歌的首席經濟學家Hal Varian說過:數據是可以廣泛應用的只是缺乏從中提取知識的能力。收集數據的最終目的是根據具體的需要從數據中提取有用的知識。并將這些知識應用到具體的領域中,當然,不同領域的數據應用有其各自不同的特點。表2是某些具有代表性的大數據應用及相關的比較[3]。

表2 典型大數據應用之間的比較

2 大數據的處理模式

維克托邁爾在《大數據時代》一書中指出了大數據時代處理數據理念的三大轉變:要全體不要抽樣、要效率不要絕對精確、要相關不要因果。目前,大數據的處理模式主要有靜態批量處理(batch processing)和實時的流處理(stream processing)。

2.1批處理

批處理首先要對數據進行存儲,然后再對這些靜態數據進行集中的處理。如:互聯網中的社交網絡產生的大量的文本、圖片、音視頻等不同形式的數據,對這些數據進行批量處理分析,可以發現人與人之間隱含的關系;一些大型搜索引擎的廣告分析系統,通過對廣告相關數據的批量處理可以提高廣告的投放效果來增加點擊量。圖1是大數據批處理模型。

2006年Hadoop成為了典型的大數據批量處理架構,由HDFS分布式文件系統負責靜態數據的存儲,并通過MapReduce將計算邏輯分配到各數據節點進行數據計算和價值發現。圖2是一個完整的MapReduceguoc[8]。

圖1 大數據批處理模型

2.2流處理

流處理的理念是數據的價值會隨著時間的流逝而不斷減小。新的數據出現時刻和順序也不能確定,所以,對于流式數據不再進行存儲,而是直接進行數據的實時計算。

圖2 MapReduce執行流程圖

2010年,谷歌推出了Dremel,引領業界向實時數據處理邁進。流式處理典型的應用有(1)數據采集應用,(2)金融銀行業的應用。如推特的Storm、Yahoo的S4就是典型流式的數據計算架構,數據在任務中被計算,并輸出有價值的信息。圖3是流處理中基本的數據流模型。圖4為數據流計算模型。

圖3 數據流的基本模型

圖4 大數據流式計算

總之,批量數據通常具有3個特征:數據體積大、數據精確度高以及數據價值密度低。流式數據的特征是:數據連續不斷、出現時間不確定、格式復雜,且對應的處理工具需具備高性能、實時,以及可擴展等特性[4,10]。

3 大數據的分析工具

如今,有很多工具被用來進行大數據的分析,專業或非專業,昂貴或免費開源。2012年,KDNuggets針對專業人員進行了一份調查報告:“一年中在實際項目中用到的大數據、數據挖掘、數據分析軟件”。這里簡要介紹使用頻率最高的前三種。

(1)R(30%)

R是開源編程語言,它可以用來進行數據挖掘/分析和可視化。在R軟件環境中可以調用C、C++和Fortran編寫的代碼。專業用戶也可以通過C語言直接調用R對象,R之所以有這么多的用戶另一個重要原因是R語言是開源免費的。在KDNuggets的另一份調查報告 “數據挖掘/分析中所使用的設計語言”顯示在2012年R語言擊敗了SQL和Java成為榜首。

(2)Excel(29%)

Excel是Office的核心組件之一。它提供了強大的數據處理、統計分析等功能。

(3)Rapid-I Rapidminer(26%)

Rapidminer是用于數據挖掘、機器學習、預測分析的開源軟件。Rapidminer提供的數據挖掘和機器學習程序包括:數據加載和轉換(ETL)、數據處理和可視化、建模、評估和部署。Rapidminer是用Java編寫的,還可以與R語言進行協同工作[5]。

4 大數據時代面臨的問題與挑戰

當今,雖然大數據受到社會各界的高度重視,但是無論是在大數據的底層處理系統以及高層的分析手段都存在很多問題和挑戰。

(1)數據復雜

大數據的出現,使人們在處理很多問題的時候可以獲得大量樣本,但這也直接使得數據類型模式多樣化、相互之間的關系繁雜、價值小密度大。目前,人們對于大數據復雜性的內在機理及背后的物理意義缺乏理解,極大地制約了人們對大數據高效計算模型和方法的設計能力。

解決大數據復雜的問題需:①研究大數據復雜性規律;②研究在多模態關聯關系下的數據分布理論和模型。

(2)計算復雜

大數據多源異構、規模巨大、快速多變、樣本量充足,內在關聯關系密切而復雜,價值度分布極不均衡等特性對研究大數據的可計算性及建立新型計算范式提供了機遇,同時也提出了挑戰。表3是科學發現的四種范式。

解決大數據計算復雜的問題需:①著眼大數據的全生命周期,研究以數據為中心的計算模式;②研究適應大數據的非確定性算法理論;③研究基于自舉和采樣的局部計算和近似方法;④研究按需約簡的方法。

(3)系統復雜

對于規模巨大、結構復雜、價值密度小的大數據,計算復雜度高、周期長、實時性要求高是大數據處理的主要難點。這些難點對大數據處理系統的運行效率及單位能耗提出了苛刻要求,要求大數據處理系統必須具有高效能的特點。

表3 科學發現的4種范式

表4 各類型數據處理的代表性系統

解決系統復雜問題需:①結合大數據價值密度小的特點,針對大數據分布存儲和處理的系統架構,以大數據感知、存儲與計算融合為大數據的計算準則,在性能評價體系、分布式系統架構、流式數據計算框架、在線數據處理方法等方面展開基礎性研究,并對作為重要驗證工具的基準測試程序及系統性能預測方法進行研究,通過設計、實現與驗證的迭代完善,最終實現大數據計算系統的數據獲取高吞吐、數據存儲低能耗和數據計算高效率[6~7]。

5 結語

大數據的時代已經到來,數據已經從傳統的處理對象轉變為一種基礎資源,正確利用大數據必將給人們生活帶來便利,促進我國未來的科技與經濟發展。但大數據規模巨大,結構復雜以及價值密度疏等特點也給大數據的正確利用和廣泛應用帶來了不少問題與挑戰。解決好這些問題與挑戰,必須先要對大數據的基本概念、基本特征、計算方式、分析工具進行深度的剖析和理解。IDC預計到2020年中國產生的數據將占全球21%,而我國對于大數據方面的研究已經落后于美國等國家,如何開發、利用大數據這一重要資源,是我國當前亟需解決的問題[9]。

[1]陳美.大數據在公共交通中的應用.圖書與情報,1003-6938(2012)06-0022-07

[2]陶雪嬌,胡曉峰,劉洋.大數據研究綜述.系統仿真學報,1004-731X(2013)S-0142-05

[3]孟小峰.大數據管理:概念、技術與挑戰.計算機研究與發展,2013,50(1):146~169

[4]孫大為,張廣艷,鄭緯民.大數據流式計算:關鍵技術及系統實例.軟件學報,2014,25(4):839~862

[5]張引,陳敏,廖小飛.大數據應用的現狀與展望.計算機研究與發展,2013:16~23

[6]程學旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數據系統和分析技術綜述.軟件學報,2014,25(9):1889~1908

[7]The Economist.Data,Data,Everywhere-A Special Report on Managing Information[EB/OL].http://www.economist.com/node/15557443 [2012-10-02]

[8]Dean J,Ghemawat S.MapReduce:Simplified Data Processing on Large Clusters[C].Proc of OSDI 2004.Berkeley,CA:USENIX Association,2004:3:1~150

[9]王珊,王會舉.架構大數據:挑戰現狀與展望.計算機學報

[10]李建中,劉顯敏.大數據的一個重要方面:數據可用性.計算機研究與發展,2013,50(6):1147~1162

趙蘇陽,男,江蘇揚州人,碩士研究生,研究方向為交通信息工程及控制

李艷軍(1968-),男,南京人,博士,教授,研究方向為載運技術與工程

錢小燕(1979-),女,南京人,博士,副教授,研究方向為交通信息工程與控制

曹愈遠(1983-),男,南京人,碩士,講師,研究方向為載運技術與工程

許振騰(1989-),男,山東人,碩士在讀,研究方向為載運技術與工程

喬磊(1990-),男,江蘇人,碩士在讀,研究方向為載運技術與工程

汪雷(1990-),男,湖南人,碩士在讀,研究方向為交通運輸與工程

Big Data;Basic Concept;Processing Mode;Problems and Challenges

Basic Concept,Technology and Challenge of Big Data

ZHAO Su-yang,LI Yan-jun,QIAN Xiao-yan,CAO Yu-yuan,XU Zhen-teng,QIAO Lei,WANG Lei
(Nanjing University of Aeronautics&Astronautics,Nanjing 210000)

1007-1423(2015)08-0051-05

10.3969/j.issn.1007-1423.2015.08.012

2015-01-15

2015-02-11

隨著云計算、物聯網、社交網絡的發展,數據類型和數量呈現出爆炸式的增長,大數據時代正式到來。人們發現數據可以被當做一種基礎性的資源而不僅僅只是簡單的處理對象。大數據的數據復雜性、計算復雜性以及數據處理系統的復雜性都給大數據的計算及應用帶來極大的挑戰。對大數據的基本概念、特征、處理模式以及技術難點進行剖析研究都有助于更好地利用挖掘大數據的潛能和優勢。

大數據;基本概念;處理模式;問題與挑戰

With the development of cloud computing,Internet of things,social networks,the number and types of data showing explosive growth,the big data era is coming.People found that the data can be used as a fundamental resource and not just a simple processing object.The complexity of data complexity,large data calculation complexity and data processing systems are a great challenge for calculation and application of large data.Analysing the basic concept,features of the data processing mode and technical difficulties is helpful to better tap the potential and advantages of large data.

猜你喜歡
挑戰研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
我來挑戰(二)
新版C-NCAP側面碰撞假人損傷研究
嘰咕樂挑戰
嘰咕樂挑戰
嘰咕樂挑戰
主站蜘蛛池模板: 亚洲欧美一区二区三区麻豆| 国产产在线精品亚洲aavv| 伊人网址在线| 亚洲日本中文综合在线| 19国产精品麻豆免费观看| 亚洲一区免费看| 免费毛片视频| 老司机精品一区在线视频| 亚洲性日韩精品一区二区| 成人福利在线免费观看| 成人在线亚洲| 国产男女免费视频| 麻豆国产精品一二三在线观看| 一级不卡毛片| 亚洲美女一区| 亚洲最新在线| 午夜视频日本| 伊人五月丁香综合AⅤ| 国产精品永久不卡免费视频| 91综合色区亚洲熟妇p| 日韩 欧美 小说 综合网 另类| 久久中文字幕2021精品| 尤物视频一区| 国产国语一级毛片| 国产成人综合日韩精品无码首页| 最新痴汉在线无码AV| 手机在线看片不卡中文字幕| 国产簧片免费在线播放| 欧美激情,国产精品| 欧美在线一二区| 亚洲欧美一级一级a| 午夜毛片福利| 日本成人精品视频| 日韩免费成人| 免费国产不卡午夜福在线观看| 国产制服丝袜无码视频| 国模粉嫩小泬视频在线观看| 中文字幕中文字字幕码一二区| 国产精品视频第一专区| 91小视频在线观看| 在线观看欧美国产| 色妺妺在线视频喷水| 国产精品观看视频免费完整版| 福利国产在线| 在线免费观看AV| 国产91精品调教在线播放| 熟女日韩精品2区| 国产女人18水真多毛片18精品| 午夜影院a级片| 欧美日韩精品一区二区视频| 最新日韩AV网址在线观看| 欧美精品亚洲日韩a| 在线免费不卡视频| 亚洲日韩AV无码一区二区三区人| 天天摸天天操免费播放小视频| 欧美全免费aaaaaa特黄在线| 干中文字幕| 久久国产免费观看| 伊人久久婷婷五月综合97色| 国产成人亚洲精品蜜芽影院| 亚洲视频一区| 夜夜操天天摸| 少妇露出福利视频| 久久精品视频一| 亚洲成人在线网| 国产一区二区网站| 97se亚洲综合| 国产一级特黄aa级特黄裸毛片| 国产丝袜啪啪| 亚洲va视频| 日韩精品一区二区三区大桥未久| 亚洲无线一二三四区男男| 欧美一区二区精品久久久| 亚洲精品高清视频| 午夜福利网址| 日本久久网站| 伊人中文网| 91亚洲精选| 天天色综网| 国产精品香蕉在线| 亚洲第一中文字幕| 久久大香伊蕉在人线观看热2|