999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據基本概念、技術與挑戰

2015-09-28 06:10:58趙蘇陽李艷軍錢小燕曹愈遠許振騰喬磊汪雷
現代計算機 2015年8期
關鍵詞:挑戰研究

趙蘇陽,李艷軍,錢小燕,曹愈遠,許振騰,喬磊,汪雷

(南京航空航天大學民航學院,南京 210000)

大數據基本概念、技術與挑戰

趙蘇陽,李艷軍,錢小燕,曹愈遠,許振騰,喬磊,汪雷

(南京航空航天大學民航學院,南京210000)

0 引言

隨著云計算、物聯網、移動互連、社交媒體等新興信息技術和應用模式的快速發展,信息技術與人類世界政治、經濟、軍事、科研、生活等方方面面不斷交叉融合,全球數據量急劇增加,推動人類社會邁入大數據時代。大數據時代的到來迅速引起了科技界和企業界甚至世界各國政府關注。2008年Nature推出了Big Data專刊、2008年Computing Community Consortium發表了題為 “Big Data Computing;Creating Revolutionary Breakthrough in Commerce,Science,and Society”的報告、2012年奧巴馬政府公布“大數據研發計劃”、2013年Science推出了“Dealing with Data”,2012年我國學術界亦在北京大學召開了首屆中國大數據應用論壇。這些報告計劃以及論壇都是為了討論大數據的應用價值以及大數據可能面對的若干挑戰。

1 大數據概述

1.1基本概念

大數據本身并不是一個具體的概念,顧名思義,它是指數據的規模非常大,但是以往也有表示數據規模很大的名詞如“大規模數據”、“超大規模數據”等。麥肯錫第一次對大數據作出了定義:大數據是指數據規模大到傳統的數據庫軟件工具已經無法采集、存儲、管理和分析的數據集。也可以這樣理解:大數據是指利用現有理論、方法、技術和工具難以在短時間內完成分析計算、整體呈現高價值的海量復雜數據集合。

1.2基本特征

大數據的特征一般可以用“5V”來表示:Volume、Variety、Velocity、Value以及Virtual。具體的特征描述見表1[1~2]。

表1 大數據的主要特征

1.3應用

谷歌的首席經濟學家Hal Varian說過:數據是可以廣泛應用的只是缺乏從中提取知識的能力。收集數據的最終目的是根據具體的需要從數據中提取有用的知識。并將這些知識應用到具體的領域中,當然,不同領域的數據應用有其各自不同的特點。表2是某些具有代表性的大數據應用及相關的比較[3]。

表2 典型大數據應用之間的比較

2 大數據的處理模式

維克托邁爾在《大數據時代》一書中指出了大數據時代處理數據理念的三大轉變:要全體不要抽樣、要效率不要絕對精確、要相關不要因果。目前,大數據的處理模式主要有靜態批量處理(batch processing)和實時的流處理(stream processing)。

2.1批處理

批處理首先要對數據進行存儲,然后再對這些靜態數據進行集中的處理。如:互聯網中的社交網絡產生的大量的文本、圖片、音視頻等不同形式的數據,對這些數據進行批量處理分析,可以發現人與人之間隱含的關系;一些大型搜索引擎的廣告分析系統,通過對廣告相關數據的批量處理可以提高廣告的投放效果來增加點擊量。圖1是大數據批處理模型。

2006年Hadoop成為了典型的大數據批量處理架構,由HDFS分布式文件系統負責靜態數據的存儲,并通過MapReduce將計算邏輯分配到各數據節點進行數據計算和價值發現。圖2是一個完整的MapReduceguoc[8]。

圖1 大數據批處理模型

2.2流處理

流處理的理念是數據的價值會隨著時間的流逝而不斷減小。新的數據出現時刻和順序也不能確定,所以,對于流式數據不再進行存儲,而是直接進行數據的實時計算。

圖2 MapReduce執行流程圖

2010年,谷歌推出了Dremel,引領業界向實時數據處理邁進。流式處理典型的應用有(1)數據采集應用,(2)金融銀行業的應用。如推特的Storm、Yahoo的S4就是典型流式的數據計算架構,數據在任務中被計算,并輸出有價值的信息。圖3是流處理中基本的數據流模型。圖4為數據流計算模型。

圖3 數據流的基本模型

圖4 大數據流式計算

總之,批量數據通常具有3個特征:數據體積大、數據精確度高以及數據價值密度低。流式數據的特征是:數據連續不斷、出現時間不確定、格式復雜,且對應的處理工具需具備高性能、實時,以及可擴展等特性[4,10]。

3 大數據的分析工具

如今,有很多工具被用來進行大數據的分析,專業或非專業,昂貴或免費開源。2012年,KDNuggets針對專業人員進行了一份調查報告:“一年中在實際項目中用到的大數據、數據挖掘、數據分析軟件”。這里簡要介紹使用頻率最高的前三種。

(1)R(30%)

R是開源編程語言,它可以用來進行數據挖掘/分析和可視化。在R軟件環境中可以調用C、C++和Fortran編寫的代碼。專業用戶也可以通過C語言直接調用R對象,R之所以有這么多的用戶另一個重要原因是R語言是開源免費的。在KDNuggets的另一份調查報告 “數據挖掘/分析中所使用的設計語言”顯示在2012年R語言擊敗了SQL和Java成為榜首。

(2)Excel(29%)

Excel是Office的核心組件之一。它提供了強大的數據處理、統計分析等功能。

(3)Rapid-I Rapidminer(26%)

Rapidminer是用于數據挖掘、機器學習、預測分析的開源軟件。Rapidminer提供的數據挖掘和機器學習程序包括:數據加載和轉換(ETL)、數據處理和可視化、建模、評估和部署。Rapidminer是用Java編寫的,還可以與R語言進行協同工作[5]。

4 大數據時代面臨的問題與挑戰

當今,雖然大數據受到社會各界的高度重視,但是無論是在大數據的底層處理系統以及高層的分析手段都存在很多問題和挑戰。

(1)數據復雜

大數據的出現,使人們在處理很多問題的時候可以獲得大量樣本,但這也直接使得數據類型模式多樣化、相互之間的關系繁雜、價值小密度大。目前,人們對于大數據復雜性的內在機理及背后的物理意義缺乏理解,極大地制約了人們對大數據高效計算模型和方法的設計能力。

解決大數據復雜的問題需:①研究大數據復雜性規律;②研究在多模態關聯關系下的數據分布理論和模型。

(2)計算復雜

大數據多源異構、規模巨大、快速多變、樣本量充足,內在關聯關系密切而復雜,價值度分布極不均衡等特性對研究大數據的可計算性及建立新型計算范式提供了機遇,同時也提出了挑戰。表3是科學發現的四種范式。

解決大數據計算復雜的問題需:①著眼大數據的全生命周期,研究以數據為中心的計算模式;②研究適應大數據的非確定性算法理論;③研究基于自舉和采樣的局部計算和近似方法;④研究按需約簡的方法。

(3)系統復雜

對于規模巨大、結構復雜、價值密度小的大數據,計算復雜度高、周期長、實時性要求高是大數據處理的主要難點。這些難點對大數據處理系統的運行效率及單位能耗提出了苛刻要求,要求大數據處理系統必須具有高效能的特點。

表3 科學發現的4種范式

表4 各類型數據處理的代表性系統

解決系統復雜問題需:①結合大數據價值密度小的特點,針對大數據分布存儲和處理的系統架構,以大數據感知、存儲與計算融合為大數據的計算準則,在性能評價體系、分布式系統架構、流式數據計算框架、在線數據處理方法等方面展開基礎性研究,并對作為重要驗證工具的基準測試程序及系統性能預測方法進行研究,通過設計、實現與驗證的迭代完善,最終實現大數據計算系統的數據獲取高吞吐、數據存儲低能耗和數據計算高效率[6~7]。

5 結語

大數據的時代已經到來,數據已經從傳統的處理對象轉變為一種基礎資源,正確利用大數據必將給人們生活帶來便利,促進我國未來的科技與經濟發展。但大數據規模巨大,結構復雜以及價值密度疏等特點也給大數據的正確利用和廣泛應用帶來了不少問題與挑戰。解決好這些問題與挑戰,必須先要對大數據的基本概念、基本特征、計算方式、分析工具進行深度的剖析和理解。IDC預計到2020年中國產生的數據將占全球21%,而我國對于大數據方面的研究已經落后于美國等國家,如何開發、利用大數據這一重要資源,是我國當前亟需解決的問題[9]。

[1]陳美.大數據在公共交通中的應用.圖書與情報,1003-6938(2012)06-0022-07

[2]陶雪嬌,胡曉峰,劉洋.大數據研究綜述.系統仿真學報,1004-731X(2013)S-0142-05

[3]孟小峰.大數據管理:概念、技術與挑戰.計算機研究與發展,2013,50(1):146~169

[4]孫大為,張廣艷,鄭緯民.大數據流式計算:關鍵技術及系統實例.軟件學報,2014,25(4):839~862

[5]張引,陳敏,廖小飛.大數據應用的現狀與展望.計算機研究與發展,2013:16~23

[6]程學旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數據系統和分析技術綜述.軟件學報,2014,25(9):1889~1908

[7]The Economist.Data,Data,Everywhere-A Special Report on Managing Information[EB/OL].http://www.economist.com/node/15557443 [2012-10-02]

[8]Dean J,Ghemawat S.MapReduce:Simplified Data Processing on Large Clusters[C].Proc of OSDI 2004.Berkeley,CA:USENIX Association,2004:3:1~150

[9]王珊,王會舉.架構大數據:挑戰現狀與展望.計算機學報

[10]李建中,劉顯敏.大數據的一個重要方面:數據可用性.計算機研究與發展,2013,50(6):1147~1162

趙蘇陽,男,江蘇揚州人,碩士研究生,研究方向為交通信息工程及控制

李艷軍(1968-),男,南京人,博士,教授,研究方向為載運技術與工程

錢小燕(1979-),女,南京人,博士,副教授,研究方向為交通信息工程與控制

曹愈遠(1983-),男,南京人,碩士,講師,研究方向為載運技術與工程

許振騰(1989-),男,山東人,碩士在讀,研究方向為載運技術與工程

喬磊(1990-),男,江蘇人,碩士在讀,研究方向為載運技術與工程

汪雷(1990-),男,湖南人,碩士在讀,研究方向為交通運輸與工程

Big Data;Basic Concept;Processing Mode;Problems and Challenges

Basic Concept,Technology and Challenge of Big Data

ZHAO Su-yang,LI Yan-jun,QIAN Xiao-yan,CAO Yu-yuan,XU Zhen-teng,QIAO Lei,WANG Lei
(Nanjing University of Aeronautics&Astronautics,Nanjing 210000)

1007-1423(2015)08-0051-05

10.3969/j.issn.1007-1423.2015.08.012

2015-01-15

2015-02-11

隨著云計算、物聯網、社交網絡的發展,數據類型和數量呈現出爆炸式的增長,大數據時代正式到來。人們發現數據可以被當做一種基礎性的資源而不僅僅只是簡單的處理對象。大數據的數據復雜性、計算復雜性以及數據處理系統的復雜性都給大數據的計算及應用帶來極大的挑戰。對大數據的基本概念、特征、處理模式以及技術難點進行剖析研究都有助于更好地利用挖掘大數據的潛能和優勢。

大數據;基本概念;處理模式;問題與挑戰

With the development of cloud computing,Internet of things,social networks,the number and types of data showing explosive growth,the big data era is coming.People found that the data can be used as a fundamental resource and not just a simple processing object.The complexity of data complexity,large data calculation complexity and data processing systems are a great challenge for calculation and application of large data.Analysing the basic concept,features of the data processing mode and technical difficulties is helpful to better tap the potential and advantages of large data.

猜你喜歡
挑戰研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
我來挑戰(二)
新版C-NCAP側面碰撞假人損傷研究
嘰咕樂挑戰
嘰咕樂挑戰
嘰咕樂挑戰
主站蜘蛛池模板: 一级一级一片免费| 污网站在线观看视频| 国产三区二区| 国产偷国产偷在线高清| 亚洲无码视频一区二区三区| 国产夜色视频| 国产内射在线观看| 亚洲第一成年人网站| 精品视频一区二区观看| 亚洲中文字幕国产av| 超级碰免费视频91| 91免费观看视频| 亚洲天堂网在线播放| 成年人久久黄色网站| 热99精品视频| 国产视频久久久久| 伊人91视频| 亚洲国产精品无码久久一线| 日韩高清一区 | 久久中文电影| 欧美精品不卡| 91青青草视频| 久久人妻xunleige无码| 最新国产午夜精品视频成人| 欧美一区二区福利视频| 亚洲国产成人综合精品2020| 国产午夜不卡| 国产精品福利社| 国产精品va免费视频| 日韩毛片免费| 青青青视频免费一区二区| 一级香蕉视频在线观看| 亚洲女同欧美在线| 91精品小视频| 亚洲精品国产首次亮相| 成人免费网站久久久| 激情综合网激情综合| 国产91av在线| 欧洲成人免费视频| 精品国产成人a在线观看| 中文字幕在线日韩91| 黄色成年视频| 国产凹凸一区在线观看视频| jizz国产视频| 国产成人精品综合| 精品伊人久久久大香线蕉欧美| 国产人成午夜免费看| 91精品专区国产盗摄| 黄色网址手机国内免费在线观看| 亚洲娇小与黑人巨大交| 国产亚洲欧美日韩在线一区二区三区| 亚洲一区二区三区香蕉| 久久综合丝袜长腿丝袜| 欧美人与牲动交a欧美精品| 国产福利不卡视频| 国产亚洲日韩av在线| 91精品网站| 在线看片中文字幕| 欧美在线黄| 国产精品吹潮在线观看中文| 亚洲综合中文字幕国产精品欧美 | 国产手机在线ΑⅤ片无码观看| 美美女高清毛片视频免费观看| 极品私人尤物在线精品首页 | 国产成人精品亚洲77美色| 九色免费视频| 乱色熟女综合一区二区| 久久国产精品夜色| 亚洲啪啪网| 色偷偷综合网| 久久a毛片| 免费Aⅴ片在线观看蜜芽Tⅴ| 欧美日韩国产成人高清视频| 深爱婷婷激情网| 无码精品福利一区二区三区| 精品超清无码视频在线观看| 国产精品极品美女自在线网站| 草草影院国产第一页| 亚洲第一天堂无码专区| 亚洲成a人在线观看| 秘书高跟黑色丝袜国产91在线| 欧美自慰一级看片免费|