999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據基本概念、技術與挑戰

2015-09-28 06:10:58趙蘇陽李艷軍錢小燕曹愈遠許振騰喬磊汪雷
現代計算機 2015年8期
關鍵詞:挑戰研究

趙蘇陽,李艷軍,錢小燕,曹愈遠,許振騰,喬磊,汪雷

(南京航空航天大學民航學院,南京 210000)

大數據基本概念、技術與挑戰

趙蘇陽,李艷軍,錢小燕,曹愈遠,許振騰,喬磊,汪雷

(南京航空航天大學民航學院,南京210000)

0 引言

隨著云計算、物聯網、移動互連、社交媒體等新興信息技術和應用模式的快速發展,信息技術與人類世界政治、經濟、軍事、科研、生活等方方面面不斷交叉融合,全球數據量急劇增加,推動人類社會邁入大數據時代。大數據時代的到來迅速引起了科技界和企業界甚至世界各國政府關注。2008年Nature推出了Big Data專刊、2008年Computing Community Consortium發表了題為 “Big Data Computing;Creating Revolutionary Breakthrough in Commerce,Science,and Society”的報告、2012年奧巴馬政府公布“大數據研發計劃”、2013年Science推出了“Dealing with Data”,2012年我國學術界亦在北京大學召開了首屆中國大數據應用論壇。這些報告計劃以及論壇都是為了討論大數據的應用價值以及大數據可能面對的若干挑戰。

1 大數據概述

1.1基本概念

大數據本身并不是一個具體的概念,顧名思義,它是指數據的規模非常大,但是以往也有表示數據規模很大的名詞如“大規模數據”、“超大規模數據”等。麥肯錫第一次對大數據作出了定義:大數據是指數據規模大到傳統的數據庫軟件工具已經無法采集、存儲、管理和分析的數據集。也可以這樣理解:大數據是指利用現有理論、方法、技術和工具難以在短時間內完成分析計算、整體呈現高價值的海量復雜數據集合。

1.2基本特征

大數據的特征一般可以用“5V”來表示:Volume、Variety、Velocity、Value以及Virtual。具體的特征描述見表1[1~2]。

表1 大數據的主要特征

1.3應用

谷歌的首席經濟學家Hal Varian說過:數據是可以廣泛應用的只是缺乏從中提取知識的能力。收集數據的最終目的是根據具體的需要從數據中提取有用的知識。并將這些知識應用到具體的領域中,當然,不同領域的數據應用有其各自不同的特點。表2是某些具有代表性的大數據應用及相關的比較[3]。

表2 典型大數據應用之間的比較

2 大數據的處理模式

維克托邁爾在《大數據時代》一書中指出了大數據時代處理數據理念的三大轉變:要全體不要抽樣、要效率不要絕對精確、要相關不要因果。目前,大數據的處理模式主要有靜態批量處理(batch processing)和實時的流處理(stream processing)。

2.1批處理

批處理首先要對數據進行存儲,然后再對這些靜態數據進行集中的處理。如:互聯網中的社交網絡產生的大量的文本、圖片、音視頻等不同形式的數據,對這些數據進行批量處理分析,可以發現人與人之間隱含的關系;一些大型搜索引擎的廣告分析系統,通過對廣告相關數據的批量處理可以提高廣告的投放效果來增加點擊量。圖1是大數據批處理模型。

2006年Hadoop成為了典型的大數據批量處理架構,由HDFS分布式文件系統負責靜態數據的存儲,并通過MapReduce將計算邏輯分配到各數據節點進行數據計算和價值發現。圖2是一個完整的MapReduceguoc[8]。

圖1 大數據批處理模型

2.2流處理

流處理的理念是數據的價值會隨著時間的流逝而不斷減小。新的數據出現時刻和順序也不能確定,所以,對于流式數據不再進行存儲,而是直接進行數據的實時計算。

圖2 MapReduce執行流程圖

2010年,谷歌推出了Dremel,引領業界向實時數據處理邁進。流式處理典型的應用有(1)數據采集應用,(2)金融銀行業的應用。如推特的Storm、Yahoo的S4就是典型流式的數據計算架構,數據在任務中被計算,并輸出有價值的信息。圖3是流處理中基本的數據流模型。圖4為數據流計算模型。

圖3 數據流的基本模型

圖4 大數據流式計算

總之,批量數據通常具有3個特征:數據體積大、數據精確度高以及數據價值密度低。流式數據的特征是:數據連續不斷、出現時間不確定、格式復雜,且對應的處理工具需具備高性能、實時,以及可擴展等特性[4,10]。

3 大數據的分析工具

如今,有很多工具被用來進行大數據的分析,專業或非專業,昂貴或免費開源。2012年,KDNuggets針對專業人員進行了一份調查報告:“一年中在實際項目中用到的大數據、數據挖掘、數據分析軟件”。這里簡要介紹使用頻率最高的前三種。

(1)R(30%)

R是開源編程語言,它可以用來進行數據挖掘/分析和可視化。在R軟件環境中可以調用C、C++和Fortran編寫的代碼。專業用戶也可以通過C語言直接調用R對象,R之所以有這么多的用戶另一個重要原因是R語言是開源免費的。在KDNuggets的另一份調查報告 “數據挖掘/分析中所使用的設計語言”顯示在2012年R語言擊敗了SQL和Java成為榜首。

(2)Excel(29%)

Excel是Office的核心組件之一。它提供了強大的數據處理、統計分析等功能。

(3)Rapid-I Rapidminer(26%)

Rapidminer是用于數據挖掘、機器學習、預測分析的開源軟件。Rapidminer提供的數據挖掘和機器學習程序包括:數據加載和轉換(ETL)、數據處理和可視化、建模、評估和部署。Rapidminer是用Java編寫的,還可以與R語言進行協同工作[5]。

4 大數據時代面臨的問題與挑戰

當今,雖然大數據受到社會各界的高度重視,但是無論是在大數據的底層處理系統以及高層的分析手段都存在很多問題和挑戰。

(1)數據復雜

大數據的出現,使人們在處理很多問題的時候可以獲得大量樣本,但這也直接使得數據類型模式多樣化、相互之間的關系繁雜、價值小密度大。目前,人們對于大數據復雜性的內在機理及背后的物理意義缺乏理解,極大地制約了人們對大數據高效計算模型和方法的設計能力。

解決大數據復雜的問題需:①研究大數據復雜性規律;②研究在多模態關聯關系下的數據分布理論和模型。

(2)計算復雜

大數據多源異構、規模巨大、快速多變、樣本量充足,內在關聯關系密切而復雜,價值度分布極不均衡等特性對研究大數據的可計算性及建立新型計算范式提供了機遇,同時也提出了挑戰。表3是科學發現的四種范式。

解決大數據計算復雜的問題需:①著眼大數據的全生命周期,研究以數據為中心的計算模式;②研究適應大數據的非確定性算法理論;③研究基于自舉和采樣的局部計算和近似方法;④研究按需約簡的方法。

(3)系統復雜

對于規模巨大、結構復雜、價值密度小的大數據,計算復雜度高、周期長、實時性要求高是大數據處理的主要難點。這些難點對大數據處理系統的運行效率及單位能耗提出了苛刻要求,要求大數據處理系統必須具有高效能的特點。

表3 科學發現的4種范式

表4 各類型數據處理的代表性系統

解決系統復雜問題需:①結合大數據價值密度小的特點,針對大數據分布存儲和處理的系統架構,以大數據感知、存儲與計算融合為大數據的計算準則,在性能評價體系、分布式系統架構、流式數據計算框架、在線數據處理方法等方面展開基礎性研究,并對作為重要驗證工具的基準測試程序及系統性能預測方法進行研究,通過設計、實現與驗證的迭代完善,最終實現大數據計算系統的數據獲取高吞吐、數據存儲低能耗和數據計算高效率[6~7]。

5 結語

大數據的時代已經到來,數據已經從傳統的處理對象轉變為一種基礎資源,正確利用大數據必將給人們生活帶來便利,促進我國未來的科技與經濟發展。但大數據規模巨大,結構復雜以及價值密度疏等特點也給大數據的正確利用和廣泛應用帶來了不少問題與挑戰。解決好這些問題與挑戰,必須先要對大數據的基本概念、基本特征、計算方式、分析工具進行深度的剖析和理解。IDC預計到2020年中國產生的數據將占全球21%,而我國對于大數據方面的研究已經落后于美國等國家,如何開發、利用大數據這一重要資源,是我國當前亟需解決的問題[9]。

[1]陳美.大數據在公共交通中的應用.圖書與情報,1003-6938(2012)06-0022-07

[2]陶雪嬌,胡曉峰,劉洋.大數據研究綜述.系統仿真學報,1004-731X(2013)S-0142-05

[3]孟小峰.大數據管理:概念、技術與挑戰.計算機研究與發展,2013,50(1):146~169

[4]孫大為,張廣艷,鄭緯民.大數據流式計算:關鍵技術及系統實例.軟件學報,2014,25(4):839~862

[5]張引,陳敏,廖小飛.大數據應用的現狀與展望.計算機研究與發展,2013:16~23

[6]程學旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數據系統和分析技術綜述.軟件學報,2014,25(9):1889~1908

[7]The Economist.Data,Data,Everywhere-A Special Report on Managing Information[EB/OL].http://www.economist.com/node/15557443 [2012-10-02]

[8]Dean J,Ghemawat S.MapReduce:Simplified Data Processing on Large Clusters[C].Proc of OSDI 2004.Berkeley,CA:USENIX Association,2004:3:1~150

[9]王珊,王會舉.架構大數據:挑戰現狀與展望.計算機學報

[10]李建中,劉顯敏.大數據的一個重要方面:數據可用性.計算機研究與發展,2013,50(6):1147~1162

趙蘇陽,男,江蘇揚州人,碩士研究生,研究方向為交通信息工程及控制

李艷軍(1968-),男,南京人,博士,教授,研究方向為載運技術與工程

錢小燕(1979-),女,南京人,博士,副教授,研究方向為交通信息工程與控制

曹愈遠(1983-),男,南京人,碩士,講師,研究方向為載運技術與工程

許振騰(1989-),男,山東人,碩士在讀,研究方向為載運技術與工程

喬磊(1990-),男,江蘇人,碩士在讀,研究方向為載運技術與工程

汪雷(1990-),男,湖南人,碩士在讀,研究方向為交通運輸與工程

Big Data;Basic Concept;Processing Mode;Problems and Challenges

Basic Concept,Technology and Challenge of Big Data

ZHAO Su-yang,LI Yan-jun,QIAN Xiao-yan,CAO Yu-yuan,XU Zhen-teng,QIAO Lei,WANG Lei
(Nanjing University of Aeronautics&Astronautics,Nanjing 210000)

1007-1423(2015)08-0051-05

10.3969/j.issn.1007-1423.2015.08.012

2015-01-15

2015-02-11

隨著云計算、物聯網、社交網絡的發展,數據類型和數量呈現出爆炸式的增長,大數據時代正式到來。人們發現數據可以被當做一種基礎性的資源而不僅僅只是簡單的處理對象。大數據的數據復雜性、計算復雜性以及數據處理系統的復雜性都給大數據的計算及應用帶來極大的挑戰。對大數據的基本概念、特征、處理模式以及技術難點進行剖析研究都有助于更好地利用挖掘大數據的潛能和優勢。

大數據;基本概念;處理模式;問題與挑戰

With the development of cloud computing,Internet of things,social networks,the number and types of data showing explosive growth,the big data era is coming.People found that the data can be used as a fundamental resource and not just a simple processing object.The complexity of data complexity,large data calculation complexity and data processing systems are a great challenge for calculation and application of large data.Analysing the basic concept,features of the data processing mode and technical difficulties is helpful to better tap the potential and advantages of large data.

猜你喜歡
挑戰研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
我來挑戰(二)
新版C-NCAP側面碰撞假人損傷研究
嘰咕樂挑戰
嘰咕樂挑戰
嘰咕樂挑戰
主站蜘蛛池模板: 青青青国产精品国产精品美女| 国产成人精品免费视频大全五级| 免费一极毛片| 一本色道久久88亚洲综合| 国产精选自拍| 国产日本视频91| 国产一级裸网站| 亚洲欧美不卡中文字幕| 国内精品自在欧美一区| 精品無碼一區在線觀看 | 久久久受www免费人成| 国内熟女少妇一线天| 亚洲日韩在线满18点击进入| 永久免费无码日韩视频| 免费午夜无码18禁无码影院| 亚洲av无码专区久久蜜芽| 香蕉综合在线视频91| 欧美啪啪视频免码| 欧美一区二区三区不卡免费| 免费观看国产小粉嫩喷水| 99久久99这里只有免费的精品 | 毛片久久久| 国产成人久视频免费| a级毛片免费看| 国产欧美视频一区二区三区| 播五月综合| 99精品视频在线观看免费播放| 国产小视频a在线观看| 国产91av在线| 久久国产高清视频| 欧美性色综合网| 国产高清国内精品福利| 久久婷婷综合色一区二区| 国产高潮视频在线观看| 国产成年无码AⅤ片在线| 色综合a怡红院怡红院首页| 久久大香香蕉国产免费网站| 青草视频免费在线观看| 久久久久久高潮白浆| 天堂亚洲网| 欧美日本在线| Jizz国产色系免费| 亚洲精品无码日韩国产不卡| 欧美α片免费观看| 在线欧美日韩| 中文字幕一区二区人妻电影| 亚洲精品无码高潮喷水A| 99热这里只有精品在线观看| 中文字幕一区二区视频| 国产乱视频网站| 爱做久久久久久| 亚洲欧美日韩中文字幕一区二区三区| 精品国产中文一级毛片在线看| 亚洲黄网在线| 免费看黄片一区二区三区| 亚洲欧美另类色图| 日本一区二区三区精品国产| 久久精品女人天堂aaa| 在线观看亚洲人成网站| 三上悠亚一区二区| 欧美在线综合视频| 天天婬欲婬香婬色婬视频播放| 精品三级网站| 国产日本一区二区三区| 亚洲第一成年人网站| 国产精品久久久久久久久kt| 亚洲av无码人妻| 日本道综合一本久久久88| 六月婷婷精品视频在线观看| 亚洲精品在线观看91| 国产香蕉97碰碰视频VA碰碰看| 久久一本精品久久久ー99| a级免费视频| 中日无码在线观看| 91在线播放免费不卡无毒| 久热这里只有精品6| 亚洲成人播放| 潮喷在线无码白浆| 国产午夜福利亚洲第一| 日本亚洲欧美在线| 一本大道香蕉中文日本不卡高清二区 | 成人一级免费视频|