人們認(rèn)識到云將接收并處理前所未有的巨大數(shù)據(jù)量,分布式并行計算框架Hadoop也被越來越多的企業(yè)所應(yīng)用。
孫定 sun_ding@ccw.com.cn
美國奧巴馬總統(tǒng)委員會的科學(xué)技術(shù)顧問Stephen Brobst說:“過去3年里產(chǎn)生的數(shù)據(jù)量比以往4萬年的數(shù)據(jù)量還要多,大數(shù)據(jù)時代的來臨已經(jīng)毋庸置疑。我們即將面臨一場變革,常規(guī)技術(shù)已經(jīng)難以應(yīng)對PB級的大規(guī)模數(shù)據(jù)量。”Neol and Associates公司的著名分析師Mike Karp也指出,目前越來越多的企業(yè)采用Hadoop來存儲和分析大
數(shù)據(jù)。
美國《經(jīng)濟學(xué)人》2010年曾經(jīng)報道,沃爾瑪?shù)臄?shù)據(jù)量是美國國會圖書館的167倍;eBay的分析平臺每天處理的數(shù)據(jù)量高達100PB,超過納斯達克交易所每天的數(shù)據(jù)處理量。根據(jù)IDC數(shù)據(jù),到2020年,電子數(shù)據(jù)存儲量將在2009年的基礎(chǔ)上增加44倍,達到35萬億GB;截止到2010年,電子數(shù)據(jù)存儲量已經(jīng)達到了120萬 PB,或1.2ZB。非結(jié)構(gòu)化信息如文件、電子郵件和視頻,將占未來10年新生數(shù)據(jù)的90%。Gartner也指出,傳統(tǒng)數(shù)據(jù)庫在數(shù)據(jù)增長如此迅猛的當(dāng)下遠不能勝任。
Hadoop分布式并行計算框架,是Apache的開源項目,已有7年的歷史。Hadoop的核心是HDFS(分布式文件系統(tǒng))和MapReduce(映射與歸約)計算模型,MapReduce的思想來自于谷歌2004年發(fā)表的一篇論文。
HDFS分布式文件系統(tǒng)將一組數(shù)據(jù)分發(fā)給不同的機器并且提供冗余處理。比如,可以對每一個數(shù)據(jù)在3個不同的節(jié)點上進行復(fù)制,一旦一個數(shù)據(jù)所在節(jié)點出現(xiàn)問題,還有兩個其他節(jié)點的相同的數(shù)據(jù)可以使用。MapReduce計算模型中的Map將一個任務(wù)分解為多個任務(wù),產(chǎn)生特征數(shù)據(jù),Reduce將多個執(zhí)行結(jié)果匯總得到最終結(jié)果。
2008年7月,Hadoop打破1TB數(shù)據(jù)排序基準(zhǔn)測試紀(jì)錄。Yahoo!的一個Hadoop集群用209秒完成1TB數(shù)據(jù)排序 ,比上一年的紀(jì)錄保持者快了將90秒。2009年5月,進一步將時間縮短到62秒。2007年,百度開始部署Hadoop用做日志處理。2008年,淘寶部署基于Hadoop的云梯。云梯的總?cè)萘看蟾艦?.3PB,1100臺機器,每天處理約18000道作業(yè),掃描500TB數(shù)據(jù)。Facebook、Linkedin、Amazon、EMC、eBay、Twitter、IBM、Microsoft、Apple、HP等都已是Hadoop的用戶。
在產(chǎn)業(yè)方面,IBM提供基于Hadoop的大數(shù)據(jù)分析軟件,推出了在Hadoop架構(gòu)上建立作為群集運行DB2或Oracle數(shù)據(jù)庫的集群系統(tǒng),并提供Hadoop的部署與實施服務(wù)。EMC于2011年5月推出基于Hadoop數(shù)據(jù)中心設(shè)備——GreenPlum HD。2008年,微軟收購Powerset,并將Powerset基于Hadoop的技術(shù)應(yīng)用于搜索引擎bing搜索引擎。
Ventana Research公司分析師David Menninger認(rèn)為,企業(yè)將顯著提升對于開源軟件Hadoop框架的興趣,未來將有更多的供應(yīng)商和更多的生產(chǎn)商加入Hadoop行列。
由此,我們就可以看出這樣一個脈絡(luò):云計算必須支持大數(shù)據(jù),面向大數(shù)據(jù)處理的新一代技術(shù)Hadoop已經(jīng)浮出水面并日趨流行。