人們認識到云將接收并處理前所未有的巨大數據量,分布式并行計算框架Hadoop也被越來越多的企業所應用。
孫定 sun_ding@ccw.com.cn
美國奧巴馬總統委員會的科學技術顧問Stephen Brobst說:“過去3年里產生的數據量比以往4萬年的數據量還要多,大數據時代的來臨已經毋庸置疑。我們即將面臨一場變革,常規技術已經難以應對PB級的大規模數據量。”Neol and Associates公司的著名分析師Mike Karp也指出,目前越來越多的企業采用Hadoop來存儲和分析大
數據。
美國《經濟學人》2010年曾經報道,沃爾瑪的數據量是美國國會圖書館的167倍;eBay的分析平臺每天處理的數據量高達100PB,超過納斯達克交易所每天的數據處理量。根據IDC數據,到2020年,電子數據存儲量將在2009年的基礎上增加44倍,達到35萬億GB;截止到2010年,電子數據存儲量已經達到了120萬 PB,或1.2ZB。非結構化信息如文件、電子郵件和視頻,將占未來10年新生數據的90%。Gartner也指出,傳統數據庫在數據增長如此迅猛的當下遠不能勝任。
Hadoop分布式并行計算框架,是Apache的開源項目,已有7年的歷史。Hadoop的核心是HDFS(分布式文件系統)和MapReduce(映射與歸約)計算模型,MapReduce的思想來自于谷歌2004年發表的一篇論文。
HDFS分布式文件系統將一組數據分發給不同的機器并且提供冗余處理。比如,可以對每一個數據在3個不同的節點上進行復制,一旦一個數據所在節點出現問題,還有兩個其他節點的相同的數據可以使用。MapReduce計算模型中的Map將一個任務分解為多個任務,產生特征數據,Reduce將多個執行結果匯總得到最終結果。
2008年7月,Hadoop打破1TB數據排序基準測試紀錄。Yahoo!的一個Hadoop集群用209秒完成1TB數據排序 ,比上一年的紀錄保持者快了將90秒。2009年5月,進一步將時間縮短到62秒。2007年,百度開始部署Hadoop用做日志處理。2008年,淘寶部署基于Hadoop的云梯。云梯的總容量大概為9.3PB,1100臺機器,每天處理約18000道作業,掃描500TB數據。Facebook、Linkedin、Amazon、EMC、eBay、Twitter、IBM、Microsoft、Apple、HP等都已是Hadoop的用戶。
在產業方面,IBM提供基于Hadoop的大數據分析軟件,推出了在Hadoop架構上建立作為群集運行DB2或Oracle數據庫的集群系統,并提供Hadoop的部署與實施服務。EMC于2011年5月推出基于Hadoop數據中心設備——GreenPlum HD。2008年,微軟收購Powerset,并將Powerset基于Hadoop的技術應用于搜索引擎bing搜索引擎。
Ventana Research公司分析師David Menninger認為,企業將顯著提升對于開源軟件Hadoop框架的興趣,未來將有更多的供應商和更多的生產商加入Hadoop行列。
由此,我們就可以看出這樣一個脈絡:云計算必須支持大數據,面向大數據處理的新一代技術Hadoop已經浮出水面并日趨流行。