云計算\\大數(shù)據(jù)與Hadoop

2011-12-31 00:00:00孫定

計算機世界 2011年37期

人們認(rèn)識到云將接收并處理前所未有的巨大數(shù)據(jù)量，分布式并行計算框架Hadoop也被越來越多的企業(yè)所應(yīng)用。

孫定 sun_ding@ccw.com.cn

美國奧巴馬總統(tǒng)委員會的科學(xué)技術(shù)顧問Stephen Brobst說：“過去3年里產(chǎn)生的數(shù)據(jù)量比以往4萬年的數(shù)據(jù)量還要多，大數(shù)據(jù)時代的來臨已經(jīng)毋庸置疑。我們即將面臨一場變革，常規(guī)技術(shù)已經(jīng)難以應(yīng)對PB級的大規(guī)模數(shù)據(jù)量。”Neol and Associates公司的著名分析師Mike Karp也指出，目前越來越多的企業(yè)采用Hadoop來存儲和分析大

數(shù)據(jù)。

美國《經(jīng)濟學(xué)人》2010年曾經(jīng)報道，沃爾瑪?shù)臄?shù)據(jù)量是美國國會圖書館的167倍；eBay的分析平臺每天處理的數(shù)據(jù)量高達100PB，超過納斯達克交易所每天的數(shù)據(jù)處理量。根據(jù)IDC數(shù)據(jù)，到2020年，電子數(shù)據(jù)存儲量將在2009年的基礎(chǔ)上增加44倍，達到35萬億GB；截止到2010年，電子數(shù)據(jù)存儲量已經(jīng)達到了120萬 PB，或1.2ZB。非結(jié)構(gòu)化信息如文件、電子郵件和視頻，將占未來10年新生數(shù)據(jù)的90%。Gartner也指出，傳統(tǒng)數(shù)據(jù)庫在數(shù)據(jù)增長如此迅猛的當(dāng)下遠不能勝任。

Hadoop分布式并行計算框架，是Apache的開源項目，已有7年的歷史。Hadoop的核心是HDFS（分布式文件系統(tǒng)）和MapReduce（映射與歸約）計算模型，MapReduce的思想來自于谷歌2004年發(fā)表的一篇論文。

HDFS分布式文件系統(tǒng)將一組數(shù)據(jù)分發(fā)給不同的機器并且提供冗余處理。比如，可以對每一個數(shù)據(jù)在3個不同的節(jié)點上進行復(fù)制，一旦一個數(shù)據(jù)所在節(jié)點出現(xiàn)問題，還有兩個其他節(jié)點的相同的數(shù)據(jù)可以使用。MapReduce計算模型中的Map將一個任務(wù)分解為多個任務(wù)，產(chǎn)生特征數(shù)據(jù)，Reduce將多個執(zhí)行結(jié)果匯總得到最終結(jié)果。

2008年7月，Hadoop打破1TB數(shù)據(jù)排序基準(zhǔn)測試紀(jì)錄。Yahoo!的一個Hadoop集群用209秒完成1TB數(shù)據(jù)排序，比上一年的紀(jì)錄保持者快了將90秒。2009年5月，進一步將時間縮短到62秒。2007年，百度開始部署Hadoop用做日志處理。2008年，淘寶部署基于Hadoop的云梯。云梯的總?cè)萘看蟾艦?.3PB，1100臺機器，每天處理約18000道作業(yè)，掃描500TB數(shù)據(jù)。Facebook、Linkedin、Amazon、EMC、eBay、Twitter、IBM、Microsoft、Apple、HP等都已是Hadoop的用戶。

在產(chǎn)業(yè)方面，IBM提供基于Hadoop的大數(shù)據(jù)分析軟件，推出了在Hadoop架構(gòu)上建立作為群集運行DB2或Oracle數(shù)據(jù)庫的集群系統(tǒng)，并提供Hadoop的部署與實施服務(wù)。EMC于2011年5月推出基于Hadoop數(shù)據(jù)中心設(shè)備——GreenPlum HD。2008年，微軟收購Powerset，并將Powerset基于Hadoop的技術(shù)應(yīng)用于搜索引擎bing搜索引擎。

Ventana Research公司分析師David Menninger認(rèn)為，企業(yè)將顯著提升對于開源軟件Hadoop框架的興趣，未來將有更多的供應(yīng)商和更多的生產(chǎn)商加入Hadoop行列。

由此，我們就可以看出這樣一個脈絡(luò)：云計算必須支持大數(shù)據(jù)，面向大數(shù)據(jù)處理的新一代技術(shù)Hadoop已經(jīng)浮出水面并日趨流行。

計算機世界2011年37期

計算機世界的其它文章: 愛立信積極發(fā)力TD-LTE; 搜狗地圖:用“開放”搶占終端; 社交商務(wù)將在移動中普及; 中鐵三局建“省心”數(shù)據(jù)中心; 中國軟件業(yè)前10月收入1.5萬億元; 云手機爭上游