





摘要:結(jié)合大數(shù)據(jù)系統(tǒng)的一般結(jié)構(gòu),介紹和對比了當(dāng)前大數(shù)據(jù)領(lǐng)域在文件存儲、數(shù)據(jù)處理和數(shù)據(jù)庫領(lǐng)域的關(guān)鍵技術(shù)。通過各種技術(shù)的對比,得到了一些分析結(jié)果。分析結(jié)果表明大數(shù)據(jù)系統(tǒng)的解決方案必將落地于現(xiàn)有的云計算平臺;云計算平臺的分布式文件系統(tǒng)、分布式運(yùn)算模式和分布式數(shù)據(jù)庫管理技術(shù)是解決大數(shù)據(jù)問題的基礎(chǔ);一些大的依靠數(shù)據(jù)盈利的大公司必然會是大數(shù)據(jù)應(yīng)用的主體。
關(guān)鍵詞:大數(shù)據(jù);分布式文件系統(tǒng);分布式數(shù)據(jù)庫;MapReduce技術(shù)
Abstract:In this paper, we discuss the general structure of a big-data system as well as key technologies in big-data storage, processing, and database. We compare these technologies in order find problems in the big-data system and propose solutions that will be used in the cloud computing platform. We propose distributed file system, computing model, and database management to solve problems associated with big data. Big companies that profit from big data will be the main users of big-data applications.
Key words: big data; distributed file system; distributed database; MapReduce
中圖分類號:TN915.03; TP393.03 文獻(xiàn)標(biāo)志碼:A 文章編號:1009-6868 (2013) 04-0017-005
21世紀(jì),世界已經(jīng)進(jìn)入數(shù)據(jù)大爆炸的時代,大數(shù)據(jù)時代已經(jīng)來臨。從商業(yè)公司內(nèi)部的各種管理和運(yùn)營數(shù)據(jù),到個人移動終端與消費(fèi)電子產(chǎn)品的社會化數(shù)據(jù),再到互聯(lián)網(wǎng)產(chǎn)生的海量信息數(shù)據(jù)等,每天世界上產(chǎn)生的信息量正在飛速增長。2009年數(shù)據(jù)信息量達(dá)到8 000億GB,而到2011年達(dá)到1.8 ZB[1]。圖靈獎獲得者Jim Gray提出的“新摩爾定律”:“每18個月全球新增信息量是計算機(jī)有史以來全部信息量的總和”,已經(jīng)得到驗(yàn)證。
大數(shù)據(jù)的“大”不僅僅體現(xiàn)在數(shù)據(jù)的海量性,還在于其數(shù)據(jù)類型的復(fù)雜性。隨著報表、賬單、影像、辦公文檔等在商業(yè)公司中得到普遍使用,互聯(lián)網(wǎng)上視頻、音樂、網(wǎng)絡(luò)游戲不斷發(fā)展,越來越多的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)一步推動數(shù)字宇宙爆炸。數(shù)據(jù)海量而復(fù)雜,這是對大數(shù)據(jù)的詮釋。與傳統(tǒng)的數(shù)據(jù)相比,大數(shù)據(jù)具有規(guī)模性(Volume)、多樣性(Variety)、高速性(Velocity)和低價值密度(Value)的4V特點(diǎn)[2]。規(guī)模性和高速性是數(shù)據(jù)……