





摘要:結合大數據系統的一般結構,介紹和對比了當前大數據領域在文件存儲、數據處理和數據庫領域的關鍵技術。通過各種技術的對比,得到了一些分析結果。分析結果表明大數據系統的解決方案必將落地于現有的云計算平臺;云計算平臺的分布式文件系統、分布式運算模式和分布式數據庫管理技術是解決大數據問題的基礎;一些大的依靠數據盈利的大公司必然會是大數據應用的主體。
關鍵詞:大數據;分布式文件系統;分布式數據庫;MapReduce技術
Abstract:In this paper, we discuss the general structure of a big-data system as well as key technologies in big-data storage, processing, and database. We compare these technologies in order find problems in the big-data system and propose solutions that will be used in the cloud computing platform. We propose distributed file system, computing model, and database management to solve problems associated with big data. Big companies that profit from big data will be the main users of big-data applications.
Key words: big data; distributed file system; distributed database; MapReduce
中圖分類號:TN915.03; TP393.03 文獻標志碼:A 文章編號:1009-6868 (2013) 04-0017-005
21世紀,世界已經進入數據大爆炸的時代,大數據時代已經來臨。從商業公司內部的各種管理和運營數據,到個人移動終端與消費電子產品的社會化數據,再到互聯網產生的海量信息數據等,每天世界上產生的信息量正在飛速增長。2009年數據信息量達到8 000億GB,而到2011年達到1.8 ZB[1]。圖靈獎獲得者Jim Gray提出的“新摩爾定律”:“每18個月全球新增信息量是計算機有史以來全部信息量的總和”,已經得到驗證。
大數據的“大”不僅僅體現在數據的海量性,還在于其數據類型的復雜性。隨著報表、賬單、影像、辦公文檔等在商業公司中得到普遍使用,互聯網上視頻、音樂、網絡游戲不斷發展,越來越多的非結構化數據進一步推動數字宇宙爆炸。數據海量而復雜,這是對大數據的詮釋。與傳統的數據相比,大數據具有規模性(Volume)、多樣性(Variety)、高速性(Velocity)和低價值密度(Value)的4V特點[2]。規模性和高速性是數據……