隨著云計算、物聯(lián)網(wǎng)、互聯(lián)網(wǎng)的高速發(fā)展,大數(shù)據(jù)(Big Data)吸引了眾多眼球,成為近幾年社會發(fā)展的焦點。本文首先從大數(shù)據(jù)的概念入手,接著闡述了大數(shù)據(jù)的時代背景,然后對傳統(tǒng)數(shù)據(jù)庫與大數(shù)據(jù)進行了比較,進而剖析了大數(shù)據(jù)的代表技術(shù)及應(yīng)用研究。旨在了解大數(shù)據(jù)當(dāng)前發(fā)展?fàn)顩r,為以后進行大數(shù)據(jù)分析與處理提供參考。
一、大數(shù)據(jù)概念
大數(shù)據(jù)的4個“V”:Volume,數(shù)據(jù)體量巨大,從TB級別,躍升到PB級別;Variety,數(shù)據(jù)類型繁多;Veracity,數(shù)據(jù)的準(zhǔn)確性和真實性;Velocity處理速度快。
廣義上來說大數(shù)據(jù)已經(jīng)不再局限于技術(shù)領(lǐng)域。如今,大數(shù)據(jù)除了為應(yīng)對長期存在的業(yè)務(wù)挑戰(zhàn)提供解決方案之外,還為流程、組織、整個行業(yè)、甚至社會本身的轉(zhuǎn)型激發(fā)了許多新的方式。狹義上來說大數(shù)據(jù)泛指數(shù)據(jù)集的大小,產(chǎn)生的速度和數(shù)據(jù)類型超過了通常的數(shù)據(jù)庫,數(shù)據(jù)管理軟件在限定的時間范圍內(nèi)所能獲取,存儲,管理和分析的范疇。
二、大數(shù)據(jù)的時代背景
2008年9月,《NATURE》雜志推出了名為“SPECIALS: Big Data”的專欄;12月,計算機社區(qū)聯(lián)盟發(fā)布《Big Data Computing: Creating Revolutionary Breakthroughs in Commerce, Science, and Society》這個報告,闡述了在數(shù)據(jù)驅(qū)動背景下解決大數(shù)據(jù)問題所需的技術(shù)以及面臨的一些挑戰(zhàn)。EMC 公司于2011年舉辦的EMC World大會上提出當(dāng)年的主題是“云計算相遇大數(shù)據(jù)”;2012年5月,聯(lián)合國對外發(fā)布了《Big Data for Development: Challenges and Opportunities》白皮書,探討如何利用互聯(lián)網(wǎng)產(chǎn)生的大數(shù)據(jù)推動全球發(fā)展。
三、傳統(tǒng)數(shù)據(jù)庫與大數(shù)據(jù)的比較
傳統(tǒng)的數(shù)據(jù)庫存儲數(shù)據(jù)采用的都是結(jié)構(gòu)化,在過去的很長一段時間中,關(guān)系型數(shù)據(jù)庫(RDMS)一直是最主流的數(shù)據(jù)庫解決方案,他運用真實世界中事物與關(guān)系來解釋數(shù)據(jù)庫中抽象的數(shù)據(jù)架構(gòu)。使用的數(shù)據(jù)庫系統(tǒng)有Oracle、MySQL、DB2、SQL Server等。
然而,在信息技術(shù)爆炸式發(fā)展的今天,大數(shù)據(jù)已經(jīng)成為了繼云計算、物聯(lián)網(wǎng)后新的技術(shù)革命,關(guān)系型數(shù)據(jù)庫在處理大數(shù)據(jù)量時已經(jīng)開始吃力,開發(fā)者只能通過不斷地優(yōu)化數(shù)據(jù)庫來解決數(shù)據(jù)量的問題,但優(yōu)化畢竟不是一個長期方案,所以人們提出了一種新的數(shù)據(jù)庫解決方案來迎接大數(shù)據(jù)時代的到來——NoSQL。處理非關(guān)系型數(shù)據(jù)使用的數(shù)據(jù)庫管理系統(tǒng)最多的是MongoDB,MongoDB盡可能精簡數(shù)據(jù)庫,將盡可能多的操作交給客戶端。
四、大數(shù)據(jù)的代表技術(shù)
(一)Hadoop
Hadoop它來源于Google的一個編程模型包,目前,已經(jīng)有很多公司開始提供基于Hadoop的培訓(xùn)、服務(wù),它有高可靠性、高擴展性、高效性、高容錯率、低成本等優(yōu)點,所以用戶可以輕松在在Hadoop上編寫程序。
(二)NoSQL
隨著互聯(lián)網(wǎng)的發(fā)展,傳統(tǒng)的關(guān)系數(shù)據(jù)庫已經(jīng)無法滿足非結(jié)構(gòu)化大數(shù)據(jù)的存儲和處理,顯得力不從心,NoSQL數(shù)據(jù)庫就是為了解決非結(jié)構(gòu)化大數(shù)據(jù)帶來的種種挑戰(zhàn),是一項全新的數(shù)據(jù)庫革命。
(三)Streaming
Streaming是一種流動傳動數(shù)據(jù)技術(shù),即客戶機接收的數(shù)據(jù)變成流,源源不斷,客戶機看到的圖片不受任何影響,完全可以在整個文件傳送完之前瀏覽屏幕上的文件。
五、大數(shù)據(jù)的應(yīng)用研究
(一)大數(shù)據(jù)的采集
采集的結(jié)構(gòu)化數(shù)據(jù)包括生產(chǎn)報表、經(jīng)營報表等具有關(guān)系特征的數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù),主要包括網(wǎng)頁( HTML)、格式文檔(Word、PDF)、文本文件(Text)等文字性資料。這些數(shù)據(jù)目前可以通過關(guān)系數(shù)據(jù)庫和專用的數(shù)據(jù)挖掘軟件進行挖掘采集。特別是非結(jié)構(gòu)化數(shù)據(jù),如DSM相關(guān)的各種動態(tài)等信息對DSM分析研究十分重要,綜合運用定點采集等搜索技術(shù)。
(二)大數(shù)據(jù)的導(dǎo)入
將這些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫或者分布式存儲集群,并且做一些簡單的清洗和預(yù)處理工作,也可以使用Storm技術(shù)來對數(shù)據(jù)進行流式計算。導(dǎo)入和預(yù)處理過程的特點和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會達(dá)到百兆,甚至千兆級別。
(三)大數(shù)據(jù)的存儲與管理
隨著數(shù)字圖書館、電子商務(wù)、多媒體傳輸?shù)炔粩喟l(fā)展,數(shù)據(jù)從GB、TB到PB量級海量急速增長。存儲設(shè)備不僅僅局限于單一的控制界面,同時,也對數(shù)據(jù)的精簡提出了要求。根據(jù)這些衍生的問題,重復(fù)數(shù)據(jù)刪除和自動精簡配置這兩項技術(shù)呼之欲出。針對海量數(shù)據(jù)存儲,目前主要開展了虛擬存儲技術(shù)、高性能I/O、網(wǎng)格存儲系統(tǒng)等這些方面的研究。
(四)大數(shù)據(jù)的應(yīng)用實例
最經(jīng)典的大數(shù)據(jù)應(yīng)用實例當(dāng)屬名為 “Google流感趨勢” 的工具;比如廣東移動基于數(shù)據(jù)挖掘的數(shù)據(jù)業(yè)務(wù)精確營銷,增加了數(shù)據(jù)業(yè)務(wù)收入,有力地促進了業(yè)務(wù)收入KPI指標(biāo)的完成,促進了彩信、手機等業(yè)務(wù)的用戶增長,降低了彩鈴客戶的流失率,為重點業(yè)務(wù)用戶數(shù)的KPI指標(biāo)完成做出重要貢獻(xiàn);洛杉磯警察局和加利福尼亞大學(xué)合作利用大數(shù)據(jù)預(yù)測犯罪的發(fā)生。
六、結(jié)語
大數(shù)據(jù)給人們帶來了便利,同時也給了人們一種發(fā)掘數(shù)據(jù)的挑戰(zhàn)。馬云在2017世界物聯(lián)網(wǎng)無錫峰會上發(fā)言中說:“大數(shù)據(jù)是重要的生產(chǎn)資料,涵蓋兩個關(guān)鍵:大計算和云數(shù)據(jù),也就是強大的計算能力和從云端可取的大量數(shù)據(jù)。物聯(lián)網(wǎng)和云計算大數(shù)據(jù),合在一起才是真正的未來。” 麥肯錫預(yù)測未來中國大數(shù)據(jù)產(chǎn)品的潛在市場規(guī)模有望達(dá)到1.57萬億元,給IT行業(yè)開拓了一個新的黃金時代。(作者單位為鄭州財經(jīng)學(xué)院)