季 偉,張海洋
(1.安徽新聞出版職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)中心,安徽 合肥 230601;2宿州學(xué)院 辦公室,安徽 宿州 234000)
IT領(lǐng)域從來不缺乏新概念,當(dāng)云計(jì)算,物聯(lián)網(wǎng)等方興未艾之時(shí),大數(shù)據(jù)概念又被業(yè)界提出來.實(shí)際上,大數(shù)據(jù)概念的提出是比較早的,早在1980年托夫勒的《第三次浪潮》中就有所提及,只是當(dāng)時(shí)影響較小,沒有引起業(yè)界的廣泛關(guān)注.2008年《Nature》推出了 Big Data專利[1].2011年《Science》推出了“Dealing with Data”[2],著重研究大數(shù)據(jù)在科學(xué)研究中的重要性.到后來,美國(guó)的一些專家、機(jī)構(gòu)對(duì)大數(shù)據(jù)進(jìn)行了一系列的研究,詳細(xì)的研究了大數(shù)據(jù)的產(chǎn)生,核心技術(shù),應(yīng)用領(lǐng)域等關(guān)鍵問題,并分析了大數(shù)據(jù)可能產(chǎn)生的影響,以及未來大數(shù)據(jù)所可能面臨的挑戰(zhàn).以至于在2012年3月,美國(guó)奧巴馬政府發(fā)布了“大數(shù)據(jù)發(fā)展計(jì)劃”,旨在提高人們從海量和復(fù)雜的數(shù)據(jù)中獲取知識(shí)的能力,發(fā)展收集、存儲(chǔ)、管理、分析和共享海量數(shù)據(jù)所需的技術(shù).這是繼1993年美國(guó)政府“信息高速公路計(jì)劃”后在國(guó)家戰(zhàn)略層面上的又一項(xiàng)重大舉措[3].
從數(shù)據(jù)量或者說從數(shù)據(jù)來源來看,之所以產(chǎn)生如此規(guī)模巨大的數(shù)據(jù):一是現(xiàn)代科技的發(fā)展使得事物基本上都能夠數(shù)字化,因此產(chǎn)生了巨大的諸如文字、圖片、音頻、視頻等數(shù)據(jù);二是計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,尤其是現(xiàn)代移動(dòng)通訊和物聯(lián)網(wǎng)的迅猛發(fā)展產(chǎn)生了大量數(shù)據(jù),如全球最大的網(wǎng)絡(luò)—互聯(lián)網(wǎng),無時(shí)無刻不在產(chǎn)生新的數(shù)據(jù),又如無線傳感器,始終在產(chǎn)生新的數(shù)據(jù),這些都是導(dǎo)致數(shù)據(jù)量成倍的增長(zhǎng)重要原因.
從數(shù)據(jù)類型來看大數(shù)據(jù)主要包括三種數(shù)據(jù)類型:(1)結(jié)構(gòu)化數(shù)據(jù),一般是存儲(chǔ)在數(shù)據(jù)庫(kù)中(主要指關(guān)系數(shù)據(jù)庫(kù)),這也是我們平常在實(shí)際應(yīng)用中處理大量數(shù)據(jù)的基本方式.(2)半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)多見于Web上的信息.(3)非結(jié)構(gòu)化數(shù)據(jù),主要指圖像、音頻、視頻等數(shù)據(jù).
根國(guó)際數(shù)據(jù)咨詢公司(IDC)監(jiān)測(cè),2011年全球數(shù)據(jù)量已達(dá)到1.8ZB,預(yù)計(jì)到2020年,全球數(shù)據(jù)量將達(dá)到35ZB,其中非結(jié)構(gòu)化數(shù)據(jù)將占其中絕大部分.這種數(shù)據(jù)量激增勢(shì)必會(huì)打破依賴傳統(tǒng)軟件處理信息的能力,對(duì)于人們?nèi)绾螐娜绱司薮蟮臄?shù)據(jù)中獲取、存儲(chǔ)、處理、分析、共享和顯示數(shù)據(jù)來說,這無疑是一項(xiàng)巨大的挑戰(zhàn),大數(shù)據(jù)的研究顯得尤為必要.
大數(shù)據(jù)的概念較抽象,目前為止,尚未有一個(gè)統(tǒng)一定義.一般意義上,大數(shù)據(jù)指無法在可容忍的時(shí)間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對(duì)其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合.世界著名IT咨詢公司Gartner給出的定義是:大數(shù)據(jù)指的是所涉及的資料規(guī)模巨大到無法通過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營(yíng)決策目的的資訊.
關(guān)于大數(shù)據(jù)的定義,還有很多其他研究機(jī)構(gòu)或者學(xué)者給出的定義,但不論是哪種定義,大數(shù)據(jù)的概念結(jié)合大數(shù)據(jù)的特征來描述可能更準(zhǔn)確些.
關(guān)于大數(shù)據(jù)的特征,目前普遍比較公認(rèn)的是4V定義[4],即規(guī)模性,多樣性,高速性和價(jià)值性.

表1 大數(shù)據(jù)的特征
大數(shù)據(jù)研究中具有普遍的關(guān)聯(lián)關(guān)系和因果關(guān)系[5],因此,大數(shù)據(jù)中隱含著巨大的科研信息和商業(yè)價(jià)值,若能有效的組織和使用這些數(shù)據(jù)信息,勢(shì)必會(huì)產(chǎn)生巨大的效益.目前,除了一些商業(yè)化的大數(shù)據(jù)處理方案外,還有一些開源項(xiàng)目,如Hadoop(由HDFS和MapReduce組成)就是一個(gè)典型的分布式計(jì)算平臺(tái),在這個(gè)平臺(tái)上可編寫分布式并行程序,從而在計(jì)算機(jī)集群上完成海量數(shù)據(jù)計(jì)算.
大數(shù)據(jù)與云計(jì)算概念不同,但卻具有很多相似之處,大數(shù)據(jù)用到了云計(jì)算的核心技術(shù),如MapReduce并行處理技術(shù),海量數(shù)據(jù)存儲(chǔ)技術(shù)等.實(shí)際上云計(jì)算為大數(shù)據(jù)提供了基礎(chǔ)平臺(tái)和支撐技術(shù),他們之間是工具和用途的關(guān)系,相當(dāng)于云計(jì)算技術(shù)為大數(shù)據(jù)提供了基本架構(gòu)平臺(tái),大數(shù)據(jù)以分布式方式應(yīng)用在這個(gè)基本架構(gòu)平臺(tái)上.大數(shù)據(jù)側(cè)重于計(jì)算對(duì)象而云計(jì)算則更加側(cè)重于計(jì)算能力,兩者相輔相成.
大數(shù)據(jù)涵蓋了各種技術(shù),包括異構(gòu)數(shù)據(jù)融合、分布式技術(shù)、NoSQL數(shù)據(jù)庫(kù)技術(shù)、數(shù)據(jù)挖掘和可視化技術(shù)等.一個(gè)典型的大數(shù)據(jù)處理系統(tǒng)體系架構(gòu)如下圖所示.

圖1 大數(shù)據(jù)系統(tǒng)結(jié)構(gòu)
關(guān)鍵部分解釋如下:
(1)獲取數(shù)據(jù).對(duì)大數(shù)據(jù)來說,數(shù)據(jù)規(guī)模并不是越大越好,因?yàn)榇髷?shù)據(jù)中可能含有一些錯(cuò)誤信息,這些錯(cuò)誤信息如果不加以約束,就可能導(dǎo)致后續(xù)的分析過程完全錯(cuò)誤.因此在獲取數(shù)據(jù)前,要盡可能保證數(shù)據(jù)的正確性,盡可能詳盡的描述數(shù)據(jù).
(2)數(shù)據(jù)處理.大量數(shù)據(jù)在被處理的時(shí)候,考慮到數(shù)據(jù)的時(shí)效性,因此要具備實(shí)時(shí)處理數(shù)據(jù)的能力.實(shí)時(shí)獲取數(shù)據(jù)難度并不大,但因數(shù)據(jù)處理是數(shù)據(jù)分析的基礎(chǔ),導(dǎo)致數(shù)據(jù)的實(shí)時(shí)處理能力是大數(shù)據(jù)系統(tǒng)的關(guān)鍵,處理不好就可能成為系統(tǒng)的瓶頸.
(3)數(shù)據(jù)分析.大量的數(shù)據(jù)本身并沒有多大實(shí)際意義,正是有了針對(duì)性的分析數(shù)據(jù),才使得這些數(shù)據(jù)發(fā)揮特定的作用.對(duì)于數(shù)據(jù)的分析,我們可以結(jié)合數(shù)據(jù)挖掘相關(guān)知識(shí)來進(jìn)行.
(4)數(shù)據(jù)顯示.大數(shù)據(jù)數(shù)據(jù)類型多樣,可采用動(dòng)作捕捉技術(shù)獲取用戶動(dòng)作,將用戶和數(shù)據(jù)融合在一起,直接使用戶與結(jié)果交互.摒棄了傳統(tǒng)技術(shù)方法顯示難以達(dá)到預(yù)期效果的弊端.
大數(shù)據(jù)是基于云計(jì)算技術(shù)的,也就是說大數(shù)據(jù)需要將分布在各地的數(shù)據(jù)進(jìn)行集成,但這些分散在各地的數(shù)據(jù)具有異構(gòu)性,主要由結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)或者是其中幾種的融合,這就造成了數(shù)據(jù)集成的困難.
大數(shù)據(jù)都是要存儲(chǔ)在實(shí)際載體上,不同的載體實(shí)際上就是不同的硬件環(huán)境,盡管目前硬件技術(shù)較過去有了很大的進(jìn)步,但各廠家在不同時(shí)期生產(chǎn)出來的硬件還是有區(qū)別的,不同品牌的硬件差異更大.導(dǎo)致集成過程中由于硬件的異構(gòu)性,大大降低數(shù)據(jù)的處理效率,特別是對(duì)大規(guī)模數(shù)據(jù)來說,這種差異化帶來的效果將是不能忽視的.
在大數(shù)據(jù)環(huán)境下,傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)已不能滿足存儲(chǔ)需求.采用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)在設(shè)計(jì)上往往是無法實(shí)現(xiàn)的,大部分關(guān)系數(shù)據(jù)庫(kù)不支持分布式存儲(chǔ),而海量數(shù)據(jù)的分布式存儲(chǔ)正是大數(shù)據(jù)的特點(diǎn)之一,這就產(chǎn)生了矛盾.當(dāng)前應(yīng)用系統(tǒng)逐漸使用NoSQL來解決大數(shù)據(jù)此類問題,放棄了對(duì)傳統(tǒng)關(guān)系操作的支持,作為大數(shù)據(jù)存儲(chǔ)的一種解決方案.
傳統(tǒng)的針對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行的數(shù)據(jù)分析,已經(jīng)形成了一套行之有效的分析體系.大數(shù)據(jù)中數(shù)據(jù)處理對(duì)象具有明顯的差異化,因此傳統(tǒng)的數(shù)據(jù)分析技術(shù)難以勝任.傳統(tǒng)數(shù)據(jù)分析針對(duì)的處理方式較多.大數(shù)據(jù)時(shí)代,數(shù)據(jù)的時(shí)效性增強(qiáng),如果還停留在批處理技術(shù)階段則會(huì)導(dǎo)致數(shù)據(jù)“貶值”,因此需要實(shí)時(shí)分析數(shù)據(jù),一般是采用流處理技術(shù),也可將流處理技術(shù)和批處理技術(shù)相結(jié)合.
信息安全問題一直是伴隨著信息傳播發(fā)展起來的.大數(shù)據(jù)時(shí)代,信息呈爆炸式增長(zhǎng),隱私問題凸顯.單個(gè)的信息可能并不具有明顯價(jià)值性,但如果通過某些手段,把單個(gè)信息累積并關(guān)聯(lián)起來,那么這些聚集起來的信息就可能具有一定的威脅性.相反,如果為了保護(hù)數(shù)據(jù)隱私將數(shù)據(jù)進(jìn)行隱藏,那么又將無法體現(xiàn)數(shù)據(jù)的價(jià)值.
數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng),促使大數(shù)據(jù)時(shí)代到來,正確利用大數(shù)據(jù),會(huì)給人們帶來極大益處,但與此同時(shí)也會(huì)給傳統(tǒng)的數(shù)據(jù)管理模式帶來極大的挑戰(zhàn).文章從大數(shù)據(jù)的概念、特征和應(yīng)用為出發(fā)點(diǎn),研究了大數(shù)據(jù)的一些核心問題和大數(shù)據(jù)可能面臨的挑戰(zhàn).目前對(duì)大數(shù)據(jù)的研究還不夠成熟,或多或少還面臨著一些難題,相信未來更加成熟的大數(shù)據(jù)定會(huì)給人們帶來革命性的改變.
〔1〕Nature.Big Data [EB/OL]. [2012-10-02].http://www.nature.com/new s/specials/big data/index.htm l.
〔2〕Science.Special online collection:Dealing w ith data[EB/OL].[2012-10-02].http://www.sciencemag.org/site/special/data/,2011.
〔3〕孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展.2013,50(1):146-169.
〔4〕Barw ich H.The “four Vs” of Big Data.Implementing Information Infrastructure Symposium [EB/OL].[2012-10-02].http://www.computerworld.com.au/article/39619 8/iiis_four_vs_big_data/.
〔5〕李國(guó)杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考.戰(zhàn)略與決策研究[J].中國(guó)科學(xué)院院刊,2012.11.12.