[摘要]繼云計算、物聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)后,大數(shù)據(jù)成為信息和互聯(lián)網(wǎng)行業(yè)的研究熱點。本文通過文獻調(diào)研法對大數(shù)據(jù)的概念和技術做了闡釋,并對其在各個行業(yè)的應用進行了簡單評價,以期對大數(shù)據(jù)的研究做出有益補充。
[關鍵詞]大數(shù)據(jù);信息技術;數(shù)據(jù)處理
[中圖分類號]TP274[文獻標識碼]A
20世紀中葉計算機的誕生標志著電子時代正式開始,從此人類社會開始生產(chǎn)并存儲各類型的數(shù)據(jù)。經(jīng)過數(shù)次計算機技術革命,單位面積所能存儲的數(shù)據(jù)量大大提高。近年來,由于WEB2.0應用的全面爆發(fā),網(wǎng)絡參與者同時也成了網(wǎng)絡信息的制造者,由WEB2.0帶來的大規(guī)模非結構化數(shù)據(jù)開始呈現(xiàn)出幾何增長。因此,麥肯錫公司在2011年的報告《Big Data:the Next Frontier for Innovation》[1]中,對這種密集型數(shù)據(jù)爆炸的現(xiàn)象成為“大數(shù)據(jù)”時代的到來。
1大數(shù)據(jù)的概念
大數(shù)據(jù)的概念并不是憑空出現(xiàn)的,它的前身是海量數(shù)據(jù)。但兩者之間有所區(qū)別。海量數(shù)據(jù)強調(diào)了數(shù)據(jù)量的規(guī)模之大,并沒有對其特性進行定義。而大數(shù)據(jù)的概念包含了大數(shù)據(jù)的體積、傳播速率、特征等內(nèi)容。雖然截至目前還沒有對大數(shù)據(jù)有統(tǒng)一的定義,但被廣泛接受的定義為:大數(shù)據(jù)是無法在一定時間內(nèi)用通常的軟件工具進行收集、分析、管理的大量數(shù)據(jù)的集合[2]。大數(shù)據(jù)的特點一般歸納為四點:一是數(shù)據(jù)總量大,目前大數(shù)據(jù)的最小單位一般被認為是10~20TB的量級;二是數(shù)據(jù)類型多,包括了結構化、非結構化和半結構化數(shù)據(jù);三是數(shù)據(jù)的價值密度很低;四是數(shù)據(jù)產(chǎn)生和處理的速度非常快。這四個特點又被稱作大數(shù)據(jù)的4 V理念,即:Volume,Variety,Value,Velocity[3]。
2大數(shù)據(jù)的技術
依據(jù)大數(shù)據(jù)生命周期的不同階段,可以將與大數(shù)據(jù)處理相關的技術分為相應的三個方面:
2.1大數(shù)據(jù)存儲
從海量數(shù)據(jù)時代開始,大規(guī)模數(shù)據(jù)的長期保存、數(shù)據(jù)遷移一直都是研究的重點。從20世紀90年代末至今,數(shù)據(jù)存儲始終是依據(jù)數(shù)據(jù)量大小的不斷變化和不斷優(yōu)化向前發(fā)展的。其中主要有:DAS(Direct Attached Storage),直接外掛存儲;NAS(Network Attached Storage),網(wǎng)絡附加存儲;SAN(Storage Area Network),存儲域網(wǎng)絡和SAN IP等存儲方式[4]。這幾種存儲方式雖然是不同時代的產(chǎn)物,但各自的優(yōu)缺點都十分鮮明,數(shù)據(jù)中心往往是根據(jù)自身的服務器數(shù)量和要處理的數(shù)據(jù)對象進行選擇。
此外,這兩年數(shù)據(jù)存儲的虛擬化從研究走向現(xiàn)實。所謂虛擬化,就是將原有的服務器進行軟件虛擬化,將其劃分為若干個獨立的服務空間,如此可以在一臺服務器上提供多種存儲服務,大大提高了存儲效率,節(jié)約存儲成本,是異構數(shù)據(jù)平臺的最佳選擇。從技術角度來講,虛擬化可以分為存儲虛擬化和網(wǎng)絡虛擬化,網(wǎng)絡虛擬化是存儲虛擬化的輔助,能夠大幅度提升數(shù)據(jù)中心的網(wǎng)絡利用率和傳輸速率。目前IBM、浪潮、思科等公司紛紛發(fā)力虛擬化市場,可以預見虛擬化會成為未來大數(shù)據(jù)存儲的一個主流技術。
2.2大數(shù)據(jù)挖掘
在大數(shù)據(jù)的處理技術中,超大規(guī)模的數(shù)據(jù)挖掘一直是難點,也是重點。面對上百TB,甚至PB級別的異構數(shù)據(jù),常規(guī)的處理工具往往難以擔當重任。需要考慮到的是大數(shù)據(jù)是個不斷生長的有機體,因此在挖掘過程中還要考慮到未來數(shù)據(jù)繼續(xù)增長所帶來的影響。
因此,大數(shù)據(jù)的挖掘需要采用分布式挖掘和云計算技術。Google公司一直是分布式挖掘技術的領導者,它研發(fā)了MapReduce分布式挖掘工具[5],英特爾公司在此基礎上開發(fā)了Hadoop分布式挖掘工具。這兩個工具都具有高效、高擴展、高可靠性和高容錯率的特點,并提供免費版本,適用于各種類型的大數(shù)據(jù)挖掘。
2.3大數(shù)據(jù)分析
從內(nèi)容來說,大數(shù)據(jù)的分析分為技術和方法兩種類型。從技術上講,主要是分布式的數(shù)據(jù)分析和非結構化數(shù)據(jù)處理等。從方法上講,主要是利用常用的數(shù)理統(tǒng)計方法來進行數(shù)據(jù)分析,例如使用可視化的數(shù)據(jù)分析工具。但兩者是一個有機的整體。大數(shù)據(jù)處理的最終目的是為了將數(shù)據(jù)之間的關系以可視化的方式呈現(xiàn)在用戶面前,包括了處理的全部過程和展現(xiàn)的過程。在數(shù)據(jù)分析過程中,不僅僅是需要計算機進行自動化的分析,更需要人工進行數(shù)據(jù)選擇和參數(shù)的設定,兩個是辯證的關系。
隨著大數(shù)據(jù)行業(yè)的興起,產(chǎn)生了一個新的職業(yè),被稱作數(shù)據(jù)科學,而從事該行業(yè)的人員被稱作數(shù)據(jù)科學家。這類科學家的一個特點就是能夠藝術性地將數(shù)據(jù)進行可視化分析,簡單明了而且能夠展現(xiàn)出數(shù)據(jù)之間的關聯(lián)關系。
3大數(shù)據(jù)的應用
麥肯錫在大數(shù)據(jù)的研究報告中指出,大數(shù)據(jù)的應用已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為了重要的生產(chǎn)因素[6]。按照專業(yè)領域劃分,信息技術、互聯(lián)網(wǎng)行業(yè)、商業(yè)、遙感探測已經(jīng)開始應用大數(shù)據(jù)技術來進行研究和生產(chǎn)效益;生物信息技術、科研情報所、圖書情報領域已經(jīng)對大數(shù)據(jù)展開了研究,并進行了規(guī)劃;其他專業(yè)和行業(yè)對大數(shù)據(jù)可能仍處于了解階段,但大數(shù)據(jù)的浪潮很快就會波及大部分的行業(yè)領域。
從大數(shù)據(jù)的應用效果來看,總體趨勢與上述的三類專業(yè)呈現(xiàn)出一致性。百度、淘寶等公司作為信息技術、互聯(lián)網(wǎng)和商業(yè)領域的杰出代表,已經(jīng)對大數(shù)據(jù)開始了深度應用,馬云在卸任阿里巴巴CEO時更是闡述了大數(shù)據(jù)時代將改變互聯(lián)網(wǎng)商業(yè)的面貌,誰提前開始大數(shù)據(jù)的應用,就可以獲得未來行業(yè)發(fā)展的優(yōu)勢。大數(shù)據(jù)的普及需要一個過程,首先從重點應用行業(yè)開始,例如信息技術領域行業(yè),逐漸擴展到其他行業(yè)。美國已經(jīng)由白宮頒布了大數(shù)據(jù)開發(fā)與利用的國家級戰(zhàn)略,由美國國防部和國土安全局牽頭開展全面推廣大數(shù)據(jù)的應用。我國目前對大數(shù)據(jù)的研究并不多,應用更是缺乏。如果要推動大數(shù)據(jù)的應用,應當由國家層面進行大數(shù)據(jù)的平臺建設。在今年的國家自然科學基金和社會科學基金的課題指南中,已經(jīng)提出了很多設計大數(shù)據(jù)的課題,相信在未來幾年內(nèi)國家會對大數(shù)據(jù)的研究、開發(fā)與利用提供政策和資金支持。
總而言之,大數(shù)據(jù)的技術與應用還是處于起步階段,其應用的前景不可估量。各個行業(yè)應當把握時代脈搏,充分認識到大數(shù)據(jù)所能帶來的革命性改變,只有這樣才能夠保持創(chuàng)新與進步,從而站在行業(yè)的最前沿。
參考文獻:
[1]Manyika J,McKinsey Global Insti? tute,Chui M,et al. Big data: The next fron? tier for innovation,competition,and produc? tivity[M]. McKinsey Global Institute,2011.
[2]盧勝軍,王忠軍,栗琳.賽博空間與大數(shù)據(jù)雙重視角下的錢學森情報思想[J].情報理論與實踐,2013,36(004): 1-5.
[3]Hirt C W,Nichols B D. Volume of fluid(VOF)method for the dynamics of free boundaries[J].Journalofcomputational physics,1981,39(1): 201-225.
[4]Chirillo J,Blaul S. Storage Security: Protecting,SANs,NAS and DAS[M].John Wiley Sons,Inc.,2002.
[5]Dean J,Ghemawat S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM,2008,51(1): 107-113.
[6]鄭玲微.大步跨入“大數(shù)據(jù)”時代[J].信息化建設,2013(1).
作者簡介:張心源(1992-),女,本科,信息管理與信息系統(tǒng)專業(yè),已發(fā)表論文7篇。
李白楊(1991-),男,碩士研究生,研究方向為數(shù)字圖書館與信息資源整理,已發(fā)表論文3篇。