何曉萍 黃龍



[摘要]本文以Web of Science為數據源,運用信息可視化軟件CiteSpaceⅢ對所搜集的有關大數據研究的文獻進行聚類分析和共引分析。通過CiteSpaceⅢ生成的知識圖譜并結合相關文獻的研究內容,從演進路徑、研究熱點以及研究前沿三方面對大數據研究進行量化分析和解讀。6篇關鍵節(jié)點文獻很好地展示了大數據研究的演進路徑,13個高頻關鍵詞和10個突現(xiàn)詞表征了大數據的研究熱點與研究前沿,得出結論:大數據的研究經歷了從大數據的計算模型、具體概念、復雜性科學的理論研究到有關大數據社會科學層面、應用型實踐層面研究的歷程;大數據處理技術、大數據挖掘及大數據應用是大數據研究的三大熱點;對大數據本身的研究、處理技術的研究、數據挖掘、系統(tǒng)、模型和網絡的研究以及其績效評估和數據管理的研究是大數據的研究前沿和發(fā)展趨勢,文章旨在為現(xiàn)階段大數據研究工作的深入開展提供參考。
[關鍵詞]大數據;CiteSpaceⅢ;演進路徑;研究熱點;研究前沿;可視化
[中圖分類號]G252
[文獻標識碼]A
[文章編號]1008-0821(2015)04-0046-06
大數據是當下繼云計算之后的一大熱點詞匯。2011年5月,信息存儲資訊科技公司EMC在“云計算相遇大數據”大會上正式提出了“大數據”的概念。幾近同時,麥肯錫全球研究院(MCI)發(fā)布了一份研究報告《大數據:創(chuàng)新、競爭和生產力的下一個前沿領域》,它研究了文檔和數字數據的狀態(tài)以及處理這些數據所帶來的潛在價值。2012年1月,在瑞士達沃斯舉行的世界經濟論壇上,“大數據”是主要討論的主題之一,該論壇上發(fā)布了一份題為《大數據,大影響》的報告,提出“數據已成為一種新的經濟資產類別,就像貨幣或黃金一樣。”2012年3月,美國奧巴馬政府在白宮網站上發(fā)布了《大數據研究和發(fā)展倡議》,該倡議涉及聯(lián)邦政府的6個部門,這些部門承諾將投資超過兩億美元,來大力推動和改善大數據的提取、存儲、分析、共享和可視化。
無論是EMC、MGI的研究報告,世界經濟論壇的論題,還是美國政府的倡議,都向人們預示著大數據時代的來臨。國內外對大數據的研究不斷增加,該領域的研究文獻量也與日俱增,大量的研究文獻使得人們難以對大數據的知識進行深入地研究。信息可視化是常用的數據挖掘方法之一,它可以利用人類在可視化形勢下對模型和結構的獲取能力來解決科技文獻數量過大、無法快速進行有效交流的問題,可視化數據挖掘可以觀察、發(fā)現(xiàn)、篩選和理解信息,發(fā)現(xiàn)數據和信息背后所隱藏的含義。本文將運用信息可視化工具CiteSpaceⅢ,以Web of Science數據庫中收錄的有關大數據研究的文獻為樣本進行聚類分析和共引分析,對大數據的研究熱點、主題內容和發(fā)展趨勢三方面進行量化分析和解讀。
1 數據來源和研究方法
Web of Science是美國Thomson Scientific(湯姆森科技信息集團)基于WEB開發(fā)的產品,是大型綜合性、多學科、核心期刊引文索引數據庫,收錄了8000多種世界范圍內最有影響力的、經過同行專家評審的高質量的期刊,以Web of Science為數據源進行研究,可以保證研究數據的全面性和權威性。本文選取了Web of Science數據庫中的4個子庫:Science Citation Index Expanded(SCI-EXPANDED)、Social Sciences Citation Index(SSCI)、Conference Proceedings Citation Index-Science(CPCI-S)和Conference Proceedings Citation Index-Social Science&Humanities(CPCI-SSH),檢索方式選擇高級檢索,檢索策略為:主題=(“big data”),時間跨度=所有年份,共檢索到有關大數據得研究文獻記錄1849條(檢索日期:2014年10月12日)。
本文研究工具采用陳超美教授開發(fā)的信息可視化軟件CiteSpaceⅢ,其獨到的創(chuàng)新之處在于繪制的一幅科學知識圖譜,能夠顯示一個學科或知識域在一定時期發(fā)展的趨勢與動向,形成若干研究前沿領域的演進歷程。將檢索到的1849篇文獻題錄信息(主要包括篇名、關鍵詞、摘要、作者、參考文獻等字段)導入到CiteSpaceⅢ軟件中。有關大數據研究的第一篇文獻的發(fā)表于1993年,即所檢索到的文獻時間范圍是1993-2014年,共計22年,以每2年設為1個時間分區(qū)(Time slicing),總共分為11個時間段;主題詞來源(Term Source)選擇標題(Title)、摘要(Abstract)、關鍵詞(Author Keywords)和標識符(Keywords Plus);分析節(jié)點(Node Types)選擇共引文獻(Cited Reference);設置閥值(c,cc,ccv)為(2,2,15),(3,2,20),(4,3,20),c為最低被引次數,cc為本時間段內的共被引次數,ccv為規(guī)范化以后的共被引次數,每個時間段中選取被引次數最高的30篇文獻。運行CiteSpaeeⅢ軟件,得到大數據研究共引分析文獻網絡組圖和知識圖譜,就此分析關鍵節(jié)點文獻。主題詞類型(Term Type)有名詞短語(Noun Phrases)和突現(xiàn)詞(Burst Terms)兩種,名詞短語可以表達大數據的研究熱點,而突現(xiàn)詞則可表達大數據的研究前沿及發(fā)展趨勢。
2 結果與分析
2.1大數據研究文獻的時間分布情況
對WOS數據庫中大數據研究文獻按年代變化進行時間分布分析,如圖1所示,從圖中可以看出,大數據的研究可以分為3個階段:第一階段從1993-2007年,為大數據的孕育階段,該階段大數據研究成果零散,發(fā)文量十分有限;第二階段從2008-2011年,為大數據研究的起步階段;第三階段從2012o2014年,為大數據研究的上升階段,研究文獻劇增,且年發(fā)文量大于200篇,呈現(xiàn)出快速增長的態(tài)勢,2014年的文獻數據不全,但已有600篇,由此可以預測未來大數據的研究將保持迅猛增長的勢頭。同時,通過Logistic曲線擬合文獻量的時間序列分布,發(fā)現(xiàn)大數據研究還處在快速上升時期,還沒出現(xiàn)成熟前的“拐點”。endprint
2.2大數據研究的演進路徑分析
信息可視化軟件CiteSpaceⅢ有兩種顯示共引網絡圖譜的視圖方式,分別為聚類視圖(cluster views)和時區(qū)視圖(time-zone views)。時區(qū)視圖的顯示方式突出共引網絡節(jié)點隨時間變化的結構關系。運行CiteSpaceⅢ軟件得到大數據研究文獻共引網絡節(jié)點的時區(qū)視圖,圖譜中共有182個節(jié)點,410條連線,如圖2所示。
CiteSpaceⅢ最突出的特點就是關鍵節(jié)點的計算測量,圖中每個圓形節(jié)點代表一篇引文,節(jié)點大小與被引用次數有關,節(jié)點越大,被引頻次越高,其文獻價值也越大,當設置“標簽字體大小依比例顯示選項”后,被引頻次高的引文在圖中的字體也越大,同時,節(jié)點間的連線代表引用關系與引用時間,連線越粗則引用次數越多,連線顏色則提示引用時間,依時間先后序列由冷色向暖色改變。從知識理論的角度看,關鍵節(jié)點文獻通常是在該領域中提出重大理論或是創(chuàng)新概念的文獻,也是最容易引起新的研究前沿熱點的關鍵文獻。按被引頻次的大小,表1列舉出了圖2中排名前六位的有關大數據研究關鍵節(jié)點文獻,這些文獻都是大數據研究的知識基礎,結合圖2,按時間順序對表1中的關鍵節(jié)點文獻進行分析,即可梳理出大數據研究發(fā)展的演進路徑。
第一篇文獻是由MapReduce、BigTable等系統(tǒng)的創(chuàng)造者Jeff Dean于2008年發(fā)表在《COMMUNICATIONS OF THE ACM》刊物上的《Mapreduce:Simplified data processing on large clusters》,文章借鑒函數式編程語言,強調了MapReduce的思想,將MapReduce模型用于大規(guī)模數據集的并行運算,包括“分布grep,分布排序,web連接圖反轉,每臺機器的詞矢量,web訪問日志分析,反向索引構建,文檔聚類等”。這說明借助關鍵技術對大規(guī)模數據進行深入的研究,最大限度地提升管理和使用大規(guī)模數據的能力開始成為研究的重點。
第二篇文獻是由Howe,Doug于2008年發(fā)表在《NA-TURE》雜志上的《Big data:The future of biocuration》,文章基于大數據環(huán)境,提出了“生物文獻數據結構化”這一概念,通過數據結構化來規(guī)范生物文獻信息,從而提高生物學信息的獲取率和利用率。這標志著大數據的研究在生物學學科得到廣泛關注。
第三篇文獻是由英國e-Science計劃前首席科學家Tony Hey于2009年發(fā)表在《NATURE》雜志上的《The Fourth Paradigm:Data-Intensive Scientific Discovery》,該文探索了數據密集型計算以及未來計算技術的發(fā)展,揭示出數據分析已經成為繼理論、實驗和計算之后的第四種科學發(fā)現(xiàn)基礎,是產生經濟價值的新源泉。數據分析有助于市場預測、社會學以及醫(yī)學等學科領域的知識規(guī)律發(fā)現(xiàn)和趨勢預測,達成“真理盡在數據中”的效果,“數據科學”逐漸成為業(yè)界學者研究的新興領域。
第四篇文獻是由WHITE T撰寫的《Hadoop:The Ddfini-tive Guide》一書,于2009年由O'Reilly Media,Inc.出版社出版,書中展示了如何使用Hadoop構建可靠、可伸縮的分布式系統(tǒng),程序員可從中探索如何分析海量數據集,管理員可以了解如何建立與運行Hadoop集群。作為處理海量數據集的理想工具,Apache Hadoop架構是MapReduce算法的一種開源應用,是Google(谷歌)開創(chuàng)其帝國的重要基石,更是打開“數據金礦”大門的金鑰匙。
第五篇文獻是由麥肯錫全球研究院(MGI)于2011年發(fā)布的研究報告《Big data,The next frontier for innovation,competition,and productivity》,該報告系統(tǒng)的闡述了大數據概念,麥肯錫認為,“大數據”是指其大小超出了典型數據庫軟件的采集、儲存、管理和分析等能力的數據集。該定義有兩方面內涵:一是符合大數據標準的數據集大小是變化的,會隨著時間推移、技術進步而增長;二是不同部門符合大數據標準的數據集大小會存在差別。同時,報告詳細列舉了大數據的核心技術,深入分析了大數據在美國醫(yī)療衛(wèi)生、歐洲聯(lián)合公共部門管理、美國零售業(yè)、全球制造業(yè)和個人地理位置信息5個領域的應用,明確提出了政府和企業(yè)決策者應對大數據發(fā)展的策略。作為第一份從經濟和商業(yè)維度詮釋大數據發(fā)展?jié)摿Φ难芯砍晒?,揭示出數據正在成為有形資本、人力資本這類產品的一個因素,如何讓商業(yè)適應大數據,如何讓大數據的更有利的管理和更有價值的分析,是一個全新的具有挑戰(zhàn)的話題。
最后一篇是由被譽為“大數據商業(yè)應用第一人”的Mayer-Schoenberger于2013年在《INTERNATIONAL JOURNAL OF COMMUNICATION》雜志上發(fā)表的《Big Data:A Revolution That Will Transform How We Live,Work and Think》,文中前瞻性地指出,大數據帶來的信息風暴正在變革我們的生活、工作和思維,大數據開啟了一次重大的時代轉型,其中最大的轉變就是,放棄對因果關系的渴求,而取而代之關注相關關系。也就是說只要知道“是什么”,而不需要知道“為什么”,這就顛覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰(zhàn)。該文還提出大數據的核心就是預測。大數據將為人類的生活創(chuàng)造前所未有的可量化的維度。大數據已經成為新發(fā)明和新服務的源泉,而更多的改變正蓄勢待發(fā),例如谷歌、微軟、亞馬遜、IBM、蘋果、facebook、twitter、VISA等大數據先鋒們已經開啟了對大數據最具價值的應用歷程。因此,該關鍵節(jié)點論文是大數據應用在大數據時代的一個重要標志。
通過以上關鍵節(jié)點文獻的分析,可以得出,在2008年之前,由于大數據理論和基礎比較缺乏,有關大數據研究的論文發(fā)文量比較低,且沒有產生具有影響力的文獻。從2008年開始,隨著研究的不斷深入,進入大數據領域進行研究的機構、學者等不斷增加,有關大數據研究的論文發(fā)文量急劇增長,產生了許多重要的研究成果。大數據的研究經歷了從大數據的計算模型、具體概念、復雜性科學的理論研究,到伴隨大數據研究技術的全面拓展而進行的有關大數據社會科學層面、應用型實踐層面研究的歷程。endprint
2.3大數據研究熱點分析
由于關鍵詞是作者對文章核心內容的精煉與概括,體現(xiàn)文章研究價值與方向,因此在軟件分析結果中,頻次高的關鍵詞常被用來確定一個研究領域的熱點問題,另外,從文章中提取的名詞短語也可以在一定程度上代表某學科的研究熱點。在CiteSpaceⅢ軟件中,節(jié)點類型選擇關鍵詞(Keyword)、主題詞類型選擇名詞短語(Noun Phrases),并選擇Pathfinder算法,運行CiteSpaceⅢ軟件得到由關鍵詞和名詞短語生成的大數據研究熱點知識圖譜,圖譜中有342個節(jié)點,1076條連線,如圖3所示。
圖3中的圓形節(jié)點和方形節(jié)點分別代表關鍵詞和名詞短語,節(jié)點的大小表示關鍵詞或名詞短語出現(xiàn)的頻次,圓形節(jié)點越大,越可以體現(xiàn)大數據的研究熱點,同樣,方形節(jié)點越大,也在一定程度上代表了大數據的研究熱點。選取出現(xiàn)頻次大于等于40的熱點名詞術語,得到大數據研究熱點詞匯統(tǒng)計表,見表2。
從圖3和表2可以看出,出現(xiàn)頻次最高的熱點詞為big data(大數據),達1305次,且其中心度值(0.56)也位居首位,一方面,表明了選擇“big data”為本文的研究主題具有一定的明確性;另一方面,也說明“big data”這一表述在學術界被普遍認可,且對大數據的研究也極其重視。其他高頻熱點詞匯按出現(xiàn)頻次高低分別為:cloud computing(云計算)、big data analytics(大數據分析)、mapreduce(分布式計算)、data mining(數據挖掘)、hadoop(分布式系統(tǒng)基礎架構)、social media(社交媒體)、machine learning(機器學習)、model(模型)、big data application(大數據應用)、social network(社交網絡)、networks(網絡),同時,這些熱點詞匯正是前文所述多數關鍵節(jié)點文獻研究的主要內容。
目前,大數據的研究熱點可以從以下3方面來分析:(1)大數據處理技術的研究。這一研究熱點主要涉及云計算、大數據分析、Hadoop、Mapreduce、模型等技術,尤其是Hadoop、Mapreduce帶來的并行式和分布式算法,為更高效率的管理和處理海量數據集帶來了可能。同時,云計算模式為大數據提供了存儲空間和計算能力,是大數據處理技術的基礎。(2)大數據挖掘的研究。這一研究熱點主要涉及云計算、社交網絡、社交媒體、數據分析、數據挖掘等。社交媒體、社交網絡的普及產生了大量的數據,而沉睡的數據只是一堆低價值密度的垃圾,只有通過數據挖掘,才能發(fā)現(xiàn)和創(chuàng)造其潛在的價值,同時,大數據挖掘的實現(xiàn)也需要云計算技術支持。在業(yè)界,IT巨頭們如:Google、微軟、EMC、IBM、惠普等互聯(lián)網公司都已經意識到大數據挖掘的重要意義,紛紛通過收購大數據分析公司,進行技術整合,希望從大數據中挖掘更多的商業(yè)價值。(3)大數據應用的研究。這一研究熱點主要涉及大數據應用、數據分析、機器學習等。與傳統(tǒng)數據分析相比,大數據技術的核心目標之一即是從數據量大、數據結構類型多樣的數據中挖掘信息和獲取知識,而大數據技術這一目標的實現(xiàn)離不開機器學習的技術。通過機器學習高效智能地獲取新知識,為數據分析應用帶來價值是當今大數據應用研究的一大重點。
2.4大數據研究前沿分析
陳超美認為,使用突現(xiàn)主題術語要比使用出現(xiàn)頻次最高的主題詞(title words)更適合探測學科發(fā)展的新興趨勢和突然變化。運用CiteSpaceⅢ軟件的突現(xiàn)詞探測(Detect Bursts)技術,觀察詞頻的時間分布,將突現(xiàn)詞(Burst Terms)從大量的主題詞中探測出來,從而揭示出大數據的研究前沿。主題詞類型選擇突現(xiàn)詞(Burst Terms),運行CiteSpaceⅢ軟件,得到大數據研究前沿的網絡圖譜,如圖4所示。探測得到10個突現(xiàn)詞,見表3。
結合圖4和表3可以看出,突變率最高的主題詞為是“big data(大數據)”,達5.74,該主題詞代表了大數據領域對大數據本身的研究,而且,對大數據本身的研究依舊可能是未來大數據研究的熱點。除“big data(大數據)”以外,“mapreduce(分布式計算)”、“cloud computing(云計算)”、“hadoop(分布式系統(tǒng)基礎架構)”這3個主題詞的突變率也較高,說明mapreduce框架、云計算、hadoop框架的數據處理技術近年來備受研究者關注。同時,與數據處理技術有關的“data mining(數據挖掘)”、“systems(系統(tǒng))”、“model(模型)”、“networks(網絡)”,這4個主題詞的突變率也比較高,分別是3.87、3.21、3.15和3.12,由此可以看出與大數據有關的數據挖掘、系統(tǒng)、模型及網絡的研究是近年來大數據領域研究的重要前沿與發(fā)展趨勢。此外,“performance(績效)”和“management(管理)”這2個高突變詞也說明了近年來大數據在績效評估和數據管理方向研究的重視,有關大數據的績效評估和數據管理也將成為未來幾年內大數據研究的重點。
3 結論
CiteSpaceⅢ信息可視化軟件具有較強的探測和分析某一學科演化路徑、研究熱點與研究前沿的功能,在上述大數據研究中得以完美體現(xiàn),通過對Web of Science數據庫中收錄的有關大數據研究的文獻進行聚類分析和共引分析,得到以下結論:
(1)大數據研究的演進路徑:2008年,強調了MapRe-duce的思想,對大規(guī)模數據集進行并行運算,同時,大數據的研究開始向生物學學科滲透;2009年,探索了數據密集型計算以及未來計算技術的發(fā)展,揭示出數據分析已經成為繼理論、實驗和計算之后的第4種科學發(fā)現(xiàn)基礎,并且,數據處理技術Hadoop的應用,為更高效的處理海量數據集帶來了可能;2011年,系統(tǒng)地闡述了大數據概念,并介紹了大數據的核心技術,深入分析了大數據在不同領域的應用,明確提出了政府和企業(yè)決策者應對大數據發(fā)展的策略。2013年,前瞻性地指出了大數據帶來的信息風暴正在變革我們的生活、工作和思維,大數據開啟了一次重大的時代轉型。
(2)大數據的研究熱點概括為3個方面:一是大數據處理技術的研究;二是大數據挖掘的研究;三是大數據應用的研究。研究的內容逐漸從“概念化”走向“價值”。
(3)大數據的研究前沿有4個:一是對大數據本身的研究;二是有關大數據處理技術的研究;三是與大數據處理技術有關的數據挖掘、系統(tǒng)、模型和網絡的研究;四是大數據績效評估和數據管理的研究。海量數據的存儲、管理、轉換、績效評估等問題,以及大數據在社會科學層面和應用型實踐層面的研究將可能是大數據未來一段時間內的深度挖掘的方向和研究趨勢。
(本文責任編輯:馬卓)endprint