肖 明 孔成果
(北京師范大學政府管理學院,北京 100875)
網絡應用的多樣化發展和社會生活的信息化構建引發數據的爆發式增長,美國互聯網數據中心指出,互聯網上的數據每年按50%的速度增長,每兩年便將翻一番[1]。目前,人們關注的不僅僅是數據增長的量變,也更加重視數據增長的質變,正是這種對數據價值的渴求催生了大數據時代的到來。“大數據(big data)”可謂無處不在,政府部門、科技界、產業界均對其追捧不已。
為什么大數據會成為新時代的寵兒呢?一個顯見的解釋是:雜亂無章的龐大數據中蘊含著潛在的驚人價值。毫無疑問,大數據隱含著巨大的經濟、社會、科研等價值,科學、有效地組織和使用大數據將給世界各國帶來前所未有的機遇。究竟什么是大數據?它與哪些技術手段相結合?它能夠應用在哪些領域?它能夠解決什么樣的問題?筆者利用文獻計量學這一傳統的理論工具,以文獻及其引文作為研究對象,結合知識圖譜工具來描繪大數據研究領域的概況,探究大數據的發展歷程、應用領域及其未來發展趨勢。
大數據一經提出,便迅速引起了政界、商界以及學術界的濃厚興趣,競相投入大數據研究的浪潮中,部分國家甚至將大數據作為國家戰略,置于極其重要的地位。筆者將從以下3個方面來對大數據的研究背景進行簡要介紹。
①政府部門。2012年3月,美國奧巴馬政府宣布“大數據研究和發展倡議(Big Data Research and Development Initiative)”,將“大數據戰略”上升為國家意志[2]。歐盟(European Union)在大數據領域也不甘示弱,投入高達1億多歐元用于科學數據基礎設施建設,并將大數據列為Horizon2020戰略計劃的優先領域之一[3]。聯合國(United Nations)也在2012年發布了大數據政務白皮書,認為通過對豐富的數據資源進行實時分析,可以幫助各國政府更好地響應社會和經濟運行,提高國家競爭力和民眾生活水平[4]。
目前,我國還沒有明確意義上的國家級大數據發展戰略,但種種跡象已經表明,中國政府對大數據領域懷有濃厚的興趣。
②商業領域。2011年6月,全球知名的咨詢公司麥肯錫公司(McKinsey&Company)發布了一份名為《big data:the next frontier for innovation,competition,and productivity》的研究報告[5]。該報告對大數據的關鍵技術及其在醫療、公共、零售、制造業和個人定位等5個領域的應用進行了詳細分析,并得出大數據可以在任何一個行業內創造出更多價值的結論。
目前,國內外眾多互聯網及社交網絡公司(如Google、Facebook、百度、騰訊等)也針對自身龐大的用戶數據信息展開相關大數據研究,發掘數據中潛在的商業價值,并取得了不菲的業績。
③學術領域。學術界也對大數據保持了較高的關注度。《Nature》《Science》等國際頂級學術刊物啟用專刊來跟蹤大數據研究成果。早在2008年,Nature就洞悉了大數據的發展脈搏,開辟專刊《Big Data》[6]。2011年,Science推出《Dealing with Data》[7]專刊,這是Science第一個關于科學數據的專刊。中國計算機學會成立了專門針對大數據研究的大數據專家委員會,中國計算機學會(CCF)大數據專家委員會于2013年底發布了《2013年中國大數據發展白皮書與2014年大數據發展趨勢預測》報告,主要論述了2013年中國大數據的發展狀況。
“大數據(big data)”術語的提出,可以追溯至Apacheorg的開源項目Nutch。當時,大數據是指用來描述為更新網絡搜索索引需要同時進行批量處理或分析的大量數據集。
然而,由于大數據本身是一個比較抽象的概念,在其定義這一問題上目前還沒有完全達成一致的認識。例如,Chris[8]等人(2012)認為:大數據是由巨型數據集組成,這些數據集的規模巨大到無法通過人工方式在可接受的時間內達到采集、加工、整理并為人類所能解讀的信息,大數據必須借助計算機對其進行統計、分析,最終得出客觀結果。MIKE2[9]認為大數據應該包含3個方面元素:數據集的復雜程度、數據所蘊含的價值量、利用縱向信息來輔助分析。
作為一種海量、復雜的數據集合,大數據具有4個層面的特點,通常將其歸納為4V,即:Volume(規模性)、Velocity(高速性)、Variety(多樣性)、Veracity(真實性)[10]。其中,規模性要求大數據必須具有足夠的數據量,但它同時也強調數據的復雜性;高速性要求大數據必須具有高效的數據處理能力;多樣性說明大數據包含多種類型的數據;真實性強調數據的完整性和可信性,決策者能夠據此做出關鍵性決策。
大數據的提出吸引了大批國內外學者,他們對大數據的研究關注點主要集中在探尋其起源、技術手段、存在的挑戰、應用價值等方面[5~7,11]。多方位的研究使得大數據的輪廓越發明晰,然而很少有學者從大數據這一學科領域的本身來全貌地展現其研究現狀,而這又具有非常重要的意義。為此,筆者從文獻計量學的角度結合知識圖譜工具來介紹大數據研究的歷史沿革,并對其國內外研究狀況進行對比分析,力圖讓讀者更加清晰地了解大數據。
Web of Science(以下簡稱WOS)是ISI旗下的著名引文數據庫,其中包含SCI(科學引文索引)等知名索引庫,其權威性和文章質量都有保證。利用WOS的引文數據可以有效揭示某一學科領域歷史概況、研究現狀、未來發展趨勢及其與其他學科研究的關系。正因如此,筆者以WOS作為國外大數據研究的數據源。
CNKI(中國知網)是目前全球資源規模最大的數字內容出版商,其收錄的信息內容經過了深度加工、編輯和整合,并以數據庫的方式進行有序管理,具有較高的質量保證。對于某一主題的中文文獻,CNKI收錄的數據比較全面,能夠很好地反映該主題的研究狀況。因此,筆者以CNKI作為國內大數據研究的數據源。
本研究主要借助美國Drexel大學陳超美博士開發的引文可視化工具Citespace III[12],對大數據的研究機構和關鍵詞等進行可視化展示。
“大數據”是近年來逐漸進入公眾視野的新興概念,經過初期的文獻預檢索發現,大數據是從2009年才開始逐步形成研究熱潮。因此,筆者以近5年(2009~2013年)來WOS和CNKI收錄的有關大數據的文章為研究對象,從文獻計量學角度來進行多方位的分析和研究。
在設置中外文數據庫的檢索條件時,將時間范圍統一限定為2009~2013年,時間跨度為5年,檢索時間是2014年3月15日。
外文文獻的檢索策略是:在WOS中以“TI=big data”作為檢索式,共計得到502條結果記錄。經過數據預處理后,最終得到439條相關結果記錄。
中文文獻的檢索策略是:在CNKI中以“大數據”作為關鍵詞進行檢索,共計得到684條結果記錄,經過數據預處理后,最終得到465條相關結果記錄。
從圖1中可以直觀看出,國內外刊發的大數據研究論文是逐年增長的,且國外的研究起步早于國內。從2011年開始,大數據研究論文每年增幅達到100%以上,隨著云計算、物聯網等相關領域的快速發展以及大數據表現出來的巨大學術價值和商業價值,大數據研究也進入高峰期(2011~2013年),產出了大量文獻,為大數據研究的持續發展打下了堅實基礎。

圖1 WOS和CNKI的發文數量
筆者選取WOS和CNKI中有關大數據研究的被引頻次前15位的文章,分別介紹了其被引頻次、作者和文章名、發表時間、發表期刊(分別如表1、表2、表3所示)。

表1 WOS中被引頻次前15位的文章

表2 WOS中被引頻次前15位的文章統計

表3 CNKI中被引頻次前15位的文章
從一篇文章的被引頻次可以看出在該研究領域中該篇文章的重要程度以及其他學者對該篇文章的認可度,結合表1、表2和表3的數據,我們可以清晰地勾勒出國內外大數據領域的研究概貌。
從表1的被引頻次可以看出,在國外有關大數據研究的文章中被引頻次最高的前3位都集中在2009年和2010年這兩年中,其中奠基作是Jacobs、Adam在2009年發表的《The Pathologies of Big Data》[13]。在這篇文章中,Adam結合美國人口普查數據庫,從數據庫規模的變化、數據庫的訪問速度等角度闡述了大數據所帶來的改變和影響以及大數據所面臨的問題。其他被引頻次較高的文章也嘗試從特定角度來論述大數據。例如,Murdoch、TB[14](2013)以大數據在醫療中的應用為例來介紹大數據對醫療行業的影響及其帶來的變革;Trelles、Oswaldo[15](2011)則以我們是否已經準備好迎接大數據的到來為主題進行分析研究。
表2對WOS中被引頻次前15位的文章的引用情況進行了詳細統計,其中h指數[16]為9說明這15篇文章中有9篇文章至少被引用9次,這也從側面佐證了這些文章的重要性。
從表3的被引頻次可以看出,我國有關大數據研究的被引頻次較高的主要集中在2011年和2012年。王珊等人[17](2011)為了滿足大數據分析的特點,設計了適合大數據分析的數據倉庫架構,從技術角度闡述了大數據環境下給數據分析處理帶來的變革和挑戰。覃雄派等人[18](2012)主要從技術層面分析了大數據環境下數據管理面臨的挑戰以及相應的技術革新。李國杰等人[3](2012)分析了在科技及經濟社會的發展中大數據研究與應用面臨的問題和挑戰,并提出了大數據發展戰略的若干建議。孟小峰、慈祥[11](2013)則從大數據管理的角度對大數據的概念、技術、基本處理框架以及挑戰進行了詳細論述。
從國內外相關的研究中可以看出,對于大數據基礎理論的探討,國內外學者并沒有表現出濃厚的興趣,更多的研究主要偏向于大數據的應用,包括:大數據給各行各業帶來的變革、存在的問題、潛在的價值和面臨的挑戰等方面。
對高產作者的統計能夠幫助讀者快速獲取該領域的核心研究人員信息,從而更有針對性地深入了解該領域的相關研究。
表4列舉了WOS中近5年來發表的有關大數據的文章作者及其發文量(兩篇及以上)。例如,Michael Stonebraker發表過3篇與大數據相關的文章,他是一位著名的數據庫專家,并于1992年提出了關系數據庫模型,現為麻省理工學院(MIT)的客座教授,具有豐富的大數據理論研究和實戰經驗;Eric E.Schadt為西奈山伊坎醫學院教授,主要從事生物信息學、計算神經學、遺傳學等領域的研究;Daniel E.O'Leary現為南加州大學商學院教授,主要研究領域為電子商務、ERP、知識管理、虛擬組織。

表4 WOS中近5年來大數據研究的作者及其發文量(兩篇及以上)

續表
表5是對CNKI中收錄的我國大數據領域研究學者及其發文量(兩篇及以上)的統計。其中,發文量最多的作者為喻國明,他是中國人民大學新聞學院副院長、中國人民大學輿論研究所所長,其從事的新聞傳媒工作與大數據之間有著密切聯系,僅在2013年就以第一作者的身份發表了5篇有關大數據的論文;進行相關研究的國內學者還有吉林大學的李抵飛博士、中國人民大學信息學院的王珊教授等。值得一提的是,桂林理工大學的張興旺和李晨暉兩人合作發表了4篇有關大數據與圖書館相結合的研究論文。

表5 CNKI中大數據研究的作者信息
結合對表4和表5的分析可知,從事大數據研究的學者擁有不同的學科背景,研究的重點是將自己的研究方向或領域與大數據相結合。此外,國內外學者在大數據的研究切入點上存在著一定差異:國外學者主要側重于計算機科學、生物學、生態學等自然科學或信息科技領域,而國內學者則更多地側重于社會學、圖書館學、管理學等人文社會科學領域。
通過對WOS中有關大數據的研究文章進行分析歸納,可以得出國外的大數據研究主要集中在計算機科學、工程學、通信科學、圖書情報學、生物化學、生物化學、分子生物學、遺傳學、生命科學、經濟學、管理學、醫學、化學、生態學等學科領域(如圖2所示)。大數據的研究為什么會集中在這些領域?究其原因,隨著科學技術的發展,人類的認知水平也在不斷地提升,計算機科學、生物學、醫學等領域信息被更深層次地挖掘,總量巨大、結構復雜的數據集層出不窮,其存儲量早已達到PB級或以上。大數據給這些領域造成了巨大的壓力,傳統的技術手段和思想觀念早已不再適用。“變則通,通則久遠”,解決問題的需求往往是科學發展的助推劑,大數據在帶來壓力的同時也蘊含著巨大的潛在價值。

圖2 WOS中大數據的相關研究領域
經過統計分析,國內學者對大數據的研究主要集中在如圖3所示的諸多領域。其中,大數據與圖書情報領域相結合的研究論文占到了全部研究的15%左右,可見圖情學者對大數據的關注程度。圖書情報領域的學者從事圖書館和信息服務等方面的工作,具有敏銳的洞察力以及準確把握科學發展脈搏的能力,他們不僅僅局限于自身的領域知識,同時也將目光投向其他學科的研究熱點和前沿,從而更好地提供專業服務。例如,在大數據背景下,韓翠峰[20](2012)分析了大數據時代圖書館在數據儲存、數據挖掘、數據分析等方面的挑戰,并預測了大數據背景下圖書館服務模式的改變。

圖3 CNKI中大數據的相關研究領域
此外,計算機科學、云計算、物聯網、經濟學、社會學、新聞傳播等領域也和大數據緊密結合,彼此之間相互促進,共同發展。
研究機構是進行一項或多項研究的專門性組織,一定程度上可以理解為學術群體的代名詞。發掘某一領域的核心研究機構,關注其動態能讓我們準確地把握該領域的研究風向標,大大降低獲取研究信息的盲目性。
進行大數據研究的境外機構中既有科研單位,也有企業部門。從圖4可以看出,除歐美國家的機構以外,中科院、香港科技大學和香港理工大學在國際大數據研究領域是比較活躍的,且研究成果顯著。聚焦國外研究機構分布,麻省理工學院(Massachusetts Institute of Technology)、哈佛大學(Harvard University)、斯坦福大學(Stanford University)、加州大學洛杉磯分校(University of California,Los Angeles)、牛津大學(University of Oxford)等著名高等學府以雄厚的科研實力占據了大數據研究的半壁江山。此外,微軟研究院、IBM研究院也利用自身的資源和技術優勢展開了大數據的深層研究。

圖4 境外大數據研究機構
我國在大數據領域進行深入研究的主要機構如圖5所示。從圖5中可以看出,大數據的研究既有各大高校,也有科研單位,且呈南北鼎力之勢。北方主要以中國人民大學新聞學院和信息學院、北京大學新聞與傳播學院、中國標準化研究院、國家標準委員會標準信息中心、工業和信息化部等單位或機構組成大數據研究的陣營,其中中國人民大學(以下簡稱人民大學)是大數據研究的主力軍,這一方面是因為人民大學具有濃厚的大數據研究底蘊,擁有較強的學科背景;另一方面人民大學也抓住了大數據興起帶來的機遇,占領大數據研究的制高點。南方進行大數據研究的機構主要分布在電信行業、高等教育學府和圖書情報機構,中國電信股份有限公司廣東研究院、中興通訊股份有限公司、復旦大學新聞學院、上海圖書館、上海科學技術情報研究所等科研單位從各自的專業領域出發,成為大數據研究的主力軍。

圖5 國內大數據研究機構
關鍵詞是一篇文章所要論述的精髓所在,通過提取文章中的關鍵詞,進而構建關鍵詞共現網絡,揭示出該領域的研究熱點。
從圖6可以直觀地看出,國外大數據研究與云計算、可視化、社交網絡、數據庫、編程、算法、系統、性能等信息技術或應用領域關系密切。其中,云計算是指通過網絡提供可伸縮的廉價的分布式計算能力,它是進行大數據研究最不可或缺的一環。而大數據通常是數量巨大的半結構化和非結構化數據,實時的大型數據分析需要借助如Map Reduce框架來為數以千計的電腦分配工作。

圖6 國外大數據研究的關鍵詞共現
在可視化和社交網絡方面,大數據也具有非常廣闊的應用前景。社交網絡在近幾年風靡全球,注冊用戶節節攀升,看似雜亂無章的龐大后臺數據中蘊含著驚人價值。Facebook、Twitter等著名社交網站正基于自身的數據源開展大數據的分析研究。此外,大數據的可視化也是目前研究的重要方向之一。
結合圖7可知,我國在大數據領域的研究中涉及的關鍵詞主要有云計算、物聯網、數據挖掘、數據分析、信息服務、圖書館等。圖7中,云計算、物聯網、數據挖掘、圖書館、信息服務等數據節點比較突出,說明它們與大數據研究關系更加密切。究其原因,大數據的根本在于數據挖掘,目的是從大量的半結構化和非結構化數據中獲取有用的知識或潛在的價值。從總體上來看,云計算是進行數據挖掘的重要技術平臺支撐,物聯網是大數據產生的源泉之一,而圖書館則是借助大數據環境下的有利因素更好地為讀者提供信息服務。

圖7 國內大數據研究的關鍵詞共現
從關鍵詞共現的角度來看,國內外學者都十分重視大數據與云計算的結合,充分利用云計算的分布式并行計算能力進行海量的、復雜的數據處理,實現大數據的高效處理。然而,國內外學者研究的側重點也有所不同:國外學者的研究主要集中在算法、框架、編程、系統性能、可視化等技術領域,從底層來豐富和完善大數據;國內學者則主要偏向于大數據的應用研究,涉及信息服務、移動互聯網、電子政務、圖書館等多個方面。
通過對WOS中有關大數據研究的刊發期刊(如圖8所示)進行分析不難發現:美國計算機協會通訊(COMMUN ACM)、科學雜志(Science)和自然雜志(Nature)是國外大數據研究成果匯聚的核心期刊,2012年三大期刊的影響因子(Impact Factor)分別為2.511、31.027和38.579。還有一些為大數據研究開辟的專刊,如BIG DATA NEXT FRONTI,這些期刊共同構成了國外大數據研究的知識共享陣地。

圖8 WOS中大數據研究的刊發期刊
國內大數據研究所刊發的期刊涉及的領域主要有計算機科學、圖書情報學、信息通信技術、新聞傳媒、電子政務、企業管理等方面(如圖9所示)。其中,圖書情報領域的核心期刊《圖書與情報》刊發了多篇有關大數據給圖書館帶來的機遇與挑戰的文章,具有較高的影響力。

圖9 CNKI中大數據研究的刊發期刊
筆者以近5年(2009~2013年)來WOS和CNKI中有關大數據研究的論文為研究對象,從計量學的角度,利用知識圖譜工具剖析了大數據領域的國內外研究現狀,著重分析了高被引文章、高產作者、研究機構、期刊、關鍵詞和應用領域等方面的內容,歸納后得到以下幾點結論。
①國內外學者都非常重視大數據的研究,國外研究起步較早,主要偏向于大數據的應用方面;而國內的研究則相對較晚,但既注重基礎理論的探討也重視應用領域的研究。
②大數據涉及的學科主要有計算機科學、醫學、生物學、經濟學、政治學、信息科學、生態學、社會學等,可見大數據研究是一個多學科交叉融合的典型,它為其他學科的發展提供了新的視角,但其自身也處在不斷發展完善之中。
③大數據研究的相關熱點領域主要有云計算、物聯網、圖書與情報、商業管理、移動互聯網、新聞傳媒等。大數據的研究歸根結底在于應用,就目前的發展趨勢來看,大數據擁有非常廣泛的應用前景。
④高等院校和商業研究機構是大數據研究的兩大主力軍,從事大數據研究的機構既有像哈佛大學、北京大學、中國人民大學這樣的高等學府,也有諸如微軟研究院、麥肯錫研究院、中國電信研究院之類的商業研究機構,這些都是產學研相結合的最佳實踐。
從目前發展趨勢來看,大數據與云計算、物聯網等技術手段的融合將會更加深入,應用領域也將不斷擴展,處理結果將會更多地以可視化方式加以呈現,最終成為戰略決策的支撐。
[1]工業和信息化部電信研究院.大數據引發的安全問題及應對措施.[EB/OL].[2014-03-15].http://www.catr.cn/kxyj/catrgd/201403/t20140314_1003862.html.
[2]Big Data Across the Federal Government[EB/OL].[2014-03-15].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf.
[3]李國杰,程學旗.大數據研究:未來科技及經濟社會發展的重大戰略領域——大數據的研究現狀與科學思考[J].中國科學院院刊,2012(6):647-657.
[4]Big Data for Development:Opportunities&Challenges[EB/OL].[2014-03-15].http://www.unglobalpulse.org/sites/default/files/Big Data for Development-UNGlobal Pulse June 2012.pdf.
[5]Big Data:The Next Frontier for Innovation,Competition,and Productivity[R/OL].[2014-03-15].http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation.
[6]Big Data.Nature,2008(7209):1-136.
[7]Science.SpecialOnlineCollection:DealingwithData[EB/OL].[2014-03-15].http://www.sciencemag.org/site/special/data/.
[8]Chris Snijders,Uwe Matzat,Reips.“Big Data”:Big Gaps of Knowledge in the Field of Internet Science[J].International Journal of Internet Science,2012(1):1-5.
[9]Big Data Definition.[EB/OL].[2014-03-15].http://mike2.openmethodology.org/wiki/Big_Data_Definition.
[10]What Is Big Data?[EB/OL].[2014-03-15].http://www.villanovau.com/university-online-programs/what-is-bigdata/.
[11]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013(1):146-169.
[12]Chen,CM.CiteSpace II:Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature[J].JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY,2006(3):359-377.
[13]Jacobs,Adam.The Pathologies of Big Data[J].COMMUNICATIONS OF THE ACM,2009(8):36-44.
[14]Murdoch,TB,Detsky,AS.The Inevitable Application of Big Data to Health Care[J].JAMA,2013(13):1351-1352.
[15]Trelles O,Prins P,Snir M,Jansen RC.Big Data,But Are We Ready?[J].Nature Reviews Genetics,2011(3):224.
[16]Hirsch,J.E.An Index to Quantify an Individual’s Scientific Research Output[J].Proceedings of the National Academy of Sciences of the United States of America,2005(46):16569-16572.
[17]王珊,等.架構大數據:挑戰、現狀與展望[J].計算機學報,2011(10):1741-1752.
[18]覃雄派,等.大數據分析——RDBMS與MapReduce的競爭與共生[J].軟件學報,2012(1):32-45.
[19]韓翠峰.大數據帶給圖書館的影響與挑戰[J].圖書與情報,2012(5):37-40.