曲 悅
(遼寧廣播電視大學,遼寧 沈陽 110034)
大數據這一概念無論在學術領域還是在現實社會中都已經受到了極大的關注。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中指出,大數據是指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。[1]關于大數據理論的研究現在發展到何種程度卻是一個值得探討的問題。筆者利用相關分析工具,基于5種常用文獻對于大數據理論的研究現狀進行聚類分析,希望能夠對大數據相關研究人員提供一定的借鑒。
為了能夠更加真實全面地反映近十年我國大數據理論的研究現狀,筆者將圖書、期刊、報紙、學位論文、會議論文5種常見的文獻作為數據統計對象,并利用超星發現平臺的海量數據作為主要統計源,將CNKI的相關數據作為輔助統計源。為了讓檢查結果更加準確、可靠。筆者以“大數據”作為檢索詞,以題名和關鍵詞作為檢索入口,二者進行“邏輯或”檢索,并將時間限定在2007-2016年之間。
筆者以超星發現平臺作為聚類分析工具,因為該平臺除了擁有海量的數據資源——期刊論文、學位論文等數據外,還擁有近300萬種的圖書資源及各類資源之間的相互引證關系,另外該平臺還可以通過分面聚類、引文分析、知識關聯分析等方式,實現高價值學術文獻發現、縱橫結合的深度知識挖掘、可視化的全方位知識關聯功能。這些功能非常適合本次分析研究。[2]
根據上述檢索條件,截至2017年1月19日,得到檢索結果92444條,其中5類常用文獻83661條,即圖書706種,期刊論文41272篇,報紙文章38581篇,學位論文1370篇,會議論文1730篇。檢索到的其他相關文獻中,數量較多的是信息資訊、專利信息、視頻資源及法律法規。而5種常用文獻總量,占所有被檢索到的相關文獻總量的90.5%,這表明,通過對5類常用文獻的統計分析,能夠反映出大數據理論研究的現狀。
通過對各年發文量進行統計,可以看出某一研究領域的學術研究趨勢和關注程度。通過年發文量的趨勢圖可以看出該研究領域所處于的發展階段。[3]筆者將與大數據相關的5種常用文獻進行年發文量統計,并繪制趨勢曲線圖。由于期刊論文和報紙文章與其他3種文獻類型的年發文量在數量級上有差別,故分別制作曲線圖表以表示5種文獻的學術研究發展趨勢,如圖1、圖2。

圖1 大數據理論期刊論文、報紙文章學術趨勢圖

圖2 大數據理論期刊論文、報紙文章學術趨勢
根據圖1和圖2可以看出,大數據理論研究現在處于一個高速發展階段,尤其是2011年以后,各類文獻的發文量均呈現出幾何級增長趨勢。
報紙文獻和期刊文獻能夠較為及時地反映出某一領域研究的重點方向。從圖1可以看出,2009年大數據的研究開始走進研究人員的視野,到2011年,數據曲線開始呈現井噴狀,表明該領域的研究已經受到學術界的極大關注,并且研究熱情持續高漲,一直到現在。
從學位論文和會議論文曲線上看,同樣可以得出相同的結論,即大數據研究現在處于高速發展階段。雖然,會議論文曲線在2014年出現一個拐點,但2014年和2015年的會議論文總量并沒有太明顯的差異,對于學術趨勢向上發展的結論并沒有產生影響。同時,每年舉辦的相關學術會議場次也是有規律的,所以這一結果可以接受。而對于學位論文和會議論文在2016年均有所減少,這應該是因為數量統計結果是2017年初,很多相關的成果還沒有及時錄入到數據庫當中所致。
從圖書曲線來看,也可以反映出大數據理論研究的上升發展趨勢。從2011年出版第一部相關著作后,每年的圖書出版量都在迅速上升。因圖書出版周期較長,但仍然能夠長時間保持一種上升曲線,這對于大數據理論的發展趨勢是一個非常重要的印證。
通過對某一研究領域的相關關鍵詞進行聚類分析,可以了解到該研究領域的研究重點和研究熱點,有利于其他研究者精準選取研究方向,或者相關資源。筆者對與大數據相關,且出現頻次超過300次的關鍵進行了統計,如表1。

表1 大數據熱門相關關鍵詞統計
根據統計結果可以看出,與大數據最相關的4個關鍵詞分別是云計算、數據挖掘、數據分析和物聯網,這4個關鍵詞的出現頻次都超過了1000次。表明在大數據研究領域中這4個方面是最重要的研究方向。通過對所有熱門關鍵詞進行分析可知,大數據理論的研究重點和熱點主要集中在以下幾個方面:一是大數據分析研究,如云計算、數據挖掘、數據分析、海量數據,數據處理等。二是大數據用途研究,如電子商務、精準營銷、物聯網數據應用等。三是大數據相關技術與工具研究,如信息技術、hadoop等。四是大數據安全與隱私問題研究,如信息安全、隱私保護等。根據關鍵詞共現網絡圖(如圖3),可以很直觀地看出這些關鍵詞之間復雜的共現關系。

圖3 大數據關鍵詞共現網絡
通過對某個領域的核心研究作者的成果進行研讀和分析,可以了解該領域的最新研究方向和動態,同時也有利于研究人員更快地尋找合作伙伴。筆者對相關作者發表與大數據相關論文的總量和以第一作者或獨立作者身份發表大數據相關論文的發文量分別進行統計,結果見圖3。
根據圖4可知,喻國明、楊光和王斌三位作者的相關發文總量和第一作者發文量都超過了30篇,表明這3位作者在大數據理論研究方面成果顯著,可以被認定為該領域的核心研究作者。通過各位作者的第一作者發文量和相關發文總量進行對比可知,大部大作者的這兩個數值都不相同,而且很多差別很大。這表明在大數據研究領域,研究者之間有較好的合作關系,這種合作關系對于大數據理論的橫向和縱深研究都有較好的推動作用。

圖4 大數據領域核心研究作者發文量統計
某個研究領域的核心研究機構同樣可以反映出研究領域的最新研究方向和動態,同時,通過對核心研究機構的研究成果進行分析和綜合,可以梳理該研究領域的發展軌跡和脈絡。筆者通過對研究機構的發文量進行統計,并將發文量排名前10位的研究機構進行降序排列,得到表2。
從表2可以看出,在大數據理論研究領域,武漢大學和中國人民大學表現較為突出,發文量在300篇左右,可以認定為大數據研究領域的核心研究機構。而北京大學、清華大學和中科院3個機構的發文量也都在250篇左右。說明,這3個研究機構的研究成果也較為突出,在大數據理論研究領域也起到了較大的推動作用。利用相關性氣泡圖(如圖5),可以清晰地看出這些機構與大數據理論研究的密切程度。另外,核心研究機構與核心研究作者有著非常密切的關系,核心研究作者很多都來自于核心研究機構,如喻國明和王斌來自于中國人民大學,張鵬來自于中科院,王偉來自于武漢大學。

表2 大數據領域核心研究機構統計

圖5 大數據理論與核心研究機構關系氣泡圖

圖6 大數據學科分布及跨學科主題分布
大數據理論在多個學科領域都擁有重要的研究價值,而哪個學科在大數據理論研究中效果更突出則是一個值得關注的問題,因此,筆者利用超星發現平臺和百度學術的學科聚類分析功能對“大數據”進行綜合分析,結論為:大數據理論在中圖法中的T(工業技術)、F(經濟)、G(文化、科學、教育、體育)、D(政治、法律)4個大類中研究成果較為突出,更為突出的分支學科分別為:計算機科學與技術、應用經濟學、信息與通信工程、教育學、圖書館與情報學、法學。另外,大數據的跨學科研究也發展迅猛,已經衍生出多個交叉學科主題,[4]具體研究主題見圖6。
每個學科都有其經典文獻,經典文獻對于研究人員的指導和引領作用是非常明顯的。雖然,學術界對于經典文獻定義暫時還不明確,但是高被引率應該是衡量文獻是否經典的一個得要指標,因此,筆者利用高被引著作和高被引論文對經典文獻進行一個簡單映射。利用超星發現平臺和CNKI數據庫,將與大數據相關的著作和論文按照被引用次數進行降序排列,并對前10名進行聚類分析,如表3和表4。
根據表3可知,維克托和肯尼思所著的《大數據時代:生活、工作與思維的大變革》和涂子沛老師所著的《大數據:正在到來的數據革命》備受關注,在短短3年之間被引次數都超過了500次,因此,這兩本書可以被認定為大數據理論研究的經典著作。同時,涂子沛老師有兩本著作入被高被引著作,說明涂子沛老師是國內大數據理論研究領域的領軍人物。如果想更快更全面地獲取大數據相關信息,可以對其著作進行認真研讀。高被引圖書中,有4本著作譯自于國外,這表明,我國在大數據理論研究方面在國外的借鑒方面做了很多努力。從出版社來看,清華大學出版社有3本入選,人民郵電出版社有兩本入選。研究人員在選擇研究著作時,可以對這兩個出版社的圖書更加關注。同時,2013年出版的著作占高被引著作的80%,因此,最近一段時間,可以更關注2013年的著作。
根據表4的高被引論文列表可知,孟小峰和慈祥撰寫的《大數據管理:概念、技術與挑戰》一文被引次數超過了1500次,遠遠超過其他論文,可以認定為該領域的經典論文。這篇論文值得所有研究人員認真研讀。從發表刊物來看,《計算機學報》有3篇論文入選,表明該刊對大數據理論研究方面的論文收錄質量更高,值得關注,同時也可以看出,高被引論文大部分都出自于計算機和軟件相關主題的刊物,這也從一個側面印證了大數據在計算機科學與技術領域的分布規律。從高被引論文的發表年份來看,同樣是2013年表現突出,這一年的論文在經過前期的鋪墊后,在質量上有了較大的提升。

表3 大數據領域高被引著作統計

表4 大數據領域高被引論文統計
大數據的理論研究從2009年開始引起學術領域的重視,2011年開始呈高速發展趨勢。云計算、數據挖掘、數據分析和物聯網這4個研究方向成為大數據的研究重點和熱點。喻國明、楊光和王斌三位作者的相關發文總量和第一作者發文量都較其他作者有明顯的優勢。因此可被認定為大數據理論研究的核心研究作者。武漢大學和中國人民大學作為核心研究機構,在大數據理論研究方面也成果顯著。大數據理論研究在計算機科學與技術、應用經濟學、信息與通信工程、教育學、圖書館與情報學、法學領域研究更加深入,同時也衍生了很多交叉學科。維克托和肯尼思所著的《大數據時代:生活、工作與思維的大變革》和涂子沛老師所著的《大數據:正在到來的數據革命》作為大數據理論研究領域的經典文獻值得認真研讀。孟小峰和慈祥發表的《大數據管理:概念、技術與挑戰》一文對于研究人員的借鑒作用也非常明顯。另外,2013年的大數據理論研究成果無論是著作還是論文都成果顯著,在一段時間內應該引起該領域的重視。
根據關鍵詞統計分析可以看出,雖然大數據的相關研究非常注重計算機科學與技術的應用,但是對于大數據的存儲問題和分析工具并沒有成為研究重點,但是數據存儲和數據分析工具作為大數據處理的基礎工具理應得到優先的發展,才能保證大數據在其他領域的實際應用。[5]同時,由于大數據的普遍應用,使得信息安全和隱私保護成為一項新的課題受備關注,而國內并有沒相應的法律法規作保障,只能依靠行業自律,這種情況很容易引起大數據應用過程中的數據濫用等問題,因此,有必要將相應的法律法規的制定提上日程。從經典著作分析中可知,國內更注重大數據理論框架的構建,而國外更注重技術的突破。因此,我們有必要多借鑒國外的先進技術,做到理論和應用共同進步。另外,大數據的出現使得數據價值得到了空前的重視,而數據可視化分析也開始走進研究人員的視野,這也將成為大數據研究的一個新的趨勢和熱點。[6]
[1]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作與思維的大變革[M].杭州:浙江人民出版社.2013:17.
[2]超星發現系統核心功能[EB/OL].[2017-03-03].http://ss.zhizhen.com/about/about.html.
[3]衣曉冰.近十年我國信息素養教育研究現狀分析——基于四類常用學術文獻的統計分析[J].圖書館界,2016(2):54-59.
[4]百度學術.大數據[EB/OL].[2017-03-20].http://xueshu.baidu.com/u/biye?tag=paper&wd=大數據&site=index_links
[5]官思發,等.大數據分析研究現狀、問題與對策[J].情報雜志,2015(5):98-104.
[6]劉成山,李玉,王潔良.大數據在圖書情報領域的研究現狀及趨勢分析[J].情報理論與實踐,2016(4):20-26.