劉玲玲
(天津醫科大學圖書館 天津 300070)
?
近十年中外圖書情報學大數據研究論文比較分析
劉玲玲
(天津醫科大學圖書館天津300070)
在大數據研究已然成為各行各業共同關注的大背景下,對近十年中外圖書情報學大數據研究的學術論文展開主題分析具有現實意義。以萬方數據庫和EBSCO數據庫為數據源,借助高頻詞統計軟件及主題分析法,對高頻詞語進行系統性與綜合性比較,揭示中外大數據研究的熱點及發展趨勢。對比分析發現,數據、技術、服務是中外共同關注的主題熱點。
大數據;圖書情報;詞頻分析
近年來,圖書情報學界有關大數據的文獻報道迅猛增長,這說明大數據專題研究已經成為這一學科研究的重點。在這樣的背景下,從發文時間、學科發展特點及主題詞分析等方面對中外大數據論文進行統計分析,有助于我們及時掌握該專題領域的研究熱點與重點,了解其學科發展趨勢,為該專題領域研究的深入開展和未來發展提供參考和借鑒。
1.1文獻來源
以萬方數據庫和EBSCO數據庫為數據源,學科設定為圖書館學和情報學,檢索時間限定為2005年1月1日至2014年12月31日。萬方數據庫,以大數據為檢索詞,選擇題名或關鍵詞字段進行檢索。EBSCO數據庫,以“big data”為檢索詞進行主題檢索,檢索執行時間為2015年10月6日。通過檢索數據下載,數據、文本特征提取,將相關信息進行歸納和統計分析。
1.2研究方法
本文采用基于詞頻統計的內容分析法。該方法是一種基于定性分析的量化研究方法,是透過詞頻現象探視內容本質的科學方法。它的主要原理是以具體某組詞在樣本文獻中出現的次數為基礎進行詞頻分析,揭示不同語詞之間的相互關系,進而分析該領域研究的結構和熱點。
2.1論文及詞頻統計
2005年—2014年,萬方數據庫刊載大數據論文5 963篇,關鍵詞24 423個;EBSCO數據庫刊載398篇,關鍵詞2 160個,如表1。

表1 中外大數據研究論文及詞頻年代分布
2.2發文量及發表時間比較
2005年—2014年間,中外大數據論文及其關鍵詞數量均呈上升趨勢,表現出不同的發展特點。
2.2.1研究特點比較
2005年-2014年間,大數據相關英文論文398篇,大數據相關中文論文5 963篇,是英文論文發文量的14.98倍。另外,EBSCO數據庫大數據論文最早可追溯到1968年,萬方數據庫可追溯到1998年。因此,可以推斷,國外大數據研究起步早,但發展平緩;國內研究雖然起步比較晚,但是發展迅速,后來者居上。
2.2.2發展階段比較
國外2005年至2010年為起步階段,5年發文20篇,占總發文量的5.03%,研究呈現緩慢、零散的特點;2011年至2012年為快速發展階段,2年發文76篇,占論文總量的19.10%;2013年至2014年為高速發展階段,2年發文302篇,占發文總量的75.88%,詞頻1 624次,占詞頻總量的75.05%。2014年達到峰值,發文171篇,詞頻931次。與之不同的是,國內2005年至2012年間,文獻數量平穩增長,年平均發文量達575篇,2013年至2014年間,發文數量階梯式上升,呈現高速發展勢頭。
3.1中外高頻詞統計
2005年-2014年,中外文大數據相關論文共計6 361篇,關鍵詞26 583個,總詞頻為12 078。由于高頻關鍵詞數量較多,受篇幅所限,故選取中外論文關鍵詞中詞頻位居前20位的高頻詞,如表2。

表2 中外大數據相關文獻高頻詞分布

續表2
從表2可知,大數據論文高頻中文詞主要有大數據、云計算、關聯數據、關聯規則、圖書館服務等;高頻英文詞主要有Big data、Database management、Data analysis、Information resources management、Data mining、Information services等。
3.2中外大數據論文共同關注熱點分析
中外高頻關鍵詞頻次分別為785、620,占其詞頻總量的7.31%、46.30%。從某個側面,這些高頻關鍵詞可以代表中外大數據論文研究的熱點與重點。
3.2.1數據是第一大研究熱點
圖書情報機構在長期的資源使用、存儲、管理過程中,累積了大量不同類型的數據,如傳統數據、電子數據、社交網絡媒體交互數據等。這些數據集合構成的大數據,成為圖書情報機構開展各項服務的基礎。國內外學者對數據研究的熱情同樣高漲:中文“數據”高頻詞有大數據、關聯數據、數據中心、數據采集器、元數據倉儲、采訪數據等,總頻次399,占高頻詞總頻次的50.83%;外文高頻詞有Big data、Data analysis、Data mining、Data libraries等,總頻次293,占高頻詞總頻次的47.26%。中外“數據”高頻詞分別占高頻詞總量的大約1/2,說明國內外大數據論文都很重視對數據相關問題的研究。
對不同數據集合進行整合處理、深層次挖掘,為圖書情報機構服務模式創新及未來發展趨勢提供分析與預測[1];大數據的存儲及其安全技術問題;新型數據類型的互聯共享等等,未來仍將是大數據專題研究領域的重點內容。
3.2.2云計算、云存儲、聚類分析、算法等技術研究是第二大熱點
大數據時代強調對所有數據的分析處理。海量數據的處理、運算及存儲管理催生出新技術,如云計算、云存儲、聚類分析等。這些新技術以及技術的不斷創新,關乎大數據背后隱藏的高價值的經濟價值和社會效應。中文“技術”高頻詞有云計算、關聯規則、聚類分析、數據采集器、云存儲、決策樹等,總頻次229,占中文高頻詞總量的29.18%。外文高頻詞有Data mining、Information technology、Cloud computing、Algorithms等,總頻次147,占外文高頻詞總量的23.71%。
技術是大數據發揮決策及管理作用的支撐。依托大量數據,借助關聯數據、語義化、本體等技術及數據挖掘分析軟件等工具實現知識服務[2],未來仍將是中外大數據研究的重點和熱點。因此,圖書情報人員應該從圖書館的實際出發,加強對大數據技術的研發。
3.2.3服務是第三大研究熱點
服務是圖書館的生命,是圖書館核心價值的體現。全數據的出現為圖情機構創新服務模式和服務內容提供了新的視角與思維。服務群體的不斷擴大、用戶需求及需求實現途徑的多樣化、個性化,以及基于需求導向的服務創新,是大數據時代圖情機構創新服務的重點。中文“服務”高頻詞有圖書館服務、服務模式、學科服務、個性化信息服務、服務創新,總頻次136,占高頻詞總頻次的17.33%;外文高頻詞只有Information services,頻次22,占高頻詞總頻次的3.55%。綜上可以看出,國內對于服務的研究熱情遠遠高于國外,國內更注重服務方面的理論研究。
大數據時代,不同類型資源的開發利用得到了空前深化,資源重組之后的新知識、新價值日益凸顯。借助大數據的優勢,創新服務方式更好地適應圖書情報機構用戶的個性化需求,進而創造需求將是未來中外圖情界大數據研究的重要內容之一。
3.3中外大數據論文不同關注熱點比較
對比中外大數據論文的前20位高頻詞,我們既可以發現中外學術研究共同關注的焦點問題,也能發現它們研究的不同側重點。
3.3.1國外大數據論文更加重視對于信息的研究
信息是圖書情報機構提供服務的基礎。大量繁冗復雜信息的獲取、存儲、管理、服務及信息技術的研發等,有助于提高圖書情報機構的信息服務水平。“Information”相關高頻詞有Information resources management、Information services、Information technology、Information retrieval、Access to information、Information storage & retrieval systems、Information resources,總頻次為162,占高頻詞總頻次的26.13%。國外學者重視對信息技術、信息存儲、信息獲取、信息管理、地理信息系統等的研究。國內前20位高頻詞中只“個性化信息服務”一詞涉及信息,然而該詞本身強調的是服務,并非信息。
從機構存儲的角度出發,凸顯大數據的特征和優勢。運用大數據可視化技術,從更多維度來深度揭示信息背后的隱性關系,挖掘新知識,創造新價值,將是未來大數據研究關注的焦點,國內應該加強對于信息存儲管理及技術的研發。
3.3.2國外大數據論文更加重視對于大數據本體的研究
大數據是互聯網和云計算的產物。互聯網、數據庫、搜索引擎等是大數據存在的根本,大數據的出現,加劇了現代化圖書情報機構在服務內容與服務方式對于它們的依賴。同時,借助互聯網蓬勃發展的社交媒體,能夠以文本、圖像、音樂和視頻等多種不同的形式來呈現。社交媒體傳播的信息儼然成為大數據的重要部分。國外學者重視在線社交網絡等網絡信息資源的收集與利用。相關高頻詞Internet、Search engines、Social media等,而國內高頻詞卻鮮有提及。綜上,大數據的本體研究應該成為未來大數據論文研究的一個重要方向,只有這樣才能讓大數據更好地為圖書情報機構服務。
大數據時代,中外大數據論文共同關注的研究重點與熱點——數據、技術、服務,與圖書情報機構服務用戶的核心價值是一致的。大數據的理論研究與技術開發百花齊放,為圖書情報機構實施和推動大數據應用,創新服務模式和服務內容具有較大的理論價值和現實指導意義。國外大數據研究起步較早,而國內學者奮力直追,到了中期,從數量上超過了國外相關研究文獻。縱觀國內外文獻研究特點,可以斷定大數據研究目前仍處于強勁發展階段。與國外相比,國內更加側重于理論研究,研究內容趨同,缺乏足夠的實踐支持。未來,國內學者應該在理論與實踐相結合的基礎上,加強大數據的應用與策略性研究、加強大數據各種技術的研發。圖書情報機構應該積極尋找大數據應用的切入點,從用戶和用戶需求出發,利用大數據更好地提供服務才是根本。
[1]韓翠峰.大數據帶給圖書館的影響與挑戰[J].圖書與情報,2012,(5):37-40.
[2]祝森生.大數據時代關于智慧圖書館的幾個研究問題探討[J].圖書與情報,2013,(5):126-128.
G254
A
2015-11-12責任編輯:孫煒)