田 恬 孫悅淇
基于關鍵詞詞頻分析的情報學研究熱點解析
田 恬 孫悅淇
本文以《情報理論與實踐》為數據源,運用文獻計量學的關鍵詞分析方法,對2010-2015年該刊的關鍵詞進行統計,從關鍵詞數量分析,關鍵詞詞頻分析,核心關鍵詞分析描述該刊載文學者學術研究現狀,進而揭示圖書館學情報學的研究熱點和發展趨勢。
情報學 關鍵詞 詞頻分析 研究熱點
《情報理論與實踐》是我國情報學領域的核心期刊,是情報理論與實踐工作前沿性指導性學術期刊。它全面、系統、及時、準確報道國內外圖書館學情報學與信息技術發展動態,在國內外享有較高聲譽且具有廣泛影響。關鍵詞分析作為文獻計量的一個重要方法,本文針對《情報理論與實踐》2010~2016的有效載文關鍵詞進行詞頻分析和共詞分析,試總結出圖書館學情報學領域近七年來的研究熱點和趨勢[1]。
(一)圖書館學情報學
情報學的發展具有一百多年的歷史,通常情況下認為情報學與圖書館學、文獻學以及信息系統學的研究都有著密切的關系[2]。因此情報學研究內容涉及“數據庫知識發現”研究、語義網研究、3G(Great Global Grid)研究、信息構建、知識管理研究、數字圖書館研究、信息技術應用、小世界現象研究等前沿領域[3]。將情報看作是一種知識,中國的情報研究基于美國范式、歐洲范式、蘇聯范式進行綜合集成,并創造了以科技情報研究為特色的情報學,后拓展到對其他領域的情報研究[2]。
(二)關鍵詞分析
關鍵詞是表達文獻主題概念的自然語言詞匯,他們能夠反映研究成果的核心內容。通過對一個期刊一段時期內關鍵詞變化的分析,可以全面把握該刊在此時間段內載文的研究熱點集中情況,而對某一領域頂級核心期刊的關鍵詞分析則能折射出該學科發展的動態過程,反映科研的研究熱點和發展動向[1]。
本項研究以中文社會科學引文索引(cSScI)和中國知網作為數據來源,從cSScI中按條件檢索2010-2015年所有發表在《情報理論與實踐》,文獻類型為論文的記錄共1946條。接著在cNKI上通過期刊名稱檢索取得2016年1月至今發表在《情報理論與實踐》雜志上的所有論文,并排除篇名中包含“情報理論與實踐”,“投稿”,“征稿”等與關鍵詞分析無關的文獻記錄共195條,以包含關鍵詞信息的Refworks格式導出。
下載好包含關鍵詞的文獻記錄之后,利用Python代碼編寫程序自動對記錄中的關鍵詞進行提取,并對一行關鍵詞記錄進行分詞保存到eхcel中;同時利用Python對關鍵詞詞頻進行逐年統計,分別保存到eхcel中。
(一)關鍵詞數量分析
《情報理論與實踐》2010-2015年刊載論文cSScI檢索共1946篇,所有論文有標引有關鍵詞,共標引關鍵詞4918個,平均每篇文章標引關鍵詞2-3個。截止至2016年 7月該刊當年載文cNKI檢索共195篇,共標引關鍵詞592個,其中86.67%文獻文標注有關鍵詞,平均每篇關鍵詞約3個。單從篇平均標引關鍵詞來看,其數量是在上升的,說明越來越多的作者規范自己的寫作格式,并有意識通過關鍵字的提煉來概括文章信息。需要說明的是cSScI與cNKI不同的數據來源出現統計差異,不僅說明了cSScI與cNKI收錄文獻質量的標準不同,也說明了關鍵詞是高質量的文章的衡量標準之一,同時也說明不同文獻類型對關鍵詞的要求不同,論文屬于對關鍵詞要求較高的文獻類型[4]。

表1 2010-2016年《情報理論與實踐》論文關鍵詞統計情況
(二)關鍵詞詞頻分析
在本次研究中,通過詞頻分析法,即利用能夠揭示或表達文獻核心內容的關鍵詞在《情報理論與實踐》刊載論文上出現的頻次高低來確定圖書館學情報學研究熱點和發展動向。關鍵詞不僅可以通過詞頻高低反映出圖書館學情報學領域的研究熱點問題和主要研究方向,其分布特征還可以分析出當前研究領域的集散程度[5]。
通過人工觀察,將該刊上關鍵詞出現的詞頻分為三個等級,低頻區:詞頻(0-5);中頻區:詞頻(6-14);高頻區:詞頻(15及以上)[5]。在此基礎上,利用eхcel對2010-2015年該刊載文關鍵詞在不同詞頻區間的數量關系。由下表可以看出,該刊關鍵詞詞頻分布呈現出嚴重的偏態分布,這也說明在圖書館學情報學領域研究方向廣泛,在傳統圖書館學情報學研究方向的基礎上,學者有多種研究方向可選。從側面上也說明《情報理論與實踐》載文內容發散性強,不局限與某一專題。

表2 2010-2015年關鍵詞詞頻分布表

2011年781 17 6 2012年811 19 4 2013年795 15 3 2014年857 14 3 2015年790 6 0
(三)核心關鍵詞分析
高頻關鍵詞數量少,但出現頻率都極高,反映著《情報理論與實踐》載文的研究熱點集中情況。結合后臺數據以及下表可以看出該刊2010到2015年的核心關鍵詞及其詞頻的變化情況,我們可以總結出該刊甚至是圖書館學情報學領域一直持續的研究熱點主要有四個方面:大專院校的圖書館管理、企業的競爭情報管理、知識與信息資源管理,以及情報研究模型。2015年和2016年的數據顯示并沒有像前幾年一樣高頻出現的核心關鍵詞,但是在互聯網加速發展背景下“大數據”、“數字圖書館”、“云計算”、“專利分析”等成為新的研究熱點。[6]

表3 2010-2015年《情報理論與實踐》高頻關鍵詞
關鍵詞使用規范化問題至關重要,這是我們無法避免的問題。在此次研究過程中,本文對《情報理論與實踐》刊登過的相同或者相近的研究課題論文,因不同作者使用的關鍵詞不同而導致對關鍵詞熱點研究領域出現細微偏差[7]。關鍵詞分析作為一種統計分析方法,無法避免地遇到精確性受到著者標引關鍵詞的人為影響,但這也應該是情報學研究的一個方向之一,對語義集合的歸納,同時也提醒像《情報理論與實踐》這類極具影響力的核心期刊對來稿關鍵詞的標引進行適當的規范[8]。
[1]倪麗娟,于淑麗.檔案學研究熱點分析基于2004省略檔案學通訊論文關鍵詞的詞頻分析[J].檔案學通訊,2010(1).
[2]馬費成.情報學發展的歷史回顧及前沿課題[J].圖書情報知識,2013(02):4~12.
[3]黃麗霞.情報學核心研究內容與未來發展前景[J].情報資料工作,2004(05):8~10.
[4]楊小華,王翩翩,秦峰.廣西植物關鍵詞分析[J].安徽農業科學,2011(20):12601~12602.
[5]李姍姍,張國強,徐桂芬.基于關鍵詞分析的ERP系統研究熱點評述[J].情報科學,2012(08):1272~1276.
[6]李靜,董良廣,游蘇寧.中國科技期刊研究2006年至2011年載文關鍵詞分析[J].中國科技期刊研究,2012(03):404~407.
[7]楊小華.生物工程進展論文關鍵詞的特征研究[J].農業圖書情報學刊,2002(02):37~39.
[8]雷曉慶,劉曉雁.圖書情報工作論文關鍵詞特征的統計分析[J].圖書情報工作,1998(05):20~21.
(作者單位:河海大學商學院)