基于文獻聚類的高校科研成果量化分析

2011-04-29 00:00:00李遠明胡魁菊祝方林周勁

現代情報 2011年6期

〔摘要〕高校圖書館依托文獻資源優勢，結合業務工作特點，采用文獻計量的方法，從文獻的角度對高校科學研究事業進行合理的評價，是高校圖書館開展信息服務、創新服務領域的重要形式之一。本文以湖北民族學院十一五期間發表的科研論文為研究對象，采用頻次統計和聚類分析方法對提取出的樣本數據進行了定量分析，并藉此為高校科學研究事業的健康發展提供數據支撐和理論支持。

〔關鍵詞〕文獻計量；聚類分析；頻次統計；信息服務

收稿日期：2011－03－28

作者簡介：李遠明（1969－），男，副研究館員，碩士，研究方向：信息檢索與服務、信息計量分析等，發表論文數篇。

DOI：10．3969／j．issn．1008－0821．2011．06．029

〔中圖分類號〕G250.252 〔文獻標識碼〕A 〔文章編號〕1008－0821（2011）06－0113－05

Quantitative Analysis Based on Document Clustering for University Research

Li Yuanming Hu Kuiju Zhu Fanglin Zhou Jin

（Library，Hubei University for Nationalities，Enshi 445000，China）

〔Abstract〕Reasonable evaluation for university scientific research cause is one of the important forms for university library to perform information services and innovative services，relying on the literature library resources，combining with features of professional work，using bibliometric methods from the perspective of the literature.This paper analysed the sample data extracted from the scientific papers published during the Eleventh Five of Hubei University for Nationalities，using the methods of frequency statistics and cluster analysis，and provided data and theoretical support for the healthy development of scientific research cause of Hubei University for Nationalities.

〔Key words〕bibliometrics;cluster analysis;frequency statistics;information services

科研工作是高等學校的中心工作之一，科研水平的高低，科研能力的強弱，是構成高校綜合實力的重要條件。科研論文是科學研究活動的主要產出形式，其數量和質量反映了科學研究的成果和效率，其內容反映了高校的研究特色與研究方向。因此，通過對高校科研人員所發表論文的計量分析，可準確獲知該校在某一研究領域或某一給定的時限內的科研概況。

本文利用中國知網（CNKI）的中國學術期刊網絡出版總庫，依據文獻計量學方法，對湖北民族學院（以下簡稱該校）2006－2010年（即十一五期間）的科學研究活動進行評價，以期對該校科學研究事業的健康發展提供數據支撐和理論支持。

1 數據來源和分析方法

1.1 數據來源及樣本的選取

選擇中國知網（CNKI）的中國學術期刊網絡出版總庫為數據來源，該庫收錄了7 579種學術期刊，文獻來源覆蓋率達到了99%。檢索時間限定為2006.1.1-2010.12.31，作者單位以“湖北民族學院”為檢索詞，以模糊匹配方式進行檢索，共得到記錄4 149條，去掉1條無用數據，共得到數據4 148條，并以其作為樣本進行分析。

1.2 數據分析方法

根據文獻計量學原理，采用頻次排序技術，將被統計分析的對象（如樣本數據中的期刊、作者和關鍵詞等要素）按照它們出現的頻次從高到低排序，以SPSS17.0和BICOMB等軟件為統計分析工具，對該校十一五期間發文期刊頻次、關鍵詞頻次進行統計分析，并以關鍵詞共現聚類分析方法來揭示該校十一五期間科學研究的重點領域及研究趨勢。

2 結果與分析

2.1 概況

中國知網（CNKI）的中國學術期刊網絡出版總庫中共收錄該校十一五期間所發表論文4 148篇（見表1）。可以看出，中國學術期刊網絡出版總庫中2006-2007年收錄該校發表論文總篇數占到了十一五期間該庫中收錄該校論文總篇數的47.3722%，為1 965篇。2008-2010年共2 183篇，占52.6278%，且這3年每年的篇數基本持平。

表1 2006-2010年中國學術期刊網絡出版總庫檢出文獻

2.2 發文期刊分布

樣本數據中4 148篇論文共分布在970種期刊中，平均載文量4.3篇，本文將期刊頻次閾值大于11的期刊在表2中列出，共49種期刊。

表2 期刊頻次統計表（頻次閾值12以上）

續表2

該刊2006.1.1-2010.12.31載文總數該校作者2006.1.1-2010.12.31在該刊的載文率

從樣本統計數據看出，有516種期刊僅登載該校作者的1篇文獻，占發文期刊總種數的53.2%，除該校學報外，登載該校作者論文2篇以上的期刊有451種2 625篇，占期刊總種數的46.5%。5年中該校有1 007篇文獻發表在該校學報上，占樣本數據中文獻總篇數的24.3%，由此可見，該校學報是該校科研論文產出的搖籃。從該校作者發表文獻的空間分布來看，呈現分散的特點，涉及期刊多而廣，且核心期刊載文率偏低。表2中部分期刊5年載文總數偏高，其學術性值得商榷。本文認為，單純的論文產出不能代表高校科研人員的論文能力，提高論文產出能力應該注意將學術論文按學科相對集中地發表到高層次的期刊上，并關注論文的被引率。

2.3 關鍵詞分析

2.3.1 關鍵詞樣本數據的抽取

主題詞和關鍵詞作為一種檢索語言和標識語言，集中反映了文獻數據庫中論文內容的主要觀點。基于文獻計量領域著名的齊普夫定律，通過觀察主題詞和關鍵詞在數量上的變化，可以了解某一學科或專業領域的發展階段和發展動向［1］。因此對其匯總和統計分析，即可直接反映出某一學科、某一領域或某一學術團體科學研究的結構和趨勢。

本文從樣本數據中提取了關鍵詞共17 818個，頻次2次以上的關鍵詞占關鍵詞總數的50.1%，只出現1次的關鍵詞占49.9%，關鍵詞離散程度較大。關鍵詞詞頻統計及排序結果顯示，該校十一五期間科學研究內容豐富，特色明顯。現將關鍵詞出現頻次10次（共109個）以上，且去除對策、發展、現狀、問題等無實際標識意義的關鍵詞共25個后，剩下84個關鍵詞，列于表3。

表3 關鍵詞列表

2.3.2 高頻關鍵詞聚類分析

僅僅對關鍵詞按照出現頻次由高到低的排列還不能表現出這些高頻關鍵詞之間的聯系，因此我們采用共現分析的技術來進一步挖掘這些關鍵詞之間的聯系。關鍵詞的共現分析是根據關鍵詞在同一篇論文中共同出現的次數來表示關鍵詞之間的聯系。一般認為，如果兩個關鍵詞頻繁在同一篇論文中同時出現，往往表明這兩個關鍵詞之間具有比較密切的聯系，這就是共現分析的理論基礎。由此，我們對這些高頻關鍵詞的共現次數進行兩兩統計，并進行聚類分析，可以對當前某學科領域或某一學術團體的科學研究情況進行歸類，從而發現當前研究的熱點與趨勢［2］。

本文采用BICOMB軟件對樣本數據中4 188篇文獻中的關鍵詞進行了分析，并生成了表3中84個高頻關鍵詞的84×84共現關系矩陣，矩陣片斷見圖1。

圖1 關鍵詞共現矩陣片斷

將此矩陣導入SPSS17.0中進行聚類分析。采用分層聚類的方法，聚類開始時把參與聚類的每個關鍵詞視為一類［3］，根據兩類之間的距離（歐氏距離平方）逐步合并，直到合并為一個大類為止，聚類分析結果見圖2聚類樹形圖（片斷）。

通過對聚類樹形圖的觀察，并結合各類關鍵詞之間的語義關系，得出該校十一五期間科學研究的熱點主要包括以下幾個方面：第1類，厚樸酚及和厚樸酚的提取方法，其含量的測定方法，厚樸酚及和厚樸酚的應用等；第2類，以藤茶為研究對象，研究藤茶中黃酮的提取及分離純化工藝，研究藤茶中多糖和硒多糖的抗氧化性、穩定性及活性；第3類，以科學發展觀為指導，探索恩施州內新農村建設及和諧社會的構建，從循環經濟建設的角度尋求可持續發展；第4類，竹節人參的抗炎鎮痛研究；第4類，以魔芋和玉米為研究對象，研究硒多糖的賦存形態和藥理作用；第5類，糖尿病的診斷與治療；第6類，研究番石榴葉、長葉胡頹子、黃連等中藥成分對大鼠結腸炎的療效；第7類，研究鄧小平理論對構建社會主義的普遍指導意義；第8類，研究五鶴續斷的提取工藝；第9類；病人并發癥的護理及其健康教育；第9類，研究民族地區、土家族聚集地區文化內涵的建設；第10類，研究高校大學生心理健康問題；第11類，以土家族及其語言為研究對象，深入研究其文化變遷過程；第12類，研究白術、黨參、天麻、麥冬、何首烏、地茶等中藥成分的抗氧化酶作用。另外還有近30個關鍵詞的聚類結果不明顯，說明這些領域的科研合力還有待進一步加強。

3 結語

基于文獻計量原理，運用頻次統計和共現聚類分析方法對高校科學研究事業進行定量分析和評價，是高校圖書館開展信息服務、創新服務領域的重要形式，對高校正確制訂科學研究發展規劃、加強學科建設、構建和完善以質量為導向的高校科研評價指標體系與管理模式等方面具有重要意義。應該看到，由于樣本數據總量較大，本研究在

圖2 聚類樹形圖（片斷）

頻次閾值的取值上相對較大，造成部分論文被排除在外，也許有部分研究熱點未顯現出來。可見，研究對象的選擇、樣本數據的規范化處理、閾值的確定、聚類方法的選擇和統計的誤差等方面都可能會影響到分析結果的客觀性，這也是今后研究中值得推敲的關鍵所在。

參考文獻

［1］查先進.信息分析與預測［M］.武漢：武漢大學出版社，2000：179-180．

［2］崔雷.當年高被引論文的主題詞鏈聚類分析及其在情報預測中的應用［J］.情報學報，1995，(5):368-373．

［3］盧紋岱.SPSS for Windows 統計分析（第二版）［M］.北京：電子工業出版社，2002：338-374

現代情報2011年6期

現代情報的其它文章: 移動數字圖書館現狀及發展研究; 獨立學院圖書館讀者信息教育實踐研究; 百度“知道”對數字圖書館書目檢索的啟示; 信息資源配置模式及其優化設想; 大學機構庫構建過程中的關鍵問題研究; 我國農戶信息需求及其變化的四維影響因素分析