胡利勇
(中共廣東省委黨校廣東行政學院圖書館,廣東 廣州 518000)
圖書情報領域高被引論文共詞聚類分析
胡利勇
(中共廣東省委黨校廣東行政學院圖書館,廣東 廣州 518000)
以中國知網(wǎng)期刊全文數(shù)據(jù)庫為數(shù)據(jù)源,利用書目共現(xiàn)分析系統(tǒng)Bicomb2對2011~2015年圖書情報領域高被引論文的核心關鍵詞進行提取、統(tǒng)計,并生成共現(xiàn)矩陣,借鑒普賴斯定律核心作者的測算方法,確定高被引論文高頻關鍵詞,然后通過統(tǒng)計軟件SPSS和可視化工具Ucinet、NetDraw對高頻關鍵詞進行社會關系網(wǎng)絡、共詞聚類和多維尺度分析,揭示當前圖書情報領域科研發(fā)展狀況和關注熱點。
普賴斯定律 共詞分析 聚類分析 社會網(wǎng)絡分析 高被引
高被引論文是被引用次數(shù)較高的論文,被引用頻次能夠較為客觀地反映出論文的學術水平和影響力。對圖書情報領域高被引論文進行統(tǒng)計,分析高被引論文高頻關鍵詞的特點,有助于我們了解和掌握近期圖書情報領域發(fā)展狀況、研究熱點和發(fā)展趨勢。文獻計量學中,普賴斯定律被用來確定高產(chǎn)和高影響力作者[1]。多數(shù)情況下,高產(chǎn)作者和高被引論文的分布具有相同或相似的規(guī)律,可以借用普賴斯定律確定高被引論文[2-3]。
1.1 文獻來源
利用中國知網(wǎng)期刊全文數(shù)據(jù)庫,采用高級檢索方式,時間期限設定為“2011年1月1日”到“2015年12月31日”,選擇“圖書情報與數(shù)字圖書館”作為學科領域,跨庫選擇“期刊”“博士”“碩士”“特色期刊”“國際會議”“國內會議”“學術輯刊”7個論文數(shù)據(jù)庫作為文獻來源庫,共檢索出124567篇文獻,按照被引次數(shù)倒序排列,單篇最大被引次數(shù)為171,借鑒普萊斯確定核心作者的方法[4],確定高被引論文最低被引次數(shù):,取整數(shù)10,即累計被引10次或者以上的論文作為核心候選文獻。
由于中國知網(wǎng)在檢索列表2000條以后就不再顯示被引次數(shù),而被引排序第2000位的論文,被引次數(shù)為11,與高被引論文候選范圍相當接近,因此將被引排名前2000的論文確定為高被引候選文獻。這2000篇論文總被引次數(shù)為43369,篇均被引次數(shù)為21.68,取整數(shù)22作為高被引論文指數(shù),即被引次數(shù)大于或等于22的論文作為筆者所研究的高被引論文,共578篇,去除重復文章3篇,共計575篇,占候選論文的28.75%,其中,博士學位論文兩篇,碩士學位論文4篇,期刊論文569篇;基金論文233篇,占40.52%。這些高被引論文總被引次數(shù)為22587,占候選文獻總被引次數(shù)52.08%,篇均被引39.28次,h指數(shù)為66。
1.2 研究方法和步驟
本研究主要利用Excel、Bicomb2、Ucinet、NetDraw和SPSS等工具和軟件,對選取的2011~2015年圖書情報領域575篇高被引論文進行統(tǒng)計分析,具體方法和步驟是:
①利用中國知網(wǎng)的參考文獻導出功能,選擇Notefirst方式,將樣本論文的題名、作者、關鍵詞等元數(shù)據(jù)導出為XML格式,并以文本(.txt)文件格式保存;②采用書目共現(xiàn)分析系統(tǒng)Bicomb2軟件[5],提取樣本論文的關鍵要素并進行統(tǒng)計,導出為Excel格式文件,多方面分析和討論;③選取高頻關鍵詞,在Bicomb2中生成共現(xiàn)矩陣;并利用Ucinet軟件和NetDraw工具,繪制核心關鍵詞知識圖譜;④運用SPSS19軟件進行數(shù)據(jù)聚類分析,獲得聚類樹狀圖和相異系數(shù)矩陣的多維尺度圖[6];⑤根據(jù)分析結果,總結圖書情報領域學術研究的趨勢和熱點。
利用Bicomb2軟件,提取575篇論文的發(fā)表年份、關鍵詞信息,根據(jù)它們出現(xiàn)的頻次,借鑒普賴斯定律確定核心要素信息。年份出現(xiàn)頻次即當年發(fā)表的論文數(shù)量;關鍵詞出現(xiàn)頻次,即每個關鍵詞在論文關鍵詞中出現(xiàn)的總次數(shù)。
2.1 年份分布統(tǒng)計
2011~2015年圖書情報領域高被引論文數(shù)量中(表1),發(fā)表越早高被引論文數(shù)量比例最高,表明論文累積被引次數(shù)主要與發(fā)表時間長短有關,發(fā)表時間越長,累積被引次數(shù)越大,高被引論文數(shù)量比例越高。

表1 2011~2015年圖書情報領域高被引論文年份分布
2.2 關鍵詞統(tǒng)計分析
抽取575篇高被引論文關鍵詞,共計得到1162個關鍵詞,累計出現(xiàn)2305次,頻次最多關鍵詞是“圖書館”,出現(xiàn)頻次100次,也就是說有100篇高被引論文使用了“圖書館”這個關鍵詞。利用普萊斯公式,確定核心關鍵詞最低頻次:,取整數(shù)8,即關鍵詞累計出現(xiàn)8次或以上的關鍵詞,作為高被引論文的核心關鍵詞,共得31個高頻關鍵詞(表2),占關鍵總數(shù)的2.67%,累計出現(xiàn)687次,占總頻次的29.80%。此外,頻次為7的關鍵詞有7個,頻次6的關鍵詞10個;頻次5的關鍵詞12個;頻次4的關鍵詞33個;頻次3的關鍵詞44個;頻次2的關鍵詞160個;頻次1的關鍵詞最多,有865個,占關鍵詞總數(shù)的74.44%。由此可見,2001~2015年,圖情領域高被引論文研究主題分布相當寬泛。

表2 2011~2015年圖書情報領域高被引論文高頻關鍵詞
這31個高頻關鍵詞反映了圖情領域的研究熱點,分析這些關鍵詞之間的關系,有助于我們確定圖書情報領域近年來的發(fā)展脈絡、熱點前沿和發(fā)展方向[7]。
3.1 社會網(wǎng)絡分析
分析2011~2015年圖情領域研究熱點,主要利用Bi?comb2軟件得到高被引論文的高頻關鍵詞共現(xiàn)矩陣,然后利用社會網(wǎng)絡分析軟件Ucinet6.0[8]和可視化繪圖工具NetDraw[9],繪制出基于中介中心度(Betweenness)分析和K-cores分析[10]的高被引論文高頻關鍵詞社會網(wǎng)絡關系圖譜。
圖中圓形點代表高頻關鍵詞節(jié)點,節(jié)點越大,代表該節(jié)點在整個關鍵詞網(wǎng)絡中的作用越大、控制其他節(jié)點共現(xiàn)的能力也越強;節(jié)點之間的關系用實線連接,實線越粗,代表相互之間的關系越強[11]。K-cores分析則是通過顏色來區(qū)分關鍵詞在整個網(wǎng)絡中的核心程度,紅色表示節(jié)點關鍵詞在網(wǎng)絡中處于核心地位[12]。

圖1 高頻關鍵詞社會網(wǎng)絡關系圖譜
高頻關鍵詞社會網(wǎng)絡關系圖譜。通過圖1,我們可以直觀地得到以下結論:(1)從節(jié)點大小來看,“圖書館”“高校圖書館”“數(shù)字圖書館”是圖情領域的三大核心,這3個核心對于揭示圖情領域研究主題和熱點意義不太大,或許只是界定范圍是“圖書館”而不是“博物館”“檔案館”“情報研究所”的一個標識,但是圖情領域的各項研究熱點,“學科服務”“大數(shù)據(jù)”“云計算”等是圖情領域熱點,都是圍繞著這三大核心而展開的。(2)從節(jié)點間距離和連線的粗細來看,“高校圖書館”與“移動圖書館”“學科館員”“學科服務”“微信”“智慧型圖書館”等距離較近、關系較為密切,說明高校圖書館關注點在于服務模式的改變,對移動圖書館和微信等服務新手段研究較多,學科服務也是高校圖書館研究的熱點問題,“高校圖書館”與“閱讀推廣”的連線很粗,表明高校圖書館在閱讀推廣中的研究也比較多;同樣,圍繞“數(shù)字圖書館”相關的研究包括“大數(shù)據(jù)”“云計算”“數(shù)據(jù)挖掘”等。(3)通過K-cores分析將從整個網(wǎng)絡分類,其中紅色圓形節(jié)點占據(jù)圖中大部分位置,且處于中心區(qū)域,說明它們是圖情領域的研究熱點,其他節(jié)點都是圍繞這些熱點延伸拓展的。
3.2 聚類分析和多維尺度分析
為了更加直觀地描述圖情領域高頻關鍵詞之間的距離和相似度,通過SPSS19的雙變量Pearson相關分析功能,把由Bicomb2提取出的高頻關鍵詞共現(xiàn)矩陣轉化為相關矩陣[13],然后在Excel中用“1”與相關矩陣全部數(shù)值相減,得到表示兩個關鍵詞間相異程度的相異矩陣(見表3),再用SPSS19對高頻關鍵詞進行系統(tǒng)聚類和多維尺度分析[14]。

表3 2011~2015年圖書情報領域高被引論文高頻關鍵詞相異矩陣(部分)
3.2.1 聚類分析
將關鍵詞相異矩陣導入SPSS19進行系統(tǒng)聚類分析[15],方法中選擇組間聯(lián)接,度量標準為區(qū)間“平均Euclidean距離”,繪制樹狀圖(圖2)。系統(tǒng)樹狀圖更直觀地顯示出了聚類的整個過程,上邊的橫軸方向,給出了各類別之間相對距離的大小[16]。

圖2 高頻關鍵詞主題聚類圖
依據(jù)聚類結果,可將圖書情報領域的研究分為4個主題:①新技術、新手段在圖書館信息服務中的應用研究。包括大數(shù)據(jù)、數(shù)據(jù)挖掘等在圖書館中的應用研究,微信、微博、移動信息服務等新服務手段在圖書館和閱讀中的應用研究,云計算、關聯(lián)數(shù)據(jù)知識服務在數(shù)字圖書館中的應用研究。②新研究方法、流程改造在圖書館中的應用研究。包括讀者決策的采購新流程在大學圖書館中的應用,大學圖書館對社會網(wǎng)絡分析、知識圖譜、共詞分析等新方法的應用研究。③圖書館學科服務模式創(chuàng)新研究。包括以學科館員、學科服務、嵌入式服務等為主題的學科服務模式創(chuàng)新研究,以高校圖書館和公共圖書館閱讀推廣為主題的服務創(chuàng)新研究。④圖書館發(fā)展新動向研究。包括物聯(lián)網(wǎng)環(huán)境下圖書館未來發(fā)展新方向的智慧圖書館研究,移動時代移動圖書館和手機圖書館的研究,以及在新環(huán)境下圖書館服務模式的變革研究。
3.2.2 多維尺度分析
多維尺度分析是研究對象之間的相似性或距離,將研究對象在一個低維(二維或三維)的空間形象地表示出來,進行聚類或維度分析的一種圖示法。將關鍵詞相異矩陣導入SPSS19進行“度量-多維尺度”分析,在距離中選擇形狀為“正對稱”,模型中度量水平選擇“區(qū)間”,度量模型為“Euclidean距離”,輸出得到圖3。
依據(jù)分析的結果,我們可以直觀地看出,多維尺度分析圖對高頻關鍵詞主題的劃分,與樹狀聚類圖的分類基本一致,其特征都是局部相對集中,整體比較分散,與中心點間的距離都比較遠,整體熱點不突出,局部熱點特征明顯。觀察圖3,我們把圖書情報領域的熱點問題大致劃分為4個類團:①位于坐標圖左上方的是“高校圖書館對嵌入式學科服務、閱讀推廣、讀者決策采購的研究類團”,其中,嵌入式學科服務、閱讀推廣距離中心最近,是該類團的研究熱點。②位于坐標圖右上方的是“圖書館對大數(shù)據(jù)、知識服務、微信、微博等新服務手段的應用研究類團”,其中,微信、大數(shù)據(jù)、數(shù)據(jù)挖掘、知識服務是該類團的研究熱點。③位于坐標圖最下方的是“新環(huán)境下圖書館發(fā)展的研究類團”。相比之下,該類團內部節(jié)點聯(lián)系松散,說明目前對該主題的研究還比較分散,由于該類團所處的位置可以預測,圖書館的變革都是由新技術帶動的,新的技術環(huán)境下,必然為圖書館發(fā)展帶來新的研究課題。物聯(lián)網(wǎng)、智慧圖書館是該類團的研究熱點。④位于坐標圖左下小圈是“圖書情報方法論研究類團”。社會網(wǎng)絡分析、共詞分析、知識圖譜等新方法,為圖書館學、情報學增添了活力,該類團中,共詞分析和社會網(wǎng)絡分析節(jié)點之間關系緊密,它們與知識圖譜都是研究熱點。

圖3 高頻關鍵詞多維尺度分析圖
以上對2011~2015年圖書情報領域高被引論文的分析,在一定程度上揭示這一領域的研究特征和熱點問題,但采用的方法可能還存在不少缺點,分析問題的角度還有很多不足之處。
(1)關于普賴斯定律的適用性。筆者的研究前提是借鑒普賴斯定律測定核心作者的公式,將其應用于高頻被引論文和核心關鍵詞的測定。雖然也有不少學者將此方法應用于高被引和核心文獻分析中,從分析結論來看,基本能夠反映真實情況,但此方法的適用范圍究竟如何,還需要科學的檢驗和論證。
(2)關于核心關鍵詞的確定。核心關鍵詞是筆者的研究重點,但在選取核心關鍵詞的時候發(fā)現(xiàn),有不少關鍵詞是意義趨同的,如“大學圖書館”和“高校圖書館”完全可以合并,還有一些關鍵詞對反映學科主題意義不太明確的“服務”“服務模式”“圖書館服務”以及“信息服務”等,這些關鍵詞該如何處理,筆者還沒有找到科學的解決辦法,所以只能將統(tǒng)計結果呈現(xiàn)出來,希望同行給出解決方案。建議學者在論文寫作確定關鍵詞時,能夠給出反映文章精髓的詞語,直扣主題、力求精準,盡量避免概念寬泛、萬象包羅的詞語。另外,僅從核心關鍵詞來確定圖書情報領域的研究現(xiàn)狀和熱點,還是不夠全面的。其實在搜集數(shù)據(jù)和撰寫論文的過程中,筆者對高被引論文的作者、發(fā)文單位以及核心期刊等也做了相關統(tǒng)計和分析,從這些指標綜合來衡量一個學科的發(fā)展,似乎更為科學。
(3)關于圖書情報領域的熱點問題。僅從研究的結論來看,圖書情報領域未來研究的重點方向是針對這些熱點主題的研究:嵌入式學科服務、知識服務是圖書館服務的發(fā)展趨勢;大數(shù)據(jù)、云計算是圖書館技術的發(fā)展方向;物聯(lián)網(wǎng)是圖書館將要面臨的環(huán)境;智慧圖書館是未來圖書館的樣子;共詞分析、社會關系網(wǎng)絡分析和知識圖譜是將來我們分析描述問題的方法。
[1]邱均平.信息計量學[M].武漢:武漢大學出版社.2007:192-195.
[2]劉雪立.基于Web of Science和ESI數(shù)據(jù)庫高被引論文的界定方法[J].中國科技期刊研究,2012(6):975-978.
[3]劉雪立,王兆軍.2004~2008年我國情報專題研究高被引論文的統(tǒng)計與分析[J].情報雜志,2010(1):64-67.
[4]鐘文娟.基于普賴斯定律與綜合指數(shù)法的核心作者測評——以《圖書館建設》為例[J].科技管理研究,2012(2):57-60.
[5]崔雷,等.文獻數(shù)據(jù)庫中書目信息共現(xiàn)挖掘系統(tǒng)的開發(fā)[J].現(xiàn)代圖書情報技術,2008(8):70-75.
[6]王佑鎂,陳慧斌.近十年我國電子書包研究熱點與發(fā)展趨勢——基于共詞矩陣的知識圖譜分析[J].中國電化教育,2014(5):4-10.
[7]侯海燕,劉則淵,欒春娟.基于知識圖譜的國際科學計量學研究前沿計量分析[J].科研管理,2009(1):164-170.
[8]卜彩麗.翻轉課堂的研究熱點、主題與發(fā)展趨勢解析——基于共詞分析的可視化研究[J].現(xiàn)代教育技術,2016(1):73-79.
[9]王運鋒,夏德宏,顏堯妹.社會網(wǎng)絡分析與可視化工具NetDraw的應用案例分析[J].現(xiàn)代教育技術,2008(4):85-89.
[10]胡昌平,陳果.領域知識網(wǎng)絡的層次結構與微觀形態(tài)探證——基于k-core層次劃分的共詞分析方法[J].情報學報,2014(2):131-137.
[11]肖明.知識圖譜工具使用指南[M].北京:中國鐵道出版社,2014:37-38.
[12]姜鑫.我國微博研究主題的共詞可視化分析[J].現(xiàn)代情報,2013(11):108-113.
[13]羅應婷編著.SPSS統(tǒng)計分析從基礎到實踐[M].北京:電子工業(yè)出版社,2010:191-193.
[14]邱均平,楊思洛,王明芝.改革開放30年來我國情報學研究的回顧與展望(二)——情報學研究論文的作者分析[J].圖書情報研究,2009(2):8-13.
[15]安源.2000-2009年圖書館信息服務領域研究現(xiàn)狀分析——基于詞頻分析法和共詞分析法[J].情報科學,2012 (6):873-878,892.
[16]賈麗艷,杜強著.SPSS統(tǒng)計分析標準教程[M].北京:人民郵電出版社,2010(5):268.
胡利勇 男,1980年生。碩士,館員,咨詢部主任。
G350
2016-05-25;責編:徐向東。)