, , ,士靖
文獻信息分析工具通過結合文獻計量學、社會計量學、統計學、圖形學、信息科學、計算機科學的技術和方法,幫助用戶快速地獲取高價值信息,高效追蹤學科前沿。現有的文獻信息分析工具主要分為基于統計的分析工具、基于文獻計量的分析工具、基于社會網絡的分析工具和基于PubMed的分析工具四大類。隨著分析工具種類的不斷增加,已有一些學者對其進行了比較研究,如M.J. Cobo等對知識圖譜類工具進行了系統介紹和比較[1],肖明[2]、楊思洛[3]等也對知識圖譜類工具進行了比較。盡管如此,目前對文獻信息分析工具比較研究方面還存在諸多不足,涉及的范圍比較窄,并不能起到幫助用戶全方位了解和選擇分析工具的作用。
本文擬遵循可獲得性(開放性)、使用廣泛性和功能優越性原則,選擇其中一些工具進行比較研究,以期達到幫助用戶篩選工具、提高不同工具使用效率的目的。
本文所取文獻信息分析工具主要來源于官方網站(如Histcite,SCI2,Vosviewer,Citnetexplore,Gephi,Network Workbench Tool, SciMAT,Inspire,VantagePoint,ColPalRed,Bibexcel,Pajek,SATI,GOPubMed, PubMedplus,本地PubMed,Anne O'Tate,PubFocus),科學網(如Citespace,Bicomb)和CSDN網站(如Netdraw,Ucinet, Refviz)。
根據工具的功能進行分類,并從各類工具中選取多個代表性工具,具體選取過程和結果如下。第一類是基于統計的分析工具,如SPSS,SAS,Excel 等。此類工具現已應用于多個領域,本研究不做介紹。第二類是基于文獻計量的分析工具,如Histcite[4],Citespace[5-7],Bibexcel[8],Inspire[9],ColPalRed[10],SATI[11],Leydesdorff系列軟件[12],Bicomb[13],SCI2[14],Network Workbench Tool[15],Vantagepoint[16],Vosviewer[17],Citnetexplore[18-19],SciMAT[20],Refviz。 其中,Bibexcel,Bicomb,SATI,Leydesdorff系列軟件是專門用來構建關系矩陣的工具,Bibexcel的功能最為強大,Bicomb和SATI是國內學者開發的;Histcite,Citnetexplore用于直接引文網絡,Histcite影響力更大、使用更廣泛;Citespace,SCI2,Vosviewer,Network Workbench Tool,SciMAT是功能較為完整的工具;SCI2,Network Workbench Tool是同一團隊開發的,具有很大的相似性,但SCI2在功能和廣泛性方面更具優勢;VantagePoint,ColPalRed,Inspire是收費工具,無法獲取。第三類是基于社會網絡的分析工具,如Pajek[21-22],Ucinet[23],Gephi[24],Netdraw。其中Pajek和Ucinet是綜合分析工具,功能多樣。第四類是基于PubMed的分析工具,如GOPubMed[25],PubMedplus,本地PubMed,PubFocus,Anne O'Tate[26]。其中,GOPubMed是最早基于語義分類工具開發的,功能強大;本地PubMed和PubMedplus是國內機構研發的,融合了多個工具的功能。相對來說,Anne O'Tate和PubFocus的功能較為簡單。綜上所述,最終選擇了13種的分析工具進行比較,詳見表1。
根據文獻分析工具的性能和分析流程對分析工具從多個維度進行比較。分析流程通常分為數據準備、分析、結果解讀和可視化等三個步驟[1]。數據準備是文獻信息分析工具實現目標的基礎,包括文獻檢索和數據預處理;分析是文獻信息分析工具工作的主體,包括構建關系矩陣、標準化處理、映射和分析方法的選擇;結果可視化和解讀則是文獻信息分析工具的價值體現,旨在通過各種圖譜的展示,幫助用戶對結果進行解讀。最終確定從支持的數據格式、數據預處理、構建的矩陣、標準化處理、分析方法、結果的可視化6個維度對選出的13種分析工具進行比較。
文獻分析是基于一定的數據進行的,分析工具主要支持書目數據、網絡數據或者其他格式數據。基于PubMed開發的工具,將PubMed作為數據源,無須導入數據;而基于社會網絡的工具,如Pajek,Ucinet等不支持書目數據,而是導入經過加工的網絡格式數據或用戶自行創建的矩陣數據。表2可見,大部分工具支持WOS,Scopus,PubMed等數據庫。其中,Citespace支持多個數據庫,SCI2則支持多種類型的數據。對于中文數據庫,Citespace,Bibexcel等支持轉化后的CSSCI數據庫,Bicomb和SATI支持萬方和中國知網數據庫。

表2 13種分析工具支持的數據格式
數據預處理是分析的一個重要步驟,主要有去重、時間切片、數據精簡和網絡精簡等功能。13種分析工具的數據預處理功能見表3。

表3 13種分析工具的數據預處理功能比較
表3顯示SciMAT和SCI2包含4種數據預處理模塊,優勢明顯;大部分工具支持數據精簡和網絡精簡;Pajek和Ucinet無數據預處理功能。GOPubMed,PubMedplus和本地PubMed基于語義分類工具GO&MeSH引入本體概念,支持語義級的交換,可消除或減少由于同義詞或相近詞概念及術語的混亂,在語義數據處理方面優勢明顯。此外,PubMedplus還增加了單位和作者異名的規范處理功能。
關系矩陣中最常見的分析單元是期刊、文獻、參考文獻、作者、主題詞或關鍵詞。分析單元之間的關系可分為三類。第一類是直接引文關系,即直接從信息的發送者到信息的接受者。第二類是將分析單元之間的關系用做共現數據,即通過計算兩個分析單元在文獻中同時出現的次數來衡量兩個分析單元之間的相似性,包括合作、耦合、共引和共詞。合作用來分析研究領域的社會結構,共詞則是使用文獻中最重要的主題詞或者關鍵詞研究一個領域的概念結構[27],共引和書目耦合用來分析研究領域的知識結構。區別在于,書目耦合是固定和永久的引文關系,共引關系是隨時間而變的[28]。第三類是一些不常見的或復雜的網絡。表4列舉了各種分析工具可以創建的關系矩陣。可以看出,沒有一個工具可以創建全部關系矩陣,大部分工具都支持共現矩陣的創建,其中Citespace,Vosviewer,SciMAT,SCI2,Bibexcel等可以構建多數關系矩陣,但只有Histcite和SCI2支持直接引文網絡。相對于GOPubMed和本地PubMed僅關注于一種網絡,PubMedplus可以構建4種網絡,Pajek和Ucinet則不支持文獻計量學網絡的創建。此外,SATI可以創建包含詞條共現矩陣、頻率分析矩陣、文檔詞條矩陣等在內的8種矩陣。

表4 13種分析工具構建的關系矩陣
構建了分析單元的關系矩陣之后,需通過標準化處理對數據間的相似性進行測量來獲得數據之間的隱含關系,簡而言之就是對數據進行規范化。13種分析工具的標準化處理方法見表5。

表5 13種分析工具的標準化處理方法
常用標準化處理方法有Salton's余弦、Jaccard's指數、Equivalence指數、關聯強度等[2]。如表5所示,大部分分析工具都使用了上述方法中的一種或多種;GOPubMed,PubMedplus,本地PubMed則因使用GO&MeSH工具,使用潛在語義分析將語料庫與本體進行連接;Pajek和Histcite則無規范化處理的功能。
分析工具所用的分析方法很多,如網絡分析、地理空間分析、時間序列、性能分析、突變檢測等。網絡分析是測量某一節點在整個網絡中的中心度,或一個聚類在圖譜中的中心度;地理空間分析則是回答事件在哪里發生及其對周圍區域的影響;時間序列,或縱向分析旨在分析不同時間段研究領域的演變,主要通過對趨勢、離群、活動、模式和季節性等的觀測,是知識圖譜分析中最常見的一種分析方法;性能分析使用基于引文的文獻計量學指標和方法來量化圖譜和網絡中不同元素的重要性、影響和質量;突變檢測是時間序列分析的一種,旨在發現有限的持續時間內變量的劇烈變化[1]。表6顯示,最常見的方法是網絡分析、時間序列分析和突變檢測。其中,Citespace,SciMAT和SCI2的分析方法最多;Ucinet采用多種網絡分析指標。本地PubMed和PubMedplus等都使用了期刊影響因子、H指數、被引頻次等指標;此外,PubMedplus使用了替代計量學的評價指標Altmetric得分,本地PubMed增加了威望指數。

表6 13種分析工具的分析方法
可視化圖譜用來幫助用戶分析和理解結果。不同分析工具構建的圖譜也不同(表7)。

表7 13種工具的可視化圖譜
在時間序列分析的可視化中,Histcite使用編年史圖,Citespace使用時間線視圖,SciMAT使用演變地圖和重疊條目圖,GOPubMed,PubMedplus和本地PubMed則使用的是趨勢圖。Citespace,Vosviewer,SCI2,Pajek,Ucinet,GOPubMed,本地PubMed等可實現多種類型的可視化圖譜。其中SCI2是一個模塊化的工具集,除自身所具備的可視化技術,還內置多種可視化軟件;SATI, Bibexcel,Bicomb等不具備可視化功能,需要借助其他可視化軟件。
通過對13種分析工具的比較,可以看出每一個工具都有著不同的特點,沒有一個工具能夠囊括所有的功能。比較結果顯示,Citespace,SCI2,SciMAT功能較完整,其他工具也有各自的優勢。對13種分析工具特點歸納如下。
Histcite主要用于對書目數據進行基本的統計分析,以時間序列編制引文編年史圖展示領域的演變路徑,但無法對數據進行標準化處理,分析方法較少。
Citespace支持中文數據庫在內的多個數據庫,可以構建常見的關系網絡,采用多種文獻計量學分析方法定量分析可視化結果,從多個角度展示某領域的演變歷程,但其無法實現數據的去重。
Vosviewer的優勢在于可視化,能從多個視圖對結果進行展示,可構建多種矩陣,并支持文本挖掘,但其無法實現數據的去重,不能通過時間演變展示一個領域的演進路徑。
SciMAT具有強大的預處理能力,能構建多種文獻計量學網絡,并以文獻計量學指標對結果的影響力進行定量分析,還可通過配置向導的方式引導用戶進行分析。
Bibexcel專門用來構建文獻計量學關系矩陣,具有高度的靈活性,需借助其他的可視化軟件來進行可視化分析。
Bicomb支持中文數據庫,能進行基本的統計分析,并生成多種共現矩陣和詞篇矩陣,但數據處理和可視化方面存在不足。
SATI支持中文數據庫,實現基本的統計分析,能構建多類矩陣。
Pajek支持大型的網絡數據,不僅可以構建一些普通的網絡圖,還支持特殊網絡的構建,具有強大的圖形處理能力,但不支持文獻計量關系矩陣的創建,數據預處理能力差。
Ucinet可導入矩陣,也可自行創建,具有網絡分析功能,內置可視化軟件,但不支持文獻計量學矩陣的創建。
GOPubMed是最早使用基于本體的語義分類工具,支持分類導航分析,使用戶能快速找到最相關的文獻,但創建的關系矩陣單一。
本地PubMed使用多個計量學指標對文獻進行評價,可以從多個角度對分析結果進行可視化。
PubMedplus基于PubMed,在數據處理方面解決了作者重名的問題,其最大的優勢在于其強大的聚類分析功能。
一個好的問題,一個精彩而恰到好處的懸念可以引發學生主動去思考,去學習。例如教《新型玻璃》一課,在指導學生學習時,我就向學生提出這樣一個問題,“新型玻璃到底新在哪?有什么特點?如果你是玻璃廠廠長,你怎么樣向大家推銷你的玻璃?”學生由于好奇就紛紛地尋找答案。通過閱讀,他們很快就知道各種新型玻璃的特點。一篇說明文,單靠教師乏味的直敘,學生是上得很無聊的。因此,讓學生帶著問題自己去閱讀,去理解課文,不僅使學生掌握了課文內容,也幫助他們認清了各種新型玻璃的特點。
3.2.1 對用戶選擇分析工具的建議
由于文獻信息分析工具種類眾多,在開展分析時,應了解不同工具的特點,再根據不同的分析目的、特性和擬解決的問題,選擇恰當的分析工具。
一是要根據數據源選擇合適的工具。若數據源為PubMed,可以選擇GOPubMed,PubMedplus或者本地PubMed及支持PubMed數據庫的工具;對于用戶自行創建的矩陣數據,選擇Pajek或Ucinet。
二是Citespace,SCI2,SciMAT,Vosviewer,SATI,Bibexcel,Bicomb等工具均可用于共現分析。一般來講,用戶可以根據數據源選擇上述任何一個工具進行分析。不過共詞分析和合作者分析需要對源數據進行去重,所以應選擇SciMAT或SCI2。Bibexcel,SATI和Bicomb等工具主要用于構建各類關系矩陣,但需借助其他工具進行可視化。
三是不同的工具分析方法不同,用戶可根據需求進行選擇,如時間序列分析,需支持時間序列分析的工具,選擇Histcite,Citespace,SciMAT,SCI2,Pajek等工具;對于直接引文網絡的構建,選擇Histcite和SCI2等工具。
四是Citespace,SciMAT,Ucinet,本地PubMed和PubeMedplus等具有多種文獻計量學指標,可以對產生的圖譜進行定量分析。
五是對于中文數據,Bicomb和SATI支持中國知網和萬方數據庫,Citespace支持中國知網和CSSCI數據庫,Bibexcel支持轉化后的CSSCI數據庫。
六是可考慮多個工具聯合使用,因為沒有一個軟件可以實現全部的功能。
3.2.2 對文獻信息分析工具研發工作的建議
文獻信息分析工具是文獻計量學、社會計量學、統計學、圖形學、信息科學和計算機科學技術相結合的產物。國內對文獻信息分析工具的研究起步晚,專業人員的投入不足,應加強多個領域的合作研究[29]。
文獻信息分析工具針對書目數據進行分析,數據庫導出的數據越豐富,文獻信息分析工具的價值越高。國內的大型數據庫不支持引文數據的導出,故無法進行引文分析,應進一步加強與國內全文數據庫的合作,促進雙贏。
大部分文獻信息分析工具通過圖譜實現對某一學科宏觀和微觀、定性和定量的把握,圖譜的視覺效果對于結果的解讀起著“一圖勝千言”的作用。因此,要進一步加強分析工具的圖譜展示功能。
文獻信息分析工具有著探測前沿熱點、預測發展方向的作用。科學研究人員學會選擇和使用這些工具,將使他們的科學研究更加高效。