左麗華
(浙江工業(yè)大學(xué)圖書館,浙江 杭州 310023)
?
詞頻分析及常用工具比較研究*
左麗華
(浙江工業(yè)大學(xué)圖書館,浙江 杭州 310023)
[摘要]首先梳理了詞頻分析的一般過程并對現(xiàn)有詞頻分析工具總結(jié)歸類。在此基礎(chǔ)上,從軟件基本信息、支持?jǐn)?shù)據(jù)類型、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析與結(jié)果導(dǎo)出等方面對國內(nèi)常用詞頻分析工具Bibexcel、CiteSpace和SATI進(jìn)行了比較分析。并以WOS數(shù)據(jù)庫為數(shù)據(jù)源,對3個(gè)軟件實(shí)際分析結(jié)果進(jìn)行比較,以期為科研人員使用詞頻分析方法提供有益的幫助。
[關(guān)鍵詞]詞頻分析BibexcelCiteSpaceSATI
詞頻分析是文獻(xiàn)計(jì)量學(xué)中傳統(tǒng)的和具有代表性的一種內(nèi)容分析方法,基本原理是通過詞出現(xiàn)頻次多少的變化,來確定熱點(diǎn)及其變化趨勢[1],目前已經(jīng)在各學(xué)科領(lǐng)域得到廣泛應(yīng)用。筆者通過對國內(nèi)文獻(xiàn)調(diào)研發(fā)現(xiàn),國內(nèi)研究人員多運(yùn)用一種分析工具對特定學(xué)科領(lǐng)域某個(gè)時(shí)間段的文獻(xiàn)所使用的關(guān)鍵詞進(jìn)行分析,依據(jù)分析結(jié)果確定特定學(xué)科研究熱點(diǎn)。已有的研究成果側(cè)重特定詞頻分析工具在具體領(lǐng)域的應(yīng)用,對詞頻分析過程及分析工具本身的探討較少。由于詞頻分析工具眾多且分析過程各有差異,利用不同的分析軟件處理相同的數(shù)據(jù)所得結(jié)果也不盡相同。因此有必要對詞頻分析的過程進(jìn)行梳理,并對詞頻分析工具進(jìn)行對比研究。該研究有助于研究人員在定性判斷領(lǐng)域研究熱點(diǎn)基礎(chǔ)上,快速地選擇詞頻分析工具對領(lǐng)域研究熱點(diǎn)進(jìn)行一個(gè)量的判斷。
詞頻分析一般的過程主要分為數(shù)據(jù)檢索、清洗加工、詞匯提取、統(tǒng)計(jì)分析等階段。其中數(shù)據(jù)檢索包括確定檢索目的并明確是對國際或國外某一學(xué)科領(lǐng)域進(jìn)行分析還是側(cè)重對國內(nèi)某一學(xué)科領(lǐng)域進(jìn)行分析;確定檢索范圍,有的通過檢索學(xué)科領(lǐng)域的核心期刊對某一學(xué)科進(jìn)行分析,有的通過篩選檢索詞,用經(jīng)過簡化和精煉的檢索詞來搜索相關(guān)領(lǐng)域的研究成果;選擇檢索平臺,目前國內(nèi)外各類大型文獻(xiàn)數(shù)據(jù)庫為大批量下載數(shù)據(jù)提供了方便,分析的目的不同所選用的數(shù)據(jù)來源也不同;制定檢索策略,同一檢索主題即使是同一數(shù)據(jù)庫采用不同的檢索方法獲得的檢索結(jié)果也會相差很大,因此檢索策略的制定對最后的結(jié)果分析有直接影響;檢索并評估檢索結(jié)果,如果首次檢索結(jié)果不理想需重新調(diào)整檢索策略再次進(jìn)行檢索;數(shù)據(jù)采集下載,通過人工判讀刪除無用數(shù)據(jù),然后下載數(shù)據(jù)。數(shù)據(jù)清洗加工,詞頻分析最終結(jié)果的可靠性很大程度上依賴于原始數(shù)據(jù)的準(zhǔn)確性,清洗對下載的數(shù)據(jù)進(jìn)行篩選、去重和勘誤,常常需要人工識別。最后是數(shù)據(jù)分析,借助分析工具對下載的題錄數(shù)據(jù)進(jìn)行抽取,從標(biāo)題、摘要或關(guān)鍵詞抽取的詞匯,根據(jù)關(guān)鍵詞的詞頻數(shù),選定高頻關(guān)鍵詞,對高頻關(guān)鍵詞詳細(xì)分析,除了統(tǒng)計(jì)分析還可以進(jìn)行深入的文本挖掘和可視化。這些過程結(jié)束之后對結(jié)果進(jìn)行解釋并得到一些結(jié)論。
計(jì)量分析中常用的詞頻分析工具可分為3類:①研究人員自主開發(fā)軟件,編寫程序?qū)崿F(xiàn)相關(guān)題錄信息的處理,如《基于詞頻分析的國內(nèi)情報(bào)學(xué)研究熱點(diǎn)》[2]一文,作者選用了Java語言編程實(shí)現(xiàn)關(guān)鍵詞抽取和統(tǒng)計(jì)。這種方法要求研究人員具有一定的編程水平。②利用SPSS、Excel、NoteExpress等非專門用于詞頻分析的統(tǒng)計(jì)工具中的相關(guān)功能實(shí)現(xiàn)詞頻提取和分析,例如《基于詞頻分析的近10年知識管理的研究熱點(diǎn)和研究方法》[3]一文運(yùn)用了NoteExpress軟件中的文件夾信息統(tǒng)計(jì)功能。這些工具多用于簡單的詞頻分析,對進(jìn)一步進(jìn)行詞的共現(xiàn)或者可視化分析則比較困難。③利用各種專門的知識圖譜繪制工具分析詞頻。目前我國研究人員常用的詞頻分析軟件有Bibexcel、CiteSpace、TDA、WordSmithTools等。這些專門開發(fā)的計(jì)量分析工具功能較強(qiáng)大,除了進(jìn)行詞頻分析,還可以分析引文、合作者、機(jī)構(gòu)等并可將分析結(jié)果以圖譜的形式展現(xiàn)。
筆者通過文獻(xiàn)調(diào)研發(fā)現(xiàn)國內(nèi)最常用的詞頻分析工具有Bibexcel、CiteSpace和SATI?,F(xiàn)依據(jù)詞頻分析過程,重點(diǎn)對這三款免費(fèi)詞頻分析的計(jì)量工具進(jìn)行比較研究,分析它們的優(yōu)缺點(diǎn)和不同之處,以期為國內(nèi)開展詞頻分析提供借鑒。
4.1基本信息
Bibexcel[4]軟件可在其開發(fā)者Olle Persson的個(gè)人網(wǎng)站上免費(fèi)下載,每次下載的軟件都是當(dāng)前最新版本,因?yàn)樵摼W(wǎng)站總是會及時(shí)用新版本更換舊版本。Windows系統(tǒng)、Linux系統(tǒng)都可以運(yùn)行該軟件。CiteSpace[5]也可在網(wǎng)站上免費(fèi)下載最新版本和英文用戶手冊,其運(yùn)行環(huán)境要求是在安裝Java運(yùn)行環(huán)境的Windows系統(tǒng)。SATI[6]是由國內(nèi)學(xué)者開發(fā)的一款兼顧處理國內(nèi)期刊題錄數(shù)據(jù)和國際WOS題錄數(shù)據(jù)的信息統(tǒng)計(jì)分析軟件。
4.3支持的數(shù)據(jù)類型
文獻(xiàn)計(jì)量分析中數(shù)據(jù)采集常用的方法是檢索特定數(shù)據(jù)庫,通過檢索得到詳細(xì)記錄,然后下載檢索結(jié)果中相關(guān)題錄信息。計(jì)量分析常用數(shù)據(jù)主要來源數(shù)據(jù)庫有CNKI、CSSCI、WOS、SCoups等。不同計(jì)量分析工具支持不同數(shù)據(jù)格式。因此使用不同軟件進(jìn)行詞頻分析時(shí),首先要明確這些軟件可以支持的數(shù)據(jù)類型。
Bibexcel可處理的數(shù)據(jù)集中在Web of Knowledge平臺上的數(shù)據(jù)庫,包括WOS數(shù)據(jù)庫、Derwent專利數(shù)據(jù)庫、Medline數(shù)據(jù)庫等。從WOS下載的數(shù)據(jù)要以純文本格式保存。Bibexcel可處理CSSCI數(shù)據(jù)庫中的數(shù)據(jù),但需要進(jìn)行格式轉(zhuǎn)換,用的比較多的轉(zhuǎn)換軟件是劉盛博開發(fā)的CSSCIREC。導(dǎo)入Bibexcel的數(shù)據(jù)都要先創(chuàng)建成OUT文件,OUT文件是使用BibExcel軟件進(jìn)行計(jì)量分析的起點(diǎn)。創(chuàng)建OUT文件時(shí),要確定使用書目記錄中的哪個(gè)字段創(chuàng)建文件,如進(jìn)行詞頻分析,則需要選擇關(guān)鍵詞字段來創(chuàng)建OUT文件。以O(shè)UT文件為起點(diǎn),根據(jù)分析目的生成多種中間文件,如.doc、.out、.cit、.oux、.xls等。Bibexcel產(chǎn)生的書目數(shù)據(jù)可進(jìn)一步導(dǎo)入Excel、SPSS、UCinet、Pajek等軟件,用于完成更多的計(jì)量分析工作。
CiteSpace支持的數(shù)據(jù)源包括WOS、Arxiv、CNKI(Ref-Work)、CSSCI、Derwent、NSF、Scopus、SDSS、ProjectDX等數(shù)據(jù)庫。CiteSpace雖支持中文數(shù)據(jù)的導(dǎo)入,但有局限性,其必須使用相應(yīng)的插件對數(shù)據(jù)進(jìn)行轉(zhuǎn)化。如對于CNKI數(shù)據(jù)庫,選擇檢索結(jié)果使用“導(dǎo)出/參考文獻(xiàn)”,以“Refworks”格式下載題錄信息,以download開始命名文件,然后使用CiteSpace中 CNKI(Refworks)按鈕轉(zhuǎn)換CNKI數(shù)據(jù)文件。
SATI是一個(gè)專門分析國內(nèi)期刊論文題錄信息的軟件,同時(shí)擁有分析WOS題錄數(shù)據(jù)功能。支持EndNote、NoteExpress、HTML和CSSCI格式的題錄數(shù)據(jù),軟件開發(fā)者推薦Endnote格式使用中國知網(wǎng)導(dǎo)出的EndNote格式的題錄數(shù)據(jù);NoteExpress格式使用萬方數(shù)據(jù)庫提供的NoteExpress格式題錄數(shù)據(jù),因?yàn)閷?yīng)數(shù)據(jù)較為完整;HTML(WOS)格式是WOS數(shù)據(jù)庫平臺導(dǎo)出的HTML格式題錄數(shù)據(jù);CSSCI格式是南京大學(xué)CSSCI檢索題錄數(shù)據(jù)格式。
3個(gè)軟件對英文數(shù)據(jù)庫,特別是WOS數(shù)據(jù)庫都有很好的支持。Bibexcel和CiteSpace雖然支持中文數(shù)據(jù)庫,但分析之前需要做格式或者編碼的轉(zhuǎn)換。這兩款軟件主要是針對國外數(shù)據(jù)庫平臺開發(fā)的,對國內(nèi)的數(shù)據(jù)庫數(shù)據(jù)不能直接處理。SATI能很好地支持對中文數(shù)據(jù)庫的分析,兼顧國內(nèi)外題錄數(shù)據(jù)。
4.4數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是計(jì)量分析過程中最為重要的一個(gè)步驟,在詞頻分析的過程中,特別是英文詞頻分析存在單復(fù)數(shù)變化、拼寫錯(cuò)誤、美式英式拼寫差異時(shí),如果對這些數(shù)據(jù)不加以整理合并,統(tǒng)計(jì)時(shí)會發(fā)生巨大差異,進(jìn)而影響分析結(jié)果的準(zhǔn)確性。如果輸入的是不可靠的數(shù)據(jù),那么無論軟件的分析功能多么強(qiáng)大,最后都無法保證結(jié)果的正確性。因此,先對數(shù)據(jù)進(jìn)行整理是十分必要的。
Bibexcel允許對文本數(shù)據(jù)有不同的預(yù)處理方法,如英語單詞的詞干提取,重復(fù)詞的刪除。Citespace在數(shù)據(jù)統(tǒng)計(jì)中以詞頻為主要計(jì)算方法,同時(shí)以閾值調(diào)節(jié)控制結(jié)果,可以刪除和合并同類詞。SATI可對英文關(guān)鍵詞、主題詞、標(biāo)題和摘要字段進(jìn)行斷詞、停用詞、詞干提取的預(yù)處理操作,對中文題錄標(biāo)題、摘要進(jìn)行中文分析和停用詞處理。對于國際文獻(xiàn),利用文本預(yù)處理技術(shù),進(jìn)行Tokenization與Stemming操作,即只進(jìn)行形變處理(標(biāo)點(diǎn)符號、大小寫、單復(fù)數(shù)及詞干提?。τ趪鴥?nèi)文獻(xiàn)題錄關(guān)鍵詞并沒有進(jìn)行刪減或?qū)νx相似詞的詞頻進(jìn)行合并等操作。
4.5數(shù)據(jù)分析與結(jié)果導(dǎo)出
Bibexcel在進(jìn)行數(shù)據(jù)分析之前,需將下載的數(shù)據(jù)轉(zhuǎn)換成Bibexcel可處理的Doc文件格式。Doc文件格式中包含很多字段,進(jìn)行詞頻分析需要從Doc文件中將關(guān)鍵詞字段單獨(dú)抽取出來,保存為Out文件。選擇工具欄analyze菜單下的相關(guān)功能菜單,得到后綴名.frg的文件,統(tǒng)計(jì)得出關(guān)鍵詞的詞頻;.coc文件則是關(guān)鍵詞共現(xiàn)文件,可進(jìn)一步得到共詞矩陣,導(dǎo)入其他軟件中進(jìn)行可視化分析。
CiteSpace具備統(tǒng)計(jì)突顯關(guān)鍵詞的功能,即將某時(shí)間段高被引的關(guān)鍵詞加以突顯,顯示某段時(shí)間的研究熱點(diǎn)。其采用的是一種“突發(fā)詞檢測”算法來確定研究前沿中的概念,基本原理就是統(tǒng)計(jì)相關(guān)領(lǐng)域論文的標(biāo)題和摘要中詞匯頻率,根據(jù)這些詞匯的增長率來確定哪些是研究前沿的熱點(diǎn)詞匯。最終以圖譜方式顯示關(guān)鍵詞間的引用關(guān)系,節(jié)點(diǎn)的大小表示關(guān)鍵詞頻次的高低。
SATI對輸入的題錄數(shù)據(jù)進(jìn)行文本預(yù)處理后,將其自動轉(zhuǎn)化為SATI專用數(shù)據(jù)文件XML格式文件。隨后即可抽取字段信息,從關(guān)鍵詞、主題詞、摘要等字段中抽取詞匯,并保存為. txt文本文件,在此基礎(chǔ)上進(jìn)行下一步統(tǒng)計(jì)分析。此外還可以按照時(shí)間和期刊對數(shù)據(jù)進(jìn)行限定,生成相應(yīng)頻次統(tǒng)計(jì)文檔,并保存為.txt文本文件。SATI的另一大功能就是構(gòu)建知識矩陣,可生成詞條共現(xiàn)、頻率分布和文檔詞條3類矩陣。在SATI生成的Excel格式和txt文本格式的知識矩陣數(shù)據(jù)后,可將相應(yīng)的矩陣文檔導(dǎo)入SPSS、Ucinet、Netdraw中以生成各種基本圖表、聚類圖、多維尺度分析圖、共現(xiàn)網(wǎng)絡(luò)知識圖譜等。
4.6實(shí)例分析
由于3個(gè)軟件都能很好地支持WOS數(shù)據(jù)庫中的數(shù)據(jù),不需要其他軟件對數(shù)據(jù)進(jìn)行轉(zhuǎn)換,筆者選擇WOS數(shù)據(jù)庫為數(shù)據(jù)源,檢索近5年發(fā)表的高校圖書館論文。以(university librar*)OR(college librar*)OR(academic librar*)為主題,文獻(xiàn)類型限制為ARTICLE,時(shí)間跨度是2011~2015年,共檢索出文獻(xiàn)3088篇。將下載的數(shù)據(jù)分別導(dǎo)入3個(gè)軟件進(jìn)行詞頻分析。
Bibexcel分析結(jié)果如圖1所示,從分析結(jié)果可以看出,近5年關(guān)于高校圖書館研究的高頻詞匯是信息素養(yǎng)、數(shù)字圖書館、開放獲取、元分析、用戶研究、電子資源、圖書館員、館際互借等。此外,Bibexcel產(chǎn)生的詞頻數(shù)據(jù)可復(fù)制到Excel表格中,抽取高頻詞后,再拷貝到Bibexcel中進(jìn)行高頻詞共現(xiàn)分析。

圖1 BibExcel詞頻分析結(jié)果
SATI分析結(jié)果如圖2所示,SATI對詞語進(jìn)行了詞干提取,其分析結(jié)果與Bibexcel分析結(jié)果詞頻排序大致相同,但詞頻數(shù)存在差異,如數(shù)字圖書館(Digital libraries),Bibexcel得出的詞頻數(shù)是60,而SATI得出的結(jié)果為66。其他詞語也存在類似情況。

圖2 SATI詞頻分析結(jié)果
CiteSpace分析結(jié)果如圖3所示,可見CiteSpace分析出來的詞頻跟前兩個(gè)工具分析的結(jié)果在數(shù)量和排序上都存在差異,如教育(Education),Bibexcel分析的詞頻數(shù)是24,SATI經(jīng)過詞干提取后結(jié)果是39,而CiteSpace詞頻結(jié)果卻是84,可能與CiteSpace從多個(gè)題錄中抽取詞有關(guān)。

圖3 CiteSpace詞頻分析結(jié)果
雖然不同軟件分析得出的詞頻排序在大趨勢上相同,但每個(gè)詞具體的排序卻不盡相同,可見不同詞頻分析軟件其分析結(jié)果存在差異。從上面三幅結(jié)果圖也可以看出,BibExcel 和SATI以很簡單的界面呈現(xiàn)結(jié)果,如果進(jìn)一步進(jìn)行共詞可視化分析BibExcel和SATI需要借助其他軟件,而CiteSpace直接將可視化結(jié)果呈現(xiàn)出來,可通過對圖譜的進(jìn)一步分析獲得其他結(jié)果。由此可見,在詞頻分析方面,BibExcel和SATI強(qiáng)大的功能主要體現(xiàn)在字段抽取和共現(xiàn)矩陣的共現(xiàn)上,CiteSpace主要是圖譜呈現(xiàn)。
詞頻分析作為文獻(xiàn)計(jì)量學(xué)中一種常用分析方法,其分析過程遵循計(jì)量分析的一般步驟。實(shí)際研究工作中有多種類型的工具可進(jìn)行詞頻分析,常用的詞頻分析軟件Bibexcel、CiteSpace和SATI三款軟件在數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析和結(jié)果導(dǎo)出等各環(huán)節(jié)都存在差異,即使對同一數(shù)據(jù)源數(shù)據(jù)進(jìn)行詞頻統(tǒng)計(jì)結(jié)果也會各有異同,因此在進(jìn)行統(tǒng)計(jì)分析時(shí),各軟件之間可互相參照,互相驗(yàn)證,同時(shí)互相補(bǔ)充。
參考文獻(xiàn):
[1]湯建民.基于文獻(xiàn)計(jì)量的卓越科研機(jī)構(gòu)描繪方法研究——以國內(nèi)教育學(xué)科為例[J].情報(bào)雜志,2010(4):5-9,35.
[2]肖明,李國俊,楊楠.基于詞頻分析的國內(nèi)情報(bào)學(xué)研究熱點(diǎn)(1998~2007)[J].情報(bào)雜志,2009(8):21-25.
[3]儲節(jié)旺,錢倩.基于詞頻分析的近10年知識管理的研究熱點(diǎn)及研究方法[J].情報(bào)科學(xué),2014(10):156-160.
[4]PERSSON OLLE.Bibexcel[EB/OL].[2015-11-26].http://homepage.univie.ac.at/juan.gorraiz/bibexcel/index.html.
[5]CHAOMEICHEN.CiteSpace[EB/OL].[2015-12-05].http://cluster.cis.drexel.edu/~cchen/citespace/.
[6]DOWNLOADBOUND.Refviz[EB/OL].[2015-12-06].http:// www.downloadbound.com/refviz-2.1-crack-serial-keygendownload.html.
左麗華女,1989年生。碩士,助理館員。研究方向:文獻(xiàn)計(jì)量學(xué)。
[分類號]G252.8
收稿日期:(2016-03-14;責(zé)編:楊新寬。)
*本文系浙江省圖書館學(xué)會2015年度學(xué)術(shù)研究課題“詞頻分析工具的比較研究”(項(xiàng)目編號:Ztx2015 B-10)成果之一。