共詞分析及相應工具軟件的設計與開發

2014-12-24 17:11:17謝松

科技創新與應用 2014年36期

謝松

摘要：基于關鍵詞的共詞分析自提出以來，在學科前沿熱點、學科發展、學科研究范式等研究中得到了越來越廣泛的應用，文章研究了目前的常用共詞分析的過程與步驟，比較了已使用的共詞矩陣算法，設計開發了一個簡潔高效、自動化程度比較高的共詞分析工具軟件，并以實例作為說明。

關鍵詞：共詞分析；共詞矩陣；算法

1 概述

共詞分析是法國文獻計量學家于20世紀70年代提出來的一種文獻內容分析方法，1986年法國國家科學研究中心的Callon M和Law J等人出版了第一部關于共詞分析法的學術專著，經過幾十年的發展，已經被廣泛應用到許多領域，產生了大量的研究成果。其思想來源于文獻計量學的引文耦合與共被引概念，當兩篇文獻同時被其他文獻引用時，表明它們所研究的主題在理論或方法上是相關的。兩篇文獻共被引的次數越多，它們的關系就越密切。同理，當有兩個專業術語在某學科領域的同一篇文獻中同時出現，表明這兩個詞之間存在一定的關系，同時出現的次數越多，表明它們的關系越密切[1]。

共詞分析法主要是對一組主題詞或關鍵詞兩兩統計其在每一篇文獻中出現的次數，以此為基礎構造共詞矩陣，通過對共詞矩陣變換為相似矩陣與相異矩陣，然后進行多元統計分析，把眾多分析對象之間錯綜復雜的關系以數值、圖形直觀地表示出來，揭示出這些詞之間的親疏關系，進而分析它們所代表的學科和主題的變化與趨勢。

2 共詞分析的過程與步驟

運用共詞分析法進行研究大致可分為幾個步驟進行，在具體的操作中可根據實際研究主題選擇合適的分析方法。

2.1 確定研究主題與文獻選取

利用共詞分析法基本原理可以概述研究領域的研究熱點，橫向和縱向分析領域學科的發展過程與趨勢，以及領域學科之間的關系等等。確定好研究主題之后即可在數據庫中檢索相應的文獻，去除重復文獻、非相關文獻后篩選合適的文獻作為處理對象。

2.2 高頻詞的選取

在分析文獻的相關性時，統計分析的過程中如果使用兩個完全不相關的詞匯進行處理，對統計分析的結果將產生很大干擾，因此，被分析的詞匯最好是受控詞、被統一標引的主題詞，只有這樣，利用文獻中詞語對的共現頻次來反映研究主題內在聯系的方法才能成立[2]，因此在研究中通常使用檢索的主題詞或文獻的關鍵詞作為分析對象。將所有主題詞或關鍵詞按出現頻率的高低順序排列，選取其中出現頻率較高的詞匯作為分析對象。確定高頻詞的方法有兩種：一種是結合研究者的經驗在選詞個數和詞頻高度上予以平衡；另一種是結合齊普夫第二定律關于低頻詞分布規律理論來判定高頻詞的界限[3]。

2.3 構造共詞矩陣

為反映高頻詞之間的關系，需要將其兩兩組對，統計每對高頻詞在同一篇文獻中出現的次數，如果兩個主題詞（關鍵詞）在眾多的文獻中出現頻率高，則說明它們之間的關系密切。如果選取了N個高頻詞，則它們之間的關系，可以通過構造一個N*N的矩陣計算共現頻次來反應。共詞矩陣的計算是共詞分析中的重要一步，由于統計詞對出現的頻次值是絕對值，難以反映詞與詞之間真正的相互關系，因此需要對詞頻進行包容化處理以反映出兩者間的緊密聯系的程度。目前各種共詞分析文獻中應用得比較多的一種方法是采用Ochiia系數將相關矩陣轉化為相似矩陣和相異矩陣：

2.4 采用多元統計方法分析

在計算共詞矩陣的基礎上，采用不同的統計學分析方法，揭示共詞中的信息，常用的分析方法有：因子分析、聚類分析法、關聯規則分析、多維尺度分析等方法。目前已有學者將新近出現的突發詞監測法引入共詞分析中開展文獻學評價研究。

2.5 闡述共詞分析的結果

共詞分析過程是使用統計學以及數據挖掘等方法反映研究主題間的關系，要深入揭示隱含在文獻中的知識，必須結合相關學科的知識對統計的結果進行科學分析與合理闡述。

3 共詞分析工具軟件的設計開發

構造共詞矩陣并計算共詞頻次是共詞分析的重要環節，在處理的文獻數量很大時，通過手工統計眾多主題詞或關鍵詞，計算共詞矩陣是不現實的。通常可以采用spss、ucinet等軟件進行構建作者和關鍵詞矩陣以分析文獻數據，但這些軟件比較難以理解和掌握。也有學者通過Microsoft公司的辦公軟件Excel來進行共詞分析，但前期的題錄導入、關鍵詞切分與統計等工作還需手工完成，工作量巨大。相比較而言，自主地設計開發一款自動完成文獻題錄導入、關鍵詞切分與統計、構建共詞矩陣、計算共詞頻次等功能的軟件，在實際的科研工作中，可以起到事半功倍的效果。

3.1 系統功能模塊

文本預處理：將下載的文獻規范化處理，去除文本中不必要的空行、特殊字符等，為導入題錄做好數據準備。

文獻題錄導入：從文獻庫中檢索下載題錄信息之后再導入數據庫，由于CNKI、維普、萬方、中國生物醫學數據庫等不同的文獻庫的題錄格式不同，處理時需根據實際需要再做變更。

關鍵詞切分：文獻篇名、作者、關鍵詞等題錄信息導入之后，可以分別處理。在做共詞分析時，主要是對關鍵詞做統計分析，而關鍵詞在文獻中大都用中英文的逗號或分號間隔開來，統計之前需做切分處理。

共詞矩陣構建與計算：選定高頻關鍵詞之后，需要進行共詞矩陣的構建與頻次計算。其實現方法的討論在下節中再詳細討論。

多元統計方法分析：可以根據需要添加因子分析、聚類分析、關聯規則分析等功能，此功能模塊屬于擴展功能。

3.2 共詞矩陣計算方法比較

共詞頻次的計算方法很多，在實踐中用到了兩種算法，試比較如下：

3.2.1 依據定義機械對比

根據定義，共詞的頻次是兩兩組合的高頻主題詞或關鍵詞在每一篇文獻中出現的頻次，依次設計的算法比較簡單，假設文獻總數是max_source_id，高頻關鍵詞總數是max_gaopin，定義兩個高頻關鍵詞數組key_row（max_gaopin）、key_col（max_gaopin）一個存儲共詞詞頻的二維數組Gongci（max_gaopin， max_gaopin），然后判斷兩兩組合的關鍵詞是否同時出現在同一篇文獻中，最后累計得到共詞詞頻，并此基礎上再用Ochiia系數計算出相似矩陣和相異矩陣。部分代碼如下：

這種算法思路簡單，但實現起來用到了三重循環來計算共詞頻次，算法時間復雜度和空間復雜度大，運行時效率比較低。

3.2.2 利用SQL聚合函數計算

SQL語言的count（）函數返回的是數據表中匹配指定條件的行數，將題錄中的關鍵詞切分存儲到數據庫的表中，然后以兩兩組合的關鍵詞作為匹配條件，根據文獻編號分組，使用SQL語句進行count（）計算，如果返回值等于2即表示這兩個詞在同一篇文獻中出現，查詢數據集的記錄總數即為共現的文獻篇數，亦即共詞頻次，部分代碼如下：

4 應用舉例

文章以“圖書館聯盟”為主題詞在CNKI全庫進行檢索，共有檢索文獻964篇，去掉非相關的通訊報道等文獻，得到826篇論文。對關鍵詞進行切分處理后得到3091個關鍵詞，統計之后的高頻關鍵詞如表1所示。

在高頻關鍵詞表的基礎上，按步驟依次計算共詞矩陣、相似矩陣與相異矩陣，然后進行統計分析。共詞矩陣如表2所示（限于篇幅，只顯示部分）：

5 結束語

共詞分析作為文獻計量分析的新的工具，由于具有眾多的優越性，使用得越來越廣泛。迄今為止，基于關鍵詞的共詞分析在學科前沿熱點、學科發展、學科研究范式等問題上的研究上已經形成了較為固定的研究方法和套路。但已有的共詞分析軟件大都操作不便，比較難以理解和掌握，為此，文章設計開發了一個簡單高效的共詞分析工具，操作時只需從文獻數據庫中下載相關主題的文獻，導入題錄之后就可以自動實現關鍵詞的統計、共詞矩陣計算分析功能，不足之處在于能提供分析的方法有限，有待于進一步完善。

參考文獻

[1]張勤，徐緒松.定性定量結合的分析方法-共詞分析法[J].技術經濟，2010，29（6）：20-24.

[2]馮璐，冷伏海.共詞分析方法理論進展[J].中國圖書館學報，2006，3

2（162）：88-92.

[3]魏瑞斌.基于關鍵詞的情報學研究主題分析[J].情報科學，2006，24（9）：1400-1404+1434.

關鍵詞：共詞分析；共詞矩陣；算法

1 概述

2 共詞分析的過程與步驟

運用共詞分析法進行研究大致可分為幾個步驟進行，在具體的操作中可根據實際研究主題選擇合適的分析方法。

2.1 確定研究主題與文獻選取

2.2 高頻詞的選取

2.3 構造共詞矩陣

2.4 采用多元統計方法分析

2.5 闡述共詞分析的結果

3 共詞分析工具軟件的設計開發

3.1 系統功能模塊

文本預處理：將下載的文獻規范化處理，去除文本中不必要的空行、特殊字符等，為導入題錄做好數據準備。

共詞矩陣構建與計算：選定高頻關鍵詞之后，需要進行共詞矩陣的構建與頻次計算。其實現方法的討論在下節中再詳細討論。

多元統計方法分析：可以根據需要添加因子分析、聚類分析、關聯規則分析等功能，此功能模塊屬于擴展功能。

3.2 共詞矩陣計算方法比較

共詞頻次的計算方法很多，在實踐中用到了兩種算法，試比較如下：

3.2.1 依據定義機械對比

這種算法思路簡單，但實現起來用到了三重循環來計算共詞頻次，算法時間復雜度和空間復雜度大，運行時效率比較低。

3.2.2 利用SQL聚合函數計算

4 應用舉例

在高頻關鍵詞表的基礎上，按步驟依次計算共詞矩陣、相似矩陣與相異矩陣，然后進行統計分析。共詞矩陣如表2所示（限于篇幅，只顯示部分）：

5 結束語

參考文獻

[1]張勤，徐緒松.定性定量結合的分析方法-共詞分析法[J].技術經濟，2010，29（6）：20-24.

[2]馮璐，冷伏海.共詞分析方法理論進展[J].中國圖書館學報，2006，3

2（162）：88-92.

[3]魏瑞斌.基于關鍵詞的情報學研究主題分析[J].情報科學，2006，24（9）：1400-1404+1434.

關鍵詞：共詞分析；共詞矩陣；算法

1 概述

2 共詞分析的過程與步驟

運用共詞分析法進行研究大致可分為幾個步驟進行，在具體的操作中可根據實際研究主題選擇合適的分析方法。

2.1 確定研究主題與文獻選取

2.2 高頻詞的選取

2.3 構造共詞矩陣

2.4 采用多元統計方法分析

2.5 闡述共詞分析的結果

3 共詞分析工具軟件的設計開發

3.1 系統功能模塊

文本預處理：將下載的文獻規范化處理，去除文本中不必要的空行、特殊字符等，為導入題錄做好數據準備。

共詞矩陣構建與計算：選定高頻關鍵詞之后，需要進行共詞矩陣的構建與頻次計算。其實現方法的討論在下節中再詳細討論。

多元統計方法分析：可以根據需要添加因子分析、聚類分析、關聯規則分析等功能，此功能模塊屬于擴展功能。

3.2 共詞矩陣計算方法比較

共詞頻次的計算方法很多，在實踐中用到了兩種算法，試比較如下：

3.2.1 依據定義機械對比

這種算法思路簡單，但實現起來用到了三重循環來計算共詞頻次，算法時間復雜度和空間復雜度大，運行時效率比較低。

3.2.2 利用SQL聚合函數計算

4 應用舉例

在高頻關鍵詞表的基礎上，按步驟依次計算共詞矩陣、相似矩陣與相異矩陣，然后進行統計分析。共詞矩陣如表2所示（限于篇幅，只顯示部分）：

5 結束語

參考文獻

[1]張勤，徐緒松.定性定量結合的分析方法-共詞分析法[J].技術經濟，2010，29（6）：20-24.

[2]馮璐，冷伏海.共詞分析方法理論進展[J].中國圖書館學報，2006，3

2（162）：88-92.

[3]魏瑞斌.基于關鍵詞的情報學研究主題分析[J].情報科學，2006，24（9）：1400-1404+1434.

科技創新與應用2014年36期

科技創新與應用的其它文章: 淺談建筑設計防火規范的若干問題; 淺議綠色施工管理的建筑施工管理; 建筑工程高大模板施工管控缺陷及其對策研究; 優化建筑施工技術對降低建筑能耗的意義分析; 建筑結構設計中應注意的幾個問題; 濕陷性黃土地區地質勘察與評價