詞共現頻次變化視角下的動態主題識別研究

2022-05-31 14:19:07席崇俊劉文斌丁楷

知識管理論壇 2022年2期

關鍵詞：研究

席崇俊劉文斌丁楷

摘要：[目的/意義]主題識別研究對于理清領域內的知識結構與研究熱點非常重要，對領域主題進行動態識別，可以很好地幫助研究人員了解和掌握領域的發展態勢及未來走向。[方法/過程]利用張量的數據結構形式，在詞共現矩陣中融入時間維度，只需一次聚類便可進行動態主題的識別。[結果/結論]張量結構及非負張量分解算法為詞共現頻次變化視角下的動態主題識別提供一種新的方法，該方法相較于傳統方法更為簡單快捷，有效避免了信息的損失。

關鍵詞：關鍵詞共現 ? ?非負矩陣分解 ? ?非負張量分解 ? ?動態主題識別 ? ?知識管理

分類號：G254.2

引用格式：席崇俊，劉文斌，丁楷. 詞共現頻次變化視角下的動態主題識別研究[J/OL]. 知識管理論壇， 2022， 7（2）： 197-208[引用日期]. http：//www.kmf.ac.cn/p/281/.

1 ?引言

在信息時代背景下，隨著科技文獻數量的迅猛增長，研究人員無法在短時間內吸收和掌握數以萬計的研究成果，即便是針對范圍狹窄的領域進行密切關注、持續閱讀，仍難理清該領域的研究熱點和研究方向[1]。因此，對領域主題的挖掘與演化研究則顯得尤為重要，它可以很好地幫助研究人員了解和掌握領域的發展態勢及未來走向，也是解決信息大爆炸時代情報危機的有效方法[2-3]。本文基于詞共現頻次變化視角對動態主題識別方法進行探討，旨在為科技決策提供更好的支持。

2 ?研究現狀

主題識別與演化研究是利用文獻特征項之間的關聯關系對文獻集合進行分析從而發現主題，并通過主題揭示文獻集合中蘊涵的內容，以了解當前領域的研究熱點并預測未來的發展趨勢[4]。在主題識別與演化分析研究中，相關學者已經開展了大量研究，根據研究對象由淺及深可分為基于文獻外部引用關系的方法、基于文獻內部詞分析的方法、基于全文內容文本挖掘的方法等。

基于文獻引用關系的分析方法可分為文獻共被引法、文獻耦合法以及文獻間的直接引用法等，主要是利用文獻之間的引用關系來判斷文獻之間的關聯程度，從而對文獻進行劃分，達到主題聚類的目的[5-6]。例如祝清松等提出基于引文主路徑文獻共被引的主題演化分析方法，通過對引文主路徑上關鍵文獻的共被引分析來揭示學科領域的主題演化情況[7];黃福等通過核心文獻與其被引文獻進行耦合分析，再通過核心文獻及其施引文獻進行共被引分析，進而分別構建研究前沿領域[8];宋艷輝等以SCI和SSCI收錄的7種情報學期刊在2000-2010年間的數據為樣本，以作者文獻耦合分析方法為研究視角，探尋新世紀以來情報學的知識結構[9]。

基于詞分析的方法主要分為詞頻分析法和詞共現分析法，詞頻分析法是通過統計文獻中關鍵詞出現頻次的高低變化來確定領域的研究重點及熱點[10]，詞共現分析法則是通過統計一組詞共同出現的次數來分析詞之間的關聯關系，從而對詞進行聚類得到主題[11]。例如奉國和等基于生命周期理論和詞頻分析方法，對學科領域發展過程進行客觀合理的動態跟蹤與分析[12];儲節旺等運用詞頻分析法，通過對文獻關鍵詞的詞頻統計，進而對近10年來知識管理領域的研究熱點、應用領域和研究方法進行分析[13];姜鑫等利用CNKI數據庫通過詞頻分析法結合共詞分析法對2005-2016年我國科學數據領域的研究主題進行演化分析[14];趙麗梅等以共詞分析為基本研究框架，揭示大數據背景下數字圖書館研究領域的主流研究范式，為后續研究提供內容基礎和理論依據[15];唐果媛等采用人工判讀法提煉出基于共詞分析法的學科主題演化研究分析流程的5個步驟，并對每個步驟中研究人員使用的策略、分析手段和工具進行歸納總結[16]。

基于文本挖掘的方法則是通過文本挖掘技術對主題進行抽取，并用相關評價標準對主題進行分類。例如胡吉明等構建了適用于動態文本內容主題挖掘的LDA模型[17];楊超等構建了基于“主語—行為—賓語”（subject-action-object， SAO）結構的LDA主題模型，實現對專利文獻主題結構的識別和分析[18];J. Kim等通過文本挖掘和決策樹的方法進行技術預測，從論文作者、期刊、所屬領域及專利的專利權人、所屬領域等字段中抽取能代表技術主題領域的特征[19]。

其中，基于詞共現分析的方法可以深入到文獻內部，既關注詞出現的頻次大小，也考慮了詞間的語義關系，是當前較為廣泛使用的一種方法。因此，本文考慮基于詞共現的分析方法對領域主題進行挖掘。傳統基于詞共現分析對多個周期的主題進行動態識別時，通常是基于二維數據——要么是根據各年份的詞頻變化矩陣進行聚類;要么是先按年份對詞進行時間切片，然后分別構造詞共現矩陣進行單獨多次聚類，從而實現動態主題識別。前一種方法未考慮詞間的語義關系，后一種方法則需要進行多次聚類，損失了大量信息。本文考慮借助張量的數據結構形式，在詞共現矩陣上融入時間維度，構造三維數據，并基于非負張量分解算法只需一次聚類便可得到各年份的主題情況，有效減少了數據的損失。

3 ?研究思路

本文的具體研究思路如圖1所示：

為了在詞共現矩陣中融入時間維度，從詞共現頻次變化視角下進行動態主題識別，本文首先對詞共現矩陣的構造方式、數據處理方式以及聚類方法進行探討。①詞共現矩陣的構建。文獻是關鍵詞的載體，而作者是科學研究的主體，二者所使用的關鍵詞集合對領域的知識結構有著不同的反映，因此，本文考慮分別從文獻視角和作者視角構建關鍵詞共現矩陣，并將兩種視角下的矩陣進行融合，比較基于三種關鍵詞共現矩陣得到的主題識別結果的差異。 ? ?②詞共現矩陣的處理。在基于共現數據進行研究時，有學者指出直接在原始數據上進行分析即可[20]，有學者則認為需要對原始數據進行標準化處理后再進行分析[21]，在以往基于關鍵詞共現的主題識別研究中，關于共現矩陣是否需要以及如何進行標準化處理尚無統一定論，因此，本文分別從對稱視角和非對稱視角對關鍵詞共現矩陣進行標準化處理，對比是否進行標準化操作以及不同的標準化處理操作方式對主題識別結果的影響。③詞共現矩陣的聚類方法。非負矩陣分解算法相較于傳統聚類算法（系統聚類法、主成分分析、奇異值分解等）可以有效避免關鍵詞與類團的單屬性以及權重值為負等不足，而非負張量分解是非負矩陣分解在高維空間的拓展，因此，本文首先明確非負矩陣分解算法相對傳統聚類算法的有效性，然后比較非負分解算法與非負張量分解算法在動態主題識別中的優劣性。

4 ?數據集及研究方法

4.1 ?數據集

4.1.1 ?數據集的構建

本文在Web of Science數據庫中以“knowledge management”為主題詞檢索了國外知識管理領域相關文獻，文獻類型限定為“article”，文獻時間為“2017-2021年”，共檢索到4 898篇文獻，包含11 343個關鍵詞字段和12 178個作者字段，通過對數據字段進行清理，去除本位詞“knowledge management”的影響，選擇頻次大于1的關鍵詞進行研究，并按如下三種方式構建本文所需的關鍵詞共現矩陣：

（1）文獻視角下的關鍵詞共現矩陣構建。假設KTm×p為關鍵詞—文獻共現矩陣，其中m為關鍵詞數，p為文獻數，矩陣元素為關鍵詞在文獻中出現的次數，顯然KTm×p為0-1值矩陣，則基于文獻的關鍵詞共現矩陣ATm×m可定義為：

ATm×m=KTm×p*（KTm×p）T ? ? ? ? ?公式（1）

（2）作者視角下的關鍵詞共現矩陣構建。同樣地，假設KRm×q為關鍵詞—作者共現矩陣，其中m為關鍵詞數，q為作者數，矩陣元素為作者使用關鍵詞的次數，則基于作者的關鍵詞共現矩陣ARm×m可定義為：

ARm×m=KRm×q*（KRm×q）T ? ? ? ? ?公式（2）

（3）融合文獻和作者雙視角下的關鍵詞共現矩陣構建。考慮到無論是基于文獻還是基于作者的關鍵詞共現本質上都是計算關鍵詞共同出現的次數，區別在于一個從文獻視角考慮，一個從作者視角考慮。對同一個領域來說，某一時間段內其所包含的研究成果是一定的，由于科技文獻是研究成果的載體，而作者是科學研究的主體，二者互為補充，從不同視角對領域內的研究情況進行了劃分，因此本文考慮同時結合這兩個視角，融合文獻和作者的關鍵詞共現矩陣ATRm×m可定義為：

ATRm×m=ATm×m+ARm×m ? ? ? ?公式（3）

4.1.2 ?數據處理

（1）對稱視角下的標準化處理。2009年，N. J. van ECK等指出在對共現數據進行分析時需要利用相似性度量來標準化數據，并對比了幾種常用的相似性度量方法（關聯強度、余弦相似度、包含指數、Jaccard指數），發現基于概率的相似性度量方法（關聯強度）效果要好于基于集合論的度量方法（余弦相似度、包含指數、Jaccard指數）[22]。因此，本文將利用關聯強度計算公式對關鍵詞共現矩陣進行標準化處理。以融合文獻和作者的關鍵詞共現矩陣ATRm×m為例，記矩陣ATRm×m第i行第j列的元素為atrij，按公式（4）對其進行相似化處理后得到矩陣ATR'm×m。

公式（4）

（2）非對稱視角下的標準化處理。上述方法是在對稱視角下對關鍵詞共現矩陣進行了標準化處理，雖然兩個關鍵詞的共現頻次是唯一的，但是受單個關鍵詞出現頻次的影響，高頻關鍵詞與很多詞存在關聯，而低頻詞只與少數詞存在關聯，因此從高頻詞視角下計算的關聯度與從低頻詞視角下計算的關聯度是不同的，本文考慮利用公式（5）對矩陣ATRm×m進行非對稱視角下的相似性度量得到矩陣ATR''m×m。

公式（5）

4.2 ?研究方法

4.2.1 ?非負矩陣分解

非負矩陣分解起源于主成分分析，最早由P. Paatero等[23]提出，被稱為正矩陣分解，其基本思想是將一個非負的矩陣分解為左右兩個非負矩陣的乘積。對于關鍵詞共現矩陣來說，m表示關鍵詞數，利用上述介紹的非負矩陣分解算法將其分解為，其中矩陣V r×m的行可以解釋為r個主題，每行元素表示為詞表中m個關鍵詞在該主題中的非負權重，因此可以對詞表的每一行按權重值大小進行排列，從而得到每個主題所包含的關鍵詞種類，并根據關鍵詞的權重值大小對主題進行命名[24]。

4.2.2 ?非負張量分解

張量是一個多維數組，最常用的張量分解方法有CP分解和Tucker分解[25]。CP分解是將一個n階張量分解成多個秩為1的張量的和的形式[26]，Tucker分解則是將其分解成一個核心張量與若干個因子矩陣乘積的形式，核心張量可以看成原張量的濃縮形式[27]，當核心張量是一個對角的張量時，Tucker分解則退化成了CP分解[28-30]（見圖2）。非負張量分解則是非負矩陣分解在高維空間中的拓展，它既保留了張量的優點，又避免了負元素的出現，被廣泛應用于圖像處理、音頻分類文本挖掘等領域。

在利用非負張量分解進行主題識別時，首先需要構建一個合適的張量，以三階張量為例，由于本文是基于關鍵詞共現頻次變化視角進行動態主題識別，因此本文構建了

<關鍵詞，關鍵詞，年份>的三階張量XI×I×K，如圖3所示，其中關鍵詞共現矩陣中的黑色圓圈代表關鍵詞之間的共現強度，對該張量進行非負張量分解便可得到因子矩陣AI×R、BR×I、CK×R，以及核心張量ΛR×R×R，其中I代表關鍵詞種類數，K代表年數，R代表聚類個數，與非負矩陣分解算法結果類似，非負張量分解算法中的因子矩陣AI×R、BR×I均可解釋為R個主題以及每個主題下包含的關鍵詞種類及權重值大小，且兩個因子矩陣下的聚類結果一致，此外因子矩陣CK×R還可解釋為R個主題在各個年份所占的權重值即主題研究熱度，核心張量ΛR×R×R則可解釋為R個主題的綜合強度，由此便將<關鍵詞，關鍵詞，年份>的三階張量降維成了<主題，年份>的二階矩陣，從而可以進行主題的動態識別，如圖3所示，主題框中的黑色圓圈大小代表主題在該年份所出現的強度大小。

5 ?結果分析

基于詞共現頻次變化視角進行動態主題識別時，首先需要構造合適的詞共現矩陣，因此本文首先對幾種詞共現矩陣的構造方式及數據處理方法進行對比，然后選擇合適的方法進行張量的構造與動態主題的識別。本文首先進行了兩組對照實驗，第一組實驗對比了基于文獻的關鍵詞共現矩陣、基于作者的關鍵詞共現矩陣以及融合文獻與作者的關鍵詞共現矩陣在主題識別結果上的差異;第二組實驗在第一組實驗結果的基礎上，選擇一種數據集構建方式，對比了共現矩陣進行相似化處理操作對主題識別結果的影響。

5.1 ?數據集構建組實驗結果分析

通過多次實驗發現：當類團數多于5類時，會出現部分類團中的關鍵詞高度重疊的情形，因此本文將類團數定為5類，三種關鍵詞共現矩陣下的非負矩陣分解聚類結果見表1。可以看出，非負矩陣分解算法下的聚類結果中各類團里的關鍵詞權重值大小均非負，彌補了主成分分析中權重值可正可負的不足，各類團中的關鍵詞種類也有重復，彌補了系統聚類法中一個關鍵詞只屬于一個類團的不足，與現實情況相吻合。具體來看，三種關鍵詞共現矩陣下的聚類結果既存在相同之處也呈現出差異：

首先，三種關鍵詞共現矩陣下每個類團中的主導詞（權重值最高的關鍵詞）基本一致，這些主導詞可以輔助于類團的命名，由此說明不管是在文獻視角下還是作者視角下，國外知識管理領域近5年的研究熱點基本相同，主要有Knowledge Sharing、Innovation、Intellectual capital、Knowledge、Organizational performance、SEMs等;不同之處在于每個大主題下的研究方向有所差異（即每個類團中權重值低的關鍵詞種類有所差異），如文獻視角下的Innovation主題中的關鍵詞按權重值排序依次為SMEs、Performance、Dynamic capabilities、Entrepreneurship等，作者視角下Innovation主題中的關鍵詞按權重值排序依次為SMEs、Dynamic capabilities、Organizational performance、Information technology等，兩種視角下的創新主題研究都聚焦于企業，但文獻視角下的企業創新側重于企業家精神，而作者視角下的企業創新側重于信息技術。

此外，通過jaccard相似度算法計算出每種聚類結果下各主題之間的關聯度，得到關聯度均值、極差和標準差等統計數據（圖4-圖6）。可以看出，基于文獻視角的聚類結果中每個主題與該聚類結果下其他主題的關聯度均值都是最高，且極差和標準差最小;基于作者視角的聚類結果中每個主題與該聚類結果下其他主題的關聯度均值都比較低，且極差和標準差都較大;而融合兩種視角下關鍵詞共現矩陣的聚類結果的主題關聯度統計數據介于單視角結果之間。由此說明，作者視角下的聚類結果中各主題之間的區分度比文獻視角下的聚類結果主題區分度更為明顯，這是由于文獻數量遠多于作者數量，文獻視角下的聚類結果可以對領域主題進行深入的挖掘，而作者視角下的聚類結果可以對領域主題進行全面的識別。結合三種聚類結果下各主題所包含的關鍵詞個數（見圖7）可知，文獻視角下的每個主題所包含的關鍵詞種類較作者視角下的關鍵詞種類更多，即主題內容挖掘得更為深入細致。因此，融合了文獻和作者的關鍵詞共現矩陣相較于單一視角下的關鍵詞共現矩陣聚類結果既能全面地反映領域內的研究情況，又能對研究內容進行深入細致的挖掘。

該組實驗結果表明：文獻是新知識、新技術的載體，代表了一個領域的最新研究成果，隨著知識大爆炸時代的來臨，文獻數量迅猛增長，基于文獻的關鍵詞共現矩陣聚類結果可以表征一個領域內的熱門研究主題與研究前沿，且由于文獻數量遠遠多于作者數量，文獻視角下的關鍵詞共現矩陣可以對領域內的研究情況進行更為細致深入的挖掘;而作者則是長期耕耘在某一研究方向上的創造者，基于作者的關鍵詞共現矩陣聚類結果可以表征領域內的經典研究主題，且對領域內的研究情況進行全面的反映。融合了文獻和作者的關鍵詞共現矩陣的聚類結果既能全面又能深入細致地反映領域內的研究情況。

5.2 ?數據集處理組實驗結果分析

第一組實驗結果表明：基于融合文獻和作者雙視角的關鍵詞共現矩陣的主題識別結果能更好地反映領域內的研究情況，因此本文以該矩陣為例繼續進行下一步分析。首先對融合文獻和作者雙視角下的關鍵詞共現矩陣在對稱視角下和非對稱視角下進行標準化處理，然后利用非負矩陣分解算法對經標準化操作處理前后的關鍵詞共現矩陣進行聚類，聚類結果見表2。

可以看出，未經標準化處理的共現矩陣聚類結果與在非對稱視角下進行標準化處理的共現矩陣聚類結果存在部分主題的主導詞相同的情況（如Knowledge sharing、Innovation、Knowledge等），而在對稱視角下進行標準化處理的共現矩陣聚類結果則差異較大，通過查看原始數據發現，未經標準化操作和在非對稱視角下進行標準化操作的聚類結果中各主題下的主導詞一般為高頻關鍵詞，且類團中的關鍵詞權重值差異明顯，而在對稱視角下進行標準化操作的聚類結果中各主題下的關鍵詞出現的頻次都比較低，且各類團中的關鍵詞權重差異不大，這是因為對稱視角下的標準化可以消除高頻關鍵詞的影響。此外，在非對稱視角下的標準化處理操作后的聚類結果除了將高頻關鍵詞聚攏，也將一部分低頻關鍵詞進行聚攏，這是由于一些關鍵詞雖然出現的頻次不高，但是每一次出現都伴隨著其他詞一起出現，這些詞的關聯度非常高，因而被聚為一類，而其他兩種聚類結果則不具這一特點。

該組實驗結果表明：使用原始關鍵詞共現矩陣或對其進行非對稱視角下的標準化處理，可以分析領域內的熱點研究主題，因為高頻關鍵詞往往能代表某一領域的研究重點與熱點，其中經非對稱標準化處理后的關鍵詞共現矩陣聚類結果除了可以研究高頻關鍵詞的類團，也涵蓋了低頻關鍵詞的聚攏情況，可以更加全面地分析領域內的研究情況。使用對稱視角下標準化處理的關鍵詞共現矩陣可以分析領域內的最新前沿研究動向，在對稱視角下進行標準化處理后的聚類結果既消除了高頻關鍵詞的影響，也未割除關鍵詞之間的關聯性。

5.3 ?動態主題識別結果分析

基于前兩組的實驗結果，第三組實驗仍以融合了文獻和作者雙視角下的關鍵詞共現矩陣數據為例，并進行非對稱視角下的標準化處理操作，然后對比非負矩陣分解算法和非負張量分解算法在動態主題識別過程中的優劣性。由于非負矩陣分解算法處理的數據是矩陣形式，因此需要對2017-2021年期間的關鍵詞共現矩陣按年進行時間分片，共需進行5次聚類，每年聚類的數據集為當年出現的所有關鍵詞之間的共現矩陣;非負張量分解算法可以處理高維數據形式，因此可以直接對2017-2021年的所有關鍵詞進行整體聚類，首先構造一個三階張量，按年份維度可劃分為5片，每片為2017-2021年期間出現的所有關鍵詞在某一年份中的共現矩陣。非負矩陣分解算法和非負張量分解算法的聚類結果見表3。

可以看出，非負矩陣分解算法下的聚類結果，在2017-2021年期間各年份的主要研究熱點大致相同（每個類團中的主導關鍵詞大致相同），但每個研究熱點下的研究方向與研究細度略有差異（每個類團中的關鍵詞數量及種類有所差異），而非負張量分解只對2017-2021年期間的關鍵詞進行了一次聚類，聚類結果與非負矩陣分解算法的結果整體較為吻合（非負張量分解的聚類結果中的各主導詞為非負矩陣分解聚類結果5年內出現較多的主導詞）。

非負矩陣分解算法對2017-2021年期間的關鍵詞共現矩陣進行了逐年多次聚類，而非負張量分解算法則是利用五年間關鍵詞聯系及演化得到五年間主題的識別與演化，即它所聚類出的主題為這5年間出現的所有主題，然后利用分解后核心張量的結果，得到這所有主題在每年出現的概率或是研究強度，從而實現了只需一次聚類便可進行分析多年研究情況的動態主題識別。但是由于非負張量分解只進行了一次聚類，所以各年份出現的相同主題的研究內容都保持不變，相對綜合，而非負矩陣分解是對各年分別進行單獨聚類，因此不同年份可能主題相似，但內容有所差異，即非負矩陣分解在動態主題識別時對各主題的研究內容刻畫得更為細致。

此外，通過對非負矩陣分解下的各年份聚類結果利用jaccard相似度算法計算主題相似度，得到主題演化脈絡圖（見圖8），而非負張量分解下的聚類結果可以利用核心張量得到各年份主題的研究強度圖（見圖9），這種主題研究強度并非以主題的關鍵詞數量或者頻次來衡量，而是通過各年份關鍵詞之間的共現變化關系而得出的主題演化強度，非負矩陣分解則較難實現這點。

圖8 ?2017-2021年知識管理領域主題演化（非負矩陣分解）

圖9 ?2017-2021年知識管理領域主題強度（非負張量分解）

該組實驗結果表明：如果想對領域內的研究情況進行大致的分析，可以采用非負張量分解算法，該算法簡單快捷，只需一次聚類便可得到各年份的研究主題及研究強度等信息，大大降低了算法的復雜度，也減少了信息的損失。如果想細致地分析領域內各年份的研究情況可以采用非負矩陣分解進行逐年分析，這樣可以得到各年份主題的具體研究內容及變化，也可以得到不同年份之間的主題演化情況，不足之處在于需要進行多次聚類及數據處理，且難以觀察由于關鍵詞共現演化帶來的主題演化情況。

綜上，在利用關鍵詞共現數據進行領域主題識別時，選擇融合文獻和作者雙視角下的關鍵詞共現矩陣數據更能全面地反映領域內的研究情況;在利用共現數據進行主題識別時，需要對共現數據利用相似度度量進行標準化處理，其中在對稱視角下進行標準化處理可以消除高頻關鍵詞的影響，分析領域內的前沿動向，在非對稱視角下進行標準化處理可以研究領域內的熱點問題;在進行動態主題識別過程中，非負張量分解算法可以簡單快速地獲取領域內的研究主題及其在各年的研究強度，而非負矩陣分解則可以更為細致深入地刻畫主題以及主題的演化脈絡，但是需要進行多次操作。

6 ?結束語

本文針對傳統基于詞共現矩陣的動態主題識別研究中需要進行多次聚類的不足，提出一種新的數據構建方式及處理方法，基于張量結構的數據形式可以在詞共現矩陣中融入時間維度，盡可能地保留數據的原始信息，基于非負張量分解算法的動態主題識別只需進行一次聚類便可得到各年份的主題情況，有效避免了信息的損失。此外，本文還對幾種詞共現矩陣的構造方式及矩陣處理方法進行了探討：在數據集的構建方式上，分別從文獻視角、作者視角以及融合文獻和作者雙視角構建了關鍵詞共現矩陣;在數據處理方式上，分別從對稱視角和非對稱視角利用相似性度量對共現矩陣進行了標準化操作，并對比了標準化操作對主題識別結果的影響。實驗結果表明：融合文獻和作者雙視角下的關鍵詞共現矩陣可以更全面地反映領域內的知識結構，對稱視角下的標準化處理與非對稱視角下的標準化處理在分析研究熱點與研究前沿上各具優勢。本文旨在為基于關鍵詞共現的主題識別研究提供一些方法和流程上的參考，提高主題識別精度，為科技決策提供更好的支撐。

參考文獻：

[1] BUSH V. As we may think[J]. The Atlantic monthly， 1945 （7）： 1-2 .

[2] 劉向，馬費成，陳瀟俊，等.知識網絡的結構與演化——概念與理論進展[J].情報科學， 2011， 29（6）： 801-809.

[3] 巴志超，楊子江，朱世偉，等.基于關鍵詞語義網絡的領域主題演化分析方法研究[J].情報理論與實踐， 2016， 39（3）： 67-72.

[4] 王莉亞.主題演化研究進展[J].情報探索， 2014（4）： 29-32.

[5] 邵作運，李秀霞.引文分析法與內容分析法結合的文獻知識發現方法綜述[J].情報理論與實踐， 2020， 43（3）： 153-159.

[6] 鄒麗雪，王麗，劉細文.利用引文構建的主題模型研究進展[J].圖書情報工作， 2019， 63（23）： 131-138.

[7] 祝清松，冷伏海.基于引文主路徑文獻共被引的主題演化分析[J].情報學報， 2014， 33（5）： 498-506.

[8] 黃福，侯海燕，任佩麗，等.基于共被引與文獻耦合的研究前沿探測方法鄰選[J].情報雜志， 2018， 37（12）： 13-19， 35.

[9] 宋艷輝，武夷山.基于作者文獻耦合分析的情報學知識結構研究[J].圖書情報工作， 2014， 58（1）： 117-123.

[10] 張潔，王紅.基于詞頻分析和可視化共詞網絡圖的國內外移動學習研究熱點對比分析[J].現代遠距離教育， 2014（2）： 76-83.

[11] 葉春蕾，冷伏海.基于共詞分析的學科主題演化方法改進研究[J].情報理論與實踐， 2012， 35（3）： 79-82.

[12] 奉國和，孔泳欣.基于時間加權關鍵詞詞頻分析的學科熱點研究[J].情報學報， 2020， 39（1）： 100-110.

[13] 儲節旺，錢倩.基于詞頻分析的近10年知識管理的研究熱點及研究方法[J].情報科學， 2014， 32（10）： 156-160.

[14] 姜鑫，王德莊，馬海群.關鍵詞詞頻變化視角下我國“科學數據”領域研究主題演化分析[J].現代情報， 2018， 38（1）： 141-146， 161.

[15] 趙麗梅，張花.我國大數據時代數字圖書館研究前沿分析——基于共詞分析的視角[J].情報科學， 2019， 37（3）： 97-104.

[16] 唐果媛，張薇.基于共詞分析法的學科主題演化研究進展與分析[J].圖書情報工作， 2015， 59（5）： 128-136.

[17] 胡吉明，陳果.基于動態LDA主題模型的內容主題挖掘與演化[J].圖書情報工作， 2014， 58（2）： 138-142.

[18] 楊超，朱東華，汪雪鋒，等.專利技術主題分析：基于SAO結構的LDA主題模型方法[J].圖書情報工作， 2017， 61（3）： 86-96.

[19] KIM J， HWANG M， JEONG D H， et al. Technology trends analysis and forecasting application based on decision tree and statistical feature analysis[J]. Expert systems with applications， 2012， 39（16）： 12618-12625.

[20] WALTMAN L， VANECK N J. Some comments on the question whether co-occurrence data should be normalized[J]. Journal of the American Society for Information Science and Technology， 2007， 58（11）： 1701-1703.

[21] LEYDESDORFF L. Should co-occurrence data be normalized？ a rejoinder[J]. Journal of the American Society for Information Science and Technology， 2007， 58（14）： 2411-2413.

[22] van ECK N J， WALTMAN L. How to normalize cooccurrence data？ an analysis of some well-known similarity measures[J].Journal of the American Society for Information Science and Technology， 2009， 60（8）： 1635-1651.

[23] PAATERO P， TAPPER U. Positive matrix factorization： a nonnegative factor model with optimal utilization of error estimates of data values[J]. Environmetrics， 1994， 5（2）： 111-126.

[24] 章祥蓀，張忠元. 非負矩陣分解：模型、算法和應用[J].重慶師范大學學報（自然科學版）， 2013， 30（6）： 1-8.

[25] 吳繼冰，黃宏斌，鄧蘇.網絡異構信息的張量分解聚類方法[J].國防科技大學學報， 2018， 40（5）： 146-152， 170.

[26] 熊李艷，何雄，黃曉輝，等.張量分解算法研究與應用綜述[J].華東交通大學學報， 2018， 35（2）： 120-128.

[27] 程齊凱，王曉光.一種基于共詞網絡社區的科研主題演化分析框架[J].圖書情報工作， 2013， 57（8）： 91-96.

[28] LUO J， GWUN O. A comparison of sift PCA-SIFT and SURF[J]. International journal of image processing， 2009， 3（4）： 143-152.

[29] CICHOCKI A， ZDUNEK R， PHAN A H， et al. Nonnegative matrix and tensor factorizations：applications to exploratory multi-way data analysis and blind source separation[M]. Hoboken： Wiley Publishing， 2009.

[30] 熊李艷，何雄，黃曉輝，等.張量分解算法研究與應用綜述[J].華東交通大學學報， 2018， 35（2）： 120-128.

作者貢獻說明：

方 ?潔：提出研究思路，進行論文指導及修訂;

崔蘭蘭：進行數據采集、研究思路設計、數據分析、論文撰寫及修訂。

Research on Dynamic Topic Recognition Based on the Change of Word Co-Occurrence Frequency

Xi Chongjun ?Liu Wenbin ?Ding Kai

Institute of Science and Technology Information of China， Beijing 100038

Abstract： [Purpose/Significance] The research on topic recognition is very important to clarify the knowledge structure and research hotspots in the field. Dynamic identification of domain topics can help researchers understand and master the development trend and future trend of the field. [Method/Process] Using the data structure form of tensor， this paper integrated the time dimension into the word co-occurrence matrix， and only needed one clustering to identify the dynamic topic. [Result/Conclusion] Tensor structure and non-negative tensor decomposition algorithm provide a new method for dynamic topic recognition from the perspective of word co-occurrence frequency change. Compared with traditional methods， this method is simpler and faster， and effectively avoids the loss of information.

Keywords： keyword co-occurrence ? ?non-negative matrix factorization ? ?non-negative tensor factorization ? ?dynamic topic recognition ? ? knowledge management

作者簡介：席崇俊，碩士研究生，E-mail：xicj7465@163.com;劉文斌，碩士研究生;丁楷，碩士研究生。

收稿日期：2021-10-22 ? ? ? ?發表日期：2022-03-24 ? ? ? ?本文責任編輯：劉遠穎