融合詞和文檔嵌入的關鍵詞抽取算法

2021-02-05 18:10:52劉嘯劍

計算機與生活 2021年2期

祖弦，謝飛+，劉嘯劍

1.合肥師范學院計算機學院，合肥 230061

2.合肥工業大學計算機與信息學院，合肥 230009

隨著文本數據的日益增多，如何快速、高效、全面地分析及挖掘文本，從中獲取用戶所需信息是當前自然語言處理領域面臨的一大挑戰。關鍵詞是最能反映文檔主旨的詞匯詞組，簡明扼要地概括并表達文檔核心內容。因此關鍵詞自動抽取技術能幫助人們迅速從海量數據中篩選出有用信息，從而有效提高文檔檢索效率。目前，關鍵詞自動抽取技術已廣泛應用于推薦系統、自動文摘[1]、文本分類[2]、信息檢索[3]等領域。然而Web 中絕大多數文檔都沒有提供相應關鍵詞，人工標注、手動編輯不僅繁瑣費力，還極具主觀性，因此需要研究出高效有用的關鍵詞自動抽取方法。

目前，主流的關鍵詞自動抽取方法分為有監督和無監督兩類，有監督算法需要大量人工標注語料庫，并預先訓練好抽取模型，不僅耗費人力時間，同時標注的主觀性也將直接影響抽取模型的效果。無監督算法主要基于以下幾種思想：依賴統計特征信息（如詞頻特征、長度特征、位置特征等）的方法、依賴詞圖模型的方法、依賴Topic Model（主題模型）的方法，其中基于統計的方法忽略了文檔中詞語之間的相互聯系，局限于僅通過統計相關特征來抽取關鍵詞，導致抽取效果不好。基于詞圖模型的方法雖然充分考慮了詞語間的相互關聯，但缺乏語義層面的支持。而基于主題模型的抽取方法試圖通過對文本潛在主題信息的挖掘來提高抽取效率，但實際應用中發現自動抽取的關鍵詞主題分布較為廣泛，并不能較好反映單篇文檔本身的主題，另外主題模型需要事先構建，也增加了計算成本及問題復雜性。無論上述哪一種算法，都忽略了候選詞語和文檔本身的語義關聯性，從而導致自動抽取的關鍵詞準確度不高。

為了提高算法抽取效率，考慮融入語義信息，傳統的如利用詞共現特征、WordNet 知識庫、wiki 語料庫等語義知識，均可表示詞語和文檔的語義信息。近年來，隨著深度學習技術的迅速發展，利用深度學習模型表示語義信息的思想已被大量運用到自然語言處理中，如BERT 語言模型、長短期記憶網絡（long short-term memory，LSTM）、卷積神經網絡（convolutional neural networks，CNN）、嵌入（embedding）技術等。這些模型可以準確地獲取文檔語法和語義信息，較好表現處理對象的語義特征，避免了數據離散稀疏、語義鴻溝等問題。

本文提出一種新的關鍵詞抽取方法，綜合考慮了以下兩點核心思想：首先，從單篇文檔中抽取的關鍵詞理應與文檔本身有著密切的語義聯系，因此與文檔本身語義更接近的詞語更有可能成為關鍵詞。其次，傳統的PageRank 算法認為圖中所有的單詞都有機會成為關鍵詞，因此給每個節點具有相同的初始權重，但考慮不同的單詞應該分配不同的起始權重，重要的詞語理應獲得更高的初始值。因此，較傳統方法而言，本文方法能更好地反映文檔中不同詞語的重要程度。

本文的主要貢獻有如下三點：

（1）在抽取算法中融合了深度學習模型，準確獲取單詞和文檔語義層面的關聯信息，通過集成語義信息和圖模型，設計出一種關鍵詞抽取的新算法。

（2）提出了一種有偏向的隨機游走策略，利用單詞與文檔的語義相似度信息改變圖中各節點分值計算的初始權重。從而解決了在傳統的基于詞圖模型方法中，由于忽略單詞語義信息導致抽取效率差的難題。

（3）通過兩個通用的公開數據集，驗證了該關鍵詞抽取算法的準確性和有效性。

1 相關工作介紹

1.1 有監督的關鍵詞抽取方法

在關鍵詞自動抽取方法中，通常根據算法是否需要人工預先標注語料庫進行判斷類別，主要劃分為有監督提取方法和無監督提取方法。有監督方法將抽取過程看成一個二分類問題，通過預先標注好的語料庫，利用不同的單詞特征選擇，選取相應的分類器進行關鍵詞抽取。例如經典的有監督KEA（keyphrase extraction algorithm）抽取算法采用的是樸素貝葉斯分類器，其他如決策樹、遺傳算法、支持向量機等分類器，均被應用于有監督方法中。2014 年，Haddoud 等人[4]采用邏輯回歸分類器進行關鍵詞抽取工作，通過定義文檔詞語極大性指數，來區別相互重疊的候選關鍵詞，實驗結果證明該算法要優于其他分類器抽取效果。2016 年，Sterckx 等人[5]基于決策樹分類器提出一種有效且適用性強的有監督抽取算法，適用于從多用戶標注的語料庫中進行關鍵詞抽取工作，該方法解決了在傳統有監督抽取方法中，人工預先標注的訓練集語料庫具有主觀性較強、含有較多噪音和錯亂數據的問題。Gollapalli 等人[6]通過融合文檔標簽特征、結構信息等專家知識特征，基于條件隨機場（conditional random field，CRF）策略提高關鍵詞抽取效果。2017 年，Xie 等人[7]提出基于序列模式及不同間隙約束條件的有監督抽取算法，通過靈活通配符約束和one-off 條件來提高序列模式挖掘效率，從而提升關鍵詞抽取性能。2019 年，Alzaidy 等人[8]提出融合LSTM 技術和條件隨機場策略，使用序列標記方法進行關鍵詞抽取工作。Santosh等人[9]提出在使用Bi-LSTM（bi-directional long short-term memory）和CRF 策略時，融合文檔級的注意力增加機制，更好地捕捉同一篇文章中上下文相關信息，從而提高關鍵詞抽取效果。

總體來說，有監督方法的抽取效率要優于無監督方法，但其抽取成本較高，需要預先人工標注并訓練大量語料庫，因此應用范圍存在局限性。

1.2 無監督的關鍵詞抽取方法

較早的無監督方法是基于統計的關鍵詞抽取方法，如TF-IDF（term frequency-inverse document frequency）方法，利用統計詞頻來計算單詞的重要性，2010 年，El-Beltagy 等人[10]提出KP-Miner 系統模型，通過提高統計單詞的TF（詞頻）值和IDF（逆向文檔頻率）值要求，并融入了單詞出現的位置等信息提高抽取質量。2017 年，Emu 等人[11]在抽取算法中融入了更多的統計信息，如單詞在整個語料庫中出現的頻次、語料庫中包括候選詞的文檔個數等。基于統計的算法較為簡單，普適性強，但忽略了單詞間的共現關系、文檔及詞語的基本語義關系，因此存在抽取單詞的局限性，容易忽略詞頻低卻較為重要的單詞。

因此，自從2004年Mihalcea等人提出TextRank[12]后，開始涌出大批學者研究基于圖的方法進行關鍵詞抽取工作，并在抽取效果上得到了大幅度提升。TextRank 方法通過構建圖模型，將文檔中每個單詞作為圖頂點，根據詞共現窗口添加邊，借助Google 傳統的PageRank 隨機游走算法，計算每個頂點分值并進行排序。Wan 和Xiao[13]在此工作基礎上進行了優化及改進，對于一篇文檔，不僅借助文檔本身的信息，還需要從與該文檔相似的幾篇文檔中獲取信息，繼而從這些文檔中算出詞共現總數作為邊的權重。Bellaachia 等人[14]針對推特文章的非正式及噪音多等特點，提出一種基于圖的無監督關鍵詞排序方法，認為在計算圖中節點排序權重時應該同時考慮本節點權重和邊的權重。2017 年，Florescu 等人[15]則通過加入單詞在文檔中出現的位置信息，改進了PageRank算法，使出現位置越靠前，且出現次數較多的詞語，更有可能成為關鍵詞。Yan 等人[16]認為已有的基于圖算法僅僅考慮文檔中單詞間聯系，忽略了句子的作用，而實際上如果一個單詞出現在重要的句子中，則該單詞也更重要。因此作者提出一種充分利用詞和句子關系的算法，在構造圖模型時，由單獨的詞圖擴充為單詞-單詞圖模型、句子-句子圖模型和句子-單詞圖模型，融合三種圖模型同時計算單詞分值，并采用聚類方法，最終選擇簇中心位置的詞作為關鍵詞。Biswas 等人[17]提出一種融合多方面節點權重的方法，認為關鍵詞的重要性是由若干不同的影響因素決定，如：詞頻、離中心節點的距離、詞語位置、鄰居節點重要性程度等。實驗結果表明，節點的每一種特征都對抽取效果有影響。

另外，除上述抽取方法以外，隨著主題模型的出現，很多學者嘗試通過對文檔中融入主題信息，來提高關鍵詞抽取效率。Liu 等人[18]提出TPR（topical PageRank）關鍵詞抽取算法，通過LDA（latent Dirichlet allocation）主題模型對文檔進行主題建模，首先根據詞共現窗口構建詞圖，該圖在不同主題下邊的權重值不一樣，每個主題分別利用PageRank 算法計算單詞的重要性，最終融合文檔的主題分布信息計算每個單詞的最終得分。但上述方法的運行復雜度較高，為改進該算法，2015 年，Sterckx 等人[19]提出單詞分值計算依賴于單篇文檔本身的單詞-主題概率向量和文檔-主題概率向量的余弦相似度，從而僅運行一次PageRank 算法，以達到提高性能的目的，但該算法僅僅考慮了主題特異性，卻忽略了主題模型的語料庫特異性。2017 年，Teneva 等人[20]為上述問題提出了新算法，使得主題和語料庫兩方面特異性達到平衡，且同樣只需要運行一次PageRank 算法。另外，Bougouin 等人[21]提出一種依賴于文檔主題表示的無監督抽取方法TopicRank，其利用HAC（hierarchical agglomerative clustering）聚類算法將候選詞分成主題簇，每個簇包含了相同主題的候選詞，利用主題簇構建圖模型，其中圖頂點是單個主題簇，而兩個簇中所有候選詞的距離之和作為邊的權重，使用PageRank算法計算每個主題簇的分值，并從每個簇中選取唯一的候選詞作為代表，從而取出前N個分值較高的關鍵詞。2018 年，Boudin[22]對上述TopicRank 方法進行了改進，在圖模型中同時表示候選詞和主題，只有不同主題的候選詞才會連接一條邊，作者利用兩者互相增強的關系來提高候選詞排名，性能上獲得了較大的提升。2018 年，Li等人[23]對微博帖子這類短文本提出一種無監督的關鍵詞抽取方法，將話題標簽作為主題的計算指標進行處理，認為主題分布應該更偏向于帖子相關的標簽，該算法不僅能發現較為準確的主題，還能抽取與標簽相關的關鍵字。Mahata等人[24]在對科技文章提取關鍵詞時，同時計算主題詞和候選詞的向量表示，利用候選短語之間的語義相似性及共現頻率計算圖中邊的權重，算法通過融合詞語Embedding 技術和主題加權的PageRank 算法，提高對科技文章關鍵詞抽取的效率。

1.3 Embedding 技術

近年來，隨著Embedding 技術如Word2Vec[25]、Glove[26]廣泛應用于自然語言處理領域，越來越多的學者開始采用深度學習技術提高關鍵詞抽取效率，基于降維思想，利用詞嵌入技術在同一個低維連續的向量空間上，將文檔中所有單詞表示成詞向量，充分挖掘單詞間的語義關系。詞嵌入向量可以有效表達詞語特征，每一維都代表單詞的一個語義或語法上的潛在特征表示，Word2Vec[25]在利用神經網絡模型訓練詞向量的過程中包含連續詞袋（continuous bag of words model，CBOW）和Skip-gram 兩種模型。前者通過中心詞周圍的所有詞來預測中心詞的出現概率，后者則通過中心詞來預測周圍詞的出現概率，通過訓練得出神經網絡隱藏層的權重參數。不論上述哪一種訓練模型，訓練時都是考慮詞語間的共現信息，因此訓練出的詞向量保留了詞語間特別是同義詞之間較強的相關性。相較于傳統的one-hot 等詞向量表示，Word2Vec 能較好地獲取自然語言中單詞語義特征，重點反映了兩個詞語間的語義相關性。但詞向量的使用存在局限性，主要用來計算單詞之間的語義相似度。此時利用Word2Vec 技術計算句子的向量表示時，一般是對句子中每個單詞的向量表示取平均所得，但該方法忽略了整個文檔的有序性，易丟失上下文相關信息。因此，隨著學者對句子表示學習的深入研究，開始出現對段落或句子的嵌入技術，常見的有Sen2Vec模型[27]和Doc2Vec[28]模型。Sen2Vec模型[27]可看成是詞向量Word2Vec中CBOW 模型的擴展，該算法充分考慮了詞序信息，訓練時采用FastText模型對輸入的文本序列加入n-gram 特征信息處理，利用CBOW 訓練得到單詞嵌入向量和n-gram 嵌入向量。具體來說，將句子看成一個完整窗口，同時結合窗口中的詞和窗口中所有的n-gram 來預測中心詞，句子向量就是對所有n-gram 向量表示求平均。因此，Sen2Vec 模型可同時融合單個詞語和其上下文相關信息，能同時對單詞和句子進行有效的向量表示。文獻[29]中使用Sentence Embedding 技術融入語義信息提高了關鍵詞抽取效果。2019年，Wang等人[30]將Sentence Embedding 方法應用于對專利文檔的關鍵詞抽取中，獲得了較好的抽取效果。其算法順利解決在傳統專利文本的關鍵詞抽取過程中，由于專利文檔的專用詞匯術語僅出現于對特定領域的描述中，因此依靠統計詞頻等特征，或是借助詞語間相關性進行關鍵詞抽取時，效率都不理想的問題。

本文提出的關鍵詞自動抽取算法，屬于一種基于圖的無監督方法，首先利用Sentence Embedding 思想將詞語和文檔同時映射成同一高維向量空間上的向量，通過計算向量間語義相似度，利用圖排序思想，借助隨機游走策略，獲取候選詞在同一篇文檔中的重要性分值，通過排序計算獲得關鍵詞。本文算法通過在圖排序中加入語義相關信息，能使抽取的關鍵詞從語義層面上較好地體現文檔主旨信息。

2 基于詞和文檔嵌入的關鍵詞抽取算法

本文提出的基于詞和文檔嵌入的關鍵詞抽取算法，主要包括以下幾個步驟：（1）文檔預處理，選取滿足規定詞性和構詞規則的候選詞；（2）單詞和文檔的語義向量化，即在同一個高維向量空間上，將單詞和文檔映射成向量表示，并計算兩者的語義相似度；（3）抽取關鍵詞，首先對文檔構造圖模型，在該圖上使用帶語義偏好的PageRank 算法，進而計算候選詞得分，篩選出得分最高的前N個作為關鍵詞。基于詞和文檔向量的關鍵詞抽取算法的詳細流程如圖1所示。

2.1 文檔預處理

Fig.1 Flow chart of algorithm圖1 算法流程圖

文檔預處理階段的主要目的是從文檔中選出符合條件的候選詞。首先，本文選擇斯坦福大學提供的自然語言處理工具Stanford CoreNLP（https://nlp.stanford.edu/software/stanford-corenlp-full-2018-02-27.zip），對文檔進行分句，以句子為單位進行分詞，并對每個單詞進行詞性標注。接著對文檔刪掉停用詞后，參照文獻[13]中Wan 和Xiao 的選詞方法，篩選出只有形容詞和名詞組合的最大長度詞組，即0 個或n個形容詞加上1 個或m個名詞的詞組，作為文檔的關鍵詞候選詞組。本階段的另一個任務是選出符合規定詞性的單詞，即選擇具有名詞詞性及形容詞詞性的所有單詞，作為后續構建詞圖模型時的單詞圖節點。

2.2 語義向量表示及相似性計算

本階段的主要任務是在算法中導入語義信息，即同時獲取單詞和文檔本身的語義向量表示，并計算兩者的語義相關性。首先，將上一階段篩選的符合詞性的單詞映射成高維向量空間上的向量表示；接著，在同一維度空間，將文檔也映射成相應的語義向量表示；最后，計算單詞向量和文檔向量的語義相關性。

為了在同一維度的向量空間同時表示單詞和文檔，本文采用了Sentence Embedding 中公開可用的語言模型工具——Sent2Vec 預訓練模型（https://github.com/epfml/sent2vec）。該模型利用英文維基百科語料庫，基于詞向量和n-grams 向量，生成600 維的高維向量表示空間，可同時在該600 維向量空間上將單詞、句子、文檔訓練生成語義向量。因此，通過Sent2Vec模型，本文算法可同時計算出單詞和文檔在600 維空間的向量表示。最后，利用式（1）計算每一個單詞wi同文檔d的余弦相似度。

其中，wi表示某一個單詞i的向量表示，d表示該文檔本身的向量表示，m表示語義向量空間的維度，此處為600 維。通過式（1）計算出的某一個單詞向量和文檔向量的余弦相似度越高，說明兩個向量越相似，即該單詞同文檔的語義相似度越高。

2.3 關鍵詞抽取

2.3.1 構造圖模型

根據文獻[12]中所述，構造詞圖模型時，有向圖和無向圖兩種類型不會顯著影響關鍵詞抽取的效果，因此本文構造帶權無向圖G=(V,E)，V表示圖的頂點集合{v1,v2,…,vn}，其中n代表圖中單詞頂點的個數，在預處理階段中詞性標注為名詞或者形容詞詞性的單詞可作為圖的頂點。E代表圖中邊的集合，同一個共現窗口下出現的兩個單詞之間連一條邊，邊的權重是指兩個頂點單詞在同一個共現窗口下的共現次數，如單詞i和單詞j在同一個共現窗口下出現時，就給圖中代表單詞i的頂點vi和代表單詞j的頂點vj連一條無向邊。

2.3.2 帶語義偏好的PageRank 算法

以往需要在圖模型中計算各單詞節點分值的時候，會采用隨機游走策略即PageRank 算法，在傳統的PageRank 算法中，默認每個單詞在文檔中是處于同等地位，都有機會成為最終的關鍵詞，因此賦予了每個單詞相同的歸一化初始權重。然而在本文算法中，與文檔有更高語義聯系的詞語，更有可能成為文檔的主旨關鍵詞，因此提出一種帶語義偏好的Page-Rank 算法。具體來說，就是給每個單詞賦予了不同的初始權重，該初始權重即為2.2 節計算出的單詞與文檔之間語義相似度大小，與文檔語義更接近的詞語，語義相似度的值越高，因此分配給該候選詞中單詞的初始權重也越大。在計算過程中，首先需要對初始權重進行歸一化處理，由式（2）所示，從而獲得每個單詞頂點vi的初始權重值mi。

接下來，利用上述帶語義偏好的PageRank 算法，來計算圖中每個單詞節點vi的分值，如式（3）所示：

其中,S(vi)表示單詞i的得分，α是阻尼系數，大小一般設為0.85，vj是無向圖中與頂點vi相連的所有頂點，wvj,vi是頂點vj和vi間邊的權重值，out(vj)是與頂點vj相連的所有邊的權重之和，由式（4）計算所得，vk是無向圖中與頂點vj相連的所有頂點，wvj,vk表示頂點vk和vj間邊的權重值。

在下文具體的實驗中，利用式（3）遞歸計算單詞節點分值的時候，終止條件是兩次迭代計算的誤差不超過0.000 1 或者最大迭代次數為100 次。

2.3.3 抽取關鍵詞

對于每一個在2.1 節生成的候選詞，需判斷有無冗余，若兩個候選詞相同，則只留下一個。接著，累計每個候選詞中包含的所有單詞在2.3.2 小節計算的得分S(vi)總和，即作為該候選詞的最終得分，排序后，選擇分值最高的前N個候選詞作為最終的關鍵詞。

3 實驗結果及分析

3.1 實驗數據集

為了保證本文算法實驗結果的有效性和公正性，采用了公開數據集Hulth2003 和DUC2001(https://github.com/snkim/AutomaticKeyphraseExtraction/)作為測試數據集。Hulth2003 由2 000 篇科技論文文獻的摘要文檔組成，分成了包含500 篇文檔的測試集語料庫和包含1 500 篇文檔的訓練集語料庫，因本文算法屬于無監督方法，無需預先訓練語料庫，因此選擇了測試集中的500 篇文檔作為本文的測試數據，人工標注的正確關鍵詞結果在后綴為“.uncontr”的文檔中列出，在實驗中作為本文結果比對的依據。DUC2001語料庫由308 篇報紙文章組成，共分為30 個主題，由Wan 和Xiao[13]創建并手動標注，直接選擇該語料庫的所有文檔作為本次實驗測試數據。

3.2 實驗評估標準

為了評價該關鍵詞抽取算法的有效性，本文選擇了在機器學習、信息檢索、數據挖掘領域中常用的評測指標：準確率P（Precision）、召回率R（Recall）和綜合評價指標F值（F-measure）。具體計算如式（5）～式（7）所示。

實驗在對算法自動抽取的關鍵詞和人工標注的關鍵詞進行比對前，將兩集合中的關鍵詞都提取了詞干以及轉換大小寫，采用的是Python自然語言處理工具NLTK（natural language toolkit）提供的詞干提取算法LancasterStemmer，比對時采用了完全匹配的原則，例如在文件名為“26.abstr”的文檔中，人工標注的單詞為“quasi-weighted means”，如果算法抽取的關鍵詞為“Quasi-weighted means”，則匹配對比正確，但如果抽取的關鍵詞為“weighted means”或“means quasiweighted”，均匹配對比失敗。

3.3 實驗參數及變量調節

實驗過程中，參數和變量的不同取值，可能會產生不同的關鍵詞抽取結果。因此對本文算法在構造詞圖模型時的詞共現窗口（window）大小、隨機游走算法中的阻尼系數α、抽取的關鍵詞個數N，在兩個數據集上分別進行了對比實驗。

3.3.1 詞共現窗口

在構造詞圖模型時，詞共現窗口的大小，決定了圖中每個單詞節點間的邊權重，因此通過調節詞共現窗口大小，觀察實驗抽取結果。在實驗過程中，統一選擇抽取的關鍵詞個數N為10，阻尼系數α為0.85，詞共現窗口大小分別取值為1、2、3、4、5、6、7、8、9、10，得出不同詞共現窗口下，關鍵詞抽取結果P值、R值和F值的對比情況，圖2和圖3是實驗結果的折線圖。通過觀察，在Hulth2003 和DUC2001 兩個語料庫中，隨著詞共現窗口大小的增加，算法抽取性能總體都呈下降趨勢，這說明詞共現窗口的參數調節對實驗結果有著一定的影響。但是，當詞共現窗口大小取4 到10 之間的值時，衡量性能的F值變化幅度不大，這意味著此時詞共現窗口的大小取值對算法抽取結果并沒有產生決定性的影響，原因在于利用本文算法提高關鍵詞抽取效率的初衷，主要源自融合語義信息以及圖排序算法的思想，因此詞共現窗口的大小對結果的影響遠沒有語義信息及圖排序策略對結果的影響高。

Fig.2 Experimental results under different window sizes in Hulth2003圖2 Hulth2003 中不同窗口大小下的實驗結果

Fig.3 Experimental results under different window sizes in DUC2001圖3 DUC2001 中不同窗口大小下的實驗結果

3.3.2 阻尼系數α

利用隨機游走策略計算圖中每個單詞節點的分值時，為了確保PageRank 算法不會陷入圖循環的誤區，因此增加阻尼系數α。在傳統的TextRank 中，按照經驗值將阻尼系數α設為0.85，但在本文算法中，計算單詞節點分值時，對傳統的TextRank 分值計算公式進行了修改，因此需要通過調節阻尼系數α的值來查看實驗結果。實驗中，選擇抽取的關鍵詞個數N為10，詞共現窗口為10 的情況下，α分別取0.2、0.4、0.6、0.8、1.0，觀察所得到的抽取結果P值、R值和F值，具體對比情況如圖4 和圖5 的折線圖所示。從兩個語料庫的實驗結果中發現，隨著阻尼系數α的增大，算法抽取效果呈下降趨勢，當α取0.2時，本文算法效果最好。實際上，在傳統PageRank 圖計算算法中，賦予圖中所有節點的初始權重均一致。而阻尼系數的作用是用于折衷考慮某節點的初始權重和相鄰節點對該節點的貢獻，阻尼系數越大，初始權重對某節點分值計算的作用越小。本文算法中，當阻尼系數為1.0 時，忽略式（3）中賦予單詞的初始權重值，此時算法效果最差，而當阻尼系數設為0.2時，充分考慮了單詞的初始語義信息，與文檔語義更接近的詞語，初始權重越大，分值計算過程中更占優勢。實驗結果證明，此時的算法效果最好，提升了關鍵詞抽取性能。這也進一步證實了引入單詞向量語義信息的重要性。

Fig.4 Experimental results under different damping factors in Hulth2003圖4 Hulth2003 中不同阻尼系數下的實驗結果

Fig.5 Experimental results under different damping factors in DUC2001圖5 DUC2001 中不同阻尼系數下的實驗結果

實驗中在遞歸計算圖中每個節點分值的時候，參考了文獻[12]和文獻[15]中對迭代終止條件的設置，前者將終止條件設為兩次連續迭代計算結果不超過給定閾值0.000 1，而后者對終止條件的設置是最大迭代次數不超過100 次，因此在實驗過程中分別對這兩個條件進行了測試，當閾值設為0.000 1 時，算法F值為0.276 2，當最大迭代次數為100 次時，算法F值為0.276 6，可以發現兩者性能差別不大。因此綜合考慮，實驗中將終止條件設定為兩次迭代計算的誤差不超過0.000 1 或者最大迭代次數為100 次，當計算時滿足以上任一種條件時即終止迭代。

3.3.3 關鍵詞抽取個數N

本文算法將語義信息融入圖排序算法中，從理論上來說，跟文檔語義關聯越接近的詞語排名越靠前，盡管這種從語義角度出發的思想確實提高了關鍵詞抽取效果，但可能會帶來一定程度上的語義相近的相似單詞，如在Hulth2003 語料庫中，文件名為“26.abstr”的文檔中，人工正確標注的詞語有“quasiweighted means”，而利用本文算法抽取的前10個關鍵詞中，有如下3 個相似結構的詞語“quasi-weighted means”“weighted means”“guasi-weighted mean”，明顯看出此處存在了語義冗余的關鍵詞，導致理應被抽取出來的候選詞反而排名靠后。因此在實驗中，通過設置不同的關鍵詞抽取個數N，來觀察實驗結果，N分別取值為1 到20 范圍內的所有正整數，實驗得到不同N值下的抽取結果P值、R值和F值，如圖6 和圖7 所示。在圖6 中綜合評價指標F值在關鍵詞個數N取17 的時候最高，在圖7 中F值在關鍵詞個數N取13 的時候最高，這也證實了對數據冗余的猜想。

3.4 與基本算法的對比實驗

Fig.6 Experimental results under different keyphrase extraction numbers in Hulth2003圖6 Hulth2003 中不同關鍵詞抽取個數的實驗結果

Fig.7 Experimental results under different keyphrase extraction numbers in DUC2001圖7 DUC2001 中不同關鍵詞抽取個數的實驗結果

為了證明本文算法的有效性，在兩個公開數據集Hulth2003 和DUC2001 上，與目前主流關鍵詞抽取算法進行了對比實驗。由于本文算法是一種基于圖的無監督方法，因此選取了3 個基于圖的經典抽取算法TextRank[12]、TopicRank[21]、SingleRank[13]。另外，還選取了一個基于統計的經典算法TF-IDF，以及一個基于Embedding 思想的EmbedRank 算法[29]，實驗中TextRank、SingleRank 以及本文算法中圖的節點均為名詞或形容詞，TopicRank 的圖中節點為主題簇，實驗中選擇每個簇中最中心的詞語作為關鍵詞，本文算法的阻尼系數α取0.2，詞共現窗口設置為1，詳細的實驗結果如表1 和表2 所示，詳細列出了抽取的關鍵詞個數分別為5、10、15 時，各算法的抽取結果。

根據表1 和表2 在兩個公開數據集中的對比實驗結果，不難看出，在抽取的關鍵詞個數不同的各類情況下，本文算法的關鍵詞抽取效果均優于其他典型算法。

實驗中TF-IDF 算法屬于經典的基于統計的方法，僅靠詞頻特征提取關鍵詞，忽略了文檔中詞語之間的相互聯系，導致實驗中抽取效果最差，而本文算法充分考慮了詞與詞、詞與文檔間的相互聯系，以Hulth2003 語料庫上的實驗結果為例，在表1 中，當抽取的關鍵詞個數為10 時，本文算法較TF-IDF 而言，綜合評價指標F值提高了26.13 個百分點。實驗中TextRank、TopicRank、SingleRank 均屬于基于圖的方法，其中TextRank 利用詞共現窗口計算邊的權重，SingleRank 在此基礎上加入了文檔關聯信息，而TopicRank 在圖方法基礎上加入詞語主題信息。盡管這3 種方法都充分考慮了詞語間的相互關聯，但都缺乏語義層面的支持，而本文算法利用詞嵌入技術充分考慮了單詞和文檔語義層面的關聯信息，從而大幅度提高了抽取效率。在表1 中，當關鍵詞抽取個數為10 時，本文算法的F值較TextRank 而言提高了20 個百分點，較TopicRank 而言提高了13.63 個百分點，較SingleRank 而言提高了10.76 個百分點。實驗中EmbedRank 雖然基于Embedding 技術獲取詞語與文檔的語義信息，卻忽略了兩個詞語之間的語義關聯，而本文算法不僅考慮了詞語與文檔的語義信息，還充分利用圖模型融入了詞語間的語義關聯，因此提高了抽取效果。在表1 中，當關鍵詞抽取個數為10時，本文算法的F值較EmbedRank 而言提高了2.95個百分點。

Table 1 Experimental results comparison in Hulth2003表1 Hulth2003 中對比實驗結果

Table 2 Experimental results comparison in DUC2001表2 DUC2001 中對比實驗結果

4 結束語

本文提出了一種基于詞和文檔嵌入的關鍵詞抽取算法，將詞語和文檔本身同時映射成同一空間維度的高維向量，并計算詞語與文檔間的語義相似度，從而對圖排序算法的初始權重進行賦值，通過帶偏向的隨機游走策略，計算圖中每個節點的分值，候選詞的最終分值通過圖中各節點分值計算得出，并選擇排名較高的前N個候選詞作為最能代表文檔主旨的關鍵詞。該關鍵詞自動抽取算法通過在圖排序中加入語義信息，改善了關鍵詞抽取效率。實驗結果表示，本文算法效果大大優于目前其他主流關鍵詞抽取算法。

下一步的工作主要考慮以下兩點：（1）在利用Sentence Embedding 思想構建向量模型時，易造成抽取的候選詞冗余情況發生，如何通過消除語義相近的冗余單詞來提高效率，是未來重點研究方向；（2）在圖排序中考慮能否結合更多的候選詞特征，以提高圖排序效率。