基于輿情新聞的中文關鍵詞抽取綜述

2023-03-16 10:20:40楊文忠丁甜甜卜文秀

計算機工程 2023年3期

楊文忠，丁甜甜，康鵬，卜文秀

（1.新疆大學信息科學與工程學院，烏魯木齊 830046；

2.新疆大學信息科學與工程學院新疆維吾爾自治區多語種信息技術重點實驗室，烏魯木齊 830046）

0 概述

新聞文本承載著媒體的主觀意圖。從用戶那里提取新聞文本的意圖可以揭示出用戶在一段時間內的情緒傾向。這一功能對于控制有害輿情事件的發展具有重要意義，有助于政府機關妥善管理輿情事件，維護社會秩序。關鍵詞可以對新聞文本的主題進行簡要描述，幫助讀者快速了解文本的含義或主題。

目前，關鍵詞抽取技術獲得的成果為不同領域的科學研究提供了幫助。例如，在信息科學領域，輿情網站每天都會產生大量新聞，涵蓋國際、娛樂、政治、軍事等方面。盡管利用媒體信息的好處很多，但虛假新聞和標題騙局是不可避免的，讀者越來越難以快速找到有用的信息。關鍵詞可以提供對新聞文本主題的簡潔描述，幫助讀者快速理解文本的含義或主題。此外，關鍵詞抽取技術對文本生成［1-2］、自動問答［3］、信息搜索等自然語言處理任務都非常重要。如何從海量信息中提取最為核心的詞語，將各類熱門關鍵詞及時動態地展示給用戶，節省用戶驗證時間，成為當前研究的熱點。

提取輿情事件的關鍵詞可以捕捉網上輿情的熱點和趨勢。事件是人們關注輿情的基礎，不同的輿情事件有不同的關鍵詞，每個關鍵詞從不同的方向描述一個輿情事件。例如，爆炸事件的關鍵詞有爆炸發生地、救援工作、事故后的損失及其原因等。這些關鍵詞可以讓公眾從不同角度了解事件的發展。在分析輿情事件時，使用關鍵詞不僅可以從多個角度描述事件，還可以通過關注同一事件的關鍵詞的演變來追蹤事件的進程；通過比較不同事件的關鍵詞的相似性，可以為事件的演變總結規則，方便進一步的研究，預測輿情的爆發點。因此，關鍵詞在事件分析中非常重要［4］。

本文闡述關鍵詞抽取技術的發展歷程，對相關模型按照無監督和有監督的分類進行分析與總結。根據關鍵詞抽取技術的發展現狀，分析無監督模型的優勢與弊端，根據其弊端說明有監督模型出現的原因，并詳細解釋基于深度學習的有監督關鍵詞抽取模型出現的必然性和其獨特的優勢以及現有的弊端。在此基礎上，對關鍵詞抽取技術未來的發展方向加以展望。

1 關鍵詞抽取現狀分析

關鍵詞抽取技術是指從文本中提取與文章含義最相關的關鍵詞。它在文檔檢索［5］、自動摘要［2］、文本聚類［6］和文本分類［7］中有重要應用。關鍵詞抽取算法一般分為兩類：無監督算法和有監督算法。本節根據這兩個類別詳細介紹關鍵詞抽取技術的研究和發展現狀。

1.1 無監督關鍵詞抽取算法

無監督抽取算法關鍵詞領域適用范圍最廣，也是使用最早的方法。無監督關鍵詞提取算法的一般模式如圖1 所示。

圖1 無監督算法的一般模式Fig.1 General model of unsupervised algorithms

按照無監督算法的類型，本節按照5 個類別對無監督關鍵詞抽取算法進行介紹［8］。

1）基于簡單統計的方法

簡單統計方法是對某一特定的候選詞進行統計，并按照權重進行排序，抽取排名靠前的詞作為關鍵詞［9］。文獻［10］采用的TF-IDF（Term Frequency-Inverse Document Frequency）算法是簡單統計方法中的典型代表［10］。TF-IDF 在最終的計算過程中會過濾掉常用詞而保留重要的詞。文獻［11］提出的YEAK 模型使用統計指標來提供與背景相關的信息［11］。

簡單統計方法的優點是使用簡單，不需要太多計算。劣勢主要體現在：可擴展性差，簡單的統計通常基于來自不同作者數據集的文檔的特征，并且結果從一個數據集到另一個數據集差異很大；精度低，該方法的度量基于專家知識，表明它只能覆蓋詞之間的淺語義信息，而不能挖掘更深層次的語義新聞。

2）基于圖的方法

基于圖的關鍵詞抽取算法是將文本內容構建為一個詞圖，之后將圖中的節點進行排序確定關鍵詞。文獻［12］提出的Positional Function 模型和文獻［13］提出的HITS 模型均是基于圖的排序模型。

文獻［14］使用基于圖的文本提取模型TextRank進行關鍵詞抽取，TextRank 派生自PageRank 算法，它使用單詞圖來分散單詞的權重［14］。TextRank 中的關鍵詞權重傳播僅關注詞頻，網絡中的有向和無向邊緣被無向和有向邊緣所取代［15］。

TextRank 的優勢是：作為無監督算法，不需要構建帶標簽數據集進行相關實驗；算法思想簡單，易部署；可以較為充分地利用詞語之間的關系。其局限性表現在：抽取效果與前期工作中的分詞、文本清洗有直接關系，如停用詞的設定直接影響抽取結果；本質上還是受高頻詞和詞性標注的影響。

針對TextRank 的缺陷，WAN 等［16］提出的SingleRank 模型使用少量的近鄰文檔來提供更多的知識，以改善單一文檔的關鍵詞提取。基于此，文獻［17］和文獻［18］分別提出的PositionRank 和SGRank 方法利用統計、位置、詞的共現等信息來進行關鍵詞抽取，從而更好地提升模型的性能。但是，以上的方法僅是考慮文檔自身的信息，為了幫助模型學習更多的文本信息，ExpandRank 通過添加與原文檔接近的相鄰文本，將基于圖排名算法應用于擴展的文檔集［16］。與之相似，文獻［19］提出的CiteTextRank 模型通過捕捉論文的引文對其的影響，將引文信息與目標文檔知識相結合用于關鍵詞抽取。

通過對基于圖的方法的發展歷程分析發現：基于圖的關鍵詞抽取模型的優點是可以充分體驗詞之間的聯系；缺點是雖然準確率得到了一定的提升，但還是較低。

3）基于主題的方法

文獻［20］提出了潛在語義分析（Latent Semantic Analysis，LSA）模型，它通過降低單詞-文本矩陣的維度來研究一個單詞的潛在含義［20］。之后，HUFFMAN 等［21］和周學廣等［22］提出概率隱性語義分析（Probabilistic Latent Semantic Analysis，PLSA）模型。圖2 所示為PLSA 模型結構，其中：d表示文檔；Z表示主題；W表示單詞；N表示文檔數；M表示一篇文檔生成了M個單詞。

圖2 PLSA 模型結構Fig.2 PLSA model structure

雖然PLSA 相較于LSA 理論更加成熟，但是因為其自身預測方法的問題，文獻［23］提出了潛在狄利克雷分布（Latent Dirichlet Allocation，LDA）模型來解決PLSA 模型存在的問題。LDA 的概率模型如圖3 所示。圖3 中各個符號說明如表1 所示。

圖3 LDA 的概率模型Fig.3 Probabilistic model of LDA

表1 LDA 參數說明Table 1 Description of LDA parameters

文獻［24］提出的TopicRank 模型是依賴文檔主題的基于圖的關鍵詞提取方法。它基于圖形給每個主題分配不同的權重，通過排名靠前的主題，選擇候選詞來生成關鍵短語。文獻［25］提出的TPR（Topical PageRank）模型利用詞圖來衡量詞在LDA主題下的重要性，根據詞的重要性計算詞的排名分數，并抽取排名靠前的候選詞作為關鍵詞。之后，研究人員對TPR 進行優化，提出Salience Rank 模型，相較于TPR，該模型只需要運行一次PageRank 就可以在基準數據集上提取出相當或更好的關鍵詞。Salience Rank 可以在不同的話題和數據集上較好地提取關鍵詞［26］。

文獻［27］對主題模型的限制性進行了分析與研究：主題概率模型的優勢在于它能夠分析文檔中的潛在主題；缺點是模型質量差，計算的無效詞數量多，清洗困難，主題之間缺乏區分，結果較差，主題內詞相關性低，無法反映具體場景［27-29］。

4）基于語義的方法

文獻［28-32］介紹了無監督關鍵詞抽取算法中具有奠基性的模型——N-gram 模型。該模型可以將前N-1 個單詞所有信息進行有效使用，并且這些單詞與當前單詞的出現密切相關。對基于語義的關鍵詞抽取算法進行研究后發現語義模型的限制性在于：（1）在確定模型參數時需要大量的文本，即當N較大時，模型的參數確定比較困難；（2）數據的覆蓋率不高，存在數據平滑問題；（3）基于主觀的假設；（4）沒有合適的評價方法，很難對實現的結果進行有效性評估。

5）基于詞向量的方法

MIKOLOV 等［33］提出的詞嵌入方法利用分層softmax 和負采樣對神經網絡語言模型進行改進，顯著降低了計算過程的復雜性。Word2Vec 模型分為連續詞袋（CBOW）模型和連續跳詞語法（Skip-Gram）模型。CBOW 的基本思想是根據周圍的文本預測一個詞的向量表示，即鑒于中心詞的上下文聯系，模型找到了該詞的預測，如圖4（a）所示。Skip-Gram 模型的核心思想是基于中心字來預測鄰近單詞，真正的目的是在給定的詞匯情況下計算出其他詞匯的發生概率，如圖4（b）所示。Word2Vec 模型的優點是：在Word2Vec 中訓練得到詞向量的分布式表示方法，將“距離”引入矢量空間，并通過計算字與字之間的距離來確定詞語的語義相似性，從而有效地解決了“維度災難”、“語義鴻溝”等一系列問題；缺點是：因為Word2Vec 模型輸出的每一個單詞對應的矢量都是固定的，也就是說單詞經過Word2Vec編碼后被輸出為一個低維度的獨立靜態矢量，這種向量只能代表一種意義，無法解決詞的多義性問題。比如：“火狐”可以指代動物，也可以指代瀏覽器，但是Word2Vec 所編碼的“火狐”所對應的詞向量的表示是唯一的。

圖4 CBOW 和Skip-Gram 模型結構Fig.4 Structure of CBOW and Skip-Gram model

文獻［31］提出將詞嵌入方法GloVe［34］引入到關鍵詞提取中。文獻［32］提出了一種用于關鍵短語提取的新穎的無監督算法（RVA），該算法使用局部詞嵌入GloVe 向量［35］，從單詞和關鍵短語的局部表示捕獲所屬文檔在上下文中的準確語義。文獻［34］提出的EmbedRank 模型通過句子嵌入（Doc2Vec［36］或Sent2Vec［37］）與語義文檔嵌入［38］，將文檔和候選短語表示為高維空間中的向量。

1.2 有監督關鍵詞抽取算法

與無監督的主題提取算法相比，機器學習算法和深度學習算法的快速發展為無監督主題提取算法注入了新的活力。此外，有監督算法更規范化與更標準化，適用于不同的數據集，具有更好的實驗結果。本文按照論文的分類方法將關鍵詞抽取算法分為兩類［8］：以關鍵詞提取為分類任務，即用分類模型將候選詞分為關鍵詞和非關鍵詞，關鍵詞抽取的分類模型如圖5 所示；將關鍵詞抽取任務作為序列標注任務，即序列標注模型用于學習標有關鍵詞的句子序列中單詞之間的關系，然后對原始句子進行序列標注，以此從句子中提取關鍵詞，關鍵詞抽取序列標注模型如圖6 所示。

圖5 關鍵詞抽取的分類模型Fig.5 Classification model of keyword extraction

圖6 關鍵詞抽取序列標注模型Fig.6 Keyword extraction sequence labelling model

有監督算法必須為模型的預訓練提供帶標注數據集，因此有監督算法的使用還包括構建數據集的過程，這也是其與無監督算法不同的地方。

在分類模型中詞語被認為是獨立的，該詞語是否被作為關鍵詞是根據其自身的特征決定的。顯而易見，分類模型的判別思想的局限性是很大的。在現實中，一個詞會經常因為上下文的變化而導致意義發生改變，在判斷的過程中，該詞匯的權重隨著語義的變化而發生相應的變化。

序列標注模型很好地解決了這種語義矛盾。序列標注模型在考慮當前詞匯狀態的同時也會綜合考慮前文發送的信息，即序列標注模型既可以兼顧詞匯當前文本的含義，也可以兼顧詞匯上下文的語義特征，序列標注模型是使用更為廣泛的關鍵詞分析方法之一。

1）分類模型

分類模型主要包括基于機器學習與基于深度學習兩種模型。

（1）基于機器學習的分類模型

與基于無監督算法相比，機器學習算法更加標準和規范，適應性更強，實驗效果往往比無監督算法要好，對實驗數據集的適應性也更強。因此，目前很多研究人員已經將關注點從無監督算法轉向機器學習算法。

文獻［35］提出將支持向量機（Support Vector Machines，SVM）［39］與關鍵詞抽取技術相融合的方法。文獻［36，40］提出的模型僅僅依靠統計信息，通過增加額外的語言知識來取得更好的結果。文獻［37］提出使用二進制整數規劃（Binary Integer Programming，BIP）［41］提取關鍵詞。

（2）基于深度學習的分類模型

隨著計算能力的提高，神經網絡和深度學習的使用也在增加。神經網絡模型已經在許多自然語言領域的相關任務中取得了巨大成功。深度學習使用詞嵌入模型將文本中的詞轉換為詞向量。除了詞之間的結構信息外，還包含了詞的語義信息，使得關鍵詞提取效果更加全面。深度學習利用海量的神經網絡參數，通過大量接近人類認知的人工標注語料進行訓練，不斷迭代神經網絡參數，最終訓練出高維非線性調整的模型。

文獻［38］提出在關鍵詞提取任務中使用多層感知器（Multilayer Perceptron，MLP）模型，在比較實驗中發現MLP 模型優于傳統的普通貝葉斯模型和C4.5 決策樹模型［42］。但是，使用關鍵詞提取作為分類任務不允許將單個單詞與整個上下文關聯。

2）序列標注模型

序列標注模型主要包括基于機器學習與基于深度學習兩種模型。

（1）基于機器學習的序列標注模型

文獻［38］提出使用隱馬爾可夫模型（Hidden Markov Model，HMM）通過一系列觀察從一組狀態中選擇概率最高的狀態序列。特定狀態的概率和狀態之間的轉換概率可以從一個大規模的語料庫中進行粗略的統計估計。在自然語言處理（Natural Language Processing，NLP）領域，HMM 算法憑借成熟的算法體系和其容易學習特性已經被廣泛使用，但HMM 也存在一些問題，HMM 的缺陷導致它無法成為序列標注模型的最合適的概率統計模型。因此，后期有很多學者［43-46］對其缺陷進行了優化。

（2）基于深度學習的序列標注模型

基于深度學習的序列標注模型包括一般模式和基于詞向量兩種模型。

①一般模式的序列標注模型

條件隨機場（Conditional Random Field，CRF）是序列標注算法的代表模型［41-42］，它使用語言學和文章結果等各種來源特征來表示文章。通過引入自定義特征函數，不僅可以表達觀測值之間的依賴關系，還可以表達當前觀測值與多個之前狀態之間的關系，復雜依賴關系可以有效解決HMM 模型遇到的問題，并從文章中獲取關鍵短語［47-48］。

循環神經網絡（Recurrent Neural Network，RNN）展開結構如圖7 所示，可以看出：在信息傳遞過程中，序列中每個節點都會將前面節點的信息進行學習記憶并輸出到計算中［49-50］。之所以建立雙向RNN是因為可以將文章中的信息進行上下流動，即可以幫助RNN 有效地獲取單詞與上下文之間的聯系。由于RNN 網絡在較長的文本反向傳播中會出現梯度消失的問題，針對這個問題，文獻［45-46］利用長短期記憶（Long Short-Term Memory，LSTM）神經網絡［51-52］進行關鍵詞抽取。LSTM 神經網絡是一種改進的RNN，如圖8 所示。

圖7 循環神經網絡的展開結構Fig.7 Unfolding structure of recurrent neural network

圖8 長短期記憶神經網絡結構Fig.8 Structure of long short-term memory neural network

之后，BASALDELLA 等［53］提出雙向長短期記憶（Bidirectional Long Short-Term Memory，BiLSTM）網絡，主要由前向和后向兩層LSTM 層組成。BiLSTM可以捕獲文本字符串的雙向依賴關系，更好地幫助模型學習文本的上下文信息，文獻［48-49］提出的模型將 BiLSTM 應用于序列的標注和分類問題［31，41，54-56］。

圖9 所示為BiLSTM 序列標注結構。BiLSTM 的優點是可以利用雙向參數來觀察字符串（輸入）間的相關性。BiLSTM 能夠從一組觀測數據中自動抽取出一組特征，但其不足之處在于：無法對狀態序列進行學習（輸出標注間的關聯），在抽取關鍵詞時，各標注間存在必定的關聯［47，57］。比如，在B 標簽之后不可能跟B 標簽。所以在諸如BiLSTM 這樣的序列標注問題中，盡管可以忽略復雜的功能設計，但其不能了解標注的內容。相對于BiLSTM，CRF 能夠模擬出狀態序列的特征，但其不足之處在于需要人工抽取。鑒于CRF模型在順序標注方面的優良性能，文獻［50］提出引入BiLSTM+CRF 模式［58］，并與其他模型進行了比較，結果表明，該模型具有更好的適用性和精確度。為了改善BiLSTM 存在的問題，本文提出使用詞向量模型對文本進行深層次的信息挖掘來優化普通的序列標注模型。

圖9 BiLSTM 序列標注結構Fig.9 Sequence labelling structure of BiLSTM

②基于詞向量的序列標注模型

2018 年，JUSTYNA 等［59］提出ELMo（Emdeddings from Language Models）模型，該模型是基于預訓練思想的語言模型，其將CharacterCNN［60］作為編碼層，多層堆疊的BiLSTM 模型對上下文關系進行建模。文獻［54］提出一種基于ELMo 的短文本語義表示模型，該模型采用詞嵌入模型［61］，基于主題模型LDA根據短文本語義抽取關鍵詞。

EMLo 模型的優點是：該模型使用大量數據創建預訓練的語言模型，可以對單詞的語法和語義特征進行建模。首先在含有海量文字資料的語料庫中建立面向LSTM 的網絡語言模型，然后通過對輸入與隱藏層矢量的線性結合，可以將詞匯矢量表轉換為預先訓練的單詞嵌入模式，從而有效地解決詞匯的多義性問題。缺陷是：EMLo 基于的前向模型利用由前面給出的信息來預測和建模，后向模型與之相反，LSTM 的參數在前向和后向兩個方向上是獨立封閉的。因此，ELMo 仍然是單向編碼模型，它只是利用拼接完成了表面上的雙向編碼模式。ELMo模型訓練框架如圖10 所示。

圖10 ELMo 模型的訓練框架Fig.10 Training framework of ELMo model

為了解決LSTM 模塊存在的問題，生成式預訓練（Generative Pre-Training，GPT）模型將ELMo 模型中的LSTM 模型舍棄掉，因Transformer 具有突出的共同進行計算的能力，該模型使用Transformer 作為特征提取器。這種改變同時促使了模型可以更好地幫助單詞學習文本上下文之間遠程的關系特征。文獻［55］提出一種基于FastText 多語言詞嵌入，并將GPT［62］進行關鍵詞的抽取。GPT 模型訓練框架如圖11 所示。

圖11 GPT 模型的訓練框架Fig.11 Training framework of GPT model

文獻［56-57］將Transformer 的雙向編碼器表示（Bidirectional Encoder Representation from Transformer，BERT）［63-65］作為預訓練模型，在關鍵詞抽取領域取得了最優的結果。BERT 是一種完全的雙向訓練的模型，可以使神經網絡更高效地從一層到另一層獲取文本的前后關聯。為了改善ELMo 和GPT 預訓練語言模型的缺陷［66］，BERT 模型充分利用預訓練模型各層的文本信息，即模型雙向且深度的文本表示，從而獲得高質量的詞向量。BERT 模型訓練框架如圖12 所示。

圖12 BERT 模型的訓練框架Fig.12 Training framework of BERT model

BERT 的輸入由3 個向量的總和組成：標注向量，段向量和位置向量。BERT 的輸入結構如圖13 所示。BERT 通過將整個輸入序列轉換為一個詞的矢量，包括將特殊字符矢量化，形成一個Token 的矢量，用一個分段向量來區分兩個句子對句子之間的關系進行建模。最后，為了學習一連串單詞的位置特征之間的關系，對每個單詞進行位置編碼，形成一個位置向量。此外，文獻［59-60］提出的中文問答（Chinese Question Answering，CQA）系統的跨語言研究結果表明，BERTCRF 模型詞向量抽取結果優于BERT 模型［67-70］。圖14和圖15 所示為BERT 與BERT-CRF 的n分類問題與k″分類問題。顯然，Softmax 逐幀輸出的結果之間并沒有直接的關系，CRF 會考慮到輸出中的上下文關聯，在BERT 基礎上通過BERT-CRF 模型對整個模型進行建模［70］。關鍵詞抽取算法分析與優缺點分析如表2和表3所示。

表2 關鍵詞抽取算法分析Table 2 Analysis of keyword extraction algorithms

續表

表3 關鍵詞抽取算法優缺點分析Table 3 Analysis of advantages and disadvantages of keyword extraction algorithms

圖13 BERT 的輸入結構Fig.13 Input structure of BERT

圖14 BERT 的n 分類問題Fig.14 n classification problem of BERT

圖15 BERT-CRF 的kn分類問題Fig.15 kn classification problem of BERT-CRF

1.3 歸納與總結

根據上文的梳理研究，發現關鍵詞抽取算法主要存在以下問題：

1）無監督算法具有簡單、易于實現、不需要標注數據等優點，但算法提取結果的準確性不高，并且在不同的數據集合中提取的效果會有很大的變化。

2）為了提高算法泛化性和優化抽取的效果，傳統的有監督分類算法逐漸受到關注，但是傳統分類算法并未考慮到字詞與上下文之間的聯系。

3）為了使字詞更好地學習上下文之間的聯系，關鍵詞抽取算法序列標注算法逐步取代分類算法，在進行深度學習算法訓練時，通常會使用大量帶有標注的樣本。

4）隨著BERT 算法的提出，它在多個自然語言領域都獲得了較好的效果，但是BERT 由于參數較多，且模型體積較大，在訓練少量的數據時會造成過度擬合。

ELMo 算法只是使用了簡單的LSTM 進行拼接來實現“表面”的雙向語言算法，這種拼接的方法是無法實現真正的上下文的語義提取的，并且針對LSTM 算法來說，其文本語義挖掘的能力也遠遠不如Transformer 算法。之后提出的TGP 預訓練算法實質上就是一個單向的Transformer 算法，因此也只可以學習到文本之前的內容信息，而無法完全實現文本上下文的學習。BERT 預訓練算法提取的特征粒度包括了字符、詞和句子層面的廣泛的特征信息，其產生的詞匯表示是基于上下文的，并且是在文字的動態特征的基礎上產生的，文字在不同的情境中輸出為不同的表現，這解決了詞的模糊性的問題，并且BERT 輸出的大量特征信息也提高了關鍵詞抽取過程的效率。

2 數據集介紹

2.1 公開數據集

本文采用2 個開放數據集Sohu 數據集［97］和Sensor 數據集［98］以增加實驗的可信度。由于這2 個公開數據集太小，因此本文只將這2 個數據集作為測試集和驗證集。此外，本文抓取100 000 條熱門新聞文本作為訓練集，采用隨機選取的方法從所有的文本中選取1 500 條進行標注作為訓練數據集。然后從剩余的文章中隨機選取1 000 條作為對抗訓練過程中的未標注樣本來訓練模型。公開數據集的數據分布如表4 所示。

表4 公開數據集的數據分析Table 4 Data distribution of public datasets 單位：條

2.2 自建數據集

由于直接抓取的數據集包含了大量的噪聲，無法直接利用，因此在使用數據樣本之前首先要對所收集的數據進行文字預處理，然后進行降噪、分詞、去停用等。新聞數據主要抓取來自搜狐、微博、百度等各大新聞網站的輿情新聞信息。為了使實驗效果更加客觀，采用學術界常用的數據分布，帶標簽樣本與測試集和驗證集的比例為6∶2∶2。實驗數據集分布如表5 所示。

表5 自建數據集分布Table 5 Distribution of self-built datasets 單位：條

3 評價指標

混淆矩陣是一種直觀的評價標準，用于通過計算評估結果，將模型預測的數據樣本與實際標簽信息進行比較。混淆矩陣結構如圖16 所示。在圖16中：TP 表示實際標簽為正，經過模型預測為正；FP 表示實際標簽為負，經過模型預測為正；FN 表示實際標簽為正，經過模型預測為負；TN 表示實際標簽為負，經過模型預測為負；每行代表數據的模型預測；每列代表數據的實際狀態。

圖16 混淆矩陣結構Fig.16 Structure of confusion matrix

混淆矩陣的主要指標如下：

精確率（P）：實際正標簽數據在預測為正的結果中的比例。

精確率計算公式如式（1）所示：

其中：Qc表示真實的關鍵詞集合；Qp表示預測的關鍵詞集合。

召回率（R）：實際標簽為正的數據比例，模型正確預測的數據量。

召回率計算公式如式（2）所示：

由于在精確率與召回率上存在指標的沖突，使得模型間的對比變得困難。因此，通過F1 指標盡量綜合考慮兩者，F1 計算公式如式（3）所示：

4 實驗設計與分析

4.1 對比算法

首先介紹無監督關鍵詞基線算法，選取參考論文中的最佳參數的F1 值（這里的關鍵詞只選擇排名前6 名），確保結果公正客觀。

主題類的算法選用LDA［23］，算法1 所示為LDA主題模型抽取關鍵詞的算法流程。

算法1LDA 算法

步驟1在每個文件中選擇1 個特定的主題分配。

步驟2從選定的話題中任意選擇1 個詞。

步驟3重復以上步驟直到整個文檔都被覆蓋。

步驟4根據以上3 個步驟，可以得到每個主題的分布順序，并根據文章中主題的實際分布情況進行調整，檢查其是否與文章中主題的正式分布相匹配。

步驟5重復上述的步驟，直至根據所有的主題生成關鍵詞。

統計類算法選用TF-IDF［99-101］，TF-IDF 算法流程如算法2 所示。

算法2TF-IDF 算法

步驟1對于一個給定的文本，對詞頻d 進行預處理操作，如單詞分離、詞性注釋和刪除去掉的單詞，vn、l、a、d 等具有詞性的詞被保留下來，形成候選關鍵詞X={x1，x2，…，xn}。

步驟2計算詞xi在文本中的詞頻d。

步驟3計算詞xi在整個語料庫中的IDF。

步驟4重復步驟2、步驟3，對計算結果進行排序，確定前N個詞為關鍵詞。

圖模型類算法選取TextRank，TextRank 算法關鍵詞抽取的算法流程如算法3 所示。

算法3TextRank 算法

步驟1文本預處理。

步驟2V表示節點集合，構建候選關鍵詞圖G=(V，E)。

步驟3重復循環每個節點，直到收斂。

步驟4對每個節點的權重值進行排序，得到前N個詞作為候選圖。

步驟5對步驟4 得到的關鍵詞在原文中進行標注，如果兩者之間有相鄰的短語，則認為是關鍵短語。

PositionRank：根據PositionRank 的算法思想，其關鍵詞抽取算法流程如算法4 所示。

算法4PositionRank 算法

步驟1單詞的預處理。

步驟2利用詞的共現關系構建一個無定向的詞圖G=(V，E)。

步驟3計算詞xi在詞頻d 中的位置倒數之和S(xi)。之后，將Position(xi)=pj歸一化，以修改PositionRank 的重啟概率。

步驟4通過在詞圖上的隨機游走來輸出詞xi及其相應的分數，直到趨于穩定。

步驟5將候選關鍵詞w的每個組成詞x的相應分數相加S(xj)，得到候選關鍵詞的操作分數S(w)。

步驟6將前N個候選詞作為關鍵詞，候選關鍵詞的分數S(w)是倒置的。

詞向量模型類算法選用 Word2Vec+kmeans［102-103］，算法5 所示為特定的算法流程。

算法5Word2Vec+k-means 算法

步驟1用Word2Vec 模型訓練大型維基語料庫，得到“wiki.zh.text.vector”的詞向量文件。

步驟2對數據進行預處理，最終得到X={x1，x2，…，xn}。

步驟3遍歷候選關鍵詞，從詞向量文件中提取候選關鍵詞的詞向量表示WWord2Vec={v1，v2，…，vn}。

步驟4通過k-means 對候選關鍵詞進行聚類可以得到不同類型的聚類中心，其中聚類的數量由人工確定，由于本文使用的是輿情新聞領域，因此將其聚類為一類。

步驟5在每一類中，聚類中的詞與聚類中心的距離（歐氏距離）根據聚類的大小依次遞增，常用的有歐氏距離、曼哈頓距離，本文使用的時間歐氏距離由下式給出：

步驟6通過計算候選關鍵詞，得出最有價值的詞，作為文本關鍵詞。

下文對有監督基線算法進行介紹：

HMM［88］：是機器學習中最典型的一種。

CRF［48］：是一種典型的序列標注方法，它既能表達觀察間的相關性，又能反映當前觀察與前、后多態的關系，獲得文中的關鍵詞組。

BiLSTM［53］：利用神經網絡的超強非線性擬合特性，在訓練過程中，將樣本經過復雜的非線性轉換獲得從樣本到標記的功能，然后利用該函數對給定的樣本進行預測。

BiLSTM+CRF［58］：BiLSTM 在進行順序標注時可以省略大量的特征工程，但也存在不能進行標注的缺陷。然而，CRF 的優勢在于能夠模擬出隱含的狀態，了解狀態序列的特性，但是其不足之處在于必須手工抽取序列的特征。由于所提的BiLSTM+CRF模式將兩者結合起來，因此可以更好地完成與序列標注有關的工作。

BERT+CRF：BERT 能夠更好地使模型從背景信息中學習到更多的信息，并且消除了對抗性學習，從而檢驗在同樣的數據比率下對抗學習能否更好地促進模型在沒有標注的數據中獲得更多的知識。

4.2 實驗結果

自建數據集實驗結果如表6 所示。

表6 自建數據集F1 值結果Table 6 Results of self-built dataset FI values

從表6 可以得出以下結論：

1）可以觀察到Sensor 數據集的性能指標。

2）在這些對比算法中，直接使用無監督的TextRank 與PositionRank 算法抽取關鍵詞的效果較好，在某些數據集合中，甚至超過有監督的算法。

3）BiLSTM+CRF 與BiLSTM 相比，BiLSTM 的性能指標更好，說明在BiLSTM 上添加CRF 進行糾錯的思路是正確的，可以有效提升算法預測的準確率。

4）使用人工創建的特征的CRF 算法有時不如HMM，表明人工創建的規則并不總是能反映文本的深層語義信息。

5）這些對比實驗的模型為本文提供了經驗下界。在其他數據集上表現較差的算法如LDA，在“地震”數據集上的表現卻比其他無監督算法要好，這可能是因為數據分布不一致所導致。

6）算法效果最好的是BERT+CRF 算法，與BiLSTM+CRF 相比，其提取單詞上下文信息的功能要比BiLSTM+CRF 好很多。

通過與基線算法進行的實驗對比可知：本文算法在多個數據集上實驗效果穩定，充分驗證了算法的有效性。

Sensor 和Sohu 數據集實驗結果如表7、表8所示。

表7 Sensor 數據集實驗結果Table 7 Experimental results of Sensor dataset

表8 Sohu 數據集實驗結果Table 8 Experimental results of Sohu dataset

從表7、表8 可以得出以下結論：

1）從整體性能上來看，在Sensor 數據集上的實驗效果比Sohu 數據集要好，可能是因為訓練集中的內容更加偏向Sensor 數據集的原因。

2）在Sensor 數據集中效果最好的是BERT+CRF算法，F1 值達到了73.1%，比BiLSTM+CRF 算法提高了6.4 個百分點；同樣地，在Sohu 數據集中，BERT+CRF 算法比BiLSTM+CRF 算法的效果提高了3.4 個百分點，進一步佐證了該算法比BiLSTM+CRF 算法更能挖掘文本的深層次語義。

3）在2 個公開數據集上，BiLSTM 比BiLSTM+CRF 的效果都要差，說明BiLSTM+CRF 對于序列標注正確性有進一步提升。

4）在所有的數據集上，Word2Vec+k-means 算法效果都比較差，原因是在構建詞向量時，使用的維基百科詞向量庫與數據集并不是很吻合。

5）在整體趨勢上，有監督算法要比無監督算法效果更好。

5 未來展望

文本關鍵詞可以提供高度集中的輿論信息，使人們能夠快速有效地掌握相關內容。因此，如何從文本中自動提取關鍵詞是文本挖掘領域的重點關注方向之一。從中文關鍵詞提取的角度出發，對中文關鍵詞的提取問題進行了多角度的探討，并給出了相應的算法。然而，本文研究還存在許多問題，有待于在已有研究的基礎上進行深入探討［95］。

1）采用輕量級方法

目前，BERT 算法較為流行，在實際應用中效果較好，但是與一些無監督或者半監督算法相比，時間耗費量巨大。針對該問題，可以考慮采用一些輕量級的框架替換算法中的大型模塊。

2）大型數據集

深度學習需要海量的數據來訓練算法，優秀的數據集必須具有大規模和廣泛性的特性。目前已有的關鍵詞提取領域中的數據集都有不足之處，因此要提高算法的性能，就必須建立一個較大的樣本庫，以便對算法進行深入的研究。

3）結合外部知識［104］

僅從文本中所含的信息來進行關鍵詞抽取，其難度和局限性都很大。在此背景下，企業的外部知識結構系統就變得非常重要。因此，本文提出一種基于知識圖譜的方法，并將其與外部知識相結合，使其在實際應用中能夠得到廣泛的拓展。

4）有監督算法與無監督算法相融合

當前有很多效果良好的有監督算法，通過學習文本中標注的信息來增強算法的性能，但是無法發現標注數據此外的知識［105］。因此，可以將現有的研究與無監督算法相結合，如將關鍵詞抽取算法和主題算法相結合，使該算法在抽取時能夠充分考慮到詞語的主題分布，從而能夠更好地反映文本的主題信息。關鍵詞必須有一個主題的資訊才能體現整篇文章。該方法可以將算法和主題算法相結合，使得算法在提取時能夠充分考慮到主題的分布。

6 結束語

關鍵詞抽取算法在信息檢索、文本聚類、信息推薦等領域都有重要的作用。本文對關鍵詞抽取算法進行了詳細的闡述，對比傳統算法與目前流行的深度學習算法的優缺點，闡述了關鍵詞抽取算法目前仍需解決的問題與潛在的發展趨勢。根據目前的發展情況，基于深度學習的序列標注類型的算法為目前的主流算法，且抽取效果較好，但也存在缺陷與挑戰。在未來發展過程中可以將無監督算法與有監督算法進行有效融合，并結合外部知識以促進關鍵詞抽取算法更好的發展。