祝超群 彭艷兵
(1.武漢郵電科學研究院 武漢 430070)(2.南京烽火天地通信科技有限公司 南京 210019)
目前,互聯網技術迅猛發展,大量文本信息迅速產生,“信息過載”問題逐漸出現在人們的日常生活中,而互聯網的普及也使得人們有了更便捷的方式去獲取信息、處理信息。如何在互聯網中快速有效地捕捉到關鍵信息成為目前急需解決的一個問題,自動文本摘要[1~3]被認為是解決該問題的一項關鍵技術,它能夠做到有效地概括出文本中的重要信息。
自動文本摘要研究的意義在于其具有廣泛的應用場景,如各搜索引擎關鍵信息檢索、相同主題文本的智能推薦以及輿情監督系統的熱點挖掘和專題追蹤等。因此,本文希望可以引入文本摘要抽取、集成學習等算法模型實現文本信息自動化的有效抽取,為各應用場景提供一些幫助。
集成學習[4](Ensemble Learning)是一種優化算法,通過將多個單一學習器進行結合,常可獲得比單一學習器更加顯著的泛化能力。其潛在思想是即使一個弱分類器得到了一個錯誤的結果,其他弱分類器也有一定概率可將此錯誤糾正。總體來說,集成學習在一些特定場景學習效果可能不如最優的單一學習器,但是在大部分情況下,集成學習的學習效果更貼近或者超過單一最優學習器,且集成學習的泛化能力要優于單個學習器。
目前國內外關于集成學習算法的應用研究已有很多。高歡[5]等將集成學習思想用于挖掘消費者在線評論的情感傾向,對商家提供服務建議具有重要意義;張玉華[6]等將集成學習思想應用于計算機視覺研究領域進行人體行為識別;劉擎超[7]等基于集成學習對多狀態交通情況進行預報。
本文針對單一摘要抽取算法泛化能力弱的問題,提出了利用多種文本摘要抽取算法進行集成學習的文本摘要抽取模型,根據每種算法抽取出的關鍵句進行非平均投票,最終加權得出分數最高的句子作為摘要句,并且在NLPCC 2017 的中文單文檔摘要評測數據集[16]上的實驗驗證了此方法的有效性。
國內外對于自動文摘相關的研究是近些年才逐漸發展起來的,但這一概念在20 世紀中期就已被IBM 公司的Luhn[8]提出,Luhn 于1958 年發表了一篇有關自動文摘的論文,開啟了一個領域的研究進程,諸多學者加入研究行列,使得該領域的研究越發成熟。目前根據摘要生成方式的不同,將自動文本摘要主要分為抽取式摘要(Extractive Summary)和生成式摘要(Abstractive Summary)[10]兩種方式。抽取式摘要,顧名思義,僅從文本中抽取信息,結果均是文本中的原生內容,主要通過計算原文中各句子的重要性排名,再根據排名和句子順序抽取句子。生成式摘要則旨在分析文本結構并且加以文本語義理解,最后用合理的表達來重新完成摘要內容,更類似于人類閱讀文章后總結概括。
目前無監督抽取式文本摘要主要包括三大類,分別是基于統計、圖模型[9]以及基于潛在語義的方法。
基于統計類文本摘要算法更著重于文本結構以及淺層信息,比如詞匯出現的頻率、句子所在位置以及句子長度等信息。基于統計類算法進行摘要抽取,簡單、便捷且易于實現,但是僅以文章的表層信息難以挖掘句子的整體語義,而且沒有考慮句子的上下文信息,難以全局性地選出符合要求的句子。
基于圖模型的方法將文本中的句子表示為圖中的節點,通過節點之間的迭代計算得出每個句子的重要程度。Text Rank[11]算法是一種經典的基于圖模型的排序算法,算法由Mihalcea,Rada 等提出TextRank,其算法理論基礎基于Brin S 和Page L 于1998 年提出的PageRank[12]算法,兩者都是排序算法,不過應用場景不同,TextRank 用于文本關鍵詞或者句子的重要性排序任務,PageRank 用于超文本鏈接的重要性排序問題。但是基于圖模型的抽取式摘要也存在著忽視文本主題信息、抽取信息冗余、有效信息覆蓋率低等問題,且上述問題并沒有得到很好的解決。
基于潛在語義的方法則是使用主題模型挖掘文本隱含主題,通過文本主題分布判斷句子的重要性,常見的主題挖掘算法有LDA[13]和BTM[14]。基于潛在語義的方法進行摘要自動提取在一定程度上考慮了句子隱含的語義信息,抽取的句子更加貼合文本的主題分布,但LDA 在確定主題時候也僅是從詞形的角度考慮,無法避免同義詞的影響和描述復雜的語義。
上述各算法因側重點不同,所以各自存在一些不足,因此本文基于集成學習,在摘要抽取算法中選擇目前較為流行且效果較佳的MMR 算法[15]、TextRank 算法以及LDA 模型,考慮到新聞文本摘要句子的位置信息對全文的影響程度,加入Lead_N 算法(顧名思義,即取文本的前N 句)增加文本首句對摘要的影響力。根據上述四種算法給句子進行加權投票,篩選得分排名靠前的句子作為摘要句,即遵循多個算法都認為重要的才是重要的準則。
抽取式自動文本摘要任務主要是結合不同的特征對句子進行打分和排序。為了提取出質量更高、更能代表文本信息的摘要,本文提出一種基于集成學習的無監督文本摘要抽取模型,其步驟如圖1所示。

圖1 抽取式文本摘要框架流程圖
首先是數據的預處理階段,本文選取的數據是由自然語言處理相關會議發布任務提供的競賽數據,數據沒有經過預先處理,因此需要除去無用的標點符號、特殊字符,然后全角半角字符轉換以及中文的簡繁體轉換,處理結束后將原文與人工標注的摘要分開保存。
第二步是將預處理好的文本通過選擇的各種單一抽取算法去提取出對應條數的摘要句。
第三步是對句子進行投票加權,根據每種算法應對單句以及多句摘要的表現結果,賦予每種算法抽取句子不同的權值分數。然后通過多個算法打分后進行投票加權得到每一個句子的加權得分。最終基于總得分對文本中所有的句子進行降序排序,選出排名前N 的句子作為最終抽取的摘要集合。
本文選擇了目前較為流行且效果較佳的MMR、TextRank、LDA 以及Lead_N 算法進行摘要句子單獨抽取。MMR(Maximal Marginal Relevance)中文名字為最大邊界相關法,此算法在設計之初是用來計算待查詢文本與被搜索文檔之間的相似度,然后對文檔進行排序的算法,如式(1)所示。

其中A表示被搜索文檔與查詢文本相似度,B表示當前被搜索文檔與之前被搜索文檔的相似度,λ為調節參數。為了能夠更好地適用于文本摘要抽取任務,將式(1)稍作修改,如式(4)所示。

其中Score計算的是當前被選擇句子的重要性分值,Di表示當前所選擇句子,Ds表示前面已選擇的摘要句集合,負號說明抽取摘要集合的句子間的相似度越小越好。此處體現了MMR 的算法原理,即同時考慮到文本摘要的重要性和多樣性。這種摘要提取方式與TextRank不同,TextRank只取文本中計算分值高的句子進行排序形成摘要,忽略了所抽取信息的全面性,冗余較高。
從上述描述可知,MMR 算法當抽取多句作為摘要時能更好地考慮到全文信息,冗余較小。因為TextRank、LDA 應用已經非常成熟,這里便不再贅述。關于Lead_N 算法的融入是考慮了新聞文本的特殊性,首句有較大概率與新聞標題相似度高,更能表達新聞含義,故將Lead_N 算法加入,使得本模型更適用于新聞文本摘要抽取任務。
根據抽取摘要的句子數量以及各算法在摘要抽取方面的表現,本模型對各算法抽取的摘要句進行不同權值賦值。抽取單句時無需考慮冗余問題,且考慮到文本結構,故賦予TextRank 算法以及Lead_N 算法較高權重。隨著抽取句子數量增加,信息冗余情況出現,故提升MMR算法的權重賦值,并降低Lead_N 算法對摘要結果的影響。權重賦值如表1所示。

表1 各算法權重賦值
根據上表賦予各算法的權重,對各算法抽取的句子進行加權投票計算,選擇出得分最高即最能代表文本信息的句子作為摘要。
因為根據權重排名得到的句子對于整篇文本來說是無序的,為了貼合人們的閱讀習慣,將3.2小節抽取出的摘要句子集合根據其所在文本中的位置進行正序排序,然后將其組合在一起作為最終的摘要。
本文使用的驗證集為NLPCC 2017的中文單文檔摘要評測數據集[16]。該數據集測試數據包括兩部分,一部分包含人工標注摘要,另一部分只有新聞文本,沒有摘要,本文從含有摘要的50000 對新聞以及對應摘要信息中多次隨機抽取1000 對進行測試,所抽取新聞文本包含時政、娛樂、體育等各領域新聞。本文算法實現采用的是編程語言Python ,版本為3.6,在Windows 系統下運行,計算機CPU 為Intel Core(TM)i7-9750H @2.6GHz,內存大小為16G。
Rouge[17]系列評測指標是評估文本摘要以及機器翻譯相關任務的一組指標。通過比較根據模型得到的候選摘要(以下稱為Candidate Summary)與人工標注的參考摘要(以下稱為Reference Summary),計算得出相應的分值,來表示通過算法得到的摘要與人工標注的摘要的相似度。本文選取Rouge-1、Rouge-2、Rouge-L 作為本文研究的評測指標。
直觀看,Rouge-1 可以代表自動摘要的信息量,Rouge-2 則側重于評估摘要的流暢程度,但本文進行的是文本摘要抽取任務,并非生成,暫不考慮流暢程度。而Rouge-L 可看成是摘要對原文信息的涵蓋程度的某種度量。其中Rouge-N 的計算方法如式(5)所示。

其中,RS表示參考摘要,Ng表示N 元詞,Countmax(Ng)表示Candidate Summary 和Reference Summary 同現的相同N-gram 的最大數量,Count(Ng)表示標準摘要中出現的N-gram個數。
Rouge-L 中的L 是LCS(最長公共子序列)的首字母,Rouge-L 考慮的是Candidate Summary和Reference Summary 中最長的公共部分的長度,如式(6)所示。

其中,分子是Candidate Summary 和Reference Summary 中最長的公共部分的單詞數量,分母是Reference Summary中的單詞數量。
在實驗中,我們將對比本文提出的模型與四種基線方法進行評測對比,評測任務分為單句以及多句摘要。對比單句摘要是為了找出文本中最能代表文本含義的句子,對比多句摘要則是因為選擇的數據為長文本,往往摘要包括多句內容,而不是一句話標題,一條句子難以覆蓋整篇文本的關鍵信息。本文多句摘要分別選擇抽取2句和3句。
4.3.1 單句摘要實驗結果
單句摘要的實驗結果如表2 所示,分別為四種基線方法MMR、TextRank、LDA、Lead_N 與本文提出的基于集成學習的文本摘要抽取模型的結果。對比表2 中的結果,Rouge-1 評分中Lead_N 方法效果最差,出現這樣的情況的原因可能是由于首句長度不夠,包含的詞數量較少、信息量不足,但是Lead_N 的Rouge-2 與Rouge-L 評分要高于其他幾種算法,與預期結果相符合,表明新聞文本首句有效信息較多,文本結構對新聞文本影響較大。本文提出的基于集成學習的文本摘要在Rouge-1 評分中達到最優,比其他幾種基準模型高了0.3個至4.1個百分點不等。Rouge-2、Rouge-L 評分略低于Lead_N 算法抽取效果,但是比其他三種抽取方法效果更好,整體抽取效果最優。

表2 單句摘要抽取效果
4.3.2 多句摘要實驗結果
多句摘要(2 句、3 句)的實驗結果分別如表3、表4所示。

表3 多句摘要抽取效果_2

表4 多句摘要抽取效果_3
對比表3 中抽取兩條句子作為候選摘要的Rouge 值,本文提出模型的Rouge-1、Rouge-2 比四種算法中表現最好的TextRank 算法分別高出約0.6 個、0.4 個百分點,Rouge-L 比TextRank 算法高出約0.7個百分點,效果最好。
對比表4 中抽取3 條句子作為候選摘要的Rouge 值,本文提出模型的Rouge-1、Rouge-2 比基線方法中效果最好的MMR 算法分別高出約1.7個、1.3 個百分點,Rouge-L 比MMR 算法高出約1.5個百分點。
通過對單句以及多句摘要結果對比,可以發現,在提取多句摘要時,MMR 效果在逐步提升,而本文提出的基于集成學習的文本摘要抽取模型在多句摘要抽取任務中,各評分都要優于所選基準模型中最優的算法,整體抽取效果達到最優。
本文提出了一種基于集成學習的無監督中文文本摘要自動抽取模型。以NLPCC 2017的中文單文檔摘要評測數據集作為驗證集,運用集成學習將多種無監督文本摘要抽取算法應用到中文文本摘要抽取任務中,根據新聞文本的特性以及各算法的優缺點,為每種算法選取合適的權重,然后根據抽取句子的權重投票計算,得到最終摘要結果。根據Rouge 系列評測標準對比人工標注的參考摘要與模型得出的候選摘要,發現本文提出的模型在中文文本摘要抽取任務中可以達到較優的效果,與其他幾種基準模型對比,整體抽取效果最優。
實際上,在候選摘要與參考摘要進行評測時,因為人工生成的參考摘要有一些人工總結性詞匯,在原文中可能并未出現,這也就導致了Rouge 評分較低,后期可以考慮根據抽取式摘要與生成式摘要不同的特點,設計一套更加合理的評測指標,更好地指導摘要的抽取任務。