面向連貫性強化的無真值依賴文本摘要模型

2022-03-13 09:19:08陳共馳馬廷淮

計算機與生活 2022年3期

陳共馳，榮歡+，馬廷淮

1.南京信息工程大學人工智能學院（未來技術學院），南京210044

2.南京信息工程大學計算機學院（軟件學院、網絡空間安全學院），南京210044

隨著互聯網的飛速發展，網絡中蘊含了基數龐大、形式多樣的數據內容，從中迅速定位關鍵信息是高效信息檢索面臨的首要問題。對于文本數據而言，自動摘要技術能夠從給定語料中提取核心內容，以篇幅相對較短的摘要文本描述原文主旨，有利于降低文本數據的存儲成本，是提高文本數據檢索效率的必要手段，對進一步實現信息集成有著重要的現實意義與應用價值。

現有自動文本摘要方法可從原文中直接選取重要語句或語段，按語句抽取方式產生摘要文本；另一方面，為加大對原文的信息表示、內容凝練和語義轉述，近年來生成型文本摘要方法已成為文本摘要領域的研究熱點。一般而言，生成型文本摘要方法首先對給定原文進行編碼，從詞、句層面獲得能夠涵蓋原文信息的向量（嵌入）表示；其次，從已有編碼表示中進一步識別并提煉重要信息，解析出與原文主旨更為相關的特征編碼；最后，對上述特征編碼進行解碼，即根據解碼結果從給定詞表（詞典）中選擇相應詞匯，以形成摘要文本，重新由文字形式表述原文主旨。由此可見，相較于抽取型方法，生成型文本摘要實施難度更大，但其產生的摘要文本在詞匯表述上更加靈活豐富，對原文關鍵信息的凝練效果更加理想。

然而，所面臨的問題是，生成型文本摘要方法需經過原文編碼、編碼解析和特征解碼過程，由更豐富的詞匯組織語句以轉述原文主旨，故易導致所產生摘要語句的連貫性（coherence）欠佳，摘要文本可讀性不理想；此外，現階段生成型文本摘要方法涉及人工標注的摘要真值進行有監督訓練，致使現有生成型文本摘要方法常面臨摘要真值資源稀缺問題，故僅依靠事先標注語句連貫性較強的“摘要真值”，按有監督訓練方式提升模型所生成摘要的語句連貫性，在實際應用中或阻力較大。因此，本文立足于生成型文本摘要模型，尋求在無事先已標注摘要真值介入的前提下（即無真值依賴），仍能夠提升摘要生成模型語句連貫性的有效機制，從而改善摘要文本語句流暢度，增加摘要文本可讀性。

針對上述問題，本文遵循“先抽取、再生成”的原理，提出一種面向連貫性強化的無真值依賴文本摘要模型（abstractive text summarization model with coherence reinforcement and no ground truth dependency，ATS_CG）；該模型由編碼器（模塊A）、連貫性度量模塊（模塊B）和解碼器（模塊C）三部分組成，按兩階段生成摘要文本。

具體而言，一方面，在摘要文本生成階段，編碼器（模塊A）首先對給定原文本（source document）進行編碼，獲取原文本的嵌入表示；在此基礎上，連貫性度量模塊（模塊B）采用Transformer-XL編碼器對原文本的嵌入表示做進一步編碼處理，解析與上下文相關的內容特征，并在連貫性度量模塊的頂層設置“關鍵語句分類層”，產生語句抽取標識，以篩選出（或為關鍵的）語句編碼結果，從而通過連貫性度量模塊刻畫出從原文抽取關鍵語句的過程；最終，解碼器（模塊C）基于連貫性度量模塊輸出的關鍵語句編碼，初步產生針對所“抽取”關鍵語句的解碼結果，即原始詞匯分布。

另一方面，在語句連貫性強化階段，模型ATS_CG首先取得上一階段解碼器（模塊C）輸出的原始詞匯分布，通過“按概率選擇”與“按Softmax-貪婪選擇”產生兩類摘要文本，并由編碼器（模塊A）對兩類摘要進行重新編碼；之后，由連貫性度量模塊（模塊B）解析兩類摘要的重編碼結果，以模塊B 頂層Transformer-XL 編碼器中內嵌的基于語義段（segment）的循環自注意力權重作為摘要語句的連貫性收益；以所生成摘要文本與“偽摘要真值”的ROUGE評分，作為摘要語句的內容收益，從而由上述兩收益之和，通過連貫性度量模塊計算兩類摘要文本各自對應的總體收益；此處，“偽摘要真值”為通過ROUGE 評分從原文抽取的最優語句集合。其次，構建兩類摘要的“交叉熵損失”，采用強化學習中的“自評判策略梯度”（selfcritical policy gradient），以兩類摘要的“總體收益差值”對模型參數梯度進行獎勵或懲罰，迫使“按Softmax-貪婪選擇”所生成摘要的總體收益向“按概率選擇”所生成摘要的總體收益逼近，通過“概率探索”提升“Softmax-貪婪選擇”的整體基線水平，進而提升模型ATS_CG 所生成摘要文本在語句連貫性與語句內容方面的收益取值。最終，在無摘要真值介入的前提下，生成語句連貫性高、內容質量好的摘要文本。

綜上所述，本文提出了一種面向連貫性強化的無真值依賴文本摘要模型（ATS_CG），該方法按照“抽取與生成”相結合的方式，基于從原文提取的關鍵語句集合產生摘要內容；同時，通過對初步生成的摘要文本進行重編碼、連貫性與內容收益計算，在解碼器原始詞匯分布基礎上，獲取“按概率選擇”相較于“按Softmax-貪婪選擇”所取得的“收益優勢”，通過最大化該“收益優勢”指導模型梯度更新，以產生語句連貫性較高的摘要文本。實驗結果表明，即便在僅給定原文本的限制條件下，模型ATS_CG的ROUGE、METEOR評分指標上總體上仍優于現有文本摘要方法；與此同時，模型ATS_CG 所生成的摘要文本在語句連貫性、內容重要性、信息冗余性、詞匯新穎度和摘要困惑度等方面亦優于現有方法。

1 相關工作

目前，基于“編碼-解碼”思想的序列到序列（sequence to sequence，Seq2Seq）結構是處理生成型文本摘要任務的主要方法。傳統Seq2Seq 結構中的編碼器和解碼器常采用循環神經網絡（recurrent neural network，RNN）、長短期記憶網絡（long short-term memory，LSTM）和雙向LSTM 網絡（bi-directional long short-term memory，Bi-LSTM），為了產生語句質量更優的摘要文本，眾多學者對上述基于循環神經網絡及其變體的摘要生成模型做了相關改進。Cohan 等提出一種可從詞語和語段兩個層面捕捉輸入文本語篇結構的層次型編碼器，并將語篇結構特征注入解碼器，輔助解碼器生成摘要文本，該工作已在學術論文摘要生成任務上取得了較高的ROUGE評分；Paulus 等在解碼器端引入內部注意力機制（intra-decoder attention），即在第位解碼時觀察前-1 位解碼結果，由注意力權重防止解碼器生成重復內容，有效降低了摘要文本語句內容的冗余度；同時，該工作結合Teacher Forcing 算法和自評判策略梯度構建混合強化學習目標，使模型在處理原文本時有效避免了曝光偏差（exposure bias），并生成具有較高評估精度的摘要文本；Celikyilmaz 等首先將輸入的原文本劃分為多個語段，并基于Bi-LSTM 模型構建多個代理（agent）；之后，各代理對所分配的語段進行解析，并根據多代理通信機制在代理間傳遞所屬語段的解析結果，最終形成原文本的“全局觀察”，由“全局觀察”按“編碼-解碼”思想生成摘要文本。

盡管上述模型都在摘要生成的精度上取得了提升，但其所采用的循環神經網絡及其變體均為基于時間步的序列結構，嚴重妨礙了模型的并行訓練，致使模型在訓練和推理過程中受到內存限制，導致摘要生成模型編碼與解碼速度降低，訓練開銷增大。另一方面，上述工作均以最大化ROUGE 指標或極大似然為目標來優化模型，未涉及對摘要語句連貫性或流暢度的考慮，且均依賴事先標注的摘要文本真值進行有監督訓練，模型訓練所涉及的數據成本較高。因此，仍需對基于循環神經網絡及其變體的摘要生成模型做進一步改進。

為此，Vaswani 等提出的Transformer 模型采用一種全新結構，其完全依靠自注意力機制來刻畫輸入和輸出間的全局依賴關系，避免了時序性循環結構的引入；該結構可使摘要模型進行充分的并行化訓練，訓練速度和推理速度得到顯著提升。因此，將Transformer和自注意力機制引入上述“編碼-解碼”結構是目前生成式摘要的研究熱點。具體而言，Liu 等提出的BERTSUMEXTABS 模型將已預訓練的BERT作為編碼器獲取輸入文本編碼表示，6 層Transformer 作為解碼器生成摘要內容；特別地，該工作在編碼器之后引入2 層Transformer組成的抽取器，負責從編碼器輸出的編碼表示中抽取重要句子以讓解碼器關注原文重要內容，由此產生質量較高的摘要內容。Zhang 等提出PEGASUS 模型利用空白句子生成（gap sentences generation，GSG）的自監督預訓練目標，結合由定量指標ROUGE-F1 抽取的偽摘要訓練基于Transformer 的摘要生成模型，實驗結果表明模型經過預訓練之后，僅需少量摘要真值數據進行微調即可產生評估精度較高的摘要文本，有效降低了模型訓練的數據成本。王侃等在原文本預處理過程中向Transformer 引入與文本內容相關的先驗知識，通過自注意力機制結合ELMO（embeddings from language models）模型獲取輸入的動態文本矩陣，將該矩陣輸入到基于Transformer 的編碼-解碼結構中，最終產生連貫摘要語句。此外，Pilault等在應用Transformer 對重新組織后的長文本（如論文）進行摘要生成后，發現該模型即便不采用Copy機制仍能保證摘要語句的連貫性，但其內容關聯程度欠佳。

針對摘要語句連貫性方面的工作還包括：Chu等通過對原文本進行編碼、解碼和重編碼，構建摘要相似性損失和文本重構損失來優化模型，該模型在評估階段采用已訓練好的語言模型計算生成摘要文本的負對數似然，以此衡量語句連貫性；Li 等利用BERTSCORE指標構建分布式語義收益，將該收益結合自評判策略梯度對模型進行優化。人工評估結果表明該收益能使得模型摘要更連貫；Chen 等在對解碼器進行預訓練后，通過在句子級別上應用優勢動作評判（advantage actor-critic，A2C）對抽取器進行優化，以保證模型轉述正確的關鍵語句從而生成連貫流暢的摘要。

上述模型對摘要連貫性的優化均以最小化所生成摘要文本困惑度（perplexity）為目標。然而，值得注意的是，現有工作在對摘要語句連貫性進行評估時均采用人工評估方法，即在摘要生成模型內部缺少一種對語句連貫性進行自動度量的機制或方法。

綜上所述，現階段生成型文本摘要方法應該滿足或解決以下問題：第一，能夠根據給定原文本生成語句連貫且可讀性高的摘要文本；第二，摘要生成模型內部應包含對所生成摘要語句進行自動連貫性度量的處理機制；第三，應盡量減少模型訓練過程對摘要真值數據的標注依賴，以降低模型訓練成本。

2 ATS_CG 摘要生成模型

2.1 模型總體架構

如圖1 所示，ATS_CG 模型主要分為兩個階段：

第一，摘要文本生成階段（圖1 中①至⑥，藍色線條標識）。首先，編碼器（模塊A）采用AL-BERT 組件獲取原文本集的編碼表示E，由連貫性度量模塊（模塊B，頂層為Sigmoid 分類層）獲取輔助信息并抽取關鍵語句集合；此處，輔助信息與關鍵語句集合視為對編碼表示E的特征解析結果；接著，由解碼器（模塊C）對和進行解碼、查詞后初步產生針對關鍵語句內容的摘要文本。

值得注意的是，如圖1 所示，摘要文本生成階段中由解碼器（模塊C）對和進行解碼時，需基于原始詞匯分布，采取“按概率選擇”與“按Softmax-貪婪選擇”兩類策略進行詞匯選擇，從而產生不同選擇策略下的摘要文本。

第二，語句連貫性強化階段（圖1 中⑦至?，橙色線條標識）。首先，模型ATS_CG 將階段1（“按概率選擇”或“按Softmax-貪婪選擇”）初步生成的摘要文本重新遞交給AL-BERT 編碼器（模塊A），進行“摘要重編碼”；其次，基于重編碼結果，取得連貫性度量模塊（模塊B）中第層編碼組件（Transformer XLEncoder）內嵌的基于語義段的循環自注意力權重，以此作為階段1 所生成摘要文本的語句連貫性評分，記為連貫性收益（），從而在模型內部引入語句連貫性度量機制；再者，計算階段1 所生成摘要文本與偽摘要的ROUGE 評分，記為內容收益（）；此處，“偽摘要”是通過計算原文各語句與原文整體的ROUGE 評分后取得分最高的前條語句組成的。最終，以摘要文本的語句連貫性收益與摘要文本的語句內容收益構成模型ATS_CG 摘要生成的總體收益（記為），采用強化學習中的自評判策略梯度，遵循“最大化收益”原則，由總體收益（包含內容與連貫性兩方面）更新模型ATS_CG參數梯度，從而引導模型在無人工標注的摘要真值介入的前提下（如僅依靠偽摘要），產生語句連貫性高且內容質量好的摘要文本。

圖1 ATS_CG 模型總體架構Fig.1 Architecture of ATS_CG model

2.2 階段1：摘要文本生成階段

圖2 階段1：模型ATS_CG 摘要文本生成具體流程Fig.2 Stage 1:detailed process of summary generation of ATS_CG

如圖2 所示，在摘要文本生成階段中，連貫性度量模塊（頂層為Sigmoid 分類層）負責解析AL-BERT編碼器輸出的文本編碼表示E，以提取跨語義片段的上下文信息；此外，頂層Sigmoid 分類器從上下文信息中判別關鍵語句以產生抽取標識，進而輸出關鍵語句集合（編碼）。特別地，可在后續解碼過程中為關鍵語句集合提供對應的上下文信息，進而輔助解碼器產生概括原文主旨的摘要文本。

抽取輸入文本集對應的偽摘要集合

其次，區別于現有工作，如圖3 所示，解碼器（模塊C）解析獲得摘要文本的原始詞匯分布（observation distribution），記為=[,,…,obs_dis]；其中，obs_dis為第篇文本D對應摘要的原始詞匯分布。在此基礎上，一方面，模型ATS_CG 采用基于概率的詞匯選擇方法，產生每篇文本所對應摘要的詞匯分布，記為=[,,…,act_dis]；其中，act_dis表示第篇文本D對應摘要的詞匯分布；特別地，此處基于概率的詞匯選擇方法表示“若存在詞匯分布[0.7,0.2,0.1]，則即便某個詞匯被選中的概率較低（如0.1），但依舊有可能被選中”。相反，另一方面，當模型ATS_CG 采用基于貪婪策略（greedy selection）的詞匯選擇方法時，由“Softmax”固定選取概率最高的詞匯（如0.7），記該情形下摘要的詞匯分布為=[,,…,greedy_dis]。最終，根據上述詞匯選擇策略生成相應詞匯分布后，模型ATS_CG采用波束搜索（beam search）算法，依據詞匯分布（或）查詢字典，獲得對應的摘要文本。

圖3 模型ATS_CG 摘要文本生成階段中的關鍵語句解碼與相關分布生成Fig.3 ATS_CG decoding key sentences and generating related distribution in summary generation stage

2.3 階段2：摘要語句連貫性強化階段

如圖4 所示，在摘要語句連貫性強化階段中，模型ATS_CG 首先針對階段1“按概率選擇”與“按Softmax-貪婪選擇”初步產生的摘要文本，從語句連貫性與語句內容兩方面對摘要文本進行評分以得到總體收益，記為。將輸入文本集中所有文本對應摘要的總體收益表示為=[,,…,reward]；一般而言，語句連貫性需通過文本內容反映出來，故在本文中，將針對摘要內容的評分亦歸屬至語句連貫性范疇。

圖4 階段2：模型ATS_CG 摘要語句連貫性強化階段具體流程Fig.4 Stage 2:detailed process of coherence reinforcement of summary sentences generated by ATS_CG

值得注意的是，如圖5 所示，若兩詞間的自注意力權重越高，則該詞對的語義聯系越緊密；進一步地，若語義段之間自注意力權重越高，則認為兩個語義段的語義更加相關，出現位置不應相隔較遠，從而體現語義上的連貫性。

圖5 語義段劃分與基于語義段的循環自注意力Fig.5 Segment partition and recurrent self-attention mechanism based on segment

按式（9）將上述語句連貫性收益（）與語句內容收益（）進行合并，獲得模型ATS_CG 摘要生成的總體收益，即；其中，，，∈(0,1)為平衡參數。

基于模型ATS_CG 摘要生成的總體收益（，含語句連貫性與語句內容兩方面），如圖4所示，在摘要語句連貫性強化階段的最后，采用強化學習自評判策略梯度，由模型總體收益（）指導各模塊參數梯度更新。最終，提高解碼器（模塊C）所產生的原始詞匯分布（）整體“基線”水平，以在無摘要真值介入的前提下，產生語句連貫性高的摘要文本。

3 實驗結果與分析

本章對本文所提出面向連貫性強化的無真值依賴文本摘要模型（ATS_CG）進行一系列實驗分析，分別從摘要生成過程與摘要生成質量兩方面討論模型的有效性。本文采用Python 3.7 與Tensorflow-1.15 實現模型，實驗運行環境為GPU，NVIDIA GeForce GTX 1080Ti，11 GB。

3.1 數據集與實驗設置

首先，本文采用CNN/Daily Mail 與XSum 兩個典型自動文本摘要數據集進行實驗，二者均以新聞報道作為文本數據，并包含對應的“金標準”摘要真值文檔。本文將原始數據集劃分為訓練集、驗證集與測試集，訓練集用于模型訓練，驗證集用于模型參數選擇，測試集用于模型評估。特別地，“金標準”摘要不參與模型ATS_CG 訓練過程，僅用于摘要生成質量評估。如表1 所示，CNN/Daily Mail 所包含的原文本與摘要文本的平均長度均大于XSum；XSum 由人工書寫的1 句話作為摘要真值。相較于CNN/Daily Mail，XSum 中摘要真值的新穎度（Novelty）更高，包含更多原文中未出現的字詞。

表1 本文實驗所采用數據集CNN/Daily Mail與XSum 的相關信息Table 1 Statistical information of CNN/Daily Mail and XSum datasets

其次，在模型設置方面，令詞向量維度為，隱層單元個數為，自注意力頭數為，前饋層維度大小為，ATS_CG模型采用AL-BERT（=128，=1 024，=16，=4 096）作為編碼器，連貫性度量模塊由=3 層Transformer-XL Encoder（=1 024，=2 048，=32，=4 096）組成，解碼器由=6 層Transformer-XL Decoder（=1 024，=2 048，=32，=4 096）構成。在摘要文本生成階段，采用寬度為4 的波束搜索算法進行詞匯選擇，所生成摘要的最大長度由數據集原文檔與摘要文檔的平均壓縮率確定（文檔長度之比），且丟棄單詞個數低于3 的語句；連貫性度量模塊與解碼器分別采用學習率為1E-3、0.05 的Adam 優化器，且兩者學習率隨迭代次數的增加而減小。批處理樣本數（，即輸入文本集大小）為16。在語句連貫性強化階段，式（8）所示文本內容收益中取=0.3，=0.2，式（9）總收益中=0.7。模型利用CNN/Daily Mail 數據集進行訓練時，輸入文本集在一次迭代中取前=8條最優記錄用于連貫性強化階段時的“經驗回放”；利用XSum 進行訓練時，在一次迭代中取前=4條最優記錄。

接著，在對比方法方面，將本文所提出摘要生成模型ATS_CG 與現有抽取型和生成型自動摘要方法相比較。其中，對于抽取型方法，選用MMS_Text、SummaRuNNer、Refresh和HSSAS；對于生成型方法，選用Pointer-Generator+Coverage、Bottom-up、DCA（deep communicating agents）、BERTSUMEXTABS和PEGASUS。

最后，對于評估指標，本文采用ROUGE-N（包括ROUGE-1 和ROUGE-2，式（12））、ROUGE-L（式（13））和METEOR（式（14））指標評估生成文本內容質量，同時配合人工評價對相關模型所生成的摘要文本在語句連貫性、內容冗余度及內容重要性三方面進行評估。此處，ROUGE-N 中，表示元（gram）長度，{RS}表示參考摘要，(gram)表示生成摘要中與參考摘要中相同元數目，(gram)為參考摘要中總的元數目；ROUGE-L中，為生成摘要，為參考摘要，(,)表示生成摘要與參考摘要的最長公共子序列長度，為生成摘要長度，為參考摘要長度；METEOR 中，為生成摘要中與參考摘要相匹配的一元組數目，為參考摘要長度，為生成摘要長度，、、為平衡參數，為生成摘要中與參考摘要中公共子序列數目。

3.2 ATS_CG 模型摘要生成過程討論

為探究模型ATS_CG 中不同模塊對實驗結果的影響，本文實現了如表2 所示的六種消融性組合。具體而言，組合1 采用模塊A（AL-BERT 編碼器）與不含有可替換頂層的模塊B（連貫性度量模塊，僅為Transformer-XL Encoder）進行編碼，再利用模塊C（解碼器）進行解碼以產生摘要。組合2 在組合1 的基礎上為模塊B 添加了Sigmoid 分類層，旨在對文本編碼表示進行關鍵語句選擇后再生成摘要。組合3 與組合2 結構相同，但其對模塊B 進行了預訓練；特別地，上述3 個組合均采用訓練集“金標準”作為真值進行有監督訓練。組合4 采用組合3 的結構，除了對模塊B 進行預訓練外，僅通過最大化連貫性收益進行連貫性強化，強化過程中采用抽取的偽摘要作為可替代真值；組合5 與組合4類似，但其僅通過最大化內容收益進行連貫性強化；組合6即為圖1中完整的ATS_CG模型，此時仍采用抽取的偽摘要作為可替代真值。

表2 與圖1 對應的ATS_CG 模型消融性組合Table 2 Ablation combinations of ATS_CG corresponding to Fig.1

分別運用CNN/Daily Mail、XSum 驗證集對上述六種消融性組合進行評估，實驗結果如表3、表4 所示。首先，組合2 評估結果均優于組合1，這表明模塊B 對關鍵語句進行抽取后能使解碼器對重點內容進行解碼進而產生更高質量摘要。其次，組合3 優于組合2，表明預訓練能使模塊B 參數配置更加合理，進而更合理地選擇關鍵語句。接著，組合4 和組合5 評估結果均優于組合3，表明本文構建的收益與語句連貫性強化方法能有效提升摘要內容質量。特別地，組合4 的ROUGE-L 與METEOR 指標優于組合3，可反映出本文連貫性度量與強化對語句連貫性的提升。最后，融合所有機制的組合6 評估結果最優，反映出本文所提出模型ATS_CG 各模塊在摘要生成上的有效性。

表3 消融性組合評估結果（CNN/Daily Mail數據集）Table 3 Evaluation results of ablation combinations on CNN/Daily Mail dataset %

表4 消融性組合評估結果（XSum 數據集）Table 4 Evaluation results of ablation combinations on XSum dataset %

綜上可知，對于ATS_CG 模型而言，其一，通過比較組合2 與組合3，可發現由偽摘要對連貫性度量模塊預訓練后，更能從文本編碼表示中識別出重要語句和上下文語義信息，從而為解碼器提供語義基準和輔助信息以生成能確切概括原文主旨的摘要內容；其二，通過比較組合3 與組合4，可發現通過自注意力權重對連貫性進行度量，并以此作為摘要收益進行強化訓練，可有效提升模型所生成摘要語句質量；其三，通過比較組合1～5 與組合6，可以發現通過構建文本內容收益和文本連貫性收益對模型進行強化訓練（組合6），能促使模型生成ROUGE 評分與METEOR評分（基于“金標準”摘要）更高的摘要內容。

3.3 ATS_CG 模型與現有文本摘要模型比較

本節中將ATS_CG 模型分別與現有的抽取式方法和生成式方法在測試集上進行精度比較以評估其摘要生成質量。首先，ATS_CG 模型與對比方法在CNN/Daily Mail 數據集上的評估結果（3 次平均）具體如表5 所示（ROUGE-AVG 為ROUGE-1、ROUGE-2和ROUGE-L 三者均值），相應柱狀圖如圖6，其中（a）是ATS_CG 與抽取型基線模型對比結果圖，（b）是ATS_CG 與生成型基線模型對比結果圖。

表5 生成摘要評估結果（CNN/Daily Mail數據集）Table 5 Evalution results of generated summarization on CNN/Daily Mail dataset %

一方面，如圖6（a）所示，ATS_CG 模型的評估結果總體優于現有抽取型方法。該模型在ROUGE-1、ROUGE-2 指標優于其余抽取型基線模型，表明其能有效地獲取原文主旨信息。同時，其在ROUGE-L 和METEOR 指標上的評分均高于其余抽取型基線模型，這說明該模型在對所獲取關鍵句進行轉述時能保證生成語句的連貫性。所比較的抽取型方法（MMS_Text、SummaRuNNer、Refresh和HSSAS）核心思想可歸結為三類：一是將文本轉為圖結構（如MMS_Text），通過為節點（句子）打分從而抽取重要語句以形成摘要文本；二是通過編碼器挖掘文本潛在特征，以概率矩陣或語句排列順序抽取摘要語句（如SummaRuNNer和HSSAS）；三是借助強化學習構建質量收益，以最大化收益為目標更新語句選擇策略后，對原文檔抽取摘要文本（如Refresh）。然而，對于本文提出的ATS_CG 模型而言，其核心思想為“先抽取，再生成”，該模型的連貫性度量模塊在預訓練后能識別并抽取原文關鍵語句，從而促使解碼器關注重點內容；此外，在解碼生成時，ATS_CG 模型將含有上下文語義的輔助信息輸出到解碼器，進一步豐富了模型內部的文本特征信息，最終使模型ATS_CG 所產生摘要文本質量優于“單一”的抽取型模型。

圖6 CNN/Daily Mail數據集上實驗結果（對應表5）Fig.6 Experimental results on CNN/Daily Mail dataset corresponding to Table 5

另一方面，如圖6（b）所示，ATS_CG模型和現有生成型方法相比（Pointer-Generator+Coverage、Bottomup、DCA、BERTSUMEXTABS和PEGASUS）總體上亦取得了較優精度。該模型在ROUGE-1、ROUGE-2 指標優于其余生成型基線模型，表明其能對獲取到的原文主旨信息進行正確的轉述。同時，其在ROUGE-L 和METEOR 指標上的評分均高于其余生成型基線模型，這說明該模型更能生成連貫流暢的摘要內容。其性能提升可歸因為：第一，如圖2所示摘要生成過程中，模型ATS_CG 在預訓練組件基礎上（如AL-BERT 編碼器和預訓練連貫性度量模塊），針對文本編碼結果進一步以語義段為劃分單元，并由=3 層Transformer-XL 組件通過基于語義段的循環自注意力機制進行額外編碼，加大特征解析力度。第二，如圖4 所示連貫性強化過程，模型ATS_CG 對已生成的摘要文本進行重編碼以計算連貫性收益；與此同時，由抽取的偽摘要對生成摘要計算內容收益，通過最大化兩收益加權和，對模型摘要文本生成過程進行強化，從內容層面與語句連貫性層面進一步提升模型文本生成質量。

其次，ATS_CG 模型與所對比方法在XSum 數據集上的評估結果（3 次平均）具體如表6，相應柱狀圖如圖7?？傮w上，該模型仍取得最優結果。特別地，由于XSum 數據集對應“金標準”摘要新穎度較高，故僅將其用于測試生成型方法。表6 和圖7 所示結果進一步說明，模型ATS_CG 所遵循的“先抽取，再生成”設計原理、基于語義段的循環自注意力權重和基于內容收益與連貫性收益的強化過程，能有效地提升摘要生成質量。

表6 生成摘要評估結果（XSum 數據集）Table 6 Evaluation results of generated summarization on XSum dataset %

圖7 XSum 數據集上實驗結果（對應表6）Fig.7 Experimental results on XSum dataset corresponding to Table 6

3.4 ATS_CG 模型摘要語句生成質量評估

本節中，與現有生成型方法（Pointer-Generator+Coverage、Bottom-up、DCA、BERTSUMEXTABS和PEGASUS）進行對比。首先，通過人工評估，對ATS_CG 模型語句連貫性、內容冗余性和內容重要性三方面進行度量，結果如表7 所示。接著，利用元新穎度和摘要困惑度對ATS_CG 模型產生摘要的內容豐富性及語句連貫性進行評估，結果如表8 所示。

具體而言，對于人工評估，將所選生成型對比方法和ATS_CG 所生成摘要文本提供給10 名具備自然語言生成研究經驗的人員進行[1,5]范圍評分，取各維度均值作為最終結果，如表7 所示。其中，語句連貫性指標越高，則表明摘要在語句連貫性方面的質量越佳；內容冗余性指標表示摘要語句所描述內容的重復性，其指標越高意味著摘要冗余度越低；內容重要性指標表示摘要所描述內容是否有效反映了原文主旨信息，其指標越高，則表明所生成摘要涵蓋的原文關鍵信息越多。對于元新穎度，采用摘要中新出現的N-gram 與原文總N-gram 數之比進行計算。元新穎度越高，代表生成的摘要內容詞匯相較于原文更加豐富，模型產生新詞的能力更強。而摘要困惑度則對摘要語句的連貫性進行了評估，其值越低，表明摘要語句越流暢。

如表7 所示，模型ATS_CG 所生成摘要文本在語句連貫性上取得最優結果。相應地，如表8 所示，該模型摘要困惑度亦得到最優結果。該現象可歸因為：第一，模型ATS_CG 連貫性度量模塊采用的Transformer-XL Encoder 基于語義段的循環自注意力機制，使文本編碼表示有效學習到更長范圍的依賴關系并且避免了上下文碎片化問題，進而讓輔助信息中包含更長范圍內的上下文語義信息以幫助解碼器產生質量更高的摘要。第二，連貫性度量模塊利用已生成摘要的基于語義段的循環自注意力權重構建文本連貫性收益，可有效度量摘要文本間的聯系性。第三，模型ATS_CG 采用如圖4 所示的連貫性強化過程，通過構建如式（7）所示的摘要文本連貫性收益，如式（8）所示的摘要文本內容收益，從而讓模型以最大化如式（9）所示的總收益為目標進行學習，保證模型生成摘要內容與原文主旨更加相關，內容更加連貫。此外，如表7 所示，模型ATS_CG 生成摘要在內容冗余度與內容重要性方面也表現最優，這得益于經過預訓練的連貫性度量模塊能對原文關鍵信息選擇，從而使解碼器對重點內容進行解碼。

表7 摘要質量人工評估結果（CNN/Daily Mail 數據集）Table 7 Manual evaluation results of summary quality on CNN/Daily Mail dataset

表8 N-gram 新穎度與困惑度結果（CNN/Daily Mail 數據集）Table 8 Results of N-gram novelty and perplexity on CNN/Daily Mail dataset

如表8所示，模型ATS_CG相比于所對比方法，在摘要文本內容新穎度方面亦達到最優。更為重要的是，通過表8 可以發現，即便本文所提出的模型ATS_CG為提高語句連貫性需重新組織或表述語句，但所產生摘要文本的困惑度相較于其他現有方法而言依舊較低，即在產生新詞匯的同時仍能夠確保語義連貫性。

綜上所述，本文提出的面向連貫性強化的無真值依賴文本摘要模型（ATS_CG）在無摘要真值介入的前提下，利用抽取的偽摘要進行連貫性度量模塊的預訓練，從文本編碼表示中有效識別重要語句作為抽取標識，通過提取上下文語義信息作為輔助信息幫助解碼器生成貼近原文主旨的摘要內容。與此同時，連貫性度量模塊利用自注意力權重對經“重編碼”后的摘要進行度量，計算連貫性收益并應用至模型連貫性強化訓練過程中，生成更加連貫可讀的摘要文本內容。

4 結束語

利用自動文本摘要技術凝練文本核心內容是減小文本數據存儲成本、提高信息檢索效率的必要手段。為了能對文本快速地生成質量高、可讀性強的摘要，同時又避免模型訓練的真值依賴，本文提出的面向連貫性強化的無真值依賴文本摘要模型（ATS_CG）利用基于循環片段自注意力機制的Transformer-XL 構建連貫性度量模塊，并采用抽取的偽摘要對其進行預訓練，其能有效識別和抽取文本重要信息。此外，其還能在重編碼過程中對已生成的摘要進行自動的連貫性度量并產生文本連貫性收益，將該收益引入到模型的連貫性強化過程中，可促使模型生成更貼近原文主旨、連貫性更強的摘要內容。實驗表明，引入了連貫性度量和連貫性強化的ATS_CG 模型在多組實驗中的評估精度均優于其他現有方法。

本文未來工作將進一步提高自注意力權重對連貫性度量的有效性，通過構建多種度量方式，多角度地對語義聯系性、語法規則性、共指消歧等連貫性因素進行考量，從而提高文本生成模型的語句連貫性。