SFExt-PGAbs:兩階段長文檔摘要模型

2021-05-14 03:42:26周偉梟藍雯飛許智明朱容波

計算機與生活 2021年5期

周偉梟，藍雯飛+，許智明，朱容波

1.中南民族大學計算機科學學院，武漢430074

2.福州大學機械工程及自動化學院，福州350108

互聯網技術的發展導致文本信息規模快速增長，數據過載問題日益嚴重，對蘊含重要信息的文檔進行“降維”處理顯得尤為關鍵。文本摘要（text summarization）是自然語言處理（natural language processing，NLP）、自然語言生成（natural language generation，NLG）的重要分支，其目的[1]是使用抽取或生成的方式獲取一個或多個文檔的簡短版本，同時保留原始文檔的顯著信息。

以與原始文檔關系作為分類依據，摘要任務分為抽取式摘要（extractive summarization，Ext）[2]和生成式摘要（abstractive summarization，Abs）[3]；以摘要對象作為分類依據，分為單文檔摘要（single document summarization）[4]和多文檔摘要（multi-document summarization）[5]。

抽取式摘要直接從原始文檔中提取句子組成摘要，具體表現為對句子重要性評分并選取Top-N個重要句子[6]，優勢在于能夠得到語義和語法正確的摘要，因為句子信息均來源于原始文檔。此類方法的缺陷也十分明顯：摘要長度限制會嚴重影響抽取出句子之間的流暢性、連貫性，導致可讀性較差，在長文檔中抽取摘要時，該缺陷會被進一步放大。

生成式摘要通過重新組織原始文檔主要內容形成摘要，形式上更類似于人工撰寫。文獻[7]指出，大量針對生成式摘要的研究工作所提出的模型本質上都是基于序列到序列（sequence to sequence，Seq2Seq）架構的，此類模型生成的摘要連貫性、流暢性較好，但是準確性較低，無法很好地反映原始文檔的事實細節，甚至與原始文檔中心思想相悖。特別地，由于特征提取器（feature extractor）長短時記憶網絡（long shortterm memory，LSTM）[8]、門控循環單元（gated recurrent unit，GRU）[9]對長文檔編碼性能較弱以及常見的摘要數據集對句子位置存在偏見（bias）[10]，部分研究工作[11-12]對長文檔進行截斷后再編碼。本文認為，截斷操作雖然提高了編碼性能且加快了訓練速度，但是丟失了原始文檔中后部重要句子信息。同時，直接截斷獲得的文本存在冗余的句子干擾模型的泛化能力，進一步加劇摘要準確性低的缺陷。

針對上述問題，本文提出一種兩階段長文檔摘要模型SFExt-PGAbs，由次模函數抽取式摘要（submodular function for extractive summarization，SFExt）[13-14]、指針生成器生成式摘要（pointer generator for abstractive summarization，PGAbs）[11]組成。

提出SFExt-PGAbs的動機在于：

（1）本文對大量摘要樣本分析后認為，人類在對長文檔進行摘要時，傾向于先挑選出重要的句子作為參考，并重新組織參考句以獲取流暢的摘要。

（2）抽取式摘要與生成式摘要的優缺點互補。

傳統SFExt 的目標增益函數（objective gain function）只關注兩個子方面：覆蓋性、冗余性。本文拓展出兩個新的子方面，位置重要性和準確性。引入雅卡爾指數（Jaccard index）進一步去除冗余句，同時設計新的貪心算法（greedy algorithm）進行句子抽取。

本文在PGAbs中應用兩種循環神經網絡（recurrent neural network，RNN）并研究不同組件對生成摘要質量的影響。實驗結果表明，SFExt-PGAbs 生成的摘要同時滿足準確性、流暢性特點，相較于基線模型在ROUGE（recall-oriented understudy for gisting evaluation）指標上的性能有較大提升。同時，子方面拓展后的SFExt也能抽取得到更準確的摘要。

1 相關工作

1.1 抽取式摘要

早期文摘領域研究人員主要關注無監督抽取式摘要（unsupervised extractive summarization），側重于從單個文檔或一組文檔中識別出有代表性的句子組成摘要。Lin 等人[13-14]首次將文摘任務與次模函數性質相關聯，從理論和實驗兩方面證明了貪心算法可以近似最優地求解預算次模極大值問題。Tixier 等人[15]改進了文獻[13]的覆蓋度項，并為單詞分配有意義的分數。Mihalcea 等人[16]提出基于TextRank 的自然語言文本圖的排序模型，并將其應用到關鍵詞抽取（keywords extraction）、句子抽取（sentence extraction）任務中。TextRank 是一種性能優越的無監督算法，本文在SFExt 中引入準確性子方面時應用了該算法。Erkan 等人[17]提出基于特征向量中心性概念的句子重要性計算方法LexPageRank，通過構造句子連接矩陣實現句子抽取。Sripada 等人[18]提出KL 算法，通過衡量摘要概率分布與原始文檔概率分布之間的KL散度（Kullback-Leibler divergence）選取句子。Gong等人[19]使用淺層語義分析（latent semantic analysis，LSA）描述詞與詞之間的潛在共現關系從而進行摘要。Tsarev 等人[20]提出一種利用非負矩陣因子分解（nonnegative matrix factorization，NMF）來估計句子相關性的泛型文本摘要方法。與TextRank、LexPageRank、KL、LSA、NMF 相比，SFExt 性能更優且直接對摘要所蘊含的信息量以及句子間冗余建模，保證抽取的句子是準確且冗余較低的。本文使用SFExt 作為第一階段的基礎模型。

近年來，大量研究工作應用神經網絡實現抽取式摘要，通常表現為有監督學習（supervised learning）的形式。部分研究人員重新關注無監督抽取式摘要，Zheng 等人[21]建立了有向邊圖，認為任意兩個節點對各自中心性的貢獻受到它們在文檔中的相對位置的影響。Dong 等人[22]基于語篇結構的位置信息和層次信息來增強文檔圖的層次性和方向性。

1.2 生成式摘要

由于深度學習（deep learning，DL）的快速發展，許多基于Seq2Seq 的生成式摘要模型被提出。Rush等人[23]首次將Seq2Seq 模型應用于文摘任務，并引入注意力機制（attention mechanism）[24]。Nallapati等人[25]進一步拓展了基于RNN 的生成式摘要模型。Vinyals等人[26]提出指針網絡（pointer network）。Gu 等人[27]結合Seq2Seq 模型與指針網絡提出CopyNet，將解碼器中固定規模的詞典推廣到動態規模。同時，Gulcehre等人[28]也成功應用了指針網絡。上述研究人員提出的模型通過生成單詞序列一定程度上解決了生成式摘要任務，但是還存在重復生成、摘要準確性低的問題。

與機器翻譯（machine translation，MT）任務不同，摘要數據集中原始文檔長度相較于參考摘要（ground truth eference summary）更長，導致Seq2Seq 模型與CopyNet 無法對兩者進行對齊（align），從而出現生成冗余單詞或句子的現象[29]。Tu 等人[29]維護一個覆蓋度向量（coverage vector）一定程度上解決了該問題。See等人[11]結合文獻[25]、文獻[27]、文獻[29]提出指針生成器網絡（pointer generator network），本文第二階段的PGAbs與之類似。

部分研究工作通過融合多源信息提高摘要模型的生成能力。Guo 等人[30]提出多層編碼器-解碼器架構，引入文本蘊含、問題生成任務提高模型的生成能力。Zhu 等人[31]建議使用翻譯任務提高摘要模型的語言學習能力。Mishra 等人[32]在模型中學習詞性和句法信息來提高摘要模型預測文檔情緒的能力。Zhu 等人[33-34]提出基于指針生成器網絡的多模態生成式摘要模型。與上述工作不同，本文沒有引入外部知識，而是通過輸入更準確的文檔表示來提高摘要模型的生成性能。

個別研究人員通過對原始文檔重要信息的識別來提高生成摘要的準確性。Gehrmann 等人[12]通過判斷原始文檔中的關鍵詞是否包含在摘要中來提高摘要的準確性，本文在SFExt 中引入的準確性子方面同樣來源于關鍵詞的識別。

針對長文檔摘要，Celikyilmaz 等人[35]將編碼器劃分為多個協作編碼器，每個協作編碼器單獨編碼一段文本，從而避免LSTM、GRU對長文檔編碼性能較弱的問題。與文獻[35]不同，本文首先在長文檔中抽取出重要句子，并對這些重要句組成的文檔進行編碼。Transformer[36]對長文檔的編碼能力、并行處理能力相較于LSTM、GRU更強，該模型逐漸被應用在文摘領域。

2 兩階段長文檔摘要模型

2.1 總體架構

兩階段長文檔摘要模型SFExt-PGAbs 獲取摘要時，首先使用SFExt 獲取長文檔的過渡文檔（transitional document），過渡文檔的序列長度處于原始文檔與參考摘要之間，保留了大部分原始文檔的重要信息。隨后，PGAbs 接收過渡文檔進行編碼（encode）、解碼（decode）、生成長文檔對應的摘要。圖1 所示為SFExt-PGAbs總體架構。

與截斷文檔（truncated document）相比，過渡文檔更加準確地闡述了原始長文檔的中心思想（沒有損失長文檔中后部句子重要信息且冗余較低），從而提高PGAbs的生成性能。

與全文檔（full document）相比，過渡文檔的訓練時間大幅減少，并且其較短的性質避免了“長距離依賴”問題的產生，使PGAbs對其編碼性能更強。

Fig.1 Overall structure of SFExt-PGAbs圖1 SFExt-PGAbs總體架構

2.2 第一階段：SFExt

2.2.1 次模函數性質

次模函數（submodular function，SF）最初由邊際效益遞減（diminishing marginal utility）現象演變而來，是一個集合函數，隨著向集合中不斷添加元素，函數增量的差異逐漸減小[13]。

給定集合函數f:2V→R，將有限集V的一個子集S?V映射為一個實數。若對于任意S,T?V，滿足：

則稱f(·)為次模函數。從邊際效益遞減的角度考慮，次模函數的另一種等價定義為：若對于任意的R?S?V，且有s∈VS，滿足：

則稱f(·)為次模函數。

式（2）指出，當集合愈來愈大，s的價值將逐漸減小，這與抽取式摘要的思想是極為契合的。在摘要過程中，總是先選擇當前價值最高的句子進入集合。

2.2.2 抽取式摘要任務轉化

抽取式摘要任務可以形式化為一個預算約束（budget constraint）下的次模函數最大化的問題[13]：

其中，V表示原始文檔中所有句子的集合；S(S?V)表示從V中提取出的摘要句子集合；csi為非負實數，表示摘要句子si對應的代價（cost）；B表示預算約束，即所有選中的摘要句子對應的代價和不能超過B；次模函數f(·)對摘要質量進行打分。在抽取式摘要中，預算約束B是天然存在的，通常設定為摘要長度限制、摘要句數量限制。

2.2.3 目標次模函數設計

本文結合文獻[14]定義的覆蓋度項和文獻[13]定義的冗余項來闡述覆蓋性和冗余性這兩個子方面，目標次模函數f(·)建模為：

f(·)展開公式為：

式（4）中L(S)表示從原始文檔D={s1,s2,…,sn}中選取的摘要句子集合S的覆蓋度項，被解釋為度量摘要集S與原始文檔D相似性的集合函數，R(S)表示S的冗余項，避免冗余的句子進入摘要句子集合S，λ≥0 為權衡系數。

式（5）中Ci:2V→R 是一個次模函數，表示摘要句子集合S與句子si的相似度，Ci(V)是Ci(S)所能達到的最大值，因為S?V。0 ≤α≤1 表示閾值系數，當α設置為1 時，式（5）衰減為式（6）。

式（6）～（9）中wi,j表示句子對(si,sj)的向量表示(vi,vj)之間的余弦相似度（cosine similarity）。本文沒有使用預訓練詞向量（pre-training word vector），而是計算句子的TF-ISF（term frequency-inverse sentence frequency）向量表示。

式（3）所描述的目標次模函數f(·)的最大化是一個NP-hard 問題，使用貪心算法依次尋找使得目標增益函數F(·) 最大的句子在最差的條件下可以達到(1-1/e)f(Sopt)（f(Sopt)表示最優解）的解[13]，F(·)定義如下：

結合式（4）有如下等價定義：

式（12）中f(·)表示目標次模函數，S表示已選摘要句子集合，si表示貪心算法中參與計算的句子，為si的單詞數，表示長度懲罰（length penalty）項，r＞0 為比例因子。

2.2.4 位置重要性子方面融合

式（13）建立的目標增益函數只考慮覆蓋性和冗余性，不足以代表數據集的原始整體特征。文獻[10]指出，在大量摘要數據集中，句子在原始文檔中的位置是常見的偏見。雖然數據集的偏見為直接截斷提供了理論依據，但是截斷獲取的文檔頭部信息并不能完全替代文檔中后部句子蘊含的重要信息。

受文獻[10]對摘要數據集偏見分析的啟發，本文在SFExt中引入位置重要性子方面。給定原始文檔D={s1,s2,…,sn}，對每個句子si分配重要性度量（importance measure）ωi，ωi計算公式為：

式（16）是以e 為常數的指數函數，當x∈(0,1)時，E(x)展現出非線性下降趨勢的性質。|D|為原始文檔句子數量，表示句子si-1和si在D中相對位置的中值點。

本文對{ω1,ω2,…,ωn}進行等比縮放（ωn設定為1）后將ωi與式（13）中覆蓋度增量Fl(S,si)進行乘積實現子方面的融合。式（13）改進為：

其中，ωi為si分配得到重要性度量。

為平衡位置重要性與覆蓋性兩個子方面，防止引入的重要性度量帶來過擬合問題，本文設置了位置偏置權重（position bias weight）參數β：

其中，β用來減小或者增大ωi對覆蓋度增量的影響，可根據數據集的性質進行調整。相較于式（13），應用式（19）的SFExt 能夠提高抽取出處于重要位置句子的可能性。

圖2 為只包含5 個句子的D={s1,s2,s3,s4,s5}分配得到經過等比縮放的{ω1,ω2,ω3,ω4,ω5}的取值，并且展示了β的取值對ω的整體影響。

Fig.2 Importance measure distribution圖2 重要性度量分布

圖2顯示，當β=0 時，?i∈{1,2,3,4,5}，都有ωi=1.0，則式（19）衰減為式（13），表示不引入位置重要性子方面。同時，以β=0 為界限，β越趨向于+∞，則SFExt更傾向于抽取文檔頭部信息；反之，則SFExt更傾向于抽取文檔中后部句子信息。通常，本文建議設置-1.0 ＜β＜1.0。

本文分析后認為，融合位置重要性子方面的SFExt抽取出的句子同時滿足以下性質：

（1）處于文檔重要位置；

（2）處于文檔非重要位置但包含突出信息；

（3）句子間冗余較低。

2.2.5 準確性子方面融合

文獻[37]指出，關鍵詞構成了句子的主體，是重要的句子選擇指標，摘要撰寫者傾向于關注包含關鍵詞的句子以確保摘要的準確性。本文分析后認為，關鍵詞和摘要都能在一定程度上反映原始文檔的中心思想，只是使用了單詞和句子兩種不同粒度的表示方式，關鍵詞是摘要更為抽象的表示，兩者之間可以互相彌補信息缺失的問題。

本文在SFExt 中引入準確性子方面確保抽取出的句子包含更多的關鍵詞。給定原始文檔D={s1,s2,…,sn}，使用TextRank[16]算法獲取關鍵詞k以及對應關鍵詞權重g：

其中，TR表示TextRank 算法，M表示在文檔D中抽取出的關鍵詞總數。g的值反映k對于D的重要程度，g越高則對應k越重要。

式（21）中I為一個函數，表示獲取句子si包含所有關鍵詞k的索引，U為關鍵詞索引集合。式（22）計算關鍵詞索引對應權重的和。

準確性子方面融合后式（19）改進為：

同樣，為防止過擬合以及適應不同數據集，本文設置了關鍵詞影響程度（keywords influence degree）參數ρ：

其中，ρ用來減小或者增大γi對目標增益函數的影響，ρ=0 時，式（24）衰減為式（19），表示不引入準確性子方面。通常，本文建議設置0 ＜ρ＜1。相較于式（19），應用式（24）的SFExt 能夠進一步獲得更準確的過渡文檔或摘要。

2.2.6 貪心算法

本文設計了引入雅卡爾指數的貪心算法進一步過濾冗余句。

算法1最大化目標增益函數F(·)獲取過渡文檔或摘要的貪心算法

算法1 中，步驟3 表示找到使F(S,si)最大的句子sk，F(S,si) 可以選擇式（13）、式（19）、式（24），不同F(S,si)引入不同參數α,λ,r,β,ρ。步驟4～5 表示若句子sk與S中任意一句話冗余或增量小于等于0，則轉到步驟2 進行下一輪循環。步驟7～9 表示在不超過預算約束B的情況下將sk添加進S，并在D中將sk刪除。預算約束B值的大小決定S中句子序列總長度，返回的S即為過渡文檔或摘要句子集合。

其中，式（25）計算句子間單詞交集，式（26）中|·|計算集合中單詞數量，若Jac(sk,sj)大于冗余閾值δ，則表示句子對(sk,sj) 之間冗余。通常，本文建議設置δ∈{0.65,0.75}。

2.3 第二階段：PGAbs

2.3.1 編碼器

循環神經網絡能夠很好地處理時間序列數據，本文使用Bi-LSTM（bi-directional long short-term memory）和Bi-GRU（bi-directional gated recurrent unit）作為PGAbs的編碼器（encoder）。相較于單向LSTM 和單向GRU，雙向特征提取器能夠更好地捕捉雙向語義依賴。

Fig.3 Pointer generator for abstractive summarization圖3 指針生成器生成式摘要

Bi-LSTM 前向傳播公式：

在式（27）～（30）中，E[wt]表示單詞wt的詞嵌入（word embedding）；t表示時刻；ht表示當前時刻隱藏狀態（hidden state）；ct表示當前時刻細胞狀態（cell state）。在邏輯架構中，GRU 舍棄了細胞狀態c，將隱藏狀態h直接傳遞給下一個編碼單元。

2.3.2 解碼器

PGAbs解碼器（decoder）[11]在傳統Seq2Seq模型中混合了注意力機制、復制機制（copy mechanism）、覆蓋度機制（coverage mechanism），生成的單詞選擇性來源于輸入文檔或詞匯表，一定程度上解決了集外詞（out of vocabulary，OOV）問題和重復生成相同單詞的問題，本文使用PGAbs解碼器作為摘要生成器。

圖3 框外為解碼器架構，本文使用單向LSTM 和單向GRU 作為解碼器的基本邏輯單元。在時刻t，LSTM 或GRU 單元接收t-1 時刻預測輸出單詞（predicted output word）yt-1得到當前解碼器狀態（current decoder state）st。

t=0 時刻初始化解碼器狀態s0為：

其中，Wd為可學習參數，tanh 為非線性函數。

注意力機制計算注意力分數（attention scores）、注意力分布（attention distribution）at獲取上下文向量（context vector）ct：

其中，v、Wh、Ws為可學習參數，注意力分布at可解釋為輸入文檔單詞的概率分布。

其中，covt表示t時刻前所有注意力分布ai的和，可解釋為t時刻前單詞被覆蓋的程度。覆蓋度機制通過回顧t時刻前的注意力機制避免重復注意相同的位置從而緩解重復生成的問題。

復制機制定義一個pg控制t時刻生成單詞的來源，pg由當前解碼器狀態st、yt-1的詞嵌入E[yt-1]、上下文向量ct決定：

其中，Wc、Ws、We為可學習參數，σ表示sigmoid函數。

詞匯表概率分布Pfinal為：

其中，pg表示從詞匯表Pvocab中生成單詞的概率，(1-pg)表示從注意力分布at i中復制輸入文檔單詞的概率。V*、V、b、b*為可學習的參數。復制機制通過拷貝部分輸入文檔的單詞生成摘要，緩解了集外詞問題。

2.3.3 訓練與推理

給定輸入文檔與參考摘要，訓練期間，使用導師驅動（teacher forcing）過程，解碼器的輸入為參考摘要單詞而非前一時刻解碼器輸出，通過最小化損失函數訓練模型參數。

不引入覆蓋度機制的PGAbs 在t時刻損失函數定義為目標單詞（target word）的負對數似然損失：

引入覆蓋度機制的PGAbs 在t時刻損失函數定義為復合損失函數：

測試期間，解碼器首先接收單詞“”，隨后在每一時間步的輸入單詞為前一時刻的輸出單詞，直到生成“”或達到摘要限制長度停止。同時，本文在摘要生成過程中使用集束搜索（beam search）得到Top-B個最高概率的單詞序列。

3 實驗及結果分析

3.1 實驗設置

本文實現了12 種摘要模型，其中，PGAbs 使用深度學習框架PyTorch 實現。各個模型基本架構及組件如表1 所示。表中，c、r、p、a 分別表示在SFExt中引入覆蓋性（coverage）、冗余性（redundancy）、位置重要性（positional importance）、準確性（accuracy）子方面。LSTM、GRU 表示PGAbs 中應用的循環神經網絡單元類型。copy、coverage 分別表示使用復制機制、覆蓋度機制。

SFExt 參數設置如表2 所示。表中，|D|表示文檔句子數量。僅使用SFExt 獲取摘要時，B設置為120，使用SFExt 獲取過渡文檔時，B設置為400。B值的設定取決于數據集的性質，本文將在3.2 節中介紹使用的數據集并對其做全方位的統計數據分析。

Table 1 Basic architecture and components table of each model表1 各個模型基本架構及組件表

Table 2 SFExt parameters table表2 SFExt參數表

PGAbs參數設置如表3 所示。本文使用Adagrad[38]優化器對PGAbs 的參數進行優化，表3中學習率與累加器參數與Adagrad 優化器相關。所有PGAbs 均在GeForce GTX TITAN X 12 GB顯存GPU上訓練及測試。

3.2 數據集及統計數據分析

3.2.1 數據集

本文使用CNNDM[39]（CNN/Daily Mail）作為實驗數據集。CNNDM 是摘要領域的基準數據集，其中，原始文檔來源于新聞文本，參考摘要來源于人工撰寫，包含訓練集287 226 對、測試集11 490 對、驗證集13 368 對。

Table 3 PGAbs parameters table表3 PGAbs參數表

3.2.2 統計數據分析

本文對CNNDM 預處理后過濾掉部分原始數據，表4 為統計的CNNDM 原始文檔基本信息。

Table 4 CNNDM original documents data statistics table表4 CNNDM 原始文檔數據統計表

表4 顯示，CNNDM 原始文檔平均詞數為775.53，屬于長文檔摘要數據集。本文遵循文獻[11]的設置，在僅使用PGAbs 獲取摘要時，對原始文檔截斷至400個單詞以保證編碼性能和訓練速度。在使用SFExt-PGAbs獲取摘要時制定如下處理策略：

（1）小于400 詞的原始文檔，保留全文后使用PGAbs訓練與測試；

（2）介于400 詞至500 詞之間的原始文檔，截斷保留400 個單詞后使用PGAbs訓練與測試；

（3）大于500詞的原始文檔，使用SFExt獲取預算約束B=400 的過渡文檔后使用PGAbs訓練與測試。

本文統計CNNDM 三種長度分布的原始文檔數量來展現使用制定處理策略時需要被SFExt 處理的文檔比例。統計結果如表5 所示，本文在實驗中沒有使用驗證集。

Table 5 The number of original documents in three length distributions of CNNDM表5 CNNDM 三種長度分布的原始文檔數量

表5 顯示，在使用SFExt-PGAbs 獲取摘要時，訓練期間，訓練集中75.60%的原始文檔需要獲取其過渡文檔；測試期間，測試集中72.04%的原始文檔需要獲取其過渡文檔。

本文將CNNDM 原始文檔均等劃分為6 個域，統計截斷操作、制定處理策略獲取的截斷文檔、過渡文檔的句子在原始文檔中的總體分布，更清晰地展示SFExt的作用。表6 為總體分布統計結果。

表6 顯示，制定處理策略得到的過渡文檔相較于截斷操作保留了長文檔中后部位置的重要句子信息，后3 個域中句子數量更多。值得注意的是，制定處理策略得到的過渡文檔句子總數相對較少，這是SFExt 傾向于抽取長句子導致的（通常長句子包含更豐富的信息）。

Table 6 CNNDM population distribution表6 CNNDM 總體分布表

3.3 結果分析

3.3.1 評價指標

本文使用文摘領域基準評價指標ROUGE[40]測評待測摘要（模型抽取或生成的摘要）的質量。其中，ROUGE-N（包括ROUGE-1、ROUGE-2）和ROUGE-L為重要指標。

ROUGE-N 計算公式如下：

其中，n為n-gram 長度，{RS}為參考摘要，Countmatch(gramn)為待測摘要與參考摘要之間相同的n-gram 數量，Count(gramn)為參考摘要中n-gram 數量。

ROUGE-L 計算公式如下：

其中，LCS(X,Y)為待測摘要與參考摘要的最長公共子序列長度，m為參考摘要長度。

3.3.2 基線模型

本文引用5 篇相關文獻在CNNDM 測試集上報告的測試結果以及實現兩種基于Transformer[36]架構的生成式摘要模型與表1中模型進行對比，具體如下：

SummaRuNNer：Nallapati 等人[6]在AAAI 2017 公開發表的一種有監督抽取式摘要方法。該模型通過對句子的內容、顯著信息、偏置項等進行建模并抽取句子，是2017 年抽取式摘要的state-of-the-art。

Graph-Based Attention：Tan 等人[7]在ACL 2017 公開發表的一種引入Graph-Based Attention 機制的Seq2Seq 模型，提高了對句子顯著性的適應能力。

Intra-Attention（ML）：Paulus 等人[41]在ICLR 2018公開發表的一種引入Intra-Temporal Attention 機制的有監督生成式摘要模型。該模型對文檔中獲得較高權重的詞進行懲罰，防止解碼過程中再次賦予該詞高權重。

Intra-Attention（MLRL）：在Intra-Attention（ML）的基礎上集成強化學習（reinforcement learning）。通過將模型預測的單詞以及對應樣本與參考摘要單詞計算的ROUGE 指標作為獎勵，同時根據獎勵更新模型參數。該模型是2018年生成式摘要的state-of-the-art。

Key Information Guide Network：Li 等人[42]在NAACL 2018 公開發表的一種通過關鍵詞指導摘要生成的模型。

PACSUM：Zheng 等人[21]在ACL 2019 公開發表的一種基于位置增強的無監督抽取式摘要方法。

Transformer（copy）：本文實現的在基礎Transformer[36]架構上引入復制機制的生成式摘要模型。編碼器與解碼器各4 層，詞嵌入維度512，隱藏層維度512，前饋層維度1 024，多頭自注意力機制（multi-head selfattention）設置為8，dropout 設置為0.2，長度懲罰項（length penalty）參數設置為0.9，標簽平滑（label smoothing）參數設置為0.1。

Transformer（copycoverage）：本文實現的在Transformer（copy）基礎上引入覆蓋度懲罰項的生成式摘要模型。

3.3.3 主要結果

本文使用files2rouge 包測評所有SFExt、PGAbs、SFExt-PGAbs、Transformer 獲取的待測摘要在95%置信區間的ROUGE標準F1評分。測試文本為CNNDM測試集（11 489 對原始文檔與參考摘要），表7 所示為對比結果。

表7 結果顯示，本文實現的SFExt-PGAbs(c paLSTMcopycoverage）在ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-SU4 指標上相較于基線模型擁有最佳的摘要性能。

對比表7 中4 種SFExt 模型，融合位置重要性子方面的SFExt（c p,B=120）相比SFExt（c ,B=120）在ROUGE 指標上分別提高了2.96、2.75、1.89、2.88、2.18 個百分點，融合準確性子方面的SFExt（c a,B=120）相比SFExt（c ,B=120）在各個ROUGE 指標上的提升約為0.20 個百分點。SFExt（c pa,B=120）達到了所有SFExt 的最佳性能，抽取出的摘要更能反映原始文檔的中心思想。

對比表7 中SFExt 與其他模型，無監督抽取式摘要模型SFExt（c pa，B=120）摘要性能超過了有監督生成式摘要模型Graph-Based Attention、Intra-Attention（ML）、不帶覆蓋度機制的PGAbs 與SFExt-PGAbs、Transformer（copy）。同時，SFExt（c pa,B=120）摘要性能與同為無監督抽取式方法的PACSUM 相當，證明了子方面融合的有效性。

對比表7 中4 種PGAbs 模型，覆蓋度機制的引入會極大地影響模型的生成性能。LSTM 作為特征提取器單元的生成性能略高于GRU，本文認為這是由于LSTM 的編碼性能較強導致的。同樣，對比表7 中4 種SFExt-PGAbs模型可得到相同的結論。

對比表7 中PGAbs 與SFExt-PGAbs，當PGAbs 配置相同的組件時，SFExt-PGAbs 生成的摘要在保證流暢性的前提下，同時提高了摘要的準確性，證明了兩階段長文檔摘要模型的有效性。其中，SFExt-PGAbs（c paLSTMcopycoverage）相比模型PGAbs（LSTMcopycoverage）在ROUGE 指標上分別提高0.57、0.16、0.02、0.33、0.17 個百分點。

Table 7 ROUGE evaluation table(11 489 pairs of test data)表7 ROUGE 測評表（11 489 對測試數據）%

Table 8 ROUGE evaluation table(1754 pairs of test data)表8 ROUGE 測評表（1 754 對測試數據）%

Table 9 ROUGE evaluation table(2102 pairs of test data)表9 ROUGE 測評表（2 102 對測試數據）%

本文對測試集按長度屬性進行劃分，得到原始文檔長度在800～1 000 單詞之間的數據集（1 754 對測試數據）、1 000～1 500 單詞之間的數據集（2 102 對測試數據）、1 500 單詞以上的數據集（765 對測試數據），并使用PGAbs、SFExt-PGAbs、Transformer 對上述3 個測試子集進行測試。

表8所示為在800～1000單詞原始文檔上的測評結果。

表9 所示為在1 000～1 500 單詞原始文檔上的測評結果。

表10 所示為在超過1 500 單詞原始文檔上的測評結果。

Table 10 ROUGE evaluation table(765 pairs of test data)表10 ROUGE 測評表（765 對測試數據）%

Table 11 Summaries case study table表11 摘要樣例對比表

表8～表10 結果顯示，針對長文檔摘要，SFExt-PGAbs 的摘要性能遠強于PGAbs，其主要原因是在訓練和測試期間，過渡文檔保留了長文檔中后部句子重要信息，一定程度上解決了信息缺失問題。同時，當文檔越長時，SFExt-PGAbs 相對于PGAbs 的性能提升逐步降低，這與本文預期是一致的，越長的文檔獲取其高質量摘要的難度越高，導致其性能提升的難度隨之增高。

Transformer 相較PGAbs 對長文檔的摘要性能更強，本文認為這是由于位置編碼（positional encoding）與自注意力機制（self-attention）帶來的優勢所導致的。

3.3.4 樣例分析

本文通過樣例分析進一步驗證SFExt-PGAbs 能夠生成流暢且更準確的摘要，表11 所示為摘要樣例對比表。

表11 結果顯示，PGAbs 沒有捕捉到文章重點內容，僅闡述了“物品被盜”及“警方發現車”等無關內容。Transformer 捕捉到了部分文章重點，包括“西蒙·米切爾偷走了昂貴的設備”等，但是第二句話存在事實錯誤，將“慈善機構”幫助對象錯誤地認為是盜竊者。SFExt-PGAbs 生成的摘要基本囊括參考摘要描述的所有基本事實（表中加粗段落）。

4 結束語

本文提出一種兩階段長文檔摘要模型，通過結合抽取式方法與生成式方法來解決長文檔摘要問題，實驗結果證明了該模型的有效性。同時，本文在傳統SFExt中拓展出位置重要性、準確性子方面，建立新的目標增益函數，相較于傳統SFExt 性能更優，應用更靈活。本文分析后認為，對于抽取式摘要，如何識別數據集的特征是極為關鍵的，對于生成式摘要，如何獲取更多的編碼信息是影響摘要質量的關鍵因素。

本文未來工作主要關注如何提高生成式摘要模型的編碼能力。通過構建大量回翻（back-translation）數據集對編碼器進行預訓練（pre-training），或直接將回翻任務納入多任務學習[43]體系，進一步提升摘要模型的語言學習能力，從而生成質量更高的摘要。