翁裕源,許柏炎,蔡瑞初
(廣東工業大學計算機學院,廣東 廣州 510006)
近年來,用戶對從海量文本數據中挖掘重要信息的需求增大,使得文檔摘要技術備受工業界和學術界的關注。文檔摘要提取的目標是對給定文檔進行重要信息提取,根據輸入的不同,文檔摘要提取可分為單文檔摘要提取、長文檔摘要提取和多文檔摘要提取。多文檔摘要提取需要在多個文檔中對共同主題的信息進行提取,對比單文檔、長文檔摘要提取,其在完整性、可讀性和簡潔性方面有更高的要求。根據摘要提取建模方式的不同,文檔摘要提取可分為生成式摘要提取和抽取式摘要提取。生成式摘要提取是對輸入文檔整體理解后逐字生成摘要,抽取式摘要提取則直接從文檔中選擇關鍵信息組成摘要。相比于生成式摘要提取,抽取式摘要提取選擇原文關鍵語句,具備更高的完整性和可讀性,其目標是在減少摘要冗余度的同時提高簡潔性[1-3]。本文主要研究如何解決抽取式多文檔摘要中的關鍵冗余問題。
主流抽取式多文檔摘要研究大多在句子級別進行建模。文獻[4]通過句子間余弦相似度構建句子相似圖,以計算句子的重要性,選擇句子組成摘要。文獻[5]關注句子間的語篇關系和基于TF-IDF(The Term Frequency-Inverse Document Frequency)的相關性,通過構建3 種句子關系圖并用圖卷積網絡學習句子表示以識別重要句子。文獻[6]借助共有單詞構建句子間關系,最終篩選出重要句子組成摘要。上述工作通過建模句子間的關系來有效選擇重要句子,在多文檔摘要提取中取得了較好的效果,然而這些工作的建模方式導致了簡潔性上的性能瓶頸。句子層級建模方式組成的摘要不僅包含關鍵信息,還包含多余的信息。
近年來,為了突破基于句子層級建模的性能瓶頸,有單文檔摘要抽取相關學者嘗試研究細粒度的子句層級建模方式,以完成文檔摘要抽取任務。子句是基于修辭結構理論[7]對文檔進行分割而得到的,將文檔中的句子分割為相鄰的不重疊的基本語篇單元。文獻[8]通過在單文檔摘要數據集上的實驗分析,證明采用子句層級建模的性能上限更高。文獻[9]首次以子句為抽取單元構建端到端的單文檔摘要模型,引入子句間的語篇關系和共指關系構建子句關系圖,進一步通過圖卷積網絡[10]進行學習。由于多文檔摘要抽取場景和單文檔摘要抽取場景存在差異,因此基于細粒度子句層級建模的多文檔摘要抽取存在以下未解決的問題:1)多文檔摘要抽取從子句級別建模,是否能達到與單文檔摘要抽取相同的性能提升;2)多文檔摘要抽取需要考慮多個文檔的共有重要信息,如何考慮更多層級異構關系學習存在挑戰性。
為了驗證問題1),本文參考文獻[8]的工作,在多文檔摘要數據集Multi-news 上對比句子層級Oracle 摘要和子句層級Oracle 摘要與標準摘要的ROUGE 值,其中,Oracle 摘要由文獻[11]提出的基于自動評估標準ROUGE[12]進行貪心抽取而得到。統計后得到結論:通過子句層級建模最高可以提升5%的ROUGE-1 指標。本文對句子層級摘要進行語篇分割,分析句子層級摘要和子句層級摘要,發現選擇子句組成摘要可以丟棄句子內部多余的細節信息,保留更多核心概念或者事件,從而得到更簡潔和信息更豐富的摘要。
為了解決問題2)中的異構關系學習挑戰,本文提出一種基于異構圖分層學習的細粒度多文檔摘要抽取框架。該框架通過層次化構建單詞層級圖和子句層級圖,分別建模子句的語義關系和子句間的多種結構關系。進一步通過單詞層級圖學習層和子句層級圖學習層,層次化地學習上述2 個異構圖。2 個學習層基于圖注意神經網絡,分別針對異構圖關系特性設計2 種不同的層次更新機制。單詞層級圖學習層的層次更新機制是基于文獻[6]的工作應用到子句層級。在子句層級圖學習層中,本文提出子句層次更新機制,分別對子句層次圖的3 種結構關系進行學習更新,然后通過聚合函數得到子句結構化表示。最后,把獲得的表示輸入到子句選擇層中以預測抽取目標摘要。本文的主要工作包括如下三點:
1)針對句子級別的多文檔摘要抽取問題,本文通過實驗驗證子句建模的有效性,進一步提出異構圖分層學習的細粒度多文檔摘要抽取框架,有效建模單詞、子句、文檔之間的多層級異構關系。
2)多文檔摘要抽取框架基于層次更新的思想,提出2 個層級學習層和層次更新機制,學習多文檔摘要抽取的多種結構關系,降低圖神經網絡在學習復雜異構圖時的難度。
3)在多文檔摘要數據集Multi-news 上進行實驗,驗證該框架以及各個模塊的有效性。
圖結構方法廣泛應用于多文檔摘要任務,以文本單元為節點、以它們之間的語義關系為邊的圖結構方法能夠很好地建模文本單元之間的關系,對整個文本的信息進行排序,選擇最突出的內容作為摘要。很多研究工作都是在句子層級進行建模,對句子進行重要性排序。
LexRank[4]引入一種基于句子詞匯的相似圖方法,以計算文本單元的相對重要性。文獻[13]考慮到文檔信息的重要性,進一步將文檔級信息和句子到文檔的關系納入基于圖的排序過程中。文獻[5]將GCN 應用于從RNN 獲得的含有句子嵌入的關系圖中。文獻[14]提出一種基于圖的神經句子排序模型,該模型利用實體鏈接圖來捕獲句子之間的全局依賴性。文獻[6]構建一個異構圖網絡進行摘要抽取,在句子級節點的基礎上引入單詞節點作為句子節點的中介,以豐富句子間的關系。文獻[15]將文本多維度特征的融合問題轉化為圖集成方式,提高了句子間相似度計算的準確性,并在此基礎上生成文本摘要。文獻[16]借助預訓練模型和余弦相似度創建句子間的邊連接關系,提出基于關鍵詞密度的句子評分方法以提取摘要。文獻[17]提出一種基于多粒度語義交互的抽取式摘要方法,將多粒度語義交互網絡與最大邊界相關法相結合,捕獲不同粒度的關鍵信息,保證摘要信息的完整性。文獻[18]提出融合多信息句子圖模型,將句子間的主題信息、語義信息和關系信息融入句子表示中,從而選擇出重要的句子。文獻[19]將原始文本轉化為相應的抽象語義表示(AMR)圖,利用綜合統計特征對不具有權值的AMR 圖節點賦予權值,篩選重要的部分構成語義摘要子圖。
上述抽取式方法都是在句子層級構圖來建模輸入文檔的結構,對句子進行重要性排序。與上述方法不同,本文模型以子句為建模單位,在多個層級建模子句間的依賴關系,對子句進行重要性排序。
有效選擇重要內容同時提升摘要的簡潔性,一直是抽取式文檔摘要任務的難點。
一些工作致力于平衡句子的顯著性和冗余性,如文獻[20]將摘要抽取定義為語義匹配問題,通過匹配候選摘要的語義與標準摘要的語義來選擇顯著性高且冗余性低的句子子集以組成摘要。文獻[21]建模句子間的冗余依賴性,指導冗余信息在句子表示之間的傳播,學習不帶冗余信息的句子表示,抽取出冗余度低的句子集合。文獻[22]引入強化學習來考慮抽取摘要的語義,將最大似然交叉熵損失與政策梯度的獎勵相結合,直接優化摘要任務的評價指標。上述方法在摘要級別提升簡潔性,只能減少具有重復信息的句子,無法減少句子內部的不必要信息。
一些工作通過重寫或者壓縮候選句子來丟棄候選句子中的不必要信息。文獻[23]提出包含刪除等離散操作的句子壓縮模型。文獻[24]提出一種基于樹結構修剪的兩階段神經網絡模型用于選擇和壓縮句子,但2 個階段之間不可避免地存在分離。
與上述方法不同,本文在子句級別提升摘要的簡潔性,以子句作為抽取單元,相當于在選擇子句的同時變相對句子進行了壓縮,不存在2 個階段分離的問題,有效選擇重要內容同時去除句子中的不必要信息,從而提升摘要的簡潔性。
本文提出的基于異構圖分層學習的細粒度摘要抽取框架如圖1 所示,該框架包括如下層級:

圖1 基于異構圖分層學習的細粒度多文檔摘要抽取框架Fig.1 Fine-grained multi-document summarization extraction framework based on heterogeneous graph hierarchical learning
1)初始化編碼層。層次化構建單詞層級圖和子句層級圖,并對圖上節點進行編碼得到初始化節點表示。
2)單詞層級圖學習層。通過圖注意網絡的更新方式學習基于共有單詞的子句間的語義關系。
3)子句層級圖學習層。通過兩階段分步學習的更新方式學習子句層級的多種結構關系。
4)子句選擇層。對子句節點表示進行評分,以預測摘要的標簽。
首先對多文檔摘要抽取任務進行公式化定義:給定一個多文檔集合D={d1,d2,…,dk},共有k個文檔。本文通過文獻[25]提供的端到端神經分割器對多文檔集合D中的句子進行分割得到相鄰不重疊的子句集合S={s1,s2,…,sn},子句集合S包含的所有單詞可構成單詞集合W={w1,w2,…,wm}。為了提取若干子句組成摘要,本文將該任務設計為一個序列標記任務,目標是對子句集合S預測一個標簽序列Y={y1,y2,…,yn}(yi?(0,1)),yi=1表示第i個子句屬于候選摘要。
為了建模子句間的語義關系和多種結構關系,本文層次化地構建單詞層級圖Gword和子句層級圖Gsub-sent。其中,單詞層級圖Gword={Vword,Eword}以共有單詞為載體建模子句間的語義關系,Vword是由單詞、子句和文檔3 種粒度節點組成的節點集,Vword=Vw∪Vs∪Vd,其中,Vw={w1,w2,…,wm}對應多文檔集合中的m個單詞節點,Vs={s1,s2,…,sn}對應多文檔集合中的n個子句節點,Vd={d1,d2,…,dk}對應多文檔集合中的k個文檔節點。Eword是3 種粒度節點之間的邊集合,eij≠0 表示第i個節點和第j個節點之間存在邊。具體地,本文在單詞節點和其他粒度節點間構建語義連接,在子句節點和其包含的單詞節點間構建邊,在文檔節點和其包含的單詞節點間構建邊。在文本摘要中,尤其是新聞摘要中,核心概念(如關鍵人物或者事件)會貫穿整個摘要,多個摘要句通過關鍵人物或者事件進行交互構成完整的摘要。單詞節點和其他粒度節點的連接越多,表明該單詞在子句和文檔中出現的頻次越高。本文對詞頻top20 的單詞進行統計,如圖2 所示,單詞詞頻越高,屬于摘要句的概率越大,該單詞越可能是貫穿整個摘要的關鍵詞。

圖2 詞頻top20 的單詞屬于摘要句的概率統計Fig.2 Probability statistics of words with a frequency of top20 belonging to summary sentences
在構建完單詞層級圖后,在圖上3 種粒度節點進行交替更新的過程中,單詞節點作為其他粒度節點交互的載體,聚合其他粒度節點的信息并在新一輪迭代中把聚合信息傳遞給其他粒度節點,由此借助單詞節點完成其他粒度節點間的信息交流。但是,在單詞節點把聚合信息傳遞給其他粒度節點的過程中,僅憑單詞節點與其他粒度節點之間的邊,無法使得其他粒度節點有效篩選單詞節點中的聚合信息。而TF-IDF 可用于表示一個單詞對于一個文檔集合中一個子句或者一個文檔的重要程度,其中TF(The Term Frequency)是單詞在子句或文檔中出現的次數,IDF(Inverse Document Frequency)是單詞出度的逆函數。將TF-IDF 作為先驗邊權,可以在單詞節點從其他粒度節點中聚合信息和傳遞聚合信息給其他粒度節點的過程中,依然保留單詞節點與其他粒度節點先驗的重要性關系,使其他粒度節點有效篩選單詞節點中的聚合信息。因此,本文引入單詞節點和其他粒度節點的TF-IDF 值,把它映射到多維嵌入空間中并作為邊權E。
子句層級圖在子句節點間建模子句間的多種結構關系,Vsub-sent={s1,s2,…,sn}對應多文檔集合中的n個子句節點,Esub-sent是節點之間的邊集合。具體地,本文在子句節點間構建3 種結構關系,包括相鄰上下文關系(Neigh)、共指關系(Coref)和話語結構關系(RST)。其中:相鄰上下文關系Neigh 是指各個子句節點與它們的相鄰子句節點相連,從而保證相鄰子句節點的語義連貫性;在文本摘要尤其是新聞摘要中,關鍵人物或者事件往往貫穿全文,這種遠距離依賴關系往往容易被模型忽略,因此,本文使用開源的Standford Core 工具推理出文檔集中的所有共指引用聚類,對于每個共指引用聚類,同一聚類提及的子句節點都創建相連的邊來構建子句間的共指關系Coref;子句需要考慮一些限制以確保語法的正確性,本文利用文獻[26]提出的RST 話語解析器將輸入文檔解析為RST 話語樹,并通過文獻[9]提出的轉換方法把RST 話語樹轉換為子句間的RST 話語結構并構建邊,進一步補充子句節點的語法信息。
通過上述過程可以完成單詞層級圖和子句層級圖的構建,接下來將進行圖節點信息初始化。設節點特征矩陣集X={Xw∪Xs∪Xd},其中分別表 示單詞節點、子句節 點和文檔節點的特征矩陣,dw、ds和dd分別表示單詞特征向量、子句表示特征向量和文檔特征向量的維度大小。具體地,本文使用已訓練好的GloVe 嵌入作為單詞節點的初始特征矩陣卷積神經網絡(CNN)[27]可以通過不同卷積核的大小進行不同特征窗口的局部特征提取,雙向長短期記憶(BiLSTM)神經網絡[28]可以捕捉子句內部單詞間的位置序列關系從而得到子句級別的全局特征。因此,本文對子句節點分別使用CNN 和BiLSTM 進行內容和位置的編碼,使用不同核大小的CNN 捕捉每個子句的n-gram 局部特征l,使用BiLSTM 捕捉子句級別的全局特征g,拼接2 個特征得到子句節點的初始特征矩陣,充分考慮子句節點表示的內容信息和位置信息。然后對每個文檔包含的子句節點的特征進行平均池化,得到文檔節點的初始特征矩陣
完成單詞層級圖和子句層級圖的構建與初始化后,本節將對單詞層級圖Gword={Vword,Eword}進行節點更新。本文采用的單詞層級圖學習層的層次更新機制是將文獻[6]的工作應用到子句層級,利用圖注意神經網絡(GAT),借助共有單詞為載體學習子句間的語義關系,更新子句節點集的特征矩陣Xs,該層次的更新機制可表示為:
其中:3 個輸入Hq、Hk和Hv分別為查詢節點(query)特征矩陣、鍵節點(key)特征矩陣和值節點(value)特征矩陣,通常鍵表示等同于值表示。Hq、Hk和Hv均為單詞層級圖的節點特征矩陣集X。
在單詞節點與其他粒度節點的交互中,將不同子句或者文檔包含的同一單詞設置為同一單詞節點,同一單詞節點對其他不同粒度節點的重要性是不同的,而傳統圖注意網絡無法很好地在3 種粒度節點的交互過程中捕捉到相同單詞的不同重要性。
為了解決上述問題,本文對圖注意網絡模型進行改進,在3 種粒度節點的交互過程中引入單詞節點與其他粒度節點的TF-IDF 值,用于表示單詞節點對其他粒度節點的相對重要性,將TF-IDF 值映射為邊權向量,指導3 種粒度節點的表示學習。具體地,在計算單詞節點與其他粒度節點的注意力權重時,將TFIDF 邊權向量與鍵向量和查詢向量一起拼接后通過映射函數轉換為注意力權重,讓TF-IDF 邊權向量直接指導單詞節點和其他粒度節點間注意力權重的學習,進而使模型考慮到同一單詞節點對于其他不同粒度節點的相對重要性。具體計算公式如下:
其中:hi?Hq為查詢節點i的特征表示;hj?Hk為鍵節點j的特征表示;eij是節點i和節點j的邊權特征向量;Wa、Wq和Wk都是可 訓練的參數;LeakyReLU 是一種激活函數;aij表示節點i和節點j的注意力權重;ui表示K個注意力頭的結果;FFN 為2 個線性變換組成的位置前饋層是節點i的輸出特征表示。
基于上述改進的圖注意神經網絡,本文對單詞、子句和文檔3 種粒度節點進行統一的交替更新,以有效學習基于共有單詞的子句間的語義關系。更新順序如圖3 所示。

圖3 多粒度交互更新順序Fig.3 Multi-granularity interactive update order
單詞層級圖學習層對單詞、子句和文檔3 種粒度節點交替更新,以聚合了子句信息和文檔信息的單詞節點為載體,傳遞子句間的語義信息,從而有效學習基于共有單詞的子句間的語義關系。
除了在單詞層級圖學習層中學習子句間的語義關系,本文所提框架將進一步在子句層級圖Gsub-sent={Vsub-sent,Esub-sent}上學習子句的結構化表示。
由于本文在子句層級圖上引入了3 種結構關系Esub-sent,而傳統圖注意網絡GAT 無法同時有效學習多種結構關系,因此本文針對子句層級圖學習層設計一種兩階段分步學習的更新機制,以學習子句層級圖的多種結構關系并聚合多種結構信息,最終得到子句的結構化表示。具體地,第一階段對子句間的多種結構信息分別進行學習,學習子句節點集Vsub-sent關于3 種類型關系的特征向量Utype;第二階段對多種結構信息進行聚合,分別學習子句節點各種類型關系的權重SScore,type,并聚合3 種關系類型的特征向量Utype,最終得到子句的結構化表示2 個階段具體計算如下:
1)第一階段。
基于圖注意神經網絡GAT 分別學習子句節點3種關系的特征向量Utype,可表示為:
其中:3 個輸入Hq、Hk和Hv分別為查詢節點(query)特征向量、鍵節點(key)特征矩陣和值節點(value)特征矩陣,Hq、Hk和Hv是單詞層級子圖更新后的子句節點特征矩陣
具體地,由于不同類型關系包含的信息不同,本文將子句節點集Vsub-sent和其鄰居節點的3 種結構關系通過不同的線性映射函數映射到不同的邊類型向量空間中,對具有相同類型的邊類型鄰居節點映射到相同的邊類型向量空間中。由于子句節點對同種關系下的不同鄰居有不同重要性,因此本文使用點乘注意力機制學習該關系下不同鄰居節點的重要性,并聚合該關系下的不同鄰居節點得到該關系下子句節點的特征向量Utype。第一階段具體計算過程如下:
其中:hi?Hq為查詢節點i的特征向量;hj?Hk為鍵節點j的特征向量Wtype是可訓練參數;type ?{Neigh,Coref,RST};Wtype是將特 定關系 類型映射到對應向量空間的映射參數表示特定關系類型下節點i和鄰居節點j的注意力權重表示特定關系類型下鄰居節點j歸一化后的注意力權重;ui,type表示特定關系類型下子句節點i的語義表示。
2)第二階段。
基于加權平均的思想學習子句節點3 種語義表示Utype的權重SScore,type,并聚合子句節點的3 種關系語義表示Utype,得到最終的子句節點結構化表示
本文充分考慮子句節點集Vsub-sent對3 種類型關系中每個鄰居節點的重要性,通過將子句節點在同類型關系下的鄰居節點映射到對應的值向量空間中,利用tanh 激活函數和歸一化函數得到同類型關系下所有鄰居節點的初始注意力權重,接著采用平均池化方式得到子句節點在該關系類型下語義表示的最終注意力權重,并根據最終注意力權重聚合子句節點的3 種關系語義表示Utype。具體計算方式如下:
其中:Ws和是可訓練參數;tanh 是激活函數;MeanPooling 表示平均池化操作;sscore,i,type表示節點i的type 類型關系語義表示的注意力權重;是節點i在多種關系語義表示聚合后的表示;FFN 為2 個線性變換組成的位置前饋層是節點i的最終特征表示。
通過子句層級圖學習層,用兩階段分步學習的更新機制學習子句間的多種結構關系并聚合多種結構信息,得到最終的子句節點語義表示
為了驗證本文所提模型的有效性,在公開多文檔摘要數據集Multi-news 上,將其與基準模型進行實驗對比。本文所提模型首次在多文檔摘要任務中使用細粒度建模和抽取方法,通過將其與經典基準模型、近兩年在句子層級進行建模和抽取的粗粒度強基準模型、生成式強基準模型等進行比較,從而驗證本文細粒度子句層級建模框架對多文檔摘要抽取的有效性。此外,通過消融實驗驗證2 個層級學習層和層次更新機制是否能夠降低圖神經網絡學習復雜異構圖時的難度。
Multi-news 是文獻[29]提出的一個大規模多文檔摘要數據集,由來源不同的新聞文章和人工書寫的摘要組成。數據集被分割為44 972、5 622、5 622 個樣本,分別用于訓練、驗證和測試。其中,每個樣本由2~10 個源文檔和1 個人工書寫摘要組成。本文參照文獻[11]的方法,通過計算候選摘要與人工摘要的ROUGE-1、ROUGE-2、ROUGE-L 的平均分數構建標簽序列。
本文將每個源文檔的前3 個句子進行拼接作為基線,使用由文獻[29]發布的經典模型代碼,并將這些經典模型作為基線。經典模型包括:LexRank[4]是一種在提取摘要中計算句子相對重要性的基于圖的方法;TextRank[30]是一個基于圖的排名模型,句子重要性得分通過基于語料庫中全局圖的特征向量中心性而計算得到;最大邊際相關性(MMR)[31]計算句子與原始文檔的相關性以及與文檔中其他句子之間的相似度,基于相關性和冗余度對候選句子打分,根據得分排名選擇句子生成摘要;PG[32]是一種基于循環神經網絡的生成式摘要模型,通過注意力機制允許指針從文檔中復制單詞,也可以從詞匯表中生成單詞,能夠緩 解OOV 問 題;CopyTransformer[33]對Transformer 進行擴展,使用一個內容選擇器從源文檔中篩選出應成為摘要中內容的短語;Hi-MAP[29]將PG 網絡模型擴展為一個分層網絡,能夠計算句子級別的MMR 分數。
近年來出現的強基準模型包括:GraphSum[34]將文檔編碼為已知的圖表示形式,捕捉句子間的相似度或語篇關系,并利用圖結構來指導摘要生成過程;HDSG[6]在多文檔摘要中首次引入異構圖,利用句子的共有詞建立句子之間的關系從而抽取句子;EMSum[35]借助實體構建句子間的關系,并使用兩階段注意力機制來解決解碼過程中的顯著性和冗余問題;MatchSum[20]將摘要提取定義為語義文本匹配問題,其匹配從語義空間原始文本中提取的源文檔和候選摘要。
通過實驗對參數進行設置,詞匯表大小為90 000,在創建單詞節點時過濾停止詞、標點符號以及一些低頻詞,本文選擇將輸入截斷至500 個token,因為當輸入長度從500 增加到1 000 時,效果并沒有得到顯著改善。同時,將輸入文檔截斷至最多150 個子句長度。初始化子句節點、文檔節點和全局上下文節點的維度為64,多頭注意力機制中的邊特征維度為50,更新單詞節點表示時頭數量為6,更新其他節點時頭數量為8,位置前饋層的隱藏狀態維度為512。
在模型訓練時,學習率e為5×10-4,學習率逐輪下降,新學習率為e(/輪次+1),每個批次為32 個樣本,每100 個批次進行一次輪參數更新,使用Adam優化器進行優化,當驗證集的損失3 次不下降就停止訓練。根據人工摘要的平均子句長度,選擇抽取前27 個子句作為最終的候選摘要。
本文使用ROUGE 得分對所提模型以及各種基準模型進行評估,基準模型包括傳統經典基準模型和近兩年的強基準模型,后者包括生成式強基準模型和抽取式強基準模型,實驗結果如表1 所示。

表1 Multi-news 數據集上的測試結果Table 1 Test results on the Multi-news dataset
從表1 可以看出:
1)與粗粒度抽取強基準模型HDSG 相比,本文模型的ROUGE-1 提 升0.88,ROUGE-2 提 升0.23,ROUGE-L 提升2.27,說明在句子層級進行抽取組成摘要,句子內部存在多余信息,會在很大程度上影響摘要性能上限,而在細粒度子句層級進行建模,可以將句子中的關鍵信息和多余信息分開并選擇關鍵信息,從而提高抽取式摘要的性能。
2)MatchSum 將摘要抽取任務定義為文本匹配任務,試圖在摘要級別降低冗余信息,從而提高抽取性能,但是MatchSum 和未考慮冗余信息的抽取式強基準模 型HDSG 相 比,ROUGE-1 僅提升0.15,ROUGE-2 和ROUGE-L 持平,說明在摘要層級降低冗余并非提高抽取性能的最佳方法。本文模型和MatchSum 相比,ROUGE-1 提升0.73,ROUGE-2 提升0.23,ROUGE-L 提升2.27,說明細粒度建模和抽取優于在摘要層級降低冗余的方式。
3)與生成式強基準模型GraphSum 和EMSum 相比,本文模型ROUGE-1 分別提升0.86 和0.04,ROUGE-2 分別下 降0.84 和1.68,ROUGE-L 分別提升2.13 和1.80。ROUGE-1 和ROUGE-L 的提升說明與從詞匯表逐字生成摘要的生成式方法相比,細粒度建模和抽取能夠保持抽取式方法簡單有效的特點,同時具備生成式方法低冗余信息的特點。
4)生成式強基準模型EMSum 的ROUGE-2 與抽取式基準模型相比都有大幅提升,本文認為這可能是因為Multi-news 數據集中參考摘要更傾向于使用新的單詞或者短語來對源文檔進行總結。
為了驗證2 個層級學習層和層次更新機制在降低圖神經網絡學習復雜異構圖難度方面的有效性,在Multi-news 數據集上對所提模型進行消融實驗。首先分別進行單詞單一層級更新(Word level update)和子句單一層級更新(Sub-sentence level update),從而驗證2 個層級學習層的有效性;然后在上述實驗的基礎上,進一步用傳統GAT 來替代本文提出的兩階段分步學習的方式(Word+Sub-sentence level update with GAT),從而驗證層次更新機制的有效性。實驗結果如表2 所示。

表2 消融實驗結果Table 2 Results of ablation experiment
從表2 可以看出:
1)單詞單 一層級更新(Word level update)的ROUGE-1、ROUGE-2 和ROUGE-L 分別為46.80、16.54 和44.29,子句單一層級更新(Sub-sentence level update)的ROUGE-1、ROUGE-2 和ROUGE-L分別為46.38、16.14 和43.80,表現都優于粗粒度抽取強基準模型,說明在單詞和子句任一層級建模子句間的細粒度關系都優于粗粒度抽取效果。本文模型在2 個層級建模子句間的細粒度關系,和單一層級建模相 比,ROUGE-1、ROUGE-2 和ROUGE-L 都 得到了提升,說明層次化構建單詞層級圖和子句層級圖能夠有效建模語義關系和結構關系,2 個層級學習層可以降低復雜異構圖的學習難度。
2)和用傳統GAT 聚合子句間多種關系的模型(Word+Sub-sentence level update with GAT)相比,本文模型的子句層級圖學習層使用兩階段分步學習的更新機制,進行2 次注意力學習過程,兩階段分步學習更新機制的運算成本如表3 所示,參數量約增加了17%,每100 輪迭代運算時間增加了5%。消融實驗結果表明,ROUGE-1、ROUGE-2、ROUGE-L 分別提升了0.10、0.11 和0.08,這說明兩階段分步學習的層次更新機制通過首先聚合同種結構關系、然后學習不同結構信息的注意力權重、最后聚合不同結構信息的方式,使得模型在學習多種復雜結構信息的過程中,對多種結構信息的聚合過程進行拆分,各個階段的學習更有針對性,能更有效地聚合子句間的多種結構信息。

表3 各模型的運算成本Table 3 Calculation cost of each model
通過以上實驗說明,2 個層級學習層和層次更新機制可以有效降低圖神經網絡在學習復雜異構圖時的難度,提高摘要的性能,進一步驗證了本文所提框架的有效性。
表4 展示了本文細粒度抽取模型和粗粒度抽取基準模型HDSG 的摘要實例。從表4 可以看出,本文細粒度抽取模型和HDSG 都與人工摘要的表達意思相近,不同的是,從劃線內容來看,細粒度抽取模型在生成候選摘要時可以減少句子內部的冗余信息,說明本文細粒度抽取模型可以提高摘要的簡潔性從而提升摘要性能上限。同時也可以看出,細粒度抽取模型的摘要存在一些獨立的短語,可讀性不如粗粒度抽取模型的摘要。

表4 抽取式摘要示例Table 4 Extractive summarization samples
本文提出一種基于異構圖分層學習的細粒度多文檔摘要抽取模型,通過層次化構建2 個異構圖來有效建模子句的語義關系和結構關系,從而提升摘要抽取效果。實驗結果表明,相比抽取式模型,該模型在多文檔摘要數據集Multi-news 上有顯著的性能提升,消融實驗結果也驗證了模型中各模塊的有效性。下一步將優化多種復雜關系的聚合方式,探究基于語法限制的抽取方法,以提高抽取摘要的可讀性。