基于ALBERT預(yù)訓(xùn)練模型生成式文本摘要

2022-12-22 07:14:02許文軍鄭肇謙

長春工業(yè)大學(xué)學(xué)報 2022年6期

許文軍, 鄭虹, 鄭肇謙

(長春工業(yè)大學(xué) 計算機科學(xué)與工程學(xué)院，吉林長春 130102)

0 引言

文本摘要[1]是一項非常重要的任務(wù)，人們也提出了很多解決文本自動摘要的方法。目前有兩種比較主流的方法,即抽取式摘要和生成式摘要。抽取式摘要是一個從句子中提取的句子組成的摘要，所以組成句子之間的緊密性不強，從而降低了用戶對原文本的理解，無法完全滿足人們的需求。因此，生成式摘要就此產(chǎn)生。生成式文本摘要主要利用自然與處理技術(shù)對原文本進行深度理解，然后用生成式文本摘要模型模擬人類的思維方式對原文本進行概括總結(jié)，最終形成摘要。與抽取式摘要不同的是，生成式摘要中的詞語和句子不全來自于原文，會生成新的詞語和句子，在表達方式上具有多樣性。因此，生成式摘要更接近人工生成的摘要，符合人們對摘要的要求。

1 相關(guān)工作

隨著深度學(xué)習(xí)在自然語言處理領(lǐng)域的不斷應(yīng)用，各種新的模型被提出。Ganesan K等[2]提出基于圖方法的生成式摘要模型，首先要輸入文本來構(gòu)建圖，然后再根據(jù)構(gòu)建好的圖生成摘要。See A等[3]首次提出指針及覆蓋網(wǎng)絡(luò)機制。在摘要片段生成的過程中，通過指針控制從原文中選擇生詞或者是從字表中選取生詞進行生成，解決了摘要片段生成中可能出現(xiàn)的未注冊登錄的生詞問題，引入了一種覆蓋機制來有效地解決摘要中的詞語或短語重復(fù)問題。2018年，Lin J等[4]首次提出一種基于序列到序列模型的卷積神經(jīng)網(wǎng)絡(luò)，用來在文章層次上獲得語義表示，以減少摘要生成時的語義無關(guān)。2019年，Song K等[5]提出的MASS是一個基于序列到序列框架的預(yù)訓(xùn)練模型。2020年，Zhang J等[6]提出PEGASUS基于預(yù)訓(xùn)練的序列到序列的模型。張麗杰等[7]采取TF-DF、LDA、位置權(quán)重指派與MMR相結(jié)合的方式,對不同的句子分配不同的權(quán)重，提出了抽取式摘要模型。Mehdad Y等[8]提出基于圖的生成式文本摘要模型，利用查詢語句從輸入文本中獲取語句的重要信息，再用聚類方法對語句特征的相似度進行分析。在摘要生成的過程中，根據(jù)路徑權(quán)重以及排序得分來選擇最佳路徑作為生成摘要。

2 文中模型與方法

2.1 ALBERT預(yù)訓(xùn)練模型

隨著大量預(yù)訓(xùn)練模型的提出，如ELMo[9]、OpenAI GPT[10]、BERT[11]等已經(jīng)廣泛用于文本生成任務(wù)[12]。文中提出一種基于預(yù)訓(xùn)練的新型自然語言生成模型，設(shè)計了一個兩階段的解碼過程，充分利用ALBERT模型[13]提取上下文信息等特征。第一階段，使用一個單向上下文向量的解碼器來生成摘要。第二階段，掩蓋了摘要中的每一個詞，并使用解碼器逐個預(yù)測細化的詞[14]。為了進一步提高生成序列的自然性，將強化目標與解碼器結(jié)合。文中提出的ALBERT模型適用于中文文本，在顯著降低參數(shù)量的同時，對BERT模型在生成文本任務(wù)中的欠缺表現(xiàn)加以改進，有效提高了模型生成文本摘要質(zhì)量。ALBERT模型結(jié)構(gòu)如圖1所示。

圖1 ALBERT模型結(jié)構(gòu)

圖中,E1,E2,…,EN表示輸入文本，而T1,T2,…,TN表示最終得到的文本序列特征向量。

2.2 雙向的預(yù)訓(xùn)練上下文編碼器

在序列到序列框架的生成式模型[15]基礎(chǔ)上，提出一種基于神經(jīng)注意力機制的序列到序列模型。此模型是為了生成概率最大化的目標序列，在編碼和生成的過程中，注意力機制關(guān)注文本中最重要的位置。表示為

(1)

X----輸入序列;

y----輸出的摘要。

傳統(tǒng)的序列到序列的生成模型在解碼過程中只考慮了單向的上下文信息。這可能會導(dǎo)致模型的性能下降，因為完整的上下文信息包含前面的信息和后面的信息。以往的方法是通過改進注意力計算[16]來緩解這一問題，文中我們證實了雙向的上下文信息比單向的上下文信息更好地解決了這一問題。ALBERT是由幾個層組成。在每一層中，首先有一個多頭自注意子層，然后是一個具有殘差連接的線性仿射子層[17]。在每一個自注意力子層中注意力得分eij首先被計算出來。

(2)

(3)

式中:i,j----輸出和輸入向量序列的位置，i,j∈[1,N];

de----輸出維度;

WQ，WK----矩陣參數(shù)。

然后計算輸出，公式為

(4)

這是通過先前的輸出hi相加得到h所有的加權(quán)和。最后一層的輸出序列是輸入序列的上下文編碼。

使用ALBERT模型的預(yù)訓(xùn)練上下文編碼器時，在訓(xùn)練前輸入完整的序列，它們可以通過雙向的上下文調(diào)節(jié)模型詞級表示，更好地解決序列不匹配等問題。基于ALBERT基礎(chǔ)上構(gòu)建的序列到序列框架，文中設(shè)計了一個詞級的細化解碼器來解決上述問題。對于有效減少曝光偏差的問題，還引入了一個離散目標的細化解碼器。模型的總體結(jié)構(gòu)如圖2所示。

圖2 文中模型結(jié)構(gòu)示意圖

3 基于ALBERT預(yù)訓(xùn)練生成式模型

3.1 ALBERT編碼器

將輸入文檔表示為X={x1,x2,…,xm}。相應(yīng)的摘要表示為Y={y1,y2,…,yL}，L代表摘要長度。給定輸入文檔X，首先通過單向的上下文解碼器預(yù)測摘要，通過產(chǎn)生的摘要可以控制上下文的長度，并改進摘要的內(nèi)容。在編碼器端輸入文本X轉(zhuǎn)化為向量H={h1,h2,…,hm}，然后將向量輸入到解碼器并生成摘要A={a1,a2,…,a|a|}。使用ALBERT作為編碼器。首先將輸入序列轉(zhuǎn)化為詞嵌入，然后計算文本的詞嵌入作為編碼器的輸出。

H=ALBERT(x1,x2,…,xm)。

(5)

3.2 ALBERT解碼器

在解碼器中使用ALBERT的詞嵌入矩陣，在時間步長t時將之前的摘要輸出{y1,y2,…,yt-1}加入到詞嵌入向量{q1,q2,…,qt-1}中。由于解碼器的輸入順序不完整，所以引入一個N層Transformer的解碼器來學(xué)習(xí)條件概率P=(A|H)。基于Transformer的編碼器-解碼器的多頭注意力機制可幫助解碼器學(xué)習(xí)摘要和源文檔之間的軟對齊。在第t時間步長時，解碼器結(jié)合之前的輸出和編碼器的隱藏層表示預(yù)測并輸出條件概率為

每個生成的序列將在帶有特殊“[PAD]”的位置被截斷。解碼器的摘要過程如圖2的第一階段所示。

(6)

(7)

3.3 復(fù)制機制

在解碼過程中往往一些出現(xiàn)在文檔中的詞是詞匯表之外的詞，為了解決未登錄詞問題，采用了基于復(fù)制機制[18]在Transformer解碼器上。在解碼器時間步長t處，使用Transformer最后一層解碼器輸出ot與編碼器輸出hj的雙線性點積計算源文本X上的注意概率分布，

(8)

(9)

然后計算復(fù)制門gt∈[0，1]，從源文本和產(chǎn)生的詞匯中進行軟選擇。Wc，Wg，bg是參數(shù),

gt=sigmoid(Wg·[ot,h]+bg)。

(10)

使用gt計算復(fù)制概率和生成概率的加權(quán)和，得到擴展詞匯的最終預(yù)測概率v+x，其中x是源文檔之外的未登錄詞。最終概率的計算方法為

(11)

3.4 摘要優(yōu)化過程

提出一種新的優(yōu)化解碼器，草稿解碼器的輸出作為優(yōu)化解碼器的輸入，并輸出一個優(yōu)化之后的摘要。如圖2的第二階段所示，首先掩蓋摘要草稿中的每一個詞，然后將草稿提供給ALBERT以生成上下文向量。最后，利用與草稿解碼器相同的N層Transformer解碼器預(yù)測一個改進的摘要詞。在第t個時間步長，輸入摘要的第t個字被掩碼，解碼器通過摘要中的其他詞來預(yù)測優(yōu)化的詞。此過程的學(xué)習(xí)目標為

(12)

并且a≠t={a1,…,at-1,at+1,…,a|v|}。

草稿解碼器和優(yōu)化解碼器之間共享參數(shù)，因為單獨使用參數(shù)會大大降低模型的性能。原因可能是在訓(xùn)練過程中使用了Teacher Forcing訓(xùn)練機制，因此詞級精簡解碼器學(xué)會了根據(jù)給定的詞來預(yù)測新的詞。這類似于語言模型的預(yù)訓(xùn)練，但可能不足以使解碼器學(xué)習(xí)生成精練的摘要。所以在模型中所有解碼器共享相同的參數(shù)。

3.5 訓(xùn)練與推理

在模型訓(xùn)練期間，目標是使生成序列的對數(shù)似然性最大化。此過程中將出現(xiàn)不匹配的現(xiàn)象，而這種不匹配會損害模型的性能，因此在模型中添加了離散目標，并通過以下方法對其進行優(yōu)化，引入策略梯度法，摘要草案過程的離散目標為

(13)

其中草稿摘要從預(yù)測分布中采樣，R(as)為獎勵分數(shù)與標注摘要對比。為了優(yōu)化離散目標和生成可讀序列之間的平衡，在實驗中使用ROUGE-L。將離散目標與最大似然目標混合。顯示解碼過程的最終目標為

(14)

優(yōu)化過程中也引入了類似的目標。

在模型訓(xùn)練期間，模型的目標是兩個過程中目標的總和，并使用了“Teacher Forcing”算法，將標注摘要提供給每個解碼器，并最小化以下目標。

(15)

在測試階段的每個時間步長通過

選擇預(yù)測的單詞，使用集束搜索生成草稿摘要，并使用貪心搜索生成精練的摘要。

4 實驗及結(jié)果分析

4.1 實驗數(shù)據(jù)集

實驗使用的訓(xùn)練數(shù)據(jù)集為LCSTS，包括訓(xùn)練集、測試集、驗證集[19]三個部分，訓(xùn)練集包含2 400 591組數(shù)據(jù)(包含文本和摘要)，驗證集包含10 666組數(shù)據(jù)，測試集包含1 106組數(shù)據(jù)，LCSTS數(shù)據(jù)集具體且不抽象，常作為文本生成領(lǐng)域的數(shù)據(jù)集。

4.2 實驗設(shè)置

本實驗融合ALBERT預(yù)訓(xùn)練模型,使用ALBERT字表,大小為21 128字，字向量維度大小為768，并把解碼器層數(shù)和多頭注意力數(shù)分別設(shè)置為與編碼器相同的12層和12頭。針對LCSTS數(shù)據(jù)集,批大小設(shè)置為16,輸入字符最大長度為130,輸出文章字符最大長度為30。在測試階段使用束大小為3的集束搜索。

4.3 評估指標

ROUGE是文本自動摘要領(lǐng)域摘要評價技術(shù)的通用指標之一，文中選擇使用ROUGE-N和ROUGE-L作為模型的評價指標，下面詳細介紹ROUGE-N和ROUGE-L方法。ROUGE-N中的N指的是N元詞的模型，通常情況下，N∈[1,4]，使用ROUGE-1、ROUGE-2、ROUGE-L作為評價指標，對摘要結(jié)果進行評價。

4.4 結(jié)果與分析

文中模型將對比以下使用LCSTS中文數(shù)據(jù)集的基準模型，并從相關(guān)文獻中直接抽取實驗結(jié)果。

4.4.1 RNN和RNN-context

模型在RNN的基礎(chǔ)上加入了注意力機制。

4.4.2 CopyNet[20]

使用RNN作編碼器,解碼器采用生成模式和拷貝模式。

4.4.3 S2S+superAE[21]

在訓(xùn)練模型階段用Auto encoder監(jiān)督Sesq2Seq模型的學(xué)習(xí),以提高encoder的性能。

4.4.4 CGU[22]

基于全局編碼的Seq2Seq模型,通過設(shè)置全局門控單元對編碼器的輸出信息進行篩選。

4.4.5 Transformer

基于注意力機制的Seq2Seq模型，且具有較好的并行能力。

4.4.6 文中模型

將文本通過預(yù)訓(xùn)練模型ALBERT編碼表征，再輸入到Transformer解碼器中生成摘要，ALBERT更好地輸出上下文信息，并和Transformer一樣都是文中的基礎(chǔ)模型。

文本摘要在LCSTS上實驗結(jié)果見表1。

表1 文本摘要在LCSTS上實驗結(jié)果

從表中可以看出，文中提出的模型ROUGE評價結(jié)果相比于其他模型有較大的提升，ROUGRE-1、ROUGE-2、ROUGE-L均高于其他模型。文中模型在生成摘要的正確性、連貫性和表達性上都有一定的提升。

為了對比文中模型和CGU模型以及基于Transformer模型在實際案例中生成摘要的性能，從LCSTS數(shù)據(jù)集中抽取兩個案例文本進行分析展示，見表2。

表2 文本摘要實例

續(xù)表2

第一個案例中，Transformer模型和CGU模型只片面地總結(jié)了摘要中的內(nèi)容，在語義理解上存在偏差。說明了使用ALBERT后提升語義理解的準確性。

第二個案例中，Transformer模型和CGU模型沒能準確總結(jié)文本的主旨，而文中模型與參考摘要最為接近，能很好地抓住文章的主旨。

綜合上述兩個實際案例，提出的模型不僅較好地綜合了生成式文本摘要模型的語言流暢性高的優(yōu)點，而且能夠較好地抓住全文關(guān)鍵信息，準確地表達原文含義，同時較好地展現(xiàn)了雙向上下文信息，與參考摘要更接近。

5 結(jié) 語

提出基于ALBERT的預(yù)訓(xùn)練文本摘要模型，為使詞向量帶有上下文語義特征，引入ALBERT預(yù)訓(xùn)練模型。為使生成的序列更自然且不重復(fù)，引入雙向的預(yù)訓(xùn)練上下文編碼器。為了解決未登錄詞問題，采用復(fù)制機制。為使生成摘要質(zhì)量更高，提出摘要優(yōu)化過程，設(shè)計了一個草稿解碼器和優(yōu)化解碼器。最后，使用集束搜索解碼算法進行解碼，最終生成摘要，并且模型也取得很好的實驗結(jié)果。

雖然文中提出的模型實驗效果優(yōu)于之前提出的模型。但在生成摘要階段使用傳統(tǒng)的集束搜索技術(shù)，生成的摘要偶爾會概括一些不太重要的信息。為了解決這一問題。下一步會采用指針生成網(wǎng)絡(luò)，生成更精確、質(zhì)量更高的摘要。