999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生成式摘要的事實一致性與文本質(zhì)量的平衡性研究

2025-04-11 00:00:00楊昱睿何禹瞳琚生根
四川大學學報(自然科學版) 2025年2期

摘要: 事實一致性的提升已成為生成式摘要領域的一個研究熱點,目前的主流方法可分為后編輯和模型機制優(yōu)化兩類. 現(xiàn)有的方法雖然有效地提升了事實一致性,但基本上犧牲了文本質(zhì)量,降低了可讀性. 針對這個問題,提出了一種結(jié)合強化學習與基于排序的對比學習的生成式摘要模型SumRCL. 一方面,本文利用基于候選摘要排序的對比學習來提升模型對摘要賦予的概率與該摘要的事實一致性的相關(guān)度;另一方面,還使用基于文本質(zhì)量評估指標的強化學習來保留高度文本質(zhì)量,其中采用了蒙特卡羅搜索方法來解決中間摘要的評估問題. 本文方法在CNN/DM 與XSUM 數(shù)據(jù)集上的實驗表明,本文提出的SumRCL 模型確實有助于生成事實一致性與文本質(zhì)量都很高的摘要,并分析了對比學習中候選摘要數(shù)量和排序指標對最終效果的影響. 最后,本文通過人工評估展現(xiàn)了SumRCL 比如今流行的大語言模型具有更好的事實性行為.

關(guān)鍵詞: 生成式摘要;事實一致性;強化學習;對比學習;大語言模型

中圖分類號:TP391 文獻標志碼: A DOI:10. 19907/j. 0490-6756. 240241

1引言

生成式摘要的事實一致性指摘要中包含的信息與原文相符合,既不能與原文相悖,同時也沒有原文中不存在的內(nèi)容. 傳統(tǒng)的抽取式摘要從原文本中復制連續(xù)文本,可以確保語法正確性和事實一致性[1]. 但對于生成式摘要,盡管使用如今流行的預訓練模型可以在該任務中輸出流暢且抽象度高的摘要文本,但越來越多的研究也表明它們在事實一致性方面表現(xiàn)不佳[2,3]. 例如圖1 所示,圖中有兩個都來自XSum[4]新聞數(shù)據(jù)集的樣本,且都由ChatGPT 生成摘要. 但在第一個樣本中,原文表述的是“Evan 為新西蘭贏下了16次聯(lián)賽”,而輸出摘要把這一信息誤解成“Evan 為新西蘭參加了16 次聯(lián)賽”;在第二個樣本里,原文提到的是“大約4000名員工”和“大約8000 萬英鎊”,而在輸出摘要里則沒有體現(xiàn)出表示估計的含義,反而變成了準確的數(shù)目. 這兩個例子中ChatGPT 輸出的摘要雖然文本質(zhì)量都很高,卻出現(xiàn)了不太明顯的事實性錯誤,即在事實感知方面仍存在著不足.

當前存在很多關(guān)于提升生成式摘要事實一致性的研究和方法,它們主要可分為后編輯[5-8]和模型機制優(yōu)化[9-11]兩種類型. 這些方法基本都未考慮如何在提升事實一致性后保留文本的高度質(zhì)量,從而在摘要的事實一致性與文本質(zhì)量的權(quán)衡上表現(xiàn)不佳.

針對上述問題,我們提出了結(jié)合強化學習與基于候選摘要排序的對比學習的生成式摘要模型SumRCL,使模型在訓練過程中可對事實一致和不一致的摘要樣本進行區(qū)分,從而更有效地輸出事實一致性的摘要,同時又能緩解數(shù)據(jù)集中的噪聲問題,維持高度的文本質(zhì)量. 具體來說,這兩種方法都基于自動評估指標來訓練的:在對比學習中,我們對候選摘要基于FactCC[12]指標進行排序,以計算對比損失,從而在訓練中可提高模型對摘要賦予的概率與該摘要的事實一致性之間的相關(guān)度;在強化學習中,我們基于Rouge[13]來設置獎勵,該指標廣泛應用于文本摘要的自動評估上,可反映出摘要的文本質(zhì)量. 在這種獎勵設置下,模型在訓練中可保留輸出高質(zhì)量文本的能力,同時我們還使用蒙特卡羅搜索方法來解決中間摘要序列的評估問題.

本文的貢獻如下:(1)我們提出SumRCL 模型,該模型結(jié)合強化學習與基于候選摘要排序的對比學習,提升了對摘要的評分與摘要事實一致性之間的相關(guān)度,同時還有效地優(yōu)化了事實一致性與文本質(zhì)量之間的平衡性;(2) 本文在兩個大規(guī)模數(shù)據(jù)集上的實驗表明,本文提出的方法在提升了生成式摘要的事實一致性后還很好地保留了文本質(zhì)量,在這兩種摘要屬性的權(quán)衡上優(yōu)于SOTA模型. 此外,在人工評估中也比較了SumRCL 與其他先進模型輸出的摘要在文本質(zhì)量、內(nèi)容相關(guān)性和事實一致性等3 個重要屬性上的評估結(jié)果,表明了SumRCL 在人工評估中的優(yōu)越性;(3) 在對比學習中,我們還對不同的排序指標與候選摘要數(shù)量進行探索,表明這兩種因素可顯著影響基于排序的對比學習的效果,以啟發(fā)后續(xù)用此類方法在其他領域的研究工作.

2相關(guān)工作

2. 1事實一致性的提升

生成式摘要領域的傳統(tǒng)方法通常會直接最小化對數(shù)損失以進行訓練,對數(shù)據(jù)集的噪聲非常敏感,使模型容易學習到這些無效信息[14]. 為了能夠在這種訓練方式的基礎上增添事實一致性的引導,當前很多研究都采用了對比學習的方法. Cao等提出CLIFF 模型[9] ,他們對BART[15] 和PEGASUS[16]兩種預訓練模型微調(diào),并在目標函數(shù)里引入對比損失項,用以極大化正樣本摘要編碼表示的相似度. 為了增加對比學習時用到的正樣本,他們通過同義詞替換、回譯等方法做了數(shù)據(jù)增強. 另一方面,他們對參考摘要進行修改或者直接使用模型輸出摘要來進行負采樣,前者涉及到的方法包含實體替換、對原文關(guān)鍵單詞掩碼后填充、基于源條件的再生成. Wan 等[10]提出FactPEGASUS模型,在PEGASUS 模型的預訓練設置進行調(diào)整,將FactCC 與Rouge 兩種指標結(jié)合起來作為間隙句選擇時的標準. 在下游任務訓練中,他們還引入Contrastor、Corrector 和Connector 等3 種機制. 其中Contrastor 利用對比學習極大化了原文與參考摘要之間的相似性. Corrector 和Connector 分別用于清洗數(shù)據(jù)集的幻覺噪聲,以及微調(diào)時給輸入添加[mask]token,以模擬預訓練時的設置,使模型充分利用預訓練中學到的事實性知識. Chen等[11]把模型輸出摘要中的命名實體替換為原文里出現(xiàn)過的同類型命名實體,得到對比候選摘要,作為負樣本進行對比學習訓練. 在此過程中,他們的模型對樣本賦予的概率作為了對比損失的計算因子. 而在推理階段,模型會對不同的候選摘要評分,然后選出得分排第一的摘要作為輸出摘要.

此外,有的研究者也在強化學習的訓練范式下使用基于事實性指標的獎勵函數(shù)來提升事實一致性. Gunasekara 等[17]使用了基于問答的事實一致性指標來設計獎勵函數(shù);Pasunuru 等[18]則使用基于蘊含分數(shù)的獎勵,并結(jié)合Rouge 指標來進行訓練. 有的研究者甚至直接用人工反饋來對獎勵函數(shù)進行建模[19,20],從而有效防止參考摘要與人類判斷之間的不一致導致的錯誤.

我們提升生成式摘要事實一致性的方法參考了Liu 等提出的BRIO[21],這是一種基于排序的自監(jiān)督對比學習方法,即先對模型輸出的若干候選摘要按某種指標排序,然后通過對比學習訓練相應的評分機制,使得按照這種評分機制進行排序的結(jié)果盡可能與先前的排序結(jié)果一致. 但他們的方法以Rouge 指標作為排序標準,以提升摘要的文本質(zhì)量,而我們將排序標準替換為事實一致性相關(guān)的指標,并探究了不同的排序標準和不同的候選摘要數(shù)量分別在該訓練范式下帶來的影響.

2.2文本質(zhì)量的提升

傳統(tǒng)的序列到序列模型通常采用最大似然估計作為訓練目標,即最大化生成的文本在訓練集里的似然. 為了提高訓練的速度,該方法通常還會采用教師強制模式,即在訓練中告訴解碼器完整的參考摘要序列,使解碼器在訓練時的每個時間步都直接以參考摘要在上一步的詞作為輸入. 這種教師強制模式會使生成的摘要過于依賴于參考摘要,而解碼器在推理階段由于無法直接觀察到參考摘要,使得教師強制模式失配,導致了暴露偏差問題,從而影響文本的質(zhì)量.

為了解決這一問題,有的研究者引入了生成對抗網(wǎng)絡(Generative Adversarial Networks,GAN)[22,23]來增強模型輸出自然樣本的能力,以減少噪聲帶來的干擾. 在此框架下,這通常會使用強化學習來解決文本序列的離散性帶來的梯度問題,也就是把摘要生成任務視為一個序列決策過程,以生成器為策略,通過選擇每個時間步的動作(詞或者短語)來生成文本序列,進一步使生成的摘要更貼近自然樣本.

2.3事實一致性的檢測

當前在生成式摘要領域里也有很多研究側(cè)重于對事實一致性的自動評估. 這些研究大致上可分為基于蘊含和基于問答兩類.

一方面,Kryscinski 等[12]對參考摘要進行實體替換等操作做出修改,構(gòu)造負樣本,再與參考摘要一同作為輸入,訓練出事實一致性分類器,并由此提出了FactCC 指標. Lee 等[24]對其做出改進,對參考摘要和原文采用mask 操作,然后訓練出對mask處理的參考摘要進行預測的模型,作為負樣本生成器,然后再結(jié)合正樣本作為輸入訓練出事實一致性分類器,并以此提出MFMA 指標. 以上兩種方法都是從摘要級的粒度來評估事實一致性的.Laban 等[25]提出SummaC 指標,借助NLI 模型,對每個(原文句,摘要句)評估蘊含得分,得出分數(shù)矩陣,再轉(zhuǎn)換為一個標量,以作為針對目標摘要的事實一致性分數(shù),使評估粒度細化到了句子級. 而Goyal 等[26]則利用關(guān)系抽取模塊,把摘要中實體之間的關(guān)系建模成依賴弧,然后對每個依賴弧通過原文來賦予事實一致性得分,使評估粒度進一步細化到token 級. 以上均屬于基于蘊含的方法,總的來說,就是把事實一致性評估建模成對D→S 的評分,其中D 代表原文,S 代表目標摘要.

另一方面,還有一種比較流行的基于問答的方法. Durmus 等[27]提出FEQA,使用問題生成模型以目標摘要中的一些實體生成相應的問題,然后再用問答模型通過原文來對這些問題作答,以作答情況來評估目標摘要的忠實度,這也是一種基于精確率的評估方法. Scialom 等[28]則進一步對原文中的實體也生成問題,然后用目標摘要來作答,以作答情況來反映摘要的內(nèi)容相關(guān)性,這是基于召回率的評估,他們將其與基于精確率的評估結(jié)合起來,提出QuestEval 指標. Fabbri 等[29]則在整體上對基于問答的評估指標做出優(yōu)化,研究了該系列方法中的答案實體選擇、問題生成與回答模型及答案重疊度度量4 個組件的最優(yōu)搭配,提出了QAFactEval 指標,并指出可將其與基于蘊含的方法結(jié)合起來,組成QAFactEval-NLI,使兩種不同的度量方法互補,從而更準確地對事實一致性進行評估.

除了以上兩種評估范式之外,最近也有研究者開始借助大語言模型來對摘要的事實一致性做自動評估[30,31]. 他們通常借助帶有原文和目標摘要的模板作為大語言模型的輸入,使其通過直接或思維鏈的方式輸出事實性評估結(jié)果. 該方法雖然對自然語言的理解與推理上仍存在局限性,比如很依賴于詞匯重疊度,但也表現(xiàn)出了與人類評估相接近的效果,展現(xiàn)了大語言模型用于摘要事實一致性評估的潛力.

3模型

3. 1 SumRCL整體框架

我們提出的SumRCL 模型的整體框架如圖2所示,它是一個序列到序列模型框架,采用基于Transformer的編碼器(Encoder)和解碼器(Decoder).它以長度為m 的原文D = ( x1,x2,x3,…,xm ) 為輸入,在編碼器中將其轉(zhuǎn)換為隱狀態(tài),作為解碼器的第一步輸入. 在解碼器中,摘要文本序列按自回歸的方式被一步步生成出來,每一步都需要用到上一步的輸出詞作為當前的輸入. 在圖中解碼器的輸出由詞匯概率分布表示,而該詞匯概率分布在后續(xù)又有兩處使用,分別對應于強化學習和對比學習的訓練設置. ( y1,y2,y3 ) 表示長度為3的中間摘要序列,作為強化學習中的狀態(tài)(State),同時也是自回歸方式下解碼器在該時間步的輸入. 詞匯分布(Vocabulary Distriution)指模型在生成摘要時計算的詞匯概率分布,用于確定強化學習中該時間步的動作(Action),以及對比學習中的損失計算.

我們分別采用了BART 和PEGASUS 兩種預訓練模型,它們在生成高質(zhì)量摘要文本上都具有很強的能力. 其中,BART 結(jié)合雙向Transformer結(jié)構(gòu),通過在預訓練過程里使用自編碼和自回歸任務來學習文本的表示,并可以捕捉長距離依賴關(guān)系,在微調(diào)后可生成連貫且信息豐富的摘要. 而PEGASUS 在預訓練中引入“間隙句生成”的目標,直接對原文中能反映重要信息的句子進行掩碼,并在預訓練中以還原這些句子為目標,與摘要生成的任務頗有類似之處,從而也有助于提升后續(xù)摘要任務微調(diào)的性能.

3. 2基于候選摘要排序的對比學習

如圖2 中的對比學習部分所示,對于每一個樣本,我們事先需要對其生成6 份候選摘要,并計算每個摘要的FactCC 指標,然后按照該指標的大小對這些候選摘要降序排序,形成Summary 1至Summary 6.接著利用模型對原文輸出摘要時計算得到的詞匯概率分布來計算每個候選摘要的生成概率,以代表模型對這些摘要給出的評分. 我們發(fā)現(xiàn)模型對這些摘要賦予的概率與其FactCC指標值并沒有一種很強的相關(guān)性,即按照FactCC排序的結(jié)果與按照SumRCL 賦予的概率排序的結(jié)果并不一致. 例如在圖2 中,摘要1的FactCC為0. 8,高于摘要2的Factcc 為0. 65,但SumRCL對其賦予的概率卻呈現(xiàn)相反的比較結(jié)果,從而產(chǎn)生了對比損失. 我們把這些候選摘要之間的對比損失綜合起來,以表示該樣本的對比損失. 為了計算Sum?RCL對候選摘要賦予的概率,我們引入表達式.

我們將3. 2 節(jié)中的對比學習與本節(jié)中強化學習的訓練目標結(jié)合起來,形成式(5)所示的目標函數(shù),通過梯度上升方法進行極大化,從而訓練Sum?RCL 模型. 這里的β 表示對比學習訓練目標的權(quán)重,為超參數(shù).

4實驗

4. 1數(shù)據(jù)集

我們使用兩種摘要數(shù)據(jù)集:CNN/DailyMail和XSum. 這兩個數(shù)據(jù)集已在各種模型中被廣泛用于生成式摘要的事實一致性研究. CNN/DailyMail數(shù)據(jù)集包含來自CNN 的9.3萬篇文章和每日郵報報紙的22 萬篇文章. 這兩家出版商都在文章中附加了要點摘要作為參考摘要,且摘要平均有3 個句子,具有抽取式的性質(zhì). 另一方面,XSum 包含了22.7萬篇網(wǎng)絡爬取的BBC 新聞文章,每個樣本都以文章的首句為單句參考摘要,以剩余部分為原文. 由此可見,XSum中的參考摘要通常是對文章主題的概括,且與其他數(shù)據(jù)集里的參考摘要相比更具抽象性,通常需要從文章中提煉出更多的信息. 而這也使XSum 數(shù)據(jù)集在訓練生成式摘要模型時能夠使輸出的摘要也具有一定的抽象性,即可以生成一些新的內(nèi)容、對原文的含義進行釋義等,更符合人類的模式. 但這也提升了挑戰(zhàn)性,要求模型能夠有效地從文章中提取核心信息并生成事實一致性摘要. XSum 數(shù)據(jù)集在研究中也被廣泛用于評估自動摘要模型的性能.

4.2實驗介紹

4. 2.1實施細節(jié) 我們在前文中已提到Sum?RCL 是分別在基于BART 和PEGASUS兩個預訓練模型上結(jié)合對比學習和強化學習兩種基于可區(qū)分度的方法進行微調(diào)的. 具體而言,在CNN/DM數(shù)據(jù)集上我們用BART-Large 模型進行微調(diào),而在Xsum 數(shù)據(jù)集上,我們則用PEGASUS-Large 來做微調(diào). 另外,在使用基于排序的對比學習時,我們?yōu)槊總€樣本都事先生成6 份候選摘要,且其中3 份用BART-CNN( 對應于CNN/DM 數(shù)據(jù)集)或PEGASUS-Xsum(對應于Xsum 數(shù)據(jù)集)來生成,另外3 份則用EFactSum 模型[32]輸出的摘要. 這里的EFactSum 是當前在生成式摘要領域中提升事實一致性且保留文本的高度質(zhì)量的一個SOTA 模型,他們采用的對比學習方法也參考了BRIO 中的設置.

4. 2. 2評估指標 我們在評估實驗中用兩類指標來檢驗SumRCL 與其他對比模型在兩種數(shù)據(jù)集上的效果.

首先是代表文本質(zhì)量的Rouge 指標,這是一種基于詞重疊的計算方法. 具體而言,我們采用其中的Rouge1、Rouge2 和RougeL 等3 種變體,前兩者分別表示參考摘要和目標摘要中單個詞以及連續(xù)兩個詞的重疊度,而RougeL 則衡量兩個文本序列的最長公共子序列的長度.

雖然Rouge 可以有效反映摘要文本的質(zhì)量,如語句連貫性和流暢性等,但在很多研究中,該指標都被指出在事實一致性的評估上與人工評估的相關(guān)性差的問題[8,24,27],比如它主要關(guān)注文本的表面相似性,而難以捕捉到語義一致性和事實準確性,且不能很好地區(qū)分輸出摘要是否改寫了參考摘要中的句子,或者是否引入了創(chuàng)新內(nèi)容等.

所以,對于事實一致性方面的評估指標,我們在實驗中用到的指標有FactCC[12]和QAGS[33]. 其中,F(xiàn)actCC 是一種基于蘊含的評估方式,該評估模型是通過對參考摘要進行實體替換等操作做出擾動,從而構(gòu)造負樣本,然后再與參考摘要一同作為輸入進行訓練的. QAGS 是一種典型的基于問答的評估方法,和QuestEval[28]一樣,它先用問題生成模型來輸出一些問題,然后同時用原文和目標摘要來通過問答模型輸出答案,并以兩種答案之間的相似度作為評估結(jié)果. 但不同之處在于,QAGS 只對目標摘要生成問題,然后用原文和目標摘要對這些問題作答.

4. 2. 3 對比模型 我們用來對比的SOTA 模型主要有CLIFF[9]、FactPEGASUS[10]、EFactSum[32]和QUALS-CONSEQ[34],其中前三者在前文均已被介紹. QUALS-CONSEQ 的作者則基于他們所提出來的QUALS 指標設置強化學習,來提升事實一致性. 這4 個SOTA 模型中除了EfactSum 以外都只是提升了摘要的事實一致性,而沒有考慮保留高文本質(zhì)量,盡管它們在事實性方面上表現(xiàn)優(yōu)異. 我們用來對比的基線模型有BART[15]、PEGASUS[16]、BRIO[21]和FASum[35],其中FASum雖然利用從原文中抽取的實體關(guān)系作為知識圖譜輸入到解碼器來引導生成事實一致的摘要,但在事實一致性的提升上還是存在較明顯的局限. 而前3 種模型雖然都不帶有事實感知機制,但在生成高質(zhì)量摘要文本上表現(xiàn)出色.

4. 3總體實驗結(jié)果及分析

我們的實驗結(jié)果如表1和表2所示. 其中,R1、R2、RL和FC分別代表Rouge1、Rouge2、RougeL和FactCC指標. 我們提出的方法在每個指標結(jié)果上都加粗顯示,并且對于每種指標,我們又用下劃線突出顯示了最佳結(jié)果值(在后續(xù)的實驗結(jié)果表中也是如此). 在下文中,我們分析了SumRCL 相比于其他有競爭力的模型在每種指標上的對比結(jié)果.

表1展示了不同方法在CNN/DM 數(shù)據(jù)集上以

BART-Large 進行微調(diào)的實驗結(jié)果,可以看到,SumRCL 在FactCC 和QAGS 兩種事實一致性指標上都高于其他模型,并在文本質(zhì)量的自動評估,即Rouge 指標上也均略高于EFactSum. 具體而言,SumRCL 在FactCC 和QAGS 上相比于Efact?Sum 分別提升了2. 59 與2. 8個百分點,而在Rouge1、Rouge2 和RougeL 上的提升分別是0. 17、0. 06 和0. 14 個百分點,說明我們的模型和該SOTA 在文本質(zhì)量上處于幾乎一致但略高的水平,而在事實一致性上卻有著更明顯的優(yōu)勢. 相比于QUALS-CONSEQ、CLIFF 和FASum 這3 個只優(yōu)化事實一致性而不保留高文本質(zhì)量的模型而言,SumRCL 在Rouge 指標上的提升更為明顯. 雖然CLIFF 在文本質(zhì)量上也比較接近SumRCL,但其在事實一致性上的提升卻偏低,又或者雖然QUALS-CONSEQ 在事實一致性的評估上很接近SumRCL,但在文本質(zhì)量的保留上卻又不太理想.這些都進一步說明了SumRCL 不僅有效提升了輸出摘要的事實一致性,并且在事實一致性和文本質(zhì)量的權(quán)衡上處于一種出色的水平.

表2則展示了不同方法在XSum 數(shù)據(jù)集上以PEGASUS-Large進行微調(diào)的實驗結(jié)果. 在該數(shù)據(jù)集里,SumRCL雖然在QAGS 指標的評估上不足于FactPEGASUS這種事實感知機制很強的模型,但在FactCC 的評估上要略勝一籌,而這也說明兩種不同范式的事實一致性評估與人類評估在不同情況下可能有著不同的相關(guān)性. 但不管怎樣,SumRCL 在文本質(zhì)量的評估上都是明顯優(yōu)于Fact?PEGASUS的. 另一方面,與EFactSum 相比,SumRCL 在FactCC 和QAGS 上分別提升了1.64和1.29個百分點,展現(xiàn)出更好的事實感知機制;而在Rouge1和RougeL上分別提升了0.79和0.37個百分點,在Rouge2上降低了0. 84個百分點. 綜合來看,SumRCL 在XSum 數(shù)據(jù)集上比EfactSum 也取得了更優(yōu)秀的事實一致性與文本質(zhì)量的權(quán)衡效果.

比較有意思的一點是,在兩個數(shù)據(jù)集上Sum?RCL相比于EFactSum 在事實一致性的提升上都比較明顯,但EFactSum 用來提升事實感知機制的對比學習和SumRCL 的很類似,而之所以會出現(xiàn)這種情況,我們認為有以下兩種原因:首先,EFact?Sum的方法通過篩選來讓排序后的候選摘要中的前一半都有較高Rouge 值,而后一半都有較低Rouge值,也就是把高文本質(zhì)量的保留機制融入了對比學習中,從而在訓練中保留較高文本質(zhì)量. 但這種方法一定程度上會犧牲對事實一致性的提升效果,比如其作者會從數(shù)據(jù)集里去掉一部分不符合相關(guān)需求的樣本,從而降低訓練的充分性;另一方面,SumRCL還結(jié)合了基于Rouge 指標的強化學習,雖然Rouge 指標在事實一致性上的評估與人工評估的相關(guān)性不好,但一般來說也是一種正相關(guān)[26,36],所以理論上這里的強化學習在很小的程度上也能提升事實一致性,并且在下文的消融實驗結(jié)果中我們還進一步展示了這一點. 所以結(jié)合這兩方面的原因,我們的SumRCL 在事實一致性的自動評估上還是優(yōu)于了EFactSum,但后者在文本質(zhì)量的保留上也有著獨特的思想,所以SumRCL在Rouge 指標上相比于它的提升顯得就比較局限,不過相對于其他模型就更為明顯了.

4. 4消融實驗

在消融實驗中,我們探究了強化學習和對比學習分別對SumRCL 整體模型的影響,結(jié)果如表3所示. 表里的CL 和RL 分別指對比學習和強化學習.

首先,SumRCL 在去掉對比學習機制后,雖然其Rouge 指標均有提升,在R1、R2、RL上分別提升了2.09、2. 67、3. 11個百分點,但在事實一致性上也有著明顯的下降,在FactCC和QAGS上分別下降了9. 04 和1. 89 個百分點. 這說明引入了3. 2 中介紹的對比學習后,SumRCL在事實感知上確實得到了優(yōu)化. 另外,F(xiàn)actCC 的提升幅度顯著高于QAGS,這是因為我們的對比學習在排序中用的指標本身就為FactCC.

而另一方面,SumRCL在去掉強化學習機制后,Rouge1、Rouge2、RougeL指標分別下降了4.21、4.45、4.97個百分點,表明了SumRCL 在引入3. 3節(jié)中介紹的強化學習后可以有效地保留高文本質(zhì)量. 并且可以看到,去掉強化學習只保留對比學習時,SumRCL 在事實感知機制上也有一定的下降,在FactCC 和QAGS 上分別下降了2. 32 和1. 56 個百分點,說明這種強化學習在一定程度上也能提升事實一致性,這也進一步解釋了在4. 3節(jié)中結(jié)尾處提到的情況.

總的來說,在消融實驗的結(jié)果中我們?yōu)镾um?RCL 引入的對比學習和強化學習都有很明顯的效果,進一步驗證了我們方法的可行性.

4. 5對排序指標進行探究

在本節(jié)中我們探究了SumRCL 在對比學習中采用不同排序指標的效果. 除了FactCC 外,我們還設立了3 種排序指標:FactCC 與QAGS 的結(jié)合、FactCC與Rouge 的結(jié)合以及QAGS 與Rouge 的結(jié)合,這里的結(jié)合指的是將兩種指標按一定權(quán)重相加. 并且考慮到QAGS指標容易產(chǎn)生極端的值(0或者1),我們便沒有將其單獨作為一種排序指標進行探究.

不同排序指標的實驗結(jié)果如表4所示. 當排序指標由原FactCC 結(jié)合了QAGS后,文本質(zhì)量上的變動很小. 而在事實一致性上,雖然QAGS 值提升了7.81個百分點,說明在排序指標中結(jié)合QAGS 值也確實能提高在該指標上的評估效果,但FactCC 卻下降了7.84個百分點,幅度略高于QAGS 值的提升,我們認為這有可能是因為為了提高QAGS,SumRCL傾向于生成更多的實體或名詞短語,而這又容易產(chǎn)生一些FactCC 比較敏感的幻覺內(nèi)容,導致FactCC 的評估也下降了不少,而且這一點在表2 中的QUALS-CONSEQ 評估結(jié)果也能得到反映,它專注于提升基于QA 值的評估指標且取得了顯著的效果,但FactCC 的評估卻很低.

另一方面,若排序指標同時結(jié)合FactCC和Rouge,雖然可以提升Rouge指標值,但Rouge1、Rouge2、RougeL的提升幅度分別只有0.44、0. 14、0. 41個百分點,而FactCC 和QAGS 卻分別下降了2.92與1.06個百分點. 兩類指標提升與下降的幅度差距較大,說明排序標準同時結(jié)合文本質(zhì)量與事實一致性的評估指標時在兩類指標評估的權(quán)衡上也不太亮眼,并且從表4 來看,盡管把FactCC 換成QAGS也同樣如此.

4.6對候選摘要數(shù)量進行研究

在本節(jié)中我們研究了SumRCL 在對比學習中選擇不同數(shù)量的候選摘要時的效果. 我們之前一直都把候選摘要數(shù)量設置為6,其中一半來自于基線模型,對應于較低的事實性,另一半則由當前的SOTA 生成,對應于較高的事實性. 現(xiàn)在我們把每個樣本的候選摘要數(shù)量分別調(diào)節(jié)為4、10 和16,并繼續(xù)保持兩種模型生成的摘要各占50% 的狀態(tài),在XSum 上的實驗結(jié)果如表5所示.

在表5中,我們可以發(fā)現(xiàn)隨著候選摘要數(shù)量增加,事實一致性評估大致呈上升的趨勢,而文本質(zhì)量的評估則呈下降的趨勢. 這與我們預想的一致,因為隨著候選摘要的增多,SumRCL 可以對一個樣本的更多可能的摘要進行事實一致性感知,在事實感知機制的優(yōu)化上就會更充分. 但另一方面,隨著候選摘要數(shù)量的增多,里面也很容易出現(xiàn)事實一致性高但文本質(zhì)量低的摘要,或者事實一致性低但文本質(zhì)量高的摘要,從而導致Rouge指標的評估下降. 并且此時即使采用EFactSum 的設置也不太方便,因為當候選摘要增多時,會更難保證排序后前一半摘要都有高Rouge 值,同時后一半摘要又都有低Rouge值.

同時,我們發(fā)現(xiàn)對于這四種不同的變體,候選摘要數(shù)量為6時可以取得最好的事實一致性與文本質(zhì)量的權(quán)衡效果. 比如與候選摘要數(shù)量為16 的變體相比,雖然FactCC 下降了3. 79個百分點,但Rouge1、Rouge2、RougeL和QAGS卻分別提升了4. 7、4. 85、5.28和1.64個百分點.

4. 7人工評估

為了完善評估結(jié)果,我們還采用了人工評估實驗,從XSum 數(shù)據(jù)集中隨機抽取100個樣本,來分別用CLIFF、EFactSum、ChatGPT 和SumRCL來生成摘要,并邀請了5 位英文流利的研究人員來為每份摘要的流暢度(Influency)、內(nèi)容顯著性(Saliency)和事實性(Factuality)分別給出0~5 的評分. 這里的流暢度對應于文本質(zhì)量,而內(nèi)容顯著性指的是摘要中包含原文重要性信息的占比,如果摘要包含了原文里較多不太重要的內(nèi)容,那么內(nèi)容顯著性就會較低.

人工評估的結(jié)果如表6 所示. 可以看出,我們提出的SumRCL 在事實性上得到了最高的人工評分,但在流暢度方面弱于ChatGPT,畢竟這種大語言模型在預訓練時本身就接觸到了更大規(guī)模的文本,也就學習到了更多的通用語言結(jié)構(gòu)和知識,但也因此更容易產(chǎn)生幻覺,再加上其在推理能力上不足的同時,且沒有專門為摘要任務引入事實感知機制,所以在事實性的評價上低于了SumRCL.而在內(nèi)容顯著性上,ChatGPT 也較低,我們認為這與它傾向于在生成的摘要中添加更多細節(jié)有關(guān).而EFactSum 雖然在內(nèi)容顯著性上有最高的評價,但也只是略高于SumRCL.

5結(jié)論

本文提出了一種在生成式摘要領域能提高事實感知機制的同時,又保留了高文本質(zhì)量的模型SumRCL. 它結(jié)合對比學習和強化學習兩種基于可區(qū)分度的方法,分別在BART 和PEGASUS兩個預訓練模型上進行微調(diào). 其中的對比學習為基于事實一致性指標排序的方法,使模型為摘要賦予的概率與該摘要的事實一致性擁有高度相關(guān)性. 而強化學習則采用帶有基線的策略梯度方法,其中的獎勵基于Rouge 指標,以在提升事實一致性的同時保留高度文本質(zhì)量. 我們通過實驗驗證了將這兩種方法相結(jié)合的可行性,并且就對比學習中的不同排序指標以及候選摘要數(shù)量進行了探究,通過實驗表明這兩種因素可以顯著影響最終的訓練效果并對其原因進行了分析. 我們還在人工評估中用SumRCL和當前熱門的大語言模型ChatGPT 進行了對比,表明SumRCL在文本質(zhì)量上雖不及ChatGPT,但在內(nèi)容顯著性以及事實性上要表現(xiàn)得更好. 在未來的工作中,研究者可以嘗試把這兩種方法相結(jié)合,以提升大語言模型在生成式摘要任務中的事實感知機制;或者以大語言模型對候選摘要的事實一致性評估結(jié)果來排序,以改進對比學習機制.

主站蜘蛛池模板: 国产成人精品优优av| 免费国产高清视频| 亚洲精品片911| 国产精品视频久| 日本三区视频| 日韩精品中文字幕一区三区| 伊人久综合| 亚洲精品第五页| 色综合成人| 午夜老司机永久免费看片| 精品久久综合1区2区3区激情| 青草娱乐极品免费视频| 一本大道AV人久久综合| 日韩国产亚洲一区二区在线观看| 日韩在线1| 久久96热在精品国产高清| 精品久久香蕉国产线看观看gif| 免费女人18毛片a级毛片视频| 国产打屁股免费区网站| 五月激情综合网| 亚洲欧洲日本在线| 日韩天堂视频| 日韩国产另类| 国产精品99久久久| www.亚洲国产| 毛片免费高清免费| 中国精品自拍| 日本a∨在线观看| 欧美色视频在线| 国产亚洲欧美在线专区| 亚洲一区无码在线| 色135综合网| 国产美女丝袜高潮| 亚洲成人黄色在线| 欧美色视频日本| 免费日韩在线视频| 亚洲福利视频一区二区| 午夜无码一区二区三区在线app| 一区二区三区国产精品视频| 国产在线观看高清不卡| 欧洲高清无码在线| 麻豆精品久久久久久久99蜜桃| 无码人妻免费| 波多野结衣二区| 国产欧美日韩专区发布| 中日韩一区二区三区中文免费视频 | 麻豆精品国产自产在线| 国产激情第一页| 亚洲第一在线播放| 亚洲精品在线影院| 伊人国产无码高清视频| 久久狠狠色噜噜狠狠狠狠97视色| 91精品国产丝袜| 四虎永久在线| 久久综合AV免费观看| 国产精品第5页| 欧美视频在线观看第一页| 国产午夜人做人免费视频中文| 黄网站欧美内射| 亚洲国产成人久久精品软件| 茄子视频毛片免费观看| 亚洲国产中文欧美在线人成大黄瓜| 日韩欧美中文字幕在线韩免费| 亚洲乱亚洲乱妇24p| 91外围女在线观看| 成人精品在线观看| 国产一区二区精品福利| 亚洲精品制服丝袜二区| 久久这里只有精品66| 亚洲国产成人综合精品2020| 国产精品网址你懂的| 国产自在自线午夜精品视频| 重口调教一区二区视频| 国产成人精品18| 亚洲精品无码AⅤ片青青在线观看| 综合色婷婷| 亚洲—日韩aV在线| 人妻精品久久久无码区色视| 伊人久久婷婷| 在线免费a视频| 国产在线日本| 欧美精品一二三区|