999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文新聞文本多文檔摘要生成

2023-10-12 01:28:56李寶安佘鑫鵬常振寧呂學(xué)強游新冬
計算機工程與設(shè)計 2023年9期
關(guān)鍵詞:機制文本融合

李寶安,佘鑫鵬,常振寧,呂學(xué)強,游新冬

(北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室,北京 100101)

0 引 言

隨著深度學(xué)習(xí)在文本摘要領(lǐng)域的不斷發(fā)展[1-5],基于深度學(xué)習(xí)的文本摘要技術(shù)[6],成為實現(xiàn)新聞自動化生產(chǎn)的方法之一。文本摘要技術(shù)始于抽取式摘要,近年逐漸發(fā)展為應(yīng)用深度學(xué)習(xí)技術(shù)的生成式摘要,而在生成式摘要的領(lǐng)域內(nèi),又逐漸由單文檔摘要發(fā)展為多文檔摘要。生成式摘要較抽取式摘要更簡潔連貫、概括性更強,多文檔摘要較單文檔摘要可處理更多文獻、摘要信息更豐富。多文檔生成式摘要技術(shù)既可用于生成文摘,亦可用于聚合式寫作,是新聞自動化生產(chǎn)的核心技術(shù)。

本文針對新聞自動化生產(chǎn)的問題,基于Transformer[7]和指針生成網(wǎng)絡(luò)[8],提出了一種面向中文新聞文本的多文檔生成式摘要模型:Transformer-PGN,該模型利用融合段落注意力機制的Transformer模型對中文文本進行特征表達和深層次的綜合特征抽取,捕獲跨文檔關(guān)系,再通過指針生成網(wǎng)絡(luò)生成聚合式新聞。實驗結(jié)果表明,該模型在中文多文檔摘要評測數(shù)據(jù)集WeiboSum上取得了良好的效果,Rouge-1、Rouge-2和Rouge-L分別提升了2.1%、2.4%和2.3%。

1 相關(guān)工作

在生成式摘要中,根據(jù)產(chǎn)生摘要的文檔數(shù)量可分為單文檔摘要、多文檔摘要。

單文檔生成式摘要指從一個文檔中生成一個摘要,摘要的句子由機器生成,生成方式接近于人的思考方式,摘要需簡潔凝練、具有一定的連貫性。近些年,生成式摘要的主流模型都是基于Seq2Seq框架[9]。Google提出基于指針生成網(wǎng)絡(luò)的單文檔生成式摘要模型[8]。該模型一方面通過Seq2Seq框架保持抽象生成摘要的能力,另一方面通過指針網(wǎng)絡(luò)從原文中取詞,提高了摘要的準(zhǔn)確度并解決了OOV問題。并使用覆蓋率機制來處理重復(fù)問題,提高生成摘要的準(zhǔn)確性。陳天池等[10]在傳統(tǒng)Seq2Seq框架的基礎(chǔ)上,解碼端融合了Attention機制,解決了Seq2Seq在解碼的時候無法獲得輸入序列足夠信息的問題。李大舟等[11]提出了基于編解碼器結(jié)構(gòu)的中文文本摘要模型,編碼器端將原始文本輸入到編碼器并結(jié)合雙向門控循環(huán)單元生成固定長度的語義向量,使用注意力機制分配每個輸入詞的權(quán)重來減少輸入序列信息的細節(jié)損失,解碼器端使用LSTM網(wǎng)絡(luò),融合先驗知識和集束搜索方法將語義向量解碼生成目標(biāo)文本摘要。從應(yīng)用的角度看,單文檔生成式摘要難以滿足從多篇文檔中生成摘要的場景,因為它無法從多個文檔中生成一個涵蓋不同中心點的、全面的摘要。

多文檔生成式摘要的目的是在一組主題相關(guān)的文檔中生成一個簡短而信息豐富的摘要。多文檔生成式摘要比單文檔生成式摘要更復(fù)雜、更難處理。這是因為在多文檔生成式摘要任務(wù)中,文檔之間有更多不同和沖突的信息。文檔通常較長,文檔之間的關(guān)系更加復(fù)雜。對于模型來說,保留復(fù)雜輸入序列中最關(guān)鍵的內(nèi)容,同時生成相關(guān)的、非冗余的、非事實錯誤和語法可讀的摘要是很有挑戰(zhàn)性的。Google提出基于Transformer的T-DMCA[12](transformer decoder with memory-compressed attention)多文檔生成式摘要模型,該模型包含一個抽取式模型和一個生成式模型,首先通過抽取式模型生成有序的段落列表,再通過生成式模型生成文本。該模型還提出memory-compressed注意力機制,該機制通過卷積神經(jīng)網(wǎng)絡(luò)壓縮多頭自注意力提高計算效率。但該模型未能捕獲跨文檔之間的關(guān)系。耶魯大學(xué)構(gòu)建了新聞領(lǐng)域第一個大規(guī)模多文檔摘要數(shù)據(jù)集Multi-News[13],并提出Hi-MAP(hierarchical MMR-attention pointer-generator model)多文檔生成式摘要模型。該模型通過集成的MMR(maximal marginal relevance)模塊計算句子的相關(guān)性和冗余性,從而計算候選句子的排名,然后通過指針生成網(wǎng)絡(luò)生成摘要。百度提出基于圖的多文檔生成式摘要模型GraphSum[14]。該模型包含Transformer編碼器、圖編碼器和圖解碼器。得益于圖形建模,該模型可以從長文檔中提取重要信息,并能夠更有效地生成連貫的摘要。在大規(guī)模多文檔摘要數(shù)據(jù)集WikiSum和MultiNews上的實驗結(jié)果表明,GraphSum相對于已有的生成式摘要方法具有較大的優(yōu)越性,在自動評價和人工評價兩種方式下的結(jié)果均有顯著提升。

雖然現(xiàn)有的工作為多文檔生成式摘要奠定了堅實的基礎(chǔ),但與單文檔生成式摘要和其它自然語言處理主題相比,它仍然是一個較少見的研究課題。目前,許多現(xiàn)有的基于深度學(xué)習(xí)的多文檔生成式摘要模型未考慮文檔之間的關(guān)系,從而忽略了多文檔中可能包含的相同、互補或矛盾的信息。捕獲跨文檔關(guān)系,有助于模型提取關(guān)鍵信息,提高摘要的相關(guān)性并降低冗余度。本文提出的Transformer-PGN模型利用融合段落注意力機制的Transformer結(jié)構(gòu)對中文文本進行特征表達和深層次的綜合特征抽取,并捕獲跨文檔關(guān)系;然后,通過結(jié)合coverage機制的PGN網(wǎng)絡(luò)生成更有效的摘要。

2 Transformer-PGN模型

本文使用WeiboSum數(shù)據(jù)集,模型的輸入為一組主題相關(guān)的多文檔,輸出為該組多文檔對應(yīng)的摘要。摘要來源于微博用戶參考消息、環(huán)球時報等發(fā)布的微博,多文檔來源于Google搜索引擎返回的前5個結(jié)果(檢索詞為摘要的前20個字符),每個文檔按換行符被切分為多個段落。由于輸入模型的段落較多且單個段落可能冗長,本文采用Rouge-2和Single-pass聚類算法選擇K個句子串聯(lián)作為模型輸入。對于所有的輸入段落 {P1,…,PL}, 采用Rouge-2計算每個段落與參考摘要的召回率,所有段落按召回率大小降序得到 {R1,…,RL}; 然后,對前L′個段落進行Single-pass聚類,得到K個段落組成的簇 {SP1,…,SPK}, 對于每個簇Si, 取簇內(nèi)一個段落,組成段落 {S1,…,SK}; 最后,將K個段落串聯(lián)為模型輸入。

本文的摘要模型如圖1所示。模型的基本結(jié)構(gòu)由編碼器和解碼器組成,編碼器將輸入文本表示成若干帶有語義向量的輸入序列,解碼器則從輸入序列中提取重要內(nèi)容,生成文本摘要輸出。模型的編碼器采用融合段落注意力機制的Transformer及雙向LSTM結(jié)構(gòu),模型的解碼器采用Vanilla Transformer、單向LSTM及指針網(wǎng)絡(luò),同時采用coverage機制避免生成重復(fù)內(nèi)容。

圖1 總體結(jié)構(gòu)

2.1 編碼器

2.1.1 嵌入層

嵌入層由詞嵌入層、詞位置嵌入層和段落位置嵌入層組成。嵌入層結(jié)構(gòu)如圖2所示。其中,位置嵌入層采用Sinusoidal位置編碼,Sinusoidal位置編碼通過使用不同頻率的正弦、余弦函數(shù)生成,公式如下

圖2 嵌入層結(jié)構(gòu)

epos[2i]=sin(pos/100002i/dmodel)

(1)

(2)

peij=[ei;ej]

(3)

(4)

2.1.2 Local Transformer層

Local Tranformer層對每個段落內(nèi)的詞進行編碼,其結(jié)構(gòu)同vanilla transformer[3]層,由以下兩個子層組成

h=LayerNorm(xl-1+MHAtt(xl-1))

(5)

xl=LayerNorm(h+FFN(h))

(6)

其中,LayerNorm為歸一化層;FFN為以ReLU為隱藏激活函數(shù)的兩層前饋神經(jīng)網(wǎng)絡(luò);MHAtt為Vaswani等介紹的多頭注意力機制,其結(jié)構(gòu)[7]如圖3所示,公式如下

圖3 multi-head attention結(jié)構(gòu)

MultiHead(Q,K,V)=Concat(head1,…,headh)Wo

(7)

(8)

圖4 Scaled Dot-Product Attention結(jié)構(gòu)

(9)

其中,dk指key的維度,softmax函數(shù)公式如下

(10)

2.1.3 Global Transformer層

Global Transformer層用于多個段落間交換信息。首先對每個段落采用段落注意力機制,使每個段落可以通過自注意力機制獲取其它段落的信息,從而生成一個可以捕獲所有上下文信息的上下文向量。然后,上下文向量經(jīng)線性變換,疊加至每個詞向量,并輸入至前饋神經(jīng)網(wǎng)絡(luò),全局性地更新每個詞的向量表示。

段落注意力機制與自注意力機制同理,每個段落通過計算注意力分布獲取其它段落的文本信息。

(11)

αij=softmax(eij)

(12)

(13)

(14)

(15)

其中,Wo1和Wo2是模型參數(shù)。

2.2 解碼器

模型的解碼器采用Transformer層和指針生成網(wǎng)絡(luò),同時采用coverage機制避免生成重復(fù)內(nèi)容。解碼器使用的指針生成網(wǎng)絡(luò)包含指針網(wǎng)絡(luò)、單向LSTM和注意力機制。Transformer層采用Vanilla Transformer結(jié)構(gòu),Transformer層的輸出編碼狀態(tài)hi作為單向LSTM網(wǎng)絡(luò)的輸入向量,在時間步t得到解碼狀態(tài)序列st。 該時間步輸入序列中第i個詞的注意力分布為at, 公式如下

(16)

(17)

(18)

(19)

(20)

其中,wh、ws、wx、bptr、σ、xt定義請參見文獻[8]。生成單詞w的概率分布計算公式如下

(21)

覆蓋率機制可以解決重復(fù)性問題,將先前時間步的注意力權(quán)重加到一起得到覆蓋向量ct, 用先前的注意力權(quán)重決策來影響當(dāng)前注意力權(quán)重的決策,這樣就避免在同一位置重復(fù),從而避免重復(fù)生成文本。覆蓋向量ct計算公式如下

(22)

(23)

其中,Wc為模型參數(shù)。

3 實驗與分析

3.1 實驗數(shù)據(jù)

本文的實驗數(shù)據(jù)采用WeiboSum中文多文檔摘要評測數(shù)據(jù)集,包含訓(xùn)練集新聞主題8000個,驗證集新聞主題1000個,測試集新聞主題1000個,其中,每個主題包含一篇新聞?wù)椭辽賰善侣勎臋n。

3.2 評價指標(biāo)

目前,多文檔摘要任務(wù)的評價指標(biāo)主要有Rouge和基于信息理論的評價標(biāo)準(zhǔn)。Rouge是一個評估指標(biāo)的集合,是許多自然語言處理,如機器翻譯、單文檔摘要和多文檔摘要任務(wù)等最基本的度量方法之一。通過將自動生成的摘要與一組相對應(yīng)的人工編寫的參考文獻逐詞進行比較,獲得預(yù)測/基準(zhǔn)事實的相似性評分。其評價原理是計算生成的摘要與參考摘要重疊的n-gram的召回率來衡量生成摘要質(zhì)量,值越大,生成的摘要質(zhì)量越高。常用指標(biāo)有Rouge-1,Rouge-2,其計算公式如下

(24)

其中,分子中的Countmatch(gramn) 表示生成摘要中與參考摘要中相同n元數(shù)目,分母中的Count(gramn) 為參考摘要中總的n元數(shù)目。

為了更好評價摘要,本文還采用了Rouge-L評價指標(biāo),Rouge-L指標(biāo)表達的是匹配兩個文本單元之間的最長公共序列,其計算公式如下

(25)

其中,LCS(X,Y) 是X和Y的最長公共子序列的長度,m表示參考摘要長度。

3.3 實驗環(huán)境及參數(shù)設(shè)置

本文實驗環(huán)境及參數(shù)設(shè)置見表1。

表1 實驗環(huán)境及參數(shù)設(shè)置

3.4 實驗結(jié)果與分析

為了驗證coverage機制對于基于指針生成網(wǎng)絡(luò)的多文檔生成式摘要的有效性,設(shè)置實驗2和實驗3;為了驗證在多文檔生成式摘要任務(wù)中指針生成網(wǎng)絡(luò)較Transformer模型的優(yōu)越性,設(shè)置實驗1和實驗3;為了驗證在指針生成網(wǎng)絡(luò)中采用Transformer結(jié)構(gòu)進行特征提取的有效性,設(shè)置實驗3和實驗4;為了驗證融合段落注意力機制的Transformer-PGN模型的有效性,設(shè)置實驗4和實驗5。具體實驗內(nèi)容如下:

實驗1:采用Transformer模型在WeiboSum數(shù)據(jù)集上進行多文檔生成式摘要任務(wù),實驗名稱記為Transformer。

實驗2:采用融合注意力機制的指針網(wǎng)絡(luò)在WeiboSum數(shù)據(jù)集上進行多文檔摘要任務(wù),實驗名稱記為PGN(wo coverage)。

實驗3:采用See等[8]提出的融合coverage機制的指針生成網(wǎng)絡(luò)在WeiboSum數(shù)據(jù)集上進行多文檔摘要任務(wù),實驗名稱記為PGN。

實驗4:采用本文提出的基于Transformer(未融合段落注意力機制)和指針生成網(wǎng)絡(luò)的多文檔生成式摘要模型WeiboSum數(shù)據(jù)集上進行多文檔摘要任務(wù),實驗名稱記為Transformer-PGN(wo paragragh attention)。

實驗5:采用本文提出的基于Transformer(融合段落注意力機制)和指針生成網(wǎng)絡(luò)的多文檔生成式摘要模型WeiboSum數(shù)據(jù)集上進行多文檔摘要任務(wù),實驗名稱記為Transformer-PGN。

5組實驗的結(jié)果如圖5和表2所示。

表2 各模型實驗結(jié)果

圖5 各模型實驗結(jié)果

為了驗證coverage機制對于基于指針生成網(wǎng)絡(luò)的多文檔生成式摘要的有效性,進行實驗2(PGN wo coverage)和實驗3(PGN)的對比實驗,實驗3(PGN)在實驗2(PGN wo coverage)的基礎(chǔ)上增加了coverage機制。增加coverage機制的指針生成網(wǎng)絡(luò)模型在Rouge-1、Rouge-2和Rouge-L上較未采用coverage機制的指針生成網(wǎng)絡(luò)模型都有略微提升,說明coverage機制可以提高基于指針生成網(wǎng)絡(luò)的多文檔生成式摘要的效果。

為了驗證在多文檔生成式摘要任務(wù)中指針生成網(wǎng)絡(luò)較Transformer模型的優(yōu)越性,設(shè)置實驗1(Transformer)和實驗3(PGN)的對比實驗。實驗結(jié)果表明,指針生成網(wǎng)絡(luò)在Rouge-1上較Transformer模型提升了0.9%,在Rouge-L上較Transformer模型提升了0.6%,在Rouge-2上于Transformer模型效果相同,說明在WeiboSum數(shù)據(jù)集上的多文檔生成式摘要任務(wù)中,指針生成網(wǎng)絡(luò)優(yōu)于Transformer模型。

為了驗證在指針生成網(wǎng)絡(luò)中融合Transformer結(jié)構(gòu)進行特征提取的有效性,設(shè)置實驗3(PGN)和實驗4(Transformer wo paragraph attention)的對比實驗。實驗結(jié)果表明,融合Transformer結(jié)構(gòu)的指針生成網(wǎng)絡(luò)較僅使用指針生成網(wǎng)絡(luò)在Rouge-1、Rouge-2和Rouge-L上均提升2%以上,說明在LSTM網(wǎng)絡(luò)的基礎(chǔ)上,融合Transformer結(jié)構(gòu)可以進行更深層次的特征提取。

為了驗證融合段落注意力機制的Transformer-PGN模型的有效性,設(shè)置實驗4(Transformer wo paragraph attention)和實驗5(Transformer-PGN)的對比實驗。增加段落注意力機制的Transformer-PGN模型較未使用段落注意力的模型在Rouge-1上提升了1.2%,在Rouge-L上提升了1.3%,在Rouge-2上提升了0.9%,說明了段落注意力機制可以實現(xiàn)對中文文本特征的更深層次抽取和對跨文檔關(guān)系的有效表達,使得模型對原文的理解更加充分,從而在多文檔生成式摘要任務(wù)中能夠有效提升模型性能。

綜上所述,融合段落注意力機制的Transformer-PGN模型在Rouge-1、Rouge-2和Rouge-L上均高于其它4個模型。采用融合段落注意力機制的Transformer結(jié)構(gòu)對中文文本進行編碼,可以對原文的上下文理解更加充分,生成語義信息更豐富的上下文向量;指針網(wǎng)絡(luò)可以更好的逐詞生成摘要;覆蓋率機制可以有效解決生成摘要詞語重復(fù)問題。顯然,本文提出的模型在所有實驗方法中效果最優(yōu),能夠結(jié)合上下文和段落關(guān)系對多文檔充分建模,更適合于多文檔生成式摘要任務(wù),較Transformer模型在3個指標(biāo)上均提升了3個百分點以上,充分驗證了本文所提方法的可行性和有效性。

4 結(jié)束語

本文針對中文新聞多文檔摘要文本特征抽取不充分、無法捕獲跨文檔關(guān)系和生成摘要內(nèi)容重復(fù)問題,提出了一種面向中文新聞文本的多文檔生成式摘要模型Transfor-mer-PGN,使用融合段落注意力機制的Transformer結(jié)構(gòu)和指針生成網(wǎng)絡(luò),最后結(jié)合coverage機制避免重復(fù)問題。實驗結(jié)果表明,Transformer-PGN模型在中文新聞多文檔摘要任務(wù)中,Rouge評測分?jǐn)?shù)均高于其它4個模型,生成的摘要結(jié)果更接近標(biāo)準(zhǔn)摘要,同時能有效減少生成重復(fù)內(nèi)容的問題,具有更高的正確性。未來將嘗試結(jié)合強化學(xué)習(xí)提升模型性能[15]。

猜你喜歡
機制文本融合
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
破除舊機制要分步推進
注重機制的相互配合
主站蜘蛛池模板: 国产97区一区二区三区无码| 无码电影在线观看| 青草精品视频| 暴力调教一区二区三区| 国产一级妓女av网站| 美女内射视频WWW网站午夜| 精品久久久久久成人AV| 成人国产一区二区三区| 重口调教一区二区视频| 在线精品自拍| 无码AV日韩一二三区| 日本91视频| 九色视频在线免费观看| 国产福利一区视频| 91口爆吞精国产对白第三集 | 国产69精品久久久久孕妇大杂乱| 国产精品一区在线观看你懂的| 免费在线看黄网址| 亚洲综合18p| 999福利激情视频| 欧美日韩在线成人| 欧美激情视频二区| 视频一区亚洲| 亚洲伦理一区二区| 日韩欧美国产成人| 久久精品一品道久久精品| 国产va在线观看| 国产亚洲精品97在线观看| 一本色道久久88亚洲综合| 午夜爽爽视频| 欧美成人h精品网站| 久草性视频| 亚洲综合经典在线一区二区| 亚洲av综合网| 国产精品夜夜嗨视频免费视频| 成人伊人色一区二区三区| 国模沟沟一区二区三区| 日本午夜精品一本在线观看| аⅴ资源中文在线天堂| 青青草原国产免费av观看| 国产成人久久777777| 国产91蝌蚪窝| 亚洲自拍另类| 久久国产精品电影| 香蕉伊思人视频| 欧美精品aⅴ在线视频| 国模私拍一区二区| 国产精品亚洲一区二区在线观看| 香蕉综合在线视频91| 亚洲日韩每日更新| 欧美日韩在线亚洲国产人| 国产精品综合久久久| 成人免费网站久久久| 中文字幕有乳无码| 国产性爱网站| 国产日韩欧美精品区性色| 在线中文字幕网| 国产成人久久综合777777麻豆| 成人在线亚洲| 高清国产在线| 国内精品久久九九国产精品| 青青国产视频| 三级欧美在线| 欧美怡红院视频一区二区三区| 久久久久人妻一区精品| 欧美中文字幕在线视频| 国产亚洲精品97在线观看| 久青草免费在线视频| 日韩午夜福利在线观看| 欧美激情综合一区二区| 午夜毛片免费观看视频 | 激情亚洲天堂| 色综合婷婷| 久久久精品无码一二三区| 亚洲国产欧美国产综合久久 | 不卡无码网| 久久网综合| 欧美日韩国产综合视频在线观看| 日韩精品专区免费无码aⅴ| 91欧洲国产日韩在线人成| 国产亚洲日韩av在线| 热伊人99re久久精品最新地|