融合關(guān)鍵詞概率映射的漢越低資源跨語(yǔ)言摘要

2022-07-15 08:15:08李笑萌張亞飛郭軍軍高盛祥余正濤

廈門大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年4期

李笑萌，張亞飛，郭軍軍，高盛祥，余正濤

(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院，云南省人工智能重點(diǎn)實(shí)驗(yàn)室，云南昆明 650500)

跨語(yǔ)言摘要任務(wù)旨在為給定的一篇源語(yǔ)言文本生成另一種語(yǔ)言的摘要.跨語(yǔ)言摘要的傳統(tǒng)方法是將源語(yǔ)言文本翻譯到目標(biāo)語(yǔ)言，然后對(duì)翻譯后的文本進(jìn)行摘要[1-2]；或者先對(duì)源語(yǔ)言文本進(jìn)行摘要，然后將源語(yǔ)言摘要翻譯到目標(biāo)語(yǔ)言[3-5].然而，目前機(jī)器翻譯(MT)性能仍不能達(dá)到預(yù)期效果，存在結(jié)果錯(cuò)誤傳播的問(wèn)題，尤其針對(duì)越南語(yǔ)等低資源語(yǔ)言，錯(cuò)誤傳播的問(wèn)題更為顯著.

近年來(lái)，跨語(yǔ)言摘要任務(wù)的研究方法主要是基于端到端的跨語(yǔ)言摘要方法.Zhu等[6]基于端到端的模型，利用大規(guī)模跨語(yǔ)言摘要數(shù)據(jù)來(lái)實(shí)現(xiàn)跨語(yǔ)言摘要性能的提升，這也是第一個(gè)使用大規(guī)模的平行語(yǔ)料訓(xùn)練端到端跨語(yǔ)言摘要模型的方法，但是目前缺乏大規(guī)模高質(zhì)量的跨語(yǔ)言摘要數(shù)據(jù)集.為了在少量的標(biāo)注數(shù)據(jù)下使得端到端的跨語(yǔ)言摘要模型獲得更好的性能：Yana等[7]基于訓(xùn)練后的MT模型和單語(yǔ)摘要(MS)模型，將兩者作為教師模型來(lái)教授跨語(yǔ)言摘要的學(xué)生模型；后來(lái)，Duan等[8]將Transformer模型作為MS教師模型和學(xué)生模型的主干，進(jìn)一步提升摘要的質(zhì)量.但是這種教師-學(xué)生模型只能把有限的知識(shí)傳遞給學(xué)生模型.因此，為了使模型具備更好的跨語(yǔ)言學(xué)習(xí)的能力，基于預(yù)訓(xùn)練語(yǔ)言模型的跨語(yǔ)言摘要方法被提出，該方法通過(guò)預(yù)訓(xùn)練語(yǔ)言模型，使模型提前具備跨語(yǔ)言學(xué)習(xí)的能力，從而使模型獲得更好的性能.Xu等[9]提出了一種混合語(yǔ)言預(yù)訓(xùn)練模型，通過(guò)掩碼語(yǔ)言模型(MLM)、MS等進(jìn)行預(yù)訓(xùn)練，為了提高模型跨語(yǔ)言學(xué)習(xí)的能力，預(yù)先訓(xùn)練的模型基于MT模型等提前從大量MT標(biāo)注數(shù)據(jù)中學(xué)習(xí)語(yǔ)言知識(shí).以上跨語(yǔ)言摘要任務(wù)主要是在漢英等富資源情況下進(jìn)行，對(duì)于越南語(yǔ)等低資源語(yǔ)言情況并不適用.

目前，也有少量的研究是基于知識(shí)增強(qiáng)的方法來(lái)獲得較好的低資源跨語(yǔ)言摘要效果.Li等[10]提出自動(dòng)摘要的正確性問(wèn)題，通過(guò)聯(lián)合學(xué)習(xí)摘要生成和文本隱含知識(shí)，提出了隱含感知解碼器，通過(guò)用隱含信息豐富的編碼器和解碼器，來(lái)提高摘要的準(zhǔn)確性.該研究結(jié)果表明：通過(guò)文本隱含知識(shí)增強(qiáng)模型的表征可提高摘要的準(zhǔn)確性，這也說(shuō)明將基于知識(shí)的學(xué)習(xí)融入摘要模型對(duì)于摘要模型性能的提升非常重要.傳統(tǒng)的基于知識(shí)增強(qiáng)的跨語(yǔ)言摘要方法是通過(guò)構(gòu)建雙語(yǔ)詞典，將作為輸入的源語(yǔ)言文本和目標(biāo)語(yǔ)言的參考摘要通過(guò)對(duì)齊的雙語(yǔ)詞典映射至同一語(yǔ)義空間，實(shí)現(xiàn)跨語(yǔ)言摘要.但是對(duì)于越南語(yǔ)等低資源來(lái)講，獲取對(duì)齊的雙語(yǔ)詞典數(shù)據(jù)十分困難，較難實(shí)現(xiàn)跨語(yǔ)言語(yǔ)義對(duì)齊，而漢越概率映射對(duì)是一種針對(duì)語(yǔ)料庫(kù)級(jí)別的全局知識(shí)，能夠盡可能地反映雙語(yǔ)之間的對(duì)應(yīng)關(guān)系.基于數(shù)據(jù)驅(qū)動(dòng)的端到端的跨語(yǔ)言摘要模型在低資源情況下由于沒(méi)有先驗(yàn)知識(shí)指導(dǎo)，不能有效關(guān)注到源語(yǔ)言文本中的核心內(nèi)容，導(dǎo)致生成的摘要出現(xiàn)內(nèi)容偏差的問(wèn)題，而關(guān)鍵詞包含了源文的重要內(nèi)容，是對(duì)源文的有效增強(qiáng)，因此從源語(yǔ)言文本中挖掘關(guān)鍵詞信息并映射至目標(biāo)語(yǔ)言生成相關(guān)的上下文，對(duì)于生成簡(jiǎn)潔、語(yǔ)義正確的跨語(yǔ)言摘要尤為重要.2017年，See等[11]提出指針生成器網(wǎng)絡(luò)，實(shí)現(xiàn)了從源文本復(fù)制單詞.受See等[11]的啟發(fā)，本文認(rèn)為通過(guò)指針生成器網(wǎng)絡(luò)實(shí)現(xiàn)關(guān)鍵詞的概率映射作為先驗(yàn)知識(shí)，可以增強(qiáng)模型跨語(yǔ)言表征的能力，指導(dǎo)摘要的生成.因此，針對(duì)標(biāo)注數(shù)據(jù)稀缺導(dǎo)致的跨語(yǔ)言對(duì)齊困難等問(wèn)題，本文提出了關(guān)鍵詞概率映射，不僅關(guān)注了文本中的重要信息，且在一定程度上解決了跨語(yǔ)言對(duì)齊困難的問(wèn)題.總體來(lái)說(shuō)，本文的主要貢獻(xiàn)包括以下兩個(gè)方面：

1) 提出了融合關(guān)鍵詞概率映射的漢越低資源跨語(yǔ)言摘要方法(low resource cross-language summarization of Chinese-Vietnamese combined with keyword probability mapping，C-Vcls)，通過(guò)獲取關(guān)鍵詞的概率映射信息來(lái)改善漢越低資源跨語(yǔ)言摘要較難實(shí)現(xiàn)跨語(yǔ)言語(yǔ)義對(duì)齊，摘要質(zhì)量差的問(wèn)題；

2) 在構(gòu)建的10萬(wàn)漢越低資源跨語(yǔ)言摘要數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)，結(jié)果證明本文所提模型在漢越低資源跨語(yǔ)言摘要任務(wù)上的有效性和優(yōu)越性.

1 C-Vcls模型

本文C-Vcls模型基于Transformer框架，由融合關(guān)鍵詞概率映射的文本表征和融合關(guān)鍵詞概率映射的解碼端構(gòu)成，模型框架如圖1所示.首先，獲取源語(yǔ)言文本的關(guān)鍵詞G,與源語(yǔ)言文本X的隱狀態(tài)表征Z通過(guò)編解碼注意力機(jī)制獲取第s個(gè)關(guān)鍵詞與源語(yǔ)言文本的聯(lián)合表征?s,查詢得到每一個(gè)關(guān)鍵詞對(duì)應(yīng)漢越概率映射對(duì)中的源語(yǔ)言詞，通過(guò)注意力機(jī)制獲得第s個(gè)關(guān)鍵詞(詞向量表示為ws)對(duì)應(yīng)到目標(biāo)語(yǔ)言詞(詞向量表示為w)的概率P(ωs?ω),最后通過(guò)指針網(wǎng)絡(luò)，結(jié)合解碼端生成的目標(biāo)詞的概率大小PN(ω)獲得最后的分布P(ω).

1.1 融合關(guān)鍵詞概率映射的文本表征

給定一組跨語(yǔ)言摘要數(shù)據(jù)集D：D={X,Y},其中X為源語(yǔ)言文本輸入序列，即X={x1,x2,…,xn},Y為目標(biāo)語(yǔ)言參考摘要輸入序列，即Y={y1,y2,…,ym}.n,m跟隨源序列長(zhǎng)度變化，n>m.

編碼端輸入的源語(yǔ)言文本通過(guò)編碼器得到輸出的隱狀態(tài)表征Z,如式(1)所示.

Z=[z1,z2,…,zl,…,zn].

(1)

本文使用的關(guān)鍵詞抽取方法為關(guān)鍵詞提取算法TextRank[12].基于此算法，對(duì)每篇源語(yǔ)言文本提取q個(gè)最重要的關(guān)鍵詞，即關(guān)鍵詞集合G由式(2)所示：

G={g1,g2,…,gs,…,gq}=

TextRank(x1,x2,…,xn).

(2)

然后，通過(guò)編解碼注意力機(jī)制對(duì)關(guān)鍵詞和源語(yǔ)言文本進(jìn)行聯(lián)合表征，構(gòu)建關(guān)鍵詞到源語(yǔ)言文本的注意力，計(jì)算第s個(gè)關(guān)鍵詞gs對(duì)于源語(yǔ)言文本的注意力得分，如式(3)所示.

(3)

為了對(duì)關(guān)鍵詞信息進(jìn)行跨語(yǔ)言對(duì)齊，映射至目標(biāo)語(yǔ)言，本文采用漢越概率映射對(duì)進(jìn)行實(shí)現(xiàn).漢越概率映射對(duì)的構(gòu)建在本文構(gòu)建的漢越跨語(yǔ)言摘要數(shù)據(jù)集D上進(jìn)行.設(shè)C={c1,c2,…,ci,…,cj}為D中源語(yǔ)言詞的集合，V={v1,v2,…,vk,…,vr}為D中相對(duì)應(yīng)的目標(biāo)語(yǔ)言的映射候選詞的集合，j,r表示集合的大小.如圖1中概率映射對(duì)構(gòu)建模塊可知，在對(duì)應(yīng)關(guān)系中，可以映射為源語(yǔ)言詞“我”的映射候選詞有“Chúng”“ti”，其中“我→ti”表示一個(gè)映射對(duì)，利用統(tǒng)計(jì)的思想，即“我”映射為“Chúng”的概率為1/3，映射為“ti”的概率為2/3.為了實(shí)現(xiàn)這一功能，本文利用Dyer等[13]提出的快速對(duì)齊方法和統(tǒng)計(jì)的思想，通過(guò)快速對(duì)齊方法得到每一個(gè)源語(yǔ)言詞ci映射為目標(biāo)語(yǔ)言vk的概率為：

(4)

其中，ci→vk表示一個(gè)映射對(duì)，‖{ci|ci→vk}‖表示數(shù)據(jù)集D中源語(yǔ)言集合中所有滿足映射關(guān)系ci→vk的詞ci的個(gè)數(shù)，‖{vk|ci→vk}‖表示滿足映射關(guān)系ci→vk的映射候選詞vk的個(gè)數(shù)，PMP表示漢越概率映射對(duì)在數(shù)據(jù)集D中源語(yǔ)言詞可以映射為滿足映射關(guān)系的映射候選詞的概率.

為了將關(guān)鍵詞映射到目標(biāo)語(yǔ)言，本文使用了編解碼注意力機(jī)制查詢得到每一個(gè)關(guān)鍵詞對(duì)應(yīng)漢越映射對(duì)中的源語(yǔ)言詞，進(jìn)而得到該關(guān)鍵詞的映射候選詞.如圖1所示，為了將關(guān)鍵詞“我”映射至目標(biāo)語(yǔ)言，首先查詢得到“我”在漢越概率映射對(duì)中對(duì)應(yīng)的源語(yǔ)言詞的位置，進(jìn)而得到對(duì)應(yīng)的映射候選詞“Chúng”“ti”等，然后利用編解碼注意力機(jī)制，構(gòu)建關(guān)鍵詞到映射候選詞的注意力，即計(jì)算出每一個(gè)關(guān)鍵詞對(duì)應(yīng)其漢越映射概率對(duì)的映射概率，取其映射概率最大的映射候選詞“ti”作為目標(biāo)語(yǔ)言關(guān)鍵詞.具體如公式(5)所示.

圖1 融合關(guān)鍵詞概率映射的漢越低資源跨語(yǔ)言摘要方法框架Fig.1 Low resource cross-language summarization of Chinese-Vietnamese combined with Kp-mapping

(5)

1.2 融合關(guān)鍵詞概率映射信息的解碼端

在得到關(guān)鍵詞的概率映射信息后，融合模塊的功能是將關(guān)鍵詞概率映射信息融合到跨語(yǔ)言摘要生成過(guò)程中，指導(dǎo)摘要的生成.本文利用See等[11]提出的指針網(wǎng)絡(luò)，通過(guò)生成概率Pgen來(lái)確定最后生成的摘要詞匯分布.

使用O作為解碼器在時(shí)刻t的隱狀態(tài)，計(jì)算時(shí)刻t的生成概率Pgen,Pgen∈(0,1)，如式(6)所示.

Pgen=δ(W2(W1O+b1)+b2),

(6)

其中，W1∈Rdmodel×dmodel、W2∈R1×dmodel是學(xué)習(xí)矩陣，b1∈Rdmodel、b2∈R是偏置向量，dmodel表示此時(shí)隱狀態(tài)的維度，δ是sigmoid函數(shù).本文中，Pgen被用作一個(gè)軟開(kāi)關(guān)，用于選擇從解碼端生成一個(gè)單詞，或者選擇從關(guān)鍵詞中復(fù)制一個(gè)單詞.那么，生成一個(gè)單詞的概率P(ω)如式(7)所示.

P(ω)=Pgen∑s?sP(ωs?ω)+

(1-Pgen)PN(ω),

(7)

其中，P(ωs?ω)表示關(guān)鍵詞ωs映射到詞ω的概率大小，PN(ω)表示本模型的解碼端生成的詞ω的概率大小，P(ω)是通過(guò)生成概率Pgen決定的最終生成摘要的詞匯分布.

2 實(shí) 驗(yàn)

2.1 實(shí)驗(yàn)數(shù)據(jù)

本文數(shù)據(jù)來(lái)自互聯(lián)網(wǎng)爬取，基于Zhu等[6]提出的往返翻譯的策略，獲得了質(zhì)量較高的10萬(wàn)漢越、漢英跨語(yǔ)言摘要數(shù)據(jù)集(https:∥github.com/Lxmllx/C-Vcls-dataset/tree/master)，其中有效詞數(shù)為數(shù)據(jù)集文本分詞去重后的剩余詞數(shù).表1中列出了本文數(shù)據(jù)集的統(tǒng)計(jì)信息.分詞處理過(guò)程中，漢語(yǔ)使用結(jié)巴分詞，越南語(yǔ)使用Vu等[14]提出的VnCoreNLP進(jìn)行分詞，英語(yǔ)采用其本身的詞級(jí)結(jié)構(gòu).

表1 數(shù)據(jù)集統(tǒng)計(jì)結(jié)果

2.2 評(píng)價(jià)指標(biāo)

本文利用自動(dòng)摘要中常用的ROUGE(recall-oriented understudy for gisting evaluation)值作為評(píng)價(jià)指標(biāo)[15]，它通過(guò)比較候選摘要與參考摘要中共現(xiàn)的n元詞組(n-gram)來(lái)評(píng)價(jià)候選摘要的質(zhì)量，其計(jì)算方法為：

ROUGE-N=

(8)

其中，n-gram表示n元詞組，AR表示標(biāo)準(zhǔn)的參考摘要，As表示生成摘要句，N(n-gram)表示參考摘要中n元詞組的個(gè)數(shù)，Nmatch(n-gram)表示生成摘要句與參考摘要句共同包含的n元詞組的個(gè)數(shù).根據(jù)n-gram的不同，本文采用ROUGE-1(一元組、RG-1)，ROUGE-2(二元組、RG-2),ROUGE-L(最長(zhǎng)子序列、RG-L)來(lái)評(píng)價(jià)參考摘要的好壞.

2.3 實(shí)驗(yàn)?zāi)Ｐ蛥?shù)設(shè)置

本文所有實(shí)驗(yàn)均基于Transformer架構(gòu)，采用Adam優(yōu)化器，其中，β1=0.9,β2=0.998,ε=1×10-9.在訓(xùn)練過(guò)程中使用的標(biāo)簽平滑率els=0.1.在驗(yàn)證時(shí)使用波束大小為4且長(zhǎng)度罰分α=0.6的波束搜索.本文采用的學(xué)習(xí)率lr=0.1,批次大小設(shè)為2 048，dropout為0.1，編碼器和解碼器層數(shù)、模型隱層大小、前饋隱層大小和頭數(shù)分別為6，1 024，2 048和8.本文設(shè)置編解碼器詞表大小為：漢語(yǔ)10萬(wàn)，英語(yǔ)和越南語(yǔ)均為1萬(wàn)，未登錄詞使用來(lái)代替.本文實(shí)驗(yàn)中概率映射詞典的大小根據(jù)詞頻設(shè)置為39 311，關(guān)鍵詞個(gè)數(shù)根據(jù)摘要平均長(zhǎng)度取為5.本文所有實(shí)驗(yàn)均在單個(gè)NVIDIA RTX 2070 SUPER GPU上進(jìn)行.

2.4 基準(zhǔn)模型

本文選擇TETran、TLTran、NCLS模型作為基準(zhǔn)模型，所有基準(zhǔn)模型的訓(xùn)練集、驗(yàn)證集和測(cè)試集劃分均與本文模型相同.

1) TETran模型和TLTran模型為傳統(tǒng)的跨語(yǔ)言摘要模型，其中TETran模型表示先利用MT模型將源語(yǔ)言文本翻譯到目標(biāo)語(yǔ)言，然后使用LexRank[16]模型對(duì)翻譯后的源文檔進(jìn)行摘要.TLTran模型表示先利用MS模型對(duì)源語(yǔ)言文本進(jìn)行摘要，然后利用翻譯模型將生成的源語(yǔ)言摘要翻譯至目標(biāo)語(yǔ)言.

2) NCLS[6]模型是一種基于Transformer的端到端的跨語(yǔ)言摘要模型.

3) C-Vcls模型是本文實(shí)現(xiàn)的基于Transformer的序列到序列模型.此模型引入關(guān)鍵詞的概率映射信息作為先驗(yàn)知識(shí).

2.5 實(shí)驗(yàn)結(jié)果分析

2.5.1 實(shí)驗(yàn)結(jié)果

為了證明本文融合關(guān)鍵詞概率映射方法在漢越低資源跨語(yǔ)言摘要任務(wù)上的優(yōu)勢(shì)，將本文模型與現(xiàn)有基準(zhǔn)模型在漢越跨語(yǔ)言摘要數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比，表2給出了本文模型與基準(zhǔn)模型在漢越跨語(yǔ)言摘要測(cè)試集上的RG-1，RG-2和RG-L的對(duì)比結(jié)果.

表2 漢越跨語(yǔ)言摘要模型的實(shí)驗(yàn)結(jié)果對(duì)比

由表2可知：TLTran優(yōu)于TETran，說(shuō)明先翻譯后摘要的方法更容易受MT性能的影響，發(fā)生錯(cuò)誤傳播.C-Vcls模型與傳統(tǒng)的TLTran、TETran模型相比，在RG-1，RG-2和RG-L上分別取得了1.10，0.07，1.51和6.03，2.30，4.71個(gè)百分點(diǎn)的提升，這也說(shuō)明了不僅關(guān)鍵詞概率映射的策略可以有效緩解越南語(yǔ)MT性能不佳引起的摘要質(zhì)量差的問(wèn)題，通過(guò)獲得源文關(guān)鍵詞的聯(lián)合表征還可以獲得更好的上下文表示，使生成的摘要更精準(zhǔn).另外，C-Vcls模型與端到端的NCLS模型相比，在RG-1，RG-2和RG-L上取得了3.85，0.89，2.83個(gè)百分點(diǎn)的提升，相較于需要大規(guī)模語(yǔ)料的端到端的NCLS模型，本文構(gòu)建源文關(guān)鍵詞的聯(lián)合表征并融入關(guān)鍵詞的概率映射，通過(guò)先驗(yàn)知識(shí)增強(qiáng)模型的跨語(yǔ)言表征能力，降低了模型對(duì)語(yǔ)料規(guī)模的要求，從而取得了更優(yōu)的性能.因此，通過(guò)以上分析，可以得出明確結(jié)論：本文提出的關(guān)鍵詞概率映射方法是一種有效的方法，可以有效提高端到端模型的性能.

2.5.2 融合關(guān)鍵詞概率映射方法的有效性分析

在2.5.1節(jié)中，融合關(guān)鍵詞概率映射方法能有效提高端到端模型的性能.為了進(jìn)一步證明本文融合關(guān)鍵詞概率映射模塊在漢越低資源跨語(yǔ)言摘要任務(wù)上的合理性，本文設(shè)置了多組實(shí)驗(yàn)進(jìn)行驗(yàn)證.

1) 關(guān)鍵詞融入的有效性

表3中給出了關(guān)鍵詞個(gè)數(shù)q不同時(shí)，C-Vcls模型在漢越跨語(yǔ)言摘要測(cè)試集上的RG-1，RG-2，RG-L的比對(duì)結(jié)果.

表3 關(guān)鍵詞個(gè)數(shù)對(duì)C-Vcls模型的影響

分析表3可知，q=5時(shí)，模型取得了更優(yōu)的性能.隨著q從0增加到5，C-Vcls模型在漢越跨語(yǔ)言摘要測(cè)試集上指標(biāo)RG-1、RG-2和RG-L不斷增加.與q=0相比，q=5時(shí)在指標(biāo)RG-1、RG-2和RG-L上分別獲得了3.85、0.89、2.83個(gè)百分點(diǎn)的性能提升.原因可能是隨著關(guān)鍵詞個(gè)數(shù)的增多，獲得的文本關(guān)鍵信息越多，對(duì)摘要的指導(dǎo)性越強(qiáng)，獲得的摘要越可靠.綜上，表明了關(guān)鍵詞等先驗(yàn)知識(shí)對(duì)摘要模型的指導(dǎo)可以有效提升低資源摘要模型的性能.

2) 概率映射策略的有效性

為驗(yàn)證概率映射策略的有效性，本文在概率映射詞典的大小上進(jìn)行相關(guān)實(shí)驗(yàn).根據(jù)詞頻設(shè)置概率映射詞典大小為25 087，36 368，39 311，42 399，表4中給出了本文模型在漢越跨語(yǔ)言摘要數(shù)據(jù)集上的RG-1、RG-2、RG-L的比對(duì)結(jié)果，其中覆蓋率為概率映射詞典相對(duì)于關(guān)鍵詞詞數(shù)的占比(此處由TextRank得到的關(guān)鍵詞未進(jìn)行去重，故覆蓋率的分母不一樣).

表4 概率映射詞典對(duì)模型的影響

分析表4可知，概率映射詞典大小為39 311是性能最好的，在指標(biāo)RG-1、RG-2和RG-L上，相較概率映射詞典大小為25 087，36 368，42 339時(shí)分別有6.09，2.27，4.46，3.73，2.01，1.91；0.03，-0.01,0.04個(gè)百分點(diǎn)的提升.概率映射詞典大小為25 087時(shí)的漢越跨語(yǔ)言摘要效果較差，主要原因可能是覆蓋率僅有52.37%，此時(shí)詞典的噪聲較大，覆蓋率較低，在進(jìn)行映射時(shí)不能對(duì)關(guān)鍵詞進(jìn)行有效映射，導(dǎo)致部分關(guān)鍵詞不起作用，相對(duì)于其它模型的結(jié)果(表2)，甚至?xí)档驼男Ч坏窃诟怕视成湓~典為39 311和42 339時(shí)，摘要效果相對(duì)于其它模型的結(jié)果(表2)，仍有提升，但是兩者相差不大，這是由于最終生成摘要的單詞分布由概率映射詞典、翻譯概率、神經(jīng)網(wǎng)絡(luò)模型生成單詞的分布共同決定，可能產(chǎn)生的不確定性較大.綜上，說(shuō)明了概率映射詞典這一策略在漢越跨語(yǔ)言摘要任務(wù)上的有效性，但是概率映射詞典對(duì)于關(guān)鍵詞的覆蓋率在一定程度上影響了模型的性能.

3) 概率映射以及指針網(wǎng)絡(luò)對(duì)于C-Vcls模型的有效性

為驗(yàn)證本文所結(jié)合的概率映射以及指針網(wǎng)絡(luò)策略的作用，本文在漢越低資源跨語(yǔ)言摘要數(shù)據(jù)集上進(jìn)行相關(guān)實(shí)驗(yàn).其中，C-Vcls-MP模型是在C-Vcls模型的基礎(chǔ)上減少概率映射模塊，C-Vcls-PN模型是在C-Vcls模型的基礎(chǔ)上減少指針網(wǎng)絡(luò)模塊而選擇直接拼接Pgen∑s?sp(ws?w)與(1-Pgen)pN(w)的方式進(jìn)行關(guān)鍵詞的融合.

分析表5可知，C-Vcls模型取得了更好的效果.C-Vcls模型較C-Vcls-MP模型在指標(biāo)RG-1、RG-2和RG-L上取得了4.77，4.52和3.21個(gè)百分點(diǎn)的提升，該結(jié)果表明當(dāng)關(guān)鍵詞不進(jìn)行概率映射時(shí)，摘要結(jié)果下降最為嚴(yán)重且摘要性能低于NCLS模型，可能是由于關(guān)鍵詞不進(jìn)行映射時(shí)，會(huì)給模型引入更多的噪聲，說(shuō)明關(guān)鍵詞概率映射模塊在模型中起著至關(guān)重要的作用，能夠建模關(guān)鍵詞映射到目標(biāo)語(yǔ)言作為先驗(yàn)知識(shí)指導(dǎo)跨語(yǔ)言摘要的生成.而C-Vcls-PN模型相對(duì)于C-Vcls模型，在指標(biāo)RG-1、RG-2和RG-L上的性能分別下降了2.45，2.74和2.26個(gè)百分點(diǎn)；但是相較NCLS模型，RG-L指標(biāo)上仍然取得了0.57個(gè)百分點(diǎn)的增幅，這也說(shuō)明，盡管融合的方式不同，但是融入關(guān)鍵詞概率映射信息到端到端的模型中確實(shí)對(duì)模型性能的提升是有幫助的，而且指針網(wǎng)絡(luò)的融合方式優(yōu)于直接拼接的融合方式.綜合以上分析，本文所提概率映射以及指針網(wǎng)絡(luò)進(jìn)行融合的方式對(duì)模型的性能提升是有益的.

表5 概率映射、指針網(wǎng)絡(luò)對(duì)C-Vcls模型的影響

4) C-Vcls模型與基準(zhǔn)模型在漢英跨語(yǔ)言摘要測(cè)試集上的對(duì)比

為了驗(yàn)證本文所提模型的泛化性，本文在漢英跨語(yǔ)言摘要數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).表6給出了本文模型與基準(zhǔn)模型在漢英跨語(yǔ)言摘要數(shù)據(jù)集上的RG-1、RG-2和RG-L的比對(duì)結(jié)果.

表6 漢英跨語(yǔ)言摘要模型的實(shí)驗(yàn)結(jié)果對(duì)比

分析表6可知，本文模型的指標(biāo)均優(yōu)于基準(zhǔn)模型.C-Vcls模型較TLTran模型和TETran模型在指標(biāo)RG-1、RG-2、RG-L上分別有1.56，0.67，2.30和6.22，3.83，4.57個(gè)百分點(diǎn)的提升；較NCLS模型有5.30，3.67，2.98個(gè)百分點(diǎn)的提升.根據(jù)表2和6可以看出，同樣數(shù)量級(jí)的數(shù)據(jù)在同樣的基準(zhǔn)模型上，不同的數(shù)據(jù)集取得的結(jié)果有所差異，且在漢英跨語(yǔ)言摘要數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果低于漢越跨語(yǔ)言摘要數(shù)據(jù)集.主要原因是因?yàn)殡m然越南語(yǔ)和英文構(gòu)造的詞典均為1萬(wàn)，但根據(jù)越南語(yǔ)和英文文本構(gòu)造特點(diǎn)及本文數(shù)據(jù)集的有效詞數(shù)來(lái)看，越南語(yǔ)詞典對(duì)于測(cè)試集文本的覆蓋率高于英文詞典對(duì)于測(cè)試集文本的覆蓋率，即漢越跨語(yǔ)言摘要的實(shí)驗(yàn)結(jié)果沒(méi)有大量未登錄詞的出現(xiàn)，進(jìn)而提高了摘要的準(zhǔn)確性.但是，從實(shí)驗(yàn)結(jié)果依然可以看出，本文提出的引入具有引導(dǎo)性的關(guān)鍵詞概率映射的方法對(duì)于漢英跨語(yǔ)言摘要任務(wù)同樣有效，也證明了本文所提模型的泛化性.

2.6 實(shí)例分析

為了進(jìn)一步驗(yàn)證算法的有效性，本文列舉了不同模型的摘要結(jié)果.具體如表7所示，源語(yǔ)言文本與標(biāo)準(zhǔn)摘要都來(lái)自漢越跨語(yǔ)言摘要數(shù)據(jù)集.本文列舉出了所有基準(zhǔn)模型的輸出結(jié)果作為對(duì)比，為了便于理解，本文給出了對(duì)應(yīng)漢語(yǔ)的翻譯結(jié)果.

分析表7可知，源語(yǔ)言文本主要講述19名前往張家口的驢友被困海坨山，其中15名驢友失去聯(lián)系的事實(shí).由于模型限制，傳統(tǒng)模型TETran模型表達(dá)出了19名來(lái)自河北石家莊的朋友，但是并沒(méi)有表述出15名前往張家口的朋友在河北失去聯(lián)系的關(guān)鍵信息；TLTran模型表現(xiàn)相對(duì)較好，但是仍然沒(méi)有表輸出“張家口”的關(guān)鍵事實(shí).而對(duì)于端到端的C-Vcls模型和NCLS模型均能表達(dá)出“15名驢友”的主要信息，但是NCLS模型，并沒(méi)有體現(xiàn)出其“失去聯(lián)系”的關(guān)鍵信息，且內(nèi)容過(guò)于冗雜，而本文提出的融合關(guān)鍵詞概率映射的策略，獲取源文中的關(guān)鍵詞“北京”“失去”“聯(lián)系”等映射至目標(biāo)語(yǔ)言，通過(guò)有關(guān)鍵詞概率映射信息等具有引導(dǎo)性信息的融入增強(qiáng)了模型的跨語(yǔ)言表征能力，提高了摘要的信息覆蓋度以及事實(shí)性，生成質(zhì)量更高的文本摘要.

表7 不同模型生成摘要樣例

3 結(jié) 論

針對(duì)漢越低資源跨語(yǔ)言摘要，本文在Transformer框架下，提出關(guān)鍵詞概率映射方法.通過(guò)實(shí)驗(yàn)證明，在低資源情況下，通過(guò)獲取源語(yǔ)言文本的關(guān)鍵詞信息映射至目標(biāo)語(yǔ)言指導(dǎo)摘要生成的方式，對(duì)漢越低資源跨語(yǔ)言摘要任務(wù)存在一定的提升，通過(guò)實(shí)驗(yàn)也可以證明，利用關(guān)鍵詞概率映射信息可以為跨語(yǔ)言摘要模型提供更豐富的指導(dǎo)信息，也證明本文提出的方法對(duì)低資源跨語(yǔ)言摘要任務(wù)可能是更加有效的.多模態(tài)等多源信息是對(duì)文本內(nèi)容的高度概括，可以很好的對(duì)文本內(nèi)容進(jìn)行信息補(bǔ)充.因此，如何利用多模態(tài)信息對(duì)跨語(yǔ)言摘要進(jìn)行指導(dǎo)是下一步研究的重點(diǎn).