999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合關(guān)鍵詞概率映射的漢越低資源跨語(yǔ)言摘要

2022-07-15 08:15:08李笑萌張亞飛郭軍軍高盛祥余正濤
關(guān)鍵詞:文本融合語(yǔ)言

李笑萌,張亞飛,郭軍軍,高盛祥,余正濤

(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)

跨語(yǔ)言摘要任務(wù)旨在為給定的一篇源語(yǔ)言文本生成另一種語(yǔ)言的摘要.跨語(yǔ)言摘要的傳統(tǒng)方法是將源語(yǔ)言文本翻譯到目標(biāo)語(yǔ)言,然后對(duì)翻譯后的文本進(jìn)行摘要[1-2];或者先對(duì)源語(yǔ)言文本進(jìn)行摘要,然后將源語(yǔ)言摘要翻譯到目標(biāo)語(yǔ)言[3-5].然而,目前機(jī)器翻譯(MT)性能仍不能達(dá)到預(yù)期效果,存在結(jié)果錯(cuò)誤傳播的問(wèn)題,尤其針對(duì)越南語(yǔ)等低資源語(yǔ)言,錯(cuò)誤傳播的問(wèn)題更為顯著.

近年來(lái),跨語(yǔ)言摘要任務(wù)的研究方法主要是基于端到端的跨語(yǔ)言摘要方法.Zhu等[6]基于端到端的模型,利用大規(guī)模跨語(yǔ)言摘要數(shù)據(jù)來(lái)實(shí)現(xiàn)跨語(yǔ)言摘要性能的提升,這也是第一個(gè)使用大規(guī)模的平行語(yǔ)料訓(xùn)練端到端跨語(yǔ)言摘要模型的方法,但是目前缺乏大規(guī)模高質(zhì)量的跨語(yǔ)言摘要數(shù)據(jù)集.為了在少量的標(biāo)注數(shù)據(jù)下使得端到端的跨語(yǔ)言摘要模型獲得更好的性能:Yana等[7]基于訓(xùn)練后的MT模型和單語(yǔ)摘要(MS)模型,將兩者作為教師模型來(lái)教授跨語(yǔ)言摘要的學(xué)生模型;后來(lái),Duan等[8]將Transformer模型作為MS教師模型和學(xué)生模型的主干,進(jìn)一步提升摘要的質(zhì)量.但是這種教師-學(xué)生模型只能把有限的知識(shí)傳遞給學(xué)生模型.因此,為了使模型具備更好的跨語(yǔ)言學(xué)習(xí)的能力,基于預(yù)訓(xùn)練語(yǔ)言模型的跨語(yǔ)言摘要方法被提出,該方法通過(guò)預(yù)訓(xùn)練語(yǔ)言模型,使模型提前具備跨語(yǔ)言學(xué)習(xí)的能力,從而使模型獲得更好的性能.Xu等[9]提出了一種混合語(yǔ)言預(yù)訓(xùn)練模型,通過(guò)掩碼語(yǔ)言模型(MLM)、MS等進(jìn)行預(yù)訓(xùn)練,為了提高模型跨語(yǔ)言學(xué)習(xí)的能力,預(yù)先訓(xùn)練的模型基于MT模型等提前從大量MT標(biāo)注數(shù)據(jù)中學(xué)習(xí)語(yǔ)言知識(shí).以上跨語(yǔ)言摘要任務(wù)主要是在漢英等富資源情況下進(jìn)行,對(duì)于越南語(yǔ)等低資源語(yǔ)言情況并不適用.

目前,也有少量的研究是基于知識(shí)增強(qiáng)的方法來(lái)獲得較好的低資源跨語(yǔ)言摘要效果.Li等[10]提出自動(dòng)摘要的正確性問(wèn)題,通過(guò)聯(lián)合學(xué)習(xí)摘要生成和文本隱含知識(shí),提出了隱含感知解碼器,通過(guò)用隱含信息豐富的編碼器和解碼器,來(lái)提高摘要的準(zhǔn)確性.該研究結(jié)果表明:通過(guò)文本隱含知識(shí)增強(qiáng)模型的表征可提高摘要的準(zhǔn)確性,這也說(shuō)明將基于知識(shí)的學(xué)習(xí)融入摘要模型對(duì)于摘要模型性能的提升非常重要.傳統(tǒng)的基于知識(shí)增強(qiáng)的跨語(yǔ)言摘要方法是通過(guò)構(gòu)建雙語(yǔ)詞典,將作為輸入的源語(yǔ)言文本和目標(biāo)語(yǔ)言的參考摘要通過(guò)對(duì)齊的雙語(yǔ)詞典映射至同一語(yǔ)義空間,實(shí)現(xiàn)跨語(yǔ)言摘要.但是對(duì)于越南語(yǔ)等低資源來(lái)講,獲取對(duì)齊的雙語(yǔ)詞典數(shù)據(jù)十分困難,較難實(shí)現(xiàn)跨語(yǔ)言語(yǔ)義對(duì)齊,而漢越概率映射對(duì)是一種針對(duì)語(yǔ)料庫(kù)級(jí)別的全局知識(shí),能夠盡可能地反映雙語(yǔ)之間的對(duì)應(yīng)關(guān)系.基于數(shù)據(jù)驅(qū)動(dòng)的端到端的跨語(yǔ)言摘要模型在低資源情況下由于沒(méi)有先驗(yàn)知識(shí)指導(dǎo),不能有效關(guān)注到源語(yǔ)言文本中的核心內(nèi)容,導(dǎo)致生成的摘要出現(xiàn)內(nèi)容偏差的問(wèn)題,而關(guān)鍵詞包含了源文的重要內(nèi)容,是對(duì)源文的有效增強(qiáng),因此從源語(yǔ)言文本中挖掘關(guān)鍵詞信息并映射至目標(biāo)語(yǔ)言生成相關(guān)的上下文,對(duì)于生成簡(jiǎn)潔、語(yǔ)義正確的跨語(yǔ)言摘要尤為重要.2017年,See等[11]提出指針生成器網(wǎng)絡(luò),實(shí)現(xiàn)了從源文本復(fù)制單詞.受See等[11]的啟發(fā),本文認(rèn)為通過(guò)指針生成器網(wǎng)絡(luò)實(shí)現(xiàn)關(guān)鍵詞的概率映射作為先驗(yàn)知識(shí),可以增強(qiáng)模型跨語(yǔ)言表征的能力,指導(dǎo)摘要的生成.因此,針對(duì)標(biāo)注數(shù)據(jù)稀缺導(dǎo)致的跨語(yǔ)言對(duì)齊困難等問(wèn)題,本文提出了關(guān)鍵詞概率映射,不僅關(guān)注了文本中的重要信息,且在一定程度上解決了跨語(yǔ)言對(duì)齊困難的問(wèn)題.總體來(lái)說(shuō),本文的主要貢獻(xiàn)包括以下兩個(gè)方面:

1) 提出了融合關(guān)鍵詞概率映射的漢越低資源跨語(yǔ)言摘要方法(low resource cross-language summarization of Chinese-Vietnamese combined with keyword probability mapping,C-Vcls),通過(guò)獲取關(guān)鍵詞的概率映射信息來(lái)改善漢越低資源跨語(yǔ)言摘要較難實(shí)現(xiàn)跨語(yǔ)言語(yǔ)義對(duì)齊,摘要質(zhì)量差的問(wèn)題;

2) 在構(gòu)建的10萬(wàn)漢越低資源跨語(yǔ)言摘要數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果證明本文所提模型在漢越低資源跨語(yǔ)言摘要任務(wù)上的有效性和優(yōu)越性.

1 C-Vcls模型

本文C-Vcls模型基于Transformer框架,由融合關(guān)鍵詞概率映射的文本表征和融合關(guān)鍵詞概率映射的解碼端構(gòu)成,模型框架如圖1所示.首先,獲取源語(yǔ)言文本的關(guān)鍵詞G,與源語(yǔ)言文本X的隱狀態(tài)表征Z通過(guò)編解碼注意力機(jī)制獲取第s個(gè)關(guān)鍵詞與源語(yǔ)言文本的聯(lián)合表征?s,查詢得到每一個(gè)關(guān)鍵詞對(duì)應(yīng)漢越概率映射對(duì)中的源語(yǔ)言詞,通過(guò)注意力機(jī)制獲得第s個(gè)關(guān)鍵詞(詞向量表示為ws)對(duì)應(yīng)到目標(biāo)語(yǔ)言詞(詞向量表示為w)的概率P(ωs?ω),最后通過(guò)指針網(wǎng)絡(luò),結(jié)合解碼端生成的目標(biāo)詞的概率大小PN(ω)獲得最后的分布P(ω).

1.1 融合關(guān)鍵詞概率映射的文本表征

給定一組跨語(yǔ)言摘要數(shù)據(jù)集D:D={X,Y},其中X為源語(yǔ)言文本輸入序列,即X={x1,x2,…,xn},Y為目標(biāo)語(yǔ)言參考摘要輸入序列,即Y={y1,y2,…,ym}.n,m跟隨源序列長(zhǎng)度變化,n>m.

編碼端輸入的源語(yǔ)言文本通過(guò)編碼器得到輸出的隱狀態(tài)表征Z,如式(1)所示.

Z=[z1,z2,…,zl,…,zn].

(1)

本文使用的關(guān)鍵詞抽取方法為關(guān)鍵詞提取算法TextRank[12].基于此算法,對(duì)每篇源語(yǔ)言文本提取q個(gè)最重要的關(guān)鍵詞,即關(guān)鍵詞集合G由式(2)所示:

G={g1,g2,…,gs,…,gq}=

TextRank(x1,x2,…,xn).

(2)

然后,通過(guò)編解碼注意力機(jī)制對(duì)關(guān)鍵詞和源語(yǔ)言文本進(jìn)行聯(lián)合表征,構(gòu)建關(guān)鍵詞到源語(yǔ)言文本的注意力,計(jì)算第s個(gè)關(guān)鍵詞gs對(duì)于源語(yǔ)言文本的注意力得分,如式(3)所示.

(3)

為了對(duì)關(guān)鍵詞信息進(jìn)行跨語(yǔ)言對(duì)齊,映射至目標(biāo)語(yǔ)言,本文采用漢越概率映射對(duì)進(jìn)行實(shí)現(xiàn).漢越概率映射對(duì)的構(gòu)建在本文構(gòu)建的漢越跨語(yǔ)言摘要數(shù)據(jù)集D上進(jìn)行.設(shè)C={c1,c2,…,ci,…,cj}為D中源語(yǔ)言詞的集合,V={v1,v2,…,vk,…,vr}為D中相對(duì)應(yīng)的目標(biāo)語(yǔ)言的映射候選詞的集合,j,r表示集合的大小.如圖1中概率映射對(duì)構(gòu)建模塊可知,在對(duì)應(yīng)關(guān)系中,可以映射為源語(yǔ)言詞“我”的映射候選詞有“Chúng”“ti”,其中“我→ti”表示一個(gè)映射對(duì),利用統(tǒng)計(jì)的思想,即“我”映射為“Chúng”的概率為1/3,映射為“ti”的概率為2/3.為了實(shí)現(xiàn)這一功能,本文利用Dyer等[13]提出的快速對(duì)齊方法和統(tǒng)計(jì)的思想,通過(guò)快速對(duì)齊方法得到每一個(gè)源語(yǔ)言詞ci映射為目標(biāo)語(yǔ)言vk的概率為:

(4)

其中,ci→vk表示一個(gè)映射對(duì),‖{ci|ci→vk}‖表示數(shù)據(jù)集D中源語(yǔ)言集合中所有滿足映射關(guān)系ci→vk的詞ci的個(gè)數(shù),‖{vk|ci→vk}‖表示滿足映射關(guān)系ci→vk的映射候選詞vk的個(gè)數(shù),PMP表示漢越概率映射對(duì)在數(shù)據(jù)集D中源語(yǔ)言詞可以映射為滿足映射關(guān)系的映射候選詞的概率.

為了將關(guān)鍵詞映射到目標(biāo)語(yǔ)言,本文使用了編解碼注意力機(jī)制查詢得到每一個(gè)關(guān)鍵詞對(duì)應(yīng)漢越映射對(duì)中的源語(yǔ)言詞,進(jìn)而得到該關(guān)鍵詞的映射候選詞.如圖1所示,為了將關(guān)鍵詞“我”映射至目標(biāo)語(yǔ)言,首先查詢得到“我”在漢越概率映射對(duì)中對(duì)應(yīng)的源語(yǔ)言詞的位置,進(jìn)而得到對(duì)應(yīng)的映射候選詞“Chúng”“ti”等,然后利用編解碼注意力機(jī)制,構(gòu)建關(guān)鍵詞到映射候選詞的注意力,即計(jì)算出每一個(gè)關(guān)鍵詞對(duì)應(yīng)其漢越映射概率對(duì)的映射概率,取其映射概率最大的映射候選詞“ti”作為目標(biāo)語(yǔ)言關(guān)鍵詞.具體如公式(5)所示.

圖1 融合關(guān)鍵詞概率映射的漢越低資源跨語(yǔ)言摘要方法框架Fig.1 Low resource cross-language summarization of Chinese-Vietnamese combined with Kp-mapping

(5)

1.2 融合關(guān)鍵詞概率映射信息的解碼端

在得到關(guān)鍵詞的概率映射信息后,融合模塊的功能是將關(guān)鍵詞概率映射信息融合到跨語(yǔ)言摘要生成過(guò)程中,指導(dǎo)摘要的生成.本文利用See等[11]提出的指針網(wǎng)絡(luò),通過(guò)生成概率Pgen來(lái)確定最后生成的摘要詞匯分布.

使用O作為解碼器在時(shí)刻t的隱狀態(tài),計(jì)算時(shí)刻t的生成概率Pgen,Pgen∈(0,1),如式(6)所示.

Pgen=δ(W2(W1O+b1)+b2),

(6)

其中,W1∈Rdmodel×dmodel、W2∈R1×dmodel是學(xué)習(xí)矩陣,b1∈Rdmodel、b2∈R是偏置向量,dmodel表示此時(shí)隱狀態(tài)的維度,δ是sigmoid函數(shù).本文中,Pgen被用作一個(gè)軟開(kāi)關(guān),用于選擇從解碼端生成一個(gè)單詞,或者選擇從關(guān)鍵詞中復(fù)制一個(gè)單詞.那么,生成一個(gè)單詞的概率P(ω)如式(7)所示.

P(ω)=Pgen∑s?sP(ωs?ω)+

(1-Pgen)PN(ω),

(7)

其中,P(ωs?ω)表示關(guān)鍵詞ωs映射到詞ω的概率大小,PN(ω)表示本模型的解碼端生成的詞ω的概率大小,P(ω)是通過(guò)生成概率Pgen決定的最終生成摘要的詞匯分布.

2 實(shí) 驗(yàn)

2.1 實(shí)驗(yàn)數(shù)據(jù)

本文數(shù)據(jù)來(lái)自互聯(lián)網(wǎng)爬取,基于Zhu等[6]提出的往返翻譯的策略,獲得了質(zhì)量較高的10萬(wàn)漢越、漢英跨語(yǔ)言摘要數(shù)據(jù)集(https:∥github.com/Lxmllx/C-Vcls-dataset/tree/master),其中有效詞數(shù)為數(shù)據(jù)集文本分詞去重后的剩余詞數(shù).表1中列出了本文數(shù)據(jù)集的統(tǒng)計(jì)信息.分詞處理過(guò)程中,漢語(yǔ)使用結(jié)巴分詞,越南語(yǔ)使用Vu等[14]提出的VnCoreNLP進(jìn)行分詞,英語(yǔ)采用其本身的詞級(jí)結(jié)構(gòu).

表1 數(shù)據(jù)集統(tǒng)計(jì)結(jié)果

2.2 評(píng)價(jià)指標(biāo)

本文利用自動(dòng)摘要中常用的ROUGE(recall-oriented understudy for gisting evaluation)值作為評(píng)價(jià)指標(biāo)[15],它通過(guò)比較候選摘要與參考摘要中共現(xiàn)的n元詞組(n-gram)來(lái)評(píng)價(jià)候選摘要的質(zhì)量,其計(jì)算方法為:

ROUGE-N=

(8)

其中,n-gram表示n元詞組,AR表示標(biāo)準(zhǔn)的參考摘要,As表示生成摘要句,N(n-gram)表示參考摘要中n元詞組的個(gè)數(shù),Nmatch(n-gram)表示生成摘要句與參考摘要句共同包含的n元詞組的個(gè)數(shù).根據(jù)n-gram的不同,本文采用ROUGE-1(一元組、RG-1),ROUGE-2(二元組、RG-2),ROUGE-L(最長(zhǎng)子序列、RG-L)來(lái)評(píng)價(jià)參考摘要的好壞.

2.3 實(shí)驗(yàn)?zāi)P蛥?shù)設(shè)置

本文所有實(shí)驗(yàn)均基于Transformer架構(gòu),采用Adam優(yōu)化器,其中,β1=0.9,β2=0.998,ε=1×10-9.在訓(xùn)練過(guò)程中使用的標(biāo)簽平滑率els=0.1.在驗(yàn)證時(shí)使用波束大小為4且長(zhǎng)度罰分α=0.6的波束搜索.本文采用的學(xué)習(xí)率lr=0.1,批次大小設(shè)為2 048,dropout為0.1,編碼器和解碼器層數(shù)、模型隱層大小、前饋隱層大小和頭數(shù)分別為6,1 024,2 048和8.本文設(shè)置編解碼器詞表大小為:漢語(yǔ)10萬(wàn),英語(yǔ)和越南語(yǔ)均為1萬(wàn),未登錄詞使用來(lái)代替.本文實(shí)驗(yàn)中概率映射詞典的大小根據(jù)詞頻設(shè)置為39 311,關(guān)鍵詞個(gè)數(shù)根據(jù)摘要平均長(zhǎng)度取為5.本文所有實(shí)驗(yàn)均在單個(gè)NVIDIA RTX 2070 SUPER GPU上進(jìn)行.

2.4 基準(zhǔn)模型

本文選擇TETran、TLTran、NCLS模型作為基準(zhǔn)模型,所有基準(zhǔn)模型的訓(xùn)練集、驗(yàn)證集和測(cè)試集劃分均與本文模型相同.

1) TETran模型和TLTran模型為傳統(tǒng)的跨語(yǔ)言摘要模型,其中TETran模型表示先利用MT模型將源語(yǔ)言文本翻譯到目標(biāo)語(yǔ)言,然后使用LexRank[16]模型對(duì)翻譯后的源文檔進(jìn)行摘要.TLTran模型表示先利用MS模型對(duì)源語(yǔ)言文本進(jìn)行摘要,然后利用翻譯模型將生成的源語(yǔ)言摘要翻譯至目標(biāo)語(yǔ)言.

2) NCLS[6]模型是一種基于Transformer的端到端的跨語(yǔ)言摘要模型.

3) C-Vcls模型是本文實(shí)現(xiàn)的基于Transformer的序列到序列模型.此模型引入關(guān)鍵詞的概率映射信息作為先驗(yàn)知識(shí).

2.5 實(shí)驗(yàn)結(jié)果分析

2.5.1 實(shí)驗(yàn)結(jié)果

為了證明本文融合關(guān)鍵詞概率映射方法在漢越低資源跨語(yǔ)言摘要任務(wù)上的優(yōu)勢(shì),將本文模型與現(xiàn)有基準(zhǔn)模型在漢越跨語(yǔ)言摘要數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,表2給出了本文模型與基準(zhǔn)模型在漢越跨語(yǔ)言摘要測(cè)試集上的RG-1,RG-2和RG-L的對(duì)比結(jié)果.

表2 漢越跨語(yǔ)言摘要模型的實(shí)驗(yàn)結(jié)果對(duì)比

由表2可知:TLTran優(yōu)于TETran,說(shuō)明先翻譯后摘要的方法更容易受MT性能的影響,發(fā)生錯(cuò)誤傳播.C-Vcls模型與傳統(tǒng)的TLTran、TETran模型相比,在RG-1,RG-2和RG-L上分別取得了1.10,0.07,1.51和6.03,2.30,4.71個(gè)百分點(diǎn)的提升,這也說(shuō)明了不僅關(guān)鍵詞概率映射的策略可以有效緩解越南語(yǔ)MT性能不佳引起的摘要質(zhì)量差的問(wèn)題,通過(guò)獲得源文關(guān)鍵詞的聯(lián)合表征還可以獲得更好的上下文表示,使生成的摘要更精準(zhǔn).另外,C-Vcls模型與端到端的NCLS模型相比,在RG-1,RG-2和RG-L上取得了3.85,0.89,2.83個(gè)百分點(diǎn)的提升,相較于需要大規(guī)模語(yǔ)料的端到端的NCLS模型,本文構(gòu)建源文關(guān)鍵詞的聯(lián)合表征并融入關(guān)鍵詞的概率映射,通過(guò)先驗(yàn)知識(shí)增強(qiáng)模型的跨語(yǔ)言表征能力,降低了模型對(duì)語(yǔ)料規(guī)模的要求,從而取得了更優(yōu)的性能.因此,通過(guò)以上分析,可以得出明確結(jié)論:本文提出的關(guān)鍵詞概率映射方法是一種有效的方法,可以有效提高端到端模型的性能.

2.5.2 融合關(guān)鍵詞概率映射方法的有效性分析

在2.5.1節(jié)中,融合關(guān)鍵詞概率映射方法能有效提高端到端模型的性能.為了進(jìn)一步證明本文融合關(guān)鍵詞概率映射模塊在漢越低資源跨語(yǔ)言摘要任務(wù)上的合理性,本文設(shè)置了多組實(shí)驗(yàn)進(jìn)行驗(yàn)證.

1) 關(guān)鍵詞融入的有效性

表3中給出了關(guān)鍵詞個(gè)數(shù)q不同時(shí),C-Vcls模型在漢越跨語(yǔ)言摘要測(cè)試集上的RG-1,RG-2,RG-L的比對(duì)結(jié)果.

表3 關(guān)鍵詞個(gè)數(shù)對(duì)C-Vcls模型的影響

分析表3可知,q=5時(shí),模型取得了更優(yōu)的性能.隨著q從0增加到5,C-Vcls模型在漢越跨語(yǔ)言摘要測(cè)試集上指標(biāo)RG-1、RG-2和RG-L不斷增加.與q=0相比,q=5時(shí)在指標(biāo)RG-1、RG-2和RG-L上分別獲得了3.85、0.89、2.83個(gè)百分點(diǎn)的性能提升.原因可能是隨著關(guān)鍵詞個(gè)數(shù)的增多,獲得的文本關(guān)鍵信息越多,對(duì)摘要的指導(dǎo)性越強(qiáng),獲得的摘要越可靠.綜上,表明了關(guān)鍵詞等先驗(yàn)知識(shí)對(duì)摘要模型的指導(dǎo)可以有效提升低資源摘要模型的性能.

2) 概率映射策略的有效性

為驗(yàn)證概率映射策略的有效性,本文在概率映射詞典的大小上進(jìn)行相關(guān)實(shí)驗(yàn).根據(jù)詞頻設(shè)置概率映射詞典大小為25 087,36 368,39 311,42 399,表4中給出了本文模型在漢越跨語(yǔ)言摘要數(shù)據(jù)集上的RG-1、RG-2、RG-L的比對(duì)結(jié)果,其中覆蓋率為概率映射詞典相對(duì)于關(guān)鍵詞詞數(shù)的占比(此處由TextRank得到的關(guān)鍵詞未進(jìn)行去重,故覆蓋率的分母不一樣).

表4 概率映射詞典對(duì)模型的影響

分析表4可知,概率映射詞典大小為39 311是性能最好的,在指標(biāo)RG-1、RG-2和RG-L上,相較概率映射詞典大小為25 087,36 368,42 339時(shí)分別有6.09,2.27,4.46,3.73,2.01,1.91;0.03,-0.01,0.04個(gè)百分點(diǎn)的提升.概率映射詞典大小為25 087時(shí)的漢越跨語(yǔ)言摘要效果較差,主要原因可能是覆蓋率僅有52.37%,此時(shí)詞典的噪聲較大,覆蓋率較低,在進(jìn)行映射時(shí)不能對(duì)關(guān)鍵詞進(jìn)行有效映射,導(dǎo)致部分關(guān)鍵詞不起作用,相對(duì)于其它模型的結(jié)果(表2),甚至?xí)档驼男Ч坏窃诟怕视成湓~典為39 311和42 339時(shí),摘要效果相對(duì)于其它模型的結(jié)果(表2),仍有提升,但是兩者相差不大,這是由于最終生成摘要的單詞分布由概率映射詞典、翻譯概率、神經(jīng)網(wǎng)絡(luò)模型生成單詞的分布共同決定,可能產(chǎn)生的不確定性較大.綜上,說(shuō)明了概率映射詞典這一策略在漢越跨語(yǔ)言摘要任務(wù)上的有效性,但是概率映射詞典對(duì)于關(guān)鍵詞的覆蓋率在一定程度上影響了模型的性能.

3) 概率映射以及指針網(wǎng)絡(luò)對(duì)于C-Vcls模型的有效性

為驗(yàn)證本文所結(jié)合的概率映射以及指針網(wǎng)絡(luò)策略的作用,本文在漢越低資源跨語(yǔ)言摘要數(shù)據(jù)集上進(jìn)行相關(guān)實(shí)驗(yàn).其中,C-Vcls-MP模型是在C-Vcls模型的基礎(chǔ)上減少概率映射模塊,C-Vcls-PN模型是在C-Vcls模型的基礎(chǔ)上減少指針網(wǎng)絡(luò)模塊而選擇直接拼接Pgen∑s?sp(ws?w)與(1-Pgen)pN(w)的方式進(jìn)行關(guān)鍵詞的融合.

分析表5可知,C-Vcls模型取得了更好的效果.C-Vcls模型較C-Vcls-MP模型在指標(biāo)RG-1、RG-2和RG-L上取得了4.77,4.52和3.21個(gè)百分點(diǎn)的提升,該結(jié)果表明當(dāng)關(guān)鍵詞不進(jìn)行概率映射時(shí),摘要結(jié)果下降最為嚴(yán)重且摘要性能低于NCLS模型,可能是由于關(guān)鍵詞不進(jìn)行映射時(shí),會(huì)給模型引入更多的噪聲,說(shuō)明關(guān)鍵詞概率映射模塊在模型中起著至關(guān)重要的作用,能夠建模關(guān)鍵詞映射到目標(biāo)語(yǔ)言作為先驗(yàn)知識(shí)指導(dǎo)跨語(yǔ)言摘要的生成.而C-Vcls-PN模型相對(duì)于C-Vcls模型,在指標(biāo)RG-1、RG-2和RG-L上的性能分別下降了2.45,2.74和2.26個(gè)百分點(diǎn);但是相較NCLS模型,RG-L指標(biāo)上仍然取得了0.57個(gè)百分點(diǎn)的增幅,這也說(shuō)明,盡管融合的方式不同,但是融入關(guān)鍵詞概率映射信息到端到端的模型中確實(shí)對(duì)模型性能的提升是有幫助的,而且指針網(wǎng)絡(luò)的融合方式優(yōu)于直接拼接的融合方式.綜合以上分析,本文所提概率映射以及指針網(wǎng)絡(luò)進(jìn)行融合的方式對(duì)模型的性能提升是有益的.

表5 概率映射、指針網(wǎng)絡(luò)對(duì)C-Vcls模型的影響

4) C-Vcls模型與基準(zhǔn)模型在漢英跨語(yǔ)言摘要測(cè)試集上的對(duì)比

為了驗(yàn)證本文所提模型的泛化性,本文在漢英跨語(yǔ)言摘要數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).表6給出了本文模型與基準(zhǔn)模型在漢英跨語(yǔ)言摘要數(shù)據(jù)集上的RG-1、RG-2和RG-L的比對(duì)結(jié)果.

表6 漢英跨語(yǔ)言摘要模型的實(shí)驗(yàn)結(jié)果對(duì)比

分析表6可知,本文模型的指標(biāo)均優(yōu)于基準(zhǔn)模型.C-Vcls模型較TLTran模型和TETran模型在指標(biāo)RG-1、RG-2、RG-L上分別有1.56,0.67,2.30和6.22,3.83,4.57個(gè)百分點(diǎn)的提升;較NCLS模型有5.30,3.67,2.98個(gè)百分點(diǎn)的提升.根據(jù)表2和6可以看出,同樣數(shù)量級(jí)的數(shù)據(jù)在同樣的基準(zhǔn)模型上,不同的數(shù)據(jù)集取得的結(jié)果有所差異,且在漢英跨語(yǔ)言摘要數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果低于漢越跨語(yǔ)言摘要數(shù)據(jù)集.主要原因是因?yàn)殡m然越南語(yǔ)和英文構(gòu)造的詞典均為1萬(wàn),但根據(jù)越南語(yǔ)和英文文本構(gòu)造特點(diǎn)及本文數(shù)據(jù)集的有效詞數(shù)來(lái)看,越南語(yǔ)詞典對(duì)于測(cè)試集文本的覆蓋率高于英文詞典對(duì)于測(cè)試集文本的覆蓋率,即漢越跨語(yǔ)言摘要的實(shí)驗(yàn)結(jié)果沒(méi)有大量未登錄詞的出現(xiàn),進(jìn)而提高了摘要的準(zhǔn)確性.但是,從實(shí)驗(yàn)結(jié)果依然可以看出,本文提出的引入具有引導(dǎo)性的關(guān)鍵詞概率映射的方法對(duì)于漢英跨語(yǔ)言摘要任務(wù)同樣有效,也證明了本文所提模型的泛化性.

2.6 實(shí)例分析

為了進(jìn)一步驗(yàn)證算法的有效性,本文列舉了不同模型的摘要結(jié)果.具體如表7所示,源語(yǔ)言文本與標(biāo)準(zhǔn)摘要都來(lái)自漢越跨語(yǔ)言摘要數(shù)據(jù)集.本文列舉出了所有基準(zhǔn)模型的輸出結(jié)果作為對(duì)比,為了便于理解,本文給出了對(duì)應(yīng)漢語(yǔ)的翻譯結(jié)果.

分析表7可知,源語(yǔ)言文本主要講述19名前往張家口的驢友被困海坨山,其中15名驢友失去聯(lián)系的事實(shí).由于模型限制,傳統(tǒng)模型TETran模型表達(dá)出了19名來(lái)自河北石家莊的朋友,但是并沒(méi)有表述出15名前往張家口的朋友在河北失去聯(lián)系的關(guān)鍵信息;TLTran模型表現(xiàn)相對(duì)較好,但是仍然沒(méi)有表輸出“張家口”的關(guān)鍵事實(shí).而對(duì)于端到端的C-Vcls模型和NCLS模型均能表達(dá)出“15名驢友”的主要信息,但是NCLS模型,并沒(méi)有體現(xiàn)出其“失去聯(lián)系”的關(guān)鍵信息,且內(nèi)容過(guò)于冗雜,而本文提出的融合關(guān)鍵詞概率映射的策略,獲取源文中的關(guān)鍵詞“北京”“失去”“聯(lián)系”等映射至目標(biāo)語(yǔ)言,通過(guò)有關(guān)鍵詞概率映射信息等具有引導(dǎo)性信息的融入增強(qiáng)了模型的跨語(yǔ)言表征能力,提高了摘要的信息覆蓋度以及事實(shí)性,生成質(zhì)量更高的文本摘要.

表7 不同模型生成摘要樣例

3 結(jié) 論

針對(duì)漢越低資源跨語(yǔ)言摘要,本文在Transformer框架下,提出關(guān)鍵詞概率映射方法.通過(guò)實(shí)驗(yàn)證明,在低資源情況下,通過(guò)獲取源語(yǔ)言文本的關(guān)鍵詞信息映射至目標(biāo)語(yǔ)言指導(dǎo)摘要生成的方式,對(duì)漢越低資源跨語(yǔ)言摘要任務(wù)存在一定的提升,通過(guò)實(shí)驗(yàn)也可以證明,利用關(guān)鍵詞概率映射信息可以為跨語(yǔ)言摘要模型提供更豐富的指導(dǎo)信息,也證明本文提出的方法對(duì)低資源跨語(yǔ)言摘要任務(wù)可能是更加有效的.多模態(tài)等多源信息是對(duì)文本內(nèi)容的高度概括,可以很好的對(duì)文本內(nèi)容進(jìn)行信息補(bǔ)充.因此,如何利用多模態(tài)信息對(duì)跨語(yǔ)言摘要進(jìn)行指導(dǎo)是下一步研究的重點(diǎn).

猜你喜歡
文本融合語(yǔ)言
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
語(yǔ)言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
讓語(yǔ)言描寫搖曳多姿
累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 欧美亚洲激情| 精品撒尿视频一区二区三区| 国产又爽又黄无遮挡免费观看| 成年人视频一区二区| 四虎AV麻豆| 午夜无码一区二区三区| 亚洲熟女偷拍| AV天堂资源福利在线观看| 国产精品亚洲一区二区三区在线观看| 毛片在线播放a| 国产精品深爱在线| 乱人伦中文视频在线观看免费| 国产精品第一区在线观看| 国产欧美日韩另类| 国产精品一区在线麻豆| 在线观看精品自拍视频| 免费99精品国产自在现线| 色婷婷亚洲十月十月色天| 女人18毛片久久| 亚洲国产天堂久久综合226114| 国产日本欧美在线观看| av性天堂网| 高清不卡毛片| 亚洲一本大道在线| 成人年鲁鲁在线观看视频| 久久大香香蕉国产免费网站| 久久人人97超碰人人澡爱香蕉| 久草视频一区| 狠狠色丁婷婷综合久久| 亚洲AⅤ综合在线欧美一区| 欧美特黄一级大黄录像| 国产三级国产精品国产普男人| 热99精品视频| 亚洲国产中文综合专区在| 欧美日韩国产精品va| 日韩精品高清自在线| 久久亚洲国产视频| 91高清在线视频| 91精品情国产情侣高潮对白蜜| 国产精品xxx| 91欧美亚洲国产五月天| 欧美一级视频免费| 无码内射在线| 欧美午夜在线播放| 色综合激情网| 欧美一区国产| 国产精品林美惠子在线播放| 色婷婷亚洲综合五月| 色欲不卡无码一区二区| 在线国产91| 国产无人区一区二区三区| 国产精品不卡永久免费| 91久久性奴调教国产免费| 好吊色妇女免费视频免费| 日韩成人在线视频| 亚洲成a人片7777| 亚洲天堂网视频| 久久大香香蕉国产免费网站| 日韩黄色在线| 国产精品欧美亚洲韩国日本不卡| 亚洲最大情网站在线观看| 久久精品视频亚洲| 欧美一级黄片一区2区| 欧美在线伊人| 国产女同自拍视频| 亚洲中文字幕久久无码精品A| 波多野结衣久久精品| 色九九视频| 狠狠亚洲婷婷综合色香| 欧美日本在线播放| 亚洲视频欧美不卡| 久久 午夜福利 张柏芝| 国产一级小视频| 中国毛片网| 亚洲香蕉伊综合在人在线| 91精品国产自产在线老师啪l| 国产又粗又爽视频| 欧美在线导航| 成人一级免费视频| 黑色丝袜高跟国产在线91| 欧美综合激情| a级毛片网|