一種Mask交互融合預訓練知識的低資源神經(jīng)機器翻譯方法

2024-03-05 01:41:04朱志國郭軍軍余正濤

小型微型計算機系統(tǒng) 2024年3期

朱志國,郭軍軍,余正濤

(昆明理工大學信息工程與自動化學院,昆明 650500)

(昆明理工大學云南省人工智能重點實驗室,昆明 650500)

0 引言

神經(jīng)機器翻譯(NMT)[1-3]研究將源語言自動轉(zhuǎn)化為目標語言,是自然語言處理的基礎任務之一,其性能通常依賴大規(guī)模高質(zhì)量的平行句對.然而,大多數(shù)語種之間都面臨雙語對齊語料不足的問題,如:漢語到越南語、漢語到泰語的翻譯.因語料質(zhì)量和數(shù)量的限制,低資源條件下,翻譯模型不能有效挖掘語言信息,導致模型表征質(zhì)量不佳,進而引起譯文質(zhì)量的下降.人工構(gòu)建大規(guī)模高質(zhì)量的平行句對成本較高,如何基于模型充分利用現(xiàn)有資源,提升低資源條件下神經(jīng)機器翻譯的性能仍是亟需解決和研究的熱點問題.

相對于難以獲得的雙語平行語料,單語數(shù)據(jù)是非常豐富的.近年來,基于單語的預訓練技術快速發(fā)展,預訓練語言模型如EMLo[4]、GPT/GPT-2[5,6]、BERT[7],ERNIE[8],XLNet[9]在文本分類[10]、序列標注[11]和問答[12,13]等NLP下游任務中得到廣泛應用,并取得了很好的效果,證明了單語數(shù)據(jù)對增強模型語言理解能力的效力.相關研究也探索了基于單語預訓練方法[14-17]提升NMT性能的有效途徑,結(jié)果表明,將BERT知識融入NMT系統(tǒng)可有效提升翻譯質(zhì)量.然而,現(xiàn)有融合BERT知識提升神經(jīng)機器翻譯的方法在改變 seq2seq模型結(jié)構(gòu)的基礎上,增加了模型訓練的參數(shù)量,使得在訓練過程中的計算開銷增大.

針對上述問題,本文提出一種簡單有效的Mask交互融合預訓練知識的低資源神經(jīng)機器翻譯方法,首先得到源語言的BERT句子表征和Transformer編碼端經(jīng)過多頭注意力后的表征,利用自注意力交互計算兩種表征的相似度,根據(jù)閾值對相似度進行二值化處理構(gòu)造Mask知識矩陣,矩陣中零表示相似度高不需要掩蔽的表征,一表示相似度低需要掩蔽的特征.然后將Mask知識矩陣作用于源語言表征,即將Mask知識矩陣中值為一對應的源語言詞表征的位置填充為一個很小的數(shù)值,Mask知識矩陣是由兩種表征的相似度得到,可以篩選BERT表征中對源語言表征有益的知識,以此來自適應地融合BERT預訓練知識,提升翻譯模型對語言知識的表征能力.在IWSLT標準翻譯任務上廣泛的實驗結(jié)果表明,所提方法能夠自適應地在低資源NMT任務中融合預訓練語言模型BERT中對機器翻譯任務有益的語言知識,有效提升了低資源NMT任務的性能.在IWSLT英-越數(shù)據(jù)上獲得了+1.76的BLEU值提升,達到了在低資源NMT任務中融合預訓練模型知識最好的結(jié)果.本文的主要貢獻包括以下3個方面:

1)提出一種簡單有效的Mask交互融合預訓練知識的低資源神經(jīng)機器翻譯方法,利用BERT表征與Transformer的源語言表征相交互構(gòu)造Mask知識矩陣,在編碼端自適應地融合BERT表征中對機器翻譯任務有益的知識,提升低資源NMT模型對語言的學習能力.

2)通過構(gòu)造并利用Mask知識矩陣自適應地融合BERT語言知識,實現(xiàn)了BERT表征中對低資源神經(jīng)機器翻譯任務有益的語言知識的刷選.

3)在IWSLT標準低資源翻譯數(shù)據(jù)集上的實驗結(jié)果表明,所提方法在增加微量訓練參數(shù)和計算開銷的情況下顯著提升了基線模型的性能.

1 相關工作

現(xiàn)有利用預訓練語言模型知識提升NMT性能的方法主要分為3種:1)基于seq2seq預訓練語言模型的NMT方法.在大規(guī)模平行語料上訓練一個seq2seq的預訓練語言模型,然后微調(diào)用于下游NMT任務;2)基于預訓練語言模型參數(shù)初始化的NMT方法.利用預訓練語言模型參數(shù)初始化部分或整個NMT模型,增強NMT模型對語言知識的捕獲能力;3)基于預訓練語言模型知識蒸餾的NMT方法.通過改變NMT模型結(jié)構(gòu),在訓練中融入預訓練語言模型的知識,提升NMT的性能.

1.1 基于seq2seq預訓練語言模型的NMT方法

預訓練語言模型是在大規(guī)模語料上進行訓練,然后保存模型參數(shù),應用于下游任務,但是預訓練語言模型的結(jié)構(gòu)與主流的機器翻譯seq2seq模型結(jié)構(gòu)存在差異,如BERT[7]的雙向編碼器結(jié)構(gòu),在編碼器堆疊了12層,這12層模型的參數(shù)經(jīng)過了大規(guī)模語料的多次訓練,對文本特征的捕獲能力是極強的,如果其后接解碼器應用于機器翻譯任務,而機器翻譯任務只是經(jīng)過了特定的小規(guī)模語料的訓練,會導致編碼器(encoder)和解碼器(decoder)對文本特征的捕獲能力不一致.解決這種問題的一個方法就是針對seq2seq任務訓練一個預訓練語言模型.

Lewis等[18]提出了序列到序列的預訓練語言模型BART,使用多種噪聲破壞原文本,再將殘缺文本通過序列到序列的任務重新復原文本來訓練BART,BART模型的提出解決了預訓練語言模型編碼器、解碼器表征能力不一致的問題.Song等[19]提出了一種遮掩seq2seq的預訓練語言模型(MASS)來進行基于encoder-decoder的語言生成任務.MASS的encoder部分將一個句子隨機Mask部分字段后作為輸入,decoder部分的目標則是預測被Mask的字段.通過這種方式,MASS能夠?qū)ncoder和decoder進行聯(lián)合訓練來提高特征抽取和語言模型的表達能力.Mitzalis 等[20]通過融合多模態(tài)VL-BERT和多語言預訓練語言模型M-BERT,提出了BERTD的擴展模型BERTGEN,并將其運用于圖像語義描述、機器翻譯和多模態(tài)機器翻譯等多個任務,使其不用微調(diào)就能運用于下游任務,擴展了seq2seq的預訓練語言模型,使其有很好的通用性.Xu等[21]針對預訓練單語語言模型可以提高機器翻譯系統(tǒng)的性能,但機器翻譯本質(zhì)上是一項雙語任務的問題,提出了雙語預訓練語言模型—BIBERT ,使源語言和目標語言數(shù)據(jù)能夠豐富彼此的語境信息,從而更好地促進雙向翻譯.并將BIBERT中不同層的信息進行整合,潛在地利用了預先訓練好的語言模型中封裝的更多信息.雖然訓練一個seq2seq的預訓練語言模型是可行的,但是訓練一個seq2seq的預訓練語言模型需要大量的單語語料,且需要消耗大量的計算資源,這對于語料匱乏的語言來說是不現(xiàn)實的.

1.2 基于預訓練語言模型參數(shù)初始化的NMT方法

預訓練語言模型在大規(guī)模數(shù)據(jù)集上訓練,能更好的表征語言知識,其參數(shù)體現(xiàn)了其學習語言的能力,利用預訓練語言模型的參數(shù)初始化NMT模型可以加快訓練效率、避免陷入局部最優(yōu)點或鞍點.基于這樣的考慮,研究者們就如何利用預訓練語言模型參數(shù)初始化神經(jīng)機器翻譯模型來提高機器翻譯的性能進行了廣泛的研究.

Lample 和 Conneau[22]利用在大規(guī)模單語語料上訓練的預訓練語言模型的參數(shù)初始化整個神經(jīng)機器翻譯編-解碼器的參數(shù),證明了這樣的初始化有利于無監(jiān)督神經(jīng)機器翻譯.Kenji Imamura 和 Eiichiro Sumita[23]將NMT中Transformer 的編碼器替換為BERT的編碼器,在訓練過程中采用解碼器訓練和微調(diào)兩階段優(yōu)化,先將解碼器單獨訓練致收斂,再聯(lián)合編碼器一起訓練進行微調(diào),構(gòu)建了一個更高質(zhì)量的NMT模型,取得了很好的實驗結(jié)果.Edunov等[24]使用ELMo語言模型得到的上下文詞嵌入初始化模型的編碼或解碼端的詞嵌入層,以這種方式使用預訓練語言模型會在不進行微調(diào)的情況下帶來顯著的改善,但在資源匱乏的情況下,在設置微調(diào)方面幾乎沒有什么收獲,而當更多的標記數(shù)據(jù)可用時,增益將減小,證明了添加預先訓練的知識表示對于編解碼器網(wǎng)絡是有效的.Rothe等[25]人對如何利用預訓練語言模型BERT,GPT-2,和 RoBERTa 的檢查點,初始化seq2seq模型的編-解碼器進行了廣泛的研究,證明了用預先訓練模型參數(shù)初始化的編-解碼器有助于模型性能的提升.雖然參數(shù)初始化的方法能在一定程度上提升機器翻譯的性能,但由于雙語任務的訓練目標與單語預訓練模式相差甚遠,這一差距導致僅在NMT中使用參數(shù)初始化并不能充分利用預訓練語言模型中的語言知識.

1.3 基于預訓練語言模型知識蒸餾的NMT方法

對NMT模型結(jié)構(gòu)進行改進,在基于Transformer的機器翻譯模型結(jié)構(gòu)中融入從預訓練語言模型提取的知識,是NMT任務中對預訓練語言模型知識利用的很好的方法.改進后的模型基本保留了原翻譯系統(tǒng)的主體結(jié)構(gòu),因此可以在不對原模型造成破壞的前提下,充分利用外部知識對模型進行優(yōu)化,提升翻譯性能.

Yang等[14]提出了CTNMT模型,利用漸進蒸餾和動態(tài)門控的方法提取預訓練語言模型的知識.Weng等[15]提出利用層感知注意力機制和門控融合機制在Transformer的encoder端融合預訓練知識,一定程度上解決了由于雙語機器翻譯任務和單語預訓練語言模型之間的巨大差距,造成的預訓練語言模型中的上下文知識不能很好地與NMT任務結(jié)合使用的問題.Chen等[11]在訓練的過程中將BERT模型作為教師模型,源語言X和目標語言Y拼在一起(X,Y),并隨機地將15%的僅在Y中的token屏蔽,然后來訓練seq2seq的學生模型,彌補了seq2seq從左到右訓練,未來的上下文信息被屏蔽的不足.Zhu等[16]提取BERT的輸入序列表示,然后通過BERT編碼器或解碼器的注意力模塊,每個NMT編碼器或解碼器層與輸入BERT表征進行交互,最終輸出二者的融合表征,進一步利用了預訓練語言模型BERT中的知識.Guo等[17]提出采用兩種不同的BERT模型分別作為編碼器和解碼器,并通過引入簡單的輕量級適配器模塊對它們進行微調(diào),該方法不僅能夠匹配BERT的雙向和條件獨立性質(zhì),并以一種簡單的方式將其擴展到傳統(tǒng)的自回歸解碼,能夠聯(lián)合利用源端和目標端BERT模型中包含的信息,同時繞過了災難性遺忘問題.雖然知識蒸餾的方法很好的利用預訓練語言模型中的知識,但需要在一定程度上改變seq2seq的模型結(jié)構(gòu),增加模型訓練的參數(shù)量,并沒有針對低資源場景下提出利用預訓練語言模型知識來提升低資源機器翻譯性能的方法.

不同以往在神經(jīng)機器翻譯中利用預訓練語言模型的方法,本文針對低資源神經(jīng)機器翻譯的問題,提出了一種簡單有效的Mask交互融合預訓練知識的低資源神經(jīng)機器翻譯方法,所提方法有選擇的融合預訓練知識,并且?guī)缀醪辉黾佑柧毜膮?shù)量和計算開銷,提升了低資源機器翻譯的性能,在一定程度上緩解了低資源神經(jīng)機器翻譯場景下資源不足的問題.

2 Mask交互融合預訓練知識的低資源神經(jīng)機器翻譯方法

在本節(jié)中,基于Transformer框架提出了一種Mask交互融合預訓練知識的低資源神經(jīng)機器翻譯方法,在編碼端通過一個Mask知識矩陣有選擇的融合BERT的知識,增強模型對語言知識的學習.模型的整體框架如圖1所示.

圖1 Mask交互融合預訓練知識的低資源神經(jīng)機器翻譯模型結(jié)構(gòu)圖Fig.1 Model structure diagram of Low-resource Neural machine translation method based on mask interactive fusion of pre-trained knowledge

2.1 Mask交互融合預訓練知識編碼器

本文的編碼器由4個相同的層組成,每一層包含了兩個子層,第1個是多頭注意力層,第2個是位置前饋網(wǎng)絡層(FFN).

2.1.1 文本詞嵌入

給定一個包含l個詞的源語言句子X={x1,x2,…,xl},經(jīng)過編碼器的位置詞嵌入層將其轉(zhuǎn)換為位置詞嵌入向量Ex,位置詞嵌入向量Ex計算過程如下:

Ex=Emb(x1,x2,…,xl)+PE(x1,x2,…,xl)

(1)

其中Emb表示詞嵌入層,PE表示位置嵌入層,Ex∈R1×dmodei,dmodei為詞嵌入維度.

2.1.2 文本BERT句子表征

為了利用BERT的知識,對于輸入句子X提取了BERT的句子表征B,提取的過程表示如下:

B=BERT(X)

(2)

其中BERT表示預訓練語言模型BERT,B∈R1×768

2.1.3 Mask交互融合模塊

Hk=MultiHead(Qx,Kx,Vx)=Concat(head1,…,headn)WO

(3)

其中,MultiHead(·)表示多頭注意力機制,k={0,…,5}表示編碼器層數(shù)索引值,h表示頭數(shù),本文h設置為4,W0∈Rhd×dmodel是參數(shù)矩陣.每個頭的注意力計算過程可表示如下:

(4)

為了提取B中對NMT任務有用的知識,本文提出了基于自注意力機制的Mask策略,首先將包含l個詞的源語言X的BERT句子表征B和X經(jīng)過編碼器多頭注意力機制計算之后的表征Hk算一個相似度分數(shù)α,計算過程如下:

(5)

其中α表示Hk與B的相似度值,α∈Ri×1,ω是可訓練參數(shù),b是偏置,softmax(·)用于生成具體的相似度值.

得到相似度α后,進行二值化處理,定義知識矩陣M={m1,m2,…,mi},用閾值θ控制相似度值α二值化的轉(zhuǎn)化,本文θ設置為0.02,此過程可表示如下:

(6)

(7)

Mask策略具體的過程如圖2所示.

圖2 基于自注意力機制的Mask策略Fig.2 Mask strategy based on self-attention mechanism

經(jīng)過多頭注意力層之后,使用FFN全連接網(wǎng)絡更新序列每個位置的狀態(tài),得到Hx,此過程可表示為:

(8)

最終把編碼器最后一層的輸出Hx輸入到解碼器解碼.

2.2 文本解碼器

HY=MultiHead(QY,KY,VY)

(9)

然后經(jīng)過跨語言多頭注意力機制實現(xiàn)源語言特征HX和目標語言特征HY的交互與對齊,過程如下所示:

Y=Cross-Att(HY,HX,HX)

(10)

之后經(jīng)過位置前饋網(wǎng)絡層更新序列每個位置的狀態(tài),得到F,過程如下:

F=FFN(Y)

(11)

最后將解碼器最后一層的輸出Yk做softmax,預測目標句子的概率分布,過程如下:

P=softmax(WPYk+bp)

(12)

其中Wp是可訓練參數(shù),bp是偏置.

(13)

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)和預處理

本文在IWSLT(International Conference on Spoken Language Translation)的3個低資源的神經(jīng)機器翻譯數(shù)據(jù)集IWSLT14英語-德語(En-Dn)、IWSLT15英語-越南語(En-Vi)、IWSLT17英語-法語(En-Fr)上評估了本文模型的有效性,數(shù)據(jù)集大小分別是160k、113k、236k.為了公平的與相關的工作進行比較,對 IWSLT14 德-英任務,本文跟隨 Edunov[26]的設置,小寫所有單詞,從訓練數(shù)據(jù)中劃分7k個句子作為驗證集,拼接dev2010、dev2012、tst2010、tst2011、tst2012作為測試集;對IWSLT15英-越任務,跟隨Chen[11]的設置,使用 tst2012 作為驗證集,tst2013 作為測試集.對IWSLT17英-法任務,拼接dev2010,tst2010,tst2011,tst2012,tst2013和tst2014作為驗證集,拼接tst2015和tst2016作為測試集.本文對所有數(shù)據(jù)都進行了BPE(Byte Pair Encoding)[27]切分,使用源語言和目標語言聯(lián)合構(gòu)建BPE詞典,詞典大小為10k.

3.2 實驗設置

本文使用預訓練BERT模型提取源語言的句子表征,具體地,使用bert-base-cased模型提取英語的句子表征,其他語言使用bert-base-multilingual-cased提取句子表征.本文在開源工具包Fairseq[28]上實現(xiàn)了Mask交互融合預訓練知識的低資源神經(jīng)機器翻譯模型,采用輕量模型Transformer_iwslt_de_en作為基礎模型,編碼器和解碼器的層數(shù)為6,注意力頭數(shù)為4,詞向量維度為 512,前饋神經(jīng)網(wǎng)絡層的輸出維度為1024.模型訓練時使用Adam優(yōu)化器,參數(shù)β1=0.9,β2=0.98.學習率調(diào)度器為inverse-sqrt,權(quán)重衰減weight-decay=0.0001,warmup步數(shù)為 4000,學習率lr=0.001,最小學習率min_lr=10-7.損失函數(shù)采用交叉熵損失函數(shù),dropout=0.3.按句子長度劃分不同的批次,設置 GPU 的最大輸入輸出為 4096 個詞.所有實驗均在一張3090GPU上完成.

對于譯文質(zhì)量評價指標,本文選擇了神經(jīng)機器翻譯最常用的指標BLEU值,其使用開源腳本 multi-bleu.Perl計算得到.

3.3 比較模型

為了驗證模型的有效性,本文與利用預訓練知識的神經(jīng)機器翻譯模型和其他通用任務上的機器翻譯模型進行了對比實驗.

首先,本文與其他利用預訓練知識提升神經(jīng)機器翻譯性能的模型進行比較:

1)BERT-fused[16]:通過注意力機制將輸入序列的 BERT表征與NMT模型的編碼器和解碼器的每一層表征融合,并處理BERT模塊和NMT模塊可能使用不同分詞規(guī)則的情況.

2)AB-Net[17]:采用兩種不同的BERT模型分別作為編碼器和解碼器,并通過引入簡單的、輕量級的適配器模塊對它們進行微調(diào),將預訓練語言模型BERT應用于seq2seq任務.

3)C-MLM[11]:無需顯式的參數(shù)共享、特征提取或添加輔助任務,利用預先訓練好的語言模型來改進文本生成.

其次,本文在通用的IWSLT任務上與其它機器翻譯方法進行比較 :

1)SGSA[29]:一種將源端語法知識與多頭自我注意力機制相結(jié)合的神經(jīng)網(wǎng)絡模型.

2)CVT[30]:一種使用混合標記和未標記數(shù)據(jù)來改進 Bi-LSTM 句子編碼器的表示的半監(jiān)督學習算法.

3)Tied-Transformers[31]:一種共享編碼器和解碼器之間權(quán)重的改進Transformer模型.

4)Macaron-Net[32]:一種在編解碼器子層中添加位置前饋網(wǎng)絡層的改進Transformer模型.

3.4 實驗結(jié)果

實驗結(jié)果如表1所示,表1中BERT-fused英語-法語和英語-越南語翻譯任務是本文基于論文復現(xiàn)的結(jié)果,為了更公平的比較,除原文設置的參數(shù)外,其他設置和本文保持一致.基線模型Transformer的實驗結(jié)果摘錄自BERT-fused[16]和C-MLM[11].

表1 不同機器翻譯方法在IWSLT數(shù)據(jù)集上的BLEU值Table 1 BLEU values of different machine translation methods on the IWSLT dataset

可以看到,本文所提方法在基線模型的基礎上取得了+0.9～+3.39的BLEU值提升,證明了Mask交互融合預訓練知識的低資源神經(jīng)機器翻譯方法的有效性.在編碼過程中利用兩種表征的相似度構(gòu)造不同的Mask知識矩陣自適應地融合BERT預訓練知識,可有效挖掘深層語言信息.分析其原因是不同的Mask知識矩陣是由源語言的BERT表征和Transformer編碼端經(jīng)過多頭注意力后的表征計算相似度得到,可以對無效特征進行掩蔽,增強模型對語言的學習與表征能力,進而提升低資源場景下神經(jīng)機器翻譯的譯文質(zhì)量.

此外,與現(xiàn)有融合預訓練知識的方法相比,所提方法在3個數(shù)據(jù)集上仍然保持良好的性能,取得了與其他機器翻譯模型相當或更好的BLEU值評分.說明Mask融合預訓練知識的方法將預訓練知識作為指導與自注意力網(wǎng)絡結(jié)合,可有效優(yōu)化編碼自注意力的建模過程.在De-En和En-De任務上未超過BERT-fused和AB-Net,本文認為可能的一方面原因是BERT-fused使用的預訓練模型是bert-base-uncased,與本文所使用的不同,另一方面主要的原因是德語和英語有其特有的語言結(jié)構(gòu)和語言知識,而BERT-fused和AB-Net復雜的網(wǎng)絡結(jié)構(gòu)能更好的切合這種特點,本文將在未來的工作中繼續(xù)這方面的探索.考慮到BERT-fused和AB-Net擁有更復雜的網(wǎng)絡和更大規(guī)模的模型參數(shù),本文所提方法在引入微量參數(shù)和少量計算開銷的情況下獲得的有競爭性的結(jié)果是值得肯定的.

更廣泛地,與其他精心設計的方法相比,所提方法也表現(xiàn)出強有力的競爭性.其中,Tied-Transformers模型使編碼器和解碼器權(quán)重共享以達到模型輕量化,但需要花費更長的訓練時間來使模型收斂并且調(diào)參的難度隨之增加.與之相比,本文的方法不需要額外訓練時間,且翻譯的性能更具競爭力.Macaron-Net通過在注意力網(wǎng)絡之前添加位置前饋網(wǎng)絡來改進Transformer模型,但增加了模型訓練的參數(shù)量,與之相比,本文所提方法在僅引入少量參數(shù)的情況下實現(xiàn)了更好的模型翻譯性能.

總的來說,Mask交互融合預訓練知識的低資源神經(jīng)機器翻譯方法,基于Mask知識矩陣的指導將預訓練語言知識有選擇的融入神經(jīng)機器翻譯系統(tǒng)中,有效強化了模型對語言知識表征的能力,進而增強低資源場景下神經(jīng)機器翻譯的性能.

3.5 不同層融合BERT知識的BLEU值

針對已有研究指出的不同層捕捉不同特征的現(xiàn)象,一個自然的問題是,是否需要在所有編碼層融合BERT知識,為解答以上問題,本文在IWSLT英語-越南語和IWSLT英語-法語任務上對不同層融合BERT知識進行了一系列實驗,結(jié)果如表2所示.

表2 不同層融合BERT知識的BLEU值Table 2 BLEU value of different layers fused with BERT knowledge

實驗結(jié)果表明,相較于Transformer基線模型,在不同層融合BERT知識獲得了一致的提升,進一步驗證了Mask交互融合預訓練知識的低資源神經(jīng)機器翻譯方法的有效性.其中,在第1層融合BERT知識取得了最好效果.與在單一層融合BERT知識相比,在所有層中融合BERT知識在增加模型訓練參數(shù)的同時并沒有帶來更好的增益,相反造成了模型性能的下降.說明模型性能的提升不是來自于參數(shù)的增加,而是預訓練語言知識的融入帶來的模型性能的增強.

此外,多層融合在一定程度上造成了信息的重復和冗余,不利于模型對語言知識的挖掘和學習.結(jié)合Raganato[33]等有關Transformer低層偏向捕獲句子的語義信息,高層偏向于上下文信息挖掘的結(jié)論,表明BERT的句子知識并不適合作為額外信息提供給所有層,而是適合作為語義信息對源語言表征進行補充,增強模型對源語言語義信息的學習能力.

3.6 模型參數(shù)比較

為了更好的體現(xiàn)本文所提方法的簡潔性,表3統(tǒng)計了不同模型在IWSLT14Dn-Ee和IWSLT15En-Vi翻譯任務上的訓練參數(shù)量和推理時間.

表3 不同模型訓練參數(shù)量(百萬)和推理時間(秒)比較Table 3 Comparison of the training parameters(millions)and inference time(seconds)of different models

從表3中可以看出本文所提出的模型非常小,參數(shù)量相比于Transformer_iwslt_de_en基線模型只有少量增加,比依賴于預訓練語言模型的BERT-fused模型更具優(yōu)勢,并且在提升模型性能的同時沒有過多的增加推理時間,在計算成本上也更具優(yōu)勢.換而言之,本文所提出的模型適應性更強,應該場景更廣泛.

3.7 實例分析

為了進一步驗證Mask交互融合預訓練知識的低資源神經(jīng)機器翻譯方法的有效性,表4給出了在IWSLT德語-英語任務上,Transformer基線模型和本文融合BERT知識生成的譯文示例.

表4 IWSLT德-英譯文對比示例Table 4 IWSLT German-English translation example

可以看到,本文提出的翻譯模型翻譯性能更加優(yōu)越,與參考譯文基本對齊.第1個例子中,本文的模型更好的把“technologie-branche” 翻譯為“technology industry”,而Transformer模型只是簡單的翻譯為“sector”,同樣的第2個例子中本文的模型補齊了Transformer模型缺失的單詞“fire”,翻譯結(jié)果與參考譯文一致;而對于與參考譯文相比翻譯效果欠佳的譯文,本文的模型翻譯的“clear”更接近與參考譯文的“distinct”,更貼近源語言的意思.結(jié)果表明,本文提出的Mask交互融合預訓練知識的低資源神經(jīng)機器翻譯的方法,有效提升了低資源神經(jīng)機器翻譯的性能,使譯文更加的準確和自然.

4 結(jié) 論

針對現(xiàn)有在NMT低資源任務中融合預訓練語言知識的方法過于復雜的問題,本文提出了一種Mask交互融合預訓練知識的低資源神經(jīng)機器翻譯方法,通過源語言表征與預訓練知識的交互構(gòu)造Mask知識矩陣,在編碼端自適應地融合BERT表征中對低資源機器翻譯任務有益的語言知識.在低資源公共數(shù)據(jù)集IWSLT實驗結(jié)果證明了本文方法的有效性和優(yōu)越性;進一步的實驗表明,本文方法在編碼端融合預訓練知識是對源語言語義知識的一個補充,提升了模型對語言知識的學習能力,有效提升了低資源神經(jīng)機器翻譯模型的性能,在一定程度上緩解了低資源語言數(shù)據(jù)不足的問題.