999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種簡單的神經機器翻譯的動態數據擴充方法

2021-06-22 09:07:06劉志東李軍輝貢正仙
廈門大學學報(自然科學版) 2021年4期
關鍵詞:單詞方法模型

劉志東,李軍輝,貢正仙

(蘇州大學計算機科學與技術學院,江蘇 蘇州 215006)

和統計機器翻譯(statistical machine translation,SMT)[1]相比,神經機器翻譯(neural machine translation,NMT)[2-4]僅用一個神經網絡就可以實現源語言到目標語言的翻譯, 省去了搭建特征工程的困擾,顯著提高了機器翻譯的質量.NMT模型通常由一個編碼器和一個解碼器構成,其中編碼器將源端句子中的每個單詞根據其上下文編碼成含上下文信息的隱藏狀態;基于其隱藏狀態,解碼器按從左到右的順序生成目標端單詞.

神經網絡本質是一種數據驅動的方法,大量的數據有利于神經網絡學習到更合理的參數.特別是對于數據規模受限的小語種來說,通過增加訓練數據帶來的性能提升往往效果更加明顯.因此,如何更多、更好地生成大量平行數據成為許多研究者日益關注的問題.

作為一種增加訓練數據的常用方法,數據擴充技術已經被廣泛應用于計算機視覺[5]和自然語言處理[6-8]領域.在計算機視覺領域,主要通過對圖片進行翻轉和隨機剪裁操作實現圖像數據的擴充.在自然語言處理領域,數據擴充的思路總體上主要分為兩大類:1) 句子級別數據擴充,從句子級別生成更多高質量的訓練樣本,提高模型的泛化能力.2) 單詞級別數據擴充,對句子中的單詞進行隨機交換、丟棄和替換等操作,得到更多帶有噪聲的數據,提高模型的魯棒性.

作為一種句子級數據擴充的方法,反向翻譯被應用在很多無監督機器翻譯模型上,取得了不錯的效果.Sennrich等[7]提出用反向翻譯技術構造偽平行句對.該方法首先在已有平行語料的基礎上訓練一個反向翻譯的模型,然后利用這個反向翻譯模型來翻譯提前收集到的大規模目標端單語語料,獲得偽平行句對,最后將偽平行句對和人工標注平行句對合在一起進行模型訓練.然而,反向翻譯技術需要額外訓練一個反向的翻譯模型,這無疑會增大運算開銷.此外,收集到的單語語料往往存在噪聲,對帶有噪聲的語句進行反向翻譯會進一步降低偽平行數據的質量,從而影響翻譯模型的性能.He等[9]發現任何機器翻譯任務都有一個對偶任務,能夠使得翻譯系統自動地從無標注數據中進行學習.原任務和對偶任務能夠形成一個閉環,即使沒有人類標注者的參與,也能夠生成含信息量的反饋信號用以訓練翻譯模型.

在單詞級別數據擴充方面,Iyyer等[6]在求解一句話的平均詞向量前,隨機去除文本中的某些單詞.Artetxe等[8]設置一個固定長度的窗口,在窗口內隨機和相鄰的單詞進行替換.Fadaee等[10]利用在大規模單語語料上訓練得到語言模型,尋找可以被低頻詞匯替換的高頻詞匯,通過這種方法大大提高低頻詞的出現頻率,緩解數據相對稀疏的問題.相較于直接替換為某個確定的單詞,Gao等[11]提出一種融合多個單詞信息的方法.該方法首先訓練一個語言模型,把語言模型預測下一個單詞的概率分布作為每個候選單詞嵌入表示的權重,然后將線性組合詞表中每個單詞的嵌入表示作為要替換的單詞.

為了解決數據缺乏導致的NMT泛化能力不足的問題,同時避免反向翻譯技術中單獨訓練反向模型的開銷,受預訓練模型BERT(bidirectional encoder representations from Transformer)[12]啟發,本研究提出了一種簡單有效且可以對原始平行數據的目標端進行動態擴充的方法.該方法在每次加載目標端句子時按照一定策略對句子中單詞進行隨機噪聲化,從而提高目標端語言模型對句子的表達能力.具體地,在加載一批數據時,隨機選擇目標端句子中的一些單詞,并將其進行噪聲化,然后約束編碼器預測出被覆蓋的單詞.如果在整個訓練過程中同樣的一批數據被加載了n次,就等效于將訓練數據擴充了n倍.通過約束編碼器還原原始語句,可以使自身學到更深層的語言表征能力.

1 背景知識

1.1 NMT

NMT中的編碼器首先將源句子集合x={x1,x2,…,xN}映射成詞向量e(x)=[e(x1),e(x2),…,e(xN)],然后把這N個詞向量編碼成隱藏狀態h.根據隱藏狀態h和目標端句子T個詞的集合y={y1,y2,…,yT},解碼器從左到右逐個生成目標端單詞的概率,得到y的概率:

(1)

其中:θmt={θenc,θdec},為整個模型的參數;θenc和θdec分別為編碼器的解碼器的參數;y

(2)

1.2 降噪自編碼器

和自編碼器相比,降噪自編碼器[15]可以學習疊加噪聲的原始數據,而其學習到的特征和從未疊加噪聲的數據學習到的特征幾乎一致,因此降噪自編碼器具有更強的魯棒性;同時降噪自編碼器可以避免自編碼器簡單地保留原始輸入數據的信息.

圖1 降噪自編碼器的訓練過程Fig.1 The training process of denoising auto-encoder

L(x|x′)=-logPdec(x|fen(x′)).

(3)

其中,fen(x′)表示x′輸入編碼器后的輸出,Pdec(x|fen(x′))表示編碼器輸入為x′時,解碼器輸出x的概率.

2 目標端動態數據擴充方法

對于NMT,擴充訓練數據的方法除了需要大規模的單語語料外,往往還需要訓練一個輔助的模型.而對于資源缺乏的語言來說,引入質量較低的單語語料往往會損害翻譯模型的質量.針對上述問題,本研究提出一種在不引入外部語料的情況下實現數據動態擴充的方法.該方法首先對輸入的目標端語句按照一定策略隨機進行噪聲化,然后利用編碼器將受損的句子還原,以提高編碼器對目標單詞的預測能力,實現翻譯性能的整體提升.如圖2所示,和基礎的NMT系統相比,本方法僅增加了一個隨機添加噪聲的模塊,對于模型的其余部分并沒有改動,可以方便應用于其他序列到序列模型.

圖2 數據動態擴充的NMT模型的整體框架Fig.2 The architecture of NMT model with dynamic data augmentation

2.1 構建噪聲輸入

假設目標端的輸入序列為: 中國 消費者 信心 支持 中國 經濟 增長.在構造帶有噪聲的輸入序列時分別選擇第二、第五和最后一個單詞(消費者、中國、增長)進行以上3種策略的替換,示例如表1所示.

表1 噪聲替換策略示例Tab.1 Examples of noise replacement strategy

采用以上3種策略后,得到的最終噪聲輸入為:中國[MASK] 信心 支持 世界 經濟 增長.

2.2 重構目標句子

解碼端重構目標序列的過程可以認為是最大化條件概率P(y|h,y′;θdec),如式(4)所示.

(4)

(5)

3 實驗結果與分析

本研究對訓練數據的源語句和目標語句分別進行靜態和動態擴充,使用multi-bleu.perl(https:∥github.com/moses-smt/mosesdecoder/blob/master/scripts/generic/multi-bleu.perl)腳本評測翻譯性能.

3.1 語料說明

為了驗證本研究提出的動態數據擴充技術,分別在WMT14英德(http:∥www.statmt.org/wmt14/translation-task.html)和NIST中英(https:∥www.nist.gov/srd)雙語平行語料上實驗.

1) WMT14英德翻譯:訓練集共包含450萬英語到德語平行語料,由Europarl v7、Common Crawl Corpus和News Commentary數據集構成.此外,實驗使用newstest2013和newstest2014分別作為開發集和測試集.

2) NIST中英翻譯:訓練語料使用的是語言數據聯盟(Linguistic Data Consortium,LDC)提供的125萬對中英雙語平行語料.實驗使用NIST06作為開發集,NIST02、NIST03、NIST04、NIST05和NIST08作為測試集.

實驗去除兩個語言對中訓練集長度大于90的平行句對,并使用字節對編碼(byte pair encoding,BPE)[16]將單詞切分成更小的單元.其中,對英德翻譯,在英德語料上聯合BPE處理并設置操作次數為3;對中英翻譯,分別在中文和英文端使用BPE處理并設置操作數為3和2.處理后的各數據集樣本數如表2所示.

表2 數據集統計Tab.2 Dataset statistics

3.2 實驗設置

本實驗使用開源OpenNMT[17]實現的Transformer(https:∥github.com/OpenNMT/OpenNMT-py)和Bahdanau等[3]提出的RNNSearch模型作為基準模型.在預處理時,共享英德的源端與目標端詞表,詞表大小為33 663;中英語料不進行詞表共享,得到的中英文詞表大小分別為30 587和19 877.

1) Transformer模型設置.訓練時,英德和中英模型設置相同的參數主要有:編碼器與解碼器的層數均為6層,多頭注意力機制均為8個頭,批處理大小為4 096,詞向量、編碼器和解碼器的隱藏層維度均為512,前饋神經網絡的維度為2 048,失活率[18]為0.1.使用Glorot方法初始化模型參數,其他參數均使用默認配置.表3給出了英德和中英實驗不同的參數設置.

表3 參數設置Tab.3 Parameter setting

實驗模型分別在一塊GTX 1080Ti顯卡上訓練.在網絡訓練過程中,采用Adam算法進行參數更新,其參數β1為0.9,β2為0.998,為10-9,訓練過程中每隔5×103步保存一次模型.在測試過程中,使用束搜索算法生成最終譯文,束搜索的大小設置為5,長度懲罰因子α為0.6,選擇開發集性能最高的模型作為實驗最終模型.

2) RNNSearch模型設置.英德和中英模型采用相同的實驗設置,具體為:編碼器和解碼器的維度為1 000,批處理大小為80,設置源端目標端最長單詞序列為50,失活率[18]為0.3,訓練過程中學習率為0.000 5,梯度裁剪的大小為1.實驗模型分別在一塊GTX 1080Ti顯卡上訓練6輪.在測試過程中,使用束搜索算法生成最終譯文,設置束搜索的大小為10,在開發集上選擇性能最高的模型作為實驗的測試模型.

3.3 實驗結果及分析

為了驗證本研究提出的動態數據擴充技術的有效性,分別在Transformer和RNNSearch基準模型上進行以下幾組實驗的對比分析:在Transformer模型上對目標端序列靜態擴充(tgt-SA),即對同樣一批數據即使加載多次也采取同樣的覆蓋方式;在加載一批數據時對源端句子(src-DA)和目標端句子進行動態擴充(tgt-DA),即對同樣一批數據每次加載都采用不同的覆蓋方式.由于本研究主要為驗證目標端動態數據擴充方法技術的有效性,所以在RNNSearch模型上僅對比tgt-DA和RNNSearch基準模型的性能.

3.3.1 Transformer中英翻譯

對所提出的方法,本研究在中英數據集上分別進行3組實驗:靜態擴充的方法僅用于目標端(tgt-SA)、動態擴充的方法分別作用于源端和目標端句子(src-DA,tgt-DA).表4給出了中英翻譯的實驗結果,可以看出:相較于基本的Transformer系統,單純對目標端輸入序列靜態擴充會帶來雙語互譯評估(BLEU)值的微弱提升(0.25個百分點),而對目標序列動態擴充的方法可以在NIST02~NIST08數據集上取得持續的提升,BLEU值平均提高0.66個百分點.這驗證了動態數據擴充技術的有效性.然而將動態擴充的方法作用于源端語句時,BLEU值反而降低了0.11個百分點.

表4 NIST數據集上靜態擴充和動態擴充的BLEU值對比Tab.4 Comparison of BLEU values between static and dynamic data augmentation on NIST datasets %

由表中數據可以得出以下結論:

1) 在中英翻譯實驗上:對于目標單詞序列,靜態擴充方法和動態擴充方法都會提高編碼器預測單詞的能力;并且動態擴充技術增加了目標句子的多樣性,比靜態擴充可以帶來更高質量的翻譯譯文.

2) 對源語言動態擴充時,編碼器得到的隱藏層狀態會丟失部分語義信息,因此不僅不會提升模型的翻譯性能反而會降低譯文質量.

3.3.2 Transformer英德翻譯

表5給出了英德翻譯實驗結果,可以看出:Transformer基準系統在測試集上的BLEU值為27.05%,對目標端語句進行靜態擴充時,BLEU值為26.96%,BLEU值不僅沒有提升反而降低了0.09個百分點;然而對于目標端語句進行動態擴充可以獲得顯著的性能提升,BLEU值為27.74%,提高了0.69 個百分點.

表5 WMT14數據集上靜態擴充和動態擴充的BLEU值Tab.5 BLEU values of static and dynamic dataaugmentation on WMT14 datasets %

根據表5的實驗結果,在英德翻譯系統上可以得到如下結論:

1) 對目標端語句進行靜態數據擴充可能會損害模型的翻譯性能.然而在中英翻譯實驗上,靜態數據擴充能夠獲得有限提升.由此可見,靜態數據擴充方法帶來的翻譯性能可能會受到語系的影響.

2) 本研究提出的動態擴充的方法應用于源端語句和目標端語句時都會提升模型的翻譯性能,并且應用于目標端時提升的效果更為明顯.

3.3.3 RNNSearch動態數據擴充

為了進一步論證本研究提出方法的有效性,將目標端動態數據擴充技術應用在RNNSearch[3]機器翻譯模型上.表6給出了RNNSearch模型上的中英和英德實驗結果,可以看出:動態數據擴充方法在英德翻譯任務上提高了0.51個百分點,在中英翻譯任務上平均提高了0.41個百分點.由此可以得出無論是在當前的主流翻譯模型Transformer上,還是在RNNSearch上,本研究提出的動態數據擴充方法雖然簡單,但是都能夠帶來翻譯性能的提高.

表6 動態數據擴充技術在RNNSearch上的BLEU值Tab.6 BLEU values of dynamic data augmentation on RNNSearch %

3.3.4 計算開銷對比

本研究提出的目標端語句動態擴充方法不需要改變模型的基本結構,因此并沒有引入額外的模型參數,和基線系統相比訓練產生的額外開銷僅花費在構造目標端噪聲輸入上;當使用反向翻譯技術時,在模型參數和訓練數據不變的情況下需要額外訓練一個反向的模型,因此參數量和訓練時間開銷均為基線系統的2.0倍,如表7所示.

表7 模型參數及訓練速度對比Tab.7 Comparison of model parameters and training speed

3.3.5 添加噪聲分析

由于本研究提出的動態數據擴充方法是對目標端序列進行修改,所以可以視為一種添加噪聲的方法.為了探究動態數據擴充方法和對單詞進行噪聲化方法的關系,本研究使用Transformer翻譯模型在英德和中英數據集上做如下對比實驗:對目標端句子進行動態擴充(tgt-DA)和對目標端句子中每個單詞的詞嵌入表示添加均值為0、方差為0.01的高斯噪聲(tgt-GN).

表8給出了在Transformer模型上不同添加噪聲方法的實驗結果,可以看出:對目標端單詞的詞嵌入表示添加噪聲時相較于基準系統可以帶來微弱的性能提升,英德和中英翻譯任務上BLEU值都提高了0.02 個百分點.雖然本研究提出的動態數據擴充方法也可以看作是一種動態添加噪聲的方法,但是在英德和中英翻譯任務上能夠帶來更多提升,BLEU值分別提高了0.69 和0.66個百分點.

表8 tgt-DA和tgt-GN的BLEU值對比Tab.8 Comparison of BLEU values between tgt-DA and tgt-GN %

4 結 論

本研究針對NMT面臨訓練語料不足的問題,提出了一種新的數據擴充方法.該方法在每次加載一批訓練數據時,通過不同的覆蓋、替換等操作隨機修改句子中的單詞,得到新的目標句子,然后和源端語句構成新的平行句對,對翻譯模型進行訓練;通過約束解碼器重構原始目標語句,提高模型對抗噪聲的能力.

在英德和中英翻譯的實驗結果表明,本研究提出的動態數據擴充技術可以有效提高NMT模型的魯棒性,相對于基準系統BLEU值分別提高了0.69和0.66 個百分點.

然而,該方法也存在一個缺點,即隨機將一些單詞替換為其他單詞可能會損壞句子的語義信息,甚至會完全顛倒句子的語義信息.因此,在未來的工作中,將考慮加入句子的句法信息,在擴充數據的同時盡可能保持句子的本來信息,進一步提升機器翻譯的質量.

猜你喜歡
單詞方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
單詞連一連
看圖填單詞
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
最難的單詞
主站蜘蛛池模板: 亚洲国内精品自在自线官| 国产男人天堂| 国产91精品调教在线播放| 在线看AV天堂| 欧美一级高清免费a| 亚洲成a人在线播放www| 国产成人AV综合久久| 国产精品丝袜在线| 日韩色图在线观看| 亚洲欧美成人在线视频| 无码在线激情片| 亚洲国产91人成在线| 亚洲成人免费看| 精品欧美一区二区三区久久久| 欧洲熟妇精品视频| 国内熟女少妇一线天| 2018日日摸夜夜添狠狠躁| 67194在线午夜亚洲| 国产免费久久精品99re不卡| 国产人成乱码视频免费观看| 欧美激情视频一区| 午夜福利视频一区| 99国产精品国产| 日韩在线影院| www中文字幕在线观看| 在线国产毛片手机小视频| 无码丝袜人妻| 久久久国产精品无码专区| 亚洲三级影院| 99视频国产精品| 99热国产这里只有精品无卡顿"| 亚洲中久无码永久在线观看软件| www.91在线播放| 精品亚洲欧美中文字幕在线看| 中文成人在线视频| 久久综合色天堂av| 国产黄网永久免费| 亚洲国产精品一区二区高清无码久久| 国产在线观看99| 麻豆精品在线| 在线观看视频99| 黄色免费在线网址| 怡春院欧美一区二区三区免费| 色婷婷综合在线| 美女无遮挡被啪啪到高潮免费| 国产一区三区二区中文在线| 超清无码一区二区三区| 成人中文字幕在线| 免费A级毛片无码免费视频| 理论片一区| 无码免费试看| 欧美在线黄| 国产草草影院18成年视频| 欧美成人亚洲综合精品欧美激情| 激情综合网址| 在线观看欧美国产| 女人天堂av免费| 激情综合网激情综合| 亚洲妓女综合网995久久 | 丰满的熟女一区二区三区l| 一级片免费网站| 国产无套粉嫩白浆| 亚洲精品中文字幕无乱码| 国产拍在线| 国产福利2021最新在线观看| 亚洲天堂高清| 国产成年女人特黄特色大片免费| 99热这里只有精品免费国产| 久久99国产视频| 久久永久精品免费视频| 国产91高跟丝袜| 欧美精品1区| 亚洲国产在一区二区三区| 日韩人妻少妇一区二区| 亚洲女同一区二区| 日本影院一区| 亚洲乱强伦| 99热最新网址| 色婷婷亚洲十月十月色天| 国产一区亚洲一区| 国产成人av大片在线播放| 欧美成人第一页|