孫海鵬 趙鐵軍



摘 要:神經(jīng)機(jī)器翻譯模型的學(xué)習(xí)往往依賴于大規(guī)模的平行語(yǔ)料,然而并不是所有語(yǔ)言對(duì)都有充足的平行語(yǔ)料。為了解決神經(jīng)機(jī)器翻譯中平行語(yǔ)料缺失的問(wèn)題,研究人員提出了無(wú)監(jiān)督神經(jīng)機(jī)器翻譯,通過(guò)無(wú)監(jiān)督預(yù)訓(xùn)練策略、去噪自編碼器、反向翻譯和共享潛在表示機(jī)制僅依賴于單語(yǔ)語(yǔ)料對(duì)翻譯任務(wù)進(jìn)行建模。本文從模型主要機(jī)制、訓(xùn)練過(guò)程出發(fā)來(lái)分析無(wú)監(jiān)督神經(jīng)機(jī)器翻譯,并介紹無(wú)監(jiān)督神經(jīng)機(jī)器翻譯現(xiàn)階段的發(fā)展以及存在的挑戰(zhàn)。
關(guān)鍵詞:無(wú)監(jiān)督神經(jīng)機(jī)器翻譯;去噪自編碼器;反向翻譯
【Abstract】Thetrainingofneuralmachinetranslationoftenreliesonlarge-scaleparallelcorpora,butnotalllanguagepairshavesufficientparallelcorpora.Inordertoalleviatetheproblemofthelackofparallelcorporainneuralmachinetranslation,unsupervisedneuralmachinetranslationisproposedtomodeltranslationrelyingsolelyonmonolingualcorporawiththehelpofacombinationofdiversemechanismssuchasunsupervisedpre-trainingstrategy,denoisingauto-encoder,back-translation,andsharedlatentrepresentation.Thispaperanalyzesunsupervisedneuralmachinetranslationfromtheperspectiveofmodelmechanismandtrainingprocess,andintroducestheadvancesandchallengesofunsupervisedneuralmachinetranslationatthepresentstage.
【Keywords】unsupervisedneuralmachinetranslation;denoisingauto-encoder;back-translation
作者簡(jiǎn)介:孫海鵬(1990-),男,博士研究生,主要研究方向:自然語(yǔ)言處理、機(jī)器翻譯;趙鐵軍(1962-),男,博士,教授,博士生導(dǎo)師,主要研究方向:自然語(yǔ)言處理、機(jī)器翻譯、機(jī)器學(xué)習(xí)與人工智能。
0 引 言
自注意力機(jī)制和transformer[1]模型的提出顯著提升了神經(jīng)機(jī)器翻譯模型的性能,但是神經(jīng)機(jī)器翻譯模型訓(xùn)練需要大量的平行語(yǔ)料,而實(shí)際上大多數(shù)語(yǔ)言對(duì)的平行語(yǔ)料并不充足,甚至一些稀缺語(yǔ)言對(duì)只有少量的平行語(yǔ)料。通常構(gòu)建平行語(yǔ)料庫(kù)的成本很高,而平行語(yǔ)料的缺失往往會(huì)導(dǎo)致神經(jīng)機(jī)器翻譯模型性能的急速下降[2],為了緩解平行語(yǔ)料缺失對(duì)神經(jīng)機(jī)器翻譯模型性能產(chǎn)生的消極影響,研究者們開(kāi)始嘗試僅使用單語(yǔ)語(yǔ)料來(lái)訓(xùn)練無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型[3-4]。相較于平行語(yǔ)料,單語(yǔ)語(yǔ)料更容易挖掘與獲取。許多只有有限平行數(shù)據(jù)的語(yǔ)言仍然擁有大量的單語(yǔ)數(shù)據(jù)。無(wú)監(jiān)督雙語(yǔ)詞嵌入[4-5]的出現(xiàn)也使得神經(jīng)機(jī)器翻譯模型在無(wú)監(jiān)督模式下進(jìn)行成為了可能,利用去噪自編碼器[6]和反向翻譯[7]訓(xùn)練在不使用平行語(yǔ)料的前提下完成了雙語(yǔ)間的翻譯建模。
本文的框架如下:首先介紹無(wú)監(jiān)督神經(jīng)機(jī)器翻譯的模型主要機(jī)制及訓(xùn)練過(guò)程,然后詳述無(wú)監(jiān)督神經(jīng)機(jī)器翻譯的發(fā)展過(guò)程,再給出現(xiàn)階段無(wú)監(jiān)督神經(jīng)機(jī)器翻譯存在的挑戰(zhàn),最后是論文研究結(jié)論。
1 無(wú)監(jiān)督神經(jīng)機(jī)器翻譯的主要機(jī)制
1.1 無(wú)監(jiān)督預(yù)訓(xùn)練方法
與有監(jiān)督神經(jīng)機(jī)器翻譯模型[1,8]相比,無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型在訓(xùn)練過(guò)程中并不存在監(jiān)督的雙語(yǔ)信號(hào)。因此,在無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型訓(xùn)練開(kāi)始前,需要通過(guò)無(wú)監(jiān)督預(yù)訓(xùn)練模型對(duì)無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型進(jìn)行初始化提供樸素的雙語(yǔ)信號(hào)。
最初,無(wú)監(jiān)督雙語(yǔ)詞嵌入被用來(lái)對(duì)無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型編碼器和解碼器的詞嵌入層進(jìn)行初始化。無(wú)監(jiān)督雙語(yǔ)詞嵌入[4-5]可以從2個(gè)非平行的單語(yǔ)語(yǔ)料庫(kù)中學(xué)習(xí)了詞對(duì)翻譯。通過(guò)雙語(yǔ)詞嵌入初始化后,編碼器就得到了語(yǔ)言獨(dú)立的詞級(jí)表示,且只需要學(xué)習(xí)如何將其組合起來(lái)以構(gòu)建更大的短語(yǔ)表示。無(wú)監(jiān)督雙語(yǔ)詞嵌入提供樸素的翻譯知識(shí),使反向翻譯可以產(chǎn)生偽監(jiān)督雙語(yǔ)信號(hào)[3-4]。
隨著預(yù)訓(xùn)練語(yǔ)言模型的廣泛研究,預(yù)訓(xùn)練語(yǔ)言模型[9]也被用來(lái)初始化無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型的編碼器和解碼器。通過(guò)語(yǔ)言模型訓(xùn)練來(lái)建立一個(gè)跨語(yǔ)言編碼器,該編碼器將2個(gè)單語(yǔ)句子編碼到共享的潛在空間中。與無(wú)監(jiān)督雙語(yǔ)詞嵌入相比,預(yù)訓(xùn)練語(yǔ)言模型可以為無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型提供更多的跨語(yǔ)言信息。
1.2 去噪自編碼器
由于無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型的對(duì)偶結(jié)構(gòu),可以直接通過(guò)重建其自身的輸入進(jìn)行訓(xùn)練。具體來(lái)說(shuō),將指定語(yǔ)言的輸入句子進(jìn)行編碼,再用該語(yǔ)言的解碼器重新構(gòu)造原始的句子,來(lái)對(duì)無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型進(jìn)行優(yōu)化。如果不添加一些約束條件,普通的自編碼器很難學(xué)習(xí)到有用的知識(shí),將變成一個(gè)復(fù)制任務(wù),只學(xué)習(xí)到對(duì)輸入單詞的一對(duì)一復(fù)制[3-4]。為了改進(jìn)這一問(wèn)題不足,引入了去噪自編碼器策略[6],并在輸入語(yǔ)句中增加了噪聲,以提高模型學(xué)習(xí)能力[10-11]。研究中,即選擇了2種不同類型噪聲加入到輸入語(yǔ)句中[4]。在輸入語(yǔ)句中的任意單詞以概率被刪除,概率越大,輸入語(yǔ)句中被刪除的單詞越多。第二類噪聲是對(duì)輸入語(yǔ)句的語(yǔ)序進(jìn)行輕微調(diào)整。通過(guò)這種去噪自編碼器策略,無(wú)監(jiān)督神經(jīng)機(jī)器翻譯系統(tǒng)需要了解所涉及語(yǔ)言的內(nèi)部結(jié)構(gòu),以便能夠恢復(fù)正確的詞序。同時(shí),通過(guò)阻止無(wú)監(jiān)督神經(jīng)機(jī)器翻譯系統(tǒng)過(guò)多地依賴輸入語(yǔ)句的詞序,語(yǔ)言之間的實(shí)際語(yǔ)序差異可以更好地被解釋。
1.3 反向翻譯
去噪自編碼器作為一個(gè)語(yǔ)言模型,在同一種語(yǔ)言中進(jìn)行訓(xùn)練,并沒(méi)有考慮在2種語(yǔ)言之間翻譯的最終目標(biāo)。因此將引入反向翻譯[7]來(lái)訓(xùn)練這個(gè)僅使用單語(yǔ)語(yǔ)料的無(wú)監(jiān)督翻譯系統(tǒng)。反向翻譯可以將這個(gè)無(wú)監(jiān)督問(wèn)題轉(zhuǎn)換成為有監(jiān)督的學(xué)習(xí)任務(wù),盡管是帶有噪聲的源端語(yǔ)句。在給定一種語(yǔ)言L1的輸入語(yǔ)句的情況下,推理模式使用L1編碼器進(jìn)行編碼,用L2解碼器進(jìn)行解碼,同時(shí)又使用了貪心解碼來(lái)將其轉(zhuǎn)換為另一種語(yǔ)言的譯文。通過(guò)這種方法,即獲取了偽平行句對(duì),并將其用來(lái)訓(xùn)練無(wú)監(jiān)督神經(jīng)機(jī)器翻譯系統(tǒng),再?gòu)倪@個(gè)帶有噪聲的合成翻譯中預(yù)測(cè)出原有語(yǔ)句。標(biāo)準(zhǔn)的反向翻譯是使用一個(gè)獨(dú)立的模型一次性反向翻譯整個(gè)語(yǔ)料庫(kù),與標(biāo)準(zhǔn)的反向翻譯不同,由于無(wú)監(jiān)督神經(jīng)機(jī)器翻譯系統(tǒng)的對(duì)偶結(jié)構(gòu),在無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型訓(xùn)練過(guò)程中,正在訓(xùn)練無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型將會(huì)用于實(shí)時(shí)反向翻譯每一個(gè)batch的語(yǔ)句。這樣,隨著訓(xùn)練的進(jìn)行和模型的改進(jìn),通過(guò)反向翻譯會(huì)產(chǎn)生更好的偽平行句對(duì),必將有助于在接下來(lái)的迭代中進(jìn)一步改進(jìn)模型。
2 無(wú)監(jiān)督神經(jīng)機(jī)器翻譯的優(yōu)化方法
2.1 模型參數(shù)共享
Artetxe等人[3]和Lample等人[4]使用去噪自編碼器和反向翻譯在沒(méi)有平行語(yǔ)料的情況下進(jìn)行無(wú)監(jiān)督神經(jīng)機(jī)器翻譯訓(xùn)練,與Artetxe等人[3]僅采用共享編碼器方法不同的是,Lample等人[4]不僅采用共享編碼器,也將共享解碼器,只是針對(duì)不同語(yǔ)言會(huì)使用不同的詞嵌入層。Yang等人[12]認(rèn)為共享編碼器對(duì)于將不同語(yǔ)言的句子映射到共享的潛在空間至關(guān)重要,但卻并不能很好地保持每種語(yǔ)言的獨(dú)特性和內(nèi)部特征。由于每種語(yǔ)言都有自己的特性,源語(yǔ)言和目標(biāo)語(yǔ)言應(yīng)獨(dú)立編碼和學(xué)習(xí),共享編碼器會(huì)是限制無(wú)監(jiān)督神經(jīng)機(jī)器翻譯性能的一個(gè)因素。為了解決這個(gè)問(wèn)題,Yang等人[12]利用2個(gè)獨(dú)立的編碼器來(lái)代替原有的共享編碼器,每個(gè)編碼器對(duì)應(yīng)一種語(yǔ)言,也同樣會(huì)用到2個(gè)獨(dú)立的解碼器。為了在訓(xùn)練過(guò)程中更好地將不同語(yǔ)言的潛在表示映射到共享潛在空間,可利用權(quán)重共享來(lái)約束現(xiàn)有的無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型。總地來(lái)說(shuō),負(fù)責(zé)抽取輸入句子的高級(jí)表示的2個(gè)編碼器的末端多層的權(quán)重以及2個(gè)解碼器的前端多層的權(quán)重將被共享。稍后的大部分無(wú)監(jiān)督翻譯工作也都是基于這三種參數(shù)共享框架開(kāi)展的。
2.2 模型機(jī)制優(yōu)化
通常,無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型主要包括無(wú)監(jiān)督預(yù)訓(xùn)練模型、去噪自編碼器、反向翻譯和共享潛在表示四個(gè)機(jī)制,很多工作通過(guò)優(yōu)化這4個(gè)機(jī)制來(lái)提升無(wú)監(jiān)督神經(jīng)機(jī)器翻譯的性能。
與先前研究工作[3-4,12]使用雙語(yǔ)詞嵌入作為翻譯模型的初始化不同,Lample等人[13]提出了一種更適合相似語(yǔ)言對(duì)的初始化方法,并沒(méi)有學(xué)習(xí)源語(yǔ)言和目標(biāo)語(yǔ)言之間的顯式映射,而是將2個(gè)單語(yǔ)語(yǔ)料庫(kù)合并成一個(gè)語(yǔ)料庫(kù),對(duì)其進(jìn)行BPE[14]操作后,在這個(gè)語(yǔ)料庫(kù)上學(xué)習(xí)token級(jí)的詞嵌入[15],這個(gè)詞嵌入將用來(lái)初始化翻譯模型中編碼器和解碼器的詞嵌入層。然而,這種初始化方法并不適用于一些不相似語(yǔ)言對(duì)。
隨著預(yù)訓(xùn)練語(yǔ)言模型被廣泛研究,Conneau等人[9],Song等人[16]和Ren等人[17]使用跨語(yǔ)言掩碼語(yǔ)言模型預(yù)訓(xùn)練方法代替原有的詞嵌入預(yù)訓(xùn)練方法對(duì)翻譯模型中的所有參數(shù)進(jìn)行初始化,大幅度提升無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型性能。與詞嵌入預(yù)訓(xùn)練方法相比,語(yǔ)言模型預(yù)訓(xùn)練方法可以為無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型提供更多的跨語(yǔ)言信息。Sun等人[18-19]提出跨語(yǔ)言一致性方法來(lái)進(jìn)一步提升翻譯性能。
Kim等人[20]并沒(méi)有使用反向翻譯進(jìn)行模型訓(xùn)練,提出一種基于雙語(yǔ)詞嵌入單詞翻譯的方法,來(lái)提升模型的訓(xùn)練速度。與此同時(shí),Wu等人[21]也認(rèn)為由于生成的偽平行句對(duì)通常質(zhì)量不高,翻譯誤差容易積累,為此,Wu等人[21]從可比的單語(yǔ)語(yǔ)料庫(kù)中抽取真實(shí)的平行語(yǔ)句來(lái)訓(xùn)練翻譯模型。
2.3 語(yǔ)言對(duì)選擇
無(wú)監(jiān)督神經(jīng)機(jī)器翻譯研究工作通常是在法英、德英等相似語(yǔ)言對(duì)上來(lái)對(duì)系統(tǒng)的有效性進(jìn)行驗(yàn)證。后來(lái)一些研究者也在不相似語(yǔ)言對(duì)和多語(yǔ)言方面開(kāi)展無(wú)監(jiān)督神經(jīng)機(jī)器翻譯研究。Leng等人[22]通過(guò)引入中軸語(yǔ)翻譯來(lái)解決無(wú)監(jiān)督神經(jīng)機(jī)器翻譯在不相似語(yǔ)言對(duì)中性能低的問(wèn)題。Xu等人[23]提出多邊形網(wǎng)絡(luò)(Polygon-Net)框架,利用額外的輔助語(yǔ)言聯(lián)合學(xué)習(xí)增強(qiáng)無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型的性能。Sen等人[24]通過(guò)一個(gè)共享編碼器和多個(gè)特定語(yǔ)言的解碼器來(lái)聯(lián)合訓(xùn)練多語(yǔ)言無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型。Sun等人[25]在大規(guī)模歐洲單語(yǔ)語(yǔ)料上訓(xùn)練多語(yǔ)言無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型,并提出特有的知識(shí)蒸餾方法改善翻譯性能。
2.4 引入統(tǒng)計(jì)機(jī)器翻譯
隨著無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型在一些語(yǔ)言對(duì)上可以獲得顯著性能的同時(shí),許多研究者開(kāi)始探索統(tǒng)計(jì)機(jī)器翻譯的模塊化特性是否更適合這種僅依賴單語(yǔ)語(yǔ)料庫(kù)的無(wú)監(jiān)督設(shè)置,提出了全新的無(wú)監(jiān)督統(tǒng)計(jì)機(jī)器翻譯模型[13,26-27]。Lample等人[13],Marie等人[28],Ren等人[29]和Artetxe等人[27]將無(wú)監(jiān)督神經(jīng)機(jī)器翻譯與無(wú)監(jiān)督統(tǒng)計(jì)機(jī)器翻譯相結(jié)合進(jìn)一步提升翻譯性能。Lample等人[13]將無(wú)監(jiān)督統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)生成的數(shù)據(jù)添加到無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型生成的反向翻譯數(shù)據(jù)中進(jìn)一步優(yōu)化無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型。Marie等人[28]提出在無(wú)監(jiān)督翻譯場(chǎng)景下使用監(jiān)督的神經(jīng)機(jī)器翻譯框架,只是使用無(wú)監(jiān)督統(tǒng)計(jì)機(jī)器翻譯模型生成的偽平行語(yǔ)料代替真實(shí)的平行語(yǔ)料,并且使用正向翻譯代替反向翻譯以提高翻譯質(zhì)量,消除對(duì)2個(gè)翻譯方向同時(shí)進(jìn)行訓(xùn)練的需要。Ren等人[29]利用統(tǒng)計(jì)機(jī)器翻譯作為后驗(yàn)正則化在迭代反向翻譯過(guò)程中去噪和指導(dǎo)無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型訓(xùn)練,來(lái)消除反向翻譯帶來(lái)隨機(jī)誤差。Ren等人[30]認(rèn)為使用雙語(yǔ)詞嵌入方法初始化短語(yǔ)表很難恢復(fù)一些訓(xùn)練語(yǔ)句中的復(fù)雜句子結(jié)構(gòu),并且這個(gè)短語(yǔ)表中會(huì)存在大量噪聲。為了解決這一問(wèn)題,Ren等人[30]利用無(wú)監(jiān)督的跨語(yǔ)言句子嵌入方法從2種語(yǔ)言的單語(yǔ)語(yǔ)料庫(kù)中檢索語(yǔ)義上相似的句子對(duì),再通過(guò)GIZA++[31]來(lái)獲得單詞對(duì)齊,刪除檢索到的目標(biāo)句子中未對(duì)齊的單詞,并使用一個(gè)序列到序列的重寫(xiě)模型對(duì)修改后的目標(biāo)句進(jìn)行重寫(xiě),以減少源語(yǔ)言語(yǔ)句和目標(biāo)語(yǔ)言語(yǔ)句之間的語(yǔ)義差距。
2.5 引入額外信息
源端語(yǔ)句和目標(biāo)端語(yǔ)句在潛在空間中進(jìn)行關(guān)聯(lián)是無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型的一個(gè)難點(diǎn)。Su等人[32]和Huang等人[33]提出多模態(tài)無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型,利用圖像信息在翻譯訓(xùn)練過(guò)程中消除歧義,促進(jìn)潛在空間的對(duì)齊,進(jìn)一步提升翻譯性能。Duan等人[34]使用額外的雙語(yǔ)詞典來(lái)建立錨點(diǎn),縮小源語(yǔ)言和目標(biāo)語(yǔ)言之間的差距以提升翻譯性能。Garcia等人[35]和Li等人[36]引入第三種語(yǔ)言,這種語(yǔ)言與源端或者目標(biāo)端之間存在平行語(yǔ)料,利用額外引入的平行語(yǔ)料來(lái)提升翻譯性能。
2.6 其他
Pourdamghani等人[37]通過(guò)將無(wú)監(jiān)督神經(jīng)機(jī)器翻譯訓(xùn)練分解為2個(gè)階段。第一階段,通過(guò)一個(gè)源端到目標(biāo)端的詞典生成粗略的譯文(Translationese),翻譯過(guò)程中采用Kim等人[20]的方法加入語(yǔ)言模型,基于上下文信息進(jìn)行詞匯選擇。第二階段,使用一些高資源語(yǔ)言對(duì)的平行語(yǔ)料訓(xùn)練一個(gè)由Translationese到流暢目標(biāo)端譯文的翻譯模型。在遷移到新的源語(yǔ)言時(shí),該方法不需要對(duì)翻譯模型進(jìn)行重新訓(xùn)練,只需要一個(gè)源端到目標(biāo)端的字典,這使得該方法可以快速地應(yīng)用到其他新的語(yǔ)言中。Sun等人[38]通過(guò)對(duì)抗訓(xùn)練方法提高無(wú)監(jiān)督神經(jīng)機(jī)器翻譯的魯棒性。近年來(lái),國(guó)際機(jī)器翻譯評(píng)測(cè)(WMT)也引入了無(wú)監(jiān)督機(jī)器翻譯任務(wù),吸引許多研究者們關(guān)注與參與[39-40]。
3 無(wú)監(jiān)督神經(jīng)機(jī)器翻譯的挑戰(zhàn)
雙語(yǔ)詞嵌入的出現(xiàn)使機(jī)器翻譯在單語(yǔ)語(yǔ)料上以無(wú)監(jiān)督方式完成雙語(yǔ)間的翻譯成為了可能。盡管現(xiàn)如今大量工作集中在無(wú)監(jiān)督神經(jīng)機(jī)器翻譯的相關(guān)研究上,但是無(wú)監(jiān)督神經(jīng)機(jī)器翻譯的研究依然存在一些不足和局限性[41-42]。
目前,無(wú)監(jiān)督神經(jīng)機(jī)器翻譯的研究工作多數(shù)情況下是在英法、英德等相似語(yǔ)言對(duì)上驗(yàn)證方法的有效性,并沒(méi)有考慮語(yǔ)言的多樣性。通常,在一些不相似語(yǔ)言對(duì)上雙語(yǔ)詞嵌入準(zhǔn)確率并不高[43],無(wú)監(jiān)督神經(jīng)機(jī)器翻譯在這些語(yǔ)言對(duì)上則會(huì)獲得更差的性能。如何在諸如中英、日英等不相似語(yǔ)言對(duì)上提升無(wú)監(jiān)督神經(jīng)機(jī)器翻譯質(zhì)量是一個(gè)值得研究的課題。此外,在一些真正低資源語(yǔ)言對(duì)上進(jìn)行無(wú)監(jiān)督神經(jīng)機(jī)器翻譯訓(xùn)練也亟待進(jìn)一步探索。
相較于有監(jiān)督機(jī)器翻譯,無(wú)監(jiān)督神經(jīng)機(jī)器翻譯領(lǐng)域自適應(yīng)問(wèn)題并未獲得充分研究。除了有監(jiān)督存在的訓(xùn)練集和測(cè)試集領(lǐng)域不一致以外,無(wú)監(jiān)督翻譯的訓(xùn)練集間也可能存在領(lǐng)域不一致的問(wèn)題[44],從而使得無(wú)監(jiān)督神經(jīng)機(jī)器翻譯領(lǐng)域自適應(yīng)問(wèn)題變得更為復(fù)雜。此外,單語(yǔ)數(shù)據(jù)大小以及2種語(yǔ)言間單語(yǔ)數(shù)據(jù)間存在的數(shù)量不平衡性[45]也會(huì)影響無(wú)監(jiān)督神經(jīng)機(jī)器翻譯性能。
傳統(tǒng)的無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型在訓(xùn)練過(guò)程中會(huì)同時(shí)對(duì)一個(gè)語(yǔ)言對(duì)的2個(gè)不同翻譯方向進(jìn)行訓(xùn)練,無(wú)監(jiān)督神經(jīng)機(jī)器翻譯的訓(xùn)練過(guò)程主要依賴無(wú)監(jiān)督預(yù)訓(xùn)練策略、去噪自編碼器、反向翻譯和共享潛在表示機(jī)制,然而這些機(jī)制本身存在自身的局限性。預(yù)訓(xùn)練模型的質(zhì)量會(huì)顯著影響翻譯模型的質(zhì)量。通過(guò)去噪自編碼器訓(xùn)練可以使無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型獲得更流暢通順的譯文,然而通過(guò)不斷修改訓(xùn)練數(shù)據(jù)進(jìn)行去噪自編碼器訓(xùn)練也極大地減緩了模型的訓(xùn)練速度。反向翻譯是在單語(yǔ)語(yǔ)料上實(shí)現(xiàn)雙語(yǔ)間翻譯的關(guān)鍵,但是反向翻譯也存在自身的不足。反向翻譯生成的偽平行句對(duì)通常質(zhì)量不高,翻譯誤差容易累積疊加,這會(huì)阻礙無(wú)監(jiān)督神經(jīng)機(jī)器翻譯系統(tǒng)的進(jìn)一步提升。此外,無(wú)監(jiān)督神經(jīng)機(jī)器翻譯訓(xùn)練過(guò)程中,需要通過(guò)反向翻譯不斷生成譯文,反向翻譯的解碼速度也限制了無(wú)監(jiān)督神經(jīng)機(jī)器翻譯模型的訓(xùn)練速度。如何設(shè)計(jì)高效的反向翻譯方法將是未來(lái)無(wú)監(jiān)督神經(jīng)機(jī)器翻譯研究的熱點(diǎn)課題。共享潛在表示只是在無(wú)監(jiān)督神經(jīng)機(jī)器翻譯訓(xùn)練前期是必需的,而隨著無(wú)監(jiān)督神經(jīng)機(jī)器翻譯訓(xùn)練,共享潛在表示機(jī)制會(huì)迅速變得低效。學(xué)習(xí)共享潛在表示會(huì)限制了2個(gè)不同方向翻譯性能的進(jìn)一步提升,特別是對(duì)于不相似語(yǔ)言對(duì)。
4 結(jié)束語(yǔ)
無(wú)監(jiān)督神經(jīng)機(jī)器翻譯解決了因平行語(yǔ)料缺失造成神經(jīng)機(jī)器翻譯出現(xiàn)瓶頸的問(wèn)題,顯著降低了訓(xùn)練成本。本文介紹了無(wú)監(jiān)督神經(jīng)機(jī)器翻譯的模型主要機(jī)制、訓(xùn)練方法及其發(fā)展過(guò)程,并分析了無(wú)監(jiān)督神經(jīng)機(jī)器翻譯存在的局限性。未來(lái)期待更多的工作,研究完善無(wú)監(jiān)督神經(jīng)機(jī)器翻譯,進(jìn)一步縮小與有監(jiān)督神經(jīng)機(jī)器翻譯的性能差距。
參考文獻(xiàn)
[1]VASWANIA,SHAZEERN,PARMARN,etal.Attentionisallyouneed[C]//AdvancesinNeuralInformationProcessingSystems30.LongBeach,CA,USA:CurranAssociates,Inc.,2017:5998-6008.
[2]KOEHNP,KNOWLESR.Sixchallengesforneuralmachinetranslation[C]//ProceedingsoftheFirstWorkshoponNeuralMachineTranslation.Vancouver:AssociationforComputationalLinguistics,2017:28-39.
[3]ARTETXEM,LABAKAG,AGIRREE,etal.Unsupervisedneuralmachinetranslation[C]//ProceedingsoftheSixthInternationalConferenceonLearningRepresentations.Vancouver,Canada:OpenReview.net,2018:1-11.
[4]LAMPLEG,CONNEAUA,DENOYERL,etal.Unsupervisedmachinetranslationusingmonolingualcorporaonly[C]//ProceedingsoftheSixthInternationalConferenceonLearningRepresentations.Vancouver,Canada:OpenReview.net,2018:1-14.
[5]CONNEAUA,LAMPLEG,RANZATOM,etal.Wordtranslationwithoutparalleldata[C]//ProceedingsoftheSixthInternationalConferenceonLearningRepresentations.Vancouver,Canada:OpenReview.net,2018:1-14.
[6]VINCENTP,LAROCHELLEH,LAJOIEI,etal.Stackeddenoisingautoencoders:Learningusefulrepresentationsinadeepnetworkwithalocaldenoisingcriterion[J].JournalofMachineLearningResearch,2010,11:3371-3408.
[7]SENNRICHR,HADDOWB,BIRCHA.Improvingneuralmachinetranslationmodelswithmonolingualdata[C]//Proceedingsofthe54thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers).Berlin,Germany:AssociationforComputationalLinguistics,2016:86-96.
[8]BAHDANAUD,CHOK,BENGIOY.Neuralmachinetranslationbyjointlylearningtoalignandtranslate[C]//Proceedingsofthe3rdInternationalConferenceonLearningRepresentations.SanDiego,CA,USA:DBLP,2015:1-15.
[9]CONNEAUA,LAMPLEG.Cross-linguallanguagemodelpretraining[C]//AdvancesinNeuralInformationProcessingSystems32.Vancouver,Canada:CurranAssociates,Inc.,2019:7059-7069.
[10] HED,XIAY,QINT,etal.Duallearningformachinetranslation[C]//AdvancesinNeuralInformationProcessingSystems29.Barcelona,Spain:CurranAssociates,Inc.,2016:820-828.
[11]HILLF,CHOK,KORHONENA.Learningdistributedrepresentationsofsentencesfromunlabelleddata[C]//Proceedingsofthe2016ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies.SanDiego,California:AssociationforComputationalLinguistics,2016:1367-1377.
[12]YANGZhen,CHENWei,WANGFeng,etal.Unsupervisedneuralmachinetranslationwithweightsharing[C]//Proceedingsofthe56thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers).Melbourne,Australia:AssociationforComputationalLinguistics,2018:46-55.
[13]LAMPLEG,OTTM,CONNEAUA,etal.Phrase-based&neuralunsupervisedmachinetranslation[C]//Proceedingsofthe2018ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Brussels,Belgium:AssociationforComputationalLinguistics,2018:5039-5049.
[14]SENNRICHR,HADDOWB,BIRCHA.Neuralmachinetranslationofrarewordswithsubwordunits[C]//Proceedingsofthe54thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers).Berlin,Germany:AssociationforComputationalLinguistics,2016:1715-1725.
[15]MIKOLOVT,SUTSKEVERI,CHENKai,etal.Distributedrepresentationsofwordsandphrasesandtheircompositionality[C]//AdvancesinNeuralInformationProcessingSystems26.LakeTahoe,Nevada,UnitedStates:CurranAssociates,Inc.,2013:3111-3119.
[16]SONGKaitao,TANXu,QINTao,etal.MASS:Maskedsequencetosequencepre-trainingforlanguagegeneration[C]//Proceedingsofthe36thInternationalConferenceonMachineLearning.LongBeach,California,USA:PMLR,2019:5926-5936.
[17]RENShuo,WUYu,LIUShujie,etal.Explicitcross-lingualpre-trainingforunsupervisedmachinetranslation[C]//Proceedingsofthe2019ConferenceonEmpiricalMethodsinNaturalLanguageProcessingandthe9thInternationalJointConferenceonNaturalLanguageProcessing.HongKong,China:AssociationforComputationalLinguistics,2019:770-779.
[18]SUNHaipeng,WANGRui,CHENKehai,etal.Unsupervisedbilingualwordembeddingagreementforunsupervisedneuralmachinetranslation[C]//The57thAnnualMeetingoftheAssociationforComputationalLinguistics.Florence,Italy:AssociationforComputationalLinguistics,2019:1235-1245.
[19]SUNH,WANGR,CHENK,etal.Unsupervisedneuralmachinetranslationwithcross-linguallanguagerepresentationagreement[J].IEEE/ACMTransactionsonAudio,Speech,andLanguageProcessing,2020,28:1170-1182.
[20]KIMY,GENGJ,NEYH.Improvingunsupervisedword-by-wordtranslationwithlanguagemodelanddenoisingautoencoder[C]//Proceedingsofthe2018ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Brussels,Belgium:AssociationforComputationalLinguistics,2018:862-868.
[21]WUJiawei,WANGXin,WANGYang.Extractandedit:Analternativetoback-translationforunsupervisedneuralmachinetranslation[C]//Proceedingsofthe2019ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies,Volume1(LongandShortPapers).Minneapolis,Minnesota:AssociationforComputationalLinguistics,2019:1173-1183.
[22]LEMGYichong,TANXu,QINTao,etal.Unsupervisedpivottranslationfordistantlanguages[C]//Proceedingsofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics.Florence,Italy:AssociationforComputationalLinguistics,2019:175-183.
[23]XUChang,QINTao,WANGGang,etal.Polygon-Net:Ageneralframeworkforjointlyboostingmultiplensupervisedneuralmachinetranslationmodels[C]//ProceedingsoftheTwenty-EighthInternationalJointConferenceonArtificialIntelligence.Macao,China:ijcai.org,2019:5320-5326.
[24]SENS,GUPTAKK,EKBALA,etal.MultilingualunsupervisedNMTusingsharedencoderandlanguage-specificdecoders[C]//Proceedingsofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics.Florence,Italy:AssociationforComputationalLinguistics,2019:3083-3089.
[25]SUNHaipeng,WANGRui,CHENKehai,etal.Knowledgedistillationformultilingualunsupervisedneuralmachinetranslation[C]//The58thAnnualMeetingoftheAssociationforComputationalLinguistics,Online:AssociationforComputationalLinguistics,2020:3525-3535.
[26]ARTETXEM,LABAKAG,AGIRREE.Unsupervisedstatisticalmachinetranslation[C]//Proceedingsofthe2018ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Brussels,Belgium:AssociationforComputationalLinguistics,2018:3632-3642.
[27]ARTETXEM,LABAKAG,AGIRREE.Aneffectiveapproachtounsupervisedmachinetranslation[C]//Proceedingsofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics.Florence,Italy:AssociationforComputationalLinguistics,2019:194-203.
[28]MARIEB,F(xiàn)UJITAA.Unsupervisedneuralmachinetranslationinitializedbyunsupervisedstatisticalmachinetranslation[J].CoRR,2018,abs/1810.12703.
[29]RENShuo,ZHANGZhirui,LIUShujie,etal.UnsupervisedneuralmachinetranslationwithSMTasposteriorregularization[C]//ProceedingsoftheThirty-ThirdAAAIConferenceonArtificialIntelligence.Honolulu,Hawaii,USA:AAAIPress,2019:241-248.
[30]RENShuo,WUYu,LIUShujie,etal.Aretrieve-and-rewriteinitializationmethodforunsupervisedmachinetranslation[C]//Proceedingsofthe58thAnnualMeetingoftheAssociationforComputationalLinguistics.Online:AssociationforComputationalLinguistics,2020:3498-3504.
[31]OCHFJ,NEYH.Asystematiccomparisonofvariousstatisticalalignmentmodels[J].ComputationalLinguistics,2003,29(1):19-51.
[32]SUYuanhang,F(xiàn)ANKai,BACHN,etal.Unsupervisedmulti-modalneuralmachinetranslation[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.LongBeach,California,USA:ComputerVisionFoundation/IEEE,2019:10482-10491.
[33]HUANGPoyao,HUJunjie,CHANGXiaojun,etal.Unsupervisedmultimodalneuralmachinetranslationwithpseudovisualpivoting[C]//Proceedingsofthe58thAnnualMeetingoftheAssociationforComputationalLinguistics.Online:AssociationforComputationalLinguistics,2020:8226-8237.
[34]DUANXiangyu,JIBaijun,JIAHao,etal.Bilingualdictionarybasedneuralmachinetranslationwithoutusingparallelsentences[C]//Proceedingsofthe58thAnnualMeetingoftheAssociationforComputationalLinguistics.Online:AssociationforComputationalLinguistics,2020:1570-1579.
[35]GARCIAX,F(xiàn)ORETP,SELLAMT,etal.AmultilingualviewofUnsupervisedMachineTranslation[J].CoRR,2020,abs/2002.02955.
[36]LIZuchao,ZHAOHai,WANGRui,etal.Referencelanguagebasedunsupervisedneuralmachinetranslation[J].CoRR,2020,abs/2004.02127.
[37]POURDAMGHANIN,ALDARRABN,GHAZVININEJADM,etal.Translatingtranslationese:Atwo-stepapproachtounsupervisedmachinetranslation[C]//Proceedingsofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics.Florence,Italy:AssociationforComputationalLinguistics,2019:3057-3062.
[38]SUNHaipeng,WANGRui,CHENKehai,etal.Robustunsupervisedneuralmachinetranslationwithadversarialtraining[J].CoRR,2020,abs/2002.12549.
[39]MARIEB,SUNH,WANGR,etal.NICT'sunsupervisedneuralandstatisticalmachinetranslationsystemsfortheWMT19newstranslationtask[C]//ProceedingsoftheFourthConferenceonMachineTranslation(Volume2:SharedTaskPapers,Day1).Florence,Italy:AssociationforComputationalLinguistics,2019:294-301.
[40]LIZuchao,ZHAOHai,WANGRui,etal.SJTU-NICT'ssupervisedandunsupervisedneuralmachinetranslationsystemsfortheWMT20newstranslationtask[J].CoRR,2020,abs/2010.05122.
[41]KIMY,GRACAM,NEYH.Whenandwhyisunsupervisedneuralmachinetranslationuseless?[C]//Proceedingsofthe22ndAnnualConferenceoftheEuropeanAssociationforMachineTranslation.Lisboa,Portugal:EuropeanAssociationforMachineTranslation,2020:35-44.
[42]MARCHISIOK,DUHK,KOEHNP.Whendoesunsupervisedmachinetranslationwork?[J].CoRR,2020,abs/2004.05516.
[43]SGAARDA,RUDERS,VULIC I.Onthelimitationsofunsupervisedbilingualdictionaryinduction[C]//Proceedingsofthe56thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers).Melbourne,Australia:AssociationforComputationalLinguistics,2018:778-788.
[44]SUNHaipeng,WANGRui,CHENKehai,etal.Revisitingsimpledomainadaptationmethodsinunsupervisedneuralmachinetranslation[J].CoRR,2019,abs/1908.09605.
[45]SUNHaipeng,WANGRui,CHENKehai,etal.Self-trainingforunsupervisedneuralmachinetranslationinunbalancedtrainingdatascenarios[J].CoRR,2020,abs/2004.04507.