樊文婷,侯宏旭,王洪彬,武 靜,李金廷
(內(nèi)蒙古大學(xué) 計算機(jī)學(xué)院,內(nèi)蒙古 呼和浩特 010021)
神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型被提出之后成為機(jī)器翻譯的一個研究熱點(diǎn)[1-2]。神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型是基于詞、短語和句子的連續(xù)表示,連續(xù)的詞向量更能準(zhǔn)確地表示詞的形態(tài)、語義和語法信息,刻畫近義詞之間的關(guān)系[3-4]。蒙古文的構(gòu)詞形式是在詞干后不斷綴接詞綴來構(gòu)成詞匯,且詞形變化豐富,詞匯的連續(xù)表示更容易捕捉到蒙古文詞的形態(tài)和構(gòu)詞信息。目前在蒙古文到漢文的機(jī)器翻譯任務(wù)上基于注意力機(jī)制的神經(jīng)機(jī)器翻譯模型取得了較好的效果,但仍然存在一些不足。
在神經(jīng)網(wǎng)絡(luò)翻譯模型的框架下,訓(xùn)練翻譯模型往往需要大規(guī)模的訓(xùn)練語料。模型的訓(xùn)練僅僅依賴雙語訓(xùn)練集,網(wǎng)絡(luò)學(xué)習(xí)的特征全部依賴雙語訓(xùn)練集。但是蒙古文這樣的低資源語種并不能獲得大規(guī)模蒙漢雙語平行語料用來訓(xùn)練翻譯模型,僅使用雙語語料訓(xùn)練翻譯模型又學(xué)習(xí)不到足夠多的特征。針對蒙古文—漢文平行語料規(guī)模較小的情況,本文將外部特征融合到蒙古文—漢文神經(jīng)網(wǎng)絡(luò)翻譯模型的訓(xùn)練過程中,來指導(dǎo)網(wǎng)絡(luò)訓(xùn)練,緩解蒙古文—漢文翻譯中因訓(xùn)練語料不足導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)到的特征不足的問題。為此,我們將先驗(yàn)信息融合到神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中。
首先,詞向量表示的精確度對網(wǎng)絡(luò)的翻譯性能有很大影響,神經(jīng)網(wǎng)絡(luò)翻譯模型以one-hot為初始詞向量,且初始詞向量對模型有較大的影響。在網(wǎng)絡(luò)訓(xùn)練過程中,詞向量表示不斷調(diào)整。詞向量的學(xué)習(xí)與翻譯模型的訓(xùn)練同時進(jìn)行,然而雙語平行語料的獲得要比單語語料更為困難,有限的雙語語料限制了詞向量對詞本身所包含信息的學(xué)習(xí)。大規(guī)模的單語訓(xùn)練語料有助于更精準(zhǔn)的詞向量表示。蒙古文屬于低資源語言,可利用的雙語句對齊語料較少,與之相比漢文的單語語料則較為豐富。本文利用大規(guī)模的漢文單語語料來訓(xùn)練得到較為準(zhǔn)確的漢文詞向量表示。其次,蒙古文到漢文的翻譯任務(wù)中可利用的雙語平行語料較少,網(wǎng)絡(luò)自動學(xué)習(xí)到的特征較少。針對上述神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型在蒙古文到漢文的翻譯任務(wù)上存在的問題,本文提出將可利用的先驗(yàn)信息融合到蒙古文到漢文的神經(jīng)網(wǎng)絡(luò)翻譯模型中。第一,使用大規(guī)模單語語料預(yù)先訓(xùn)練詞向量,用得到的詞向量作為神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型的初始詞向量。這樣詞向量的訓(xùn)練不僅限于有限雙語平行語料,還可以利用大規(guī)模的單語語料,為翻譯模型提供語義表達(dá)更精準(zhǔn)的詞向量表示。第二,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型訓(xùn)練時僅使用語料文本信息,并沒有使用外部的標(biāo)注特征。本文采用有效的外部特征來增加蒙古文到漢文翻譯任務(wù)中的可用信息。這些豐富的先驗(yàn)特征更有利于網(wǎng)絡(luò)學(xué)習(xí)到語言特征,充分發(fā)揮神經(jīng)網(wǎng)絡(luò)特征學(xué)習(xí)的優(yōu)勢。本文提出在詞向量中融入詞性特征,可以起到消除歧義的作用。
對于神經(jīng)網(wǎng)絡(luò)翻譯模型來說,目標(biāo)語言詞典的大小對翻譯結(jié)果的影響較大。如果目標(biāo)語言詞典包含訓(xùn)練集中的所有詞,翻譯效果會有很大程度提升,但訓(xùn)練時間和規(guī)模會相應(yīng)增加。因此,翻譯中通常會限制目標(biāo)詞典大小,這就導(dǎo)致翻譯中未被詞典覆蓋的詞會增加。在翻譯過程中,通常使用未知詞(UNK)來代替所有的未登錄詞。神經(jīng)網(wǎng)絡(luò)的主要優(yōu)勢是可以利用長距離依賴信息,而詞的連續(xù)表示是在翻譯模型的訓(xùn)練過程中學(xué)習(xí)而成,所以未登錄詞的出現(xiàn)會影響整個句子的翻譯以及詞向量的學(xué)習(xí)。本文采用的方法是在詞典規(guī)模不變的情況下,讓詞典包含更多目標(biāo)語言單詞信息、提高詞典利用率。該方法利用加入詞性特征的詞向量計算詞與詞之間的相似度,然后將未登錄詞用目標(biāo)詞典中與之最相近的詞替代。
為了證明本文提出的融合先驗(yàn)信息的神經(jīng)網(wǎng)絡(luò)翻譯模型的有效性,在蒙古文到漢文翻譯任務(wù)上進(jìn)行了實(shí)驗(yàn)比較,使用基于注意力機(jī)制的重現(xiàn)神經(jīng)網(wǎng)絡(luò)作為基線系統(tǒng)。采用大規(guī)模單語蒙古文以及漢文語料預(yù)先訓(xùn)練詞向量方法的實(shí)驗(yàn)結(jié)果比基線系統(tǒng)提高了1.98個BLEU點(diǎn);此外,在預(yù)先訓(xùn)練得到的詞向量中融入詞性特征的實(shí)驗(yàn)結(jié)果比未加入詞性特征的實(shí)驗(yàn)結(jié)果提高0.7個BLEU點(diǎn);相同參數(shù)下,利用加入詞性特征的詞向量計算相似度做低頻詞替換實(shí)驗(yàn)結(jié)果比基線系統(tǒng)提高0.6個BLEU點(diǎn);相比基線系統(tǒng),本文將蒙古文—漢文的翻譯結(jié)果提高2.68個BLEU點(diǎn)。
目前翻譯效果較好的是基于注意力機(jī)制的重現(xiàn)神經(jīng)網(wǎng)絡(luò)編碼器—解碼器翻譯模型,在文獻(xiàn)[5-7]中有詳細(xì)介紹。本文使用含有記憶單元的注意力機(jī)制的重現(xiàn)神經(jīng)網(wǎng)絡(luò)[8]。基于重現(xiàn)神經(jīng)網(wǎng)絡(luò)編碼器—解碼器的機(jī)器翻譯模型是一種端到端翻譯模型。它由編碼器和解碼器兩部分構(gòu)成。源語言句子X=(x1,...,xM)作為編碼器的輸入,(h1,...,hM)表示編碼器的輸出。解碼器利用編碼器的輸出和注意力機(jī)制產(chǎn)生的對齊權(quán)重產(chǎn)生向量序列(c1,...,cM),從而生成目標(biāo)語言句子。目標(biāo)語言句子Y=(y1,...,yT)的聯(lián)合翻譯概率定義為:
(1)
每一個目標(biāo)單詞的翻譯概率為:
p(yt|y (2) 其中,ct是編碼層輸出(h1,...,hM)的加權(quán)和: (3) M表示源語言句子長度,T表示目標(biāo)語言句子長度,g是非線性激活函數(shù)。st表示解碼器隱層的輸出,ct由編碼器的輸出和注意力機(jī)制的對齊權(quán)重得到,{y1,...,yt-1}表示已經(jīng)翻譯出來的目標(biāo)語言單詞,權(quán)值αij由編碼器的輸出和解碼器上一步的隱層輸出計算得到。 神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型預(yù)測當(dāng)前目標(biāo)單詞時,會計算目標(biāo)語言詞典中每一個單詞作為當(dāng)前預(yù)測單詞的概率,目標(biāo)詞典的大小就是網(wǎng)絡(luò)的搜索空間。為了減小網(wǎng)絡(luò)訓(xùn)練時間,通常會限制目標(biāo)語言詞典大小。這樣會導(dǎo)致訓(xùn)練語料中的低頻詞不會被詞典包含從而變?yōu)槲吹卿浽~。從式(2)可看出,計算目標(biāo)單詞的預(yù)測概率時,會依賴前面已經(jīng)預(yù)測出來的單詞。若譯文的前一個單詞是UNK則會影響后面目標(biāo)單詞的預(yù)測,UNK不僅會影響預(yù)測下一個詞的準(zhǔn)確率,還會影響整個網(wǎng)絡(luò)的訓(xùn)練。 本節(jié)介紹將先驗(yàn)信息融合到神經(jīng)網(wǎng)絡(luò)翻譯模型中的具體方法。首先,將大規(guī)模單語語料預(yù)先訓(xùn)練得到的詞向量作為神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型的初始詞向量。其次,在詞向量中融入詞性特征,可以起到消除語義、詞義上的歧義的作用。針對神經(jīng)網(wǎng)絡(luò)的未登錄詞問題,利用加入詞性特征的詞向量計算詞與詞之間的相似度,然后將未登錄詞用目標(biāo)詞典中與之最相近的詞替代。 神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型中詞向量學(xué)習(xí)僅使用有限雙語平行語料,且詞向量的初始值采用隨機(jī)賦值。訓(xùn)練詞向量時語料的規(guī)模對詞向量準(zhǔn)確性影響較大。本文采用大規(guī)模的單語語料訓(xùn)練得到的詞向量可以更準(zhǔn)確地表示詞匯本身攜帶的信息,將得到的詞向量作為神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型的初始詞向量。第四節(jié)的實(shí)驗(yàn)結(jié)果表明該方法的有效性。 自然語言相關(guān)任務(wù)中最常見的第一步是創(chuàng)建一個詞典并把每個詞順序編號,也就是詞向量表示方法中的 one-hot 表示。向量的維度等于詞典的大小,這種方法無法捕捉詞與詞之間的相似度,且容易發(fā)生維數(shù)災(zāi)難。最早由 Hinton 在 1986 年提出一種分布式詞向量表示方法,該方法可以利用詞向量較為精確的表示單詞的詞義。2013年Mikolov Tomas提出兩種學(xué)習(xí)單詞連續(xù)向量表示的新模型[9-11]。2016年Facebook提出一種學(xué)習(xí)連續(xù)詞向量的方法[12]。本文詞向量預(yù)先訓(xùn)練采用的是Facebook提出的連續(xù)詞向量學(xué)習(xí)的方法。圖1表示詞向量訓(xùn)練模型。圖中W是給定的詞典,假設(shè)存在一個w1,w2,…,wT,的詞組序列,則最大化公式如式(4)所示。 (4) 圖1 詞向量訓(xùn)練模型 Ct是wt的上下文,(|C)t|是上下文窗口大小,(|C)t|越大則考慮的上下文越多,詞向量的表示相對更準(zhǔn)確。同時,訓(xùn)練時間也會增加,每個詞向量表征了單詞的上下文分布。s是計算得分函數(shù),s(w,c)表示已知單詞w預(yù)測下一個單詞c的得分。根據(jù)得分定義上下文單詞預(yù)測概率如式(5)所示。 (5) 得分函數(shù)s定義為: (6) zg是w的n-gram片段的向量表示,vc是c的向量表示。集合Gw表示給定一個單詞w的n-gram片段集合。 近年來,研究者將詞的形態(tài)信息或主題信息融入到詞向量表示中,來豐富詞向量的信息。本文在神經(jīng)網(wǎng)絡(luò)翻譯模型中融入詞性特征來指導(dǎo)網(wǎng)絡(luò)的訓(xùn)練,從而得到更準(zhǔn)確的翻譯結(jié)果。 自然語言中詞含有多個詞義,在各個層面上存在歧義。語法層面上,一個詞可以有多種詞性,語義層面上,一個詞有多個詞義[13-15]。根據(jù)上下文關(guān)系得到的詞性標(biāo)注特征可以消除句子中詞的語法兼類現(xiàn)象,有助于在特定句子中選擇正確的詞義。通常可以在語言模型或翻譯模型中加入外部特征信息[16-17],起到消除歧義的作用。神經(jīng)網(wǎng)絡(luò)翻譯模型僅使用詞本身作為學(xué)習(xí)信息,事實(shí)上更多的先驗(yàn)信息可以指導(dǎo)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型的學(xué)習(xí),從而提高模型對語境知識的學(xué)習(xí)能力。本文提出一種方法將漢文的詞性標(biāo)注信息融入到神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯訓(xùn)練過程中。首先,在預(yù)先訓(xùn)練得到的詞向量中融入詞性特征。然后,把得到的詞向量作為神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型的初始詞向量。利用詞向量將詞性特征帶入到網(wǎng)絡(luò)訓(xùn)練中,具體融合方法如圖2所示。首先,得到詞性對應(yīng)的詞性向量。之后,將其與詞向量進(jìn)行融合。 圖2 詞性向量與詞向量融合方法 本文采用的詞性特征融合方法有兩種: 第一,訓(xùn)練維度相同的詞向量和詞性向量,根據(jù)漢文語料的詞性標(biāo)注信息,將兩個向量直接相加得到最終詞向量。作為網(wǎng)絡(luò)的初始向量。第二,使用向量拼接方法訓(xùn)練維度不同的詞向量和詞性向量,將得到的兩個向量直接拼接作為最終詞向量,兩個向量的維度之和是最終詞向量的維度。針對拼接方法,詞性向量維度與詞向量維度的比例會影響加入詞性的翻譯效果。如果詞性向量維度過低,則帶入的信息過少對翻譯結(jié)果的提升不明顯。如果詞性向量維度過高,則會導(dǎo)致詞向量攜帶詞本身信息被削弱。在本文的實(shí)驗(yàn)部分對詞向量與詞性向量不同拼接維度進(jìn)行了分析。 未登錄詞問題是神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯研究的重要部分。2015年,Jean S提出一種在使用大規(guī)模目標(biāo)端詞典的前提下,提高翻譯結(jié)果且不增加訓(xùn)練時間的方法[18]。該方法使用子采樣技術(shù),把總的訓(xùn)練語料分成多個集合,分別為其建立目標(biāo)端詞典。Quoc V.Le提出了 一種后處理的方法來緩解未登錄詞問題[19],增加對齊算法,利用對齊將未被翻譯出來的目標(biāo)詞用與之對應(yīng)的源語言單詞替換。Rohan Chitnis 提出了利用哈夫曼編碼的方法編碼目標(biāo)語言詞典從而使詞典覆蓋更多的目標(biāo)端單詞[20]。本文采用在詞典規(guī)模不變的情況下,讓詞典包含更多目標(biāo)語言單詞信息,提高詞典利用率。該方法利用加入詞性特征的詞向量計算詞與詞之間的相似度,然后將未登錄詞用目標(biāo)詞典中與之最相近的詞替代,減少了未登錄詞的數(shù)量,且不會增加網(wǎng)絡(luò)的訓(xùn)練時間。 具體方法是: 首先得到訓(xùn)練語料中出現(xiàn)的所有詞的融合詞性特征的分布式詞向量,再根據(jù)詞典大小把所有的詞劃分為兩部分。一部分是被詞典覆蓋的詞,另一部分是未被詞典覆蓋的詞。前者稱為高頻詞,后者稱為低頻詞。其次,利用詞向量計算低頻詞與高頻詞的相似度。最后,根據(jù)相似度替換訓(xùn)練語料中的低頻詞。具體的操作流程如圖3所示。 圖3 低頻詞替換方法流程圖 低頻詞w1和高頻詞w2的詞向量可以分別表示為w1=(x11,x12,…,x1N),w2=(x21,x22,…,x2N),其中N表示詞向量的維度。單詞之間相似度的計算為: (7) 如果訓(xùn)練語料中的單詞wt不在目標(biāo)語言詞典中,則在目標(biāo)語言詞典中搜索與之最為相近的詞替換: |V|是目標(biāo)語言詞典的大小,vi是目標(biāo)詞典中的單詞。低頻詞替換的過程中會引入一些噪聲,所以在替換的過程中加入一些限制條件,以免引入過多的噪聲。首先,每個高頻詞只可以被用于一次替換。如果多次使用同一個高頻詞替換,則會影響高頻詞本身詞義的表達(dá)。其次,為了減少噪聲的引入我們不對所有低頻詞進(jìn)行替換。 本文在蒙古文到漢文的翻譯任務(wù)上驗(yàn)證所提出方法的有效性。使用CWMT2009蒙漢雙語平行語料作為訓(xùn)練數(shù)據(jù)集,雙語平行語料中選擇長度為2~50的漢文和蒙古文句子。蒙古文的形態(tài)多變低頻詞較多。傳統(tǒng)的基于統(tǒng)計的蒙古文到漢文翻譯方法中,通常采用基于詞典、規(guī)則和統(tǒng)計相結(jié)合的蒙古文詞切分方法,從而緩解蒙古文的數(shù)據(jù)稀疏問題[21-22]。然而神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型優(yōu)勢主要體現(xiàn)在對于特征的學(xué)習(xí)能力,數(shù)據(jù)稀疏并不是影響其效果的最主要問題。在本文的實(shí)驗(yàn)中不對蒙古文做詞綴切分或詞綴提取等預(yù)處理工作。中文語料處理采用Zhang等人提出的ICTCLAS中文分詞系統(tǒng)對中文語料按詞切分[23]。本文采用BLEU值作為翻譯結(jié)果的評測[24]指標(biāo),為了表明方法的有效性,本文所有實(shí)驗(yàn)結(jié)果都使用均值,而不是最高值,實(shí)驗(yàn)數(shù)據(jù)集具體信息如表1所示。 表1 實(shí)驗(yàn)語料統(tǒng)計信息 基線系統(tǒng)是基于注意力機(jī)制的重現(xiàn)神經(jīng)網(wǎng)絡(luò)的編碼器—解碼器翻譯模型[5]。系統(tǒng)參數(shù)配置如下: 詞向量維度500,隱層單元數(shù)量500,批大小32,優(yōu)化算法采用adadelta。 使用大規(guī)模單語語料來獲得更準(zhǔn)確的詞向量,本文使用Fasttext開源工具獲得詞向量表示。使用大規(guī)模單語語料訓(xùn)練得到融合詞性特征的詞向量,將其作為神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型的初始詞向量。實(shí)驗(yàn)結(jié)果如表2所示。實(shí)驗(yàn)中漢文按詞切分,詞向量預(yù)先訓(xùn)練的翻譯結(jié)果比基線系統(tǒng)的BLEU值提高了1.98個點(diǎn)。且使用預(yù)先訓(xùn)練詞向量作為翻譯模型的初始詞向量后,模型訓(xùn)練時間比基線系統(tǒng)更短。主要原因是,首先預(yù)先訓(xùn)練詞向量使用了大規(guī)模單語語料從而獲得更準(zhǔn)確的詞向量表示,也可以得到更好的翻譯結(jié)果。其次與隨機(jī)初始化詞向量比較,經(jīng)過訓(xùn)練的詞向量有利于模型初始訓(xùn)練對單詞的選擇,也可以減小翻譯模型的初始錯誤率。 表2 預(yù)訓(xùn)練詞向量對比實(shí)驗(yàn)結(jié)果 為了證明融合詞性標(biāo)注信息到神經(jīng)網(wǎng)絡(luò)中的有效性,本文對漢文做分詞處理后使用斯坦福開源標(biāo)注工具Stanford-postagger獲取漢文詞性標(biāo)注。目標(biāo)詞典包含所有訓(xùn)練集中的單詞,詞典大小為22 270。從表3中的實(shí)驗(yàn)結(jié)果可以看出,本文提出的兩種詞性特征融合的方法對翻譯結(jié)果都有明顯提高,向量相加的方法相對更好一些。詞性向量與詞向量直接相加的方法比僅使用詞向量的BLEU值提高了0.7個點(diǎn),拼接方法將BLEU提高了0.62個點(diǎn)。其中詞性維度不同,拼接效果也有差異,詞性向量為50維的翻譯結(jié)果比100維的效果更好。主要原因是詞性向量維度過高時會導(dǎo)致原本的詞向量維度變低,以至于詞向量沒有攜帶更多的詞信息,但是相比于未加詞性特征的翻譯結(jié)果也有一定提高。 表3 詞向量中融入詞性實(shí)驗(yàn)結(jié)果 表4是不同系統(tǒng)的翻譯結(jié)果,從翻譯結(jié)果中可以很明顯看到翻譯質(zhì)量相比于基線系統(tǒng)都有明顯的改善。相比于基線系統(tǒng)的翻譯結(jié)果,加入詞向量預(yù)先訓(xùn)練的翻譯結(jié)果的語義更為完整。而加入詞性特征的翻譯結(jié)果比僅利用詞本身詞向量的翻譯結(jié)果更為流暢,更符合漢語的語言習(xí)慣。 表4 翻譯結(jié)果比較 續(xù)表 由于模型訓(xùn)練時目標(biāo)詞典大小的限制,原本在訓(xùn)練語料中出現(xiàn)的單詞可能變?yōu)槲吹卿浽~。表5是第三部分針對是否在算法中引入限制條件的實(shí)驗(yàn)結(jié)果。從表中可以看到采用低頻詞替換方法,但是未加限制條件的翻譯評測結(jié)果與基線系統(tǒng)的評測結(jié)果差異很小。主要原因是由于不加限制條件,該方法引入的噪聲太大,抵消了低頻詞替換的積極作用。當(dāng)加入限制條件后翻譯效果則會有明顯提升,相比于基線系統(tǒng)BLEU值提高了0.6個點(diǎn)。實(shí)驗(yàn)結(jié)果證明在相同目標(biāo)詞典大小的情況下,本文使用的低頻詞替換方法在沒有增加模型訓(xùn)練時間的前提下,有效的緩解了未登錄詞問題,提高了翻譯譯文的質(zhì)量。 表5 加入限制條件的實(shí)驗(yàn)結(jié)果 本文采用詞向量相似度將低頻詞替換為高頻詞。從表6可以看出,替換過程中會出現(xiàn)詞義不相近的替換實(shí)例。例如, “私心”與“核心”作為近義詞替換是不正確的。但是從替換后的句子來看,相比于直接將句子中的低頻詞“私心”去掉,將其替換為“核心”可以保證句子結(jié)構(gòu)的完整性。表7顯示,目標(biāo)端詞典大小相同時,使用高頻詞替換替低頻詞方法后的翻譯結(jié)果要優(yōu)于直接從詞典中去掉低頻詞的翻譯結(jié)果。雖然低頻詞與高頻詞替換過程中會出現(xiàn)詞義不一致的替換,但從翻譯結(jié)果來看與該方法引入的噪聲相比,其積極作用要更大,有效地提高了基于神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型從蒙古文到漢文的翻譯質(zhì)量。對于低頻詞與高頻詞替換過程中出現(xiàn)詞義不一致的替換問題,會在之后的工作中繼續(xù)研究,進(jìn)而提高替換準(zhǔn)確率及翻譯質(zhì)量。 表6 低頻詞高頻詞替換實(shí)例 表7 低頻詞替換實(shí)驗(yàn)結(jié)果 低頻詞與高頻詞替換比例會影響翻譯結(jié)果。低頻詞替換比例相對較高,會影響高頻詞原本的詞義。低頻詞替換比例較低則對翻譯效果影響不明顯。經(jīng)過一組實(shí)驗(yàn)找到更合適的低頻詞與高頻詞的比例,分別替換訓(xùn)練語料中全部詞頻小于等于2、小于等于1和部分詞頻小于等于1的詞。表8的對比實(shí)驗(yàn)結(jié)果證明,當(dāng)替換全部小于等于2的低頻詞時翻譯結(jié)果與相同目標(biāo)詞典大小的基線系統(tǒng)沒有差異。主要原因是采用低頻詞替換方法雖然緩解了未登錄詞問題,但替換比例太大對高頻詞原有詞義有消極影響,引入的噪聲會過大。替換小于等于1頻詞的翻譯結(jié)果與相同目標(biāo)詞典大小的基線系統(tǒng)相比BLEU值提高了0.6個點(diǎn)。采用替換部分1頻詞的翻譯結(jié)果與相同目標(biāo)詞典大小的基線系統(tǒng)相比有一定提高。雖提高有限,但譯文質(zhì)量達(dá)到了包含全部訓(xùn)練語料中單詞的譯文質(zhì)量。 表8 低頻詞替換實(shí)驗(yàn)結(jié)果對比 本文主要針對基于神經(jīng)網(wǎng)絡(luò)翻譯模型在蒙古文到漢文翻譯任務(wù)上的不足提出相應(yīng)解決方法,主要將先驗(yàn)信息融合到蒙古文到漢文的神經(jīng)網(wǎng)絡(luò)中指導(dǎo)翻譯模型訓(xùn)練。使用大規(guī)模單語語料預(yù)先訓(xùn)練詞向量來提高詞向量的精確度。為了消除句子中單詞的語法兼類等歧義問題,將漢文訓(xùn)練語料的詞性特征加入到神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型訓(xùn)練過程中。神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型在訓(xùn)練中限制了目標(biāo)語言詞典大小,導(dǎo)致原本在訓(xùn)練語料中出現(xiàn)過的詞變?yōu)槲吹卿浽~。本文提出通過在相同詞典規(guī)模下提高詞典的利用率,從而有效緩解因?yàn)槟繕?biāo)詞典規(guī)模大小限制帶來的未登錄詞問題。最終將蒙古文到漢文的譯文BLEU值提高了2.68個點(diǎn)。本文提出將蒙古文—漢文的外部信息融合到神經(jīng)網(wǎng)絡(luò)翻譯模型的訓(xùn)練中,而對于模型本身的改進(jìn)較少,在之后的研究中將實(shí)現(xiàn)對神經(jīng)網(wǎng)絡(luò)模型本身的改進(jìn)。在未來的研究中,主要著重在蒙古文到漢文的翻譯任務(wù)上把已有文本的先驗(yàn)信息融入到網(wǎng)絡(luò)訓(xùn)練過程中,用以指導(dǎo)網(wǎng)絡(luò)訓(xùn)練。例如在網(wǎng)絡(luò)訓(xùn)練過程中融入句法特征來指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)句子內(nèi)部的句法結(jié)構(gòu)信息。1.2 受限的目標(biāo)詞典大小
2 融合先驗(yàn)信息的神經(jīng)網(wǎng)絡(luò)翻譯模型
2.1 詞向量預(yù)訓(xùn)練

2.2 融合詞性特征

2.3 低頻詞替換解決未登錄詞問題

3 實(shí)驗(yàn)分析
3.1 實(shí)驗(yàn)數(shù)據(jù)及參數(shù)配置

3.2 融合詞性特征對比實(shí)驗(yàn)




3.3 低頻詞替換對比實(shí)驗(yàn)




4 總結(jié)