999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據增強技術的神經機器翻譯

2018-08-17 07:10:36蔡子龍楊明明熊德意
中文信息學報 2018年7期
關鍵詞:單詞

蔡子龍,楊明明,熊德意

(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)

0 引言

神經機器翻譯是Sutskever等人[1]在2014年提出的一種基于編碼器—解碼器模型的機器翻譯方法。和傳統基于短語的統計機器翻譯[2]不同,神經機器翻譯沒有特征工程、隱藏結構設計等方面的困擾,而是簡單地通過訓練一個單一、大型的神經網絡對輸入句子產生合適的翻譯。該方法剛被提出來的時候,效果還不如統計機器翻譯。2015年,Bahdanau等人[3]在此工作的基礎上通過引入注意力機制使得神經機器翻譯在多種語言對上的評測結果超過統計機器翻譯,神經機器翻譯因此得到了廣泛的關注。

神經機器翻譯本質上是訓練一個大型的神經網絡,該網絡由上萬個神經元構成。為了能夠充分地學習到網絡的權重值,神經機器翻譯需要大量的平行句對作為訓練數據,往往平行句對越多,訓練效果越好。然而,對于資源貧乏語種來說,獲得充足的訓練語料是十分困難的。

為了解決神經機器翻譯在資源貧乏語種上因為訓練數據太少而導致的泛化能力不足問題,本文提出了一個簡單有效的方法: 數據增強技術。該方法首先對句子進行分塊,然后找到句子中最相似的兩個模塊,通過對調它們的位置形成新的句子。利用數據增強技術,不但可以將訓練語料擴充一倍,而且也會使句子的結構變得多樣化。本文在藏漢語種上進行了實驗,較于基準系統,獲得了4個BLEU值[4]的提高。實驗表明,本文提出的數據增強方法可以顯著提高神經機器翻譯對于資源貧乏語種的泛化能力。

本文其他部分的組織如下: 第一節和第二節分別介紹了神經機器翻譯的背景知識和在資源貧乏語種上研究的相關工作;第三節詳細說明如何對訓練語料進行數據增強;第四節對實驗結果進行分析;最后,對本文的工作進行了總結,并對下一步工作進行了展望。

1 背景知識

本節主要介紹基于注意力機制的神經機器翻譯。如圖1所示,神經機器翻譯分為兩個部分,一個是編碼器,另一個是解碼器。編碼器采用雙向循環的神經網絡,對源句子x=x1,x2,…,xTx進行編碼,得到該句子的隱藏層h=h1,h2,…,hTx。解碼器使用注意力機制,從左往右逐單詞地生成目標端句子y=y1,y2,…,yTy。

圖1 基于注意力機制的神經機器翻譯模型

在訓練階段,神經機器翻譯計算一個平行句對的條件概率,如式(1)所示。

(1)

其中yi是解碼器第i時刻生成的目標端單詞,y

p(yi|y

(2)

其中f(·)是非線性函數,si是解碼器第i時刻的隱藏狀態,如式(3)所示。

si=g(si-1,yi-1,ci)

(3)

其中,g(·)是非線性函數。ci是源端句子的內容向量,它是源端隱藏層h的線性和,權重ai,j代表解碼器解碼第i個單詞時,對源端第j個單詞所對應的隱藏向量的關注度。計算方式如式(4)所示。

(4)

基于注意力機制的神經機器翻譯使用最大似然函數訓練整個模型的參數,如式(5)所示。

(5)

其中,θ指的是模型的參數,N指的是語料中的平行句對數。

(6)

2 相關工作

本節主要介紹神經機器翻譯在資源貧乏語言對上研究的相關情況。2016年,Zoph等人[6]最先提出: 在資源貧乏語言對上,神經機器翻譯的效果不如統計機器翻譯,他們在四組資源貧乏語言對上進行了實驗,分別用神經機器翻譯和統計機器翻譯進行訓練,結果發現統計機器翻譯在這四組語言對上的評測結果均優于神經機器翻譯。

國內外很多研究者對此問題提出了各自的解決方法。這些方法大致可以分為兩類,一類是通過補充訓練數據,使得神經機器翻譯模型得到較為充分的訓練;另一類是將文字的語法、語義信息和神經機器翻譯模型相融合,從而提高神經機器翻譯的性能。

本文主要關注的是第一類解決方法,即通過增加訓練數據,改善神經機器翻譯在資源貧乏語言對上翻譯性能不佳的情況。增加訓練數據,并不是去挖掘真實的平行句對,而是通過技術手段,構造偽平行句對。

Sennrich[7]是第一個提出利用單語語料來構造偽平行句對的研究者。他認為,對于資源缺乏的語言對來說,單語語料的獲取往往相對容易,充分地利用單語語料來增強神經機器翻譯是十分必要的。在收集到單語語料之后,可以用現有的翻譯工具或者在小規模語料上訓練好的神經機器翻譯模型對單語語料進行翻譯,從而獲得偽平行句對,之后將偽平行句對和真實的平行句對放到一塊進行模型訓練。

和Sennrich的思路不同,Fadaee[8]提出了一種新的增加語料的方法。該方法首先在規模較大的單語語料上訓練出語言模型,然后用語言模型找到句子中可以被低頻詞替換的高頻詞的位置。通過這種簡單的單詞替換,增加了訓練語料中低頻詞出現的次數,從而增強神經機器翻譯對低頻詞的理解能力。

本文在Sennrich和Fadaee等人工作的基礎上,提出了自己的數據增強技術,即將句子中最相似的模塊進行位置上的對調,以此形成新的語料。與Sennrich提出的方法相比較: 不同點在于我們利用真實的平行句對而非單語語料進行偽語料的構造,相同點在于構造的偽語料都存在錯誤。與Fadaee提出的方法相比較: 不同點在于我們改變的是語料中句子的結構信息而非語料中的詞頻信息,相同點在于都是對原語料進行擴充。

3 數據增強技術

本文中,我們把神經機器翻譯當作一個“黑盒子”,不進行任何修改,而是利用數據增強技術提高神經機器翻譯對于資源貧乏語種的泛化能力。本節從三個方面對數據增強技術進行詳細的說明。第一,分析數據增強技術在神經機器翻譯上面臨的難點;第二,提出解決這些難點的方法;第三,介紹數據增強技術具體實現的細節。

3.1 難點分析

雖然數據增強在圖像處理任務中已經成為一個標準的技術用于提高神經網絡的泛化能力,但是由于語言的特殊性,我們并不能簡單地將該技術拓展到機器翻譯任務上來。

圖2是數據增強技術在圖像分類任務中的一個典型應用。新圖像(b)由原圖像(a)翻轉180度所得,因為是簡單的旋轉變化,所以圖像(b)的內容、標簽與圖像(a)完全一致。把圖像(b)放入訓練數據,可以增強圖像訓練的魯棒性[9]。

圖2 數據增強技術在圖像處理任務中的應用

自然語言處理與圖像處理方式大有不同。自然語言有著嚴格的語法約束,如表1第一個例子所示,簡單地將一句話從右往左地倒著讀既破壞了語法規則,句子本身也失去了語義信息。第二個例子,原句子本身就是一個十分簡單的主謂賓結構,將“我”和“籃球”進行對調,雖然新句子沒有破壞語法規則,但是在語義上存在錯誤。第三個例子,“西電東送”和“西氣東輸”是對等的兩個實體,將它們對調形成的新句子在語義和語法上均保持正確。

根據上面的分析,我們不難發現,如果原句子的長度較短,本身結構簡單,那么無論對這個句子進行怎樣的變化,新句子都會存在語法或者語義上的錯誤。對于這類存在一定錯誤的新句子,我們并不會丟棄,而是將它作為噪聲來增強神經機器翻譯的泛化能力。

而對于表1中第三個例子,我們應盡可能地將句子中最相似的模塊進行調換。因此,數據增強技術在神經機器翻譯上的難點如下: ①如何獲得句子的模塊; ②如何計算模塊之間的相似度?

表1 自然語言變化的示例

3.2 解決方法

獲得句子的模塊是指如何對一個句子進行切分。句子可以分為三個層級,其中單詞是構成句子的最小單位,單詞組成短語,短語的再上一級是最小翻譯單元。以單詞為單位對句子進行切分會存在一對多的問題。例如,圖3是詞對齊中常見的的一對多問題,源端A單詞分別和目標端a,b對齊,將a和b的位置進行對調,那么源端A的位置并不能唯一地確定下來。

圖3 詞對齊中的一對多問題

因此,本文以最小翻譯單元為單位對句子進行切分,理由如下: ①最小翻譯單元在句子的結構中處于最上層,除了涵蓋單詞和短語的信息外,它還具有一些句子級別的信息; ②最小翻譯單元具有閉包性,單元與單元之間不存在詞對齊關系,這個性質避免了詞對齊中的一對多問題。

計算句子模塊之間的相似度分兩步: 第一步,獲得模塊的向量表示;第二步,對模塊進行余弦相似度計算。這里句子模塊指的是最小翻譯單元,最小翻譯單元由句子中連續的若干個單詞構成,因此有兩種方式獲得它的向量表示: 第一種,以單詞為單位,用Word2Vec對原語料進行訓練,獲得單詞的向量表示。然后將構成最小翻譯單元的單詞向量相加作為其對應的向量表示。第二種,把最小翻譯單元當做一個整體,用Word2Vec直接獲得它所對應的向量表示,得到最小翻譯單元mtu1和mtu2的向量表示之后,如式(7)所示,用向量夾角的余弦值來描述它們的相似度,余弦值越大,最小翻譯單元就越相似。

(7)

3.3 具體實現

本節通過一個例子,具體說明實現數據增強技術的四個步驟。如表2所示,首先獲取平行語料,然后利用moses對平行語料進行訓練,獲得詞對齊信息。接著利用pbmt工具得到句子的最小翻譯單元。最后通過調換原句子最相似的兩個模塊得到新的平行句對。

對于第四個步驟,我們要分情況進行討論。第一種情況是3.2節中提到的,最小翻譯單元向量的表征方式分為直接和間接兩種。第二種情況是原句對中源端最相似的模塊不一定和目標端最相似的模塊相互對齊。

表2 數據增強技術的四個步驟

對于第一種情況,我們做兩組對比實驗。第一組,以單詞為單位,用Word2Vec對語料進行詞向量訓練,然后用單詞向量的和對最小翻譯單元進行向量表征,我們把通過這種方式得到的向量稱為最小翻譯單元的間接向量(I-MTU)。第二組,我們把最小翻譯單元當做一個單詞,用Word2Vec進行訓練,獲得的詞向量,我們稱為最小翻譯單元的直接向量(D-MTU)。

對于第二種情況,我們分三種方式產生新句對。如表3所示,xi,yi是源端和目標端相互對齊的最小翻譯單元對,(xi,yi)表示源端第i個和第j個最小翻譯單元的相似度(sim)。

第一種方式是以源端為基準產生新句對(source-based generate, SBG)。該方法首先找到源端最相似的最小翻譯單元x1和x2,并對調它們的位置,然后根據對齊信息,找到目標端對應的最小翻譯單元y1和y2,并對調它們的位置。

第二種方式是以目標端為基準產生新句對(target-based generate,TBG),與SBG類似,這里不再贅述。

第三種方式是將源端和目標端相結合產生新句對(combination-based generate, CBG)。CBG綜合考慮源端和目標端sim值排在前k個的最小翻譯單元對,兩者取交集,若該交集非空,則取交集里相似度最高的作為兩端最相似的最小翻譯單元。若該交集為空,則比較源端和目標端最大的sim值,當源端sim值高于目標端的時候,我們采用SBG產生新句對;否則,我們采用TBG產生新句對。實驗中我們把k值設置為3。

表3 各種新句對產生方式

4 實驗結果與分析

表3中,Source-MTU指的是句子源端的最小翻譯單元,Traget-MTU指的是句子目標端的最小翻譯單元,Rank of Source-MTU 指的是將源端的最小翻譯單元對按照余弦值從大到小進行排序,Rank of Traget-MTU 指的是將目標端的最小翻譯單元對按照余弦值從大到小進行排序。

4.1 實驗設置

為了驗證本文提出的數據增強技術,我們分別在藏漢、漢英這兩個語言對上進行實驗。其中, 藏漢語料是2011年全國機器翻譯研討會提供的10萬平行句對,測試集為650句。中英語料是本實驗組收集整理的,共100萬平行句對,測試集為nist06。

本文用Word2Vec獲得最小翻譯單元的向量表征。Word2Vec包含兩種訓練模型,本文用的是skip gram模型[10],其中詞向量的維度設置成30,訓練窗口大小設置為5。

本文用的神經網絡機器翻譯系統是本課題組基于Bahdanau等人的工作開發出來的,用“RNNSearch”表示。其中,對訓練語料的句子長度限制在80以下,源端和目標端的詞向量維度設置為620,隱藏層維度設置為1 000,單詞表大小設置為3萬,采用ADADELTA[11]方法對參數進行更新,訓練中batch的大小設置為80,Dropout[12]設置為0.5。

本文還將基于數據增強技術的神經機器翻譯與統計機器翻譯作對比,實驗采用愛丁堡等大學聯合開發的Moses[13]作為統計機器翻譯的基準系統,Moses采用默認配置,實驗以BLEU-4作為評測標準。

4.2 最小翻譯單元的向量表征

本文針對最小翻譯單元的向量表征提出了兩種方法,分別是I-MTU和D-MTU。其中,I-MTU是一種間接獲取短語向量表征的方式,D-MTU把短語作為一個整體,其向量表示由Word2Vec訓練得到,是一種直接獲取短語向量表征的方式。從圖4中我們可以看出,在三種不同生成句子的策略下,D-MTU的結果都要比I-MTU好,這表明,雖然Word2Vec訓練的詞向量具有良好的語義信息,但是簡單地用詞向量的和對短語進行表征,還是存在一定問題。

圖4 藏漢六組實驗結果

4.3 生成句子的策略選擇

本文用三種不同的方式產生新的句對,分別是SBG、TBG和CBG。圖4的實驗結果表明,在藏漢翻譯上,TBG對翻譯性能的提升是最顯著的。

為了說明SBG、CBG和TBG三種方法間的差異,我們對產生的新語料進行了統計,結果如表4所示。SBG和TBG產生的新語料中有近60%的句子是不同的,CBG和TBG產生的新語料中有近40%的句子是不同的,這表明翻譯源端和目標端語種的不同,對找出相似的最小翻譯單元是有影響的。對于藏漢翻譯來說,以漢語為基準產生新句對要比以藏語為基準產生新句對的方法好。在其他語言的翻譯任務中,我們并不能事先知道SBG和TBG哪種方法更好,而訓練神經機器翻譯往往需要大量的時間和資源,這時采用折中的方法CBG是一個不錯的選擇。

表4 SBG、CBG與TBG不相同句子數所占的百分比

注: SU是差集的縮寫。

4.4 數據增強技術的驗證

為了驗證本文提出的數據增強技術,我們做了以下幾組實驗進行對比分析。

從表5中,我們可以看出,在藏漢這種小語料上,神經機器翻譯的基準系統比統計機器翻譯系統低了3個點,這驗證了Zoph等人提出的在資源稀缺的語言對上,神經機器翻譯要弱于統計機器翻譯。通過使用數據增強技術,神經機器翻譯系統的性能得到大幅提升,BLEU值提高了4個點,甚至比統計機器翻譯的結果還要高1個點,這驗證了我們提出的數據增強技術的有效性。

為了進一步分析數據增強技術在不同程度的資源貧乏場景下的效果,如表6所示,我們以漢英作為我們的訓練語言對,分別在語料規模為10萬(極度貧乏)、30萬(十分貧乏)、50萬(中度貧乏)、70萬(輕微貧乏)、100萬(不貧乏)上做實驗,實驗結果表明,當語言對處于極度貧乏時,本文提出的數據增強技術可以有效地提升神經機器翻譯的性能,當語言對不是很貧乏時,本文提出的方法也是正向反饋的,也能提高大概1個多點的BLEU值。

表6 不同程度的資源貧乏場景下的效果對比

如表6最后兩行所示,我們對比了Sennrich提出的用偽語料加強神經翻譯訓練的方法。實驗中,我們用谷歌翻譯工具對隨機抽取的與Baseline不相同的英文句子進行中文翻譯,從實驗結果上來看,這種偽語料技術的效果要比本文提出的數據增強技術要好,但是考慮到谷歌公司可能會把我們的聯合國語料放到它自己的模型上進行訓練,因此偽語料技術實際上未必能比我們提出的數據增強技術高4個BLEU值。我們也將本文提出的數據增強技術和偽語料技術相結合,實驗結果表明兩種方法聯合使用可以進一步提升資源貧乏語言對的翻譯質量。

4.5 示例分析

表7是我們從測試集中挑選的句子,用于說明數據增強技術對神經機器翻譯系統的幫助。對比參考譯文,Moses生成的譯文丟失了動詞“提高”;基準系統RNNSearch生成的譯文丟失了名詞“企業”,且不通順;RNNSearch+TDA基本翻譯正確,而且通過調換“要”的位置,相比于參考譯文,也顯得更加通順。

表7 譯文示例

5 總結

本文針對神經機器翻譯在資源貧乏語種上面臨的訓練語料不足問題,提出了數據增強方法。該方法首先對句子進行分塊,然后調換最相似的兩個模塊得到新的句子,最后將新的句子加入到語料中,對翻譯模型進行訓練。本文在藏漢、漢英語種上的實驗結果表明,數據增強技術既能有效提高神經機器翻譯對于資源貧乏語種的泛化能力,也能對語料較豐富的語種起到提升翻譯質量的作用。當然,該方法也有自己的缺點,通過這種方法產生的新句子往往存在語義或者語法上的錯誤,這種錯誤對神經機器翻譯產生的影響有待研究。在未來的工作中,我們會考慮將句法知識引入數據增強技術,以此改善生成的句子。

猜你喜歡
單詞
What’s This?
Exercise 2
Exercise 4
Exercise 6
Exercise 1
Exercise 3
Exercise 5
單詞連一連
看圖填單詞
看完這些單詞的翻譯,整個人都不好了
主站蜘蛛池模板: 欧美日韩在线国产| 亚洲天堂视频网站| 色亚洲成人| 国产精品手机视频一区二区| 国产精品久久久久无码网站| 久久精品丝袜| 欧美日韩导航| 亚洲成人www| 在线观看91精品国产剧情免费| 亚洲浓毛av| 岛国精品一区免费视频在线观看| 亚洲成人黄色在线| 国产精品 欧美激情 在线播放 | 理论片一区| 久久精品娱乐亚洲领先| 精品国产美女福到在线直播| 色综合成人| 老司机久久精品视频| 亚洲欧洲日产国码无码av喷潮| 欧美第九页| 一级香蕉人体视频| 国产一级毛片高清完整视频版| av在线人妻熟妇| 久久亚洲天堂| 精品久久久久久中文字幕女| 色综合国产| 亚洲综合色婷婷中文字幕| 中文字幕第1页在线播| 亚洲不卡影院| 在线观看亚洲成人| 99九九成人免费视频精品| 日本福利视频网站| 久久天天躁狠狠躁夜夜躁| 亚洲天堂视频在线免费观看| 女人毛片a级大学毛片免费| 国产精品视频久| 国产视频大全| 永久免费无码日韩视频| 欧美一级专区免费大片| 日韩欧美91| 日韩人妻少妇一区二区| 99精品高清在线播放| 亚洲国产成熟视频在线多多| 国产女人在线视频| 久久精品无码专区免费| 亚洲一级毛片在线观播放| 亚洲欧美日韩动漫| 一级爆乳无码av| 国产无人区一区二区三区| 人妻无码中文字幕第一区| 国产精品内射视频| 成·人免费午夜无码视频在线观看| 国产麻豆精品在线观看| 国产乱子伦手机在线| 91久久天天躁狠狠躁夜夜| 欧美一区二区丝袜高跟鞋| 日韩欧美国产综合| 97免费在线观看视频| 亚洲欧美综合在线观看| 精品国产三级在线观看| 色精品视频| 五月婷婷导航| 永久成人无码激情视频免费| 手机在线看片不卡中文字幕| 亚洲国产日韩一区| 国产一区二区三区在线无码| 欧美高清日韩| 美女一级免费毛片| 麻豆国产在线不卡一区二区| 精品久久蜜桃| 九九热精品免费视频| 98精品全国免费观看视频| 91在线视频福利| 欧美福利在线| 91免费精品国偷自产在线在线| 乱人伦中文视频在线观看免费| 亚洲欧洲国产成人综合不卡| 午夜日本永久乱码免费播放片| 日韩人妻少妇一区二区| 曰AV在线无码| 国产香蕉在线| 日韩高清欧美|