訓練語料的不同利用方式對神經機器翻譯模型的影響

2018-09-18 09:19:04鄺少輝熊德意

中文信息學報 2018年8期

鄺少輝,熊德意

(蘇州大學計算機科學與技術學院，江蘇蘇州 215006)

0 引言

隨著互聯網和社交網絡的發展，機器翻譯在社會發展和信息傳播中的作用越來越突出。為了滿足人們對機器翻譯的強烈需求，國內外許多研究機構和公司，對機器翻譯進行了深入的研究，如百度翻譯、有道翻譯等。機器翻譯方法包括基于規則的機器翻譯、基于實例的機器翻譯、統計機器翻譯，以及當前的神經網絡機器翻譯等。

隨著計算能力的提高，可用訓練數據量的增加，基于深度學習的神經網絡已在多個領域取得較好的結果，如圖像識別、語音識別等。神經機器翻譯(neural machine translation)[1-3]作為目前一種主流的機器翻譯建模方法，也是利用神經網絡來構建翻譯模型，在多個語言對上[4]的翻譯效果已經趕超傳統統計機器翻譯(statistical machine translation，SMT)模型。神經機器翻譯系統采用“端到端”(end-to-end)的思想，分別使用兩個不同的神經網絡作為編碼器(encoder)和解碼器(decoder)來搭建翻譯模型。和統計機器翻譯相比，神經機器翻譯實現了源語言到目標語言的直接翻譯，并在性能上取得進一步的提升。

在本文中，我們會詳細介紹神經機器翻譯系統的原理構成，并實現一套基本的神經機器翻譯系統作為實驗的基準系統。同時，由于神經機器翻譯訓練過程中，會設置很多的超參，這些參數會影響系統的整體性能和訓練時間。我們在文中對這些參數的設置進行實驗對比，分析這些參數的影響。對比試驗主要集中在批、打亂、dropout這三個參數設置上。

目前很多的相關工作在訓練神經機器翻譯系統時，均會提到對數據進行隨機打亂。因此，我們針對打亂這一因素進行實驗驗證，來深入分析打亂是如何影響神經機器翻譯系統的翻譯質量的，并給出具體的統計實驗結果。

批的大小是神經機器翻譯系統訓練過程中必不可少的一個參數，在訓練時對神經機器翻譯系統的收斂速度影響較大。本文通過設計一系列對比實驗來驗證批的大小對神經機器翻譯系統訓練時間的影響。

參數dropout[5]可以有效防止系統訓練過程中的過擬合現象，并在一定程度上影響模型的性能。在本文中，我們進一步地利用對比實驗來驗證不同dropout設置時，系統性能的變化。

通過一系列的對比實驗驗證，我們得出以下結果: 通過打亂訓練數據。可以一定程度上提高神經機器翻譯的性能；改變批的大小對神經機器翻譯系統的訓練時間有較大影響，批設置越大，神經機器翻譯系統訓練時間越短，反之，訓練時間越長。參數dropout可以顯著提升神經機器翻譯系統的性能，不同的值對神經機器翻譯系統有著不同程度的影響。

1 神經機器翻譯

1.1 基于注意力機制的神經機器翻譯

在神經機器翻譯中，一般采用編碼器-解碼器(encoder-decoder)框架[1,6]來實現翻譯的過程，具體流程如圖1所示。

圖1 神經機器翻譯框架圖

對訓練語料中的每一個詞，我們都為其初始化一個詞向量[7-8]，語料中所有詞的詞向量構成了詞向量詞典。詞向量，一般是一個多維的向量，向量中每一維都是一個實數。例如，對于單詞“咱們”，它的詞向量可能是{0.12,-0.23,…,0.99}。

編碼器由循環神經網絡(recurent neural network)[3,9-10]構成。在編碼階段，編碼器讀入一個句子，并將句子編碼成一系列的向量。具體過程如下，首先將一個句子表示為詞向量的序列，即x={x1,x2,…,xTx}，其中x為輸入的句子，xi為句子中第i個詞的詞向量，即一個m維的向量。根據式(1)我們可以獲得一個由隱藏向量組成的向量序列{h1,h2,…,hTx}。由這個隱藏向量序列，我們可以獲得上下文向量c=qh1,h2,…,hTx。其中hj∈n，是時序t時刻的編碼器隱藏狀態，f和q是非線性的激活函數，其中f一般采用GRU[11]或者LSTM[12]，q一般采用注意力[13-14]網絡。

神經機器翻譯系統中，編碼器一般采用雙向的循環神經網絡(BI-RNN)網絡來實現，分別為正向循環神經網絡(forward recurrent neural network)和反向循環神經網絡(backward recurrent neural network)。單向循環神經網絡僅能夠捕捉一個順序方向的序列信息，而雙向循環神經網絡可以從兩個不同的方向來捕捉序列信息，使生成的語義向量含有的語義信息更為豐富。

基于注意力機制(attention-based)的神經機器翻譯系統中，上下文向量c一般利用注意力網絡來獲得，注意力網絡可以通過式(2)～式(4)表示，其中a是一個一層的前向網絡，αtj是編碼器的每一個隱藏狀態hj的權重。注意力機制如圖2所示。

圖2 注意力網絡結構

神經機器翻譯系統中，解碼器通常也由循環神經網絡構成。在解碼器階段，給定上下文向量c，以及所有已經預測生成的詞y1,y2,…,yt-1，解碼器可以根據式(5)預測生成下一個單詞yt的概率。

其中，g是非線性激活函數，一般采用softmax函數。st為循環神經網絡中的隱藏狀態，可以通過式(6)獲得。

編碼器和解碼器都采用循環神經網絡網絡，主要是因為循環神經網絡網絡的特點在于隱藏狀態由當前的輸入和上一個隱藏狀態共同決定。如在神經機器翻譯過程中，編碼器階段隱藏狀態由源端語句當前詞的詞向量和上一個隱藏狀態共同決定。解碼器階段的隱藏狀態由前一步驟中計算得到的目標端語句的詞向量和上一個隱藏狀態共同決定。圖1中h為隱藏狀態，x為源語端詞向量序列，y為目標語端詞向量序列。

模型的訓練一般采用最大化對數似然作為損失函數，利用隨機梯度下降方法來進行迭代訓練。其目標函數,如式(7)所示。

其中，θ是模型的參數，(yn,xn)表示雙語訓練語料句對。

1.2 增強的注意力機制

受到開源機器翻譯系統DL4MT[15]的啟發，我們在工作中實現了一個帶有反饋機制(feedback attention)[16]的神經機器翻譯系統。在反饋機制中，etj可以通過式(8) 計算得到。

2 實驗

2.1 實驗設置

我們針對中英翻譯任務開展實驗，使用中英雙語平行語料作為模型的訓練語料，雙語平行語料包含有125萬句對，其中中文單詞8 090萬，英文單詞 8 640萬。語料主要來自于賓夕法尼亞大學的語言數據聯盟發布的LDC雙語語料的部分子集: LDC2002E18，LDC2003E07，LDC2003E14，LDC2004T07，LDC2004T08，LDC2005T06。實驗中采用NIST06作為開發集，NIST02，NIST03，NIST04，NIST05，NIST08作為測試集，并且選擇BLEU-4[17]作為翻譯模型的質量評估標準。

系統實現中，我們采用TensorFlow[18]，一個開源的深度學習框架，來實現1.2中介紹的帶有反饋注意力機制的神經機器翻譯模型，稱之為TF-NMT。在TF-NMT模型中，編碼器采用雙向循環神經網絡，隱層單元(hidden unit)個數設置為1 000。同樣，解碼器的隱層單元(hidden unit)個數也設置為1 000。詞向量(Wordembedding)的維度設置為620。

訓練TF-NMT模型的語料的中文和英文句子長度均限制在50個單詞以內，長度大于50個單詞的句子將被過濾掉。中文端和英文端詞典大小均設定為16 000，經統計，源端詞典在中文端訓練語料中的覆蓋率達到95.8%，目標端詞典在英文端訓練語料中的覆蓋率達到98.2%，用單詞“UNK”取代其他不在詞表中的低頻詞。實驗中的其他參數設定，均與開源神經機器翻譯系統GroundHog[1]保持一致。我們使用隨機梯度下降算法和Adadelta[19]算法來訓練我們的模型。Adadelta算法的參數ρ和分別設定為0.95和10-6。

我們的實驗主要集中在以下三方面:

(1) 批大小對神經機器翻譯系統訓練過程的影響。

(2) 數據打亂對神經機器翻譯系統質量的影響。

(3) Dropout技術對神經機器翻譯系統質量的影響。

為了驗證批大小對神經機器翻譯系統訓練過程的影響，我們將批設定為不同的大小，分別為40，80，120，180。批的值設定過大時，會造成GPU顯存不足，從而無法進行訓練。為了使TF-NMT在不同的批設定下都能夠正常工作，我們利用TensorFlow框架，實現了基于數據并行的多GPU(multi-GPU)的TF-NMT系統，我們統稱為TF-NMT系統。

為了驗證數據打亂對神經機器翻譯系統翻譯質量的影響，我們設定了兩種不同的數據迭代方式：

(1) 首先對訓練語料進行一次打亂。訓練語料讀取后，不再進行打亂，按照固有順序進行循環迭代。

(2) 整個訓練語料每迭代完成一次，進行一次打亂，然后再次迭代。

另外，我們訓練GroundHog系統作為對比系統，用以驗證TF-NMT系統的翻譯效果。GroundHog系統中編碼器和解碼器的隱層單元數量配置和TF-NMT系統相同，詞向量的維度也和TF-NMT系統保持一致，其他參數采用其默認配置(未

采用dropout技術)。

在TF-NMT中的基準系統訓練，批和數據打亂的對比實驗中，我們將dropout概率統一設置為0.5。

為了驗證dropout對神經機器翻譯系統的影響，我們將dropout大小分別設置為1，0.2，0.5，0.8進行了四組實驗。其中dropout設置為1時，即代表不使用dropout。

2.2 TF-NMT模型驗證

我們依據現有已發表論文[1]中常用的設定，設置批為80，來驗證我們實現的TF-NMT系統。表1給出了統計結果。當詞典大小設定為16 000，從表1中可以看出，當數據不進行打亂，我們實現的帶有反饋注意力的TF-NMT系統，在BLEU值上面超過GroundHog系統平均3.5個點。當數據進行打亂時，BLEU值超過GroundHog系統平均3.78個點。

表1 GroundHog和TF-NMT實驗結果

注：我們采用BLEU作為評測標準。Voc表示源端詞典和目標端詞典大小，Mean代表在6個測試集上面的平均BLEU值。

為了進一步驗證系統效果，我們在詞典大小設置為30 000時也進行了實驗。從表1可以看出，詞典設置為30 000時，TF-NMT系統在NIST各個測試集上，平均BLEU值為36.53。實驗結果證明，我們實現的基準系統TF-NMT可以達到并超過目前已公布和開源的神經機器翻譯系統的效果。

2.3 Batch對神經機器翻譯系統的影響

為了驗證批這一變量對神經機器翻譯系統的影響，我們將批設置為不同的大小，來訓練多個TF-NMT系統，并統計各個TF-NMT系統的BLEU值變化。為了驗證的準確性，我們分別在訓練數據進行打亂和不進行打亂的情況下，各進行了一系列實驗。表2和表3分別給出了詳細的實驗結果。

表2 當數據進行打亂時，批設置為40，80，120，180時，TF-NMT在各個測試集上的BLEU值

注： Mean代表在6個測試集上的平均BLEU值。Iters表示TF-NMT在開發集NIST06上達到最大BLEU值時候，訓練的批數量。

表3 當數據不進行打亂時，批設置為40，80，120，180時，TF-NMT在各個測試集上的BLEU值

注： Mean代表在6個測試集上的平均BLEU值。Iters表示TF-NMT在開發集NIST06上達到最大BLEU值時候，訓練的批數量。

由表2和表3的實驗結果可知，在保持打亂條件一致的前提下，批變化的大小對BLEU值的影響并不明顯。從表2中可以發現，在訓練數據進行打亂的條件下，平均BLEU值波動范圍在0.45個點之內。從表3也可以發現，平均BLEU值的波動范圍在0.48個點之內。

另外，從表2和表3中我們可以發現，在不同的批條件下，模型收斂速度不同。比如，在表2中，隨著批的大小從40增加到180，模型在開發集上達到最好效果需要迭代的批數量(iters)依次降低，模型訓練時間依次減少。

為了進一步直觀地比較不同批條件下，模型的收斂速度。在打亂一致的前提下，我們每訓練完成500個批，就進行一次BLEU驗證。在數據進行打亂這一條件下，圖3給出了模型在開發集NIST06上隨著訓練的進行，BLEU值變化的情況。從圖3中可以看出，批 -180的曲線最先收斂，BLEU值增長迅速。批 -120和批 -180相比，批 -120收斂較慢，但比批 -80和批 -40較快。批 -40收斂最慢，在訓練了150 000個批之后，仍未達到BLEU最好的收斂點。結合表2可以看出，批 -80和批 -40要達到最好BLEU值收斂點，要分別訓練181 000和250 000個批。而批 -180只需要訓練90 000個批左右，就可以達到最好收斂點，圖3中批 -180曲線很好的體現了這一點。

圖3 不同批大小設定下BLEU值隨著訓練批個數增加的變化

2.4 打亂對神經機器翻譯系統的影響

為了驗證數據打亂對神經機器翻譯系統的影響，我們對不同打亂條件下，模型在六個NIST測試集上的平均結果進行統計，結果如表4所示。

表4不同批大小設置下TF-NMT在六個NIST測試集上面的平均值。

ShuffleBatch-40Batch-80Batch-120Batch-180MeanYes34.9334.6734.8935.1034.90No34.4634.3934.1133.9834.23

注： Mean表示在打亂條件相同的前提下，模型的平均值。

從表4中我們可以看出，無論批大小設置為多少，訓練數據進行打亂之后訓練的神經機器翻譯系統BLEU值上，總是比不進行打亂的情況要好。打亂之后，平均BLEU值提高0.67個點。在訓練神經機器翻譯系統過程中，隨機梯度下降方法的一個特點就是每次只需要一個批的數據就可以進行梯度更新，十分簡單有效。但是這種方法也有一定的缺陷，舉例來說: 假設訓練語料由三種不同領域(例如新聞、教育、軍事)的數據按照順序組成，神經機器翻譯模型開始進行訓練之后，會先利用新聞語料進行模型參數更新，接著利用教育領域語料更新參數，當神經機器翻譯模型訓練將要結束時，使用軍事領域的語料來更新參數。而神經機器翻譯模型在一定程度上就是利用最近輸入的語料來進行模型優化，這樣會促使神經機器翻譯模型朝著更為有利于軍事領域的參數空間進行優化，導致神經機器翻譯模型在語料中其他領域的適應性降低。這種情況，可以看作是模型參數的一種偏愛(bias)[20]。為了解決利用隨機梯度下降方法訓練神經機器翻譯模型潛在的這一問題，訓練語料迭代一次，就對訓練語料進行打亂，再進行模型訓練，這是一種值得推薦而且有效的方式。

從表4結果可以發現，當不進行數據打亂時，批越大，數據之間的規律更容易影響神經機器翻譯系統的性能。而數據進行打亂時，系統性能趨于穩定。這也從另一個方面說明了數據打亂對NMT系統的影響。

2.5 TF-NMT系統訓練時間

我們進一步統計了不同批條件和不同GPU(型號: GPU GeForce GTX 1080)個數配置下，神經機器翻譯系統的訓練時間。表5給出了詳細的數據。從表5可以看出，在利用單GPU訓練時，批 -40和批 -80訓練時間在40至45個小時左右。利用數據并行，GPU個數配置為3時，批 -120和批 -180只需要20個小時左右就可以達到最佳性能，訓練時間縮短兩倍。

表5不同批大小設置下TF-NMT達到最佳性能所用的訓練時間

ParamsBatch-40Batch-80Batch-120Batch-180GPU1133Iters25000018100012600093500Batch_Time/s0.620.790.640.71Parallel_Time/h43.0639.7222.418.44

注： GPU代表訓練時使用的GPU數量;Iters代表達到最佳性能時訓練的批數量;Batch_Time代表每訓練一個批所用時間，單位為秒;Parallel_Time代表在當前GPU個數設置下系統訓練的時間，單位為小時。

同時,系統達到最佳性能的訓練時間，隨著批的增大而逐漸縮小，也再次證明了批對系統收斂速度的影響。

2.6 Dropout 對神經機器翻譯系統質量的影響

為了驗證dropout對神經機器翻譯系統性能的影響，我們分別對不同dropout設置下，模型在六個NIST測試集上的結果進行統計，模型結果如表6所示。

表6 不同dropout設置下，TF-NMT模型的效果。

注：我們采用BLEU作為評測標準。Mean代表在六個測試集上面的平均BLEU值。

從表6中可以看出，在dropout設置為1時(即dropout不被使用)，模型在六個NIST測試集上的平均BLEU值為33.02。dropout設置為0.5時(baseline系統)，模型的平均BLEU值為34.67。我們可以得出結論: 不使用dropout，模型的平均BLEU值降低了1.64。

在本文中，dropout設置為0.5時，我們在所有的批和打亂實驗上面，都取得了較好的模型性能，這可以進一步地證明dropout對神經機器翻譯系統性能的提升。另外，當dropout分別設置為0.8,0.5,0.2時，BLEU值依次提升。當dropout設置為0.8和0.2時，BLEU值相差1.31個點。根據這四組實驗可以看出： dropout值設置越小，神經機器翻譯系統傾向于表現出更好的性能。

3 總結與展望

本文詳細論述了神經機器翻譯的基本原理，并基于TensorFlow深度學習框架，實現了帶有反饋注意力網絡的神經機器翻譯系統TF-NMT。為了測試不同批大小對神經機器翻譯系統的影響，進一步實現了基于數據并行的multi-GPU 神經機器翻譯模型。通過對比開源神經機器翻譯系統GroundHog，發現我們的TF-NMT系統效果能夠到達目前神經機器翻譯研究領域已公布的基于注意力網絡的神經機器翻譯系統的效果。

在TF-NMT模型上面，我們驗證了batch、dropout和打亂這三個因素對神經機器翻譯系統的影響。實驗證明，批大小會影響模型訓練時的收斂速度。在一定程度上，批的值越大，模型收斂速度越快。從實驗結果中我們也發現，對訓練數據進行打亂，在一定程度上能夠提高神經機器翻譯系統的翻譯性能。另外，在訓練神經機器翻譯系統過程中，dropout可以有效地提升神經機器翻譯系統的性能。

本次研究主要集中在神經機器翻譯模型保持不變的情況下，超參批、打亂和dropout對神經機器翻譯系統的影響。未來我們將會進行更多實驗，來驗證神經機器翻譯系統訓練中其他參數的影響。