域信息共享的方法在蒙漢機器翻譯中的應用

2020-05-20 01:18:52蘇依拉牛向華趙亞平仁慶道爾吉

計算機工程與應用 2020年10期

關鍵詞：模型

張振，蘇依拉，牛向華，高芬，趙亞平，仁慶道爾吉

內蒙古工業大學信息工程學院，呼和浩特 010000

1 引言

基于神經網絡模型的機器翻譯[1]在幾種語言對的翻譯任務測試中均表現出較好的翻譯水平。然而，神經機器翻譯（Neural Machine Translation，NMT）系統依賴大規模的適用于訓練此類系統的平行語料對的數據，如果沒有或缺乏平行語料庫，經常出現訓練質量不佳的情況，甚至不能進行正確的翻譯。目前，機器翻譯領域的相關專家對NMT 系統已經給出了結論，很多種語言的神經機器翻譯可以通過大規模的平行數據和GPU等硬件強大的計算能力獲得高質量的翻譯結果[2-3]。另一方面，神經網絡的科研人員正在思考如何為平行語料句對缺乏的低資源語言和特定領域提供一個可行的方案，由于為低資源語言數據準備如此龐大的語料庫仍然是一個大問題，通過閱讀大量的文獻資料，最終選定一種目前快速發展并且實測有效的方法來緩解語料資源稀缺的問題。本文采用的方法是利用ELMo 蒙語和漢語單一語種的數據預處理提取語境上下文信息的方案來緩解平行語料不足的困難。

預訓練詞向量表征[4-5]是很多神經語言理解模型的關鍵組成部分，主要用來實現文本句子的向量化表征，并且通過單語的預訓練實現詞語向量上下文語境的特征提取，使得每一個詞的向量不僅表示單詞本身的含義，而且包含周圍n-gram 單詞的上下文語境語義信息。然而，學習較高質量的詞語的向量化表征非常有難度。為了幫助基于神經網絡的機器翻譯模型實現更好的翻譯效果，預訓練詞向量表征技術應該完美建模單詞使用方面的復雜特征（如句法和語義），以及單詞使用在不同語言環境或上下文語境關系的變化（即建模一詞多義）。本文對蒙漢語料庫進行ELMo（Embeddings form Language Models）預訓練的方法與其他詞嵌入Word Embedding向量的表征方法（如Glove、CBOW）相比，本文的蒙漢語料ELMo（深層語境化詞表示）方法可以更好地學習到詞語的上下文語境信息，ELMo[6]介紹了一種新型的具有一定深度的結合上下文語境關系的向量化詞表征，ELMo的神經網絡模型基于雙向長短期暫態記憶神經網絡。BiLSTM（Bidirectional Long Short-Term Memory）神經網絡可以對較長序列的上下文相關的文本進行序列遞歸循環記憶編碼，通過其獨特的雙向循環神經網絡，結合長短期記憶單元，不僅能夠對詞語本身的含義進行向量化的表示，還可以通過神經網絡復雜的特征提取能力對相鄰位置的詞語進行向量化的信息提取，這樣可以幫助單詞學習到復雜的自然語言信息，如句法和語義。不僅如此，因為本文的蒙漢平行語料中有很多對話、上下文相關的小說等大型段落級文本信息，所以使用的ELMo 神經網絡預訓練詞向量的方式能夠幫助語料中的詞語在語言語境和上下文語境中的變化進行建模。ELMo 的預訓練的實驗數據是內蒙古工業大學蒙漢機器翻譯課題組構建的126 萬蒙漢平行語句對、單語語料庫以及從多個蒙語網站爬取的蒙語文本和漢語文本，其中包括新聞、政府工作報告、對話、演講稿、小說等上下文語境相關的大型文本語料庫。通過基于BiLSTM 的深層語境化的詞表示方法，本文的ELMo 預訓練方法還可以對蒙、漢多義詞以及詞語的語態等詞語變形進行建模。

ELMo 的預訓練過程可以在蒙語或漢語的大型單語文本中動態地學習詞向量表示，ELMo的預訓練能夠為蒙漢神經機器進行翻譯，然后把較好的訓練模型結點遷移到翻譯模型中。本文的翻譯模型采用的實驗數據為126 萬句蒙-漢平行語料，平行語料數據通過FastText技術進行詞嵌入表示，然后將其輸出投入到翻譯模型的Word Embedding 層。 FastText 與傳統的 word2vec 或Glove 詞嵌入方式相比，它們都可以利用沒有標記的數據在沒有監督機制的情況下自學習詞向量，不過本文采用的FastText訓練詞嵌入層詞語的詞向量時，會考慮更細粒度的子詞詞素信息，即subword，有利于緩解低資源語言翻譯中詞匯表受限的問題。本文的翻譯模型是基于多任務學習的一個編碼器對應多個解碼器的神經網絡架構，多個解碼器共享部分參數，每個解碼器在解碼過程中可以聯合參考其他解碼器所共享的域信息，能夠有效地解決低資源語言翻譯過程中經常出現的平行語料數據稀缺和詞匯表受限的問題。

2 神經機器翻譯

目前的神經機器翻譯框架多數遵循[1]端到端（即序列到序列）建模的方法。其基本思路是通過給定一個源語言句子，并將其進行詞嵌入向量化表示x=(x1,x2,…,xi,…,xl) 和相應的目標語句詞嵌入向量化表示y=(y1,y2,…,yj,…,yJ)，神經機器翻譯旨在基于概率計算來模擬源序列翻譯到目標序列文獻[1]提出了一種編碼器-注意力機制-解碼器框架來計算這種概率。

雙向遞歸編碼器-解碼器模型（BiLSTM）中的編碼器從源句子向量中讀取一個單詞xi，并輸出一個固定長度向量的句子表示。BiLSTM 采用雙向遞歸的方式進行編碼，使得前向和后向相連接。

其中，Es是在源語言嵌入詞向量之間共享的源語言字嵌入矩陣，d是編碼器基于先前隱藏狀態計算的當前隱藏狀態的循環單元。然后，將hi稱為隱層注釋向量，其從前向和后向兩個方向對源語句進行編碼直到第i個時間步。然后建立注意機制，以便選擇哪個隱層注釋向量應該有助于推導下一個目標詞的預測決定。通常，先前目標詞與注釋向量之間的相關性得分rel(zj|1,hi)用于計算上下文語境向量ci：

在編碼器-解碼器架構的另一端，解碼器一次遞歸地生成一個目標字yj：

其中：

解碼器中的序列遞歸計算機制類似于編碼器中的對應機制，除了先前隱藏狀態zj-1和目標嵌入tj-1之外，它還將來自注意機制層的上下文語境向量cj作為輸入來計算當前隱藏狀態zj。然后可以從隱藏狀態的softmax分布對在第j個時間步的預測字yj進行采樣。

3 無監督預訓練

源語言的詞嵌入（Word Embedding）向量化表示方法是機器翻譯甚至自然語言處理（Natural Language Processing，NLP）任務中最常用的詞向量化表示方法。目前，常用的詞語向量化嵌入到Word Embedding 層表示的方法是word2vec 等方法，然而詞語的Word Embedding嵌入層向量化表示的word2vec方法的實現原理其實是一個詞語根據初始化狀態進行靜態化表示的方法。簡而言之，自然語言輸入后利用word2vec 學習完每個詞的表示之后，詞的表示層狀態就固定不變了，之后機器根據Word Embedding層的詞嵌入信息學習的時候，無論新句子上下文語境的信息是什么，這個詞的詞語嵌入層Word Embedding的參數表示都不會跟隨上下文語境的場景發生變化。由于靜態表示的局限性，導致這種情況對于多義詞的表示是非常不充分的，無法根據上下文語境信息表示多義詞的含義。

本文使用ELMo 網絡的目的就是為了解決上述情況中語境信息丟失的問題，利用前向和反向同時學習的雙向LSTM 神經網絡的訓練動態地去更新詞語的詞嵌入層。ELMo的本質思想是：事先用長短期記憶神經網絡語言模型在一個大的語料庫上學習好詞的詞嵌入層表示；然后，用平行語料庫中蒙語或者漢語單方面的訓練數據來微調預訓練好的ELMo 模型。在ELMo 模型中，將這種微調的方法稱為多任務參數共享的域信息遷移的方法。通過ELMo 多任務域信息遷移預訓練數據的方式，本文模型可以獲得詞語在當前上下文相關語境下的詞嵌入層向量信息。

3.1 ELMo：來自語言模型的嵌入

本文采用的ELMo 神經網絡預訓練詞向量嵌入的方法結合動態的蒙、漢雙語上下文語境來對詞語的向量化表示層進行建模，與最廣泛使用的單詞嵌入方法[5]不同，ELMo深層語境詞語的向量化表示（詞表征）的詞向量信息數據的維度蘊含了整個輸入句子的函數。本文的ELMo 預訓練模型首先建立具有字符卷積層的提取特征層，在此基礎上再建立兩層biLM。

3.2 對蒙語的字符卷積編碼

本文的語料預訓練處理方法通過使用字符的卷積運算從位置上相鄰的子詞單元中獲益，通過這樣的卷積操作，可以無縫地將多義信息通過分層卷積運算集成到下游任務中[7]，而無需經過帶有標簽的數據的訓練學習過程。

蒙古語句子信息向量化的編碼過程可以抽象為一個向量化表示和特征提取的過程，卷積神經網絡模型提取向量特征的依據是根據卷積窗口數量、卷積核移動的步長來決定。例如一個蒙古語句子“（內蒙古首府是呼和浩特）”，利用卷積神經網絡進行編碼時可以根據圖1所示編碼過程進行。

圖1 蒙古語句子編碼

根據設定的卷積窗口，第一個卷積窗口獲取蒙古語詞干詞綴向量“”，第二個窗口獲取“”，以此類推，發現經過一層卷積層卷積操作后，提取到的上下文語境語義關系僅僅局限于上下文語境直接相鄰的若干n-gram 個字符，對于位置上距離較遠的傳統回鶻蒙古語字母，簡單的淺層卷積模型沒有很好的提取特征的能力，來識別它們之間的上下文語境深層的語義關系。由此，本文依據深度學習思想，采用一種深層關聯的疊加結構的卷積神經網絡來對蒙漢機器翻譯模型編碼器進行構建。

本文編碼模型的卷積神經網絡模型構建的方法是讓第二個卷積層的輸入信息從第一個池化層的輸出獲取，先卷積提取特征作為編碼信息，然后池化操作進行下采樣，再把池化層的輸出作為下一個卷積操作的輸入。重復這一過程，使得低層的卷積層能夠直接提取到位置上相鄰的蒙古語句子向量信息，較高層的卷積層能夠間接提取到位置上距離較遠的上下文語境的向量信息，從而在一定程度上緩解卷積神經網絡提取特征的視野相對較窄的局限，實現其對整句話甚至連續的多個句子的歷史信息進行記憶。最后，將最后一層池化層下采樣的信息通過向量平鋪的方式傳遞給全連接層，這樣層疊的卷積神經網絡就完成了句子的編碼過程。以（內蒙古首府是呼和浩特）”為例，對應的層疊卷積編碼器的網絡結構如圖2所示。

層疊卷積輸入蒙古文句子，首先對句子的Word Embedding層進行一層卷積操作，然后經過第一個池化層對輸入矩陣中第1、2、3個蒙古語向量進行采樣，輸入矩陣的第二個池化層對第4、5 個蒙古語句子的Word Embedding 采樣。同樣的方式，第三個池化層對第6、7個蒙古語Word Embedding 層采樣，并以第一層池化層的輸出作為輸入，進一步進行卷積運算，當第二層卷積層窗口為2 時，則把蒙古語的前5 個向量做卷積運算傳遞至第二層池化層。同時第4 到7 個蒙古語Word Embedding 向量做卷積運算傳遞至第二層池化層的下一個節點中，以此實現位置上距離較遠的向量之間的聯合編碼。由此層疊卷積編碼器模型構建完成，且該模型中的卷積計算方式和池化層的特征提取方式與卷積神經網絡一致。

3.3 雙向語言模型

給定N個標記的序列(t1,t2,…,tN)，前向語言模型通過對給定歷史(t1,t2,…,tk-1)的記憶，然后對標記tk的概率建模來計算序列的概率：

圖2 堆棧卷積編碼器

從后向前訓練的語言模型類似于從前向后訓練的語言模型，除了它反向運行序列，在給定未來上下文語境的情況下預測前一個標記：

它能以類似于前向訓練模型的方式實現，每個后向LSTM層j在L層深度模型中產生表示tk的。

雙向語言模型biLM結合了前向傳播和反向傳播的語言模型LM。本文的公式聯合最大化前向和反向的對數可能性：

本文在前向傳播Feed-Forward 和反向傳播Back-Forward的方向上與標記表征和Softmax層的參數進行綁定，同時保持LSTM的參數在每個方向上分離?？偟膩碚f，這個公式類似于Matthew等人[8]的方法。

3.4 ELMo

ELMo是biLM中間層表示的任務特定組合。對于每個標記tk,L層biLM計算一組2L+1 表示：

在上面的公式中，Stask是Softmax 標準化權重，標量參數γtask允許任務模型縮放整個ELMo 向量?？紤]到每個biLM層的激活具有不同的分布，在某些情況下，它還有助于在加權之前將層標準化[9]應用于每個biLM層。

3.5 語料的ELMo表征

本文使用從雙向LSTM中預訓練蒙、漢單語語料得到詞語的語境上下文的向量，該雙向 LSTM 使用的語料數據是大規模平行句對語言模型bi-LSTM 在120 萬平行語料庫和網頁中爬取的單語文本語料庫上訓練得到的。與一些語料預訓練的方法[10-11]不同，基于ELMo的蒙漢語料預訓練方法的詞向量表示方法的嵌入層信息表示的內部函數是復雜的，ELMo神經網絡可以對深層次的信息如上下文語境信息、多義詞、語義、語態等信息進行建模。具體來說，對于每個神經網絡的訓練任務，學習堆疊在每個輸入單詞上的向量的非線性組合或者線性組合。這種數據預訓練方法可以顯著提升性能，效果優于僅使用LSTM 頂層的表征[12]。用這種預訓練蒙語或漢語的單語語料數據方式，組合深度神經網絡函數的內部狀態，可以帶來豐富的詞語語境和上下文信息的向量化表征。圖3 顯示了蒙古語句子（經過了這么多年，你想消除你們之間的分歧談何容易）進行BiLSTM編碼的過程。

圖3 蒙語詞素輸入過程

圖3表示的是蒙語詞素輸入的過程，詞嵌入層的編碼器將蒙語句子中的回鶻蒙古文詞語進行詞根、詞干、詞綴的切分，并以構詞詞素為基本輸入單元進行輸入，輸入層編碼器一次輸入一個詞素的向量信息[13]。通過輸入過程來進行蒙古語的編碼，圖4所示為編碼器網絡結構。

圖4 編碼器模型結構圖

4 基于多任務參數共享的蒙漢機器翻譯系統

首先，詞嵌入層從ELMo神經網絡的輸出獲得源和目標字向量，其中是模型大小，V是詞匯量大小。在嵌入查找步驟之后，將字向量乘以縮放因子。為了捕獲輸入序列中單詞的相對位置，將根據不同頻率的正弦曲線定義的位置編碼添加到源和目標的縮放的單詞矢量中。

編碼器層將輸入字向量映射到連續隱藏狀態表示。如前所述，它由兩個子層組成。如圖5 所示，第一個子層執行多頭點積自我注意。在單頭情況下，將子層的輸入定義為x=(x1,x2,…,xT) ，輸出定義為z=(z1,z2,…,zT)，其中，輸入被線性變換以獲得密鑰(ki)、值(vi)和查詢(qi)向量：

接下來，通過在這些相似度值上應用Softmax 函數來計算關注系數(αij)。

自注意輸出(zi)通過注意權重與值向量的凸組合，然后線性變換來計算。

其中，WK、WV、WQ、WF是形態為的可學習和訓練的參數變換矩陣。為了將注意力機制擴展到多頭注意(?)，將編碼器中獲取的鍵、值和解碼器中獲取的查詢向量分成“向量”，對鍵、值和查詢的每個向量并行執行注意力計算，然后將它們的計算結果進行連接，最后在WF進行最終線性變換。第二個子層由兩層位置前饋網絡（Feedforward Network，FFN）組成[13]，并且這里的FFN是具有ReLU激活的函數。

圖5 多任務參數共享的編碼器-解碼器框架圖

解碼器層和編碼器層具有類似的結構，它也是由3個用于解碼的子網絡層組成。類似于編碼器的第一子層的自我注意力機制，不同的是解碼器的第一個子層執行MASK（掩碼機制）的自我注意機制，其中掩模用于防止解碼過程中當前位置的解碼參考后續位置目標語言向量。解碼器的第二個解碼子層執行的是編碼器-解碼器交互的多頭注意力機制，其中查詢向量Q的輸入層向量信息來自解碼器層的詞向量，而注意力機制的鍵K和值V向量的輸入層信息來自編碼器的最后一層嵌入層表示。圖6 展示了用于一對多多粒度融合翻譯任務的MTL（Multi-Task Learning）方法的框圖，該方法基于多個解碼器之間參數的部分共享。本文為了更清晰地表示解碼器中這兩個注意力子層中的參數向量，加入MASK 機制的自注意機制子層的轉換機制的權重向量被引用為，編碼器-解碼器注意機制子層參數向量表示為。第三個子層由FFN 組成。在解碼器層的頂部有一個用于預測生成下一個字詞的線性層[14]。

圖5 中，詞嵌入層權重為WE，關聯層權重為，自我關注的一部分權重為，編碼器-解碼器注意力的權重為，前向傳播網絡子層參數為。

5 實驗和結果分析

本文的實驗環境包括系統的硬件環境的配置和系統內軟件環境的配置，具體實驗環境配置如表1所示。

5.1 語料劃分和句子切分預處理

內蒙古工業大學蒙漢翻譯課題組構建了126 萬句對回鶻蒙古語和漢語平行語料庫，另外使用了由一些專有名詞組成的詞典庫，用來矯正本文的蒙漢翻譯系統，蒙漢平行詞典庫包含11 160 組地名庫、15 001 組人名庫、2 150組農業名詞庫、308 714組醫學名詞、5 000組物理名詞。為了實驗的順利開展，本文將蒙-漢平行語句翻譯語料數據集中語料分為三部分：訓練集、驗證集和測試集。本文翻譯模型的平行語料庫中數據集劃分如表2所示。

表1 實驗環境配置

表2 實驗數據集劃分

本文采用了分布式表示（Distributional Representation）的詞向量方法，用UTF-8作為蒙漢雙語語料的編碼格式。

本文對原始的蒙漢平行語料句子分別進行了分字切分、BPE切分（https：//github.com/rsennrich/subword-nmt）、LSTM-CRF 神經網絡詞切分（https：//github.com/Glassy-Wing/bi-lstm-crf）三種詞切分方式的對比，實驗結果如表3所示。

表3 語料的多種形式的分詞預處理

表3中的蒙古文-漢文語句1和語句2的單詞對應關系如圖7和圖8所示。

圖7 蒙古文-漢文語句1單詞的對應關系

圖8 蒙古文-漢文語句2單詞的對應關系

5.2 基于ELMo 預訓練的Transformer 框架下的多任務參數共享的翻譯實驗

本文通過應用蒙古語和漢語的字節對編碼[15]和32 000 個合并操作[16]，系統使用基于字詞單元切分的BPE 方法聯合編碼回鶻蒙古語語句和漢語語言單詞。為了進行實驗對比，使用兩種方法對所有可訓練的模型參數初始化：一種方法是使用LeCun 統一初始化方法[17]；另一種方法是由FastText[18]預訓練的參數模型遷移到本文翻譯模型從而進行初始化?；贔astText 的預處理方法在大型未標記回鶻蒙古語和漢語文本預訓練的方法很快，FastText 方法可以快速訓練大型語料庫得到預訓練之后的模型，并且FastText方法基于蒙語詞素和漢語字符的細粒度的編碼方式，可以幫助人們計算未出現在訓練數據中的亞詞單詞的近似組合形式詞語的單詞表示。最后根據截斷的高斯分布隨機初始化部分嵌入層權重。

本實驗采用的是谷歌開發的基于Tensor2Tensor 框架的Transformer模型[19]，建立了6個基于多頭自注意力機制的編碼器-解碼器層，dm=512，dh=2 048,τ=8。本文使用 Adam 優化器[20]超參數β1=0.9,β2=0.997,ε=1E-9.3。學習率(lr)時間表在每個優化步驟（步驟）中根據以下因素而變化：

每個小批量包括大約2 048 個源tokens 和2 048 個目標標記，使得類似長度的句子被一起打包。本文訓練模型直到收斂并使用開發集性能保存最佳檢查點。對于模型正則化，使用標簽平滑(ε=0.1)[21]并設置丟棄率（使用Pdrop=0.1)[22]應用于詞嵌入，注意力機制系數，ReLU激活，以及剩余連接之前每個子層的輸出。在解碼期間，使用波束寬度為5 的波束搜索（Beam Search）和長度歸一化[23]，其中α=1。神經網絡反向傳播優化流程如圖9所示。

圖9 神經網絡反向傳播優化流程圖

5.3 實驗對比和結果分析

本文利用檢查點模型進行實驗，10個epoch迭代的實驗評測結果如圖10 和圖11 所示。圖10 中的折線圖統計的數據是訓練誤差的損失值loss，圖11中的折線圖統計的數據是訓練正確率Accuracy。

圖10 訓練誤差的損失值

圖11 訓練正確率Accuracy

通過實驗結果分析，隨著迭代次數的增加，訓練誤差損失loss值逐漸變小，翻譯正確率Accuracy值也隨著增長。但是從第7 個epoch 開始，模型訓練中由于過擬合導致loss 值下降到0.5 左右。模型的最優BLEU 值達到48.27，并沒有展現出更好的翻譯效果，究其原因主要是模型譯文候選集的選取中存在一定的問題，導致模型沒有從中選取最優譯文。

本文又進行了一系列的對比實驗。首先，分別進行了Transformer模型和ELMo-Transformer模型的實驗作為對比。內蒙古工業大學蒙漢翻譯課題組構建的126萬句對回鶻蒙古語和漢語平行語料庫中包括長度低于10 個字的短句子，也有長度大于30 個字的段落級上下文相關的長句子，其中長度大于30 的情況主要出現在政府工作報告、小說和人物對話中。因為這種段落級的語料蘊含的上下文相關信息更加豐富，所以結合ELMo的預訓練可以幫助神經網絡更好地提取特征，進而使得翻譯更加準確。

ELMo預訓練神經網絡對單語數據建模時，可以對任意長度的句子進行編碼，無需對句子的長度進行特殊操作。然而，在測試數據集中，為了對ELMo 預訓練的效果進行評估，對測試集數據進行了句子的長度正則化處理。第一步，給出長度范圍的4 組標準，分別是長度為1～10 個字為第一組，長度為11～20 個字為第二組，長度為 21～30 個字為第三組，長度為 31～40 個字為第四組。第二步，對于每一組長度的實驗，測試數據集的數據中每行句子長度采用同一組標準（以上4組），然后編寫Python 腳本代碼，將不符合要求的句子斷行處理（將長度超過標準長度的句子超出標準之外的部分切斷，然后獨自成一行），對于長度不滿足要求的句子長度可以將偶數行數據添加到奇數行再按照長度標準分行處理?？偠灾?，本文的測試集的每一組實驗的句子長度都有一個標準（1～10，11～20，21～30，31～40其中一個）。

在句子詞數分別為1～10、11～20、21～30以及大于30等四種長度的句子中進行比較，實驗結果的BLEU值評分如表4所示。

表4 實驗比較

通過表4的結果分析，即使采用基于詞級粒度結合BPE分詞方法的語料輸入，基于ELMo的機器翻譯模型在句子長度小于30 時，得出的翻譯評分稍低于Transformer 模型，而隨著詞數的增加，ELMo-Transformer 模型的翻譯質量逐漸提高，在大于30個詞的句子翻譯中，BLEU 值達到 49.47，相比較 Transformer 模型 BLEU 值提高了1.10。

然后對Transformer 翻譯模型分別進行了LeCun 統一初始化，與先由FastText預訓練的參數模型遷移到本文的翻譯模型從而進行初始化兩個實驗進行對比。BLEU值評測效果如表5所示。

表5 實驗比較

通過表5的結果分析，在句子長度小于20時，FastText預訓練模型對Transformer基線系統的翻譯效果提升比較小，但是隨著詞數的增加，經過FastText 預訓練的Transformer機器翻譯模型的翻譯質量逐漸提高，最大的BLEU 值達到50.47，相比較LeCun 統一初始化參數的Transformer模型BLEU值提高了1.90。

6 結論和未來展望

蒙漢機器翻譯屬于低資源語言的翻譯，面臨著平行標記的語料資源稀缺的困難，為了緩解平行語料資源數據稀缺和詞匯表受限帶來的翻譯質量差的問題，本文利用多任務預訓練數據的方法結合Transformer翻譯架構進行蒙漢翻譯。首先，利用ELMo（深層語境化詞向量表示）進行蒙語或者漢語單方面語料資源的預訓練。實驗結果表明，使用ELMo數據預訓練蒙語和漢語語料之后再進行Transformer 翻譯能有效提升翻譯質量，特別是對于句子比較長的輸入序列，通過分析Transformer模型架構，發現Transformer 每一層的結點需要和上一層的所有結點進行相關性的計算，這樣的計算成本和顯存需求非常高，如果不進行數據預訓練，想要對大規模數據進行高質量的特征提取和建模，那么隨著網絡層數的增加，Transformer 的計算量和參數增長，帶來內存需求量的增加。通過ELMo預訓練，能夠充分利用BiLSTM模型的序列遞歸和長期記憶的能力，有效記憶上下文語境關系，有助于Transformer 在不增加網絡層數的前提下做下一步的訓練。其次，本文利用FastText詞嵌入算法把蒙漢平行語料庫中的上下文語境相關的大規模文本進行預訓練?；贔astText 文本語料預訓練的方法很快，允許快速訓練大型語料庫上的模型，并允許計算未出現在訓練數據中的單詞表示。然后，根據多任務共享參數以實現域信息共享的原理，構建了一對多的編碼器-解碼器模型進行蒙漢神經機器翻譯。實驗結果表明，本文的翻譯方法比Transformer 基線翻譯方法在長句子輸入序列中可以有效提高翻譯質量。