基于源語言句法增強解碼的神經機器翻譯方法

2022-11-30 07:30:32龔龍超郭軍軍余正濤

計算機應用 2022年11期

龔龍超，郭軍軍*，余正濤

龔龍超1，2，郭軍軍1，2*，余正濤1，2

（1.昆明理工大學信息工程與自動化學院，昆明 650504； 2.云南省人工智能重點實驗室（昆明理工大學），昆明 650504）（?通信作者電子郵箱guojjgb@163.com）

當前性能最優的機器翻譯模型之一Transformer基于標準的端到端結構，僅依賴于平行句對，默認模型能夠自動學習語料中的知識；但這種建模方式缺乏顯式的引導，不能有效挖掘深層語言知識，特別是在語料規模和質量受限的低資源環境下，句子解碼缺乏先驗約束，從而造成譯文質量下降。為了緩解上述問題，提出了基于源語言句法增強解碼的神經機器翻譯（SSED）方法，顯式地引入源語句句法信息指導解碼。所提方法首先利用源語句句法信息構造句法感知的遮擋機制，引導編碼自注意力生成一個額外的句法相關表征；然后將句法相關表征作為原句表征的補充，通過注意力機制融入解碼，共同指導目標語言的生成，實現對模型的先驗句法增強。在多個IWSLT及WMT標準機器翻譯評測任務測試集上的實驗結果顯示，與Transformer基線模型相比，所提方法的BLEU值提高了0.84～3.41，達到了句法相關研究的最先進水平。句法信息與自注意力機制融合是有效的，利用源語言句法可指導神經機器翻譯系統的解碼過程，顯著提高譯文質量。

自然語言處理；神經機器翻譯；句法信息；Transformer；增強解碼；外部知識融入

0 引言

隨著深度學習技術的發展，基于深度學習方法的神經機器翻譯系統取得了顯著的效果［1-3］，成為機器翻譯任務的新范式。神經機器翻譯任務旨在將給定的源語言句子轉換為目標語言句子，其核心思想是使用神經網絡將源語言句子編碼為一個稠密向量，然后從該向量解碼出目標語言句子，通常依賴端到端的編碼器?解碼器結構實現這種序列轉換［4-5］。

先驗的語言知識，特別是句法，是一種預先定義的語言規則。圖1給出一個句法依賴關系的實例，詞語之間通過特定的關系連接構建成一個句子。無論是理解語義（對應于編碼）還是構建語言（對應于解碼），這種蘊含于詞語與詞語之間的“主謂賓”等關系都作為一種重要依據而必不可少。但由于其本身的復雜性和語言的多樣性，如何有效學習和理解更深層的蘊含關系和預定規則，仍是目前自然語言處理任務亟需和正努力解決的根本問題。

圖1　句法依賴關系的實例

一方面，基于Transformer［3］的編碼器?解碼器結構舍棄了傳統的循環神經網絡（Recurrent Neural Network， RNN）［2］層和卷積神經網絡（Convolutional Neural Network， CNN）［6］層，僅利用注意力機制［5］并行地執行序列轉換，大幅地提高了建模的效率，成為機器翻譯任務的基線模型。然而，盡管自注意力機制通過并行的方式將輸入語句中的每個詞語都表示為包含其上下文信息的表征，但由于模型僅依賴于平行語料，而沒有使用先驗的語言知識，這種方式不可避免地會造成編碼和解碼過程中語句表征質量的下降。圖1展示了Transformer在編碼句子“The monkey eats a banana.”過程中為根節點詞“eats”分配的注意力權重。直觀上，在翻譯詞語“eats”時，其主語“monkey”和賓語“banana”應得到更多的關注，但從注意力權重的分配上看，Transformer模型顯然沒有區分出這種句法上的差別。相關研究也表明Transformer的確不能有效挖掘這種深層的語言信息，特別是在低資源環境下［8-9］。筆者認為，從注意力的角度來看，Transformer的軟注意力方式適用于更廣的范圍，保證了模型的泛化能力；在此基礎上，顯式地添加句法以硬約束注意力則傾向于句子本身的差異性。將兩者結合，則可在不損害模型泛化性的同時優化語句的表征。

另一方面，相關研究也表明在機器翻譯系統中融入句法信息是有效的［10-14］。在模型淺層，Saunders等［10］將句法表征穿插在單詞之間；Zhang等［11］將句法解析模型的表征與翻譯模型的詞嵌入表征相結合。在改變模型中間表征方面，Bugliarello等［12］根據詞語之間的句法距離調節編碼源語句時的注意力權重。在模型結構方面，Wu等［13］引入額外的編碼器和解碼器將句法關系融入機器翻譯系統中，并利用目標端的句法信息；Currey等［14］提出適用于低資源的句法解析——機器翻譯多任務模型，和適用于富資源的混合編碼模型。這些方法雖然在基線模型的基礎上提高了性能，但僅在編碼器中利用源語言句法信息，或是在解碼器中利用目標語言句法信息，并沒有研究源語言句法信息對解碼過程的影響。

針對以上問題，本文在Transformer模型的基礎上：1）優化編碼器中的自注意力機制，引入句法感知的遮擋機制，在原注意力的基礎上生成一個額外的句法相關表征，與原注意力表征互補，明確使用源語言的句法信息；2）增強解碼器，使用句法注意力將編碼端生成的句法相關表征融入解碼過程，指導目標語言的生成，實現源語言句法信息對機器翻譯系統的增強。本文的主要工作包括：

1）提出一種基于源語言句法增強解碼的神經機器翻譯方法SSED（Source Syntax Enhancing Decoding），引入句法信息補充優化源語言表征，探索結合源語言句法信息作用于解碼過程對翻譯系統性能的影響；

2）將源語言句法信息作為優化模型的依據，而不是簡單地作為額外特征輸入模型，且適配于子詞單元；

3）使用不同方法在解碼端融合源語言句法信息，探索在不同融合方式下源語言句法信息對模型性能的影響；

4）在幾個標準機器翻譯數據集上的實驗結果表明，本文方法在幾乎不引入額外的訓練參數和計算開銷的情況下顯著提高了基線模型的性能，并取得了句法相關工作的最好結果。

1 相關工作

在基于RNN模型的句法信息增強機器翻譯方法中，Sennrich等［15］將源語言句子的語法依賴標簽作為額外特征輸入翻譯系統中，以提高譯文質量；Eriguchi等［16］將解碼器與一個基于句法的語言模型［17］結合，通過共享句法解析與翻譯任務將語言先驗納入機器翻譯系統；Chen等［18］采用自底向上和自頂向下兩個方向的樹結構編碼，有效利用源端句法信息；Chen等［19］基于句法距離構造一個句法感知的局部注意力機制，根據句法距離調節注意力權重，選擇性地加強對句法相關詞的注意。

基于Transformer的序列轉換模型大幅提升了神經機器翻譯的并行性和譯文質量，一些研究也在Transformer模型的基礎上對句法增強的方法進行了探索。Wu等［13］為將由RNN構建的依賴解析樹融入Transformer結構中，使用一個具有三個編碼器和兩個解碼器的大模型，且需要目標端的依賴關系；Zhang等［11］從更淺的詞嵌入層著手，將句法解析器生成的隱狀態與翻譯模型的詞嵌入向量拼接，以一種更隱式的方式集成源語言句法。與本文的方法相比，這種方法無法適配子詞切分，會誘發詞表過大和未登錄詞的問題。Currey等［14］基于數據增強技術提出兩種分別適用于低資源和富資源的方法；Saunders等［10］致力于將目標語言的句法信息融入機器翻譯系統，但將句法表征穿插入詞語表征之間的方式帶來長序列的問題，需要累積梯度才能進行有效的訓練。最近，Bugliarelllo等［12］基于自注意力強大的表征能力將句法信息與自注意力網絡相結合，通過詞與詞之間的句法距離重新分配注意力權重，實現對句法相關部分的強調。然而，這種僅依賴調整后表征的方式容易引入噪聲。

不同于以往基于Transformer的工作，本文根據源語句的句法依賴關系，在編碼自注意力的基礎上利用遮蔽機制生成一個額外的句法相關表征作為原表征的補充，進而在解碼過程融合源端的句法知識，共同指導目標語言的生成，以實現對解碼過程的句法約束，提高機器譯文質量。

2 SSED

為使用句法信息增強神經機器翻譯，同時探索源語言句法對解碼過程的影響，本文在Transformer模型的基礎上提出基于句法增強的神經機器翻譯模型SSED，在編碼過程中提取和轉換源端句法知識，并將其融入解碼過程。

本章介紹了SSED模型的整體結構、處理流程和框架中主要模塊的設計和細節，包括獲取并向量化源語句句法關系以將其適配至編碼器，句法感知在多頭注意力中的實現，以及如何將句法增強適配到解碼器的不同層。

2.1　模型整體結構

圖2中展示了SSED模型的結構，與Transformer模型相比，主要改動包括：1）編碼器中，優化自注意力，使其利用源語句的句法依賴關系生成句法相關的表征；2）解碼器中，添加句法?解碼交互注意力和整合機制用于融合源語言句法，實現句法增強。

圖2　SSED模型總體結構

2.1.1句法感知的編碼器

由此，除原本的注意力表征之外，句法感知的自注意力還額外生成一個句法相關的注意力表征，式（1）變為：

值得注意的是，由于本文并沒有額外初始化一個前饋網絡，而是僅使用原本的前饋網絡，因此，相較于傳統的Transformer編碼器，句法感知的編碼器并沒有引入額外的訓練參數。

2.1.2句法增強的解碼器

社會治理在鄉鎮土地管理中的運用（李昊） ..................................................................................................2-31

2.2　句法依賴關系的向量化

為緩解詞表過大和詞匯稀疏問題，本文將句法感知適配到子詞單元，定義由同一原詞語切分而成的子詞之間的關系為句法相關，并作為整體與句子中的其他詞語相互關聯，以適應子詞切分技術。

2.3　句法感知與多頭注意力的適配

具體到本文，源語句的句法關系被作為調整編碼自注意力進而生成句法相關表征的依據，而不是簡單地作為語言特征輸入模型。這種對注意力權重的調整是建立在多頭基礎上的，保留了多頭表征的多樣性，使得所生成的句法相關表征蘊含來自不同表示子空間的信息，避免了由于僅保留句法相關部分而可能帶來的局部偏差。從局部建模的角度考慮，基于多頭的方式完善了可能忽略全局信息的句法感知建模方式。因此，作為補充信息，由局部建模得到的句法相關表征沒有引入額外的噪聲，相反，它在引入句法信息的同時也豐富了源語句表征的多樣性。3.3.4節中的實驗結果也表明，句法相關表征為模型解碼提供了有效信息。

2.4　句法感知與多層注意力的適配

最近的研究表明，Transformer不同的層傾向于捕捉不同的特征。Anastasopoulos等［20］的研究表明，相較于低層，較高層更具有代表性；Peters等［21］以及Raganato等［22］指出，低層傾向于學習更多的句法知識，而較高的層則傾向于編碼更多的語義?；诖?，本文在編碼器輸出層中生成句法相關表征，并研究了解碼器哪些層從源語言句法中受益最大。

3 實驗與結果分析

3.1　實驗設置

為測試本文SSED模型的性能，在通用的NC11（News Commentary v11）英德、德英和IWSLT14（International Conference on Spoken Language Translation 2014）德英，以及標準低資源WMT18（Conference on Machine Translation 2018）英土、IWSLT15（International Conference on Spoken Language Translation 2015）英越翻譯任務上進行實驗。為便于與句法相關的工作進行比較，NC11與WMT18英土兩個任務的數據設置與Bugliarello等［12］相同；對IWSLT14德英任務，跟Edunov等［23］的設置相同；在IWSLT15英越任務中使用tst2012作為驗證集，tst2013作為測試集。表1統計了實驗使用的語料規模。語料中的句子都進行了規范化（normalize）、符號化（tokenize）以及BPE（Byte Pair Encoding）［24］子詞切分等處理；使用Stanford CoreNLP［25］工具對英語和德語端句子進行句法解析，得到對應的句法關系。

表1　實驗使用的語料規模統計

在譯文質量評價方面，本文使用開源腳本multi?bleu.Perl計算機器譯文的BLEU（BiLingual Evaluation Understudy）值，對所有機器譯文均采用大小寫敏感的BLEU值。為保證結果的有效性，平均最后5個檢查點作為評估模型，波束搜索大小設為5。

3.2　實驗結果

首先，與已有的句法相關工作進行比較，包括：Currey等［14］提出的共享機器翻譯和句法解析任務的Multi?Task方法，以及混合編碼的Mixed Enc.模型；Bugliarello等［12］提出的句法增強的最好方法PASCAL（Parent?Scaled Self?Attention）；參數優化的Multi?Task；將句法信息以依賴標簽的形式加入到Transformer編碼器詞嵌入矩陣中的S&H（Sennrich and Haddow）［15］；被遷移到機器翻譯任務中，將自注意力與句法解析相結合的LISA（Linguistically?Informed Self?Attention）［27］。

其次，在通用的IWSLT（International Conference on Spoken Language Translation）任務上與其他機器翻譯方法進行比較，包含：基于傳統RNN和CNN的ELMo（Embeddings from Language Models）［28］、CVT（Cross?View Training）［28］，SAWR（Syntax?Aware Word Representations）［11］和Dynamic Conv［29］；改進Transformer模型結構的Tied?Transform［30］和Macaron［31］；融合預訓練模型的C?MLM（Conditional?Masked Language Modeling）［32］和BERT?fused（Bidirectional Encoder Representations from Transformers?fused）［33］。

實驗結果如表2所示，可以看到：對于句法增強的神經機器翻譯方法，在詞嵌入表征中加入依賴標簽（+S&H）以及簡單地共享模型的多任務方法（+Multi?Task）相較于基線模型并沒有明顯的提升；相比之下，改變注意力機制，在其中融入句法信息以輔助機器翻譯的方法（+LISA）有了明顯的提升，說明了句法信息對提高譯文質量的有效性，以及將其與注意力網絡結合的可行性。

表2　不同機器翻譯方法在各數據集上的BLEU值

進一步地，根據源語句句法信息對編碼自注意力進行調整，而不是簡單地將其作為額外的特征輸入模型（+PASCAL），取得了更好的優化效果，證明了這種調整優化方式的效力。與此不同，本文在此方法的基礎上進一步改進，在不改變原注意力表征的情況下使用源句句法信息引導自注意力生成一個額外的句法相關表征，將其作為原表征的補充信息，有效緩解調整自注意力過程中可能會引入的噪聲偏差，在保證注意力表征有效性的同時，也增加了其豐富性。此外，本文采用更直接的解碼端融入方式，將句法信息直接作用于目標語言的生成過程。實驗結果表明，本文的方法取得了最好的效果，BLEU值在基線模型的基礎上取得了+0.97到+3.41的提升，且始終優于當前句法相關的最先進方法PASCAL。這驗證了SSED模型的有效性，在解碼過程中使用源語言句法信息指導目標語言的生成能夠大幅提高機器譯文質量。

另一方面，在通用的IWSLT任務上，本文方法同樣表現優異，能取得與其他精心設計的機器翻譯模型相當或更好的BLEU值。其中，Tied?Transform通過共享編解碼器實現了一個輕量型的模型，但需要更強的調參技巧以及更長的訓練時間來使模型收斂。相比之下，本文方法SSED在不需要額外訓練時間的情況下達到了與Tied?Transform相當的性能。Macaron通過在每層的注意力網絡之前增加前饋網絡使Transformer模型更稠密，但模型參數量也隨之大幅增加，而本文所提方法僅在單層操作，在僅引入少量參數的情況下表現出更好的性能。

此外，借助預訓練語言模型的C?MLM和BERT?fused方法將預訓練語言模型BERT的表征融入翻譯系統，使模型包含更大規模的訓練參數，也需要更長的訓練時間，而基于輕量模型的SSED在IWSLT15英越任務上取得了高于C?MLM的BLEU得分，表現出強大的翻譯性能。

3.3　消融實驗

為探究模型不同組件和方法的具體效用，本文進行了一系列的消融實驗。首先，在解碼端通過不同的方式融合句法信息；之后，使用不同的方法整合編碼?解碼注意力和句法?解碼注意力表征；然后，研究解碼器中哪些層從源語言句法中受益最大；最后，具體驗證句法相關表征的有效性。

3.3.1不同融合方式對模型性能的影響

本文基于注意力機制在解碼端自適應地提取原語句表征與句法相關表征中的信息。在解碼端使用注意力機制融入額外信息輔助神經機器翻譯的方法通常可分為兩類：串行方式和并行方式。串行方式即依次執行編碼注意力或額外信息注意力，后一注意力的查詢向量為前一注意力的輸出［34-36］；并行方式即分別執行編碼注意力和額外信息注意力，兩種注意力的查詢向量相同，之后再對輸出結果進行整合［37-40］。

圖3在本文的基礎上對串行方式進行了簡單示例。本文進行了不同的實驗以探究將源語句句法信息融入解碼過程的最有效方法，實驗結果展示在表3中。其中：“Enc+Syn”和“Syn+Enc”分別表示在解碼自注意力后依次執行編碼、句法注意力及句法、編碼注意力的串行方式；“Enc//Syn”表示并行執行編碼、句法注意力。實驗中將并行輸出的兩個表征進行拼接，之后經線性層整合為一個整體。所有方式均在所有解碼層中執行。

圖3　串行融合的簡單示例

表3　IWSLT15英越任務上不同融合方式的BLEU值

從表3可以看出，串行執行注意力的方式并不能有效提升模型性能，反而會造成譯文質量的大幅下降。與之前串行處理的工作相比，本文認為造成這種結果的原因是：當額外特征提供給模型的是與編碼輸出的源語句表征差別較大的不同類型信息，且擁有全局屬性時，遞進的方式能夠為模型提供更好的規范性信息，進而有效提升模型性能，相反則不能。本文方法是用句法感知的方式在原編碼輸出表征的基礎上進行局部建模，得到額外的句法相關表征，與原表征有較高的相似性，可以作為原語句表征的補充信息，而不適合單獨作為全局信息提供給解碼器。并行執行注意力的實驗結果驗證了這一猜想。將所生成的句法相關表征以輔助信息的形式整合到模型中，而不是以包含的形式，這種融合方式有效強化了原表征的特征多樣性，進而提升模型性能。

在之后的實驗中，本文在解碼端采用并行執行的方式，并進一步實驗了不同的整合方式對模型性能的影響。

3.3.2不同整合方式對模型性能的影響

1）平均池化（Average）：將兩個注意力輸出表征經平均池化層求平均值，結果送入下游模塊。

2）門控單元（Gate）：將兩個注意力表征進行拼接，之后經門控單元生成一個門控變量，控制兩個注意力表征在整合過程中所占權重。可用公式表示為：

3）高速網絡（Highway）：拼接后的注意力表征分別經過兩個不同的線性變化和非線性激活，生成一個控制變量和一個輸入變量，之后借助控制變量控制拼接變量和輸入變量的權重，生成最終表示。

4）線性變換（Linear）：拼接后的注意力表征僅經過線性變化層生成下游模塊的輸入變量。

根據表4可以看到，使用平均池化和高速網絡整合注意力表征時，不管是在驗證集還是測試集，不僅在基線模型上沒有所提升，反而損害了模型性能。而門控單元和線性變換在測試集上表現出同等的效力，都有效改善了譯文質量，但其中門控單元在驗證集上表現不佳。有關這點，本文在后續實驗中進一步探索了門控單元的有效性。

表4　IWSLT15英越任務上不同整合方式的BLEU值

本文將表4的結果歸因于：簡單地對兩個表征求均值并不能有效區分并整合有效信息，反而會損害多個表征中所包含的特有信息，使其失去多樣性，甚至會在原注意力表征中引入噪聲，造成質量下降，導致模型表現不佳。同樣地，高速網絡并沒有有效識別出拼接后的表征中哪些部分需要經過激活，哪些部分需要保持不變。相反，門控單元和線性層則有效篩選出了有效信息，實現了句法增強表征的有效融合，從而優化了模型表征，進一步實現對譯文質量的提升。在接下來的實驗中，本文使用線性層作為整合方式，并進一步驗證門控單元的效力。

3.3.3不同解碼層引入句法信息對模型性能的影響

針對已有研究指出的不同層捕捉不同特征的現象，一個自然的問題是：是否需要在所有解碼層中增強句法？為解答該問題，本文在不同層的基礎上進行了一系列實驗，結果如表5所示。其中：“Base”表示Transformer基線模型；“Gate5”表示使用門控單元作為整合機制，在解碼器第5層中利用注意力機制引入句法信息。

表5中結果顯示：1）所有方法的BLEU值相較于Transformer基線模型都有不同程度的提升，其中在第5層中融合句法信息效果最好，BLEU值在基線模型的基礎上取得了+0.84的提升。這驗證了基于句法增強的神經機器翻譯模型的有效性。2）相較于僅在單一層中融合句法信息增強解碼，在多個層中融合并沒有明顯的提升；且隨著自底向上增加融合層數，機器譯文的評分整體上并沒有明顯的變化，反而會有所下降。這表明，多層融合并不能在模型性能方面帶來增益，相反，增加過多的線性層會引入更多的訓練參數，造成模型結構的冗余，不利于充分挖掘語料中蘊含的信息。此外，多層融合一定程度上也更容易造成信息的重復和冗余。結合Raganato等［20］有關低層偏向注意語義，高層偏向注意上下文信息的發現，包含局部信息的句法相關表征并不適宜于被作為補充信息提供給所有層，而是適合作為上下文信息與源語言表征形成互補，在較高層中發揮更大的效益，完善源語言表征的信息完整性。3）較高的層更能從源語言句法增強中受益。相較于在第1～4層中融合句法信息，在第5、6層中融合句法信息使模型性能有很大幅度的提升。這一定程度上與之前有關不同層的研究相符合，即在較高層中額外引入的句法相關表征與原本包含更多語義的表征互為補充，使整合后的表征含有更為全面的信息，且較高層生成的表征更具代表性。此外，擁有較好效果的較高層在堆疊融合的情況下（表5中的4-6、5-6）性能依然不佳，說明文中基于句法增強的方法的確不適用于多層融合。4）使用線性層整合的方式更適用于模型。盡管使用門控單元作為整合方式在第5層中融合句法知識取得了很好的效果，但仍差于基于線性變換的方法。

基于以上實驗結果，本文在主實驗中基于編碼器輸出層生成句法相關表征，并僅在解碼器第5層中使用線性層作為整合方式融合句法信息。

3.3.4不同整合方式對模型性能的影響

為排除在解碼器中增加線性層所帶來的干擾，證明模型性能的提升僅來自句法相關表征，使用原始的編碼器輸出替換句法相關表征，將其作為句法?解碼注意力的輸出與編碼?解碼注意力輸出進行整合，結果如表5的“Enc5”。Enc5的結果表明，雖然線性層提升了基線模型的性能，但與基于句法相關表征的結果相比仍有很大差距，說明SSED模型的性能改善得益于源端句法信息，驗證了本文方法的有效性。另一方面，結合3.3.2節中的結果，從高速網絡到門控單元，再到線性層，隨著模型復雜度的遞減，模型性能呈現遞增的趨勢，簡單的線性層就能明顯提升模型性能，本文認為這與Transformer模型結構的稀疏稠密度有關，具體原因將在未來工作中進一步研究。

表5　IWSLT15英越任務上不同解碼層引入句法信息的BLEU值

3.4　實例分析

為了定性揭示基于句法增強的神經機器翻譯方法的有效性，表6給出了在IWSLT14德英任務上，Transformer?base模型生成的原機器譯文以及利用本文方法增強句法后生成的譯文示例。與參考譯文對比發現，句法增強的方法能夠有效借助源語言句法信息對原模型解碼時的句法錯誤進行校正。在第一個例子中，解碼“one”時應更多地注意其指代主語“my supermarket”，而不是“this is my supermarket”，加入句法信息使模型在解碼該位置時有傾向地指向“supermarket”，可有效避免指代主語不明確的問題。同樣，在第二個例子中模型有效糾正了錯誤的謂語，保證了翻譯過程中語意表達的準確性。

表6　原機器譯文與句法增強的機器譯文的對比示例

4 結語

為緩解低資源場景下神經機器翻譯模型缺乏先驗約束、句法信息表征不足等問題，同時探索在解碼過程中有效利用源語言句法信息指導目標語言生成，本文提出了基于Transformer的源語言句法信息增強解碼的神經機器翻譯模型。該模型通過改進Transformer結構，實現了句法感知的編碼和句法增強的解碼。使用并行注意力的方式分別從源語句表征和局部建模的源語句句法相關表征中提取信息，能夠有效提升模型表征能力，融合句法信息指導解碼端目標語言的生成。在幾個通用機器翻譯任務上的實驗結果表明，所提方法顯著提高了機器譯文質量，達到了句法相關研究的最先進水平，證明了使用源語言句法信息指導解碼對增強機器翻譯模型性能的有效性。

[1] SUTSKEVER I， VINYALS O， LE Q V. Sequence to sequence learning with neural networks［C］// Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge： MIT Press， 2014： 3104-3112

[2] BAHDANAU D， CHO K， BENGIO Y. Neural machine translation by jointly learning to align and translate［EB/OL］. （2016-05-19）［2021-08-11］.https：//arxiv.org/pdf/1409.0473v7.pdf.

[3] VASWANI A， SHAZEER N， PARMAR N， et al. Attention is all you need［C］// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， 2017：6000-6010.

[4] 李亞超，熊德意，張民. 神經機器翻譯綜述［J］. 計算機學報， 2018， 41（12）： 2734-2755.（LI Y C， XIONG D Y， ZHANG M. A survey of neural machine translation［J］. Chinese Journal of Computers， 2018， 41（12）： 2734-2755.）

[5] 劉洋. 神經機器翻譯前沿進展［J］. 計算機研究與發展， 2017， 54（6）： 1144.（LIU Y. Recent advances in neural machine translation［J］. Journal of Computer Research and Development， 2017， 54（6）： 1144.）

[6] GEHRING J， AULI M， GRANGIER D， et al. Convolutional sequence to sequence learning［C］// Proceedings of the 34th International Conference on Machine Learning. New York： JMLR.org， 2017： 1243-1252.

[7] LUONG M T， PHAM H， MANNIN C D. Effective approaches to attention?based neural machine translation［C］// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA： Association for Computational Linguistics， 2015：1412-1421.

[8] ERIGUCHI A， HASHIMOTO K， TSURUOKA Y. Tree?to?sequence attentional neural machine translation［C］// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics （Volume 1： Long Papers）. Stroudsburg， PA： Association for Computational Linguistics， 2016： 823-833.

[9] NGUYAN X P， JOTY S， HOI S C H， et al. Tree?structured attention with hierarchical accumulation［EB/OL］. （2020-02-19）［2021-08-11］.https：//arxiv.org/pdf/2002.08046.pdf.

[10] SAUNDERS D， STAHLBERG F， DE GISPERT A， et al. Multi?representation ensembles and delayed SGD updates improve syntax based NMT［C］// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics （Volume 2： Short Papers）. Stroudsburg， PA： Association for Computational Linguistics， 2018： 319-325.

[11] ZHANG M S， LI Z H， FU G H， et al. Syntax?enhanced neural machine translation with syntax?aware word representations［C］// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies， Volume 1 （Long and Short Papers）. Stroudsburg， PA： Association for Computational Linguistics， 2019： 1151-1161.

[12] BUGLIARELLO E， OKAZAKI N. Enhancing machine translation with dependency?aware self?attention［C］// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： Association for Computational Linguistics， 2020： 1618-1627.

[13] WU S Z， ZHANG D D， ZHANG Z R， et al. Dependency?to? dependency neural machine translation［J］. IEEE/ACM Transactions on Audio， Speech， and Language Processing，2018， 26（11）： 2132-2141.

[14] CURREY A， HEAFIELD K. Incorporating source syntax into transformer?based neural machine translation［C］// Proceedings of the 4th Conference on Machine Translation （Volume 1： Research Papers）. Stroudsburg， PA： Association for Computational Linguistics， 2019： 24-33.

[15] SENNRICH R， HADDOW B. Linguistic input features improve neural machine translation［C］// Proceedings of the 1st Conference on Machine Translation： Volume 1， Research Papers. Stroudsburg， PA： Association for Computational Linguistics ， 2016： 83-91.

[16] ERIGUCHI A， TSURUOKA Y， CHO K. Learning to parse and translate improves neural machine translation［C］// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics （Volume 2： Short Papers）. Stroudsburg， PA： Association for Computational Linguistics， 2017： 72-78.

[17] DYER C， KUNCORO A， BALLESTEROS M， et al. Recurrent neural network grammars［C］// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Stroudsburg， PA： Association for Computational Linguistics， 2016： 199-209.

[18] CHEN H D， HUANG S J， CHIANG D， et al. Improved neural machine translation with a syntax?aware encoder and decoder［C］// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics （Volume 1： Long Papers）. Stroudsburg， PA： Association for Computational Linguistics， 2017： 1936-1945.

[19] CHEN K H， WANG R， UTIYAMA M， et al. Syntax?directed attention for neural machine translation［C］// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2018： 4792-4799.

[20] ANASTASOPOULOS A， CHIANG D. Tied multitask learning for neural speech translation［C］// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies， Volume 1 （Long Papers）. Stroudsburg， PA： Association for Computational Linguistics， 2018： 82-91.

[21] PETERS M E， NEUMANN M， IYYER M， et al. Deep contextualized word representations［C］// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies， Volume 1 （Long Papers）. Stroudsburg， PA： Association for Computational Linguistics， 2018： 2227-2237.

[22] RAGANATO A， TIEDEMANN J. An analysis of encoder representations in transformer?based machine translation［C］// Proceedings of the 2018 EMNLP Workshop BlackboxNLP： Analyzing and Interpreting Neural Networks for NLP. Stroudsburg， PA： Association for Computational Linguistics， 2018： 287-297.

[23] EDUNOV S， OTT M， AULI M， et al. Classical structured prediction losses for sequence to sequence learning［C］// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies， Volume 1 （Long Papers）. Stroudsburg， PA： Association for Computational Linguistics， 2018： 355-364.

[24] SENNRICH R， HADDOW B， BIRCH A. Neural machine translation of rare words with subword units［C］// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics （Volume 1： Long Papers）. Stroudsburg， PA： Association for Computational Linguistics， 2015： 1715-1725.

[25] MANNING C D， SURDEANU M，BAUER J， et al. The Stanford CoreNLP natural language processing toolkit［C］// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics： System Demonstrations. Stroudsburg， PA： Association for Computational Linguistics， 2014：55-60.

[26] OTT M， EDUNOV S， BAEVSKI A， et al. FAIRSEQ： a fast， extensible toolkit for sequence modeling［C］// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies （Demonstrations）. Stroudsburg， PA： Association for Computational Linguistics， 2019： 48-53.

[27] STRUBELL E， VERGA P， ANDOR D， et al. Linguistically? informed self?attention for semantic role labeling［C］// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA： Association for Computational Linguistics， 2018： 5027-5038.

[28] CLARK K， LUONG M T， MANNING C D， et al. Semi?supervised sequence modeling with cross?view training［C］// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA： Association for Computational Linguistics， 2018： 1914-1925.

[29] WU F， FAN A， BAEVSKI A， et al. Pay less attention with lightweight and dynamic convolutions［EB/OL］. （2019-02-22）［2021-08-11］.https：//arxiv.org/pdf/1901.10430.pdf.

[30] XIA Y C， HE T Y， TAN X， et al. Tied Transformers： neural machine translation with shared encoder and decoder［C］// Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2019： 5466-5473.

[31] LU Y P， LI Z H， HE D， et al. Understanding and improving Transformer from a multi?particle dynamic system point of view［EB/OL］. （2019-06-06）［2021-08-11］.https：//arxiv.org/pdf/1906.02762.pdf.

[32] CHEN Y C， GAN Z， CHENG Y， et al. Distilling knowledge learned in BERT for text generation［C］// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： Association for Computational Linguistics， 2019： 7893-7905.

[33] ZHU J H， XIA Y C， WU L J， et al. Incorporating BERT into neural machine translation［EB/OL］. （2020-02-17）［2021-08-18］.https：//arxiv.org/pdf/2002.06823.pdf.

[34] TU Z P， LIU Y， SHI S M， et al. Learning to remember translation history with a continuous cache［J］. Transactions of the Association for Computational Linguistics， 2018， 6： 407-420.

[35] ZHANG J C， LUAN H B， SUN M S， et al. Improving the Transformer translation model with document?level context［C］// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA： Association for Computational Linguistics， 2018： 533-542.

[36] MSRUF S， MARTINS A F T， HAFFARI G. Selective attention for context?aware neural machine translation［C］// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies， Volume 1 （Long and Short Papers）. Stroudsburg， PA： Association for Computational Linguistics， 2019： 3092-3102.

[37] CAO Q， XIONG D Y. Encoding gated translation memory into neural machine translation［C］// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA： Association for Computational Linguistics， 2018： 3042-3047.

[38] KUANG S H ， XIONG D Y. Fusing recency into neural machine translation with an inter?sentence gate model［C］// Proceedings of the 27th International Conference on Computational Linguistics. Stroudsburg， PA： Association for Computational Linguistics， 2018： 607-617.

[39] STOJANOVSKI D， FRASER A. Coreference and coherence in neural machine translation： a study using oracle experiments［C］// Proceedings of the 3rd Conference on Machine Translation： Research Papers. Stroudsburg， PA： Association for Computational Linguistics， 2018： 49-60.

[40] VOITA E， SERDYUKOV P， SENNRICH R， et al. Context?aware neural machine translation learns anaphora resolution［C］// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics （Volume 1： Long Papers）. Stroudsburg， PA： Association for Computational Linguistics， 2018： 1264-1274.

Neural machine translation method based on source language syntax enhanced decoding

GONG Longchao1，2， GUO Junjun1，2*， YU Zhengtao1，2

（1，，650504，；2（），650504，）

Transformer， one of the best existing machine translation models， is based on the standard end?to?end structure and only relies on pairs of parallel sentences， which is believed to be able to learn knowledge in the corpus automatically. However， this modeling method lacks explicit guidance and cannot effectively mine deep language knowledge， especially in the low?resource environment with limited corpus size and quality， where the sentence encoding has no prior knowledge constraints， leading to the decline of translation quality. In order to alleviate the issues above， a neural machine translation model based on source language syntax enhanced decoding was proposed to explicitly use the source language syntax to guide the encoding， namely SSED （Source language Syntax Enhanced Decoding）. A syntax?aware mask mechanism based on the syntactic information of the source sentence was constructed at first， and an additional syntax?dependent representation was generated by guiding the encoding self?attention. Then the syntax?dependent representation was used as a supplement to the representation of the original sentence and the decoding process was integrated by attention mechanism， which jointly guided the generation of the target language， realizing the enhancement of the prior syntax. Experimental results on several standard IWSLT （International Conference on Spoken Language Translation） and WMT （Conference on Machine Translation） machine translation evaluation task test sets show that compared with the baseline model Transformer， the proposed method obtains a BLEU score improvement of 0.84 to 3.41 respectively， achieving the state?of?the?art results of the syntactic related research. The fusion of syntactic information and self?attention mechanism is effective， the use of source language syntax can guide the decoding process of the neural machine translation system and significantly improve the quality of translation.

Natural Language Processing (NLP); neural machine translation; syntactic information; Transformer; enhanced decoding; external knowledge incorporation

This work is partially supported by National Natural Science Foundation of China （61866020， 61732005）， Science and Technology Innovation 2030 — "New Generation of Artificial Intelligence" Major Project （2020AAA0107904）， Yunnan Applied Basic Research Program （2019FB082）.

GONG Longchao， born in 1997， M. S. candidate. His research interests include natural language processing， machine translation.

GUO Junjun， born in 1987， Ph. D.， associate professor. His research interests include machine learning， natural language processing， machine translation.

YU Zhengtao， born in 1970， Ph. D.， professor. His research interests include machine learning， natural language processing， machine translation， information retrieval.

1001-9081（2022）11-3386-09

10.11772/j.issn.1001-9081.2021111963

2021?11?19；

2021?11?25；

2021?12?06。

國家自然科學基金資助項目（61866020， 61732005）；科技創新2030—“新一代人工智能”重大項目（2020AAA0107904）；云南省應用基礎研究計劃項目（2019FB082）。

TP391.1

龔龍超（1997—），男，河南南陽人，碩士研究生，CCF會員，主要研究方向：自然語言處理、機器翻譯；郭軍軍（1987—），男，山西呂梁人，副教授，博士，CCF會員，主要研究方向：機器學習、自然語言處理、機器翻譯；余正濤（1970—），男，云南曲靖人，教授，博士，CCF高級會員，主要研究方向：機器學習、自然語言處理、機器翻譯、信息檢索。

基于源語言句法增強解碼的神經機器翻譯方法

0 引言

1 相關工作

2 SSED

2.1 模型整體結構

2.2 句法依賴關系的向量化

2.3 句法感知與多頭注意力的適配

2.4 句法感知與多層注意力的適配

3 實驗與結果分析

3.1 實驗設置

3.2 實驗結果

3.3 消融實驗

3.4 實例分析

4 結語

2.1　模型整體結構

2.2　句法依賴關系的向量化

2.3　句法感知與多頭注意力的適配

2.4　句法感知與多層注意力的適配

3.1　實驗設置

3.2　實驗結果

3.3　消融實驗

3.4　實例分析