統(tǒng)計機器翻譯和翻譯記憶的動態(tài)融合方法研究

2015-04-21 09:43:59宗成慶蘇克毅

中文信息學報 2015年2期

關鍵詞：記憶特征實驗

汪昆，宗成慶，蘇克毅

(1．中國科學院自動化研究所模式識別國家重點實驗室，北京100190；2．臺灣中央研究院資訊科學研究所，臺灣臺北)

統(tǒng)計機器翻譯和翻譯記憶的動態(tài)融合方法研究

汪昆1，宗成慶1，蘇克毅2

(1．中國科學院自動化研究所模式識別國家重點實驗室，北京100190；2．臺灣中央研究院資訊科學研究所，臺灣臺北)

在融合翻譯記憶和統(tǒng)計機器翻譯的整合式模型的基礎上，該文提出在解碼過程中進一步地動態(tài)加入翻譯記憶中新發(fā)現的短語對。它在機器翻譯解碼過程中，動態(tài)地加入翻譯記憶片段作為候選，并利用翻譯記憶的相關信息，指導基于短語的翻譯模型進行解碼。實驗結果表明該方法顯著提高了翻譯質量：與翻譯記憶系統(tǒng)相比，該方法提高了21.15個BLEU值，降低了21.47個TER值；與基于短語的翻譯系統(tǒng)相比，該方法提高了5.16個BLEU值，降低了4.05個TER值。

統(tǒng)計機器翻譯；基于短語的翻譯模型；翻譯記憶；模型融合；動態(tài)加入翻譯記憶短語對

1 引言

二十一世紀以來，統(tǒng)計機器翻譯(Statistical Machine Translation, SMT)發(fā)展十分迅速，涌現出了多種不同的統(tǒng)計機器翻譯模型，如基于短語的翻譯模型[1-2]，層次短語模型[3]和基于句法的翻譯模型[4-6]等。隨著翻譯質量的不斷提高和機器翻譯技術(尤其是基于短語的翻譯模型)的日趨成熟，統(tǒng)計機器翻譯正在向實用化和商業(yè)化不斷前進。但是由于目前機器翻譯的翻譯質量仍然與專業(yè)翻譯的水平相距甚遠，還無法滿足輔助翻譯的要求，因此機器翻譯在專業(yè)翻譯領域的應用還比較少。

在專業(yè)翻譯領域，翻譯人員一般更信任基于翻譯記憶(Translation Memory,TM)[7]的計算機輔助翻譯軟件(Computer-assisted Translation,CAT)；且更加傾向在翻譯記憶的參考譯文上(而不是機器翻譯的譯文)進行后編輯(Post-Editing)[8-9]。翻譯記憶系統(tǒng)的工作原理是：根據輸入內容在翻譯記憶庫中檢索與其最相似的句子，并將該句子的翻譯，作為參考翻譯提交給用戶進行后編輯。翻譯記憶系統(tǒng)的性能，與翻譯資料中含有重復內容的多少，有很大關系。翻譯資料中的重復內容越多，翻譯記憶系統(tǒng)的效果越明顯。

近年來，越來越多的研究人員開始研究如何結合機器翻譯和翻譯記憶，以求減少后編輯的工作量。賀一帆等人[8]提出了一種基于翻譯結果推薦的方式，將機器翻譯系統(tǒng)與翻譯記憶系統(tǒng)集成在一起。他們使用SVM分類器比較機器翻譯的輸出與TM系統(tǒng)的輸出，然后將SVM認為較好的結果，推薦給后編輯人員，從而提高工作效率。此外，也有一些研究人員嘗試利用TM系統(tǒng)的結果，將輸入句子與TM系統(tǒng)給出的最相似句子進行匹配。這種做法先固定匹配部分(matched segments)的翻譯，然后SMT系統(tǒng)僅翻譯不匹配部分，從而提高翻譯質量[10-14]。其中以Phillip Koehn等人提出的XML標記法的效果最好[9]。但是這些方法都是采用管道式的多步法，因此匹配部分翻譯的挑選錯誤無法糾正；并且它們都是在句子級別決定是否采用TM系統(tǒng)的匹配部分，完全不考慮不同匹配部分的翻譯質量。更為嚴重的是：對于匹配部分的翻譯，它們完全沒有考慮SMT的概率信息。

為了改進上述缺點，我們提出了一種整合式的模型[9]，它在SMT解碼過程中融入TM系統(tǒng)的相關信息。但是在此模型中，它并不考慮在TM新發(fā)現的短語對。因此本文提出在解碼過程中進一步地動態(tài)加入TM新發(fā)現的短語對。實驗表明，在動態(tài)加入TM新發(fā)現的短語對后，該整合式模型有效地改善了SMT系統(tǒng)和TM系統(tǒng)的翻譯質量，并且顯著地超過了前人的方法。

2 問題的數學描述

融入翻譯記憶相關信息以后，翻譯問題可以重新定義為：

(1)

(2)

(3)

這就是融合翻譯記憶的整合式模型。式(3)中，Mk表示目標語言端的匹配狀態(tài)，Lk表示源語言端的鏈接狀態(tài)，我們將在第3節(jié)介紹這些特征。P(Mk|Lk,z)是翻譯記憶的相關信息，具體情況將在第4節(jié)介紹。

此外，我們將翻譯記憶源語言句子tm_s與源語言句子s之間的模糊匹配系數tm_f平均分配為10個相似度區(qū)間：如 [0.9, 1.0)、[0.8, 0.9)、[0.7, 0.8)等。我們用z來表示不同的相似度區(qū)間。模糊匹配系數的計算公式見式(4)。

(4)

其中Levenshtein(s,tm_s)表示s和tm_s之間的編輯距離[15]，|s|和|tm_s|分別表示s和tm_s的元素數目。模糊匹配系數介于0到1之間。模糊匹配系數越高，表示兩個句子之間的相似程度越高。

3 翻譯記憶的相關特征

3.1 目標語言端的特征

目標語言端的匹配狀態(tài)Mk，包含了“目標短語候選內容匹配狀態(tài)”(TCM)，“翻譯記憶的最長候選指示特征”(LTC)，以及“目標短語相鄰候選相對位置匹配特征”(CPM)。各個特征的詳細情況如下。

圖1 翻譯記憶樣例

? 目標短語候選內容匹配狀態(tài)TCM

? 翻譯記憶的最長候選指示特征LTC

? 目標短語相鄰候選相對位置匹配特征CPM

在計算機網絡中，存在著大量的不安全因素，包括自然因素、人為因素以及偶發(fā)因素，其中人為因素對計算機網絡安全的影響最大。許多不法之徒會利用計算機網絡漏洞，盜用計算機系統(tǒng)資源，非法獲取數據，垃圾郵件、間諜郵件等都在侵犯著計算機網絡，計算機網絡的不安全因素主要有以下幾方面。

3.2 源語言端的特征

源語言端的鏈接狀態(tài)Lk，包含了“源語言短語內容匹配狀態(tài)特征”(SCM)、“源語言短語鄰居鏈接數量特征”(NLN)、“源語言短語長度特征”(SPL)、“句尾標點符號指示特征”(SEP)以及“翻譯記憶的翻譯候選集合特征”(CSS)。各個特征的詳細情況如下。

? 源語言短語內容匹配狀態(tài)特征SCM

? 源語言短語鄰居鏈接數量特征NLN

? 源語言短語長度特征SPL

? 句尾標點符號指示特征SEP

經過統(tǒng)計發(fā)現，句尾標點符號單獨作為一個源語言短語時，它相應的SCMk和TCMk都是Same。因此，當源語言短語是句尾標點符號時，這兩個特征(SCMk和TCMk)是完全相關的。此外，由于句尾標點符號的右邊是句尾標記，NLNk中的x肯定是1或者2。所以，對其他短語而言，如果不區(qū)分這種情況，將會帶來相當大的系統(tǒng)化偏差(SystematicBias)。因此，為了區(qū)分句尾標點符號與其他的源語言短語，我們定義了句尾標點符號指示特征SEP(Yes或者No)。

? 翻譯記憶的翻譯候選集合特征CSS

4 融合翻譯記憶的整合式翻譯模型

為了在基于短語的翻譯模型中融入翻譯記憶相關信息，我們提出了融合翻譯記憶的整合式翻譯模型(即式(3))。在解碼過程中，對于每一個翻譯假設(Hypothesis)，我們不僅要計算原來短語翻譯模型的得分(式(3)中的第一項)，還要計算其對應的翻譯記憶得分(式(3)中的第二項)。對于翻譯記憶相關信息P(Mk|Lk,z)，我們在源語言端和目標語言端分別引入上一節(jié)介紹的特征以后，P(Mk|Lk,z)可以簡化為：

P(Mk|Lk,z)

?P([TCM，LTC，CPM]k|[SCM，NLN，SPL，SEP]k,z)≈

(5)

本文采用三個加權因子來平衡式(5)中的三項。對于存在多個目標候選的情況，整合式模型會選擇其中得分最高的進行解碼。

5 實驗與分析

5.1 實驗設置我們使用一個計算機領域的漢-英翻譯記憶庫進行實驗。這個翻譯記憶庫包含26.7萬漢英平行句對。我們從記憶庫中隨機抽取一部分作為開發(fā)集和測試集。其余部分隨機平均分為兩部分，一部分作為機器翻譯模型的訓練集，另外一部分作為翻譯記憶系統(tǒng)的記憶庫。對于所有漢語句子，我們使用Urheen詞法分析系統(tǒng)*http://www.openpr.org.cn/index.php/NLP-Toolkit-For-Natural-Language-Processing/進行分詞。訓練集、開發(fā)集和測試集的統(tǒng)計情況如表1所示。同時，我們根據翻譯記憶系統(tǒng)給出的模糊匹配系數將開發(fā)集和測試集分為多個模糊匹配區(qū)間，測試集的詳細統(tǒng)計情況如表2所示。

表1 實驗數據統(tǒng)計

表2 測試集數據統(tǒng)計

本文使用GIZA++訓練雙語詞對齊，并利用啟發(fā)式規(guī)則grow-diag-final-and得到對稱化的詞對齊；利用SRILM工具包[16]在SMT目標語言端的訓練語料上，使用修正的Kneser-Ney平滑方法[17]訓練一個五元語言模型；使用最小錯誤率參數訓練方法[18]進行參數尋優(yōu)；使用開源解碼器Moses[19]進行短語翻譯模型的解碼；整合式模型也是在Moses解碼器的基礎上進行了相應的修改。短語長度限制為7，解碼器的柱寬設為100。翻譯記憶系統(tǒng)使用模糊匹配系數作為相似度度量進行檢索。

在本文的實驗中，我們使用大小寫不敏感的BLEU[20]和翻譯錯誤率TER[21]作為譯文評價標準，并采用自舉重采樣(Bootstrap Re-Sampling)方法[22]檢測兩個翻譯系統(tǒng)之間的統(tǒng)計顯著性差異。

5.2 交叉翻譯生成訓練樣本

整合式模型中的所有特征都是在短語上進行抽取的。然而SMT的訓練語料僅僅是雙語對齊的句子對，并不包含每個句子的短語切分。因此要估計整合式模型的參數，必須先生成“雙語短語切分句對”的訓練樣本。為了更加真實地模擬解碼過程中的短語切分，本文采用交叉翻譯的方式生成整合式模型的訓練樣本：隨機將SMT的訓練語料分成20份，使用其中19份訓練一個SMT模型，對剩余的那份進行強迫解碼[23]，即可得到那份語料的雙語短語切分句對。如此重復20次即可得到所有訓練樣本，進而估計整合式模型的參數。

5.3 動態(tài)添加短語對

因此，在解碼過程中我們會動態(tài)加入那些短語表不能覆蓋的匹配翻譯對。為了區(qū)分這些短語對和短語表中原有的短語對，我們?yōu)檫@些短語設置四個不同的翻譯模型權重，并將它們的雙向短語翻譯概率和雙向詞匯化翻譯概率都設為1.0。在解碼過程中，這些短語對和原始短語表中的短語對都會作為候選加入到解碼器中，只是它們的翻譯模型的權重不一樣。

5.4 實驗結果與分析

為了與前人的工作進行對比，我們重現了Phi-lippKoehn等人提出的XML標記法(XML)。表3和表4分別給出了翻譯記憶系統(tǒng)(TM)、基于短語的翻譯系統(tǒng)(SMT)、XML標記法以及整合式模型在測試集上的實驗結果(BLEU和TER)。其中，“*”表示統(tǒng)計顯著地(p< 0.05)優(yōu)于TM和SMT系統(tǒng)；“#”表示統(tǒng)計顯著地(p< 0.05)優(yōu)于XML標記法；粗體字表示該區(qū)間的最優(yōu)翻譯結果。

表3 各種方法的翻譯結果(BLEU)

表4 各種方法的翻譯結果(TER)

續(xù)表

從表3和表4的實驗結果可以看出：當模糊匹配系數大于0.7時，XML標記法提高了翻譯結果的BLEU值，這與文獻[11]的結論基本一致。但是，當模糊匹配系數大于0.5時，整合式模型統(tǒng)計顯著地優(yōu)于TM系統(tǒng)和SMT系統(tǒng)。只是在模糊匹配區(qū)間[0.9, 1.0)，從BLEU值來看，整合式模型統(tǒng)計顯著地優(yōu)于TM系統(tǒng)，但是從TER值來看，TM系統(tǒng)優(yōu)于整合式模型。這說明BLEU值和TER值的評價結果并不完全一致，而我們是以BLEU值作為優(yōu)化目標進行參數優(yōu)化的，假如以TER值作為優(yōu)化目標，整合式模型的TER值會更理想一些。

從整體上看(表3和表4的(0.0, 1.0)區(qū)間)，整合式模型統(tǒng)計顯著地優(yōu)于TM系統(tǒng)、SMT系統(tǒng)和XML標記法。與TM系統(tǒng)相比，整合式模型提高了21.15個BLEU值，降低了22.47個TER值；與SMT系統(tǒng)相比，整合式模型提高了5.16個BLEU值，降低了4.05個TER值。這說明本文提出的整合式模型顯著地改善了翻譯質量，也可以進一步減少后編輯的工作量。

本文提出在整合式模型中動態(tài)添加從翻譯記憶中抽取的短語對。為了研究翻譯記憶相關信息和動態(tài)短語對的作用，我們做了兩組對比實驗。如表5所示，SMT中“-”表示原來的短語翻譯模型；SMT中的“+”表示加入動態(tài)短語對的短語翻譯模型；Ours中的“-”表示僅利用翻譯記憶相關信息進行解碼，并不加入動態(tài)短語對；Ours中的“+”表示，在解碼過程中不僅利用翻譯記憶相關信息進行解碼，還加入動態(tài)短語對?！?”表示動態(tài)短語對顯著地(p < 0.05)改善了翻譯質量。

表5 動態(tài)短語對對翻譯質量的影響(BLEU)

續(xù)表

從表5中的實驗結果可以看出： (1)當模糊匹配系數大于0.5時，動態(tài)添加短語對顯著地改善了SMT的翻譯質量(“SMT+” vs. “SMT-”)，這說明了動態(tài)添加短語對的必要性；(2)翻譯記憶相關信息顯著地改善了SMT的翻譯質量(“Ours-” vs. “SMT-”)，這說明了翻譯記憶信息的有效性；(3)當模糊匹配系數大于0.5時，在同時動態(tài)添加短語的情況下，翻譯記憶相關信息顯著地改善了SMT翻譯質量(“Ours+” vs. “SMT+”)，這說明了翻譯記憶相關信息和動態(tài)添加短語對可以同時改善翻譯質量，二者的作用并不重疊(“Ours+” vs.“Ours-”)。以上實驗結果同時也說明了傳統(tǒng)短語翻譯模型的局限性：即使短語表中存在能夠包含可生成更好翻譯結果的短語對，短語模型選到它們的比例也有限。

為了進一步驗證本文提出的整合式模型，我們將短語翻譯模型和翻譯記憶系統(tǒng)的兩個訓練集互換，表6給出了各種方法在互換訓練集以后的翻譯結果。其中，“*”表示統(tǒng)計顯著地(p<0.05)優(yōu)于TM和SMT系統(tǒng)；“#”表示統(tǒng)計顯著地(p<0.05)優(yōu)于XML標記法；粗體字表示該區(qū)間的最優(yōu)翻譯結果。從實驗結果可以看出，互換訓練集以后，整合式模型仍然取得了最好的翻譯結果，而且與表3的實驗結果一致。這更進一步說明了整合式模型的有效性和魯棒性。

表6 互換訓練集后的翻譯結果(BLEU)

續(xù)表

6 結束語

在融合翻譯記憶和統(tǒng)計機器翻譯的整合式模型上，本文提出在解碼過程中進一步地動態(tài)加入翻譯記憶中新發(fā)現的短語對。它在機器翻譯解碼過程中動態(tài)地加入翻譯記憶片段作為候選，并利用翻譯記憶的相關信息指導基于短語的翻譯模型進行解碼。本文的實驗結果表明該方法顯著地提高了翻譯質量，統(tǒng)計顯著地優(yōu)于翻譯記憶系統(tǒng)和基于短語的翻譯模型。此外，該整合式模型還顯著地優(yōu)于前人提出的XML標記法。

[1] Franz Josef Och, Hermann Ney. Discriminative training and maximum entropy models for statistical machine translation[C]//Proceedings of ACL’2002: 295-302.

[2] Philipp Koehn, Franz Josef Och, Daniel Marcu. Statistical phrase-based translation[C]//Proceedings of NAACL’2003: 48-54.

[3] David Chiang. A hierarchical phrase-based model for statistical machine translation[C]//Proceedings of ACL’2005: 263-270.

[4] Kenji Yamada, Kevin Knight. A syntax-based statistical translation model[C]//Proceedings of ACL’2001: 523-530.

[5] Yang Liu, Qun Liu, Shouxun Lin. Tree-to-string alignment template for statistical machine translation[C]//Proceedings of ACL’2006: 609-616.

[6] Haitao Mi, Liang Huang, Qun Liu. Forest based translation[C]//Proceedings of ACL’2008: 192-199.

[7] Martin Kay. The proper place of men and machines in language translation [J]. Reprinted in Machine Translation， 1980： 12:3-23.

[8] Yifan He, Yanjun Ma, Josef van Genabith et al. Bridging SMT and TM with translation recommendation[C]//Proceedings of ACL’2010: 622-630.

[9] Kun Wang, Chengqing Zong, Keh-Yih Su. Integrating translation memory into phrase-based machine translation during decoding[C]//Proceedings of ACL’2013： 11-21.

[10] James Smith, Stephen Clark. EBMT for SMT: a new EBMT-SMT hybrid[C]//Proceedings of EBMT ’2009: 3-10.

[11] Philipp Koehn, Jean Senellart. Convergence of translation memory and statistical machine translation [C]//Proceedings of the AMTA Workshop’2010 on MT Research and the Translation Industry， 2010: 21-31.

[12] Ventsislav Zhechev, Josef van Genabith. Seeding statistical machine translation with translation memory output through tree-based structural alignment[C]//Proceedings of the 4th Workshop on Syntax and Structure in Statistical Translation， 2010: 43-51.

[13] Yanjun Ma, Yifan He, Andy Way et al. Consistent translation using discriminative learning: a translation memory-inspired approach[C]//Proceedings of ACL’2011: 1239-1248.

[14] Yifan He, Yanjun Ma, Andy Way et al. Rich Linguistic Features for Translation Memory-Inspired Consistent Translation[C]//Proceedings of MT Summit’2011: 456-463.

[15] Vladimir Iosifovich Levenshtein. Binary codes capable of correcting deletions, insertions, and reversals [J]. Soviet Physics Doklady, 1966，10 (8): 707-710.

[16] Andreas Stolcke. SRILM-an extensible language modeling toolkit[C]//Proceedings of the International Conference on Spoken Language Processing 2002: 311-318.

[17] Stanley F. Chen, Joshua Goodman. An empirical study of smoothing techniques for language modeling [R].1998.

[18] Franz Josef Och. Minimum error rate training in statistical machine translation[C]//Proceedings of ACL’2003: 160-167.

[19] Philipp Koehn, Hieu Hoang, Alexandra Birch, et al. Moses: Open source toolkit for statistical machine translation[C]//Proceedings of ACL’2007 Demo and Poster Sessions,2007: 177-180.

[20] Kishore Papineni, Salim Roukos, Todd Ward et al. BLEU: a method for automatic evaluation of machine translation[C]//Proceedings of ACL’2002: 311-318.

[21] Matthew Snover, Bonnie Dorr, Richard Schwartz, et al. A study of translation edit rate with targeted human annotation[C]//Proceedings of the AMTA’2006: 223-231.

[22] Philipp Koehn. Statistical significance tests for machine translation evaluation[C]//Proceedings of EMNLP’2004: 388-395.

[23] Andreas Zollmann, Ashish Venugopal, Franz Josef Och, Jay Ponte. A systematic comparison of phrase-based, hierarchical and syntax-augmented statistical MT[C]//Proceedings of Coling’2008： 1145-1152.

Dynamic Combination of Statistical Machine Translation and Translation Memory

WANG Kun1, ZONG Chengqing1, SU Keh-Yih2

(1. National Lab of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China; 2. Institute of Information Science, Academia Sinica, Taibei, Taiwan, China)

Under a framework of combining translation memory (TM) and statistical machine translation (SMT), this paper proposes to further dynamically add new phrase-pairs found in TM. During decoding, the integrated model adds those TM matched segments into the SMT phrase table as candidates dynamically, and incorporates corresponding TM information for each hypothesis to guide SMT decoding. Our experimental results show that the proposed approach improves translation quality significantly: compared with TM system, the integrated model achieves 21.15 BLEU points improvements and 21.47 TER points reduction; compared with SMT system, the integrated model achieves 5.16 BLEU points improvements and 4.05 TER points reduction.

statistical machine translation; phrase-based machine translation, translation memory; model integration; dynamically adding phrase-pairs

汪昆(1986—)，博士，主要研究領域為自然語言處理與機器翻譯。E?mail：kunwang@nlpr．ia．ac．cn宗成慶(1963—)，研究員，主要研究領域為機器翻譯、口語信息處理和文本分類等。E?mail：cqzong@nlpr．ia．ac．cn蘇克毅(1955—)，研究員，主要研究領域為統(tǒng)計機器翻譯、機器閱讀和自然語言理解。E?mail：kysu@iis．sinica．edu．tw

1003-0077(2015)02-0087-08

2013-03-11 定稿日期： 2013-07-01

國家自然科學基金(61402478)

TP391