李茂西,徐 凡,王明文
(江西師范大學 計算機信息工程學院,江西 南昌 330022)
機器譯文自動評價中基于IHMM的近義詞匹配方法研究
李茂西,徐 凡,王明文
(江西師范大學 計算機信息工程學院,江西 南昌 330022)
機器譯文的自動評價推動著機器翻譯技術的快速發展與應用,在其研究中的一個關鍵問題是如何自動的識別并匹配機器譯文與人工參考譯文之間的近義詞。該文探索以源語言句子作為橋梁,利用間接隱馬爾可夫模型(IHMM)來對齊機器譯文與人工參考譯文,匹配兩者之間的近義詞,提高自動評價方法與人工評價方法的相關性。在LDC2006T04語料和WMT 數據集上的實驗結果表明,該方法與人工評價的系統級別相關性和句子級別相關性不僅一致的優于在機器翻譯中廣泛使用的BLEU、NIST和TER方法,而且優于使用詞根信息和同義詞典進行近義詞匹配的METEOR方法。
機器譯文自動評價; 近義詞匹配; 間接隱馬爾可夫模型; 單語句子詞對齊; 相關性
機器譯文自動評價方法是機器翻譯研究的直接推動力,它極大地促進了機器翻譯系統的研制和開發[1-3]。對于使用機器翻譯系統的用戶,譯文質量的自動評價結果方便他們選擇更好的翻譯系統。對于機器翻譯系統的研發者,譯文質量的自動評價結果能夠使他們及時地了解系統性能,以便開發更好的翻譯系統。例如,對于統計機器翻譯系統,開發者需要掌握調整某些特征權重后系統的性能是否得到優化;而對于基于規則的翻譯系統,為了避免“蹺蹺板”現象,在調整部分規則后,開發者需要知道翻譯系統總體性能是否改善[4-5]。研究結果表明,利用一個與人工評價相關性高的譯文質量自動評價方法指導統計翻譯系統的特征權重調整,能夠使研究者開發出一個性能更優的翻譯系統[6]。
目前,機器譯文自動評價方法主要是通過對比機器翻譯系統的輸出譯文和人工參考譯文來定量計算譯文的質量,評價的出發點是“機器譯文越接近于參考譯文,譯文質量越高”[1]。在機器譯文和參考譯文比較時,一些譯文評價方法,如BLEU[1],NIST[2],TER[7],CDER[8]等,使用詞形信息進行機器譯文中的詞和參考譯文中的詞之間的匹配,即詞形完全相同的兩個詞才認為表達同一個含義。而在自然語言處理中由于語言表達的多樣性,同義詞情況很普遍。僅僅使用詞形信息并不能準確的匹配機器譯文和人工參考譯文之間的近義詞。例如,機器譯文“heboughtalaptop”與參考譯文“hebuysacomputer”對比時,使用詞形信息“laptop”與“computer”這兩個詞形完全不同的近義詞就不能正確的得到匹配。
針對使用詞形信息近義詞不能準確匹配的情況,研究者們提出了許多解決方法。劉洋等考慮在詞形匹配后機器譯文和參考譯文之間未匹配的詞語中可能還包含被忽略的近義詞對,提出了一種自動搜索模糊匹配詞對的方法,該方法使用0與1之間的實數值來刻畫詞語之間的相似度,這個相似度可以通過詞形相似度和結構相似度來計算[9],由于結構相似度的可靠性不強,該方法對于同根詞和詞形相似的情況有較好的效果,而對于詞形變化較大的近義詞則很難準確匹配。Satanjeev Banerjee 和 Alon Lavie等提出了自動評價尺度METEOR[3],METEOR首先匹配詞形完全相同的詞語,然后在未匹配的詞語中分別使用詞根信息和近義詞信息來進行更準確的詞語匹配,提高自動評價方法與人工評價的相關性。對于目標語言是歐洲語言的情況,詞語的詞根信息可以通過詞干化工具Snowball[10]抽取;近義詞則通過WordNet詞典通過交叉計算獲取。Yee Seng Chan 和 Hwee Tou Ng提出了自動評價尺度MAXSIM,MAXSIM在詞根信息和同義詞信息的基礎上,加入了詞性和依存句法的知識來計算機器譯文和參考譯文的最大相似度[11]。
由于前人在進行近義詞匹配時使用的詞根信息和近義詞信息依賴于額外的語言學資源,并且僅適用于歐洲語言,缺乏普遍性。因此,我們嘗試使用間接隱馬爾可夫模型(Indirect Hidden Markov Model, IHMM)來進行詞語匹配,在不使用額外語言學資源的情況下,提高近義詞匹配的精度。另外,間接隱馬爾可夫模型建模時完全與語言種類無關,因此,它能適用于任何語言種類中的近義詞匹配。
2.1 基于IHMM的近義詞匹配
間接隱馬爾可夫模型是隱馬爾可夫模型在隱含狀態轉移概率和觀測狀態發射概率可以直接計算時求取隱含狀態的方法,它已成功的應用于機器翻譯系統融合中,用來對齊不同翻譯系統輸出的翻譯假設構建混淆網絡[12]。

(1)

(2)
在計算人工參考譯文中的詞和機器譯文中對應詞的相似度時,對于詞形相同或變化較小的詞語,它們之間的相似度主要通過詞形相似度進行刻畫;對于詞形變化較大的近義詞,它們之間的相似度主要通過語義相似度進行計算。利用待翻譯的源語言句子作為橋梁,將雙向詞匯化概率在源語言句子上進行逐詞累加求和獲取語義相似度,如式(3)所示。
(3)

使用動態規劃算法,將計算最大概率的過程分解為遞推,將求取最優詞語之間映射關系分解為回溯,即可建立機器譯文和人工參考譯文中詞語語義之間的映射關系。圖1以機器譯文“heboughtalaptop”和人工參考譯文“hebuysacomputer”為例,介紹了詞語匹配的過程。在建立詞語之間的映射關系之前,我們在兩個譯文的前面均插入了一個空詞節點(ε)作為對齊基準,圖1中的每一個狀態(人工參考譯文中的詞)均可以映射到觀察序列中的狀態(機器譯文中的詞),狀態轉移過程以虛箭頭標出,實箭頭表示最終的人工參考譯文生成機器譯文的最大概率的一條狀態轉移路徑。通過以上過程,可以建立人工參考譯文中的詞和機器譯文中的詞之間的映射關系,發現它們之間的近義詞匹配,例如,近義詞“computer”和“laptop”以及“buys”和“bought”均可以準確的進行匹配。

圖1 一個基于IHMM的近義詞匹配示例
進一步分析,我們發現使用IHMM的最大優勢在于,建模時不僅考慮詞語匹配過程中位置的變化,而且利用了待翻譯的源語言句子和雙向詞匯化翻譯概率。對于詞形變化較大的近義詞,后者更能發現機器譯文和人工參考譯文之間的近義詞,提高匹配的精度。
2.2 利用詞語匹配信息進行機器譯文自動評價
建立了機器譯文和人工參考譯文中詞語之間的匹配關系后,機器譯文中詞語的一元文法匹配準確率P和召回率R可以用作描述機器譯文的翻譯質量。為了均衡一元文法匹配的準確率和召回率,我們使用了與METROE方法相同的計算公式對機器譯文進行自動評價,即使用F測度,并考慮語塊連貫性懲罰因子Penalty來對機器譯文進行打分,如式(4)和式(5)所示。
(4)
(5)
機器譯文的最終評價得分通過式(6)計算。
(6)
盡管在計算最終譯文質量得分時我們采用了與METEOR方法一致的計算公式,本文方法與METEOR方法的不同在于,我們完全使用IHMM匹配機器譯文和人工參考譯文中的詞語,因此,它是一步完成的、算法與目標語言種類無關,并且不需要額外的語言學資源;而METEOR方法基本版本僅使用詞形信息進行匹配,使用詞根信息和同義詞典版本的METEOR方法是分步進行匹配的,同根詞信息采用與目標語言相對應的Snowball 詞干化工具提取,同義詞則利用WordNet詞典進行匹配,而Snowball 詞干化工具和WordNet詞典僅適用于歐洲語言,不能應用于亞洲語言,因此,它的處理依賴于具體語言種類。
3.1 實驗設置
為了測試本文提出方法的性能,我們分別在公開發布的大規模語料LDC2006T04和WMT’10任務上進行了實驗。在實驗時,我們將本文方法在評價譯文質量時的性能與譯文自動評價尺度METEOR、BLEU、NIST和TER進行了比較,包括系統級別相關性和句子級別相關性(或一致性)。
自動評價結果與人工評價結果的系統級別相關性通過斯皮爾曼等級相關系數(Spearman’s rank correlation coefficient)進行計算,如式(7)所示。
(7)
其中n是待評價的翻譯系統個數,di是第i個翻譯系統人工排名和自動評價尺度給出的排名之間的差值。ρ的值介于-1和1之間,它的絕對值越大,相關性越大。
由于機器譯文句子級別人工評分包括流利度/忠實度的方法和基于排名的方法,因此,自動評價結果與人工評價結果的句子級別相關性的計算方法也有兩種。對于人工給出的譯文忠實度/流利度分值,我們把忠實度和流利度平均后的分值作為該譯文的人工給出的分值,句子級別相關性通過皮爾遜相關系數計算,如式(8)所示。
(8)
對于基于排名的方法,句子級別一致性使用肯德爾等級相關系數(Kendall’s tau rank correlation)計算,如式(9)所示。
(9)
肯德爾等級相關系數把譯文質量之間的人工排名轉換成兩兩比較,通過匯總對比人工和自動評價方法在兩個譯文質量優劣判斷上的一致性計算句子級別一致性。
3.2 對比的機器譯文自動評價尺度
BLEU: BLEU評價尺度建立的出發點是機器翻譯越接近于專業的人工翻譯,翻譯的質量越高。它通過計算機器翻譯的n元文法在參考譯文中的準確率的幾何平均,乘以相應的簡短懲罰系數得到式(10)。

(10)
其中pn是n元文法的準確率,n的取值一般為4,即計算至四元文法。
NIST: NIST評價尺度在BLEU評價尺度的基礎上,考慮了信息增益。它通過計算機器翻譯的n元文法在參考譯文中的準確率的算術平均,乘以相應的信息權重得到。不同于BLEU評價尺度計算至四元文法,NIST評價尺度一般計算至五元文法。本文實驗數據中的BLEU和NIST值都是通過“mteval-v13a.pl*ftp://jaguar.ncsl.nist.gov/mt/resources/mteval-v13a.pl” 腳本程序計算。
METEOR: METEOR計算機器翻譯的一元文法的準確率和召回率,用準確率和召回率的幾何加權平均值乘以相應的語塊懲罰系數作為系統的最終打分。在一元文法匹配時,它使用了詞根和同義詞等信息來增加匹配準確率。在計算時,它進行了幾個階段的匹配: 詞形匹配、 詞根匹配、同義詞匹配。每一個階段僅考慮上一個階段沒有匹配的一元文法。在實驗中,本文使用該自動評價尺度的最新工具包METEOR V1.2*http://www.cs.cmu.edu/~alavie/METEOR/index.html#Download。
3.3 實驗結果
3.3.1 在標準測試語料LDC2006T04上的實驗結果
為了促進機器譯文自動評價方法的發展,旨在比較不同譯文自動評價方法效果時有一個共同的語料基礎,LDC發布了LDC2006T04語料,它包含TIDES′2003機器翻譯評測中英任務的測試集,六個機器翻譯系統的輸出譯文以及譯文的人工流利度/忠實度評分結果。該測試集包含100篇中文文檔,共919個句子,每個中文句子有四個英文參考譯文。六個參與的機器翻譯系統編號分別為E09,E11,E12,E14,E15和E22。
表1和表2分別給出了在LDC2006T04語料上不同的譯文評價尺度的評價結果與人工評價結果的相關性。在系統級別相關性上,利用IHMM模型進行同義詞匹配的方法(簡寫為IHMM)比使用詞根信息和同義詞典的評價尺度METEOR(exact+stem+synonym)高1%,比僅僅使用詞形信息進行精確匹配的自動評價尺度METEOR(exact),BLEU,NIST以及TER至少高2%,在顯著性水平p=0.05時該相關性的提高是統計顯著的。這表示利用IHMM模型進行同義詞匹配的方法可以減少1-2次系統的錯誤排序個數。在句子級別上,我們分別以每一個機器翻譯系統為單位,測試了不同自動評價尺度的性能。實驗結果顯示對E09、E11、E12、E14和E15系統結果的評價上,利用IHMM模型進行同義詞匹配的方法平均優于METEOR(exact+stem+synonym)。盡管在對E22系統結果的評價中利用IHMM模型進行同義詞匹配的方法低于METEOR(exact+stem+synonym) 1%,但是總體上,利用IHMM模型進行同義詞匹配的方法比METEOR(exact+stem+synonym) 高 1%,并且統計顯著的優于使用詞形進行精確匹配的自動評價尺度METEOR(exact),BLEU,NIST以及TER
(p=0.01)。這證實了利用IHMM模型進行同義詞匹配的方法能提高譯文中詞語匹配的準確度,將它的匹配結果應用于譯文自動評價中能夠提高評價結果與人工評價的相關性。
表1 不同的譯文評價尺度在LDC2006T04語料上的系統級別相關性

IHMMMETEOR(exact+stem+synonym)METEOR(exact)BLEUNISTTER0.910.900.890.870.84-0.67

表2 不同的譯文評價尺度在LDC2006T04語料上的句子級別相關性
3.3.2 在WMT’10翻譯成英語任務上的實驗結果
在WMT’10評測的機器輸出譯文上,我們測試了對目標語言是英語的任務的評價中,不同譯文自動評價尺度與人工評價的相關性。WMT’10評測的翻譯成英語任務分為捷克語-英語(CZ-EN)、法語-英語(FR-EN)、德語-英語(DE-EN)和西班牙語-英語(ES-EN)等四個翻譯方向。對于每個翻譯方向的多個系統輸出譯文中,評測方人工抽取了部分機器譯文進行排名評價。在每個方向的翻譯任務中參與的系統個數和人工排名評價中兩兩比較的次數如表3統計所示。
表3 WMT’10翻譯成英文任務上參與的系統個數與譯文兩兩比較的次數
表4和表5分別給出了在WMT’10翻譯成英文任務上不同的譯文自動評價尺度的評價結果與人工評價結果的系統級別相關性和句子級別一致性。在系統級別相關性比較中,利用IHMM模型進行同義詞匹配的方法與使用詞根信息和同義詞典的評價尺度METEOR(exact+stem+synonym)的平均系統級別相關性相同,均是0.90;這也與僅僅使用詞形信息進行精確匹配的TER尺度相同。這表明這三種評價尺度都能較好的對參與的翻譯系統進行排名。值得注意的是在WMT’10 Metrics task中最好的系統“i-letter-BLEU”的系統級別的相關性是0.94,比利用IHMM模型進行同義詞匹配的方法高出4%,因此,它還有進一步提升的空間。
由于WMT’10評測提供的是基于排名的人工評價結果,因此,肯德爾等級相關系數被用來測量句子級別一致性。在句子級別一致性的比較中,在CZ-EN翻譯任務上利用IHMM模型進行同義詞匹配的方法比METEOR(exact+stem+synonym)的一致性高3%,在平均句子級別一致性上利用IHMM模型的方法比METEOR(exact+stem+synonym)高1%,統計顯著的優于使用詞形進行精確匹配的自動評價尺度METEOR(exact),BLEU,NIST以及TER (p=0.01)。這同樣表明利用IHMM模型進行同義詞匹配的方法能提高同義詞匹配的準確度。
本文提出借助源語言句子作為橋梁,在機器譯文自動評價中利用IHMM提高同義詞匹配精度的方法。該方法不僅不需要額外的語言學資源,例如,詞根信息或同義詞典等。而且實驗結果表明它在譯文自動評價中的性能略高于使用詞根信息和同義詞典的自動評價尺度。
該方法的不足之處在于它需要雙語平行語料來訓練詞匯化翻譯概率。幸運的是,目前統計機器翻譯的研究中有大量公開發布的雙語平行語料可供使用。因此,該方法在實踐中也有一定的應用價值。
[1] Kishore Papineni, Salim Roukos, Todd Ward, et al. BLEU: a Method for Automatic Evaluation of Machine Translation[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, Philadelphia, Pennsylvania, 2002: 311-318.
[2] George Doddington. Automatic Evaluation of Machine Translation Quality Using N-gram Co-occurrence Statistics[C]//Proceedings of the second international conference on Human Language Technology Research (HLT'02), San Diego, California, CA, USA, 2002: 138-145.
[3] Satanjeev Banerjee, Alon Lavie. METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments[C]//Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, Ann Arbor, 2005: 65-72.
[4] 李茂西, 江愛文, 王明文. 基于ListMLE 排序學習方法的機器譯文自動評價研究[J]. 中文信息學報, 2013, 27(4): 22-29.
[5] 李良友, 貢正仙, 周國棟. 機器翻譯自動評價綜述[J]. 中文信息學報, 2014, 28 (3): 81-91.
[6] Chang Liu, Daniel Dahlmeier, Hwee Tou Ng. Better Evaluation Metrics Lead to Better Machine Translation[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, Edinburgh, Scotland, UK, 2011: 375-384.
[7] Matthew Snover, Bonnie Dorr, Richard Schwartz, et al. A Study of Translation Edit Rate with Targeted Human Annotation[C]//Proceedings of Association for Machine Translation in the Americas, 2006: 223-231.
[8] Gregor Leusch, Nicola Ueffing, Hermann Ney. CDER: Efficient MT Evaluation Using Block Movements[C]//Proceedings of the 11th Conference of the European Chapter of the ACL (EACL 2006), Trento, Italy, 2006: 241-248.
[9] 劉洋, 劉群, 林守勛. 機器翻譯評測中的模糊匹配[J]. 中文信息學報, 2005, 19 (3): 45-53.
[10] Robyn Schinke, Mark Greengrass, Alexander M Robertson et al. A stemming algorithm for Latin text databases[J]. Journal of Documentation, 1996, 52 (2): 172-187.
[11] Yee Seng Chan, Hwee Tou Ng. MAXSIM: A Maximum Similarity Metric for Machine Translation Evaluation[C]//Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics (ACL 2008), Columbus, Ohio, 2008: 55-62.
[12] Xiaodong He, Mei Yang, Jianfeng Gao, et al. Indirect-HMM-based Hypothesis Alignment for Combining Outputs from Machine Translation Systems[C]//Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing Honolulu, 2008: 98-107.
[13] Franz Josef Och, Hermann Ney. Discriminative Training and Maximum Entropy Models for Statistical Machine Translation[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, Philadelphia, Pennsylvania, 2001: 295-302.
Research on IHMM-Based Synonyms Matching for Automatic Evaluation of Machine Translation
LI Maoxi, XU Fan, WANG Mingwen
(School of Computer and Information Engineering, Jiangxi Normal University, Nanchang, Jiangxi 330022, China)
Automatic evaluation of machine translation promotes the rapid development and application of machine translation. And how to automatically identify and match the synonyms between the machine translation and human reference translation is a key issue. We take the source language sentence as a bridge, utilizes the indirect hidden Markov model to align the machine translation with reference translation, and matches the synonyms among them, to improve the correlation between automatic approaches and human judgment. Experimental results on LDC2006T04 corpus and WMT datasets show that the system-level correlation and the sentence-level correlation between the proposed approach and human judgment not only consistently outperform the widely used automatic metrics BLEU, NIST and TER, but also outperform the METEOR metrics that take use of word stem information and thesaurus.
automatic evaluation for machine translation; synonyms matching; indirect hidden Markov model; word alignment for monolingual sentences; correlation

李茂西(1977-),博士,副教授,主要研究領域為自然語言處理和機器翻譯。E-mail:mosesli@jxnu.edu.cn徐凡(1979-),博士,講師,主要研究領域為自然語言處理和篇章分析。E-mail:xufan@jxnu.edu.cn王明文(1964-),教授,博士生導師,主要研究領域為信息檢索、數據挖掘、機器學習。E-mail:mwwang@jxnu.edu.cn
1003-0077(2016)04-0117-07
2014-09-01 定稿日期: 2014-12-23
國家自然科學基金(61203313, 61462044, 61402208, 61272212)
TP391
A