徐 萍,葉 娜,吳 闖,張桂平
(沈陽航空航天大學 人機智能研究中心,遼寧 沈陽 110136)
機器翻譯(Machine Translation,MT)是指利用計算機將一種自然語言翻譯成另一種自然語言的方法,其研究旨在使計算機能夠替代人類實現高質量的全自動翻譯[1]。現有的自動機器翻譯產生的譯文質量并未達到可以直接應用的水平,翻譯系統產生正確譯文的過程離不開譯員的參與。于是,一些研究人員將研究重點由全自動機器翻譯轉向了計算機輔助翻譯(Computer Assisted Translation,CAT)[2],系統為譯員提供輔助譯文和輔助工具幫助譯員對譯文進行譯后編輯。
交互式機器翻譯是計算機輔助翻譯領域的一個重要研究課題,不僅提供了譯員和機器之間相互交流和學習的接口,還允許譯員在翻譯過程中指導目標語言的生成,減少譯員工作量,提升翻譯效率。使用較為廣泛的交互式機器翻譯方法[3-12]大多使用譯員確認的前綴作為唯一約束,譯員在系統給出的推薦譯文上直接選取正確的最長前綴并輸入字符作為新前綴反饋給系統指導解碼,搜索符合條件的譯文后綴,譯員與系統不斷交互,直至得到完全正確的譯文。圖1為一個完整的交互式機器翻譯實例。
圖1 基于前綴的交互式機器翻譯實訓
Source為譯員輸入的源語言,Reference為參考譯文,Iter-0是機器翻譯系統的推薦譯文,第一次迭代過程中(Iter-1)p為譯員確認正確的前綴信息,k為譯員與系統的交互內容,譯員使用鍵盤輸入字符“c”,系統根據前綴搜索出的新譯文后綴s,重復迭代交互過程,直到搜索到譯員滿意的譯文,翻譯結束。
與全自動機器翻譯和需要大量譯后編輯的計算機輔助翻譯相比,傳統的交互式機器翻譯通過在譯文上確認前綴的方式,直接參與并指導翻譯系統的解碼過程,但是這種方法仍有很多不足: 第一,傳統IMT方法通過逐字確認前綴的方式自左向右補全句子,一個短語需要解碼多次才能被翻譯正確;第二,翻譯正確的譯文后綴會隨著前綴的更改重新解碼,有時原本正確的譯文在增加了前綴約束后會被翻譯錯誤,需要譯員重新確認,影響交互效率;第三,限制了人機交互方式,譯員無法從其他方式給予更充分的指導;第四,一些研究人員對傳統交互方式進行擴展[13-16],允許譯員在譯文中選擇單語片段,但是從錯誤的譯文里識別正確的譯文片段十分困難,增加了譯員的認知負擔。
針對上述情況,本文提出一種基于雙語短語約束的交互式機器翻譯方法,從交互模式和解碼算法兩個方面對傳統交互式機器翻譯方法進行改進。在交互模式方面,加載短語表為源語言短語建立候選短語譯項表,允許譯員在譯前選擇短語的正確譯項,并對短語譯項表進行了多樣性處理,提高候選譯項的多樣性,根據譯員的翻譯認知過程設計交互界面;在解碼算法方面,將譯員選擇的雙語短語與前綴一同作為約束傳入解碼器中指導解碼,過濾短語的候選譯項,提高翻譯選項評價和過濾的準確性。本文在LDC議會記錄和LDC法律漢英平行語料上開展真實人工評測實驗,采用平均翻譯時間作為主要評測指標,實驗結果中時間分別縮短了22.80%和18.34%,表明本文方法在實際應用中的翻譯效率較傳統交互式機器翻譯方法有顯著提高。
1997年Foster[17]提出了TransType系統的雛形,實現譯員和機器翻譯方法的優勢互補。2002年歐盟RTD計劃的TransType2(TT2)[18]系統在TransType的基礎上進行改進,從預測幾個詞到可以預測整個句子,此后研究人員都是在TT2系統的基礎上對交互式機器翻譯方法進行改進的。
研究人員大多通過改進IMT的翻譯框架來對傳統方法進行改進: Och等[3]利用詞圖假設對翻譯譯文進行搜索,減少系統的反應時間及鍵盤敲擊率(KSR),提高搜索效率;Civera等[4]在系統中使用隨機有限狀態轉換機(SFST)提高了最佳譯文后綴的搜索效率;Tomás 等[5]利用了基于短語機器翻譯的單調搜索和非單調搜索算法,將基于短語的統計機器翻譯引入計算機輔助翻譯中,提高了運行速度;González-Rubio等[6]將基于短語的翻譯模型和層次模型整合在一起,對系統進行誤差修正,提高譯文的翻譯質量,減少譯員的工作量;Peris等[7]在神經機器翻譯模型上進行改進,實現了基于前綴和基于片段兩種神經交互式機器翻譯,針對不同語言和領域進行模擬實驗,神經機器翻譯模型具有更加適應用戶反饋的靈活性,顯著減少了用戶工作量;Wuebker等[8]將短語模型和神經網絡模型共同應用到交互式機器翻譯中,遞歸神經系統能夠提供更準確的預測結果,短語翻譯系統運行速度快,并且可以提供N-best譯文,該方法將兩種系統的優勢互補,有效地提升了IMT系統對譯文后綴中第一個詞預測的精確度。
研究人員還通過改進解碼算法來提高IMT方法的翻譯性能: Nepveu等[9]提出了基于緩存的自適應語言模型和翻譯模型,通過利用緩存中的語言模型信息和翻譯模型信息降低模型的困惑度,提高譯文質量;Bender等[10]用動態規劃算法結合詞圖提高搜索效率,完善譯文生成策略;Cai等[11]從引入動態調序距離限制、部分翻譯假設的差異最大化和對譯員確認前綴的利用三個方面進行改進,提高了系統效率;Koehn等[12]利用譯員提供的前綴在統計詞圖中搜索最佳后綴;Green等[13]在基于短語的機器翻譯系統上進行修改,提出了前綴解碼、動態擴大短語表等方法,并利用交叉熵目標函數實現重調序的判別;Azadi等[14]在基于短語的IMT方法中,通過為編輯距離添加跳轉操作的方法,改善圖搜索中重排序的不足,并搜索最佳后綴提供給用戶;Ye等[15]針對短語模型的固有缺陷,通過引入句法對齊信息來改進交互式翻譯系統的翻譯性能。
除此之外,還有一些研究者從交互方式角度對傳統IMT方法進行改進: González-Rubio等[16]設計了一個自由校對規則,通過允許譯員確認或修改任意位置的譯文以減少譯員的編輯量和認知負擔;Green等[19]分析總結了協同翻譯、混合主動互動原則等多種計算機輔助翻譯方法,提出了一種新的預測翻譯記憶方法,根據用戶使用習慣重新設計了源語言端的理解、目標語言實時更新和譯文生成等部分的UI界面,并在兩種大規模語料上進行翻譯實驗,翻譯結果表明該系統可以進一步提高翻譯效率;Ye[20]等通過增加正向片段,改善搜索算法、擴展假設規則、為正向片段匹配評分和假設多樣性等方式對傳統交互式方法進行改進,提高譯員工作效率;Peris等[7]將神經機器翻譯與IMT結合到一起,允許譯員對譯文的正確片段進行標記,提高傳統基于短語的IMT系統的工作效率。以上方法均采用在目標語言中識別正確譯文片段的交互方式,然而,機器譯文中既有選詞錯誤又有順序錯誤,要從里面識別正確譯文對于譯員來說比較困難。若對照源語言來進行正確譯文的選擇,能更好地減輕譯員的認知負擔。Cheng等[21]提出了一種基于選擇—修正的交互框架,將交互過程分為選擇錯誤和修改翻譯兩個過程,并分別建立自動建議模型,有效提高了人機交互的效率。與該方法相比,本文根據譯員的翻譯認知過程設計一個將源語言與目標語言對齊的交互界面,由譯員從短語譯項表中選擇正確譯項,為系統提供指導,既操作方便,又保證了譯文準確性,同時對短語譯項表進行多樣性處理,采用人工評測的方式進行實驗,將翻譯時間作為評價指標,更加真實地反映翻譯效率。
基于雙語短語約束的交互式機器翻譯方法以基于短語的機器翻譯模型為基礎,對系統的輸入和解碼兩個部分進行改進,允許譯員選擇雙語短語作為約束,與前綴一同指導計算機解碼,其系統流程如圖2所示。
圖2 基于雙語短語約束的交互式機器翻譯系統
本節將從交互方式、設計原則、短語譯項重排序和解碼算法四個方面介紹該方法。
本文為基于雙語短語約束的IMT系統設計了交互界面,將傳統交互過程分解為“短語拆分—短語譯項確認—重解碼”三個過程,實現譯員在源語言的短語譯項表中選取正確譯項的功能。圖3為基于雙語短語的IMT系統翻譯過程實例。
圖3 基于雙語短語約束的IMT實例
系統在譯前為源語言Source加載候選譯項列表,譯員根據需求在短語譯項表中選取 “水密門”的譯項為“watertight doors”,選取“建造及測試”的譯項為“construction and testing”,Iter-0為系統根據雙語短語約束搜索的譯文,譯員輸入前綴“c”再次解碼得到Iter-1,與參考譯文一致,翻譯結束。
經過對本文方法中的約束條件和譯員翻譯行為進行分析,本文提出如下幾個界面設計原則。
(1) 譯前選詞: 譯員在翻譯過程中不是按順序逐詞翻譯,而是重點關注關鍵詞。本文譯前選擇短語譯項的方法不考慮譯文順序,且便于譯員觀察思考,保證譯文準確性。
(2) 短語拆分: 譯員希望盡量選擇較長短語的譯項,但并不是所有長短語的譯項都正確。本文提出短語拆分的方法,允許短語之間自由組合,變化更加靈活。
(3) 雙語短語對齊顯示: 短語譯項表加載多個候選譯項為譯員提供參考,源語言與目標語言對齊顯示使譯員更容易識別正確譯項,減輕譯員的認知負擔,保證譯文準確性。
短語拆分和短語譯項確認界面如圖4所示。
圖4 短語拆分和短語譯項確認界面
系統為源語言加載短語譯項表,將鼠標移動到源語言上,下方會自動加載該短語的譯項列表,譯員單擊鼠標確認正確譯項;若是該短語的組合不符合譯員期望,可以先單擊短語上方的雙向箭頭對短語進行拆分或合并,再為其選擇合適譯項。圖4中,(a)是系統最初為源語言目標短語提供的分詞參考,并為每組短語加載了短語譯項表,譯員可以根據自己的需求對短語進行再處理,對短語進行拆分或合并;(b)為譯員從短語譯項表中選擇合適譯項;(c)是完成短語譯項選擇的結果。
本文系統中的短語譯項表來自于翻譯模型訓練得到的短語表,首先短語表中包含了訓練語料中所有可能的短語組合,以及它們對應的目標語言,滿足長短語進行拆分合并的功能;其次,短語表中給出了源語言和目標語言之間互為翻譯的概率,能夠優先推薦質量高的目標譯文。然而短語表中常見短語的候選譯項多達上百個,按翻譯概率打分,較高的譯項十分相似。為了在翻譯過程中給譯員更多的選擇和啟發,并考慮到實際交互界面的限制,本文提出了一個短語譯項的重排序算法,用以提高短語譯項的多樣性,如圖5所示。
圖5 基于多樣性的短語譯項重排序算法
該算法使用翻譯概率對短語表進行過濾,選取翻譯概率最高的前n個候選譯項,按以下步驟對短語譯項表中各譯項進行排序。
(1) 將概率最高的譯項放入短語譯項表中,并對其他所有譯項進行還原處理。
(2) 計算每個譯項與短語譯項表中已有譯項之間的共現概率,共現概率越小,兩個短語之間的多樣性越大。
(3) 選擇所有待排序譯項中與短語譯項表之間差異最大的一個譯項放入短語譯項表中。
(4) 重復步驟(2)和步驟(3),直到所有譯項完成重排序,選取短語譯項表的前10個譯項顯示于系統界面供譯員參考和選擇。
短語譯項多樣性的計算公式如式(1)所示,D描述了兩個短語譯項之間的差異大小,其中ti和tj為短語譯項中詞的原形,c(ti,tj)為ti和tj之間的重復詞數。
(1)
基于短語模型的交互式機器翻譯方法[22]可以描述為: 給定一個源語言句子s,用戶在系統的推薦譯文上確認前綴信息tp,系統根據前綴信息的約束通過假設擴展的方式對其進行解碼,在指定的目標語言中搜索到一個滿足前綴信息的后綴譯文ts,其翻譯模型的公式如式(2)所示。
(2)
式(2)可以轉換為式(3):
(3)
該方法利用對數線性模型,將語言模型、調序模型和翻譯概率等模型作為重要特征對源語言和目標語言建模,如式(4)所示。
(4)
基于前綴的IMT方法在解碼過程中只考慮前綴與翻譯假設的匹配,系統根據翻譯模型為源語言建立一個候選翻譯列表并組織翻譯假設,搜索合適的譯文。在建立候選翻譯列表的過程中,系統直接從短語表中找到不同組合的源語言短語及其對應的目標譯文,將這些譯文選項按翻譯概率從高到低排序并保留前n個作為候選翻譯選項。
為了搜索最優翻譯假設,本文利用多棧搜索[23-24]的解碼方法搜索滿足前綴條件的最佳后綴譯文,其過程如圖6所示。
圖6 基于多棧搜索的統計機器翻譯解碼方法
在多棧解碼中,系統根據源語言中被擴展的短語數量對翻譯假設進行分類,將覆蓋短語數相同的翻譯假設放在同一個棧中。翻譯初始只包含空假設,通過假設擴展的方式不斷地從短語表中搜索合適的翻譯假設,將其添加到原有假設后面,形成新的假設并存入棧中,直到源語言中所有短語都被覆蓋,翻譯結束。
本文將雙語短語與前綴一同作為約束信息指導IMT系統解碼,雙語短語包含了源語言、源語言位置和對應的目標語言譯項。其中源語言與目標語言是對齊的,短語譯項表提供了多個翻譯選項,譯員可以確認形如
(5)
在建立候選翻譯列表過程中,若是當前搜索短語包含雙語短語,需要根據雙語短語對當前詞的候選譯文選項進行過濾,僅保留符合約束條件的譯文放入候選翻譯列表。翻譯選項是否符合雙語短語約束的判斷方法如下:
(1)若當前搜索的短語不包含雙語短語中的源語言,在短語表中找到該短語的譯文作為當前短語的翻譯選項。
(2)若當前短語包含雙語短語中的源語言,且短語長度為1,將雙語短語中的目標語言作為該源語言的翻譯選項。
(3)若當前短語包含雙語短語,且短語長度大于1,遍歷該短語在短語表中的所有譯文,若譯文包含對應的譯項,保留該翻譯選項。
圖7給出了短語譯項過濾算法的偽代碼。
圖7 短語譯項過濾算法
為了搜索到最優翻譯假設,使用多棧搜索的解碼方法,搜索同時滿足前綴約束和雙語短語約束的最佳后綴譯文,對翻譯選項進行擴展,直到整個句子被完全覆蓋則翻譯完成。
交互式機器翻譯的評測主要分為人工評測和自動評測,人工評測需要耗費的人力多、時間長,目前有關交互式機器翻譯方法的評測大多采用自動評測的方式。自動評測只記錄譯員的操作次數,不計算時間,忽略了譯員的思考與認知行為,無法準確地反映譯員真實翻譯情況和工作效率。因此本文選取譯員對測試語料進行翻譯,并開展人工評測實驗,采用交叉實驗的方式,讓譯員在真實的翻譯環境中進行實驗,統計譯員的翻譯時間和翻譯行為,確保得到更加真實、公正的實驗結果。
本文借鑒Barrachina等[22]的方法,在Silk Road機器翻譯系統的基礎上實現了一個基于前綴的交互式機器翻譯系統作為Baseline,并在該系統上進行改進: 加入雙語短語約束的IMT系統作為System1,加入雙語短語約束并對短語表進行多樣性排序處理的系統作為System2。除文中進行的改進之外,Baseline與System1、System2的翻譯框架、加載模型及各參數均相同。
實驗中所有中文語料都采用ICTCLAS[注]http://ictclas.nlpir.org /分詞,并進行詞形還原和小寫化處理;詞對齊訓練工具為GIZA++;英文語料的語言模型是由IRSTLM訓練的5-gram模型;統計翻譯模型使用Moses[注]http://www.statmt.org/moses/訓練。
實驗選取LDC2000[注]http://ldc.upenn.edu/的香港議會記錄漢英平行語料和法律漢英平行語料作為語料,表1給出了實驗數據的相關信息。
表1 語料的統計特性
本文參考Vicent等[25]的交叉實驗方式,選取英語水平相同的九名譯員分為三組(G1,G2,G3),每種語料各75句并分為三組(C1,C2,C3)進行人工評測。為確保每份測試語料不會被重復翻譯,每組譯員分別使用不同系統翻譯三份不同的測試語料,交叉進行實驗測試后再計算每個系統的平均實驗結果,實驗分組設置如表2所示。
表2 實驗分組
時間是衡量交互式機器翻譯方法效率最真實的標準,平均翻譯一個句子花費時間更少的交互式機器翻譯方法具有更好的輔助效果,因此本文將平均翻譯時間作為主要評測標準。
本文同時將KSMR值、解碼次數和BLEU值[26]作為參考評測標準。KSMR用來衡量譯員的操作次數,計算如式(6)所示。
(6)
鼠標和鍵盤的點擊次數不能完全代表譯員工作量,因此本文將解碼次數作為另一個輔助評測指標,解碼次數是指IMT系統根據新約束重新解碼并推薦機器譯文的次數。
BLEU值是譯文質量的評測指標[27],本文使用BLEU值作為參考,比較兩個系統的翻譯譯文質量,當譯文質量在同一水平時,平均翻譯一個句子的時間更少的系統效果更好。
表3為譯員分別使用不同系統在兩組語料上進行交叉翻譯實驗的平均時間,單位為“s/句”。
表3 不同系統的平均翻譯時間
實驗結果表明,本文實現的系統在不同語料上的翻譯時間均明顯縮短。以議會記錄為例,System1的平均翻譯時間為79.50s,比Baseline縮短了22.80%,說明本文方法在翻譯效率上較傳統方法有很大的提升,其原因有以下三點。
(1) 本文方法可以為譯員提供翻譯參考,減少譯員的思考時間和認知負擔,提高翻譯效率;
(2) 短語譯項的選擇是在譯前進行的獨立過程,譯員無需在既有詞語錯誤又有順序錯誤的譯文中確認正確譯文片段,減少譯員認知負擔。
(3) 譯員可以同時確認雙語短語作為約束,減小解碼過程中的搜索空間,提升解碼效率。
System2的平均翻譯時間為78.58s,在System1的基礎上縮短了0.89%,說明加入短語譯項表多樣性排序后的系統性能略有提升。其中,System2中短語譯項表在多樣性排序后擴大了候選譯項的多樣性,同時增加了正確譯項在短語譯項表中的概率,當譯員在System1的候選譯項表中找不到合適的選項而在System2中可以找到時,System2的翻譯效果會有提升;但是,當兩個系統的短語譯項表中都包含譯員期望的譯項時,譯員使用兩個系統的翻譯效果是一樣的。因此與System1相比,System2的性能只是略有提升,但并不明顯。
表4為譯員使用不同系統進行實驗的KSMR值。
表4 不同系統的KSMR值
實驗結果中,System1和System2的KSMR值均高于Baseline,因為譯員使用Baseline只需要用鍵盤輸入新前綴并單擊按鍵進行翻譯,本文系統除Baseline中的基本操作外,還需要單擊譯文對源語言進行短語拆分和短語譯項確認操作。短語拆分過程中大量的拆分和合并操作增加了鼠標點擊量,這些操作簡單方便,不會耗費太多時間,而Baseline中譯員每次輸入新前綴解碼前都需要耗費大量時間去思考,在實際翻譯中占用更多時間,因此KSMR值并不能完全代替翻譯效率。
不同語料上System2的KSMR值均略低于System1是因為System2進行了短語譯項表多樣性處理,譯員在選擇譯項時的選擇空間更大,能夠更快地確認正確譯文,減少了操作次數。
表5為不同系統在實驗中的解碼次數。
表5 不同系統的解碼次數
在議會記錄語料上,System1和System2的解碼次數分別比Baseline減少了48.9%和53.24%,法律語料上分別比Baseline減少了23.39%和31.02%,解碼次數下降的幅度十分大。譯員將雙語短語作為約束傳入翻譯系統進行解碼,相比于Baseline系統,減少了需要輸入多次前綴來確認一個短語的情況,正確的譯文后綴也不會因為更改前綴而重新解碼,因此在解碼次數上,本文系統的翻譯效果較Baseline有很大的提升。由此證明KSMR值的增加主要是因為短語拆分和短語譯項確認操作需要大量的鼠標單擊次數,但是這些操作并沒有影響翻譯效率,反而減少了譯員的認知負擔和系統的解碼次數,提高了翻譯效率。
同一語料的解碼次數中,System2比System1略有減少,因為增加了多樣性的候選譯項表,能夠給譯員提供更大的選擇范圍,正確譯項出現在短語譯項表中的可能性更大,譯員能夠更快、更準地找到正確譯項,減少了使用前綴解碼來確定譯文的次數。
表6為實驗結果中譯文的BLEU值。
表6 不同系統的BLEU值
議會記錄語料最初的系統推薦譯文BLEU值為19.71,經三個系統翻譯后的最終譯文BLEU值分別為27.23、27.81和27.85,均在同一水平,說明在譯文質量相似的情況下,使用本文方法的翻譯時間比傳統方法更短,效率更高; 不同語料上System1和System2的譯文BLEU值均高于Baseline,譯文質量的提升說明候選譯項表可以有效地為譯員在翻譯過程中提供參考,提高譯文的準確性,減少譯員的認知負擔。
圖8為使用不同系統進行翻譯的實例。
如圖8所示,使用Baseline進行翻譯的解碼次數為八次,而使用本文方法僅需解碼兩次,解碼效率得到了顯著提升。使用Baseline翻譯短語“由 香港政府 使用”共需輸入四次前綴并重新解碼才能得到正確譯文,本文方法允許用戶在譯前選擇該短語的譯項“used by the Hong Kong Government”,只需解碼一次便可得到正確譯文,與Baseline相比譯員的翻譯效率得到了顯著提升。
圖8 不同系統的翻譯實例
上述實例表明,本文方法的短語譯項表允許譯員在譯前選擇短語的譯項,減輕了譯員的認知負擔,選擇雙語短語作為約束指導解碼器進行解碼,能夠減少譯員重復輸入多次前綴來確認一個短語的工作,顯著縮短譯員的翻譯時間,提高翻譯效率和譯文質量。
該方法對短句子或某些句型簡單的句子翻譯效果不如傳統IMT方法,因為傳統IMT方法通過前綴約束很快可以得到正確譯文。
本文提出一種基于雙語短語約束的交互式機器翻譯方法,從交互方式和解碼算法兩個方面對傳統IMT方法進行改進: 通過加載短語譯項表和短語表多樣性處理等方式提供更多信息輔助譯員翻譯,改善了譯員在翻譯過程中的體驗,并減輕了譯員的認知負擔;設計交互界面允許譯員在譯前選擇雙語短語作為約束,更加充分地指導解碼過程,在保證譯文準確性的同時提高了翻譯效率。本文在LDC漢英平行語料上進行人工評測實驗,結果顯示在實際應用中基于雙語短語約束的交互式機器翻譯方法能夠減少翻譯時間,提升翻譯效率和譯文質量。
在未來工作中,將根據譯員選擇短語譯項的歷史信息自動調整短語譯項表中譯項的順序,讓譯員更快、更準地選擇正確譯項;同時改進翻譯模型和解碼算法,將神經機器翻譯模型與本文方法結合,提高原始譯文的質量,進一步提高譯員翻譯效率。