李業剛,黃河燕,史樹敏,馮 沖,蘇 超
(1. 北京理工大學 計算機學院 北京市海量語言信息處理與云計算應用工程技術研究中心,北京 100081;2. 山東理工大學 計算機科學與技術學院,山東 淄博 255049)
?
多策略機器翻譯研究綜述
李業剛1,2,黃河燕1,史樹敏1,馮 沖1,蘇 超1
(1. 北京理工大學 計算機學院 北京市海量語言信息處理與云計算應用工程技術研究中心,北京 100081;2. 山東理工大學 計算機科學與技術學院,山東 淄博 255049)
該文全面綜述和分析了多策略機器翻譯的研究。根據所采用策略方式的差異,我們將多策略機器翻譯分為系統級策略融合和模塊級策略融合。在分別介紹了不同的翻譯方法后,著重介紹了系統級策略融合和模塊級策略融合各自具有代表性的研究工作。最后,對多策略機器翻譯的研究進行了展望。
機器翻譯;多策略機器翻譯;融合機器翻譯;混合機器翻譯;多引擎機器翻譯
機器翻譯(Machine Translation, MT)是利用計算機實現從一種自然語言到另一種自然語言的自動翻譯技術。機器翻譯方法目前公認可以分為基于規則的機器翻譯(Rule-Based MT, RBMT)和基于語料庫的數據驅動的機器翻譯(Corpus-Based MT, CBMT)。RBMT由詞典、規則庫以及各類知識庫構成知識源;CBMT以語料應用為核心,進一步分為統計機器翻譯(Statistics MT, SMT)、基于實例的機器翻譯(Example-Based MT, EBMT)和翻譯記憶 (Translation Memory, TM)。RBMT主要從語言現象著手,側重描述語言構成規律,對語言規律有良好的概括以及描述能力。SMT主要從數學角度,側重統計建模,因而具備良好的數學模型、魯棒性以及自學習能力。EBMT是從機器學習的角度,側重待翻譯實例的抽象程度,EBMT和TM對有較高相似度句子的翻譯頗有價值。
上述單一的機器翻譯方法,很難說哪一種在翻譯效果上具有壓倒性的絕對優勢,它們都存在一些自身難以克服的弊端。同時,它們互不排斥,各自著眼于不同角度,側重翻譯問題的不同側面。多層次的語言成分構成、嚴謹的統計數學模型以及豐富的翻譯實例,三者是可以共融共生的。在這樣的背景下,博采眾長,融合多種翻譯方法的多策略機器翻譯思想應運而生,并成為當前機器翻譯研究的熱點之一。
多策略機器翻譯(Multi-Strategy MT,MSMT)的任務是揚長避短,協調不同翻譯策略,融合多種翻譯方法,從而進一步提升翻譯性能。MSMT中的策略,可以是某一種翻譯方法,也可以是一種翻譯方法中的某個模塊。MSMT目前研究呈現出多樣化的趨勢,可能是兩個或者更多的翻譯方法的系統級融合,也可能是屬于不同翻譯方法模塊的模塊級融合,或者是兩者的結合。
我們在前賢們的研究基礎上,詳盡地介紹了各種不同的翻譯策略及其融合方式。文中首先簡單介紹了四種翻譯方法的基本原理及其優缺點和主要研究熱點;然后按照融合方式的不同,分別介紹了系統級的策略融合以及模塊級的策略融合;接著介紹了一個典型的MSMT系統;最后對全文進行了總結并對MSMT的發展進行了展望。
2.1 RBMT概述 RBMT用人工撰寫的規則來描述語言規律,首先對待翻譯的源語言句子進行分析或理解,對其意義進行表示,然后在某一平面進行語言的轉換,最終結合目標語言結構規則生成與源語言等價的目標語言句子。在RBMT中,為了控制規則沖突,保證良好的規則可擴展性,規則往往具有層次性和模塊性。因此,RBMT規則系統的組織不僅僅要解決方法論問題,還要從軟件工程以及知識工程的層面統籌設計。不同RBMT系統的技術差別主要體現在轉換平面上,如詞法、句法語義以及語用層面等。
2.2 RBMT的研究
RBMT目前的研究主要集中在基于語義層面的轉換,以及多語言翻譯特別是少數民族語言翻譯。
文獻[1]提出了基于語義單元理論的機器翻譯方法原理,把自然語言間的翻譯看作同一語義在兩種自然語言上的不同表示之間的轉換,首先,在源語言端進行語義分析,得到句義表達式,然后代入目標語言語義單元表示,生成目標語言句子。文獻[2]研究了量詞選擇,英語介詞的語義消歧以及漢英時態轉換。文獻[3]闡述了一個良構的自然語言句子生成系統。
機器翻譯中的本體是對知識的形式化,是語義表達的依托和語義推理的依據,是獨立于特定語言的概念庫,它可以為詞典、語義表示提供語義概念,把語義概念組織為概念層次網絡,形成語義空間[4]。計算機可以通過搜索從語義空間中獲取有關概念的信息,進行語義計算及推理,從而提高MT系統的語義處理能力,解決在限定翻譯領域的一些實際問題。文獻[5]對機器翻譯專業領域分類系統、專業詞典向專業領域分類系統的映射以及國際標準分類ICS標準向專業領域分類系統的映射等問題進行了研究。基于已經構建的領域本體MPO,文獻[6]提出一種本體知識規則與統計方法相結合的領域命名實體識別方法,通過本體化的實例,獲取構成實體的詞性規則模板,進而結合機器學習,識別限定領域命名實體。文獻[7-8]提出一種基于詞典中注釋信息的詞匯領域標注方法,利用通用詞典中詞匯的注釋信息給詞語標注領域,擴充了現有領域詞典的規模。
文獻[9]提出層次語義類型樹(Semantic Category Tree,SCT)模型,并應用在漢英機器翻譯中,實現漢英SCT層面轉換,它們為概念層次網絡(Hierarchical Network Concepts,HNC)概念體系的3 000多個概念基元建立了概念基元知識庫,包括概念基元符號、概念基元延伸節點的表示以及概念關聯表示式等,用概念延伸結構表示代替了本體的上下位表示方法,不同的延伸結構代表了不同的語義擴展,同時,概念之間的關系用概念關聯表示式描述,并利用概念和詞語的綁定來增強詞語的聚集性。
另外,在少數民族語言方面,文獻[10]描述了統一標準、接口的多民族語言本體知識庫的創建思路。文獻[11]建立了蒙古語的語義知識庫。文獻[12]闡述了維語的框架語義描述體系。
2.3 RBMT的優勢及存在的問題
RBMT歷經幾十年的不斷發展,不斷融入人工智能的最新成果,日趨完善。RBMT直觀地表達語言學知識,良好地概括和描述語言規律,詳盡的規則能夠準確、直觀地描述語言的語法、語義構成,多層次的規則便于進行深層理解和復雜結構處理,對不同句子實施不同平面轉換,有效解決長距離依賴問題。真正為用戶所使用的專業機器翻譯產品大多都是基于規則的系統。
因為規則庫是眾多的語言學家手工構建的,所以一致性很難保障,當規則庫達到一定規模后,進一步擴充規則非常困難。由于語言現象龐雜,現有的理論方法和語言規則都無法有效地表達所有語言現象,趨于無限的語言現象和枚舉的規則系統之間的矛盾是RBMT的局限性,這也最終影響了 RBMT 在開放領域中的適應性。
3.1 SMT概述 SMT把翻譯看作概率問題,認為任意一個目標語言句子都在一定概率上是任意一個源語言句子的譯文,SMT的目標就是找到概率最大的那個目標語言句子。SMT的首要任務是模型問題,就是為機器翻譯建立合適的概率模型,確定源語言句子到目標語言句子的翻譯概率的計算方法,并在此基礎上,定義要估計的參數,設計估計的算法。SMT奠基性的工作是文獻[13]提出的信源信道模型,對后繼的SMT研究產生了深遠的影響,噪聲信道模型如式(1)所示。
e*=argmaxP(e|f)

(1)
信道模型包括三個基本組件:翻譯模型P(f|e)、語言模型P(e)以及解碼。翻譯模型計算目標語言句子和源語言句子的翻譯概率;語言模型對生成的目標語言句子進行評估,保證其流暢性;解碼是在已知模型以及相關參數的基礎上,對于任何一個源語言句子,查找翻譯概率最大的目標語言句子。
語言模型[14](language model, LM)是SMT系統中的重要模塊,它被用來衡量翻譯系統輸出句子的流暢程度,給定一個詞匯序列ω1,ω2,…,ωn,n元語言模型的計算如式2所示。
(2)
它有一個重要假設,即當前詞匯ωi出現的概率僅與前n-1個詞匯ωi-n+1,…,ωi-1相關,而與其他詞匯無關。
文獻[15-16]將對數—線性模型(log-linear)引入SMT,提出了基于短語的統計機器翻譯(Phrase-BasedMT,PBSMT),該模型對P(e|f)進行建模,能夠整合各種不同的特征(feature),并允許自動調節特征的權重,將連續的多詞作為短語,整體翻譯,擴大了翻譯的粒度,容易處理局部上下文依賴關系,能夠較好地翻譯習語和常用搭配。這項工作對SMT的發展影響重大,幾乎現在的SMT全部是采用對數線性模型框架。其數學表達形式如式(3)所示。

(3)
3.2SMT的研究
目前,SMT的研究[17-19]集中在將句法知識引入到翻譯框架中,利用句法知識來限制翻譯路徑,約束目標詞和短語的活動范圍。典型的研究有吳德凱[20]和Chiang[21]的基于形式化句法的翻譯模型以及南加州大學信息科學研究所提出的樹-串翻譯模型[22]。相比傳統的基于短語的翻譯模型,層次短語翻譯模型能夠處理非連續短語,并具有一定的泛化能力,且不受句法分析的制約。基于語言學語法的統計機器翻譯則包含了豐富的語言學知識。
盡管基于句法的SMT具有一定的長距離調序的能力,但是純粹的基于句法的SMT受限于雙語句法結構的不一致性、生成規則中的終結符過分泛化以及生成規則的規模過于龐大等因素,翻譯質量并沒有顯著提高。如何在SMT中更有效地融入句法知識,既保證對句法知識的容錯能力,又能夠解釋不同語言之間的差異,還需要進一步的深入研究。
另外,目前研究主要是嘗試在句法層面融入語言學知識。如何選擇一種可計算、表達能力強的表示形式,如何選擇一種有較強的數據學習能力的合適模型,把更深層次的語言學知識,比如語義知識和篇章上下文知識,有效融入SMT框架,也需要進一步的研究。
隨著各種資源越來越豐富以及算法的日趨復雜,SMT的計算量也越來越大。Google之所以在機器翻譯領域占據領先地位,也是源于其能力強大的分布式計算。因此,結合分布式計算與機器翻譯,將機器翻譯相關計算進行并行化處理也將是SMT的研究熱點。
3.3SMT優勢及目前存在的問題
SMT由于具有良好的數學模型、自學習能力和魯棒性等優點,從而備受研究者的鐘愛,迅速被開放領域的互聯網機器翻譯所采納,成為目前非限定領域機器翻譯中表現最佳的一種翻譯方法。
SMT依賴于大規模的雙語語料,依靠統計進行歧義的消解以及譯文的選擇。翻譯模型以及語言模型的參數估計的準確性都直接依賴于語料的規模,翻譯效果最終取決于概率模型和語料庫的覆蓋能力。因此,對于語料匱乏的語言之間的翻譯,比如我國的少數民族語言,能力有限。SMT還面臨數據稀疏問題。即便是在超大規模的語料庫中,也會存在相當一部分的低頻詞,低頻詞的統計信息往往不夠準確,這些不準確的統計最終會影響SMT的翻譯性能。
單純依賴統計量的SMT難于反映語言真實的內部規律,簡單的統計量也很難解釋差異較大語言之間的復雜結構對應關系,這就造成翻譯結果雖然“詞詞相對”,卻不具備可讀性,晦澀難懂。
4.1EBMT概述EBMT是以翻譯實例為出發點基于類比原理的機器翻譯方法。EBMT把源語言句子分解為片段,通過類比找到這些片段對應的目標語言的片段,經過對目標語言片段的適當重組,形成句子翻譯結果。EBMT主要的知識源是雙語對照的實例庫和義類詞典等,其核心問題是通過最大限度的統計,得出雙語對照的實例庫。不同的EBMT系統之間的主要區別在于相異的雙語語料庫結構以及翻譯模板以及翻譯模型的生成技術不同。
4.2EBMT的研究
句子之間的相似可以表現在語義、結構、目標特征和個體特征等不同方面。根據類比推理,最優匹配最好要同時滿足前述的約束。然而,語言的無窮性將會導致模板庫趨于無窮大。為了增強模版的覆蓋能力,在構造模板時,可以對實例進行適當的泛化(Generation),把句中一些不影響整體結構和總體表達的可替換的成分抽象化,從而降低輸入的維數,提高句子的匹配率。基于模板的機器翻譯方法(Template-basedMT/Pattern-basedMT,TBMT/PBMT)是EBMT翻譯方法的擴展,是EBMT中的一種典型翻譯方法。
實例的泛化程度可高可低,既可以是將雙語實例中的特殊語言成分(比如命名實體等)用類標表示[23];也可以是將句子中相同部分表示為變量,泛化后的句子模板是比規則更具體比實例更抽象介于規則和實例之間的知識粒度,模板的粒度將直接影響到匹配的效果。利用語法或者語義概念層次結構的源語言句子的相似度的計算以及限制翻譯模板的變量是翻譯模板研究的趨勢之一[24-26]。
4.3EBMT優勢及存在的問題
EBMT系統能夠利用翻譯實例中隱含的結構信息對譯文中的詞進行約束,一般不對源語言進行深層次分析,對于實例庫中的已有句子,可以直接高質量翻譯,對實例庫中存在與實例比較相似的句子,可以通過類比推理,并對翻譯結果進行少量的修改后,近似翻譯。EBMT還可以同時給出翻譯結果的置信度,這也是EBMT在系統融合中備受歡迎的一個重要原因。
EBMT需要對語言的互譯片段建立映射,即短語甚至詞匯一級的雙語對齊。短語對齊往往存在歧義,這將影響譯文的質量。不進行語言深分析的EBMT系統,缺乏句子的深層結構信息,翻譯碎片組合比較困難,生成的譯文信息往往有所匱乏。而基于深層次分析技術的EBMT系統,因為各種語言分析器訓練語料的不平衡,在不同應用領域上的性能差別非常大。
EBMT把訓練過程放在了解碼階段,翻譯實時性會受到較大的影響,其受限于大規模實例語料庫中相似實例的檢索速度。
對于可檢索到相似實例的源句子,EBMT能夠生成高質量的譯文。因此,實例的覆蓋率是EBMT系統的重要因素,但受限于語料庫規模,EBMT很難達到較高的匹配率,往往只有在限定領域和專業領域,翻譯效果才能達到使用要求。因此,單純采用RBMT的系統較少,一般都把它作為多翻譯引擎中的一個。
TM是利用已有的源語言資源和對應的目標語言資源,建立起一個或多個翻譯記憶庫。在翻譯過程中,TM系統自動搜索翻譯記憶庫中相同或相似的翻譯資源(如句子、篇章),作為參考譯文呈現給用戶。用戶可以選擇接受參考譯文,也可以在譯文基礎上進行修改,得到最終的譯文。用戶修改過的譯文和對應的源文會自動存入記憶庫,供下次使用。TM系統的性能與翻譯資料的重復性有很大的關系,重復性內容越多,翻譯效果就越好。
TM所面對的用戶通常是領域的“專家”,這與EBMT不同,EBMT翻譯的結果由系統決定,用戶只需要懂目標語言即可。從這點來說,TM不是純粹的機器翻譯方法而是屬于輔助機器翻譯。但是TM與EBMT存在許多相似的地方,例如,對已有翻譯實例的重用,翻譯實例的存儲,相似翻譯實例的檢索等。所以,實際研究中,研究者們經常忽略它們的不同,把TM也看作一種機器翻譯方法。
針對單一的機器翻譯方法本身及發展中存在的問題[27-28],系統級策略融合(也稱作融合機器翻譯(SystemCombinationforMT)、混合機器翻譯(HybridMT)或者多引擎機器翻譯(Multi-EngineMT)),致力于在后處理或是翻譯過程中,揚長避短,融合多個機器翻譯引擎的有用信息,得到更好地譯文。按照融合的階段可分為后處理級系統融合和模型間系統融合。國內機器翻譯評測會議(CWMT)率先從2008年開展系統融合單獨評測,國際機器翻譯評測NIST也從2009年開始將系統融合作為單獨的項目進行評測,這也從另一方面說明系統融合技術的重要性。
6.1 后處理系統融合
在后處理系統融合中,融合可以在句子、短語或者詞粒度上獨立進行[29],也可以結合起來進行。句子粒度的系統融合可以是并列式系統融合,也可以是遞進式系統融合。并列式系統融合平等的對待所有的融合系統,針對同一個源語言句子,使用單機器翻譯引擎所使用的特征之外的特征,從合并后多個系統的翻譯結果的N-best列表中找出翻譯質量最高的結果,實際上是一種句子重排序,目前的研究主要集中在對融合策略的探索。基于最小貝葉斯風險(MinimumBayes-RiskDecoding,MBR)[30]的系統融合方法是從多個系統的翻譯結果的N-best列表中選擇期望損失最小的,如式(4)所示。
(4)
在這里Eh代表由多個機器翻譯系統結果組成的N-best列表;ref表示參考譯文。L(e′,ref)表示損失函數,它的值越小,對應翻譯結果e′的質量越高;P(ref|f)代表翻譯后驗概率,系統融合的輸入來源較多,不同系統給出的后驗概率不具備可比性,RBMT系統則無法給出后驗概率,因此在使用中往往設置的后驗概率是相同的。
通用線性模型[31](generalizedlinearmodel)把翻譯假設所對應的翻譯的置信度取對數,與高階語言模型(例如,5階)得分以及長度懲罰線性加權,作為評分準則,如式(5)所示。

(5)
其中,p(ei)為翻譯假設ei對應的翻譯置信度,ν和μ分別為五元語言模型和長度懲罰|ei|對應的特征權重,這些權重可以在開發集上進行優化得到。
文獻[32]提出了一種基于機器學習的翻譯推薦策略,對于MT系統的輸出和TM系統的參考翻譯,通過分類器挑選出更適合后編輯的譯文,呈現給用戶,進行人工后編輯,該方法把判斷哪一個輸出結果適合后編輯問題看作是一個分類,使用翻譯編輯率(TranslationEditRate,簡稱TER)[33]來自動評價后編輯的工作量。后編輯所需工作量最小的結果,并不一定是SMT或TM的Top-1結果。因此為了更好地利用兩個系統的N-best結果,文獻[34]提出了一個基于重排序的翻譯推薦方法: 對于SMT和TM的N-best結果,利用支持向量機(SupportVectorMachine,SVM)進行重新打分排序,并將新產生的Top-n結果,人工進行后編輯。采用的改進的優化函數如式(6)所示。
(6)
其中,Φ(sn,di)表示給定源語言句子sn對應翻譯輸出di的特征向量。諸如此類的基于機器學習的策略融合研究還有文獻[35-36]。
文獻[37-38]在多Agent的日漢機器翻譯系統中,采用TM、EBMT、RBMT多種機器翻譯方法相結合的遞進式融合,機器翻譯的流程分為三個遞進式模塊,從基礎的TM翻譯,到需要源語言句法信息的EBMT,再到最復雜、需要源語言句法、語義分析的基于配價和斷段分析的RBMT,當前一個翻譯模塊的譯文評分達到設立的閾值時,該模塊的譯文輸出作為最終翻譯結果,否則進入下一個模塊進行更深層的處理。系統取得了較好的翻譯效果,其中,在開放測試中,譯文可讀性達到了79% 。

目前國內外后處理系統融合研究熱點集中在詞粒度的系統融合[29],借鑒語音識別中混淆網絡解碼[39]的思想,將多個翻譯系統輸出的翻譯假設,利用詞對齊方法構建混淆網絡(或稱為詞轉換網絡),對混淆網絡中每一個位置的候選詞進行置信度估計,最后進行混淆網絡解碼。這種融合方法在詞的層次重組了輸出譯文,因此能夠充分利用各個翻譯假設的詞匯粒度的知識,取長補短。混淆網絡解碼同時也破壞了原來的翻譯假設的詞序的一致性以及短語連貫性,因此,也會發生融合后的譯文不符合語法的情況。
6.2 模型間系統融合
模型間的融合是利用機器學習算法,在更深層次融合兩個具有互補性的翻譯模型,從而提高翻譯性能。
TM或者EBMT引入到SMT,相當于在SMT中間接利用了全局信息,將會改善SMT系統輸出,推動SMT在專業翻譯領域的應用。文獻[40]提出,首先使用EBMT,查找最相似的實例,然后利用句法和詞對齊信息,抽取匹配部分的翻譯,并利用XML標記法固定匹配部分的翻譯,使用SMT系統翻譯剩余部分。文獻[41]則把XML標記法引入到TM和SMT的融合。實驗結果表明,僅當模糊匹配系數高于0.7時,XML標記法才能改善SMT系統翻譯性能,否則會導致翻譯性能降低。但是,模糊匹配系數低,并不意味著TM中所有的片段都沒有價值;模糊匹配系數高,也不意味著TM中所有的片段都有價值,因此,文獻[42]提出了決策式XML標記法,使用分類器,代替模糊匹配系數,決定是否使用XML標記法, 對于需要進行XML標記的句子,XML標記法保留了匹配短語,剩余部分則SMT進行翻譯,對于不需要XML標記的句子通過SMT進行翻譯。
上述方法僅在翻譯的輸出上進行淺層融合,并沒有改變SMT模型和解碼器,因此性能提升的幅度不大。因此,文獻[43]提出了一種在解碼層面進行TM和SMT的深層次的融合框架,并引入了模糊匹配區間索引、源語言短語鏈接狀態和目標語言短語匹配狀態三種特征集,驗證了三種由簡到繁的整合式融合模型。當模糊匹配系數大于0.4時,BLEU值和TER值都顯著優于單獨的SMT和TM系統,BLEU比SMT基線系統提高了3.48個百分點,TER值提高了2.62個百分點。
SMT和EBMT采用相同的詞對齊雙語語料庫,因而可以結合兩者的優點,利用EBMT獲得實例中蘊含的豐富信息以及相應的翻譯結構,利用SMT的各類模型特征定量評價譯文的好壞。文獻[44-46]提出了混合數據驅動機器翻譯模型框架,在法-英翻譯任務中的性能優于單一的EBMT和PBSMT。文獻[47]在EBMT系統中,加入了類似于PBSMT翻譯模型的特征,并綜合考慮了上下文特征,進一步提升了翻譯性能,BLEU值比基線系統提高接近4個百分點。
同是SMT系統,PBSMT沒有考慮句法信息,基于句法的SMT的規則覆蓋規模不如PBSMT好,解碼中短語的匹配不夠靈活,即便同是基于句法的SMT,不同文法的表現力也不同,使用不同文法的SMT也可以進行融合,取長補短。文獻[48-50]在機器翻譯的解碼框架下融合層次短語文法和括號轉錄文法,考慮了在解碼過程生成的侯選翻譯相互之間的影響。文獻[51]則是在超圖的框架下,通過n-gram后驗概率特征來對PBSMT和基于層次短語的SMT兩個翻譯模型進行重新搜索,得到翻譯結果;文獻[52]在超圖框架下,通過兩個模型的n-gram 后驗概率特征進行線性插值,得到翻譯結果,采用了兩階段的最小錯誤率訓練,由于不對生成翻譯結果進行重新訓練和解碼,因而翻譯效率比較高,同時翻譯性能也優于單個系統。文獻[53]把PBSMT的詞匯化調序特征和距離懲罰調序特征加入到基于句法樹的SMT的解碼過程,改善了翻譯性能。
模塊級策略融合是以一種翻譯策略為主,在系統中融合屬于不同翻譯策略的模塊。例如,基于規則的分析器、基于統計的詞對齊模塊、語言模型、后編輯模塊等都在不同的翻譯系統中得到廣泛的應用。相比于全方位的系統級策略融合,模塊級策略融合更側重于融合的靈活性。
文獻[54]在基于實例的機器翻譯框架下,使用基于規則的分析器對源語言進行分析;使用基于統計的詞對齊模塊,建立源語言與目標語言間的對應關系;統計語言模型被用來對目標語建模;基于規則的后處理模塊被用來做最終的目標語言生成處理。
文獻[55]在半結構化的EBMT系統中,引入基于統計搭配模型的譯文選擇方法,估計候選譯文中詞匯之間的搭配關系,利用編輯距離選擇匹配翻譯實例,使用源語言統計搭配模型計算詞匯間的匹配度,并估計句子中詞匯的編輯風險,在英漢翻譯中,BLEU 得分比基線EBMT系統提高了4.73~6.48個百分點。
后編輯(post-editing,PE)是對機器翻譯系統輸出的譯文進行加工和修正。近年來,統計后編輯(Statistical post-editing,SPE)得到了長足的發展[56],它可以用來改善RBMT的翻譯性能和領域適應性[57-60]。其中,文獻[58]使用基于短語的SPE對基于規則的SYSTRAN翻譯系統進行后編輯,實驗證明,即便是在少量訓練語料(大于1M)上訓練的SPE,也可以顯著提高基于規則的機器翻譯系統SYSTRAN的性能,隨著訓練語料增加,翻譯性能得到持續提升,當訓練語料增加到100M級別時趨于收斂。
結論和展望
隨著各種機器翻譯方法如火如荼的發展,多策略的機器翻譯研究也取得了長足的進步和豐碩的成果。其中,在第七屆全國機器翻譯研討會機器翻譯評測[27]中,輔以統計后編輯的RBMT系統的BLEU值(0.238 7)在漢英新聞評測中名列榜首;SMT和RBMT后處理融合系統的BLEU值(0.408 3)在英漢科技領域名列第一,這很大程度上促進了機器翻譯的整體發展。
盡管如此,現有的多策略翻譯仍然達不到令人滿意的程度,很多研究尚停留在理論水平,為了進一步推動MSMT的發展,筆者認為以下幾個方面的研究仍然是值得期待的。
(1) 翻譯模型的差異性、翻譯模型參數以及 N-best 數量都會影響系統融合的效果。目前,一般選擇既有差異性又能夠互補,翻譯質量相差不太大的翻譯模型參與融合,通過在開發集上的組合策略嘗試,最終選取最有效的融合方式。相似翻譯模型以及質量稍差的翻譯模型參與融合是不是完全沒有可取之處,以及有沒有更好的組合策略代替現有的枚舉嘗試方式可以進一步研究。
(2) 融合機器翻譯目的是獲取比單個系統更優的翻譯結果,但是目前系統策略融合魯棒性不充分,存在數據集依賴問題,甚至會出現低于最優的單個系統的翻譯性能的情況。保守的策略融合雖然具有較強的魯棒性,能保證目標翻譯的質量,但提高的幅度則比較小。
(3) 不同的后處理融合方法、模型間融合方法以及在更多模塊的融入策略各有優勢,如何有效地組合,產生有效率和性能兼顧的翻譯系統值得期待。
(4) 目前的策略融合的粒度局限于句法層面,如何融入語義等更深層次知識來指導融合,有效地改善翻譯質量也值得嘗試。
(5) 在盡可能提高融合后機器翻譯的性能的同時,也要兼顧融合機器翻譯的效率。多個引擎并行融合,需要翻譯時間是倍增的。提高翻譯效率,快速融合也是MSMT系統的一個趨勢。
(6) 機器翻譯評測本身就是一個人工智能問題,無論基于編輯距離還是N元匹配的自動評測都有各自的局限性,用單一的測評方法評價不同的翻譯引擎,往往有失公允。MSMT恰恰融合了多種翻譯引擎,因此,制定合適的評價方法,綜合考慮句法、語義等層面的信息,公正的評價MSMT,以評測促發展也是至關重要的。
[1] Gao Q S, Hu Y, Li L, et al. Semantic language and multi-language MT approach based on SL[J]. Journal of Computer Science and Technology, 2003, 18(6): 848-852.
[2] 關曉薇. 基于語義語言的機器翻譯系統中若干關鍵問題研究[D]. 大連理工大學博士學位論文, 2009.
[3] 胡玥, 高小宇, 李莉, 等. 自然語言合理句子的生成系統[J]. 計算機學報, 2010,33(3):535-544.
[4] 俞士汶, 穗志方, 朱學鋒. 綜合型語言知識庫及其前景[J]. 中文信息學報, 2011, 25(6): 12-20.
[5] 黃河燕,張克亮,張孝飛. 基于本體的專業機器翻譯術語詞典研究[J].中文信息學報,2007,21(1): 17-22.
[6] 史樹敏,馮沖,黃河燕, 等. 基于本體的漢語領域命名實體識別[J]. 情報學報, 2009, 6: 857.
[7] 朱朝勇. 基于本體的知識庫分類研究[D]. 中國科學技術大學博士學位論文, 2013.
[8] 朱朝勇,黃河燕,史樹敏. 基于詞匯注釋的層次化領域標注[J]. 中國通信, 2012, 9(3): 19-27.
[9] 朱小健,晉耀紅. 層次語義類型樹模型及其在漢英機器翻譯中的應用[J].中國通信,2012,9(12):80-92.
[10] 趙小兵,邱莉榕,趙鐵軍.多民族語言本體知識庫構建技術[J].中文信息學報,2011,(04):71-74.
[11] 那順烏日圖.蒙古語語言知識庫的建立與應用[J].中文信息學報,2011,(06):162-165.
[12] 阿里甫·庫爾班,吾買爾江·庫爾班,尼加提·阿不都肉蘇力.維吾爾語框架語義知識庫的概念設計[J].中文信息學報,2010,(04):114-118.
[13] P. Brown, S. Della Pietra, V. Della Pietra, et al. The Mathematics of Machine Translation: Parameter Estimation. Computational Linguistics. 1993,19(2):263-311
[14] Bahl L R, Jelinek F, Mercer R L. A maximum likelihood approach to continuous speech recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1983 (2): 179-190.
[15] Och F J, Ney H. A comparison of alignment models for statistical machine translation[C]//Proceedings of the 18th conference on Computational linguistics-Volume 2. Association for Computational Linguistics, 2000: 1086-1090.
[16] Och F J, Ney H. Discriminative training and maximum entropy models for statistical machine translation[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2002: 295-302.
[17] Xiao T, Zhu J. Unsupervised Sub-tree Alignment for Tree-to-Tree Translation[J]. Journal of Artificial Intelligence Research, 2013, 48: 733-782.
[18] 劉群.基于句法的統計機器翻譯模型與方法[J].中文信息學報,2011,(06):63-71.
[19] 熊德意,劉群,林守勛.基于句法的統計機器翻譯綜述[J].中文信息學報,2008,(02):28-39.
[20] Dekai Wu. Stochastic Inversion Transduction Grammars and Bilingual Parsing of Parallel Corpora[J]. Computational Linguistics, 1997, 23:377-404.
[21] Chiang, D. Hierarchical Phrase-Based Translation[J]. Computational Linguistics,2007,33(2): 201-228.
[22] Yamada K, Knight K. A syntax-based statistical translation model[C]//Proceedings of the 39th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2001: 523-530.
[23] Brown R D. The CMU-EBMT machine translation system[J]. Machine translation, 2011, 25(2): 179-195.
[24] 郝曉燕,劉偉,李茹,劉開瑛.漢語框架語義知識庫及軟件描述體系[J].中文信息學報,2007,(05):96-100,138
[25] 李茹, 王智強, 李雙紅, 等. 基于框架語義分析的漢語句子相似度計算[J]. 計算機研究與發展, 2013, 50(8): 1728-1736.
[26] H.Jiexu Cao Yu and Guan Xiaowei. A Set of Machine Learning Methods for Inducing Translation Templates with Grammar- semantic Type Constraints[J], Information and Control Express LetterS.2011,15(3):701-706
[27] 趙紅梅, 呂雅娟, 賁國生, 等. 第七屆全國機器翻譯研討會機器翻譯評測總結[J]. 中文信息學報, 2012, 26(1): 22-30.
[28] 杜金華, 張萌, 宗成慶, 等. 中國機器翻譯研究的機遇與挑戰--第八屆全國機器翻譯研討會總結與展望[J]. 中文信息學報, 2013, 27(4): 1-8.
[29] 李茂西,宗成慶.機器翻譯系統融合技術綜述[J].中文信息學報,2010(4):74-84.
[30] Kumar S, Byrne W J. Minimum Bayes-Risk Decoding for Statistical Machine Translation[C]//Proceedings of the HLT-NAACL. 2004: 169-176.
[31] Rosti A V I, Ayan N F, Xiang B, et al. Combining Outputs from Multiple Machine Translation Systems[C]//Proceedings of the HLT-NAACL. 2007: 228-235.
[32] He Y, Ma Y, van Genabith J, et al. Bridging SMT and TM with translation recommendation[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 622-630.
[33] Snover M, Dorr B, Schwartz R, et al. A study of translation edit rate with targeted human annotation[C]//Proceedings of association for machine translation in the Americas. 2006: 223-231.
[34] He Y, Ma Y, Way A, et al. Integrating N-best SMT Outputs into a TM System[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Association for Computational Linguistics, 2010: 374-382.
[35] Federmann C. Multi-Engine Machine Translation as a Lifelong Machine Learning Problem[C]//Proceedings of the 2013 AAAI Spring Symposium Series. 2013.
[36] Federmann C. A machine-learning framework for hybrid machine translation[C]//Proceedings of the KI 2012: Advances in Artificial Intelligence. Springer Berlin Heidelberg, 2012: 37-48.
[37] 張捷, 陳群秀. 日漢機器翻譯系統中的多Agent研究[J]. 中文信息學報, 2003, 17(1): 7-12.
[38] 杜偉, 陳群秀. 多策略漢日機器翻譯系統中的核心技術研究[J]. 中文信息學報, 2008, 22(5): 60-66.
[39] SIM K, BYRNE W, GALES M, et al. Consensus network decoding for statistical machine translation system [C]//Proceedings of the IEEE International Conference on Acoustics,Speech, and Signal Processing, 2007: 105-108.
[40] Smith J, Clark S. EBMT for SMT: a new EBMT-SMT hybrid[C]//Proceedings of the 3rd International Workshop on Example-Based Machine Translation. 2009: 3-10.
[41] Koehn P, Senellart J. Convergence of translation memory and statistical machine translation[C]//Proceedings of AMTA Workshop on MT Research and the Translation Industry. 2010: 21-31.
[42] Ma Y, He Y, Way A, et al. Consistent Translation using Discriminative Learning-A Translation Memory-inspired Approach[C]//Proceedings of the ACL. 2011: 1239-1248.
[43] Kun Wang, Chengqing Zong and Keh-Yih Su. Integrating Translation Memory into Phrase-Based Machine Translation during Decoding. To appear in Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (ACL), Sofia, Bulgaria, August 4-9, 2013.
[44] Groves D, Way A. Hybrid example-based SMT: the best of both worlds?[C]//Proceedings of the ACL Workshop on Building and Using Parallel Texts. Association for Computational Linguistics, 2005: 183-190.
[45] Groves D, Way A. Hybrid data-driven models of machine translation[J]. Machine Translation, 2005, 19(3-4): 301-323.
[46] Groves D. Hybrid data-driven models of machine translation[D]. Dublin City University, 2007.
[47] Liu Z, Wang H, Wu H. Example-based machine translation based on tree-string correspondence and statistical generation[J]. Machine translation, 2006, 20(1): 25-41.
[48] Jiang H, Yang M, Zhao T, et al. A statistical machine translation model based on a synthetic synchronous grammar[C]//Proceedings of the ACL-IJCNLP 2009 Conference Short Papers. Association for Computational Linguistics, 2009: 125-128.
[49] Duan N, Li M, Zhang D, et al. Mixture model-based minimum bayes risk decoding using multiple machine translation systems[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Association for Computational Linguistics, 2010: 313-321.
[50] Xiao T, Zhu J, Zhu M, et al. Boosting-based system combination for machine translation[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 739-748.
[51] DeNero J, Kumar S, Chelba C, et al. Model combination for machine translation[C]//Proceedings of the Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 975-983.
[52] Duan N, Li M, Zhang D, et al. Mixture model-based minimum bayes risk decoding using multiple machine translation systems[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Association for Computational Linguistics, 2010: 313-321.
[53] Nguyen T L, Vogel S, Tower T, et al. Integrating Phrase-based Reordering Features into a Chart-based Decoder for Machine Translation[C]//Proceedings of ACL. 2013.
[54] 王海峰,吳華,劉占一.互聯網機器翻譯[J].中文信息學報,2011,(06):72-80.
[55] 劉占一,李生,劉挺,等. 利用統計搭配模型改進基于實例的機器翻譯[J].軟件學報, 2012,23(6):1472-1485.
[56] Rosa R, Marecek D, Tamchyna A. Deepfix: Statistical Post-editing of Statistical Machine Translation Using Deep Syntactic Analysis[J]. ACL 2013, 2013: 172.
[57] Dugast L, Senellart J, Koehn P. Statistical post-editing on SYSTRAN’s rule-based translation system[C]//Proceedings of the Second Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2007: 220-223.
[58] Michel Simard, Cyril Goutte, and Pierre Isabelle. 2007.Statistical phrase-based post-editing[C]//Proceedings of NAACL HLT 2007, pages 508-515. Rochester, NY.
[59] Michel Simard, Pierre Isabelle, and Cyrill Goutte.2007. Domain adaptation of MT systems through automatic post-editing[C]//Proceedings of the MT Summit XI, pages 225-261, Copenhagen, Denmark.
[60] Béchara H, Rubino R, He Y, et al. An Evaluation of Statistical Post-Editing Systems Applied to RBMT and SMT Systems[C]//Proceedings of the COLING. 2012: 215-230.
A Survey of Multi-Strategy Machine Translation
LI Yegang1,2, HUANG Heyan1, SHI Shumin1, FENG Chong1, SU Chao1
(1. Beijing Engineering Applications Research Center of High Volume Language Information Processing and Cloud Computing, School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081, China;2. Department of Computer Science and Technology, Shandong University of Technology, Zibo Shandong 255049, China)
This paper presents an overview of multi-strategy machine translation (MT). According to different level of combination the approaches to multi-strategy MT are classified into system-level combination and module-level combination. The representative method for each combination type are discussed in this paper, and the future development prospects of multi-strategy MT are also discussed.
machine translation; multi-strategy MT;system combination for MT; hybrid-MT; multi-engine MT

李業剛(1975—),博士研究生,副教授,主要研究領域為自然語言處理,機器翻譯。E?mail:lyg8256@bit.edu.cn;lyg8256@qq.com黃河燕(1963—),博士,教授,主要研究領域為自然語言處理與機器翻譯。E?mail:hhy63@bit.edu.cn史樹敏(1978—),博士,講師,主要研究領域為自然語言處理,本體方法論及應用。E?mail:bjssm@bit.edu.cn
1003-0077(2015)02-0001-09
2014-05-19 定稿日期: 2014-07-16
國家重點基礎研究發展計劃(973)(2013CB329303);國家自然科學基金(61132009);國家自然科學基金(61202244)
TP391
A