祖麗瑚瑪爾·吐爾干
摘要:維漢機器翻譯中經常出現的問題有單個翻譯模型翻譯效果不佳或多個翻譯模型間翻譯有很大不同等。對此,一種根據釋義信息發明的系統融合方法被提出。通過這種方法,維漢機器翻譯先將漢語端的釋義信息提取出來并對漢語翻譯假設進行詞對齊,然后根據詞對齊信息構建和解碼使網絡混淆,最后進行系統融合得出結果。有實驗證明,此法較單個翻譯系統HPSTW翻譯質量更加優異。
關鍵詞:維漢機器翻譯;釋義信息;系統融合;過濾
一、基于釋義信息的維漢機器翻譯
系統融合現狀
在最近的幾年里,系統融合技術受到了國內外學者的熱捧,機器翻譯領域被國內外的很多學者運用到系統融合中,例如根據混亂的網絡解碼將一些詞匯進行整合的方式。在進行詞匯級別系統融合的過程中,其翻譯舉例詞起到了非常重要的作用,翻譯舉例詞對齊會對系統的整合性造成影響,其中典型的方式如下:
在翻譯的舉例詞對齊被編輯距離作為根據、根據在語料庫中的翻譯舉例詞進行對照、根據Meteor的翻譯舉例詞對照和根據語言學文化的舉例假設詞,即使將以上的這些例子運用到漢語翻譯假設詞對照時,還是不能準確定位到漢語翻譯假設相近意思進行行替換的詞或短語。
解釋其意義是傳遞一樣的信息的一種方式,在學者們通過文本產生和文本書籍的查閱后,得出結果:它可以產生更加順暢和豐富的文本,而且在此過程中不僅可以使機器翻譯的質量更好,還可以在輸人文檔中詢查到相同的信息,使此過程更加便捷。
二、基于釋義信息的維漢機器翻譯系統融合的相關工作
針對群體的不同,句子等級、短語等級和詞匯等級三個方面,在系統融合中如今被作為考察對象。將各系統的翻譯假設,被認為是平行語料。它是根據語料庫的翻譯假設詞整合方法,因為使用雙語對齊模型翻譯假設的雙向詞對齊,在語料不足時經常導致數據缺乏,而且只支持表面形式,是因為此對齊方法只借著語料庫的范圍。
另外,人力采集、使用現有的詞匯資源提取、根據語料庫的釋義提取,這3種屬于釋義提取方法。
通過雙語語料庫轉換成釋義,使用有效的雙語語料資源和雙語短語表,被稱為釋義提取方法。
根據Meteor翻譯假設詞對齊,是由于翻譯假設詞對齊方式,在如今詞匯等級系統融合備受歡迎,它把釋義匹配模塊添加在表面形式匹配、詞干、同義詞匹配基礎上,由于語言的釋義匹配不完整,所以在進行維漢機器翻譯系統融合探索時,不能使用漢語釋義信息,需要額外增加漢語釋義內容,然后將它運用到維漢機器翻譯的系統融合中。
三、基于釋義信息系統融合的研究
創新是發展的動力,一項新技術只有通過不斷創新才能提高它的社會價值,穩定它在新科技領域的地位。本文通過修正假設詞對齊結果以及提取的方式發現研究維漢機器翻譯,證明了構建和解碼混淆網絡才是獲得融合結果的方法。
系統融合需要重視單語詞的對齊情況,因直接影響著翻譯選取的好壞,漢語翻譯假設進行單語詞對齊時的弊端也是存在的,一是現有工具只是“表面形式者”,出現兩個翻譯假設的詞相同,會認為兩個詞匹配,打破原有信息數據的穩定性,丟失信息等嚴重現象,那么釋義信息的引人就解決了這個問題,讓對齊工具發揮最大限度的短語匹配能力。例如出現容易混淆的詞語時,釋義匹配器便會快速匹配與之相對應的短語。但是釋義匹配器也是存在局限性的,比如只支持部分語種的釋義匹配功能,有待進一步提高。
四、結語
本文探討如何將漢語釋義信息引人維漢機器翻譯系統,實踐中循序漸進地提高了維漢機器翻譯的質量。當然,有利有弊,弊端就是只能用語言模型和全局系統權重混淆網絡,用提高閾值的方法來過濾釋義表。創新才是發展的動力,維吾爾語言的特性,讓維漢機器翻譯系統融合的新方法仍在開發中,新方法能有效提高翻譯質量,相信不久的將來不同語言的交流成為可能。
(作者單位:新疆日報社)