在國際交流和科研教育等領域,人們需要對異國語言文字進行翻譯,過去這是語言大師施展才華的舞臺,隨著硬件技術飛速發展、軟件技術不斷完善以及語言研究的不斷深入,機器翻譯得到越來越廣泛的應用。如果有一天你參加一個大型會議,發現那里的同聲翻譯竟然是一個機器人,你是否會后悔自己花了十年時間去學習另一種語言呢?為了讓這一天早日到來,讓我們現在就開始了解機器翻譯系統的原理及其采用的技術,并展望其未來的發展和應用。
機器翻譯的原理——人工智能
與電子雙語辭典和翻譯記憶產品不同,機器翻譯使用人工智能來實現對源語句的復雜分析,并構建盡可能完善的翻譯。目前已形成商業化產品的主要類型有基于轉換的機器翻譯和數據驅動型機器翻譯,其他的機器翻譯類型還有簡單的基于詞典的機器翻譯、中間語機器翻譯和混合系統。
基于轉換的機器翻譯
基于轉換的機器翻譯又稱基于規則的機器翻譯,它是從五十年代開始發展起來的,目前大多數的企業和商業機器翻譯屬于此類型,實現方式如下:
分析源語言句段。系統首先查看辭典并對源語言句型進行句法分析,即將句子分解為幾個部分,如主語、謂語或賓語等。它采取分解的方式而不是根據詞匯直接轉換,以保證句子的前后關系,并符合翻譯目標語言的語法規則。
映射語法結構到目標語言語法并產生目標語言句子。根據轉換規則重新排列詞語,或調整句子結構使之符合翻譯目標語言的語法規則,使其最終翻譯結果符合目標用戶的使用習慣。如果規則尚未建立,句子模式就無法獲得正確分析。
數據驅動型機器翻譯
數據驅動型機器翻譯可通過兩種不同的方式來實現,即統計機器翻譯(Statistical Machine Translation,SMT)或基于翻譯實例的機器翻譯(Example-Based Machine Translation,EBMT)。這兩種方法都是使用語料庫作為翻譯知識的來源,基于系統已有的翻譯樣例,分析源句子和目標句子對,計算每個源句子片段與目標句子片段的匹配度,查找出與源句子詞匯和表達最匹配的目標句子片段。由于句子片段可以是從單個詞語到整個句段的任何部分,系統相應地自動建立辭典和翻譯。
基于統計的機器翻譯方法源于把機器翻譯看成是一個信息傳輸的過程,即把翻譯看成是一種解碼的過程。

基于翻譯實例的機器翻譯系統中知識以翻譯實例和語義詞典等形式存在,對于實例庫中已有的文本,可以直接獲得高質量的翻譯結果;對與實例庫中存在的實例相似的文本,通過類比推理,并對翻譯結果進行少量的修改,構造近似的翻譯結果。
基于翻譯實例的機器翻譯避免了一些傳統的基于規則機器翻譯必須進行的深層次語言學分析。只要記憶庫中存在外形同輸入相似的句子,就可以進行匹配,容易產生高質量的譯文,尤其是利用了較大的翻譯實例庫,或者輸入能和實例精確匹配時更是如此。
數據驅動型機器翻譯系統的出現,使機器翻譯不需要經過句型分析和轉換規則處理,就能直接獲得翻譯結果。因此近年來一直是機器翻譯的研究的熱點之一。
混合系統
為綜合各個機器翻譯方式的優勢和不足,以生成更好的翻譯結果,人們開始將基于規則的語法分析和基于數據驅動轉換規則的功能集成到一起,或者將基于樣例的系統和標準的統計方法集成在一起進行研究,于是混合系統成為當前的另一個機器翻譯研究熱點。如德國的Verbmobil系統,就是涉及三種語言(德語、英語、日語)的雙向語音機器翻譯系統。該系統將基于統計的翻譯方法(Statistical Translation)和基于樣例的翻譯方法(Case-Based Translation)結合到一起,語音處理領域和自然語言處理領域中的各種技術幾乎都在這個系統中有所反映。Verbmobil在大規模翻譯實驗中,正確翻譯率達到大約80%,在真實用戶的端對端測試中,90%的對話任務獲得成功。
機器翻譯VS電子辭典
機器翻譯系統可以為任何類型的句段自動建立翻譯,而不受存儲在翻譯記憶數據庫中的已有句段所限制。大多數的機器翻譯系統能根據句子的上下文提供相應的詞和句段的翻譯,而不僅僅是逐字翻譯。相比而言,其他的計算機翻譯工具如電子雙語詞典,只能對單詞或短語提供自動化翻譯,它無法根據給定語境來選擇翻譯,也不能處理整個句段,而對于連續的文章,這種逐字翻譯往往是無效的。
翻譯記憶產品是許多翻譯機構常用的翻譯工具,它能夠為詞、句子甚至段落提供自動化翻譯。但它要求源文件內容與已存儲在翻譯記憶數據庫中的目標句段具有一定程度的匹配。如果源句段與目標句段相匹配,那么能獲得相應的翻譯結果,否則就無法獲得相應的翻譯。翻譯記憶可以避免人們在同一文檔或不同文檔中的相同句子的重復翻譯。但人們往往習慣于用不同的方式表達相同的事情,而翻譯記憶對于那些在翻譯記憶庫中無法找到相匹配的句段文字,無法提供翻譯。
機器翻譯能靈活處理任何需要翻譯的句段文字,但其翻譯質量除了取決于機器翻譯系統已有的語法規則以及系統辭典以外,還依懶于源語言的書寫質量,如表達清晰、句子結構簡單等。
機器翻譯VS人工翻譯
與傳統的使用翻譯人員進行人工翻譯相比,機器翻譯具有以下優勢:
首先,機器翻譯降低翻譯成本。雖然當翻譯量較小時,由于需要支付系統實施成本,機器翻譯所帶來的成本下降并不顯著,甚至可能會比人工翻譯要高。但如果人工翻譯成本超出機器翻譯系統的安裝成本,機器翻譯將能降低翻譯成本,而且隨著翻譯工作量的不斷增加,機器翻譯的成本將遠遠低于其人工翻譯成本。
其次,機器翻譯能縮短交付時間。采用機器翻譯系統作為計算機輔助翻譯的工具,其翻譯交付時間取決于后編輯所需花費的時間,而對于很多不需要進行后編輯的翻譯工作產品,可立即交付。
第三,機器翻譯能隨時提供翻譯。翻譯人員的資源是有限的,一個翻譯項目過來,往往需要花費一定的時間來調配和獲得相應的人力資源。而機器翻譯系統可以隨時進行而無需等候。
第四,與人工翻譯相比,采用機器翻譯能更好地保持不同文件以及同一文件不同部分上下文的一致性。而人工翻譯,除非經過專門培訓并進行相應的管理機制,才可能保持上下文的一致性和準確性。另外,利用機器翻譯可以省去調配翻譯人員到位,分發工作給相關的人員,收集、比較和檢查翻譯作品,對術語進行一致性處理等的工作過程,簡化了翻譯工作流程,并能更有效地對翻譯生產量進行評估。
但是,由于機器翻譯不可能提供百分之一百準確的翻譯,它不可能在所有的翻譯領域完全替代翻譯專家的工作。
機器翻譯的應用領域
當我們分析翻譯活動的需求和目的時,我們可以發現,有的翻譯需求要求翻譯結果非常好,即要求翻譯結果百分之一百準確;但有的翻譯需求對翻譯質量要求稍微低一些,用戶只是想了解其基本內容,而且常常是越快越好,而這種需求應該可以利用機器翻譯來完成。目前的機器翻譯技術除了可以支持文本文件或支持從機器翻譯用戶界面輸入文字外,還能支持HTML和Microsoft Word文件格式;如果有其他類型的文件格式需要翻譯,也可以通過過濾器將其內容和表現形式(如粗體、斜體等)分離后,再進行翻譯。如果借用其他工具對光學字符或語音進行識別,機器翻譯還可以對語音或打印材料進行翻譯。所以,機器翻譯可以應用于以下領域:
了解信息概況
利用機器翻譯,使讀者對源文字信息有大致的了解。例如,當用戶需要了解源文件的大致內容以幫助其決策是否提供該文件的翻譯出版物時,可以由機器翻譯來滿足該需求。
常用信息的訪問和發布
對于一些具有重復性卻有效期較短的信息,如股票價格,天氣預報以及財務信息等,可以使用機器翻譯來完成。如,加拿大政府利用機器翻譯系統,將天氣報告內容從英語自動翻譯為法語。
信息交流
翻譯系統可以為電子郵件以及其他人與人之間的交流提供快速翻譯。如聊天、即時信息和短信服務等。目前在國外已有一些公司,利用機器翻譯處理人際間的交流,并為其用戶帶來了可觀的利益。如果在系統服務器上配置相應的安全服務,用戶的安全和隱私問題可以得到更好保障。
語音翻譯
機器翻譯可替代翻譯人員做一些日常交流的翻譯,從而使翻譯人員專注于進行更重要事務的處理。如賓館、醫院登記處,信息站,旅游景點等那些不需要由翻譯人員來進行高質量翻譯的場所,可以由機器翻譯來處理。
目前已有一些機器翻譯系統應用于翻譯機構、Internet網站、從事多語言市場和勞務的公司。如翻譯機構使用Trados、SDL等機器翻譯產品為翻譯專家提供翻譯草稿,以提高翻譯速度和翻譯的一致性。網站如金橋翻譯中心http://www.netat.net/使用機器翻譯系統為網絡用戶提供即時翻譯,為瀏覽者提供方便。還將會有越來越多的企業和機構使用機器翻譯輔助其進行國際間的交流。