淺析機器翻譯瓶頸及研發趨勢

2019-09-10 17:43:56安寧

新教育論壇 2019年35期

機器翻譯（Machine Translation）是翻譯人員利用多種計算機翻譯軟件，將源語言（Source Language）文件，轉換成另外一種目標語（Target Language）或者多種目標語言，翻譯人員借助計算機器翻譯一直是人工智慧領域中的重要研發方向。機器翻譯進行翻譯時涉及到自然語言（Natural Language，如中文、英文等）的加工合成，幾乎已經覆蓋自然語言處理的所有技術，并且有較為明確具體檢測手段，可以當做自然語言處理技術的研發項目。不可避免的一個重要問題就是機器翻譯若要占領翻譯市場，就必須要面對來自人工翻譯者的挑戰。按照機器翻譯的流程，翻譯成品要譯者人工潤色和審核，這部分的人力成本將會占實際運作成本的大部分。也就意味著能夠節省的時間必須多到一定程度，機器翻譯才能達到實用化的階段。在理想情況下，人工潤色盡量無須參照原文，直接進行修飾即可。

機器翻譯總體上可以分為直接式（Direct）、轉換式（Transfer）及中介語（Interlingua）三大類，實操一般都是采用轉換式。轉換式機器翻譯流程大致可分為三個階段：分析、轉換和生成。自然語言處理最大的難處，在于自然語言本身復雜更新較快，而且例外繁多。因此機器翻譯所面對的主要問題，可以歸納為兩大項：（1）文句中歧義（Ambiguity）;（2）語法不合設定（Ill-formedness）現象。自然語言的語法和語意中需通過上下文線索加以判斷。以下是兩類問題：

問題一，歧義。就是一個句子有多種解釋。我們日常生活中不知不覺地充滿了歧義句。雖然人們可以根據常識正確判斷句意，但是對于依照文字規則來理解句子的計算機翻譯軟件來說，這就是一個歧義句。在做句子分析時，幾乎在每一個環節（如斷詞、句法分析、語意分析等）都可能出現歧義。單個字或者詞的解釋往往會因前后的內容產生不同的意思。除此之外，判斷句義依靠的線索在不同范圍。因此在機器翻譯過程中，若采用線性流水式的處理程序（Pipelined Architecture），則前面的模塊則無法做出確定性的（Deterministic）判斷，而須盡量多地保留候選者，而讓后面的模塊進行處理。所以，最終判斷的時機應盡量延后，在累積足夠信息后，再選擇要使用的方法。這樣才不會在開始就把正確的譯法排除到考慮范圍之外。

問題二，所謂的語法，是語言學家，依靠目前擁有的大量語料，歸納總結出的一些規則。這些規則是不完整的，往往有許多的例外。而且語言是一直在變遷的，無法要求語言的使用者，每字每句都合乎這些人為加工訂定的文法，自然地也難以避免這樣的情況出現在翻譯稿件中。這些與設定語法的例子不符的地方包括不明的字匯，如新生的專有名詞，和舊字新法的。這些現在部分來自單純的疏失，例如錯字、漏字、贅字、轉檔或傳輸時產生的亂碼，或是不慎混入的標簽（tag），也有些是已被大眾所接受的字匯和語法。理想化的機器翻譯，必須能夠處理這些與設定語法不符的問題。

如何解決上述的歧義或語法問題，則需要大量知識。這些大量知識的管理，分類，儲存和應用，是建立機器翻譯時最大重點和難點。我們首先要將這些包含在語言學之內（intra-linguistic）、跨語言學的（inter-linguistic），以及超乎語言學之外（extra-linguistic）的知識抽取、表達出來，解釋上述的語法和歧義問題，而且還要維護這個龐大的知識庫。所以，我們要建立的知識庫必須包羅萬象，吸收涵蓋各領域、各層面的知識。它本身就是一項艱難復雜的工作。也就是說知識庫的建設維護是機器翻譯系統開發最大的瓶頸。

一般來說知識的取得，和我們表現知識的方式有著緊密的聯系。知識表現方式可以有很多不同的存在形式。其一就是加入知識庫的規則，規則系統是由事先以人力建立好的大量規則所構成。在進行機器翻譯時，翻譯軟件根據這些規則，進行二擇判斷，進行分析、轉換和生成步驟，最后給出明確答案。這種方法被機器翻譯廣泛采用。它的優點在于貼近人的直覺，容易理解，遵循已有的語言學知識和規則，充分利用已有的經驗和研究結果。逐漸使其參數化，不同的語言現象用幾率掃描進行描述，積累量足夠大時，語言模型就自然建立起來。其最大的優點在于通過參數，讓計算機翻譯軟件在不同的條件下根據不同的偏好進行解釋和加工，依靠參數估算任務給計算機翻譯軟件進行。

機器翻譯的未來，研發高品質的翻譯系統，需要的知識庫是巨大并且瑣碎的。對于知識的獲取和管理，是機器翻譯系統研發的瓶頸。近些年來，機器翻譯系統的研發，已經漸漸地由規則庫的方式轉變成為參數化方式，并且其優越性已經得到了證明，也逐漸成為了主流。隨著計算機行業的發展，計算機硬件性能的大幅提升，機器翻譯軟件已經突破了計算能力和記憶容量的限制。與此同時，人們生活和語言的發展使得語料庫的規模也在爆炸似的增長，由譯者來制定和模擬模型，利用計算機的處理優勢進行語料庫的加工，可以大大提高計算機學習效率，降低知識獲取和管理的難度。這也是對機器翻譯研發瓶頸的突破。放眼未來，如果能構建精準的模型，提高語言融合的鍥合度，利用合適的規則抽取語料庫中相關的知識，可以在專業特種行業領域發揮巨大的作用，提供高品質的翻譯。如此一來，機器翻譯最終可以擁有廣泛的實用化領域和空間，也必將占有相當大的翻譯市場份額。

作者簡介：安寧（1980.01-），男，漢族，吉林長春人，吉林建筑大學國際合作與交流碩士，講師，從事外國語言文學，機器翻譯研究。