機器翻譯(Machine Translation)是翻譯人員利用多種計算機翻譯軟件,將源語言(Source Language)文件,轉換成另外一種目標語(Target Language)或者多種目標語言,翻譯人員借助計算機器翻譯一直是人工智慧領域中的重要研發方向。機器翻譯進行翻譯時涉及到自然語言(Natural Language,如中文、英文等)的加工合成,幾乎已經覆蓋自然語言處理的所有技術,并且有較為明確具體檢測手段,可以當做自然語言處理技術的研發項目。不可避免的一個重要問題就是機器翻譯若要占領翻譯市場,就必須要面對來自人工翻譯者的挑戰。按照機器翻譯的流程,翻譯成品要譯者人工潤色和審核,這部分的人力成本將會占實際運作成本的大部分。也就意味著能夠節省的時間必須多到一定程度,機器翻譯才能達到實用化的階段。在理想情況下,人工潤色盡量無須參照原文,直接進行修飾即可。
機器翻譯總體上可以分為直接式(Direct)、轉換式(Transfer)及中介語(Interlingua)三大類,實操一般都是采用轉換式。轉換式機器翻譯流程大致可分為三個階段:分析、轉換和生成。自然語言處理最大的難處,在于自然語言本身復雜更新較快,而且例外繁多。因此機器翻譯所面對的主要問題,可以歸納為兩大項:(1)文句中歧義(Ambiguity);(2)語法不合設定(Ill-formedness)現象。自然語言的語法和語意中需通過上下文線索加以判斷。以下是兩類問題:
問題一,歧義。就是一個句子有多種解釋。我們日常生活中不知不覺地充滿了歧義句。雖然人們可以根據常識正確判斷句意,但是對于依照文字規則來理解句子的計算機翻譯軟件來說,這就是一個歧義句。在做句子分析時,幾乎在每一個環節(如斷詞、句法分析、語意分析等)都可能出現歧義。單個字或者詞的解釋往往會因前后的內容產生不同的意思。除此之外,判斷句義依靠的線索在不同范圍。因此在機器翻譯過程中,若采用線性流水式的處理程序(Pipelined Architecture),則前面的模塊則無法做出確定性的(Deterministic)判斷,而須盡量多地保留候選者,而讓后面的模塊進行處理。所以,最終判斷的時機應盡量延后,在累積足夠信息后,再選擇要使用的方法。這樣才不會在開始就把正確的譯法排除到考慮范圍之外。
問題二,所謂的語法,是語言學家,依靠目前擁有的大量語料,歸納總結出的一些規則。這些規則是不完整的,往往有許多的例外。而且語言是一直在變遷的,無法要求語言的使用者,每字每句都合乎這些人為加工訂定的文法,自然地也難以避免這樣的情況出現在翻譯稿件中。這些與設定語法的例子不符的地方包括不明的字匯,如新生的專有名詞,和舊字新法的。這些現在部分來自單純的疏失,例如錯字、漏字、贅字、轉檔或傳輸時產生的亂碼,或是不慎混入的標簽(tag),也有些是已被大眾所接受的字匯和語法。理想化的機器翻譯,必須能夠處理這些與設定語法不符的問題。
如何解決上述的歧義或語法問題,則需要大量知識。這些大量知識的管理,分類,儲存和應用,是建立機器翻譯時最大重點和難點。我們首先要將這些包含在語言學之內(intra-linguistic)、跨語言學的(inter-linguistic),以及超乎語言學之外(extra-linguistic)的知識抽取、表達出來,解釋上述的語法和歧義問題,而且還要維護這個龐大的知識庫。所以,我們要建立的知識庫必須包羅萬象,吸收涵蓋各領域、各層面的知識。它本身就是一項艱難復雜的工作。也就是說知識庫的建設維護是機器翻譯系統開發最大的瓶頸。
一般來說知識的取得,和我們表現知識的方式有著緊密的聯系。知識表現方式可以有很多不同的存在形式。其一就是加入知識庫的規則,規則系統是由事先以人力建立好的大量規則所構成。在進行機器翻譯時,翻譯軟件根據這些規則,進行二擇判斷,進行分析、轉換和生成步驟,最后給出明確答案。這種方法被機器翻譯廣泛采用。它的優點在于貼近人的直覺,容易理解,遵循已有的語言學知識和規則,充分利用已有的經驗和研究結果。逐漸使其參數化,不同的語言現象用幾率掃描進行描述,積累量足夠大時,語言模型就自然建立起來。其最大的優點在于通過參數,讓計算機翻譯軟件在不同的條件下根據不同的偏好進行解釋和加工,依靠參數估算任務給計算機翻譯軟件進行。
機器翻譯的未來,研發高品質的翻譯系統,需要的知識庫是巨大并且瑣碎的。對于知識的獲取和管理,是機器翻譯系統研發的瓶頸。近些年來,機器翻譯系統的研發,已經漸漸地由規則庫的方式轉變成為參數化方式,并且其優越性已經得到了證明,也逐漸成為了主流。隨著計算機行業的發展,計算機硬件性能的大幅提升,機器翻譯軟件已經突破了計算能力和記憶容量的限制。與此同時,人們生活和語言的發展使得語料庫的規模也在爆炸似的增長,由譯者來制定和模擬模型,利用計算機的處理優勢進行語料庫的加工,可以大大提高計算機學習效率,降低知識獲取和管理的難度。這也是對機器翻譯研發瓶頸的突破。放眼未來,如果能構建精準的模型,提高語言融合的鍥合度,利用合適的規則抽取語料庫中相關的知識,可以在專業特種行業領域發揮巨大的作用,提供高品質的翻譯。如此一來,機器翻譯最終可以擁有廣泛的實用化領域和空間,也必將占有相當大的翻譯市場份額。
作者簡介:安寧(1980.01-),男,漢族,吉林長春人,吉林建筑大學國際合作與交流碩士,講師,從事外國語言文學,機器翻譯研究。