鄒啟立
【摘 要】技術可以讓語言服務變得更加輕松,簡單。同時技術也改變了人類傳統的溝通形式,促進了人類的交流,特別跨語言文化的溝通。基于大數據的機器翻譯將是未來語言服務的主要形式和語言服務。
【關鍵詞】機器翻譯;語言服務創新
一、機器翻譯的歷史與現狀
機器翻譯(Machine Translation)就是利用計算機程序把一種語言的文本(可稱為源語言文本)翻譯成另外一種語言的文本(可稱為目標語言文本)(常寶寶,張偉1998.)。按照馮志偉(1994 , 1996)的說法,到 1980 年代,機器翻譯研究經歷了草創期 、蕭條期 、復蘇期 、繁榮期等幾個階段。草創期以 1954 年在美國喬治敦大學用 IBM 計算機進行的首次機器翻譯實驗為標志,這時的機器翻譯方法還比較簡單 , 基本上采用的是單純的查詞典和詞頻統計等方法,筆者這里稱之為樸素的統計方法。而 1964 年的 AL PAC報告將全世界的機器翻譯熱潮打入了冷宮。在 1970 年代,隨著喬姆斯基語言學的興起和人工智能研究的發展,人們普遍認為要實現機器翻譯必須對語言進行理解,在這種背景下,基于規則的機器翻譯方法開始發展起來 。進入 1980 年代以后,機器翻譯進入繁榮期,基于規則的機器翻譯方法逐步成熟,市場上出現了很多機器翻譯系統。但這種繁榮并沒有持續下去。1980年代末期到 1990 年代,人們發現基于規則的機器翻譯系統性能很難進一步提高 , 面向社會生活中使用的真實語言的時候,機器翻譯系統幾乎無法給 出有用的譯文 。筆者把這個階段稱為平臺期。也正是這個階段 ,基于語料庫的機器翻譯方法 開始被提出來并取得了一些進展,這包括基于實例的方法和基于統計的方法 。
自1954年起,世界各國許多大學已經展開了對機器翻譯的研究,但機器翻譯仍然沒有在商業領域大規模應用。然而,上世紀八十年代開始,一些翻譯服務公司開始使用一種非常原始的翻譯輔助工具,通常稱為翻譯記憶庫(TM)。TM工具將句子譯文存入數據庫,這樣一旦需要翻譯的文件重復出現同樣的句子,譯者就可以直接使用它們。基于此技術而形成的計算機輔助翻譯(CAT)便應用而生。相較TM而言,機器翻譯則指完全自動化。理論上機器翻譯能夠讓譯者失業。然而,機器翻譯技術輸出的譯文質量無法達到出版及終端用戶使用的要求。因此,專業的翻譯服務行業還將會繼續存在多年,一邊為機器翻譯改進技術,一邊對機器翻譯的譯文進行后編輯。
二、語言服務的創新
信息技術的發展促進了人類社會和文明的發展,使得世界變得越來越小,溝通越來越頻繁,翻譯量也越來越大,速度要求越來越快,甚至要即時翻譯的需求,這就為創新者提供了大量機會。這給傳統的翻譯行業帶來了巨大的挑戰。
基于大數據的移動互聯網以更大的規模,更廣泛的覆蓋,正在取代其他網絡。而和服務密切相關的技術有三種,通訊和媒體技術,互聯網和云計算技術,自然語言處理技術。云計算是互聯網技術發展的必然成果,在語言服務領域,整合呼叫中心,視頻會議等記錄,就形成了云語言服務中心。自然語言處理技術,解決人聽說讀譯的問題。
大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊(引自百度百科)。大數據對翻譯行業的重要性不可低估。大數據將推動自動翻譯向前發展。大數據將能夠應對包括機器翻譯在內的自然語言處理的不同領域的挑戰。計算機將能夠自動運行語義聚類和類型識別處理,這就意味著計算機可以識別行業領域(如醫學和放射學)和內容類型(如說明書或專利申請)。
大數據對機器翻譯技術的持續改進和定制化至關重要。由于現代機器翻譯系統需要越來越多的平行數據,而這樣大量的數據最終要達到使用傳統數據管理技術無法處理的極限,因此大數據技術已經成為決定因素。如果計算機獲得更多數據,也能夠更好地進行術語挖掘。大數據可以識別同義詞、相關術語、新詞、行業用語,并運用平行處理工具自動生成句法分類。簡單的統計翻譯模型發展成為包含(基于句法或對齊的)層次樹結構的混合模型,使得機器翻譯引擎能夠進行遠距離調序,產生更流暢、準確的譯文,這對于結構差異大的語言對更是如此。
在這個融合時代,需要翻譯的內容正進一步從文檔和軟件版本轉變成零散的文本、在多個屏幕上發布的音頻和視頻。終端用戶、大眾或病人會比現在擁有更大的控制權,他們將推動持續的翻譯流應用。這個翻譯流包含有公務類(公司、公眾、立法)、社會類、共享類、增值類以及私人類信息。
翻譯記憶軟件非常適合出版商提供的靜態文件的更新,但在翻譯用戶提交的動態內容時會顯得力不從心。機器翻譯技術將更快地走向成熟,并成為翻譯服務業采用的首選工具。機器翻譯平臺將增加新功能,使專業用戶能夠添加數據(針對特定客戶或特定產品的翻譯記憶庫、詞匯表和目標語文本),這些數據幾乎可以實時訓練和定制化翻譯引擎。
三、結語
信息技術對大型國際活動中語言服務的作用及創新,隨著改革開放,國際化的不斷深入,中國經濟各個領域都向世界敞開了大門,中國將成為全球下一個經濟中心。各種國際交流活動,在我國各大中心城市舉辦,如何讓全球各個國家,各種語言的世界組織和人民進行充分的交流和溝通,語言成為關鍵。機器翻譯可用于每一項工作,與我們過去進行的成本高、耗時長的針對通用語言對的機器翻譯開發對比而言,今后機器翻譯的個性化開發可謂是巨大的進步。它將推動翻譯記憶庫數據的不斷擴大。對于每一個新的作業,譯者將尋找匹配的數據。因此,對于數據的需求將是永遠無法滿足的。
【參考文獻】
[1]常寶寶,張偉.機器翻譯研究的現狀與發展趨勢[J].術語標準化與信息技術,1998(2). [2]馮志偉.機器翻譯研究[M].中國對外翻譯出版公司,2004.
[3]百度百科,http://baike.baidu.com/view/6954399.htm
[4]張政.計算語言學與機器翻譯導論[M].北京:外語教學與研究出版社,2010.