廉 勇
承德石油高等專科學校,河北 承德 067000
計算機輔助翻譯技術的發展趨勢與展望*
廉 勇*
承德石油高等專科學校,河北 承德 067000
本文圍繞計算機輔助翻譯所遇到的矛盾,結合現代網絡與人工智能發展的最新成果,展望了計算機輔助翻譯技術的發展趨勢。
翻譯記憶技術;大數據;深層檢索;語音識別;云端;智能化;自適應
翻譯記憶技術是計算機輔助翻譯的核心技術,它在發展中遇到了該技術的發展因語言的重復而奏效與語言無限生成之間的矛盾,引用數據存儲模型和數據庫存儲模型雖然功能互補但卻無法完全兼容的矛盾以及記憶數據的僵硬死板與語言靈活多變之間的矛盾。這三種矛盾能否有效解決或緩解是構成計算機輔助翻譯技術未來取得突破性進展的關鍵。
將翻譯記憶語料與術語語料等資源集中存儲在中央服務器的大數據中,擁有不同權限的工作站通過網絡連接到該服務器進行針對性檢索。語料資源的“中央”化,一方面可以使翻譯記憶匹配和詞語索引更全面、更新鮮、更可靠,檢索和維護也更便捷,另一方面通過資源集中也可實現對語料資源知識產權的有效保護,更能適應信息情報安全維護的趨勢,有效防止類似美國“棱鏡”計劃的侵入。
從狹義上講,翻譯記憶資源就是對齊后的平行語料,而當今翻譯記憶系統和技術的研發只是針對譯文的表層結構。所以,當前開發者們應把目光投向如何結合語料庫的研究方法與開發技術并將翻譯記憶存儲的“數據模式”與“引用模式”有機結合起來揚長避短,使翻譯記憶庫針對已對齊的語料具有深層分析與檢索功能。
機器翻譯的發展與計算機輔助翻譯的發展即具有歷時性,同時又具有共時性,所以作為計算機輔助翻譯的核心技術領域“翻譯記憶”與機器翻譯的關系,也不例外。從機器翻譯與計算機輔助翻譯的歷時性看,后者是研究機器翻譯的過程中出現的一種折衷,并且日趨出現與前者共時性發展的前景。那么高質量翻譯記憶語料素材自然也可運用在以統計和實例為基礎的機器翻譯系統中。
語音識別技術的發展是人工智能和云計算發展的結果,是翻譯記憶庫從筆譯服務走向口譯服務的關鍵。該自動語音識別技術的目標是將人類的語音中的內容轉化為計算機可識別的輸入內容。自動語音識別發展至今,尤其是中小詞匯量非特定人語音識別系統識別精度已經大于98%,對特定人語音識別系統的識別精度就更高。這些技術已經能夠滿足通常應用的要求。由于大規模集成電路技術的發展,這些復雜的語音識別系統也已經完全可以制成專用芯片,大量生產。科大訊飛的語音引擎將文本文字轉成人聲語音朗讀的TTS語音庫,該引擎是目前世界上中文語音最好的、最逼真的。現在使用安卓手機也可以安裝訊飛語音庫,可以直接語音云轉換和識別,語音翻譯效果也很好。當今手機市場的三大操作系統iOS,安卓和WP8所支持的三大語音助手Siri(蘋果S系列手機),Google Now和Cortana(微軟小娜),將人工智能語音服務推向了一個前所未有的高潮。
分布式技術與云計算技術的發展是分布式云端翻譯記憶庫和術語庫產生的關鍵。分布式技術是一種基于網絡的計算機處理技術,與集中式相對應。由于個人計算機的性能得到極大的提高及其使用的普及,使處理能力分布到網絡上的所有計算機成為可能。云計算技術是分布式計算技術的一種,其最基本的概念,是透過網絡將龐大的計算處理程序自動分拆成無數個較小的子程序,再交由多部服務器所組成的龐大系統經搜尋、計算分析之后將處理結果回傳給用戶。微軟為語音助手Cortana特意打造了一個虛擬的記事本,并且這些待辦事項全部存于云端,如果愿意,用戶完全可以同好友分享信息,甚至是位置,興趣點等等。分布式云端技術對語音助手的貢獻如此,那么將來它對于翻譯記憶庫和術語庫的作用也不言而喻。
隨著科技的進步與社會的發展,智能化與自適應已經滲透到了生活的方方面面以及社會的各行各業。智能化是指由現代通信與信息技術、計算機網絡技術、行業技術、智能控制技術匯集而成的針對某一個方面的應用;自適應是指處理和分析過程中,根據處理數據的數據特征自動調整處理方法、處理順序、處理參數、邊界條件或約束條件,使其與所處理數據的統計分布特征、結構特征相適應,以取得最佳的處理效果。微軟的語音助手Cortana最有用的部分在于自主性的學習能力和基于時間的觸發行動。隨著使用時間的推移,Cortana能夠學習你的發聲習慣,從而更準確地理解你的意思,另外在了解你的喜好之后,理論上可以實現更智能化的主動式服務。翻譯軟件的智能化與自適應的發展也應該類似于微軟語音助手Cortana,使翻譯軟件的設計逐漸和現代電信技術、網絡技術、翻譯技術和智能控制技術相結合,在處理和分析翻譯材料過程中,根據其特征自動調整分析方法和處理條件,使其與所處理的翻譯材料語言分布特征、篇章、語段、語句、詞匯結構特征等相適應,以取得最佳的輔助翻譯效果。
計算機輔助翻譯將以人工智能和云計算技術為核心,向著以語料庫為基礎,以統計為導向,開發通用的翻譯工具發展;向著智能化、自適應翻譯軟件發展;向著通用型、本地化的翻譯記憶庫和術語庫發展;向著智能語音識別技術使得筆譯走向口譯成為可能發展等等。它是數學科學、神經計算科學、統計科學、計算機科學、語言科學和翻譯科學等跨領域、跨學科和跨行業的多種科學不斷發展合力而產生的豐碩成果,它未來的發展也必是其合力使然。
[1]http://baike.baidu.com.
[2]http://mobile.pconline.com.cn/520/5208797.html.
*2015年承德市科學技術研究與發展計劃項目《基于Trados翻譯平臺的承德市旅游文化翻譯項目集約增效管理研究》的部分研究成果(項目編號:20153020)。
H
A
**作者簡介:廉勇(1980-),承德石油高等專科學校,英語教師,中國科學技術大學,碩士研究生,從事英語翻譯、教學與研究工作。