郭明陽, 張曉玲, 唐會玲, 孟慶端,任龍波
(河南科技大學 a.外國語學院;b.信息工程學院;c.電氣工程學院, 河南 洛陽 471023)
1 人工智能在機器翻譯中應用的研究意義
人工智能(artificial intelligence,AI)是指研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。隨著計算機技術與信息技術的快速發展,人工智能對機器翻譯進行了整體闡述,主要包括自然語言處理、機器人學和知識系統等方面。機器翻譯是自然語言處理技術的一個分支,注重利用計算機技術實現一種人類語言(源語言)到另外一種人類語言(目標語言)的自動翻譯或轉換。例如,借助于人工智能技術,翻譯者和技術人員可以首先對機器的整體翻譯方案開展均勻抽樣;然后采用蒙特卡羅等方法模擬具體文本的翻譯過程,計算每種排布方式下的機器翻譯效率,從而生成大數據翻譯樣本供人工智能算法學習,進而采用人工神經網絡高效地擬合出翻譯架構排布與機器翻譯效率之間的關系;最后結合遺傳算法尋找機器翻譯的最優排布方式。人工智能技術已經應用于以谷歌翻譯、百度翻譯為代表的網絡即時翻譯和以譯星、雅信譯霸為代表的專業翻譯系統中。
人工智能技術雖然尚處于發展階段,但其應用前景是非常明晰的。2017年7月,國務院發布了《新一代人工智能發展規劃》,人工智能已經成為重要的國家戰略。各大經濟體均處于同一起跑線上,對人工智能的研究和應用均處于投入探索階段[1]。結合中國國際貿易高端人才不足、知識經濟生產力發展亟待提速等問題,在新經濟時代人工智能技術給了中國難得的趕超機會。翻譯能力的核心在于與翻譯過程中的各方保持積極的活動關系,并生產出符合客戶要求的譯文[2]。人工智能以及機器翻譯的各項技術加速發展,正在不斷地提升人類對于各種語言信息的處理能力,彌補人工翻譯在速度和成本方面的不足。智能語音、深度學習、神經網絡機器翻譯等技術越來越成熟,人工智能給許多行業帶來了重要影響和挑戰[3]。
伴隨著人工智能的進一步發展,機器翻譯能夠更好地滿足大多數一般性翻譯需求,但面對專業、多元、細致并蘊含人文情感的復雜溝通翻譯任務,機器翻譯目前仍然難以替代人工翻譯。當前人工智能發展中顯現出互為鏡像、互為嵌入和互為信息的人機關系趨勢[4]。因此,目前機器翻譯會和人工譯員一起協同工作。但是,在這種協作翻譯的關系中,以前簡單的“機器輔助翻譯”模式已經越來越多地被人工智能交互翻譯(artificial intelligence interactive translation,AIIT)所取代,這是翻譯技術能力的進步[5]。機器翻譯和計算機輔助翻譯的很多工作,也將會由日益完善的人工智能交互翻譯來完成。
人工智能在機器翻譯中的廣泛應用程度與人工智能技術的進步和機器翻譯功能的提升有關,這一點在專業翻譯中體現得尤為明顯。嚴格意義上來講,計算機網絡信息本身是一個龐大的數據信息庫,而這個數據庫又是由海量的子數據庫構成的[6]。有些翻譯語料所涉及的領域很多,技術性和專業性都很強,而且語料內容信息豐富,因此文本內容會經常出現重復現象。根據相關統計數據顯示,有些需要機器翻譯的技術資料相關內容重復率能達到40%以上。針對這種情況,人工智能可以依據機器翻譯的基本原理——翻譯記憶自動對重現的語料成分進行翻譯,例如對前文翻譯過的語句或者語段部分進行快速比對,然后高速呈現翻譯結果,這樣就極大地提高了機器翻譯的工作效率,并且能夠保證機器前后翻譯內容具有一致性,從技術層面上保證了譯文具有更高的質量。
出于提升翻譯效率和確保翻譯內容一致性的考慮, 人工智能在機器翻譯的應用系統中,通常會設置系統翻譯組件,例如翻譯記憶庫和術語管理組件。翻譯記憶庫主要是指人工智能在機器翻譯系統中所構建的語料原文和翻譯內容相對應的等值語料庫。當機器翻譯系統開始進行翻譯工作時,人工智能會自動對需要翻譯的文本資料在翻譯語料庫中進行存儲和比對,在整個翻譯過程中,人工智能通過對程序代碼進行掃描,發現有相似或相近的翻譯內容時,人工智能系統會自動將其與翻譯語料庫內容進行匹配,通過語境和語言使用系統進行確認后,就可以快速將最終翻譯結果呈現在用戶界面。隨著人工智能技術的不斷提升,能夠支持模糊匹配的機器翻譯系統也在不斷升級,人工智能系統通過對算法的不斷改進,可以自動設置語料原文和譯文之間的最小匹配值(如60%或者80%)。然后,通過模糊匹配程序搜索翻譯記憶庫中的語料,即便是對于那些不能實現完全匹配的句型,人工智能也可以通過機器翻譯達到相似的內容確認,再通過語言使用系統或者人工譯員進行確認,實現人工智能與人工譯員的互動互助。目前,這樣的工作模式既能夠保證高水平的翻譯質量,又能夠讓機器翻譯通過人工智能的自我學習程序提升翻譯的質量和效率。
未來,學習能力和數據處理能力更加強大的人工智能系統將幫助機器翻譯更好地完成工作。現有的翻譯記憶庫通過人工智能的自我學習程序也可以不斷更新,并能夠自動識別和存儲新語料。隨著翻譯記憶庫數據的不斷擴大,在大數據技術的支持下,人工智能能夠使機器翻譯的工作效率不斷提升。通過網絡共享功能,人工智能可以通過對海量網絡翻譯數據進行精確算法分析,從而提升人工智能的自我學習能力,使機器翻譯越來越接近人工翻譯的質量。
進入21世紀以來,人工智能技術快速發展,應用領域也越來越廣泛,尤其是專家系統技術、人工神經網絡和智能決策支持系統在機器翻譯的研究和應用中取得了顯著進步。
3.1.1 專家系統技術在機器翻譯中的應用
從近些年人工智能研究的成效來看,知識庫專家系統和知識工程成為人工智能研究領域最具有實踐意義的成果,并進行了商業化運作,經濟效益初現。所謂專家系統,是指一種基于知識的系統,其實質是使系統的構造和運行都基于控制對象和控制規律的各種專家知識的數據積累。這種人工智能的電腦程序構建了一套具有某個專業領域專家的知識和經驗水平的集成系統,并具備解決實際專業問題的能力。發展專家系統的關鍵在于表達和運用專家知識,即來自人類專家的且已被證明能夠解決某領域內典型問題的有用的事實和過程[7]。隨著專家系統和翻譯大數據技術的不斷完善,人工智能可以根據多位翻譯專家分享的翻譯領域知識、工作經驗進行有效地推理和判斷, 模擬翻譯專家決策的過程來解決那些翻譯實踐中遇到的各種復雜問題。
(2)力學性能檢測 試件按照ASME IX卷要求進行取樣和力學性能試驗,取樣位置如圖1所示,各項檢測結果如表6~表9所示。
專家系統技術在機器翻譯中的應用主要基于翻譯專家的專業知識和實踐經驗,采用知識表達翻譯技術,建立翻譯模型和翻譯數據庫,利用語言知識和以往的翻譯工作經驗進行語義推理,制訂翻譯決策控制機制,為機器翻譯提供最優控制以及決策支持等。翻譯專家系統的出現,改變了過去傳統翻譯單純依靠字對字、詞對詞翻譯的落后局面,使知識模型與翻譯大數據進行了有機整合,將知識信息處理技術與控制技術相結合,使機器翻譯的效率和準確率都有了很大程度的提升。
3.1.2 人工神經網絡在機器翻譯中的應用
神經網絡的信息處理是由神經元之間的相互作用實現的:知識與信息的存儲主要表現為網絡元件互連間分布式的物理聯系[8]。近年來,人工神經網絡在機器翻譯中的應用領域取得了很大的進步,具體體現在機器翻譯算法、語言學習等方面,并在文字符號處理、語音識別、最優計算、語言信息智能處理、翻譯模式識別等領域不斷取得進展。例如谷歌公司的神經機器翻譯(Google’s neural machine translation,GNMT)系統,由帶有8個編碼器和8個解碼器的深度長短期記憶(long short-term memory,LSTM)網絡組成,并采用了殘差連接對梯度、位置信息等進行傳遞,在英-西、英-中和英-法等多個語對中,與之前的基于短語的機器翻譯(phrase-based machine translation,PBMT)系統相比,翻譯錯誤率降低了60%,已經與人類中級譯員的水平不相上下。
隨著中國“一帶一路”倡議的提出和逐步實施,客觀上沿途各國間的交流溝通有了更廣泛的需求,尤其是在語言轉換處理和商務信息交流方面為機器翻譯提供了廣泛的市場需要,也蘊含著巨大的市場價值。隨著機器翻譯功能的不斷提升,在文化教育交流和商務洽談中需要使用機器翻譯功能的應用場景也越來越多,互聯網上語言翻譯的市場需求也愈來愈大,要對機器翻譯系統進行有效管理,提升機器翻譯的效率,保證翻譯的質量就需要人工智能,尤其是人工神經網絡。為了使機器翻譯的各項系統正常運轉且能降低運行成本,提高經濟效益,就要不斷提升機器翻譯的自動控制水平、語言信息快速處理能力和翻譯系統運行管理水平。人工智能的自主學習和深度學習功能,為具有快速學習與自適應能力的人工神經網絡在系統控制方面提供了監督與非監督操練。人工神經網絡在機器翻譯中的應用包括練習語言輸入與輸出集合、調節神經元加權系數、語言信息的分類與自組織,并為機器翻譯系統的高級控制奠定了堅實的基礎。
在人工智能的控制下,機器翻譯能夠按照不同的數學建模方式,采用多元化的翻譯策略,根據不同的信息運算和處理原理進行實際運作。例如,機器翻譯能夠自主研究不同語言符號的特征,構建出準確有效的翻譯算法,并且通過適時調節翻譯參數來確定不同的翻譯標準,以適應譯文的文化和語言特征,并能夠在人工神經網絡的控制下,對于智能機器翻譯設備的實時運行動態和語言信號處理進行有效地檢測、調節及故障診斷,進而研制出具有高效自主學習能力、自主適應功能和自主管理功能的創新性的智能自動化控制系統。這一系統在機器翻譯設備上的有效應用極大地提高了機器翻譯的效能。同時,機器翻譯控制需要準確的語言結構仿真模型,以及準確、靈活的信息處理系統。由于早期機器翻譯模式的非互聯性,機器翻譯的語料信息不能及時更新,機器翻譯的控制系統無法實現在線運行和實時更新。而在新的人工神經網絡語言信息翻譯處理模型中,由于采取動態學習更新建模的方式,提升了翻譯模型的運轉效率。并且這類機器翻譯產品在投放市場時,能夠根據不同消費群體的需要和物價承受能力,采用個性化、差異化的機器翻譯資源和硬件配置,更好地控制了硬件部分的花費,滿足了更多消費者不同的翻譯需求。尤其是更新的神經網絡學習策略搭載性能具有更強大的信息處理芯片,實現了真正意義上的神經網絡運算和人工智能控制,使機器翻譯產品的性能不斷提升。由此可以看出:帶有人工神經網絡的機器翻譯產品,在未來的實際生活使用中能夠更加貼切地滿足個人用戶和個性化需求。同時智能化的機器翻譯系統預示出了人工智能語言學習模式的更新,提升了以往機器翻譯產品的運算速度和翻譯質量。這一嶄新的機器翻譯和語言學習模式的研發,將會給不同文化背景和語言使用者帶來高效率、低花費的應用體驗。
3.1.3 智能決策支持系統在機器翻譯中的應用
伴隨著超級計算機運算技術、網絡數據庫技術和物聯網技術的高速發展,智能決策支持系統在機器翻譯中也開始了部分翻譯場景的應用。網絡數據庫技術、云計算和深度學習使智能決策這一人工智能技術控制機器翻譯成為可能,尤其是分布式數據庫和網絡互聯計算技術的發展,更有利于將智能決策系統融入到機器翻譯智能化系統集成中,使得機器翻譯實現智能化。
智能決策支持系統整合了超級計算機技術、人工智能技術和管理科學的相關研究成果,是一種有利于提升機器翻譯效度和信度的創新性的信息管理技術。這項人工智能信息管理技術依托運籌學、管理科學和控制論行為科學的最新研究成果,積極采用最新的計算機信息挖掘技術,在處理半結構化和非結構化的翻譯決策問題中成效顯著。在對譯文翻譯質量的最終控制方面,智能決策支持系統能夠進行有效的決策活動,為機器翻譯最終產品的呈現提供決策所需要的數據、信息和資料,并能夠明確決策目標。在針對不同機器翻譯問題時,智能決策支持系統也能夠對遇到的翻譯問題進行快速地甄別和認知,并建立和整改決策計算模型,提供盡可能多的翻譯備選譯文。智能決策支持系統可以幫助翻譯機器對各種翻譯技術方案進行優化,并能夠分析、區分出不同質量的翻譯作品,不斷提升機器翻譯的決策能力、決策質量和決策效益,以產生更大的經濟效益和社會效益。
3.1.4 人工智能技術在機器翻譯中的應用場景及優缺點對比分析
基于人工神經網絡技術的機器翻譯優勢在于翻譯反應速度快、用戶花費少,可應用于工作量大的翻譯項目,但其自身也存在著一些問題。例如,神經網絡翻譯系統一般包括兩個遞歸神經網絡(recurrent neural network,RNN),其中一個主要用來接受輸入文本,將輸入的源語言文本轉化為表征空間中的向量,另一個遞歸神經網絡主要是將其轉化為目標語句。可以將其視為一個語言模型來預測目標語言的下一個詞匯文本信息,而且其概率依賴于源語言,并通過注意力網絡連接。但這樣的架構需要海量的計算資源,而且人工神經網絡翻譯系統在應對專業術語和非常用翻譯文本方面表現乏力。很多情況下只能對原文進行復制,而沒有進行任何翻譯操作。在處理冗長文本信息時,基于人工神經網絡的機器翻譯會出現文本信息丟失的現象,甚至會遺漏重要的文本信息。所以人工神經網絡一般應用于網絡即時翻譯場景,主要為了滿足一般性的翻譯需求。神經網絡翻譯技術還在不斷發展,例如,隨著大數據技術和波束搜索等技術的發展,其翻譯準確率也在不斷提升。谷歌的神經機器翻譯系統宣稱,在多個主要語言對的翻譯中將翻譯誤差降低了55%~85%。
專家系統技術在機器翻譯中的應用,有效解決了人工神經網絡機器翻譯存在的許多問題,例如,目前的人工神經網絡在文本翻譯時過多地只關注單詞和句子信息的翻譯,而忽視段落結構及文本上下文語境信息的連接,詞匯文本信息在不同語境下的語言含義搜索和識別效率不高。但專家系統自身也存在著信息更新速度慢、系統構建要求高、建設費用投資大、建設周期長、應用領域過于細化等問題,所以專家系統技術多應用于專業領域的高端翻譯場景,在高級譯員培訓、復雜語言信息識別、翻譯技術信息庫建設和翻譯技術資源網站開發等方面應用比較廣泛。
隨著經濟發展模式的不斷創新,新的翻譯需求也呈現多樣性和定制化的特點。智能決策支持系統在垂直領域以及機構定制化機器翻譯系統中得到了應用。翻譯市場對于機器翻譯的實用性和靈活性的要求不斷促使智能決策支持系統對機器翻譯、CAT工具、術語管理等翻譯技術進行整合,尤其是對本地化工具、翻譯管理系統、計算機輔助翻譯等組件進行架構重組。但由于人工智能技術還處于不斷發展的階段,智能決策支持系統的發展還不甚完善,其建設過程還面臨著很多技術挑戰,例如人工智能技術的不確定性發展、人機信任機制建立等具體問題,所以,目前智能決策支持系統主要應用于機器翻譯譯后編輯(machine translation post-editing, MTPE)和機器翻譯輔助工具的開發。圖像翻譯也有望進入智能決策支持系統的應用場景。
人工智能在機器翻譯中的具體實現主要包括3個領域:(1)研究會聽、說、讀、寫和譯的電腦程序, 實現自然語言處理;(2)研制智能化的翻譯機器,具有視覺和聽覺程序處理能力, 并能識別周圍環境,靈活應對遇到的翻譯問題;(3)開發通過符號識別來模擬人類翻譯專家行為的程序, 即翻譯專家系統。從研究的本質來說, 人工智能一般可分為理論研究和工程研究兩個領域。理論研究主要是指依據有關開發和理解人和機器智能方面的理論進行前瞻性研究和探索, 而工程研究則主要是研發人工智能的工具和類似翻譯專家系統這樣的實用商品。人工智能在機器翻譯中的具體實現模式包括: 對于翻譯信息和相關知識的人工智能處理、翻譯文字符號的智能處理以及人工智能對于翻譯問題的智能化處理等方面。可以說, 人工智能在機器翻譯中的具體實現模式,就是一種具有靈活信息處理能力和信息演示能力的結合體。
專家系統、人工神經網絡和智能決策支持系統技術應用于機器翻譯技術的開發,能夠有效提升機器翻譯的效率。例如,基于人工神經網絡技術的機器翻譯建設方案,有望解決傳統的基于短語的機器翻譯系統運作效率不高的缺點。翻譯準確度和速度是翻譯效率的重要觀測點。通用的機器翻譯方法主要有兩種:基于規則的機器翻譯方法和基于語料庫的機器翻譯方法。喬姆斯基(Chomsky)的轉換生成語法理論是基于規則的機器翻譯方法的理論基礎,這種技術方案主要是采用語言規則來對自然語言的內部結構規律進行描述, 并對自然語言進行形式化的處理。首先,要對輸入的句子進行分析,獲得其句法分析樹;然后,根據轉換規則把源語言句子結構映射到目標語句子結構上;最后,根據目標語句子結構對生成的譯文進行最終的語言加工,并可采用直接翻譯法、中間語言法和轉換法等模式對源語言進行機器翻譯。人工智能技術的高感知和高速運算能力對于上述這些機器翻譯模式意義重大。
語料庫語言學是基于語料庫的機器翻譯方法的基礎,需要獲取大量語料來建立語料庫,這就要求通過大規模整理互為譯文的雙語語料,并由這些語料的電子格式來建立支撐機器翻譯的語料庫,這些語料信息將作為獲取翻譯知識和統計數據的依據。也可以直接采用語料庫進行機器翻譯中的語料分析、轉換和生成。從技術層面來看,基于語料庫的機器翻譯方法主要有兩種:基于實例的機器翻譯和基于統計的機器翻譯(statistical machine translation,SMT)。其中,基于實例的機器翻譯方法主要是指在雙語語料庫中,通過編輯或查找與需要翻譯的源語言類似的參考實例來對源語言進行翻譯。基于統計的機器翻譯方法主要是指在雙語語料庫中,通過使用從語料庫中建造的概率模型來對輸入的需要翻譯的源語言自動搜索出一個相似度概率最高的譯文。這種方法的難度取決于對源語言和翻譯目標語進行句對的對齊,并通過詞匯同現可能性的方法將源語言的詞匯映射到目標語言詞匯的比對概率進行計算,進而形成與源語言詞匯表達意義概率學上最接近的翻譯文本。無論是高速運轉的可靠的語料庫的構建和管理,還是進行比對概率的高速運算,都離不開人工智能技術的不斷創新。例如,在處理冗長文本信息的翻譯工作時,谷歌的神經機器翻譯引入了注意力機制,將解碼器的底層連接到了編碼器的頂層,從而使機器翻譯系統能夠更為準確高效地應對這些復雜信息。殘差連接技術的應用實現了通過提升并行性來降低機器翻譯訓練時間的目標。在推理計算過程中,采用低精度運算方案,從而能夠更快地為用戶呈現出翻譯結果。
機器翻譯在實際運用過程中要處理很多復雜問題,尤其是要時刻應對語言知識復雜性和文化背景多樣性的挑戰。在應對這些翻譯難題時,要利用現代技術手段[9]。從技術層面上來看,機器翻譯要同時處理兩種或者兩種以上的語言信息符號,這就需要翻譯機器能夠對源語言進行語言分析,這是第一步要做的。基于語法或者語義的中間結構在理解分析源語言過程中發揮著重要作用。之后,翻譯機器要對介于源語言和目標語言的中間語言結構進行進一步分析,為下一步進行目標語言的語法或者語義的中間結構的轉換打好基礎。在完成上述程序后,才能最終進行語言符號的梳理轉換,形成最終的目標語言的呈現表述。由此可見,語言分析對于機器翻譯作用明顯,語言分析的能力直接影響著機器翻譯的質量,毫無疑問,具有人工智能的機器翻譯在進行語言分析時,具有更多的優勢。
不同語言之間一般具有明顯的差異性,尤其體現在語法規律和表達習慣上,不同語言文字符號系統在詞匯、句子、語法、語義和語境等語言學信息方面表現出了信息量表述不對稱性的特點,這就使機器翻譯工作面臨著諸多挑戰,也需要借助日益發展的人工智能技術來解決翻譯實踐中出現的很多具體問題。從某種層面上來說,具有人工智能的翻譯機器是在不斷認知不同語言系統間各自的運作規律,深入學習和辨識篇章、段落、句群在內的各種語境信息,并對上述相關信息進行快速準確地解碼和編碼的過程。除了語言內部系統的差異,機器翻譯還要在人工智能的控制下考慮到因為文化背景差異, 導致不同自然語言系統對一些類似或相近語義信息表達時出現相當大的差異性。除此之外,機器翻譯還需要處理不同語言詞匯之間相近意義表述的翻譯,不同語言文化中隱喻的認知,不同語言系統對于不同使用習慣的詞匯表達的信息處理,容易拼寫錯誤或者翻譯存在誤差的詞語的使用,詞語使用和語言的不同搭配習慣,在不同語境下同形異義詞的使用等問題。語言搭配是指詞語或者固定短語之間自由組合并具有規律性呈現的語言現象。在機器翻譯等自然語言處理任務中,語言搭配發揮著重要作用。機器翻譯的質量往往和語言搭配語料資源的質量和應用相關。高效且容量較大的語料庫搭配資源能夠極大地提升自然語言處理的效率。
翻譯能力的發展是一個動態的互動過程,與語言學習一樣[10]。翻譯不是單純由漸次輸入引導的線性過程,而是充滿高峰、低谷、前進、倒退、停滯、甚至跳躍式前進的動態系統行為[11]。機器翻譯在認知和處理不同語言中的隱喻現象時,往往遇到極大的困難。這不僅僅是由于隱喻是一種語言修辭方法,而且還是一種思維模式,它體現了不同人群進行思維和行動的觀念系統的本質特征,是不同人群認知、思維乃至語言表述和寫作的基礎。機器難以具備直覺能力、想象能力、靈感和審美能力[12]。由于文化背景、宗教信仰、 生活生產方式、神話傳說、認知模式、社會風俗、文學作品和自然環境等存在差異,不同語言系統對于隱喻的理解也存在著巨大差異。這就需要具有高速運算能力的人工智能能夠快速辨認、認知、理解、儲存、比對這些隱喻信息,并將這些海量語言信息進行高速數據處理,建立語法隱喻模式集和詞匯隱喻模式集,并通過常規或實例的方法, 或是推理和統計的方法進行隱喻信息數據計算,從而幫助翻譯機器有效地辨識和理解不同語言中存在的隱喻現象,進而更好地完成翻譯任務。
機器翻譯的語義理解能力直接與翻譯產品的質量密切相關。人工智能可以很大程度上提升機器翻譯的語義理解能力。一般認為,語義理解能力包含3個方面:(1)基于相關語言知識基礎的語言層級理解;(2)基于人類知識系統基礎的知識面層級的知識層次理解;(3)基于當時參與語言交流的人員的語用層次理解。在多種語言認知和處理過程中可以發現,針對同一種事物,不同自然語言對其表述存在很大的差異。也就是說,自然語言語義對應存在著很多語義偏移現象,即一種事物在一種自然語義中的映射與其在另外一種自然語言中的語義模塊存在偏移,并不是一一對應的。由此可見,能否對這些現象進行快速準確有效地理解和辨析,并能夠進行相對應的翻譯處理,考驗著機器翻譯的工作能力。目前,感知智能的發展已經比較成熟, 它通過數學建模和基于大數據的深度學習等方法對人類感知能力進行模擬, 輔助人類完成任務[13]。人工智能可以很好地幫助機器翻譯應對這些挑戰。因為語言分析能力在機器翻譯能力構建中具有重要作用,所以通過人工智能來加強語言的對比分析并研究相應的人工翻譯技術體系,是機器翻譯的重點研究領域。原有的機器翻譯具有很多局限性,例如,對于自然語言的語言描述與語言知識分析準確度不夠高,無法有效地理解并消除語言歧義的現象,對于隱喻的辨識能力不強或者根本無法辨識,對于不同自然語言形式描述過于粗糙、達不到精準描述的層級等,這些問題制約著機器翻譯能力的提升。尤其是能否讓翻譯機器快速識別并處理容易誤解、誤譯詞語的形式化研究,是一項亟待解決的技術難題。這些問題的最終解決,離不開人工智能技術的發展,因為人工智能具有強大的學習能力。學習是人類智能的重要特征,是獲得知識的基本手段,而機器學習也是使計算機具有智能的根本途徑[14]。在現有技術基礎上,人工智能通過不斷學習已經在一些機器翻譯技術研究方面取得了顯著進步。例如,在加強詞對齊技術的研究與應用方面,提升了從源語言詞匯到目標語言詞匯映射研究的精度和廣度,并構建了詞對齊技術的統計模型。 通過數據挖掘技術,能夠從文本數據中自動獲取高質量的映射信息,并通過相應的算法把獵取的映射數據運用到自然語言處理工作中。人工智能技術還可以幫助翻譯機器通過單詞對齊的搭配技術自動匹配相應的算法,取得詞匯搭配概率、位置扭曲概率和詞匯繁殖度概率,并將這些數據信息通過相應的匹配運算整合到同一個統計模型中,以便更加高效地尋找句子中有可能存在的相關詞匯搭配的可能性。人工智能技術也可以幫助翻譯機器在整理和尋找雙語詞對齊中,經過預估詞組內部的搭配概率來研判該詞組是否有可能成為一個整體對齊,來制約雙語詞對齊中多詞單元的對齊。在機器翻譯工作中,人工智能技術能夠經過計算來感知短語與待翻譯句子里上下文之間的搭配關系,判定短語與待翻譯句子的匹配程度,并能夠以此為基礎構建出數據量大、質量高、可擴充的語料庫。在這個語料庫中,包含有語義語法模式集、固定搭配以及變量庫、短語模式集、字面意義模式集、帶有句法語義變量的翻譯模板、句法語義變量和語義類型樹等子系統,這些系統的建立為機器翻譯的能力提升打下了良好的基礎。由此可見,一臺計算機若不會學習,就不能被稱為是具有智能的計算機[15]。通過人工智能自身學習能力的提升,機器翻譯的能力也在不斷增強。
人工智能技術使得世界一體化的翻譯市場的形成成為可能[16]。根據人工智能技術發展的現狀,以及人工智能在機器翻譯應用的趨勢,可以看出現有基于人工智能技術的機器翻譯系統主要包含以下組件:(1)基于人工智能技術的機器翻譯系統的核心組件和主界面是工作空間,它賦予了機器翻譯具有跨領域應用程序的集成能力,這就使翻譯用戶可以在現有常用瀏覽器風格的界面中集中控制所有機器翻譯組件, 并能在人工智能技術的控制下對所有的翻譯項目和工作流程進行有效地管理。(2)基于人工智能技術的機器翻譯系統構建一般也會有一個翻譯者工作臺,能夠與MSWord XP/2010/2018等軟件操作系統進行無縫對接,現有的運算能力能夠支持多種語言之間的多向互譯。翻譯用戶可以在微軟公司的Word軟件運行中進行相關交互翻譯。在人工智能技術的支持下,翻譯者工作臺能夠適時有效地使用后臺運行能力強大的神經網絡數據庫,為翻譯工作者和產品用戶儲存并管理源文本和翻譯好的作品,并已經實現對源文本的自動翻譯。基于人工智能技術的機器翻譯系統也已經實現為用戶動態提示相關譯文語句,自動保留源文本格式,并與其他文本處理應用軟件有著良好的兼容性。(3)術語管理組件也是機器翻譯系統的重要構成組件,其主要功能是通過人工智能技術掃描原文中出現的術語,并由計算機在機器翻譯的專業語料庫中進行搜索和比對。現代信息技術和互聯網的高速發展推動著術語和計算機技術的結合日益大眾化[17]。基于人工智能的機器翻譯技術的原理,決定了其應用效率與需要翻譯的文本的內容重現率有關。例如,若是源文本前后內容表述具有術語的一致性或短語的一致性等特點,人工智能技術會通過掃描在機器翻譯語料庫中相對應的術語,并自動匹配出合適的參考譯文。術語管理組件的功能主要是為了保持相同術語翻譯的統一性,其翻譯內容的質量與計算翻譯中專業語料庫的質量和規模有密切關系。這些組件的工作效率隨著人工智能技術的進步也在不斷提升。(4)為了能夠對機器翻譯系統中的語料庫系統進行適時更新,也為了機器翻譯的作品能夠適應不斷變化更新的語言使用現象,人工智能技術支持機器翻譯系統具有術語抽取能力。這一系統能夠在各種海量文本數據中自動抽取翻譯項目所需的術語,并通過人工智能強大的自運算能力和高效的數據運算模型,實現單語或雙語術語表的自動生成。(5)機器翻譯系統中也會包括匹配建庫系統組件,這一功能組件主要是使用戶能夠在人工智能技術的幫助下對以往的翻譯成品資料實現回收,其實際使用意義是為了將源文本和譯文作品進行相關數據的適時對比和分析,以計算出相關匹配值,并將具有高匹配值的語言翻譯模塊或者單語或雙語術語表輸入到機器翻譯系統自建的翻譯記憶庫中,及時反饋給翻譯者工作臺系統使用。在人工智能的管理下,機器翻譯系統還能夠集成微軟Word軟件的字典功能,從而為更多的語言使用和翻譯者提供功能更為強大的書寫自檢服務。
隨著全球化和信息化進程不斷推進,海量的翻譯需求給全球語言服務行業帶來了前所未有的機遇和挑戰[18]。在面對多語言翻譯任務時,機器翻譯應用面臨的一大挑戰就是如何快速高效地挖掘不同語言系統的內部運作規律。語言服務業相信人機交互才是未來的發展趨勢[19]。人工智能能夠幫助翻譯機器高效率地發掘語言系統內部的運行關系,從而實現幫助機器翻譯提升工作效率的目的。其工作原理是通過廣泛挖掘數據,包括句群、段落、篇章、體裁在內的各種語言信息的原始數據,并在設定好的各種語境狀況下對這些信息進行編碼或解碼。 互聯網與人工智能蓬勃發展,信息技術對翻譯工作的滲透程度日益深化[20]。人工智能支持在機器翻譯中發揮其語言分析的作用,并通過尋找、定位、解析語言運行的各項特征,在經過高速運算后對語言特征進行有目的的對比分析,創新性地研究詞對齊技術,并將之應用到機器翻譯的工作過程中,實現通過具有高速運算能力的人工智能來重新構建詞對齊技術的統計模型。這一模型包含了大規模、高質量、可擴充的語義單元庫,這些單元庫或者語料庫能夠推動機器翻譯的不斷發展。若是將相應的人工翻譯技術體系全面應用到機器翻譯系統中,能夠極大地提升機器翻譯的響應速度和工作效率。在大數據時代,搜集和利用網絡上龐大的數據資源已經成為亟待解決的問題[21]。下一階段,人工智能在利用大數據技術幫助機器翻譯結果更符合母語使用者習慣和特征方面,將會發揮更大的作用。