【摘要】通過對機器翻譯和語音識別等相關知識的梳理和論述,在計算機輔助筆譯的基礎上提出計算機輔助口譯模型并進行可行性推理及邏輯驗證,嘗試為今后的計算機輔助口譯系統建設提供借鑒。
【關鍵詞】機器翻譯;機器口譯;計算機輔助口譯
【作者簡介】夏寧(1995-),男,河北大學,碩士研究生,研究方向:計算機輔助翻譯。
【基金項目】2018河北省研究生創新資助項目:十九大關鍵詞中英文對照術語庫建設及應用研究,課題編號:CXZZSS2018007。
利用機器進行翻譯的想法出現在計算機產生之前,早在17世紀,萊布尼茨提出利用統一符號表示不同語言相同含義的方法,編寫以數字符號為基礎的詞典,這就是早期的機器翻譯思想:解碼編碼解碼(朱志強,2015)。1933年前蘇聯科學家特羅揚斯基向蘇聯科學院展示了一個簡單簡陋的翻譯機器—本質上為一臺具有翻譯功能的打字機,并于同年9月5日登記此項發明(馮志偉,1984)。1954年1月7日,IBM公司和美國喬治敦大學共同研發的IBM 701 計算機將俄語句子全自動翻譯成英語句子,完成了歷史上首次機器翻譯試驗。(靳海林,1987)由此可見,機器翻譯比計算機翻譯概念涵蓋范圍更廣,機器翻譯是指人類借助包括電子計算機在內的由各種金屬和非金屬部件組裝成的裝置進行自動翻譯的活動,而計算機翻譯則是指人類利用電子技術和相關原理根據一系列指令來對文本數據進行自動翻譯的活動。
1956年中國政府將計算機翻譯技術納入全國科學工作發展規劃,并立項“機器翻譯、自然語言翻譯規則的建設和自然語言的數學理論”(注:出自超星慕課—機器翻譯的歷史回顧與現狀分析,主講馮志偉,慕課地址為mooc.chaoxing.com/course/37755.html)。1966年11月,美國科學院自動語言處理咨詢委員會發布報告《語言和機器》,聲稱計算機翻譯花費大用處小,計算機翻譯研究暫時進入緩慢發展期(柯平,1995)。但機器翻譯的研究并沒有停滯不前,隨著語言學理論不斷推陳出新和信息技術的日新月異,計算機翻譯研究在20世紀80年代迎來再次發展期。1990年在芬蘭赫爾辛基召開的第13 屆國際計算語言學大會開啟了基于大規模語料庫的統計自然語言處理的新時代,并催生了影響至今的統計機器翻譯模型(孫茂松,周建設,2016)。21世紀以來,計算機翻譯研究不斷取得新進展,互聯網普及,經濟全球化加速,計算機翻譯的便捷高效受到越來越多使用者的認可。2016年9月27日,谷歌發布谷歌神經網絡翻譯,該技術與谷歌已經投入生產的基于短語的翻譯模型相比誤差降低了50%,標志著計算機翻譯進入大發展時期(谷歌,2016)。
另一方面隨著計算機翻譯受挫,計算機輔助翻譯應運而生。計算機輔助翻譯思想源于20世紀70年代提出的“翻譯記憶”概念,是翻譯材料電子化后的一種翻譯技術。計算機輔助翻譯源于計算機翻譯,但區別于前者。計算機翻譯為自動化翻譯,可不通過人為干涉形成譯文,計算機輔助翻譯則是利用雙語語料庫進行重復文本的模糊匹配并通過術語庫進行專業詞匯翻譯和詞匯的全文統一。計算機輔助翻譯與計算機翻譯的最大區別在于計算機翻譯的最終譯文是翻譯自動化的結果,而計算機輔助翻譯的最終譯文需要人工補足和完善。參照《計算機輔助翻譯》(錢多秀,2011)和《機器翻譯簡明教程》(李正栓,孟俊茂,2009),得出如下表格:

1.計算機口譯發展現狀與市場需求。從20世紀80年代中后期開始,隨著語音識別和信息技術水平的不斷提高,計算機口譯研究呈現迅速發展趨勢。為實現再造巴別塔的夢想,IBM、谷歌、微軟、百度、科大訊飛等國內外科研巨頭在計算機翻譯之路上不斷探索。1993-2000年德國主導研發Verbmobil免提式雙向移動多語對話翻譯系統,該系統可處理德、英、日三語之間的商務對話,對話翻譯成功率達90%。IBM于2006年發布可識別、翻譯50000多英文單詞和100000阿拉伯語單詞的MASTOR多語種自動語音翻譯機。2012年,微軟發布基于深度神經網絡計算的統計機器翻譯,使即時語音翻譯達到商用標準。2015年1月基于安卓系統的谷歌實時語音翻譯系統上線。2018年4月20日,科大訊飛翻譯器2.0發布,聲稱翻譯準確率高達95%并成為博鰲亞洲論壇指定翻譯機。但此類系統大多針對特定垂直領域,針對日常會話的大范圍計算機口譯尚未成熟。2018年博鰲亞洲論壇,騰訊AI同傳遭遇滑鐵盧。2018年創新與新興產業發展國際會議科大訊飛計算機口譯被指造假,官方后續聲明中特別強調是一場誤會,是人機耦合的效果。
不論2018年創新與新興產業發展國際會議科大訊飛計算機口譯失敗與否,在官方的人機耦合解釋中,看到的是口譯活動離不開人的輔助,而這也從側面佐證了計算機輔助口譯的可行性和必要性。口譯對譯員的瞬間記憶是極大的考驗,口譯速記也因此成為最重要的基本口譯技能之一。在理想的計算機輔助口譯系統中,譯員可以獲得源語文本,甚至是基于源語文本的關鍵詞,平行術語和參考譯文。
2.口譯市場面臨的問題。新興產業不斷產生發展,根據中華人民共和國國家發展和改革委員會《戰略性新興產業重點產品和服務指導目錄》,新興產業可分為5大領域,8大產業,40個重點方向,174個子方向,近4000項細分產品和服務。對面如此多的新興產業,口譯員在從事口譯活動時,對專業領域整體了解度,對產業熟悉度,對專業詞匯掌握度都是件不易之事。口譯現場尤其是同聲傳譯現場留給口譯員思考查詢的時間幾乎為零,即使是最優秀口譯譯員,如果沒有前期的大量行業知識儲備也無法勝任一場接一場的不同領域口譯活動。此外翻譯現場,口譯員神經高度緊張,壓力大,分神絲毫都會導致漏譯,錯譯。
口譯活動較筆譯活動來說,靈活多變,即時性強,受現場環境影響大,各種言外信息和副語信息都將成為計算機在執行翻譯過程中的阻礙。根據奧斯丁提出的言語行為理論(注:言內行為:是說出詞、短語和分句的行為,它是通過句法、詞匯和音位來表達字面意義的行為。言外行為:表達說話者的意圖的行為,它是在說某些話時所實施的行為。言后行為:是通過某些話所實施的行為,或講某些話所導致的行為,它是話語所產生的后果或所引起的變化,它是通過講某些話所完成的行為。)一句話通過句法,詞匯和音位表達出來的字面意義與說話者真正的意圖并不一致,語言的理解需要人腦通過以往的言語經驗對說話人意圖進行猜測推斷,計算機口譯目前能做到的只是對言內行為的理解。面對瞬息萬變的口譯現場,充分理解講話者的會話含義,僅僅依靠機器的語義分析是遠遠不夠的,自然語言中存在的歧義和未知現象于機器翻譯一直是難以克服的障礙。
1.計算機輔助口譯可行性推理。本文涉及的計算機輔助口譯目前可供查閱的相關文獻較少,僅有《計算機輔助英譯漢口譯實證研究》、《語音數字識別輔助漢英交傳探究》、《試析計算機輔助工具在口譯中的應用》等。計算機輔助口譯是基于計算機輔助筆譯提出的一項計算機輔助人工口譯的思路,在理想的計算機輔助口譯系統中,口譯員能夠及時獲得源語文本信息和參考信息并開展口譯活動。
計算機輔助翻譯源于傳統的機器翻譯,因增添人為翻譯校對過程,一定程度上彌補了全自動機器翻譯的缺點,同時與人工翻譯相比,計算機輔助翻譯在提高翻譯效率,減少翻譯錯誤,統一上下文術語名詞等方面有著不可代替的優點。傳統的計算機輔助筆譯系統依靠大量的雙語平行語料庫庫和雙語術語庫工作,而計算機輔助口譯與計算機輔助翻譯的不同之處在于增添語音識別模塊,將源語文本或是根據一定規則提取的核心口譯筆記以及術語通過一定手段提供給譯員進行參考。
2.現有語音技術分析。傳統的語音翻譯系統由自動語音識別器,機器翻譯引擎和語音合成器三大部分組成,其中,語音識別是機器口譯和計算機輔助口譯的首要部分,也是基礎部分。貝爾實驗室于1952年成功研制成了世界上第一個語音識別系統,雖然只能識別十個英文數字但卻成為語音識別的開端。語音識別率涉及諸多方面,如詞匯長短,自然語言的自然度和流暢度,話語人的口音和講話特點等。語音識別的準確率是目前計算機語音翻譯的關鍵一環。理想狀態下,在語音識別率100%的語音翻譯系統中,語音內容的翻譯準確率與筆譯準確率無異。目前,我國的科大訊飛語音識別技術位居世界前列,在2018年6月12日的科大訊飛訊飛輸入法產品經理宣布其漢語識別準確率已提升到98%,識別速度達每分鐘400字,此數字遠大于一般狀態下每分鐘200字左右的語速。
3.流程分析。源語音頻通過聽筒等音頻采集器進入系統,通過降噪過濾等手段將純凈的源語音頻進行語音識別。語音識別全過程不需要人工參與,通過識別初步得到源語文本,此時的源語文本可通過系統直接提供給口譯員進行參考,或是進行二次處理,得到預翻譯譯文、雙語術語文本和根據一定規則編寫的源語筆記。譯員結合自身聽取獲得的文本信息和系統提供的信息開展口譯活動。雙語術語文本基于已經存在系統中的術語庫,在系統得到源語文本后自動在雙術語庫中進行檢索匹配,得到初步匹配的模糊術語文本并在此根據術語進行翻譯或者雙語術語檢索。如圖-1所示:

根據設想,整個系統基于云計算,由遠程服務器進行數據統計分析,譯員譯文音頻也將同步更新到遠程服務器中,為今后的計算機輔助口譯和計算機口譯的機器學習提供訓練數據。整體流程如下圖-2所示:

計算機口譯在2018年備受關注,但無論是機器口譯還是計算機輔助口譯都是為了降低口譯市場準入門檻,降低生產成本,促進生產力發展,譯員不會被取代,但譯員會借助信息化手段,擺脫勞動負擔,提高勞動效率。本文僅是對計算機翻譯和語音識別相關知識進行梳理和論述,提出計算機輔助口譯的邏輯假設并進行初步可行性推理,更深層次的問題如技術層面的具體操作,譯員在口譯現場對聽力和信息的分析、記憶、語言表達、協調以及增加的計算機輔助口譯提供的文本參考之間的精力分配,以及有無計算機輔助對口譯活動的影響和譯文評價等方面都需要更深入的研究。
參考文獻:
[1]Dan Jurafsky, James H. Martin. Speech and Language Processing[M]. Prentice Hall,2008:241-281.
[2]J. L. Austin. How to Do Things with Words[M]. Oxford: The Clarendon Press,1962.
[3]Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, ?ukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, Jeffrey Dean. Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation[J]. Technical Report,2016.
[4]馮志偉.機器翻譯的歷史回顧與現狀分析[OL]. http: // mooc.chaoxing.com/course/37755.html.
[5]馮志偉.機器翻譯的歷史和現狀[J].國外自動化,1984(04):36-38.
[6]靳海林.機器翻譯的歷史與展望[J].中國翻譯,1987(05):33-35.
[7]柯平.歐美的機器翻譯[J].中國翻譯,1995(02):47-48.
[8]李正栓,孟俊茂.機器翻譯簡明教程[M].上海外語教育出版社, 2009:224-233.
[9]林小木.計算機輔助英譯漢口譯實證研究[D].山東師范大學, 2013:1-9.
[10]錢多秀.計算機輔助翻譯[M].外語教學與研究出版社,2011:1-26
[11]孫茂松,周建設. 從機器翻譯歷程看自然語言處理研究的發展策略[J].語言戰略研究,2016(06):12-18.
[12]宗成慶.統計自然語言處理[M].清華大學出版社,2013:399-413.
[13]朱志強. 語音數字識別輔助漢英交傳探究[D].北京外國語大學, 2015:3-7.
[14]中華人民共和國國家發展和改革委員會[J].戰略性新興產業重點產品和服務指導目錄,2017.