趙玉蓉?楊鑫?劉歡?龍玟月?楊茜?安超?阮先玉
【摘要】AI同傳的出現為翻譯行業發展注入了新動力,同時也引起業內學者與專業譯員們的極大關注:AI同傳未來發展前景如何,翻譯質量有無保證,能否取代人工翻譯?此類討論將研究者的視線聚焦在AI同傳的核心技術——神經機器翻譯上。在人工智能與大數據飛速發展的當今,越來越多的綜合方法可應用于神經機器翻譯技術的更新與完善。本文以3款融合AI技術的翻譯軟件為例,選取實用性原文素材為研究對象,參考權威口譯質量評估標準,建立起一套評價標準,得出結論:AI同傳及語音翻譯譯文仍未達到人工水平并存在較大差距,融合AI技術的神經機器翻譯仍存在改進空間,如擴大語料庫、增強學習功能與聯想功能等。
【關鍵詞】AI同傳;神經機器翻譯;口譯質量評估
【作者簡介】趙玉蓉,楊鑫,劉歡,龍玟月,楊茜,安超,阮先玉,西南石油大學。
【基金項目】本文由2019四川省級大學生創新創業訓練計劃項目“大數據背景下AI同傳翻譯質量研究”(201910 615049)、西南石油大學第18期(2018-2019年度)課外開放實驗重點項目(KSZ18C01)資助。
一、引言
自2016年起谷歌率先推出神經網絡機器翻譯系統NMT(Neural Machine Translation),機器翻譯(Machine Translation)技術領域開始發生重大變革,機器翻譯質量實現了大幅度提升。借助飛速發展的人工智能技術,國內各大互聯網公司加快研發推廣步伐,競相推出融合了AI技術的翻譯產品和服務。融合了AI技術且易獲取的口譯軟件在得到廣泛使用的同時也收獲了大量反饋信息,無論是應用于口譯實戰,還是應用于大眾生活,其翻譯質量參差不齊,得到了褒貶不一的評價。
二、國內幾種支持AI技術的翻譯軟件翻譯原理——神經機器翻譯(Neural Machine Translation,簡稱NMT)簡介
神經機器翻譯在翻譯建模上不借用其他手段,只采用神經網絡完成源語言到目標語言的轉換。隨著信息技術的進步、語言學理論的發展和人工智能技術的飛躍,引入神經網絡的機器翻譯對提高機器翻譯效率和質量做出了重大貢獻。但是,經典的機器翻譯模型是一種通用的模型,并不完全針對機器翻譯任務本身而設計,導致神經機器翻譯仍然存在一些問題亟待解決。
三、研究方法
1. 使用軟件與素材。本文選用3種為大型會議提供過AI同傳服務的翻譯軟件(騰訊翻譯君、訊飛聽見、搜狗翻譯),人聲錄入原文,將軟件譯文與標準譯文對照,進行初步分析。
本文選取的現場原文素材以及配套權威標準譯文,內容涵蓋國際會議演講或致辭、歷年政府工作報告、總理答記者問等。素材特點為:選詞意義準確,表意清晰。多采用書面詞匯、政治術語及復雜且長但邏輯性強的句式結構等,措辭嚴謹、精準,絕不會出現模棱兩可、易生歧義等語句,文體正式化和語體口語化兼備的特點上。
2. 分析理論——楊承淑的口譯質量評估標準。臺灣輔仁大學楊承淑提出的“量化”和“質化”理論是認可度較廣的一種口譯質量評估標準,評估項目及評分占比為:忠實(準確、完整)占50%,表達(明確、流暢)占30%,語言(語法、選詞、風格)占20%,時間控制(原文與譯文的時間比)以總分為基礎上下浮動2%。由于該理論的對象為口譯專業考試,在考試過程中時間有限的情況下,將時間控制一項納入質量評估有一定的必要性。但在本項目研究中,對于時間控制沒有過高要求,因此不做為重要評估標準參考。
四、譯文質量分析
1. 譯文錯誤類型及譯文質量量化表。為了確保譯文對比質量,本團隊前期先完成6期素材的錄入、整理和分析,總結出幾種頻繁出現的錯誤類型。在完成譯文錯誤類型歸納的基礎上,參考楊承淑的口譯質量評估標準,制定出一套適用于本研究的評分標準,采用扣分制,對10期譯文打分。錯誤類型、扣分細則及評分表如表1所示。
2. 無錯句的案例。無錯句分為零翻譯、完全相同翻譯和基本標準翻譯。零翻譯指原文不需要做翻譯處理,譯文只需與原文保持一致,本素材譯文中不存在此情況。完全相同翻譯指的是機器譯文與標準譯文完全相同,可直接采用的情況。基本標準翻譯指的是機器譯文雖然與標準譯文基本相同,有修改的余地,但不做改動也能表意清晰順暢的情況,亦可直接采用或稍做修改。
(1)完全相同翻譯。
原文:中華人民共和國成立70周年。
標準:the 70th anniversary of the founding of the People’s Republic of China
三個軟件:the 70th anniversary of the founding of the People’s Republic of China
(2) 基本標準翻譯。
原文:我們已經走上一條符合中國國情、適合時代要求的正確道路。
標準: We have embarked on a right path that fits China’s conditions and is in keeping with the trend of the times.
三個軟件:We have embarked on a correct path that conforms to China’s national conditions and meets the requirements of the times.
3. 典型的有錯句案例。
(1)詞匯錯誤——用詞(組)不當,導致語義錯誤或者偏差,與原文意思不符。
例:將“位居前列”譯為 “ranking first”(名列第一),與原文意思有出入。
原文:國內生產總值達到67.7萬億元,增長6.9%,在世界主要經濟體中位居前列。
標準:GDP reached 67.7 trillion yuan, representing an increase of 6.9% over the previous year-a growth rate faster than that of most other major economies.
搜狗:The gross domestic product ...... ranking first among the world’s major economies.
騰訊:The gross domestic product (GDP) ...... , ranking first among the world’s major economies.
訊飛:......, an increase of 6.9%, ranking first among the major economies in the world.
(2)句法錯誤——語法錯誤。
例:使用現在分詞做狀語將“回顧歷史”譯為 “looking back on history”,但主句的主語為the economic globalization,不能與該狀語構成主謂關系,是明顯的語法錯誤。
原文:回顧歷史,20世紀興起的經濟全球化,起初只是西方發達國家、或者說是地中海文明的經濟全球化。
搜狗:Looking back on history, the economic globalization that arose in the last century ......
——生硬直譯,導致不能表意。
原文:堅決打好藍天保衛戰。
標準:We will make our skies blue again.
訊飛:Fight against the blue sky!
(3)段落錯誤——語義分析錯誤,導致表意有誤。
例:將“背水一戰”譯為 “the spirit of the first World War”,對該詞組語義理解有誤。
原文:您在報告里講改革要有壯士斷腕的決心、背水一戰的氣概
騰訊:In your report, ...... the determination of a strong man to break his wrists, the spirit of the first World War......
(4)其他錯誤。原文:40年來,達沃斯小鎮以其獨特魅力,已經成為中國觀察世界、交流思想、闡述主張和謀求共識的重要平臺。
標準:Over the past four decades, Davos, this lovely small town ......
訊飛:the Davos small town apparatus apparatus has been so attractive ......(亂譯)
4.定量分析。本文10期素材統計得出素材原文小句總句數為508句,各軟件所譯有錯誤譯文小句總句數統計情況為:搜狗154句、騰訊187句、訊飛162句,基本標準譯文小句總句數統計情況為:搜狗99句、騰訊95句、訊飛120句。
按評估標準對十期素材進行打分,并計算平均分,所得結果如下:搜狗88.35分,騰訊87.85分,訊飛85.1分。
5.原因分析。(1)詞匯。詞匯的問題在于英語詞匯普遍一詞多義,AI口譯軟件無法準確選取最恰當的詞義,這是機器翻譯歷來為人詬病的弊端之一。從本項目研究過程來看,基于深度學習的神經機器翻譯在這方面已有一定改觀。(2)語料庫。AI口譯軟件譯文中許多類型的錯誤都是由于語料庫的明顯不足。由于語言具有動態性,而神經機器翻譯為了加快訓練速度,會將雙語詞典限制在一定范圍之內,語料不足必然導致翻譯質量的降低。(3)語法。AI口譯軟件翻譯單句的語法結構與源語語法形式一致,而未順應目標語言的語法內涵,造成一些明顯的語法錯誤,無法將原文隱性邏輯理清理順并體現在譯文語法結構中。(4)語境。胡壯麟曾將語境歸納為三類:語言語境即語篇的上下文,情景語境即語言交流的環境、方式、條件和參與者等,文化語境即語言產生的人文背景等。語境本身就很復雜,對于神經機器翻譯來說,無疑更是巨大的挑戰。首先,在語言語境方面,AI口譯軟件譯文缺少銜接詞,連貫性較差等問題,一方面可能與神經機器翻譯的源語分析能力有關,神經機器翻譯無法識別分析詞匯或各句語境的統一關系或獨立關系;另一方面與其可譯句子長度的受限有關,由于句子長度限定在一定詞數范圍內,同一語境下超出限制部分的詞句無法整合到同一邏輯關系或語法結構中,導致斷句錯誤等問題。其次,在文化語境方面,即結合源語文化背景處理譯文方面,由于文化是多種因素結合的產物,其蘊含在語言中的廣度與深度表達,要求譯員要具備豐富的文化常識和敏銳的學習觀察能力。神經機器翻譯具有一定的長時記憶,對于文化常識也有一定的內存儲備,但根據分析過程中出現的諸多問題來看,這種記憶聯想和學習能力還遠遠不夠。
五、結論
1. 綜合評價結果。參照翻譯理論和口譯質量評估標準,本文從詞匯、句法、段落以及軟件自身其他問題四個方面,將三個軟件的AI同傳及語音翻譯譯文與標準人工譯文進行對比分析,得出定量和定性分析結果顯示,三種軟件的AI同傳及語音翻譯質量基本在同一水平。整體上,人工翻譯譯文質量優于三個軟件的AI同傳及語音翻譯譯文質量,后者翻譯質量仍有待提高。2.研究啟示。(1)提高神經機器翻譯源語分析能力是解決神經機器翻譯諸多問題的根本。目前針對該問題,改善注意力機制已成為研究熱點。將大數據應用到神經機器翻譯系統中,其語言學習能力或許能得到增強。(2)擴充神經機器翻譯語料庫規模。當前神經機器翻譯為了加快訓練速度,將語料庫規模限制在一定范圍內,也限制了系統的聯想預測能力。(3)AI口譯結合人工翻譯及譯員不斷自我提升的必要性。本文認為,神經機器翻譯與譯后編輯結合,能大大節省譯員的時間與精力,并有效檢驗、修正機器譯文的錯誤。這不僅對翻譯標準研究提出了要求,還對譯員個人素質與技能水平做出了要求。AI口譯的進步必然與人工翻譯的進步緊密相連。 3.本項目的局限性由于時間、精力、能力和篇幅有限,另外出于便利統計和整理的目的,本文僅能通過案例研究的方式對三種軟件的AI同傳或語音翻譯質量進行評估,樣本類型不夠豐富,量化數據只作為一項參考指標,意在探尋量化分析的可能性。因此,本文建議未來研究可由翻譯界和其他相關學界專家合作進行,融合多學科研究方法,將翻譯與科學技術尤其是AI技術緊密結合,建立實用可行的評估模型,積極探索AI同傳及語音翻譯質量評估與改善的新途徑。
參考文獻:
[1]姜敏浩.政府工作報告特點及英譯策略研究[J].學周刊,2015(30): 18.
[2]楊承淑.口譯教學研究:理論與實踐[M].北京:中國對外翻譯出版公司,2005.
[3]李梅,朱錫明.英漢機譯錯誤分類及數據統計分析[J].上海理工大學學報(社會科學版),2013,35(03):201-207.
[4]孫逸群,周敏康.機器翻譯質量綜合評價方法研究[J].中國科技翻譯,2017,30(02):20-24.