999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人工翻譯、機器翻譯與譯后編輯的對比實證分析
——以漢語介詞結構翻譯為例

2021-10-20 08:40:38威,明
關鍵詞:質量

張 威,明 昊

(東北大學 外國語學院,遼寧 沈陽110819)

一、引言

在全球化與信息化背景下,語言服務行業快速發展。翻譯需求的增長和對時效性的要求,提高了對翻譯速度的要求。2016年11月,谷歌推出了神經機器翻譯系統,使機器翻譯的質量再次提升,但為了保證譯文的流暢和準確,仍需人工介入。介入的主要表現為譯后編輯(machine translation post-editing)。BS ISO將譯后編輯定義為“檢查和修正機器翻譯的輸出”(edit and correct machine translation output)[1]。

譯后編輯實證研究自2000年以來呈上升趨勢。關于譯后編輯過程及產品評估的實證研究表明,相對于人工翻譯,譯后編輯在不同程度上提升了翻譯速度和質量。但這些研究多使用整篇翻譯材料進行測試,對于特定語法項目、差錯更正環節的譯后編輯,以及譯后編輯受機器翻譯譯文的影響仍缺乏研究。鑒于此,本研究嘗試從翻譯速度、譯文可接受度、譯文與機器翻譯譯文相似度三個方面對人工翻譯和譯后編輯進行對比研究,并對機器翻譯介詞結構的錯誤進行分析,旨在回答以下問題:在進行介詞結構翻譯的差錯更正時,人工翻譯與譯后編輯的翻譯速度有何差異?人工翻譯與差錯更正后的譯后編輯的譯文可接受度有何差異?與人工翻譯相比,譯后編輯與機器翻譯譯文的相似度如何,受到機器翻譯譯文的何種影響?機器翻譯在翻譯介詞結構部分時會發生哪些典型錯誤?

近年來,已有不少關于譯后編輯的實證研究。Garcia發現,在進行英漢雙向翻譯時,相對于人工翻譯,譯后編輯的速度提升不明顯,但可接受度更高[2]。Arenas發現,相對于未提供機器翻譯譯文時(人工翻譯),提供機器翻譯譯文(譯后編輯)提高了翻譯的速度和質量[3]。Plitt和Masselot的實證研究結果表明,譯后編輯提高了所有參與者的翻譯速度,平均產出提高74%,任務時間縮短43%[4]。王湘玲和王婷婷的實證研究結果表明,譯后編輯能顯著縮短任務完成時間,能提高翻譯速度及翻譯質量[5]。陸強等研究表明,事前培訓和譯員本身經驗對譯后編輯速度有較大影響,譯后編輯并不一定都能提高效率[6]。蔣躍等使用向量距離評估方法對比了人工譯本與在線機譯譯本被動句翻譯特征的相似度,結果表明人工譯本和在線譯本差異較大,人工譯本之間差異較小,在線機器翻譯的質量與人工翻譯尚有差距[7]。

綜上,現有研究已在譯后編輯的翻譯速度與譯文質量方面有所涉及,取得了一定成果,但對介詞結構等英漢語言系統中差別較大的語法現象的研究未得到足夠重視,文本相似度、情感分析等手段未得到充分利用。在借鑒前人研究的基礎上,本文嘗試對比人工翻譯和譯后編輯在進行介詞差錯更正時的翻譯速度、譯文質量及與機器翻譯譯文的相似度,歸納機器翻譯在進行介詞結構翻譯時的典型錯誤。

二、研究設計

(一)受試

本研究的受試對象分別是40名翻譯碩士研究生及111名英語專業高年級本科生。翻譯碩士隨機分為兩組,進行人工翻譯和譯后編輯。本科生為譯文可接受度調查的受試者。研究剔除了用時過少(完成問卷時間在10%分位及以下,即用時在343.40秒及以下)及部分信息缺失的問卷,最終納入數據分析的為40名英語翻譯碩士研究生的譯文及96名英語專業本科生的問卷結果。

(二)實驗材料

本實驗的語料原文來自文學文本The Lord of the Rings第一部,例句中涉及“over”“by”“with”等介詞結構,同時排除了句子過長、理解過多依賴句段外語境的句子,選句最長包含41個單詞,最短包含10個單詞。機器翻譯譯文來自谷歌在線翻譯。問卷設計使用了人工翻譯和譯后編輯得到的40份譯文和谷歌翻譯的譯文,剔除了20組譯文中5組普遍良好或較差的譯文。問卷包含15組量表,每組量表包含同一原文的2段人工翻譯譯文、2段譯后編輯譯文和1段谷歌翻譯譯文。譯文順序隨機,每個譯文可被賦予1~5分,一組量表內每種分值只能給出一次。例如,給第3組中的a譯文打5分后,將無法給其他4段譯文打出5分。

三、研究發現與討論

(一)人工翻譯和譯后編輯用時對比

機器翻譯的優勢之一在于翻譯速度快,但是目前涉及某種特定語法結構的翻譯結果尚存在缺陷,這時就需要譯后編輯的介入,以保證譯文準確、流暢。因此,有必要考察針對誤譯的譯后編輯在用時方面與人工翻譯是否存在差異。翻譯用時以分鐘為單位,譯后編輯較人工翻譯用時平均長3.1分鐘。

對兩組數據進行單樣本K-S檢驗和方差齊性檢驗,結果見表1,兩組數據均呈正態分布且方差齊。

表1 翻譯用時單樣本Kolmogorov-Smirnov檢驗

對數據進行獨立樣本T檢驗后發現,不同組間獨立樣本T檢驗統計量t=-0.41,P值為0.684>0.01,因而研究認為,人工翻譯和譯后編輯兩種翻譯方式在用時方面不存在顯著差異,結果見表2。

表2 翻譯用時獨立樣本T檢驗結果

表2分析表明,在機器翻譯譯文中包含介詞相關的誤譯時,譯后編輯與人工翻譯速度相近。譯者在進行差錯更正時,需要找到機器翻譯譯文中的錯誤并進行更正,從翻譯用時的分析結果來看,這一過程一定程度上降低了譯后編輯的效率,使得人工翻譯和譯后編輯的速度相近。但在收集本次試驗所用包含介詞錯誤翻譯的段落時,發生該種錯誤的比例并不大,因而在進行整篇文本的譯后編輯時翻譯速度應當高于人工翻譯。

(二)人工翻譯、譯后編輯與機器翻譯譯文相似度分析

受語言接觸規律的影響,譯后編輯的譯文相對于人工翻譯的譯文,應與機器翻譯有更高的相似度。用量化的方式考察譯本相似度,可以科學客觀地驗證這一假設,從而為譯后編輯的必要性提供理論基礎,并為譯者在譯后編輯的實踐過程中應保持的審慎和科學精神的要求提供依據。使用Python語言、jieba庫進行中文分詞,并用gensim庫計算人工翻譯譯文與機器翻譯譯文、譯后編輯譯文與機器翻譯譯文間的相似度。相似度計算中使用了TF-IDF算法。

jieba中文分詞是一個被廣泛使用的Python中文分詞組件,支持繁體、簡體中文,支持自定義詞典,基于前綴詞典實現高效的詞圖掃描。它生成句子中漢字所有可能成詞情況所構成的有向無環圖(DAG),采用動態規劃查找最大概率路徑,找出基于詞頻的最大切分組合。對于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用Viterbi算法[8]。Gensim框架由Ivan Menshikh所在團隊開發,并于2015年作為Python第三方擴展包開源,提供了自然語言處理常用模型的API調用接口[9]。TF-IDF方法是文本相似度量的方法中最為典型的一種[10]。

在Windows系統下安裝Python并配置好相應的環境變量,然后打開命令提示符,輸入“pip install jieba”“pip install gensim”指令來安裝jieba庫和gensim庫。輸入指令界面如圖1所示。

圖1 獲取ge ns im、jie ba等庫

將代碼中“texts=open(r'譯文目錄','r',encoding='UTF-8').read().split(' ')”一行的“譯文目錄”改為包含所要處理的譯后編輯和人工翻譯譯文的txt文檔路徑,將“keyword='機器翻譯譯文'”一行中的“機器翻譯譯文”改為上述譯后編輯和人工翻譯譯文對應的機器翻譯譯文,運行修改后的代碼即可得到該組人工翻譯、譯后編輯譯文與機器翻譯譯文的相似度。需要注意的是,人工翻譯和譯后編輯譯文在txt文檔中各段需用回車分隔,txt文檔應采用UTF-8編碼。

圖2顯示的是使用Sensim處理20組例句得出的譯后編輯與機器翻譯譯文的相似度,以及人工翻譯與機器翻譯譯文的相似度。相似度越接近1,說明譯文與機器翻譯譯文越相似;越接近0,說明譯文與機器翻譯譯文越不相似;一個段落和它本身的相似度為1。如圖2所示,譯后編輯譯文的相似度不同程度高于人工翻譯譯文。譯后編輯譯文明顯受到了機器翻譯譯文的影響。

圖2 人工翻譯與譯后編輯相對于機器翻譯的相似度

從人工翻譯與譯后編輯相似度的差值及均值都可看出,不同的例句存在差別。其中,例句4相似度差異相對較小,僅有0.012258;例句12差異相對較大,為0.163744。

例句4:

原文:She passed out of the room with a glimmer and rustle.

谷歌翻譯譯文:她微微一陣沙沙作響地走出了房間。

此例句體現出較大的相似度,是由于句子結構和使用詞匯相對簡單,是介詞“with”的標準用法,因而機器翻譯和人工翻譯在詞匯選擇上未體現出明顯差異,譯后編輯主要是對句子中詞的順序與關系做出調整。

例句12:

原文:Haldir skillfully cast over the stream a coil of grey rope,and he caught it and bound the end about a tree near the bank.

谷歌翻譯譯文:哈爾迪爾熟練地將一圈灰色的繩子拋在溪流上,他抓住了繩子,將末端綁在河岸附近的一棵樹上。

此段產生較大差異的原因在于名字“Haldir”的翻譯和繩子拋出的終點。譯后編輯在翻譯姓名“Haldir”時多直接采納了谷歌翻譯的結果,而人工翻譯在姓名上相對不統一。此外,谷歌翻譯將“cast over the stream”錯誤地翻譯為“拋在溪流上”,譯后編輯的20份譯文有13份采納了這一翻譯,6份譯為“拋到河對岸”;而人工翻譯的20份譯文中9份譯為“拋進河中”,10份譯文譯為“拋到河對岸”。可見,譯后編輯組在這一段落上受到了谷歌翻譯誤譯的影響。

(三)人工翻譯、譯后編輯與機器翻譯譯文可接受度分析

通過配對樣本T檢驗,分析人工翻譯、譯后編輯、機器翻譯這三種翻譯方式的譯文可接受度是否存在顯著性差異,并分析機器翻譯中可接受度較高的譯文及人工翻譯和譯后編輯譯文中可接受度相差較大的譯文。

通過SPSS 21的描述功能生成三組數據的描述統計量,結果見表3。可以看出,人工翻譯與譯后編輯相比,均值和極小值接近,二者整體上得到了相近的可接受度評價,譯后編輯的最低得分稍高于人工翻譯;而在極大值方面,人工翻譯的3.950高于譯后編輯的3.595,說明人工翻譯相對譯后編輯在可接受度方面有更高的上限。如果極大值和極小值存在偶然性,那么均值可以說明一定程度上具有普遍性。在這組例句的可接受度調查中,人工翻譯略高于譯后編輯,譯文可接受度整體上明顯高于機器翻譯譯文。

表3 描述統計量表

在進行配對樣本T檢驗前,需通過K-S檢驗分析三種譯文可接受度是否呈正態分布。漸進顯著性值分別為0.950、0.802、0.592,均大于0.05,說明三組數據均呈正態分布,可以進行配對T檢驗,結果見表4。

表4 配對樣本T檢驗

根據表4,人工翻譯—譯后編輯間Sig.值為0.981>0.01,不存在顯著差異;而人工翻譯—機器翻譯、譯后編輯—機器翻譯這兩對Sig.值均為0.000<0.01,存在顯著差異。

研究認為,人工翻譯與譯后編輯的譯文可接受度相近,而人工翻譯、譯后編輯這兩種翻譯方式的譯文可接受度均與機器翻譯的譯文存在顯著差異。結合譯文可接受度的均值,人工翻譯、譯后編輯這兩種翻譯方式的譯文可接受度明顯高于機器翻譯。當機器翻譯譯文存在介詞翻譯錯誤時,譯后編輯有效地更正了機器翻譯錯誤,達到了和人工翻譯相近的可接受度水平。

表5為15組編入問卷的例句的可接受度平均得分。其中,人工翻譯相對于譯后編輯表現較好的為例句3,譯后編輯相對于人工翻譯表現較好的為例句5,差值分別為1.37和-0.84。例句12的譯后編輯與人工翻譯可接受度差別最小,僅為0.08。下面將對這些例句進行分析。

表5 譯本可接受度得分數值表

例句3:

原文:This quest may be attempted by the weak with as much hope as the strong.

谷歌翻譯譯文:弱者可能會嘗試與強者一樣多的希望。

該例句的機器翻譯譯文質量不高,未能給譯后編輯組提供適當幫助,反而影響了輸出譯文的質量。其原因是句中連續涉及了兩個介詞:“by”“with”,而連續使用介詞的句子是機器翻譯容易出錯的地方,原因可歸結為機器的語義識別,尤其是復雜結構的語義識別還不夠精準。

例句5:

原文:I do not doubt that news of the discomfiture of the Riders has already reached him,and he will be filled with wrath.

谷歌翻譯譯文:我毫不懷疑騎手們陷入混亂的消息已經傳到他身上,他將充滿憤怒。

該例句機器翻譯錯誤發生在將“he will be filled with wrath”譯為“他將充滿憤怒”,這不符合漢語習慣,但容易調整。機器翻譯譯文中前半句翻譯相對準確,為譯后編輯組提供了一些幫助,使得譯后編輯譯文可接受度明顯高于人工翻譯。

例句12:

原文:A red light was on their tired and anxious faces;behind them the night was like a black wall.

谷歌翻譯譯文:他們疲倦而焦慮的臉上紅燈亮著;在他們后面的夜晚就像一堵黑墻。

這一例句難度不高,機器翻譯譯文中的錯誤容易識別,人工翻譯時也并不困難,因而譯后編輯和人工翻譯表現相近。

(四)谷歌機器翻譯在進行介詞相關翻譯時的錯誤分析

下文對谷歌在線翻譯的譯文進行分析,歸納谷歌機器翻譯在進行介詞相關翻譯時發生的錯誤,以期對機器翻譯和譯后編輯的研究、發展有所幫助。

在20個例句中,較為典型的錯誤有:主語混亂;介詞短語結構識別不準確,翻譯不當;介詞含義選擇不當;不符合漢語表達習慣。

1.主語混亂:多發生在介詞后,錯誤為將介詞后的成分誤譯為主語,在進行譯后編輯時較易識別。

(1)原文:For awhile he sat with unseeingeyes.

谷歌翻譯譯文:有一段時間他看不見的眼睛坐著。

主語本應為“he”,“with unseeing eyes”表示狀態,這里錯誤地將“unseeing eyes”判定為主語,使得譯文搭配混亂(eye+sat),不能構成理解。

(2)原文:and ascarf was swathed round his neck and over his chin tokeep out the fog.

谷歌翻譯譯文:一條圍巾圍在脖子上,下巴遮住了霧。

錯誤地將“his chin”判定為主語,抵擋霧氣的應是“scarf”,這里誤譯為“下巴遮住了霧”。前文提及的機器翻譯不能精準識別語義結構在這里再一次得到證明,機器把句子前半部分介詞“over”的賓語“his chin”辨別成了“keep out the fog”的主語。

2.介詞短語結構識別不準確,翻譯不當:主要是將有固定含義的介詞短語分開翻譯,導致誤譯。

原文:Mr.Bilbo is free with his money,and there seems no lack of it.

谷歌翻譯譯文:比爾博先生的錢是自由的,似乎不乏錢。

“be free with his money”應譯為“出手闊綽”,這里翻譯成了“錢是自由的”應該是沒有準確識別出“be free with”這一介詞短語。

3.介詞含義選擇不當:主要是將介詞簡單翻譯為空間上的方位(上、下),不符合語境。

原文:It has great virtues,but over such a wound as this its healing powers may be small.

谷歌翻譯譯文:它有很多優點,但是在這樣的傷口上,它的治愈能力可能很小。

句中的“over”表示作用的對象,應譯為“對于”,這里譯為方位“在……上”,搭配混亂,干擾讀者的理解。

4.不符合漢語表達習慣:主要是按詞詞對應的方式翻譯,不符合漢語的表達習慣,進行譯后編輯時可使用成語或常用的詞語替代。

(1)原文:he will be filled with wrath.

谷歌翻譯譯文:他將充滿憤怒。

直接將“filled with”譯為“充滿”,將“wrath”譯為憤怒,直接把介詞短語的基本意思譯出,沒有考慮漢語的表達習慣和文本的語體特點,顯得非常生硬,譯后編輯時可替換為“大發雷霆”“憤怒不已”等。

(2)原文:one by the name of Baggins……

谷歌翻譯譯文:一個以巴金斯的名字命名的人……

直接將“by the name of”譯為“以……的名字命名”,不符合漢語習慣,譯后編輯時改為“叫作……的人”,更為自然、貼切。

四、結論與啟示

本研究以40名MTI學生及111名英語專業高年級本科生為被試,從翻譯速度、譯文質量、譯文與機器翻譯譯文相似度三個角度,比較英譯漢機器翻譯介詞誤譯的譯后編輯譯文和人工翻譯譯文,分析時有如下發現。

1.在進行介詞誤譯更正時,譯后編輯與人工翻譯速度相近。現有研究多采用整篇文本進行人工翻譯和譯后編輯速度的測試,得到的結論也不盡相同。本文的結果表明,在所有句子都需要進行修改時譯后編輯與人工翻譯的速度相近,因而在進行譯后編輯效率研究時,應當限定使用文本的篇幅、類型,并對譯后編輯的不同環節分別進行測試。

2.在譯文質量上,譯后編輯譯文的得分相對集中,中位數與人工翻譯相近,最大值低于人工翻譯,而人工翻譯和機器翻譯譯文質量都明顯優于機器翻譯。譯后編輯整體上有效地對機器翻譯譯文進行了修正,并保持了與人工翻譯相近的速度。通過對個別人工翻譯、譯后編輯可接受度接近或相差較大的段落進行分析,結果發現:在原文較為簡單且機器翻譯錯誤容易識別的情況下,人工翻譯與譯后編輯譯文質量接近;在原文有一定難度且機器翻譯譯文質量不高的情況下,人工翻譯譯文質量高于譯后編輯;在機器翻譯譯文錯誤容易識別且整體質量較高時,譯后編輯譯文質量高于人工翻譯。

3.與人工翻譯相比,譯后編輯譯文與機器翻譯譯文的相似度更高。所選例句難度普遍不高,詞匯相對簡單時,人工翻譯與譯后編輯的相似度接近;譯后編輯在翻譯名字、地名等需要音譯的詞匯時,相對統一,在這種情況下人工翻譯的相似度會低于譯后編輯。

4.機器翻譯在翻譯含有介詞部分時的主要錯誤包括主語混亂、介詞短語翻譯不當、介詞含義選擇不當和不符合漢語表達習慣。主語混亂的句子常將原文中介詞后的成分當作主語,較易識別;介詞短語翻譯不當主要是將有固定含義的介詞短語拆開翻譯,應結合語境進行調整;介詞含義選擇不當主要是將介詞簡單地譯為上、下等空間位置,應結合上下文進行調整;不符合漢語表達習慣主要是逐詞翻譯導致譯文生硬,可替換為成語或更自然的短語。

隨著機器翻譯譯文質量的提升,譯后編輯翻譯速度將進一步提升。未來可在本研究設計基礎上,使用擊鍵記錄以更好地分析譯后編輯在不同情況下的翻譯速度和質量,亦可嘗試使用不同的相似度計算方法,計算人工翻譯譯文、譯后編輯譯文、機器翻譯譯文和由職業譯員翻譯的譯文之間的相似度,從而更加深入地研究譯后編輯的翻譯速度與質量、譯后編輯和機器翻譯的譯者風格。譯后編輯正逐漸成為翻譯行業的主流翻譯模式之一,因而翻譯教學在傳統教學內容基礎上也應增加譯后編輯的相關培訓。

猜你喜歡
質量
聚焦質量守恒定律
“質量”知識鞏固
“質量”知識鞏固
質量守恒定律考什么
做夢導致睡眠質量差嗎
焊接質量的控制
關于質量的快速Q&A
初中『質量』點擊
質量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
你睡得香嗎?
民生周刊(2014年7期)2014-03-28 01:30:54
主站蜘蛛池模板: 精品国产美女福到在线直播| 曰韩人妻一区二区三区| 国产成人精品2021欧美日韩 | 国产精品人人做人人爽人人添| 国产网友愉拍精品视频| 亚洲美女视频一区| 午夜不卡福利| 欧美精品伊人久久| 视频一区亚洲| 午夜啪啪网| 中文成人在线视频| 国产成人综合亚洲欧美在| 国产a v无码专区亚洲av| 亚洲福利一区二区三区| 四虎影视国产精品| 国产在线精彩视频二区| 毛片基地美国正在播放亚洲| 嫩草国产在线| 成人福利在线看| 蜜桃臀无码内射一区二区三区| 亚洲第一香蕉视频| 久久黄色免费电影| 亚洲专区一区二区在线观看| 亚洲欧美激情小说另类| www.youjizz.com久久| 毛片在线看网站| 精品国产成人av免费| 亚洲视频三级| 亚洲美女久久| 久久久久国产精品熟女影院| 久久中文字幕不卡一二区| 久久人妻系列无码一区| 国产极品美女在线| 亚洲91精品视频| 国产精品成人AⅤ在线一二三四| 国产99视频精品免费视频7| 午夜啪啪福利| 一级毛片不卡片免费观看| 久久五月天国产自| 亚洲福利一区二区三区| 在线免费亚洲无码视频| 亚洲欧美日韩动漫| 中日韩欧亚无码视频| 午夜国产理论| 亚洲精品图区| 伊人久久婷婷五月综合97色| 国产丰满大乳无码免费播放 | 久久久久免费精品国产| 亚洲天堂视频网站| 亚洲一区二区视频在线观看| 国产va在线观看| 91精品国产一区自在线拍| 亚洲成人在线网| 茄子视频毛片免费观看| 色悠久久综合| 亚洲一级毛片在线播放| 啪啪免费视频一区二区| 国产免费高清无需播放器| 亚洲黄色成人| 日本欧美精品| 高潮毛片免费观看| 狠狠色狠狠综合久久| 亚洲人成在线精品| 亚洲首页在线观看| 人妻丰满熟妇av五码区| 欧美国产视频| 亚州AV秘 一区二区三区| 欧美久久网| 国产91小视频| AV在线麻免费观看网站| 波多野结衣二区| 青青青国产视频手机| 国产99视频精品免费视频7| 国产成人精品高清不卡在线| 久久精品电影| 日韩精品成人网页视频在线| 国产精品第| 免费jizz在线播放| 在线观看av永久| 这里只有精品免费视频| 欧美亚洲国产精品第一页| 无码中文AⅤ在线观看|