中圖分類號]H085 [文獻標識碼]A 【文章編號]2097-2881(2025)15-0090-04
自20世紀50年代開始,機器翻譯成為人工智能研究發展的重要任務之一。經歷了幾個不同時期和階段性發展,其形成了包括基于規則的方法、統計的方法和最近提出的基于神經網絡的學習方法。在此期間,機器翻譯的評測研究與發展有了飛躍。尤其是評測方法在統計翻譯和神經翻譯研究中扮演著的重要角色。
一、研究背景
1.機器翻譯和翻譯質量評估
盡管機器翻譯的質量在不斷提升,但其翻譯結果仍然沒有達到人類翻譯專家的水平。這一現象在大多數語言組合和不同領域的測試中都非常明顯。最近的相關研究也指出,目前流行的翻譯測試集仍存在局限性,尤其是在文學領域的機器翻譯表現不佳。因此,機器翻譯的評測(MTevaluation,MTE)扮演著推動機器翻譯發展的重要角色。機器翻譯質量的評測本身是一個很有挑戰性的研究課題,這緣于翻譯本身的多樣性、語言的多變性和豐富性,以及語義相似度計算的復雜性。
機器翻譯的評測方法主要分為人工評測和自動評測。人工評測需要人工參與,而自動評測則無需人工干預。自動評測方法包括基于參考譯文的評測和無需參考譯文的評測,具體方法涵蓋了傳統的字符串匹配、結合句法和語義的模型,以及基于深度學習的模型。評測內容還包括對人工評測的可信度、自動評測的可信度及測試集的可信度進行評估。
然而,人工評測耗時漫長且成本高昂,因此研究主要集中在非人工的自動化評估方法上,這些方法通常被稱為“指標”。其中最著名的是BLEU(雙語評估替補),由Papineni等人于2002年提出。BLEU的核心是衡量機器翻譯系統生成的結果與一個或多個“參考”人工翻譯之間的相似度。機器提供的翻譯越接近人類翻譯,它就越好。目前,已經開發了其他指標,如ROUGE、NIST、METEOR等。總體來說,這些
評價指標各有優缺點。
2.平行語料和自動測評方法
在翻譯課程中,教師不再回避甚至禁止學生使用機器翻譯,而是鼓勵他們去了解機器翻譯的發展歷程、運行機制,以及當前主流的機器翻譯工具(如微軟、谷歌和DeepL等在線翻譯軟件)之間的差異。此外,教師還提倡學生利用大語言模型輔助翻譯,其通常有“先使用模型翻譯”和“后使用模型潤色”兩種方式]。在課堂上,學生可以通過對比分析,找出機器翻譯相較于人工翻譯的不足之處。畢竟,機器翻譯的興起對外語專業的學生來說,這既是一個挑戰,也是未來發展的機遇。
本研究所采用的翻譯測評方法有三種:BLEU、TER和Coh-Metric。前兩種是基于字符串的相似度,但BLEU分數越高表示與參考譯文的相似度越高;TER(TranslationEditRate,翻譯編輯率)則反之,其核心思路是看翻譯結果經過多少次編輯操作能轉化到標準答案,目的是使評估標準更貼近人的判斷,因此分數越低表示需要編輯的次數越少,也就是翻譯質量越好。CohMetric本身并不是一種機器翻譯質量測量方法,而是一個基于網絡的文本分析工具,融合了計算語言學和語料庫語言學的多種技術,可以對文本的詞匯、語法和語義特征進行自動分析。Coh-Metrix2.0是由美國孟菲斯大學多名應用語言學家設計開發的一種在線文本分析工具,該工具可對文本的可讀性、詞匯、句法、語義指代及情景維度等多方面進行精確的測量,可用于外語教學與研究的多個方面,如閱讀材料的選擇、閱讀任務的效度驗證等。
本研究所采用的語料是由黑龍江省女作家遲子建所寫的《額爾古納河右岸》,中文版本由北京十月文藝出版社于2005年出版;法語譯本的譯者是YvonneAndré和StephaneLéveque,法文譯名為LeDernierQuartierDeLue,參考了英文譯名,法文版圖書由法國的出版社EditionsPhilippePicquier于2016年出版。筆者采用在線對齊工具
Tmxmall進行了句對句的對齊,并且提取出有多個謂語動詞的句子作為研究對象,目的是研究這種“流水句”在法文無法對等的情況下,幾種機器翻譯的質量。
二、數據結果分析
使用Python中的數據包和手動算法,將文本中的多個流水句切片進行測算。BLEU的平均分值分別為0.56(Deepl)、0.57(Google);TER的平均分值分別為0.54(DeepL)、0.12(Google),分值差異較大,得分越高反而表示其翻譯質量越低。由于Coh-Metrix的得分項比較多,只取連貫度等主要因子進行比較,“閱讀容易度”分值中DeepL、Google、人工翻譯的分數分別是63.697、64.416、67.545,人工翻譯得分最高;“第二語言可讀性”(RDL2)這個指標中DeepL、Google、人工翻譯的得分分別是:8.467、4.03、6.276,DeepL翻譯的“第二語言可讀性”更高一些。Coh-Metrix的多個指標表明,人工翻譯并不一定是最連貫、最簡單的文本。
1.詞的忠實
翻譯要求對原文忠實,但“忠實”所指的語境需要深入探討。我們必須明確所說的語境是廣泛的文化語境(context),還是特定的上下文語境(co-text)[2]。如果不考慮語境,所謂的“忠實”翻譯可能會導致詞義的誤解,尤其是在面對一詞多義的情況時。例如,“跳大神”和“下山”等表達蘊含了豐富的文化背景和深層次的內涵。機器翻譯將鄂溫克族的“下山”簡單翻譯為descendrelamontagne;而人工翻譯則選擇將之翻譯為partirverslaplaine,即“走向平原”。機器翻譯的方法雖然在字面上看似正確,但未能充分反映原文中離開賴以生存的大山的文化意蘊。因此,在翻譯過程中,理解語境的復雜性和多樣性是確保忠實翻譯的關鍵[3]。
例1:父親在希楞柱的東南角搭了一個四柱棚,宰殺了一只白色的馴鹿,請尼都薩滿來給列娜跳神。
“宰殺”的兩個機器翻譯都是abattre,而人工翻譯是sacrifier。這個詞的意思是“sacrifierunanimal”,即獻祭一頭牲畜。很顯然,針這個例子人工翻譯更加準確。
例2:他一邊舞蹈一邊歌唱著,尋找著列娜的“烏麥”,也就是我們小孩子的靈魂。他從黃昏開始跳,一直跳到星星出來,后來他突然倒在地上。
谷歌翻譯將“跳”譯為sauter,但這里的“跳”實際上指的是“跳大神”,而非“蹦跳”之意。由此可見,谷歌翻譯未能識別上文語境。不過,DeepL此次識別到上文有“Iladanséetchanté.”,于是將“跳”譯為iladanse,準確把握了語境。機器翻譯將“星星出來”譯為sortir(出來),這種譯法很難讓人接受。相比之下,人工翻譯將其譯為apparaitre(出現)更為準確,因為這樣能體現出“人們可以看到星星”這一意思。人類譯者還更加靈活地選擇了apparition(出現)這一名詞形式,使表達更加貼切。
2.句型忠實
在法語中,形容詞或過去分詞引導的狀語結構常置于主句之前,用于表示狀態、原因、方式等。人類譯者在翻譯時,往往遵循這一法語表達習慣,將形容詞作為前置成分與主句分離,從而使譯文更加符合法語的自然表達。然而,機器翻譯有時未能充分考慮這一習慣,導致部分譯文意思不夠清晰、自然。因此,在翻譯過程中,深入理解并靈活運用法語的句型結構至關重要,這有助于確保譯文的流暢性和準確性。
例3:她躺在希楞柱的犯皮褥子上,發著高燒,不吃不喝,昏睡著,說著胡話。
主句選擇哪一個動詞,“躺著”還是“說胡話”,這是非常考驗譯者的一個問題。人工翻譯的選擇是delire,即說譫語。在翻譯漢語“流水句”時,機器翻譯往往會固守原文的句型結構。當遇到一個句子中出現多個動詞的情況,機器翻譯會通過使用多個分詞來確保單個句子中只有一個主要動詞。相比之下,人工翻譯則會采用更為簡潔、符合法語習慣的句型,如“分離修飾成分 + 主句\"等。這種句型形式不僅干凈利落,而且更符合法語的表達習慣,相較于機器翻譯的“主句 + 多個修飾成分”,人工翻譯的方式明顯更具優勢
例4:他倒地的一瞬,列娜坐了起來。列娜朝母親要水喝,還說她餓了。
機器翻譯把“倒地”譯為一個句子,而人工翻譯將“倒地”這一動詞譯為sachute,即名詞形式的“摔倒”。在人工翻譯中,我們可以多次看到譯者活用詞性的情況,這是因為兩種語言存在差異,無法實現完全的對等,否則就會出現像機器翻譯一樣冗余和佶屈聱牙的情況。
3.指稱鏈條的忠實
指稱鏈條是指文本中的同一個指稱的共指鏈接形式。機器翻譯完全忠實于原文,所以導致其譯文的共指方式與原文完全一致,但這種方式其實是非常死板且難以被讀者理解的。具體可見例5:
例5:我們崇拜熊,所以吃它的時候要像烏鴉一樣“呀呀呀”地叫上一刻,想讓熊的魂靈知道,不是人要吃它們的肉,而是烏鴉。
對比中文和法文的指稱鏈條,可以看到以下因果關系:崇拜熊(cetanimal)、吃它(mangeonssachair)熊的靈魂(sonesprit)以及它們的肉(le)。這些表達并沒有完全對等,反映出人工翻譯中共指鏈條經過譯者的重新整合和闡釋。因此,翻譯的過程不僅是語言的轉換,更是對原意的再理解和再表達。
4.時態忠實
在翻譯過程中,時態的處理是一個重要的環節,并不是所有的時態都需要在翻譯中逐一對應。有時候,根據上下文和語境,某些時態的細微差別可能并不影響整體意思,因此可以適當簡化或調整。例如,在中文中,時態的表達往往通過時間副詞或上下文來傳達,而不一定需要通過動詞的變化來實現。在這樣的情況下,翻譯者可以根據目標語言的習慣和邏輯,靈活地選擇是否保留原文的時態。因此,在翻譯時,理解原文的時態意圖及目標語言的表達方式,能夠幫助譯者實現
更加自然且流暢的翻譯。
例6:夏天時我們常背他到河邊,捉岸邊草叢中的蜻蜓給他看。
例6中,未完成過去時(Imparfait)表示過去的習慣,在中文中不需要翻譯出來。但機器翻譯把“常”翻譯為avoir'habitudede,這其實是多余信息。
5.成語翻譯
成語翻譯的難處主要體現在文化背景和語義層面的差異。成語往往蘊含著深厚的文化內涵和歷史背景,其意義不僅僅依賴于字面上的解釋,還與特定的文化、習俗和社會語境密切相關。因此,在翻譯成語時,譯者需要充分理解其背后的文化內涵,以確保翻譯能夠傳達出原文的精神和情感。
例7:娜拉將頭上的孢皮帽子摘下來,甩了甩頭,賭咒發誓地躁著腳說:“快把我扔進去吧,我天天游在里面,你們想要魚了,就敲一敲冰面,叫一聲娜拉,我就頂破冰層,把魚給你們送上!”
對比幾個翻譯結果,DeepL翻譯有錯誤,原文是“甩頭”,而不是“甩帽子”,從過去分詞的配合上可以看出機器翻譯并沒有翻譯正確。“賭咒發誓地躁著腳說”中的成語漏譯了[4],反倒是谷歌的翻譯將其譯為jurer,至少保留了作者的原意。人工翻譯顯得更為自由,干脆刪掉了一句話,將句子簡化成“我就頂破冰層,把魚給你們送上!”,譯者覺得“如果需要魚,只需要敲敲冰面即可”就足以表達這句話的意思,
三、結語
研究發現,機器翻譯相較于人工翻譯,其錯誤可以分為幾種類型:無法接受的明顯錯誤、可以容忍的錯誤,以及正確但可優化的翻譯。盡管人們對人工智能的崛起感到恐慌,認為譯者的工作會受到威脅,但相關研究表明,人工智能和機器翻譯尚未達到可以完全取代人類翻譯的水平,
通過語料整理與對比觀察,我們認識到機器翻譯具有人工翻譯所沒有的優勢,但仍面臨一些問題,主要集中在無法“去語言外殼”上,這導致機器翻譯在語義和語序方面往往采用“逐字翻譯”,無法有效顯化信息,甚至可能產生誤解。同時,機器翻譯自動測評方法的局限性主要體現在對語義理解的不足,缺乏人類判斷的靈活性,以及對詞匯重合度的過度依賴,這使得它難以有效捕捉翻譯中的細微差別和上下文含義。此外,自動測評工具在面對多樣化的翻譯結果時表現不佳,且往往未能適應不同語言的特性,導致評估的準確性受到限制。因此,盡管自動測評在效率上有優勢,但在全面評估翻譯質量方面仍然存在顯著不足。
參考文獻
[1] 邵煒,李曉光.本科漢法筆譯教學中的機器翻譯輔助及譯后編輯I].法語國家與地區研究,2022(3).
[2] WongB.T,KitC.ExtendingMachineTranslationEvaluation MetricswithLexical Cohesion to Documentlevel[C]//JointConferenceon Empirical MethodsinNatural Language Processingamp; Computational NaturalLanguage Learning.Association forComputationalLinguistics,2013.
[3] 祁依虹,茅于杭.漢法機器翻譯的難點分析Ⅲ].計算機工程,2002(9).
[4] 趙會軍,林國濱.機器翻譯詞語漏譯的語料庫語境策略研究Ⅲ].外語教學與研究,2022(2).
(特約編輯 楊艷)