安帥飛 邵楨貽
當前,隨著計算能力的增長、算法的改進完善,經驗主義導向下的機器翻譯取得了顯著的成就。Google等在線翻譯平臺對傳統翻譯行業造成了很大的沖擊,甚至有取代翻譯職業的輿論狂潮。但大規模的計算能力和不斷升級的算法并非萬能,在口語題、小說題等非規范本文上的翻譯處理上,效果仍不理想。本文使用小說體裁對Google翻譯在線和多語種即時在線翻譯_百度翻譯兩大在線翻譯平臺進行評測實驗,分析實驗結果,力求提出改進翻譯效果的芻議。
實驗所用語句選自金庸所著《笑傲江湖》和《倚天屠龍記》共6句,體裁為小說。列舉如下:
1.莫非是田伯光?又莫非是不戒和尚?
2.劉師叔金盆洗手大事,請暫行押后。
3.劉姑娘,請你在這里稍待片刻。
4.嵩山派來了多少弟子,大家一齊現身罷!
5.天下英雄在此,你膽敢動我兒一根寒毛,你數十名嵩山弟子盡皆身為肉泥。
6.多謝姑娘。
①Google翻譯在線http://translate.google.cn/
②多語種即時在線翻譯_百度翻譯 http://fanyi.baidu.com/?aldtype=16047#auto/zh
將《笑傲江湖》和《倚天屠龍記》中所選的20句小說句放在兩大在線翻譯平臺進行測試,得到結果如下:
1.Google:Could it be Tian Bo light? Is it not a monk?
百度:Could it be Tian Boguang?Is it possible not to quit monks?
2.Google:Liu Shishu gold basin wash your hand, please temporarily postponed.
百度:Uncle Liu wash event,please postpone the interim.
3.Google:Liu girl, please stay here for a moment.
百度:Liu Guniang, please stay here for a while.
4.Google:Songshan sent a number of disciples, everyone came together!
百度:Songshan sent a number of disciples, we all come together!
5.Google: The world heroes in this, you dare to move me a cold hair, you dozens of Songshan disciples as all as mud.
百度:Hero in the world here, you dare to move a finger on my son, you dozens of Songshan disciples all being minced meat.
6.Google:Thank the girl.
百度:Thank you girl.
經過觀察分析,上述翻譯大致出現了6類錯誤,分別如下:
①中文分詞錯誤,導致錯誤斷句,句子結構分析不正確。
例:嵩山派來了多少弟子,大家一齊現身罷!
Google:Songshan sent a number of disciples, everyone came together!
百度:Songshan sent a number of disciples, we all come together!
根據翻譯結果可以判斷得到,Google和百度翻譯系統在處理該例句時,將專有名詞“嵩山派”斷句為:嵩山|派,誤將‘派’處理為動詞,譯為‘sent’。詞庫中,專有名詞“嵩山派”出現次數過少或缺失。
②人名等專有名詞的翻譯錯誤。
以例句1來進行說明。
例:莫非是田伯光?又莫非是不戒和尚?
Google:Could it be Tian Bo light? Is it not a monk?
百度:Could it be Tian Boguang?Is it possible not to quit monks?
例句中,‘田伯光’、‘不戒和尚’在小說中是人名,屬于專有名詞,在Google翻譯平臺中被錯誤翻譯 為 ‘Tian Bo ligh’,‘not a monk(不一個和尚)’。‘不戒和尚’在百度翻譯中被譯為‘not to quitmonks(不去放棄和尚)’。
③隱喻、比喻等被直譯成字面意義。
例:天下英雄在此,你膽敢動我兒一根寒毛,你數十名嵩山弟子盡皆身為肉泥。
Google:The world heroes in this, you dare to move me a cold hair, you dozens of Songshan disciples as all as mud.
百度:Hero in the world here, you dare to move a finger on my son, you dozens of Songshan disciples all being minced meat.
例句中‘一根寒毛’、‘肉泥’皆為隱喻用法,而在Google和百度翻譯平臺中被直譯為‘a cold hair’、‘minced meat’等,明顯偏離真實語義。
④成語、慣用語等被直譯成字面意義。
例:劉師叔金盆洗手大事,請暫行押后。
Google:Liu Shishu gold basin wash your hand, please temporarily postponed.
百度:Uncle Liu wash event,please postpone the interim.
例句中,成語‘金盆洗手’在Google翻譯平臺中被直譯為‘gold basin wash your hand’,明顯偏離真實語義。在百度翻譯平臺被漏譯為‘wash’,也是錯誤的。
⑤在處理一詞多義時,選擇了錯誤的詞義。
例:劉姑娘,請你在這里稍待片刻。
Google:Liu girl, please stay here for a moment.
百度:Liu Guniang, please stay here for a while.
例句中,‘姑娘’為多義詞,可以表示女孩,也可以用作稱謂詞。Google翻譯平臺,在詞義優選過程中,選擇了錯誤的詞義‘girl’。百度翻譯平臺則是直接給出了漢語拼音。
⑥復句的分句主語判斷錯誤。
例:嵩山派來了多少弟子,大家一齊現身罷!
Google:Songshan sent a number of disciples, everyone came together!
百度:Songshan sent a number of disciples, we all come together!
例句中的第二個小句主語‘大家’指嵩山派弟子,Google將其翻譯為‘everyone’,勉強可以接受,百度將其譯為‘we’,則明顯是錯誤的。
對非規則文本處理上,詹衛東(2017)引入構式語法,提出通過構建構式知識庫來搭建基礎的語料資源。本文結合對實驗結果的分析,根據對錯誤結果的特征分析,對改善小說題機器翻譯提出三點建議。
在專門領域翻譯平臺上,針對不同的領域,使用不同的知識庫。這樣,進行諸如例6一詞多義的優先選擇時,可能會出現不同的結果。在領域知識庫中,‘姑娘’一詞中各個詞義的優先級不一定等同于通用知識庫。一般來看,在通用知識庫中,‘姑娘’的優先級應是:女孩(girl)>稱謂詞(Miss),而在小說體裁的知識庫中,‘姑娘’的優先級更可能是:稱謂詞(Miss)> 女孩(girl)。
在增設領域翻譯平臺的基礎上,豐富知識庫。主要有兩個方面:
①是要增加人名、地名等專有名詞,以解決分詞錯誤、專名翻譯錯誤等問題。
②是要增設成語、慣用語対譯資源庫,以避免字面直譯,偏離真實含義。
指代消解問題是自然語言處理不可回避的部分,漢語中的回指主要有三種形式:零形回指、代詞回指和名詞回指(陳平,1987)。其中,零形回指的出現頻率最高,使用最廣泛(黃嫻,2009)。需要特別注意,回指的消解問題,不只出現在句間,也出現在單個句子內部(例句7)。在領域翻譯平臺上,增加指代消解機制,以判定代詞等指示詞的指示對象,明晰句子成分,消除歧義。