摘要: 語義排歧的質量是決定機器翻譯優劣的重要標準,本文以六個較為常見的在線翻譯網站為研究對象進行比較,從而了解我國大眾網絡翻譯的現狀及存在問題。
關鍵詞:在線翻譯 語義排歧 英譯漢
1.機器翻譯及其軟件類型
機器翻譯(Machine Translation,簡稱MT),就是利用機器(或計算機)翻譯系統能把人類語言翻譯的法則,轉變成電腦運算的法則,將輸入的原始語言(Source Language)翻譯成所需的目標語言(Target Language)。目前,機器翻譯軟件大致可以分為四大類[2]:①詞典類翻譯軟件;②漢化翻譯軟件;③以自動翻譯為核心的專業翻譯系統;④在線翻譯網站。
2.機譯中語義排歧的普遍方法
無論哪一種機器翻譯軟件,語言歧義的排除是最大的難題,這已經成為機器翻譯發展的瓶頸。如果詞義排歧不能解決,機器翻譯的質量就不可能有質的提高。目前機器翻譯學者提出的排歧方法如下[1]:①選擇最常見的涵義,這種方法簡單易行,大多數翻譯系統都有采用,但排歧效率非常低;②利用詞類進行詞義排歧,能有效地縮小詞義選擇范圍,但是當兩個義項屬于同一詞類時就無法排歧,不過可以配合其他方法一起使用;③基于選擇限制詞義排歧,是國內外研究得比較深入的排歧方法,例如普林斯頓大學開發的WordNet和中科院建立的HowNet都是根據此法的研究成果;④基于共現特征的詞義排歧,根據共現詞出現在目標詞左右固定詞距的窗口內,確定目標詞的意思,這種方法不能因詞而異,所以要結合利用詞類進行詞義排歧,并且要規定共現詞出現的位置和結構,結合其他共現特征,這樣才能盡量準確地排除歧義;⑤無指導的詞義排歧,對大量語料進行計算統計,形成共現頻率表,這種方法也稱“向量內聚”,但要標注每個多義詞在語料庫的各個語境中的具體義項,否則大量干擾詞會嚴重影響排歧效率;⑥基于詞典的詞義排歧,這種方法首先計算上下文中相鄰詞定義間的相似度,然后選擇定義相似度較高的義項,主要缺點是計算機可讀詞典中每個詞的定義通常太短,為排歧提供的信息不足。
3.機譯中英譯漢排歧質量的比較
華建[3]、谷歌[4]、雅虎寶貝魚[5]、上海華譯看世界[6]、金橋谷詞[7]和譯星[8]是比較受歡迎的在線翻譯網站。以下針對不同的測試點參照不同的排歧方法對這六個翻譯網站的英譯漢排歧質量作個比較。為了保證盡量客觀地評價各網站,以下范例均從《牛津高階英漢雙解詞典》里選擇,具有一定的代表性:每個范例至少有一個多義詞,涉及名詞、動詞、形容詞、介詞、副詞、不定代詞和被動語態等測試點,其中更不乏語用的處理分析。雖然例子簡單,卻可以通過分析發現在線翻譯網站在語義排歧上的主要問題。
3.1在線翻譯網站對不常用詞義的排歧效果
以run為例,run一般作動詞,作名詞時常見義項為第一義項:act or period of running on foot,即:跑、跑步、奔跑、奔跑一段時間。但在a run of bad luck中的run取第五義項,意思是period or succession or spell,即時期或者一段時間,短語的涵義為a series of misfortunes,即一連串的不幸。六個在線翻譯網站中,除了華建翻譯為“一連串的壞運氣”,譯星為“一連串壞的運氣”之外,谷歌和看世界翻譯為“運行的壞運氣”,雅虎為“不幸奔跑”,金橋更是誤譯為“一壞運氣的跑步”。
再如minute的常見詞性是名詞,以第一義項“分鐘、片刻”使用最頻,而在句子“We read through the minutes of the last meeting.”中的minute取名詞的第四義項,即brief summary or record of what is said and decided at a meeting, esp.of a society or committee——會議記錄,一般以復數形式出現,所以句子意為“我們從頭到尾把上次會議記錄看了一遍”。從六個在線翻譯網站的翻譯結果來看,除了譯星誤譯為“分鐘”,華建、金橋和雅虎為“記錄”或“紀錄”,谷歌和看世界譯為“紀要”。
對同類句例的英譯漢查詢結果分析得出:華建在對不常用詞義的排歧選擇上優于其他在線翻譯網站,而譯星和金橋在該類詞義排歧上存在很大漏洞,所以有時譯文很中肯,有時卻荒唐得離譜。
3.2在線翻譯網站對不常用詞性的排歧效果
Back常見的詞性依次為名詞、形容詞、副詞和動詞,在動詞第四義項中,back意為bet money on(a horse,greyhound,etc.),即下賭注于(賽馬、賽狗等)。例如:The favorite horse was heavily backed.(那匹熱門馬被下了重注。/人們在那匹熱門馬上下了重注。)比照六大翻譯網站的翻譯結果,除了華建譯為“下注”,谷歌、雅虎、譯星均為“支持”,看世界為“后盾”,金橋為“使后退”,其中,谷歌和看世界的譯義為名詞,沒有譯出動詞詞性。
再舉minute為例,該詞一般作時間名詞,由上述所說的第四義項引申出不常用的動詞詞條——make a note of(sth.)in an official memorandum; record(sth.)in the minutes,即將(某事)載入備忘錄或會議記錄。對以下句子Your suggestion will be minuted.(你的建議將記錄在案。)眾在線翻譯網站對句中minute的處理如下:華建翻譯為“你的建議將被記錄”;谷歌、看世界、金橋直接在譯文中保留英語單詞minuted;雅虎經過排歧處理,得出“您的建議將是微小的”,誤取了minute作為形容詞的義項;譯星仍誤譯為“分鐘”。
再看這個例句:The detective studied the fingerprints in the minutest detail.此處的minute是形容詞,意為very detailed; accurate or precise,即“極詳細的、準確的、精確的”。整個句子意思是“那偵探仔仔細細地研究了各個指紋”。華建翻譯為“偵探在微小的細節里研究手印”,minute的意思翻譯得較為到位,也把介賓短語的狀語作用顯示了出來;谷歌和看世界在譯文中保留minutest;譯星依然不能擺脫minute的常見涵義“分鐘”;雅虎則譯為“探員學習了在詳細的指紋”;金橋為“偵探學習最細微詳細指紋”。雖然兩個句子都翻譯得很別扭,畢竟還能排除大量歧義最終選擇“詳細、細微”這類較接近的譯文。
通過大量查詢結果比對發現,在線翻譯網站對不常用詞性的排歧效果普遍不佳,一些翻譯網站如谷歌和看世界,只能束手無策地將原單詞保留在譯文中,而其他在線翻譯網站雖然經過排歧處理,卻難免誤入歧途,要么選擇了錯誤的詞性,要么詞性對了,詞義又錯了。針對該問題的排歧建議為:如果多義詞以被動語態出現,如be minuted/be backed,此時排歧過程中首先排除形容詞和動詞以外的其他詞性;如果多義詞以最高級形式出現,例如minutest,則毫無疑問排除形容詞外的其他詞性及其詞義。應該建立根據詞語結構,如后綴和句子結構選擇正確的詞性的排歧步驟。
3.3在線翻譯網站對介詞的排歧效果
在短語travel by ferry“乘渡船”中,by是介詞,在牛津詞典關于by作為介詞的詞條里第九義項為indicating a means of transport or a route taken,表示運輸或取道的方式,如travel by boat / plane/air/land/sea,即:乘船/乘飛機/航空/陸路/航海旅行。查詢六大在線翻譯網站后得出:華建翻譯為“乘渡船”,雅虎為“旅行乘輪渡”(順序顛倒),谷歌和看世界翻譯為偏正結構的名詞詞組“旅行的渡輪”,金橋則取by作為介詞的第三義項past sb./sth.(經過某人/某物),翻譯為“經過渡口移動”,譯星譯為“通過渡輪的旅行”,將by理解為第六義項的through the means of (sth/doing sth)“通過(某事物/做某事)的方式”。除了華建和雅虎,其他網站對介詞by的排歧出現了很大的偏差,尤其是谷歌、看世界和金橋。
我們再回到句子“We read through the minutes of the last meeting.”觀察介詞through的排歧效果。對于read through,華建和金橋翻譯為“讀完”,谷歌和看世界為“讀通過”,雅虎為“通過……讀了”,譯星為“通過……閱讀”。read through有“通讀”的意思,但針對會議紀要,最好翻譯為“從頭到尾地看了一遍”。華建和金橋譯文最接近原意。through在介詞詞條的第二義項為from the beginning to the end of(sth.)從(某事)的開始至結束、自始至終、從頭到尾,如:I’m half-way through (reading)his second novel.(他寫的第二本小說我正看了一半兒。)而翻譯為“通過”的各網站把through理解為第五義項past(a barrier),即通過(障礙),因為這個義項是through最常見的涵義。產生較大誤差的譯文是由于選擇過程中沒有結合共現詞read排歧,而單純地以常見意義取代。
其實要正確抓住介詞意思也不無可能。魯孝賢在《機器翻譯語義排歧的方法》里舉with為例,說明了基于詞典的詞義排歧。根據該介詞于上下文相鄰詞定義間的相似度選擇相似度較高的義項,準確率就會比較高,如by之后是交通工具時取“乘坐”之意。至于該法由于計算機可讀詞典中每個詞的定義通常太短,無法為詞義排歧提供足夠的信息資源這一主要缺點,可以輔以“基于共現特征的詞義排歧方法”,如read through翻譯為“通讀”或“從頭至尾看過”。
3.4在線翻譯網站對語用分析處理的對比
以drive a nail home為例,牛津雙解言及drive作為動詞的第一詞條中第二義項為take(sb)somewhere in a car,taxi,etc.(用汽車、計程車等送(某人)至某處),因此drive sb.home可為“開車送某人回家”。在第九詞條(習語)中又有drive sth.home(to sb.)——make sb.realize sth.,esp by saying it often,loudly, angrily,etc.使某人充分認識或理解某事物(尤指經常地、大聲地、憤怒地說),例如:I drove home to him that he must be here by ten.(我跟他說得清清楚楚:他必須十點鐘以前到這里)。再看看在線翻譯網絡對drive a nail home的翻譯結果:華建使用第一義項,翻譯為“開車送一根釘子回家”;金橋用了習語的涵義——把一個釘子徹底講清楚。這兩種譯文雖然不對,至少選擇了基于共現特征的詞義排歧,只不過沒有考慮到nail的語用范疇。不似雅虎翻譯為“駕駛釘子家”。
drive作為動詞的第五詞條第一義項為force(sth.)to go in a specified direction or into a specified position迫使(某物)移動或進入某位置;打;敲;擊;戳;釘。如:drive a nail into wood(把釘子釘入木中);drive a stake into the ground(把樁打進地里)。drive a nail home應該使用這一定義,即“釘釘子”。home在該短語中肯定為副詞,其作為副詞在第二詞條的釋義為to the point aimed at/as far as possible,即“正中目標”或者“盡可能地”。應對這類包含三個或三個以上多義詞并涉及語用的語料,應先抓住重點分層剝落各種干擾項。仍以drive a nail home為例。建議排歧步驟為:
(1)搜索固定搭配。一般先從習語入手,排除“把一個釘子徹底講清楚”的譯文,因為drive sth. home(to sb.)中的sth.只能是viewpoint/matter/reason等表示觀點、事實和原因的名詞或者以 that/what引導的從句。
(2)從基于共現特征的drive...home(開車送……回家/驅使……回家)入手,排除非生物名詞作為該詞組賓語的可能性。
(3)使用基于詞典的詞義排歧方法。drive和home都可以是電腦用語,位置相鄰,定義間有相似之處,表示“驅動”和“首頁/主頁”,這就是為什么谷歌和看世界把該短語翻譯為“驅動指甲主頁”和“驅動器指甲首頁”的原因。但是nail無論作為“釘子”或“指甲”,仍然不可適用這一釋義。況且之前有限定詞a,而nail的首字母亦非大寫,不可能是某特定網站名稱。所以再排除“驅動……首頁/主頁”的釋義。
(4)再次使用基于詞典的詞義排歧方法,這次根據drive與nail的相似度,找出drive作為“釘”的涵義和nail作為“釘子”的義項重新組合。
(5)選擇home用以表示程度的涵義as far as possible,譯為“到頭兒/到底”,則drive a nail home釋義了然。
回顧六個在線翻譯網站的譯文,金橋在第一步驟停止排歧,華建和譯星在第二步驟停止排歧,谷歌和看世界止于第三步驟,而雅虎只選擇基本義拼湊出譯文,最不符合智能翻譯的要求。當然,我們也不排除谷歌和看世界不使用排歧方法、將drive和home在當今網絡信息時代最常用的意義設為基本義、直接取用的可能性,因為譯文中的nail不作“釘子”而僅作“指甲”解釋并非排歧結果,查詢谷歌和看世界的在線詞典即可知道,nail只有一個義項——指甲,所以drive和home無可選擇地被翻譯為“驅動”和“主頁”也可能不是智能化的結果了。
4.總結
機器翻譯是當代科技十大難題之一,而語義排歧又是機器翻譯中的重中之重、難中之難。每個多義詞的詞義變化規律各不相同,所以研究語義排歧只能從單詞入手、因詞而異地研究,不但要研究排歧方法和順序,而且還要考慮到語用范疇,因此研究者必須充分運用縝密的邏輯思維和大量的時間、人力與精力,要讓機器智能化,只能讓人先機器化。盡管困難如此,現在的CAT(Computer Aided Translation,計算機輔助翻譯)已經可以運用翻譯記憶技術(Translation Memory Technology)在翻譯的同時建立語言數據庫,智能化地利用自動記憶和搜索機制。國內的雅信和文婕就是兩款比較成熟的CAT軟件。而本文所對比的六個在線翻譯網站中的中科院華建也正從事CAT軟件開發,所以較之其他在線翻譯網站的水平為高。對比之下,其他五個翻譯網站也有其可圈可點之處,但卻時常出現詞義不足、排歧方法不成熟和句子結構處理手法滯澀等問題,雖說免費在線翻譯網站屬于大眾化的便捷使用工具,但也要多多引入權威詞典的義項和例句,繼續改進排歧方法,建立記憶庫和搜索機制,讓使用者有更多的選擇決定自己需要的譯文,這樣才能避免眾多的誤導和錯譯。
參考文獻:
[1]魯孝賢.機器翻譯語義排歧的方法[J].中國科技翻譯,2007,(4).
[2]樊軍.人、機器和翻譯CAT神話中的雅信與文婕[J].宜賓學院學報,2006,(5).
[3]華建.http://www.hjtrans.com/.
[4]谷歌.http://www.google.cn/language_tools?hl=zh-CN.
[5]雅虎.http://fanyi.cn.yahoo.com/translate_txt.
[6]華譯.http://www.readworld.com/.
[7]金橋.http://www.netat.net/.
[8]譯星. http://www. transtar. com. cn / cn / transtech / transonline.asp.