摘 要:歧義現象是自然語言中的常見現象,在口頭或書面交流中帶來的影響多數是負面的,容易造成誤讀誤解,影響溝通交流。機器翻譯的質量問題多數都能與歧義現象找到關聯,因為機器翻譯的語境分析能力仍然是當今一大難點,它無法像人工譯者一樣輕而易舉地消除源語歧義。本文從分析英語和英漢翻譯中歧義現象的成因入手,探討不同的歧義現象對機器翻譯過程的影響,并進而探討解決的思路。
關鍵詞:機器翻譯;歧義;消岐;機器翻譯
自然語言的模糊性的一個重要體現就是語言的歧義現象,同樣的一句話,在不同場合不同情境下有著不同的含義,人工譯者在多數情況下是可以憑借經驗和簡單分析自行消除歧義的,由于人工譯者可以“根據自己的雙語知識、文化、歷史、地理、風俗習慣等背景知識進行‘重組’”[1];然而對于機器翻譯來說,消除歧義的工作則無疑需要經過較為復雜的分析運算才有可能實現,因為機器翻譯的工作原理是“建立在串行二值邏輯的基礎上”,“只能是在限定的范圍內進行一對一的選擇”[2]。
本文將以英語為源語,漢語為目的語的英漢翻譯作為研究對象,系統地分析各種歧義現象對機器翻譯的影響。本文所研究的歧義范疇較為廣泛,既包括聲音語言也包括文字語言;既包括語言本身缺陷造成的歧義,也包括使用者對語言使用不當或失誤造成的歧義;既包括源語和目的語各自單方面的歧義,也包括從源語到目的語轉換過程中產生或表現出來的歧義。
想要找出消除歧義的方法,首先要對歧義現象進行分類,才能針對不同情況找出其對應的消岐手段。從可能出現的歧義現象的機器翻譯步驟分析,可以分為譯前歧義和譯后歧義。譯前歧義是源語的歧義,其產生因素一般包括詞匯因素、句法因素。譯后歧義是在目標語產生的歧義,來自于翻譯過程中由源語到目標語的轉換,以及目標語的組織過程,主要產生因素為語言文化差異因素。
一、詞匯因素
詞匯因素產生的歧義可以歸納為:
1、同形同音異義詞(homonym)。同形異義詞(homograph)分為同形同音異義詞(homonym)與同形異音異義詞(heteronym),二者在歧義現象上有分別,故應區分對待。同形同音異義詞如“saw”既可翻譯為名詞“鋸”或動詞“鋸”,又可以是“see”的過去式,翻譯為“看到”;“fine”既可翻譯為形容詞“好的”、“精美的”又可以翻譯為名詞或動詞“罰款”;“fast”既可以翻譯為形容詞“快”,又可以翻譯為形容詞“緊”,又可以翻譯為形容詞“穩固”,還可以翻譯成名詞或動詞“齋戒”。這類歧義無論在語音狀態下還是在文字狀態下均有歧義。
2、同形異音異義詞(heteronym)。如“bow”有時可翻譯為動詞或名詞“鞠躬”,有時可以翻譯為名詞“蝴蝶結”或“弓”;“desert”有時可以翻譯為動詞“背棄”,有時可以翻譯名詞“沙漠”;“sow”有時可以翻譯為動詞“播種”,有時可以翻譯為名詞“母豬”。它們的共同特點是雖然拼寫完全相同但讀音不同,所以在語音狀態下并無歧義,而文字狀態下則有歧義。
3、多義詞(polysemy)。一詞多義現象是語言中的普遍現象,故而這種現象所產生的翻譯歧義特別常見,由于機器翻譯的消岐能力在現階段遠遠達不到人工譯者的水平,故而由此產生的問題是首要的亟待解決的問題。一詞多義現象與上面兩種同形異義現象的區別在于,一詞多義是詞源相同的詞由于在語言的使用過程中發展、引申產生的不同意義,意義雖不同,但之間有聯系;而同形異義則是詞源不同的詞匯,意義之間并無聯系。如 “law”既可以指整體概念的“法律”,如“He broke the law”,翻譯為“他犯了法”;也可以指“有法律效力的事物”,如“He has the right to remain silent, and this is law”,翻譯為“他有權保持沉默,這是法律規定的”;又可以指“規則”,如“the laws of the game”,可翻譯為“游戲規則”;還可以指“定理”、“定律”,如“Newton’s First Law”,譯為“牛頓第一定律”。多義詞不但在源語本身有不同的含義,即使是源語中的同一含義,翻譯成目標語有時也需要用不同的詞匯來表達,不如此便會造成語言生澀,有時甚至會造成目標語歧義。如《The New Oxford American Dictionary》中“take”詞條的義項1下的第一個次級義項的解釋為“[trans.] remove (someone or something) from a particular place”,其下給出2個例句,其一為“he took an envelope from his inside pocket”,其二為“the police took him away”,其一可翻譯為“他從內袋中取出一個信封”,其二翻譯為 “警察帶走了他”,兩者所用的“took”同義,但翻譯成中文的不同動詞,如果互換,變成“他從內袋中帶出一個信封”和“警察取走了他”,則不但語言生硬、搭配不當,還有可能造成新的歧義——“帶出一個信封”在漢語中習慣理解為“不小心捎帶而出,而非有意拿出”的含義。一詞多義產生的歧義還有一個特定表現就是同一個詞有不同的詞性造成的歧義,如“the old man the boat”,看起來似乎缺少謂語,是個病句,然而這里我們通常理解為名詞“人”或“男人”的“man”其實是動詞“操作”,故而應翻譯為“老人操舵”。
4、縮寫(abbreviation)。英語中經常出現縮寫詞。一部分固定的、耳熟能詳的縮寫詞一般會被收錄到詞典或詞庫中,如“USA”、“UK”、“NATO”、“NASA”、“NBA”、“FIFA”等;特定領域的縮寫詞也可以通過該領域的專業詞典或詞庫解決,如“DWL”在船舶專業中為“Design Waterline”(設計水線)的縮寫,而在經濟領域則為“Deadweight Loss”(凈損失)的縮寫;但有時文本作者自定義的縮寫詞則無法通過詞典和詞庫解決。另外,縮寫詞的重合率很高,如“CCTV”既可以是“中國中央電視臺”也可以是“閉路電視”,這又會造成同形異義現象。
5、代詞(pronouns)。代詞產生的歧義是由于其指代事物的不確定性。如“John and his girlfriend”,“his”的指代并不明確,我們一般會自動理解為“John’s”,但如有上下文,“his”也有可能指其他人——如“Felix doesn’t know John, but John and his girlfriend know each other very well.”從句意和常理推斷,“his”指的是“Felix’s”。
二、句法因素
句法因素造成的歧義,一般是由于對單詞、短語之間的邏輯關系以及句法結構不能有效辨析而造成的。由于自然語言在句法結構上相比機器語言來說顯得隨意多變,嚴謹性不足,所以句法因素造成的歧義現象給機器翻譯帶來了很大的難題。句法歧義主要有附著歧義(attachment ambiguity)、并列歧義(coordination ambiguity)、名詞短語括號歧義(noun phrase bracketing ambiguity)
如“Those who sold quickly made a profit”[3],由于副詞“quickly”位置在主句和從句的動詞之間,所修飾的對象不明確——既可能修飾主句的動詞也可能修飾從句的動詞,這就是附著歧義的一種表現形式。如quickly修飾動詞sold,則應翻譯為“賣得快的人賺了錢”,如“quickly”修飾動詞短語“made a profit”,則應翻譯為“賣家們很快就賺了錢”。又如“Jack stopped and slapped Kate”,此為并列歧義的例子。由于“stop”既可以是無賓語的不及物動詞,一般翻譯為“停住”,也可以是有賓語的及物動詞,一般翻譯為“攔住”,又由于stopped與slapped的并列關系,所以賓語“Kate”既可以只是slap的賓語,也可以同時是stop與slap的賓語,所以既可以翻譯為“杰克停下來搧了凱特一耳光”,也可以翻譯為“杰克攔住并搧了凱特一耳光”。再如“the old truck driver” 有名詞短語括號歧義,“old”既可能修飾的是“car”也可能修飾的是“driver”,所以翻譯可以是“開舊卡車的司機”也可以是“老卡車司機”。
三、語言文化差異因素
由于英語屬于印歐語系,漢語屬于漢藏語系,二者在音、形、詞匯、句法上均有顯著差異,兩種語言的母語使用者的思維模式也有差異,加上各自所屬的文化又是分屬西方和東方的典型文化圈,故在翻譯過程中需要更加復雜的轉換,機器翻譯尤其如此,否則既有可能無法對源語有效消岐,還可能會在目標語產生新的歧義。
由于語言習慣的不同,經常會出現在英語中可以用一個詞或短語表示的,在漢語中必須要分情況表示,如動詞“wear”在英語中幾乎可以表示一切服飾的穿戴狀態,而在漢語中,如果是衣服、褲子、鞋子、靴子等則翻譯為“穿”,腰帶、領帶、圍巾等則為“系”,帽子、手套、眼鏡、口罩、面具、項鏈、耳飾、戒指、手表等則為“戴”。如果機器翻譯不能做好區分,則有可能在目標語造成新的歧義,如“wear a necklace”,若翻譯為“穿項鏈”,則有可能被理解為“把項鏈上的珠子穿起來”。當然,也有在英語中需要分情況表示,在漢語中用相同詞匯或短語表示的,如在英語中含義不同的“suspect”和“doubt”在漢語中均翻譯為“懷疑”。但是本文探討的是英漢翻譯,以英語為源語,漢語為目標語,那么這種情況理論上并不會產生目標語歧義,故本文不作探討。
由于文化差異產生的歧義種類繁多,如英語中的“aunt”、“uncle”、“niece”、“nephew”、“grandpa”、“grandma”等親屬關系,在漢語中需要先按照該親屬關系是來自于父系還是母系分成內外,然后才能確定其名稱,來自于父系則翻譯為“姑”、“叔(伯)”、“侄女”、“侄子”、“祖父(爺爺)”、“祖母(奶奶)”,來自于母系則翻譯為“姨”、“舅”、“外甥女”、“外甥”、“外公(姥爺)”、“外婆(姥姥)”。另外還有“brother”和“sister”還要分與長幼,比本體年長則稱“哥哥”、“姐姐”,年幼則稱“弟弟”、“妹妹”。即使是人工譯者,在上下文并無明確交代的情況下,也無法消除該英語表達在漢語中的歧義。即使上下文有交代,也經常需要大范圍調取上下文進行分析,這對機器翻譯的語境分析能力是極大的考驗。
四、消岐思路
通過對歧義現象成因的分類,提出以下消岐思路:
1、句子結構分析。這是傳統的機器翻譯途徑,基于規則的機器翻譯已經能夠處理基本的語句結構,所以句法比較規范、邏輯關系較為明晰的語句,可以直接通過句法分析消岐。
2、細化詞庫。由于在詞匯層面產生的歧義現象需要靠多種手段來消岐,其中一個必備條件就是細化程度較高的詞庫。每個詞匯不但要將可能產生的不同義項分別處理,還需對詞性做好標注。除此之外,詞匯的應用規律也應在語料庫的幫助下進行統計和標注。
3、大規模平行語料庫。運用語料庫進行機器翻譯已經不是新課題了,并且已經取得了很多優于基于規則的機器翻譯的成果。利用雙語平行語料庫,通過詞匯對齊、短語對齊、句子對齊等方式,進行對實例素材的轉換和拼接。然而基于語料庫進行的機器翻譯也并不完美,除了檢索、統計、算法等技術問題還需要優化外,語料庫的規模也是制約其效果的一大因素。語料的豐富程度決定了語料庫自身的資源容量和語言實例的覆蓋率,在文本電子化、網絡化的今天,建立大規模平行語料庫的條件已經具備,需要做的就是盡可能地豐富語料庫的容量和加強對不同領域文本的覆蓋率。
4、語境分析。不同領域、不同情境的文本所運用的語言之間往往存在差異,機器翻譯若能通過源語文本大致判斷出其所在領域或所處情境,翻譯的準確性將大大提高,歧義現象也會大大減少。通過對源語文本的若干關鍵詞進行解析,依賴于語料庫,對關鍵詞可能所處的領域或情境尋找交集,用以大致確定源語文本的語境,再通過語境前提,對可能的詞義、句意進行篩選,則可得出更為準確、更少歧義的目標語文本。
5、除上述思路外,還有一種解決歧義想象的途徑就是保留歧義,也就是無須消岐,將源語中的歧義保留到目標語中。這種思路一般適用于在源語歧義不會影響轉換、且源語和目標語均能較為容易地進行人工消岐的表達,那么機器翻譯也就無須承擔消岐的任務了。另外就是,歧義現象也有其實用價值,如雙關就是對歧義現象的“積極和巧妙的運用”[4],所以保留歧義有時也是一種必須。
五、結語
歧義現象是機器翻譯面前的一大障礙,給機器翻譯帶來了極其不利的影響。為了解決歧義給機器翻譯帶來的不利影響,對歧義成因的探究必不可少。從成因入手,找出機器消岐工作的最佳切入點,提出消岐的綱領性思路,用以指導機器翻譯系統的設計和構建,才能夠更加系統地排除歧義現象的影響。
參考文獻:
[1] 張政. 計算機語言學與機器翻譯導論[M]. 北京: 外語教學與研究出版社, 2010.
[2] Roach,P. English Phonetics and Phonology:A Practical Course [M].Cambridge University Press,2000.
[3] 張國申. 淺談英語中的歧義現象[J]. 外語學刊, 1996, (3).