沈雪 潘正芹
(桂林電子科技大學,廣西 桂林 541200)
對普通的文本,如說明書、宣傳手冊等,機器翻譯效果相當成熟,但是在某些特殊方面或領域,機器翻譯還亟待提升。 雖然機器翻譯在詞語、句子和語篇三個層面的翻譯都得到了較大提升,但是罕見詞翻譯、長句翻譯和漏譯方面問題頻出[1]。 其次,現有翻譯軟件在特定領域詞匯翻譯、多重嵌套長句式理解、根據上下文語境確定詞義方面還存在較大問題[2]。 通過將人工翻譯和機器翻譯進行分析對比,發現機器翻譯目前所做的還只能是語言符號之間的轉換,因此會造成各方面的錯誤[3]。 但總的來說,問題比較寬泛,沒有具體的、系統的描述,到底不佳在哪里? 為什么? 文章將更系統地探索機器翻譯對不同類型英語長難句的處理效果,并分析其中可能的原因。
傳統語法把英語長句大致劃分為復合句、復雜句和混合結構句。 復合句是指由兩個或兩個以上簡單句構成的句子。 復雜句是指至少由一個主句和一個從句構成的句子。 混合結構句子既包括復合句和復雜句,也包括以簡單句結構為主干,通過介詞、副詞、非謂語動詞等附加不斷衍生的長句子。 也有人依據句子的長度來定義長句,如所謂英語長句,一般是指20 個詞左右的句子[4]。 如果以此為依據,文章認為長句不一定成為難句,長難句必須是既長又難,在長度和結構上都有所體現。
文章將采用潘正芹[5]的分類方法,將其分主要分為以下10 類:
(1)偏正復句型(A):
偏正復句型是有主從狀語關系的長句,用于表達因果、條件、假設、轉折、讓步和目的等各種需要。
例1: While the debate over more but better policing drags on, there is little to suggest the reality on the ground will change anytime soon.
(2)首尾內夾型(B):
首尾內夾型為句子主干分置頭尾的長句,中間為延伸部分,結構一目了然。
例2:Importing the grain, which would have been expensive and time consuming for the Dutch to have produced themselves, kept the price of grain low and thus stimulated individual demand for other foodstuffs and consumer goods.
(3)自然分蘗型(C):
主干在句首,后續句子按結構自然展開。
例4:Some Parisian bakers expressed skepticism that the news on Wednesday would do much to alleviate their most pressing fear that the high costs of wheat and flour would continue to rise, forcing them to raise the price of the beloved bread sticks even further.
(4)主語分蘗型(D):
主語在句首,其后分蘗出限定修飾成分或插入語,致使主語到謂語之間距離較長。
例5:The full scale of the devastation caused by the twin 7.8 and 7.5 magnitude earthquakes that struck southern Türkiye and northern Syria on February 6th remains unknown.
(5)賓語分蘗型(E):
主干在句首,主干中賓語中的核心詞分蘗出限定修飾成分或插入語。
例6:The research could eventually make a difference for people with sickle cell disease, those who develop antibodies against most donor blood types, or those with genetic disorders in which their body can't make red blood cells or the blood cells they make don't work well.
(6)主賓分蘗型(F):
主干在句首,主語和賓語的核心詞都分蘗出限定修飾成分。
例7: The idea that life intimately influenced Earth's atmospheric chemistry became the basis for what Lovelock called his Gaia hypothesis, which he would go on to perfect with microbiologist Lynn Margulis throughout the 1970s.
(7)形式主語型(G):
形式主語型是主干在句首且主干主語是形式主語的長句,真主語為其后的同位語,同位語越長句子越長。
例8:It is hypothesized that the primordial cloud of dust and gas from which all the planets are thought to have condensed had a composition somewhat similar to that of Jupiter.
(8)形式賓語型(H):
形式賓語型是主干在句首且主干賓語是形式賓語的長句,真賓語為其后的同位語,是長句的主體。
例9;Their collective wisdom will make it clear whether it makes more sense to keep or lose AM radio in new cars.
(9)同位結構型(I):
同位結構型是主干在句首且同位語在主干之后的長句,同位語成分造就長句的形成。
例10:The incentive of the farmers who wish to conserve water is reduced by their knowledge that many of their neighbors are profiting by using great amounts of water, and in the process are drawing down the entire region's water supplies.
(10)介詞結構型(J):
介詞結構型是主干由介詞詞組結構不斷展開的長句。 介詞在英語中作用頗多,如by, as 等介詞既能引導狀語從句,也能附加信息。
例11:Last year China was again Germany's top trading partner, for the seventh consecutive year, with combined exports and imports of more than $298bn($320bn), up by around 21% from 2021.
研究人員選用百度翻譯軟件,分別對以上類型的長句資料進行翻譯實驗,分別從語序不當(1)、搭配不當(2)、成分殘缺或贅余(3)、結構混亂(4)、表意不明(5)、不合邏輯(6)、誤譯(7)等幾方面展開評測,得出如下錯誤現象(圖1)。

圖1 機器翻譯長難句錯誤類型
然后再根據不同句型按照7 類錯誤進行測試(表1),得出了以下相對的印象,其中的少、較少、中等和較多沒有具體數字,只是一個相對程度。

表1 實驗結果

表2 機器翻譯對嵌套定語從句的處理效果
對10 類長難句進行了大量的測試,經整合機器翻譯錯誤類型,發現錯誤類型由多到少分別為語序不當、誤譯、表意不明、結構混亂、不合邏輯、成分殘缺或贅余、搭配不當。 由于篇幅有限,在這只能對一些典型錯誤展開分析。 機器翻譯出現問題的地方通過下劃線來顯示,Λ 代表遺漏。
例12:Telemedicine firms, which offer a wider range of services, have thrived as malaria has strained clinics capacity and put patients off in-person visits.
機器翻譯:遠程醫療公司提供范圍更廣的服務,隨著瘧疾導致診所容量緊張,并推遲患者上門就診,這些公司蓬勃發展。
人工翻譯:由于瘧疾致使患者數量超出了診所的接診能力,并因此取消了患者的當面就診,提供更廣泛服務的遠程醫療公司因此得以蓬勃發展。
該句為D 型長難句,該句主語“Telemedicine firms”位于句首,且分蘗出非限制性定語從句,隨后接謂語及其他成分,使得主語到謂語之間有一定的距離。 中文在敘事時先交代事件的時間背景信息,狀語在前;而英文則先強調事件本身,狀語在后。 機器譯文照搬原文語序,不符合中文表達習慣,導致結構混亂,缺乏粘連。 根據原句語境,該句講述了遠程醫療公司之所以得以蓬勃發展是因為瘧疾造成醫療資源緊缺。 因此,原句中的“as”引導原因狀語從句,句子主干表結果;而機器翻譯誤以為“as”表伴隨,導致譯文不合邏輯,前后不連貫。
例13:His findings make it clear that, though plants lack ears, the vibrations generated by the noise of traffic still bothers them enough to trigger potent stress responses that are not much different to those that would be found in plants exposed to drought, high salinity or heavy metals in their soil.
機器翻譯:他的發現清楚地表明,盡管植物沒有耳朵,但交通噪聲產生的振動仍然足以Λ引發強烈的應激反應,這與暴露在干旱、高鹽度或土壤中重金屬環境中的植物沒有太大區別。
人工翻譯:他的研究清楚地表明,盡管植物沒有耳朵,但交通噪聲產生的振動仍足以困擾它們,引發強烈的應激反應。 而這些反應與那些生長在干旱、高鹽或重金屬土壤中的植物所產生的應激反應別無二致。
該句為H 型長難句。 盡管機器翻譯能準確翻譯句子主干,但由于真賓語過長且結構復雜,機器翻譯對其處理就出問題了。 首先,機器譯文漏譯真賓語中的主謂成分——“bothers them”,導致表意不明。 其次,機器翻譯誤譯第二個定語從句中的修飾關系。 句中的“their”指代三種土壤,可以理解為“soil with drought, high salinity or heavy metals”;而機器翻譯認為“their”僅指代最后一種土壤,即含有大量重金屬的土壤,導致修飾關系誤譯。 最后,機器翻譯誤譯第二個定語從句先行詞指代的對象。 我們可以發現,兩個定語從句的先行詞,“stress response”和“those”實際上是對比關系,因此兩者指代的是同一種事物——應激反應。 而機器譯文中機器翻譯將“those”識別為“植物”,誤譯先行詞指代的對象,導致比較對象不一致。
通過整合各長句類型的錯誤,可以發現機器翻譯最易出現的兩種錯誤依次是語序不當和誤譯。 鑒于此,下文將對比人工翻譯,著手探究導致機器翻譯出現上述幾個方面問題的原因。 原因主要分為兩類:機器翻譯語序不當原因、機器翻譯定語從句誤譯原因。
英語原文結構對譯文限制較大。 英語和漢語分屬不同的語言體系。 英語重形合,上下句之間常常通過各種連接詞銜接;漢語重意合,上下句之間往往不需要連接詞,常常通過隱性邏輯展開,而語序往往是中文行文邏輯的最好體現。 神經機器翻譯模型是采用編碼器-解碼器(encoder-decoder)框架,是一種端到端模型[6]。 在神經機器翻譯中,神經機器翻譯模型將源語言句子看作字或詞的序列,而忽視了語言中固有的結構信息[7]。 這就導致原文行文結構對機器翻譯產生很大限制,機器翻譯囿于原句結構,亦步亦趨,輸入序列與輸出序列別無二致。 例如,英文為前重心語言,往往先果后因;而中文為后重心語言,往往先因后果。 機器翻譯因為模型規則和算法的限制,導致機器譯文只能按照原文輸入的語序輸出譯文,難以像人工翻譯一般根據英漢兩種語言的特點和差異,靈活調整語序。
英語為“后端重量”語言,在定語從句中主要表現為長定語從句以及多重嵌套式定語從句。 如今的機器翻譯基本上可以解決從句長度較短或是只有一個層次的定語從句,如果層次加深后,翻譯就出問題了。
例14:I am asking about the dog which is chasing the cat which is chasing the mouse which has a piece of cheese in its mouth.
其中which is chasing the cat 是第一層次的定語,which is chasing the mouse 是第二層次的定語,which has a piece of cheese in its mouth 是第三層次的定語。
參考翻譯:我在問那只正在追著貓的狗的情況,那只貓又正在追著一只老鼠,老鼠嘴里正叼著一塊奶酪。
文章用百度翻譯探究在層次不斷加深后的翻譯結果。 錯誤地方用?號表示。
通過觀察發現,第二個層次之后開始出現問題,機器翻譯誤譯該層的定語從句,導致譯文嵌套關系不合邏輯。 出現該情況的原因可能是:若長句中包含多個嵌套式定語從句,機器翻譯難以正確切分各個語義單元,無法準確識別出定語從句。 到了第三層次,邏輯也混亂了,機器翻譯將先行詞譯為“它”,容易引起歧義。 這一情況可能是因為機器翻譯缺乏對先行詞語義的理解和判斷。 人工翻譯不同在于,人能夠根據句子結構內部各個成分的語義關系,進行合乎邏輯的切分和重組,機器目前還做不到。
綜合機器對英語長難句翻譯出現的錯誤來看,錯頻最高的是語序不當和誤譯,其次是表意不明,再次是結構混亂、不合邏輯、成分殘缺或多余,最后是搭配不當。 導致機器翻譯產生邏輯語序不當的原因為囿于原文結構、受到語言模型規則約束;導致機器翻譯定語從句誤譯的原因為難以正確切分各個語義單元和缺乏對詞句語義的理解和判斷。 相比之下,人工翻譯可以克服這些問題,從句子結構、語義邏輯關系、銜接與連貫等各方面綜合考慮,輸出忠實于原文信息而且符合漢語表達習慣的譯文。 因此,解決機器翻譯出現的這些問題將是未來機譯技術的努力方向,也是機譯后編輯的重點關注。