劉美平
(北京大學 哲學系,北京 100871)
機器翻譯中引入“詞化”模式的初步設想
劉美平
(北京大學 哲學系,北京 100871)
機器翻譯作為自然語言處理的重要分支領域,涉及語言、數學和計算機等學科。目前機器翻譯的譯文質量并不理想,尤其是對漢語動結式的處理。“詞化”模式理論或可用于改善漢語動結式語義自動分析,提高機器翻譯的質量。本文就此提出一項初步解決方案。
機器翻譯 “詞化”模式 動結式語義分析
當前機器翻譯的譯文質量還很難達到實際應用的要求,有悲觀論調認為幾十年內都難有大的突破。“計算機領域的人工智能、機器翻譯等都需要精準的語言規律。要讓機器理解自然語言、模仿自然人思考,必須準確揭示語言的運作原理及相關的具體規律。目前這些領域的進展尚不能盡如人意,其根源則在于語言研究的滯后,自然語言中的很多規律尚未搞清楚”(石毓智,2010)。其實問題不僅在語言規律的探索,已有語言知識實用價值的轉化也亟待提高。本文將就“詞化”模式理論對提高漢譯英譯文質量等問題進行探討。
“詞化”模式理論提出不同語言的動詞所表達的事件信息存在差異,據此可進行語言類型劃分。該理論把詞匯區分為開放與封閉兩大類,前者主要指動詞、名詞和形容詞等實詞,其余都可歸入后者。封閉類詞匯主要用于構建概念框架,實詞則為相應的框架提供概念內容。在表達運動事件時,一些封閉詞類作為動詞的衛星語素起作用。英語中的衛星語素是與動詞詞根有姊妹關系的成分,但不包括做補語的名詞和介詞短語,大致相當于小品詞(verb particle)。這些詞在形式上與動詞區別明顯(一般是副詞或動詞前綴),比如:
He ran across\along\through\past\by.
The bolt must have unscrewed(from the plate).
漢語也有與動詞相互配合的衛星語素成分,如述補結構中的補語,常常是一類動詞或者形容詞。例如:大風吹垮了房子。其中“吹”作為表達運動的動詞,另一動詞“垮”充當補語。英語衛星語素多用于表達運動事件的路徑,通常表現為一個衛星語素加介詞的組合,如:I ran out of the house.衛星成分也可不依賴介詞單獨出現,如:(After rifling through the house,)I ran out.當然,有些語言通過動詞表達路徑,比如:法語、西班牙語、日語等。
語言模式的劃分還與事件整合類型學相關。這一理論提出概念的深層組織與表層語言現象相對,可分析成基本的事件復合體——“宏事件”(The Macro-event)。復合體中包括主事件和伴隨事件。前者在整個事件中起到框架設置的作用,因此被稱為“框架事件”(Framing Event)。伴隨事件指與框架事件相伴發生的事件。據框架事件的意義結構可把“宏事件”分為五種類型:運動事件、狀態的改變、體相、行為相關及實現。分別示例簡介如下:運動事件中的路徑:The ball rolled in./體相中的體:They talked on./狀態變化中的性質:The candle blew out./行為相關事件中的相互關系:She sang along./實現事件中的完成:The police hunted the fugitive down.事件的語義層面和語言形式表達都可以分析為多種獨立成分。意義層面包括運動、路徑、焦點和背景等;語言形式涉及動詞、附置詞和衛星語素等。兩個層面之間存在系統性對應,只不過并未在總體上展現出規整的一一對應,通常是一對多或者多對一的關系。根據對應的具體情況便可以實現上述的語言類型劃分。
借助動詞(可以是表達運動語義的動詞,也可以是表達處所或者位置等的詞)描述的典型運動事件,其主事件(框架事件)在意義層面同樣可以分析出四種成分:焦點:運動體;背景:焦點運動的參照體;路徑:焦點所經過的路線或所占的地點;運動。另外還包括與伴隨事件相關的非中心元素,分為以下兩種:方式:焦點運動的方式。使因:致使焦點產生運動。核心動詞一般同時對運動主事件和伴隨事件進行表征。伴隨事件則可以對運動主事件的方式、使因等給出附加描繪。因為主事件(框架事件)中的路徑提供了對“宏事件”抽象框架的表征,從而被稱為框架事件的核心圖式(Core Schema)。其余的語義元素(焦點、運動、背景等)可以被填充入這一框架。核心圖式可通過動詞表達,也可通過衛星語素,這直接導致“詞化”模式的差異。具體來說,動詞表征的語義成分可以是運動+路徑,也可以是運動+方式或者運動+原因。比如在英語中:The bottlefloated out of the cave.其中動詞float對運動和方式同時進行了編碼:The bottle moved out of the cave with-the-manner-of The bottle floated.路徑通過衛星語素與介詞的組合“out of”表達出來。與此相對,西班牙語描述同樣的意義時其表層語言形式為:La botella salióde la cueva flotando.形式上對譯為英語為:The bottle exited from the cave,floating.動詞exit編碼的是運動+路徑,方式則通過分詞形式floating表達出來,并沒有被并入核心動詞。上述西班牙語句在字面上對譯出的英語句子表現得明顯不自然,所以不屬于英語通常的表達方式。兩大語言類型(動詞框架語言和衛星語素框架語言)的區分正是基于這種差異,區分標準在于框架事件的核心圖式是由語句中的動詞還是衛星語素表達的。衛星語素框架語言在使用動詞表達框架事件的同時常常對伴隨事件加以描繪,而核心圖式一般通過其他衛星語素表達。在這類語言中,通過分析動詞的語義結構就可以推出伴隨事件。這種語義推理示例如下:
方式類伴隨事件
Nonagentive(非施事性語句):The rope hung across the canyon from two hooks.=The rope was across the canyon withthe-manner-of The rope hung from two hooks.
Agentive(施事性語句):I bounced the keg into the storeroom.=I moved the keg into the storeroom with-the manner-of I bounced the keg.
使因類伴隨事件
Nonagentive:The napkin blew off the table.=The napkin moved off the table with-the-cause-of Something blew on the napkin.
Agentive:I kicked the keg into the storeroom.=I moved the keg into the storeroom with-the-cause-of I kicked the keg.
基于句法規則的自然語言處理方案較為依賴規范性語言研究。但句法形式與語義結構之間并不存在嚴格的同構關系,詞匯意義的豐富性遠大于包括詞匯形態在內的表層語言形式。形式與意義在復雜性上的不對等直接導致同一句法形式可以表示差別極大的意義結構。自然人之間實現復雜意義交互的基礎在于,每個自然人都通過“具身經驗”儲存了相對自足的關于詞匯的語義信息。上述句法和語義之間的對應問題不可能局限在形式領域內部得到解決,這屬于一類在形式上不能自足的語言現象。這類語言知識的歸納整理工作量非常繁重,當前主流的研究傾向于使用統計方法。只不過統計研究說到底還是需要基于特定的統計模型,由于統計模型必須由自然人基于語言知識構建,最終還是繞不開語言知識的歸納整理。“以多義現象分析為例,從目前已經開發的系統來看,大約50%到70%的多義語言現象可以通過單純的句法分析來解決,而其余30%的多義語言現象必須通過語義分析甚至語用分析才能解決……”(馮志偉,2012)。這類層級結構通常是基于自然人往返交互的語言實踐并通過約定俗成產生的,既有認知的理據性,又無法排除實踐中的偶然因素,只能通過理清語言形式背后的認知原理才可以解釋清楚。形式主義語言研究傾向于由相對抽象的語言規則統攝具體的語言現象,在追求抽象規律時丟掉了太多具體意義,不能很好地解釋表層結構與語義內涵的對應模式。語言習得研究表明,任何一個兒童都無法單獨依賴抽象語言模式掌握語法。兒童要掌握一種語言的語法結構,不僅要通過觀察現實中的事件結構,而且要在長期的語言實踐中不斷積累才可以掌握大量約定俗成的搭配方式。這些具體搭配作為固定的語言單位儲存在語言使用者的記憶中,高度依賴隨機經驗,不可能靠規則臨時產生。“生成學派夸大了語言規律的能產性,而低估了語言中廣泛存在的約定俗成的用法,而且忽略了人們記憶的巨大潛力”(石毓智,2010)。我們認為,通過將相關語言知識編輯成機器詞典的方式可以為機器注入“記憶”。
語言對于經驗的依賴性體現為:任何語言的語法結構都不是無限能產的,特定語法結構對于語言中同一類屬的詞匯有些可以很好地適配,有些則不可以。判斷可行與否的依據都需要在經驗中獲取。另外,由于不同語言表層形式的差異,包括“詞化”模式的差異,任何兩種語言之間都很難在詞匯層面實現一一對應。比如:漢語中“哭啞”,如果將其視為一個整體的復合動詞,在英語中就找不到可以直接對應的單詞,必須通過“cry”和“hoarse”的組合才可以較為恰當的翻譯。筆者嘗試了百度翻譯和google翻譯對“他哭啞了嗓子”這一語句的翻譯,最終得出的結果分別為“He cried and cried.”和“He cried hoarse.”兩者都不能很好地把漢語詞義恰當地翻譯為英語。“他喊啞了嗓子”的翻譯結果相對較為理想,都是“He shouted himself hoarse.”。究其原因:英語中有一個和漢語“喊啞”基本對應的慣用語“shout oneself hoarse”,實現了詞匯層面的直接對應,互譯中才表現出高度的切合。所以,當前的機器翻譯在很大程度上仍然依賴不同語言詞匯層面的直接對應。漢英兩種語言在“詞化”模式上又存在較大差別,很難實現詞匯層面的直接匹配,這便是當前機翻譯文的質量不高的一個主要原因。語言表層形式的差異體現的是語言使用群體深層概念化模式的差異,概念化模式正是認知語義學的核心議題。從認知語義學角度展開的漢語研究已經持續了數十年,目前已有的很多理論成果對工程領域的技術提高而言可資借鑒之處頗多。
機器翻譯漢譯英一旦遇到動結式,往往就會生成一些莫名其妙的英語結構,可見當前的處理方案還不能恰當地分析動結式的復雜語義結構。語言學領域并不缺少對動結式語義結構的研究,只是還未能被工程領域充分吸收利用。為達成對動結式語義結構的自動分析,從述語動詞意義和補語意義整合來的動結式整體的意義必須得到精確的描述,并通過形式化的方式表達,最終才能實現句法層面的機器操作。“詞項”的語義可以簡單也可以復雜,由于語義的組合性,“復雜詞項”的意義結構通常都可以分解成“簡單詞項”意義結構的特定組合。動結式的意義結構就是如此,通過分解可實現與底層述語和補語動詞意義結構的對應。
動結式表達的“致役事件”通常包含參與者、事件發生的方式及造成的結果等語義信息。“在漢語復合動詞的構造中,動作的方式或達到某一結果的途徑和動作的結果是比較凸顯的語義因素。漢語復合動詞的優勢語義模式可以概括為:方式或途徑+行為或結果”(董秀芳,2005)。上述概括可更詳細地表述為:方式+行為、途徑+結果,分別對應狀中式復合詞和動結式復合詞。就動結式來看,述語動詞一般表示達成結果的途徑。 如:“撞開”、“踢開”、“撬開”、“推開”,結果動詞“開”前的述語動詞就表達了達成這一結果的途徑,或者說原因;補語動詞則表達引發的結果,如:“開”。事實上,因為動結式的存在,整個漢語系統對信息的組織都表現為非 “伴隨特征+謂語中心+結果狀態”這一總體模式。由于不同語言之間簡單句法結構存在共性的可能性更大,更容易實現異種語言之間的詞匯直接匹配,更容易達到更高程度的互譯準確度。以“撞開”、“踢開”、“推開”為例,百度翻譯中可得出如下結果:1.他撞開了門。→He broke the door./2.他踢開了門。→He kicked the door open./3.他撬開了門。→He opened the door./4.他推開了門。→He pushed the door open.語句1與3翻譯效果很不理想,1譯文直接在意義上無法對應,而3則未能把相關的動作方式體現出來。語句2、4翻譯較為恰當,因為在英語中kick…open和push…open屬于比較通用的組合用法,可歸入慣用語,實現了語言表層的直接對應。對語句1可進行以下語義分析處理:他撞開了門。→他撞門,門開了。“他撞門。”經百度翻譯得到結果:He knocked the door.“門開了。”經百度翻譯得到結果:The door opened。兩條獨立的翻譯經過句法組合操作可表述為:He knocked the door so the door opened.經過上述處理意義上的對應顯然更恰當。對語句3也可做類似的處理。這種可以落實到句法層面的語義分析正是當前機器翻譯所急需的。通過將這類語言規則編輯成機器詞典以知識庫的形式整合進智能系統,并保持這類知識庫的開放狀態,不斷擴充與優化,再與其他方法配合,機器翻譯生成的譯文甚至可以擁有自然語句的質量。
[1]Talmy,Leonard.Toward a Cognitive Semantics[M]. Massachnsetts:MIT Press,2000.
[2]闞哲華.漢語位移事件詞匯化的語言類型探究[J].當代語言學,2010(2).
[3]董秀芳.漢語的詞庫與詞法[M].北京:北京大學出版社,2005.
[4]馮志偉.自然語言處理簡明教程[M].上海:上海外語教育出版社,2012.
[5]石毓智.漢語語法[M].北京:商務印書館,2010.