摘要:面向信息處理的漢語復句研究是一項文理交叉的大型跨學科研究,對于漢外翻譯、漢語篇章理解都十分重要。本文介紹了面向信息處理的漢語復句研究領域采用的主要方法、關鍵技術以及研究成果。
關鍵詞:漢語復句 信息處理 語法分析 語義分析
一、前言
中文信息處理包括字處理、詞處理、句處理、篇章處理。目前已經完成了字處理,較好地解決了詞處理,正在向句處理邁進。句處理內容復雜,包括句法知識、語義知識和語用知識等。目前對于漢語單句的計算機處理研究較多,而對于漢語復句的計算機處理研究較少。復句是由兩個或更多的相對獨立的主謂結構按照一定組合規律構成一個結合體,表達思想確切周密,傳遞信息內涵豐富。從結構上看,復句是由小句聯結而成的,由于它下連小句,上連篇章,在單句和篇章之間起到了一個很好的銜接作用,同時兼有語法、語義和語用等多方面的屬性。深入研究漢語復句,對于漢外翻譯、漢語篇章理解都是十分重要的。幾年來,隨著信息處理的發展,漢語復句研究領域出現了新視野、新角度、新方法,有不少研究者加入漢語復句的信息處理工作中。
二、研究主要方法
復句的信息處理最早是出于機器翻譯的需要。20世紀90年代初,周明、李生等人提出了一整套計算機對漢語復句的分析方法,并將該方法應用于CEMTI漢英機器翻譯系統中。在這之后的十幾年時間里,漢語復句的信息處理方法大致分為兩類:基于語法形式的分析和基于語義分析。隨著技術的不斷發展,理論的不斷創新,呈現出兩類方法綜合起來進行處理的發展趨勢。
(一)語法形式分析方法
該方法從復句的結構入手,幾乎不涉及語義范疇的概念。分析的目標是:給出復句的深層句法分析,包括關聯詞語的識別、分句邏輯關系確定、形式化地表示出復句的層次結構關系等。
對復句作深層句法分析,一般首先從單復句的區分、復句的定義出發來分析復句的結構,并利用一種模型把復句結構化。分析過程通常包括以下幾個步驟:
(1)詞法分析:包括自動分詞、詞性處理、對關聯詞語加以確認。
(2)分句處理:分句數目確定,分句間的關系分析,解決分句的省略、指代現象。
(3)綜合結果:綜合各個分句的分析結果,構成語法分析樹或功能結構樹。
基于上述方法,張仕仁(1994)提出用盒式圖來表示復句的形式結構,用復雜特征集來表示復句的意義結構。通過對復句結構的分析,把復句歸結為由三種基本成份構成:分句、聯合結構、偏正結構,并用盒式圖表示這些結構,以此構造出各式各樣的復句來。為了能正確地劃分復句基本結構的類型,采用了復雜特征集描述。首先由詞庫給出單詞、給出單詞的復雜特征集,進而分別形成短語、分句、復句復雜特征集。最后構造出一棵復句的“功能結構樹”。該方法單純從語法結構出發,當復句存在語義歧義的時候,就不能很好地處理。而且文中也沒有論述如何處理結構歧義問題。另外,文中提到復句的形式結構的三種基本成分分類似乎欠妥,因為復句是由分句構成的,“分句”這個所謂的成分是從組成或構成角度來說的,聯合結構、偏正結構,是從分句之間的邏來說的。因此是把不同范疇的概念混淆在一起作為復句的三種基本成分了。
深層句法分析需要綜合考慮多種因素,因而難度總是比較大。集中力量解決復句分析中的某一個問題,是許多研究者采取的策略。在詞、短語、單句教學與研究中,分析的主要是結構、功能,尤其強調這三者的語法構造是一致的。分析復句,則不得不拋開語法結構,而轉為邏輯分析。所以形式化地表示出復句的層次結構關系,成為許多學者研究的目標。
文獻在依托復句本體研究的成果基礎上,考察了復句關系詞語的包孕機制對二重復句結構層次自動分析的輔助作用。對于關系詞語沒有省略的二重復句,通過三個步驟實現結構層次的自動分析:第一,計算機掌握關系詞語之間的常規組配形式;第二,最臨近配對分句首先構成復句模塊;第三,確定復句模塊的層次歸屬。另外,對于關系詞語省略的復句,根據關系詞語的包孕機制,來判斷或輔助分析復句的層次情況。顯然,此篇論文研究有其局限性。首先,論文中分析的手段是關聯詞語,但是從文中得出的結論可以看出,依據關系詞語只能解決部分情況下二重復句的結構層次自動分析,在更多情況下多重復句結構層次的自動分析僅憑關系詞語是無法解決的。其次,分析的對象是限于二重復句的。然而實際運用中,三重復句也是比較常見的,因此有必要把對象擴展為多重復句。多重復句的結構層次劃分,是語篇內部不同層級意義相對完整的體現,對于語篇的理解具有非常重要的作用。
中國社會科學院的魯松、白碩將目標聚焦在多重關系復句的層次分析上。并且提出“關系層次樹”這個概念來形式化地表示多重關系復句的層次結構。文章首先引入了上下文無關文法來表述多重復句,然后給出了一種具有預測機制、自底向上、部分數據驅動的確定性移進——規約關系層次分析算法。整個分析算法的形式化基礎是關聯詞語。層次的分析過程是以關聯詞語提取預處理為前提,針對關聯詞語進行移進——規約操作。通過開放測試,得出復句關系層次分析的正確率達到93.56%。算法分析仍然是以關聯詞語為著眼點,對于沒有任何關聯詞語指示的多重復句算法無能為力。
(二)語義分析方法
漢語的形態不發達,因此漢語中語法分析比較困難。并且漢語是一種“重意合”、“輕形式”的語言,即它是以語義為主,不大注重形式。因此,在中文信息處理中,要理解漢語復句并進行處理,就要分析復句的句法,顯式地描述復句各組成成分之間的語義。研究者尋求一種有效的進行漢語復句語義分析,生成復句語義表示的方法。
最具代表性的是華中師范大學的胡金柱、羅旋、王琳等人所作的一系列的研究工作。他們將本體技術用于復句領域的概念建模。據介紹,建立復句的本體模型有助于更好地理解復句領域所有的概念和概念之間隱藏的語義,能為漢語復句語義上的計算機自動識別提供支持。
胡金柱(2005)首先介紹了本體研究現狀,然后介紹了本體元模型建模方法,通過對復句靜態結構及與小句關系的分析,在漢語小句元模型的基礎上初步構造了漢語復句靜態本體模型。正式引入了本體理論來研究復句領域的建模問題。概括地說,把一個模型應用到概念的結果就是本體,建模的方式也就是將事物表示成一個五元組:1.類/概念;2.關系;3.函數;4.公理;5.實例,即從這五個視角來觀察事物?;谏鲜鏊枷?,在分析了復句領域涉及的詞匯和復句結構的基礎上,構建了復句本體模型。
從文中的闡述可知,復句領域概念本體描述了該領域的靜態知識,論文也提出可以進一步嘗試描述領域的動態知識。另外,還需要對富含的語義進行擴充,將模型形式化地表示出來。建立面向復句句法標注的本體也是需要努力的目標。王琳、羅旋(2006)就針對上述問題進行了研究。王琳所研究的復句語義分析采用的算法思想是:利用本體元建模方法建構了漢語小句元模型,并采用本體網絡語言OWL對小句本體進行描述,對小句進行語義分析。然后利用構成的小句元模型再去描述復句模型,最后生成整個復句的OWL表示。需要指出的是,論文中模型的構建是從句子的功能構造層面進行分析,對于句子的組成成分關系分析得還不夠深入。另外算法大多還處于理論研究階段,沒有接受計算機的真實測試,必定還包含許多隱藏的因素。但是有問題存在就有繼續研究下去的希望,也為后來的研究者指明了一條道路。至于文獻所做的主要是資源建設方面的工作。通過建立漢語復句的本體語義標注模型,給出了一個有標復句本體標注說明和標注規范。在研究了漢語關系詞詞類自動標注、復句層次自動標注、短語自動標注以及復句類型認定方法的基礎上,建立了一個大規模的有標復句語料庫和一些標注好的復句庫。目前,語義標注都是需要手工操作來實現,對于大量的文檔,這種方法就不是很適用了。所以半自動化的標注研究,是今后深入研究的又一個目標。
(三)研究發展趨勢
自然語言理解系統都是以句法分析的結果作為理解的起點,即首先分析出“語法樹”,然后賦予其語義。然而,漢語是一種“意合型”的語言,這一特點導致在漢語理解過程中,單純把語法分析和語義分析隔離開來是件很困難的事,因此在漢語復句的分析中應尋求一種結合語法分析和語義分析的方法。
邢福義先生(1995)提出的“小句中樞說”以及之后陸續提出的有關小句和復句方面的理論,為復句的信息處理奠定了堅實的理論基礎。羅進軍、尹蔚(2006)發展了“小句中樞說”的思想,提出了“小句關聯理論”,它包括:(1)小句句法關聯;(2)小句語義關聯;(3)小句表里關聯。小句句法關聯是小句句法形式上的某種聯系,在有標復句中就體現在關系詞之間的關聯。但是隨著研究的深入,僅僅搞清楚小句之間的“句法關聯”是不夠的,“語義關聯”才能夠挖掘小句之間深層次的關系。前者是處理的基礎,后者則被稱為“攻堅手段”,而“小句表里關聯”則被視為復句信息處理的金鑰匙。所謂表里關聯,也就是語表形式(句法關聯)和語里意義(語義關聯)之間存在對應關系。邢福義先生在“小三角”理論中總結為“表里印證”。在理論的指導下,作者又提出了有標復句層次關系自動識別的思想和方法。顯然,“小句關聯理論”在復句的本體研究與復句信息處理之間搭建了一座理論溝通的橋梁。在理論的指導下,可以制定研究內容,確立目標,并且切實的展開研究工作。近年來,邢福義先生主持華中師范大學重點建設學科項目“小句中樞說在漢語與臨界領域研究中的應用與驗證”。其中“小句中樞理論的應用與復句信息工程”是其中的一個子項目。姚雙云(2005)介紹了該工程研究內容的網絡以及工程的具體規劃。文章詳細介紹了工程的階段性成果——復句語料庫。目前,已經完成了5000個有標復句的句法信息標注,正在準備研制復句自動標注系統。
三、小結
復句信息工程的研究是一個文理交叉的大型跨學科專題研究課題。在漢外翻譯、漢語篇章理解、句法分析中對于復句的理解與分析都遇到很大的困難。開展復句研究工程是很有必要的,有利于推動本體研究,更有利于在涉及“句處理”方面取得進展。由于目前還處于起步階段,并且采用的方法和思路比較單一,如何把語法分析方法和語義分析方法緊密地結合起來,充分顯示復句的深層結構和語義,都有待于進一步研究。另外,目前復句的研究主要集中在有標復句,畢竟從關系詞這個顯性標志著手,研究會比較容易一些,而且它的研究成果也會帶動無標復句的處理,實現從“有標”向“無標”過渡,這對于“意合型”的漢語語法來說具有重大的意義。
參考文獻:
[1]張仕仁.漢語復句的結構分析[J].中文信息學報,1994,(4).
[2]胡金柱.本體論在復句領域概念建模中的應用[J].計算機應用研究,2006,(10).
[3]周明,李生,石淼.計算機對漢語復句的分析[J].情報科學,1990,(1).
[4]李晉霞,劉云.面向計算機的二重復句層次劃分研究[A].語言計算與基于內容的文本處理——全國第七屆計算語言學聯合學術會議論文集[C].2003.
[5]魯松.漢語多重關系復句的關系層次分析[J].軟件學報,2001,(7).
[6]胡金柱. 漢語復句本體模型初探[J].華中師范大學學報(自然科學版),2005,(4).
[7]王琳. 基于本體的漢語復句語義分析[D].華中師范大學,2006.
[8]羅旋. 基于復句領域本體的語義標注方法研究[D].華中師范大學,2006.
[9]羅進軍尹蔚.面向復句信息處理的小句關聯理論[J].湘潭師范學院學報(社會科學版),2006 6).
[10]姚雙云.小句中樞理論的應用與復句信息工程[J].漢語學報,2005,(4).
[11]劉云俞士汶.“句管控”與中文信息處理[J].漢語學報, 2004,(2).
[12]魯松 宋柔.漢英機器翻譯中描述型復句的關系識別與處理[J].軟件學報,2001.
[13]邢福義. 漢語復句研究[M].北京:商務印書館,2001.
(洪鹿平,南京師范大學文學院)