聞 媛,宋 麗,吳泰中,李 斌,周俊生,曲維光,3
(1. 南京師范大學 文學院,江蘇 南京 210097;2. 南京師范大學 計算機科學與技術學院,江蘇 南京 210023;3. 閩江學院 福建省信息處理與智能控制重點實驗室,福建 福州 350121)
近年來,隨著依存語法的研究在自然語言處理中的比重逐步增大,句法依存樹庫[1]、語義依存圖庫的建設也開始覆蓋越來越多的語言[2]。在諸多語言的依存語料庫上都發現了一定數量的非投影結構(non-projective structure)。非投影結構是指依存樹上的詞語節點與原句中的詞語序列出現的錯位結構(圖1)。在國際上,非投影結構引發了語言學領域的分析和討論[3],也有研究對自動分析算法進行了改進[4]。目前國內對依存語法研究較少,在語料庫構建時也大都遵循了投影性原則,這使得非投影結構在漢語里是否存在、有哪些類型,成為難以解答的問題,對非投影結構的自動分析更是無從談起。
本文針對非投影現象展開了系統的討論,回顧其在語言學理論和句法語義資源建設過程中從被排斥到認可的過程,分析了在依存樹中的非投影現象和轉換生成語法理論的關系。為了尋找和分析漢語中的非投影結構,我們使用了新的語義表示方法——抽象語義表示(abstract meaning representation,AMR)。這種方法脫胎于依存語法,引入了超越樹結構的圖結構來表示句子語義,增加了概念增刪修改機制,語義表示能力強[5]。但由于缺少和原句詞語對齊的信息,無法直接使用抽象語義表示發現非投影結構。我們使用“概念—詞語”對齊的中文AMR語料庫[6],統計出非投影的具體類型和比例,并為中文句法語義自動分析提出相應對策。
全文結構如下: 第1節回顧和梳理非投影結構的研究歷史和現狀;第2節介紹對齊版中文抽象語義庫的基本情況;第3節展示我們基于該語料庫得到的漢語非投影結構占比情況,并進行分類分析和理論探討;第4節是結論和未來工作。
非投影結構是依存語法中存在的一種特殊現象,特指依存樹上的節點垂直投影到句子上出現的交叉現象。如圖1中的句子“她看到一只貓昨天,花的”在依存樹上的節點向原句中的詞語做投影時,就會出現“昨天”和“貓—花”的交叉。這種包含非投影結構的句子在傳統的語言學理論中往往被作為有問題的句子,或者被解釋為生成語法理論的移位(movement)現象,沒有引起足夠的重視。但是后來發現這種句子在捷克語等形態豐富、語序自由的語言中出現較多,這引發了理論探討、資源建設,乃至對分析算法的討論。

圖中帶箭頭的實線表示依存關系,虛線表示投影關系。圖1 含非投影結構的依存樹示例
非投影結構是根據依存語法的樹結構發現的,早期的依存語法對非投影結構是持忽視和排斥態度的,但是在后來的語料分析中,發現這一結構是真實存在的,并且在越來越多的語言材料中得到驗證。于是非投影現象才逐漸得到關注,進而出現了對不同語言非投影結構的專門研究。國際上對非投影現象的研究大致可以分為忽視期、發現期和發展期三個階段。
法國的Tesnière提出依存語法理論時[7],采用普通的多叉樹來描述句子的結構,沒有論及非投影問題。之后Ihm和Lecerf提出了投影結構[8]。美國的Hays進一步指出,圖2中實線部分表示的是依存關系,低位置的節點依存于高位置的節點[9]。與依存樹上的節點用虛線連接的,是最小句法單位(minimal syntactic unit),且這些最小句法單位是有序的。當句子的依存樹被準確地分析出來后,依存樹上的依存關系一般不會交叉,這種特性就是“投影性(projective)”,它與直接成分理論(immediate-constituent theory)中的成分的非斷續性(non-discontinuity)很相似。此后,羅馬尼亞的Marcus對投影性的原則又進行了詳細規定,正式提出了投影原則[10],為樹結構對應到句子詞語的線性序列提供了理論基礎。

圖2 Hays對投影性結構的定義
Robinson更為系統地提出依存語法中關于依存關系的四條公理: ①一個句子只有一個獨立的成分;②句子的其他成分都從屬于某一成分;③任何一個成分都不能依存于兩個或兩個以上的成分;④如果成分A直接從屬于成分B,而成分C在句子中位于A和B之間,那么,成分C或者從屬于A,或者從屬于B,或者從屬于A和B之間的某一成分[11]。現在看來,這四條公理相當于將依存樹的形式約束為單根(single rooted)、連通(connective)、無環(acyclic)和投影(projective),從而保證句子的依存分析結果是一棵單根投影樹。
在依存樹庫建設的早期,遵循了投影性原則,忽視和回避了非投影結構。將句子的結構限制在一棵投影樹上,有助于計算機的自動分析和處理,卻不夠尊重語言事實。隨著依存樹庫的建設,在標注形態復雜、語序自由的語言時,非投影結構占有相當比例,無法再被忽視了。

隨著更多語言的依存樹庫的建設,非投影結構在多種語言中的普遍存在逐漸得到認可。Mannem和Ambati均發現印地語中非投影結構占有一定比例,并歸納出成對連接詞、小句補語和關系子句三種類別[18-19]。此外,許多語言的依存樹庫中都存在非投影結構[1,3,20],但從語言結構的角度進行詳細分析的研究則相對缺乏。表1總結了Zeman[20]的數據,給出了29種語言的依存語料庫中含有非投影弧的比例,即造成非投影的那些弧(詞語關系)占到所有弧的比例。

表1 Zeman給出的29種語言的非投影弧比例
可以看到,這29種語言中大都存在非投影現象,特別是語序自由的古希臘語,其比例接近20%。只有西班牙語、羅馬尼亞語、加泰羅尼亞語三種語言沒有統計到非投影結構,主要是由于這三個依存樹庫的構建遵循了投影性原則。而根據Havelka[3]對于12種采用非投影原則標注的依存樹庫的統計結果,西班牙語中的含有非投影結構的句子比例為1.72%(表2)。

表2 Havelka給出的12種語言的非投影句子比例
這些數據表明,非投影結構在多種語言的樹庫中都普遍存在。傳統的句子依存自動分析算法,也都是基于投影樹的,自然無法處理這種結構。McDonald則拋開投影原則,引入了針對有向圖的最小生成樹算法來分析含有非投影的句子[4]。而隨著學界對于非投影和論元共享現象的承認,以圖結構取代了樹結構,發展出句法依存圖和語義依存圖[2],以及包含了概念增刪機制的抽象語義表示[5]。雖然圖結構包含了非投影樹結構,但是圖結構主要還是由論元共享、指代問題造成的。把非投影結構表示為樹結構,能夠體現出語言中的錯序現象,仍然是學界的重要研究對象。
對于漢語依存樹庫來說,目前已有的資源,都有意或無意地遵循了投影原則,如CoNLL評測中使用的漢語依存樹庫,是按照投影原則從短語結構樹庫轉換而來的,無法從中統計出非投影結構。鄭麗娟等[21]基于哈爾濱工業大學的依存圖庫報告了漢語中的非投射現象,但討論的是超越投影樹結構的圖結構。李斌等[6]在中文抽象語義庫的7 000句語料上,初步介紹了非投影結構的比例和類型,但沒有介紹非投影結構的研究歷史、語言學意義和對自動分析的影響。
本文基于更大規模的10 149句中文抽象語義庫,探究漢語非投影結構的存在情況,并對漢語非投影結構進行分類,探索漢語非投影結構的特點,并為自動分析處理非投影結構提供一些對策。
抽象語義表示(abstract meaning representation)是一種將句子語義抽象為一個單根有向無環圖的整句句子語義表示方法,擁有增刪修改概念和語義關系的較強表示能力[5],是目前最充分的句子語義表示方法。其主要思想是將句子中的實詞(如名詞、動詞、形容詞等)作為概念節點,用45種語義關系[如arg0(原型施事)、arg1(原型受事)、quant(數量)等]作為弧,從而形成表示句子語義的圖結構。
不過,AMR忽視概念和詞語的對齊信息,即忽略圖1和圖3中虛線表示的對應關系,使得人們無法在AMR語料庫上提取非投影結構。李斌等提出了將概念和詞語對齊的方法,構建了中文AMR語料庫[6],使得我們能夠考察漢語中的非投影現象。圖3給出了具體實例,左側是利用詞語的下標來鎖定詞與概念的關系,如x2表示第2個詞對應的概念“看到-01”[注]01表示“看到”的第一個義項。;右側則是將其繪制為依存樹結構的可視化結果,能清楚地顯示出“昨天”的虛線和“貓—花”的關系存在交叉,是非投影結構。

圖3 概念對齊的抽象語義表示實例
本文選取了賓州中文樹庫CTB 8.0語料(以下簡稱CTB)中的網絡媒體語料,共10 149句[注]選取的原始語料共10 325句,其中176句存在斷句錯誤、句子意義錯亂或句子格式錯誤,未予標注。,按照概念對齊的方式,標注形成中文AMR語料庫。在隨機抽樣的500句語料上,雙人標注一致性達到0.83的Smatch值[22],與英文AMR的標注一致率基本相當。謂詞義項及角色框架參考的是中文命題庫(CPB)的謂詞框架詞典[23]。該詞典是從CPB標注語料中抽取出來的,含有每個謂詞在不同義項下的語義角色框架,共收錄了24 510個中文謂詞(包括動詞、形容詞等)的26 650個義項的不同語義角色框架。這部詞典較好地覆蓋了CTB語料。少量未覆蓋到的謂詞的語義角色則根據標注規范從AMR規定的語義關系中補充。
語料標注完成后,我們根據非投影規則自動提取出所有的非投影結構。在中文AMR語料庫的10 149個句子中,有3 208個句子含有非投影結構(非投影樹),比例為31.62%。從弧的比例來看,一共有193 955條弧,造成非投影的弧有3 358條,占1.73%,說明非投影結構在漢語中也是較為常見的。其次,和其他語言一樣,漢語的非投影結構也是由許多具體的語言現象導致的, 如模態詞提升、話題化、成分分離等。此外,復句中兩個小句成分的分離也可能導致非投影結構。表3給出了非投影結構的詳細分類和比例,比例之和超過1,是因為分子按弧、分母按句子計數,每個句子可能含有多處非投影現象。這樣統計方便觀察出有多少句子出現了非投影結構。
可以看到,在所有的非投影結構類型中,模態詞的提升占比最高(52.37%),超過一半;其次是成分分離(28.49%)、話題化(13.34%)以及一般移位(5.14%)。下面我們來逐一說明。
模態詞(modal word)提升是中文AMR語義結構中非投影比例最高的一種類型, 這種非投影類型也存在于捷克語[17]等其他語言的依存語料庫中。在中文AMR中產生此現象的原因是我們將模態詞進行了提升處理,即將模態詞作為謂詞的上層節點。

表3 對齊版中文AMR語料中非投影結構類別
這類模態詞包括“可能”“也許”“似乎”“可以”等。下面以“大多數人可以做到”這個句子為例進行分析,如圖4所示。

圖4 模態詞提升的非投影結構示例
在這個句子中,“可以”作為句子的最上層節點。根據謂詞庫,“可以”的第一個義項是“可以-01”。這個義項中有一個論元arg0,表示被允許的事件內容,“做到”作為“可以”的arg0。“人”是“做到”的arg0,表示施事主體。“大多數”則表示“人”的數量成分,用quant表示“人”和“大多數”的關系。
從圖4可以看出,由于“可以”位于上層,所以“可以”的投影弧與“人”和“做到”之間的弧有交叉,形成了非投影結構。而傳統的句法語義分析是將模態詞依附于謂詞的,所以不會產生這種非投影結構。
話題化指的是將句子中某些成分提前,語用上起到將該成分作為句子關注焦點的作用,在生成語法中研究較多。捷克語中也存在話題化導致的非投影結構[17],印地語的非投影結構中也存在15.3%的話題化[19],說明話題化導致非投影是跨語言的共性。
話題化導致的非投影結構又分為連謂結構下的成分前置、從屬關系分離、數量結構后置及整體/部分關系分離四種子類。篇幅限制,下面僅就連謂結構下的成分前置、整體/部分關系分離進行較為詳細的舉例分析。
(1) 連謂結構下的成分前置
成分前置的情形是較為典型的“話題化”(topicalization)現象。通過分析,我們發現簡單句的成分前置一般是不會造成非投影結構的,而謂詞較多的嵌套句中的成分前置才更容易造成非投影結構。當一個小句中有多個謂詞(廣義的連謂結構)時,這些謂詞各自有一套論元。這些論元在一個句子中的排列就容易出現錯序情況。當某個小句中處于語序較后位置的謂詞的論元發生了前時,就容易形成非投影結構。例如“必然導致對此案做出不公正判決”(圖5)。

圖5 連謂結構下論元前置的非投影結構示例
在這個句子中,“必然”是最上層節點,“導致對此案做出不公正判決”是“必然”下面的子事件,“導致”及其下層所有節點充當“必然”的arg0。“對此案做出不公正判決”是“導致”的arg1。而“對此案不公正判決”則是“做出”的arg1,表示“做出”的行為事件。“此案”是“判決”的arg1,“判決”是“公正”的arg0。這里用了一個反關系“arg0-of”,目的是為了保證有向圖的單根性,polarity(極性)為-,表示否定。
從圖5的非投影結構的可視化表示中可以看到,“判決”與“此案”之間的arg1關系與“做出”的投影線有了交叉。這種交叉正是由于判決的arg1,即句法層面上謂詞“判決”的論元“此案”前置所導致的,這種前置由介詞“對”引導。
(2) 整體/部分關系分離
整體/部分(part-of)關系往往由兩個概念構成,如果這兩個概念在句子中被謂詞分開了,可能會造成非投影結構,例如“活熊取膽殘忍無比”(圖6)。

圖6 整體/部分關系分離的非投影結構示例
可以看到,這個句子中的“熊”與“膽”之間有整體/部分(part-of)關系,但是由于強調這個行為的殘忍性,所以在表面詞序上將“活熊”提到了整個句子的最前面,最終導致了“膽”和“熊”之間的整體/部分關系的分離。從可視化結果可以看到,“熊”和“膽”之間的整體/部分關系(part-of)與“取”的投影線發生了交叉,導致了非投影結構。
類似的話題化現象還有從屬關系(poss)的分離,如“給兒子補身體”,“身體”從屬于“兒子”;數量結構后置,如“蘋果有五個”。
成分分離又分為由復句關系的小句拆分導致的非投影結構和一般成對結構的分離。
(1) 復句關系的小句拆分
復句關系的小句拆分又分為前件和后件的分離,以及主體感受插入兩類。例如“如果國家不及時采取措施,我覺得會給國家帶來經濟危機。”(圖7)
圖7中圈出來的部分表示的是中文AMR中對復句結構(discourse relation)處理時添加的“condition”概念節點。在這個句子中,“覺得”是整個句子的最上層節點,“我”是“覺得”的arg0,即感受主體,條件復句“如果國家不采取措施,會給國家帶來經濟危機”是“覺得”的arg1,即內容。“國家不采取措施”和“會給國家帶來經濟危機”分別是條件復句的前件和后件。從圖7不難看到,“覺得”的插入使得條件句的前件和后件被割斷開來,形成了交叉。
(2) 成對結構的分離
成對結構的分離往往導致樹結構上有一個節點對應表面詞序中的多個詞的情況,這種情況沒有造成投影邊的交叉,但是破壞了正常的投影結構。如“法官以事實為依據”(圖8)。

圖7 復句關系中間插入主體感受的非投影結構示例

圖8 一般的成對結構分離的非投影結構示例
在這個句子里,“以……為”按照AMR的要求被合并為一個概念“以為-03”,是句子的核心,處于最上層結構。“法官”是“以為”的arg0,表示感受主體;“事實”是“以為”的arg1,表示“以為”的對象;“依據”是“以為”的arg2,表示“以為”的結果。從可視化的中文AMR語義結構可以看到,由于“以為”在表面詞序上的分離,導致了其被“事實”隔斷,不是節點與詞語一一對應的投影結構。當然,這種類型不一定算作是非投影樹結構,也可以直接作為圖結構的一種類型。
除此以外,一些普通的移位(movement),也會導致非投影結構的產生,主要包括狀語、定語、同位語及其他介詞結構的移位。下面以同位語的移位為例,如“我們在這兒等你,地下車庫”。
這個句子中,狀語“地下車庫”發生了移位,其AMR語義結構表達的一般語序是“我們在地下車庫這兒等你”,“地下車庫”的后置導致了非投影結構(圖9)。
從上面四種非投影結構的示例,我們可以看出基于概念對齊的抽象語義表示能夠清晰地刻畫出漢語中的非投影結構。在傳統的基于投影原則的依存樹上,是無法找到這些非投影結構的。即使是基于圖結構的依存圖,如果不從語義的角度來描寫,也很難找出這么多真實的用例。對齊版AMR更真實地刻畫了句子的語義結構,能夠表示出“活熊取膽”等非投影結構。
(1) 理論探討
在非投影結構中,模態詞提升占的比例較高,主要源于AMR標注體系的處理方式。在傳統的句法依存標注中, 模態詞一般都依附于謂詞。在圖5的例子中,如果“必然”依附于“導致”,就不會形成非投影結構了。但是在比較新的生成語法和依存語法的研究中,模態詞的位置一般認為處于更高層。因為,“必然”是說話人對整個命題的判斷,而非命題的附屬。在其他語言的依存語料庫中,模態詞提升也占據了一定比例[19]。AMR遵從了語言學的理論分析,而非強行約定。
話題化和一般的移位,在生成語法中有較多研究[24],但在依存語法中卻存在較大局限。依存語法沒有像生成語法那樣,區分移位前的深層結構和移位后的表層結構,依存語法更多的是直接描寫移位后的句子結構,所以在體系上不如生成語法嚴密。另一方面,生成語法雖然可以用轉換(transformation)操作來描寫移位,但往往需要在句法樹上增加很多層次和空位,但在標注真實語料時,又做了很多簡化,使得移位標注并不那么完整。而對于從屬關系分離、復句關系中插入主體感受、成對結構的分析,生成語法和依存語法也盡量回避。

圖9 同位語后置的非投影結構示例
對于自然語言處理來說,句子的語義結構需要更為清晰的描寫和表示方法。如果按照簡約的句法表示,雖然自動分析的F值很高,但不能完整而正確地表示句子的語義結構,對后續的處理會產生負面影響。例如,將“活熊取膽”簡化為“施事—謂詞—受事”結構,顯然是不妥的。AMR則在語義依存圖的基礎上增加了概念和關系的靈活處理機制,能夠更好地刻畫句子的語義結構。而“概念—詞語”對齊機制的加入和非投影結構的研究,能夠讓我們進一步看清漢語中真實存在的移位和特殊的語序現象,從而為語言學理論提供更多的討論素材,提供相應的處理對策,為漢語的語義自動分析奠定基礎。非投影結構的正確分析也能夠提升漢語句子的句法語義分析效果,為文本摘要、輿情分析等應用提供更準確的結果。
(2) 自動處理對策
目前,英文AMR自動分析的F值最高為74%[25],漢語僅有58%左右[26]。非投影結構是漢語處理的一大難點。通過上面對非投影結構的分類和具體分析可以看到,非投影結構產生的原因雖然情況復雜、種類較多,但也具有一定的規律性。其中由模態詞提升導致的非投影結構占據了超過50%的比例,一般的成分分離占據了將近30%的比例。這樣對模態詞和成分可以分離的詞語建立相應的詞典,對這兩種類型的句子進行預處理或做特殊標記進行機器學習,80%左右的非投影結構就有望得以解決。剩下20%稍顯零散的非投影結構,則需要進一步深入探究,或可考慮對詞語移位進行建模計算。我們也期待著基于圖結構的一體化句子語義分析方法能有算法上的突破,將本文的分析結果更好地融合到分析算法中。
近年來,隨著句法依存和語義依存在理論和資源建設上的進展,非投影結構在越來越多的語言中被發現和研究,但漢語中的非投影結構一直沒有得到較好的理論與實證研究。本文系統地梳理了國際上對于非投影結構的研究歷程,并且基于AMR的新體系,在增加概念對齊的機制后的10 149句中文AMR語料庫上,通過程序自動提取和人工統計分析得出,帶有非投影結構的句子比例為31.62%。總結出非投影的產生原因主要是模態詞提升、話題化、成分分離和一般移位,其中模態詞提升和成分分離的情況最為普遍。進而提出利用這兩種情況與特定動詞之間的較強聯系,為其構建相應的詞庫,對其進行特殊處理,以提升中文AMR的自動分析效果。
在未來的工作中,我們將繼續分析抽象語義庫中超越單純的投影樹結構的語言現象,包括非投影結構和圖結構。同時,我們會借助賓州樹庫等語料標注的移位信息,更為系統地對比分析和研究漢語中的語序問題,從而為語言學研究提供更多理論探討的空間。最后,我們希望基于中文AMR語料庫進行非投影結構的自動分析,可提高AMR分析器的效果。