武娟,李茹,2,王智強(qiáng)
(1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)
漢語(yǔ)篇章中零形式的識(shí)別與消解
武娟1,李茹1,2,王智強(qiáng)1
(1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)
傳統(tǒng)的語(yǔ)義角色標(biāo)注只能為句中顯式表達(dá)的句法論元分配語(yǔ)義角色,但是忽略了一些隱式的語(yǔ)義成分,即零形式。該文基于漢語(yǔ)框架語(yǔ)義研究了零形式的識(shí)別及消解。在識(shí)別階段,首先使用規(guī)則方法進(jìn)行零形式檢測(cè),然后運(yùn)用篩選過(guò)濾的策略去除部分錯(cuò)誤識(shí)別的零形式;在消解階段,將篇章中顯式表達(dá)的框架元素填充項(xiàng)作為零形式的候選先行語(yǔ),提出結(jié)合框架元素語(yǔ)義類型與框架關(guān)系的消解方法。在構(gòu)建的164篇中文語(yǔ)料上進(jìn)行實(shí)驗(yàn),與其他方法相比,該方法能獲得更好的結(jié)果。
漢語(yǔ)框架網(wǎng);零形式識(shí)別;零形式消解
語(yǔ)義角色標(biāo)注是對(duì)句子中謂詞所支配的句法成分標(biāo)注語(yǔ)義角色,是對(duì)句子進(jìn)行淺層語(yǔ)義分析的一種方法。但是,它只能為顯式表達(dá)的句法論元分配語(yǔ)義角色,而忽略了一些未明確表達(dá)的論元,這種未明確表達(dá)的論元稱為零形式(Null Instantiation,NI)。其中有一部分隱式角色能從篇章中推斷出其先行語(yǔ),而發(fā)現(xiàn)隱式語(yǔ)義角色并為其找到先行語(yǔ)有助于進(jìn)一步理解篇章。
在漢語(yǔ)框架網(wǎng)(Chinese FrameNet)[1]中,這些缺失的語(yǔ)義角色被稱為零形式框架元素[2],簡(jiǎn)稱為零形式。按照缺失論元在語(yǔ)義理解上的不同解釋類型,零形式被分為有定的零形式(Definite Null Instantiation,DNI)和無(wú)定的零形式(Indefinite Null Instantiation,INI)。INI是指缺省元素的自然類型或語(yǔ)義類型能夠被理解,不需要找回或者建立一個(gè)特定的篇章所指。DNI是指缺失的角色一定是在篇章的上下文中已經(jīng)被理解,并且在上下文中能找到對(duì)應(yīng)的詞語(yǔ),如例1所示,目標(biāo)詞“發(fā)現(xiàn)”激起“發(fā)現(xiàn)”框架,該框架包含兩個(gè)核心框架元素:Cognizer,Phenomenon,其中僅有Phenomenon被“太陽(yáng)耀斑的數(shù)量明顯增多,地球的平均氣溫也穩(wěn)定上升”填充,而另一個(gè)核心框架元素并沒(méi)有在本句中顯式表達(dá),但是可以推斷出Cognizer是由前一句中的“科學(xué)家”所填充,即標(biāo)記為DNI。
例1 [為了確定太陽(yáng)對(duì)全球變暖的影響]Purpose,[科學(xué)家]Agent對(duì)太陽(yáng)耀斑進(jìn)行有意行為了[測(cè)量]Activity。
測(cè)量后發(fā)現(xiàn)發(fā)現(xiàn),[太陽(yáng)耀斑的數(shù)量明顯增多,地球的平均氣溫也穩(wěn)定上升]Phenomenon。[Cognizer DNI]
零形式的識(shí)別與消解問(wèn)題可以形式化描述為: 給定篇章D={S1,S2,…,Sn},其中Sk(k∈[1,n])為語(yǔ)篇D的第k句。Sk中能激起框架的目標(biāo)詞集合為Tk={Tk1,Tk2,…,Tkp},F(xiàn)k={Fk1,Fk2,…,Fkp}為對(duì)應(yīng)的框架集合。對(duì)于某個(gè)框架Fki,其核心框架元素集合為Eki={e1,e2,…,em},而框架Fki在Sk中出現(xiàn)的核心框架元素集為Cki,其中Cki?Eki,則未被實(shí)現(xiàn)的核心框架元素集Eki-Cki即為缺失的核心框架元素集。因此,我們首先需要判斷Eki-Cki集合中的元素是否屬于零形式;然后確定已識(shí)別出的零形式em是否屬于有定的零形式;最后為有定的零形式em在篇章中找到其對(duì)應(yīng)的先行語(yǔ)dm。
本文基于框架語(yǔ)義,系統(tǒng)地完成了零形式的識(shí)別與消解任務(wù),并為有定的零形式消解任務(wù)提出了基于框架元素語(yǔ)義類型和框架關(guān)系的消解方法。
在針對(duì)英文的零形式消解研究方面,國(guó)際語(yǔ)言學(xué)會(huì)議ACL在2010年舉辦了關(guān)于“Linking Events and Their Participants in Discourse”的語(yǔ)義評(píng)測(cè)[3],要求參與者在已標(biāo)注語(yǔ)義角色的語(yǔ)料上識(shí)別出有定的零形式并在上下文中找到其先行語(yǔ),評(píng)測(cè)任務(wù)分別提供了FrameNet和PropBank兩種全文標(biāo)注的語(yǔ)料,但由于任務(wù)過(guò)于新穎且難度較大,只有兩支參賽隊(duì)伍提交了結(jié)果。
Tonelli等人[4]采用一個(gè)曾用于文本蘊(yùn)涵識(shí)別的語(yǔ)義評(píng)測(cè)系統(tǒng)VENSES,得到與語(yǔ)義角色標(biāo)注相對(duì)應(yīng)的謂詞論元結(jié)構(gòu),并根據(jù)目標(biāo)詞的詞性(動(dòng)詞、名詞)提出了不同的處理策略: 在測(cè)試語(yǔ)料中,若激起有定的零形式所屬框架的目標(biāo)詞為動(dòng)詞,則在訓(xùn)練語(yǔ)料中查找與其相似的謂詞論元結(jié)構(gòu),找到后與其對(duì)比得出缺失的論元,若未找到,則查找FrameNet中與該目標(biāo)詞同屬一個(gè)框架的其他詞元的謂詞論元結(jié)構(gòu),最后,計(jì)算缺失元素與潛在填充項(xiàng)的相似度完成零形式的消解;而對(duì)于名詞性目標(biāo)詞,根據(jù)VENSES分析得到的事件、時(shí)間、空間等信息,以及建立在ConceptNet2.0[5]上的意義推理模型,判斷某詞語(yǔ)是否可以作為DNI的填充項(xiàng),最終達(dá)到的準(zhǔn)確率和召回率分別為4.62%和0.86%。在后期的工作中,Tonelli等人[6]認(rèn)為如果一個(gè)候選填充項(xiàng)的中心詞在訓(xùn)練語(yǔ)料中多次被標(biāo)記為框架元素,則該詞作為DNI先行語(yǔ)的可能性越高。該工作基于這種思路計(jì)算了每個(gè)候選填充項(xiàng)與DNI的相關(guān)性得分,最終得到8%的F值。
另一支團(tuán)隊(duì)Chen等人[7]將此任務(wù)看成一種特殊的語(yǔ)義角色標(biāo)注任務(wù),選取前三句中的代詞、名詞、名詞短語(yǔ)作為先行語(yǔ)候選詞,統(tǒng)計(jì)FrameNet中相應(yīng)框架的例句庫(kù)以及訓(xùn)練語(yǔ)料中某候選詞是否被顯式標(biāo)記為該語(yǔ)義角色,若沒(méi)有,則系統(tǒng)計(jì)算候選填充項(xiàng)與缺失角色的分布相似性。盡管實(shí)驗(yàn)結(jié)果高于VENSES++,F(xiàn)值為5%,但數(shù)據(jù)稀疏仍然是潛在的限制因素。
雷章章等人[8]采用規(guī)則過(guò)濾與機(jī)器學(xué)習(xí)相結(jié)合的方法,在SemEval2010 task10的語(yǔ)料上實(shí)現(xiàn)了有定零形式的識(shí)別。Silberer等人[9]將該問(wèn)題看作一個(gè)指代消解任務(wù),將實(shí)體鏈作為候選填充項(xiàng),結(jié)合語(yǔ)義角色標(biāo)注和共指消解的特征,構(gòu)建了有監(jiān)督的機(jī)器學(xué)習(xí)模型,同時(shí)他們對(duì)語(yǔ)料進(jìn)行了擴(kuò)充,從而解決了數(shù)據(jù)稀疏的問(wèn)題,最終獲得7.1%的F值。Gorinski等人[10]運(yùn)用SemEval2010 task10的語(yǔ)料,研究了四個(gè)不同類型的DNI語(yǔ)義解析器的性能,最終結(jié)果F值為12%。Wang等人[11]同樣在該評(píng)測(cè)語(yǔ)料上,統(tǒng)計(jì)和規(guī)則相結(jié)合構(gòu)建了一個(gè)規(guī)模最小覆蓋范圍最大的候選詞集合,將有定的零形式缺位填充看成一個(gè)分類問(wèn)題,在傳統(tǒng)的特征上引入中心詞信息和框架信息,使用最佳的特征組合最終得到了14.65%的F值。Laparra等人[12]總結(jié)研究了傳統(tǒng)指代消解所使用的特征,并嘗試著將其應(yīng)用到零形式的消解任務(wù)中,最終F值達(dá)到18%。
Gerber等人[13]研究了在新聞專線文本中常出現(xiàn)的十個(gè)名詞性目標(biāo)詞,運(yùn)用NomBank/PropBank標(biāo)注語(yǔ)料,結(jié)合句法、語(yǔ)義和語(yǔ)篇特征,采用實(shí)體指代的方法,得到了明顯高于其他團(tuán)隊(duì)的結(jié)果,而這很可能是由于語(yǔ)料是基于限定謂詞的,并且每個(gè)謂詞包含有120條標(biāo)注實(shí)例。
3.1 漢語(yǔ)框架網(wǎng)
漢語(yǔ)框架網(wǎng)(Chinese FrameNet,CFN)[14]是以Fillmore的框架語(yǔ)義學(xué)為理論基礎(chǔ)[15],以加州大學(xué)伯克利分校的FrameNet[16]為參照,以漢語(yǔ)真實(shí)語(yǔ)料為依據(jù)的供計(jì)算機(jī)使用的漢語(yǔ)詞匯語(yǔ)義知識(shí)庫(kù)。CFN的分析單元是框架,“框架”(Frame)是與一些激活性語(yǔ)境相一致的結(jié)構(gòu)化的范疇系統(tǒng),是儲(chǔ)存在人類認(rèn)知經(jīng)驗(yàn)中的圖式化情境。激起框架的詞元為目標(biāo)詞。在目標(biāo)詞激起一個(gè)框架的同時(shí)也激起了一個(gè)語(yǔ)義場(chǎng)景,場(chǎng)景中的事件及參與者被稱為框架元素(Frame Element)。其中,框架元素又有核心與非核心之分。核心框架元素是一個(gè)框架在概念理解上的必有成分,它們?cè)诓煌目蚣苤蓄愋秃蛿?shù)量不同,顯示出框架的個(gè)性。非核心框架元素表達(dá)時(shí)間、空間、環(huán)境條件、原因、目的等外圍語(yǔ)義成分。
3.2 零形式框架元素及其類型
并非所有的核心框架元素能同時(shí)被實(shí)現(xiàn),有些框架的核心框架元素是互相排斥的,如例2、例3所示,目標(biāo)詞“像”和“酷似”都激起了“類似”框架,該框架包含四個(gè)核心框架元素Entity1、Entity2、Entities和Dimension,其中Entity1、Entity2都與Entities互相排斥,即形成了Excludes關(guān)系。同時(shí),Entity1和Entity2構(gòu)成了Requires關(guān)系,若Entity1在前,則Entity1出現(xiàn)時(shí)要求Entity2也出現(xiàn),否則認(rèn)為是論元缺失,但是Entity2出現(xiàn)的時(shí)候不一定要求Entity1也必須出現(xiàn)。
CoreSet關(guān)系描述的是其中一個(gè)或者多個(gè)核心框架元素需要顯式表達(dá),這種關(guān)系比較復(fù)雜,可能在某種情況下,其中的一個(gè)核心框架元素缺失時(shí)不認(rèn)為是零形式,而對(duì)于另外一個(gè)則必須標(biāo)記為零形式,這因框架的不同而不相同,如例4所示,“知道”激起的“知道”框架,包含三個(gè)核心框架元素Cognizer、Content、Topic,其中表達(dá)相似語(yǔ)義內(nèi)容的元素Content和Topic具有CoreSet關(guān)系,因此,Content的顯式出現(xiàn)使得Topic的缺失不被標(biāo)記為零形式。
例2 [我們的經(jīng)濟(jì)]Entity1就像類似[一棵經(jīng)過(guò)長(zhǎng)期干旱后的健康植物]Entity2。[DimensionINI]
例3 [兄弟二人相貌]Entities酷似類似。[DimensionINI]
例4 [根據(jù)經(jīng)驗(yàn)]Evidence,[我]Cognizer知道知道[他會(huì)遲到]Content。
另外,如例2、例3所示,實(shí)體有相似點(diǎn)的方面Dimension沒(méi)有明確表達(dá),但能夠被理解,這種情況被標(biāo)記為INI。
3.3 框架之間的關(guān)系
框架關(guān)系是指語(yǔ)義場(chǎng)景之間的關(guān)系,F(xiàn)rameNet詳細(xì)定義了繼承、使用、總分、透視、先后、因果、起始和參照這八種框架關(guān)系,通過(guò)定義這些框架之間的關(guān)系形成了框架的網(wǎng)狀結(jié)構(gòu)。以繼承關(guān)系來(lái)說(shuō),它使得一個(gè)比較普通的框架具體化為一個(gè)比較特定的框架。并且它們的框架元素之間也具有相應(yīng)的關(guān)系,每個(gè)繼承來(lái)的框架元素包含了被繼承框架元素的所有語(yǔ)義特點(diǎn),也可能增加其他的特點(diǎn),例如,“付款”框架,繼承自“給予”框架,其中,“付款”的框架元素“買方(Buyer)”繼承于“給予.捐贈(zèng)者(Donor)”,“賣方(Seller)”繼承于“給予.接受者(Recipient)”,“貨幣(Seller)”繼承于“給予.轉(zhuǎn)移體(Theme)”等。
這些框架之間以及框架元素之間的關(guān)系是本文進(jìn)行有定的零形式消解的一個(gè)重要依據(jù)。
零形式的識(shí)別與消解研究目的是找出篇章中的隱式角色及其先行語(yǔ),從而有助于篇章理解,本文將該任務(wù)分為零形式的識(shí)別、零形式的分類和有定的零形式消解三個(gè)子任務(wù),并根據(jù)各子任務(wù)的不同分別建模。
4.1 零形式的識(shí)別
缺失的核心框架元素并不一定就是零形式,而核心框架元素之間存在著3.2節(jié)中所介紹的三種關(guān)系CoreSet、Excludes和Requires,只有充分考慮了這些關(guān)系才能夠判斷缺失的核心框架元素是否屬于零形式。
對(duì)于該任務(wù),本文根據(jù)零形式的多樣性特點(diǎn)進(jìn)行了兩級(jí)識(shí)別。
1) 首先,本文基于文獻(xiàn)[8]提出的檢測(cè)規(guī)則進(jìn)行零形式的識(shí)別,其中,對(duì)于具有CoreSet關(guān)系的核心框架元素,只要其中一個(gè)框架元素在句中顯式出現(xiàn),則其他核心框架元素的缺失不被標(biāo)記為零形式。但是,若CoreSet關(guān)系中的核心框架元素在句中都未顯示表達(dá),則將它們都標(biāo)記為零形式,這樣可能就會(huì)引入一些錯(cuò)誤識(shí)別的零形式。
2) 本文在第一級(jí)識(shí)別的基礎(chǔ)上進(jìn)行了第二級(jí)識(shí)別,即統(tǒng)計(jì)每個(gè)詞元在訓(xùn)練語(yǔ)料中的框架語(yǔ)義角色標(biāo)注模式*框架語(yǔ)義角色標(biāo)注模式是指標(biāo)注的框架元素,其中也包括被標(biāo)記為零形式的框架元素。,對(duì)上一步檢測(cè)到的零形式進(jìn)行篩選。以詞元“發(fā)射”為例,表1則是其從訓(xùn)練語(yǔ)料中抽取的框架標(biāo)注模式。在此基礎(chǔ)上,可以有效地去除一些錯(cuò)誤識(shí)別的零形式。

表1 詞元“發(fā)射”在訓(xùn)練語(yǔ)料中的標(biāo)注模式
4.2 零形式的分類模型
并非所有的零形式都能在篇章中找到對(duì)應(yīng)的先行語(yǔ),因此,在進(jìn)行零形式消解之前,需要對(duì)子任務(wù)一中識(shí)別出的零形式,確定哪些能找到先行語(yǔ),即哪些屬于DNI。
本文使用最大熵分類模型實(shí)現(xiàn)了零形式分類,實(shí)驗(yàn)使用的是張樂(lè)博士的最大熵工具包[17]。而特征選擇的優(yōu)劣直接影響模型的性能,本文借鑒雷章章等[8]在英文語(yǔ)料上所使用的特征,并擴(kuò)展總結(jié)出本文實(shí)驗(yàn)用到的特征,如表2所示。

表2 零形式分類的特征描述
4.3 有定的零形式消解模型
有定的零形式消解旨在為識(shí)別出的有定的零形式從篇章上下文中找到其對(duì)應(yīng)的先行語(yǔ)。其中,如何確定候選先行語(yǔ)的范圍及候選先行語(yǔ)是首要的問(wèn)題。然后,本文使用最大熵模型構(gòu)建先行語(yǔ)查找模型。
4.3.1 確定先行語(yǔ)候選集
在語(yǔ)篇中可能作為零形式框架元素先行語(yǔ)的詞即為候選詞。由于語(yǔ)料已進(jìn)行細(xì)粒度的標(biāo)注,我們認(rèn)為,零形式的先行語(yǔ)在篇章中已填充過(guò)其他顯式表達(dá)的框架元素,因此,本文將一定窗口內(nèi)所有語(yǔ)句中所有框架元素的填充項(xiàng)作為當(dāng)前零形式先行語(yǔ)的候選集。通過(guò)在不同窗口大小的對(duì)比實(shí)驗(yàn),選定最佳的窗口作為候選詞的選擇范圍。
4.3.2 特征選擇
本文深入分析了框架元素的語(yǔ)義類型及框架之間的關(guān)系,為該任務(wù)設(shè)置了如表3所示的特征集。

表3 有定的零形式消解的特征描述
其中,特征F8是指框架元素的語(yǔ)義類型,表4給出了部分框架元素的語(yǔ)義類型。本文認(rèn)為零形式先行語(yǔ)的語(yǔ)義類型與候選詞的語(yǔ)義類型應(yīng)該是趨近相同的。如例1中的有定的零形式框架元素Cognizer,可知其語(yǔ)義類型為Sentient,而其先行語(yǔ)的語(yǔ)義類型應(yīng)該也為Sentient,由于候選詞“科學(xué)家”曾填充框架元素Agent,其語(yǔ)義類型為Sentient,因此為Cognizer找到了先行語(yǔ)“科學(xué)家”。

表4 部分框架元素的語(yǔ)義類型示例
另外,根據(jù)FrameNet中框架之間以及框架元素之間的關(guān)系(已在3.3節(jié)中介紹),本文提取了特征F9,即表示從框架f1到f2之間的框架關(guān)系路徑。
例5 [五十年代]Time,[我國(guó)]Agent+Place曾發(fā)起行為開(kāi)始[把麻雀作為四害來(lái)消滅的運(yùn)動(dòng)]Activity。
然后,[在麻雀被大量捕殺之后的幾年里]Time,卻出現(xiàn)事件了[嚴(yán)重的蟲災(zāi)]Event。[PlaceDNI]
以例5為例,第一句中的目標(biāo)詞“發(fā)起”激起“行為開(kāi)始”框架,“五十年代”和“把麻雀作為四害來(lái)消滅的運(yùn)動(dòng)”分別填充該框架中的Time和Activity框架元素,而“我國(guó)”表達(dá)了Agent和Place兩個(gè)語(yǔ)義角色,即出現(xiàn)了框架元素融合現(xiàn)象[2]。第二句中的目標(biāo)詞“出現(xiàn)”激起了“事件”框架,其中核心框架元素Place未顯式表達(dá)。在FrameNet關(guān)系網(wǎng)中,框架“行為開(kāi)始”繼承自“過(guò)程開(kāi)始”框架,而框架“過(guò)程開(kāi)始”又繼承于“事件”框架,這種繼承關(guān)系也存在于框架的部分框架元素之間,即表示為:

根據(jù)這些繼承關(guān)系,為有定的零形式框架元素Place找到了對(duì)應(yīng)的先行語(yǔ),即為前一句中框架元素Place的填充項(xiàng)“我國(guó)”。
5.1 實(shí)驗(yàn)語(yǔ)料
實(shí)驗(yàn)語(yǔ)料來(lái)源于山西大學(xué)語(yǔ)義計(jì)算與漢語(yǔ)框架網(wǎng)研究中心,包括57篇《人民日?qǐng)?bào)》語(yǔ)料及107篇閱讀理解的文章,涉及科技、歷史、醫(yī)保等14個(gè)領(lǐng)域。本文使用中國(guó)科學(xué)院計(jì)算技術(shù)研究所的ICTCLAS進(jìn)行分詞及詞性標(biāo)注,使用斯坦福大學(xué)的語(yǔ)法解析工具Stanford Parser得到短語(yǔ)類型。由于目前漢語(yǔ)自動(dòng)語(yǔ)義角色標(biāo)注的性能偏低,我們進(jìn)行了人工語(yǔ)義角色標(biāo)注。實(shí)驗(yàn)數(shù)據(jù)的統(tǒng)計(jì)結(jié)果如表5所示。

表5 實(shí)驗(yàn)數(shù)據(jù)的統(tǒng)計(jì)結(jié)果
本文采取交叉驗(yàn)證策略,將語(yǔ)料分為五等份,每次取其中四份做訓(xùn)練集,剩余一份做測(cè)試集,取五次結(jié)果的平均值作為最終結(jié)果。
5.2 評(píng)價(jià)指標(biāo)
本文使用準(zhǔn)確率P(Precision)、召回率R(Recall)和F值對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。假設(shè)Cp是實(shí)驗(yàn)?zāi)P皖A(yù)測(cè)出的個(gè)數(shù),Cc是實(shí)驗(yàn)?zāi)P皖A(yù)測(cè)正確的個(gè)數(shù),Ca是測(cè)試集中正確答案的個(gè)數(shù),則我們將準(zhǔn)確率、召回率和F值定義如下:
5.3 零形式的識(shí)別實(shí)驗(yàn)及結(jié)果分析
本文提出的兩級(jí)識(shí)別方法在語(yǔ)料集上的實(shí)驗(yàn)結(jié)果如表6所示,可以看出本文改進(jìn)的識(shí)別方法達(dá)到了78.84%的F值。作為對(duì)比,本文使用文獻(xiàn)[8]的規(guī)則方法在本文語(yǔ)料上進(jìn)行了實(shí)驗(yàn),其F值為69.34%,顯然低于本文方法的實(shí)驗(yàn)結(jié)果。

表6 零形式識(shí)別的實(shí)驗(yàn)結(jié)果
經(jīng)過(guò)分析,影響實(shí)驗(yàn)結(jié)果的一個(gè)重要因素就是核心框架元素之間存在的CoreSet關(guān)系,以例6來(lái)說(shuō)明。
例6 [他]Suspect[因?yàn)槿胧冶I竊]Offense而被逮捕逮捕。[ChargesINI][AuthoritiesINI]
在“逮捕”框架中,
Core: {Authorities,Charges,Offense,Suspect}
CoreSet: {Charges,Offense}
例6中,核心框架元素Suspect和Offense顯式表達(dá),而核心框架元素Charges與Offense存在CoreSet關(guān)系,本文使用的方法在實(shí)驗(yàn)中未將Charges的缺失標(biāo)記為零形式,這種情況就會(huì)影響實(shí)驗(yàn)結(jié)果。
5.4 零形式的分類實(shí)驗(yàn)及結(jié)果分析
對(duì)于檢測(cè)到的零形式,本文使用最大熵模型對(duì)零形式的解釋類型(DNI,INI)進(jìn)行了分類,分類結(jié)果如表7所示,其中本文方法的結(jié)果要高于使用文獻(xiàn)[8]所用特征的結(jié)果,驗(yàn)證了本文提取特征的有效性。
但是分類結(jié)果仍不高,究其原因,一是由于子任務(wù)一中零形式識(shí)別結(jié)果的限制,另外,由于零形式框架元素所屬的框架、詞元或語(yǔ)境不同,對(duì)零形式的解釋類型就都可能不同,以例7、例8來(lái)說(shuō),對(duì)于框架元素Place,都未在句中顯式表達(dá),但由于其所屬詞元不同,所處語(yǔ)境不同,則解釋類型也不同,即分別為INI和DNI。

表7 零形式分類的實(shí)驗(yàn)結(jié)果
例7 [任何不屬于空氣成分的物質(zhì)大量進(jìn)入空氣之后]Time,[空氣污染]Event就發(fā)生事件了。[PlaceINI]
例8 然而,[在麻雀被大量捕殺之后的幾年里]Time,卻出現(xiàn)事件了[嚴(yán)重的蟲災(zāi)]Event,使農(nóng)業(yè)生產(chǎn)受到巨大的損失。[PlaceDNI]
5.5 有定零形式的消解實(shí)驗(yàn)及結(jié)果分析
為了選擇出最有效的特征組合以及最佳的候選詞范圍,本文首先在正確的有定零形式基礎(chǔ)上進(jìn)行了大量實(shí)驗(yàn),表8中給出了窗口大小分別為2,3,4的實(shí)驗(yàn)結(jié)果,其中F1~7表示使用表3中的前七個(gè)特征,F(xiàn)1~9表示使用表3中的所有特征。

表8 在正確的有定零形式上的實(shí)驗(yàn)結(jié)果
由表8可知,在前七個(gè)特征基礎(chǔ)上加入框架元素的語(yǔ)義類型特征(F8)時(shí),消解結(jié)果有一定的提高,但是由于部分框架元素沒(méi)有被分配語(yǔ)義類型,因此限制了提升的幅度。在加入框架關(guān)系特征(F9)時(shí),結(jié)果提升,說(shuō)明了框架關(guān)系的重要性。
當(dāng)同時(shí)加入語(yǔ)義類型與框架關(guān)系特征時(shí),實(shí)驗(yàn)結(jié)果顯著提高,并且窗口大小為3時(shí),F(xiàn)值達(dá)到30.05%。
5.6 零形式消解實(shí)驗(yàn)及結(jié)果分析
最后,本文在自動(dòng)識(shí)別零形式、自動(dòng)零形式分類的基礎(chǔ)上,設(shè)置窗口大小為3,使用特征F1~9進(jìn)行了消解實(shí)驗(yàn),結(jié)果如表9所示。本文結(jié)合語(yǔ)義類型與框架關(guān)系的方法達(dá)到了21.84的F值,但是與表8結(jié)果對(duì)比,F(xiàn)值降低了約9%,這是由于零形式自動(dòng)識(shí)別以及零形式的分類中的錯(cuò)誤導(dǎo)致。
為了與其他方法進(jìn)行比較,本文使用文獻(xiàn)[11]提出的方法在本文的語(yǔ)料上進(jìn)行了實(shí)驗(yàn),顯然本文方法的實(shí)驗(yàn)結(jié)果更高,但是由于我們的語(yǔ)料中沒(méi)有標(biāo)注中心詞信息,因此該對(duì)比實(shí)驗(yàn)所用特征不包含中心詞特征。而目前針對(duì)英文零形式消解最好的方法,即文獻(xiàn)[12]提出的方法,其充分運(yùn)用了共指模型,但是由于我們的語(yǔ)料未標(biāo)注共指信息,因此本文沒(méi)有使用該方法在我們的語(yǔ)料上進(jìn)行實(shí)驗(yàn)對(duì)比。

表9 自動(dòng)識(shí)別的有定的零形式消解實(shí)驗(yàn)結(jié)果
零形式消解的結(jié)果不是很高,本文認(rèn)為其中一個(gè)影響因素是設(shè)置窗口大小為3,即所選候選詞范圍設(shè)定在3句以內(nèi),但本文統(tǒng)計(jì)出DNI先行語(yǔ)在3句以外的概率為5.2%,下面給出了類似的情況:
另外,實(shí)驗(yàn)訓(xùn)練語(yǔ)料較少也是影響實(shí)驗(yàn)結(jié)果的一個(gè)因素。
零形式的識(shí)別與消解是指找到未顯式表達(dá)的語(yǔ)義成分并在篇章中為其找到先行語(yǔ)。本文將該任務(wù)分成三個(gè)子任務(wù): 零形式的識(shí)別、零形式的分類及有定零形式的消解。對(duì)于零形式的識(shí)別任務(wù),本文首先使用已有規(guī)則方法進(jìn)行第一級(jí)檢測(cè),然后使用提出的篩選方法進(jìn)行第二級(jí)識(shí)別。對(duì)于有定的零形式消解任務(wù),本文將篇章中顯式表達(dá)的框架元素填充項(xiàng)作為有定零形式的先行語(yǔ)候選集,并結(jié)合框架元素的語(yǔ)義類型與框架關(guān)系進(jìn)行先行語(yǔ)查找,最終,實(shí)驗(yàn)結(jié)果驗(yàn)證了該消解方法的可行性。
零形式的識(shí)別與分類是有定的零形式消解的基礎(chǔ),因此提高零形式的識(shí)別與分類性能至關(guān)重要。此外,下一步將在擴(kuò)大語(yǔ)料規(guī)模的同時(shí),結(jié)合HowNet、WordNet等資源獲取語(yǔ)義類型及其上下位關(guān)系,提出更高效的先行語(yǔ)查找方法。
[1] 劉開(kāi)瑛. 漢語(yǔ)框架語(yǔ)義網(wǎng)構(gòu)建及其應(yīng)用技術(shù)研究[J].中文信息學(xué)報(bào),2011,25(6): 46-52.
[2] 俞士汶,黃居仁. 計(jì)算語(yǔ)言學(xué)前瞻[M]. 北京: 商務(wù)印書館,2005: 21-74.
[3] Josef Ruppenhofer,Caroline Sporleder,Roser Morante,Collin Baker,Martha Palmer. SemEval-2010 Task 10: Linking Events and Their Participants in Discourse[C]//Proceedings of the SemEval-2010. Uppsala,Sweden: 15-16 July 2010: 45-50.
[4] Sara Tonelli,Rodolfo Delmonte. VENSES++: Adapting a Deep Semantic Processing System to the Identification of Null Instantiations[C]//Proceedings of SemEval-2010. Uppsala,Sweden: 15-16 July 2010: 296-299.
[5] Hugo Liu,Push Singh. Conceptnet: a practical commonsense reasoning tool-kit[J]. BT technology journal,2004,22(4): 211-226.
[6] Sara Tonelli,Rodolfo Delmonte. Desperately seeking implicit arguments in text[C]//Proceedings of the ACL 2011 workshop on relational models of semantics. 2011: 54-62.
[7] Desai Chen,Nathan Schneider,Dipanjan Das,Noah A. Smith. 2010. SEMAFOR: Frame Argument Resolution with Log-Linear Models[C]//Proceedings of SemEval-2010. Uppsala,Sweden: 15-16 July 2010: 264-267.
[8] 雷章章,王寧,李茹,等. FrameNet中有定的零形式識(shí)別[J]. 中文信息學(xué)報(bào),2013,27(3): 107-112.
[9] Carina Silberer,Anette Frank. Casting implicit role linking as an anaphora resolution task[C]//Proceedings of the First Joint Conference on Lexical and Computational Semantics-Volume 1: Proceedings of the main conference and the shared task,and Volume 2: Proceedings of the Sixth International Workshop on Semantic Evaluation. 2012: 1-10.
[10] Philip Gorinski,Josef Ruppenhofer,Caroline Sporleder. Towards weakly supervised resolution of null instantiations[C]//Proceedings of the 10th International Conference on Computational Semantics (IWCS 2013) -Long Papers. 2013: 119-130.
[11] Ning Wang,Ru Li,Zhangzhang Lei,Zhiqiang Wang,Jingpan Jin. Document Oriented Gap Filling of Definite Null Instantiation in FrameNet[C]//Proceedings of Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data,2013,8202: 85-96.
[12] Egoitz Laparra,German Rigau. Sources of evidence for implicit argument resolution[C]//Proceedings of the 10th International Conference on Computational Semantics (IWCS 2013)-Long Papers. 2013: 155-166.
[13] Matthew Gerber,Joyce Y Chai. Beyond nombank: a study of implicit arguments for nominal predicates[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. 2010: 1583-1592.
[14] 李茹. 漢語(yǔ)句子框架語(yǔ)義結(jié)構(gòu)分析技術(shù)研究[D]. 山西大學(xué)博士學(xué)位論文,2012.
[15] Charles J Fillmore. Frame semantics. Linguistics in the morning calm[M]. Seoul,Korea: Hanshin Publishing Company,1982: 111-137.
[16] Collin F Baker,Charles J Fillmore,John B Lowe. The berkeley framenet project[C]//Proceedings of COLING/ACL. 1998.
[17] Zhang Le. Maximum entropy modeling toolkit for python and C++: [OL]http://homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html
Null Instantiation Identification and Resolution in Chinese Discourse
WU Juan1,LI Ru1,2,WANG Zhiqiang1
(1. School of Computer & Information Technology,Shanxi University,Taiyuan,Shanxi 030006,China;2.Key Laboratory of Ministry of Education for Computation Intelligence &Chinese Information Processing,Shanxi University,Taiyuan,Shanxi 030006,China)
Semantic Role Labeling is traditionally concerned with searching the fillers of those explicit roles appearing within sentence boundaries, ignoring some implicit arguments called null instantiation. This paper addressed the issue of automatic null instantiation identification based on Chinese FrameNet. We first apply the rule-based approach to detect null instantiation, which is followed by a post filtering to remove errors. Then, to deal with the arguments, we present an approach to combining semantic types of frame elements and frame-to-frame relations. We conduct experiments on 164 Chinese discourses, and compared with some other method, our method can get a better result.
Chinese FrameNet; null instantiation identification; null instantiation resolution

武娟(1991—),碩士研究生,主要研究領(lǐng)域?yàn)橹形男畔⑻幚怼?mail:wujuan_0922@163.com李茹(1965—),通信作者,博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E?mail:liru@sxu.edu.cn王智強(qiáng)(1987—),博士研究生,主要研究領(lǐng)域?yàn)樯鐣?huì)媒體數(shù)據(jù)挖掘、自然語(yǔ)言處理。E?mail:zhiq.wang@163.com
2014-02-03 定稿日期: 2014-06-05
國(guó)家自然科學(xué)基金(61373082);山西省科技基礎(chǔ)條件平臺(tái)建設(shè)項(xiàng)目(2014091004-0103);山西省回國(guó)留學(xué)人員科研資助項(xiàng)目(2013-015);國(guó)家863計(jì)劃項(xiàng)目(2015AA015407)
1003-0077(2016)03-0009-07
TP391
A