小智
新聞的核心內(nèi)容是對事件的報道,不過一篇新聞稿中除了事件之外,還會充斥著背景、環(huán)境、評論等各種附加信息(圖1),事件抽取的任務(wù),就是要從這類非結(jié)構(gòu)化的文本中抽取出有用的事件信息。
形式各異的新聞文本雖然是非結(jié)構(gòu)化的,不過散落于這些文本之中的事件其實大有規(guī)律可尋。比如一個事件,它總是會發(fā)生在某個時間、某個地域,而事件必然涉及到一個或多個參與者(角色),它由某個行動觸發(fā),最終引發(fā)事物狀態(tài)的改變等等。

①這條新聞除了時間、地點(diǎn)、參與者、動作過程等事件要素之外,還包含了背景、預(yù)測、報道者資料等其他附加信息

②ACE事件示例(各事件元素以觸發(fā)詞“出生”為核心組織在一起)
每個領(lǐng)域都會根據(jù)自己的實際需要對事件進(jìn)行定義,在計算機(jī)信息領(lǐng)域,比較有代表性的是ACE( Automatic Content Extraction,自動內(nèi)容抽取)所做的定義:事件是涉及參與者的特定事件,是發(fā)生的某些事情,通常可以描述為狀態(tài)的更改。
ACE更進(jìn)一步對事件的構(gòu)成進(jìn)行了分解,認(rèn)為它是由觸發(fā)詞( Trigger)、類型(Type)、論元(Argument)和論元角色(Argumentrole)等元素構(gòu)成(圖2)。
觸發(fā)詞:一般為動詞(或動詞化的名詞),是觸發(fā)事件的行動。
類型:ACE為事件定義了8種大類型和33種子類型。
論元:事件參與者,主要有實體、值、時間、地點(diǎn)等。
角色:論元在事件中所占據(jù)的位置、充當(dāng)?shù)慕巧?p>
③支持向量機(jī)示意圖(H1不能把類別分開;H2可以,但只有很小的間隔;H3以最大間隔將它們分開。SVM的目標(biāo)就是將分類的間隔最大化)
事件抽取大致要經(jīng)過兩大步驟。
首先從新聞數(shù)據(jù)文本中檢測出表達(dá)事件的語句,再依據(jù)一定的特征判斷事件的類別。常用的方法是基于觸發(fā)詞進(jìn)行分類,把語句中的每個詞都當(dāng)作一個實例進(jìn)行訓(xùn)練,判斷其是否為觸發(fā)詞。確定觸發(fā)詞之后,再采用最大熵模型(MaximumEntropy Model,MEM)或支持向量機(jī)(Support VectorMachine,SVM)之類的分類器對事件進(jìn)行分類(圖3)。
觸發(fā)詞確定之后,接下來就是從眾多的命名實體(Entity)、時間表達(dá)式(Time Expression)和屬性值( Value)之中,找出與觸發(fā)詞真正相關(guān)的事件元素,并且加上準(zhǔn)確的角色標(biāo)注(Semantic RoleLabeling,SRL),其中涉及到分詞、句法分析、SRL等多種底層模塊的應(yīng)用。
目前的事件抽取主要有兩大類任務(wù),一個是元事件抽取,一個是主題事件抽取。元事件一般由動詞驅(qū)動,表示一個動作發(fā)生或者狀態(tài)變化。多個元事件聚焦在一個相關(guān)的主題下,便構(gòu)成了主題事件。

④運(yùn)用神經(jīng)網(wǎng)絡(luò)進(jìn)行事件抽取的DM-CNN結(jié)構(gòu)示意圖
元事件的抽取普遍應(yīng)用模式匹配、機(jī)器學(xué)習(xí)以及基于神經(jīng)網(wǎng)絡(luò)(圖4)的抽取技術(shù)。而主題事件包括核心事件及其他直接相關(guān)的多個動作或狀態(tài),描述的信息相對較為分散,有時甚至?xí)稚⒃诙鄠€文檔中,元事件基于句子層級的抽取方法對它顯然不適用,所以主題事件的抽取通常基于事件框架,或者基于領(lǐng)域本體來進(jìn)行。
網(wǎng)絡(luò)時代信息呈爆炸式增長,依靠人工方式進(jìn)行處理顯然已經(jīng)無法滿足需要,由此信息抽取技術(shù)應(yīng)運(yùn)而生,而事件抽取作為信息抽取的一個重要組成部分,也隨之在信息服務(wù)領(lǐng)域得到廣泛應(yīng)用。
以網(wǎng)上的長篇文章為例,如果等看完一整篇文章才能確定內(nèi)容是不是我們所需要的,未免太浪費(fèi)時間,這時提供相應(yīng)的文章摘要就非常有必要。人工摘要是最精準(zhǔn)的,但是人的精力畢竟有限,無法應(yīng)付海量的文檔。前幾年流行的計算機(jī)自動摘要固然快速,但是摘要內(nèi)容有很多冗余信息,并且也不精確。而現(xiàn)在應(yīng)用事件抽取技術(shù),即可智能地識別出文本中的事件和非事件,過濾掉次要信息,精準(zhǔn)、快速地生成人類所感興趣的有用文摘,十分高效。
事件抽取另外一個與我們息息相關(guān)的應(yīng)用,就是自動問答服務(wù)。在線網(wǎng)購時難免要和商家的智能客服打交道,以前它們采用的是關(guān)鍵字相關(guān)的技術(shù),答案也是數(shù)據(jù)庫中的固定內(nèi)容,因此對我們的提問經(jīng)常答非所問。事件抽取技術(shù)大大改善了這一局面,它通過分析用戶提問中的核心內(nèi)容,再抽取數(shù)據(jù)庫中的相關(guān)信息,重新組合成我們剛剛好需要的答案,顯得更為人性化。
當(dāng)然,事件抽取在商業(yè)上的應(yīng)用也非常廣泛,比如本文主要討論的新聞事件的抽取,將它應(yīng)用到商業(yè)領(lǐng)域,就可以讓廠商及時了解行業(yè)動態(tài),或者廠商產(chǎn)品在網(wǎng)絡(luò)上的反響,假設(shè)有負(fù)面影響,還可以及時危機(jī)公關(guān)以及進(jìn)行事態(tài)跟蹤等。另外事件抽取也可以應(yīng)用于股票、金融等方面的趨勢分析,掌握輿情,甚至在反詐騙等方面也可以起到很大的作用。