999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多任務學習的中文事件抽取聯合模型*

2019-05-20 06:56:26賀瑞芳段紹楊
軟件學報 2019年4期
關鍵詞:分類模型

賀瑞芳,段紹楊

1(天津大學 智能與計算學部,天津 300350)

2(天津市認知計算與應用重點實驗室,天津 300350)

人工智能的終極目標是語言理解.作為自然語言處理中信息抽取的子任務,事件抽取旨在從非結構化的文本中識別出預先定義的事件,并判斷其類型及參與者.由此產生的語義理解可應用于自動文摘[1]、個性化新聞系統[2]和金融分析[3]等.相關國際評測會議——MUC(Message Understanding Conference)會議和 ACE(Automatic Content Extraction)會議的成功舉辦推動了該領域的技術進步并促進了工業應用的拓展.本文面向ACE國際評測語料(https://catalog.ldc.upenn.edu/LDC2006T06)進行中文事件抽取的研究.

事件抽取通常被劃分為兩個子任務[4-9].即:事件觸發詞識別/分類及事件元素識別/分類.事件觸發詞識別/分類的目標是從候選文本中識別出觸發事件的核心詞(通常為動詞或者名詞)并判斷其類型和子類型;事件元素識別/分類的目標則是從已識別的事件中標注事件的參與者及屬性(包括事件發生的時間、地點和人物等信息).例1(文檔編號:CBS20001216.1000.0355)是一個標準的ACE事件標注樣例,它包含一個由觸發詞“設立”觸發的Start-Org事件,該事件涉及兩個事件元素,分別為Place事件元素(“新加坡”)和Org事件元素(“價值36億美元的精元廠”).

當前,主要存在兩種事件抽取模型:(i) 管道模型[4-9];(ii) 聯合模型[10,11].前者首先完成事件觸發詞識別/分類,然后進行事件元素識別/分類.后者同時完成事件觸發詞識別/分類及事件元素識別/分類.管道模型不僅容易產生級聯錯誤,而且處于下游的任務無法將信息反饋至上游任務,輔助上游任務的識別.例如:例1和例2(文檔編號:XIN20001207.0800.0071)都包含“設立”一詞,該詞通常作為 Start-Org事件的觸發詞.對于管道模型,由于其在事件觸發詞識別/分類階段無法獲取到事件元素的標注信息,不僅使得模型將例 1中的“設立”識別為 Start-Org事件的可信值不高,還導致模型容易將例2中的“設立”錯誤地識別為Start-Org事件.而在聯合模型中,由于讓事件觸發詞識別/分類和事件元素識別/分類同時進行.不僅能夠解決錯誤級聯問題,而且能夠有效捕捉事件觸發詞和事件元素的相互依賴關系.當聯合模型在識別候選事件觸發詞“設立”時,能夠捕捉到例1中包含Org事件元素(“價值36億美元的精元廠”)的信息(Org事件元素通常出現在Start-Org事件中).因而聯合模型具有很高的可信值,將例1中的“設立”識別為Start-Org事件;而在例2中,由于聯合模型捕捉到候選事件提及中并沒有包含任何事件元素的信息,因而聯合模型也具有很高的可信值,將例 2中的“設立”標注為非事件(這里的非事件是指不屬于ACE會議定義的33類事件).

例1:新加坡(A1)將設立(E1)價值36億美元的精元廠(A2).

例2:咨詢室將建立學生心理健康檔案,設立心理信箱,開通心理咨詢熱線.

例 3:來自印度控制的克什米爾地區的兩名武裝分子(A1),前晚(A2)對印度的著名歷史古跡德里紅堡(A3)進行了襲擊(E1),打(E2)死(E3)三人(A4).

盡管目前已有一些事件抽取聯合模型的工作[10,11],但卻很少有工作關注聯合模型帶來的事件元素的多標簽問題(當一個事件提及中包含多個事件時,同一實體往往會在不同的事件中扮演不同的角色).例如:在例 3(文檔編號:ZBN20001224.0400.0009)中共包含 3個事件:E1、E2和 E3,觸發詞分別為“襲擊”“打”和“死”.其中,E1和E2為Attack事件,E3為Die事件;共包含4個事件元素:A1、A2、A3和A4.其中,A1、A2、A4是多個事件共享的事件元素.事件元素A1在事件提及E1和E2中扮演Attacker角色,而在事件提及E3中卻扮演Agent角色.對于聯合模型,當其遇到事件元素A1時,由于事件元素A1本身具有兩個“身份”,導致聯合模型無法確定應該將其標注為哪個“身份”,給模型識別帶來干擾.同樣的情況也發生在事件元素A3和A4中,事件元素A3在事件提及E1中扮演Target角色,而在事件提及E3中卻扮演Place角色;事件元素A4在事件提及E2中扮演Target角色,而在事件提及E3中卻扮演Victim角色.表1給出了例3中所有候選事件的事件觸發詞標注及事件元素標注的結果.

Table 1 The labeling results about Example 3表1 例3的標注結果

本文通過對ACE 2005中文語料的統計發現,語料中約有36.5%的事件存在1個事件提及中包含多個事件的情況.為此,本文采用分類訓練策略(即為每類事件分別訓練一個中文事件抽取聯合模型),以解決聯合模型中事件元素的多標簽問題.經過分類訓練后,當例3出現在Attack事件對應的聯合模型中時,事件元素A1、A3和A4將被分別標注為Attacker、Target和Target角色;當例3出現在Die事件對應的聯合模型中時,事件元素A1、A3和A4將被分別標注為Agent、Place和Victim角色,從而有效地避免了事件元素的多標簽情況.

采用分類訓練策略盡管能夠解決事件元素的多標簽問題,但也帶來了嚴重的數據稀疏問題.圖 1是 ACE 2005中文語料中各類事件的分布情況.其中,Transport事件、Attack事件和Die事件的數目最多,約占事件總數的47%;而Acquit事件、Extradite事件和Execute事件的數目最少,約占事件總數的不到1%.對于事件數目較少的事件,由于訓練集所包含的信息量非常少,使得模型在事件數目較少的事件類別中無法獲取到足夠豐富的信息.因此,如何挖掘相關類別事件的關聯信息變得尤為重要.通過觀察發現,盡管不同類型的事件所包含的事件元素不盡相同,但處于同一事件大類下的事件子類(相關概念見第 2.1節),其包含的事件元素有很強的關聯性.如例4(文檔編號:XIN20001017.2000.0178)和例5(文檔編號:CTV20001123.1330.1541).

例 4:他說,以軍(A1)還無端向拉法海關出口處的巴邊防哨卡(A2)開槍,打死(E1)一名巴邊防警察(A3).

例5:另外有一名警察(A1)在交火中受傷(E1).

例4和例5分別包含了一個Die事件和一個Injure事件,觸發詞分別為“死”和“受傷”.雖然Die事件和Injure事件是兩類不同的事件,但二者同屬于 Life事件大類.在上述兩個事件提及中,事件參與者都是“警察”,并且“警察”在上述兩個事件中都作為Victim事件元素.一個直覺的想法是能否通過這種事件子類別的相互關聯關系在一定程度上彌補語料規模小的問題.為此,本文將采用多任務學習方法捕捉事件子類別之間的相互關聯關系.

Fig.1 Event distribution in ACE 2005 Chinese corpus圖1 ACE 2005中文語料中各類事件的分布

本文第 1節介紹當前中英文事件抽取方法的研究現狀,并總結前人方法所存在的問題.第 2節描述基于CRF的事件抽取聯合模型.第3節描述基于CRF的多任務學習事件抽取聯合模型.第4節給出實驗結果與討論.第5節進行總結和展望.

1 相關工作

目前,事件抽取研究大致分為 3類:(1) 面向 ACE的事件抽取[4-23];(2) 面向生物信息的事件抽取[24-26];(3)開放域事件抽取[27,28].本文工作聚焦于ACE事件抽取,因此下面將圍繞該相關工作進行總結分析.

1.1 ACE事件概述

ACE評測會議由美國國家標準技術研究所(NIST)組織,旨在開發自動信息抽取技術以支持語言文本的自動處理,迄今為止,共舉辦過8次.在ACE評測會議中,事件被分為8個大類,33個子類,具體見表2.ACE會議不僅對事件的類別進行了定義,還根據每類事件的特點定義了相應的事件元素,包括事件參與者和事件屬性.下面將介紹有關的定義及術語.

? 事件提及:包含事件的句子或者短語;

? 事件觸發詞:觸發事件的關鍵詞,通常是動詞或者名詞;

? 事件元素:參與事件的一些實體或者短語,包括事件參與者和事件屬性;

? 事件類別:事件的類別由觸發詞的類別決定;

? 事件觸發詞識別/分類:識別觸發事件的關鍵詞,并判定其所屬的類別;

? 事件元素識別/分類:識別參與事件的實體或者短語,并判斷其在事件中扮演的“角色”.

Table 2 ACE event type and subtype表2 ACE事件類型及子類型

1.2 英文事件抽取

現有的事件抽取研究大多聚焦于英文.其中,基于有監督的機器學習模型占主導地位,該類方法進一步分為基于特征(feature-based)的模型和基于表示(representation-based)的模型.

(1) 基于特征的模型:早期的事件抽取方法大多采用基于特征的模型,其采用 one-hot向量表示預處理過程中提取出的詞法、句法和語義特征,并將這些特征作為抽取事件的線索送入分類器中.根據選取特征范圍的不同又分為句子級事件抽取模型[4]和跨句子級事件抽取模型[5-8].前者無法處理句內信息不足或者句內信息缺失的情況.后者致力于捕捉句子之外的信息,通過更高層次的信息輔助句子級的事件抽取.代表工作有 Ji等人[5]的跨文檔推理方法;Liao等人[6]的跨事件推理方法;Hong等人[7]的跨實體推理方法;以及Liao等人[8]結合文檔主題特征的事件抽取模型.

(2) 基于表示的模型:近年來,大量事件抽取研究者將目光投向基于表示的模型.在基于表示的事件抽取模型中,候選事件采用詞嵌入(word embedding)表示,通過神經網絡對其降維,得到其抽象表示并最終完成事件分類.相比于基于特征的模型,(i) 其無需手工提取特征,降低了人力花銷;(ii) 詞嵌入的引入不僅有利于模型獲取語料之外的先驗信息,而且使模型具有很強的泛化能力.但是由于模型需要優化大量參數,導致其需要大量標注語料以及巨額的計算開銷.代表工作有Chen等人[12]、Nguyen等人[13]和Feng等人[14]構建的基于CNN的事件抽取模型以及Nguyen等人[11]構建的基于RNN的事件抽取模型.

1.3 中文事件抽取

當前,針對中文的事件抽取研究相對較少.大致分為語言特殊性研究和基礎模型研究.

(1) 語言特殊性研究:該類研究針對漢語語言的特點制定相應的事件抽取規則.其中,Chen等人[16]聚焦中文分詞與事件觸發詞分割的不一致性,采用全局觸發詞勘誤表和基于字的事件觸發詞識別模型解決該問題并分別探索詞法、句法和語義信息對中文事件抽取性能的影響;Li等人[17]考慮漢語中詞的語義通常由組成詞的字決定以及中文是一種篇章驅動(discourse-driven)的語言,因而其運用組合語義和篇章一致性(discourseconsistency)識別中文未登錄的事件觸發詞(僅出現在測試語料中的觸發詞).由于單純地運用組合語義會引入大量的負樣例,因而影響了模型的準確率.Li等人[18]將組合語義、形態結構和義原相結合,有效地過濾假的事件觸發詞,大幅提升了模型準確率.此外,針對中文事件觸發詞抽取中存在的事件論元語義信息難以獲取以及部分貧信息事件實例難以抽取的問題,Li等人[20]提出了基于語義的中文事件觸發詞抽取聯合模型.

(2) 基礎模型研究:該類研究聚焦于算法的選擇及建模過程的改進.Zhao等人[21]受 Ahn[4]的啟發,將事件抽取看作是一個分步進行的詞分類任務.與 Ahn不同的是,Zhao等人在模型中加入了漢語同義詞擴展,并將 Ahn的多分類模型轉化為二分類模型,有效地平衡了模型中正負樣例的比例.Fu等人[22]認為,不同的特征對模型的貢獻程度不同,提出一種特征加權方法進行特征權重的再分配.然而,上述方法構建的都是管道模型.不僅容易產生級聯錯誤,而且下游任務無法將信息反饋至上游任務,輔助上游任務的識別.因此,其后,大量研究者將工作重心轉向構建中文事件抽取聯合模型上.Li等人[19]構建了事件觸發詞識別和事件觸發詞分類聯合模型,并在預處理階段運用大量推理規則過濾假的事件觸發詞;Chen等人[23]在Li等人工作[17]的基礎上分別進行了機器學習擴展和語言學擴展,并分別構建了事件觸發詞識別和事件觸發詞分類聯合模型以及事件元素識別和事件元素分類聯合模型;Li等人[29]聚焦構建事件元素識別和事件元素分類聯合模型,并獲取句子之外的篇章級(discourse-level)信息,使得模型的事件元素識別/分類的F1值有較大幅度的提升.

1.4 多任務學習

多任務學習是同時學習多個相關任務的機器學習算法,使用共同學習(joint learning)取代原先常見的獨立學習(independent learning)[30].其不僅能利用相關任務的相互關聯性緩解語料由于規模小帶來的訓練欠擬合問題,而且還能提升模型的泛化能力.近年來,多任務學習已成為自然語言處理的一個研究熱點[31-36],如Liu等人[32]采用基于多任務學習的表示學習完成語義分類及信息檢索任務;Daumé等人[35]將多任務學習模型應用于跨領域的情感分析;Prettenhofer等人[36]通過多任務學習模型進行跨語言的文本分類等.目前在事件抽取領域只有Liu等人[15]有類似的工作.他們利用FrameNet語料輔助完成ACE事件抽取任務的前半部分(事件觸發詞識別與事件觸發詞分類),但是,由于Liu等人沒有采用機器學習算法學習兩種語料的關聯性,而是基于先驗知識人為地構建規則來捕捉二者的相互關系,因而并不算嚴格意義上的多任務學習模型.考慮對ACE語料進行分類訓練后會大幅降低訓練語料規模,并且不同類型事件之間缺乏信息交互,因此,本文工作借助Sun等人[37]基于CRF的多任務學習思想,通過多任務學習方法挖掘同一大類下不同事件子類之間的相互關聯關系.

綜上所述,盡管目前已有一些工作聚焦于構建中文事件抽取聯合模型,但本文的聯合模型與這些工作不同.多數中文事件抽取聯合抽取模型要么聚焦于構建事件觸發詞識別/分類的聯合模型,要么聚焦于構建事件元素識別/分類的聯合模型.很少有工作構建上述4個子過程的聯合模型.目前,Li等人[10]和Nguyen等人[11]構建了上述 4個子過程的聯合模型,但本文工作與他們的工作有所不同.本文聚焦于解決聯合模型帶來的事件元素多標簽問題,并在聯合模型之上構建了基于多任務學習的事件抽取聯合模型.

2 基于CRF的事件抽取聯合模型

由于管道模型不僅容易產生錯誤級聯問題,而且無法捕捉事件觸發詞識別/分類對于事件元素識別/分類的后向依賴關系,為此,本文將事件抽取任務看作是序列標注任務,并采用條件隨機場(CRF)進行建模,實現同時完成事件觸發詞識別/分類和事件元素識別/分類的目標.然而,將所有類別的事件混合進行訓練會給模型帶來事件元素多標簽問題,如例 3.為此,本文將模型按照事件的類別進行分類訓練,下面將給出本文構建的中文事件抽取聯合模型的細節.

2.1 條件隨機場模型

CRF是 Lafferty等人[38]于 2001年提出的一種判別式的概率無向圖模型.其不僅能獲取上下文信息,克服HMM 的獨立性假設,還能克服 MEMMs的標記偏置問題.其在中文分詞[39]、中文命名實體識別[40]等自然語言處理任務中都有不錯的效果.由于本文工作將 CRF用于序列標注模型,因此,后文僅介紹鏈式 CRF.假設一個特征函數將成對的觀測序列x和標注序列y映射到一個全局特征向量f中,則條件概率P(y|x)能夠形式化為公式(1)[37].

在公式(1)中,x表示輸入序列,y表示對應輸入序列x的標注序列,f(y,x)表示特征函數,wT表示特征權重.是歸一化項.假設訓練集是包含n個樣例的標注序列{(xi,yi),i=1,…,n}.在參數估計階段,模型通過最大化公式(2)來求解權重參數w.

在公式(2)中,logP(yi|xi,w)為公式(1)的對數形式;R(w)是防止過擬合的正則化項.本文采用L2正則化,即:,其中,σ為正則化參數.為了后文表示簡單,本文用l(i,w)表示logP(yi|xi,w),將公式(2)重寫為公式(3).

2.2 使用CRF構建中文事件抽取聯合模型

為了聯合事件觸發詞識別任務、事件觸發詞分類任務、事件元素識別任務和事件元素分類任務,本文首先借鑒了Chen等人[23]的思想.Chen等人將事件觸發詞識別任務和事件觸發詞分類任務合并為一個34類的多分類任務(33類事件觸發詞和1個NULL類(NULL類表示該詞既不是觸發詞也不是事件元素)),將事件元素識別任務和事件元素分類任務合并為一個36類的多分類任務(35類事件元素和1個NULL類).與Chen等人不同的是,本文將合并后的兩個子任務(34類多分類任務和 36類多分類任務)進一步合并為 69類的序列標注任務(33類事件觸發詞+35類事件元素+1個NULL類),并通過CRF模型模擬事件觸發詞標簽和事件元素標簽之間的相互依賴關系.

本文的中文事件抽取聯合模型形式化為:在給定輸入句子x={x1,x2,…,xn}的條件下,預測概率最大的標注序列y={y1,y2,…,yn}.其中,下標n表示句子長度;xi表示輸入句子的第i個詞,xi∈R,R表示中文詞表;yi表示對詞xi的標注結果,yi∈{Triggers∪Arguments∪Null}.其中,Triggers表示事件觸發詞標簽(共包含 33類標簽),Arguments表示事件元素標簽(共包含35類標簽).圖2所示為本文的中文事件抽取聯合模型輸出樣例(見例1).

Fig.2 The labeling result of Example 1圖2 例1的標注結果

2.3 事件元素多標簽問題的解決

盡管上述模型能夠讓事件觸發詞識別/分類和事件元素識別/分類同時進行,但卻無法處理同一事件元素的多標簽問題.如果在一句話中包含多個事件,那么詞xi在不同的事件中往往扮演不同的角色.圖3所示為本文的中文事件抽取聯合模型對例 3的標注結果.為了表示簡單,我們只截取其中一部分,旨在舉例說明事件元素的多標簽問題.在圖3中,由于x7在不同的事件中扮演不同的角色(Victim和Target),聯合模型將無法給x7標注相應的標簽.

Fig.3 The labeling result of Example 3圖3 例3的標注結果

為解決事件元素的多標簽問題,本文將事件進行分類訓練.即為每類事件分別訓練一個基于CRF的中文事件抽取聯合模型.經過預處理后的原始文本將被分別放入這些模型中,在特定類型的聯合標注模型中,該聯合模型僅僅標注與該類事件相對應的事件元素,因而有效地避免了事件元素的多標簽問題.圖 3所示的樣例將被分別送到33個分類器中,當圖3所示的樣例出現在Attack事件對應的分類器中時,將被標注為y′,當圖3所示的樣例出現在Die事件對應的分類器中時,將被標注為y″.具體如圖4所示.

Fig.4 The labeling result of Example 3 after classification training圖4 例3分類訓練后的標注結果

3 基于CRF的多任務事件抽取聯合模型

3.1 事件的多任務劃分

在基于CRF的事件抽取聯合模型中,采用分類訓練策略避免了事件元素的多標簽問題,但也使得模型的訓練語料規模大幅降低.因此,很難得到相對完備的訓練模型.通過觀察發現,在ACE定義的33類事件中,處于同一事件大類下的事件子類,其事件元素有著高度的相互關聯性,如例4和例5.表3將Personnel事件大類下各子類事件的事件元素進行了對比.觀察表3可以發現:盡管事件的子類別有所不同,但其事件元素角色卻極為相似.為此,本文將同一事件大類下的事件子類作為可以相互促進的多任務同時進行標注,通過多任務學習模型挖掘不同事件子類別之間的相互關聯關系,進而強化事件抽取聯合模型.本文共構建了7個基于CRF多任務學習的事件抽取聯合模型(Movement事件大類只包含1個子類,因而無法構建多任務學習模型).事件的多任務劃分如圖5所示.

Fig.5 Multi-task division of events圖5 事件的多任務劃分

Table 3 The comparison of event argument in Personnel category表3 Personnel事件大類下各子類事件的事件元素對比

3.2 基于CRF的多任務學習模型

本節將介紹我們采用的多任務學習框架[37].對于每個正整數q,我們定義Nq={1,…,q}.令T表示想要同時學習的任務數(同一事件大類下的事件子類數).對于每個任務t∈NT,存在n個數據樣例{(xt,i,yt,i):i∈Nn},其中,xt,i表示分詞后的句子及其相應的特征,yt,i表示對詞的標注.事實上,每個任務的樣例數量是不同的,但是為了表示簡單,我們將樣例數設為定值.使用D表示n×T的矩陣,其第t列是由數據樣例dt構成的.我們的目標能夠轉化為從數據D中學習特征權值矩陣W={w1,…,wT}.通過最大化目標函數(見公式(4))求解W.

其中,Likelihood(W,D)是所有任務的累計概率之和,見公式(5);R(w)為防止過擬合的正則化項,本文采用L2正則化,見公式(6).

公式(5)中l(wt,D)定義為公式(7).在公式(6)中,σt為第t個任務的正則化因子;wt為第t個任務的特征權值矩陣.

在公式(7)中,αt,t′是衡量任務t與任務t′的相關聯程度的變量.一個直觀的認識是,越是相關的任務,其權值矩陣w越相近.本文采用兩種核函數來評估任務之間的相關聯程度.包括高斯核函數(見公式(8))和多項式核函數(見公式(9));l(wt,dt′)與公式(2)類似,表示CRF概率目標函數的對數形式,見公式(10).

在公式(8)和公式(9)中,C是一個實數常數,用來控制任務之間相關聯程度的量級;公式(8)中的σ是高斯核參數;公式(9)中的d是多項式核參數.

在公式(10)中,Nn表示任務t中的n個訓練樣例,為了表示簡單,我們定義.最終,本文的多任務學習目標函數如公式(11)所示.

為了描述簡單,我們引入一個T×T的矩陣A.其中,本文采用一種啟發式的算法求解任務之間的相關性矩陣A,并采用交替式的方法優化模型的特征權值W(如下面的算法所示).首先初始化權值矩陣W(初始化為零矩陣)和相關性矩陣A(初始化為單位矩陣,表示任務只與自身存在相互關聯關系).接著,通過公式(11)求解各個任務的模型特征權值向量wt,然后根據求解出的wt運用公式(8)兩兩進行αt,t′的計算(即:更新相關程度矩陣A).循環交替更新直至模型收斂并最終得到相關性矩陣A和特征權值矩陣W.

算法.基于CRF的多任務學習算法.

4 實驗結果及分析

4.1 數據與評價指標

本文采用ACE 2005中文語料進行實驗,該語料共包含633個文檔,內容涉及新聞、廣播、博客、論壇和電話錄音等.我們采用如下評測標準.即:

事件觸發詞識別/分類:一個事件觸發詞被正確識別當且僅當該事件觸發詞在文本的位置和類型與標準標注文檔中的候選事件觸發詞的位置和類型完全匹配.

事件元素識別/分類:一個事件元素被正確識別當且僅當該事件元素在文本的位置和類型與標準標注文檔中的候選事件元素的位置和類型完全匹配.

與大多數事件抽取研究的評價方法一致,我們采用準確率(P)、召回率(R)以及F1值對實驗結果進行評價.見公式(12)~公式(14).

4.2 實驗設計

本文采用哈爾濱工業大學 LTP平臺(http://www.ltp-cloud.com/)進行實驗預處理,包括分詞、詞性標注、命名實體識別和句法分析.與前人工作一致,本文也將ACE 2005中文語料提供的實體、值和時間信息當作已知信息使用.為使實驗結果更具可比性,我們采用與基線方法[17-19]一致的語料劃分方法.即:隨機選取567篇文檔作為訓練集,66篇文檔作為測試集.此外,從訓練集中隨機選取33篇文檔作為開發集.為了驗證本文基于多任務學習的中文事件抽取聯合模型(MTL-CRF)的有效性,將從如下3個方面進行論證.

1) 對基于CRF的事件抽取聯合模型,分類訓練能否改善混合訓練的事件元素多標簽沖突問題?

2) 聯合模型能否提升分步模型的性能?

3) 引入多任務學習之后,聯合模型的性能能否進一步提升?

為了驗證問題1),我們設計了兩個系統:基于混合訓練的事件抽取聯合模型(MIX-CRF)(MIX-CRF、CLASSCRF以及 MTL-CRF均為本文根據模型的特點所起的名字)和基于分類訓練的事件抽取聯合模型(CLASSCRF),實驗結果見第4.3.2節中的表6;為了驗證問題2),我們將模型CLASS-CRF與目前性能最優的中文事件抽取分步模型(見表4)進行對比,實驗結果見第4.3.3節中的表7.為了驗證問題3),本文將CLASS-CRF模型與基于多任務學習的中文事件抽取聯合模型(MTL-CRF)進行對比,實驗結果見第 4.3.3節.另外,由于在條件隨機場中,不同的特征模板會對實驗結果產生較大影響,為了充分挖掘對事件抽取有用的特征,本文設計了 3種不同的特征模板,分別為Tempalte 1、Template 2、Tempalte 3,并在接下來的所有實驗中選取性能最優的特征模板進行實驗.3種特征模板的實驗結果見第4.3.1節中的表5,所選取的具體特征如下.

· Template 1

詞匯信息(6):當前詞本身;當前詞的詞性;當前詞的命名實體標簽;前一詞本身;前一詞詞性;前一詞的命名實體標簽.

句法信息(2):當前詞在句法分析樹中的位置;前一詞在句法分析樹中的位置.

最近實體信息(2):當前詞的實體類型/子類型;前一詞的實體類型/子類型.

· Tempalte 2

詞匯信息(9):當前詞本身;當前詞的詞性;當前詞的命名實體標簽;前一詞本身;前一詞詞性;前一詞的命名實體標簽;后一詞本身;后一詞詞性;后一詞的命名實體標簽.

句法信息(3):當前詞在句法分析樹中的位置;前一詞在句法分析樹中的位置;后一詞在句法分析樹中的位置.

最近實體信息(3):當前詞的實體類型/子類型;前一詞的實體類型/子類型;后一詞的實體類型/子類型.

· Tempalte 3

詞匯信息(15):當前詞本身;當前詞的詞性;當前詞的命名實體標簽;前兩詞本身;前兩詞詞性;前兩詞的命名實體標簽;后兩詞本身;后兩詞詞性;后兩詞的命名實體標簽.

句法信息(5):當前詞在句法分析樹中的位置;前兩詞在句法分析樹中的位置;后兩詞在句法分析樹中的位置.

最近實體信息(5):當前詞的實體類型/子類型;前兩詞的實體類型/子類型;后兩詞的實體類型/子類型.

Table 4 Comparison algorithms for Chinese event extraction表4 中文事件抽取對比算法

為了驗證核函數對任務相關度的影響,本文還分析了不同核函數(見公式(8)和公式(9))對MTL-CRF實驗性能的影響,見第4.4.1節.并且給出了任務相關系數C值(公式(8)和公式(9))的討論,見第4.4.2節.

4.3 實驗結果

4.3.1 不同CRF特征模板的性能比較

表 5是本文 CLASS-CRF事件抽取聯合模型在選取不同特征模板時的實驗結果.從表 5中能夠發現:當CLASS-CRF選取 Template 2作為特征模板時實驗性能最優.其事件觸發詞分類結果的F1值達到 68%,比Template 1高 1.2%,比 Template 3高 3.2%;事件元素分類結果的F1值達到 51.8%,比 Template 1高 2.8%,比Template 3高0.7%.分析造成該情況的原因如下:(1) Template 2比Template 1增加了后一詞的詞匯信息、句法信息以及最近實體信息,模型因為增加了適當的下文信息而使得性能提升;(2) 與Template 2相比,Template 3雖然將前后詞的依賴長度擴展為兩個詞,但造成了語料稀疏,反而有損模型性能.

Table 5 Performance comparison of different CLASS-CRF feature templates表5 CLASS-CRF模型在不同特征模板下的實驗性能對比

4.3.2 事件元素的多標簽情況對事件抽取性能的影響

為了解決事件元素的多標簽問題,我們提出將基于 CRF的事件抽取模型進行分類訓練(CLASS-CRF).MIX-CRF則將所有事件合在一起,訓練一個統一的基于CRF的事件抽取聯合模型.相比于MIX-CRF,CLASS-CRF事件觸發詞分類結果的F1值提升了14.1個百分點,事件元素分類結果的F1值提升了6.8個百分點.這說明在聯合模型中,事件元素的多標簽情況不容忽視.本文分析 CLASS-CRF性能顯著提升的原因有兩點:(1) 一個事件提及中包含多個事件的情況約占總事件數目的 36.5%,分類訓練將有助于這些事件標注樣例的性能提升. (2)由于在MIX-CRF中,事件元素多標簽沖突的樣例將被視為噪聲,會給一個事件提及中只包含一個事件的情況造成影響.

Table 6 Comparison of experimental performance of mixed CRF and classified CRF表6 混合CRF和分類CRF的實驗性能對比

4.3.3 本文方法與基線方法的對比

通過觀察表 7可以發現:本文的 CLASS-CRF模型的事件觸發詞分類結果的F1值優于 ECS+DC模型(高1.1%),劣于EMS+S模型(低0.2%)和ILP+MEMM+CRF模型(低2.2%);事件元素分類結果的F1值優于ECS+DC模型(高1%),劣于EMS+S模型(低0.2%)和ILP+MEMM+CRF模型(低2.1%).達到了與基線方法可比較的水平.此外,本文的MTL-CRF模型的事件觸發詞分類結果的F1值優于ECS+DC模型(高2%)、EMS+S模型(高0.7%)和CLASS-CRF模型(高0.9%),低于ILP+MEMM+CRF模型(低1.3%);事件元素分類結果的F1值優于ECS+DC模型(高2.3%)、EMS+S模型(高1.1%)和CLASS-CRF模型(高1.3%),略低于ILP+MEMM+CRF模型(低0.8%).

Table 7 Comparison of single-task model,multi-task model and baseline method表7 單任務模型和多任務模型與基線方法的實驗對比

本文聯合模型(CLASS-CRF和 MTL-CRF)相比于基線方法擁有更高的準確率,但召回率卻低于基線方法,接下來將從兩方面對實驗結果進行深入分析.

(1) 準確率方面:本文的 CLASS-CRF模型及 MTL-CRF模型在事件觸發詞分類和事件元素分類的準確率上都顯著優于基線方法.這得益于如下幾點:(a) 漢語是篇章驅動(discourse-driven)的語言[17],不同的詞在不同的上下文中往往具有不同的含義,很多假的事件觸發詞很難通過詞性過濾或者形態結構過濾方法消除.(b) 事件抽取聯合模型使事件觸發詞識別/分類和事件元素識別/分類同時進行,模型在進行事件觸發詞分類的過程中也能獲取事件元素的分類信息,該信息將輔助完成事件觸發詞識別/分類.(c) 事件觸發詞分類的正收益也會通過聯合模型傳遞到事件元素分類過程中,當模型的事件觸發詞分類的準確率提高了,也就代表著模型檢測事件的準確率提高了,相應的事件元素分類的準確率也會隨之提高.此外,MTL-CRF模型相比于CLASS-CRF,其準確率也有一定的提升,這也說明相關子類別事件確實可以起到相互增強的效果.

(2) 召回率方面:本文的 CLASS-CRF模型及 MTL-CRF模型在事件觸發詞分類和事件元素分類的召回率上都低于基線方法.主要有如下原因:(a) 由于聯合模型構建了事件觸發詞識別/分類對于事件元素識別/分類的后向依賴關系,使得模型判定事件的“門檻”更高,很多正例事件由于沒有事件元素或者部分事件元素缺失,使得模型很難將其判定為正例事件.同樣,這種負收益也會通過聯合模型構建的相互依賴關系傳遞到事件元素識別/分類中.(b) 另一方面,由于本文沒有采用基線方法所使用的組合語義方法識別未登錄的事件觸發詞,導致模型召回率不高.例如“中彈(injure)”“草菅人命(die)”“引火自焚(attack)”等詞無法被本文模型識別為事件觸發詞.(c) 分詞錯誤也是影響本文模型性能的很重要的因素,很多事件觸發詞和事件元素由于分詞錯誤,導致模型無法準確識別其類別.例如:在測試語料中,“爆炸案”一詞很難被準確地識別為 Attack事件,原因就是分詞工具將“爆炸”和“案”分在一起,而在標注文檔中“爆炸”才是觸發詞.

(3) 相比于文獻[19],本文在事件觸發詞分類和事件元素分類的F1值上都處于劣勢.本文分析造成該情況的原因有如下兩點:(a) 單字的事件觸發詞存在很強的歧義性,諸如“投”“中”“做”等.文獻[19]采用基于依存句法分析的推理規則進行單字觸發詞的特殊處理.本文由于沒有對單字觸發詞進行特殊處理,導致對單字觸發詞的識別效果并不好,經統計,單字觸發詞的識別錯誤率高達42.2%.(b) ACE 2005中文語料中存在一些標注不合理的情況.文獻[19]通過構建一些規則將其過濾,而在本文模型中,這些樣例被視為模型的噪聲,因而有損模型的性能.諸如下面兩個樣例:(A) 主要軍港設立了18個環境檢測站.(B) 廣州等地設立了代表處.上述(A)、(B)兩句中的“設立”表達涵義基本一致,但標注語料中僅將(A)句中“設立”標注為事件觸發詞,(B)句中未被標出.經本文統計,在測試集中共包含11個“設立”的正例事件,只有1個事件被本文模型準確識別為Start-Org事件.

4.3.4 CLASS-CRF模型與MTL-CRF模型在各事件大類下的性能對比

觀察圖6可以發現:MTL-CRF模型相比于CLASS-CRF模型,總體性能有所提升.其事件觸發詞分類結果的F1值在Transaction事件大類下提升約20%,在Business事件大類下提升約3%,在Personnel事件大類下提升約4%.事件元素分類結果的F1值在Life事件大類下提升約6%,在Transaction事件大類下提升約10%,在Business事件大類下提升約1%,在Personnel事件大類下提升約5%.對于性能沒有提升的事件大類,本文分析造成該情況的原因主要有如下幾點:(a) 標注的事件數目過于稀少,事件子類別之間幾乎沒有什么可以相互增強的信息(如:Justice事件大類).(b) 事件元素的標簽本身就不太相關聯(如 Conflict事件大類).(c) 選取的測試樣本數太少,沒有顯現出MTL-CRF的性能優勢(如Contact事件大類).

Fig.6 Comparison on performances of single-task and multi-task圖6 單任務模型和多任務模型的性能對比

此外,對于性能提升的事件大類,本文分析原因如下:單任務事件抽取聯合模型(CLASS-CRF)由于將語料進行分類訓練,導致訓練語料規模大幅縮小,使得最終模型包含的信息有限,極大地影響了模型的召回率、加入多任務學習模型后,由于相關任務共享模型所學信息,使得模型所包含的信息有所增長,能夠有效地緩解語料稀疏問題并最終提升事件抽取模型的召回率.例如,測試樣例“在警方驅散示威人群的過程中,至少有5個人受傷.”在CLASS-CRF模型中沒有準確地將“警方”識別為Agent事件元素,而在MTL-CRF中則準確地將“警方”識別為Agent事件元素.本文通過觀察語料發現,由于“警方”一詞在Injure事件的訓練語料中沒有作為Agent事件元素出現的情況,因此,CLASS-CRF模型無法在測試過程中將“警方”標注為Agent事件元素.而“警方”一詞在Die事件的訓練語料中作為Agent事件元素卻出現了很多次,因此,MTL-CRF模型通過信息共享機制,能夠準確地將上述樣例中的“警方”標注為Agent事件元素.

4.4 參數調整

4.4.1 關于核函數的討論

在引入多任務學習增強相關子事件識別的過程中,本文分別采用高斯核函數以及多項式核函數來評估任務之間的相關程度(見公式(8)和公式(9)).圖 7所示為兩種核函數分別在事件觸發詞識別和事件元素識別上的性能對比.整體上看,兩種核函數對實驗結果的影響并不明顯,但是高斯核函數能夠取得相對更優的實驗結果.(a) 對于事件觸發詞分類,多項式核函數僅在 Justice事件大類下的實驗性能優于高斯核函數(高 1%左右);而在Life事件大類、Conflict事件大類都劣于高斯核函數(分別低2%左右和3%左右).(b) 對于事件元素分類,高斯核函數僅在Justice類上實驗性能略低于多項式核函數(低0.2%左右),而在Life事件大類、Business事件大類、Conflict事件大類和Personnel事件大類都優于多項式核函數(分別高3%左右、1.5%左右、1%左右、0.3%左右).因此,本文采用高斯核函數作為事件子類別相關程度的度量.

Fig.7 Discussion on kernel function圖7 核函數對系統性能的影響

4.4.2 關于任務相關系數C值的討論

本小節將討論在不同的事件大類下,當選擇高斯核函數來度量任務之間的相關性時,任務相關系數C(公式(8)中的C值)的選擇對實驗結果的影響.觀察圖8可以發現:當C值取1~20時,MTL-CRF模型的F1值隨著C值的增大而增大,當C值超過20時,性能反而出現一定程度的下滑.本文分析造成該情況有如下原因:(1) 當C值取值為1時,公式(8)中的αt,t′取值為[0,1],此時的實驗效果并不好,說明該區間范圍并不能很好地模擬同一事件大類下事件子類之間的相互關系.(2) 隨著C值的增大,實驗性能也隨之提升,并且在C=20時性能達到最優,此時,αt,t′取值范圍為[0,0.05],說明該區間范圍能夠模擬事件子類之間的相互關系.(3) 當C值繼續增大時,由于αt,t′的取值范圍進一步縮小,導致任務子類之間的相關性減弱,因此模型性能越來越趨向于單任務模型的性能.

Fig.8 Discussion on correlation coefficientC圖8 相關系數C對系統性能的影響

5 總結與展望

本文面向中文事件抽取提出采用基于CRF多任務學習的聯合標注模型.通過總結前人方法存在的問題,從如下3個方面進行事件抽取模型的改進.(1) 為了解決管道事件抽取模型所帶來的錯誤級聯問題,以及事件觸發詞分類過程與事件元素分類過程缺乏交互的問題,本文將事件抽取看作是序列標注任務,對事件觸發詞和事件元素進行聯合標注.(2) 為了解決聯合標注模型帶來的事件元素多標簽問題,我們為每類事件分別訓練一個基于 CRF的事件抽取聯合模型.(3) 為了解決分類訓練后語料規模小和數據稀疏問題,提出采用多任務學習方法增強基于CRF的中文事件抽取聯合模型,通過共享相關事件所學到的信息,有效緩解數據規模小和數據不平衡的問題.在ACE 2005中文語料上的實驗結果表明了本文方法的有效性.

通過實驗發現:在ACE 2005中文語料中存在很多事件類,其正樣例數只有個位數的情況.諸如:Acquit類事件、Pardon類事件和Execute類事件等.對于這些事件,即使改進模型也很難取得令人滿意的實驗結果.因此,接下來的工作中,本文將聚焦獲取 ACE 2005中文語料之外的信息或者事件抽取任務之外的信息.通過構建多任務學習模型,將其他與事件抽取相關的任務通過信息遷移的方式加入到ACE事件抽取任務中,以進一步改善事件抽取的性能.此外,盡管分類訓練策略能夠有效解決事件元素的多標簽問題,但并不能完全杜絕該情況的發生,經過本文對 ACE 2005中文語料進行統計,同一事件大類下的事件元素依然存在多標簽的情況,占比約為5.4%,同一事件子類下的事件元素也存在多標簽的情況,占比約為 4.2%.如何完全消除事件元素的多標簽情況也將成為本文接下來的研究重心.

致謝衷心感謝審稿專家的悉心指導及本刊編輯的辛勤工作.

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 欧美综合激情| 久久精品电影| 自拍偷拍欧美日韩| 日韩激情成人| 欧美色伊人| www.亚洲一区| 欧美天堂在线| 午夜啪啪网| 99在线观看精品视频| yjizz国产在线视频网| 强乱中文字幕在线播放不卡| 人妻夜夜爽天天爽| 亚洲精品波多野结衣| 丁香五月婷婷激情基地| 区国产精品搜索视频| 尤物亚洲最大AV无码网站| 欧美日本一区二区三区免费| 国产激情无码一区二区三区免费| 国产精品成人啪精品视频| 东京热一区二区三区无码视频| 欧美在线一二区| 国产综合精品一区二区| 国模沟沟一区二区三区| 亚洲成a人片在线观看88| 国产精品白浆无码流出在线看| 天天操精品| 日韩一区精品视频一区二区| 国产精品所毛片视频| 亚洲日本在线免费观看| 国产99精品视频| 91视频区| 国产无码精品在线播放| 国产日本欧美亚洲精品视| 中文字幕日韩视频欧美一区| 久久综合干| 久久成人18免费| 中国成人在线视频| 97综合久久| 国产高清毛片| 免费国产好深啊好涨好硬视频| 老司机精品一区在线视频| 欧美日韩在线亚洲国产人| 国产区在线看| 最新国产你懂的在线网址| 亚洲欧美在线精品一区二区| 亚洲人成网18禁| 全免费a级毛片免费看不卡| 日韩天堂在线观看| 国产九九精品视频| 亚洲AV无码一区二区三区牲色| jizz在线免费播放| 呦女精品网站| 天堂网国产| 欧美成人第一页| 久久99精品久久久大学生| 日韩无码视频播放| 91毛片网| 日韩欧美中文字幕在线精品| 精品福利国产| 丁香婷婷综合激情| 色欲国产一区二区日韩欧美| 性色在线视频精品| 女人一级毛片| 国产精品太粉嫩高中在线观看| 香蕉伊思人视频| 91福利一区二区三区| 伊人久热这里只有精品视频99| 国产成人1024精品| 99精品在线视频观看| 日韩欧美综合在线制服| 亚洲中文无码h在线观看| 亚洲成人在线免费| 黄色网页在线播放| 国产成人一区| 国产在线日本| 2024av在线无码中文最新| 欧美激情福利| 狠狠v日韩v欧美v| 亚洲午夜18| 超碰精品无码一区二区| 波多野结衣无码AV在线| 成人久久精品一区二区三区|