葛唯益,程思偉,王 羽,徐 建*
(1. 中國電子科技集團公司第二十八研究所信息系統(tǒng)工程重點實驗室 南京 210007;2. 南京理工大學(xué)計算機科學(xué)與工程學(xué)院 南京 210094)
文本事件抽取旨在從句子或文檔中識別發(fā)生的事件,以結(jié)構(gòu)化的方式描述事件的觸發(fā)詞、事件類型、事件論元及其角色,通常是信息檢索中的重要前置任務(wù)之一,在諸多領(lǐng)域有著廣泛應(yīng)用。如在政府公共事務(wù)管理領(lǐng)域,及時捕獲社會事件的爆發(fā)和掌握演變動態(tài)將有助于快速應(yīng)急響應(yīng)和事件處置,維護社會安定。因此,面向以自然語言形式存在的文本數(shù)據(jù),研究滿足應(yīng)用場景需要的事件抽取方法成為當(dāng)前熱點研究課題之一。
盡管已經(jīng)開展了相關(guān)的研究工作,事件抽取仍然是一項頗具挑戰(zhàn)性的任務(wù),主要原因有以下幾個方面。首先,自然語言形式表達的文本信息通常具有語義歧義和多樣化的話語風(fēng)格,增加了處理難度。其次,事件抽取還依賴于自然語言處理(natural language processing, NLP)中若干子任務(wù)的性能,如命名實體識別、詞性標(biāo)記和語法解析等。為了應(yīng)對上述挑戰(zhàn),文獻[1-5]提出了基于模式匹配的事件抽取方法。該方法先構(gòu)造一些特定的事件模板,然后執(zhí)行模板匹配從文本中提取帶有參數(shù)的事件。代表性的工作有AutoSlog[1]、GenPAM[3]、BEECON[4]和PALKA[5]。雖然由具有專業(yè)知識的專家手動構(gòu)建事件模式質(zhì)量非常高,且針對特定領(lǐng)域通常可以實現(xiàn)較高的抽取精度,但是手動構(gòu)建耗時費力,且無法遷移應(yīng)用到其他領(lǐng)域中。隨著機器學(xué)習(xí)方法在事件抽取方面的廣泛應(yīng)用,研究人員又提出了基于機器學(xué)習(xí)的事件抽取方法克服人工構(gòu)建模板的局限性。該方法的基本思路是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)分類器,并將分類器應(yīng)用于從新文本中提取事件。由于事件抽取可以進一步分為觸發(fā)詞抽取和論元抽取兩個子任務(wù),根據(jù)兩個子任務(wù)的完成時間順序,可以劃分為基于流水線式的事件抽取模型[6-10]和聯(lián)合抽取模型[11-15]。前者將觸發(fā)詞抽取和論元抽取任務(wù)以串行的方式進行,且針對任務(wù)特點采用不同的分類器,更注重結(jié)構(gòu)性,針對性模型能夠收獲更好的效果;而后者同時完成觸發(fā)詞抽取和論元抽取任務(wù),考慮兩個任務(wù)之間的信息交互,注重任務(wù)的整體性。最近,神經(jīng)網(wǎng)絡(luò)在NLP 任務(wù)中不斷取得突破,基于深度神經(jīng)網(wǎng)絡(luò)的事件抽取方法[16-23]研究得到了很多關(guān)注,尋找抽取效果更佳的深度學(xué)習(xí)模型成為主要難點問題。代表性的工作有:基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)的事件抽取方法DMCNN[17],基于遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks, RNN)的事件抽取方法JRNN[19]和dbRNN[22],基于圖卷積神經(jīng)網(wǎng)絡(luò)的事件抽取方法JMEE[23]。基于CNN 的事件抽取方法的缺點是無法很好地捕捉到距離較遠(yuǎn)的單詞之間的相互關(guān)系,因為CNN 是將單詞嵌入級聯(lián)作為輸入的。RNN 刻畫可以利用直接或者間接連接的兩個任意的詞之間的潛在依賴關(guān)系,但也存在長距離遺忘的問題。此外,現(xiàn)有的基于深度神經(jīng)網(wǎng)絡(luò)的事件抽取方法大多忽略觸發(fā)詞與觸發(fā)詞之間的關(guān)聯(lián),在多事件句上的效果不佳。
針對上述問題,本文提出一種基于雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(bidirectional gated recurrent neural network, Bi-GRU)和多注意力機制的事件論元抽取模型,該模型在輸入層結(jié)合深度上下文詞向量和基礎(chǔ)特征編碼句子,經(jīng)過Bi-GRU 層特征提取后,輸入改進的多注意力機制層,從3 個方向計算注意力權(quán)重,編碼語義結(jié)構(gòu)之間的相似度,最后進行分類,完成事件論元抽取任務(wù)。
為了提高論元抽取精度,本文提出了基于Bi-GRU 和多注意力機制的事件論元抽取模型,命名為Bi-GRU-MATT,其框架如圖1 所示。該模型由特征編碼層、Bi-GRU 層、多注意力機制層和全連接層組成。每一層的輸入輸出和作用如下。

圖1 基于雙向門控循環(huán)單元和多注意力機制的事件論元抽取模型
1)特征編碼層結(jié)合經(jīng)過預(yù)訓(xùn)練的深度語言模型編碼的單詞復(fù)雜特征、觸發(fā)詞類型特征、位置特征和詞性特征,將每個單詞token 編碼為定長的具有原始句子語義和上下文信息的向量;
2)將編碼層得到的實值向量輸入Bi-GRU 進行進一步編碼,GRU 相較于長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)計算效率較高,且模型簡單,適合于構(gòu)建較大的模型。通過Bi-GRU 進一步捕捉長距離依賴后,輸出完整的融合深層語義信息的句子表示。
3)考慮到同一個單詞在不同觸發(fā)詞表示的事件下可能扮演不同的事件論元角色,將Bi-GRU 編碼得到的深層語義信息向量通過改進的注意力神經(jīng)網(wǎng)絡(luò)明確編碼為句子的表示向量,提取深層的語義信息,輸出最終編碼向量。
4)將之前編碼得到的深層語義向量和事件向量結(jié)合輸入全連接網(wǎng)絡(luò),結(jié)合Softmax 對句子中的單詞token 進行分類,分類器的輸出計為每個論元角色計算置信度得分。
為了編碼深層的上下文信息,在特征編碼層考慮4 個方面的特征對詞進行編碼,分別是詞向量、詞性標(biāo)注(part-of-speech tagging, POS)、詞位置特征和觸發(fā)詞類型特征。具體地,選用當(dāng)前先進的預(yù)訓(xùn)練語言模型(bidirectional encoder representation from transformers, BERT)來代替?zhèn)鹘y(tǒng)的預(yù)訓(xùn)練詞向量。句子通過BERT 編碼得到的動態(tài)詞向量表示為eB,i,其中i表 示句子在第i個位置的單詞。考慮到確定論元角色的詞性是非常重要的一部分,如“Attack”觸發(fā)的事件承受者通常是名詞,因此將詞性特征加入編碼,用one-hot 向量表示為wp,i,詞性特征的標(biāo)簽共有46 類(含標(biāo)點符號和“

式中,Mp,Mt和Mr表 示映射矩陣。映射得到ep,i,et,i,er,i后,特征編碼層將eB,i和映射得到的3 個特征級聯(lián),用矩陣Mf映射成維度為d的單詞嵌入ei:

式中,ei為第i個 句子的向量表示;Mf為映射矩陣。
得到句子中的每個單詞xi編碼為實值向量ei后,輸入的句子W被轉(zhuǎn)換為向量序列E,可表示為E=(e1,e2,···,en) 。設(shè)詞嵌入的維度為dw,觸發(fā)詞嵌入的維度為dt,位置嵌入的維度為ds,詞性嵌入的維度為dp,級聯(lián)之后,ei的 維度di可表示為:

級聯(lián)起來的包含豐富語義的特征向量作為Bi-GRU 層的輸入,為n×di維的矩陣,n為句子中的單詞個數(shù)。將編碼好的特征向量輸入后面Bi-GRUMATT 的其他層進行進一步的分類任務(wù)。
得到特征編碼層輸出的句子表示向量序列W后,將向量序列輸入一個Bi-GRU,通過RNN編碼來進一步捕獲長距離的依賴關(guān)系和上下文信息。選用Bi-GRU 作為RNN 編碼層的原因在于與具有相同功效的LSTM 相比,GRU 計算更容易,具有更高的模型訓(xùn)練效率,能捕獲原始輸入中包含的長距離依賴信息。
在模型Bi-GRU-MATT 中,模型中采用的更新門狀態(tài)和重置門狀態(tài)分別為:

式中,σ 是sigmoid 函數(shù),負(fù)責(zé)轉(zhuǎn)換門控信號;Wz、Wr、Uz、Ur、bz、br都是模型自主學(xué)習(xí)的參數(shù);hi?1是第i?1步 的輸出向量;zi是 更新門得到的向量;ri是重置門得到的向量。門控信號計算出來后,先用重置門來重置ht?1,重置后的ht?1記 為,再將其與輸入xt拼接后通過 tanh 激活函數(shù)縮放數(shù)據(jù)到[?1,1]內(nèi),如式(8)和式(9)所示:

模型中該步驟可以表示為:

最后在更新階段更新記憶,使用之前得到的zt,可同時進行遺忘和選擇步驟,得到第i步的輸出hi:

考慮到部分依賴與過去的狀態(tài)和未來的狀態(tài)有關(guān),模型在Bi-GRU 層從正向和反向兩個方向使用門控循環(huán)單元編碼,捕捉豐富的長距離依賴,通過Bi-GRU 將句子的表示E從兩個方向編碼為:

經(jīng)過雙向編碼之后,第t個單詞的編碼為,即將雙向門控循環(huán)單元的兩個方向的編碼拼接起來得到編碼向量序列E=(e1,e2,···,en),這在特征編碼層初始特征的基礎(chǔ)上融合了更為豐富的長距離依賴信息的句子向量表示。
多注意力機制層為Bi-GRU-MATT 模型的核心層。事件抽取的難點之一是句子中的某個事件論元可能在兩個不同的觸發(fā)詞觸發(fā)的事件中承擔(dān)著不同的論元角色。因此,句子的特征與事件觸發(fā)詞、事件候選論元高度相關(guān),在計算句子的特征表示時,這些信息十分重要。所以,在Bi-GRU-MATT 模型中,使用融合注意力機制的神經(jīng)網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),進行句子級別特征提取。
注意力機制通常用于將向量序列編碼為固定長度的句子表示形式。鑒于同一個句子中可能包含多個事件并且同一個參數(shù)可能表示的論元不同,本文采用了一種改進的注意力機制,將變化的觸發(fā)詞明確地編碼為句子表示向量,稱之為多注意力機制。
句子W=(w1,w2,···,wn)經(jīng)過特征編碼層和Bi-GRU 層編碼之后的輸出為向量序列E=(e1,e2,···,en),句子中第i個 單詞wi對 應(yīng)的向量編碼為e1,通過向量序列E=(e1,e2,···,en)可 以生成事件向量qevent。事件向量代表的是詞匯級別的特征表示,考慮到事件向量包含更為豐富的上下文信息,有助于分類準(zhǔn)確度的提高,本模型的多注意力機制層的事件向量采用候選觸發(fā)詞和候選事件論元參數(shù)的特征編碼,以及它們的上一個詞和下一個詞的特征編碼拼接生成的事件向量,如式(14)所示:

式中,it表 示候選觸發(fā)詞的位置;ic表示候選事件論元的位置。相較于單純使用候選詞(候選事件觸發(fā)詞和候選事件論元參數(shù)),拼接生成的事件向量包含了候選詞的鄰近上下文信息,能得到更好的分類效果。
事件向量是詞匯級別的特征編碼,還需要句子級別的特征向量來完成分類任務(wù)。在Bi-GRUMATT 模型中采用改進的多注意力機制來得到句子表示ssen。根據(jù)候選觸發(fā)詞和候選事件論元,每個句子可以分割為3 部分,分別與事件向量qevent進行注意力運算,得到句子表示ssen。由于候選觸發(fā)詞和候選事件論元的位置it和ic前后順序在不同句子中可能有區(qū)別,不失一般性,假設(shè)it 式中,a tt(E,a,b)是注意力權(quán)重計算函數(shù),表示對句子中所有單詞向量做加權(quán)的線性組合: 式中,αi是注意力權(quán)重,每個單詞的注意力權(quán)重為: 式中,oi為Attention 計算的注意力權(quán)重: 式中,a(x,y)表示注意力權(quán)重函數(shù),是注意力機制的核心,在注意力機制中用于對Query 和key計算注意力權(quán)重,在本模型事件論元抽取任務(wù)中用于對事件向量qevent和句子W位置i處的單詞的匹配程度進行評分,計算注意力權(quán)重。注意力權(quán)重函數(shù)沒有固定的形式,只需要對兩個輸入向量得到一個相似度分?jǐn)?shù)即可。這里使用非線性標(biāo)度乘積函數(shù),如式(19)所示,它考慮了隱藏層的維度和非線性,使得該函數(shù)更具有表達性: 式中,W1和W2代表權(quán)重矩陣;f表示非線性函數(shù),這里選用 ReLU函數(shù)。經(jīng)過多注意力機制層編碼后,得到了事件向量qevent和M-ATT 編碼的句子表示向量ssen,分別代表了詞匯級別的特征和句子級別的特征,共同輸入全連接層完成分類任務(wù)。 在多注意力層之后,接上一層全連接層完成最后的分類任務(wù)。全連接層的輸入k是由事件向量qevent和學(xué)習(xí)到的M-ATT 編碼的句子表示向量ssen級聯(lián)起來得到的,表示為: 式中,全連接層輸入k的維度是9de,k∈R9de,de是輸入句子W中每個單詞經(jīng)過特征編碼層和Bi-GRU層編碼后的輸出向量的維度。將k輸入全連接層來抽取事件論元的參數(shù)標(biāo)簽: 式中,softmax表示的是softmax函數(shù);y∈Rm;Wt∈Rm×9de;bt∈Rm;m指待抽取的事件論元角色數(shù)量,包括非事件論元“NONE”;Wt和bt是模型待學(xué)習(xí)的參數(shù);y是模型的輸出,為每一個事件論元角色提供了置信度得分,并且使用softmax 歸一化。 式中,θ表示整個模型的參數(shù)集合;N為輸入的句子總數(shù);n為事件論元類型的標(biāo)簽數(shù)量,包括NONE 類型的標(biāo)簽;是一個二值的指標(biāo),當(dāng)yi代表真正的事件論元角色時,它的值為1,其他情況下為0;是模型預(yù)測輸入實例p屬于事件論元類別i的概率。 在事件抽取基準(zhǔn)數(shù)據(jù)集ACE2005 開展實驗。該數(shù)據(jù)集中定義了35 個事件論元類型,加上NONE類型,共36 個類型。為了與已有研究工作進行比較,使用與它們相同的數(shù)據(jù)分割方案,即40 個新聞類的文章(共有881 個句子)作為測試集,30 個其他類型的文本(共有1087 個句子)作為驗證集,剩下的529 個文本(共有21090 個句子)用作訓(xùn)練集。 基于pytorch 框架實現(xiàn)模型,使用standford CoreNLP 工具包和自然語言處理庫torchtext 來進行數(shù)據(jù)預(yù)處理,將句子分詞并獲得句子中每個單詞wi的詞性標(biāo)注。使用Google 官方的預(yù)訓(xùn)練模型BERT-Base 獲取特征編碼層上下文相關(guān)的詞向量表示,該預(yù)訓(xùn)練模型包含12 層transformer,隱藏層維度768 維,參數(shù)量1.1 億個。對于編碼層的詞性POS 特征、觸發(fā)詞類型特征以及位置特征,維度均為50,最大句子長度設(shè)置為50,比50 短的句子用padding 操作補上,比50 長的句子則進行截斷操作。Bi-GRU 隱藏層維度為200,dropout 設(shè)為0.5,且batch 的大小為64。和大部分模型相同,模型中使用ReLU 作為非線性激活函數(shù)。同時使用mini-batch 小批量隨機梯度下降和AdaDelta 更新規(guī)則,應(yīng)用反向傳播來計算梯度。模型訓(xùn)練20 個epoch。Bi-GRU-MATT 模型采用正交矩陣和高斯分布來分別初始化參數(shù)矩陣和其他參數(shù)。 為了評估Bi-GRU-MATT 模型在事件論元抽取任務(wù)上的性能,使用精確率(Precision)、召回率(Recall)和F1(F1-score)作為評價指標(biāo): 式中,TP 是混淆矩陣中將正類預(yù)測為正類的數(shù)目;FP 是混淆矩陣中將負(fù)類預(yù)測為正類的錯誤預(yù)測數(shù);FN 是混淆矩陣中將正類預(yù)測為負(fù)類的錯誤預(yù)測數(shù)。 為了更清晰地展示Bi-GRU-MATT 模型每個層對于模型的貢獻,進行消融實驗,分別從BERT 預(yù)訓(xùn)練語言模型,Bi-GRU 層和多注意力機制層評估了各層的作用。 2.2.1 BERT 對模型性能的影響 本實驗旨在揭示BERT 預(yù)訓(xùn)練模型對Bi-GRUMATT 論元抽取性能的影響。考慮到訓(xùn)練集標(biāo)注數(shù)據(jù)量大和梯度消失的問題,將詞嵌入作為可訓(xùn)練的參數(shù)去訓(xùn)練模型,會大幅度增加參數(shù)量進而引起過擬合問題,因此實驗中不直接剔除預(yù)訓(xùn)練語言模型來做消融實驗,而是替換為其他典型的預(yù)訓(xùn)練詞向量并比較幾種不同詞向量編碼下模型的抽取效果,結(jié)果如表1。可以看出,采用BERT 深度預(yù)訓(xùn)練上下文語言模型編碼句子中各個單詞,在事件論元識別和論元角色分類任務(wù)中均達到了最佳效果。具體地,在兩個具體任務(wù)上,采用了上下文相關(guān)的詞向量編碼BERT 和ELMo 的結(jié)果都顯著優(yōu)于采用傳統(tǒng)的上下文無關(guān)詞向量word2vec 和GloVe,這表明包含深層語義和上下文信息的詞向量具有更好的表示能力。進一步地,將BERT 與ELMo 相比比較,兩個任務(wù)的F1-score 值分別提升了1.3%和1.4%,這得益于BERT 采用了完全雙向信息彌補了ELMo 的缺陷,且句子級負(fù)采樣使得BERT的編碼級別提升至句子級,將句子信息融入編碼中使得采用BERT 的Bi-GRU-MATT 在實驗中取得了最佳效果。 表1 特征編碼層不同的單詞編碼方式對模型性能的影響 2.2.2 Bi-GRU 層和多注意力機制層對模型性能的影響 本節(jié)通過單獨移除Bi-GRU 層和多注意力機制層的方式來評估它們對模型的性能影響,結(jié)果如表2所示。從表中可以看出,多注意力機制層在事件論元識別和角色分類任務(wù)中分別使模型的F1-score 值提升了1.7%和1.6%,而Bi-GRU 層在事件論元識別和角色分類任務(wù)中分別使模型的F1-score 值提升了1.0%和0.8%,這表明經(jīng)過Bi-GRU 編碼后特征向量包含了更加豐富的長距離依賴關(guān)系以及句子特征。上述結(jié)果驗證了多注意力網(wǎng)絡(luò)和Bi-GRU 編碼的有效性。 表2 Bi-GRU-MATT 模型相關(guān)消融實驗 多注意力機制層是Bi-GRU-MATT 模型的核心層。本實驗針對多注意力機制層使用的不同注意力權(quán)重函數(shù)進行對比實驗,目的是為了驗證選擇非線性標(biāo)度乘積函數(shù)作為注意力函數(shù)的合理性。 具體地,用a(s,h)代 表注意力權(quán)重函數(shù),s和h代表參與注意力計算的兩個向量。考慮以下5 種不同的注意力權(quán)重函數(shù)來訓(xùn)練模型,其中函數(shù)4 和5 的非線性激活函數(shù)統(tǒng)一使用ReLU 函數(shù)。 1. 乘積函數(shù):a(s,h)=。 2. 加和性函數(shù):a(s,h)=vTtanh(W1s+W2h)。 3. 對稱乘積函數(shù):a(s,h)=sTWTDWh。 4. 非線性對稱乘積函數(shù):a(s,h)=f(Ws)TDf(Wh) 在事件論元識別和角色分類兩個任務(wù)上的實驗結(jié)果如表3 所示。可以看出,以ReLU 為激活函數(shù)的非線性標(biāo)度乘積函數(shù)作為注意力權(quán)重函數(shù)的模型在兩個任務(wù)上獲得了最高的F1-score 值,表現(xiàn)優(yōu)于線性的注意力函數(shù),非線性標(biāo)度乘積函數(shù)在兩個任務(wù)上的F1-score 值比表現(xiàn)最好的線性注意力函數(shù)分別高出0.4%和0.2%。 表3 不同注意力權(quán)重函數(shù)對模型性能的影響 為了進一步驗證Bi-GRU-MATT 模型在事件論元抽取任務(wù)上的有效性,特別是對于不止一個論元的句子。根據(jù)句子中論元的數(shù)量將句子分成兩部分,其中僅有一個論元的事件句占整個數(shù)據(jù)集的76.8%,包含至少兩個論元的事件句占整個數(shù)據(jù)集的23.2%。將Bi-GRU-MATT 與基線模型Embedding+T、CNN,以及DMCNN、JRNN 和JMEE 3 個前沿事件抽取模型進行對比,獲得的F1-score 值如表4 所示。 表4 Bi-GRU-MATT 模型在單論元事件句(1/1)和多論元事件句(1/N)上的抽取性能 從表4 可以看出,Bi-GRU-MATT 模型無論是在單論元事件句(1/1)還是多論元事件句(1/N)上都有最高的F1-score 值。在多論元事件句上,Bi-GRU-MATT 比動態(tài)多池化網(wǎng)絡(luò)DMCNN 的F1-score 值高出了7.1%,這驗證了Bi-GRU-MATT 方法的有效性。和同樣使用了循環(huán)神經(jīng)網(wǎng)絡(luò)的模型JMEE 和JRNN 相比,F(xiàn)1-score 值分別提高了1.3%和5.2%,這是因為本模型采用包含豐富語義的BERT 模型編碼單詞,并且多注意力機制有助于學(xué)習(xí)到更多的語義信息,提高模型的精度。 將Bi-GRU-MATT 與當(dāng)前先進的事件抽取方法在事件論元識別和論元角色分類任務(wù)上進行對比。采用的對比方法分為3 類,基于特征的抽取模型、基于流水線式的抽取模型和聯(lián)合抽取模型,其中基于特征的抽取模型包括Cross-Event、Cross-Entity和RBPB,基于流水線式的抽取模型有DMCNN、JRNN、dbRNN,而聯(lián)合抽取模型有JMEE、SCNNs[24]、Ding’s model[25]和Joint3EE[26]。 表5 給出了Bi-GRU-MATT 模型與這些對比方法在事件論元抽取任務(wù)上的性能。可以看出,提出的Bi-GRU-MATT 模型在事件論元識別和角色分類任務(wù)上均取得了最佳的F1-score 值。Bi-GRU-MATT 模型和代表性的基于特征的抽取模型相比,精確率、召回率和F1-score 值均顯著優(yōu)于后者,在兩大任務(wù)上的F1-score 值比最佳的基于特征的模型(RBPB)高8.0%和7.8%,性能提升顯著。與聯(lián)合抽取模型對比,Bi-GRU-MATT 的F1-score 值也優(yōu)于它們。在事件論元檢測任務(wù)上F1-score 值比表現(xiàn)最好的聯(lián)合抽取模型(JMEE)高0.8%,且精確率和召回率也有提升。在論元角色分類任務(wù)上,單獨執(zhí)行觸發(fā)詞抽取和論元抽取任務(wù)的性能優(yōu)于聯(lián)合抽取的,主要原因在于事件類型是時間論元抽取任務(wù)中的重要特征,同時標(biāo)記觸發(fā)詞和參數(shù)的聯(lián)合模型容易忽視觸發(fā)詞類型特征相關(guān)的信息。 表5 Bi-GRU-MATT 與其他先進方法的性能比較 本文提出了一個基于Bi-GRU 和改進注意力機制的事件論元抽取模型Bi-GRU-MATT。該模型在特征編碼層同樣使用了深度的上下文預(yù)訓(xùn)練語言模型BERT,并結(jié)合詞性特征和位置特征,以及觸發(fā)詞特征來編碼單詞向量,之后送入Bi-GRU 網(wǎng)絡(luò)中編碼長距離的依賴關(guān)系,再輸入多注意力機制層計算注意力權(quán)重,生成事件向量和句子表示向量,級聯(lián)輸入全連接層完成最后的分類工作。實驗表明該模型可以顯著提升事件論元抽取的效果,在事件論元識別和論元角色分類任務(wù)上達到了較好的效果,F(xiàn)1-score 值分別為69.2%和61.6%。




1.5 全連接層


1.6 損失函數(shù)

2 實 驗
2.1 實驗設(shè)置

2.2 消融實驗


2.3 多注意力機制層相關(guān)分析

2.4 模型在多論元事件句上的表現(xiàn)

2.5 對比實驗

3 結(jié)束語