摘 要: 基于句子級別的抽取方法不足以解決中文事件元素分散問題。針對該問題,提出基于上下文融合的文檔級事件抽取方法。首先將文檔分割為多個段落,利用雙向長短期記憶網(wǎng)絡(luò)提取段落序列特征;其次采用自注意力機制捕獲段落上下文的交互信息;然后與文檔序列特征融合以更新語義表示;最后采用序列標注方式抽取事件元素并匹配事件類型。與其他事件抽取方法在相同的中文數(shù)據(jù)集上進行對比,實驗結(jié)果表明,該方法能有效抽取文檔中分散的事件元素,并提升模型的抽取性能。
關(guān)鍵詞: 事件抽?。?序列標注; 特征提??; 事件元素; 上下文融合
中圖分類號: TP391"" 文獻標志碼: A
文章編號: 1001-3695(2022)01-008-0048-06
doi:10.19734/j.issn.1001-3695.2021.06.0212
Document level event extraction method based on context fusion
Ge Junwei, Qiao Mengmeng, Fang Yiqiu
(College of Computer Science amp; Technology, Chongqing University of Posts amp; Telecommunications, Chongqing 400065, China)
Abstract: The sentence level extraction method is insufficient to solve the problem of Chinese event element dispersion.To solve this problem,this paper proposed a document level event extraction method based on context fusion.Firstly,the paper divided the document into paragraphs,and used bidirectional long and short memory network to extract sequence features of paragraphs.Secondly,the method used self-attention mechanism to capture the interaction information of paragraph context.Then the method combined the document sequence features with the interaction information to update the semantic representation.Finally,the method used sequence annotation to extract event elements and match event types.Compared with other event extraction methods on the same Chinese data set,the experimental results show that this method can effectively extract scattered event elements from documents,and improve the extraction performance of the model.
Key words: event extraction; sequence labeling; feature extraction; event element; context fusion
0 引言
隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,信息抽?。?]技術(shù)應(yīng)運而生。事件抽取是信息抽取領(lǐng)域的一個重要研究方向,在商業(yè)、軍事等領(lǐng)域的情報工作中應(yīng)用非常廣泛。事件抽取是指從海量數(shù)據(jù)中抽取用戶感興趣的事件,并以結(jié)構(gòu)化形式展現(xiàn)給用戶。事件抽取任務(wù)可分為兩個子任務(wù),即從文本中抽取已發(fā)生的事件和抽取事件元素。事件來源于認知科學(xué),在多個領(lǐng)域應(yīng)用廣泛。自動內(nèi)容抽取(automatic content extraction,ACE)會議認為事件是事物狀態(tài)的改變或事情的發(fā)生,事件抽取相關(guān)的術(shù)語說明如下:
a)事件描述:描述事件信息的短語或句子。
b)事件類型:比如股權(quán)凍結(jié)就是一種事件類型。
c)事件元素:用于描述一個事件的時間、地點、人物等重要信息,比如“小明”“2021年5月2日”等。
d)元素角色:事件元素在事件進行過程中的作用,如股份持有者、交易股權(quán)數(shù)、開始時間等。
作為自然語言處理領(lǐng)域研究的熱點,事件抽取近年來受到了許多關(guān)注。起初,研究人員采用模板匹配的方法展開事件抽取工作。例如,Hung等人[2]設(shè)計了一種從網(wǎng)絡(luò)中自動檢索基于事件的常識知識的方法。Cohen等人[3]在生物學(xué)領(lǐng)域使用一種概念識別器來抽取醫(yī)藥事件。Yangarber[4]提出一種基于種子模式的信息抽取模型學(xué)習(xí)系統(tǒng),該系統(tǒng)以人工構(gòu)造的種子模板為基礎(chǔ),通過迭代學(xué)習(xí)新的模板,但該方法可移植性較差,且事件抽取的結(jié)果依賴特征的選擇,容易產(chǎn)生錯誤傳播的問題。
隨著深度學(xué)習(xí)的流行,國內(nèi)外的研究人員將深度學(xué)習(xí)應(yīng)用在事件抽取工作中。Nguyen等人[5]使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)捕捉句子級局部特征信息。在其基礎(chǔ)上,Chen等人[6]提出修改CNN模型中的池化層為動態(tài)多池化機制,并將其應(yīng)用多事件句提取工作中,取得了不錯的效果。但是基于CNN模型的事件抽取方法通常只考慮觸發(fā)詞臨近連續(xù)窗口內(nèi)的其他單詞,這樣可能會漏掉句子中的一些重要結(jié)構(gòu)。于是,提出使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型來捕捉上下文信息。由于普通的RNN都會出現(xiàn)梯度爆炸的問題,于是研究人員相繼對RNN進行改進,Nguyen等人[7]提出使用雙向門控循環(huán)單元網(wǎng)絡(luò)(bidirectional gate recurrent unit,BIGRU)模型編碼句子級語義特征,Ding等人[8]提出一種改進過的長短期記憶網(wǎng)絡(luò)(long-short term memory,LSTM)模型用于語義信息建模,F(xiàn)eng等人[9]引入一種混合網(wǎng)絡(luò)來進行事件抽取,都取得了不錯的效果。另外,Liu等人[10]提出門控多語言注意力機制模型來進行事件抽取。由于以上方法未提取到句子中的句法依存信息,于是,Nguyen等人[11]提出將圖卷積引入事件抽取工作中。Liu等人[12]首次提出了一種基于對抗性模仿的知識提取方法,以解決從句子中獲取知識用于事件檢測的難題。Yang等人[13]提出將元素預(yù)測按照角色進行分離來克服角色重疊問題。Chen等人[14]考慮了通過將文本中的實體用指代的方式表示,如人用someone表示,以這種方式構(gòu)造語料庫以及提出了一個多跨度的選擇模型,該模型演示了事件抽取方法的可行性以及零樣本或少樣本設(shè)置的可行性。
相對之前模式匹配方法,神經(jīng)網(wǎng)絡(luò)方法的事件抽取效果很好,但都基于句子量別,只考慮了句子內(nèi)部的特征,未利用更高層次的信息,從而不能有效地解決多語句構(gòu)成事件以及元素分散的問題。Liao等人[15]利用文檔中不同事件的關(guān)聯(lián)性特征對模糊詞語語義進行判斷,Liu等人[16]考慮整個文檔的事件—主題關(guān)系特征,從而提取事件的全局特征,Ji等人[17]提出跨文檔推理方法,Liao等人[18]提出結(jié)合文檔主題特征,研究了使用非監(jiān)督主題模型來提取主題特征,以上幾個方法雖然不能解決多語句構(gòu)成事件以及元素分散的問題,但卻為之后的研究提供了很好的思路。Yang等人[19]提出從句子和文檔兩個層面進行事件抽取,有了明顯的提升效果,但并未說明如何使用序列標記模型來處理多事件的句子。Zheng等人[20]提出一個文檔級別的金融領(lǐng)域Doc2EDAG事件抽取模型,將文檔級別的事件表填充任務(wù)轉(zhuǎn)換為基于實體的有向無環(huán)圖的路徑擴展任務(wù),實現(xiàn)了很好的抽取效果。
目前已有事件抽取研究工作主要集中于規(guī)模小、分布不均勻的ACE2005數(shù)據(jù)集中的英文文本,而中文文本的工作才剛起步,且該數(shù)據(jù)集標注信息大多為句子級別以至于目前事件抽取主要集中在從單一句子中抽取事件。在真實場景中,由于事件構(gòu)成的復(fù)雜性和語言表述的多樣性,大量的事件是以多個句子表達的,且一個事件往往涉及多個事件元素,而事件對應(yīng)的元素往往分散在多個語句中,都出現(xiàn)在同一個語句中的理想情況并不常見,即事件元素分散。例如:“2009年1月6日,本公司接第二大股東上海和遠科技發(fā)展有限公司通知。該公司于2009年1月6日通過上海證券交易所大宗交易系統(tǒng)賣出本公司流通股15300000股。本次股份減持后,上海和遠科技公司仍持有本公司流通4718117股,占本公司總股本的1.46%”。通過來自金融數(shù)據(jù)集中的真實案例文本可得輸出,事件類型為“股份減持”,事件元素(開始日期)為“2009年1月6日”,事件元素(股份持有者)為“上海和遠科技發(fā)展有限公司”,事件元素(交股權(quán)數(shù))為“15300000股”,事件元素(之后持有股票數(shù))為“4718117股”,事件元素(結(jié)束日期)為“2009年1月6日”,但僅從單一句子級別進行抽取,則可能無法抽取完整的事件信息。因此,有必要將事件抽取從句子級別推進到文檔級別。
為此,本文提出基于上下文融合的文檔級事件抽取方法。該方法通過分割文檔為多個段落,使用雙向長短期記憶網(wǎng)絡(luò)學(xué)習(xí)段落序列特征和文檔序列特征,再使用自注意力機制學(xué)習(xí)段落的上下文特征,結(jié)合段落的上下文特征聯(lián)系和文檔序列特征,得到更優(yōu)的特征表示,從而增強事件抽取模型的效果。
1 基于上下文融合的文檔級事件抽取模型
本文提出基于上下文融合的文檔級事件抽取模型(document-level event extraction model based on context fusion,DEE-CF)。模型的總體架構(gòu)如圖1所示,主要段落表示學(xué)習(xí)模塊、上下文融合模塊、標記輸出模塊三個模塊組成。其中,本文以預(yù)處理后的文章段落為基本輸入單元,基于字級別將事件抽取轉(zhuǎn)換為雙層序列標注任務(wù)。首先通過段落表示學(xué)習(xí)模塊學(xué)習(xí)段落時序語義表示;然后通過上下文融合模塊學(xué)習(xí)段落的上下文表示以及融合整個文檔的語義表示,從而更新段落的上下文表示;最后通過標記輸出模塊抽取事件信息以及匹配事件元素。
1.1 段落表示學(xué)習(xí)模塊
段落表示學(xué)習(xí)模塊用于對段落時序語義進行編碼,先通過嵌入層得到所有段落的初始表示,再通過雙向長短期記憶網(wǎng)絡(luò)(bidirectional long and short memory network,BiLSTM)得到所有段落序列的編碼表示。
首先,嵌入層指通過預(yù)訓(xùn)練模型將輸入文本轉(zhuǎn)換為初始向量表示。在此之前,文檔需要進行預(yù)處理操作。為抽取更豐富的文檔語義信息,文檔被切分為三個片段,使模型對片段文本的注意力更加集中,關(guān)注更合理的輸入文本長度,緩解因文檔長度過大導(dǎo)致遺忘長距離特征的問題。
文檔是以句子為單位的集合,定義第i個句子序列為Si=[w1,w2,…,wNs],Ns指句子序列中包含的字符個數(shù),則整個文檔序列為D=[S1,S2,…,Snum],num指文檔序列中包含的句子個數(shù)。將一個文檔均分成三個部分,定義每個部分為一個段落。令num_sen=num/3,則num_sen為每個段落包含的句子個數(shù)。將每個段落的所有字放在一個集合中,則第i個段落序列Pi=[w1,w2,…,wn],n指段落序列的長度。為對齊所有段落序列與文檔序列,將文檔序列長度設(shè)置為3n,則整個文檔序列為D=[w1,w2,…,w3n]。其中,將段落序列長度初始為200,當段落長度大于200時,則截取前200個字作為該段落語句;如果段落長度小于200,則采取填充補零的方式補齊段落,文檔序列長度為600。
嵌入層采用word2vec中的skip-gram模型初始化字向量,將字符向量wi轉(zhuǎn)換為xi,則第i個段落初始向量表示為Xpi=[x1,x2,…,xn],文檔初始向量表示為Xd=[x1,x2,…,x3n]。
之后,通過BiLSTM分別獲取三個段落序列的編碼表示。將段落i的初始向量輸入BiLSTM模型學(xué)習(xí)前向和后向兩個方向的段落級特征,前向隱層表示序列Hpi和后向隱層表示序列Hpi的計算過程如式(1)和(2)所示。
[h1,h2,…,hn]=LSTM(x1,x2,…,xn)(1)
[h1,h2,…,hn]=LSTM(x1,x2,…,xn)(2)
t時刻的前向隱層表示ht=LSTM(ht-1,xt),可由當前時刻輸入向量xt和上一個時刻的隱層表示ht-1計算獲得,計算過程如式(3)~(8)所示。
ft=σ(Wf[ht-1,xt]+bf)(3)
it=σ(Wi[ht-1,xt]+bi)(4)
t=tanh(Wc[ht-1,xt]+bc)(5)
Ct=ftCt-1+itt(6)
Ot=σ(Wo[ht-1,xt]+bo)(7)
ht=Ottanh(Ct)(8)
其中:ft為遺忘門,用于遺忘一些數(shù)據(jù);it為輸入門,可更新信息;Ot為輸出門,用于控制當前的輸出數(shù)據(jù);σ為sigmoid激活函數(shù);Wf、Wi、Wc、Wo為權(quán)重參數(shù);bf、bi、bc、bo為偏置參數(shù)。t時刻對應(yīng)隱層表示hgrut由前向隱層表示ht和后向隱層表示ht拼接而成,如式(9)所示。
hpt=[ht;ht](9)
BiLSTM中隱藏層數(shù)量設(shè)為l=64,拼接所有時刻,HpPi=[hp1,hp2,…,hpn]為第i個段落通過BiLSTM學(xué)習(xí)的段落級特征,其中,HgruPi∈Euclid Math TwoRApn×(2×l)。
綜上,通過段落表示學(xué)習(xí)模塊得到了三個段落HpP1、HpP2以及HpP3的編碼表示,之后拼接三個段落所有時刻的段落隱藏層向量表示,可得到文檔序列的段落級別編碼表示Hp=[hp1,hp2,…,hp3n]。
1.2 上下文融合模塊
上下文融合模塊用于更新上下文語義關(guān)系,先通過自注意力機制(self-attention)整合段落的上下文語義,再與文檔語義信息融合以更新語義表示。
首先,通過self-attention捕捉段落序列內(nèi)部與外部的字間相關(guān)度,融合所有段落的上下文進而實現(xiàn)不同粒度與相同粒度之間的信息交互。將以上層得到的段落序列特征向量表示HP送入self-attention,可通過計算將段落序列內(nèi)部和外部中任意兩個字直接聯(lián)系起來,抽取段落序列內(nèi)部和外部間隔較遠的字間相關(guān)性,更易捕獲字間相互依賴的特征,從而獲得的段落表示更加完整和準確。首先通過線性變換得到三組向量序列:
Q=WQ*HP(10)
V=WV*HP(11)
K=WK*HP(12)
其中:Q、K、V分別為查詢向量序列、鍵向量序列和值向量序列;WQ、WK、WV是待訓(xùn)練的參數(shù)矩陣。由式(13)可得段落表示向量HC。
HC=softmax(QKTdk)V(13)
通過Q中每個元素與K中各個元素求內(nèi)積,并通過softmax激活函數(shù)得到Q中元素與V中元素的相似度,最后加權(quán)求和,得到段落表示HC。其中,dk為隱藏層神經(jīng)元的個數(shù),可防止內(nèi)積過大。
之后,將self-attention整合的段落上下文關(guān)系與后續(xù)通過BiLSTM提取的文檔時序特征進行整理融合,從而得到語義更新并使特征抽取更加豐富和充分。由1.1節(jié)中介紹的文檔嵌入可得文檔序列的初始向量表示Xd=[x1,x2,…,x3n],將Xd輸入BiLSTM學(xué)習(xí)從前往后和從后往前兩個方向的文檔級序列特征,得到隱層向量表示Hd。前向隱層表示序列Hd和后向隱層表示序列Hd的計算過程如式(14)(15)所示。
[h1,h2,…,h3n]=LSTM(x1,x2,…,x3n)(14)
[h1,h2,…,h3n]=LSTM(x1,x2,…,x3n)(15)
文檔的隱藏層表示Hd由前向和后向的隱層表示拼接而成。t時刻字xt的對應(yīng)隱層表示hdt由前向隱層表示ht和后向隱層表示ht拼接而成,如式(16)所示。
hdt=[ht;ht](16)
融合BiLSTM得到的文檔序列特征與self-attention整合的段落上下文以更新語義關(guān)系。對于t時刻字wt,將上層得到的段落上下文表示hct與文檔級特征hdt通過拼接操作進行融合,得到更新后向量表示rest,具體運算方式如式(17)所示。
rest=[hct;hdt](17)
1.3 標記輸出模塊
標記輸出模塊用于文檔序列的標記輸出,即完成序列標注任務(wù),本模塊采用LSTM-CRF[21]進行標記輸出。將以上模塊學(xué)習(xí)到的更新向量表示為RES,輸入BiLSTM學(xué)習(xí)文檔序列中所有字符中各自對應(yīng)標簽的得分,即文本序列與標簽的關(guān)系(發(fā)射矩陣)。而BiLSTM層不能預(yù)測標簽與標簽之間的關(guān)系,于是將BiLSTM層的輸出送入CRF層,最后輸出預(yù)測標簽結(jié)果。
對于上層得到的更新向量表示RES=[res1,res2,…,res3n],輸入解碼層,輸出預(yù)測標簽序列y=[y1,y2,…,y3n]。BiLSTM的輸出矩陣為P,Pij代表第i個字的最終向量表示resi映射到標簽yj的非歸一化概率。其中,P的維度為3n×Ntag,Ntag為標簽的類別數(shù)。CRF的轉(zhuǎn)移矩陣為A,Aij代表標簽yi到y(tǒng)j的轉(zhuǎn)移概率。當前預(yù)測序列的得分函數(shù)定義為
s(RES,y)=∑3ni=0Ayi,yi+1+∑3ni=1Pi,yi(18)
利用softmax函數(shù),為每一個正確的標簽序列y定義一個概率值,YRES為所有可能預(yù)測的標簽序列:
P(y|RES)=es(RES,y)∑∈YRESes(RES,)(19)
其中:y是正確的標注序列。在訓(xùn)練中,對真實標簽序列y的概率取最大化對數(shù)似然:
log(P(y|RES))=s(RES,y)-log(∑∈Yes(RES,))(20)
最大化式(20)的對數(shù)似然函數(shù),即真實標簽序列的最大概率值,就是模型的損失函數(shù)。根據(jù)訓(xùn)練好的參數(shù)求出所有可能的Y序列對應(yīng)的得分,然后取最大值對應(yīng)的索引值,即預(yù)測標簽序列Y*,這一過程通過動態(tài)規(guī)劃算法計算獲得:
Y*=arg max∈Y s(RES,)(21)
最后,取索引值對應(yīng)的標簽為預(yù)測標簽作為最后標簽序列的輸出。其中,兩次序列標注分別有各自的損失函數(shù)(loss),最終的loss由兩次標注產(chǎn)生的loss相加而得,其中,兩次標注的loss權(quán)重分別設(shè)為0.5。
模型采用BIO標注體系(begin單詞開始,inside單詞中間,outside其他非定義標簽),同時對序列標記事件類型和事件元素類型。以字為單位進行處理,即文檔的每個字對應(yīng)兩個標注標簽的結(jié)果。對于每個標簽標注,本文可得到特征到任意標簽的概率,通過這些概率得到最優(yōu)序列結(jié)果。兩次標注分別執(zhí)行,同時得到結(jié)果,避免發(fā)生錯誤傳播的問題。模型流程如圖2所示,將文本示例“小明質(zhì)押5股”輸入段落表示學(xué)習(xí)模塊以及上下文融合模塊可得輸入文本的語義特征,經(jīng)過標記輸出模塊,可得文檔序列對應(yīng)的事件類型和元素標記:事件類型為“股權(quán)質(zhì)押”,事件元素(質(zhì)押者)為“小明”,事件元素(質(zhì)押股權(quán)數(shù))為“5股”。
2 實驗與分析
2.1 實驗數(shù)據(jù)
本文所用數(shù)據(jù)集是清華大學(xué)交叉信息研究所公開的金融數(shù)據(jù)集(https://github.com/dolphin-zs/Doc2EDAG)。該數(shù)據(jù)集關(guān)注股權(quán)凍結(jié)(equity freeze,EF)、股權(quán)回購(equity repurchase,ER)、股權(quán)減持(equity underweight,EU)、股權(quán)增持(equity overweight,EO)和股權(quán)質(zhì)押(equity pledge,EP)五種金融事件類型,包含32 040個文檔,是ACE2005數(shù)據(jù)集的500倍。按照參事件元素給出的比例劃分訓(xùn)練集、驗證集、測試集為8:1:1。數(shù)據(jù)中包含事件類型數(shù)量如表1所示。
金融數(shù)據(jù)集部分文本案例及其對應(yīng)的標記分別如案例1和2所示。
案例1 金融數(shù)據(jù)集文本案例
[
\"SH600277_2017-09-21_1203989995\",
{
"""\"sentences\":[
\"證券代碼:600277證券簡稱:億利潔能公告編號:2017-134~債券代碼:122143債券簡稱:1200000000利01~債券代碼:122159債券簡稱:1200000000\",
\"億利潔能股份有限公司股份質(zhì)押公告\",
\"本公司董事會及全體董事保證本公告內(nèi)容不存在任何虛假記載、誤導(dǎo)性陳述或者重大遺漏,并對其內(nèi)容的真實性、準確性和完整性承擔個別及連帶責任。\",
\"2017年9月20目,億利潔能股份有限公司(以下簡稱\"公司\")接控股股東億利資源集團有限公司(以下簡稱\"億利集團\")將其持有的公司部分股票辦理了質(zhì)押登記\",
\"一、本次股份質(zhì)押的具體情況\",
\"億利集團于2017年9月19目將其持有的本公司25700000股股權(quán)(占公司總股本的0.94%)質(zhì)押給中國民生信托有限公司,在中國證券登記結(jié)算有限責任公司辦理了\",
\"截至本公告日,億利集團持有公司1346351467股股份,占公司總股本的\",
\"49.16%,其中有限售流通股64935064股,無限售流通股1281416403股。\",
\"此次辦理完股份質(zhì)押登記手續(xù)后億利集團累計質(zhì)押的股份數(shù)量為1121379691股,占其所持有公司總股數(shù)的83.29%,占公司總股本的40.94%。\"
\"二、控股股東的質(zhì)押情況\",
\"億利集團質(zhì)押上述公司股份是為融資提供股權(quán)質(zhì)押擔保,還款來源包括其營業(yè)收入、營業(yè)利潤、投資收益等,具備資金償還能力,不存在可能引發(fā)平倉風(fēng)險或被強制\",
\"特此公告。\",
\"億利潔能股份有限公司董事會\",
\"2017年9月21目\"
]
案例2 金融數(shù)據(jù)集文本對應(yīng)標注
}
],
\"recguid_eventname_eventdict_list\": [
[
0,
\"EquityPledge\",
{
\"Pledger\": \"億利資源集團有限公司\",
\"PledgedShares\": \"25700000股\",
\"Pledgee\": \"中國民生信托有限公司\",
\"TotalHoIdingShares\": \"1346351467股\",
\"TotalHoIdingRatio\": \"49.16%\",
\"TotalPIedgedShares\": \"1121379691股\",
\"StartDate\": \"2017年9月19目\",
\"EndDate\": 1,
\"ReIeasedDate\": 1
}
]
]
2.2 實驗評價標準
事件抽取包括識別事件類型和識別事件元素角色類型兩個子任務(wù)。本文將精確率(precision)、召回率(recall)和F1值作為衡量事件抽取模型性能的指標。三個指標的計算公式為
precision=文檔中正確匹配到的標簽個數(shù)文檔中匹配到的標簽個數(shù)(22)
recall=文檔中正確匹配到的標簽個數(shù)實際包含的標簽個數(shù)(23)
F1=2PRP+R(24)
2.3 實驗參數(shù)設(shè)置
在訓(xùn)練模型參數(shù)時,采用softmax函數(shù)實現(xiàn)多分類,通過argmax函數(shù)標記事件類型標和事件元素角色類型標簽,損失函數(shù)為交叉熵,優(yōu)化函數(shù)使用Adam算法,字向量維度為128,BiLSTM隱藏層數(shù)量為64,批處理大小為32。
2.4 本文方法實現(xiàn)過程
本文方法的實現(xiàn)分為三個階段,具體描述如下:
a)段落表示學(xué)習(xí)階段。本文改變了已有事件抽取模型直接將整個文檔扁平化作為輸入的常規(guī)方式。DEE-CF總計四個輸入,分別為一個文檔嵌入和分割該文檔得到的三個段落嵌入。按照文檔包含的句子總數(shù)目將文檔均分為三個段落,本文將段落序列長度初始為200。當段落長度大于200時,則截取前200個字作為該段落語句;如果段落長度小于200,則采取填充補零的方式補齊段落,則文檔序列長度為600。采用word2vec中的skip-gram模型初始化字向量,分別得到一個文檔字嵌入和三個段落字嵌入,其中,字嵌入維度設(shè)為128。之后,將每個字嵌入并行輸入BiLSTM中捕捉段落和文檔的序列特征。
b)上下文融合階段。采用concatenate的方式拼接三個段落序列特征,拼接后向量長度為600,并采用self-attention提取三個段落合并后的上下文信息,實現(xiàn)段落間語義信息的互通。通過concatenate的方式,將之前得到維度為[600,128]的文檔序列特征和維度為[600,128]的段落上下文信息向量對應(yīng)位置拼接,得到維度為[600,256]的更新后的信息表示。
c)標記輸出階段。本文以字為單位進行標記,該階段輸入中每個字分別對應(yīng)兩個標注標簽的結(jié)果。首先,將維度為[600,256]的更新后的信息向量輸入BiLSTM學(xué)習(xí)每個字對應(yīng)標簽的得分,更新后的信息向量的得分維度為[600,256];其次,通過三個全連接層將維度依次降為[600,128],[600,64]和[600,47];然后,采用CRF對每個字進行元素角色標簽標記,可得到特征到標簽的概率矩陣,維度為[600,47],通過這些概率得到維度為[600,47]的最優(yōu)序列結(jié)果向量;最后,通過argmax函數(shù)分別取對應(yīng)字符的概率最大值,得到最優(yōu)的元素角色標記輸出。事件類型標記實現(xiàn)過程與上述的元素角色標記過程類似,區(qū)別是通過四個全連接層將維度依次降為[600,128],[600,64],[600,32]和[600,11]以及得到維度為[600,11]的最優(yōu)序列對應(yīng)的事件類型輸出向量。
2.5 實驗結(jié)果分析
將DEE-CF與事件抽取基準模型在同一數(shù)據(jù)集上進行對比:a) JRNN[7],一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的句子級別事件聯(lián)合抽取模型,關(guān)注事件觸發(fā)詞和事件元素之間的關(guān)系,識別文本中觸發(fā)詞以及對應(yīng)的事件元素;b) HNN-EE[22],一種基于混合神經(jīng)網(wǎng)絡(luò)的句子級聯(lián)合抽取模型,挖掘?qū)嶓w和事件的依賴關(guān)系;c) DCFEE[16],一種文檔級事件抽取框架,先從單個句子中抽取出事件元素和事件觸發(fā)詞,再基于關(guān)鍵事件檢測模型和論元填充策略從整個文檔中提取事件元素;d) Bi-GRU-doc[23],一種基于篇章信息和Bi-GRU的中文事件檢測模型,定義三個窗口來學(xué)習(xí)句子上下文特征,并與句子特征融合,以豐富文檔語義信息;e) DEE-CF,本文提出基于上下文融合的文檔級事件抽取模型,首先優(yōu)化文本特征提取范圍,然后整合優(yōu)化后的段落上下文關(guān)系,并與文檔級語義特征融合,最后得到更加豐富的文檔特征。
結(jié)合引言中的真實案例文本來分析表2,該文本為長度相對不多的金融領(lǐng)域信息,該文本的元素分散在文本中的多處?;诰渥蛹墑e的模型(JRNN和HNN-EE)剝離掉句子之間的聯(lián)系,抽取到的局部特征信息有限,而基于文檔級別的模型(DCFEE、Bi-GRU-doc和DEE-CF)可抽取到句子間的關(guān)聯(lián)特征,如第2句的“該公司”指第一句的“上海和遠科技發(fā)展有限公司”等,可抽取到相對完整的上下文信息,效果更好。相較于JRNN模型,HNN-EE關(guān)注實體和事件的依賴關(guān)系,表明實體信息可提升事件抽取效果。相比于DCFEE模型,Bi-GRU-doc融合三個句子特征,DEE-CF融合多個段落特征,可提取到更豐富的文檔特征。Bi-GRU-doc關(guān)注三個句子特征,但大多真實文本案例中文檔相對較長,僅從固定三個句子抽取句子的上下文信息相對有限,而DEE-CF按片段關(guān)注段落級特征和按整體關(guān)注文檔級特征,可更加靈活地提取到句子上下文信息,因而抽取的效果有一定提升。
為分析不同級別特征對模型的影響,對比圖1模型的三種變體進行消融實驗:a)-Para,刪除三個段落序列輸入以及和其直接相連的三個BiLSTM網(wǎng)絡(luò)和self-attention網(wǎng)絡(luò)結(jié)構(gòu),僅留一個文檔序列輸入; b)-Doc,刪除一個文檔序列輸入以及和其直接相連的一個BiLSTM網(wǎng)絡(luò)層,僅留由該文檔分割的三個段落序列輸入;c)-Mutual,在模型輸入數(shù)目上與本文模型保持一致,刪除段落上下文交互信息提取網(wǎng)絡(luò)層self-attention。
分析表3可知,-Para僅以一個文檔嵌入作為模型的輸入,由于大部分文檔的篇幅過長且對應(yīng)事件信息標注相對稀疏,長距離造成的特征遺忘問題將會被嚴重放大,因而該模型最終的抽取效果較差,而-Doc未將文檔級別的語義融入其中,導(dǎo)致僅由段落嵌入作為輸入得到的特征關(guān)聯(lián)信息相對局限,不能較好地提取文檔級的特征聯(lián)系,因而最后的抽取效果也較差,同時-Mutual未學(xué)習(xí)到段落的上下文信息,段落間的信息并未互通,最后的抽取效果略差。綜上可得,段落級特征和文檔級特征較為重要,被刪除時會導(dǎo)致-Para和-Doc這兩個變體模型性能劇烈下降,相較DEE-CF的F1均值分別降低55.33%和54.82%,self-attention抽取的段落上下文交互信息對于模型抽取性能也有很大的輔助作用,F(xiàn)1均值提高了3.78%。
為對比文檔中不同粒度的抽取效果,僅改變模型的抽取粒度,其他保持不變,設(shè)計了兩個實驗:a)Doc,輸入僅為文檔,將三個段落輸入改為一個文檔輸入,總計兩個輸入;b)Para,輸入僅為段落,將一個文檔輸入改為三個段落輸入,總計六個輸入;c)DEE-CF,輸入為文檔和多個段落的結(jié)合,總計四個輸入。
分析表4可知,DEE-CF模型精確率雖然較Doc低1.59%,但召回率卻提升4.98%,F(xiàn)1值提升1.90%,整體表現(xiàn)出的抽取效果最好。因文檔篇幅較長,Doc模型僅將文檔作為輸入易導(dǎo)致上下文遺忘問題。相對于Doc和Para,DEE-CF融合文檔級特征和段落上下文的互信息,可抽取更加豐富的特征。
本文模型將文檔分割為k個段落,用于融合段落上下文特征。為分析k的不同取值對于模型抽取性能的影響,設(shè)計了一組實驗。
由圖3可知,k取3時,模型的抽取效果達到最好。k值越大,則文檔中每個段落中的文本越短,經(jīng)分割后的段落之間的關(guān)聯(lián)性越弱,模型越難提取到豐富的文檔語義特征,對應(yīng)的F1值也越較小;k值越小,則文檔中每個段落的文本越長,而較長的輸入易導(dǎo)致遺忘問題,易影響模型的抽取效果。
3 結(jié)束語
本文提出基于上下文融合的文檔級事件抽取方法,分割文檔為不同的段落從而優(yōu)化模型抽取范圍,以充分抽取更細致的語義信息,進而改善因抽取特征不充分造成的事件類型和元素角色標簽匹配錯誤問題。通過BiLSTM來獲取局部的段落特征信息和全局的文檔序列特征信息。通過上下文融合輔助特征抽取,提高模型預(yù)測性能。經(jīng)過實驗對比,相比其他基準模型,本文模型抽取效果有了進一步的提升。
參考文獻:
[1]朱木易潔,鮑秉坤,徐常勝.知識圖譜發(fā)展與構(gòu)建的研究進展[J].南京信息工程大學(xué)學(xué)報:自然科學(xué)版,2017,9(6):575-582. (Zhu Muyijie,Bao Bingkun,Xu Changsheng.Research progress of know-ledge graph development and construction[J].Journal of Nanjing University of Information Science amp; Technology:Natural Science,2017,9(6):575-582.)
[2]Hung S H,Lin C H,Hong J S.Web mining for event-based commonsense knowledge using Lexico-syntactic pattern matching and semantic role labeling[J].Expert Systems with Applications,2010,37(1):341-347.
[3]Cohen K B,Verspoor K,Johnson H L,et al.High-precision biological event extraction with a concept recognizer[C]//Proc of BioNLP Workshop Companion Volume for Shared Task.Stroudsburg,PA:Association for Computational Linguistics,2009:50-58.
[4]Yangarber R.Scenario customization for information extraction[M].New York:New York University,2000.
[5]Nguyen T H,Grishman R.Event detection and domain adaptation with convolutional neural networks[C]//Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2015:365-371.
[6]Chen Yubo,Xu Liheng,Liu Kang,et al.Event extraction via dynamic multi-pooling convolutional neural networks[C]//Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Proces-sing.Stroudsburg,PA:Association for Computational Linguistics,2015:167-176.
[7]Nguyen T H,Cho K,Grishman R.Joint event extraction via recurrent neural networks[C]//Proc of NAACL.Stroudsburg,PA:Association for Computational Linguistics,2016:300-309.
[8]Ding Ning,Li Ziran,Liu Zhiyuan,et al.Event detection with trigger-aware lattice neural network[C]//Proc of the 9th International Joint Conference on Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2019:347-356.
[9]Feng Xiaocheng,Qin Bing,Liu Ting.A language-independent neural network for event detection[J].Science China Information Sciences,2018,61(9):1-12.
[10]Liu Jian,Chen Yubo,Liu Kang,et al.Event detection via gated multilingual attention mechanism[C]//Proc of AAAI.Stroudsburg,PA:Association for Computational Linguistics,2018:4865-4872.
[11]Nguyen T H,Grishman R.Graph convolutional networks with argument-aware pooling for event detection[C]//Proc of the 32nd Association for the Advancement of Artificial Intelligence Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:5900-5907.
[12]Liu Jian,Chen Yubo,Liu Kang.Exploiting the ground-truth:an adversarial imitation based knowledge distillation approach for event detection[C]//Proc of AAAI.Palo Alto,CA:AAAI Press,2019:6754-6761.
[13]Yang Sen,F(xiàn)eng Dawei,Qiao Linbo.Exploring pre-trained language models for event extraction and generation[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2019:5284-5294.
[14]Chen Yunmo,Chen Tongfei,Ebner S,et al.Reading the manual:event extraction as definition comprehension[C]//Proc of the 4th Workshop on Structured Prediction for NLP.Stroudsburg,PA:Association for Computational Linguistics,2009:50-58.
[15]Liao Shasha,Grishman R.Using document level cross-event inference to improve event extraction[C]//Proc of the 48th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2020:74-83.
[16]Liu Shulin,Liu Kang,He Shizhu,et al.A probabilistic soft logic based approach to exploiting latent and global information in event classification[C]//Proc of the 30th Association for the Advancement of Artificial Intelligence Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2016:2993-2999.
[17]Ji Heng,Grishman R.Refining event extraction through cross-document inference[C]//Proc of the 46th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2008:254-262.
[18]Liao Shasha,Grishman R.Acquiring topic features to improve event extraction:in pre-selected and balanced collections[C]//Proc of RANLP.Stroudsburg,PA:Association for Computational Linguistics,2011:9-16.
[19]Yang Hang,Chen Yubo,Liu Kang,et al.DCFEE:a document-level Chinese financial event extraction system based on automatically labeled training data[C]//Proc of ACL.Stroudsburg,PA:Association for Computational Linguistics,2018:50-55.
[20]Zheng Shun,Cao Wei,Xu Wei,et al.Doc2EDAG:an end-to-end do-cument-level framework for Chinese financial event extraction[C]//Proc of the 9th International Joint Conference on Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2019:337-346.
[21]Huang Zhiheng,Wei Xu,Yu Kai.Bidirectional LSTM-CRF models for sequence tagging[EB/OL].(2015-08-09).https://arxiv.org/abs/1508.01991.
[22]吳文濤,李培峰,朱巧明.基于混合神經(jīng)網(wǎng)絡(luò)的實體和事件聯(lián)合抽取方法[J].中文信息學(xué)報,2019,33(8):77-83. (Wu Wentao,Li Peifeng,Zhu Qiaoming.Entity and event joint extraction method based on hybrid neural network[J].Journal of Chinese Information,2019,33(8):77-83.)
[23]朱培培,王中卿,李壽山,等.基于篇章信息和Bi-GRU的中文事件檢測[J].計算機科學(xué),2020,47(12):233-238. (Zhu Peipei,Wang Zhongqing,Li Shoushan,et al.Chinese event detection based on chapter information and Bi-GRU[J].Computer Science,2020,47(12):233-238.)