張勇,高大林,鞏敦衛(wèi),陶一凡
(中國礦業(yè)大學(xué) 信息與控制工程學(xué)院,江蘇 徐州 221116)
關(guān)系抽取是信息抽取的一個重要組成部分,已被成功用于醫(yī)學(xué)知識發(fā)現(xiàn)[1]、知識圖譜構(gòu)建[2]和問答推理[3]等諸多自然語言處理問題。關(guān)系抽取是指從非結(jié)構(gòu)化的文本中抽取出實體對之間的三元組信息。
現(xiàn)有關(guān)系抽取模型或方法可大體分為2類:序列模型和依賴關(guān)系模型。序列模型主要針對單詞序列進行建模[4-5],而依賴關(guān)系模型則是以句法依存關(guān)系樹為基礎(chǔ),構(gòu)建依賴關(guān)系模型[6-7]。已有研究表明,相對序列模型而言,依賴關(guān)系模型可以利用句法依存樹提取出句子中隱藏的非局部語法關(guān)系[8-9],進而建立句內(nèi)長距離的依賴關(guān)系。然而,在生成句法依存樹時,它常依賴句法結(jié)構(gòu)規(guī)則對句子結(jié)構(gòu)進行修剪。這種基于規(guī)則的修剪策略可能會刪除句子結(jié)構(gòu)所包含的重要隱式信息。為此,Guo等[10]提出了一種基于軟修剪的關(guān)系提取模型,用以實現(xiàn)模型自主學(xué)習(xí)句法結(jié)構(gòu),而無需對句法結(jié)構(gòu)進行硬性修剪。雖然所提模型可以很好地學(xué)習(xí)句法結(jié)構(gòu),但是,由于圖卷積模型本身的無向性,其對上下文中時序特征的學(xué)習(xí)能力較弱。
目前,已有學(xué)者以句法依存樹為基礎(chǔ),提出了多種圖神經(jīng)網(wǎng)絡(luò)模型,但是所提模型大多是基于圖卷積神經(jīng)網(wǎng)絡(luò)[11]。圖卷積神經(jīng)網(wǎng)絡(luò)可以很好地學(xué)習(xí)圖結(jié)構(gòu)數(shù)據(jù)的信息,卻難以有效處理時序數(shù)據(jù)。這就意味著,面向具備時序特性的文本數(shù)據(jù),只依賴圖卷積神經(jīng)網(wǎng)絡(luò)并不能很好地抽取文本中時序信息。相對圖卷積神經(jīng)網(wǎng)絡(luò),長短時記憶神經(jīng)網(wǎng)絡(luò)(long short term memory neural network,LSTM)可以有效提取上下文的時序信息。目前,部分學(xué)者開始嘗試將其用于跨句關(guān)系的抽取問題,并提出了多種圖長短時記憶神經(jīng)網(wǎng)絡(luò)[12-13]。但是,這些方法都是基于修剪后句子結(jié)構(gòu)樹的信息來構(gòu)建圖神經(jīng)網(wǎng)絡(luò),依然存在誤刪有用信息的不足。另外,傳統(tǒng)方法對句子結(jié)構(gòu)信息的使用完全依賴于句子結(jié)構(gòu)樹。如果句子結(jié)構(gòu)樹中蘊含錯誤信息,很容易累加錯誤信息。
鑒于此,本文提出一種注意力圖長短時記憶神經(jīng)網(wǎng)絡(luò)(attention graph long short term memory neural network, AGLSTM)。采用注意力機制與句子結(jié)構(gòu)樹相結(jié)合的方式建立句子的全局結(jié)構(gòu)信息,生成全局注意力權(quán)重矩陣,并將其用于構(gòu)造AGLSTM模型。所提方法不僅可以充分利用LSTM學(xué)習(xí)句子的時序結(jié)構(gòu)特征,而且可以根據(jù)句法圖信息自行學(xué)習(xí)句子的結(jié)構(gòu)特征。相對于完全依賴句子結(jié)構(gòu)樹的傳統(tǒng)方法,本文方法是在原始句子結(jié)構(gòu)樹的基礎(chǔ)上,利用注意力機制使得模型自行學(xué)習(xí)句子結(jié)構(gòu)中的信息,不僅可以得到更加有效的關(guān)系抽取模型,而且魯棒性更好。
關(guān)系抽取是自然語言處理中的一項重要分支任務(wù),在從非結(jié)構(gòu)化文本中抽取結(jié)構(gòu)性信息時起著重要作用。現(xiàn)有主流關(guān)系抽取技術(shù)可分為2種:遠(yuǎn)程監(jiān)督關(guān)系抽取[14-15]和有監(jiān)督關(guān)系抽取[5,16]。
有監(jiān)督關(guān)系抽取法把關(guān)系抽取看作一種多分類任務(wù)進行處理。早期的研究成果主要是使用核函數(shù)等機器學(xué)習(xí)方法設(shè)計分類器[17],并進行關(guān)系提取任務(wù)。隨著深度學(xué)習(xí)的興起,深度神經(jīng)網(wǎng)絡(luò)已在關(guān)系抽取中得到了廣泛應(yīng)用。Zeng等[18]采用深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)提取詞匯級和句子級特征,進而完成關(guān)系抽取;Zhang等[16]利用長短時記憶神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)實體對之間的長期依賴性;Zhang等[19]在詞嵌入的基礎(chǔ)上考慮單詞的位置和詞性、句子結(jié)構(gòu)依賴等信息,設(shè)計了一種新型的長短時記憶神經(jīng)網(wǎng)絡(luò)進行關(guān)系抽取。馬語丹等[20]通過引入注意力機制提取實體的網(wǎng)絡(luò)環(huán)境信息,生成全局的上下文特征。鑒于LSTM對文本信息建模的優(yōu)越性,以及句子結(jié)構(gòu)信息對文本關(guān)系抽取任務(wù)的重要性,學(xué)者們還提出了結(jié)合句子結(jié)構(gòu)信息建模的SDPLSTM[6]和Tree-LSTM[7]等改進模型。
遠(yuǎn)程監(jiān)督關(guān)系提取方法借助知識庫,利用知識庫中包含的知識來對非結(jié)構(gòu)化文本進行標(biāo)注。這種方法可以自動構(gòu)建大量訓(xùn)練數(shù)據(jù),不僅解決了現(xiàn)有方法數(shù)據(jù)量不足的缺點,而且增強了模型的跨領(lǐng)域適應(yīng)能力。Mintz等[21]最早提出了遠(yuǎn)程監(jiān)督的基本假設(shè),定義了遠(yuǎn)程監(jiān)督任務(wù)。然而,遠(yuǎn)程監(jiān)督在解決數(shù)據(jù)量不足的同時,容易帶來較大的噪聲。為此,越來越多的學(xué)者開始關(guān)注對遠(yuǎn)程監(jiān)督方法的改進研究。Zeng等[22]融合分段卷積神經(jīng)網(wǎng)絡(luò)和多實例學(xué)習(xí)(multiple instance learning,MIL),提出了一種混合關(guān)系提取模型。該模型通過PCNN提取句子特征,利用MIL消除錯誤樣本噪聲,進而實現(xiàn)遠(yuǎn)程監(jiān)督關(guān)系抽取。
為同時學(xué)習(xí)句法圖中句子的結(jié)構(gòu)特征和句子之間的時序結(jié)構(gòu)特征,提出一種新的圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),即注意力圖長短時記憶神經(jīng)網(wǎng)絡(luò)(AGLSTM)。圖1給出了融合AGLSTM模型的關(guān)系抽取框架。

圖1 AGLSTM模型的關(guān)系抽取框架Fig.1 Relation extraction framework based on the AGLSTM model
關(guān)系抽取方法需要考慮語料中的實體語義特征和實體位置特征。在自然語言處理領(lǐng)域中,詞向量表示常用于表示詞的語義信息。本文通過詞嵌入方法對整個語料庫進行訓(xùn)練,得到語料庫的詞向量矩陣,其中每個詞表示為一個dword維的向量wword。另外,為了更好地表示實體的語義特征,利用stanfordparser工具對語料庫進行命名實體識別(NER)分析,將生成的NER標(biāo)簽映射成一個dner維的向量wner。將wword和wner連接即為詞的實體表示向量。

將實體語義特征嵌入與實體位置特征嵌入融合,作為模型嵌入層的輸出,即wu=[wword;wner;wpos],向量長度為dw=dword+dner+2dpos。
嵌入層輸出的特征矩陣wu包含每一個單詞本身的信息,句子中每個詞所包含的信息均獨立。因為句子結(jié)構(gòu)信息包含單詞與單詞間的相互關(guān)系,所以,為更好地將數(shù)據(jù)本身與句子結(jié)構(gòu)信息相結(jié)合,需要先通過一層雙向LSTM層來獲取詞與詞之間的語義連接,方法如下:


對文本數(shù)據(jù)進行語義信息抽取時,不僅要考慮句子所包含單詞的特征信息,而且需要挖掘句子本身所蘊含的結(jié)構(gòu)信息。已有大量研究成果將句法結(jié)構(gòu)用于關(guān)系抽取,取得了很好的效果。
為建立句法結(jié)構(gòu)矩陣,首先利用句法依存分析提取出每個句子序列S={S1,S2, …,Sn}的句法結(jié)構(gòu)。例如,對句子“He said in the diary that he had assets of $250 000 and that he had recently been promoted.”進行句法分析,圖2給出了它的句法樹。接著,將提取出的句法樹信息轉(zhuǎn)換成全連接圖的矩陣形式。圖1右側(cè)句子結(jié)構(gòu)信息輸入部分展示了構(gòu)建初始鄰接權(quán)重矩陣A的過程,其中,全連接關(guān)系圖展示了擴展后的依存樹。進一步,將依存關(guān)系圖寫成矩陣形式,得到初始的句法結(jié)構(gòu)鄰接矩陣

如圖1右側(cè)句子結(jié)構(gòu)信息輸入部分中初始權(quán)重矩陣所示。將得到的鄰接矩陣A與經(jīng)過Bi-LSTM得到的文本特征相結(jié)合,輸入到所提模型的AGLSTM層。
現(xiàn)有方法大都依據(jù)句法結(jié)構(gòu)信息將句子處理成鄰接子樹,如圖2所示。因為在子樹中只有相連葉子結(jié)點的單詞可以構(gòu)成聯(lián)系,這些方法有可能丟失遠(yuǎn)程單詞之間的關(guān)聯(lián)信息。鑒于此,本文采用軟修剪策略,將句子的鄰接子樹轉(zhuǎn)換為全連接的邊加權(quán)圖;并通過注意力的形式,使模型可以根據(jù)初始鄰接矩陣信息自行訓(xùn)練注意力權(quán)重,進而更全面地學(xué)習(xí)句子的結(jié)構(gòu)信息。

圖2 句法分析樹示例Fig.2 Schematic diagram of the syntactic analysis


圖3 GLSTM網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of the GLSTM network




式中:ij、oj和fj分別是輸入門、輸出門和遺忘門;Wx、Ux和bx(x∈(i,o,f,u)) 為模型參數(shù);hj為節(jié)點j的隱藏狀態(tài)特征。
結(jié)合注意力機制和GLSTM,構(gòu)造注意力圖長短時記憶神經(jīng)網(wǎng)絡(luò)(AGLSTM)。利用注意力機制對句子結(jié)構(gòu)特征進行注意力運算,得到注意力權(quán)重矩陣Ak。Ak中每一項代表節(jié)點a到b的邊權(quán)重。采用多頭注意力機制(multi-head-attention),使模型從不同表征子空間中獲得多層面的信息,最終可得到k個注意力權(quán)重矩陣:

式中:每個矩陣Ak代表句子結(jié)構(gòu)的一個權(quán)重圖G。圖1中右側(cè)注意力層給出了注意力層輸出的k個矩陣Ak(k=1,2,···,n),每一個注意力權(quán)重矩陣Ak分別與權(quán)重圖G一一對應(yīng)。最后,將k個注意力權(quán)重矩陣進行線性變換,整合成最終的權(quán)重矩陣A,即為AGLSTM層的重要參數(shù)。
Self-attention機制可以交互計算序列中任意位置,從而捕獲整個序列內(nèi)的依賴關(guān)系。具體地,Self-attention計算公式為
ut=tanh(WwHLSTM+bw)
Ak=softmax(Wuut)
式中:HLSTM是Bi-LSTM層提取的文本特征向量;ut是以tanh為激活函數(shù)的感知機層得到的隱藏特征向量。通過softmax函數(shù)獲得標(biāo)準(zhǔn)化的權(quán)重矩陣Ak。經(jīng)過k次self-attention計算,可以得到多頭注意力機制輸出的k個注意力權(quán)重矩陣Ak。

根據(jù)多頭注意力層,可以得到k個不同的注意力權(quán)重矩陣A。AGLSTM層輸出便得到k個不同的結(jié)果。本文利用線性連接層將這k個不同的結(jié)果整合成最終的輸出特征。線性連接層定義的數(shù)學(xué)形式為
hcomb=Wcombhout+bcomb
式中:Wcomb是線性連接層的權(quán)重矩陣;bcomb是線性連接層的偏置矩陣;hcomb為最終輸出的特征。
針對最終輸出的特征hcomb,先通過最大池化層,保留句子中最重要的特征,再通過softmax函數(shù)計算每一個類別的條件概率,進而輸出模型預(yù)測特征的標(biāo)簽類別。每一個特征對應(yīng)標(biāo)簽類別的預(yù)測概率為

本節(jié)在2個常用的關(guān)系抽取數(shù)據(jù)集中驗證所提模型的有效性。它們分別是TACRED數(shù)據(jù)集[19]和SemEval 2010 task 8數(shù)據(jù)集[23]。
TACRED數(shù)據(jù)集:該數(shù)據(jù)集共106 264條實例,分為訓(xùn)練集68 124條,驗證集22 631條,測試集15 509條。數(shù)據(jù)集引入了41種關(guān)系類型和一種特殊的“no relation”類型,來描述實例中相關(guān)實體對之間的關(guān)系。
SemEval 2010 task 8數(shù)據(jù)集:該數(shù)據(jù)集主要用于對名詞性實體之間的語義關(guān)系進行分類。它采用9種關(guān)系類型和一種特殊的關(guān)系類型“Other”來描述實體對之間的關(guān)系。數(shù)據(jù)集一共包含10 717條實例,其中,8 000條實例為訓(xùn)練數(shù)據(jù),其余為測試數(shù)據(jù)。
采用Adam算法優(yōu)化本文所提模型,網(wǎng)絡(luò)隱藏層節(jié)點數(shù)設(shè)置為300。為防止過擬合,在輸入層和AGLSTM層同時引入損失率(dropout),并且在目標(biāo)函數(shù)中引入L2正則化項,正則化因子取值為0.001。對于TACRED數(shù)據(jù)集,模型參數(shù)設(shè)置學(xué)習(xí)率為0.7,在輸入層和AGLSTM層的損失率都設(shè)為0.5。對于SemEval 2010 task8數(shù)據(jù)集,模型設(shè)置學(xué)習(xí)率為0.5,在輸入層和AGLSTM層的損失率分別設(shè)為0.5和0.3。采用預(yù)訓(xùn)練好的Glove向量[24]對數(shù)據(jù)集進行詞向量訓(xùn)練,生成詞嵌入向量;結(jié)合實體位置嵌入和NER標(biāo)簽嵌入,生成最終嵌入層向量。
在注意力層,多頭注意力機制的參數(shù)k會對模型性能產(chǎn)生較大的影響。以SemEval數(shù)據(jù)集為例,依次設(shè)置k=[2,3,4,5,6],下面討論k值對所提模型性能的影響。表1展示了不同k值下所提模型的F1指標(biāo)值。可以看出,當(dāng)k=4時,模型得到了最佳的F1指標(biāo)值。鑒于此,后續(xù)實驗中設(shè)置k=4。

表1 不同k值下所提模型的實驗結(jié)果Table 1 Experimental results obtained using the proposed model with different k values %
本文采用關(guān)系抽取任務(wù)中常用的3類評價指標(biāo):精確率P、召回率R和F1值。二分類中常用的計算公式為

式中:TP(true positives)表示將正樣本預(yù)測為正的樣本數(shù);FP(false positives)表示將負(fù)樣本預(yù)測為正的樣本數(shù);FN(false nagatives)表示將正樣本預(yù)測為負(fù)的樣本數(shù)。
將AGLSTM模型與10種典型關(guān)系抽取方法進行對比,它們分別為
1)邏輯回歸模型(logistics regression, LR)。
2)支持向量機模型(support vector machine,SVM)。
3)雙向LSTM模型+注意力機制(BiLSTM+Att)[4]:該模型將雙向LSTM模型與注意力機制結(jié)合進行關(guān)系抽取。
4)位置感知注意力LSTM模型(PA-LSTM)[19]:該模型通過對引入實體位置的注意力機制建立模型。
5)最短依存路徑LSTM模型(SDP-LSTM)[6]:該模型使用2個實體之間的最短依存路徑,并結(jié)合LSTM模型進行建模。
6)樹結(jié)構(gòu)LSTM模型(tree-LSTM)[7]:不同于以往的順序LSTM模型,該模型結(jié)合句子依存關(guān)系樹將LSTM推廣到樹形結(jié)構(gòu)。
7)分段注意力LSTM模型(SA-LSTM)[25]:考慮到部分實體關(guān)系信息包含在句子中的某些片段的情況,該模型設(shè)置了分段注意力層來進行這種信息的提取,給出了分段注意力LSTM模型。
8)實體感知注意力LSTM模型(EA-LSTM)[26]:結(jié)合了實體感知注意力和潛在實體類型,該模型給出了一種新的端到端的神經(jīng)網(wǎng)絡(luò)模型。
9)圖卷積神經(jīng)網(wǎng)絡(luò)模型(GCN)[8]:該模型提出了一種以路徑為中心的剪枝策略。結(jié)合圖卷積網(wǎng)絡(luò),在最大限度保留有關(guān)內(nèi)容的同時,GCN能從樹中刪除無關(guān)信息,進一步提高關(guān)系抽取的性能。
10)注意力導(dǎo)向圖卷積神經(jīng)網(wǎng)絡(luò)模型(AGGCN)[10]:該模型給出了一種基于注意力機制的軟修剪策略,并采用圖卷積進行建模。
在上述10種對比方法中,LR與SVM是基于機器學(xué)習(xí)的模型;BiLSTM+Att、PA-LSTM、SDPLSTM、SA-LSTM和EA-LSTM隸屬于基于順序結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型;Tree-LSTM、GCN與AGGCN為基于依賴結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型。本文通過與這3大類模型進行對比,驗證所提模型的有效性。
3.5.1 數(shù)據(jù)集TACRED
表2展示了AGLSTM和對比算法處理該數(shù)據(jù)時得到的3個性能指標(biāo)值。可以看出:與基于機器學(xué)習(xí)的模型LR相比,在3個指標(biāo)(P、R和F1)上,所提AGLSTM模型都獲得了最優(yōu)的指標(biāo)值。特別地,AGLSTM所得R和F1值明顯高于LR所得值。

表2 TACRED數(shù)據(jù)集實驗結(jié)果Table 2 Experimental results on TACRED %
與3種基于順序結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型(PALSTM、SDP-LSTM和SA-LSTM)相比,AGLSTM獲得了明顯優(yōu)于3種算法的P指標(biāo)值。以PALSTM為例,AGLSTM的P指標(biāo)值提升了8.3;在召回率R指標(biāo)上,SA-LSTM和PA-LSTM的結(jié)果要好于本文所提模型AGLSTM。然而,從綜合指標(biāo)F1值來看,AGLSTM的結(jié)果要明顯優(yōu)于3種算法。相對PA-LSTM、SDP-LSTM和SA-LSTM,AGLSTM的F1指標(biāo)值分別提升了2.4、8.8和0.6。這主要因為,相比基于順序結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,AGLSTM可以同時捕捉文本中順序結(jié)構(gòu)和依賴結(jié)構(gòu)信息。
與基于依賴結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型Tree-LSTM和GCN相比,AGLSTM模型的F1值分別提高了5.1和3.5。這表明,在捕獲復(fù)雜語法特性模式、建立句子長期依賴關(guān)系模型方面,AGLSTM的能力要優(yōu)于兩種對比算法。與AGGCN模型相比,AGLSTM模型的F1值提高了2.4。這說明,AGLSTM在滿足捕獲句子結(jié)構(gòu)信息的同時,也能很好地捕獲上下文的時序信息。另外,在精確率P上,本文所提AGLSTM模型的結(jié)果也要明顯高于其他模型。綜上可見,相比于其他對比算法,AGLSTM模型是一種極具競爭力的關(guān)系抽取方法。
3.5.2 數(shù)據(jù)集SemEval 2010 task 8
將AGLSTM模型與多種典型對比算法用于該數(shù)據(jù)集,表3給出了它們所得的F1指標(biāo)值。一方面,F(xiàn)1指標(biāo)是對精確率P和召回率R的統(tǒng)一融合,可以更為全面地反映算法的性能;另一方面,相關(guān)對比文獻(xiàn)僅僅給出了該數(shù)據(jù)集的F1值。鑒于此,本文也只使用F1值作為評價指標(biāo)。

表3 SemEval數(shù)據(jù)集實驗結(jié)果Table 3 Experimental results on SemEval %
相比TACRED數(shù)據(jù)集,SemEval數(shù)據(jù)集的樣本規(guī)模較小,共有10 717條數(shù)據(jù)。通過表3可知,所提AGLSTM模型在小規(guī)模數(shù)據(jù)集SemEval上也能取得較好的效果。與基于機器學(xué)習(xí)的模型SVM相比,7種基于神經(jīng)網(wǎng)絡(luò)模型的抽取算法都獲得了較好的F1值。這說明,復(fù)雜語義信息的提取對語言模型的建立有很大幫助,也對關(guān)系抽取的結(jié)果產(chǎn)生了很大影響,而神經(jīng)網(wǎng)絡(luò)模型更適合進行語義信息的建模。與基于順序結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型(CNN+Att、Bilstm+Att、SDP-LSTM和PALSTM)相比,AGLSTM所得F1值分別提高了1.2、1.3、1.6和2.6;與基于依賴結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型SPTree和GCN相比,AGLSTM模型的F1值分別提高了0.9和0.5。這主要因為,相比這些對比算法,AGLSTM可以同時捕捉文本中順序結(jié)構(gòu)和依賴結(jié)構(gòu)等2方面信息。
表4和表5分別展示了AGLSTM模型在2個數(shù)據(jù)集上消融分析的結(jié)果。針對TACRED數(shù)據(jù)集,由表3可知:1)刪除LSTM層時,AGLSTM的F1值下降了1.8。這說明,利用LSTM對特征進行初次提取對后續(xù)GLSTM層的處理有很大的幫助。2)當(dāng)刪除注意力層時,AGLSTM模型的F1結(jié)果下降了1.7。這意味著,注意力層在模型機構(gòu)中起到很重要的作用。3)當(dāng)移除句法依存信息時,F(xiàn)1結(jié)果下降了0.5。本文所提模型是以句子結(jié)構(gòu)為基礎(chǔ)實現(xiàn)的注意力機制,所以當(dāng)除去句子結(jié)構(gòu)信息時,模型使用的注意力機制退化為依據(jù)句子順序序列實現(xiàn)的傳統(tǒng)注意力機制。可見,句子結(jié)構(gòu)信息在模型中也起到了較為重要的作用。

表4 TACRED數(shù)據(jù)集上的消融研究結(jié)果Table 4 Ablation analyses on TACRED %

表5 SemEval數(shù)據(jù)集上的消融研究結(jié)果Table 5 Ablation analyses on SemEval %
類似地,在對SemEval數(shù)據(jù)集進行分析時發(fā)現(xiàn),當(dāng)分別去掉句法依存信息、LSTM層、注意力層時,AGLSTM的F1指標(biāo)值也均有所下降。這些都說明,上述3個結(jié)構(gòu)在模型訓(xùn)練中起了重要的作用。
采用配置為2080Ti的單個GPU進行模型訓(xùn)練,圖4、5展示了所提模型在處理數(shù)據(jù)集TACRED和Semeval時消融分析的訓(xùn)練時長。可以看出,針對2個數(shù)據(jù)集,AGLSTM模型的運行花費分別為653 min和76 min;當(dāng)分別除去LSTM層、句子結(jié)構(gòu)信息和注意力機制時,模型的訓(xùn)練時間均有所降低;特別地,當(dāng)除去注意力機制時,AGLSTM運行時間的減少幅度最為明顯。這說明,注意力機制確實對模型復(fù)雜度有較大影響,同時它也顯著提高了模型的性能。此外,多頭注意力機制中的K值也會影響模型的復(fù)雜度。當(dāng)K從2變化到5時,模型訓(xùn)練的時間呈現(xiàn)遞增趨勢。
從表2和表3的實驗結(jié)果可知,相對其他對比模型,在采用相同訓(xùn)練集和測試集的情況下,所提模型在數(shù)據(jù)集TACRED和SemEval都取得了較高的F1值。這在一定程度上說明所提模型的泛化性好于其他對比模型。針對不同句子長度進行模型泛化性分析,將數(shù)據(jù)集TACRED劃分成不同句子長度的數(shù)據(jù)集,圖6展示了不同句子長度下所提模型的F1值。可以看出:1)當(dāng)句子長度位于20~60時,所提模型的F1值變化不大,而其他對比模型的F1值變化幅度都要大于本文所提模型。這說明本文所提模型更加穩(wěn)定,具有更好的泛化性和魯棒性;2)與SDP-LSTM、PA-LSTM和LSTM等基于順序神經(jīng)網(wǎng)絡(luò)的模型相比,在處理較短句子時,基于圖結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)的模型(AGLSTM和GCN)的性能表現(xiàn)略差;但是,對于復(fù)雜長句子,AGLSTM和GCN的性能遠(yuǎn)高于3種基于順序神經(jīng)網(wǎng)絡(luò)的模型。這表明,相對基于順序神經(jīng)網(wǎng)絡(luò)的模型,基于圖神經(jīng)網(wǎng)絡(luò)的模型可以更好地處理復(fù)雜句子。

圖6 句子長度分析結(jié)果Fig.6 Results of the sentence length analysis
本節(jié)通過對模型中使用的注意力機制進行可視化分析,說明所提模型更具可解釋性。注意力機制的可視化顯示了句中每個單詞對于其他詞的重要程度,可以通過注意力機制來獲得更豐富的詞匯表征。圖7展示了句子“In an August 2004 Fortune article, Countrywide CEO Angelo Mozilo was mocking WaMu for its stumbles in the mortage business.”的可視化結(jié)果。
圖7中4個子圖分別對應(yīng)4個注意力機制的頭。本文通過全連接構(gòu)建完整的句子結(jié)構(gòu),因此每個單詞對句子中所有單詞均有一個權(quán)重,圖7中顏色的深淺代表關(guān)系權(quán)重的高低,即單詞之間相關(guān)性的強弱。可以看出,圖7中對角線的顏色普遍較深,說明每個單詞對應(yīng)自己的權(quán)重最大;“Countrywide”和“Angelo Mozilo”是一對實體對,“Countrywide”是一個機構(gòu)名,它的權(quán)重主要集中在“CEO”和“article”等相近的詞上;“Angelo Mozilo”是一個人名,它的注意權(quán)重主要集中在“CEO”、“was”和“mocking”等表現(xiàn)人物特征的詞上。實際上,這些詞對“Countrywide”和“Angelo Mozilo”之間關(guān)系“org:top_members/ employees”有很重要的預(yù)測作用。因此這些詞學(xué)習(xí)到的注意力權(quán)重較大,顏色較深;其他單詞對于句子結(jié)構(gòu)信息的建模也起著一定的作用,不能完全忽略,其顏色較淺。這些都表明,模型使用的注意力機制可以更好地建模句子的全局結(jié)構(gòu)信息。

圖7 注意力機制可視化分析Fig.7 Visual analysis of the attention mechanisms
本文提出了一種新型的注意力圖長短時記憶神經(jīng)網(wǎng)絡(luò)模型(AGLSTM)。該模型將注意力機制與句子結(jié)構(gòu)樹結(jié)合,實現(xiàn)了模型自主學(xué)習(xí)句子結(jié)構(gòu)信息的功能。所提模型不僅擁有很好的捕捉復(fù)雜語義關(guān)系和依賴結(jié)構(gòu)的能力,并且彌補了圖卷積網(wǎng)絡(luò)對時序信息捕捉能力差的不足。與10種關(guān)系提取模型或方法進行對比,實驗結(jié)果表明,所提模型在關(guān)系抽取上具有較佳的性能,其準(zhǔn)確率要遠(yuǎn)高于其他對比模型。在未來工作中,將深入研究句內(nèi)結(jié)構(gòu)以及句間結(jié)構(gòu)的信息提取,將模型進行完善并應(yīng)用到句間關(guān)系抽取任務(wù)。