衡紅軍 姚若男
(中國民航大學(xué) 天津 300300)
信息抽取旨在從非結(jié)構(gòu)化或者半結(jié)構(gòu)化的數(shù)據(jù)中提取出結(jié)構(gòu)化的信息[1]。而關(guān)系抽取作為信息抽取重要的子任務(wù),其主要目的是解決原始文本數(shù)據(jù)中的實(shí)體關(guān)系之間的分類問題,是構(gòu)建知識圖譜(knowledge graph)的重要步驟之一。基于深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)是當(dāng)前最受歡迎的方法,現(xiàn)有的基于深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)方法的關(guān)系抽取模型,大都局限于單個句子內(nèi)的二元實(shí)體的關(guān)系抽取。圖1中的兩個句子表達(dá)了這樣一個事實(shí),即在治療由EGFR-TKIs基因上的T790M突變引起的疾病時,更多使用到了阿法替尼(afatinib)藥物。兩個句子中包含三個已標(biāo)注的實(shí)體(圖中加粗表示),即三個實(shí)體之間存在響應(yīng)關(guān)系,但這在任意一個單獨(dú)的句子中都沒有體現(xiàn)。抽取這些知識顯然需要跨越句子邊界以及二元實(shí)體。

圖1 跨句多元關(guān)系抽取舉例
N元關(guān)系抽取和跨句關(guān)系抽取在之前并沒有引起太多關(guān)注。當(dāng)前已有的N元關(guān)系抽取工作集中在單個句子上進(jìn)行。跨句抽取通常使用共指來獲取不同句子中的參數(shù)對象,而沒有真正對句子間的關(guān)系建模。直到Quirk等[2]使用文檔級圖融合句間關(guān)系,將遠(yuǎn)程監(jiān)督應(yīng)用于一般的跨句關(guān)系抽取,但該研究依舊僅限于二元關(guān)系。近年來,Peng等[3]進(jìn)一步檢測多個實(shí)體之間的關(guān)系來拓展跨句關(guān)系抽取(跨句多元關(guān)系抽取),并提出了一種Graph Long Short-Term Memory Networks(Graph LSTMs)的框架。該框架將輸入文本表示為一個文檔圖,集合句內(nèi)和句間的各種依賴關(guān)系,利用圖結(jié)構(gòu)對豐富的語言知識建模。為實(shí)體學(xué)習(xí)到一個魯棒的上下文表示,作為分類器的輸入,簡化了對任意關(guān)系的處理,并使與關(guān)系相關(guān)的多任務(wù)學(xué)習(xí)成為可能。通過在一個重要的精確醫(yī)學(xué)數(shù)據(jù)集上對該框架進(jìn)行評價,證明了該框架在傳統(tǒng)監(jiān)督學(xué)習(xí)和遠(yuǎn)程監(jiān)督下的有效性。這個方法的缺點(diǎn)是將完整的文檔圖分割成兩個方向上的有向無環(huán)圖(Directed Acyclic Graph,DAG),再分別使用Graph LSTM,會造成信息的丟失。Song等[4]針對這一問題提出了一種Graph state Long Short-Term Memory Networks(Graph state LSTM)模型,它將完整的圖結(jié)構(gòu)建模成為單個狀態(tài),使用并行狀態(tài)對每個單詞進(jìn)行建模,通過消息傳遞遞歸地更新狀態(tài)值。與DAG上使用的Graph LSTMs相比,Graph state LSTM保留了原有的完整圖結(jié)構(gòu),并允許更多的并行化,從而加快了計算速度。
在現(xiàn)實(shí)世界中,包含多個句子依存關(guān)系和語篇關(guān)系的圖結(jié)構(gòu)既可能很大又可能嘈雜,如何有效地利用相關(guān)信息,同時又從圖結(jié)構(gòu)中忽略無關(guān)信息仍然是一個具有挑戰(zhàn)性的研究問題?,F(xiàn)有方法使用基于規(guī)則的硬修剪策略來選擇相關(guān)的部分依賴結(jié)構(gòu),并不總能產(chǎn)生最佳結(jié)果。問題的有效解決方法是將注意力機(jī)制整合到模型中。注意力機(jī)制會自動專注于圖中與任務(wù)相關(guān)的部分,從而幫助其做出更好的決策。
本文將Graph state LSTM與注意力機(jī)制進(jìn)行結(jié)合進(jìn)行跨句多元關(guān)系抽取,探索不同的注意力機(jī)制對使用Graph state LSTM進(jìn)行關(guān)系抽取時所產(chǎn)生的影響。在一個醫(yī)藥領(lǐng)域的三元實(shí)體關(guān)系數(shù)據(jù)集以及其二元子關(guān)系數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn),顯示本文提出的模型無論在多元的關(guān)系抽取上還是二元的關(guān)系抽取上都表現(xiàn)出了較好的性能。
傳統(tǒng)的關(guān)系抽取就是對單個句子內(nèi)的兩個實(shí)體間的關(guān)系進(jìn)行分類,主要使用的方法有三種:(1) 基于特征的方法,根據(jù)設(shè)計好的詞匯特征、句法特征、語義特征來學(xué)習(xí)良好的關(guān)系抽取模型。黃鑫等[5]融合了詞匯、實(shí)體和語法等特征,實(shí)驗(yàn)結(jié)果證明詞法、句法和語義特征的融合可以提高關(guān)系抽取的性能?;谔卣鞯姆椒ㄐ枰斯ぴO(shè)計能夠有效表示語料特性的特征,耗費(fèi)大量人力。(2) 基于核函數(shù)的方法,不需要構(gòu)造特征向量,而是把結(jié)構(gòu)樹作為處理對象,通過計算它們之間的相似度來進(jìn)行實(shí)體關(guān)系抽取。Zhao等[6]采用組合核(composite kernel)方法,先使用單獨(dú)核,然后不斷地組合核組合了多個不同的語法特征來進(jìn)行關(guān)系抽取?;诤撕瘮?shù)的方法在訓(xùn)練和預(yù)測環(huán)節(jié)速度過慢。(3) 基于神經(jīng)網(wǎng)絡(luò)的方法。近年來,基于神經(jīng)網(wǎng)絡(luò)的模型通過自動學(xué)習(xí)具有強(qiáng)大的特征表示功能,在眾多領(lǐng)域都有了令人矚目的表現(xiàn)。Zeng等[7]建立了分段最大池化的CNN模型(Piecewise Convolutional Neural Networks,PCNN),應(yīng)用在英文實(shí)體關(guān)系抽取任務(wù)上,通過與傳統(tǒng)最大池化的CNN模型的對比,該模型顯著提升了關(guān)系抽取的性能,并在遠(yuǎn)程監(jiān)督的多示例學(xué)習(xí)中取得了優(yōu)異的成績。
現(xiàn)存的大部分關(guān)系抽取方法局限于句內(nèi)的關(guān)系抽取,而忽略了句子間的實(shí)體交互關(guān)系,當(dāng)實(shí)體出現(xiàn)在不同的句子中,只有將多個句子合并起來才能表達(dá)出他們的關(guān)系。Quirk等[2]首次利用遠(yuǎn)程監(jiān)督實(shí)現(xiàn)跨句關(guān)系抽取。該文將依存關(guān)系和語篇關(guān)系結(jié)合形成一種圖結(jié)構(gòu),提供了一種統(tǒng)一的方法來對句子內(nèi)部和句子之間的關(guān)系建模。Gupta等[8]提出了一種新的基于句際型依存的神經(jīng)網(wǎng)絡(luò),通過循環(huán)和遞歸神經(jīng)網(wǎng)絡(luò)對最短和增強(qiáng)的依賴路徑進(jìn)行建模,以提取句子內(nèi)部和句間的關(guān)系。
早期對于兩個以上參數(shù)的關(guān)系抽取可追溯到MUC-7[9],重點(diǎn)是從新聞文章中提取事件。近些年,神經(jīng)網(wǎng)絡(luò)模型廣泛應(yīng)用到了語義角色標(biāo)注領(lǐng)域,Roth等[10]使用神經(jīng)網(wǎng)絡(luò)對語義角色標(biāo)記建模,同時學(xué)習(xí)依賴路徑和特征組合的嵌入,將n元關(guān)系分解為謂詞和每個參數(shù)的二元關(guān)系,但只考慮到了單個句子中的實(shí)例。
現(xiàn)實(shí)世界中很多重要數(shù)據(jù)都是圖形式存儲的,代表著各種對象及其相互關(guān)系。圖具有復(fù)雜的結(jié)構(gòu),也具有豐富的價值。如何使用深度學(xué)習(xí)方法學(xué)習(xí)圖數(shù)據(jù),引起了相當(dāng)多的關(guān)注,除了使用圖結(jié)構(gòu)的LSTM進(jìn)行圖編碼外,近年來很火爆的圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)更是被廣泛應(yīng)用到了機(jī)器學(xué)習(xí)的各個領(lǐng)域。Fu等[11]提出一種端到端關(guān)系抽取模型GraphRel,堆疊Bi-LSTM和GCN來考慮線性結(jié)構(gòu)和依賴結(jié)構(gòu),而且采用第二階段關(guān)系加權(quán)GCN進(jìn)一步建模實(shí)體與關(guān)系之間的相互作用,對實(shí)體和關(guān)系進(jìn)行端對端的聯(lián)合建模。Zhang等[12]提出了一個專用于關(guān)系抽取的圖卷積神經(jīng)網(wǎng)絡(luò)的擴(kuò)展,可以并行地在任意依賴結(jié)構(gòu)上有效地聚集信息。并提出一種新的修剪策略用于輸入樹,最大限度地去除不相關(guān)內(nèi)容的同時合并相關(guān)信息。
注意力機(jī)制現(xiàn)已被廣泛應(yīng)用在自然語言處理(NLP)領(lǐng)域的各項(xiàng)任務(wù)中,并已取得不錯的成就。Zhou等[13]提出一個基于注意力機(jī)制的雙向LSTM神經(jīng)網(wǎng)絡(luò)模型進(jìn)行關(guān)系抽取研究,注意力機(jī)制能夠自動發(fā)現(xiàn)那些對于分類起到關(guān)鍵作用的詞,使得這個模型可以從每個句子中捕獲最重要的語義信息,簡單有效。Zhang等[14]提出了一種針對關(guān)系抽取任務(wù)構(gòu)建的位置感知的神經(jīng)序列模型,充分結(jié)合基于語義相似度和位置的兩種注意力機(jī)制,來解決現(xiàn)有關(guān)系抽取模型中未對實(shí)體位置建?;蛑粚植繀^(qū)域位置建模的問題。隨著圖神經(jīng)網(wǎng)絡(luò)的發(fā)展,Zhang等[15]提出了一種以全依賴樹作為輸入的注意力引導(dǎo)圖卷積網(wǎng)絡(luò)(Attention Guided Graph Convolutional Networks,AGGCN)模型。該模型充分利用了依賴樹中的信息,以便更好地提取出相關(guān)關(guān)系。
本文研究跨句多元實(shí)體之間的關(guān)系抽取問題,以三元實(shí)體為代表提出解決方案。有一個預(yù)定義的關(guān)系集R=(r1,r2,…,rL,None),文本中的實(shí)體之間存在關(guān)系集R中的某一關(guān)系,其中None表示實(shí)體間不存在任何關(guān)系。此任務(wù)可以表示為識別實(shí)體間是否有關(guān)系的二分類問題,或者是一個多分類問題,即檢測實(shí)體之間存在的具體關(guān)系。以圖1中的實(shí)例為例,二分類任務(wù)是確定afatinib對EGFR-TKIs基因上T790M突變引發(fā)的疾病是否存在影響,多類別分類任務(wù)是檢測確切的藥物作用是“resistance or non-response”“sensitivity”“response”“resistance”和“None”中的哪一種。
傳統(tǒng)的關(guān)系抽取方法多數(shù)針對于單句二元的關(guān)系抽取,不能夠直接用在跨句多元的關(guān)系抽取問題上。因?yàn)楸硎究缇涠嘣獙?shí)體關(guān)系的詞匯和句法是稀疏的,為了處理這種稀疏性,傳統(tǒng)的基于特征的方法需要大量的特征工程和數(shù)據(jù),當(dāng)文本跨越多個句子時,這一挑戰(zhàn)則會變得更加嚴(yán)峻。所以本文使用Graph state LSTM對文檔圖進(jìn)行編碼。


圖2 文檔圖

圖3 graph state LSTM[4]
每個文檔圖包含輸入文本中的所有單詞與邊兩部分信息,分別用V、E兩個集合表示。每個邊e∈E連接兩個具有依賴關(guān)系或彼此相鄰的單詞,使用式(1)將每條邊映射到向量空間。
(1)

LSTM在解決梯度消失的同時可以學(xué)習(xí)長時依賴關(guān)系,所以Graph state LSTM使用門控LSTM來對狀態(tài)轉(zhuǎn)換進(jìn)行建模。從gt-1到gt,每個單詞與直接連接到該單詞的所有單詞進(jìn)行信息交換,在每個迭代過程中,對于單詞vj的輸入包括與vj連接(輸入與輸出)的所有邊的表示,如式(2)和式(3)所示,(i,j,l)代表源單詞索引為i,目的單詞索引為j,邊標(biāo)簽類型為l的邊,Ein(j)和Eout(j)表示單詞j的輸入和輸出邊集,以及其所有連接詞(輸入與輸出)的隱藏狀態(tài),如式(4)和式(5)所示。
(2)
(3)
(4)
(5)
根據(jù)式(2)-式(5)的定義,從gt-1到gt的循環(huán)狀態(tài)轉(zhuǎn)換公式為:
(6)
(7)
(8)
(9)
(10)
(11)

注意力神經(jīng)網(wǎng)絡(luò)近年來被廣泛應(yīng)用在了自然語言處理的各項(xiàng)任務(wù)中,并取得了不錯的成績。注意力機(jī)制能夠自動聚焦對關(guān)系抽取起到?jīng)Q定性作用的關(guān)鍵詞上,獲取句子中重要的語義信息,降低噪聲信息的影響。在本節(jié)中,將Graph state LSTM分別與單層詞級注意力機(jī)制和位置感知的注意力機(jī)制融合,比較不同的注意力機(jī)制對使用Graph state LSTM進(jìn)行關(guān)系抽取時的影響。
1) Graph state LSTM+attention。模型結(jié)構(gòu)如圖4所示,Xn指索引為n的單詞嵌入,en表示當(dāng)前單詞所有連接邊的嵌入,an為注意力權(quán)重,令H為由Graph state LSTM層產(chǎn)生的輸出向量[h1,h2,…,hT]組成的矩陣,其中T為文本總長度。句子的最終表示r由這些輸出向量的加權(quán)和組成。

圖4 Graph state LSTM+attention
M=tanh(H)
(12)
α=softmax(ωTM)
(13)
r=HαT
(14)
式中:α為權(quán)重矩陣,H∈Rdw+de,dw指詞向量的維度,de是指邊向量的維度,ω是一個可訓(xùn)練的參數(shù)向量,而ωT是ω的轉(zhuǎn)置。最終獲得句子的表示:
h*=tanh(r)
(15)
從句子表示中根據(jù)實(shí)體的索引篩選出實(shí)體的表示,作為最后預(yù)測的輸入進(jìn)行關(guān)系預(yù)測。


圖5 PA-Graph state LSTM關(guān)系抽取模型
句子中已標(biāo)識的三元實(shí)體,每一個實(shí)體可能會由多個單詞組成,三元實(shí)體分別用Xd=[d1,d1+1,…,d2],Xg=[g1,g1+1,…,g2],Xv=[v1,v1+1,…,v2]表示,d1、d2分別表示實(shí)體的開始和結(jié)束索引。給定句子s以及句子中三個實(shí)體的位置,可以使用式(16)計算每個單詞到實(shí)體的相對位置:
(16)

(17)
(18)
式中:Wh、Wq、Wd、Wg,Wv是網(wǎng)絡(luò)訓(xùn)練過程中需要學(xué)習(xí)的參數(shù)。注意力權(quán)重ai可被視為特定單詞對句子表示的相對貢獻(xiàn)。最終句子表示z的計算式為:
(19)
3) 關(guān)系分類。Graph state LSTM+attention和Graph state LSTM+位置感知注意力兩個關(guān)系抽取模型采用同樣的關(guān)系分類方法。從最終的句子表示中選出實(shí)體的最終狀態(tài)作為邏輯回歸分類器的輸入,可以很容易地推廣到任意數(shù)量關(guān)系類型。使用式(20)以進(jìn)行預(yù)測:
(20)
式中:hEN是第N個實(shí)體的隱藏狀態(tài)表示,W0和b0是模型參數(shù)。
本實(shí)驗(yàn)使用的數(shù)據(jù)集來自Peng等[3]遠(yuǎn)程監(jiān)督獲取的一個生物醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)集。該數(shù)據(jù)集中包括6 987個關(guān)于drug-gene-mutation的三元關(guān)系實(shí)例,以及6 087個關(guān)于drug-mutation二元子關(guān)系實(shí)例。表1顯示了數(shù)據(jù)集的統(tǒng)計信息,Avg.Tok和Avg.Sent分別是token和句子的平均數(shù)量。Cross是指所有實(shí)例中包含多個句子的實(shí)例所占的百分比。數(shù)據(jù)集中實(shí)例大多數(shù)包含多個句子,每個實(shí)例對應(yīng)五個預(yù)定義關(guān)系標(biāo)簽中的一個,這五種關(guān)系包括:“resistance or non-response”“sensitivity”“response”“resistance”和“None”。在本節(jié)中,進(jìn)行兩個特定任務(wù)的評估實(shí)驗(yàn),一個是n元實(shí)體的多分類任務(wù),以及n元實(shí)體的二分類任務(wù)。在進(jìn)行二分類時,對關(guān)系標(biāo)簽進(jìn)行二值化[3],將“resistance or non-response”“sensitivity”“response”和“resistance”四種關(guān)系歸為“YES”類,將“None”視為“NO”類。

表1 數(shù)據(jù)集統(tǒng)計信息表

表2 實(shí)驗(yàn)參數(shù)設(shè)置表
由于本文中使用的數(shù)據(jù)集是構(gòu)造平衡的,所以僅保留最終測試準(zhǔn)確率作為模型最終的評測指標(biāo)。實(shí)驗(yàn)過程中,使用五折交叉驗(yàn)證對模型進(jìn)行評估,并通過平均五折驗(yàn)證的準(zhǔn)確率來計算最終測試準(zhǔn)確率。對于每一折驗(yàn)證,從訓(xùn)練集中隨機(jī)分離出200個實(shí)例作為驗(yàn)證集。
為了與基模型進(jìn)行對比,本文的實(shí)驗(yàn)參數(shù)選取與Song等[4]保持一致,關(guān)系分類器使用邏輯回歸分類器。使用batch size為8的mini-batched隨機(jī)梯度下降進(jìn)行訓(xùn)練,訓(xùn)練至多30個epochs,根據(jù)驗(yàn)證集的結(jié)果實(shí)施早停法(Early stopping)。
本文使用兩類模型作為基線模型:(1) Quirk等[2]提出的基于特征的分類器,Miwa等[17]提出的基于實(shí)體對之間的最短依賴路徑建模的分類模型;(2) 圖結(jié)構(gòu)化LSTM方法,包括Peng等[2]提出的Graph LSTM,以及Song等[3]提出的雙向DAG LSTM(Bidir DAG LSTM)和Graph State LSTM(GS LSTM)。
1) 實(shí)驗(yàn)一:n元二分類實(shí)驗(yàn)。首先關(guān)注n元二分類的結(jié)果,如表3所示,其中,Single表示僅針對包含一個句子的實(shí)例進(jìn)行的實(shí)驗(yàn),而Cross表示針對所有實(shí)例的實(shí)驗(yàn)。在三元實(shí)體的關(guān)系抽取任務(wù)中,本文提出的Graph state LSTM+attention(GS LSTM+attention)模型在單句(Single)和所有實(shí)例(Cross)中的準(zhǔn)確率分別達(dá)到82.5%和84.4%,Graph state LSTM+位置感知注意力(PA GS LSTM)模型,在單句關(guān)系抽取和跨句關(guān)系抽取的準(zhǔn)確率分別達(dá)到83.1%和85.8%。在二元實(shí)體的關(guān)系抽取任務(wù)中,GS LSTM+attention模型在單句實(shí)例和所有實(shí)例中的準(zhǔn)確率分別達(dá)到84.0%和85.8%,PA GS LSTM模型在單句實(shí)例和所有實(shí)例中的準(zhǔn)確率分別達(dá)到84.9%和86.7%。兩個模型的準(zhǔn)確率均優(yōu)于基線模型,說明本文的模型是有效的。

表3 n元二分類的平均測試準(zhǔn)確度

表4 n元多分類的平均準(zhǔn)確率
驗(yàn)證1:注意力機(jī)制可關(guān)注到圖結(jié)構(gòu)中重要的節(jié)點(diǎn)信息。
因?yàn)樵诖笠?guī)模的圖結(jié)構(gòu)中節(jié)點(diǎn)較多,復(fù)雜的背景噪聲會對Graph state LSTM性能產(chǎn)生不良影響。在注意力機(jī)制的作用下,模型會關(guān)注到文檔圖中最重要的節(jié)點(diǎn)或者節(jié)點(diǎn)中最重要的信息從而提高信噪比,能夠增強(qiáng)任務(wù)中需要的有效信息,減弱噪聲信息的影響。所以加上注意力機(jī)制的Graph state LSTM用在關(guān)系抽取任務(wù)上的效果更好。
驗(yàn)證2:引入位置信息與全文信息可以更好地評價每個節(jié)點(diǎn)對圖最終表示影響。
為了分析不同組件對模型的影響程度,本文在基礎(chǔ)的GS LSTM+attention模型上分別加入表示全文信息的和向量(Q)和相對位置向量(P)分別進(jìn)行三元跨句二分類(Ternary)與二元跨句二分類(Binary)實(shí)驗(yàn)并進(jìn)行比較。實(shí)驗(yàn)結(jié)果如表5所示,五個模型使用的網(wǎng)絡(luò)結(jié)構(gòu)都保持一致。

表5 具有不同組件的模型性能
可以看出,注意力機(jī)制考慮到全文信息時,兩個實(shí)驗(yàn)準(zhǔn)確率分別比之前高了0.4%與0.3%,注意力機(jī)制考慮到實(shí)體相對位置信息時,兩個實(shí)驗(yàn)準(zhǔn)確率分別比之前高了0.7%與0.5%,GS LSTM+attention+P結(jié)果比GS LSTM+attention+Q結(jié)果更好一些,兩者融合效果更佳。
在多句文本的文檔圖中,每個詞節(jié)點(diǎn)往往要經(jīng)過多跳才能到達(dá)表示實(shí)體的詞節(jié)點(diǎn)。PA GS LSTM通過引入單詞到實(shí)體的相對位置信息,對單詞位置信息直接建模。對于評價每個節(jié)點(diǎn)對最終圖的表示影響不單從當(dāng)前詞節(jié)點(diǎn)本身考慮,根據(jù)位置信息、當(dāng)前詞信息,以及整個文本信息三個方面每個單詞節(jié)點(diǎn)對圖的最終表示做調(diào)整,并且從語義信息和序列中實(shí)體的相對位置兩方面評價每個單詞對句子表示的影響,獲得對關(guān)系抽取更有意義的上下文表示,獲取更高的關(guān)系抽取準(zhǔn)確率。
2) 實(shí)驗(yàn)二:n元多分類實(shí)驗(yàn)。同時對n元多分類結(jié)果進(jìn)行評估,結(jié)果如表3所示。由于細(xì)粒度的分類任務(wù)要比粗粒度的分類任務(wù)難得多,所以根據(jù)表4中的數(shù)據(jù)可以看出來在多分類上的結(jié)果比二分類的結(jié)果要普遍降低。本文提出的GS LSTM+attention模型在三元和二元實(shí)體的所有實(shí)例中實(shí)驗(yàn)的平均測試準(zhǔn)確度分別達(dá)到了78.3%和80.1%,PA GS LSTM模型在三元和二元實(shí)體所有實(shí)例中實(shí)驗(yàn)的平均測試準(zhǔn)確率分別達(dá)到了81.7%和84.6%,仍然比沒有使用注意力機(jī)制的Graph state LSTM進(jìn)行關(guān)系抽取時的結(jié)果要高一些,進(jìn)一步說明了模型的有效性。
表6將本文提出的模型與基模型在數(shù)據(jù)集中兩個實(shí)例上進(jìn)行關(guān)系抽取的結(jié)果進(jìn)行比較,并根據(jù)模型產(chǎn)生的注意權(quán)重不同使用不同大小和粗細(xì)的字體區(qū)別顯示單詞,越大越粗的單詞代表注意力權(quán)重越高,例句中的(d)、(g)、(v)分別代表該詞為數(shù)據(jù)集中標(biāo)記的藥物、基因、突變實(shí)體??梢园l(fā)現(xiàn),對于數(shù)據(jù)集中的復(fù)雜實(shí)例,加上注意力機(jī)制的模型也能夠很好地注意到對關(guān)系分類有貢獻(xiàn)的詞。其次,由于標(biāo)記實(shí)體對關(guān)系分類是至關(guān)重要的,所以模型向標(biāo)記實(shí)體施加了非常高的注意力權(quán)重。然而,對于某些關(guān)系指向不明顯的實(shí)例,如表6中實(shí)例2,未指明三個實(shí)體之間的關(guān)系,而是使用基因部分丟失這一隱含說明來暗示三者之間的關(guān)系,只加上詞級注意力的模型分類效果就不如PA GS LSTM,會關(guān)注到一些噪聲詞上,從而導(dǎo)致錯誤分類。

表6 關(guān)系分類實(shí)例
本文提出了引入注意力機(jī)制的Graph state LSTM模型用于跨句多元關(guān)系抽取,并研究了不同注意力機(jī)制對使用Graph state LSTM進(jìn)行跨句多元關(guān)系抽取的影響。實(shí)驗(yàn)結(jié)果表明,使用注意力機(jī)制對Graph state LSTM進(jìn)行關(guān)系抽取有一定的提升作用。位置感知的注意力機(jī)制通過對實(shí)體的相對位置建模,同時考慮到整句信息對句子最終表示的影響,對Graph state LSTM進(jìn)行關(guān)系抽取的效果提升更加明顯。未來可以嘗試采用目前主流的自注意力將注意力機(jī)制與圖神經(jīng)網(wǎng)絡(luò)相結(jié)合進(jìn)行跨句多元關(guān)系抽取,探索不同注意力機(jī)制與圖神經(jīng)網(wǎng)絡(luò)結(jié)合時,對關(guān)系抽取效果的影響。