張亞彤,彭敦陸
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,用戶信息規(guī)模呈現(xiàn)出爆炸式增長.信息抽取可以從純文本的大量冗余信息中提取出有價(jià)值的信息,因此可以解決信息爆炸的問題.關(guān)系抽取[1,2]作為信息抽取的子任務(wù)之一,可以從非結(jié)構(gòu)化文本數(shù)據(jù)中自動(dòng)提取實(shí)體對(duì)之間的關(guān)系.從RE中獲得的實(shí)體關(guān)系三元組可以應(yīng)用于自然語言處理的許多下游任務(wù)中,例如:知識(shí)圖譜的構(gòu)建,智能問答等.
傳統(tǒng)有監(jiān)督關(guān)系抽取方法需要大量人工標(biāo)注數(shù)據(jù),非常耗費(fèi)人力資源和時(shí)間.為解決這個(gè)問題,文獻(xiàn)[3]提出了遠(yuǎn)程監(jiān)督關(guān)系抽取方法,通過對(duì)齊知識(shí)庫和文本來自動(dòng)地生成訓(xùn)練數(shù)據(jù).遠(yuǎn)程監(jiān)督本質(zhì)上是一種自動(dòng)標(biāo)注樣本的方法,但它的假設(shè)太強(qiáng),會(huì)導(dǎo)致錯(cuò)誤標(biāo)注樣本的問題.為了緩解這個(gè)問題,文獻(xiàn)[4]提出多實(shí)例遠(yuǎn)程監(jiān)督關(guān)系抽取.但是,這些方法的數(shù)據(jù)處理過度依賴于NLP工具,這將會(huì)導(dǎo)致錯(cuò)誤積累并降低關(guān)系抽取的性能.
近年來,神經(jīng)網(wǎng)絡(luò)方法逐漸應(yīng)用于關(guān)系抽取任務(wù)中,該方法無需復(fù)雜的特征工程即可自動(dòng)提取句子的特征.比如卷積神經(jīng)網(wǎng)絡(luò)[5]、循環(huán)神經(jīng)網(wǎng)絡(luò)[6],長短期記憶網(wǎng)絡(luò)[7]和基于注意力機(jī)制的雙向長短期記憶網(wǎng)絡(luò)[8].但現(xiàn)有方法存在兩個(gè)主要問題:首先,注意力機(jī)制采取的加權(quán)和形式會(huì)丟失句子的時(shí)序信息,且這些方法采用的表示句子的方法都是單通道的.單個(gè)通道在注意力分配權(quán)重時(shí)可能會(huì)出現(xiàn)錯(cuò)誤,最能反應(yīng)實(shí)體關(guān)系的單詞可能并沒有被分配較高權(quán)重,因此單通道注意力分配機(jī)制存在著誤差,影響最終的分類結(jié)果.例如:在“Last year,microsoft sued google to stop a star computer scientist and manager at microsoft,Kai-fu Lee,from working on search technology at google.”句子中,要判斷kai-fu lee(實(shí)體1)和Microsoft(實(shí)體2)中所存在的關(guān)系,manager單詞明顯對(duì)判斷出這對(duì)實(shí)體中所存在關(guān)系更重要,但是在單通道注意力機(jī)制分配權(quán)重過程中,它可能并沒有被分配到較大的權(quán)重.如果只根據(jù)這一個(gè)通道所分配的注意力權(quán)重去進(jìn)行關(guān)系分類,就會(huì)引起誤差,但在采用多通道的注意力機(jī)制中,由于其他通道的存在,注意力機(jī)制就會(huì)有更大概率給manager單詞分配高權(quán)重.因此,采用多通道的注意力機(jī)制會(huì)平衡誤差,使模型的泛化能力更強(qiáng).其次,在實(shí)體關(guān)系分類中,實(shí)體的位置信息對(duì)于提取關(guān)系非常重要,但現(xiàn)有關(guān)系抽取方法常采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行最終關(guān)系分類,卷積神經(jīng)網(wǎng)絡(luò)在池化過程中會(huì)丟失掉大量信息,不能充分利用標(biāo)記實(shí)體的位置信息,且忽略了低層特征與高層特征之間的空間關(guān)系.
針對(duì)上述問題,本文提出了一種基于注意力機(jī)制及膠囊網(wǎng)絡(luò)的多通道關(guān)系抽取模型(BG-AMC),該模型首先通過雙向GRU神經(jīng)網(wǎng)絡(luò)對(duì)句子詞向量進(jìn)行編碼以獲取句子的高維語義,接著利用注意力機(jī)制輔助生成句子的多通道表示,最后采用膠囊網(wǎng)絡(luò)進(jìn)行關(guān)系分類.多通道中的每個(gè)通道在遞歸傳播時(shí)互不影響,可減輕注意力機(jī)制為單詞分配權(quán)重時(shí)所產(chǎn)生的誤差,使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到同一句子的多種表示形式,減輕句子的歧義.膠囊網(wǎng)絡(luò)可充分考慮到標(biāo)記的實(shí)體及其位置信息,并克服CNN中池化操作丟失掉大量信息的問題.
關(guān)系抽取是自然語言處理中最重要的任務(wù)之一.到目前為止,已經(jīng)有很多種不同的方法來進(jìn)行關(guān)系抽取,比如無監(jiān)督關(guān)系抽取、半監(jiān)督關(guān)系抽取、和有監(jiān)督關(guān)系抽取等[9,10].其中,有監(jiān)督關(guān)系抽取是常用方法,并且取得了很不錯(cuò)的效果.然而有監(jiān)督關(guān)系抽取方法嚴(yán)重依賴于高質(zhì)量的標(biāo)注數(shù)據(jù),非常耗費(fèi)人力資源和時(shí)間.
為了解決有監(jiān)督關(guān)系抽取要人工標(biāo)注數(shù)據(jù)這個(gè)問題,文獻(xiàn)[3]采用遠(yuǎn)程監(jiān)督方法,通過對(duì)齊知識(shí)庫和文本來自動(dòng)地生成訓(xùn)練數(shù)據(jù).該方法假設(shè)如果兩個(gè)實(shí)體在知識(shí)庫中有某種關(guān)系的話,則所有包含這兩個(gè)實(shí)體的句子表達(dá)的都是這同一種關(guān)系.遠(yuǎn)程監(jiān)督本質(zhì)上是一種自動(dòng)標(biāo)注樣本的方法,但是它的假設(shè)太強(qiáng),會(huì)導(dǎo)致錯(cuò)誤標(biāo)注樣本的問題.為了緩解這個(gè)問題,有的研究[4]將關(guān)系分類任務(wù)當(dāng)作一個(gè)多實(shí)例多標(biāo)簽的學(xué)習(xí)問題.知識(shí)庫中一個(gè)實(shí)體對(duì)的關(guān)系是已知的,而外部語料庫中包含該實(shí)體對(duì)的多個(gè)句子,表達(dá)的關(guān)系是未知的(自動(dòng)標(biāo)注的結(jié)果未知真假).多實(shí)例學(xué)習(xí)的假設(shè)是:這些句子中至少有一個(gè)句子表達(dá)了已知的關(guān)系.于是從多個(gè)句子中只挑出最重要的一個(gè)句子,作為這個(gè)實(shí)體對(duì)的樣本加入到訓(xùn)練中.文獻(xiàn)[5]提出at-least-one 多實(shí)例學(xué)習(xí)和分塊卷積神經(jīng)網(wǎng)絡(luò)(PCNNs+MIL)來進(jìn)行遠(yuǎn)程監(jiān)督關(guān)系抽取.但現(xiàn)有的遠(yuǎn)程監(jiān)督關(guān)系抽取有兩個(gè)問題:
首先,由于識(shí)別實(shí)體關(guān)系是在句子級(jí)別進(jìn)行的,有些句子可能僅包括幾個(gè)單詞,因此句子存在特征稀疏性問題.特征稀疏性更加突出了捕獲句子結(jié)構(gòu)和語義信息的重要性.許多語言現(xiàn)象(例如句子的多義性、歧義性)會(huì)影響關(guān)系分類最終分類的準(zhǔn)確率.現(xiàn)有遠(yuǎn)程監(jiān)督關(guān)系抽取方法默認(rèn)采用單通道的注意力機(jī)制去獲取句子中的單詞對(duì)判別該句實(shí)體之間的關(guān)系重要性,因此在注意力分配權(quán)重時(shí)可能存在誤差.針對(duì)這一問題,提出多通道架構(gòu),其中多通道靈感來自于在圖像處理領(lǐng)域,圖像由3個(gè)通道(紅、綠、藍(lán))組成,每個(gè)通道都用多層神經(jīng)網(wǎng)絡(luò)層進(jìn)行處理,由于每個(gè)通道在循環(huán)傳播過程中沒有相互作用,它使神經(jīng)網(wǎng)絡(luò)能夠從每個(gè)通道學(xué)習(xí)到不同的表示,因此每個(gè)通道都包含了一個(gè)獨(dú)立的圖像描述.在關(guān)系抽取中采用多通道架構(gòu),可以使每個(gè)單詞在同一個(gè)句子中分配到不同的注意力權(quán)重,因此學(xué)習(xí)到句子不同的表現(xiàn)形式,有助于捕捉句子的結(jié)構(gòu)和語義信息以減輕句子的歧義現(xiàn)象,使模型的泛化能力更強(qiáng).多通道概念已經(jīng)在自然語言處理領(lǐng)域得到了一些應(yīng)用,例如句子分類[11],情感分類[12],單詞表示[13]等.
其次,卷積神經(jīng)網(wǎng)絡(luò)(CNN)因其優(yōu)秀的特征提取能力已經(jīng)被廣泛運(yùn)用到遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù)中,但是,CNN在關(guān)系抽取中并沒有充分考慮標(biāo)記的實(shí)體及其位置信息,忽略了低層特征與高層特征之間的空間關(guān)系,并且CNN的池化操作會(huì)丟失掉大量信息.針對(duì)CNN中存在的問題,文獻(xiàn)[14]提出基于動(dòng)態(tài)路由算法的膠囊網(wǎng)絡(luò),其中膠囊是一組向量,膠囊網(wǎng)絡(luò)解決了CNN 低層特征向高層特征傳輸時(shí)的局限性.文獻(xiàn)[15]將膠囊網(wǎng)絡(luò)應(yīng)用于文本分類模型架構(gòu)中的最后一層,以取代最大池化完成分類任務(wù),在文本分類常用數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明膠囊網(wǎng)絡(luò)相比CNN表現(xiàn)卓越.文獻(xiàn)[16]首次將膠囊網(wǎng)絡(luò)應(yīng)用到關(guān)系分類中,在卷積操作后使用膠囊去代替池化操作,最終輸出的膠囊的個(gè)數(shù)既是關(guān)系的個(gè)數(shù),膠囊的長度表示實(shí)體所屬類別的概率.


圖1 BG-AMC框架圖
3.1.1 詞嵌入表示
詞嵌入將句子中的每個(gè)單詞映射為一個(gè)低維的實(shí)數(shù)向量,該向量可以捕獲單詞的語義信息.在本文中,給定一個(gè)包含m個(gè)單詞的句子X={w1,w2,…wm}.每個(gè)單詞wi均是實(shí)數(shù)向量,由詞嵌入矩陣V∈R|V|×d轉(zhuǎn)換而成,其中V表示詞匯表的大小,dw是詞嵌入的維度.
3.1.2 位置嵌入表示
在關(guān)系抽取任務(wù)中,靠近實(shí)體的詞通常可以為確定實(shí)體之間的關(guān)系提供更多的信息.因此,本文將句子中每個(gè)單詞到兩個(gè)實(shí)體的距離拼接到詞向量表示當(dāng)中.采用文獻(xiàn)[5]中方法,使用位置特征(PF)去指定實(shí)體對(duì),PF是當(dāng)前單詞到兩個(gè)實(shí)體e1和e2相對(duì)距離的組合.若詞嵌入的維度為dw,位置嵌入的維度為dp,將句子中每個(gè)單詞的詞嵌入和位置嵌入連接起來,得到句子的向量序列X={x1,x2,…xm},其中xi∈Rd(d=dw+2×dp).
門控循環(huán)單元(GRU)是一種類似LSTM的循環(huán)神經(jīng)網(wǎng)絡(luò),它的輸入和輸出結(jié)構(gòu)與普通的RNN是一樣的.和LSTM相比,GRU的結(jié)構(gòu)更加簡單、參數(shù)少、性能更優(yōu).GRU包括兩個(gè)門機(jī)制:重置門r和更新門z,對(duì)于某個(gè)時(shí)間節(jié)點(diǎn)t,它們的計(jì)算公式為:
zt=σ(Wzxt+Uzht-1)
(1)
rt=σ(Wrxt+Urht-1)
(2)

(3)

(4)


句子中的每一個(gè)單詞對(duì)判別該句實(shí)體之間的關(guān)系并沒有起到均等的作用.因此,本模塊采用單詞級(jí)別的注意力機(jī)制來提取對(duì)句子含義有重要影響的單詞.由于單通道的注意力機(jī)制在為單詞分配注意力權(quán)重時(shí)可能會(huì)存在誤差,所以本模塊采用多通道的單詞級(jí)別注意力機(jī)制,每個(gè)通道都用多層神經(jīng)網(wǎng)絡(luò)層進(jìn)行處理,且每個(gè)通道在循環(huán)傳播過程中沒有相互作用,它使神經(jīng)網(wǎng)絡(luò)能夠從每個(gè)通道學(xué)習(xí)到不同的表示,因此每個(gè)通道都包含了一個(gè)獨(dú)立的句子描述.假設(shè)需要得到l個(gè)通道,那么第l個(gè)通道的計(jì)算方式為:
scorelt=Wl·tanh(Wl2·ht+bl)
(5)
(6)
clt=alt·ht
(7)
Cl=[cil,ci2,…,cim]
(8)
其中,Wi、Wi2是可訓(xùn)練的參數(shù)矩陣,tanh()是雙曲正切激活函數(shù),bl是偏置項(xiàng),每個(gè)通道的參數(shù)獨(dú)立訓(xùn)練.exp是以e為底的指數(shù)函數(shù),clt是第t個(gè)詞在第l個(gè)通道的高維向量表示,Cl是第l個(gè)通道的表示.
對(duì)于給定的句子包,采用文獻(xiàn)[5]提出的方法在給定句子包中選擇一句最大概率表達(dá)這種關(guān)系的句子去訓(xùn)練模型.
本模塊將上一層中l(wèi)個(gè)通道的結(jié)果進(jìn)行拼接,得到Ce=[C1⊕C2⊕…Cl],其中CeRm×2×(l×B).假設(shè)ui∈Rd表示膠囊的參數(shù)集,其中d是膠囊的維度.不同窗口之間共享卷積核的大小設(shè)置為Wb∈R2×(l×B).在CeRm×2×(l×B)上以步長1每次滑動(dòng)2個(gè)向量,最終形成的矩陣為U∈R(m+1)×C×d,共C×d個(gè)卷積核.
初級(jí)子膠囊層:因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)在池化過程中會(huì)丟失掉句子的部分特征,所以本模塊在經(jīng)過卷積操作得到U矩陣后并不進(jìn)行池化操作,而是將U進(jìn)行重排列以得到初級(jí)子膠囊,最終得到的重排列結(jié)果為:U={u1,u2,…,u(m+1)×C},其中共有(m+1)×C個(gè)d維向量作為初級(jí)子膠囊.
初級(jí)子膠囊的和通過聚類表達(dá)為高級(jí)膠囊,為了增強(qiáng)特征表示的能力,每個(gè)初級(jí)子膠囊ui在傳入高級(jí)膠囊vi之前要和轉(zhuǎn)換矩陣Wij∈Rd×d相乘得到預(yù)測向量uj|i∈Rd.為了減少訓(xùn)練參數(shù)并防止過擬合,轉(zhuǎn)換矩陣在初級(jí)子膠囊上采取共享權(quán)重Wj的方式,由于共有E種關(guān)系,所以共享權(quán)重Wj的個(gè)數(shù)取為E,轉(zhuǎn)換公式為:
uj|i=Wjui
(9)
動(dòng)態(tài)路由算法:
膠囊網(wǎng)絡(luò)中的每個(gè)初級(jí)子膠囊ui傳輸?shù)礁呒?jí)膠囊uj采用的是動(dòng)態(tài)路由算法,其算法流程見算法1[14].
算法 1.Routing algorithm
輸入:weight parameterbij
times of routingr
number of capsule layersl
1.procedureROUTING(uj|i,r,l)
2.forall capsuleiin layer and capsulejin layer(l+1):bij←0
3.forriterationsdo
4.forall capsuleiin layerl:ci←softmax(bi)
5.forall capsulejin layer(l+1):sj←∑1cijuj|i

7.forall capsuleiin layerlandjin layer(l+1)bij←bij+uj|i*vj
8. returnvj
輸出:vector output of capsule j:vj.
其中,bij是初始化系數(shù),表示l層的膠囊uj|i連接到l+1層膠囊vj的可能性,bij初始值取0目的是在首次迭代時(shí)l層膠囊uj|i到l+1層膠囊vj的概率相同;r表示迭代次數(shù);耦合系數(shù)ci|j由bij進(jìn)行迭代更新;sj表示l層膠囊uj|i的加權(quán)結(jié)果;vj的結(jié)果是由壓扁(squash)函數(shù)得到的,其長度代表了最終關(guān)系分類的概率.
動(dòng)態(tài)路由的基本思想是一個(gè)非線性映射,表示為:
其中H=(m+1)×C,E是關(guān)系的種類數(shù)(父膠囊個(gè)數(shù)).
對(duì)于實(shí)體關(guān)系分類任務(wù),膠囊網(wǎng)絡(luò)最終輸出的向量vj表示分類結(jié)果,其長度代表分類的概率,對(duì)每個(gè)關(guān)LK系膠囊采用獨(dú)立的間隔損失:
Lk=Ykmax(0,m+-‖vk‖)2+
λ(1-Yk)max(0,‖vk‖-m-)2
(10)
如果關(guān)系k存在即Yk=1,取m+=0.9,關(guān)系k不存在即Yk=0,取m-=0.1,λ=0.5.
總損失為:
(11)
為了驗(yàn)證本模型的有效性,在Ridel NYT數(shù)據(jù)集和GIDS數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),表1總結(jié)了數(shù)據(jù)集的詳細(xì)信息.

表1 數(shù)據(jù)集詳細(xì)信息
NYT數(shù)據(jù)集是由Riedel等人[17]通過將Freebase知識(shí)庫中的關(guān)系與紐約時(shí)報(bào)語料庫(NYT)進(jìn)行啟發(fā)式對(duì)齊生成的,其中2005-2006年的句子用于訓(xùn)練集,2007年以后的句子用于測試集.數(shù)據(jù)集中的實(shí)體已由Stanford NER標(biāo)注好.該數(shù)據(jù)集在遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù)上有著廣泛的應(yīng)用.
GIDS:全稱Google Distant Supervision數(shù)據(jù)集[18],此數(shù)據(jù)集能保證多實(shí)例學(xué)習(xí)的“at-least-one”假設(shè)成立.
BG-SAC 模型實(shí)驗(yàn)設(shè)備的操作系統(tǒng)是 Win10,其它設(shè)備信息是 Intel(R)Core(TM)i7-8700K CPU @ 3.70GHz,64GB內(nèi)存以及兩塊NVIDIA GeForce 1080Ti 顯卡,然后在Python3.6 編程完成實(shí)驗(yàn).
在文獻(xiàn)[4,8,14]等的參數(shù)基礎(chǔ)上做了多次嘗試,在得到最優(yōu)超參數(shù)后,采用 Adam 算法對(duì)模型的訓(xùn)練進(jìn)行優(yōu)化.本文模型參數(shù)設(shè)置如表2所示.

表2 模型參數(shù)設(shè)置表
為了評(píng)估BG-AMC模型,對(duì)比了以下基線模型:
Mintz:文獻(xiàn)[3]針對(duì)遠(yuǎn)程監(jiān)督范式提出的一個(gè)多類別邏輯回歸模型.
MultiR:文獻(xiàn)[4]針對(duì)多實(shí)例學(xué)習(xí)提出的概率圖模型.
PCNN:文獻(xiàn)[5]提出的一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取模型,該模型使用了分段最大池化來進(jìn)行句子編碼.
MIMLRE:文獻(xiàn)[19]一個(gè)同時(shí)進(jìn)行多實(shí)例和多標(biāo)簽建模的圖模型.
PCNN+ATT:文獻(xiàn)[20]在PCNN的最大池化句子編碼的基礎(chǔ)上,加入了句子級(jí)別的注意力機(jī)制.
BGWA:文獻(xiàn)[18]提出的一個(gè)基于雙向GRU加上單詞和句子級(jí)別的注意力機(jī)制的關(guān)系抽取模型.
BG-AMC:本文提出的模型,更多細(xì)節(jié)請見第5小節(jié).
采用文獻(xiàn)[19]中的方法,使用留出法來評(píng)估模型.實(shí)驗(yàn)采用準(zhǔn)確率-召回率曲線(Precision-Recall)進(jìn)行評(píng)估,評(píng)估過程通過對(duì)比那些從測試集句子中提取到的關(guān)系和那些在Freebase中的關(guān)系來完成.準(zhǔn)確率、召回率的計(jì)算公式:
(12)
(13)
其中out_right表示輸出中預(yù)測正確的關(guān)系數(shù)量,out_all表示輸出中總共的關(guān)系數(shù)量,test_all表示測試集中總共的關(guān)系數(shù)量.
在本節(jié)中,實(shí)驗(yàn)分析了兩個(gè)主要問題:
Q1.BG-AMC在遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù)上是否比現(xiàn)有的方法更有效?(5.1)
Q2.不同的通道數(shù)的選擇對(duì)BG-AMC的表現(xiàn)會(huì)有哪些影響?(5.2)
為了評(píng)估BG-AMC模型的有效性,在Ridel數(shù)據(jù)集上對(duì)比了4.3節(jié)中提到的所有基線模型.在GIDS數(shù)據(jù)集上對(duì)比了神經(jīng)網(wǎng)絡(luò)的基線模型.在Riedel數(shù)據(jù)集上的準(zhǔn)確率-召回率曲線如圖2所示,在GIDS數(shù)據(jù)集上的準(zhǔn)確率-召回率曲線如圖3所示,可以得到以下結(jié)論:

圖2 Ridel數(shù)據(jù)集P-R曲線對(duì)比圖

圖3 GIDS數(shù)據(jù)集P-R曲線對(duì)比圖
1)基于神經(jīng)網(wǎng)絡(luò)的模型如PCNN、BGWA和BG-AMC都比基于特征的傳統(tǒng)模型表現(xiàn)更好,原因是因?yàn)樯窠?jīng)網(wǎng)絡(luò)模型可以避免特征選擇和NLP工具帶來的錯(cuò)誤傳播問題.
2)BGWA和PCNN+ATT模型比單純的PCNN模型取得了更好的效果,說明注意力機(jī)制能夠使模型關(guān)注于更重要的信息,忽略那些無用的信息,進(jìn)而有助于遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù).
3)本文提出的BG-AMC模型在Riedel數(shù)據(jù)集和GIDS數(shù)據(jù)集上,在大部分召回率相同的區(qū)域中,準(zhǔn)確率比其他所有的模型更高,這說明結(jié)合注意力及膠囊網(wǎng)絡(luò)的多通道方法對(duì)關(guān)系抽取的性能要優(yōu)于采取普通注意力機(jī)制的方法,多通道可以使每個(gè)單詞在同一個(gè)句子中分配到不同的注意力權(quán)重,因此可以減輕注意力分配權(quán)重時(shí)所存在的誤差,使句子在特征層次的數(shù)據(jù)增強(qiáng),有助于捕捉句子的結(jié)構(gòu)和語義信息,在最終的關(guān)系分類時(shí)也會(huì)綜合考慮句子多個(gè)通道的表示.BG-AMC采用膠囊網(wǎng)絡(luò)來進(jìn)行最終分類,代替了卷積神經(jīng)網(wǎng)絡(luò)中可能損失大量特征信息的max-pooling,用膠囊的長度去預(yù)測關(guān)系存在的概率,有效保留了關(guān)系分類中實(shí)體的位置信息,對(duì)遠(yuǎn)程監(jiān)督關(guān)系抽取性能起到了提升效果.
在本節(jié)中,分析了在NYT數(shù)據(jù)集上BG-AMC模型在不同通道數(shù)上的表現(xiàn).為此,本文模型用BG-AMC-{1,3,5,7}代表通道數(shù)分別為{1,3,5,7}的BG-AMC模型,不同通道數(shù)在GIDS數(shù)據(jù)集上的準(zhǔn)確率-召回率曲線如表3所示,可以得到以下結(jié)論:

表3 通道數(shù)Precison-Recall值對(duì)比結(jié)果
1)BG-AMC-3模型的表現(xiàn)效果最好,即通道數(shù)選擇為3時(shí),實(shí)驗(yàn)效果達(dá)到最優(yōu),因此將BG-AMC模型的通道數(shù)默認(rèn)選取為3.
2)當(dāng)通道數(shù)增加到為5時(shí),模型效果反而有所下降,這說明通道數(shù)并不是越大越好.
3)BG-AMC-1本質(zhì)上是單通道模型,BG-AMC-3的表現(xiàn)要優(yōu)于BG-AMC-1,這個(gè)結(jié)果驗(yàn)證了多通道可以學(xué)習(xí)到更加豐富的句子表示,降低句子的歧義性,從而驗(yàn)證了本文的中心論點(diǎn),即多通道可以提升關(guān)系分類的效果.
本文提出了一種基于注意力機(jī)制及膠囊網(wǎng)絡(luò)的多通道關(guān)系抽取模型,模型首先通過雙向GRU神經(jīng)網(wǎng)絡(luò)對(duì)句子詞向量進(jìn)行編碼以獲取句子的高維語義,再利用注意力機(jī)制輔助生成句子的多通道表示,以解決以往單通道的注意力模型在注意力分配權(quán)重時(shí)出現(xiàn)的誤差問題.多通道中每個(gè)通道在遞歸傳播時(shí)互不影響,可以使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到同一句子的多種表示形式,以減輕句子的歧義現(xiàn)象.最后,模型采用膠囊網(wǎng)絡(luò)進(jìn)行關(guān)系分類以獲取句子實(shí)體的位置信息.在未來工作中,可將本論文中提出的方法應(yīng)用于其他自然語言處理任務(wù)中.