結(jié)合注意力及膠囊網(wǎng)絡(luò)的多通道關(guān)系抽取模型

2021-02-28 08:57:16張亞彤彭敦陸

小型微型計(jì)算機(jī)系統(tǒng) 2021年10期

張亞彤，彭敦陸

(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院，上海 200093)

1 引言

隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展，用戶信息規(guī)模呈現(xiàn)出爆炸式增長.信息抽取可以從純文本的大量冗余信息中提取出有價(jià)值的信息，因此可以解決信息爆炸的問題.關(guān)系抽取[1，2]作為信息抽取的子任務(wù)之一，可以從非結(jié)構(gòu)化文本數(shù)據(jù)中自動(dòng)提取實(shí)體對(duì)之間的關(guān)系.從RE中獲得的實(shí)體關(guān)系三元組可以應(yīng)用于自然語言處理的許多下游任務(wù)中，例如：知識(shí)圖譜的構(gòu)建，智能問答等.

傳統(tǒng)有監(jiān)督關(guān)系抽取方法需要大量人工標(biāo)注數(shù)據(jù)，非常耗費(fèi)人力資源和時(shí)間.為解決這個(gè)問題，文獻(xiàn)[3]提出了遠(yuǎn)程監(jiān)督關(guān)系抽取方法，通過對(duì)齊知識(shí)庫和文本來自動(dòng)地生成訓(xùn)練數(shù)據(jù).遠(yuǎn)程監(jiān)督本質(zhì)上是一種自動(dòng)標(biāo)注樣本的方法，但它的假設(shè)太強(qiáng)，會(huì)導(dǎo)致錯(cuò)誤標(biāo)注樣本的問題.為了緩解這個(gè)問題，文獻(xiàn)[4]提出多實(shí)例遠(yuǎn)程監(jiān)督關(guān)系抽取.但是，這些方法的數(shù)據(jù)處理過度依賴于NLP工具，這將會(huì)導(dǎo)致錯(cuò)誤積累并降低關(guān)系抽取的性能.

近年來，神經(jīng)網(wǎng)絡(luò)方法逐漸應(yīng)用于關(guān)系抽取任務(wù)中，該方法無需復(fù)雜的特征工程即可自動(dòng)提取句子的特征.比如卷積神經(jīng)網(wǎng)絡(luò)[5]、循環(huán)神經(jīng)網(wǎng)絡(luò)[6]，長短期記憶網(wǎng)絡(luò)[7]和基于注意力機(jī)制的雙向長短期記憶網(wǎng)絡(luò)[8].但現(xiàn)有方法存在兩個(gè)主要問題：首先，注意力機(jī)制采取的加權(quán)和形式會(huì)丟失句子的時(shí)序信息，且這些方法采用的表示句子的方法都是單通道的.單個(gè)通道在注意力分配權(quán)重時(shí)可能會(huì)出現(xiàn)錯(cuò)誤，最能反應(yīng)實(shí)體關(guān)系的單詞可能并沒有被分配較高權(quán)重，因此單通道注意力分配機(jī)制存在著誤差，影響最終的分類結(jié)果.例如：在“Last year，microsoft sued google to stop a star computer scientist and manager at microsoft，Kai-fu Lee，from working on search technology at google.”句子中，要判斷kai-fu lee(實(shí)體1)和Microsoft(實(shí)體2)中所存在的關(guān)系，manager單詞明顯對(duì)判斷出這對(duì)實(shí)體中所存在關(guān)系更重要，但是在單通道注意力機(jī)制分配權(quán)重過程中，它可能并沒有被分配到較大的權(quán)重.如果只根據(jù)這一個(gè)通道所分配的注意力權(quán)重去進(jìn)行關(guān)系分類，就會(huì)引起誤差，但在采用多通道的注意力機(jī)制中，由于其他通道的存在，注意力機(jī)制就會(huì)有更大概率給manager單詞分配高權(quán)重.因此，采用多通道的注意力機(jī)制會(huì)平衡誤差，使模型的泛化能力更強(qiáng).其次，在實(shí)體關(guān)系分類中，實(shí)體的位置信息對(duì)于提取關(guān)系非常重要，但現(xiàn)有關(guān)系抽取方法常采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行最終關(guān)系分類，卷積神經(jīng)網(wǎng)絡(luò)在池化過程中會(huì)丟失掉大量信息，不能充分利用標(biāo)記實(shí)體的位置信息，且忽略了低層特征與高層特征之間的空間關(guān)系.

針對(duì)上述問題，本文提出了一種基于注意力機(jī)制及膠囊網(wǎng)絡(luò)的多通道關(guān)系抽取模型(BG-AMC)，該模型首先通過雙向GRU神經(jīng)網(wǎng)絡(luò)對(duì)句子詞向量進(jìn)行編碼以獲取句子的高維語義，接著利用注意力機(jī)制輔助生成句子的多通道表示，最后采用膠囊網(wǎng)絡(luò)進(jìn)行關(guān)系分類.多通道中的每個(gè)通道在遞歸傳播時(shí)互不影響，可減輕注意力機(jī)制為單詞分配權(quán)重時(shí)所產(chǎn)生的誤差，使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到同一句子的多種表示形式，減輕句子的歧義.膠囊網(wǎng)絡(luò)可充分考慮到標(biāo)記的實(shí)體及其位置信息，并克服CNN中池化操作丟失掉大量信息的問題.

2 相關(guān)工作

關(guān)系抽取是自然語言處理中最重要的任務(wù)之一.到目前為止，已經(jīng)有很多種不同的方法來進(jìn)行關(guān)系抽取，比如無監(jiān)督關(guān)系抽取、半監(jiān)督關(guān)系抽取、和有監(jiān)督關(guān)系抽取等[9，10].其中，有監(jiān)督關(guān)系抽取是常用方法，并且取得了很不錯(cuò)的效果.然而有監(jiān)督關(guān)系抽取方法嚴(yán)重依賴于高質(zhì)量的標(biāo)注數(shù)據(jù)，非常耗費(fèi)人力資源和時(shí)間.

為了解決有監(jiān)督關(guān)系抽取要人工標(biāo)注數(shù)據(jù)這個(gè)問題，文獻(xiàn)[3]采用遠(yuǎn)程監(jiān)督方法，通過對(duì)齊知識(shí)庫和文本來自動(dòng)地生成訓(xùn)練數(shù)據(jù).該方法假設(shè)如果兩個(gè)實(shí)體在知識(shí)庫中有某種關(guān)系的話，則所有包含這兩個(gè)實(shí)體的句子表達(dá)的都是這同一種關(guān)系.遠(yuǎn)程監(jiān)督本質(zhì)上是一種自動(dòng)標(biāo)注樣本的方法，但是它的假設(shè)太強(qiáng)，會(huì)導(dǎo)致錯(cuò)誤標(biāo)注樣本的問題.為了緩解這個(gè)問題，有的研究[4]將關(guān)系分類任務(wù)當(dāng)作一個(gè)多實(shí)例多標(biāo)簽的學(xué)習(xí)問題.知識(shí)庫中一個(gè)實(shí)體對(duì)的關(guān)系是已知的，而外部語料庫中包含該實(shí)體對(duì)的多個(gè)句子，表達(dá)的關(guān)系是未知的(自動(dòng)標(biāo)注的結(jié)果未知真假).多實(shí)例學(xué)習(xí)的假設(shè)是：這些句子中至少有一個(gè)句子表達(dá)了已知的關(guān)系.于是從多個(gè)句子中只挑出最重要的一個(gè)句子，作為這個(gè)實(shí)體對(duì)的樣本加入到訓(xùn)練中.文獻(xiàn)[5]提出at-least-one 多實(shí)例學(xué)習(xí)和分塊卷積神經(jīng)網(wǎng)絡(luò)(PCNNs+MIL)來進(jìn)行遠(yuǎn)程監(jiān)督關(guān)系抽取.但現(xiàn)有的遠(yuǎn)程監(jiān)督關(guān)系抽取有兩個(gè)問題：

首先，由于識(shí)別實(shí)體關(guān)系是在句子級(jí)別進(jìn)行的，有些句子可能僅包括幾個(gè)單詞，因此句子存在特征稀疏性問題.特征稀疏性更加突出了捕獲句子結(jié)構(gòu)和語義信息的重要性.許多語言現(xiàn)象(例如句子的多義性、歧義性)會(huì)影響關(guān)系分類最終分類的準(zhǔn)確率.現(xiàn)有遠(yuǎn)程監(jiān)督關(guān)系抽取方法默認(rèn)采用單通道的注意力機(jī)制去獲取句子中的單詞對(duì)判別該句實(shí)體之間的關(guān)系重要性，因此在注意力分配權(quán)重時(shí)可能存在誤差.針對(duì)這一問題，提出多通道架構(gòu)，其中多通道靈感來自于在圖像處理領(lǐng)域，圖像由3個(gè)通道(紅、綠、藍(lán))組成，每個(gè)通道都用多層神經(jīng)網(wǎng)絡(luò)層進(jìn)行處理，由于每個(gè)通道在循環(huán)傳播過程中沒有相互作用，它使神經(jīng)網(wǎng)絡(luò)能夠從每個(gè)通道學(xué)習(xí)到不同的表示，因此每個(gè)通道都包含了一個(gè)獨(dú)立的圖像描述.在關(guān)系抽取中采用多通道架構(gòu)，可以使每個(gè)單詞在同一個(gè)句子中分配到不同的注意力權(quán)重，因此學(xué)習(xí)到句子不同的表現(xiàn)形式，有助于捕捉句子的結(jié)構(gòu)和語義信息以減輕句子的歧義現(xiàn)象，使模型的泛化能力更強(qiáng).多通道概念已經(jīng)在自然語言處理領(lǐng)域得到了一些應(yīng)用，例如句子分類[11]，情感分類[12]，單詞表示[13]等.

其次，卷積神經(jīng)網(wǎng)絡(luò)(CNN)因其優(yōu)秀的特征提取能力已經(jīng)被廣泛運(yùn)用到遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù)中，但是，CNN在關(guān)系抽取中并沒有充分考慮標(biāo)記的實(shí)體及其位置信息，忽略了低層特征與高層特征之間的空間關(guān)系，并且CNN的池化操作會(huì)丟失掉大量信息.針對(duì)CNN中存在的問題，文獻(xiàn)[14]提出基于動(dòng)態(tài)路由算法的膠囊網(wǎng)絡(luò)，其中膠囊是一組向量，膠囊網(wǎng)絡(luò)解決了CNN 低層特征向高層特征傳輸時(shí)的局限性.文獻(xiàn)[15]將膠囊網(wǎng)絡(luò)應(yīng)用于文本分類模型架構(gòu)中的最后一層，以取代最大池化完成分類任務(wù)，在文本分類常用數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明膠囊網(wǎng)絡(luò)相比CNN表現(xiàn)卓越.文獻(xiàn)[16]首次將膠囊網(wǎng)絡(luò)應(yīng)用到關(guān)系分類中，在卷積操作后使用膠囊去代替池化操作，最終輸出的膠囊的個(gè)數(shù)既是關(guān)系的個(gè)數(shù)，膠囊的長度表示實(shí)體所屬類別的概率.

3 多通道及膠囊網(wǎng)絡(luò)模型

圖1 BG-AMC框架圖

3.1 句子表示

3.1.1 詞嵌入表示

詞嵌入將句子中的每個(gè)單詞映射為一個(gè)低維的實(shí)數(shù)向量，該向量可以捕獲單詞的語義信息.在本文中，給定一個(gè)包含m個(gè)單詞的句子X={w1，w2，…wm}.每個(gè)單詞wi均是實(shí)數(shù)向量，由詞嵌入矩陣V∈R|V|×d轉(zhuǎn)換而成，其中V表示詞匯表的大小，dw是詞嵌入的維度.

3.1.2 位置嵌入表示

在關(guān)系抽取任務(wù)中，靠近實(shí)體的詞通常可以為確定實(shí)體之間的關(guān)系提供更多的信息.因此，本文將句子中每個(gè)單詞到兩個(gè)實(shí)體的距離拼接到詞向量表示當(dāng)中.采用文獻(xiàn)[5]中方法，使用位置特征(PF)去指定實(shí)體對(duì)，PF是當(dāng)前單詞到兩個(gè)實(shí)體e1和e2相對(duì)距離的組合.若詞嵌入的維度為dw，位置嵌入的維度為dp，將句子中每個(gè)單詞的詞嵌入和位置嵌入連接起來，得到句子的向量序列X={x1，x2，…xm}，其中xi∈Rd(d=dw+2×dp).

3.2 Bi-GRU層

門控循環(huán)單元(GRU)是一種類似LSTM的循環(huán)神經(jīng)網(wǎng)絡(luò)，它的輸入和輸出結(jié)構(gòu)與普通的RNN是一樣的.和LSTM相比，GRU的結(jié)構(gòu)更加簡單、參數(shù)少、性能更優(yōu).GRU包括兩個(gè)門機(jī)制：重置門r和更新門z，對(duì)于某個(gè)時(shí)間節(jié)點(diǎn)t，它們的計(jì)算公式為：

zt=σ(Wzxt+Uzht-1)

(1)

rt=σ(Wrxt+Urht-1)

(2)

(3)

(4)

3.3 采用多通道的注意力機(jī)制

句子中的每一個(gè)單詞對(duì)判別該句實(shí)體之間的關(guān)系并沒有起到均等的作用.因此，本模塊采用單詞級(jí)別的注意力機(jī)制來提取對(duì)句子含義有重要影響的單詞.由于單通道的注意力機(jī)制在為單詞分配注意力權(quán)重時(shí)可能會(huì)存在誤差，所以本模塊采用多通道的單詞級(jí)別注意力機(jī)制，每個(gè)通道都用多層神經(jīng)網(wǎng)絡(luò)層進(jìn)行處理，且每個(gè)通道在循環(huán)傳播過程中沒有相互作用，它使神經(jīng)網(wǎng)絡(luò)能夠從每個(gè)通道學(xué)習(xí)到不同的表示，因此每個(gè)通道都包含了一個(gè)獨(dú)立的句子描述.假設(shè)需要得到l個(gè)通道，那么第l個(gè)通道的計(jì)算方式為：

scorelt=Wl·tanh(Wl2·ht+bl)

(5)

(6)

clt=alt·ht

(7)

Cl=[cil,ci2,…,cim]

(8)

其中，Wi、Wi2是可訓(xùn)練的參數(shù)矩陣，tanh()是雙曲正切激活函數(shù)，bl是偏置項(xiàng)，每個(gè)通道的參數(shù)獨(dú)立訓(xùn)練.exp是以e為底的指數(shù)函數(shù)，clt是第t個(gè)詞在第l個(gè)通道的高維向量表示，Cl是第l個(gè)通道的表示.

對(duì)于給定的句子包，采用文獻(xiàn)[5]提出的方法在給定句子包中選擇一句最大概率表達(dá)這種關(guān)系的句子去訓(xùn)練模型.

3.4 膠囊網(wǎng)絡(luò)

本模塊將上一層中l(wèi)個(gè)通道的結(jié)果進(jìn)行拼接，得到Ce=[C1⊕C2⊕…Cl]，其中CeRm×2×(l×B).假設(shè)ui∈Rd表示膠囊的參數(shù)集，其中d是膠囊的維度.不同窗口之間共享卷積核的大小設(shè)置為Wb∈R2×(l×B).在CeRm×2×(l×B)上以步長1每次滑動(dòng)2個(gè)向量，最終形成的矩陣為U∈R(m+1)×C×d，共C×d個(gè)卷積核.

初級(jí)子膠囊層：因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)在池化過程中會(huì)丟失掉句子的部分特征，所以本模塊在經(jīng)過卷積操作得到U矩陣后并不進(jìn)行池化操作，而是將U進(jìn)行重排列以得到初級(jí)子膠囊，最終得到的重排列結(jié)果為：U={u1，u2，…，u(m+1)×C}，其中共有(m+1)×C個(gè)d維向量作為初級(jí)子膠囊.

初級(jí)子膠囊的和通過聚類表達(dá)為高級(jí)膠囊，為了增強(qiáng)特征表示的能力，每個(gè)初級(jí)子膠囊ui在傳入高級(jí)膠囊vi之前要和轉(zhuǎn)換矩陣Wij∈Rd×d相乘得到預(yù)測向量uj|i∈Rd.為了減少訓(xùn)練參數(shù)并防止過擬合，轉(zhuǎn)換矩陣在初級(jí)子膠囊上采取共享權(quán)重Wj的方式，由于共有E種關(guān)系，所以共享權(quán)重Wj的個(gè)數(shù)取為E，轉(zhuǎn)換公式為：

uj|i=Wjui

(9)

動(dòng)態(tài)路由算法：

膠囊網(wǎng)絡(luò)中的每個(gè)初級(jí)子膠囊ui傳輸?shù)礁呒?jí)膠囊uj采用的是動(dòng)態(tài)路由算法，其算法流程見算法1[14].

算法 1.Routing algorithm

輸入：weight parameterbij

times of routingr

number of capsule layersl

1.procedureROUTING(uj|i，r,l)

2.forall capsuleiin layer and capsulejin layer(l+1)：bij←0

3.forriterationsdo

4.forall capsuleiin layerl：ci←softmax(bi)

5.forall capsulejin layer(l+1)：sj←∑1cijuj|i

7.forall capsuleiin layerlandjin layer(l+1)bij←bij+uj|i*vj

8. returnvj

輸出：vector output of capsule j：vj.

其中，bij是初始化系數(shù)，表示l層的膠囊uj|i連接到l+1層膠囊vj的可能性，bij初始值取0目的是在首次迭代時(shí)l層膠囊uj|i到l+1層膠囊vj的概率相同；r表示迭代次數(shù)；耦合系數(shù)ci|j由bij進(jìn)行迭代更新；sj表示l層膠囊uj|i的加權(quán)結(jié)果；vj的結(jié)果是由壓扁(squash)函數(shù)得到的，其長度代表了最終關(guān)系分類的概率.

動(dòng)態(tài)路由的基本思想是一個(gè)非線性映射，表示為：

其中H=(m+1)×C，E是關(guān)系的種類數(shù)(父膠囊個(gè)數(shù)).

對(duì)于實(shí)體關(guān)系分類任務(wù)，膠囊網(wǎng)絡(luò)最終輸出的向量vj表示分類結(jié)果，其長度代表分類的概率，對(duì)每個(gè)關(guān)LK系膠囊采用獨(dú)立的間隔損失：

Lk=Ykmax(0，m+-‖vk‖)2+

λ(1-Yk)max(0，‖vk‖-m-)2

(10)

如果關(guān)系k存在即Yk=1，取m+=0.9，關(guān)系k不存在即Yk=0，取m-=0.1，λ=0.5.

總損失為：

(11)

4 實(shí)驗(yàn)設(shè)置

4.1 數(shù)據(jù)集介紹

為了驗(yàn)證本模型的有效性，在Ridel NYT數(shù)據(jù)集和GIDS數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，表1總結(jié)了數(shù)據(jù)集的詳細(xì)信息.

表1 數(shù)據(jù)集詳細(xì)信息

NYT數(shù)據(jù)集是由Riedel等人[17]通過將Freebase知識(shí)庫中的關(guān)系與紐約時(shí)報(bào)語料庫(NYT)進(jìn)行啟發(fā)式對(duì)齊生成的，其中2005-2006年的句子用于訓(xùn)練集，2007年以后的句子用于測試集.數(shù)據(jù)集中的實(shí)體已由Stanford NER標(biāo)注好.該數(shù)據(jù)集在遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù)上有著廣泛的應(yīng)用.

GIDS：全稱Google Distant Supervision數(shù)據(jù)集[18]，此數(shù)據(jù)集能保證多實(shí)例學(xué)習(xí)的“at-least-one”假設(shè)成立.

4.2 模型相關(guān)參數(shù)設(shè)置

BG-SAC 模型實(shí)驗(yàn)設(shè)備的操作系統(tǒng)是 Win10，其它設(shè)備信息是 Intel(R)Core(TM)i7-8700K CPU @ 3.70GHz，64GB內(nèi)存以及兩塊NVIDIA GeForce 1080Ti 顯卡，然后在Python3.6 編程完成實(shí)驗(yàn).

在文獻(xiàn)[4，8，14]等的參數(shù)基礎(chǔ)上做了多次嘗試，在得到最優(yōu)超參數(shù)后，采用 Adam 算法對(duì)模型的訓(xùn)練進(jìn)行優(yōu)化.本文模型參數(shù)設(shè)置如表2所示.

表2 模型參數(shù)設(shè)置表

4.3 基線模型

為了評(píng)估BG-AMC模型，對(duì)比了以下基線模型：

Mintz：文獻(xiàn)[3]針對(duì)遠(yuǎn)程監(jiān)督范式提出的一個(gè)多類別邏輯回歸模型.

MultiR：文獻(xiàn)[4]針對(duì)多實(shí)例學(xué)習(xí)提出的概率圖模型.

PCNN：文獻(xiàn)[5]提出的一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取模型，該模型使用了分段最大池化來進(jìn)行句子編碼.

MIMLRE：文獻(xiàn)[19]一個(gè)同時(shí)進(jìn)行多實(shí)例和多標(biāo)簽建模的圖模型.

PCNN+ATT：文獻(xiàn)[20]在PCNN的最大池化句子編碼的基礎(chǔ)上，加入了句子級(jí)別的注意力機(jī)制.

BGWA：文獻(xiàn)[18]提出的一個(gè)基于雙向GRU加上單詞和句子級(jí)別的注意力機(jī)制的關(guān)系抽取模型.

BG-AMC：本文提出的模型，更多細(xì)節(jié)請見第5小節(jié).

4.4 評(píng)價(jià)標(biāo)準(zhǔn)

采用文獻(xiàn)[19]中的方法，使用留出法來評(píng)估模型.實(shí)驗(yàn)采用準(zhǔn)確率-召回率曲線(Precision-Recall)進(jìn)行評(píng)估，評(píng)估過程通過對(duì)比那些從測試集句子中提取到的關(guān)系和那些在Freebase中的關(guān)系來完成.準(zhǔn)確率、召回率的計(jì)算公式：

(12)

(13)

其中out_right表示輸出中預(yù)測正確的關(guān)系數(shù)量，out_all表示輸出中總共的關(guān)系數(shù)量，test_all表示測試集中總共的關(guān)系數(shù)量.

5 實(shí)驗(yàn)結(jié)果

在本節(jié)中，實(shí)驗(yàn)分析了兩個(gè)主要問題：

Q1.BG-AMC在遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù)上是否比現(xiàn)有的方法更有效？(5.1)

Q2.不同的通道數(shù)的選擇對(duì)BG-AMC的表現(xiàn)會(huì)有哪些影響?(5.2)

5.1 關(guān)系抽取結(jié)果有效性對(duì)比

為了評(píng)估BG-AMC模型的有效性，在Ridel數(shù)據(jù)集上對(duì)比了4.3節(jié)中提到的所有基線模型.在GIDS數(shù)據(jù)集上對(duì)比了神經(jīng)網(wǎng)絡(luò)的基線模型.在Riedel數(shù)據(jù)集上的準(zhǔn)確率-召回率曲線如圖2所示，在GIDS數(shù)據(jù)集上的準(zhǔn)確率-召回率曲線如圖3所示，可以得到以下結(jié)論：

圖2 Ridel數(shù)據(jù)集P-R曲線對(duì)比圖

圖3 GIDS數(shù)據(jù)集P-R曲線對(duì)比圖

1)基于神經(jīng)網(wǎng)絡(luò)的模型如PCNN、BGWA和BG-AMC都比基于特征的傳統(tǒng)模型表現(xiàn)更好，原因是因?yàn)樯窠?jīng)網(wǎng)絡(luò)模型可以避免特征選擇和NLP工具帶來的錯(cuò)誤傳播問題.

2)BGWA和PCNN+ATT模型比單純的PCNN模型取得了更好的效果，說明注意力機(jī)制能夠使模型關(guān)注于更重要的信息，忽略那些無用的信息，進(jìn)而有助于遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù).

3)本文提出的BG-AMC模型在Riedel數(shù)據(jù)集和GIDS數(shù)據(jù)集上，在大部分召回率相同的區(qū)域中，準(zhǔn)確率比其他所有的模型更高，這說明結(jié)合注意力及膠囊網(wǎng)絡(luò)的多通道方法對(duì)關(guān)系抽取的性能要優(yōu)于采取普通注意力機(jī)制的方法，多通道可以使每個(gè)單詞在同一個(gè)句子中分配到不同的注意力權(quán)重，因此可以減輕注意力分配權(quán)重時(shí)所存在的誤差，使句子在特征層次的數(shù)據(jù)增強(qiáng)，有助于捕捉句子的結(jié)構(gòu)和語義信息，在最終的關(guān)系分類時(shí)也會(huì)綜合考慮句子多個(gè)通道的表示.BG-AMC采用膠囊網(wǎng)絡(luò)來進(jìn)行最終分類，代替了卷積神經(jīng)網(wǎng)絡(luò)中可能損失大量特征信息的max-pooling，用膠囊的長度去預(yù)測關(guān)系存在的概率，有效保留了關(guān)系分類中實(shí)體的位置信息，對(duì)遠(yuǎn)程監(jiān)督關(guān)系抽取性能起到了提升效果.

5.2 通道數(shù)選擇研究

在本節(jié)中，分析了在NYT數(shù)據(jù)集上BG-AMC模型在不同通道數(shù)上的表現(xiàn).為此，本文模型用BG-AMC-{1，3，5，7}代表通道數(shù)分別為{1，3，5，7}的BG-AMC模型，不同通道數(shù)在GIDS數(shù)據(jù)集上的準(zhǔn)確率-召回率曲線如表3所示，可以得到以下結(jié)論：

表3 通道數(shù)Precison-Recall值對(duì)比結(jié)果

1)BG-AMC-3模型的表現(xiàn)效果最好，即通道數(shù)選擇為3時(shí)，實(shí)驗(yàn)效果達(dá)到最優(yōu)，因此將BG-AMC模型的通道數(shù)默認(rèn)選取為3.

2)當(dāng)通道數(shù)增加到為5時(shí)，模型效果反而有所下降，這說明通道數(shù)并不是越大越好.

3)BG-AMC-1本質(zhì)上是單通道模型，BG-AMC-3的表現(xiàn)要優(yōu)于BG-AMC-1，這個(gè)結(jié)果驗(yàn)證了多通道可以學(xué)習(xí)到更加豐富的句子表示，降低句子的歧義性，從而驗(yàn)證了本文的中心論點(diǎn)，即多通道可以提升關(guān)系分類的效果.

6 總結(jié)

本文提出了一種基于注意力機(jī)制及膠囊網(wǎng)絡(luò)的多通道關(guān)系抽取模型，模型首先通過雙向GRU神經(jīng)網(wǎng)絡(luò)對(duì)句子詞向量進(jìn)行編碼以獲取句子的高維語義，再利用注意力機(jī)制輔助生成句子的多通道表示，以解決以往單通道的注意力模型在注意力分配權(quán)重時(shí)出現(xiàn)的誤差問題.多通道中每個(gè)通道在遞歸傳播時(shí)互不影響，可以使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到同一句子的多種表示形式，以減輕句子的歧義現(xiàn)象.最后，模型采用膠囊網(wǎng)絡(luò)進(jìn)行關(guān)系分類以獲取句子實(shí)體的位置信息.在未來工作中，可將本論文中提出的方法應(yīng)用于其他自然語言處理任務(wù)中.