999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結(jié)合注意力及膠囊網(wǎng)絡(luò)的多通道關(guān)系抽取模型

2021-02-28 08:57:16張亞彤彭敦陸
關(guān)鍵詞:單詞分類模型

張亞彤,彭敦陸

(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)

1 引 言

隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,用戶信息規(guī)模呈現(xiàn)出爆炸式增長.信息抽取可以從純文本的大量冗余信息中提取出有價(jià)值的信息,因此可以解決信息爆炸的問題.關(guān)系抽取[1,2]作為信息抽取的子任務(wù)之一,可以從非結(jié)構(gòu)化文本數(shù)據(jù)中自動(dòng)提取實(shí)體對(duì)之間的關(guān)系.從RE中獲得的實(shí)體關(guān)系三元組可以應(yīng)用于自然語言處理的許多下游任務(wù)中,例如:知識(shí)圖譜的構(gòu)建,智能問答等.

傳統(tǒng)有監(jiān)督關(guān)系抽取方法需要大量人工標(biāo)注數(shù)據(jù),非常耗費(fèi)人力資源和時(shí)間.為解決這個(gè)問題,文獻(xiàn)[3]提出了遠(yuǎn)程監(jiān)督關(guān)系抽取方法,通過對(duì)齊知識(shí)庫和文本來自動(dòng)地生成訓(xùn)練數(shù)據(jù).遠(yuǎn)程監(jiān)督本質(zhì)上是一種自動(dòng)標(biāo)注樣本的方法,但它的假設(shè)太強(qiáng),會(huì)導(dǎo)致錯(cuò)誤標(biāo)注樣本的問題.為了緩解這個(gè)問題,文獻(xiàn)[4]提出多實(shí)例遠(yuǎn)程監(jiān)督關(guān)系抽取.但是,這些方法的數(shù)據(jù)處理過度依賴于NLP工具,這將會(huì)導(dǎo)致錯(cuò)誤積累并降低關(guān)系抽取的性能.

近年來,神經(jīng)網(wǎng)絡(luò)方法逐漸應(yīng)用于關(guān)系抽取任務(wù)中,該方法無需復(fù)雜的特征工程即可自動(dòng)提取句子的特征.比如卷積神經(jīng)網(wǎng)絡(luò)[5]、循環(huán)神經(jīng)網(wǎng)絡(luò)[6],長短期記憶網(wǎng)絡(luò)[7]和基于注意力機(jī)制的雙向長短期記憶網(wǎng)絡(luò)[8].但現(xiàn)有方法存在兩個(gè)主要問題:首先,注意力機(jī)制采取的加權(quán)和形式會(huì)丟失句子的時(shí)序信息,且這些方法采用的表示句子的方法都是單通道的.單個(gè)通道在注意力分配權(quán)重時(shí)可能會(huì)出現(xiàn)錯(cuò)誤,最能反應(yīng)實(shí)體關(guān)系的單詞可能并沒有被分配較高權(quán)重,因此單通道注意力分配機(jī)制存在著誤差,影響最終的分類結(jié)果.例如:在“Last year,microsoft sued google to stop a star computer scientist and manager at microsoft,Kai-fu Lee,from working on search technology at google.”句子中,要判斷kai-fu lee(實(shí)體1)和Microsoft(實(shí)體2)中所存在的關(guān)系,manager單詞明顯對(duì)判斷出這對(duì)實(shí)體中所存在關(guān)系更重要,但是在單通道注意力機(jī)制分配權(quán)重過程中,它可能并沒有被分配到較大的權(quán)重.如果只根據(jù)這一個(gè)通道所分配的注意力權(quán)重去進(jìn)行關(guān)系分類,就會(huì)引起誤差,但在采用多通道的注意力機(jī)制中,由于其他通道的存在,注意力機(jī)制就會(huì)有更大概率給manager單詞分配高權(quán)重.因此,采用多通道的注意力機(jī)制會(huì)平衡誤差,使模型的泛化能力更強(qiáng).其次,在實(shí)體關(guān)系分類中,實(shí)體的位置信息對(duì)于提取關(guān)系非常重要,但現(xiàn)有關(guān)系抽取方法常采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行最終關(guān)系分類,卷積神經(jīng)網(wǎng)絡(luò)在池化過程中會(huì)丟失掉大量信息,不能充分利用標(biāo)記實(shí)體的位置信息,且忽略了低層特征與高層特征之間的空間關(guān)系.

針對(duì)上述問題,本文提出了一種基于注意力機(jī)制及膠囊網(wǎng)絡(luò)的多通道關(guān)系抽取模型(BG-AMC),該模型首先通過雙向GRU神經(jīng)網(wǎng)絡(luò)對(duì)句子詞向量進(jìn)行編碼以獲取句子的高維語義,接著利用注意力機(jī)制輔助生成句子的多通道表示,最后采用膠囊網(wǎng)絡(luò)進(jìn)行關(guān)系分類.多通道中的每個(gè)通道在遞歸傳播時(shí)互不影響,可減輕注意力機(jī)制為單詞分配權(quán)重時(shí)所產(chǎn)生的誤差,使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到同一句子的多種表示形式,減輕句子的歧義.膠囊網(wǎng)絡(luò)可充分考慮到標(biāo)記的實(shí)體及其位置信息,并克服CNN中池化操作丟失掉大量信息的問題.

2 相關(guān)工作

關(guān)系抽取是自然語言處理中最重要的任務(wù)之一.到目前為止,已經(jīng)有很多種不同的方法來進(jìn)行關(guān)系抽取,比如無監(jiān)督關(guān)系抽取、半監(jiān)督關(guān)系抽取、和有監(jiān)督關(guān)系抽取等[9,10].其中,有監(jiān)督關(guān)系抽取是常用方法,并且取得了很不錯(cuò)的效果.然而有監(jiān)督關(guān)系抽取方法嚴(yán)重依賴于高質(zhì)量的標(biāo)注數(shù)據(jù),非常耗費(fèi)人力資源和時(shí)間.

為了解決有監(jiān)督關(guān)系抽取要人工標(biāo)注數(shù)據(jù)這個(gè)問題,文獻(xiàn)[3]采用遠(yuǎn)程監(jiān)督方法,通過對(duì)齊知識(shí)庫和文本來自動(dòng)地生成訓(xùn)練數(shù)據(jù).該方法假設(shè)如果兩個(gè)實(shí)體在知識(shí)庫中有某種關(guān)系的話,則所有包含這兩個(gè)實(shí)體的句子表達(dá)的都是這同一種關(guān)系.遠(yuǎn)程監(jiān)督本質(zhì)上是一種自動(dòng)標(biāo)注樣本的方法,但是它的假設(shè)太強(qiáng),會(huì)導(dǎo)致錯(cuò)誤標(biāo)注樣本的問題.為了緩解這個(gè)問題,有的研究[4]將關(guān)系分類任務(wù)當(dāng)作一個(gè)多實(shí)例多標(biāo)簽的學(xué)習(xí)問題.知識(shí)庫中一個(gè)實(shí)體對(duì)的關(guān)系是已知的,而外部語料庫中包含該實(shí)體對(duì)的多個(gè)句子,表達(dá)的關(guān)系是未知的(自動(dòng)標(biāo)注的結(jié)果未知真假).多實(shí)例學(xué)習(xí)的假設(shè)是:這些句子中至少有一個(gè)句子表達(dá)了已知的關(guān)系.于是從多個(gè)句子中只挑出最重要的一個(gè)句子,作為這個(gè)實(shí)體對(duì)的樣本加入到訓(xùn)練中.文獻(xiàn)[5]提出at-least-one 多實(shí)例學(xué)習(xí)和分塊卷積神經(jīng)網(wǎng)絡(luò)(PCNNs+MIL)來進(jìn)行遠(yuǎn)程監(jiān)督關(guān)系抽取.但現(xiàn)有的遠(yuǎn)程監(jiān)督關(guān)系抽取有兩個(gè)問題:

首先,由于識(shí)別實(shí)體關(guān)系是在句子級(jí)別進(jìn)行的,有些句子可能僅包括幾個(gè)單詞,因此句子存在特征稀疏性問題.特征稀疏性更加突出了捕獲句子結(jié)構(gòu)和語義信息的重要性.許多語言現(xiàn)象(例如句子的多義性、歧義性)會(huì)影響關(guān)系分類最終分類的準(zhǔn)確率.現(xiàn)有遠(yuǎn)程監(jiān)督關(guān)系抽取方法默認(rèn)采用單通道的注意力機(jī)制去獲取句子中的單詞對(duì)判別該句實(shí)體之間的關(guān)系重要性,因此在注意力分配權(quán)重時(shí)可能存在誤差.針對(duì)這一問題,提出多通道架構(gòu),其中多通道靈感來自于在圖像處理領(lǐng)域,圖像由3個(gè)通道(紅、綠、藍(lán))組成,每個(gè)通道都用多層神經(jīng)網(wǎng)絡(luò)層進(jìn)行處理,由于每個(gè)通道在循環(huán)傳播過程中沒有相互作用,它使神經(jīng)網(wǎng)絡(luò)能夠從每個(gè)通道學(xué)習(xí)到不同的表示,因此每個(gè)通道都包含了一個(gè)獨(dú)立的圖像描述.在關(guān)系抽取中采用多通道架構(gòu),可以使每個(gè)單詞在同一個(gè)句子中分配到不同的注意力權(quán)重,因此學(xué)習(xí)到句子不同的表現(xiàn)形式,有助于捕捉句子的結(jié)構(gòu)和語義信息以減輕句子的歧義現(xiàn)象,使模型的泛化能力更強(qiáng).多通道概念已經(jīng)在自然語言處理領(lǐng)域得到了一些應(yīng)用,例如句子分類[11],情感分類[12],單詞表示[13]等.

其次,卷積神經(jīng)網(wǎng)絡(luò)(CNN)因其優(yōu)秀的特征提取能力已經(jīng)被廣泛運(yùn)用到遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù)中,但是,CNN在關(guān)系抽取中并沒有充分考慮標(biāo)記的實(shí)體及其位置信息,忽略了低層特征與高層特征之間的空間關(guān)系,并且CNN的池化操作會(huì)丟失掉大量信息.針對(duì)CNN中存在的問題,文獻(xiàn)[14]提出基于動(dòng)態(tài)路由算法的膠囊網(wǎng)絡(luò),其中膠囊是一組向量,膠囊網(wǎng)絡(luò)解決了CNN 低層特征向高層特征傳輸時(shí)的局限性.文獻(xiàn)[15]將膠囊網(wǎng)絡(luò)應(yīng)用于文本分類模型架構(gòu)中的最后一層,以取代最大池化完成分類任務(wù),在文本分類常用數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明膠囊網(wǎng)絡(luò)相比CNN表現(xiàn)卓越.文獻(xiàn)[16]首次將膠囊網(wǎng)絡(luò)應(yīng)用到關(guān)系分類中,在卷積操作后使用膠囊去代替池化操作,最終輸出的膠囊的個(gè)數(shù)既是關(guān)系的個(gè)數(shù),膠囊的長度表示實(shí)體所屬類別的概率.

3 多通道及膠囊網(wǎng)絡(luò)模型

圖1 BG-AMC框架圖

3.1 句子表示

3.1.1 詞嵌入表示

詞嵌入將句子中的每個(gè)單詞映射為一個(gè)低維的實(shí)數(shù)向量,該向量可以捕獲單詞的語義信息.在本文中,給定一個(gè)包含m個(gè)單詞的句子X={w1,w2,…wm}.每個(gè)單詞wi均是實(shí)數(shù)向量,由詞嵌入矩陣V∈R|V|×d轉(zhuǎn)換而成,其中V表示詞匯表的大小,dw是詞嵌入的維度.

3.1.2 位置嵌入表示

在關(guān)系抽取任務(wù)中,靠近實(shí)體的詞通常可以為確定實(shí)體之間的關(guān)系提供更多的信息.因此,本文將句子中每個(gè)單詞到兩個(gè)實(shí)體的距離拼接到詞向量表示當(dāng)中.采用文獻(xiàn)[5]中方法,使用位置特征(PF)去指定實(shí)體對(duì),PF是當(dāng)前單詞到兩個(gè)實(shí)體e1和e2相對(duì)距離的組合.若詞嵌入的維度為dw,位置嵌入的維度為dp,將句子中每個(gè)單詞的詞嵌入和位置嵌入連接起來,得到句子的向量序列X={x1,x2,…xm},其中xi∈Rd(d=dw+2×dp).

3.2 Bi-GRU層

門控循環(huán)單元(GRU)是一種類似LSTM的循環(huán)神經(jīng)網(wǎng)絡(luò),它的輸入和輸出結(jié)構(gòu)與普通的RNN是一樣的.和LSTM相比,GRU的結(jié)構(gòu)更加簡單、參數(shù)少、性能更優(yōu).GRU包括兩個(gè)門機(jī)制:重置門r和更新門z,對(duì)于某個(gè)時(shí)間節(jié)點(diǎn)t,它們的計(jì)算公式為:

zt=σ(Wzxt+Uzht-1)

(1)

rt=σ(Wrxt+Urht-1)

(2)

(3)

(4)

3.3 采用多通道的注意力機(jī)制

句子中的每一個(gè)單詞對(duì)判別該句實(shí)體之間的關(guān)系并沒有起到均等的作用.因此,本模塊采用單詞級(jí)別的注意力機(jī)制來提取對(duì)句子含義有重要影響的單詞.由于單通道的注意力機(jī)制在為單詞分配注意力權(quán)重時(shí)可能會(huì)存在誤差,所以本模塊采用多通道的單詞級(jí)別注意力機(jī)制,每個(gè)通道都用多層神經(jīng)網(wǎng)絡(luò)層進(jìn)行處理,且每個(gè)通道在循環(huán)傳播過程中沒有相互作用,它使神經(jīng)網(wǎng)絡(luò)能夠從每個(gè)通道學(xué)習(xí)到不同的表示,因此每個(gè)通道都包含了一個(gè)獨(dú)立的句子描述.假設(shè)需要得到l個(gè)通道,那么第l個(gè)通道的計(jì)算方式為:

scorelt=Wl·tanh(Wl2·ht+bl)

(5)

(6)

clt=alt·ht

(7)

Cl=[cil,ci2,…,cim]

(8)

其中,Wi、Wi2是可訓(xùn)練的參數(shù)矩陣,tanh()是雙曲正切激活函數(shù),bl是偏置項(xiàng),每個(gè)通道的參數(shù)獨(dú)立訓(xùn)練.exp是以e為底的指數(shù)函數(shù),clt是第t個(gè)詞在第l個(gè)通道的高維向量表示,Cl是第l個(gè)通道的表示.

對(duì)于給定的句子包,采用文獻(xiàn)[5]提出的方法在給定句子包中選擇一句最大概率表達(dá)這種關(guān)系的句子去訓(xùn)練模型.

3.4 膠囊網(wǎng)絡(luò)

本模塊將上一層中l(wèi)個(gè)通道的結(jié)果進(jìn)行拼接,得到Ce=[C1⊕C2⊕…Cl],其中CeRm×2×(l×B).假設(shè)ui∈Rd表示膠囊的參數(shù)集,其中d是膠囊的維度.不同窗口之間共享卷積核的大小設(shè)置為Wb∈R2×(l×B).在CeRm×2×(l×B)上以步長1每次滑動(dòng)2個(gè)向量,最終形成的矩陣為U∈R(m+1)×C×d,共C×d個(gè)卷積核.

初級(jí)子膠囊層:因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)在池化過程中會(huì)丟失掉句子的部分特征,所以本模塊在經(jīng)過卷積操作得到U矩陣后并不進(jìn)行池化操作,而是將U進(jìn)行重排列以得到初級(jí)子膠囊,最終得到的重排列結(jié)果為:U={u1,u2,…,u(m+1)×C},其中共有(m+1)×C個(gè)d維向量作為初級(jí)子膠囊.

初級(jí)子膠囊的和通過聚類表達(dá)為高級(jí)膠囊,為了增強(qiáng)特征表示的能力,每個(gè)初級(jí)子膠囊ui在傳入高級(jí)膠囊vi之前要和轉(zhuǎn)換矩陣Wij∈Rd×d相乘得到預(yù)測向量uj|i∈Rd.為了減少訓(xùn)練參數(shù)并防止過擬合,轉(zhuǎn)換矩陣在初級(jí)子膠囊上采取共享權(quán)重Wj的方式,由于共有E種關(guān)系,所以共享權(quán)重Wj的個(gè)數(shù)取為E,轉(zhuǎn)換公式為:

uj|i=Wjui

(9)

動(dòng)態(tài)路由算法:

膠囊網(wǎng)絡(luò)中的每個(gè)初級(jí)子膠囊ui傳輸?shù)礁呒?jí)膠囊uj采用的是動(dòng)態(tài)路由算法,其算法流程見算法1[14].

算法 1.Routing algorithm

輸入:weight parameterbij

times of routingr

number of capsule layersl

1.procedureROUTING(uj|i,r,l)

2.forall capsuleiin layer and capsulejin layer(l+1):bij←0

3.forriterationsdo

4.forall capsuleiin layerl:ci←softmax(bi)

5.forall capsulejin layer(l+1):sj←∑1cijuj|i

7.forall capsuleiin layerlandjin layer(l+1)bij←bij+uj|i*vj

8. returnvj

輸出:vector output of capsule j:vj.

其中,bij是初始化系數(shù),表示l層的膠囊uj|i連接到l+1層膠囊vj的可能性,bij初始值取0目的是在首次迭代時(shí)l層膠囊uj|i到l+1層膠囊vj的概率相同;r表示迭代次數(shù);耦合系數(shù)ci|j由bij進(jìn)行迭代更新;sj表示l層膠囊uj|i的加權(quán)結(jié)果;vj的結(jié)果是由壓扁(squash)函數(shù)得到的,其長度代表了最終關(guān)系分類的概率.

動(dòng)態(tài)路由的基本思想是一個(gè)非線性映射,表示為:

其中H=(m+1)×C,E是關(guān)系的種類數(shù)(父膠囊個(gè)數(shù)).

對(duì)于實(shí)體關(guān)系分類任務(wù),膠囊網(wǎng)絡(luò)最終輸出的向量vj表示分類結(jié)果,其長度代表分類的概率,對(duì)每個(gè)關(guān)LK系膠囊采用獨(dú)立的間隔損失:

Lk=Ykmax(0,m+-‖vk‖)2+

λ(1-Yk)max(0,‖vk‖-m-)2

(10)

如果關(guān)系k存在即Yk=1,取m+=0.9,關(guān)系k不存在即Yk=0,取m-=0.1,λ=0.5.

總損失為:

(11)

4 實(shí)驗(yàn)設(shè)置

4.1 數(shù)據(jù)集介紹

為了驗(yàn)證本模型的有效性,在Ridel NYT數(shù)據(jù)集和GIDS數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),表1總結(jié)了數(shù)據(jù)集的詳細(xì)信息.

表1 數(shù)據(jù)集詳細(xì)信息

NYT數(shù)據(jù)集是由Riedel等人[17]通過將Freebase知識(shí)庫中的關(guān)系與紐約時(shí)報(bào)語料庫(NYT)進(jìn)行啟發(fā)式對(duì)齊生成的,其中2005-2006年的句子用于訓(xùn)練集,2007年以后的句子用于測試集.數(shù)據(jù)集中的實(shí)體已由Stanford NER標(biāo)注好.該數(shù)據(jù)集在遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù)上有著廣泛的應(yīng)用.

GIDS:全稱Google Distant Supervision數(shù)據(jù)集[18],此數(shù)據(jù)集能保證多實(shí)例學(xué)習(xí)的“at-least-one”假設(shè)成立.

4.2 模型相關(guān)參數(shù)設(shè)置

BG-SAC 模型實(shí)驗(yàn)設(shè)備的操作系統(tǒng)是 Win10,其它設(shè)備信息是 Intel(R)Core(TM)i7-8700K CPU @ 3.70GHz,64GB內(nèi)存以及兩塊NVIDIA GeForce 1080Ti 顯卡,然后在Python3.6 編程完成實(shí)驗(yàn).

在文獻(xiàn)[4,8,14]等的參數(shù)基礎(chǔ)上做了多次嘗試,在得到最優(yōu)超參數(shù)后,采用 Adam 算法對(duì)模型的訓(xùn)練進(jìn)行優(yōu)化.本文模型參數(shù)設(shè)置如表2所示.

表2 模型參數(shù)設(shè)置表

4.3 基線模型

為了評(píng)估BG-AMC模型,對(duì)比了以下基線模型:

Mintz:文獻(xiàn)[3]針對(duì)遠(yuǎn)程監(jiān)督范式提出的一個(gè)多類別邏輯回歸模型.

MultiR:文獻(xiàn)[4]針對(duì)多實(shí)例學(xué)習(xí)提出的概率圖模型.

PCNN:文獻(xiàn)[5]提出的一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取模型,該模型使用了分段最大池化來進(jìn)行句子編碼.

MIMLRE:文獻(xiàn)[19]一個(gè)同時(shí)進(jìn)行多實(shí)例和多標(biāo)簽建模的圖模型.

PCNN+ATT:文獻(xiàn)[20]在PCNN的最大池化句子編碼的基礎(chǔ)上,加入了句子級(jí)別的注意力機(jī)制.

BGWA:文獻(xiàn)[18]提出的一個(gè)基于雙向GRU加上單詞和句子級(jí)別的注意力機(jī)制的關(guān)系抽取模型.

BG-AMC:本文提出的模型,更多細(xì)節(jié)請見第5小節(jié).

4.4 評(píng)價(jià)標(biāo)準(zhǔn)

采用文獻(xiàn)[19]中的方法,使用留出法來評(píng)估模型.實(shí)驗(yàn)采用準(zhǔn)確率-召回率曲線(Precision-Recall)進(jìn)行評(píng)估,評(píng)估過程通過對(duì)比那些從測試集句子中提取到的關(guān)系和那些在Freebase中的關(guān)系來完成.準(zhǔn)確率、召回率的計(jì)算公式:

(12)

(13)

其中out_right表示輸出中預(yù)測正確的關(guān)系數(shù)量,out_all表示輸出中總共的關(guān)系數(shù)量,test_all表示測試集中總共的關(guān)系數(shù)量.

5 實(shí)驗(yàn)結(jié)果

在本節(jié)中,實(shí)驗(yàn)分析了兩個(gè)主要問題:

Q1.BG-AMC在遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù)上是否比現(xiàn)有的方法更有效?(5.1)

Q2.不同的通道數(shù)的選擇對(duì)BG-AMC的表現(xiàn)會(huì)有哪些影響?(5.2)

5.1 關(guān)系抽取結(jié)果有效性對(duì)比

為了評(píng)估BG-AMC模型的有效性,在Ridel數(shù)據(jù)集上對(duì)比了4.3節(jié)中提到的所有基線模型.在GIDS數(shù)據(jù)集上對(duì)比了神經(jīng)網(wǎng)絡(luò)的基線模型.在Riedel數(shù)據(jù)集上的準(zhǔn)確率-召回率曲線如圖2所示,在GIDS數(shù)據(jù)集上的準(zhǔn)確率-召回率曲線如圖3所示,可以得到以下結(jié)論:

圖2 Ridel數(shù)據(jù)集P-R曲線對(duì)比圖

圖3 GIDS數(shù)據(jù)集P-R曲線對(duì)比圖

1)基于神經(jīng)網(wǎng)絡(luò)的模型如PCNN、BGWA和BG-AMC都比基于特征的傳統(tǒng)模型表現(xiàn)更好,原因是因?yàn)樯窠?jīng)網(wǎng)絡(luò)模型可以避免特征選擇和NLP工具帶來的錯(cuò)誤傳播問題.

2)BGWA和PCNN+ATT模型比單純的PCNN模型取得了更好的效果,說明注意力機(jī)制能夠使模型關(guān)注于更重要的信息,忽略那些無用的信息,進(jìn)而有助于遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù).

3)本文提出的BG-AMC模型在Riedel數(shù)據(jù)集和GIDS數(shù)據(jù)集上,在大部分召回率相同的區(qū)域中,準(zhǔn)確率比其他所有的模型更高,這說明結(jié)合注意力及膠囊網(wǎng)絡(luò)的多通道方法對(duì)關(guān)系抽取的性能要優(yōu)于采取普通注意力機(jī)制的方法,多通道可以使每個(gè)單詞在同一個(gè)句子中分配到不同的注意力權(quán)重,因此可以減輕注意力分配權(quán)重時(shí)所存在的誤差,使句子在特征層次的數(shù)據(jù)增強(qiáng),有助于捕捉句子的結(jié)構(gòu)和語義信息,在最終的關(guān)系分類時(shí)也會(huì)綜合考慮句子多個(gè)通道的表示.BG-AMC采用膠囊網(wǎng)絡(luò)來進(jìn)行最終分類,代替了卷積神經(jīng)網(wǎng)絡(luò)中可能損失大量特征信息的max-pooling,用膠囊的長度去預(yù)測關(guān)系存在的概率,有效保留了關(guān)系分類中實(shí)體的位置信息,對(duì)遠(yuǎn)程監(jiān)督關(guān)系抽取性能起到了提升效果.

5.2 通道數(shù)選擇研究

在本節(jié)中,分析了在NYT數(shù)據(jù)集上BG-AMC模型在不同通道數(shù)上的表現(xiàn).為此,本文模型用BG-AMC-{1,3,5,7}代表通道數(shù)分別為{1,3,5,7}的BG-AMC模型,不同通道數(shù)在GIDS數(shù)據(jù)集上的準(zhǔn)確率-召回率曲線如表3所示,可以得到以下結(jié)論:

表3 通道數(shù)Precison-Recall值對(duì)比結(jié)果

1)BG-AMC-3模型的表現(xiàn)效果最好,即通道數(shù)選擇為3時(shí),實(shí)驗(yàn)效果達(dá)到最優(yōu),因此將BG-AMC模型的通道數(shù)默認(rèn)選取為3.

2)當(dāng)通道數(shù)增加到為5時(shí),模型效果反而有所下降,這說明通道數(shù)并不是越大越好.

3)BG-AMC-1本質(zhì)上是單通道模型,BG-AMC-3的表現(xiàn)要優(yōu)于BG-AMC-1,這個(gè)結(jié)果驗(yàn)證了多通道可以學(xué)習(xí)到更加豐富的句子表示,降低句子的歧義性,從而驗(yàn)證了本文的中心論點(diǎn),即多通道可以提升關(guān)系分類的效果.

6 總 結(jié)

本文提出了一種基于注意力機(jī)制及膠囊網(wǎng)絡(luò)的多通道關(guān)系抽取模型,模型首先通過雙向GRU神經(jīng)網(wǎng)絡(luò)對(duì)句子詞向量進(jìn)行編碼以獲取句子的高維語義,再利用注意力機(jī)制輔助生成句子的多通道表示,以解決以往單通道的注意力模型在注意力分配權(quán)重時(shí)出現(xiàn)的誤差問題.多通道中每個(gè)通道在遞歸傳播時(shí)互不影響,可以使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到同一句子的多種表示形式,以減輕句子的歧義現(xiàn)象.最后,模型采用膠囊網(wǎng)絡(luò)進(jìn)行關(guān)系分類以獲取句子實(shí)體的位置信息.在未來工作中,可將本論文中提出的方法應(yīng)用于其他自然語言處理任務(wù)中.

猜你喜歡
單詞分類模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
單詞連一連
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
看圖填單詞
教你一招:數(shù)的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 91成人免费观看在线观看| 国产成人a在线观看视频| 亚洲第一区在线| 久久性视频| 一本大道香蕉久中文在线播放| 国产欧美精品专区一区二区| 青青操国产| 国产一区二区三区在线观看免费| 高清欧美性猛交XXXX黑人猛交| 精品视频一区在线观看| 国产男人天堂| 日韩精品成人在线| 国内毛片视频| AⅤ色综合久久天堂AV色综合| 日本欧美中文字幕精品亚洲| 69视频国产| 亚洲性色永久网址| hezyo加勒比一区二区三区| 欧美日韩理论| 香蕉视频在线精品| 狂欢视频在线观看不卡| 四虎亚洲精品| 美女免费黄网站| 色婷婷天天综合在线| 日本少妇又色又爽又高潮| 一级毛片免费播放视频| 99爱视频精品免视看| 国产迷奸在线看| 亚洲天堂伊人| 久久这里只有精品2| 她的性爱视频| 国产精品午夜福利麻豆| 久久无码av三级| 99热亚洲精品6码| 久久青青草原亚洲av无码| 日韩小视频在线观看| 日韩人妻少妇一区二区| 亚洲综合18p| 91精品国产自产91精品资源| a级毛片网| 亚洲91精品视频| 综合人妻久久一区二区精品| 在线看片国产| 亚洲第一区欧美国产综合| 国产精品污视频| 久久香蕉国产线| 青草视频免费在线观看| 亚洲欧洲自拍拍偷午夜色| 亚洲视频免费在线看| 久久精品一品道久久精品| 免费中文字幕一级毛片| 狠狠综合久久| 久久夜色精品| 黄色污网站在线观看| 亚洲高清无码精品| 91区国产福利在线观看午夜| 国产女人喷水视频| 国产另类乱子伦精品免费女| 久综合日韩| 国产一区三区二区中文在线| 91欧洲国产日韩在线人成| 亚洲av色吊丝无码| 国产亚洲高清视频| 亚洲国产成人超福利久久精品| 午夜无码一区二区三区在线app| 国产精品永久久久久| 视频在线观看一区二区| 国产三级韩国三级理| 日韩欧美中文在线| 欧美一级黄色影院| 国产毛片基地| 在线免费不卡视频| 国产在线观看人成激情视频| 国产成人乱码一区二区三区在线| 日韩A级毛片一区二区三区| 精品三级网站| 最新日韩AV网址在线观看| 国产无人区一区二区三区| 国产原创自拍不卡第一页| 国产欧美视频综合二区| 女同国产精品一区二区| 欧美日韩成人在线观看|