999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結(jié)合殘差BiLSTM 與句袋注意力的遠(yuǎn)程監(jiān)督關(guān)系抽取

2022-10-16 12:27:16江旭錢雪忠宋威
計算機(jī)工程 2022年10期
關(guān)鍵詞:機(jī)制模型

江旭,錢雪忠,宋威

(江南大學(xué)人工智能與計算機(jī)學(xué)院,江蘇無錫 214112)

0 概述

實(shí)體關(guān)系抽取作為信息抽取、自然語言理解、信息檢索等領(lǐng)域的核心任務(wù)和重要環(huán)節(jié),可從非結(jié)構(gòu)化和程序化的文本中提取實(shí)體之間的語義關(guān)系,為用戶提供更加精準(zhǔn)全面的信息。實(shí)體關(guān)系抽取通常是在非結(jié)構(gòu)化和程序化的文本中提取二元關(guān)系并組成關(guān)系三元組的形式,例如,其中,Entity1和Entity2 表示兩個實(shí)體,Relation 表示兩個實(shí)體之間的關(guān)系。給定一個句子“創(chuàng)立了”,可以看出兩個實(shí)體之間的關(guān)系為“創(chuàng)立”。

在現(xiàn)有關(guān)系抽取方法中,監(jiān)督關(guān)系抽取的準(zhǔn)確率較高,但耗費(fèi)大量人力資源。遠(yuǎn)程監(jiān)督關(guān)系抽取方法通過數(shù)據(jù)自動對齊方式解決了大量無標(biāo)簽數(shù)據(jù)的自動標(biāo)注問題,并且能夠大幅減少標(biāo)注成本,但存在知識庫標(biāo)注的句子有噪聲、實(shí)體與關(guān)系之間表示不明確、無法準(zhǔn)確表達(dá)句子與實(shí)體之間關(guān)系等問題。針對這些問題,研究人員提出了一系列解決方案。文獻(xiàn)[1]提出圖卷積網(wǎng)絡(luò),能夠處理具有廣義拓?fù)鋱D結(jié)構(gòu)的數(shù)據(jù),并深入挖掘其實(shí)體和關(guān)系特征。文獻(xiàn)[2]結(jié)合多實(shí)例與分段卷積神經(jīng)網(wǎng)絡(luò)(Piecewise Convolutional Neural Network,PCNN)進(jìn)行遠(yuǎn)程監(jiān)督關(guān)系抽取。文獻(xiàn)[3]引入注意力機(jī)制,利用句子與關(guān)系來分配權(quán)重,通過對正確的句子與關(guān)系分配較高的權(quán)重,提升了關(guān)系抽取性能。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)[4-5]被廣泛應(yīng)用于遠(yuǎn)程監(jiān)督關(guān)系提取。文獻(xiàn)[6]提出分段卷積神經(jīng)網(wǎng)絡(luò)來建模句子表示,并選擇準(zhǔn)確的句子作為句袋表示。文獻(xiàn)[7]使用多種神經(jīng)網(wǎng)絡(luò)作為句子編碼器,并提出一種句袋內(nèi)注意力機(jī)制,通過句袋中所有句子表示的加權(quán)和來計算句袋。文獻(xiàn)[8]采用類似的注意力機(jī)制,并結(jié)合實(shí)體描述來計算權(quán)重。文獻(xiàn)[9]提出一種軟標(biāo)簽方法來降低噪聲實(shí)例的影響。文獻(xiàn)[10]采用雙向長短時記憶(Bi-directional Long Short-Term Memory,BiLSTM)網(wǎng)絡(luò)來提取句子特征,使用注意力機(jī)制來識別噪聲句子以及句袋。

上述遠(yuǎn)程監(jiān)督關(guān)系抽取方法利用句子嵌入的加權(quán)和來表示句袋[11],以關(guān)系感知的方式計算句袋內(nèi)的注意力權(quán)重,并在訓(xùn)練階段使用相同的句袋表示來計算該句袋被分類到每個關(guān)系中的概率,然而這種采取先識別實(shí)體再預(yù)測關(guān)系的端到端抽取方式會導(dǎo)致前一個任務(wù)的錯誤傳遞到下一個任務(wù),并且忽略了實(shí)體與各個關(guān)系之間的聯(lián)系。為解決上述問題,本文提出基于殘差BiLSTM(ResNet_BiLSTM)與句袋內(nèi)和句袋間注意力機(jī)制的實(shí)體關(guān)系抽取模型。通過句子嵌入的加權(quán)和計算關(guān)系感知句袋,并結(jié)合句袋注意力模塊,在模型訓(xùn)練過程中動態(tài)計算句袋注意力權(quán)重,以解決句袋噪聲問題。

1 基于ResNet_BiLSTM 與句袋注意力的關(guān)系抽取

本文提出一種基于ResNet_BiLSTM 與句袋注意力的關(guān)系抽取模型,用于遠(yuǎn)程監(jiān)督關(guān)系抽取。g={b1,b2,…,bn}表示一組遠(yuǎn)程監(jiān)督給出的具有相同關(guān)系標(biāo)簽的句袋,n是句袋數(shù)量表示句子數(shù)為m的句袋,表示在第i個句袋中的第j個句子,jm表示第j個句子長度,模型框架如圖1 所示,主要包括以下模塊:

圖1 基于ResNet_BiLSTM 與句袋注意力機(jī)制的關(guān)系抽取模型框架Fig.1 Framework of relationship extraction model based on ResNet_ BiLSTM and sentence bag attention mechanism

1)句子編碼器。給定一個句子和句子中兩個實(shí)體的位置[12],得到句子的輸入表示。

2)ResNet_BiLSTM 特征提取器。由句子編碼器得到的輸入句子表示,通過輸入ResNet_BiLSTM 得到句子特征[13]表示。

3)句袋內(nèi)注意力機(jī)制。給定句袋bi中所有句子的句子表示和關(guān)系嵌入矩陣R、注意力機(jī)制權(quán)重向量和句袋表示來計算所有關(guān)系,其中k為關(guān)系索引。

4)句袋間注意力機(jī)制。給定一組句袋g,通過基于相似性的注意力機(jī)制來進(jìn)一步計算權(quán)重矩陣β,得到句袋組的表示。

1.1 句子編碼器

句子的特征編碼由詞和詞的位置特征表示,在句子中每個詞被映射成一個dw維度的詞嵌入,句子的特征向量表示為,位置特征[14]是每個詞到實(shí)體之間的距離,表示為,將位置特征映射成dp維的詞嵌入,這3個向量的連接向量為dw+2dp維的向量,表示為

1.2 ResNet_BiLSTM 特征提取器

其中:F(x)為BiLSTM 輸出門通過線性變換得到。F(x)計算如式(8)所示:

其中:Whf為隨機(jī)初始化權(quán)重矩陣。

1.3 句袋內(nèi)注意力機(jī)制

Si∈表示句袋bi中所有句子表示,表示關(guān)系嵌入矩陣,其中h是關(guān)系數(shù)量。與傳統(tǒng)方法不同,傳統(tǒng)方法推導(dǎo)了關(guān)系分類的統(tǒng)一句袋表示,本文方法在所有可能的關(guān)系條件下計算句袋bi的表示:

其中:rk是關(guān)系嵌入矩陣R2的第k行;T是訓(xùn)練樣本集合。

最終句袋bi表示為矩陣,每行對應(yīng)于此句袋中可能的關(guān)系類型。

1.4 句袋間注意力機(jī)制

為解決句袋帶噪問題,設(shè)計一種基于相似性的句袋間注意力模塊[16]來動態(tài)地降低帶噪句袋的權(quán)重。如果兩個句袋bi1和bi2都被標(biāo)記為關(guān)系k,則和應(yīng)該關(guān)系更接近,給定一組具有相同關(guān)系標(biāo)簽的句袋,將更高的權(quán)重分配給該組中與其他句袋接近的句袋,句袋組g可表述如下:

其中:g∈;βik組成注意力權(quán)重矩陣β∈Rn×k。βik計算如式(13)所示:

其中:γik表示用第k個關(guān)系標(biāo)記句袋bi的置信度[17]。受到自注意力機(jī)制的啟發(fā)[18],γik使用向量本身計算一組向量的注意力權(quán)重,根據(jù)它們自身表示計算句袋的權(quán)重。γik計算如式(14)所示:

函數(shù)相似性計算如式(15)所示:

然后第k個關(guān)系得分ok通過句袋組g和關(guān)系嵌入rk計算得到,如式(17)所示:

其中:dk是偏置項。

最后使用Softmax 函數(shù)獲得句袋組g被分類為第k個關(guān)系的概率,如式(18)所示:

需要注意的是,相同的關(guān)系嵌入矩陣R用于計算式(11)和式(16),類似的dropout損失率用于句袋表示Bi以防止過擬合。

1.5 模型實(shí)現(xiàn)過程

基于ResNet_BiLSTM 與句袋內(nèi)和句袋間注意力機(jī)制的關(guān)系抽取模型實(shí)現(xiàn)過程具體如下:

1)數(shù)據(jù)處理。首先訓(xùn)練集中的所有句子包含相同的兩個實(shí)體,將其累加到一個句袋,然后對于每n個共用的句袋,將相同的關(guān)系標(biāo)簽放入一個句袋中,需要注意的是,一個句袋組是一個訓(xùn)練樣本。因此,該模型也可以在小批量模式下通過打包多個句袋組成一批句袋。

2)目標(biāo)函數(shù)優(yōu)化。優(yōu)化公式如式(19)所示:

其中:θ是模型參數(shù)集,包括單詞嵌入矩陣、位置特征嵌入矩陣、權(quán)重矩陣和關(guān)系嵌入矩陣;J(θ)通過mini-batch隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)來優(yōu)化模型[20]。

3)訓(xùn)練和測試。在訓(xùn)練階段,將具有相同關(guān)系標(biāo)簽的n個句袋累積到1 個句袋組中,并計算句袋表示的加權(quán)和,以獲得句袋組g的表示。由于每個句袋的標(biāo)簽在測試階段是未知的,因此在處理測試組時,每個句袋被視為一個句袋組(即n=1)。此外,與文獻(xiàn)[15]類似,僅對正樣本應(yīng)用句袋間注意力機(jī)制,其原因是表示無關(guān)系的句袋表示形式是多樣的,難以計算權(quán)重。

4)預(yù)訓(xùn)練。在實(shí)驗中采用預(yù)訓(xùn)練策略,首先對模型進(jìn)行句袋內(nèi)訓(xùn)練,直到收斂,然后添加句袋間注意力機(jī)制模塊,進(jìn)一步更新模型參數(shù),直至再一次收斂。初步的實(shí)驗結(jié)果表明,預(yù)訓(xùn)練策略相比于句袋間注意力機(jī)制能夠獲得更好的模型性能。

2 實(shí)驗設(shè)置與結(jié)果分析

2.1 數(shù)據(jù)集和評價指標(biāo)選取

實(shí)驗采用NYT(New York Times)數(shù)據(jù)集。該數(shù)據(jù)集由文獻(xiàn)[21]發(fā)布并得到廣泛使用,基于遠(yuǎn)程監(jiān)督關(guān)系提取研究,將Freebase 知識庫中的三元組和NYT 數(shù)據(jù)集中的文本對齊生成,包含52 個實(shí)際關(guān)系和1 個特殊關(guān)系NA,其中NA 表明2 個實(shí)體之間沒有關(guān)聯(lián)性。

在計算機(jī)上使用NVIDIA GTX 1080 Ti 顯卡運(yùn)行程序,采用精確率-召回率(Precision-Recall,PR)、曲線下面積(Area Under the Curve,AUC)和精確率(Precision,P)@N(P@N)[22]來評估模型性能。P@N采用One、Two 和All 測試集,其中,One 表示對測試集中每個實(shí)體對隨機(jī)選擇一個句子,通過這一個句子對關(guān)系進(jìn)行預(yù)測,Two 表示對測試集中每個實(shí)體對隨機(jī)選擇兩個句子,通過這兩個句子對關(guān)系進(jìn)行預(yù)測,All 表示對測試集中每個實(shí)體對選擇所有句子對關(guān)系進(jìn)行預(yù)測,mean 表示對求得的結(jié)果取平均值。P@N使用了前N個實(shí)例的準(zhǔn)確率,其中N取100、200、300。

2.2 訓(xùn)練細(xì)節(jié)和超參數(shù)設(shè)置

在實(shí)驗中,使用的多數(shù)超參數(shù)遵循文獻(xiàn)[23]中的設(shè)置,如表1 所示。在初始化時采用文獻(xiàn)[19]發(fā)布的50 維單詞嵌入。2 個不同批量大小Np和Nt分別用于預(yù)訓(xùn)練和訓(xùn)練,使用訓(xùn)練集進(jìn)行網(wǎng)格搜索來確定n的最佳值,n∈{3,4,…,10},Nt∈{3,4,…,200},Np∈{10,20,50,100,200}。需要注意的是,增加句袋組數(shù)量n可能會增強(qiáng)句袋間注意力,導(dǎo)致訓(xùn)練樣本減少,當(dāng)n=1 時,句袋間注意力的影響將消失。使用mini-batch SGD 的初始學(xué)習(xí)率為0.1,學(xué)習(xí)率在每100 000 步后下降至之前的1/10,在實(shí)驗中僅包含句袋內(nèi)注意力的預(yù)訓(xùn)練模型,在300 000 步內(nèi)收斂,包含句袋間注意力的訓(xùn)練模型的初始學(xué)習(xí)率設(shè)置為0.001。

表1 實(shí)驗超參數(shù)設(shè)置Table 1 Setting of experimental superparameters

2.3 模型性能對比

選取文獻(xiàn)[24]中的11 種模型與本文ResNet_BiLSTM+ATT_RA+BAG_ATT 模型進(jìn)行性能對比,其中,CNN、PCNN 和ResNet_BiLSTM 分別表示不同句子編碼方式,ATT_BL 表示基于句袋內(nèi)注意力,ATT_RA 表示基于關(guān)系感知的句袋內(nèi)注意力機(jī)制,BAG_ATT 表示基于句袋間注意力。在訓(xùn)練階段,用于計算注意力權(quán)重的關(guān)系查詢向量被固定為與每個句袋的遠(yuǎn)程監(jiān)督標(biāo)簽相關(guān)聯(lián)的嵌入向量[25-26]。在測試階段,所有關(guān)系查詢向量都被應(yīng)用于分別計算關(guān)系的后驗概率,選擇概率高的結(jié)果作為分類結(jié)果,給出所有模型的AUC 值的平均值和標(biāo)準(zhǔn)差如表2所示。

表2 不同模型的AUC 值比較Table 2 Comparison of AUC values of different models

為進(jìn)行定量比較,還繪制了所有模型的PR 曲線圖如圖2~圖4 所示。由圖2~圖4 可以看出:

圖2 CNN 句子編碼的PR 曲線Fig.2 PR curves of CNN sentence coding

圖3 PCNN 句子編碼的PR 曲線Fig.3 PR curves of PCNN sentence coding

圖4 ResNet_BiLSTM 句子編碼的PR 曲線Fig.4 PR curves of ResNet_BiLSTM sentence coding

1)ResNet_BiLSTM 作為句子編碼器相比于CNN、PCNN 表現(xiàn)更好。

2)使 用ResNet_BiLSTM、CNN 或PCNN作為句子編碼器時,ATT_RA 優(yōu)于ATT_BL,主要原因為ATT_BL 在訓(xùn)練時推導(dǎo)出句袋表示時僅考慮目標(biāo)關(guān)系,而ATT_RA 以所有關(guān)系嵌入作為查詢,計算出句袋內(nèi)的注意力權(quán)重,提高了句袋表示的靈活性。

3)對于3 種句子編碼器和2 種句袋內(nèi)注意力機(jī)制,帶有句袋注意力機(jī)制的模型相比于其他模型具有更好的性能,這一結(jié)果驗證了句袋間注意力機(jī)制用于遠(yuǎn)程監(jiān)督關(guān)系提取的有效性。

可見,將ResNet_BiLSTM 作為句子編碼器并與句袋內(nèi)和句袋間注意力機(jī)制相結(jié)合可獲得最佳AUC性能。

2.4 句袋內(nèi)注意力機(jī)制對模型性能的影響

通過實(shí)驗驗證句袋內(nèi)注意力機(jī)制對模型性能的影響,隨機(jī)選擇實(shí)體對的1 句、2 句和所有句子進(jìn)行測試并構(gòu)造One、Two、All 這3 個測試集,實(shí)驗結(jié)果如表3 所示。

表3 在3 種測試集上的模型P@N 比較Table 3 Comparison of P@N of models on three test sets %

由表3 可以看出,ResNet_BiLSTM+ATT_AL+BAG_ATT 具有較高的P@N值,無論采用ResNet_BiLSTM 還是BAG_ATT,ATT_RA 在所有實(shí)體對測試集上均優(yōu)于ATT_BL。由于當(dāng)一個句袋中只有一個句子時,ATT_BL 和ATT_RA 的解碼程序是相同的,因此從ATT_BL 到ATT_RA 的改進(jìn)可歸因于ATT_RA 在訓(xùn)練階段以關(guān)系感知的方式計算句袋內(nèi)注意力權(quán)重。

2.5 句袋間注意力權(quán)重分布

將句袋中的句子數(shù)設(shè)置為5 進(jìn)行句袋間注意力計算,每個句袋首先使用BAG_ATT 模型來計算句袋間注意力機(jī)制的權(quán)重,然后計算訓(xùn)練集各部分句袋間注意力權(quán)重的平均值和標(biāo)準(zhǔn)差,如表4 所示。由表4 可以看出,訓(xùn)練句子數(shù)量較少的句袋通常被分配較低的句袋間注意力權(quán)重,且訓(xùn)練句子數(shù)量較少的實(shí)體對更可能有不正確的關(guān)系標(biāo)簽。

表4 不同句子數(shù)的句袋間注意力權(quán)重分布Table 4 Distribution of attention weight between inter-sentence bags with different number of sentences

3 結(jié)束語

本文提出基于ResNet_BiLSTM 與句袋內(nèi)和句袋間注意力機(jī)制的實(shí)體關(guān)系抽取模型。引入殘差連接采集句子特征信息,保留句子在前后傳遞過程中的特征信息。通過BiLSTM 進(jìn)行句子特征信息識別與訓(xùn)練,解決了反向特征依賴問題。使用句袋內(nèi)注意力機(jī)制,對正向?qū)嶓w與關(guān)系賦予更高權(quán)重,提高識別準(zhǔn)確性。采用句袋間注意力機(jī)制,緩解了在提取句子中的關(guān)系時的噪聲句袋問題。在NYT 數(shù)據(jù)集上的實(shí)驗結(jié)果表明,該模型能夠充分利用實(shí)體與關(guān)系特征,具有更好的關(guān)系抽取性能。下一步將使用實(shí)體關(guān)系與句子的分區(qū)過濾策略,并結(jié)合BERT 提取語義特征,進(jìn)一步提高關(guān)系抽取的準(zhǔn)確性和靈活性。

猜你喜歡
機(jī)制模型
一半模型
構(gòu)建“不敢腐、不能腐、不想腐”機(jī)制的思考
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
自制力是一種很好的篩選機(jī)制
文苑(2018年21期)2018-11-09 01:23:06
定向培養(yǎng) 還需完善安置機(jī)制
3D打印中的模型分割與打包
破除舊機(jī)制要分步推進(jìn)
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
注重機(jī)制的相互配合
主站蜘蛛池模板: 日韩高清中文字幕| 成人午夜精品一级毛片| 人人看人人鲁狠狠高清| 日本人妻一区二区三区不卡影院| 国产av色站网站| 福利在线不卡一区| 97国产精品视频人人做人人爱| 国产成人禁片在线观看| 成人免费黄色小视频| 精品少妇人妻av无码久久| 亚洲经典在线中文字幕| 亚洲成人黄色在线| 91无码视频在线观看| 天堂亚洲网| 国产一级小视频| 日本欧美精品| 久久性妇女精品免费| 国内精品自在自线视频香蕉| 欧美日本不卡| 亚洲 成人国产| 久久国产毛片| 无码久看视频| a级毛片网| 国产女人爽到高潮的免费视频 | 国产三级成人| 国产18在线播放| 精品日韩亚洲欧美高清a| 中文成人无码国产亚洲| av一区二区三区在线观看| 色综合中文字幕| 国内精品久久人妻无码大片高| 成年人免费国产视频| 综合社区亚洲熟妇p| 五月婷婷导航| 国产 在线视频无码| 色网站在线视频| 国产成人三级| 国产成人亚洲毛片| 久久天天躁狠狠躁夜夜躁| 黄色一级视频欧美| 国产在线自乱拍播放| 欧美一区二区精品久久久| 久久午夜夜伦鲁鲁片不卡| 国产农村精品一级毛片视频| 伊人久久久久久久久久| 成人噜噜噜视频在线观看| 精品无码视频在线观看| 亚洲性网站| 国产AV无码专区亚洲A∨毛片| 欧美区在线播放| 毛片基地视频| 国语少妇高潮| 日韩精品久久无码中文字幕色欲| 免费大黄网站在线观看| 国产99在线| 亚洲欧美日韩久久精品| 国产91精品调教在线播放| 久久久久亚洲Av片无码观看| 成人在线亚洲| 国产欧美日韩免费| 免费99精品国产自在现线| 小蝌蚪亚洲精品国产| 亚洲bt欧美bt精品| 国产九九精品视频| 久久综合亚洲鲁鲁九月天| 夜色爽爽影院18禁妓女影院| www.亚洲国产| 亚洲啪啪网| 中国丰满人妻无码束缚啪啪| 亚洲中文字幕手机在线第一页| 国产日本一区二区三区| 一本久道久久综合多人| 亚洲欧美精品日韩欧美| 91精品国产一区| 无码一区18禁| 成年人福利视频| 亚洲精品777| 国产欧美日韩va| 日韩av高清无码一区二区三区| 国产精品视频免费网站| 成人福利在线视频| 亚洲色无码专线精品观看|