999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

最近對尋址的專利實體關(guān)系抽取方法

2024-04-23 04:34:54李成奇雷海衛(wèi)呼文秀
計算機工程與設(shè)計 2024年4期
關(guān)鍵詞:文本方法模型

李成奇,雷海衛(wèi),李 帆,呼文秀

(中北大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,山西 太原 030051)

0 引 言

實體關(guān)系抽取是信息抽取的核心任務(wù)之一[1],其目的是從結(jié)構(gòu)化和非結(jié)構(gòu)化的文本中抽取所包含的關(guān)系[2]并以三元組<實體,關(guān)系,實體>的形式表現(xiàn)出來。在專利領(lǐng)域,實體之間的關(guān)系非常復(fù)雜,隨著專利數(shù)量的快速增長,單純依靠人工進(jìn)行專利查閱,很難及時,快速獲取專利中的創(chuàng)新知識資源[3],因此,從更細(xì)粒度的方面對專利數(shù)據(jù)進(jìn)行語義分析可以為更多的下游任務(wù)提供數(shù)據(jù)支持。如應(yīng)用于專利分析、知識圖譜構(gòu)建、專利侵權(quán)檢測等領(lǐng)域。

本文采用專利摘要作為目標(biāo)抽取文本,與現(xiàn)有中文數(shù)據(jù)集DUIE[4]相比,專利領(lǐng)域的目標(biāo)文本長度更長,實體關(guān)系更加復(fù)雜,更長的文本意味著關(guān)系的復(fù)雜化和實體的反復(fù),進(jìn)而帶來了實體重疊[5]問題。導(dǎo)致實體、關(guān)系抽取變得更加困難。針對以上問題本文根據(jù)專利文本特點在PRGC[6](potential relation and global correspondence based joint relational triple extraction)網(wǎng)絡(luò)的基礎(chǔ)上作出了改進(jìn),并在PERD數(shù)據(jù)集上取得了良好的實體關(guān)系抽取結(jié)果,相比基線模型PRGC,本文模型在F1值上提升了12.64個百分點。

本文主要貢獻(xiàn)如下:

(1)標(biāo)注了一個專利領(lǐng)域?qū)嶓w關(guān)系抽取數(shù)據(jù)集PERD;

(2)提出了最近對尋址實體位置的方法;

(3)針對實體對齊存在信息損失,推理速度慢的問題,使用注意力機制改進(jìn)了實體對齊的方法;

(4)改進(jìn)了實體抽取方法,引入了文本主客體表征向量,提出了輔助抽取器模塊,提高了實體關(guān)系抽取準(zhǔn)確性。

1 相關(guān)工作

1.1 流水線方法

流水線模式下的實體關(guān)系抽取主要包含兩個任務(wù):任務(wù)一是命名實體識別[7],即首先識別出文本中所有的實體;任務(wù)二是關(guān)系分類,即預(yù)測識別出的實體之間是否存在已經(jīng)定義好的某種關(guān)系。流水線方法雖然簡單靈活,但是忽略了任務(wù)間的聯(lián)系,導(dǎo)致誤差信息累計傳播[7],造成結(jié)果的不可逆性。

Sun等[8]提出一種可學(xué)習(xí)的語法傳輸注意力圖卷積網(wǎng)絡(luò)LST-AGCN(learnable syntax transport attention graph convolutional network)通過引入連接節(jié)點的依存關(guān)系類型將樹轉(zhuǎn)換為句法傳輸圖,進(jìn)而進(jìn)行關(guān)系提取。Chen等[9]提出一種基于MRC(machine reading comprehension)的模式分類器來識別關(guān)系模式,引入一種基于跨度的方法,在模式產(chǎn)出參數(shù)化問題的指導(dǎo)下來提取實體,緩解了錯誤傳播的問題。

在中文領(lǐng)域中,彭正陽等[10]提出一種基于動態(tài)損失函數(shù)的遠(yuǎn)程監(jiān)督關(guān)系抽取方法,通過動態(tài)優(yōu)化損失函數(shù)提高關(guān)系抽取準(zhǔn)確率,李昊等[11]提出一種基于實體邊界組合的關(guān)系抽取方法,該方法通過對實體邊界兩兩組合來進(jìn)行關(guān)系抽取,使得錯誤擴散的問題有一定程度的緩解。

1.2 聯(lián)合模型方法

Joint聯(lián)合模型采取端到端的方式[12]將兩個子任務(wù)整合到一起,通過參數(shù)共享和聯(lián)合解碼的方式使得兩個任務(wù)有所交互,在一定程度上降低了誤差傳遞。

Wei等提出一個級聯(lián)框架Casrel[13],首先識別句子中所有可能的主體實體,然后對每個主體實體,應(yīng)用基于Span的標(biāo)記,基于每個關(guān)系來識別相應(yīng)的客體。Wang等[14]提出一種握手標(biāo)記策略的TP-Linker模型,通過對句子中的主語和謂語的首字符建立3種標(biāo)注標(biāo)簽,通過窮舉存在判斷的解碼實現(xiàn)對重疊關(guān)系三元組的抽取。Zheng等[6]提出一個基于潛在關(guān)系和全局對應(yīng)的聯(lián)合三元組提取框架PRGC,有效緩解了關(guān)系判斷冗余,抽取泛化能力差和主客體對齊效率低的問題。Shang等[15]提出一種將聯(lián)合提取任務(wù)轉(zhuǎn)換為細(xì)粒度三元分類問題的聯(lián)合模型OneRel,有效緩解了級聯(lián)錯誤和冗余信息的問題。

在中文領(lǐng)域中,葛君偉等[16]提出一種基于字詞混合的聯(lián)合抽取方法,對于分詞的邊界問題,在詞嵌入的基礎(chǔ)上,結(jié)合字向量增加位置信息來保證字與字之間的正確順序。李代祎等[17]提出一種面向中文的實體關(guān)系聯(lián)合抽取方法,將關(guān)系建模為頭實體映射到句子中尾實體的函數(shù)。

2 NPAM模型

2.1 NPAM模型結(jié)構(gòu)

本文提出的最近對尋址的實體關(guān)系抽取模型如圖1所示主要包含:詞嵌入模塊;關(guān)聯(lián)性矩陣模塊;實體關(guān)系抽取模塊;輔助抽取器模塊。左虛線框表示詞嵌入與關(guān)聯(lián)性矩陣模塊,右虛線框表示實體關(guān)系抽取和輔助抽取器模塊。

圖1 模型結(jié)構(gòu)設(shè)計

圖2將圖1右虛線框中實體關(guān)系抽取和輔助抽取器模塊的具體實現(xiàn)細(xì)節(jié)進(jìn)一步說明,同時重新選取了部分專利句“消毒裝置包括箱體,位于箱體的底部有氣缸”作為說明對象。

圖2 實體抽取模型

圖2中模型訓(xùn)練階段分別獲取到關(guān)系向量、文本句向量、主客體表征向量,三者向量拼接后在實體關(guān)系抽取模塊中作為輸入向量,直接進(jìn)行線性層分類預(yù)測主客體,在輔助抽取器模塊之中,主客體表征向量通過BILSTM[18]層,線性層和CRF層[19]用來約束實體預(yù)測的準(zhǔn)確性,該模塊不直接用于實體關(guān)系的抽取。

2.2 詞嵌入模塊

2.2.1 主客體位置查詢

本文提出最近對尋址方法來獲取實體位置信息,在輸入文本中,確定每對主客體所有位置下標(biāo),計算兩者之間絕對距離,當(dāng)距離最小時取得實體位置下標(biāo)。不同于PRGC模型,其查詢實體首次出現(xiàn)的首字位置下標(biāo),本文認(rèn)為獲取首字位置下標(biāo)并不能很好的體現(xiàn)主客體間的聯(lián)系,還會對模型產(chǎn)生偏差影響。

如圖3所示,上方箭頭表示傳統(tǒng)獲取實體位置下標(biāo)方法,下方箭頭表示本文方法。與圖2采用相同的專利句,且設(shè)其包含三元組<箱體,設(shè)置有,氣缸>,若文本下標(biāo)從1開始,傳統(tǒng)方法得到的實體位置下標(biāo)對為(7,18),最近對尋址方法得到的實體位置下標(biāo)對為(12,18),由分析可知,本文方法在獲取實體位置下標(biāo)時更具優(yōu)勢,BERT[20]采用動態(tài)編碼,其根據(jù)上下文的意思來決定當(dāng)前詞的編碼,位置相近的詞之間會互相產(chǎn)生較大的權(quán)重,所以本文方法更契合BERT編碼思想,主客體聯(lián)系更密切,而傳統(tǒng)方法在一定程度上會造成偏差。

圖3 主客體位置下標(biāo)查詢

2.2.2 向量編碼

輸入文本s={w1,w2,w3…wn}, 其中wi∈sn×1代表文本單字,首先對文本進(jìn)行BIO標(biāo)記[21],主體首字使用B-H標(biāo)記其余使用I-H標(biāo)記,客體首字使用B-T標(biāo)記其余使用I-T標(biāo)記。本文使用BERT作為文本向量編碼器,對于輸入文本s, 向量化過程如式(1)所示

H(s)={h1,h2,h3…h(huán)n|hi∈Rd×1}

(1)

其中,n是token的數(shù)量,hi是BERT編碼后字向量,d是嵌入維度,R是關(guān)系集,選擇BERT模型是因為其采用Transformer[22]的Encoder模塊進(jìn)行疊加,所以在句子編碼時自動引入了注意力機制,動態(tài)編碼的機制使得文本中相同實體擁有不同的編碼向量,在做句子的特征抽取時,其更加擅長捕捉詞語之間的內(nèi)部相關(guān)性。

2.3 關(guān)聯(lián)性矩陣模塊

關(guān)聯(lián)性矩陣模塊的主要用途是產(chǎn)生字符向量之間的聯(lián)系。具體建模情況如圖4所示,實體位置下標(biāo)在關(guān)聯(lián)性矩陣中的應(yīng)用本文將分3種情況討論。

圖4 關(guān)聯(lián)性矩陣

(1)實體首字標(biāo)記法

傳統(tǒng)方法查詢到實體首字下標(biāo)后建立關(guān)聯(lián)性矩陣,圖4中上方虛線框左上角標(biāo)注的1表示實體首字間存在聯(lián)系,該方法的問題是只關(guān)注了實體間部分聯(lián)系,除非該實體是單字,否則這樣做會損失文字信息,對模型結(jié)果產(chǎn)生不利的影響。

(2)實體首詞標(biāo)記法

圖4中上方虛線框標(biāo)注為1的方陣,考慮到了實體間所有文字信息交互,但其獲取的是實體首字下標(biāo)位置,雖然實體名稱相同,但因為位置的偏差可能導(dǎo)致在學(xué)習(xí)迭代的過程中機器學(xué)到錯誤的信息,尋找實體的跨度太大在一定程度上造成理解偏差。

(3)最近對尋址標(biāo)記法

圖4中下方虛線框標(biāo)注為1的方陣,考慮到了實體間所有信息交互,又考慮到了實體真實的位置信息,因為存在極少情況下的單字實體,實體間的聯(lián)系應(yīng)該考慮到實體中每個字的交互性,這就類似于Transformer中的自注意力機制[23],同理BERT編碼時也不僅僅是考慮單個字的情況,動態(tài)的編碼規(guī)則使得BERT能夠考慮一整個句子中的所有字之間的聯(lián)系,從而能夠發(fā)現(xiàn)字與字,詞與詞之間的內(nèi)部聯(lián)系,進(jìn)而使得相同的詞在不同位置、不同的語境中編碼為不同的向量,受此啟發(fā)本文提出了此種主客體關(guān)聯(lián)性矩陣建模方法,相比PRGC網(wǎng)絡(luò)模型本文方法更具嚴(yán)謹(jǐn)性,也更具有科學(xué)性,符合BERT編碼的思想。

驗證階段會在建模關(guān)聯(lián)性矩陣的基礎(chǔ)上來預(yù)測矩陣中1出現(xiàn)的位置,為此設(shè)定一個實體閾值α, 當(dāng)預(yù)測值大于閾值時,認(rèn)定位置信息預(yù)測正確。

本文采用自注意力機制建模關(guān)聯(lián)性矩陣,對于給定的句子s通過向量BERT編碼后得到句向量H如式(1)所示,句向量H經(jīng)過線性變換,得到Q,K,V這3個向量如式(2)~式(4)所示,使用自注意力機制的好處是在建模矩陣的過程時,相比向量間的拼接擴展,其建模速度更快,占用內(nèi)存空間更小,運算速度更快,同時考慮到了信息交互的問題。

在關(guān)聯(lián)性矩陣中文本間得關(guān)聯(lián)性按照式(5)的計算方法進(jìn)行

Q=WQHS

(2)

K=WKHS

(3)

V=WVHS

(4)

(5)

其中,softmax代表激活函數(shù)[24],dk代表字嵌入維度,T表示轉(zhuǎn)置,WQ,WK,WV代表可訓(xùn)練的超參數(shù)。

2.4 實體關(guān)系抽取模塊

2.4.1 關(guān)系抽取

訓(xùn)練階段將BERT輸出的句向量經(jīng)過平均池化[25]如式(6)所示,再進(jìn)行線性分類如式(7)所示,將輸出維度映射到關(guān)系數(shù)上,得到的結(jié)果再次經(jīng)過sigmoid激活函數(shù),將分類結(jié)果值映射到[0,1]區(qū)間,如式(8)所示,驗證階段選取分類結(jié)果中值大于設(shè)定關(guān)系閾值β的結(jié)果作為可能存在的關(guān)系,上述過程類似多標(biāo)簽的二分類任務(wù),在所有關(guān)系中預(yù)測可能存在的關(guān)系,這樣做大大減少了關(guān)系冗余的可能性

outputsavg=Avgpool(outputs)∈Rd×1

(6)

outputs=Linear(outputsavg)∈Rd×1

(7)

outputs=σ(Wr*outputs+br)

(8)

Prel(s)={r1,r2,r3,…rn|ri∈Rd×1}

(9)

其中,Avgpool表示平均池化操作,Linear表示線性層分類,σ表示sigmoid激活函數(shù),Prel表示大于閾值的關(guān)系集,Wr,br表示可訓(xùn)練的超參數(shù)Wr∈Rd×1。

2.4.2 實體抽取

實體抽取分為使用和不使用主客體表征向量抽取實體,對于不使用主客體表征向量方法,將輸入文本s和預(yù)測的關(guān)系ri, 分別預(yù)測文本中的主客體,如式(10)、式(11)所示

Presub=ReLU(Linear(Wsub(s⊕ri|ri∈Rd×1)+bsub))

(10)

Preobj=ReLU(Linear(Wobj(s⊕ri|ri∈Rd×1)+bobj))

(11)

其中,?表示輸入文本向量與預(yù)測的關(guān)系向量進(jìn)行拼接,Wsub,Wobj∈Rd×3,bsub,bobj表示可訓(xùn)練的超參數(shù)。

對于使用主客體表征向量方法,首先分別獲取主客體表征向量,通過句向量?主體向量?關(guān)系向量來預(yù)測客體,通過句向量?客體向量?關(guān)系向量來預(yù)測主體,如式(12)、式(13)所示

Presub=ReLU(Linear(Wsub(s⊕ri⊕sub|ri∈Rd×1,
sub∈nd×1)+bsub))

(12)

Preobj=ReLU(Linear(Wobj(s⊕ri⊕obj|ri∈Rd×1,
obj∈nd×1)+bobj))

(13)

其中,sub,obj代表真實的主客體向量,ReLU表示激活函數(shù)。

2.5 輔助抽取器模塊

本模塊不直接作用于實體的預(yù)測,僅對實體預(yù)測起輔助約束作用。對于輸入文本s, 提取文本中所有主體、客體向量分別進(jìn)行拼接,之后將主客體表征向量分別經(jīng)過BILSTM層與Linear層和Dropout層[26],再傳入CRF層計算主客體表征向量與標(biāo)簽的極大似然函數(shù)值,近似為二者的損失,其公式分別如式(14)、式(15)所示,因為早期對文本進(jìn)行了序列標(biāo)注所以采取CRF層是為結(jié)果序列增加標(biāo)簽先后順序的約束。

該模塊不僅增加了模型標(biāo)簽的約束,如:B-xx必須出現(xiàn)在I-xx之前,還從局部的角度上約束實體預(yù)測的準(zhǔn)確性,也就是說,既約束實體邊界又約束實體順序,例如:“抽風(fēng)機”是個嵌套實體,既包含實體“抽風(fēng)機”,又包含實體“風(fēng)機”,約束邊界指的是在文本中如果出現(xiàn)抽風(fēng)機,則必須約束對抽風(fēng)機實體的邊界,就是在抽風(fēng)機對應(yīng)的位置標(biāo)記不為O,約束實體順序指的是,預(yù)測出抽風(fēng)機之后抽風(fēng)機的標(biāo)簽應(yīng)該是B-xx,I-xx,I-xx而不是B-xx,B-xx,I-xx,也就是說當(dāng)“風(fēng)機”實體前出現(xiàn)“抽”的字樣時,CRF層便約束此預(yù)測“風(fēng)”的標(biāo)簽不為B-xx,這在一定程度上有助于解決實體嵌套問題

sub,obj=Dropout(Linear(BiLstm(extra(s))))

(14)

sub,obj=CRF(sub|obj)

(15)

其中,extra表示抽取表征向量,sub,obj代表輸出向量。

2.6 損失函數(shù)

模型總損失由4部分損失組成,首先是關(guān)聯(lián)性矩陣的損失,預(yù)測的矩陣M′∈Rd×1與真實的標(biāo)注矩陣M∈Rd×1做交叉熵?fù)p失[27]如式(16)所示,其次是關(guān)系預(yù)測的損失,對于給定句子s中預(yù)測的關(guān)系ri∈Rd×1和真實含有的關(guān)系集R做交叉熵?fù)p失如式(17)所示,再其次是實體預(yù)測的損失如式(18)、式(19)所示,實體預(yù)測時我們同時預(yù)測了主體和客體,對于給定的句子s,在可能是主客體出現(xiàn)的位置做三分類標(biāo)記也就是開始提到的 {B,I,O} 標(biāo)記,預(yù)測的序列與真實的序列做交叉熵?fù)p失如式(18)、式(19)所示,最后是輔助抽取器模塊中的CRF損失,如式(20)所示

(16)

(17)

(18)

(19)

(20)

式(16)中Tisub,jobj表示真實標(biāo)簽,Pisub,jobj表示預(yù)測標(biāo)簽,式(17)~式(19)中Ti表示真實標(biāo)簽,Prel,Psub,Pobj分別表示預(yù)測的關(guān)系、主體和客體,式(20)中esi表示的是第i條路徑的得分,Xiyi表示的是第i個單詞被yi標(biāo)記的分?jǐn)?shù),Tyiyi+1表示的是從標(biāo)簽yi轉(zhuǎn)移到標(biāo)簽yi+1的得分。

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)集

針對專利領(lǐng)域沒有公開的實體關(guān)系抽取數(shù)據(jù)集的問題,通過分析專利文本的結(jié)構(gòu)與特點及參考了公開英文數(shù)據(jù)集NYT[28]的標(biāo)注樣例形式后,通過doccano軟件協(xié)助,在中文專利領(lǐng)域人工標(biāo)注了一個實體關(guān)系抽取數(shù)據(jù)集(PERD),其文本語料組成主要集中于中文專利下的一個小類A61L,數(shù)據(jù)集具體參數(shù)見表1且專利數(shù)據(jù)標(biāo)注樣例見表2。

表1 數(shù)據(jù)集參數(shù)

表2 專利實體關(guān)系樣例

表2中選取專利句樣例“一種消毒包,其中消毒包包括:包體,包體包括可彎折的圍板和兩個側(cè)板,兩側(cè)板設(shè)于圍板的相對兩側(cè),包體具有圍合狀態(tài)和展開狀態(tài),在圍合狀態(tài),圍板的相對兩側(cè)分別與連側(cè)板的側(cè)邊連接,以圍合形成消毒腔;在所展開狀態(tài),圍板的兩相對側(cè)邊至少部分分別與兩側(cè)板的部分側(cè)邊連接;殺菌組件,殺菌組件設(shè)于消毒腔”。

上述樣例共標(biāo)注了7組實體關(guān)系三元組,其包含4種關(guān)系模式,在專利數(shù)據(jù)集PERD中,一共存在8種關(guān)系模式分別是“主附件”、“安裝連接有”、“設(shè)置有”、“連通”、“同級零件”、“位于”、“作用于”和“組成構(gòu)成”,上述樣例僅展示了部分關(guān)系模式。

3.2 實驗參數(shù)

實驗參數(shù)具體見表3,其中訓(xùn)練批次的選取是顯存滿負(fù)荷的狀態(tài)下所能采用的最大值,編碼階段采用BERT預(yù)訓(xùn)練模型來編碼文本向量,在訓(xùn)練階段設(shè)置Epoch數(shù)為200,并采取提前停止策略[29],如果模型在連續(xù)10個epoch中F1值沒有提升,則訓(xùn)練結(jié)束。

表3 實驗參數(shù)

在2.3節(jié)、2.4節(jié)中提到實體閾值α和關(guān)系閾值β, 這兩個閾值的選取也決定了評價指標(biāo)的高低,表4實驗結(jié)果均是在二者均取最優(yōu)的情況下得到的實驗結(jié)果,為了選取最優(yōu)的α,β值,本文通過控制變量法將實體閾值或關(guān)系閾值分別固定為0.1,增大另一個閾值,每次增量為0.1,得到的兩者閾值對實驗結(jié)果的影響分別如圖5、圖6所示。

表4 實驗結(jié)果

圖5 實體閾值

圖6 關(guān)系閾值

如圖5所示,在關(guān)系閾值不變的情況下,F(xiàn)1值隨著實體閾值的增大呈現(xiàn)出先增加后減小的趨勢,當(dāng)α取0.5時F1值取得最好結(jié)果72.04%,對應(yīng)的精確率73.87%,召回率70.3%。隨著閾值的繼續(xù)增加,精確率的繼續(xù)提升,召回率大幅下降,使得整體F1值下降,當(dāng)α值增加時,模型對于實體邊界的判斷標(biāo)準(zhǔn)不斷變得嚴(yán)格,所以精確率呈現(xiàn)上升的趨勢,α值越大精確率越高,但是也因此導(dǎo)致更少的實體邊界被預(yù)測。

如圖6所示,在實體閾值不變的情況下,隨著關(guān)系閾值的增大,模型F1值也呈現(xiàn)出先上升后下降的趨勢,當(dāng)β取0.3時F1值取得最好結(jié)果70.34%,對應(yīng)的精確率68.03%,召回率72.82%,因為β值預(yù)測的是一條文本中存在的潛在關(guān)系,所以,當(dāng)閾值過低時會將所有的關(guān)系都當(dāng)做潛在關(guān)系,這樣做就失去了預(yù)測的意義,當(dāng)β值過高時,模型會預(yù)測不全一條文本中存在的真實關(guān)系,如一條文本中包含4種關(guān)系的三元組,但是只預(yù)測出了兩種關(guān)系,這就必然導(dǎo)致該文本中不屬于這兩種關(guān)系的三元組被強勢分配為預(yù)測的關(guān)系,所以導(dǎo)致模型性能的下降。

根據(jù)上述實驗,選取實體閾值0.5和關(guān)系閾值0.3,實驗結(jié)果見表4,NPAM模型精確率為75.62%,召回率為70.07%,F(xiàn)1值為72.74%,在兩者閾值取最優(yōu)時模型F1值比實體閾值取最優(yōu)時提高了0.7個百分點,比關(guān)系閾值取最優(yōu)時提高了2.4個百分點,這也說明了閾值選取的合理性和實驗結(jié)果的準(zhǔn)確性。

3.3 評價指標(biāo)

本文采用精確率P(Precision)、召回率R(Recall)、F1值(F1-Score)作為評價指標(biāo),公式定義如式(21)~式(23)所示

(21)

(22)

(23)

其中,TP表示實際為正樣本數(shù)量且被正確預(yù)測為正樣本的數(shù)量,F(xiàn)P表示實際為負(fù)樣本但被錯誤預(yù)測為正樣本的數(shù)量,F(xiàn)N表示實際為正樣本但被預(yù)測為負(fù)樣本的數(shù)量。

在實體關(guān)系抽取領(lǐng)域中,一般認(rèn)定模型預(yù)測出的主客體及其順序同主客體之間的關(guān)系都正確的時候,那么抽取出的這一條三元組才算正確。

3.4 實驗結(jié)果

為了評估本文模型性能,選取了4組已發(fā)表方法作為參照實驗。

(1)RIFRE模型:Zhao等[30]利用異構(gòu)圖來表示實體與關(guān)系之間的聯(lián)系,通過圖神經(jīng)網(wǎng)絡(luò)對它們進(jìn)行聯(lián)合建模;

(2)CasRel模型:Wei等[13]提出層疊式指針標(biāo)注方法,將關(guān)系建模為主體到客體的函數(shù),該模型對不同的關(guān)系重疊模式有良好的效果;

(3)TP-Linker模型:Wang等[14]將聯(lián)合提取歸結(jié)為標(biāo)記對鏈接問題,并引入一種新的握手方案,解決了暴露偏差和誤差累積問題。

(4)PRGC模型:Zheng等[6]將實體關(guān)系抽取轉(zhuǎn)化為3個子任務(wù),關(guān)系判斷、實體抽取、主客體對齊,解決了三元組實體重疊問題。

相比模型PRGC,本文模型在F1值上提升了12.64個百分點,取得良好競爭力的原因是該模型對于解決實體跨度和反復(fù)的情況作出了更多的貢獻(xiàn)。

RIFRE也取得較好成績,說明基于圖的模型能夠更好地描述實體間的聯(lián)系,在一定程度上緩解了長距離實體信息傳遞能力不足的問題,casrel模型使用流水線方式提取實體,誤差的傳遞使得結(jié)構(gòu)相較于聯(lián)合提取模型表現(xiàn)不足,TP-Linker模型實體、關(guān)系分開標(biāo)注策略使二者間交互不深,且標(biāo)簽稀疏,針對較長文本,稀疏的標(biāo)簽矩陣使得模型得到更少的信息,PRGC模型使用部分實體信息來體現(xiàn)實體聯(lián)系,信息損失及位置信息的差異導(dǎo)致模型未能產(chǎn)生更好的結(jié)果,而本文模型在更好關(guān)注實體間聯(lián)系及位置信息后,模型表現(xiàn)出良好的結(jié)果。

為了探究本文提出的最近對尋址位置下標(biāo)的方法對網(wǎng)絡(luò)模型的影響,PRGC*使用了最近對尋址位置下標(biāo)的方法替換掉原網(wǎng)絡(luò)的位置信息獲取方法,在使用本文的方法之后,相比原網(wǎng)絡(luò)模型精確率、召回率和F1值分別提升了4.29、7.99和6.25個百分點,這表明在一定程度上本文提出的最近對尋址位置下標(biāo)方法能夠解決在文本中實體反復(fù)出現(xiàn),因為實體跨度較大導(dǎo)致的主客體匹配不準(zhǔn)的問題。

3.5 消融實驗

本文進(jìn)行消融實驗來說明模型中不同模塊對于實驗結(jié)果的影響,具體結(jié)果見表5。

表5 消融實驗結(jié)果

實驗1代表去掉了輔助抽取器模塊,其精確率、召回率和F1值分別下降了2.88、4.42和3.85個百分點,實驗2代表不使用主客體表征向量來進(jìn)行實體抽取,其精確率、召回率和F1值分別下降了3.85、4.90和4.21個百分點,輔助抽取器模塊與不使用主客體表征向量的抽取方法,對模型的影響力主要表現(xiàn)在召回率上,二者對模型均會產(chǎn)生4個百分點以上的影響力,究其原因,因為已知信息的減少導(dǎo)致模型獲取的語義信息僅來源于句向量,使得實體的權(quán)重變小模型對其的關(guān)注度變小,從而引起預(yù)測數(shù)量的減少,召回率的下降。

實驗3代表不使用注意力機制進(jìn)行關(guān)聯(lián)性矩陣建模,其精確率上升了1.35個百分點,召回率下降了1.67個百分點,F(xiàn)1值下降了0.31個百分點。不使用注意力機制建模矩陣對模型影響較小其在準(zhǔn)確率上反而有所提高,本文認(rèn)為是原網(wǎng)絡(luò)字向量間的拼接融合包含的信息比注意力打分機制更多,但使用注意力打分機制,在不使F1值下降的情況下明顯減少了模型顯存占用與模型推理時間,因為向量間的拼接導(dǎo)致向量維度變大,字?jǐn)?shù)更長的文本建模矩陣時所占用空間更多,推理速度也相應(yīng)變慢。

從數(shù)值上分析,最近對尋址位置下標(biāo)方法對網(wǎng)絡(luò)模型影響最大,在不使用最近對尋址的前提下又分為兩種情況:①使用首字模型;②使用全詞模型的方法去建模關(guān)聯(lián)性矩陣,實驗結(jié)果分別如實驗4和實驗5所示,使用首字模型時F1值下降了47.82個百分點,使用全詞模型時F1值下降了5.62個百分點,分析原因,針對文本實體反復(fù)情況,首字模型會失去大部分文字信息,造成信息偏差,全詞模型考慮了所有文字信息所以結(jié)果表現(xiàn)更好,但是基線PRGC模型使用首字模型并未出現(xiàn)如此大的實驗差距,是因為這與關(guān)聯(lián)性矩陣的建模方法也有一定的關(guān)系。

4 結(jié)束語

本文提出了一種NPAM實體關(guān)系抽取模型,相比基線模型在評價指標(biāo)上的提升,這得益于我們針對性的根據(jù)中文專利數(shù)據(jù)集的特點做出了對PRGC模型的改進(jìn)與創(chuàng)新,使用最近對尋址和融合注意力機制的矩陣建模等方法提升了模型準(zhǔn)確抽取三元組的能力,實驗結(jié)果驗證了我們工作的有效性,在專利領(lǐng)域成功實現(xiàn)了實體關(guān)系的抽取任務(wù)。

未來將繼續(xù)探索中文實體關(guān)系抽取的方法,并在其它領(lǐng)域的實體關(guān)系抽取任務(wù)中檢驗?zāi)P偷姆夯芰汪敯粜浴?/p>

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产毛片基地| 亚洲成人网在线观看| 国产欧美日韩精品综合在线| 国产欧美日韩精品第二区| 99re66精品视频在线观看| 一级片免费网站| 91极品美女高潮叫床在线观看| 欧美精品啪啪一区二区三区| 麻豆精选在线| 国产成人综合日韩精品无码首页| 在线国产综合一区二区三区| 无码国产偷倩在线播放老年人 | 国产欧美日韩另类精彩视频| 一级毛片免费的| 亚洲精品不卡午夜精品| 亚洲人成亚洲精品| 国产特级毛片aaaaaaa高清| 天堂成人在线| 99成人在线观看| 中文字幕在线看视频一区二区三区| 手机在线免费不卡一区二| 欧美精品在线视频观看| 亚洲精品制服丝袜二区| 曰韩人妻一区二区三区| 黄色网站不卡无码| 国产精品天干天干在线观看| 国产区福利小视频在线观看尤物| 婷婷色中文| 国产美女在线免费观看| 国产成人精品高清不卡在线| 浮力影院国产第一页| 国产SUV精品一区二区| 国产福利免费在线观看| 一级爆乳无码av| 美女国内精品自产拍在线播放| 国产一区在线观看无码| a色毛片免费视频| 成人免费一级片| 国产欧美精品午夜在线播放| 精品综合久久久久久97超人该| 欧美第一页在线| 伊人精品视频免费在线| 国产一区二区免费播放| 亚洲国产精品不卡在线| 91无码人妻精品一区| 亚洲国产欧美国产综合久久| 成·人免费午夜无码视频在线观看 | 亚洲一级色| 国内精自视频品线一二区| 在线欧美日韩| 亚洲一区网站| 国产精品999在线| 国产爽歪歪免费视频在线观看 | 欧美激情伊人| 91青青草视频| 青青草原国产精品啪啪视频| 久久网欧美| 在线精品欧美日韩| 久操中文在线| 欧美日韩在线观看一区二区三区| 亚洲国产亚综合在线区| 老色鬼欧美精品| 国产男人天堂| 免费国产高清精品一区在线| 精品人妻一区无码视频| 综合久久五月天| 久久国产av麻豆| 无码一区中文字幕| 中文成人在线视频| 98超碰在线观看| 亚洲国产精品一区二区第一页免 | 麻豆精品在线视频| 福利一区三区| 美臀人妻中出中文字幕在线| 国产a v无码专区亚洲av| 波多野结衣在线se| 91久久偷偷做嫩草影院精品| 亚洲香蕉久久| 国产区91| 欧美三级视频网站| 国产免费久久精品99re丫丫一| 国产成人亚洲综合a∨婷婷|