999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于位置輔助標(biāo)記的實(shí)體關(guān)系抽取方法

2022-12-03 08:54:54歐陽康朱艷輝孔令巍黃雅淋金書川沈加銳
關(guān)鍵詞:文本方法模型

歐陽康 ,朱艷輝 ,張 旭 ,孔令巍,黃雅淋,金書川,沈加銳

(1.湖南工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,湖南 株洲 412007;2.湖南省智能信息感知及處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,湖南 株洲 412007)

1 研究背景

近年來,各大網(wǎng)絡(luò)社交及傳媒平臺帶來的信息數(shù)不勝數(shù),如何快速、精準(zhǔn)地獲取其中的關(guān)鍵信息是一個(gè)巨大的挑戰(zhàn)。信息抽取隨之誕生,關(guān)系抽取(relation extraction,RE)作為信息抽取的子任務(wù),通過二分類方法判定語句中是否存在關(guān)系,并通過多分類的形式判定該語句存在何種類型的關(guān)系。在關(guān)系分類任務(wù)中,往往需要事先定義關(guān)系類型,然后判斷文本中實(shí)體間是否可能存在某種關(guān)系類型。該形式可描述為三元組,其中E1和E2為實(shí)體類型,R指關(guān)系類型。以“利馬是秘魯?shù)氖锥迹瑫r(shí)是最大的港口”為例,先對句子進(jìn)行預(yù)處理,經(jīng)過命名實(shí)體識別出“利馬”和“秘魯”,然后“首都”作為關(guān)系觸發(fā)詞,會(huì)在這兩種實(shí)體之間建立聯(lián)系,說明這兩個(gè)實(shí)體之間可能存在某種特定的關(guān)系,最后經(jīng)過關(guān)系抽取模型,輸出“首都”作為這兩個(gè)實(shí)體之間的關(guān)系類別,從而得到三元組<秘魯,首都,利馬>。關(guān)系抽取可將文本中信息以三元組存儲(chǔ)在數(shù)據(jù)庫中。通過三元組方式存儲(chǔ)可以提供進(jìn)一步的分析和查詢,并被廣泛應(yīng)用于知識圖譜、信息檢索、問答系統(tǒng)和情感分析中。近年來,無論是工業(yè)界還是學(xué)術(shù)界,該技術(shù)都引起了廣泛關(guān)注。

隨著時(shí)代發(fā)展,信息抽取技術(shù)在文本信息化工作中起著越來越不可忽視的作用,也吸引了國內(nèi)外學(xué)者對前沿技術(shù)的探索。傳統(tǒng)的關(guān)系抽取方式大多采用流水線的方式進(jìn)行,流水線方式抽取包含兩個(gè)子任務(wù):命名實(shí)體識別(named entity recognition,NER)和關(guān)系分類[1-2]。流水線方法指將實(shí)體關(guān)系抽取以流水線方式進(jìn)行,即第一步是進(jìn)行實(shí)體識別,在實(shí)體識別完成之后,再進(jìn)行關(guān)系抽取。早期工作中,D.Zelenko[3]、Chan Y.S.等[4]以流水線的方式處理關(guān)系抽取任務(wù),他們通過兩個(gè)獨(dú)立的步驟提取關(guān)系三元組:首先,在輸入句子上通過命名實(shí)體識別的方式識別出文本中所有實(shí)體;提取出實(shí)體對后,在該基礎(chǔ)上進(jìn)行關(guān)系分類。流水線方法通常存在錯(cuò)誤傳播問題,而且會(huì)忽略兩個(gè)步驟之間的相關(guān)性,為了緩解這些問題,現(xiàn)有研究已經(jīng)提出許多旨在共同學(xué)習(xí)實(shí)體和關(guān)系的聯(lián)合模型。

聯(lián)合抽取方法的出現(xiàn),較好地解決了流水線方法中存在的誤差傳播問題,能夠更好地利用子任務(wù)之間的關(guān)聯(lián)性。該方法選擇對命名實(shí)體識別和關(guān)系分類采用聯(lián)合建模,能夠較好地利用實(shí)體和關(guān)系之間的交互信息,同時(shí)抽取實(shí)體并分類實(shí)體對的關(guān)系。聯(lián)合抽取通常是先提取實(shí)體對,然后再對關(guān)系進(jìn)行分類或采用統(tǒng)一標(biāo)注的方式來解決實(shí)體關(guān)系抽取問題。早期Yu X.F.[5]、Li Q.[6]、Ren X.等[7]提出的基于特征的聯(lián)合模型需要復(fù)雜的特征工程過程,嚴(yán)重依賴各種NLP(natural language processing)工具且需手動(dòng)操作,操作繁瑣。為了減少這種手工操作,最近的研究著重于基于神經(jīng)網(wǎng)絡(luò)的方法來解決問題。M.Miwa 等[8]提出一種端到端的神經(jīng)網(wǎng)絡(luò)模型,該方法首次將深度網(wǎng)絡(luò)和依存樹進(jìn)行結(jié)合,通過該方式來進(jìn)行實(shí)體和關(guān)系抽取,該論文的成果為后續(xù)實(shí)體關(guān)系聯(lián)合抽取的研究奠定了基礎(chǔ)。Zheng S.C.等[9]通過序列標(biāo)注的方式解決實(shí)體關(guān)系聯(lián)合抽取,該方案可以獲得實(shí)體信息和它們所持有的關(guān)系,擺脫了復(fù)雜的特征工程,且該方法可以直接將關(guān)系三元組作為一個(gè)整體進(jìn)行建模,但該方法并未解決關(guān)系重疊問題。

關(guān)系往往指兩個(gè)實(shí)體之間存在的某種聯(lián)系,關(guān)系重疊即某實(shí)體和其他實(shí)體可能存在一種或多種關(guān)系,將這種情況分為單實(shí)體多關(guān)系(single entity overlap,SEO)和同實(shí)體對存在多關(guān)系(entity pair overlap,EPO),如圖1,實(shí)體“戰(zhàn)狼2”與“吳京”和“盧靖姍”3 個(gè)實(shí)體之間分別擁有“導(dǎo)演”、“主演”的關(guān)系,稱之為SEO 問題;實(shí)體“吳京”和實(shí)體“戰(zhàn)狼2”分別擁有“導(dǎo)演”和“編劇”兩對關(guān)系,稱之為EPO 問題。

針對關(guān)系重疊問題,Wei Z.P.等[10]提出了CASREL 模型,通過一種新的級聯(lián)二進(jìn)制框架先預(yù)測出文本中所有可能是主體的實(shí)體后,下一步通過預(yù)測出的主體預(yù)測與其相關(guān)聯(lián)的客體。Wang Y.C.等[11]提出了一種TPLinker 思路,并在英文數(shù)據(jù)集NYT和WebNLG 上進(jìn)行實(shí)驗(yàn),通過3 個(gè)握手矩陣將實(shí)體與關(guān)系進(jìn)行規(guī)則抽取,取得了較好結(jié)果。陳仁杰等[12]將該兩類方法應(yīng)用在英文數(shù)據(jù)集NYT和WebNLG上,都取得了很好的結(jié)果,但對關(guān)系重疊,還在探索和研究之中。陳仁杰等[12]提出了一種融合實(shí)體類別信息的實(shí)體關(guān)系聯(lián)合抽取方法,該方法在解碼階段融合了頭尾實(shí)體類別信息的預(yù)測,在中文數(shù)據(jù)集DuIE 上進(jìn)行試驗(yàn),但最終實(shí)驗(yàn)結(jié)果還有一定的提升空間。為了更有效地抽取出文本中的實(shí)體與關(guān)系,且能較好地解決實(shí)體關(guān)系重疊問題,本文做了如下工作:1)針對關(guān)系重疊問題提出了位置輔助標(biāo)記方法;2)運(yùn)用位置輔助標(biāo)記方法在中文數(shù)據(jù)集DuIE 上進(jìn)行對比實(shí)驗(yàn)證明了該方法的有效性。

2 基于位置輔助標(biāo)記的實(shí)體關(guān)系抽取方法原理

本文提出一種基于位置輔助標(biāo)記的方法來抽取實(shí)體關(guān)系三元組,整體模型結(jié)構(gòu)如圖2 所示。將實(shí)體關(guān)系三元組定義為,輸入語句在編碼后會(huì)同時(shí)經(jīng)過一個(gè)實(shí)體抽取通道和一個(gè)關(guān)系抽取通道,實(shí)體抽取通道能將文本中可能存在的實(shí)體以頭部索引和尾部索引進(jìn)行存儲(chǔ),記為EH和ET;關(guān)系抽取通道能夠?qū)⑽谋局锌赡艽嬖诘娜M以關(guān)系相關(guān)的形式進(jìn)行存儲(chǔ),分別存放于關(guān)系頭部矩陣和關(guān)系尾部矩陣中,存放形式分別為。存儲(chǔ)后,如果在實(shí)體矩陣中均存在,就可以抽取出對應(yīng)的三元組

在整個(gè)實(shí)體關(guān)系的抽取過程中,有可能存在兩種重疊關(guān)系。在關(guān)系抽取通道,根據(jù)預(yù)設(shè)的關(guān)系種類設(shè)置通道數(shù)量,可抽取出該語句中所有的關(guān)系頭部矩陣和關(guān)系尾部矩陣;在實(shí)體抽取通道,根據(jù)預(yù)設(shè)的實(shí)體類型設(shè)置通道,用來抽取出語句中的實(shí)體及實(shí)體類型。對于三元組,R1在關(guān)系頭部矩陣中存在,R1在關(guān)系尾部矩陣中存在。R2抽取通道同理,但是由于R1和R2不是在同一通道進(jìn)行的,故只要在實(shí)體矩陣中存在,就能輸出三元組,故該方法能夠有效地解決關(guān)系重疊問題。

2.1 BERT 預(yù)訓(xùn)練語言模型

BERT(bidirectional encoder representation from transformers),2018 年由Google 首次提出,是一種預(yù)訓(xùn)練語言模型。BERT 采用雙向Transformer 的Encoder,通過新的遮蔽語言模型(masked language modeling,MLM)來生成深度的雙向語言表征,這不同于以往采用單向語言模型或?qū)蓚€(gè)單向語言模型進(jìn)行淺層拼接,且BERT 在預(yù)訓(xùn)練完成之后,只需要一個(gè)額外的輸出層進(jìn)行fine-tune,就能在各種下游任務(wù)中取得state-of-the-art 的表現(xiàn)。基于此,本文采用BERT來作為embedding層,以較好地獲取上下文信息,將BERT 對應(yīng)輸入文本使用詞向量的方式進(jìn)行表示。

式中:S為模型文本;(w1,w2,…,wn)為S的每個(gè)字;V為文本S經(jīng)過BERT 預(yù)訓(xùn)練語言模型后的字向量表現(xiàn)形式;(v1,v2,…,vn)為(w1,w2,…,wn)經(jīng)過BERT預(yù)訓(xùn)練語言模型后的每個(gè)字對應(yīng)的字向量表現(xiàn)形式。

2.2 位置輔助標(biāo)記

通過位置輔助標(biāo)記矩陣,可以通過索引標(biāo)記將實(shí)體對之間建立關(guān)系,如圖3 所示。

輸入語句S:“在吳京自導(dǎo)自演的電影《戰(zhàn)狼2》里,盧靖姍作為女主角在電影中扮演援非醫(yī)生瑞秋。”在該例句中,以三元組<吳京,導(dǎo)演,戰(zhàn)狼2>為例,實(shí)體矩陣中,“吳京”實(shí)體索引位置為<1,2>,“戰(zhàn)狼2”實(shí)體索引位置為<11,13>;關(guān)系矩陣中分為關(guān)系頭部矩陣和關(guān)系尾部矩陣,關(guān)系頭部矩陣中,“吳京”實(shí)體中的第一個(gè)字“吳”與“戰(zhàn)狼2”實(shí)體中第一個(gè)字“戰(zhàn)”索引位置為<1,11>,關(guān)系尾部矩陣中,“吳京”實(shí)體的最后一個(gè)字“京”與“戰(zhàn)狼2”實(shí)體最后一個(gè)字“2”索引位置為<2,13>。解碼時(shí),實(shí)體矩陣中存在索引<1,2>與<11,13>,通過關(guān)系矩陣中存在<1,11>與<2,13>可以得到索引<1,2>與<11,13>,故實(shí)體“吳京”和“戰(zhàn)狼2”存在關(guān)系,能夠構(gòu)成三元組<吳京,導(dǎo)演,戰(zhàn)狼2>。此外,對于實(shí)體矩陣而言,因?yàn)閷?shí)體尾部索引必然大于實(shí)體頭部索引,矩陣存儲(chǔ)的方式采用上三角矩陣的方式進(jìn)行存儲(chǔ),即對于句子S,設(shè)句長為n,則位置輔助矩陣的長度為n(n+1)/2,通過該方式,可以更好地利用空間。該模塊的操作流程通過以下公式表示:

式中:Wh為參數(shù)矩陣;[hi,hj]為在位置輔助矩陣中的索引位置;bh為可在訓(xùn)練中進(jìn)行更新的偏差向量。

2.3 實(shí)體抽取器

本文針對每一種實(shí)體類型設(shè)置一個(gè)實(shí)體抽取器,對于N個(gè)預(yù)定義的實(shí)體類型,共有N個(gè)實(shí)體抽取器。實(shí)體抽取器內(nèi)使用一個(gè)全連接層加softmax 的方式,標(biāo)簽采用1/0 的方式,若在文本中某一位置上被判定為某一類型實(shí)體的可能性大于0,那么就將該值標(biāo)記為1,否則標(biāo)記為0。得到標(biāo)記結(jié)果的情況下,會(huì)根據(jù)位置輔助上三角矩陣來獲取每個(gè)實(shí)體抽取器中的所有實(shí)體。操作流程如公式(3)(4)所示。

式(3)(4)中:We為參數(shù)矩陣;hi,j為位置向量;be為可以在訓(xùn)練中進(jìn)行更新的偏差向量;P(yi,j=m)為在[i,j]位置鏈接實(shí)體類型為m的概率;Link(wi,wj)為[i,j]位置鏈接概率最大的實(shí)體類型。

2.4 關(guān)系抽取器

與實(shí)體抽取器相似,根據(jù)預(yù)定義關(guān)系種類設(shè)立關(guān)系抽取通道,但本文針對每個(gè)關(guān)系設(shè)置4 個(gè)關(guān)系抽取器。以導(dǎo)演為例,將會(huì)設(shè)置導(dǎo)演SH2OH(主實(shí)體頭部與客實(shí)體頭部),導(dǎo)演ST2OT(主實(shí)體尾部與客實(shí)體尾部),導(dǎo)演OH2SH(客實(shí)體頭部與主實(shí)體頭部),導(dǎo)演OT2ST(客實(shí)體尾部與客實(shí)體頭部),因?yàn)樵谖恢幂o助標(biāo)記中,統(tǒng)一采用了上三角矩陣進(jìn)行存儲(chǔ)。這樣,對于某些輸入語句而言,可能會(huì)存在客實(shí)體在主實(shí)體之前,那么,上三角矩陣就無法標(biāo)記出所有的實(shí)體對,無法確認(rèn)主實(shí)體與客實(shí)體,故設(shè)置了OH2SH 和OT2ST 通道,將其設(shè)置為輸出種類,操作流程與實(shí)體抽取流程一樣。

式(5)(6)中:Wr為參數(shù)矩陣;br為訓(xùn)練中進(jìn)行更新的偏差向量;P(yi,j=n)為在[i,j]位置鏈接關(guān)系n的概率;Link(wi,wj)為[i,j]位置鏈接概率最大的關(guān)系類型。

2.5 損失函數(shù)

由于該任務(wù)用于多分類任務(wù),所以選擇了多分類交叉熵?fù)p失函數(shù)作為損失函數(shù),公式定義如下:

式中:N為實(shí)體類型數(shù)加上4 倍的關(guān)系類型數(shù);m為實(shí)體類型集合;n為關(guān)系類型集合。

3 實(shí)驗(yàn)結(jié)果

3.1 數(shù)據(jù)集介紹

實(shí)驗(yàn)數(shù)據(jù)集來自百度提供的數(shù)據(jù)集DuIE[13]。DuIE 是一個(gè)大規(guī)模的高質(zhì)量數(shù)據(jù)集,該數(shù)據(jù)集采用從粗到精的過程,結(jié)合遠(yuǎn)程監(jiān)控和眾包標(biāo)注。本文使用的是DuIE 中的訓(xùn)練集和驗(yàn)證集,由于實(shí)驗(yàn)設(shè)備受限,且所提出模型復(fù)雜程度與句長呈指數(shù)級關(guān)系,故將文本長度大于130 的句子全部舍棄,最終實(shí)驗(yàn)所用數(shù)據(jù)情況如表1 所示。

表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experimental dataset

3.2 評價(jià)指標(biāo)

基于位置輔助標(biāo)記方法的實(shí)體關(guān)系抽取模型評價(jià)指標(biāo)通過精準(zhǔn)率(P,precision),召回率(R,recall)和F1值來進(jìn)行衡量,具體計(jì)算方式如下:

式(8)(9)中:TP為預(yù)測出的三元組與原文本中存在三元組一致的個(gè)數(shù);FP為預(yù)測出來的三元組與原文本中存在三元組不一致的個(gè)數(shù);FN為原文本中存在的三元組但預(yù)測結(jié)果沒有該三元組的個(gè)數(shù)。

3.3 實(shí)驗(yàn)環(huán)境

實(shí)體關(guān)系抽取模型實(shí)驗(yàn)環(huán)境如表2 所示。

表2 實(shí)驗(yàn)環(huán)境Table 2 Experimental environment

3.4 實(shí)驗(yàn)參數(shù)設(shè)計(jì)

本文進(jìn)行了一系列實(shí)驗(yàn),各實(shí)驗(yàn)參數(shù)設(shè)置如表3所示。

表3 各模型參數(shù)設(shè)置Table 3 Parameter settings of each model

3.5 實(shí)驗(yàn)結(jié)果分析

為了驗(yàn)證本文提出模型的有效性,利用上述模型按照上述參數(shù)進(jìn)行了對比實(shí)驗(yàn),結(jié)果如表4 所示。

如表4 所示,本文提出的方法與基于BERT 的模型相比,F(xiàn)1值提高了0.107;與FETI(融合實(shí)體類型信息)的實(shí)體關(guān)系聯(lián)合抽取方法相比,本文提出的方法F1值提高了約0.079;相較于序列標(biāo)注的方法,本方法F1值提高了約0.027。采用BERT+sigmoid 先識別實(shí)體再關(guān)系分類,使用該方式很難獲取到實(shí)體和關(guān)系之間的相互依賴性。相比之下,本文提出的模型,實(shí)體和關(guān)系共享編碼層參數(shù),可以較好地利用實(shí)體和關(guān)系之間的交互信息。FETI 融合了實(shí)體類別信息進(jìn)行關(guān)系抽取,將實(shí)體類別信息作為輔助信息做實(shí)體關(guān)系聯(lián)合抽取,使用該方式,會(huì)給聯(lián)合抽取任務(wù)提供大量的背景知識,同時(shí)也會(huì)引入更多噪聲。本文提出的方法不會(huì)引入與抽取出的三元組無關(guān)的噪聲,可以有效提高抽取的準(zhǔn)確率。BERT+CNN+CRF 采用了序列標(biāo)注的方法進(jìn)行學(xué)習(xí),通過該類方法模型需要額外學(xué)習(xí)復(fù)雜的BIEOS(B-beginner,I-inside,E-end,O-outsde,S-single)對性能有一定影響。而采用多個(gè)二分類器的方法進(jìn)行實(shí)體關(guān)系聯(lián)合抽取過程較為簡單,在解碼階段引入相應(yīng)位置輔助信息,而且能解決SEO 和EPO 問題。

表4 各模型實(shí)驗(yàn)結(jié)果Table 4 Experimental results of each model

綜上所述,本研究提出的BERT 結(jié)合位置輔助標(biāo)記和sigmoid 模型的總體性能最好,優(yōu)于其他模型。

4 結(jié)語

為了解決實(shí)體關(guān)系抽取任務(wù)中的關(guān)系重疊問題,本文采用了基于位置輔助標(biāo)記[14-16]的方法進(jìn)行實(shí)體關(guān)系抽取,可以更準(zhǔn)確地抽取出實(shí)體關(guān)系三元組。該方法使用了BERT 來獲取文本中的上下文語義,位置輔助信息可以更好地定義規(guī)則,為后續(xù)學(xué)習(xí)建立一個(gè)更明確的目標(biāo),解決了關(guān)系重疊問題。經(jīng)過實(shí)驗(yàn)論證,本文在中文數(shù)據(jù)集DuIE 上表現(xiàn)良好,取得了不錯(cuò)的效果。在后續(xù)研究中,由于位置輔助矩陣引入?yún)?shù)過多,模型花費(fèi)時(shí)間會(huì)較長,因而將對模型進(jìn)行改進(jìn),以減少參數(shù),提高效率。

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲三级视频在线观看| 国产精品 欧美激情 在线播放| 午夜久久影院| 欧美日韩激情在线| 久久精品国产999大香线焦| swag国产精品| 亚洲av色吊丝无码| 啪啪免费视频一区二区| 99久久99这里只有免费的精品| 欧美精品黑人粗大| 国产无码在线调教| 国产丝袜一区二区三区视频免下载| 国产中文一区二区苍井空| 欧美一区国产| 美女国内精品自产拍在线播放| 国内精品免费| 国产精品jizz在线观看软件| 高清欧美性猛交XXXX黑人猛交 | 精品国产福利在线| 在线观看精品自拍视频| 国产一级二级在线观看| 成人免费一区二区三区| 久久精品国产精品青草app| 永久免费av网站可以直接看的| 欧美一级大片在线观看| 欧美第一页在线| 国产日本视频91| 国产伦片中文免费观看| 亚洲精品动漫| 在线色国产| 激情六月丁香婷婷| 99精品国产高清一区二区| 日韩精品一区二区三区大桥未久| 国内熟女少妇一线天| 日本人妻一区二区三区不卡影院 | 日韩在线第三页| 伊在人亞洲香蕉精品區| 日韩专区欧美| 国产美女精品在线| 国产福利微拍精品一区二区| 中文字幕无码av专区久久| 日韩小视频在线观看| 亚洲欧美成人综合| 激情视频综合网| 日本道中文字幕久久一区| 综合色婷婷| 久久国产精品麻豆系列| 亚洲精品成人7777在线观看| 欧美不卡视频一区发布| 欧美日韩在线亚洲国产人| 一级毛片免费高清视频| 国产成人亚洲精品无码电影| 国产打屁股免费区网站| 国产精品无码作爱| 国产在线拍偷自揄拍精品| 亚洲成a∧人片在线观看无码| 国产成人AV大片大片在线播放 | 日本欧美视频在线观看| 伊人色在线视频| 亚洲第一精品福利| 久青草免费在线视频| 欧美翘臀一区二区三区| 网久久综合| 色成人亚洲| 亚洲香蕉久久| 国产精品视频猛进猛出| 一级全免费视频播放| 在线五月婷婷| 欧美成人精品一级在线观看| 国产激情无码一区二区三区免费| 久久人人97超碰人人澡爱香蕉 | 九九线精品视频在线观看| 亚洲欧美日韩精品专区| 国产毛片久久国产| 成人日韩视频| 欧美啪啪视频免码| 中文字幕波多野不卡一区| 女人一级毛片| 午夜福利视频一区| 在线观看亚洲精品福利片| 成人亚洲天堂| 日韩AV手机在线观看蜜芽|