999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融入多特征的篇章級新聞要素關(guān)系抽取

2022-07-14 09:01:34黨雪云
電視技術(shù) 2022年6期
關(guān)鍵詞:單詞文本模型

黨雪云,王 劍*

(1.昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500;2.云南省人工智能重點(diǎn)實(shí)驗室,云南 昆明 650500)

0 引言

新聞要素關(guān)系抽取可以看作實(shí)體關(guān)系抽?。≧elation Extraction,RE)任務(wù)。實(shí)體關(guān)系抽取是指抽取兩個實(shí)體之間可能存在的語義關(guān)系,是信息抽取、構(gòu)建問答系統(tǒng)的關(guān)鍵基礎(chǔ)任務(wù)之一。以涉案輿情新聞為例,法院與人之間包含“審判”關(guān)系,人與罪名之間包含“涉嫌罪名”關(guān)系,原告和被告之間包含“涉事雙方”關(guān)系等,從新聞中自動抽取這些關(guān)系,對于人們快速理解輿情信息起著重要作用。當(dāng)前,篇章級的要素關(guān)系抽取任務(wù)面臨標(biāo)注數(shù)據(jù)較少、任務(wù)復(fù)雜度更高的問題,導(dǎo)致抽取效果不佳,是一個值得研究的方向?,F(xiàn)有的關(guān)系抽取方法主要側(cè)重于從單個句子中抽取要素關(guān)系,通過對大量新聞文本進(jìn)行分析會發(fā)現(xiàn)很多實(shí)體關(guān)系常??缇渥哟嬖?,如圖1 所示,通過整篇文本可分析出“品某良”和“張某雷”兩者都是案件當(dāng)事人,明顯存在關(guān)系,但僅從其中某一個句子并不能抽取兩者之間存在的關(guān)系,因為二者沒有在同一句子同時出現(xiàn)過。通過對文章中多個句子中的要素關(guān)系進(jìn)行分析,結(jié)合上下文語義,才能推斷出兩者之間存在的關(guān)系。因此,本文提出一種通過異構(gòu)圖模型融合多個句子的鄰接關(guān)系、從屬關(guān)系、句法依賴關(guān)系、要素間的多跳關(guān)系等多種特征的方法,通過挖掘篇章級文本中潛在的上下文信息,提升跨句子要素關(guān)系抽取的準(zhǔn)確率和性能。

圖1 篇章級要素關(guān)系問題分析

1 相關(guān)工作

目前,按照訓(xùn)練文本的類型,關(guān)系抽取任務(wù)可以分為句子級關(guān)系抽取和篇章級關(guān)系抽取兩大類,本文主要針對篇章級的要素關(guān)系抽取任務(wù)。篇章級關(guān)系抽取的目的主要是識別出整篇文章中要素之間的關(guān)系,包括單個句子中存在的實(shí)體關(guān)系,也包括跨多個句子存在的要素關(guān)系。根據(jù)輸入文本的結(jié)構(gòu),可以將篇章級的實(shí)體關(guān)系抽取方法分為基于序列的篇章級實(shí)體關(guān)系抽取模型和基于圖的篇章級實(shí)體關(guān)系抽取模型兩類。

基于序列的篇章級實(shí)體關(guān)系抽取模型利用不同的序列編碼獲得詞語表示,之后通過平均池化、注意力池化等各種池化操作計算實(shí)體關(guān)系的表示。ZENG等人[1]使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行正則化的研究,利用外部知識資源如WordNet、位置相關(guān)特征、詞對信息以及詞匯特征集等特征拼接為特征向量作為輸入,進(jìn)行關(guān)系分類;WANG 等人[2]在卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)上引入了一種新的多級注意力機(jī)制來捕獲特定于要素的注意力和特定于目標(biāo)關(guān)系的注意力,使其能夠檢測到更微妙的線索以自動學(xué)習(xí)與關(guān)系分類相關(guān)的部分;HE 等人[3]提出了一種帶有注意力機(jī)制的長短期記憶(Long-Short Term Memory,LSTM)網(wǎng)絡(luò),該方法避免了標(biāo)注數(shù)據(jù)存在誤報,在提取過程中不采用人為設(shè)計的規(guī)則來提升效率,因此本研究利用詞級別的注意特征提取關(guān)系,結(jié)合實(shí)例級別的注意機(jī)制處理數(shù)據(jù)中的誤報問題;MIWA 等人[4]討論的一種方法使用了雙向LSTM,將實(shí)體識別視為序列標(biāo)注問題,模型嵌入層主要處理單詞、依賴類型、詞性標(biāo)簽及要素標(biāo)簽的嵌入,序列層主要用于單詞在句子中的順序信息,下一層通過一個神經(jīng)網(wǎng)絡(luò),從左向右以一種貪心的策略分配要素標(biāo)簽,最后一個單詞的標(biāo)簽用來預(yù)測當(dāng)前的單詞標(biāo)簽,最后一層提取預(yù)測到的要素之間的關(guān)系;GAO 等人[5]提出了神經(jīng)雪球的方法,只需要使用少數(shù)的新關(guān)系樣例,便可利用現(xiàn)有關(guān)系的先驗知識從未標(biāo)注數(shù)據(jù)中迭代地積累新的實(shí)例和事實(shí),從而訓(xùn)練一個較好的神經(jīng)關(guān)系分類器,實(shí)驗結(jié)果進(jìn)一步表明了其模型的效率和魯棒性。

為了進(jìn)一步捕獲長期依賴關(guān)系,基于圖的實(shí)體關(guān)系抽取模型被提出,通過構(gòu)造圖結(jié)構(gòu),距離較遠(yuǎn)的單詞或者要素均可以成為相鄰節(jié)點(diǎn)。相對序列編碼器而言,圖編碼器可以聚合來自所有鄰居節(jié)點(diǎn)的信息以捕獲更長的依賴關(guān)系。ZENG[6]等人為了更好地處理篇章級關(guān)系抽取任務(wù),提出一種雙圖模型,引入了一種要素級別的異構(gòu)圖和一種圖神經(jīng)網(wǎng)絡(luò)來模擬文章中不同要素之間的交互,他們還引入了要素級圖并提出了一種新的路徑推理機(jī)制,用于要素之間的關(guān)系推理;CHRISTOPOULOU[7]等人提出一種新的面向邊的圖神經(jīng)網(wǎng)絡(luò)模型用于篇章級關(guān)系抽取,該模型不同于現(xiàn)有模型,它專注于構(gòu)建獨(dú)特的節(jié)點(diǎn)和邊,將信息編碼為邊表示而不是節(jié)點(diǎn)表示;ZHANG[8]等人提出一種新穎的篇章級關(guān)系抽取模型,該模型構(gòu)建雙層異構(gòu)圖用于連續(xù)建模文章結(jié)構(gòu)并實(shí)現(xiàn)關(guān)系推理;YANG[9]等人針對關(guān)系抽取提出了兩種樹結(jié)構(gòu)的圖卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)策略,一種策略是集成層次化注意力機(jī)制和主體、對象之間的相關(guān)性分析分別生成句子和要素向量,另一種策略合并命名實(shí)體識別子網(wǎng)絡(luò)和圖卷積網(wǎng)絡(luò)樹結(jié)構(gòu),以實(shí)現(xiàn)關(guān)系抽取和要素抽取的聯(lián)合學(xué)習(xí)。

2 基于雙層異構(gòu)圖的篇章級要素關(guān)系抽取方法

2.1 異構(gòu)圖的構(gòu)建方法

本文將篇章級的實(shí)體關(guān)系抽取任務(wù)定義如下:給定一篇標(biāo)注文章,實(shí)體集合為,其中表示第i個句子中有個單詞,而表示第i個實(shí)體中有個單詞,最終的目標(biāo)是預(yù)測每個實(shí)體對之間的所有句內(nèi)和句間關(guān)系。經(jīng)過對長文本的大量分析發(fā)現(xiàn),許多要素關(guān)系其實(shí)是跨多個句子存在的,所以篇章級的關(guān)系抽取任務(wù)比傳統(tǒng)的句子級的關(guān)系抽取任務(wù)要更復(fù)雜,篇章級的關(guān)系抽取模型需要較強(qiáng)的語義建模能力和關(guān)系推理能力。

圖2 是本文關(guān)系抽取模型的系統(tǒng)架構(gòu)圖。該模型主要分為五層:輸入層主要負(fù)責(zé)將輸入的詞進(jìn)行向量化表征,文本編碼層是任意的序列編碼器,用于為每個單詞生成上下文表示;結(jié)構(gòu)化建模層負(fù)責(zé)建模文本中固有的結(jié)構(gòu)信息,包括文本的鄰接關(guān)系、從屬關(guān)系以及句法依賴關(guān)系;關(guān)系推理層負(fù)責(zé)捕獲文本中要素間的多跳關(guān)系,最后是輸出層,負(fù)責(zé)輸出可能存在的要素關(guān)系,相當(dāng)于一個多標(biāo)簽分類層。

圖2 雙層異構(gòu)圖模型

2.2 輸入層

輸入層負(fù)責(zé)對單詞的語義信息、擴(kuò)充信息進(jìn)行編碼并嵌入到單詞的輸入特征中。具體來說,就是先使用dw維的詞向量wi來表征文本的上下文語義信息,再增加要素的類型表征ti用于表征每個要素的類型信息;其次,增加指代特征ci用于標(biāo)記指代詞所屬的要素,幫助模型獲取要素共指的信息;最后將這三種表征拼接起來構(gòu)成輸入特征xi=[wi;ti;ci]∈,其中[·;·]表示向量拼接的操作,dx=dw+dt+dc。

2.3 文本編碼層

文本編碼層負(fù)責(zé)捕獲單詞的上下文信息。具體來講,把整篇文章看作一個包含n個單詞的長序列,然后使用序列編碼器雙向LSTM 來編碼長序列中每個單詞的上下文信息。若將LSTM 單元對xi的操作表示為LSTM(xi),則該單詞的上下文語義信息可以表示為:

式中:hi和F是一個線性函數(shù),dh表示LSTM 單元的隱藏層的維度。通過這種方式,可以捕獲特定時間單詞的前向狀態(tài)和后向狀態(tài)的特征表示,最后使用HW={h1,h2,…,hn}作為輸入序列的表征向量。

2.4 結(jié)構(gòu)化建模層

結(jié)構(gòu)化建模層將文本序列的每一個句子、每一個單詞均視為圖中的一個節(jié)點(diǎn)。通常,一篇文章由多個句子組成,一個句子由多個單詞組成,所以本文采用以下5 種類型的邊來建模文章內(nèi)在結(jié)構(gòu)信息:

(1)字-字鄰接邊,在文章每兩個相鄰的字節(jié)點(diǎn)之間建立一條邊,以保持文章中每個字的自然順序結(jié)構(gòu);

(2)句子-句子鄰接邊,在文章每兩個相鄰句子節(jié)點(diǎn)之間建立一條邊,以保持文章中句子間的自然順序結(jié)構(gòu);

(3)句子-句子補(bǔ)全邊,將文章中沒有相鄰的句子節(jié)點(diǎn)之間連接一條邊,以增強(qiáng)圖結(jié)構(gòu)的連通性;

(4)詞-詞依賴關(guān)系邊,為了對語法結(jié)構(gòu)進(jìn)行編碼,如果兩個單詞節(jié)點(diǎn)在句子級的依存關(guān)系樹中相鄰的話,則在它們之間連一條邊;

(5)詞-句子關(guān)聯(lián)邊,為了建模文章的層次結(jié)構(gòu),將單詞節(jié)點(diǎn)和它們所在的句子節(jié)點(diǎn)之間連一條邊。

結(jié)構(gòu)化建模層直接利用文本編碼層的輸出作為單詞節(jié)點(diǎn)的初始化特征,對每個句子中的所有單詞節(jié)點(diǎn)進(jìn)行最大池化操作得到句子節(jié)點(diǎn)的表示,即,最后,然后利用圖神經(jīng)網(wǎng)絡(luò)中常用的消息傳播策略更新單詞和句子節(jié)點(diǎn)的表示:

式中:Hs={s1,…,sNs}指一篇文章中所有句子節(jié)點(diǎn)表征的集合,HW是輸入序列的詞表征,WR(·)表示圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的消息傳播機(jī)制。最后對于每個單詞節(jié)點(diǎn),將其在WR之前和之后的特征拼接起來作為輸出的表示,這種表示方式結(jié)合了詞節(jié)點(diǎn)和句子節(jié)點(diǎn)的順序特征和結(jié)構(gòu)特征,為下一步推理提供基礎(chǔ)。

2.5 關(guān)系推理層

關(guān)系推理層中將要素提及及要素當(dāng)作圖中的節(jié)點(diǎn),建立如下4 種類型的邊:

(1)提及共現(xiàn)邊,在同一句中的兩個提及或要素之間建立一條邊,用于表征句內(nèi)關(guān)系;

(2)提及共指邊,如果兩個提及節(jié)點(diǎn)指向同一個實(shí)體,則在它們之間連一條邊,用于表征句內(nèi)關(guān)系;

(3)提及要素關(guān)聯(lián)邊,如果提及指向某要素,則在它們之間連一條邊,用于傳遞提及層面的消息到要素層面;

(4)要素-要素互補(bǔ)邊,將所有要素兩兩之間連一條邊,用于防止出現(xiàn)不連通圖,增強(qiáng)多跳關(guān)系。

具體來講,對于文本中第s個單詞到第t個單詞組成的提及m,將其表征初始化為m=1/[(s-t+1),則一個要素e的表征可以表示為其所有提及表征的平均值,即e=(∑jmj)/(nm),與結(jié)構(gòu)化建模層中的消息傳播機(jī)制類似,,其中HM和HE分別指提及節(jié)點(diǎn)和要素節(jié)點(diǎn)的表征集合,經(jīng)過L次的消息傳遞之后,便能得到所有節(jié)點(diǎn)的最終表征。

2.6 輸出層

將關(guān)系預(yù)測看作一個多標(biāo)簽分類問題,對于每個要素對(ei,ej),將這些要素特征和相對距離表征向量拼接起來,并使用一個雙線性函數(shù)來計算每個關(guān)系的概率:

3 實(shí) 驗

3.1 數(shù)據(jù)集

本文使用的新聞要素關(guān)系語料集一共包含1 200 篇新聞文本數(shù)據(jù),共4 類關(guān)系。其中,涉案人員-涉案人員關(guān)系共2 352 組,涉案人員-受理法院關(guān)系共1 348 組,涉案人員-涉嫌罪名關(guān)系共1 732 組,受理法院-判處罪名關(guān)系共1 285 組,具體信息如表1 所示。

表1 涉案輿情篇章級要素關(guān)系抽取語料庫信息

3.2 實(shí)驗設(shè)置

實(shí)驗采用128 維的詞向量對輸入文本進(jìn)行初始化,得到其向量化表示。訓(xùn)練時,Dropout 設(shè)置為0.8,學(xué)習(xí)率lr 設(shè)置為0.01,訓(xùn)練輪次epoch 設(shè)置為200,batch_size 設(shè)置為10,優(yōu)化器使用SGD。

3.3 評價標(biāo)準(zhǔn)

本文采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F1 值(F1-Measure,F(xiàn)1)作為評價指標(biāo),其計算公式如下:

式中:TP表示把正例預(yù)測為正的概率,F(xiàn)P表示把負(fù)例預(yù)測為正的概率,F(xiàn)N表示把正例預(yù)測成負(fù)的概率。

3.4 實(shí)驗結(jié)果

本文采用如下3 個基準(zhǔn)模型:ME-CNN 模型[10]使用具有語言特征的最大熵模型、具有多級語義特征的卷積神經(jīng)網(wǎng)絡(luò)分別用于提取句間要素關(guān)系和句內(nèi)要素關(guān)系,并在訓(xùn)練階段考慮要素之間的上位詞關(guān)系以構(gòu)建更精確的訓(xùn)練實(shí)例;RPCNN 模型[11]提出一個將領(lǐng)域知識、注意力機(jī)制、分段池化以及多實(shí)例學(xué)習(xí)策略結(jié)合的篇章級循環(huán)分段卷積神經(jīng)網(wǎng)絡(luò);GCNN 模型[12]提出了一種使用圖卷積神經(jīng)網(wǎng)絡(luò)來捕獲本地和非本地依賴關(guān)系的句間關(guān)系抽取模型,在篇章級的圖上構(gòu)建了一個帶標(biāo)簽邊的圖卷積神經(jīng)網(wǎng)絡(luò),這也是在篇章級關(guān)系抽取中利用圖神經(jīng)網(wǎng)絡(luò)的首次嘗試。實(shí)驗結(jié)果如表2 所示,本文模型與其他模型相比,F(xiàn)1 值有0.46~4.09 個百分點(diǎn)的提升;對比ME-CNN 和RPCNN,實(shí)驗結(jié)果表明圖神經(jīng)網(wǎng)絡(luò)模型的確具有一定的優(yōu)越性;對比GCNN,結(jié)果表明了雙層異構(gòu)圖在要素關(guān)系抽取任務(wù)上的多跳推理能力。

表2 本文模型與基準(zhǔn)模型實(shí)驗對比結(jié)果

本文還進(jìn)行了消融實(shí)驗,逐一去掉模型中不同類型的邊特征進(jìn)行實(shí)驗,實(shí)驗結(jié)果如表3 所示。

表3 消融實(shí)驗結(jié)果

分析表3 的結(jié)果可知,字字鄰接邊表征了文章中每個字的自然順序,對模型的準(zhǔn)確率做出了較大貢獻(xiàn);詞句關(guān)聯(lián)邊對模型的層次進(jìn)行建模,有效提高了模型的性能;句子-句子鄰接邊保證了句子的順序結(jié)構(gòu),也增強(qiáng)了模型的準(zhǔn)確性;提及共現(xiàn)邊捕捉了提及之間的全局關(guān)系;提及實(shí)體關(guān)聯(lián)邊傳遞提及和實(shí)體間的關(guān)系。這些邊的建立提高了模型的整體性能。

4 結(jié)語

本文針對新聞要素關(guān)系抽取任務(wù),通過對新聞文本中的詞、句子作為圖節(jié)點(diǎn)建模,根據(jù)節(jié)點(diǎn)間的位置及語義關(guān)系精心設(shè)計多種邊特征,捕獲了文本的序列、語法、層次等固有結(jié)構(gòu)信息,并利用圖模型的多跳推理能力,對新聞文本上下文信息進(jìn)行有效的表征,最終篇章級要素關(guān)系抽取的性能得到了較好的提升。

猜你喜歡
單詞文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 欧美成人午夜在线全部免费| 久久香蕉国产线看精品| 中文字幕亚洲精品2页| 国产一级毛片在线| 草草线在成年免费视频2| 国产视频a| 91丝袜乱伦| 欧美啪啪精品| 日本草草视频在线观看| 久久精品最新免费国产成人| 中文字幕中文字字幕码一二区| 欧美有码在线| 日本欧美在线观看| 国产精品免费入口视频| 成人国产精品2021| 亚洲视频二| 亚洲综合极品香蕉久久网| 久久精品电影| 国产精品毛片一区视频播| 亚洲第一成年免费网站| 日韩无码黄色网站| 青青青草国产| 国产手机在线观看| 欧美全免费aaaaaa特黄在线| 国产免费人成视频网| 中文一区二区视频| 日本一区高清| 91小视频在线播放| 四虎永久在线| 欧美精品亚洲精品日韩专区| 成人免费黄色小视频| 亚洲综合色婷婷| 久久中文电影| 亚洲欧洲一区二区三区| 性喷潮久久久久久久久| 成人国产免费| 玖玖免费视频在线观看| 亚洲AV色香蕉一区二区| 亚洲欧美一区二区三区麻豆| 国产精品人成在线播放| 2020亚洲精品无码| 国产高清在线观看| 91国内在线观看| 美女视频黄又黄又免费高清| 99福利视频导航| 91色在线观看| 亚洲欧美成aⅴ人在线观看| 久久中文无码精品| 国产丝袜丝视频在线观看| 九色综合视频网| 色婷婷亚洲综合五月| 国产区人妖精品人妖精品视频| 欧美色丁香| 国产女人在线视频| 亚洲欧美在线综合一区二区三区 | 色婷婷成人网| 午夜国产精品视频黄| 97无码免费人妻超级碰碰碰| 亚洲免费福利视频| 日韩最新中文字幕| 99久久国产综合精品2020| 国产激情无码一区二区APP| 国产免费久久精品99re丫丫一| 国产福利2021最新在线观看| 国模沟沟一区二区三区| 久久人人97超碰人人澡爱香蕉| 蜜桃视频一区二区三区| 成人av专区精品无码国产| 国产精品55夜色66夜色| 日本少妇又色又爽又高潮| 美女扒开下面流白浆在线试听| 久久福利网| 秘书高跟黑色丝袜国产91在线| 亚洲欧美一区二区三区麻豆| 成年免费在线观看| 免费国产无遮挡又黄又爽| 精品偷拍一区二区| 日韩a级毛片| 91精品久久久无码中文字幕vr| 国产不卡一级毛片视频| 亚洲大尺码专区影院| 日韩经典精品无码一区二区|