999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的實(shí)體和關(guān)系的聯(lián)合抽取研究

2020-04-01 18:11:48艾鑫
現(xiàn)代計(jì)算機(jī) 2020年6期
關(guān)鍵詞:模型

艾鑫

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

0 引言

隨著互聯(lián)網(wǎng)的快速發(fā)展,在信息爆炸式增長的今天,如何高效獲取所需信息是一個(gè)熱門研究問題,信息抽取技術(shù)應(yīng)運(yùn)而生[1]。實(shí)體識(shí)別和關(guān)系抽取是信息抽取中的兩個(gè)子任務(wù),實(shí)體識(shí)別是指從文本中識(shí)別出專有名稱和有意義的數(shù)量短語并加以歸類[2],而關(guān)系抽取在此基礎(chǔ)上進(jìn)行,目的是識(shí)別實(shí)體對(duì)之間存在的語義關(guān)系。例如:“中國的首都是北京”,首先識(shí)別文本中的實(shí)體:“北京”、“中國”,然后識(shí)別實(shí)體間關(guān)系,通常使用<主體,關(guān)系,客體>三元組表示,如<中國,首都,北京>。為了便于敘述,本文統(tǒng)稱三元組中的客體和主體為關(guān)系的論元。實(shí)體關(guān)系抽取是構(gòu)建知識(shí)庫和知識(shí)圖譜的基礎(chǔ),并且為問答系統(tǒng)、智能檢索等下游應(yīng)用提供支持,其意義不言而喻。

為了從文本中抽取關(guān)系三元組,Zelenko等[3]采用了一種流水線方法,即先進(jìn)行實(shí)體識(shí)別,然后對(duì)已經(jīng)抽取出的實(shí)體進(jìn)行關(guān)系預(yù)測。但是,這種方法存在兩個(gè)缺點(diǎn):1)錯(cuò)誤傳播;2)忽略了實(shí)體識(shí)別和關(guān)系抽取的內(nèi)在聯(lián)系。因此,研究者提出了聯(lián)合抽取方法。初期的聯(lián)合抽取工作多數(shù)基于人工構(gòu)造特征[4-5],特征提取耗時(shí)耗力。隨著深度學(xué)習(xí)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合抽取工作占據(jù)主流。如:Miwa等[6]、Gupta等[7]把使用神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端的聯(lián)合抽取、Zheng等[8]提出了一個(gè)新標(biāo)注模式并使用神經(jīng)網(wǎng)絡(luò)進(jìn)行序列標(biāo)注。

1 相關(guān)工作

目前基于深度學(xué)習(xí)的聯(lián)合抽取方法大致可以分為兩類:一是通過聯(lián)合訓(xùn)練的方式,讓兩個(gè)子任務(wù)共享部分參數(shù),如:Miwa等[6]首次提出端到端抽取的神經(jīng)網(wǎng)絡(luò)模型;二是采用聯(lián)合建模的方式,直接對(duì)關(guān)系三元組進(jìn)行建模,如:Zheng等[8]新標(biāo)注模式(NovelTaging)、Zeng等[9]拷貝生成模型(CopyRE)。以下對(duì)這兩類模型中幾個(gè)具有代表性的工作進(jìn)行詳細(xì)闡述。

1.1 聯(lián)合訓(xùn)練

Miwa等[4]在2016年首次將神經(jīng)網(wǎng)絡(luò)的應(yīng)用于實(shí)體和關(guān)系的聯(lián)合抽取,如圖1所示。模型大致可分為三部分:編碼層、實(shí)體識(shí)別層、關(guān)系抽取層。編碼層使用的是一個(gè)雙向的循環(huán)神經(jīng)網(wǎng)絡(luò),可以讓每個(gè)時(shí)刻的隱藏表達(dá)同時(shí)編碼前后文的信息。另外,模型還將每個(gè)詞的詞性信息也編碼到隱藏狀態(tài)中。對(duì)文本編碼完成后,即可進(jìn)行實(shí)體識(shí)別。該模型把實(shí)體識(shí)別看作是一個(gè)序列標(biāo)注任務(wù),使用編碼層的輸出生成實(shí)體標(biāo)簽序列。最后,在實(shí)體識(shí)別的基礎(chǔ)上,模型將實(shí)體進(jìn)行兩兩配對(duì),輸出最終的關(guān)系抽取結(jié)果。為了提高關(guān)系抽取的準(zhǔn)確度,該模型引入了依存語法信息,并使用一個(gè)雙向的樹神經(jīng)網(wǎng)絡(luò)(Bi-Tree LSTM)編碼兩個(gè)實(shí)體間的最短依存路徑。從嚴(yán)格意義上講,這并不是一個(gè)聯(lián)合抽取模型,兩個(gè)子任務(wù)依然是分開決策的,只是通過共享底層編碼信息來捕捉任務(wù)間的關(guān)聯(lián)。但是該模型最早把深度學(xué)習(xí)應(yīng)用于聯(lián)合抽取,為之后的聯(lián)合建模等工作奠定基礎(chǔ)。基于該模型這種架構(gòu)的工作還有許多,特點(diǎn)是共享參數(shù),但是兩個(gè)子任務(wù)分開決策,如:Li等[10]、Katiyar等[11]、Giannis等[12]。

圖1 聯(lián)合訓(xùn)練模型圖

1.2 聯(lián)合建模

Zheng等[5]直接對(duì)三元組建模,提出了NovelTag?ging方法,這是第一個(gè)真正意義上的聯(lián)合建模(抽取)工作。Zheng等把實(shí)體和關(guān)系的聯(lián)合抽取轉(zhuǎn)換為序列標(biāo)注問題,通過一套精心設(shè)計(jì)的標(biāo)簽體系,同時(shí)表達(dá)實(shí)體信息和語義關(guān)系,其模型如圖2所示。模型架構(gòu)和普通的序列標(biāo)注模型基本一致,主要分為:編碼層、解碼層。編碼層是一個(gè)Bi-LSTM,解碼層是一個(gè)LSTM,輸出的是一個(gè)實(shí)體關(guān)系標(biāo)簽序列。關(guān)系標(biāo)簽可以分為三部分:實(shí)體邊界、語義關(guān)系、主體客體(實(shí)體一或?qū)嶓w二),非關(guān)系標(biāo)簽“O”表示不存在語義關(guān)系。該模型輸出的不是完整的關(guān)系三元組,最終還需要將同一個(gè)關(guān)系對(duì)應(yīng)的實(shí)體一和實(shí)體二組合起來才完整。但是這一過程卻存在一個(gè)問題,如果文本中同一個(gè)關(guān)系出現(xiàn)兩次,此時(shí)無法對(duì)關(guān)系標(biāo)簽進(jìn)行準(zhǔn)確配對(duì)。雖然作者提出一個(gè)就近原則,但這無疑是不準(zhǔn)確的。另外,該模型對(duì)每個(gè)詞只打一個(gè)標(biāo)簽,而現(xiàn)實(shí)情況是實(shí)體可能會(huì)參與多種關(guān)系。NovelTagging是第一個(gè)聯(lián)合建模工作,但是存在關(guān)系標(biāo)簽配對(duì)、實(shí)體無法參與多關(guān)系的問題。

圖2 NovelTagging模型圖

通常實(shí)體可能會(huì)參與多種關(guān)系,即存在三元組重疊現(xiàn)象,如:A、B、C三個(gè)實(shí)體,可能AB、AC都存在某種語義關(guān)系。Zheng的標(biāo)注模式無法處理三元組重疊,因此Zeng等[9]于2018年提出拷貝生成模型。Zeng等將三元組抽取任務(wù)規(guī)約為序列生成問題,即輸入一段文本,然后輸出完整的關(guān)系三元組序列。模型架構(gòu)和一般的序列框架類似,主要由編碼器和解碼器組成。編碼器使用的是Bi-LSTM,每個(gè)時(shí)刻的輸出代表每個(gè)詞的隱藏狀態(tài)。解碼器使用的是一個(gè)單向的LSTM,每個(gè)時(shí)刻的輸出代表關(guān)系三元組的一個(gè)部分(關(guān)系或?qū)嶓w)。這個(gè)生成過程和普通的生成過程有些不同,三元組中的關(guān)系采用生成的方式,而兩個(gè)實(shí)體則采用拷貝的方式(實(shí)體必定存在于原文本中)。模型的解碼過程以三為周期循環(huán)執(zhí)行,先解碼生成關(guān)系,然后根據(jù)關(guān)系分別拷貝實(shí)體一、實(shí)體二,直到生成表示結(jié)束的關(guān)系三元組<NA,NA,NA>。Zeng的模型基本解決了標(biāo)注模式所存在的不足,應(yīng)該算是比較完整的聯(lián)合抽取工作,但是卻存在一個(gè)明顯缺陷,不能識(shí)別實(shí)體的邊界。在這個(gè)工作中,實(shí)體是用單個(gè)詞表示的,由多個(gè)詞組成的實(shí)體取最后一個(gè)詞。

隨后又有不少工作針對(duì)拷貝生成模型進(jìn)行改進(jìn),Takanobu等[13]于2019年提出了一個(gè)基于強(qiáng)化學(xué)習(xí)的層級(jí)網(wǎng)絡(luò)模型(Hierarchical Framework with Reinforce?ment Learning,HRL)。HRL模型分為上下兩層,上層為關(guān)系識(shí)別層,下層為實(shí)體標(biāo)注層。對(duì)于關(guān)系識(shí)別,Takanobu提出了一個(gè)關(guān)系指示器概念(Relation Indica?tor),即文本中某個(gè)可指示語義關(guān)系的位置,關(guān)系指示器可能是詞或者標(biāo)點(diǎn)符號(hào)等,與關(guān)系觸發(fā)詞有所不同。但是,關(guān)系數(shù)據(jù)集不存在這樣的標(biāo)注,而如果采用人工標(biāo)注,費(fèi)時(shí)費(fèi)力。因此,作者采用了強(qiáng)化學(xué)習(xí)的方式。在關(guān)系識(shí)別過程中,代理(Agent)根據(jù)歷史狀態(tài)信息判斷每個(gè)位置是否產(chǎn)生關(guān)系,動(dòng)作空間為{NR}∪R,NR表示沒有關(guān)系,R表示關(guān)系類型集合,如果存在某種關(guān)系則帶著當(dāng)前狀態(tài)轉(zhuǎn)到實(shí)體識(shí)別層。實(shí)體識(shí)別層也是采用強(qiáng)化學(xué)習(xí)的方式,動(dòng)作空間為({S,T,O}×{B,I})∪{N},S、T分別表示參與關(guān)系的主體、客體,O表示普通實(shí)體(沒有參與當(dāng)前關(guān)系),B、I表示實(shí)體邊界,N表示普通詞。當(dāng)實(shí)體識(shí)別完畢后,下層會(huì)把狀態(tài)傳回上層,繼續(xù)進(jìn)行關(guān)系識(shí)別。這個(gè)工作較好地解決了實(shí)體邊界問題,但是強(qiáng)化學(xué)習(xí)并不穩(wěn)定,實(shí)驗(yàn)結(jié)果難以重現(xiàn)。

2 數(shù)據(jù)集

關(guān)系抽取的數(shù)據(jù)集根據(jù)標(biāo)注方式,可分為兩類。一類是Miwa等[6]使用的人工標(biāo)注的數(shù)據(jù)集,如:ACE(Automatic Content Extraction)[14]數(shù)據(jù)集。另一類則是Zheng等[8]使用的遠(yuǎn)監(jiān)督[15]產(chǎn)生的數(shù)據(jù)集,如:紐約時(shí)代(New York Times,NYT)數(shù)據(jù)集。

關(guān)系抽取任務(wù)最初是由美國國防高級(jí)研究計(jì)劃委員會(huì)(Defense Advanced Research Projects Agency,DAR?PA)資助的MUC(Message Understanding Conference)[16]會(huì)議于1988年首次正式提出的,其發(fā)展最初由MUC[16]評(píng)測會(huì)議所推動(dòng),后來NIST舉辦的ACE替代了該會(huì)議。ACE會(huì)議每年都會(huì)發(fā)布與信息抽取相關(guān)的任務(wù),主要包括命名實(shí)體識(shí)別、關(guān)系抽取等。ACE數(shù)據(jù)集便來源于此,該數(shù)據(jù)集是由人手工標(biāo)注的,其中包含了會(huì)議定義的3大類和6子類實(shí)體關(guān)系。

NYT數(shù)據(jù)集是通過遠(yuǎn)程標(biāo)注產(chǎn)生的。該數(shù)據(jù)集使用1987-2007年紐約時(shí)代新聞文章作為語料,并從中采樣出118萬個(gè)句子作為樣例進(jìn)行標(biāo)注。目前該數(shù)據(jù)集有兩個(gè)版本,一個(gè)是由Riedel等[17]發(fā)布,包含了29種有效關(guān)系以及74345個(gè)句子,而另一個(gè)相對(duì)較小的NYT11則由Ren等[18]發(fā)布,包含了24種有效關(guān)系。遠(yuǎn)監(jiān)督產(chǎn)生的數(shù)據(jù)集包含大量噪聲,但是在實(shí)驗(yàn)過程中,多數(shù)工作把該數(shù)據(jù)集直接作為有監(jiān)督標(biāo)注數(shù)據(jù),不考慮噪聲影響,而目前也有些工作在研究如何對(duì)數(shù)據(jù)集進(jìn)行去噪或者容噪處理。Zeng等[9]還在實(shí)驗(yàn)中使用了網(wǎng)絡(luò)自然文本生成(Web Natural Language Generation,WebNLG)數(shù)據(jù)集[19],這個(gè)數(shù)據(jù)集是用來測試模型的生成能力的,在關(guān)系抽取中的任務(wù)中并不常用。

3 結(jié)語

實(shí)體和關(guān)系的聯(lián)合抽取是近年來一個(gè)熱門研究問題,自Miwa等[6]首次將神經(jīng)網(wǎng)絡(luò)引入聯(lián)合抽取后,該任務(wù)在后續(xù)幾年里有了較大提高,但是目前這塊的研究依然存在一些問題。一個(gè)是聯(lián)合建模(或者聯(lián)合解碼),一些工作雖然自稱為”聯(lián)合建模“,其實(shí)不然,兩個(gè)子任務(wù)是分開決策的,無法避免錯(cuò)誤傳播問題,Zheng等[8]是較早采用聯(lián)合建模的工作,隨后的一些工作在聯(lián)合建模方面仍存在爭議。另一個(gè)問題是數(shù)據(jù)問題,深度學(xué)習(xí),特別是有監(jiān)督學(xué)習(xí),依賴于大量且高質(zhì)量的標(biāo)注數(shù)據(jù),但是目前并沒有這樣一個(gè)大型數(shù)據(jù)集。而且,Zeng等[9]研究提出的三元組重疊問題,在傳統(tǒng)的關(guān)系數(shù)據(jù)集(ACE)中出現(xiàn)較少,因而只能采用遠(yuǎn)監(jiān)督標(biāo)注的數(shù)據(jù)集(利用知識(shí)庫可以對(duì)句子進(jìn)行更全面的標(biāo)注),但該數(shù)據(jù)集噪聲較大。

因此,未來的工作一方面應(yīng)該是繼續(xù)探索聯(lián)合建模的方式以及優(yōu)化模型結(jié)構(gòu),聯(lián)合決策應(yīng)該是未來工作的重點(diǎn)。另一方面則是對(duì)遠(yuǎn)監(jiān)督關(guān)系數(shù)據(jù)集的去噪研究,畢竟遠(yuǎn)監(jiān)督能利用已有的知識(shí)庫進(jìn)行大規(guī)模標(biāo)注,雖然該數(shù)據(jù)可能會(huì)包含大量噪聲數(shù)據(jù),但是如果能將噪聲程度控制在較低水平,再依靠深度學(xué)習(xí)的容噪能力,聯(lián)合抽取工作將迎來進(jìn)一步的發(fā)展。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲人成亚洲精品| 国产福利微拍精品一区二区| 亚洲国产成人超福利久久精品| 国产91精品久久| 久久国产乱子伦视频无卡顿| 免费不卡视频| 四虎永久在线视频| 国产成人综合网在线观看| 99ri国产在线| 青青草原国产av福利网站| 熟女成人国产精品视频| 亚洲最大福利网站| 日韩精品免费在线视频| 人妻丰满熟妇αv无码| 高清不卡毛片| a级毛片免费网站| 国产亚洲精久久久久久无码AV| 亚洲一区国色天香| 国产在线精品人成导航| 国产精品原创不卡在线| 久久精品一卡日本电影| 国产精品美人久久久久久AV| 欧美国产精品不卡在线观看| 国产欧美日韩资源在线观看| 国产av一码二码三码无码| 国产h视频免费观看| 欧美人与牲动交a欧美精品| 无码精品福利一区二区三区| 国产在线自乱拍播放| 国产91丝袜在线播放动漫 | 亚洲成AV人手机在线观看网站| 91精品网站| 国产亚洲精品无码专| 亚洲视频在线观看免费视频| 99视频在线免费看| 国产三级a| 最新亚洲人成网站在线观看| 国产91九色在线播放| 国产门事件在线| 亚洲国产中文精品va在线播放| 日本欧美视频在线观看| 亚洲国产欧美国产综合久久| 亚洲精品在线91| 精品国产美女福到在线不卡f| 亚洲精品无码AV电影在线播放| 国产精品手机在线观看你懂的 | 亚洲经典在线中文字幕| 久久亚洲国产视频| 久久亚洲黄色视频| 99热免费在线| 国产成人h在线观看网站站| 久久青青草原亚洲av无码| 日韩欧美91| 综1合AV在线播放| 久久人妻xunleige无码| 香蕉视频在线观看www| 国产aaaaa一级毛片| 欧美日韩福利| 欧美a级在线| 午夜精品久久久久久久99热下载| 亚洲视频色图| 亚洲一区二区三区在线视频| 中文字幕av无码不卡免费| 国产成人精品高清不卡在线 | 午夜国产理论| 成年A级毛片| 永久免费精品视频| 亚洲中文字幕手机在线第一页| 欧美在线网| 免费人成视网站在线不卡| 国产极品美女在线播放| 全色黄大色大片免费久久老太| 中文字幕 欧美日韩| 尤物视频一区| 伊人久久久久久久| 91福利在线看| 国产97视频在线| 国产精品女主播| 在线不卡免费视频| 免费国产高清视频| 精品无码日韩国产不卡av| 婷婷午夜天|