999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于遠程監督的關系抽取研究綜述

2019-10-21 09:11:00靳小龍席鵬弼程學旗
中文信息學報 2019年10期
關鍵詞:監督方法模型

白 龍,靳小龍,席鵬弼,程學旗

(1. 中國科學院 計算技術研究所 中國科學院網絡數據科學與技術重點實驗室,北京 100190;2. 中國科學院大學 計算機與控制學院,北京 100190)

0 引言

信息抽取是自然語言處理領域的一個子領域,它的目標是從非結構化數據中挖掘結構化信息。關系抽取是信息抽取的一項關鍵技術,其目的是挖掘實體之間存在的語義關系。關系抽取對于知識庫自動構建、問答系統等領域有著極為重要的意義。根據論元個數不同,關系一般可以分為二元關系和多元關系,目前知識庫中最常見的是二元關系,這也是目前關系抽取領域主要研究的關系類型。二元關系建立在兩個實體之上,表達了兩個實體之間存在的某種語義聯系,一般稱這兩個實體為頭實體和尾實體,加上關系,則構成一個三元組。關系抽取算法一般以三元組列表作為輸出。

現有的關系抽取方法可以分為4類,分別是有監督關系抽取、半監督關系抽取、遠程監督關系抽取和無監督關系抽取。有監督關系抽取方法將關系抽取建模為分類問題: 針對句子s,若有實體對〈e1,e2〉在句子s中出現,則對這個實體對進行分類,判斷它們屬于哪種關系。然而,有監督方法需要大量有標注數據,這使得獲取訓練數據的成本較高。半監督關系抽取方法同時使用少量有標注數據和大量無標注數據,從而降低算法對于有標注數據的依賴性,代表性的半監督關系抽取方法有基于自舉的方法[1]、基于主動學習的方法[2]和基于標簽傳播的方法[3]等。基于遠程監督的關系抽取方法由Mintz等[4]提出,通過外部知識庫代替人對語料進行標注,從而可以低成本地獲取大量有標注數據,進而通過分類方法進行關系抽取。無監督的關系抽取一般用于待抽取關系未知的開放領域。開放領域關系抽取的概念由Banko等[5]提出,通過對語料的句法模式進行學習,從而識別出關系短語和相關的參數,無須標注數據便可以抽取實體間的關系。

由于遠程監督關系抽取方法能夠極大地減少標注成本,因而近年來受到了研究者們的關注。然而我們觀察到,在遠程監督關系抽取方面,目前尚缺乏較為系統的梳理。為此,本文將對遠程監督關系抽取當前的方法進行歸納總結,并展望該任務的未來。本文首先將對遠程監督關系抽取方法進行簡要介紹,然后詳細說明幾種主要方法,接著敘述當前遠程監督關系抽取的一些挑戰,最后對該任務未來的研究方向進行展望。

1 遠程監督關系抽取方法簡介

遠程監督關系抽取由Mintz等[4]首先提出,Mintz等人認為這是有別于有監督、半監督和無監督關系抽取的第4類方法,且兼取了其他3類方法的優點。其主要假設是: 假如兩個實體之間存在某種關系,那么所有這兩個實體共現的句子都有可能表達這種關系。根據這一假設,Mintz等使用維基百科數據對無標注語料進行自動標注,并使用分類方法求解關系抽取問題。

Riedel等[6]將Mintz等[4]提出的假設稱為“遠程監督假設(distant supervision assumption)”,并認為這一假設過強,從而提出了“至少一次假設(at-least-once assumption)”,該假設表述如下: 若兩個實體之間存在某種關系,那么在所有這兩個實體共現的句子中,至少有一句表達了這種關系。在此假設下,Riedel等將遠程監督關系抽取建模為多實例學習(multi-instance learning)問題,將一個實體對共現的所有句子聚合成一個句袋(bag),并對句袋進行分類。換言之,多實例學習的方法只關注句袋體現了實體對之間的哪些關系,而并不關注每個句子表達了哪種關系。Riedel等人認為,這樣做有3個優點: 第一,與實踐更加契合;第二,能聚合各處的證據來更好地判斷關系是否成立;第三,簡化了機器學習任務。

Hoffmann等[7]與Surdeanu等[8]觀察到,在一個實體對上可能有不止一種關系成立,因此在多實例學習的基礎上引入了多標簽學習方法,Surdeanu等人將此總結為多實例多標簽學習(multi-instance multi-label learning)。

遠程監督關系抽取方法需要將一個無標注語料庫對齊到已知的知識庫。Mintz等[4]將維基百科詞條頁面對齊到Freebase[9];Riedel等將紐約時報語料庫[10]對齊到Freebase(以下稱為NYT數據集);Surdeanu等將KBP-2010[11]、KBP-2011[12]評測任務中給定的文檔對齊到相應的知識庫(以下稱為KBP數據集);Zeng等[13]將紐約時報語料庫對齊到Wikidata[14]。其中,最為常用的數據集是Riedel等將紐約時報對齊到Freebase形成的NYT數據集。

在模型評估方面,Mintz等設計了兩部分評估: 自動評估和人工評估。需要人工評估的原因是知識庫是不完備的,因此可能存在預測正確的關系由于不在知識庫中而被誤判為預測錯誤的情況。Mintz等采用“準確率—召回率”曲線來作為模型性能的評價指標。根據Lin等的實驗結果,當前一些常用的基準模型的性能如圖1所示。其中,Mintz模型由Mintz等[4]提出,MultiR模型由Hoffmann等[7]提出,MIML模型由Surdeanu等[8]提出,CNN+ATT和PCNN+ATT模型皆由Lin等[15]提出。

圖1 P-R曲線圖[15]

當前遠程監督關系抽取方法大體可以分為3類,分別是基于概率圖的方法、基于矩陣補全的方法以及基于嵌入的方法。以下3節將分別介紹3種方法的代表性工作,以及各自所面臨的挑戰。

2 基于概率圖的方法

本節主要介紹基于概率圖的方法。基于概率圖的方法將句袋和句子的標簽視為隱變量,將關系抽取視為對隱變量賦值的過程。Riedel等[6]提出的模型中,句袋(文中稱為關系relation)隱變量為Y(文中稱為關系變量relation variable),其取值為y∈R,R為所有關系類型組成的集合,用以表示句袋的標簽;句袋中每個句子(文中稱為關系指涉relation mention)隱變量為Zi(文中稱為關系指涉變量relation mention variable),其取值zi∈{0,1},用以表示該句是否真實表達了句袋標簽Y所對應關系,其模型結構如圖2所示。Hoffmann等[7]、Surdeanu等[8]將該問題擴展為多標簽分類問題。兩者將句袋的隱變量擴展為|R|個,每個隱變量Yr的取值為yr∈{0,1},其中r∈R,用以表示該句袋在每個關系上是否成立;句袋中每個句子的隱變量為Zi,其取值為zi∈R,用以表示每個句子所表達的關系。Hoffmann等設計的模型MultiR結構如圖3所示,Surdeanu等設計的模型MIML結構如圖4所示。

圖2 因子圖模型示例

圖3 (a)MultiR盤式記法,(b)實體對為〈Steve Jobs,Apple〉的示例

圖4 MIML的盤式記法

Surdeanu等人提到,MIML模型與MultiR模型的區別主要有兩點。第一,MultiR直接通過取并集的方式聚合每個實例的標簽,而MIML模型通過句袋層面的分類器捕捉不同標簽之間的依賴關系;第二,MultiR采用類感知機風格的參數更新策略,而MIML在貝葉斯框架內進行訓練。Surdeanu認為這兩點是MIML性能優于MultiR的原因。

在此基礎上,又有許多研究者通過不同方法進行了改進。由于遠程監督與有監督方法最大的不同就是錯誤標注所帶來的噪聲,大部分工作都關注如何降噪,Takamatsu等[16]、Min等[17]、Xu等[18]、Ritter等[19]分別提出了不同的模型。其中Takamatsu提出了一種生成模型,用以建模自動標注的模式,從而發現其中的錯誤標注;Min等、Xu等關注知識庫不完備所產生的偽反例,其中Min等[17]認為訓練集中的句袋標簽為觀測標簽,并加入了隱變量l,用以表示句袋的真實標簽,Xu等[18]在訓練集中采用排序學習的方法檢索到相似文檔,從而改善訓練集的標注質量;Ritter等[19]的模型同時關注偽正例和偽反例兩類噪聲,并將其統稱為“缺失數據(missing data)”,他們采用了一種軟約束的方法,允許句子標簽和句袋標簽在一定程度上可以不一致,從而緩解了缺失數據的問題。

基于概率圖的方法當前存在的最大問題是,模型依賴于人工定義的特征函數。此類模型往往存在高準確率、低召回率的問題,當我們綜合考慮準確率和召回率時,基于概率圖的模型就存在一定的局限性。其次,特征需要使用其他自然語言處理工具抽取,例如,句法分析和依存分析工具。此類工具在分析時產生的錯誤會向后傳遞,影響預測精度[20]。

3 基于矩陣補全的方法

本節將主要介紹基于矩陣補全的方法。Fan等[21]首先提出了使用矩陣補全的方法處理遠程監督關系抽取問題。該方法將訓練樣本、測試樣本拼成一個矩陣Z,矩陣分為4塊,左上塊是訓練樣本的特征Xtrain,右上塊是訓練樣本的標簽Ytrain,左下塊是測試樣本的特征Xtest,右下塊是未知的測試樣本標簽Ytest,該方法的目的就是補全矩陣的右下塊,如式(1)所示。

(1)

在遠程監督關系抽取問題中,特征、標簽都含有噪聲,因此Fan等認為觀測到的矩陣Z是由一個低秩矩陣Z*加上一個噪聲矩陣E所形成的,如圖5所示。圖5最左邊的矩陣代表觀測矩陣,其左上角為訓練樣本的特征,右上角為訓練樣本的標簽,左下角為測試樣本的特征,需要預測的是右下角測試樣本的標簽。

圖5 矩陣補全示意圖

Fan等人將遠程監督關系抽取問題轉化為: 在觀測到Xtrain,Ytrain,Xtest后補全Ytest,使得矩陣Z的秩最小化。由于矩陣秩最小化的問題是困難的,他們采取了最小化核范數作為替代,達到了較好的效果。

Zhang等[22]在此基礎上提出了基于非參數貝葉斯的模型,該模型分為3個部分,第一部分建模噪聲,將噪聲ε自發地聚為K類;第二部分是矩陣最小化的秩,將低秩矩陣Z*分解為兩個矩陣U和V,通過概率方法求得;第三部分,在求得U,V,ε的基礎上,對測試集標簽Ytest進行預測。該方法的優點在于使用非參數方法避免了大量的調參。

Fan[21]等人提到,基于矩陣補全的方法的缺點在于,假如新來了一批測試數據,該方法必須重新構建矩陣Z進行補全,不能如其他類型的方法一樣增量地進行抽取。

4 基于嵌入的方法

基于嵌入的方法將詞映射到向量空間中,通過向量運算來表達詞與詞之間存在的語義關聯。該方法最早由Weston等[23]提出,通過對“文檔—關系”的相似度打分來預測實體對之間的關系,他們同時將Bordes等[24]提出的TransE模型引入關系抽取問題中,將知識庫的信息用向量表達,增強了關系抽取模型的性能。Weston等認為句子的嵌入向量是其包含的所有詞的嵌入向量之和,這可以視為傳統詞袋模型與嵌入模型的結合。該方法并沒有將詞的位置信息考慮在內,使用的模型也偏淺層,無法挖掘詞與詞之間更加深層的依存關系。

Zeng等[20]首先將深度學習模型用于遠程監督關系抽取。他們在卷積神經網絡的基礎上提出了PCNN模型,其模型如圖6所示。在輸入方面,Zeng等不僅考慮了詞本身的語義信息,還考慮了每個詞相對其他實體詞的位置信息;在池化層方面,Zeng等采用了分段池化的方法,避免了對隱層節點的過度削減,從而保留了更加細粒度的信息,這一模型也被之后的研究者廣泛采納。同時,Zeng等還提出了基于PCNN模型的多實例學習方法,他們認為,一個句袋的預測值,是其中每個句子的預測值中最大的一個。

圖6 PCNN結構圖

Lin等[15]在Zeng等的基礎上提出了基于注意力機制的多實例學習策略,其模型如圖7所示。他們使用關系向量作為注意力,對一個句袋中的每個句子分配權重,表示在該關系上該句的重要程度,并對句子向量進行加權求和,得到句袋嵌入向量,并直接對句袋進行多分類。在測試時,由于不知道句袋的真實關系,因此要窮舉每一個關系用以計算注意力,在最終匯總預測概率時,也是選取了對每一個關系的最大預測概率值。

圖7 注意力模型結構圖

自從強化學習在圍棋領域上取得了突破性的進展,越來越多的研究者試圖將強化學習應用在其他領域。在遠程監督關系抽取方面,也有這方面的嘗試。Feng等[25]、Zeng等[26]分別提出了兩種基于強化學習的遠程監督關系抽取模型。如圖8所示,Feng的模型有兩個部件,分別是實例選擇器(instance selector)和關系分類器(relation classifier),實例選擇器對每個句子xi執行動作ai,選擇是否將xi放入訓練集;分類器對樣本進行預測,并根據預測結果將回報(reward)回傳給實例選擇器,幫助實例選擇器更好地選擇訓練樣本。需要注意的是,雖然Feng等保留了多實例學習里句袋(bag)的概念,但是這是為了使訓練過程更有效率,保留更多的反饋信息。關系分類器的輸入實際上仍是句子而非句袋,所以該模型可以用于句子級的關系抽取。Zeng等從另一個角度使用了實例選擇器,他們將“至少一次”假設進行了重新表述: 在對句袋進行關系預測時,句袋是“無關系”當且僅當每個句子的預測標簽都是“無關系”,否則句袋的關系類型由其句子所表達。Zeng等通過強化學習實現了對“無關系”和其他關系類型的有區分的預測,其模型如圖9所示。

圖8 Feng等的強化學習模型

圖9 Zeng等的強化學習模型

5 遠程監督關系抽取的挑戰

5.1 錯誤標注

錯誤標注(wrong labeling)問題是遠程監督關系抽取最主要的問題。由于句子的標簽是通過知識庫自動標注的,因此在標注結果中混入了大量的錯誤標注。目前應對錯誤標注問題大致有兩種方法,一種常用的方法是實例選擇方法,即通過降低錯誤標注實例的權重(或者將其移出訓練集)降低噪聲;另一種方法是由Fan等[21]、Luo等[27]使用的噪聲建模方法,通過建模噪聲產生的過程,來還原真實的標簽。

在錯誤標注問題中,有兩類特殊的錯誤標注值得注意。其中一類是由“至少一次假設”失效所造成的錯誤標注。即針對一個實體對,雖然有實體對共現的句子,但這些句子無一體現了兩實體之間的關系。“至少一次假設”認為,當句子聚合成為句袋時,每種關系至少對應著一個句子,而該假設失效所造成的錯誤標注實例,可以認為是一種句袋級別的偽正例。Takamatsu等[16]、Ritter等[19]、Luo等[27]都提到了這一現象,并提出了自己的模型以應對該問題。另外,Zeng等[13]提出了融合關系路徑預測的關系抽取模型,若當前模型不足以預測實體對〈h,t〉的關系,但是對〈h,e〉,〈e,t〉預測置信度較高時,可以用后者輔助前者的預測。雖然Zeng等[13]并未提及,但我們認為這一模型也可能有助于緩解偽正例的問題。

另一類錯誤標注是由知識庫不完備所造成的偽反例,即某個實體對在句子中確實表明了某種關系,但由于知識庫中不存在該信息,因此機器標注時將該句標為無關系。該問題在訓練集和測試集中都有出現,并且會較大程度地影響測試結果。由于偽反例的出現,測試集的標簽實際上是不準確的,這也是Mintz等[4]在自動評估之后還要進行手動評估的原因。Ritter等[19]的模型也試圖解決這一問題,他們將偽正例、偽反例合稱為“缺失數據(missing data)”,偽正例是在語料庫方面缺失數據,偽反例是在知識庫方面缺失數據。

這兩類錯誤標注問題都具有相當大的挑戰性,而且對于模型的性能較難評估。

5.2 其他挑戰

遠程監督關系抽取問題常常被建模為一種多標簽分類問題,因此多標簽分類問題的策略也會應用于遠程監督關系抽取問題,例如,標簽之間的相關性。Feng等[28]、Ye等[29]分別用不同的模型建模了關系之間的相關性。此外,Zeng等[13]提出的融合關系路徑預測的關系抽取模型,也可以視為用另外兩個關系去預測某個關系的置信度。

實體—關系聯合抽取模型也在遠程監督關系抽取問題中得到應用,如Zheng等[30]采用了一種新的序列標注模型,同時標注實體和關系;Ren等[31]提出了CoType模型,同時對實體的細粒度類別和關系進行抽取。

此外,將關系抽取擴展到多元、多句關系抽取也是一個新的方向。Quirk和Poon[32]、Peng等[33]在此方面做了一些探索,然而該模型也只是針對一種關系類型進行抽取,如何擴展到多種不同類型的關系抽取,仍有待研究。在多句關系抽取問題中,如何進行語料庫的標注也成為了一個新的問題,Quirk和Poon[32]給出了一種啟發式的標注規則,更加有效的標注規則也有待進一步研究。

6 總結與展望

基于遠程監督的關系抽取方法,能夠用較低的成本獲取大量的訓練數據,近年來越來越受到研究者的關注。本文從遠程監督關系抽取方法面臨的幾方面挑戰出發,大致梳理了前人針對這些挑戰所提出的各種方法。

回顧過去工作,我們可以看到:

(1) 自從深度學習模型被引入這一領域之后,已取得了相當大的成功,成為最受研究者青睞的方法,對于深度學習模型的研究會是今后一段時間研究者們非常關注的問題。

(2) 強化學習在其他領域的成功也受到了本領域研究者們的關注,今后也許會有更多的工作基于強化學習模型。

(3) 除了應對自動標注錯誤產生的偽正例之外,如何應對“至少一次假設”失效產生的偽正例和知識庫不完備產生的偽反例,仍然是一個難點,有待更多人進行更深入的研究。

(4) 在研究各種降噪方法之外,研究者們還試圖擴展遠程監督關系抽取技術的應用場景,開始嘗試跨句的關系抽取和多元關系抽取。

(5) 對于遠程監督關系抽取模型的評估方法,仍有不盡如人意的地方,由于測試集存在錯誤標注的問題,自動評估無法較好地展現模型的性能,而人工評估代價較大,更好的評估方法和評估指標仍有待探索。

關系抽取作為信息抽取技術的一環,一直以來受到了相當廣泛的關注。遠程監督作為一種可以低成本獲取標注數據的方法,也受到了人們的重視。本文詳細闡述了解決遠程監督關系抽取問題的一些具有代表性的方法,對其研究現狀與挑戰進行了總結,并在此基礎上,對未來的研究方向進行了分析和展望。

猜你喜歡
監督方法模型
一半模型
重要模型『一線三等角』
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
重尾非線性自回歸模型自加權M-估計的漸近分布
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 在线亚洲小视频| 看国产一级毛片| 欧美成人午夜在线全部免费| 国产丝袜啪啪| 国产精品视频观看裸模 | 在线观看的黄网| 婷婷六月综合| 亚洲综合一区国产精品| 国产成人精品日本亚洲| 美女国产在线| 日本在线视频免费| 美女国产在线| 激情综合网址| 制服丝袜国产精品| 最新国产你懂的在线网址| 国产成人精品午夜视频'| 狠狠色噜噜狠狠狠狠色综合久 | 国产成人免费手机在线观看视频| 久久精品视频一| 蝴蝶伊人久久中文娱乐网| 欧美日本一区二区三区免费| 综合网久久| 国产亚洲欧美日韩在线观看一区二区| 亚洲天堂日本| a级毛片在线免费| 亚洲国产欧美国产综合久久 | 国产最爽的乱婬视频国语对白| 蜜芽国产尤物av尤物在线看| 国产福利影院在线观看| 高清久久精品亚洲日韩Av| 999国内精品视频免费| www.亚洲色图.com| 亚洲无码在线午夜电影| 亚洲综合色在线| 国产成+人+综合+亚洲欧美 | 好吊日免费视频| 4虎影视国产在线观看精品| 亚洲综合在线最大成人| 国产精品永久不卡免费视频| 欧美成人第一页| 国产高清无码麻豆精品| 久久午夜夜伦鲁鲁片无码免费| 91精品专区国产盗摄| 偷拍久久网| аv天堂最新中文在线| 538精品在线观看| 不卡色老大久久综合网| 国产精品林美惠子在线观看| 99热6这里只有精品| 538精品在线观看| 国产女同自拍视频| 色婷婷色丁香| 国产97视频在线| 国产主播一区二区三区| 久久中文无码精品| 99精品在线视频观看| 欧美国产成人在线| 一级毛片无毒不卡直接观看| 国产激爽大片高清在线观看| 91精品伊人久久大香线蕉| 久久成人18免费| 一区二区日韩国产精久久| 中国一级特黄视频| 91尤物国产尤物福利在线| 亚洲第一成年免费网站| 婷婷伊人久久| 一区二区午夜| 狼友视频国产精品首页| 2021精品国产自在现线看| 一本大道无码日韩精品影视| 2021精品国产自在现线看| 男人的天堂久久精品激情| 国产福利2021最新在线观看| 亚洲三级电影在线播放| 97超碰精品成人国产| 中文字幕在线看视频一区二区三区| 亚洲,国产,日韩,综合一区| 久久亚洲国产一区二区| 视频二区国产精品职场同事| 国产欧美精品一区aⅴ影院| 久久亚洲美女精品国产精品| 国产视频大全|