999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的實體關系聯合抽取模型

2019-09-04 10:14:27陳佳灃滕沖
計算機應用 2019年7期
關鍵詞:方法模型

陳佳灃 滕沖

摘 要:針對現有的基于遠程監督的實體和關系抽取方法存在著標簽噪聲問題,提出了一種基于強化學習的實體關系聯合抽取方法。該模型有兩個模塊:句子選擇器模塊和實體關系聯合抽取模塊。首先,句子選擇器模塊選擇沒有標簽噪聲的高質量句子,將所選句子輸入到實體關系聯合抽取模型;然后,實體關系聯合抽取模塊采用序列標注方法對輸入的句子進行預測,并向句子選擇器模塊提供反饋,指導句子選擇器模塊挑選高質量的句子;最后,句子選擇器模塊和實體關系聯合抽取模塊同時訓練,將句子選擇與序列標注一起優化。實驗結果表明,該模型在實體關系聯合抽取中的F1值為47.3%,與CoType為代表的聯合抽取模型相比,所提模型的F1值提升了1%;與LINE為代表的串行模型相比,所提模型的F1值提升了14%。結果表明強化學習結合實體關系聯合抽取模型能夠有效地提高序列標注模型的F1值,其中句子選擇器能有效地處理數據的噪聲。

Abstract: Existing entity and relation extraction methods that rely on distant supervision suffer from noisy labeling problem. A model for joint entity and relation extraction from noisy data based on reinforcement learning was proposed to reduce the impact of noise data. There were two modules in the model: an sentence selector module and a sequence labeling module. Firstly, high-quality sentences without labeling noise were selected by instance selector module and the selected sentences were input into sequence labeling module. Secondly, predictions were made by sequence labeling module and the rewards were provided to sentence selector module to help the module select high-quality sentences. Finally, two modules were trained jointly to optimize instance selection and sequence labeling processes. The experimental results show that the F1 value of the proposed model is 47.3% in the joint entity and relation extraction, which is 1% higher than those of joint extraction models represented by CoType and 14% higher than those of serial models represented by LINE(Large-scale Information Network Embedding). The results show that the joint entity and relation extraction model in combination with reinforcement learning can effectively improve F1 value of sequential labeling model, in which the sentence selector can effectively deal with the noise of data.

Key words: reinforcement learning; joint extraction; sequence tagging; named entity recognition; relation classification

0 引言

實體和關系的聯合抽取是從非結構化文本中同時檢測實體引用和識別它們的語義關系,如圖1所示。不同于Banko等[1]從給定句子中抽取關系詞的開放信息抽取,在本任務中,關系詞是從預定義的關系集中抽取的,該關系集可能不會出現在給定句子中。它是知識抽取和知識庫自動構建中的一個重要途徑。

傳統方法以串行的方式處理此任務,即Nadeau等[2]先抽取實體,然后Rink等[3]識別它們的關系。這個串行的框架使任務易于處理,并且每個組件可以更靈活;但是它忽略了這兩個子任務之間的相關性,并且每個子任務都是一個獨立的模型。Li等[4]提出實體識別的結果可能會影響關系分類的效果,并導致錯誤的傳遞。

與傳統方法不同,聯合學習框架是使用單個模型將實體識別和關系抽取結合在一起。它能有效地整合實體信息和關系信息,在這項任務中取得了較好的效果。大多數現有的聯合方法是基于特征的結構化系統[4]。它們需要復雜的特性工程,并且嚴重依賴于其他自然語言處理(Natural Language Processing, NLP)工具包,這也可能導致錯誤傳播。為了減少特征抽取中的手工工作,Miwa等[5]提出了一種基于神經網絡的端到端實體和關系聯合抽取方法。雖然聯合模型可以在單個模型中讓實體識別模塊與關系分類模塊共享參數,但它們也是分別抽取實體和關系,并生成冗余信息。例如,圖1中的句子包含三個實體:“United States”“Trump”和“Apple Inc”,但只有“United States”和“Trump”才有固定的關系“Country-President”。在這句話中,實體“Apple Inc”與其他實體沒有明顯的關系,因此,從這句話中抽取的結果是{United States,Country-President,Trump},它在這里稱為三元組。Zheng等[6]提出了一個標簽方案,將聯合抽取任務轉換為標簽問題。通過建立含有關系信息的標簽,使用序列標注模型直接抽取實體及其關系,而不單獨識別實體和關系。

大多數現有的工作都需要高質量的標注數據。為了獲得大規模的訓練數據,Mintz等[7]提出了遠程監督的方法,假設兩個實體在給定的知識庫中有關系,則包含這兩個實體的所有句子都會提到這種關系。遠程監督雖然能有效地實現數據的自動標注,但存在著標簽噪聲的問題。以三元組{Barack Obama,BornIn,United States}為例,由遠程監督標注的數據“Barack Obamba is the 44th president of the United State”就是一個噪聲數據,遠程監督認為這個句子中Barack Obama與United States的關系是“BornIn”,即使這句話根本沒有描述“BornIn”關系。

因此,以往的基于遠程監督的數據集上的實體關系聯合抽取的研究存在著標簽噪聲的問題。噪聲語句產生錯誤的標簽,會對聯合抽取模型產生不良影響。Feng等[8]提出了一種基于噪聲數據的句子級關系分類模型,其模型包括兩個模塊:句子選擇器和關系分類器。句子選擇器通過強化學習選擇高質量的句子,將所選句子輸入到關系分類器;關系分類器進行句子預測,并為句子選擇器提供反饋。他們的模型能夠有效地處理數據的噪聲,在句子層次上獲得更好的關系分類效果。

本文提出了一種由句子選擇器和序列標注模型兩個模塊組成的序列標注模型。通過使用句子選擇器,可以從一個句子包中選擇高質量的句子,然后通過序列標注模型預測句子的標簽。目前主要的挑戰是當句子選擇器不清楚哪些句子的標簽錯誤時,如何有效地聯合訓練這兩個模塊。

本文將句子選擇任務當作強化學習問題來解決[9]。直觀地說,雖然模型沒有對句子選擇器進行顯式監督,但是可以把所選語句作為一個整體進行評估,因此,句子選擇過程具有以下兩個性質:一是試錯搜索,即句子選擇器試圖從每個實體的句子集合中選擇一些句子,并獲得對所選句子質量的反饋;二是只有當句子選擇器完成了句子選擇過程,才能獲得從序列標注模塊的反饋,這個反饋通常是延遲的。這兩個特性讓本文使用強化學習技術。

本文工作中的貢獻包括:

1)提出了一種新的序列標注模型,該模型由句子選擇器和序列標注模型組成。這個模型能夠在相對沒有噪聲的數據中進行實體和關系的聯合抽取。

2)將句子選擇定義為一個強化學習問題,使得模型能夠在沒有明確的句子級標注情況下執行句子選擇,通過序列標注模型較弱的監督信號提供反饋。

3)根據實體將數據分成不同的集合,句子選擇器選擇實體集合中的高質量句子,然后所有的集合中選擇的數據作為干凈的數據訓練序列標注模型。

1 相關工作

實體識別和關系分類是構建知識庫的重要步驟,對許多NLP任務都有幫助。兩種主要框架被廣泛應用于解決實體識別及其關系抽取的問題:一種是流水線方法,另一種是聯合學習方法。

流水線方法將此任務視為兩個獨立的任務,即命名實體識別(Named Entity Recognition, NER)和關系分類(Relation Classification, RC)。經典的NER模型是線性統計模型,如隱馬爾可夫模型(Hidden Markov Model, HMM)和條件隨機場(Conditional Random Field, CRF)[10],其中CRF模型結合了最大熵模型和隱馬爾可夫模型的優點[11]。向曉雯等[12]、佘俊等[13]、張金龍等[14]采用規則與統計相結合的方法研究命名實體識別任務,取得了較好的結果。近幾年,Chiu等[15]、Huang等[16]、Lample等[17]幾種神經網絡結構已成功應用于NER,將命名實體識別任務處理成序列標注任務。現有的關系分類方法也可分為手工抽取特征的方法[3]和基于神經網絡的方法。

聯合模型使用單個模型抽取實體和關系,而大多數聯合方法是基于特征的結構化系統,例如Ren等[18]、Singh等[19]、Miwa等[5]、Li等[4]提出的方法。最近,Miwa等[5]使用基于長短期記憶(Long Short-Term Memory, LSTM)網絡的模型抽取實體和關系,這可以減少手工工作。Zheng等[6]提出了一個標簽方案,可以將聯合抽取任務轉換為序列標注問題。基于這種標簽方案,研究不同的端到端模型,可以直接抽取實體及其關系,而不單獨識別實體和關系。本文所提出的方法是基于一種特殊的標簽方式,因此可以很容易地使用端到端模型來抽取結果,而不需要運用NER和RC分別進行。

一般來說,訓練神經網絡模型需要大量的標簽數據,人工標注數據是非常耗時的。為了解決這個問題,Mintz等[7]提出了遠程監督方法,該方法假設所有關于三元組中的兩個實體的句子都描述了三元組中的關系。盡管遠程監督取得了成功,但這種方法存在著標簽噪聲問題。為了解決這一問題,Lin等[20]、Ji等[21]提出了多個句子級別的注意力機制,可以降低噪聲句子的權重。然而,這種多句子學習模型并不能直接過濾掉噪聲數據的影響。Feng等[8]提出了一個基于噪聲數據的句子級關系分類模型,首先在強化學習框架下選擇正確的句子[22],然后預測過濾后數據中每個句子的關系。本文提出的方法首先在強化學習的框架下選擇正確的句子,然后從干凈的數據中預測每個句子的標簽序列。

2 方法介紹

本文提出一個句子選擇器和序列標注的聯合抽取模型,雙向長短期記憶條件隨機場(Bidirectional Long Short-Term Memory Conditional Random Field, Bi-LSTM-CRF)模型來聯合抽取實體及其關系,句子選擇器來選擇高質量的句子。在本章中,首先介紹如何將抽取問題改為標簽問題,然后介紹用于選擇高質量句子的強化學習模型。

2.1 標簽模型

圖2是對訓練集標注的示例。句子中的每個詞都被打上一個有助于提取結果的標簽。標簽“O”表示“其他”標簽,這意味著相應的單詞獨立于提取的結果。除“O”外,其他標簽還包括三個部分:實體中的單詞位置、關系類型和關系角色。本文使用實體開始(Begin,B)、實體內部(Inner,I)、實體結尾(End,E)、單個實體(Single,S)等符號來表示實體中單詞的位置信息。關系類型信息從一組預定義的關系中獲取,關系角色信息由數字“1”和“2”表示。提取的結果由三元組表示:(Entity1;RelationType;Entity2)。“1”是指單詞屬于三元組中的第一個實體,“2”是指關系類型后面的第二個實體,因此,標簽總數為N=2*4*r+1,其中r是預定義關系集的大小。

輸入語句標簽以及結果如圖2所示。輸入語句包含兩個三元組:{United States,Country-President,Trump}和{Apple Inc,Company-Founder,Steven Paul Jobs},其中“Country-President”和“Company-Founder”是預定義的關系類型。單詞“United”“States”“Trump”“Apple”“Inc”“Steven”“Paul”和“Jobs”都與最終提取的結果相關,因此,它們是根據本文的特殊標簽進行標注的。例如,“United”這個詞是實體“United States”的第一個詞,與“Country-President”的關系有關,所以它的標簽是“B-CP-1”。另一個與“United States”相對應的實體“Trump”被標簽為“S-CP-2”。另外,其他與最終結果無關的詞被標簽為“O”。

2.2 從標簽獲取結果

從圖2的標簽序列中,可以知道“Trump”和“United States”共享相同的關系類型“Country-President”;“Apple Inc”和“Steven Paul Jobs”共享相同的關系類型“Company-Founder”。最后將具有相同關系類型的實體組合成一個三元組以得到最終結果,因此,“Trump”和“United States”可以合并成三元組,關系類型為“Country-President”。因為“Trump”的關系角色是“2”,“United States”是“1”,最終結果是{United States,Country-President,Trump}。同樣可以得到三元組{Apple Inc,Company-Founder,Steven Paul Jobs}。

此外,如果一個句子包含兩個或兩個以上具有相同關系類型的三元組,模型會根據就近的原則將每兩個實體組合成一個三元組。例如,如果圖2中的關系類型“Country-President”是“Company-Founder”,那么在給定的句子中會有四個具有相同關系類型的實體。“United States”最接近實體“Trump”,“Apple Inc”最接近“Steven Paul Jobs”,因此結果將是{United States,Company-Founder,Trump}、{Apple Inc,Company-Founder,Steven Paul Jobs}。

2.3 詞向量

詞向量是神經網絡的輸入。對于詞嵌入的方法,本文選擇CBOW(Continuous Bag-Of-Words model)而不是Skip-Gram。本文的選擇是基于這樣一個考慮:CBOW是根據上下文預測一個詞,或者通過查看上下文最大化目標詞的概率進行預測,而Skip-Gram的輸入是當前詞的詞向量,而輸出是周圍詞的詞向量。也就是說,通過當前詞來預測周圍詞,即用于預測上下文。Skip-Gram需要更多的數據來訓練,這樣它就可以學會理解很多單詞,甚至是罕見的單詞。對于NER任務,是根據上下文預測詞的標簽,而不是預測上下文,因此,本文訓練CBOW嵌入模型以獲得雙向長短期記憶(Bidirectional Long Short-Term Memory, Bi-LSTM)編碼器的輸入表示。

2.4 Bi-LSTM-CRF模型

2.4.1 CRF

條件隨機場結合了最大熵模型和隱馬爾可夫模型的特點,是一種無向圖模型,近年來在分詞、詞性標注和命名實體識別等序列標注任務中取得了很好的效果。條件隨機場是一個典型的判別式模型,其聯合概率可以寫成若干勢函數聯乘的形式,其中最常用的是線性鏈條件隨機場。若讓x=(x1,x2,…,xn)表示被觀察的輸入數據序列,y=(y1,y2,…,yn)表示一個狀態序列,在給定一個輸入序列的情況下,序列標注通常公式化為:

其中:tj(yi-1,yi,x,i)是一個轉移函數,代表在標注序列中,第i-1個和第i個的標注與整個觀測序列之間的特征關系;sk(yi,x,i)是一個狀態函數,代表標注序列中第i個標注與此時相對應的觀測序列中的值的特征;λj和μk的值均是從訓練數據中進行估計,較大的負值代表其對應的特征模板可信度低,而較大的非負值代表其對應的特征事件可信度高,其中Z(x)代表歸一化因子,其公式如下:

最終的最優化輸出序列計算公式如下:

以往的研究表明,特征選擇在傳統的概念抽取中起著重要的作用。NER的性能在很大程度上取決于不同意見的領域知識的構建和研究。

2.4.2 LSTM與Bi-LSTM

循環神經網絡(Recurrent Neural Network, RNN)模型是一種在序列標注任務上表現優異的神經網絡模型,因為序列標注任務中,無論是序列內部還是序列的邊界對上下文信息都是敏感的,而循環神經網絡RNN與傳統的神經網絡相比,恰好有著時間序列這一特性,它更能充分地利用前面序列的信息,因此它更加適用于序列標注的任務。長短期記憶(Long Short Term Memory, LSTM)網絡模型采用LSTM單元來替代原先循環神經網絡RNN模型中的隱藏層,該模型能夠有效處理較長距離的依賴關系以及解決梯度消失問題。

LSTM區別于RNN的地方,主要就在于它在算法中加入了一個判斷信息有用與否的“處理器”,這個處理器作用的結構被稱為細胞(cell)。一個cell當中被放置了三扇門,分別叫作輸入門(i)、遺忘門(f)和輸出門(o)。一個信息進入LSTM的網絡當中,可以根據規則來判斷是否有用。只有符合算法認證的信息才會留下,不符的信息則通過遺忘門被遺忘。一個細胞的結構如圖3所示。

i、 f、o分別表示輸入門、遺忘門和輸出門。W和b表示權重矩陣和偏移向量。遺忘門是決定需要從細胞狀態中丟棄什么信息,它會讀取ht-1和xt,輸出一個在0到1之間的數值。1表示“完全保留”,0表示“完全舍棄”。遺忘門的計算公式如下:

f=σ(Wf[ht-1,xt]+bf)(4)此處是否遺漏了公式,后面的參數說明中沒有看到Ct、sig等函數。回復:沒有遺漏公式,其中包括了對圖三的說明,Ct,Sig符號可以在圖三中看到

其中:ht-1表示的是上一個LSTM單元的輸出,xt表示的是當前細胞的輸入,Ct-1是前一個單元的記憶,ht是當前網絡的輸出,Ct是當前單元的記憶。Sig表示sigmoid函數,Mul表示向量乘法,Con表示向量加法,tanh為激活函數。

輸入門決定讓多少新的信息加入到cell狀態中來。實現這個需要包括兩個步驟:首先,一個叫作“輸入門”的sigmoid層決定哪些信息需要更新;一個tanh層生成一個向量,也就是備選的用來更新的內容,Ct。在下一步,把這兩部分聯合起來,對cell的狀態進行一個更新。

接下來是更新舊細胞狀態,Ct-1更新為Ct。需要把舊狀態與ft相乘,丟棄確定需要丟棄的信息。得到新的候選值后,根據決定更新每個狀態的程度進行變化。公式如下:

輸出門需要確定輸出什么值。這個輸出將會基于當前的細胞狀態,也是一個過濾后的版本。首先,模型運行一個sigmoid層來確定細胞狀態的哪個部分將輸出;接著,模型把細胞狀態通過tanh進行處理(得到一個在-1到1之間的值)并將它和sigmoid層的輸出相乘,最終僅僅會輸出確定輸出的那部分。公式如下:

雙向長短期記憶(Bi-LSTM)網絡模型是由前向的LSTM與后向的LSTM結合而成,Bi-LSTM的計算流程與單向長短期記憶網絡LSTM模型在本質上是一樣的,也是利用LSTM的公式計算每個LSTM單元的細胞狀態與隱藏層輸出,不同的是,Bi-LSTM首先針對逆時序的隱藏層增加了和正時序的隱藏層處理相對應的權重參數矩陣與偏置向量,正時序和逆時序將通過各自的權重參數矩陣與偏置向量得到隱藏層的輸出向量ht,再對這兩個輸出向量進行合并操作,對于不同的應用,它們的合并方式會略有差異,本文將采用連接的方式將兩個輸出向量進行合并。

2.4.3 Bi-LSTM-CRF

上面介紹了在序列標注問題上效果比較優異的傳統統計模型的代表條件隨機場(CRF)模型和被廣泛應用于序列標注任務中的Bi-LSTM網絡模型。其中,CRF模型的優點在于能夠通過特征模板去掃描整個輸入文本,從而對整個文本局部特征的線性加權組合有著更多的考量,最關鍵的是,序列標注中的X和Y代表的都是整個輸入文本和標注序列,并非獨立的詞語或標注,所以CRF模型優化的目標是出現概率最高的一個序列,而不是找出序列的每個位置出現最高概率的標注;而它的缺點在于,首先特征模板的選取需要對訓練語料有一定的先驗知識,需要從語料中相關信息的統計數據中分析出對標注有著重要影響的特征,特征的數量多了會使模型出現過擬合的現象,特征數量少了則會使模型出現欠擬合的現象,特征之間如何組合是一項比較困難的工作;其次,條件隨機場模型在訓練過程中,由于受限于特征模板制定的窗口大小,所以難以考察長遠的上下文信息。Bi-LSTM網絡模型的優缺點在某種程度上與CRF模型恰恰相反,它在序列標注任務的表現上異常強大,可以有效地將長遠的上下文信息利用進來,同時它還具備了神經網絡本身的對于非線性數據的擬合能力,然而從圖3.5中可以看出,然而從圖3.5中可以將看到,這一句話需要去掉Bi-LSTM模型的輸出層輸出的標注yt由當前時刻的輸入文本向量xt和將正時序LSTM單元與逆時序LSTM單元的記憶輸出合并而成的隱藏層的輸出ht決定,而與其他時刻k的輸出層輸出的標注yk沒有關系,因此,Bi-LSTM模型的優化目標是對于每個時刻都尋找到在這個時刻出現概率最大的標注,再由這些標注構成序列,這往往會導致模型對標注序列的輸出發生不連貫的現象。

這兩種模型的優缺點恰好互補,于是將兩者結合起來的模型Bi-LSTM-CRF出現了,即在傳統的Bi-LSTM模型的隱藏層上在加入一層線性CRF層,如圖4所示。

2.5 句子選擇器

本文將句子選擇作為一個強化學習問題來處理。句子選擇器稱為代理“Agent”,它與由數據和序列標注模型組成的環境“Environment”進行交互。“Agent”遵循一個策略來決定在每個狀態“State”(包括當前句子、所選句子集)時執行什么操作“Action”(選擇當前句子或不選擇當前句子),然后在作出所有選擇時從Bi-LSTM-CRF模型獲得反饋“Reward”。

如前所述,只有在完成對所有訓練語料的選擇后,句子選擇器模型才能從序列標注模型中獲得延遲反饋,因此,對于整個訓練數據的每次遍歷,如果只更新一次策略函數,這顯然是低效的。為了獲得更多的反饋并提高訓練過程的效率,本文將訓練語料X={x1,x2,…,xn}分到N個集合B={B1,B2,…,BN}中,并且當完成一個集合的篩選后就計算一次反饋。集合根據實體進行劃分,每個集合對應一個不同的實體,每個包bk是一個包含同一個實體的句子序列{xk1,xk2,…,xk|Bk|},但是實體的標簽是有噪聲的。本文將動作定義為根據策略函數選擇句子或不選擇句子。一旦在一個包上完成選擇,就會計算反饋。當句子選擇器的訓練過程完成后,將每個包中的所有選定語句合并,得到一個干凈的數據集X,然后,將干凈的數據用于訓練序列標注模型。

本文將介紹句子選擇器(即狀態、行動、反饋、優化)如下。

1)狀態。

狀態si表示當前句子和已選定的句子。本文將狀態表示為連續實值向量F(si),它編碼以下信息:a)從序列標注模型中獲得的當前句子的向量表示;b)已選句子集的表示,它是所有已選句子的向量的平均值。

2)動作。

本文定義了一個動作ai∈{0,1}來表示句子選擇器是否會選擇包B的第i個句子,通過策略函數πΘ(si,ai)來決定ai的取值,將一個邏輯函數作為策略函數表示如下:

其中:F(si)表示狀態向量,σ(·)表示sigmoid函數,參數Θ={W,b}。

3)反饋。

反饋函數代表所選句子質量的標志。對于一個集合B={x1,x2,…,x|B|},本文為每個句子選擇一個動作,以確定是否應該選擇當前句子。假設模型在完成所有選擇后有一個最終反饋,因此,句子選擇器模型只在最終狀態S|B|+1收到延遲反饋。其他狀態的反饋為零,因此,反饋的定義如下:

其中:B^為選擇的句子集合,是集合B的子集;r是集合代表的實體;p(r|xj)是由序列標注模型計算出來的,對于特殊情況B^=,將反饋設置為訓練集所有句子的平均值,這樣可以過濾掉全是噪聲的集合。

在選擇過程中,不僅最終的行為有助于反饋,所有先前的行為都有助于反饋,因此,這種反饋是延遲的,并且可以通過強化學習技術很好地處理。

4)優化。

對于一個集合B,本模型希望得到最大的反饋,目標函數定義如下:

2.6 句子選擇器+序列標注模型

如圖5所示,左邊為句子選擇器,右邊為序列標注模型,句子選擇器由策略函數、反饋函數等組成,用來在訓練集中挑選高質量的句子,作為序列標注模型的輸入,序列標注模型接收句子選擇器的輸入,然后給句子選擇器提供反饋,指導句子選擇器選出高質量的句子。

3 實驗介紹

3.1 數據集

為了評估本文方法的性能,本文使用由遠程監督方法生成的公共數據集紐約時報(New York Times, NYT)[18],采用遠程監督方式,無需人工標注,即可獲得大量的訓練數據。測試集是人工標注的以確保其質量。總的來說,訓練數據包含353000個三元組,測試集包含3880個三元組。此外,關系集的大小為24。

3.2 評估策略

本文采用準確率(Precision, P)、召回率(Recall, R)和F1值對結果進行評估。與傳統方法不同的是,本文方法可以在不知道實體類型信息的情況下抽取三元組。換句話說,本文沒有使用實體類型的標簽來訓練模型,因此在評估中不需要考慮實體類型。當三元組的關系類型和兩個對應實體的位置偏移都正確時,則認為它是正確的。本文從測試集隨機抽取10%的數據來創建驗證集,并根據Ren等[18]的建議將剩余數據用作評估。本文將每個實驗運行10次,然后記錄平均結果。

3.3 參數設置

本文的模型由一個Bi-LSTM-CRF序列標注模型和一個句子選擇器模型組成。詞向量是通過在NYT訓練語料上運行Word2vec[23]生成的。詞向量的維度為300。本文在嵌入層上使用droupout來防止過擬合,大小為0.5。LSTM隱藏層維度為300。對于句子選擇器的參數,本文分別在預訓練階段和聯合訓練階段將學習率設置為0.02和0.01。延遲系數τ為0.001。

3.4 基準線

將本文的方法與幾種經典的三元組提取方法進行了比較,這些方法可分為以下幾類:基于本文的標記方案的流水線方法、聯合提取方法和Bi-LSTM-CRF方法。

對于流水線方法,本文遵循Ren等[18]的設置:通過CoType方法獲得NER結果,然后使用幾種經典的關系分類方法檢測關系。這些方法包括:

1)2009年Mintz等[7]提出的DS-Logistic模型,這是一種遠程監督和基于特征的方法;

2)2015年Tang等[24]提出的LINE(Large-scale Information Network Embedding)模型,這是一種網絡嵌入方法,適用于任意類型的信息網絡;

3)2015年Gormley等[25]提出的FCM(Fuzzy C-Mean)模型,這是一種復合方法,將詞匯化語言語境和嵌入詞結合起來進行關系提取的模式。

本文采用的聯合提取方法如下:

4)2014年Li等[4]提出的DS-Joint模型,這是一種有監督的方法,它利用人工標注數據集上的結構化感知器聯合提取實體和關系;

5)2011年Hoffmann等[26]提出的MULTIR(MULTi-Instance learning which handles overlapping Relations請補充MULTIR的英文全稱)模型,這是一種典型的基于多句子學習算法的遠程監控方法,用于對抗噪聲訓練數據;

6)2017年Ren等[18]提出的CoType模型,這是一個獨立于領域的框架,將實體信息、關系信息、文本特征和類型標簽共同嵌入到有意義的表示中。

此外,本文方法還與經典的端到端標注模型進行了比較:2016年Lample等[17]提出的LSTM-CRF模型,利用雙向LSTM對輸入句子進行編碼,利用條件隨機場預測實體標簽序列,實現實體識別的LSTM-CRF算法。

3.5 實驗結果

本文的實驗分為三個部分進行,包括序列標注模型的訓練、句子選擇器模型的訓練以及聯合訓練。其中前面兩個模型的訓練為預訓練,目的是為了聯合模型能夠盡快地收斂。本文通過實驗得到了不同方法的對比結果,其中LSTM-CRF模型與RL-LSTM-CRF(Reinforcement Learning for LSTM-CRF)本文方法的縮寫是Bi-LSTM-CRF,不是RL-LSTM-CRF吧?這個名稱也沒有英文縮寫,全文是否需要統一,請明確。回復:LSTM-CRF模型上文介紹了是利用雙向LSTM編碼的模型,也就是Bi-LSTM-CRF模型的縮寫。RL-LSTM-CRF中RL指的是加入強化學習的模型,RL是Reinforcement Learning的縮寫,LSTM-CRF同上。如果不明確的話,需要給RL-LSTM-CRF加上說明RL-LSTM-CRF(Reinforcement Learning for LSTM-CRF)。

模型不僅記錄下了準確率、召回率、F1值,還將實驗的標準差記錄下來,標準差是將每個模型運行10次的結果,如表1所示。

可以看出,本文的方法RL-LSTM-CRF在F1分數上優于所有其他方法,與聯合抽取CoType模型相比本文模型的F1值提升了1%,與串行抽取LINE模型相比本文模型的F1值提升了14%。實驗結果證明了本文方法的有效性。此外,從表1中還可以看出,聯合提取方法優于流水線方法,標注方法優于大多數聯合提取方法。它還驗證了本文的標簽方案對于聯合提取實體和關系的任務的有效性。與傳統方法相比,端到端模型的精度有了顯著提高,基于神經網絡的方法能很好地擬合數據,因此,它們可以很好地學習訓練集的共同特征。

4 結語

本文提出了一個新的模型,該模型由句子選擇器和序列標注模型組成,通過強化學習框架在噪聲數據集中聯合抽取實體和關系。句子選擇器為序列標注模型選擇高質量的數據。Bi-LSTM-CRF模型預測句子級別的序列標簽,并作為弱監督信號向選擇器提供反饋,以監督句子選擇過程。大量的實驗表明,本文模型能夠過濾掉有噪聲的句子,并比現有的模型更好地執行聯合實體和關系提取。

此外,本文的解決方案可以推廣到使用噪聲數據或遠程監督的其他任務中,這將是未來的工作。后期打算用更優的端到端的模型來替換本文現有的序列標注模型,例如用LSTM解碼層替換CRF解碼層等。本文只考慮一個實體屬于一個三元組的情況,并將重疊關系的識別留給以后的工作。

參考文獻 (References)

[1] BANKO M, CAFARELLAM J, SODERLAND S, et al. Open information extraction from the Web[C]// Proceedings of the 20th International Joint Conference on Artificial Intelligence. New York: ACM, 2007: 2670-2676.

[2] NADEAU D, SEKINE S. A survey of named entity recognition and classification[J]. Lingvisticae Investigationes, 2005, 30(1): 3-26.

[3] RINK B, HARABAGIU A. UTD: classifying semantic relations by combining lexical and semantic resources[C]// Proceedings of the 5th International Workshop on Semantic Evaluation. New York: ACM, 2010: 256-259.

[4] LI Q, JI H. Incremental joint extraction of entity mentions and relations[C]// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2014: 402-412.

[5] MIWA M, BANSAL M. End-to-end relation extraction using LSTMs on sequences and tree structures[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1105-1116.

[6] ZHENG S C, WANG F. Joint extraction of entities and relations based on a novel tagging scheme[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2017: 1227-1236.

[7] MINTZ M, BILLS S, SNOW R, et al. Distant supervision for relation extraction without labeled data[C]// Proceedings of the 2009/47th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2009: 1003-1011

[8] FENG J, HUANG M, ZHAO L, et al. Reinforcement learning for relation classification from noisy data[C]// Proceedings of the 2018/32nd Association for the Advancement of Artificial Intelligence Conference on Artificial Intelligence. Menlo Park, CA: AAAI, 2018:5779-5786

[9] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[J]. IEEE Transactions on Neural Networks, 1998, 9(5): 1054-1054.

[10] LUO G, HUANG X J, LIN C Y, et al. Joint entity recognition and disambiguation[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 879-888.

[11] 馮元勇,孫樂,張大鯤,等.基于小規模尾字特征的中文命名實體識別研究[J].電子學報,2008,36(9):1833-1838.(FENG Y Y, SUN L, ZHANG D K, et al. Study on the Chinese named entity recognition using small scale tail hints[J]. Acta Electronica Sinaca, 2008, 36(9): 1833-1838.)

[12] 向曉雯,史曉東,曾華琳.一個統計與規則相結合的中文命名實體識別系統[J].計算機應用,2005,25(10):2404-2406.(XIANG X W, SHI X D, ZENG H L. Chinese named entity recognition system using statistics-based and rules-based method [J]. Journal of Computer Applications, 2005, 25(10): 2404-2406.)

[13] 佘俊,張學清.音樂命名實體識別方法[J].計算機應用,2010,20(11):2928-2931.(SHE J, ZHANG X Q. Musical named entity recognition method [J]. Journal of Computer Applications, 2010, 30(11): 2928-2931.)

[14] 張金龍,王石,錢存發.基于CRF和規則的中文醫療機構名稱識[J].計算機應用與軟件,2014,31(3):159-162.(ZHANG J L, WANG S, QIAN C F. CRF and rules-based recognition of medical institutions name in Chinese [J]. Computer Applications and Software, 2014, 31(3): 159-162.)

[15] CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs[C]// Proceedings of the 2016 Transactions of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 357-370

[16] HUANG Z, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[EB/OL]. [2018-12-02]. https://arxiv.org/pdf/1508.01991.pdf.

[17] LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 260-270.

[18] REN X, WU Z, HE W, et al. CoType: joint extraction of typed entities and relations with knowledge bases[C]// Proceedings of the 26th International Conference on World Wide Web. New York: ACM, 2017: 1015-1024.

[19] SINGH S, RIEDEL S, MARTIN B, et al. Joint inference of entities, relations, and coreference[C]// Proceedings of the 2013 Workshop on Automated Knowledge Base Construction. New York: ACM, 2013: 1-6.

[20] LIN Y, SHEN S, LIU Z, et al. Neural relation extraction with selective attention over instances[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 2124-2133.

[21] JI G, LIU K, HE S, et al. Distant supervision for relation extraction with sentence-level attention and entity descriptions[C]// Proceedings of the Thirty-First Association for the Advancement of Artificial Intelligence Conference on Artificial Intelligence. Menlo Park, CA: AAAI, 2017: 3060-3066.

[22] NARASIMHAN K, YALA A, BARZILAY R. Improving information extraction by acquiring external evidence with reinforcement learning[C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2016: 2355-2365.

[23] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26: 3111-3119.

[24] TANG J, QU M, WANG M, et al. LINE: large-scale information network embedding[C]// Proceedings of the 24th International Conference on World Wide Web. New York: ACM, 2015: 1067-1077.

[25] GORMLEY M R, YU M, DREDZE M. Improved relation extraction with feature-rich compositional embedding models[C]// Proceedings of the 2015 Conference on Empirical Method in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 1774-1784.

[26] HOFFMANN R, ZHANG C, LING X, et al. Knowledge-based weak supervision for information extraction of overlapping relations[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2011: 541-550.

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 日日噜噜夜夜狠狠视频| 国产欧美高清| 亚洲第一中文字幕| 中文字幕波多野不卡一区| 久久黄色小视频| 丰满人妻被猛烈进入无码| 亚洲国产亚综合在线区| 视频在线观看一区二区| 国产精品第一区在线观看| 国产成人乱码一区二区三区在线| 国产一级片网址| 久久a毛片| 国产99在线| 婷婷成人综合| 日韩东京热无码人妻| 亚洲人成人无码www| 日韩免费中文字幕| 国产97视频在线观看| av手机版在线播放| 国产呦视频免费视频在线观看| 亚洲午夜福利在线| 成人伊人色一区二区三区| 无码中字出轨中文人妻中文中| 美女免费黄网站| www.youjizz.com久久| 国产电话自拍伊人| 日韩无码视频专区| 思思热精品在线8| www精品久久| 伊在人亞洲香蕉精品區| 国产综合精品日本亚洲777| 色AV色 综合网站| 91免费精品国偷自产在线在线| 亚洲精品无码av中文字幕| 夜夜拍夜夜爽| 国产无人区一区二区三区| 伊大人香蕉久久网欧美| 99这里只有精品在线| 国产欧美精品一区二区| 欧美日韩一区二区三区在线视频| 欧美性色综合网| 成人免费网站在线观看| 国产成人免费观看在线视频| 中国精品自拍| 狠狠色婷婷丁香综合久久韩国 | 国产青青草视频| 精品人妻一区二区三区蜜桃AⅤ| 精品久久久久成人码免费动漫| 青青久久91| 六月婷婷精品视频在线观看 | 精品在线免费播放| 日本91视频| 99久久这里只精品麻豆| 毛片网站在线播放| 国产成人乱无码视频| 欧美在线观看不卡| 日韩欧美网址| 国产剧情无码视频在线观看| 色婷婷电影网| 亚洲—日韩aV在线| 欧美人在线一区二区三区| 中国黄色一级视频| 亚洲永久色| 亚洲人成网址| 精品国产成人国产在线| 国产成人欧美| 久久久四虎成人永久免费网站| 午夜啪啪网| 91成人精品视频| 日韩专区第一页| 波多野结衣一二三| 欧洲亚洲一区| 无码高潮喷水专区久久| 欧美成人午夜视频免看| 色天天综合| 91系列在线观看| 欧美啪啪视频免码| 国产亚洲视频中文字幕视频 | 欧美国产综合色视频| 中文天堂在线视频| 中文字幕永久视频| 精品色综合|