999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

限定域關系抽取研究綜述①

2021-10-11 06:46:16袁清波杜曉明
計算機系統應用 2021年9期
關鍵詞:語義監督方法

袁清波,杜曉明,楊 帆

(陸軍工程大學 指揮控制工程學院,南京 210007)

隨著計算機和互聯網的快速發展,人類產生、創造的數據量呈爆炸式增長.如何對這些海量異構數據進行高效利用,是當前亟需解決的問題,也是信息抽取(Information Extraction,IE)研究的重要內容之一.關系抽取(Relation Extraction,RE)作為信息抽取的重要子任務,主要完成從非結構化數據中抽取出實體間的語義關系,目前已廣泛應用于搜索引擎、智能推薦、機器翻譯和問答服務等領域.

當前,知識圖譜技術研究較為熱門,關系抽取作為其中的一個重要方向,引起了研究者們廣泛關注.對關系抽取的開拓性探索是FASTUS 系統[1]的基于模板關系抽取方法,該方法能夠在小規模特定領域取得較好效果,但是存在開發周期長、準確率較低、可移植性差等問題.因此,研究者們繼而提出了有監督、弱監督和無監督等機器學習關系抽取方法.有監督的關系抽取方法最初主要基于傳統的機器學習,包括Miller 等人[2]的基于特征向量關系抽取方法和Zelenko 等人[3]的基于核函數關系抽取方法.基于傳統的機器學習關系抽取方法比較依賴于人工構建的各種特征,近年來基于深度學習的關系抽取方法開始被研究者們提出,使關系抽取的性能取得了較大提高.深度學習關系抽取方法不需要人工構建特征,其輸入一般包括句子中的詞向量和位置向量表示,分為流水線(pipeline)方法和聯合(joint)方法兩種,其比較有代表性的是Zeng 等人[4]提出的卷積深度神經網絡模型,通過提取詞匯和句子級別的特征以進行關系抽取.有監督學習關系抽取方法的缺點是需要大量有標注的訓練語料,而人工標注這些語料則耗時耗力.當訓練語料較少時,則可以利用弱監督學習方法來進行關系抽取,該方法主要包括Mintz 等人[5]的基于遠程監督(distant supervision)關系抽取方法和Brin 等人[6]基于Bootstrapping 關系抽取方法.無監督的關系抽取方法,不需要人工標注數據,通過聚類方法把相同關系類型聚合在起來.

近年來,一些研究者對關系抽取方法進行過梳理,如莊傳志等人[7]梳理了深度學習方法,白龍等人[8]梳理了遠程監督方法,但缺少對關系抽取方法整體發展脈絡的系統歸納與總結.

本文主要利用時間順序法對限定域條件下二元關系抽取方法進行歸納總結.首先對關系抽取進行簡要介紹;其次對其相關方法進行詳細歸納總結,重點是目前研究較熱的深度學習關系抽取方法;最后對其應用領域和未來研究方向進行分析展望.

1 概念定義

Bach 等人[9]將關系以元組t=(e1,e2,…,en)的形式定義,其中實體ei之間在文檔D中具有某種預先定義關系r.二元關系可表示為<e1,r,e2>的三元組形式,其中e1、e2表示兩個實體,r為預定義目標關系類型.根據實體數量的多少關系抽取可分為二元關系抽取和多元關系抽取,目前大多數研究者都專注于二元關系抽取.

關系抽取的任務是從一段文本中提取出發生在兩個實體或多個實體之間的語義關系.完整的關系抽取包括兩個子過程,首先從非結構化數據中進行命名實體識別,而后對所識別出的實體進行語義關系判別.其中關系判別的過程,也可稱為關系分類(relation classification),即判斷實體之間屬于哪種關系,屬于一種多分類問題.

如圖1所示,對于給定句子“姚明出生于上海的一個籃球世家”.命名實體識別子過程識別出句子中具有“姚明”和“上?!眱蓚€實體;語義關系判別子過程判斷出“姚明”和“上?!眱蓚€實體間是“出生地”關系.在閱讀關系抽取相關論文時發現,大多數的方法默認命名實體識別子過程已完成,所做研究主要在于關系判別子過程,即關系分類子過程.

圖1 關系抽取示例

2 數據集

關系抽取的公開主流評測數據集主要有ACE2005數據集、SemEval-2010 任務8 數據集、NYT2010 數據集等.

ACE 2005 數據集[10]是一種多語種訓練語料庫,包含完整的英語、阿拉伯語和漢語訓練數據.ACE 2005數據集中英文語料來源包括廣播新聞、廣播談話、新聞專線、網站博客、新聞組和電話對話語音等共6 個領域,共包含599 篇與上述領域內容相關的文檔.ACE 2005 數據集里共定義了7 大類實體和7 大類、19 小類關系.

SemEval-2010 任務8 數據集[11]包含10 717 個帶注釋的示例,其中訓練集包含8000 個示例,測試集包含2717 個示例.共定義有9 種關系類型,每種類型都有兩個方向;不屬于這些關系類型的示例被標記為“Other”.每個示例都包含標有兩個名詞e1和e2的句子,任務是在考慮方向性的情況下來預測e1和e2間關系.在考慮方向性的情況下,SemEval-2010 任務8 數據集共有19 種關系類型.

紐約時報(New York Times,NYT) 2010 數據集是用于遠程監督關系抽取的標準語料庫,由Riedel 等人[12]發布于2010年.該數據集是通過將Freebase 知識庫與紐約時報語料庫對齊而形成,使用斯坦福NER 系統從文本中提取的命名實體,并自動鏈接到Freebase 知識庫中的實體.該數據集中共有53 種可能的關系類型,包括一種特殊的關系NA,它表示實體對之間沒有任何關系.

3 評價指標

關系抽取任務經常采用的評價指標有正確率(Accuracy)、準確率(Precision)、召回率(Recall)、F值(F-Measure).

(1)正確率

正確率是最常見的評價指標,而且很容易理解,就是被正確抽取的樣本數除以所有的樣本數,通常來說,正確率越高,分類器越好.其計算公式為:

(2)準確率

準確率又稱為查準率,是針對抽取結果而言的,它表示的是抽取結果為關系R的樣本中有多少是對的.把抽取結果集中正確抽取的記為TP(True Positive),錯誤抽取的記為FP(False Positive).其計算公式為:

(3)召回率

召回率又稱為查全率,是針對原來的樣本而言的,它表示的是存在關系R的樣本中有多少被正確抽取了.把存在關系R的樣本集中正確抽取的記為TP,錯誤抽取的記為FN(False Negative).其計算公式為:

(4)F值

對于關系抽取來說,準確率和召回率兩個指標有時候會出現相互矛盾的情況,二者實際上為互補關系.這樣就需要綜合考慮它們,最常見的方法就是F值,又稱為F-Score.其計算公式為:

其中,β是用來平衡準確率和召回率在F值計算中的權重.在關系抽取任務中,一般β取1,認為兩個指標一樣重要.此時F值計算公式為:

4 相關方法

關系抽取發展至今,總體可以分為基于模板的關系抽取方法和基于機器學習的關系抽取方法,具體如圖2所示.基于機器學習的抽取方法按照對語料的依賴程度分為3 類:有監督的關系抽取、弱監督的關系抽取和無監督的關系抽取.在傳統機器學習方法之后,隨著深度學習抽取方法的廣泛應用,關系抽取的性能得到了較大提高.

圖2 關系抽取相關方法

4.1 基于模板的方法

早期的實體關系抽取方法大都采用基于模板匹配的方法實現.該方法又稱為基于規則或模式匹配的方法,基于語言學知識和專業領域知識,由專家手工編寫模板,構造出基于詞語、詞性或語義的模板集合,來實現特定關系實體對的抽取.方法對比如表1所示.

表1 基于模板的關系抽取方法對比

在1995年MUC-6 會議上,Appelt 等人[1]提出了FASTUS 抽取系統,并引入了“宏”這一概念,用戶只需在“宏”中修改相應參數,即可快速配置好特定領域實體間的關系抽取模板.在1998年MUC-7 會議上,Yangarber 等人[13]提出了Proteus 抽取系統,采用基于樣本泛化的思想來構建關系抽取模板,用戶通過分析含有關系的例句,進而對識別出的要素進行泛化后而形成關系抽取模板,這進一步改善了關系抽取的通用性.Aone 等人[14]提出了IE2抽取系統,通過人工編寫關系抽取模板,從文本中抽取與模板匹配的關系實例.Fukumoto 等人[15]提出了Oki 抽取系統,通過利用實體之間的謂語信息來判定兩個實體間的語義關系.Humphreys 等人[16]提出了LaSIE-Ⅱ抽取系統,通過對句子進行相應句法分析,從而人工構造出復雜的句法規則來識別出實體間的語義關系.

總體來說,基于模板的關系抽取方法能夠在小規模特定領域取得較好效果,但是存在以下問題:第一,開發人員需在特定領域專家的指導下手工編寫關系抽取模板集合,人工參與量大,系統開發周期長;第二,當抽取模板集合較小時,模板的覆蓋范圍不夠,系統召回率不高;當抽取模板集合比較復雜時,不同模板之間容易產生沖突,導致系統準確率降低;第三,當系統移植到其他領域時,需要重新編寫抽取模板,系統可移植性較差,難以得到廣泛使用.

雖然基于模板的關系抽取方法存在一定缺陷,但卻對后續基于機器學習的關系抽取研究起到了相應促進作用.

4.2 基于傳統機器學習的方法

基于傳統機器學習的關系抽取方法屬于有監督的關系抽取方法,將二元關系抽取看作是分類問題,其主要工作在于如何抽取出表征兩個實體間語義關系的有效特征.該方法通常分為基于特征向量(feature-based)的方法和基于核函數(kernel-based)的方法.

基于傳統機器學習的關系抽取方法如表2所示.

表2 基于傳統機器學習的關系抽取方法對比

(1)基于特征向量的方法

基于特征向量的方法通過使用空間向量模型(vector space model),將自然句子轉換為特征向量.該方法進行關系抽取通常分為以下3 個步驟:第1 步是特征提取,即從訓練集句子中提取出如詞匯、句法和語義等特征;第2 步是模型訓練,即利用第1 步提取出的有效特征來訓練我們的分類器模型;第3 步是關系抽取,即利用訓練好的模型對測試集中的句子進行分類,進而完成實體關系抽取.基于特征向量的方法根據分類器模型的不同可分為:基于句法解析增強的方法、基于最大熵(maximum entropy)的方法、基于支持向量機(Support Vector Machine,SVM)的方法及基于條件隨機場(Conditional Random Fields,CRF)的方法等.

Miller 等人[2]在2000年設計了一個聯合模型(joint model)進行關系抽取,主要解決傳統流水線模型(pipeline model)中前一步操作會傳播到后一步操作的錯誤問題.Kambhatla[17]在2004年基于最大熵模型并結合詞匯、句法和語義特征進行關系抽取,只使用非常簡單的詞匯特征也取得了較高準確率,大大降低了對句法分析樹的依賴.Zhou 等人[18]在2005年基于支持向量機模型并通過融合不同詞匯、句法和語義知識進行關系抽取,該模型在Kambhatla的基礎上,通過加入基本短語組塊信息特征和WordNet、Name List等語義信息,來提升關系抽取效果.Culotta 等人[19]在2006年基于條件隨機場模型來進行關系抽取,提出了一種集成的有監督機器學習方法和構建了一個線性鏈條件隨機場來提高關系抽取性能.

基于特征向量的關系抽取方法,雖然在一定程度上可以取得不錯的效果,但其對關系實體對的上下文信息利用不夠充分.此外,對于特征向量的選擇和設置方面更多的依賴于模型構建者的經驗知識,于是后續研究者們進而提出了基于核函數的關系抽取方法.

(2)基于核函數的方法

基于核函數的關系抽取方法,不需要人為選擇和設置特征向量,而是直接使用原始字符串作為輸入,來計算任意兩個實體間的核相似性(kernel similarity)函數.該方法進行關系抽取通常分為以下3 個步驟[25]:第1 步是選擇合適解析結構,即為了承載語句中隱含的特征信息,如使用語法樹等剖析語句;第2 步是選擇合適基礎核函數,即在解析結構基礎上,來定量地計算解析結構中子成分的相似性;第3 步是復合多個核函數,即為了充分利用各種特征,來提高分類精度.

Zelenko 等人[3]在2003年首次將核函數應用于關系抽取任務中,提出一種使用核函數從非結構化自然語言文本中提取關系的方法.Culotta 等人[20]在2004年提出使用依存樹核函數方法進行關系抽取,該模型在文獻[3]樹核函數方法基礎上進行改進,在依存關系樹上定義樹內核,并將該內核合并到SVM 中,可以用來在ACE 新聞語料庫中進行實體關系的檢測和抽取.Bunescu 等人[21]在2005年提出使用最短路徑依存核函數方法進行關系抽取,該方法優于文獻[20]的依存樹核函數方法.但由于其在計算兩個實體間最短路徑時要求依存樹具有相同的節點數和高度,因此在一定程度上限制了其使用范圍.于是兩人[22]在2006年提出使用子序列核函數方法以提升關系抽取的效果,新的模型使用了3 種子序列核函數模式,用于抽取自然語言文本中實體之間的語義關系.Zhang 等人[23]在2006年提出了復合核函數方法進行關系抽取,該模型中復合核函數由實體核函數和卷積解析樹核函數構成,可以充分利用核函數方法的優良特性進行關系抽取.Zhou等人[24]在2007年提出了一種具有上下文相關結構化解析樹信息的樹核函數方法進行關系抽取,該模型通過擴展廣泛使用的最短路徑封閉樹(SPT)來包含SPT之外的必要上下文信息,自動確定動態上下文相關樹的跨度以進行關系抽取.

基于核函數方法的關系抽取方法,可以充分利用文本的長距離特征和結構化特征,實驗結果表明其優于基于特征向量的關系抽取方法.但由于核函數是在高維的特征空間中隱式地計算對象間的距離,因此不可避免的會引入噪聲,對特征向量的有效性會造成一定影響.此外,核函數的計算過程復雜度高,模型的訓練過程相對比較慢,因此不適于在大規模語料庫中進行關系抽取.

4.3 基于深度學習的方法

基于傳統的機器學習關系抽取方法比較依賴于人工構建的各種特征,近年來基于深度學習的關系抽取方法開始被研究者們提出.深度學習方法不需要人工構建特征,其輸入一般包括句子中的詞向量和位置向量表示.基于深度關系的關系抽取方法通常包括流水線(pipeline)關系抽取方法和聯合(joint)抽取關系抽取方法兩種.

基于深度學習的關系抽取典型方法如表3所示.

表3 基于深度學習的關系抽取典型方法比較

(1)流水線方法

基于流水線的方法將命名實體識別和關系抽取作為兩個獨立的過程進行處理,關系抽取在命名實體識別完成的基礎上進行.其過程可以描述為:把已經標注好命名實體對的句子作為模型輸入,而后把實體關系三元組作為預測結果進行輸出.基于流水線的方法通常包括基于卷積神經網絡(Convolutional Neural Network,CNN)的方法、基于循環神經網絡(Recurrent Neural Network,RNN)的方法、基于依存關系的方法和基于BERT的方法.

① 基于卷積神經網絡模型的方法

基于卷積神經網絡模型的關系抽取方法發展脈絡如圖3所示.Liu 等人[26]在2013年提出一種結合詞匯特征的卷積神經網絡用于關系抽取,主要針對以前研究忽略詞間語義信息的情況而引入同義詞編碼,通過同義詞詞典對輸入詞進行編碼,將語義知識集成到神經網絡中以進行關系抽取.Zeng 等人[4]在2014年提出利用卷積深度神經網絡模型(CNN+Softmax)提取詞匯和句子級別的特征進行關系抽取,該模型無需復雜的預處理就可以將所有單詞標記作為輸入,就可以預測兩個標記名詞之間的關系.在Zeng 等人[4]的模型基礎上,Nguyen 等人[27]在2015年提出了一種新的改進模型,其輸入完全沒有使用人工特征,而是使用多尺寸卷積核進行N-Gram 特征抽取.Dos Santos 等人[28]在2015年提出了一種利用卷積神經網絡排序進行關系分類的模型(CR-CNN),該模型為每個關系類型學習分布式矢量表示,對于給定輸入文本段,使用卷積層生成文本的分布式矢量表示形式,并將其與關系類別表示形式進行比較,以便為每個關系類別生成分數.Shen 等人[29]在2016年提出了一種基于注意力機制的CNN 模型(Attention-CNN)進行關系抽取,該模型使用CNN 來提取句子級別特征,將文本段編碼為其語義表示,并可以充分利用單詞嵌入,詞性標簽嵌入和位置嵌入信息.Wang 等人[30]在2016年提出了一種基于多級注意力機制的CNN 模型(Att-Pooling-CNN)進行關系抽取,主要依賴兩個層次的注意力機制,以便更好地識別異構上下文中的模式.Zhu 等人[31]在2017年提出了一種基于目標集中注意力機制的CNN 模型(TCA-CNN)進行關系分類,認為一個句子中不同的詞具有不同的信息量,并且詞的重要性高度依賴于關系.

圖3 基于CNN 模型的方法發展時間軸

② 基于循環神經網絡模型的方法

基于循環神經網絡模型的關系抽取方法發展脈絡如圖4所示.Zhang 等人[32]在2015年首次提出使用循環神經網絡模型來進行關系分類,認為關系分類問題本質上可以看作是時間序列學習的任務問題,因此應通過時間模型進行建模.與CNN 等其他深度學習模型相比,RNN 模型可以處理遠距離模式,因此特別適合于在較長上下文中學習關系.Zhang 等人[33]在2015年提出了雙向長短期記憶網絡(BLSTM)模型來解決關系分類問題,對于給定句子中的每個單詞,BLSTM 都有關于其前后所有單詞的完整的順序信息,在一定程度上可以解決長距離關系.Xiao 等人[34]在2016年提出了基于注意力機制的分層循環神經網絡模型(Hier-BLSTM)進行語義關系分類,采用兩個注意機制RNN從原始句子中學習有用的特征以進行關系分類.Zhou等人[35]在2016年提出了基于注意力機制的雙向長短期記憶網絡(Att-BLSTM)模型進行語義關系分類,不依賴于NLP 系統或詞匯資源派生的任何特征,而是使用帶有位置指示符的原始文本作為輸入.Qin 等人[36]在2017年提出了一種基于實體對的雙向注意力機制門控循環單元(Gated Recurrent Unit,GRU)模型(EAtt-BiGRU),該模型利用雙向GRU 捕獲有價值的字符級信息,針對具體實例,將對應的實體對信息作為先驗知識.Lee 等人[37]在2019年提出了一種結合實體感知注意機制和潛在實體類型(Latent Entity Type,LET)的端到端循環神經模型(LET-BLSTM)進行關系分類,該模型為了捕捉句子的上下文,通過自我注意力機制來獲得單詞的表示,并用雙向長短期記憶網絡來構建循環神經結構.

圖4 基于RNN 模型的方法發展時間軸

③ 基于依存關系模型的方法

基于依存關系模型的關系抽取方法發展脈絡如圖5所示.Socher 等人[38]在2012年提出了一種矩陣向量遞歸神經網絡模型(MV-RNN),其為解析樹中的每個節點分配向量和矩陣,并通過根據解析樹的句法結構遞歸地組合單詞,可以自底向上計算較長短語的表示形式.Yu 等人[39]在2014年提出了基于因子的組合嵌入模型(FCM)用于關系分類,將帶注釋的句子分解為子結構因子后,結合子結構特征與單詞嵌入形成子結構嵌入,再用Softmax 層來預測這個句子級嵌入的輸出標簽.Liu 等人[40]在2015年提出了一種基于依存關系的神經網絡模型(DepNN)進行關系分類,提出了增強依存路徑(Augmented Dependency Path,ADP)結構,利用遞歸神經網絡對子樹進行建模和卷積神經網絡捕獲最短路徑上的重要特征.Xu 等人[41]在2015年提出了一種簡單負采樣的卷積神經網絡模型(depLCNN+NS)進行語義關系分類,利用CNN 從最短依存路徑中學習更魯棒的關系表示,避免來自其它不相關語塊或從句的負面影響,并引入一種負采樣策略來解決關系的方向性.Xu 等人[42]在2015年提出了一種基于最短依存路徑的長短期記憶網絡模型(SDP-LSTM)進行關系分類,利用具有長期短期記憶單元的多通道遞歸神經網絡沿最短依存路徑來收集異構信息.Cai 等人[43]在2016年提出了一種雙向循環卷積神經網絡模型(BRCNN)進行關系分類,利用基于雙通道LSTM的循環神經網絡對SDP 中的全局模式進行編碼,并利用卷積層捕獲由依存關系連接的每兩個相鄰單詞的局部特征.Xu 等人[44]在2016年提出了一種基于數據擴充的深度循環神經網絡模型(DRNNs) 來進行關系分類,通過多個RNN 層來探索不同抽象級別和粒度下的表示空間,同時提出了一種利用關系方向性進行數據擴充的方法.Sun 等人[45]在2018年提出了一種結合最短依存路徑監督下關鍵詞選擇的粗粒度和細粒度網絡模型(SDPCFN)進行關系分類,提出了粗粒度和細粒度兩種關系分類網絡、SDP 監督下的選詞網絡和一種新的相反損失函數.

圖5 基于依存關系模型的方法發展時間軸

④ 基于BERT 模型的方法

Wu 等人[46]在2019年提出了一種基于實體信息來豐富BERT 預訓練語言模型的方法(R-BERT)來進行關系分類,結合預訓練的BERT 模型和目標實體信息來解決關系分類問題,通過預先訓練的體系結構定位目標實體并傳遞信息,并合并兩個實體的相應編碼.Soares 等人[47]在2019年提出了一種通用關系提取器(BERTEM+MTB),主要基于Harris的分布假設對關系的擴展以及在學習文本表示形式(特別是BERT)方面的最新進展,以完全從實體鏈接的文本構建與任務無關的關系表示形式.通過實驗證明,BERTEM+MTB 大大優于SemEval 2010 Task 8 上的先前方法,取得了目前最高F1 值89.5.

以上基于深度學習的流水線關系抽取方法,其關系抽取的結果過度依賴于命名實體識別的結果,忽略了兩個過程之間存在的關系,一定程度上影響了關系抽取的效果;同時,命名實體識別過程的錯誤也會傳播到關系抽取過程中,即流水線方法通常存在的錯誤累積傳播問題.

(2)聯合方法

為了避免流水線方法所帶來的錯誤累積傳播問題,基于深度學習的聯合關系抽取方法開始被提出.聯合關系抽取方法使用單個模型將命名實體識別和關系抽取兩個過程結合在一起,以便在統一的模型中進行共同優化.聯合關系抽取方法發展脈絡如圖6所示.

圖6 聯合方法發展時間軸

Miwa 等人[48]在2016年提出了一種基于序列和樹結構的LSTMs 端到端模型進行實體和關系聯合抽取.該模型在循環神經網絡的基礎上通過在雙向序列LSTM-RNNs 上疊加雙向樹結構LSTM-RNNs 來同時捕獲字序列和依存樹子結構信息,這允許模型在單個模型中使用共享參數共同表示實體和關系.Katiyar 等人[49]在2016年提出了基于雙向LSTMs的實體與關系聯合抽取模型.這是第一次嘗試使用深度學習方法處理完整的意見實體和關系抽取任務.但該模型只能用于聯合抽取意見實體和IS-FROM和ISABOUT 關系,而無法用于抽取其他實體關系類型,不具有通用性.Katiyar 等人[50]為了解決上述問題,又在2017年提出了一種基于注意力機制的循環神經網絡模型,在不使用于任何依存樹信息的情況下進行實體標記和關系的聯合提取.Zheng 等人[51]在2017年提出了一種基于混合神經網絡的實體與關系聯合抽取模型,可以在不需要任何人工特征的情況下提取實體及其語義關系.該模型包含一個用于命名實體識別的雙向編解碼模塊(BiLSTM-ED)和一個用于關系分類的CNN 模塊,可以用來捕獲實體標簽之間的長距離關系.Zheng 等人[52]在2017年又提出了一種基于標記方案的實體與關系聯合抽取模型(LSTM-LSTM-Bias).該模型設計了一種帶有端到端模型的標記方案,其中包含實體及其所具有的關系的信息,從而將實體和關系的聯合抽取轉換為了標記問題.Sun 等人[53]在2018年提出了一種基于最小風險訓練(MRT)方法的輕量級實體與關系聯合抽取模型.基于MRT的方法的優點是可以顯式地優化全局句子級損失(如F1 值),而不是局部標記級損失,從而模型可以在訓練時間內捕捉更多的句子級信息,在測試時間內更好地匹配評價指標.Wang 等人[54]在2018年提出了一種基于圖形方案的實體與關系聯合抽取模型.該模型用直觀的圖形方案來共同表示實體和關系,從而將端到端的關系抽取很容易地轉換成類似解析的任務.

以上的實體與關系聯合抽取模型所采用的方法基本上可以分為兩大陣營,一種是以Miwa 等人[48]為代表基于參數共享的實體關系抽取方法,另外一種是以Zheng 等人[51]為代表基于序列標注的實體關系抽取方法.基于參數共享的方法很好地緩解了流水線方法所帶來的錯誤累積傳播問題以及兩個子過程間關系被忽視的問題.而基于序列標注的方法在上兩個問題之外,還解決了流水線方法中的實體冗余的問題.

4.4 基于弱監督的方法

基于有監督學習的關系抽取方法需要大量有標注的訓練語料,而人工標注這些語料則耗時耗力,尤其是面對海量非結構化網絡數據時,問題則更加突出.當訓練語料較少時,則可以利用弱監督學習方法來進行關系抽取.弱監督關系抽取主要包括基于遠程監督(distant supervision)的方法和基于Bootstrapping的方法.

(1)基于遠程監督的方法

遠程監督方法所基于的假設為:若兩個實體間存在某種關系,則所有包含這兩個實體的句子都可能以某種方式表達這種關系[5].該方法通過將非結構化文本中的實體對與知識圖譜進行對齊來自動標注訓練樣本,以構建大量的訓練數據,從而減少對人工的依賴,增強了模型的跨領域適應能力.

基于遠程監督的關系抽取典型方法如表4所示.

表4 基于遠程監督的關系抽取典型方法對比

① 基于傳統特征的遠程監督方法

基于傳統特征的遠程監督方法發展脈絡如圖7所示.Mintz 等人[5]在2009年首次將遠程監督的方法運用到實體關系抽取任務中.該模型使用一個具有數千個關系的大型語義數據庫Freebase 來提供遠程監督,對于出現在Freebase 關系庫的每一對實體,在一個大的未標記語料庫Wikipedia 中找出包含這些實體的所有句子,并提取文本特征以訓練一個關系分類器.Riedel 等人[12]在2010年提出了一種基于無向圖模型和遠程監督框架的多實例學習模型來進行關系抽取.該模型認為Mintz 等人[5]先前的假設過于絕對,進而提出了“at least one sentence”假設,即如果將所有包含兩個相關實體的句子看成是一個包,那么這個包中至少有一個句子表達了相應的關系.Hoffmann 等人[55]在2011年提出了一種可以處理多重關系的多實例學習概率圖模型MultiR 來進行關系抽取.Mintz 及Riedel等人的模型假設實體間只存在一種關系,事實上部分實體間往往會存在多重關系.Surdeanu 等人[56]在2012年提出了一種多實例多標簽學習模型MIML 用于關系抽取,認為一個句子中一對實體所表達的關系是未知的,有可能有關系或根本沒有關系.該模型利用具有潛在變量的概率圖模型,將文本中含有實體對的所有實例及其所有關系標簽聯合起來進行建模.Takamatsu 等人[57]在2012年提出了一種減少使用遠程監督假設創建的錯誤關系標簽數量的方法.該模型直接模擬了遠程監督的啟發式標記過程,并使用預測模式來判斷指定的關系標簽是正確的還是錯誤的.如果模式能夠成功預測關系標簽,那么標注樣本應當保留;如果不能,則標注樣本應該拋棄.

圖7 基于傳統特征的遠程監督方法發展時間軸

以上模型方法都是基于傳統特征的,然而傳統特征的設計周期相對較長,而且模型應用范圍受限,擴展性較差.同時,在提取特征時會使用自然語言處理工具,導致誤差不斷向下傳播,進而影響關系抽取的效果.

② 基于深度學習的遠程監督方法

近年來,隨著深度學習神經網絡的快速發展,目前基于深度學習的遠程監督方法相關研究已經占據主導地位.基于深度學習的遠程監督方法發展脈絡如圖8所示.

圖8 基于深度學習的遠程監督方法發展時間軸

Zeng 等人[58]在2015年提出了一種多實例學習的分段卷積神經網絡(PCNNs+MIL)關系抽取模型.該模型將遠程監督關系抽取問題看作是一個多實例問題,考慮了實例標簽的不確定性;其無需復雜的NLP 預處理,而是采用了帶分段最大池化操作的卷積神經網絡來自動學習相關特征.Lin 等人[59]在2016年提出了一種基于句子級選擇性注意力機制的卷積神經網絡(PCNN+ATT)關系抽取模型,是對Zeng 等人[58]模型的改進,主要還是解決遠程監督錯誤標注的問題.Jiang 等人[60]在2016年提出了一種多實例多標簽卷積神經網絡(MIMLCNN)關系抽取模型.該模型首先放寬了“至少一次表達”的假設,并采用了跨句最大池化操作,以使信息可以在不同句子之間共享;然后,使用神經網絡分類器通過多標簽學習處理多重關系.Ji 等人[61]在2017年提出使用句子級注意力機制結合實體描述信息的遠程監督模型(APCNNs+D)進行關系抽取.其中,注意力機制可以通過為有效實例分配較高的權重,為無效實例分配較低的權重,來選擇包中的多個有效實例;而實體描述信息可以提供更多背景知識.除此之外,Ren 等人[62]在2016年提出了一種聯合抽取模型(COTPYE)用于關系抽取,以解決將實體抽取和關系抽取兩項工作分別進行所帶來的錯誤累積傳播問題.Liu 等人[63]在2018年提出了一種基于語句內降噪和遷移學習模型(BGRU+STP+EWA+TL)進行關系抽取,通過建立子樹解析(STP)來去除與關系無關的噪聲詞,運用實體注意力機制來識別每一個實例中關系詞的重要語義特征,通過轉移學習從實體分類的相關任務中學習先驗知識使模型對噪聲具有更強的魯棒性.Vashishth等人[64]在2018年提出了一種基于邊信息的圖形卷積網絡(GCN)模型(RESIDE) 進行關系抽取,一方面利用知識庫中的附加邊信息來改進遠程監督關系提取,另一方面利用GCN 從文本中對語法信息進行編碼.Xu 等人[65]在2019年提出了一種將語言和知識與異構表示聯系起來以進行神經關系抽取的模型(HRERE),使用知識庫嵌入(KBE)進行鏈路預測來改進關系抽取,通過一個統一學習關系抽取和知識庫嵌入模型的框架幫助縮小差距,從而顯著提高關系抽取的效果.

③ 基于強化學習的遠程監督方法

自從AlphaGo在圍棋領域打敗了人類專業棋手后,強化學習就進入了眾多研究者的視野.將強化學習應用到遠程監督關系抽取領域的研究也開始不斷出現.

Feng 等人[66]在2018年提出了一種使用強化學習框架來解決遠程監督關系抽取中噪聲的模型(CNN+RL).CNN+RL 模型主要用于在句子層面上降噪,由一個實例選擇器和一個關系分類器組成.實例選擇器為關系分類器選擇高質量的句子,關系分類器在句子級別預測關系,并向選擇器提供獎勵,以作為監督實例選擇過程的微弱信號.這將實例選擇實際轉化為了一個強化學習問題.Zeng 等人[67]同樣在2018年提出了使用強化學習方法在遠程監督數據集上進行關系抽取的模型(PE+REINF).PE+REINF 模型遵循“至少表達一次”的假設來預測包關系,但從預測的角度重新表述:當預測包的關系時,當且僅當包中的所有句子都表示NA 關系(無關系)時,包才是NA 關系,否則,包是用它的句子表示的真實關系.模型利用實體對的關系作為遠程監督,借助強化學習方法指導關系抽取器的訓練.

基于遠程監督的關系抽取方法作為弱監督方法的一種,其優點在于可以通過較低成本獲得大量訓練數據,克服了有監督方法需要大量標注數據的弊端,其在面對大量無標注數據時會顯現出特有的優勢,在一些缺乏標注數據集的垂直領域中具有很好的應用前景;其缺點在于當所采用的知識庫不完備及有錯誤標注時會產生噪聲問題,將導致抽取效果比有監督方法差很多,這給關系抽取準確率的提升帶來了較大挑戰.因此,在遠程監督關系抽取方法研究中,如何克服噪聲問題已成為研究關注的重點.

(2)基于Bootstrapping的方法

自動化模板抽取通常采用自舉法(Bootstrapping)算法來實現,如圖9所示.針對某個特定類型的關系實例抽取任務,自舉法的基本思想是:① 實體標注,即為該關系類型標注少量的初始種子實體對;② 句子查找,即找到實體對在數據集中所出現的句子集合;③ 模板提取,即基于上述句子集合提取表達關系的模板;④ 實例抽取,即使用經篩選和評估后的新模板去數據集中抽取新的實體對.上述“模板提取+實例抽取”的過程循環迭代,直至不再發現新的關系實例.這個過程也被稱為“滾雪球(snowball)”[68].

圖9 基于Bootstrapping的關系抽取流程

基于自舉法的關系抽取方法得到了廣泛應用,出現了很多具有代表性的系統,主要有Brin 等人[6]在1998年提出的DIPRE (Dual Iterative Parttern Relation Expansion)抽取系統,Agichtein 等人[69]在2000年提出的Snowball 抽取系統,Etzioni 等人[70]在2005年提出的KnowItAll 抽取系統,以及卡內基梅隆大學(CMU)的Tom Mitchell 教授領導的團隊在2010年開發的NELL (Never-Ending Language Learner) 抽取系統[71].

自舉法的優點是關系抽取系統構建成本低,不需要過多的人工標記數據,適合大規模的關系抽取任務.但是,自舉法也存在不足之處,包括對初始種子集較為敏感、存在語義漂移問題、抽取結果準確率較低等.

4.5 基于無監督的方法

無監督關系抽取方法主要基于分布式假設理論:如果兩個詞語出現在相同上下文中且用法相似,那么它們意思相近.相應的,在關系抽取任務中,具有相同語義關系的實體對也傾向于具有相似的上下文語境,其上下文可作為表征該語義關系的特征.該方法進行關系抽取通常分為以下兩個步驟:第一步是實體對聚類,即采用某種聚類方法將語義相似度高的實體對聚為一類;第二步是關系標記,即在上下方中選擇具有代表性的詞語來標記這種關系.

Hasegawa 等人[72]在2004年首次提出了一種基于無監督的大型語料庫關系發現方法,其核心思想是根據命名實體之間上下文詞語的相似度對命名實體進行聚類.Chen 等人[73]在2005年對Hasegawa 等人[72]的方法進行了改進,該方法將每個實體對的上下文,而不是所有相同實體對的上下文,作為實體之間的語義關系特征.Rozenfeld 等人[74]在2006年提出了一種無監督的關系識別和提取系統URIES,該系統使用一種基于模式的上下文表示來代替實體對的上下文,使關系抽取結果取得了較大提高.Shinyama 等人[75]在2006年提出了一種多層級聚類的無監督關系抽取方法,該方法試圖在一個文檔中發現多個實體之間的并行對應關系,并使用基本模式作為特征進行聚類.Bollegala 等人[76]在2010年提出了一種用于針對Web 上實體對的無監督關系抽取方法,該方法利用關系的對偶性,使用協同聚類來發現實體對及其關系模板的聚類簇,并從中選擇具有代表性的模板作為對應的關系.Yao 等人[77]在2012年提出了一種基于語義消歧的無監督關系發現方法,該方法使用主題模型將實體對及其對應的關系模板分配到不同的語義類別上,然后再使用聚類方法將這些語義類別映射到語義關系上.Simon 等人[78]在2019年提出了一種具有關系分布損失的正則化判別方法來進行無監督信息抽取,該模型通過引入偏度損失函數和分布距離損失函數來提高判別模型的性能.Tran 等人[79]在2020年提出了一個簡單的無監督關系抽取方法,該方法僅使用命名實體來推導關系類型,與現有方法相比可以獲得更好的性能.

無監督關系抽取方法的優點是無需預先定義關系類型,并可以發現新的關系類型,適用領域范圍廣.但也存在缺點,由于發現的關系往往是相似模板的聚類,因此關系往往不具有語義信息,很難被用來構建知識庫.如果要得到具有語義信息的關系,需要人工方式添加語義信息或將其與現有知識庫的關系進行對齊.

4.6 有監督深度學習方法與遠程監督方法對比

有監督的深度學習關系抽取方法所采用的數據集規模一般相對較小,以人工標為主,特點是噪聲小、準確率高,但花費成本較高;訓練出的關系抽取模型抽取效果較好,但領域可遷移性較差.

無監督的遠程監督關系抽取方法的數據集主要采用遠程知識庫方式,數據集規模較大,特點是噪聲大、準確率低,但花費成本較低;訓練出的關系抽取模型抽取效果比有監督的方法相比差一些,但領域可遷移性相對較好.

有監督深度學習方法與遠程監督方法對比具體如表5所示[80].

表5 有監督深度學習方法與遠程監督方法對比

5 未來研究方向及應用分析

5.1 未來研究方向

盡管關系抽取在近20年間已得到了學術界的廣泛關注和研究,各種關系抽取方法也在不斷地得到嘗試,但關系抽取在實際應用過程中仍然面臨著很多挑戰,從理論研究轉變為工業實踐還有很長的路要走.下面對關系抽取的未來研究方法進行分析和展望.

(1)基于模板和深度學習相融合的關系抽取研究

在早期的時候,基于模板的關系抽取方法研究得相對比較多.基于模板的關系抽取方法優點是抽取準確率比較高,但召回率較低.同時,該方法還存在“完全匹配”或“硬匹配”問題,即無法應用于語義相同而表述不同的短語中.而基于深度學習的關系抽取則能夠匹配表述不同而語義相近的短語.因此,如果能將兩者融合在一起,則有可能提高關系抽取的性能[81].

(2)基于深度學習新進展的關系抽取研究

隨著前些年深度神經網絡在其他領域的成熟應用,學者們已將各種神經網絡模型(如CNN、RNN)相互結合應用于了關系抽取任務中,獲得了豐富的研究成果.近幾年,隨著強化學習[82,83]、生成對抗學習[84,85]、圖卷積神經網絡[86,87]、預訓練模型[88-90]等深度學習新技術的提出,又有很多學者開始研究如何將這些方法應用于關系抽取中.因此,未來可以嘗試將這些新的深度學習技術應用于關系抽取任務中,從而來提升關系抽取的效果.

(3)段落級和篇章級的關系抽取研究

如今的關系抽取研究大多集中在詞匯級和語句級層面,很少有學者將其擴展到段落級和篇章級層面.而僅僅根據給定實體對和句子來抽取關系,往往會缺乏必要的背景知識,從而造成關系抽取的困難.如果能夠根據整個段落或篇章文字來獲取實體的背景知識,則有可能帶來實體關系抽取性能的大幅提升.因此,如何結合背景知識進行聯合實體關系抽取以及進行段落級、篇章級的聯合抽取研究具有重要的研究價值.

(4)多元實體關系抽取研究

目前文獻中關于關系抽取的研究,多數集中于從單一句子中抽取出二元關系.這些關系抽取模型基于的假設都是句子中給定的兩個標注實體間只存在一種關系.而在實際生活中,我們所面對的句子中的實體對間存在著不止一種關系,三元甚至是多元關系.簡單的二元關系抽取模型已經無法滿足現實任務的要求.因此,針對多元實體關系的抽取研究將具有重要的現實意義.

5.2 應用分析

關系抽取作為信息抽取的一項重要內容和知識圖譜構建中的一個關鍵環節,具有十分廣闊的應用前景.具體應用表現在以下幾個方面:

(1)有助于深層自然語言理解

目前的機器語言理解系統只能理解淺層次語言,在深層次語言理解上正確率較低、效果難以令人滿意.關系抽取作為句子、段落和篇章中關系內容抽取的一項關鍵技術,對文本中核心內容的理解具有重要意義.因此,文本語義關系抽取的研究對實現機器真正理解人類語言具有重要推動作用,對機器翻譯等自然語言處理領域的任務性能提升也將具有重要意義.

(2)自動構建大規模知識圖譜

當前很多互聯網應用都離不開底層通用知識圖譜和領域知識圖譜的支撐.如何有效利用互聯網上海量多源異構數據以構建大規模知識圖譜,則會對提升互聯網應用性能起到重要作用.如果利用人工構建知識圖譜特別是構建領域知識圖譜的話,則將面臨構建成本高、開發周期長、知識覆蓋率低和領域數據稀疏等一系列問題.利用關系抽取技術則可以很好地解決上述問題,根據需求自動抽取結果以形成知識圖譜.

(3)為其它應用提供技術支持

關系抽取對問答系統和信息檢索等具體應用均可提供技術支持.在問答系統中,關鍵問題就是要構建一個與領域無關的問答類型體系,而后找出與問答類型體系中每個問答類型相對應的答案模式,這就需要關系抽取技術的支持.在信息檢索中,有了關系抽取技術的支持,可以構建出大規模的知識圖譜,而后通過對檢索信息進行關聯搜索和推理,可以為用戶提供更加智能化的檢索服務.

猜你喜歡
語義監督方法
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
語言與語義
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
監督宜“補”不宜“比”
浙江人大(2014年4期)2014-03-20 16:20:16
主站蜘蛛池模板: 丁香婷婷久久| 国产欧美精品一区aⅴ影院| 亚洲自拍另类| 午夜性刺激在线观看免费| 色欲色欲久久综合网| 日韩欧美中文在线| 毛片在线播放a| 日本欧美在线观看| 重口调教一区二区视频| 日本欧美成人免费| 中文字幕在线不卡视频| 一级香蕉人体视频| 国产男女XX00免费观看| 国产高清又黄又嫩的免费视频网站| 国产日韩欧美视频| 中文字幕在线一区二区在线| 蜜臀AVWWW国产天堂| 亚洲AV无码乱码在线观看裸奔 | 丁香婷婷激情综合激情| 国产精品久久久久久久久| 国产毛片片精品天天看视频| 国产无码性爱一区二区三区| 日韩欧美国产成人| 欧美成人精品在线| 亚洲天堂高清| 成人免费视频一区| 国产真实乱了在线播放| 精品国产三级在线观看| 亚洲精品色AV无码看| 韩国福利一区| 色视频国产| 中文字幕乱妇无码AV在线| 国产情精品嫩草影院88av| 久久一本精品久久久ー99| 亚洲人成网站日本片| 亚洲日本www| 99精品免费在线| 天天综合天天综合| 久久久久免费看成人影片| 久久精品无码中文字幕| 久久久波多野结衣av一区二区| 老色鬼欧美精品| 久久久波多野结衣av一区二区| 国产欧美视频一区二区三区| 亚洲无码免费黄色网址| 亚洲人成日本在线观看| 中文纯内无码H| 亚洲AV无码久久精品色欲| 在线无码私拍| 91精品小视频| 啪啪啪亚洲无码| 成人在线观看不卡| 成人精品免费视频| 制服丝袜亚洲| 亚洲欧美精品日韩欧美| 在线观看网站国产| 欧美日韩亚洲综合在线观看| 无码人中文字幕| 国产在线97| 欧美综合成人| 国产无码高清视频不卡| 免费人成网站在线高清| 人人看人人鲁狠狠高清| 91久久精品日日躁夜夜躁欧美| 欧美日韩激情在线| 婷婷综合缴情亚洲五月伊| 成人午夜视频免费看欧美| 91麻豆国产精品91久久久| 露脸真实国语乱在线观看| 亚洲视频一区在线| 亚洲欧美自拍中文| 日韩黄色大片免费看| 午夜视频www| 国产精品美女自慰喷水| 亚洲精品无码高潮喷水A| 99免费在线观看视频| 国产乱肥老妇精品视频| 国产精品久久久久鬼色| 欧美国产综合色视频| 潮喷在线无码白浆| 成人无码一区二区三区视频在线观看| 亚洲国产亚综合在线区|