999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

重疊實體關系抽取綜述

2022-01-22 07:50:38杭婷婷
計算機工程與應用 2022年1期
關鍵詞:方法模型

馮 鈞,張 濤,杭婷婷

河海大學計算機與信息學院水利部水利大數據重點實驗室,南京 211100

近年來大數據得到快速發展,使得互聯網上留存海量的無結構化或半結構化數據。如何通過深層次的挖掘這些數據得到更有價值的信息,給用戶帶來更好的體驗,成為了這一領域學者的熱點問題。在這種環境下,信息抽取技術也成為了焦點,信息抽取任務主要包括兩大部分:實體關系抽?。╡ntity relation extraction)、事件抽?。╡vent extraction)[1]。而實體關系抽取作為信息抽取技術關鍵任務之一,自然引起了廣大學者的關注。

實體關系抽取能夠從文本中提取事實知識,是自然語言處理(natural language processing,NLP)領域中重要的任務之一,對知識圖譜構建及其下游應用起著支撐作用,例如決策支持、智能問答等。現階段,實體關系抽取可以分為兩大類:基于傳統機器學習和基于深度學習[2]。表1中整理了目前實體關系抽取方法的優缺點。

表1 實體關系抽取方法比較Table 1 Comparison of entity relation extraction methods

(1)基于傳統機器學習

基于傳統機器學習的方法主要依賴于自然語言處理工具來提取特征,對提取到的特征采用相對簡單的方法就可以獲得較好的效果。基于機器學習的方法以數據集標注量又可以劃分為有監督、半監督和無監督的方法。①有監督的方法:利用人工標注語料構建語料庫,將關系抽取任務視作分類任務,對識別到的候選實體預測關系。常用方法主要分為基于特征向量的方法[3]和基于核函數的方法[4]。②半監督的方法:利用少量人工標注的數據構建種子,通過訓練大量未標記的語料庫,生成新的實例進而增加新的種子,不斷迭代,擴大種子規模,從而得到預期的效果[5]。常用的算法主要有自舉(boost strapping)[6]、協調訓練(co-training)[7]和標注傳播(label propagation)的方法[8]。③無監督的方法:雖然半監督的方法僅使用少量的語料,但是種子的好壞會極大影響后續的結果,在此問題基礎上,研究者采用基于聚類的思想,通過自底向上的方法從語料庫中抽取出具有相似性關系的實體對,在從句中選取合適的詞語標記關系[9]。

(2)基于深度學習

由于傳統的機器學習方法依賴自然語言處理工具抽取特征,可能會引起特征提取誤差傳播問題,極大影響關系抽取問題。為了能夠自動化地抽取特征,深度學習的方法受到研究者的關注[10]。深度學習關系抽取目前分為兩大類有監督和遠程監督。①有監督的方法:利用人工標注的數據集,通過深度學習的神經網絡模型,自動獲取句子特征,進而得到較好的訓練效果。按照實體關系抽取的子任務完成順序不同可以分為流水線(pipeline)方法[11]和聯合(joint)學習方法[12]。②遠程監督的方法:利用遠程知識庫自動化抽取大量的實體對,迅速的擴大知識庫的規模。自動化抽取假設句子中實體對的關系與知識庫中該實體的關系,但是這種數據標注的過程會帶來大量的噪聲數據,在抽取過程會產生誤差傳播[13]。

基于深度學習的聯合抽取方法很好的解決了機器學習方法中存在的誤差傳播問題,并且考慮到實體識別和關系抽取任務之間的依賴關系。但是大部分的模型將任務限定在單一句子中,并假設句子中只包含一個實體對。然而,這一假設是不切合實際的,句子中包含了更為復雜的事實關系,不同的關系三元組在一個句子中可能有重疊。事實上,在WebNLG數據集68.2%的句子存在重疊,這會導致模型提取三元組不是很精準?,F階段可以按照實體重疊程度劃分為三種類型,包括正常類(normal)、單實體重疊(single entity overlap,SEO)和實體對重疊(entity pair overlap,EPO),如圖1所示。S1 是屬于正常類,其中只包含了一個三元組;S2 屬于SEO,句中的實體Tennessee 同時與實體Martha和Monteagle 存在關系,兩個三元組發生了重疊;S3 屬于EPO,句子中的實體對發生了重疊。

圖1 重疊類型分類Fig.1 Classification of overlapping types

從圖1 中的實例可以看出,重疊實體關系抽取相比經典關系抽取更加具備挑戰性,主要包含以下5 個挑戰:

(1)暴露偏差,模型采用Seq2Seq的方法,但是實際上任務間仍舊存在級聯關系。在實際訓練階段,級聯任務均采用真實數據標簽輸入進行訓練,會導致預測階段和訓練階段的數據出現分布偏差,并產生誤差積累。

(2)交互缺失,模型在建模過程中忽略的內在聯系可以分為:頭實體和尾實體、實體和關系、關系和關系以及三元組間的內在聯系。有效建模三元組內在聯系,可以減少模型對數據量的要求,減少模型計算負擔。

(3)實體完全提取,大多數模型采用部分匹配的方法評估模型性能,當頭實體最后一個單詞、尾實體和關系被識別正確時,則視作三元組正確。這種評估方式不符合事實且無法應用到實際場景,如何在提取完整實體的同時不影響模型性能,仍然是要面臨挑戰之一。

(4)嵌套實體識別,句子中存在嵌套實體以及復雜的關系,使得句子十分復雜且不易解析。如何有效識別實體邊界以及復雜的關系是現階段仍面臨的挑戰之一。

(5)圖模型構建,圖模型很適用于實體關系提取任務,圖的結構在模型整體性能中起著重要作用,而構建高質量和特定任務的圖需要具備良好的領域知識。如何動態構建自適應圖是極具挑戰性的任務。

本文將針對重疊實體關系抽取任務,梳理從經典關系抽取任務到重疊實體關系抽取任務的脈絡,對其中作者的核心思想、使用的方法以及方法優勢和不足點進行總結,進而為接下來的研究方向提出可能性的建議以及未來可能改進的研究方向。據目前來看,這是針對重疊實體關系抽取的第一個全面綜述。

1 重疊實體關系抽取方法

2011年,Hoffmann等人[8]首次在模型構建過程中考慮到重疊實體關系問題,并引入基于多實例學習的概率圖模型解決此問題。經過多年后,重疊實體關系抽取這一問題重要性逐漸被研究者意識到并采用基于序列到序列(sequence to sequence,Seq2Seq)、基于圖(graphbased)和基于預訓練語言模型(pre-trained language model,PTM)的方法進行深入研究。

1.1 基于序列到序列的方法

基于Seq2Seq 的方法最初由Sutskever 等人[14]提出,采用編碼-解碼架構解決機器翻譯問題,是自然語言處理領域中運用最廣泛的框架之一,如圖2所示。現在應用到關系抽取領域,該架構將非結構化文本轉化為詞向量作為輸入序列,通過編碼獲取上下文表示,再經過解碼,將關系三元組順序輸出。2017年,Zheng等人[15]提出了一種新穎的標注策略(novel tagging),標注實體信息同時標注關系類型,以此將命名實體識別和關系抽取任務轉變為序列標注任務。采用簡單的端到端神經網絡模型就可以有效的抽取出三元組,提高了實體關系抽取任務的F1 值,達到了42.0%。但該模型忽略了SEO 和EPO 的情況,在此之后,學者對重疊實體關系抽取任務展開了進一步研究,現按照任務解決方案可以劃分為:基于標注策略和基于復制機制。

圖2 基于序列到序列的經典模型框架Fig.2 Traditional model framework based on Seq2Seq

1.1.1 基于標注策略

基于標注策略的解決方案主要是受到novel tagging模型的啟發,將實體關系抽取兩階段任務轉變為對實體和關系開始位置和結束位置的共同標注,從而實現聯合解碼。后續學者經過巧妙調整標注策略使得模型可以解決重疊實體關系抽取任務?,F階段標注多采用BIESO 標注實體信息,分別表示{實體開始,實體內部,實體結束,單個實體,無關詞},關系類型采用預定義關系詞進行標記。根據過往的工作總結,將標注策略按照抽取順序分為頭實體優先抽取、關系優先抽取、三元組建模抽取。

Yu等人[16]提出了一種新穎的分解式策略,將抽取任務分解為頭實體(head entity,HE)提取、尾實體關系(tail entity relation,TER)提取,兩個任務共享編碼層。通過引入基于跨度距離的標記方案,進一步將兩個子任務轉變為多序列標注問題,對于句子中的HE 標記其位置和類型,再根據HE去預測TER,TER包括兩個子序列標注任務,標記尾實體(tail entity,TE)開始位置和關系類型,標記TE結束位置和關系類型,最終在WebNLG數據集中F1 值達到了83.1%。田佳來等[17]人采用分解策略思想的同時引入了GLU dilated CNN 對句子進行編碼,采用自注意力機制提高模型抽取能力,并成功將模型運用到軍事領域,其F1值達到了80.84%。分解策略,頭實體、尾實體經過兩次解碼獲得,并未考慮到頭尾實體間的相互作用,基于此趙等人[18]使用多標簽策略處理重疊實體關系問題,并在編碼層加入了詞性信息和句法依存關系,以及引入多頭注意力機制,在NYT數據集F1值達到了66.7%。頭實體優先抽取,再判定實體對之間的關系,會產生大量的冗余實體,并進行了許多不必要的操作。為了進一步探索更好的抽取方式,部分學者采用了關系優先抽取。

(2)關系優先抽取

Lin等人[19]提出了一種基于關系矩陣約束下的關系提取模型RERLC,該模型認為在同句子內,相關性強的關系對出現的概率更高。將關系轉變為向量,經過計算關系向量間的夾角計算相關度,從而建立關系矩陣。在序列標注的過程中獲取頭實體,再經關系矩陣計算尾實體。但是,該方法缺乏建模關系和實體間的相互作用,并且模型泛化能力不強;基于此,Zhuang 等人[20]在關系優先的基礎上,將預測的關系與文本結合進行實體識別,結合實體對和關系獲得關系。并分析數據集,獲得數據中特定的規則,將規則加入到三元組解碼層,進一步提升原有模型的性能,該模型結合文本,引入數據增強,提高了模型泛化能力,但是會因為關系標注錯誤引起誤差傳播;在此之上,Yuan 等人[21]構建了關系注意力網絡提取三元組,首先采用Bi-LSTM對句子進行編碼,再通過關系注意力網絡獲取不同關系下句子特征表示,經過關系門過濾負樣本關系后,提取到對應的實體。當指定關系識別出多個實體時,采用啟發式規則,將距離相近的實體自動結合成三元組。該方法通過關系門避免了誤差傳播,但該模型在EPO 問題效果不佳;Liu 等人[22]相較于文獻[21],設計了一種多頭自注意力網絡,充分獲取不同關系標簽下的關聯強度。將檢測到的關系類型與實體提取模塊的結果融合,經過預先定義的閾值判斷三元組。Luo等人[23]將SEO進一步劃分為ELS(exclude loop sentences)和ILS(include loop sentences),從而引入了雙向樹標記的方案。首先,將句子中具有相同關系的三元組分組在一起,按照三元組中實體和關系出現的順序建模成二叉樹結構,最后,建立二叉樹結構和序列標簽之間的映射,從而取得了良好的效果。雙向二叉樹雖然結構新穎,但是該結構難以處理EPO問題,模型性能受結構限制。Ma等人[24]設計了一種級聯雙解碼聯合提取模型,該模型首先檢測文本中存在的關系,并將它們視為額外的映射,提取每個關系相應的HE 和TE,結果有著明顯的提升。不管是頭實體優先抽取或者是關系優先抽取,都是將關系視作離散標簽分配給實體。當數據量不充足情況下,分類器很難準確分類,這樣會導致模型訓練效果不佳。在此問題之上,出現了三元組建模抽取的方式。

(3)三元組建模抽取

在2020年ACL會議上,Wei等人[25]設計了級聯二進制標記框架CaseRel,使模型學習給定關系下HE 到TE之間的映射函數,從而達到對三元組整體建模的效果。主要流程如下:首先,經過兩個二進制分類器(開始位置分類器、結束位置分類器)標識句子中所有可能的實體。然后,檢查所有可能的關系,在指定關系下用分類器標識尾實體,每次標記前會將之前標記的數據清零。該模型在WebNLG數據集上F1值達到了91.8%,對比當時最好的模型有著30.2%的提升。該模型設計的通用算法框架,為重疊實體關系抽取任務引入新的解決方法,但是該模型需要對實體進行剪枝,避免復雜度過高;Wang 等人[26]在CaseRel 基礎上使用IDCNN(iterated dilated CNN)和Bi-LSTM對句子進行編碼,并采用注意力機制,以獲得句子中更豐富的語義特征,來提升模型的效果;Wang等人[27]引入了一種新穎的握手標記策略,針對句子中的任意一個單詞以及除它以外其他單詞做以下判斷:是否同為一個實體的開始和結束,給定關系下是否分別為兩實體的頭部,給定關系下是否為實體的尾部,根據以上判斷的結果進行標記。該策略通過回答問題的方式很好的解決了復雜實體在重疊實體關系抽取任務中的影響,在NYT數據集F1值達到了92.0%。

1.1.2 基于復制機制

復制機制模仿人類在背誦課文時,對于難以理解的語句進行死記硬背的方法。在實際應用過程中,復制機制結合RNN或LSTM等模型獲取到想要復制片段語義特征,在輸入序列中定位位置,將其直接復制到輸出序列中,以應對特定任務?;趶椭茩C制的方法按照復制內容分為單實體識別復制和多實體識別復制。單實體識別復制指的是在復制的過程中遇到擁有多個單詞的實體時,僅復制實體的最后一個單詞。而多實體識別在復制過程中可以完成復制整個實體。

產層配方:基漿10m3(密度1.80g·cm-3)+2%細雷特超強堵漏劑+2%雷特隨鉆堵漏劑+2%中酸溶性橋塞堵漏劑+2%細酸溶性橋塞堵漏劑+果殼類材料,總濃度14%。

(1)單實體識別復制

Zeng 等人[28]提出了一種基于復制機制的端到端模型CopyRe,該模型先提取關系再提取實體,通過復制實體讓實體參與到不同的三元組,并針對不同情況采用了不同的解碼策略:使用單解碼器生成所有的三元組序列;使用多解碼器,其中的每一個解碼器對應一個三元組,F1 值提高了4.82%;2019 年,Zeng 等人[29]在自己模型的基礎上,認為提取句子中三元組順序對抽取結果有著至關重要的影響。在實際訓練過程中,已提取出的三元組作為先驗知識會極大影響剩下三元組提取??紤]到以上問題,在任務中引入了強化學習,對解碼過程中產生的三元組與已有標記三元組進行比較,以此設定獎勵機制,對模型進行多次迭代,模型效果得到了提升。

不管是CopyRe 還是CopyRe-RL 模型,在識別和復制實體時僅涉及到實體的最后一個單詞,會極大影響關系類型提取。在NYT數據集中77.44%的實體不僅僅包含一個詞匯,僅復制單實體是不切實際的,有必要將任務拓展到多實體識別復制。

(2)多實體識別復制

Bai等人[30]通過多層神經網絡進行編碼并結合自注意力機制,設計了雙指針網絡結構分別識別實體的開始位置和實體的結束位置,從而讓完整的實體參與到復制過程中,在NYT 數據集上F1 值提升了18.9%,但是,該模型并未考慮實體對和關系之間的相互作用;此外,Zeng等人[31]從理論層面剖析了CopyRE出現的問題,采用了非線性激活函數解決首尾實體順序混亂問題,引入多任務學習框架解決實體識別不全的問題,在當時的多個數據集上達到了SOTA,但是該模型預測三元組數量受限制。為了進一步探索,Wang 等人[32]采用RCNN 對句子進行編碼,通過設定變量閾值避免復制實體過程中HE和TE相同,并將模型成功的應用在了生物領域,F1值提升了14.4%。Nayak等人[33]針對于復制機制改進了兩種方法:①提出一種新的實體關系表示方案,三元組內采用“;”分隔元組內容,三元組間采用“|”分隔。在解碼過程中每步產生一個單詞。但是解碼器在解碼過程中會預測到不存在于當前句子或關系集的標記,為了保證僅僅復制源句子中的實體,引用了一種排除機制,將沒有特殊標記的單詞相應的SoftMax分數置為0;②考慮到編碼器每一次只提取一個單詞運行速度較慢且浪費資源,提出了一種基于指針網絡的解碼框架,該框架用五元組標記實體,分別是,并且在解碼過程中每次提取整個元組。

1.2 基于圖的方法

雖然Seq2Seq 已經成為NLP 中處理各種任務的主要方法,但是有各種各樣的NLP問題可以用圖形結構來更好地表達。因此,人們對NLP領域中開發新的圖卷積神經網絡(graph convolutional network,GCN)技術興趣激增,其中采用的經典模型框架如圖3所示?;趫D的方法按照圖結構又可以劃分為靜態圖方法和動態圖方法。靜態圖指預定義的圖結構,動態圖指模型在訓練過程中通過注意力機制動態的增加節點來完善圖。

圖3 基于圖的經典模型框架Fig.3 Traditional model framework based on graph

(1)靜態圖

2018 年,Wang 等人[34]為了解決重疊實體關系抽取任務,提出了基于圖結構的聯合抽取模型,該結構包含一個新穎的轉換系統識別實體和關系,并通過權重損失函數建立實體與關系和關系與關系之間的依賴,最終F1值達到了50.9%,該模型最早引入圖結構解決問題,但是提出的轉換系統泛化能力不強;Hong 等人[35]利用BILSTM獲取實體和關系的表示,并設計了一種新的關系感知注意力機制和關系感知GCN,用來獲得兩個實體跨度之間的關系特征,并利用實體跨度構建圖結構,模型的F1 值達到了72.8%,但是該模型存在實體跨度識別不全的問題;在此基礎上,Wang等人[36]結合邊界預測實體的開始和結束位置,以加強實體跨度表示,使用注意機制來獲得兩個實體跨度之間關系的特征,構成跨度圖,模型最終的F1 值達到了74.9%;靜態圖采用預定義圖結構,使得模型性能受限,因此開展了動態圖的研究。

(2)動態圖

Fu 等人[37]利用依存句法分析將輸入句子轉變為依存樹,將樹的鄰接矩陣輸入到BI-GCN 中獲取局部特征,從而分別提取到實體和關系,為了形式化計算實體和關系間的相互作用程度,引入了加權GCN,對每個已提取到的關系,計算任意實體對之間邊(關系)的權重,從而解決了重疊實體關系問題,F1 值提高了11.0%,依存樹直接影響模型的性能,并且模型計算負擔大。Fei等人[38]通過跨度注意層(span attention)獲取所有候選實體表示并為每個關系形成跨度圖。另外,將這些跨度圖輸入到圖注意力模型(graph attention model,GAT)以動態的學習實體跨度與其關系邊的相互作用;此外,Duan 等人[39]提出了一種基于多頭自注意力和緊密連接的圖卷積網絡MA-DCGCN。在該模型中,多頭自注意力機制專門用于將權重分配給實體之間的多個關系類型,以確保多個關系的概率空間不相互排斥,并自適應的提取重疊實體間的多種關系。上述模型在將句子轉換為圖結構時,將實體跨度視為節點,關系視為邊,通過GCN 對每個實體對間的關系進行了量化,也導致模型在EPO問題上表現不佳。

1.3 基于預訓練語言模型

在2018 年10 月,谷歌提出預訓練語言模型[40],它經過在大規模未標記的語料庫上運行無監督學習獲得好的特征表示。根據特定的NLP 任務,對PTM 進行微調就能提取到很好的特征表示,并且已經在NLP 領域中獲得了廣泛的應用,基于預訓練語言模型的框架如圖4 所示。現階段使用最廣泛的預訓練語言模型就是BERT(bidirectional encoder representations from transformers),在微調過程中BERT 使用預訓練的參數進行初始化,然后使用來自下游任務的標記數據對所有參數進行微調。每個下游任務都有單獨的微調模型,即使它們使用相同的預訓練參數進行初始化。

圖4 基于預訓練語言模型的框架Fig.4 Framework based on pre-training language models

Li等人[41]利用BERT模型最后兩層輸出的隱藏層信息,構建二維矩陣表示特征,在矩陣中掩蓋無關實體,獲取實體位置信息。對于輸入語句中存在的每種關系類型,每個實體對,獨立計算實體對是否存在特定關系的概率,以預測句子中存在的多種關系。雖然模型最終的效果良好,但是,該模型時間復雜度高,應考慮引入規則減少計算負擔;Sui 等人[42]將聯合實體關系抽取任務轉變為集合預測問題,從而使減少模型預測三元組順序帶來的負擔,并率先引入了非自回歸編碼器(non-autoregressive decoder)結合二部圖匹配損失函數(bipartite match loss),使得模型直接輸出最終的三元組。同樣的,為了直接生成三元組,Liu 等人[43]探索了一種新穎的模型架構,該模型將transformer和指針網絡組合以提取實體和關系。此外,引入了語法引導的網絡(syntax-guided network)以明確地將句子的語法信息納入編碼器,幫助模型更加關注句子的重要單詞。直接生成三元組的模型,雖然減少了模型預測三元組順序帶來的負擔,但是模型對數據需求更高,并且缺少對抽取過程的思考,使結果顯得并不可靠;在此基礎上,Ye 等人[44]用BERT 對句子編碼解碼,使用部分因果掩蓋區分開編碼解碼的表示,使用波束搜索算法生成更多的三元組。在此基礎上,提出了一種三元組對抗訓練方法,在訓練階段捕獲正樣本和負樣本的特征,學習到的校準算法在驗證階段會過濾掉不符合源句子事實的三元組,提高了結果的可靠性;Hang等人[45]設計了三個步驟提取重疊實體關系,由BERT獲取句子上下文信息共享給下游兩個子任務,命名實體識別任務將獲取到的參數轉換為對應實體標簽的概率分布,實體關系抽取任務將獲取到的參數轉換為相應關系類型的概率分布,以上步驟使得模型在性能上有了提升。但是,模型通過共享參數的方法對下游任務進行訓練,更容易產生誤差傳播。

BERT 通過獲取雙向上下文特征信息,并可以將訓練好的模型通過微調應用到下游任務,在原有的基礎上獲得了很大的提升,但是BERT仍存在許多不足之處。

(1)無法處理長文本,BERT 是由12 層transformer搭建而成,對于長度超過512 字符的句子BERT 處理不了,而在實際應用過程中經常出現超過字符限制的長句子,會對抽取任務性能產生影響。

(2)BERT 在預訓練階段會隨機掩蓋句子中15%的詞,利用上下文對掩蓋掉的詞進行預測,加深對上下文信息記憶的程度。當采用BERT下游任務進行微調時,文本中存在噪音數據,會導致預訓練階段和微調過程存在偏差,影響模型的性能。

2 數據集和評價指標

近年來,用于重疊關系抽取任務實驗評估的數據集主要包括NYT紐約時報數據集、WebNLG數據集。

2.1 數據集

NYT 數據集:NYT 數據集最初是由遠程監督的方法生成的新聞語料庫,廣泛用于重疊實體關系抽取任務??偣灿?4中預定義的關系,其中長度超過100和不存在三元組的句子被過濾掉,最終訓練集、測試集和驗證集分別包含56 195、5 000、5 000。

WebNLG 數據集:最初為自然語言生成任務而創建,但后來也應用于重疊實體關系抽取任務。這個數據集包含246種預定義的關系,數據集中的每一個句子都包含多個三元組,其訓練集、測試集和驗證集分別包含5019、500、703。

現階段研究者使用的數據集是由文獻[28]預處理過后發布出來的。如表2所示,本文統計了NYT和WebNLG數據集中分別屬于Normal、SEO和EPO句子數量。特別注意的是,同一個句子可以即屬于SEO又屬EPO。從表中可以看出,NYT 數據集中34.13%的句子存在重疊現象,其中51%的句子屬于EPO,76.8%的句子屬于SEO。WebNLG 數據集中68.2%的句子存在重疊現象,其中0.06%的句子屬于EPO,99.5%句子屬于SEO。

表2 數據集統計Table 2 Statistics of datasets

2.2 評價指標

重疊實體關系抽取任務的評價指標包括:精準率(Precision)、召回率(Recall)和F值(FMeasure)。Precision是從查準率對模型效果進行評估,其公式如下:

Recall 是從查全率對模型效果進行評估,其公式如下:

其中Precision和Recall是互補關系,因此通過F值綜合考慮Precision 和Recall 對模型總體進行評估,其公式如下:

β是調節Precision 和Recall 比重的重要參數,在實際應用過程中,認為Precision 和Recall 同樣重要,所以β=1。所以上式表示為:

表3中收集了不同數據集下模型表現,以及模型優勢以及不足點。表中大部分模型在WebNLG 數據集都能取得良好的效果,而在NYT 數據集則相對不佳。WebNLG數據集特點就是SEO,則說明現有的大部分模型都能很好地處理SEO,而在EPO表現不是理想。從另一方面說明,模型需要更加龐大的數據去處理多標簽實體。從表中可以看出,對三元組整體建模的模型效果一般優于缺少三元組內在聯系考慮的模型,采用異質圖模型的模型效果要大幅度優于同質圖。為了進一步展現不同實體重疊程度下模型性能,收集了其中一部分模型進行對比,如圖5 所示。從圖5 中可以看出,在NYT 數據集中SEO、EPO 表現最佳的模型分別為TP-Linker[27]、RFTE[20],在WebNLG數據集中SEO、EPO表現最佳的模型分別為RFTE[20]、TP-Linker[27]。

圖5 不同重疊類型句子的F1值Fig.5 F1 score on sentences with different overlapping types

表3 不同數據集及模型性能Table 3 Different performance of datasets and models

3 未來研究方向

目前,重疊實體關系抽取任務雖然已經取得了巨大的成功,但依舊存在著提升空間,值得學者們進一步探索。通過對現有工作進行總結,未來的研究方向包括以下幾個方面。

3.1 基于序列到序列的模型

基于序列到序列的模型,從標注策略到復制機制,本質上都是調整抽取策略帶來性能的提升,并且現有模型的解決思路已經達到了一個較高的標準,很難獲得性能上的大幅度提升。而強化學習不同于現有的有監督模型,它通過反饋機制更新模型。但是,目前只是在重疊實體關系抽取領域進行了簡單的嘗試,擁有著無限可能。

最初于2018 年,Feng 等人[46]使用強化學習有效過濾遠程監督數據中的噪聲,后經文獻[29]轉換獎勵機制使得強化學習有效解決重疊實體關系抽取問題。最為典型的是Takanobu 等人[47]于2019 年AAAI 會議上提出的模型,與其他人不同的是該模型引入強化學習建模實體和關系間的交互,利用層次結構解決重疊問題。高層次強化學習用于基于句子中的特定關系令牌來標識關系。在識別了關系之后,使用低級RL 來利用序列標記方法提取與關系相關聯的兩個實體。多次重復該過程以提取句子中存在的所有關系三元組。

總之,強化學習在重疊實體關系抽取領域已經進行了初步的嘗試,并且提供了具有可行性的解決方案,但仍然有著很大的提升空間值得學者探索。

3.2 圖神經網絡模型

研究表明,重疊實體關系抽取任務在引入圖神經網絡模型后,模型性能有了很不錯的提升。相比于其他傳統模型,圖結構能更好地挖掘句子中的語義特征,但是根據已有模型的總結,大多數模型采用同質圖建模。傳統的同質圖只含有同種類型的邊和節點,實際任務中的實體類型多樣、關系復雜。在這種情況下,同質圖很難學習到關鍵信息,會導致模型在EPO問題上表現不佳。相較于同質圖,異質圖可以容納更多的節點和邊的類型,在建模過程中學習到潛在的異構特征,提升模型性能,所以將同質圖擴展異質圖是必然選擇。常用的異質圖網絡包括HAN(heterogeneous graph attention network)[48]、HetGNN(heterogeneous graph neural network)[49]。Zhao 等人[50]率先引入異質圖神經網絡,將關系和單詞同時視為圖表上的節點,然后通過消息傳遞機制迭代融合來自不同節點的信息,在獲得單詞和關系的節點表示后,進行關系提取步驟生成最終的三元組。但是異質圖動態地構建圖結構更具有挑戰性,因為更多類型特征需要從數據中獲取。因此,圖模型是未來熱門的研究方向之一。

3.3 預訓練語言模型

BERT模型在重疊實體關系抽取領域中已經取得了驚人的成績,但仍有著許多可以研究的方向。其中包括:模型精細化調參、模型結合知識圖譜和改進模型。

模型精細化調參:BERT 模型在通用領域語料庫進行預訓練,如果讓BERT 參與到特定領域的下游任務,需要對其進行精細化的調參,讓其發揮更好的性能?,F有的調參策略包含:長文本處理、層數選擇、層間學習率設置[51]。

模型結合知識圖譜:BERT 通過掩碼策略經過預訓練可以學習到豐富的語義,但是模型并未學會如何表示知識,而結合知識圖譜使模型可以學習到知識,并且對知識的表示更加貼合真實世界[52]。

改進模型:提升預訓練語言模型規模,其中最為典型的模型是RoBERTa,RoBERTa相較于BERT具有更大的訓練數據,每批次數據量更大,并且預訓練過程采用動態掩碼的方式,與之對應的訓練時間也更大,但是模型最終也取得了不錯的提升[53]。

總之,現階段預訓練語言模型改進方法,已經有學者進行了初步的探索,但是在重疊實體關系抽取領域還未被廣泛利用,改進預訓練語言模型仍然是未來幾年的研究熱點。

3.4 知識推理

知識推理的方法是非常具備潛力的研究方向之一,但目前對于重疊關系抽取任務的探索還比較少,NYT和WebNLG 數據集中都具備著十分復雜的關系以及隱式三元組存在,十分符合知識推理的應用條件。而現有抽取方法主要專注于可以直接發現的顯式三元組,但通常忽略缺乏明確表達的隱式三元組,這將導致構建的知識圖譜嚴重不完整。實際上,句子中的其他三元組提供了用于發現具有隱式關系的實體對的補充信息。此外,可以在現實世界中以關系推理模式識別隱式實體對之間的關系類型。在2021 年ACL 會議上,Chen 等人[54]提出了一個統一的框架,共同提取顯式和隱式關系三元組。引入了一個二進制指針網絡,探索可以通過關系隱式連接的實體對,以順序地提取與每個單詞相關的重疊三元組,并保留在外部存儲器中先前提取的三元組的信息。為了推斷隱式三元組的關系類型,在模型中引入實際關系推理模式,并通過關系網絡捕獲這些模式。

總之,研究知識推理在重疊關系抽取的應用,可以使模型發現更多三元組的存在,讓知識圖譜構建的完整度更高,同時大大降低模型對標注樣本的依賴程度,在實際應用方面具備重大意義。

4 結束語

本文詳細介紹了重疊實體關系抽取研究的最新進展,包括基于Seq2Seq、基于圖和基于預訓練語言模型的方法,詳細描述了其方法以及核心思想,闡述了模型中出現的問題。此外,本文在總結了現有模型的優缺點的同時,詳細對比了模型在不同問題上表現的性能。雖然現階段重疊實體關系抽取任務已經具備了很高的F1值,但是仍然存在面臨的挑戰;本文進一步總結了未來的研究方向來推進這一任務。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 91极品美女高潮叫床在线观看| 米奇精品一区二区三区| 国产真实乱了在线播放| 国产00高中生在线播放| 毛片基地美国正在播放亚洲 | 国产美女丝袜高潮| 亚洲国产综合第一精品小说| 久草青青在线视频| 天天色天天操综合网| 国产美女91视频| 成人va亚洲va欧美天堂| 亚洲国产日韩在线成人蜜芽| 国产午夜福利亚洲第一| 精品久久高清| 成人国产小视频| 亚洲视频免费播放| 999国产精品| 亚洲日韩欧美在线观看| 国产精品免费久久久久影院无码| 亚洲视频色图| 在线观看国产黄色| 亚洲中久无码永久在线观看软件 | 午夜一级做a爰片久久毛片| 久一在线视频| 欧美福利在线播放| 精品国产毛片| 国产经典三级在线| 亚洲一级毛片免费观看| 国产成人麻豆精品| 亚洲一级毛片免费观看| 好紧好深好大乳无码中文字幕| 国产中文在线亚洲精品官网| 制服丝袜在线视频香蕉| 69免费在线视频| 国产精品页| 国产熟女一级毛片| 99re在线免费视频| 一本大道视频精品人妻| 国产美女精品在线| 国产精品视频第一专区| 伊人无码视屏| 国产成人综合在线视频| 99视频国产精品| 久久久久88色偷偷| 日韩成人在线网站| 欧美成人一级| 日韩第一页在线| 欧美97色| 久久99蜜桃精品久久久久小说| 国产成人凹凸视频在线| 中文成人在线视频| 欧美精品亚洲精品日韩专| 国产在线专区| 18禁不卡免费网站| 国产在线观看精品| 国产精品19p| 尤物亚洲最大AV无码网站| 国产欧美精品午夜在线播放| 日韩不卡免费视频| 国产精品一区二区在线播放| 在线免费看片a| 中文字幕伦视频| 亚洲a免费| 国产91视频免费| 另类重口100页在线播放| 91系列在线观看| 国产h视频免费观看| 天天操精品| 91网址在线播放| 国产成人高清精品免费软件| 亚洲IV视频免费在线光看| 制服丝袜 91视频| 爆乳熟妇一区二区三区| 久久中文字幕不卡一二区| 国产波多野结衣中文在线播放| 嫩草影院在线观看精品视频| 免费在线a视频| 国产99在线| 免费观看男人免费桶女人视频| 欧美精品伊人久久| 亚洲AV成人一区二区三区AV| 亚洲第一极品精品无码|