戴劍鋒,陳星妤,董黎剛,蔣獻
融合混合嵌入與關系標簽嵌入的三元組聯合抽取方法
戴劍鋒,陳星妤,董黎剛,蔣獻
(浙江工商大學,浙江 杭州 310018)
三元組抽取的目的是從非結構化的文本中獲取實體與實體間的關系,并應用于下游任務。嵌入機制對三元組抽取模型的性能有很大影響,嵌入向量應包含與關系抽取任務密切相關的豐富語義信息。在中文數據集中,字詞之間包含的信息有很大區別,為了改進由分詞錯誤產生的語義信息丟失問題,設計了融合混合嵌入與關系標簽嵌入的三元組聯合抽取方法(HEPA),提出了采用字嵌入與詞嵌入結合的混合嵌入方法,降低由分詞錯誤產生的誤差;在實體抽取層中添加關系標簽嵌入機制,融合文本與關系標簽,利用注意力機制來區分句子中實體與不同關系標簽的相關性,由此提高匹配精度;采用指針標注的方法匹配實體,提高了對關系重疊三元組的抽取效果。在公開的DuIE數據集上進行了對比實驗,相較于表現最好的基線模型(CasRel),HEPA的1值提升了2.8%。
三元組抽取;關系嵌入;BERT;注意力機制;指針標注
三元組的自動抽取是自然語言處理領域的一個熱門研究課題,它能夠從非結構化文本中提取結構化信息,并應用于各類下游任務,如知識圖譜、智能問答等。三元組可表示為:<頭實體,關系,尾實體>。現有的三元組抽取方法按照建模類型主要可分為兩類:流水線法(pipeline)和聯合抽取法(joint)。流水線法將三元組抽取任務分割成兩個獨立的子任務:命名實體識別(named entities recognition,NER)和關系抽取(relation extraction,RE)。首先進行命名實體識別,提取文本中的實體,然后進行關系抽取,使用分類模型匹配各實體對之間的關系。這種串聯模型在建模難度上相對簡單,但將命名實體識別和關系抽取視作兩個獨立的任務處理時,存在實體冗余、誤差累計、信息丟失等問題,限制了進一步的研究。為了解決流水線法存在的問題,學者們提出用聯合抽取法對三元組進行抽取,同時從輸入文本中抽取實體及實體間的對應關系[1]。與流水線方法相比,聯合抽取法整合了實體和關系信息,有效減少了誤差傳播,取得了更好的效果。
目前,大部分三元組抽取研究不能較好地處理重疊三元組問題。在三元組抽取任務中,經常會出現同一句子存在多個三元組共享相同的頭實體、關系或尾實體的情況。例如“鄧超既是《銀河補習班》這部電影的導演又是主演。”這句話包含<《銀河補習班》,導演,鄧超>、<《銀河補習班》,主演,鄧超>兩個三元組,且“《銀河補習班》”和“鄧超”兩個實體間存在多個關系。學者們將這一類共享實體關系的三元組命名為重疊三元組。
重疊三元組按照實體重疊程度可以分為3種情況,如圖1所示,分別為無重疊(normal)、實體對重疊(entity pair overlap,EPO)、單實體重疊(single entity overlap,SEO)。normal表示文本中的實體之間只存在一種關系,不存在關系重疊三元組;EPO表示相同的兩個實體之間存在多個實體關系;SEO表示一個頭實體與多個不同的尾實體存在實體關系。

圖1 重疊三元組類型
在聯合抽取模型中,對文本中實體進行識別往往選用序列標注的方法。每個字詞都會被標注成特有的序列,例如頭實體開始、頭實體結束、無關詞、關系、尾實體開始、尾實體結束。這種標注方法無法將一個詞語同時標注成頭實體和尾實體,對重疊三元組問題處理效果較差。流水線抽取模型雖然選用遍歷所有提取的實體對的方法來解決重疊三元組的提取問題,但太過依賴命名實體識別的準確性,一旦實體識別出錯,誤差就會累積到下一個任務中,將引入大量錯誤、冗余的實體對,導致提取性能顯著下降。
針對上述問題,本文在聯合抽取法的基礎上提出一種融合混合嵌入與關系標簽嵌入的三元組聯合抽取方法(HEPA),融合詞句間的文本信息,提高對重疊三元組的抽取精度。本文的主要工作如下:首先針對嵌入方法中忽視字詞之間潛在語義關系而導致分詞歧義的問題,設計了一種混合嵌入方法,結合字詞以及位置信息將輸入文本轉化為向量,降低由分詞錯誤產生的誤差。其次,由于頭實體和尾實體間存在位置聯系,設計了實體位置注意力機制,賦予實體位置信息權重,從多維度獲取文本信息,提高三元組抽取的精度。最后,在DuIE數據集上進行了測試,HEPA相較于其他基線模型在1值上有所提升。
本節主要介紹了三元組抽取中的兩種主流方法:流水線法和聯合抽取法。
流水線法將三元組抽取的過程分為命名實體識別和關系抽取兩個子任務,彼此相互獨立。首先通過命名實體識別提取出文本中的實體,再通過關系抽取對每個候選實體進行關系預測,最后以三元組的形式輸出預測結果。
Zeng等[2]首次提出使用具有最大池化(max pooling)的卷積深度神經網絡(deep neural network,DNN)算法提取詞語和句子級別的特征,將得到的詞向量作為模型的原始輸入,通過隱藏層和softmax層進行關系分類。該模型提出了位置特征來編碼當前詞與目標詞對的相對距離,同時說明位置特征是比較有效的特征。該方法在SemEval-2010數據集上達到了最佳效果。Xu等[3]在Zeng等[2]的研究基礎上進行改進,使用最短依存路徑長短期記憶(the shortest dependency path long short-term memory,SDP-LSTM)網絡進行實體關系抽取,把路徑節點表示成向量,將詞本身、詞性信息、句法依存關系、WordNet上位詞等4種詞信息看作4個通道,輸入長短期記憶(long short-term memory,LSTM)網絡進行前向傳播,每一個通道都有一個輸出,將所有輸出堆疊處理并進行池化操作,最后對4個通道輸出的隱向量進行拼湊,通過softmax層產生最終輸出。在訓練過程中發現實體間的距離對關系抽取的效果有較大的影響,于是添加了負實體采樣策略消除由依存路徑分析引入的噪聲影響。Socher等[4]針對單個詞向量模型無法捕獲長句子合成性信息的問題,設計了一種基于矩陣向量循環神經網絡(recurrent neural network,RNN)的抽取模型,提高了模型對任意長度的短語和句子詞向量共同表征的學習能力。但RNN模型存在長期依賴問題,容易丟失上下文信息。
為了解決這一問題,改善對長難句的建模效果,Li等[5]提出了一種基于低成本序列特征的Bi-LSTM-RNN模型,通過實體周圍的分段信息獲取更多的語義信息,不需要額外特征幫助。LSTM模型雖然有效解決了長期依賴問題,但對關鍵信息的注意不足,難以處理復雜的關系抽取問題。Su等[6]在CNN模型的池化層加入注意力機制,過濾文本中無關的噪聲數據,從而使得模型專注于目標實體特征。Vashishth等[7]在多實例設置中使用了圖卷積神經網絡(graph convolutional neural network,GCN)。他們在整個句子依賴樹上使用雙向門控循環單元(bidirectional gate recurrent unit,Bi-GRU)層和GCN層對句子進行編碼。將詞袋中的句子表示進行聚合并傳遞給分類器來尋找它們之間的關系。楊帥等[8]提出了一種基于多通道的邊學習GCN,提高了圖學習多維邊特征學習的能力,拓展了GCN在關系抽取領域的應用。
在中文領域中,為了解決流水線方法存在的誤差累計問題,李昊等[9]提出一種基于實體邊界組合的關系抽取方法,跳過命名實體識別,直接對實體邊界信息兩兩組合來進行關系抽取。由于邊界信息性能高于實體性能,所以誤差累計的問題得到了一定程度緩解,在ACE 2005中文數據集上進行了實驗,其1值提高了13.95%。Zhong等[10]提出了一種雙編碼器抽取模型,獨立學習兩個編碼器進行實體識別和關系提取,簡單地在兩個實體的前后各插入了開始和結束標簽,獲得了非常好的效果,在多個數據集上都有較大提升,為流水線法提供了新的思路。
雖然流水線方法在建模難度上相對較低,但是存在3個主要問題。首先,這種模型容易出現錯誤傳播的情況,命名實體識別環節產生的錯誤無法及時進行檢驗糾正,而且會累積到關系抽取環節中,從而影響后續實體關系抽取的效果。其次,不相關的實體對在匹配過程中會產生大量干擾信息,這些干擾信息也會影響模型的性能。最后,分割命名實體識別與實體關系抽取這兩個子任務會造成文本信息丟失的問題,影響模型效果。
為了解決流水線法存在的問題,越來越多的學者傾向于設計聯合模型對三元組進行整體抽取。
不同于流水線法,聯合抽取法將命名實體識別和關系抽取兩個步驟進行聯合建模,在抽取實體的同時分類實體關系。聯合抽取法的優點是能夠減少誤差累計,增強子任務之間的聯系。Miwa等[11]將神經網絡應用于聯合抽取模型,選用雙向序列LSTM-RNN對句子的詞語順序信息和依存句法樹結構信息進行建模,并將兩個模型組合起來,使得關系抽取的過程中可以利用與實體相關的信息。Katiyar等[12]對Miwa等[11]設計的模型進行了改進,引入注意力機制和指針網絡,將注意力機制與實體指針、關系指針結合,能夠更精準地抽取實體間關系,同時擴展了標簽關系類型。Zheng等[13]選用LSTM模型將聯合關系抽取任務轉化為序列標注任務,選用就近原則進行實體關聯。但該模型忽略了句子中存在多個實體關系重疊的問題。
Zeng等[14]注意到實體關系抽取過程中的關系重疊問題,并提出利用Seq2Seq模型進行實體關系聯合抽取,在模型中添加了復制機制來解決重疊問題,可以從句子中聯合提取關系事實。但該模型太過依賴解碼的準確率,可能會導致實體識別不全。Fu等[15]用依存句法將句子轉化為依存樹,再通過加權圖卷積神經網絡(GCN)改進的方法,計算實體對關系的權重,從而解決實體關系重疊的問題,效果比Zeng等[14]的模型有所提高。Duan等[16]提出了一種結合多頭注意力機制的圖卷積神經網絡(MA-DCGCN)模型。在該模型中,多頭自注意力機制專門用于將權重分配給實體之間的多個關系類型,以確保多個關系的概率空間不相互排斥,并自適應地提取重疊實體間的多種關系。Wei等[17]提出一種基于二進制指針序列標注的模型。首先使用兩個二進制分類器識別出句子中的所有實體,然后遍歷所有實體關系標簽,根據語義相似度進行尾實體標注。該模型為重疊三元組抽取提供了新的思路。Wang等[18]設計了握手標記策略,通過對句子中的主語和謂語的首字符建立3種標注標簽,在給定scheme下進行分類訓練,通過窮舉存在判斷的解碼實現對重疊關系三元組的抽取。
在中文領域中,聯合抽取法也有著廣泛的應用。田佳來等[19]采用一種新的標記方案,將關系抽取問題轉化成序列標注問題,同時針對三元組重疊問題,采用分層的序列標注方式來解決,在某中文數據集上1值達到80.84%。苗琳等[20]設計了一種基于圖神經網絡的實體關系聯合抽取模型,將重心放在實體與關系間的相互作用,將實體抽取的范圍擴大到每個實體的局部特征,結合圖卷積網絡對每個實體對進行關系預測,在數據集上進行實驗,對比基線模型有5.2%的提升。針對關系抽取中存在多跳關系的情況,王紅等[21]提出了一種基于多跳注意力的實體關系聯合抽取方法,先標記頭實體,輸出其多關系尾實體,然后將尾實體作為下一跳的頭實體進行輸入,迭代執行關系抽取直到輸出最終的實體關系。這一方法充分利用了實體間潛在的隱性關系,對復雜的多跳關系抽取效果極佳,實驗表明該方法在民航突發事件數據集中有出色表現。
綜上所述,已有較多聯合抽取模型在不同領域的研究中取得了不錯的成果。但聯合抽取模型仍然存在語義信息缺失、精度要求高等問題,而且大多數模型不能較好地處理三元組重疊的情況。針對這些問題,本文提出了一種基于混合關系嵌入的三元組抽取方法。



HEPA模型結構如圖2所示,模型主要可以分為編碼層、頭實體標注層和關系匹配層3個部分。

圖2 HEPA模型結構
編碼層分別編碼輸入文本以及關系標簽。文本輸入到向量混合嵌入層,結合字嵌入的靈活性與詞嵌入的語義關系,融合位置信息與關系標簽內容進行混合嵌入。得到混合向量后將其輸入到采用BERT預訓練模型的編碼層中進行編碼,經過多頭注意力機制豐富語義特征。
頭實體標注層解碼由BERT編碼器產生的編碼向量來識別輸入語句中的所有可能頭實體,經過標簽注意力機制標記實體與關系之間的關聯程度,其中色塊顏色越深,代表標簽與實體間的關系越緊密。最后用二進制標注器標注出頭實體的開始位置與結束位置。
在實體關系匹配層中,對標注出來的頭實體遍歷預先設定好的關系標簽,為每個關系標簽匹配最接近的尾實體,并用標注器標注在文本中的位置。對每個頭實體都要進行一次實體關系匹配,最終為所有頭實體匹配實體關系與尾實體,并轉換為三元組輸出。
編碼層首先從自然語言語句中提取特征信息,對上下文信息進行編碼,將其輸入后續的編碼模塊中。
2.1.1 字詞混合嵌入


其中,表示第個混合嵌入向量,表示第個詞向量,表示變換矩陣,表示第個字向量。混合嵌入過程如圖3所示。



2.1.2 BERT編碼
2018年,Devlin等[22]提出了經典的BERT(bidirectional encoder representation from transformers)模型,這是一個預訓練的雙向編碼表征模型。以往模型訓練出來的詞向量是靜態的,也就是與上下文無關,它們沒有解決歧義問題。例如“王老師剛剛走了。”中的“走了”可以指代離開的意思,特殊場景下也可以指代去世的意思。BERT的出現解決了這一問題,BERT會將每個單詞與句子中其他單詞計算相關性,以此來獲得每個單詞的上下信息,根據不同上下文生成對應的詞向量,更符合人類的理解邏輯。因此選用BERT預訓練模型來進行向量編碼。


2.1.3 關系嵌入
HEPA模型在對輸入語句進行嵌入的同時,還加入了關系嵌入機制。將該機制隊的所有關系標簽進行編碼嵌入,轉化為關系向量,利用注意力機制區分不同關系標簽與句子中實體的相關程度,從而將關系標簽信息整合到字詞嵌入中。融合字詞嵌入向量與關系嵌入向量,可以利用關系標簽信息來豐富給定句子中每個實體間關系,有助于提高對每個三元組抽取的精度。










HEPA模型選用的標注策略為先標注BERT編碼序列中的所有頭實體,再將頭實體作為先驗條件輸入實體關系匹配層中,遍歷所有的實體關系標簽,找到一個最匹配的尾實體。選用分層標注的方法對頭實體進行標注,設計兩個完全一樣的二進制標注器,分別對應實體的開始與結束位置,對于語句中的每個字符進行0/1標注,確定字符是否為頭實體的開始或結束位置。這樣做的好處是當語句中存在多個頭實體時標注不會重疊,避免出現某個實體的標注結果既為頭實體又是尾實體的情況。頭實體標注的計算式如下:


對句子中的主語進行抽取的概率函數如下:

向量序列經過頭實體標注層處理后會產生多個頭實體標記,如何為頭實體匹配合適的尾實體成為提高模型處理效率亟需解決的問題。通常在一段完整的文本中,匹配的頭實體與尾實體在距離上不會相距太遠,因此本文在頭實體標注層中加入實體位置注意力機制,將文本當前位置信息加入注意力機制中,篩選合適的實體關系進行匹配。實體位置注意力機制如下:



在給定主語和特征向量情況下對句子中賓語進行抽取的概率計算式如下:

HEPA模型主要分為頭實體標注與實體關系匹配兩個部分,因此總損失函數由這兩個部分的損失函數之和構成,選用二分類交叉熵損失函數。計算過程如計算式所示:

為了驗證HEPA模型的效果,本文選擇在DuIE數據集上設計實驗進行驗證。DuIE數據集是目前中文關系抽取領域中規模最大的數據集之一,來自2019年百度舉辦的語言與智能技術競賽。DuIE數據集包含48個已定義的schema約束,其中有43個簡單知識schema,5個復雜知識schema,超過21萬條中文語句和45萬個三元組實例,并且包含大量的重疊三元組。DuIE數據集的數據來自各領域,包括但不限于游戲、影視、教育,對模型的泛化性有較高要求。
在模型驗證過程中,超參數設置如下:輸入句子的最大長度設置為256字符;頭、尾實體的標注閾值均設置為0.5;batchsize設置為32條;學習率設置為1×10-5;epoch設置為10次;使用Adam優化器進行自適應學習;BERT預訓練模型使用BERT-base版本。
為了驗證HEPA模型在三元組抽取任務中的有效性,本文選用精確率(precision)、召回率(recall)和1值(1-score)3個主要指標來評價模型的效果,計算式如下:



在DuIE數據集上設計實驗,將HEPA模型在與其他基線模型進行對比,融合混合嵌入與關系標簽的三元組抽取模型與基線模型對比見表1。

表1 融合混合嵌入與關系標簽的三元組抽取模型與基線模型對比
(1)CopyMTL是在CopyRE的研究基礎上提出的基于copy+Seq2Seq的三元組抽取模型,針對CopyRE無法區分文本中頭、尾實體的問題進行了改進,通過多任務學習獲取實體特征。
(2)WDec是一個標準的Seq2Seq模型,具有動態掩蔽功能,能對實體標記(token)進行逐個解碼,對實體關系重疊的問題有較大優化。
(3)CoType是基于遠程監督和弱監督的三元組聯合抽取模型,充分利用數據集中句子級別的局部信息,降低了人工標注的要求,具有較好的泛用性。
(4)MHS是一個聯合抽取模型,使用CRF將實體識別任務和關系提取任務共同建模,將關系抽取任務轉化為多頭選擇任務。該模型的優勢是不需要依賴外部NLP工具進行標注。
(5)CasRel是一個二進制級聯抽取模型,它提出了一種將實體與關系建模為映射函數的三元組抽取方法。
分析表1的結果可知,HEPA模型在精確率、召回率和1值共3項評估指標中結果都優于最佳基線模型(CasRel),分別有0.7%、4.4%、2.8%的提升,在召回率上有較大提升,說明在處理關系重疊三元組時有較好效果。HEPA模型能取得優秀的效果依賴于混合嵌入帶來的更多語義信息,模型能夠充分利用上下文信息;加入標簽嵌入機制能夠增強實體之間的關聯度。
為了驗證標簽嵌入機制對模型效果的幫助效果,設計了對三元組中不同元素抽取的對比實驗,各模型提取不同元素的1值對比見表2。

表2 各模型提取不同元素的F1值對比
分析表2結果可知,添加關系嵌入機制后能夠加強頭實體、關系和尾實體之間成對甚至三元組之間的聯系。首先,在4組實驗(,)、(,)、(,)和(,,)中,HEPA模型在DuIE數據集上的表現優于所有的對比模型。其次,當HEPA模型去除關系嵌入機制后,每組實驗的效果都大幅降低,說明關系嵌入機制加強了實體與關系間的聯系。最后,雖然關系嵌入機制同時編碼大量關系標簽存在引入噪聲的問題,但從實驗結果上看,該機制的加入對模型效果改進整體上還是利大于弊。
為了進一步驗證本文創新部分對模型效果的影響,在DuIE數據集上設計了消融實驗進行對比,基于混合關系嵌入的三元組抽取模型消融實驗結果見表3。

表3 基于混合關系嵌入的三元組抽取模型消融實驗結果
HEPA模型在去除字、詞嵌入、實體位置注意力機制和關系嵌入機制后,在精確率、召回率和1值評價指標上都有不同程度的下降,證明了本文添加的機制對改進模型效果有一定幫助。其中,只使用字嵌入或詞嵌入時,模型精確率下降較多,說明字詞混合嵌入對于模型準確抽取三元組幫助較大;去除實體位置注意力機制后召回率大幅下降,說明實體位置注意力機制能夠有效匹配頭實體與相應尾實體之間的關系,減少實體關系重疊情況對模型的影響;去除標簽嵌入機制后,精確率下降6.1%,1值下降5.3%。
為了驗證HEPA模型在不同重疊三元組中的抽取效果,在DuIE數據集上分別對不同三元組重疊情況normal、EPO和SEO設計并進行了實驗。不同重疊情況的模型表現如圖4所示。
圖4顯示了在DuIE數據集上各模型在不同重疊類型上的精確率、召回率和1值。分析圖4結果可知,HEPA在normal、EPO和SEO 3種重疊情況下各項評價指標都取得了最好的效果。與CasRel對比,HEPA在EPO、SEO情況下有著2.9%和3.6%的提升,但在normal情況下效果不如CasRel。另外,大多數基線模型在不同的三元組重疊情況下的性能有不同程度的下降,原因是這些基線模型對實體關系的建模是離散的,無法較好地識別參與多個關系的實體。而HEPA對EPO和SEO的抽取效果呈現上升的趨勢,原因是指針標注將關系抽取轉化為實體與關系之間一對一的映射,無論文本有多復雜,都能為頭實體匹配最相近的實體關系與尾實體。此外,注意力機制能夠從不同的維度提取句子中的關鍵信息,幫助模型理解復雜文本。與基線模型對比HEPA更加適合復雜文本下的三元組抽取,穩定性更佳。
本文設計了一種融合混合嵌入與關系嵌入的三元組聯合抽取方法HEPA,能夠降低嵌入過程中由分詞錯誤引起的語義信息缺失問題,在復雜的文本環境中取得較好的效果,同時對抽取重疊三元組的效果有顯著提升。該模型通過字嵌入結合詞嵌入的混合嵌入方法融入更多的語義信息,減少由于分詞錯誤造成的誤差,在將標簽信息加入文本輸入中,提高了關系匹配精度,在實體匹配層中添加了注意力機制,多維度地捕獲文本語義特征,在實體關系匹配過程中加入實體位置注意力機制,為頭實體匹配最合適的尾實體。將HEPA與其他模型進行對比實驗后,發現HEPA能夠較好地解決重疊三元組問題,相比于其他基線模型在性能上有較大提升。
[1] 李冬梅, 張揚, 李東遠, 等. 實體關系抽取方法研究綜述[J]. 計算機研究與發展, 2020, 57(7): 1424-1448.
LI D M, ZHANG Y, LI D Y, et al. Overview of entity relationship extraction methods[J]. Computer Research and Development, 2020, 57(7): 1424-1448.
[2] ZENG D J, LIU K, LAI S W, et al. Relation classification via convolutional deep neural network[C]//Proceedings of International Conference on Computational Linguistics. [S.l.:s.n.], 2014.
[3] XU K, FENG Y, HUANG S, et al. Semantic relation classification via convolutional neural networks with simple negative sampling[J]. Computer Science, 2015, 71(7): 941-9.
[4] SOCHER R, HUVAL B, MANNING C D, et al. Semantic compositionality through recursive matrix-vector spaces[C]//Proceedings of Joint Conference on Empirical Methods in Natural Language Processing & Computational Natural Language Learning. Hongkong: EMNLP Press, 2012.
[5] LI F, ZHANG M, FU G, et al. A Bi-LSTM-RNN model for relation classification using low-cost sequence features: 10.48550/arXiv.1608.07720[P]. 2016.
[6] SU Z, JIANG J. Hierarchical gated recu0rrent unit with semantic attention for event prediction[J]. Future Internet, 2020, 12(2): 39.
[7] VASHISHTH S, JOSHI R, PRAYAGA S S, et al. RESIDE: improving distantly-supervised neural relation extraction using side information[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. [S.l.:s.n.], 2018.
[8] 楊帥, 王瑞琴, 馬輝. 基于多通道的邊學習圖卷積網絡[J]. 電信科學, 2022, 38(9): 95-104. YANG S, WANG R Q, MA H. Multi-channel based edge-learning graph convolutional network[J]. Telecommunications Science, 2022, 38(9): 95-104.
[9] 李昊, 陳艷平, 唐瑞雪, 等. 基于實體邊界組合的關系抽取方法[J]. 計算機應用, 2022, 42(6): 6.
LI H, CHEN Y P, TANG R X, et al. Relationship extraction method based on entity boundary combination [J]. Computer Applications, 2022, 42 (6): 6.
[10] ZHONG Z, CHEN D. A frustratingly easy approach for entity and relation extraction[C]//Proceedings of the North American Chapter of the Association for Computational Linguistics. [S.l.:s.n.], 2021.
[11] MIWA M, BANSAL M. End-to-end relation extraction using LSTMs on sequences and tree structures[J]. arXiv preprint, arXiv: 1601.00770, 2016.
[12] KATIYAR A, CARDIE C. Going out on a limb: joint extraction of entity mentions and relations without dependency trees[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). [S.l.:s.n.], 2017: 917-928.
[13] ZHENG S, F WANG, BAO H, et al. Joint extraction of entities and relations based on a novel tagging scheme[J]. arXiv preprint, arXiv:1706.05075, 2017.
[14] ZENG X, ZENG D, HE S, et al. Extracting relational facts by an end-to-end neural model with copy mechanism[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). [S.l.:s.n.], 2018: 506-514.
[15] FU T J, MA W Y. GraphRel: modeling text as relational graphs for joint entity and relation extraction[C]//Meeting of the Association for Computational Linguistics. [S.l.:s.n.], 2019: 1409-1418.
[16] DUAN G, MIAO J, HUANG T, et al. A relational adaptive neural model for joint entity and relation extraction[J]. Frontiers in Neurorobotics, 2021(15): 635492.
[17] WEI Z, SU J, WANG Y, et al. A novel cascade binary tagging framework for relational triple extraction[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. [S.l.:s.n.], 2020: 1476-1488.
[18] WANG Y, YU B, ZHANG Y, et al. TPLinker: single-stage joint extraction of entities and relations through token pair linking[J]. arXiv preprint, arXiv:2010.13415, 2020.
[19] 田佳來, 呂學強, 游新冬, 等. 基于分層序列標注的實體關系聯合抽取方法[J]. 北京大學學報:自然科學版, 2021, 57(1): 53-60.
TIAN J L, LYU X Q, YOU X D, et al. A joint extraction method of entity relations based on hierarchical sequence annotation[J]. Journal of Peking University (Natural Science Edition), 2021, 57(1): 53-60
[20] 苗琳, 張英俊, 謝斌紅, 等. 基于圖神經網絡的聯合實體關系抽取[J]. 計算機應用研究, 2022, 39(2): 424-431.
MIAO L, ZHANG Y J, XIE B H, et al. Joint entity relationship extraction based on graph neural network[J]. Proceedings of the Computer Application Research, 2022, 39 (2): 424-431
[21] 王紅, 吳燕婷. 基于多跳注意力的實體關系聯合抽取方法及應用研究[J]. 太原理工大學學報, 2022, 53(1): 63-70.
WANG H, WU Y T. Joint extraction of entity relationships based on multi-hop attention and its application [J]. Proceedings of the Journal of Taiyuan University of Technology, 2022, 53(1): 63-70.
[22] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint, arXiv:1810.04805, 2018.
[23] ZENG D, ZHANG H, LIU Q. CopyMTL: copy mechanism for joint extraction of entities and relations with multi-task learning[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(5): 9507-9514.
[24] NAYAK T, NG H T. Effective modeling of encoder-decoder architecture for joint entity and relation extraction[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(5): 8528-8535.
[25] REN X, WU Z, HE W, et al. CoType: joint extraction of typed entities and relations with knowledge bases[J]. Proceedings of the 26th International Conference on World Wide Web. New York: ACM Press, 2017: 1015-1024.
[26] GIANNIS B, JOHANNES D, THOMAS D, et al. Joint entity recognition and relation extraction as a multi-head selection problem[J]. Expert Systems with Application, 2018, 114(11): 34-45.
[27] WEI Z, SU J, WANG Y, et al. A novel hierarchical binary tagging framework for relational triple extraction[J]. arXiv preprint, arXiv:1909.03227v4, 2020.
A triple joint extraction method combining hybrid embedding and relational label embedding
DAI Jianfeng, CHEN Xingyu, DONG Ligang, JIANG Xian
Zhejiang Gongshang University, Hangzhou 310018, China
The purpose of triple extraction is to obtain relationships between entities from unstructured text and apply them to downstream tasks. The embedding mechanism has a great impact on the performance of the triple extraction model, and the embedding vector should contain rich semantic information that is closely related to the relationship extraction task. In Chinese datasets, the information contained between words is very different, and in order to avoid the loss of semantic information problems generated by word separation errors, a triple joint extraction method combining hybrid embedding and relational label embedding (HEPA) was designed, and a hybrid embedding means that combines letter embedding and word embedding was proposed to reduce the errors generated by word separation errors. A relational embedding mechanism that fuses text and relational labels was added, and an attention mechanism was used to distinguish the relevance of entities in a sentence with different relational labels, thus improving the matching accuracy. The method of matching entities with pointer annotation was used, which improved the extraction effect on relational overlapping triples. Comparative experiments are conducted on the publicly available DuIE dataset, and the1 value of HEPA is improved by 2.8% compared to the best performing baseline model (CasRel).
triple extraction, relational embedding, BERT, attention mechanism, pointer annotation
TP393
A
10.11959/j.issn.1000-0801.2023021

戴劍鋒(1997-),男,浙江工商大學信息與電子工程學院(薩塞克斯人工智能學院)碩士生,主要研究方向為智慧教育、自然語言處理。
陳星妤(1999-),女,浙江工商大學信息與電子工程學院(薩塞克斯人工智能學院)碩士生,主要研究方向為智慧教育、自然語言處理。

董黎剛(1973-),男,博士,浙江工商大學信息與電子工程學院(薩塞克斯人工智能學院)黨委書記、教授、博士生導師,浙江省計算機學會理事,主要研究方向為新一代網絡和分布式系統。
蔣獻(1988-),男,浙江工商大學信息與電子工程學院(薩塞克斯人工智能學院)講師、實驗員,主要研究方向為智慧教育和智慧網絡。
2022-07-12;
2023-01-20
董黎剛,donglg@zjgsu.edu.cn
國家社會科學基金資助項目(No.17BYY090);浙江省重點研發計劃項目(No.2017C03058);浙江省“尖兵”“領雁”研發攻關計劃項目(No.2023C03202)
The National Social Science Foundation of China (No.17BYY090), Zhejiang Province Key Research and Development Program (No.2017C03058), Zhejiang Province “Top Soldiers” and “Leading Geese” Project (No.2023C03202)