
















摘 要: "從非結構化文本中聯合提取實體和關系是信息抽取中的一項重要任務。現有方法取得了可觀的性能,但仍受到一些固有的限制,如錯誤傳播、預測存在冗余性、無法解決關系重疊問題等。為此,提出一種基于圖神經網絡的聯合實體關系抽取模型BSGB(BiLSTM+SDA-GAT+BiGCN)。BSGB分為兩個階段:第一階段將語義依存分析擴展到語義依存圖,提出融合語義依存圖的圖注意力網絡(SDA-GAT),通過堆疊BiLSTM和SDA-GAT提取句子序列和局部依賴特征,并進行實體跨度檢測和初步的關系預測;第二階段構建關系加權GCN,進一步建模實體和關系的交互,完成最終的實體關系三元組抽取。在NYT數據集上的實驗結果表明,該模型 F 1 值達到了67.1%,對比在該數據集的基線模型提高了5.2%,對重疊關系的預測也有大幅改善。
關鍵詞: "聯合實體關系抽取; 圖注意力網絡; 語義依存圖
中圖分類號: "TP391 """文獻標志碼: A
文章編號: "1001-3695(2022)02-017-0424-08
doi:10.19734/j.issn.1001-3695.2021.07.0318
Joint entity relation extraction based on graph neural network
Miao Lin, Zhang Yingjun, Xie Binhong, Li Yu
(College of Computer Science amp; Technology, Taiyuan University of Science amp; Technology, Taiyuan 030024, China)
Abstract: "Joint extraction of entities and relations from unstructured text is an important task in information extraction.The existing methods have achieved considerable performance,but are still subject to some inherent limitations,such as error propagation,redundancy of relation prediction,inability to solve the problem of relations overlap,etc.For this reason,this paper proposed a joint entity relationship extraction model BSGB(BiLSTM+SDA-GAT+BiGCN) based on graph neural network.BSGB was a two-stage predicting process.The first stage of this model extended the semantic dependency analysis to the semantic dependency graph,and proposed a graph attention network to integrate the semantic dependency graph(SDA-GAT).By stacking BiLSTM and SDA-GAT,it extracted sentence sequence and local dependent features,and performed entity span detection and preliminary relationship prediction.In the second stage,it constructed the relation-weighted GCN,which further modeled the interaction between entities and relations,and completed the final extraction of entity-relationship triples.The experimental results on the NYT dataset show that the "F 1 "value of this model reaches 67.1%,which is 5.2% higher than the baseline model in this dataset,and the prediction of the overlap relation is also significantly improved.
Key words: "joint entity relation extraction; graph attention network(GAT); semantic dependency graph
0 引言
從非結構化文本中提取實體及其語義關系是構建知識圖譜的一項基本任務。該任務根據給定文本的語義信息提取實體并推測實體間的關系,最終以(頭實體,關系,尾實體)或( h,r,t )關系三元組輸出結果。例如,根據句子“George was born in Washington”,可以得到“George”與“Washington”兩個實體,同時可以通過語義得到“born_in”的關系,并最終抽取出(George,born_in,Washington)的知識三元組。
現有的實體關系抽取方法主要包括流水線方法和聯合提取方法。流水線方法將抽取任務分解為實體識別和關系抽取兩個獨立的子任務,并將實體識別產生的結果送到關系分類器中進行分類。該方法簡單靈活,但是存在三個不足:a)誤差積累,第一階段實體識別產生的錯誤不能在下一階段糾正,產生錯誤傳播,進而可能導致關系分類的不準確甚至失敗[1];b)實體冗余,實體識別出來后,為進行后續關系抽取,需要對實體進行配對處理,但是抽取出的大量實體中并非所有實體都存在合理關系,這種冗余信息增加了計算復雜度,也進一步導致錯誤率提升[1];c)交互缺失,命名實體識別和關系抽取兩個子任務互相依賴,有著內在的聯系,流水線方法忽視了子任務之間的潛在交互,因此性能不佳。
為了解決流水線方法存在的問題,隨后的工作提出了聯合提取方法。該方法在單個模型中實現實體識別和關系提取,兩者在聯合執行過程中相輔相成,避免了傳統方法中存在的誤差積累、子任務聯系不緊密等問題,加強了兩個子任務之間的交互,密切地考慮到了兩個任務之間的依賴關系,提高了整體任務的準確率。然而,當一個文本包含多個共享相同實體的關系三元組時,任務會變得更具挑戰性,如表1所示,其中,normal型表示文本中只存在一種實體關系,即文本中實體關系三元組只存在一種。而句子“Jackie Chan played a role in his movie “Plan A””這句話中包含兩個關系三元組(Jackie Chan,act_in,Plan A)和(Jackie Chan,direct_movie,Plan A),并且兩者共享同一實體對(Jackie Chan,Plan A),即一個實體對之間存在著多種關系,稱之為實體對重疊問題(entity pair overlap,EPO)。此外,句子“Li Ping was born in Beijing,the capital of China”為單一實體重疊問題(single entity overlap,SEO),即句子中一個實體與其他不同實體之間存在著多種關系。EPO和SEO都屬于關系重疊問題,大多數現有的方法不能有效地處理句子包含多個相互重疊的關系三元組的問題。
考慮到自然語言更傾向于樹的結構,使用圖神經網絡對其進行處理有著更為顯著的優勢。為了更好地處理關系重疊問題,受文獻[2]的啟發,本文提出了一種基于圖神經網絡的聯合實體關系抽取模型BSGB(BiLSTM+SDA-GAT+BiGCN)。BSGB分為兩個階段:第一階段將BiLSTM和GAT相結合,不僅提取每個單詞的順序特征,還提取每個單詞的局部依賴特征,同時通過對句子進行語義依存分析,充分提取句子的深層語義信息,基于提取到的特征,進行第一階段的實體和關系預測;第二階段引入關系加權GCN,利用上一階段的關系預測結果為每個關系構建關系加權圖,考慮實體與關系之間的相互聯系,加強實體和關系間的交互,使最終的實體關系抽取具有更好的準確性和魯棒性。
本文將語義依存樹拓展到語義依存圖,充分利用句子的語義結構信息,并結合圖注意力網絡,為不同的單詞節點分配不同的重要性,提出一種新的端到端實體關系聯合抽取模型(BSGB)。
1 相關工作
早期的流水線方法將實體關系抽取建模為兩個獨立的任務,先進行實體識別,而后對實體對之間的關系進行分類。為了建立這兩項任務之間的相關性,聯合模型引起了廣泛關注。實體關系聯合抽取方法主要有基于共享參數方法、基于序列標注方法和基于圖結構方法三種。
基于共享參數的方法將命名實體識別和關系抽取兩個子任務通過共享參數的編碼層在訓練過程中產生的共享參數相互依賴,最終訓練得到最佳的全局參數,從而得到最優的模型性能。Zheng等人[3]通過共享BiLSTM編碼層的參數實現兩個子任務之間的依賴關系。Li等人[4]通過建立依賴樹并從中提取特征,將模型應用于生物醫學文本提取。Miwa等人[5]提出基于詞序信息和依存樹結構的LSTM抽取實體及其關系。孫長志[6]提出了基于風險最小化訓練方法的聯合實體關系抽取模型,將實體識別視為序列標記任務,將關系檢測視為分類任務,分別利用BiLSTM和CNN,進行共享參數的聯合訓練。總體而言該方法易產生信息冗余,存在誤差積累問題,關系識別子任務還是會受到實體識別結果的影響。
基于序列標注方法的提出是為了解決共享參數方法易產生信息冗余的問題,通常采取相應的標注策略,進一步加強模型間的內部聯系。Zheng等人[7]將關系提取定義為一個序列標注問題。在BiLSTM編碼器之上通過LSTM解碼器對關系提取進行建模,減少了無效實體對模型的影響。 但該模型的優勢在于處理孤立的關系,完全放棄了在數據集上相對罕見的重疊關系。Bekoulis等人[8]的模型將命名實體識別和關系抽取建模為多頭選擇問題,充分地表示了實體之間的多種關系。在之后的研究中,Bekoulis等人[9]將對抗訓練應用到聯合實驗中,取得了跨語言、多數據集的先進結果。基于序列標注的方法一定程度上解決了信息冗余的問題,但是仍未解決重疊關系問題。
基于圖結構的方法利用圖的顯著優勢,旨在解決前兩種方法無法解決的關系重疊問題進行研究。Wang等人[10]提出一種新的基于圖結構的聯合學習模型,該方法不僅能有效解決關系重疊問題,而且使用偏執權重的損失函數增強相關實體間的關聯性,并在準確率、召回率及 F 1 值均有較大提升。文獻[2]利用圖卷積網絡聯合學習命名實體和關系,通過構建關系圖有效地挖掘實體對之間的潛在特征,一定程度上解決了關系重疊的問題,在NYT和WebNLG數據集上的評估也取得了較為突出的結果。在生物醫學領域,劉蘇文等人[11]基于多任務思想,針對生物醫學領域的因果關系抽取,利用LSTM和門控機制學習兩個任務的關聯性提出聯合模型,在2015 BC-V測試集上取得了45.3%的 F 1 值。Lai等人[12]構建KECI模型,在初始跨度圖的基礎上引入背景知識圖,用于解決生物醫學文檔中因包含許多高度專業化術語、首字母縮略詞和縮寫詞,而導致提取實體類型不對、關系類型判斷錯誤的問題。
值得討論的是:a)在實體提取方面,KECI采用設置滑動窗口的方式利用前饋神經網絡尋找span,進而提取實體。雖然KECI設置了滑動窗口值為非實體的最低概率分數,但是這種方式效率較低,仍然存在“無用實體”,排列組合的方式較多,易導致冗余;BSGB模型采用BiLSTM識別實體,采用BILOU標簽方案,相比之下,識別結果更準確;b)在關系提取方面,KECI使用前饋神經網絡,并對應背景知識圖;BSGB使用語義依存分析和圖注意力網絡相結合的方式,利用鄰接矩陣中的詞間依賴,更細致地計算詞間注意力,得到詞間關系概率。
雖然已有工作推動了實體關系聯合抽取的發展,但是仍存在兩個子任務聯系不夠緊密、各類關系重疊尚未得到妥善解決的問題。受文獻[2]啟發,本文基于圖神經網絡提出一種新的實體關系聯合抽取模型(BSGB),通過堆疊雙向LSTM和GAT來考慮句子的線性和依賴結構,同時構建關系加權GCN來進一步建模實體和關系之間的交互,從而提高重疊關系復雜場景下的關系三元組抽取性能。
2 BiLSTM+SDA-GAT+BiGCN模型
BSGB模型將預測過程分為兩個階段,其總體結構如圖1所示。在第一階段,首先利用句子的線性和依賴結構,采用BiLSTM和融合語義依存圖的GAT提取句子序列特征和單詞的局部依賴特征;然后,基于提取的單詞特征,預測句子中的實體范圍和每個單詞對之間的關系。在第二階段,為了深入全面地提取詞間關系特征,并充分考慮實體和關系之間的交互,根據第一階段的關系預測結果,為每個關系構建關系加權圖,在每個關系加權圖上應用雙向的GCN進一步整合每個關系的信息,完成最終的實體關系預測。
2.1 第一階段預測
2.1.1 詞表示層
為了獲得計算機可理解的表達語言,詞表示層將文本數據轉換成向量形式,然后輸入到神經網絡進行特征提取。對于輸入句子中的每個單詞使用GloVe[13]模型進行預訓練,獲取每個單詞的嵌入表示。同時為了豐富詞表示信息,引入單詞的詞性特征,詞性嵌入被隨機初始化,并在訓練過程中動態調整。具體來說,對于句子 S={w 1,w 2,…,w n}中的單詞w i ,經過詞表示層預處理之后,得到單詞嵌入和詞性嵌入,進行拼接得到其完整的嵌入表示:
e i= word (w i) +POS (w i) ""(1)
其中: e i 表示單詞 w i 的初始特征;word( w i) 和POS (w i)分別是單詞w i 的詞嵌入和詞性嵌入。
2.1.2 BiLSTM層
在獲取上下文特征的任務中,BiLSTM表現優異,為了充分利用句子的上下文信息,有效捕獲每個單詞的語義信息和詞間依賴關系,本文使用BiLSTM作為第一個特征提取網絡對句子的上下文進行建模。給定一個輸入句子 S,經過預處理獲得其單詞嵌入表示e i 輸入到BiLSTM中,得到句子中每個單詞基于上下文的特征向量 h "i 。
h "i =BiLSTM (e i;θ) ""(2)
其中: h "i 是BiLSTM的隱層狀態向量; θ 是網絡參數。
同時為了獲取句子中每一個未分類實體的邊界,利用從BiLSTM提取到的單詞特征,采用BILOU標簽方案進行第一階段的實體邊界檢測,并使用softmax函數預測單詞 w i 對應的標簽 ""。其中B、I、L和O分別表示實體的開始、中間、結尾和外部,U 表示單個詞實體。例如對于地點實體(LOC):“New York”,將 B 分配給“New”,將 L 分配給“York”。
P( |s)= softmax (W spanh i) ""(3)
其中: W span 是模型參數。給定句子 s和真實的標簽序列t=t 1,…,t |s|, "i為預測標簽,P( "i=t i|s) 表示對于當前給定的句子,預測的標簽等于真實標簽的概率,因此實體邊界檢測的目標是最小化以下交叉熵損失函數:
eloss 1p=- 1 |s| ∑ |s| i=1 "log "P( "i=t i|s) ""(4)
2.1.3 基于語義依存圖的圖注意力網絡(SDA-GAT)
1)圖注意力網絡(GAT) GAT[14]將注意力機制與圖卷積網絡結合起來,是一種基于空間的圖卷積網絡。GAT解決了圖卷積網絡無法處理有向圖、無法為不同節點分配不同重要性的問題。在圖結構數據上計算注意力,可以隱式地為同一節點的鄰接節點分配不同的權重,從而實現關注影響較大的節點,忽略影響較小的節點。注意力系數僅與節點特征相關,與圖結構無關。其具有計算簡潔、允許不同權重的鄰接節點、不依賴于整個圖結構等優勢。
BSGB在第一階段將GAT與語義依存圖相結合,利用語義依存圖所對應的鄰接矩陣中存儲的語義依存關系,考慮句子中不同單詞的重要程度,同時采用多頭注意力機制來穩定注意力的學習過程,增強模型的魯棒性,進而獲取更全面的特征信息。
2)語義依存圖 語義依存分析(semantic dependence ana-lysis,SDA)是自然語言處理中的關鍵技術之一,是指分析文本句子中各語言單位之間的語義關聯,并將語義關聯表示為依存結構。語義依存無須抽象詞語本身,而是通過所承載的語義框架對詞語進行描述,跨越句子表層句法結構的束縛,直接獲取深層的語義信息。本文使用語義依存來刻畫句子語義,將其擴展到圖,提出語義依存圖的概念,通過分析句子語義結構,得到語義依存圖,其中頂點與句子中的單詞相對應,單詞間的依存弧為圖的邊,忽略根節點指向自己的弧,其他的弧表示為語義依存圖的邊。例如對句子“Linda makes and repairs the car.”進行語義依存分析,得到語義依存樹如圖2所示,其中根節點(root)為單詞“makes”,“makes”分別是“Linda”和“car”的父節點,FEAT表示“makes”修飾的角色是“Linda”,同樣地,“repairs”修飾“car”,eCOO表示事件關聯,即“makes”和“repairs”是并列關系,mRELA表示關系標記,mDEPD表示依附標記。
本文以鄰接矩陣的方式存儲語義依存圖,其形式為有向無環圖。如圖3所示,頂點與句子中的單詞相對應,單詞間的依賴弧為圖的邊。有向無環圖方向由矩陣的行指向列,有依賴邊的對應矩陣元素為1,沒有依賴邊的矩陣元素為0。
3)SDA-GAT層 將語義依存圖與圖注意力網絡相結合,提出基于語義依存圖的圖注意力網絡(SDA-GAT),解決句子中因為對結構分析得不夠清晰導致對關系類型提取不全面的問題。具體而言,語義層次結構反映了句子各個層次的語義成分組成方式,能夠準確地把握句子的各層次語義和真實意圖。通過引入語義依存圖表示詞之間的關聯信息,在模型中提取形式為詞、依存關系、詞的最小依存單元特征信息,從而在語義相同但表述不同的句子中提取到相同或類似的特征信息。基于語義依存圖的圖注意力網絡將詞作為節點,語義依存圖的詞間依存信息作為節點與節點的邊信息。同時通過注意力分配權重,每個單詞在計算注意力時,可以實現為其所有相鄰的單詞分配不同的權重,進而關注作用較大的單詞,忽略作用較小的單詞,使注意力更集中在要抽取的單詞之間,進一步強化語義特征,并逐句將整個事實信息融入更新到圖網絡中。與句子級別的關系推理相比,可以細粒度地反映關系推理中實體間的關系,從而更全面地提取出實體關系。
在SDA-GAT層,首先使用語義分析工具對句子的語義信息進行解析,得到存儲句子語義信息的鄰接矩陣,然后與從BiLSTM獲取到的特征一同輸入到GAT進行進一步的特征提取。SDA-GAT中圖的節點對應句子中的每個單詞,節點特征為BiLSTM層提取到的單詞特征,圖中的邊對應語義依存圖的邊,即鄰接矩陣中對應的語義關系。通過式(5)(6)計算注意力系數,式(7)得到注意力特征,同時為了使得模型魯棒性更強,使用多頭注意力機制,根據式(8)對 K 個獨立的注意力進行拼接,通過式(9)取平均值得到本層的輸出結果。
具體來說,從BiLSTM層獲得句子的特征向量后,使用一個可學習的線性變換作用到隱藏層輸出以獲得層次更高、表達能力更強的特征。如圖4所示,經過BiLSTM層特征提取之后,獲得句子特征向量 h =(h 1,h 2,h 3,…,h i),h i∈RF,其中h為句子對應的特征向量集,i為單詞的個數,F 為BiLSTM隱藏層輸出的節點特征維度,通過權重矩陣 W ∈RF×F′ ,得到強化后的特征 h′ 。
然后,對強化后的單詞特征進行自注意力計算(共享注意力機制 a:RF×RF′→R ),如圖5所示。
如式(5)所示,將強化后的特征向量進行連接,輸入到單層前饋神經網絡 a 中,通過非線性激活函數得到 e ij 。其中 e ij表示詞j對i 的重要程度,“‖”表示連接,將 W a∈R2F′ 作用到強化后的特征上。
e ij=a( W h′ i, W h′ j)= LeakyReLU( W T "a[ W h′ i‖ W h′ j]) ""(5)
通過語義依存分析產生的鄰接矩陣,可以發現詞與詞之間的依賴關系。根據該依賴關系,進行圖注意力的計算。式(6)用來計算歸一化的注意力系數 α ij,設詞i 在語義依存圖中與之相鄰的節點集合為 D i ,引入softmax函數對所有與 i相鄰的節點j 進行歸一化,最后得到 α ij 。
α ij= softmax "j(e ij)= "exp (e ij) ∑ k∈D i "exp (e ik) =
exp(Leaky ReLU( W T "a[ W h′ i‖ W h′ j])) ∑ k∈D i "exp(Leaky ReLU( W T "a[ W h′ i‖ W h′ K])) """(6)
對詞 i在語義依存圖中所有相鄰詞j 的強化特征與對應的權重系數 α ij 進行加權求和,通過非線性層得到注意力特征 h″ i 。
h″ i=σ(∑ j∈D i α ij W h′ j) ""(7)
為了提高模型的魯棒性,采用多頭注意力機制(multi-head attention mechanism)[15]學習更多信息,聚合特征。
h″ i=‖K k=1σ(∑ j∈D i αk ij W Kh′ j) ""(8)
其中: K為注意力頭的個數; W K為權重矩陣;αk ij是計算第k 個注意力的權重系數。 K 個相互獨立的注意力機制按照如式(8)所示的方法進行變換,連接其特征得到輸出 h″ i 。
圖6是 K =3時圖注意力計算的示意圖,三種箭頭分別代表了三種相互獨立的注意力計算,用連接或者取平均值的方法輸出得到相應結果,本文選擇取平均值的方法。
至此,SDA-GAT層通過對多個頭提取到的注意力特征進行平均,獲得第一階段的特征輸出。
h′ i=σ( 1 K ∑ K k=1 ""∑ j∈D i αk ijWKh′ j) ""(9)
4)sigmoid層 第一階段的關系預測,使用sigmoid函數對句子中每兩個單詞之間的關系進行預測,避免softmax函數的輸出值相關聯,所得概率總和為1,從而增大了某一類別的概率,而忽略了其他類別的問題。此時的關系預測被轉換為多個二分類任務,對于一個句子中同一單詞對具有多個關系時,所有可能的關系都會被賦予較大的預測概率,進而緩解了關系重疊問題。
對于每一個關系,學習權重矩陣 W 1 r、 W 2 r、 W 3 r ,并如式(10)所示計算句子中每兩個單詞之間屬于該關系 r 的傾向分數。
score (w 1,r,w 2)= W 3 r "ReLU ( W 1 rh w 1⊕ W 2 rh w 2) ""(10)
其中:score (w 1,r,w 2)表示關系r下(w 1,w 2)的關系傾向得分,(w 1,w 2)表示詞對。詞對間考慮順序,因此S(w 1,r,w 2)和S(w 2,r,w 1)不同。對于單詞對(w 1,w 2) ,計算該詞對屬于所有關系的傾向分數,包括沒有關系的情況,沒有關系的情況表示為score (w 1, 1 ,w 2) 。
將sigmoid函數應用于score (w 1,r,w 2) ,得 P r(w 1,w 2) ,計算方式如式(11)所示。
P r(w 1,w 2) =sigmoid (score) = 1 1+e -score """(11)
其中: P r(w 1,w 2)表示詞對(w 1,w 2)屬于關系r 的概率。
第一階段的關系預測損失 rloss 1p ,其計算方式為
rloss 1p=-∑ N r=1 y(r)× log (P r(w 1,w 2)) ""(12)
其中: N表示關系類別的數量;y(r) 表示真實標簽。
2.2 第二階段預測
由于第一階段提取的實體和關系沒有深入考慮彼此之間的聯系,為了使兩者充分交互,更好地提取實體間的關系,第二階段將根據第一階段每個單詞對之間的關系預測結果,為每個關系構建關系加權圖,并使用雙向GCN進一步提取句子中所有單詞對之間的隱含特征。
2.2.1 BiGCN
1)圖卷積網絡(GCN) GCN[16]通過對鄰近節點的特征進行卷積,將節點的信息傳播到其周圍的鄰居節點。如圖7所示,通過疊加GCN層,GCN可以提取每個節點的區域特征。具體而言, 首先每一個節點將自身的特征信息經過變換后發送給鄰居節點,對節點的特征信息進行抽取變換。然后每個節點將鄰居節點的特征信息聚集起來,對節點的局部結構信息進行融合。最后將之前的信息聚集之后作非線性變換,增加模型的表達能力。
GCN層通過相鄰節點的特征來聚合新的節點特征,其公式為
hl+1 u= ReLU (∑ v∈D(u) (Wlhl v+bl)) ""(13)
其中: u為目標節點;D(u)為u的鄰域,包括u本身;hl v為l層節點v的隱藏特征;W與b 是可學習權值,將節點的特征映射到圖中的相鄰節點; h∈RF,W∈Rf×f,b∈Rf,f 是特征大小。
2)BiGCN層 在第一階段預測之后,根據關系預測結果,為每個關系建立關系加權圖。圖中的節點為句子中的單詞,對于單詞 w 1、w 2,假定其關系為r,圖中的邊為單詞間屬于關系r的概率P r(w 1,w 2) 。如圖8所示,圖中連線的粗細對應著兩個詞對之間屬于該關系可能性的大小。
第二階段在每個關系圖上采用雙向GCN,可以充分考慮詞間不同關系的不同影響程度,將其聚合作為綜合的詞特征 hl+1 u ,如式(14)所示。
hl+1 u= ReLU (∑ v∈V ""∑ r∈R P r(u,v)×(Wl rhl v+bl r))+hl u ""(14)
其中: P r(u,v)代表邊的概率(關系r下單詞u到v的概率);W r和b r是指在關系r下的權重和偏置;V包括所有實體的集合;R 包含所有關系的集合。
2.2.2 softmax層
基于從BiGCN網絡中提取出的詞特征,再次預測實體并提取每個詞對的關系,從而獲得最終的更穩健準確的命名實體和關系分類結果。第二階段的實體損失和關系損失與第一階段一樣,同樣使用交叉熵分類損失函數,在此定義為 eloss 2p和rloss 2p 。
2.3 損失與訓練
整體模型中使用了實體損失和關系損失兩種損失,它們都屬于分類損失。實體損失使用傳統的BILOU標簽作為基本事實標簽,每個單詞均屬于五個類別中的一個。 eloss 1p 和 eloss 2p 的真實標簽相同,在訓練過程中使用交叉熵作為分類損失函數。
關系損失通過基于單詞對的方式預測得到,使用一個one-hot向量作為每個詞對 (w 1,w 2) 的真實關系標簽,同時基本事實同樣基于詞對。例如,如圖9所示,單詞state、united與單詞Joe和Biden都有一種特殊的關系。這種基于詞對的關系表示為模型提供了學習提取關系所需的信息。 rloss 1p 和 rloss 2p 的基本關系向量是相同的。同時增加了一個額外的雙重權重 α ,用來調整兩個階段的損失比重。 rloss 1p、rloss 2p 在訓練中使用交叉熵作為分類損失函數。總損失計算為所有實體損失和關系損失的總和:
loss all=(eloss 1p+rloss 1p)+α(eloss 2p+rloss 2p) ""(15)
3 數據與實驗
3.1 實驗數據
1)數據集 本文使用NYT[17]數據集對BSGB的性能進行評估。NYT數據集通過遠程監督的方式獲得,它由118萬個句子和24個預定義的關系類型組成。該數據集中的句子通常包含多個關系三元組,因此NYT數據集非常適合作為提取重疊關系三元組評價模型的測試平臺。本文在NYT數據集中過濾掉100個單詞以上的句子,最后得到66 195條句子實例,其中56 195條句子用于訓練,5 000句用于驗證,5 000句用于測試。
此外,為了評估BSGB在不同關系重疊場景下的有效性,根據關系三元組的不同重疊類型,將數據集中的句子分為正常類(normal)、實體對重疊類(EPO)和單個實體重疊類(SEO)三類。表2描述了各類句子的劃分情況。
2)評估指標 遵循文獻[2],只有當詞對的關系和相應單詞都正確時,提取的關系三元組才被認為是正確的。為了進行公平的比較,本文使用與基線方法一致的準確率、召回率和 F 1 值作為評估指標。
3.2 參數設置
實驗中選擇預先訓練的GloVe(300d)作為固定詞嵌入,然后將單詞嵌入與可訓練的POS嵌入(15d)連接起來,作為每個單詞的最終輸入嵌入。每個單詞的POS標簽和整個句子的依賴樹是從SpaCy[18]中檢索的。
在第一階段,BiLSTM的層數為1,使用Stanford CoreNLP[19]進行語義依存分析。第二階段,BiGCN特征尺寸為300。在訓練期間,使用Adam優化器,具體參數設置及說明如表3所示。
3.3 實驗結果與分析
本文選取NovelTagging[5]、MultiDecoder[20]和GraphRel模型[2]作為對比模型,三個基線的實驗結果來自原始論文。具體而言:
a)NovelTagging提出了新穎的標注方案,將聯合提取任務轉換為標注問題。標簽由實體中的單詞位置(使用“BIES”:begin,inside,end,single;O表示other)、關系類型(一組預定義關系)和關系角色(由數字1、2表示)三部分組成。模型采用Bi-LSTM對輸入句子編碼,使用具有偏置損失的基于LSTM的解碼層進行解碼。通過模型來預測每個句子單詞的實體和關系類。
b)MultiDecoder提出具有復制機制的seq-seq模型,采用了一個統一的解碼器OneDecoder和 多個獨立的解碼器MultiDecoder兩種不同的解碼策略,并使用動態解碼器來提取關系三元組。
c)GraphRel模型將整體的聯合實體關系抽取分為了兩個階段,兩個階段均采用雙向圖卷積神經網絡進行特征提取并預測,最終實現對實體—關系三元組的聯合抽取。
3.3.1 定量分析
表4給出了在NYT數據集上基線模型以及本文模型得到的準確率、召回率和 F "1分數。OneDecoder表示在多解碼器[20]的原始論文中提出的一個解碼器方法,即只使用一個解碼器來提取關系三元組;GraphRel是文獻[2]第二階段整體模型結果;BSGB*是本文模型。
根據表4的實驗結果可以看到,BSGB比NovelTagging模型 F "1值提升了25.1%、比OneDecoder模型提升了11.1%、比MultiDecoder模型提升了8.4%。由于BSGB第一階段通過語義依存圖結合圖注意力網絡,獲得了較好的序列特征和區域依賴特征,使得模型在準確率和召回率方面都表現更好,同時在第二階段,進一步考慮了實體與關系之間的交互,從而獲得了更高的 F "1分數。與同樣基于圖神經網絡的GraphRel相比,BSGB在 F "1值上提升了5.2%,這表明通過語義依存分析獲取文本的語義依存結構,可以幫助模型挖掘到更豐富的深層語義信息,從而更好地提取句子中的實體及其關系,同時結合GAT網絡可以充分考慮到句子中不同詞的重要程度,因此實現了更好的性能。
此外,本文還進行了消融實驗,以詳細考察BSGB中各個模塊組件對整體性能的貢獻。消融實驗結果如表5所示,BSGB w/o SDA表示不使用語義依存分析句子中詞間的依賴,只將BiLSTM處理后的特征向量輸入圖注意力網絡中;BSGB w/o SDA-GAT表示不使用SDA-GAT層,即在不使用語義分析的基礎上,也不進行圖注意力的計算,直接將BiLSTM處理后的特征進行第一階段的關系預測,然后進行第二階段的圖卷積運算;BSGB w/o 2nd-phase表示不使用BSGB的第二階段,即第一階段的實體關系預測結果。通過分析可以得出結論,所有關鍵組件都對BSGB性能的提高作出了積極的貢獻。除去SDA-GAT層模型性能下降了6.5%,對模型的影響最大,這說明借助語義依存分析進行圖注意力的計算,可以有效關注到句子中重要的單詞信息,而忽視其他冗余信息,從而使關系預測更準確。同樣地,不使用語義依存分析,或者僅使用第一階段進行預測都對BSGB造成了不同程度的性能下降。
3.3.2 不同類型句子結果分析
為了進一步研究BSGB模型提取重疊關系三元組的能力,本文對不同類型的句子進行了實驗,并與基線模型的工作性能進行了比較。圖10給出了三種不同句子類型的詳細實驗結果。可以看出,所有模型在normal、EPO、SEO三種不同的句子分類上的性能依次呈現下降趨勢,這也反映出隨著句子復雜度的提高,從這三種重疊模式的句子中提取關系三元組的難度也不斷增加。也就是說,在三種重疊的情況中,normal class是最容易提取的句子形式,而EPO class和SEO class是相對較難提取的情況。
相比之下,BSGB模型在三種類型句子的提取中都獲得了較好的性能。在進行關系預測的時候,BSGB預測句子中所有單詞對之間的關系,所有單詞都可以與其他單詞有關系,因此實體重疊不是問題。在第一階段使用sigmod函數預測句子中每兩個單詞之間的關系,為其之間所有可能的關系賦予較大的關系概率;在第二階段,BSGB為每個關系構建加權圖,進一步學習預測句子中實體與關系的隱含聯系,因此即使在EPO和SEO這樣的復雜場景下,BSGB也可以達到最佳的性能表現。
3.3.3 不同三元組個數提取結果分析
本文還驗證了BSGB模型從具有不同三元組個數的句子中提取關系三元組的能力。按照句子中含不同三元組個數的多少將數據集中的句子分為五類,并用 N 來表示句子中三元組個數。表6展示了不同三元組個數下各個模型的結果。
可以明顯看出,基線模型的性能均隨著句子包含關系三元組個數的增加而下降。BSGB雖然也呈現下降趨勢,但是其在所有五個類中都取得了較為優異的性能。與以往致力于解決關系三元組提取中重疊問題的工作相比,本文模型因為輸入句子的復雜性增加而受到的影響最小,也證明了BSGB模型在GraphRel[2]方法上獲得了相當大的改進。同時,BSGB模型在NYT數據集中的最大改進都來自最困難的情況( N ≥5),相比GraphRel方法提升了8%,由此也可以說明本文模型相比基線模型更適合復雜的場景。
3.3.4 閾值敏感度分析
為了進一步考察實驗效果、豐富實驗內容、完善實驗對比的公平性,本文使用了文獻[2]的閾值預測方法,閾值預測的結果可以充分說明模型的靈活性及準確性。具體而言,例如文本:“The United States President Trump has a meet with Tim Cook,the CEO of Apple Inc.”。句子中實體—關系分布應該有 (United States,Country_president ,Trump)、(Tim Cook,Company_CEO,Apple Inc.) 。抽取時,若實體—關系分布中具有Country_president,并將其作為最可能的類別,則僅當1/2 = 50%gt; θ 時才提取三元組(United States,Country_president ,Trump)。根據圖11給出的結果可以看到,通過將閾值從 θ = 0.8降低到 θ = 0,召回率顯著提高了1.9%,只有0.7%的準確率損失,這說明BSGB在盡可能抽取出句子中所有關系三元組的同時,也可以保證較高的抽取準確率,通過調整閾值可以有效地平衡準確率和召回率之間的偏差。在本文實驗中使用 θ = 0的閾值推斷,以便能提取出更多的關系。圖11展示了不同閾值下BSGB模型的結果。
3.3.5 案例分析
為了更直觀地展示BSGB抽取實體關系三元組的能力,本文提供了幾個簡單的案例來展示不同測試方法下的三元組抽取結果。如表7所示,其中S1是normal class句子,其三元組數量為1;S2、S3均為SEO class句子,其三元組數量分別為2和3;S4、S5分別為EPO class句子,其三元組數量分別為4、5。在關系圖中,圓形節點為實體,實體之間的邊表示兩者有依賴關系,連接邊的粗細對應著關系概率的大小。可以看出,BSGB模型在不同的測試方法下,即涉及三種不同類型的句子和較多三元組數目的句子時,均可以正確提取出相應的關系三元組,對于句子中的重疊關系,BSGB也能全部抽取出來,這直觀地證明了BSGB具有較強的抽取能力。
此外,本文還對BSGB提取出的關系三元組情況與NYT數據集的真實標注進行了對比。 如表8所示,句子1在NYT數據集中的標注僅有一個三元組,BSGB提取出兩個三元組;句子2是SEO class,數據集中僅標注出了contains的關系,BSGB在此基礎上找到了另外的兩對實體—關系;句子3是EPO class,數據集中只標注出了(Gianni Agnelli,nationality,Italy),BSGB提取出了四對關系。可以發現,NYT數據集的標注不夠完善,相比之下BSGB模型可以提取出更多的關系三元組,而數據集標注的不全面將在量化BSGB模型的性能時一定程度地影響精確度和召回率。因此,在NYT數據集上的性能可能僅部分反映本文模型的潛在價值,低估了模型的實際價值, 這也再次表明了所提BSGB模型在復雜句子中提取關系三元組的有效性。
4 結束語
本文提出了一種基于圖神經網絡的實體關系聯合提取方案BSGB,著重于命名實體和關系之間的相互作用,結合圖注意力網絡和語義依存分析,不僅提取每個單詞的序列特征,而且提取每個單詞的局部依賴特征。采用圖卷積網絡考慮了文本中所有詞對之間的隱含特征,預測每個詞對的關系,對基線模型進行改進,解決關系重疊問題。在NYT數據集上評估了本文方法。實驗結果表明,本文方法的性能比基線模型方法提高了5.2%,為聯合實體關系抽取提供了一種新的方法。
由于實驗中對數據處理的形式包括數據存儲的圖的形式,數據集中不完善的注釋等都會對實驗結果產生影響。本文模型仍存在一些不足和尚可改進的地方。除了本文采用方法外,還可以構建其他形式的圖結構或者采用其他類型的圖神經網絡深入研究。針對圖卷積網絡可以通過剪枝等方式優化其檢索樹的方式,進一步提升模型的能力,如提升模型效率、準確率等。同時本文模型也可以嘗試添加應用背景,與現實領域相結合,這些都是意欲改進和深入研究的問題。
參考文獻:
[1] "李冬梅,張揚,李東遠,等.實體關系抽取方法研究綜述[J].計算機研究與發展,2020, 57 (7):1424-1448. (Li Dongmei,Zhang Yang,Li Dongyuan, et al .Review of entity relation extraction methods[J]. Journal of Computer Research and Development ,2020, 57 (7):1424-1448.)
[2] Fu J T,Li P H,Ma W Y.GraphRel:modeling text as relational graphs for joint entity and relation extraction[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2019:1409-1418.
[3] Zheng Suncong,Hao Yuexing,Lu Dongyuan, et al .Joint entity and relation extraction based on a hybrid neural network[J]. Neurocomputing, 2017, 257 (12):59-66.
[4] Li Fei,Zhang Meishan,Fu Guohong, et al .A neural joint model for entity and relation extraction from biomedical text[J]. BMC Bioinformatics ,2017, 18 (1):198-208.
[5] Miwa M,Bansal M.End-to-end relation extraction using LSTMs on sequences and tree structures[C]//Proc of the 54th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2016:1105-1116.
[6] 孫長志.基于深度學習的聯合實體關系抽取[D].上海:華東師范大學,2020. (Sun Changzhi.Joint entity relation extraction with deep learning[D].Shanghai:East China Normal University,2020.)
[7] Zheng Suncong,Wang Feng,Bao Hongyun, et al .Joint extraction of entities and relations based on a novel tagging scheme[EB/OL].(2017-06-07).https://arxiv.org/abs/1706.05075.
[8] Bekoulis G,Deleu J,Demeester T, et al .Joint entity recognition and relation extraction as a multi-head selection problem[J]. Expert Systems with Application, 2018, 114 :34-45.
[9] Bekoulis G,Deleu J,Demeester T, et al .Adversarial training for multi-context joint entity and relation extraction[EB/OL].(2019-01-14).https://arxiv.org/abs/1808.06876.
[10] Wang Shaolei,Zhang Yue,Che Wanxiang, et al .Joint extraction of entities and relations based on a novel graph scheme[C]//Proc of the 27th International Joint Conference on Artificial Intelligence.2018:4461-4467.
[11] 劉蘇文,邵一帆,錢龍華.基于聯合學習的生物醫學因果關系抽取[J].中文信息學報,2020, 34 (4):60-68. (Liu Suwen,Shao Yifan,Qian Longhua.Biomedical causality relation extraction based on joint learning[J]. Journal of Chinese Information Processing, 2020, 34 (4):60-68.)
[12] Lai Tuan,Ji Heng,Zhai Chengxiang, et al. Joint biomedical entity and relation extraction with knowledge-enhanced collective inference[EB/OL].(2021-06-01).https://arxiv.org/abs/2105.13456.
[13] Pennington J,Socher R,Manning C.GloVe:global vectors for word representation[C]//Proc of Conference on Empirical Methods in Na-tural Language Processing.2014:1532-1543.
[14] Velikovi P,Cucurull G,Casanova A, et al .Graph attention networks[EB/OL].(2017-10-23).https://arxiv.org/abs/1710.10903.
[15] Vaswani A,Shazeer N,Parmar N, et al .Attention is all you need[EB/OL].(2017-12-06).https://arxiv.org/abs/1706.03762.
[16] Kipf T N,Welling M.Semi-supervised classification with graph convolutional networks[EB/OL].(2017-02-22).https://arxiv.org/abs/ 1609.02907.
[17] Riedel S,Yao Limin,McCallum A.Modeling relations and their mentions without labeled text[C]//Proc of Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Berlin:Springer,2010:148-163.
[18] Honnibal M,Johnson M.An improved non-monotonic transition system for dependency parsing[C]//Proc of Conference on Empirical Me-thods in Natural Language Processing.2015:1373-1378.
[19] Manning C,Surdeanu M,Bauer J, et al .The Stanford core NLP natural language processing toolkit[C]//Proc of the 52nd Annual Meeting of Association for Computational Linguistics:System Demonstrations.2014:55-60.
[20] Zeng Xiangrong,Zeng Daojian,He Shizhu, et al .Extracting relational facts by an end-to-end neural model with copy mechanism[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.2018:506-514.