基于控制輸入長短期記憶網絡的關系抽取方法①

2022-05-10 12:12:32馬瑛超張曉濱

計算機系統應用 2022年3期

馬瑛超,張曉濱

(西安工程大學計算機科學學院,西安 710048)

關系抽取[1,2]任務是指對實體間的相互關系進行抽取,其目標是在給定實體對的情況下識別并判斷目標實體對之間的特定語義關聯.作為信息抽取[3]的核心技術之一,關系抽取能夠幫助計算機從自然文本中識別出實體之間蘊含的語義關系.知識圖譜[4]作為第三代人工智能的基石,當下正處于高度發展的階段,其構建和應用的過程中都離不開關系抽取的幫助,并且抽取任務完成的精確度會在一定程度上影響到知識圖譜構建的質量及其上層應用的效果優劣.隨著自然語言處理技術的不斷發展,關系抽取的效果也獲得了一定的提升,但面對海量的網絡文本,尤其是豐富多變的語言環境時,目前關系抽取的效果依舊不能滿足當前發展的需求.

1 關系抽取

目前,可通過以下兩類方法來實現關系抽取,1)基于機器學習的方法[5-7];2) 基于深度學習的方法.前者主要指通過由文本能夠容易得到的淺層特征,如詞性、句法等特征信息,從而完成關系抽取的工作;后者則是利用深度神經網絡將文本的淺層特征轉換為更高級的語義特征.相較于第1 類方法,第2 類方法能有效地解決人工特征選擇、特征提取誤差傳播兩大主要問題.

第2 類方法在早期由卷積神經網絡(convolutional neural networks,CNN)和循環神經網絡(recurrent neural networks,RNN)為代表.其中Zeng 等人[8]首次借助了CNN,用于抽取文本中所包含的詞或者句子級別的特征,最終通過Softmax層進行關系分類,從而得到了較好的層級.Xu 等人[9]將句法特征融入到CNN中,并在數據集SemEval-2010 Task8 進行實驗.準確率相較于僅使用CNN 進行抽取的模型提高了4.1%,驗證了該方法在關系抽取任務上的有效性.除使用CNN作為特征提取網絡外,Socher 等人[10]采用RNN 用于關系抽取,實驗結果表明RNN 在該類任務中具有良好的表現.RNN 雖然能很好地學習到文本序列的深層知識,但相應地也會存在梯度爆炸等弊端.

針對上述弊端,研究者們通過不斷的改進和完善,提出了RNN的變體:長短期記憶網絡(long short-term memory,LSTM).其通過“門”機制控制信息的傳遞,在RNN的基礎上解決了長距離依賴以及梯度爆炸問題.Xu 等人[11]將文本的淺層特征進行融合,應用LSTM完成關系抽取,實驗證明該方法優于傳統的CNN 方法.Zhang 等人[12]進一步使用LSTM的變體雙向長短期記憶網絡(Bi-LSTM)模型進行抽取,其最佳的實驗結果相較于傳統方法準確率提高了14.6%,可見Bi-LSTM模型在關系抽取中能獲得更為優異的結果.

隨著深度學習的發展,研究者們試圖尋找一種新的結構以幫助模型在學習的過程中對部分特征進行強化學習,此時注意力機制(attention)[13]逐漸步入人們的視野.它是由Treisman 等人[14]提出的選擇算法,該算法通過注意力機制對特征的關鍵部分進行重點學習,對于深度學習網絡的學習過程有積極意義.王紅等人[15]將attention 引入到Bi-LSTM 中完成關系抽取,在實驗過程中取得了優秀的成績.但基于注意力機制的模型僅通過對輸入特征的控制進行計算,未考慮模型神經元之間特征的相關性.并且在復雜的語意環境下,這類模型也容易受到文本中非目標實體對關系語義的干擾,從而影響方法的性能.

鑒于上述不足,本文提出了控制輸入長短期記憶網絡CI-LSTM (control input long short-term memory),該網絡在傳統LSTM的基礎上增加了由注意力機制和控制門閥單元組成的輸入控制單元,控制門閥單元可依據控制向量進行關鍵位置上的重點學習,注意力機制對單個LSTM的輸入的不同特征與目標實體對信息進行計算,從而對特征的關鍵部分進行可控制的選擇學習,有效提升了關系抽取的性能.

2 基于控制輸入LSTM的關系抽取方法

2.1 輸入控制單元

為使網絡能夠有選擇進行學習,本文受門控機制的啟發設計出輸入控制單元,輸入控制單元結構如圖1.

圖1 輸入控制單元結構

由圖1可以看出,輸入控制單元包含兩部分.

第一部分為依靠控制向量和門控機制的門閥控制單元,該單元能夠根據控制向量對當前時刻的輸入進行有選擇地進行控制.首先門閥控制單元依據當前時刻的輸入和前一時刻的細胞狀態計算控制門權重,然后根據控制向量和控制門權重對輸入進行計算.

其中,ct為輸入控制門的控制信息,x't為更新后的輸入信息,x_ct為控制向量,Wc和bc為記憶門的權重及偏置值.

第二部分進行特征級別的注意力機制的計算,本文選擇聚焦式注意力機制將經過門閥控制單元計算出的輸入與實體信息進行注意力機制的計算,公式如下:

其中,ai為第i個特征的注意力權重,s為注意力打分函數,xi為t時刻第i個輸入特征,q為作為key的實體特征.

在特征級別的注意力計算中,輸入為t時刻輸入特征的值,q為實體信息的表示,文本在選擇注意力打分函數時使用雙線性模型,公式如下:

其中,W為可訓練參數,維度與q相同.

其中,x't為注意力模塊的輸入,a則代表注意力的權重矩陣.

2.2 輸入控制LSTM

在LSTM 中,最為關鍵的部分是由細胞狀態C以及3 個門(即記憶門i、遺忘門f與輸出門o)組成,在時間t流入模型的信息由LSTM 控制單元加以處理,有選擇地留下或舍棄C的部分信息,并經由計算后傳遞給下一控制單元.為使得網絡能夠在學習上下文特征時能夠對輸入進行有選擇地學習,本文在原有LSTM結構中引入輸入控制單元.輸入控制LSTM 控制單元結構如圖2所示.

圖2 CI-LSTM 細胞結構

其中,遺忘門將計算對前一時刻傳入的細胞狀態進行遺忘的數值,這一部分的計算過程如式(6)所示:

其中,ft為遺忘門的控制信息,用于減少t-1 時C中的信息,Wf和bf則分別為遺忘門的權重及偏置值.

記憶門將決定輸入的特征有多少能進入新的細胞狀態,記憶門的計算過程如式(7)所示:

其中,it為記憶門的控制信息,Wi和bi為記憶門的權重及偏置值.

輸入控制單元依據輸入信息和控制向量來實現對輸入信息的管理,即對輸入的信息有選擇地遺忘.輸入控制門與記憶門的控制機制不同之處在于輸入控制門的控制機制僅作用于輸入信息,這種控制方式能夠更為直接的作用于輸入信息本身,從而在不影響記憶門對細胞狀態控制的同時,對輸入特征進行有選擇地學習.

進一步地,根據遺忘門和記憶門的控制信息對細胞狀態進行更新,更新過程如下:

其中,Ct為新的細胞狀態,Ct-1為前一時刻的細胞狀態,Wc、bc分別反映計算臨時細胞狀態的權重及偏置值.

輸出門將計算哪些信息將被輸出,這一過程如下所示:

其中,ot為該門的控制信息,Wo、bo則分別反映該門的權重及偏置值.

2.3 基于控制輸入LSTM的關系抽取模型

本文將關系抽取分為4 層,分別為預處理層、編碼層、學習層以及輸出層.

預處理層主要作用在于生成控制向量,并依據BERT的需要進行預編碼.其中控制向量的生成本文選擇依靠句法依存樹輔助完成,句法依存樹[16]是文本中句法關系和語法關系的一種表現形式,通過句法依存樹能夠很清晰地將詞與詞之間的依存關系表現出來.并且通過句法依存樹能夠將句子中主干部分進行提煉,從而彌補語句中表達不清楚的問題.

本文選擇以句法依存樹所生成的最短依存路徑作為控制向量生成的方式.首先本文借助工具生成句子的句法依存樹,并以兩實體為兩端來尋找最短依存路徑,最后基于該路徑按原本句子中詞的位置生成控制向量.如圖3所示.

圖3 句法依存樹的關系表示

控制向量的生成計算如式(11)所示:

其中,x_ci為文本中i位置的控制向量,wordi為文本中i位置的單詞,D為最短依存路徑.

由于自然語言處理中神經網絡不能直接輸入文本,需要將文本轉化為向量的數據.因此編碼層使用BERT[17]作為模型的編碼層,BERT 模型自推出以來就備受自然語言處理界的青睞,該模型以其優秀的性能已經逐步取代Word2Vec、ELmo 成為語言模型中不可或缺的一部分.

學習層以雙向的控制輸入LSTM 結構進行學習.其中實體信息表示本文通過記錄實體開始位置,并從編碼層截取實體出現位置的編碼向量作為實體信息的表示.同時將首實體與尾實體的拼接作為實體信息的表示輸入到控制輸入LSTM 中幫助輸入控制單元的注意力計算.

輸出層以一個全連接層和Dropout 層作為中間層,Dropout 層可以在一定程度上減少過擬合的現象,最后通過Softmax函數進行判斷關系類別的判斷.CI-LSTM模型結構如圖4所示.

圖4 基于CI-LSTM的關系抽取模型結構圖

3 實驗分析

3.1 實驗數據

為驗證所提模型的效果,本文采用SemEval2010-task8 數據集作為實驗語料進行測試.該數據集包含10 類關系,共10 717 條數據.其中包括8 000 條訓練數據和2 717 條測試樣本.樣本關系分布如表1所示.

表1 SemEval2010-task8 數據集樣本關系分布

除SemEval2010-task8 數據集外,本文同時選取150 條SemEval2010-task8 數據集測試數據中存在多種語義關系的樣本作為復雜語境下的實驗樣本.

本文評價指標采用準確率P、召回率R以及F值,各指標的具體定義為:

其中,TP表示模型對輸出類型判斷正確的數據條目;FP表示模型對輸出關系判斷錯誤的數據條目;FN表示模型對輸出關系判斷錯誤但實際正確的條目.

3.2 參數設置

本文實驗基于Keras 深度學習框架,采用Adam 優化算法訓練模型,并使用最小化交叉熵的方法進行最優參數的選取.為方便模型的對比,在后續試驗中,模型的公共參數均按照最優參數進行實驗,并同樣使用BERT_BASE 作為編碼層,模型的最優參數設置如表2.

表2 模型最優參數設置

3.3 控制向量生成方式實驗

為驗證以句法依存樹作為控制向量的生成標準的可靠性,本文以單詞相對于實體的位置作為控制向量的生成依據進行了實驗.依據位置的控制向量生成即將文本以實體為界限分為三段式,在實體之間的信息視作關鍵信息,處于兩實體兩側的信息視作非關鍵信息.以實體位置進行控制向量的生成如圖5所示.

圖5 基于實體位置生成控制向量

實驗結果如表3所示.

表3 實驗結果對比 (%)

實驗結果表明依據句法依存樹的控制向量生成方式在關系抽取中與本文提出的基于輸入控制LSTM 結構結合能夠更好地對關系特征進行學習.

3.4 實驗結果

為驗證本文模型在關系抽取的效果,本文分別對本文模型和RNN、CNN、LSTM、Bi-LSTM、Attention-LSTM 模型進行實驗對比,實驗結果如表4.

從表4中可以看出,相較于RNN、CNN,CI-LSTM的在F上分別提升了20.03%、12.32%,這是因為CILSTM 內部采用以LSTM的結構來學習語句的特征,而LSTM 相對于CNN和RNN 具有更為優秀的結構.相比于LSTM 模型和Bi-LSTM,CI-LSTM的F值分別提升了3.7%和3.13%,這是因為CI-LSTM 在傳統LSTM的基礎上增加了控制輸入單元,輸入控制單元的引入能夠使模型能夠對關鍵部分的特征進行重點學習,并且針對實體信息的特征級注意力的計算能夠幫助模型學習到專注于當前實體對的語義關系信息.CILSTM 相較于Attention-LSTM 效果提升了1.26%.這是因為相對于Attention 機制自動的計算句子各個部分的權重,在訓練過程中容易受到其他關系的干擾,而CI-LSTM 可以根據控制向量的值進行選擇性的學習,從而增加了復雜語境下的關系判斷精度.

為驗證本文模型在復雜語境下的性能,本文使用SemEval2010-task8 中選取出的語句中包含多種關系的樣本進行單獨的測試.復雜語境實驗結果如表5所示.

這一結果表明本文提出的CI-LSTM 相較于傳統的方法能夠在復雜語境下進行更好的關系抽取任務.

4 結論與展望

本文針對當前傳統深度學習關系抽取方法在復雜語境下所存在的文本中其他關系對目標關系抽取產生干擾的問題提出了CI-LSTM 網絡.該網絡在傳統LSTM的基礎上增加了由注意力機制和控制門閥單元組成的輸入控制單元,其中控制門閥單元可依據控制向量進行關鍵位置上的重點學習,而注意力機制則對單個LSTM的輸入的不同特征與實體對信息進行計算.本文通過句法依存關系進行控制向量的生成,并以控制輸入LSTM 作為學習層,Softmax函數作為判斷關系的方式進行關系抽取模型的構建.在SemEval2010-task8 任務數據集上進行實驗,由實驗結果可以看出CI-LSTM 優于其他方法,能得到更好的關系抽取效果.另外,本文通過對SemEval2010-task8 中具有復雜語境的數據進行了再次的驗證,實驗結果表明,相對于傳統深度學習方法,本文所提方法對復雜語境下的關系抽取更具有效性.在后續的研究中,可以考慮如何在減少參數量的同時根據控制向量進行更好的選擇學習,以及在控制向量生成的方法上進行改進.