余 蓓,劉 宇,顧進廣
(1.武漢科技大學計算機科學與技術學院,湖北 武漢,430065;2.武漢科技大學智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室,湖北 武漢,430065;3.武漢科技大學大數據科學與工程研究院,湖北 武漢,430065)
鑒于突發(fā)事件的不確定性和破壞性,國家急需建立與突發(fā)事件和應急響應相關的知識庫,從而能更全面地了解突發(fā)事件,普及應急響應知識,提高應急響應速度[1-2]。抽取突發(fā)事件演化關系是構建突發(fā)事件知識庫的重要一環(huán),其主要任務是抽取突發(fā)事件描述文本中致災因子、承災載體和影響因子之間的關系[3]。下面是幾個突發(fā)事件的描述文本示例:
例1唐山大地震后,大雨滂沱,人員傷亡嚴重。
例2由于震前當地政府和群眾采取了積極防震抗震的措施,從而大大減輕了損失。
在例1中,存在{〈地震,傷亡,直接因果關系〉,〈大雨,傷亡,促進關系〉,〈地震,大雨,無關系〉,…}等演化關系對;在例2中,存在{〈措施,損失,抑制關系〉,…}等演化關系對。
抽取突發(fā)事件演化關系對于防災救災有著重要的意義,但目前的研究主要關注于句子本身的信息,即僅利用深度學習方法對句子自身的特征進行學習,而忽視了突發(fā)事件的背景知識。然而,人類在識別語句中的實體關系時,不僅僅根據句子本身的信息做出判斷,還會結合實體自身的背景知識(如實體的概念信息等)進行輔助判斷。關注當前語境下實體的概念信息有助于更準確地判斷實體間的關系。
針對現有方法大多未考慮實體自身的背景知識導致部分關系分類錯誤的問題,本文提出一種基于概念圖譜(Concept Graph)和BiGRU-Att(Attention-based Bidirectional Gated Recurrent Unit)模型的方法來抽取突發(fā)事件演化關系。該方法的主要特點在于:①引入概念圖譜與概念化算法來獲得實體最符合當前語境的概念特征集合,通過加入概念特征來增加背景知識,提高關系抽取的準確性;②用BiGRU-Att模型對加入了概念特征的文本進行關系抽取。本文最后通過與其他關系抽取方法進行對比實驗,來驗證所提方法的有效性。
關系抽取是信息抽取任務中的關鍵子任務之一,對構建知識庫有著重要作用。關系抽取可分為兩類:有監(jiān)督的實體關系抽取和無監(jiān)督的實體關系抽取。本文將突發(fā)事件演化關系的抽取轉化為有監(jiān)督的實體關系四分類問題。
有監(jiān)督的實體關系抽取方法主要分為三大體系:基于特征向量的方法、基于核函數的方法和基于深度學習的方法。傳統(tǒng)的基于特征向量的方法[4-5]依賴于構建者對句法、語法等信息的選擇,通用性不強,且忽略了文本中的上下文信息。基于核函數的方法則能更好地利用上下文信息。Zelenko等[6]利用淺層解析樹核以及支持向量機(SVM)進行關系抽取。Bunescu等[7]提出了基于子序列核函數的方法,并且在多個語料上驗證了其有效性。然而基于核函數的方法的召回率太低,且存在訓練和預測速度太慢的問題。近年來,基于深度學習的方法被廣泛應用于實體關系抽取領域,該類方法通過神經網絡來學習句子深層次的特征序列并用于關系分類。Zeng等[8]通過基于卷積神經網絡(Convolutional Neural Network, CNN)的模型來提取詞匯和句子特征進行關系分類,該模型較好地利用了句中的實體信息,但未能解決長距離依賴信息的問題。田生偉等[9]利用雙向長短時記憶(Bidirectional Long Short Term Memory, BiLSTM)網絡來抽取維吾爾語文本中的事件因果關系,總體效果較好,但該方法將句子中所有詞語視為一樣,沒有考慮各個詞語的不同重要程度。為了解決該問題,聞暢等[3]將注意力機制(Attention Mechanism)引入到BiLSTM模型中,利用其計算注意力概率以突出關鍵詞匯在文本中的重要程度。但LSTM網絡用遺忘門、輸入門和輸出門這三個門結構來解決長距離依賴信息的問題,導致該模型參數過多且計算復雜。
概念圖譜是知識圖譜的一種,可以更好地幫助機器來理解自然語言。概念圖譜中包含了實體(如“大雨”)、概念(如“天氣”)以及他們之間的類屬關系(又稱isA關系,如“大雨isA天氣”)。由于概念圖譜包含了大量常識性的概念,近年來已在意圖識別、短文本分類等領域取得了較好的使用效果。Xu等[10]利用概念圖譜對用戶的輸入進行更高層次的概念抽象,并應用于意圖識別。Huang等[11]提出的概念化算法結合了概念圖譜,利用文本中詞語及與其對應的概念集合之間的相關性,得到該詞符合語境的概念特征,提高了短文本的分類效果。
考慮到概念圖譜已有效應用于多個自然語言處理領域,且人類在判斷文本中實體對之間的關系時也會考慮實體的概念知識,故本文將概念圖譜引入關系抽取任務中,參照文獻[11]中的概念化算法獲取符合當前語境的概念特征,通過加入概念特征來增加背景知識,提高關系抽取的準確性。同時,本文還采用了與LSTM網絡相比結構更簡單、參數更少的門控循環(huán)單元(Gated Recurrent Unit, GRU) 網絡[12]來進行特征學習,將Attention機制引入雙向GRU網絡(BiGRU),構建BiGRU-Att模型進行關系抽取。
本文提出的基于概念圖譜與BiGRU-Att模型的突發(fā)事件演化關系抽取方法的框架結構如圖1所示,共分為3個部分:概念特征抽取、特征拓展和BiGRU-Att模型的訓練。將突發(fā)事件數據集分為訓練集和測試集,使用jieba分詞工具對數據集處理后作為模型輸入。

圖1 基于概念圖譜與BiGRU-Att模型的演化關系抽取方法的框架結構
Fig.1 Framework of evolution relationship extraction based on concept graph and BiGRU-Att model
概念特征抽?。夯诟拍顖D譜構建實例-概念語義網絡,利用該網絡進行特征選擇計算,得到符合當前語境的概念排序。
特征拓展:根據突發(fā)事件的特點,選取突發(fā)事件中致災因子、承災載體和影響因子的概念特征,與分詞后的文本拼接,作為BiGRU-Att模型的輸入。
BiGRU-Att模型訓練:用訓練集來完成模型的訓練,用測試集來驗證模型的關系抽取效果。首先將特征拓展后的文本經過詞嵌入轉換為詞向量,然后用BiGRU學習文本深層次的語義特征,并通過Attention機制來突出重要特征,最后通過分類器進行演化關系分類。
本文引入概念圖譜,結合概念化算法[11],利用實例、概念間的相互關系,迭代出最符合當前語境的概念排序。概念特征抽取主要分為3個階段:①基于概念圖譜生成候選概念集合;②利用候選概念集合與實例集合構建實例-概念語義網絡;③基于構建的語義網絡進行特征選擇計算,得到實例在當前語境下對應的最可能的概念排序。
為了描述候選概念集的生成,首先明確以下概念特征抽取的相關定義。
定義1實例。給定一段已分好詞的文本X={xi|1≤i≤n},其中xi表示每個詞語,n為文本分詞后詞語的總數,稱詞語xi為實例。
定義2概念。對于文本X中的實例xi,如果存在cj是xi的父類,則稱cj為xi的概念。簡單地說,概念就是讓相似的實例可以聯(lián)系在一起。例如,“大雨”、“大風”這些實例可以用“天氣”這個概念來表示。
定義3候選概念集。通過概念圖譜獲取文本X中實例xi對應的集合C={〈cj,fj〉│1≤j≤m},其中頻數fj為概念圖譜生成過程中統(tǒng)計出的概念cj的通用分數,m是根據需求預先設定的,則稱集合C為xi的候選概念集。例如,“大雨”的候選概念集為{〈天氣,1155〉,〈情況,309〉,〈氣候,234〉,〈濕度,159〉}。
通過概念圖譜對文本中的每個實例進行映射,生成對應的候選概念集,作為語義網絡構建的基礎。這里得到的候選概念集代表的是在大多數情況下實例對應的概念排序。
為了能夠量化實例與概念間的關系,分析它們在文本中的影響,這里利用候選概念集合與實例集合構建了實例-概念語義網絡,即一個表示實例和概念之間語義關系的網絡結構,圖2是部分語義網絡示例。
圖2中有兩類節(jié)點:矩形表示實例節(jié)點,例如實例“大雨”、“地震”等;橢圓表示概念節(jié)點,例如實例“大雨”對應的候選概念集中的“天氣”和“氣候”。節(jié)點間通過有向加權邊或無向加權邊相連,其中權值表示節(jié)點間的關聯(lián)強度。

圖2 實例-概念語義網絡
將實例-概念語義網絡表示為圖G=(V,E),其中V是圖中頂點的集合,E是圖中邊的集合。整個網絡G主要由三部分組成:
(1) 概念-概念子網絡(Gcc):表示概念與概念的相互影響力,由圖中的橢圓及相連的弧形實線邊構成;
(2) 實例-實例子網絡(Gww):表示實例與實例的相互影響力,由圖中的矩形及相連的虛線邊構成;
(3) 實例-概念子網絡(Gwc):是將Gcc和Gww兩個網絡關聯(lián)到一起的子網絡,表示概念與實例間的可能性,由圖中的橢圓和矩形及相連的雙向實線邊構成。
實例-概念語義網絡G的關聯(lián)矩陣如下:
(1)
式中:Mcc表示Gcc中概念間的相關性,通過文本中全部實例對應的候選概念集中每兩個概念的共現次數及其相關函數(Correlation Function)[11]得到;Mww表示Gww中實例間的相關性,由文本中每兩個實例的共現次數及其相關函數計算得到;Mwc表示Gwc中實例與其對應的候選概念集的關系,它由實例到某個概念的頻數fi和互相關函數(Inter Correlation Function)[11]決定;Mcw與Mwc不同,它代表的是概念與其相關的實例間的關系,而且僅由頻數fi決定。
將3個子網絡Gcc、Gww和Gwc結合起來,通過特征迭代選擇算法[11]更改實例對應的候選概念集中概念的排序,使其更符合當前語境。
特征迭代選擇算法以上一節(jié)構建的語義網絡為基礎來進行計算,迭代過程中會生成兩個矩陣:Scorec和Scorew,分別為概念和實例的分數矩陣,代表著概念和實例的排序分數(重要程度)。如圖3所示,迭代選擇算法每輪包含以下4個步驟:
(1) 實例-概念排序:利用實例的排序分數來影響概念的排序分數,即通過實例的分數Scorew和Mwc計算更新Scorec;
(2) 概念-概念排序:主要思想是如果一個概念與其他大多數概念越相關,則該概念分配到的分數越大,即通過概念的分數Scorec和Mcc計算更新Scorec;
(3) 概念-實例排序:利用概念的排序分數來影響實例的排序分數,即通過概念的分數Scorec和Mcw計算更新Scorew;
(4) 實例-實例排序:與概念-概念排序類似,如果一個實例與其他大多數實例越相關,則該實例分配到的分數越大,即通過實例的分數Scorew和Mww計算更新Scorew。
當多次連續(xù)迭代計算出的平均分數之間沒有明顯變化時停止迭代,可根據最終得到的Scorec將實例對應的候選概念集重新排序。

圖3 特征迭代選擇流程
當先驗知識較準確時,帶有先驗的分類方法能大大提高分類效果[13]。針對突發(fā)事件演化關系的特點,本文方法通過增加演化因子概念特征來提高關系分類的準確性。演化因子及其概念特征定義如下:
定義4演化因子。突發(fā)事件演化關系是致災因子、承災載體和影響因子三者之間的關系[3],本文統(tǒng)稱這三者為演化因子,如例1,“大雨”、“傷亡”等是該突發(fā)事件的演化因子。
定義 5演化因子概念特征。在文本X中,實例xi是突發(fā)事件的演化因子,將xi的候選概念集C中的概念根據當前語境下與xi的相關度降序排列,取前k名作為xi的演化因子概念特征F,k即為演化因子概念特征的大小。如當概念特征大小k=2時,F={c1,c2}。
在如圖3的迭代選擇過程,選取迭代停止時的分數矩陣Scorec為最終結果,Scorec中的分數代表實例與概念的相關度。對于文本中的演化因子,將其對應的候選概念集根據Scorec中的分數重新按降序排列,并選擇前k個作為演化因子概念特征。將得到的突發(fā)事件演化因子的概念特征與分詞后的語句拼接,作為BiGRU-Att模型的輸入。
突發(fā)事件演化關系的抽取利用BiGRU-Att模型來完成,模型的輸入是上一節(jié)得到的特征拓展后的文本。BiGRU-Att模型結構見圖4,共包括4個部分:
(1)詞嵌入層:將詞語映射到低維稠密向量;
(2) BiGRU層:利用BiGRU從詞嵌入層輸出的低維稠密向量獲得深層次的特征;
(3) Attention層:對獲得的深層次特征進行加權變換,突出重要信息的貢獻度;
(4)分類層:利用softmax分類器進行突發(fā)事件演化關系抽取。

圖4 BiGRU-Att模型結構
詞嵌入層為BiGRU-Att模型的第一層,主要目的是將詞轉化為低維稠密向量,用來捕捉句子的語義信息。詞嵌入層的輸入為集合S={si|1≤i≤n},集合S是特征拓展模塊的輸出,由分詞后的文本和演化因子概念特征組成,其中n為特征拓展后文本中詞的個數。
集合S中的每一個詞si都會被表示為一個實值向量ei,ei的計算公式如下:
ei=Wwrdvi
(2)
式中:矩陣Wwrd∈Rd|v|,v是固定大小的詞匯表,d為詞向量的維度,Wwrd是需要學習的參數,vi是輸入詞的one-hot表示,大小為|v|。由此得到的整個詞嵌入層的輸出,也就是特征拓展后的文本的詞嵌入矩陣E=[e1,e2,…,en]。
BiGRU為模型的第二層,用來學習句子深層次的語義信息。GRU是LSTM的一個變種,兩者均能夠學習文本的序列信息,適用于時序問題。LSTM通過遺忘門、輸入門和輸出門來習得序列信息,而GRU的結構如圖5所示,它取消了LSTM中的細胞狀態(tài),只保留了隱藏狀態(tài),將LSTM中的輸入門和遺忘門用更新門zt來代替,輸出門用重置門rt來代替。GRU的更新門決定上個時刻記憶的保留程度,重置門則決定上個時刻記憶的丟棄程度與新的輸入。相比于LSTM,GRU的結構更簡單、參數更少,減少了計算的復雜性。

圖5 GRU單元結構
BiGRU層的輸入為嵌入層輸出的矩陣E,因此集合S中第t個詞的輸入為該詞的向量表示et。這里以輸入為et來表示GRU的計算過程,公式如下:
zt=σ(Wzet+Uzht-1+bz)
(3)
rt=σ(Wret+Urht-1+br)
(4)
(5)
(6)


(7)
Attention層為模型的第三層,用于對BiGRU習得的深層次特征進行加權變換,突出文本序列中重點詞匯信息的作用,從而提高突發(fā)事件演化關系抽取的準確性。注意力機制的計算公式如下:
M=tanh(H)
(8)
α=softmax(wTM)
(9)
r′=HαT
(10)
r=tanh(r′)
(11)
式中:H=[h1,h2,…,hn]為上一層BiGRU神經網絡層輸出的向量;w為訓練好的參數向量;α為權重矩陣;softmax為歸一化指數函數;tanh為激活函數。Attention層最終的輸出為加權變化后的深層次特征r。
分類層是模型的最后一層。本文使用的softmax分類器是logistic回歸模型在多分類問題上的推廣。如圖4,將Attention層得到的深層次特征r輸入到softmax進行歸一化,得到了演化因子對所對應的4種演化關系類別的概率p(y│r),如下式:
p(y│r)=softmax(Wr+br)
(12)

(13)
本文將基于概念圖譜與BiGRU-Att模型的關系抽取方法應用到突發(fā)事件領域的演化關系抽取中,并分別進行兩組實驗:①對比演化因子概念特征的大小k對關系抽取效果的影響;②驗證概念圖譜和BiGRU-Att模型對演化關系抽取的有效性。實驗流程如圖6所示。
本文選用的數據集為突發(fā)事件中文數據集[3]。該數據集是以在中新網和網易新聞網等網站上爬取的932篇突發(fā)事件新聞為基礎,參照自動內容抽取(ACE)的事件標注標準進行標注的2800條突發(fā)事件語料,包含了自然災害、事故災害、公共衛(wèi)生和社會安全4類突發(fā)事件。數據集根據突發(fā)事件演化關系模型的關系類別分為4類:直接因果關系、促進關系、抑制關系和無關系。將數據集按7∶3的比例隨機分為兩部分,分別作為訓練集和測試集。鑒于實驗對象為中文數據集,故概念圖譜選用了支持中文的Probase+[14]。

圖6 突發(fā)事件演化關系抽取實驗流程
Fig.6 Experimental process of evolution relationship extraction for emergencies
對于不同模型的分類結果,本文以常用的準確率(precision) 、召回率(recall)和F1值作為評測指標。
首先對比演化因子概念特征的大小k對突發(fā)事件演化關系抽取效果的影響。概念特征是演化因子的背景知識,增加背景知識能夠提高關系抽取的效果,不同大小的概念特征包含的背景信息不同,所以實驗選取k值分別為0、1、2、3,在圖1的框架下進行突發(fā)事件演化關系抽取,實驗結果如圖7所示。

圖7 演化因子概念特征大小對關系抽取效果的影響
Fig.7 Influence of the size of evolution factor concept feature on relationship extraction
由圖7可見,當演化因子概念特征大小k為0,即未使用概念特征時,準確率、召回率和F1值均為最低,當k為1、2和3時,準確率、召回率和F1值均得到不同程度的增大,表明演化因子概念特征的加入有效提升了模型的關系抽取效果。準確率、召回率和F1值均在k=2時達到最高,分別為91.0%、89.7%和90.3%,這是因為:k=1時,加入的概念特征過少,模型沒有學習到足夠的背景知識;k=3時,在概念特征中排名第三的概念又與其對應的演化因子關聯(lián)過小,引入了帶有噪聲的背景知識;k=2時,模型即能學習到足夠的背景知識,又不會引入過多的噪聲,取得了最優(yōu)的演化關系抽取效果。因此后續(xù)實驗中均采用大小為2的演化因子概念特征。
為了驗證本文設計的抽取框架對突發(fā)事件演化關系抽取的有效性,一共采用6種模型來進行對比實驗,分別是:①文獻[3]提出的BiLSTM-Att模型、②加入概念圖譜的BiLSTM-Att模型、③雙向循環(huán)神經網絡(BiRNN)模型、④BiGRU模型、⑤加入了注意力機制的BiGRU模型(即BiGRU-Att)、⑥本文提出的基于概念圖譜和BiGRU-Att的關系抽取模型。表1所示為各模型的實驗結果。
表1 不同模型的實驗結果對比
Table 1 Comparison of experimental results of different models

編號模型準確率/%召回率/%F1值/%1BiLSTM-Att89.887.988.82BiLSTM-Att+概念圖譜90.889.189.93BiRNN80.879.880.34BiGRU89.087.488.25BiGRU-Att90.288.789.46BiGRU-Att+概念圖譜91.089.790.3
表1中的數據表明本文方法相較于其他5種方法取得了更優(yōu)的突發(fā)事件演化關系抽取效果。如表1所示,BiGRU模型比BiRNN模型的實驗結果有大幅提升,這是因為加入門控機制的GRU解決了RNN梯度消失和梯度爆炸問題,得到了更準確的語義信息;而加入注意力機制的BiGRU-Att模型抽取效果又得到了進一步改善,這是由于不同的詞匯在文本中的重要程度是不一樣的,而注意力機制能夠強化重要詞匯在文本中的作用;BiGRU-Att的突發(fā)事件演化關系抽取效果略優(yōu)于BiLSTM-Att,這兩個模型均加入了注意力機制,區(qū)別在于BiGRU比BiLSTM的結構更簡單,減少了約三分之一的參數,且更不容易過擬合,因此針對于本文數據集取得了更優(yōu)解。
另外,對比表1中加入概念圖譜前后的BiLSTM-Att(模型1和模型2)和BiGRU-Att(模型5和模型6)的實驗結果,可以看出,概念圖譜的引入使得突發(fā)事件演化關系抽取的準確率、召回率和F1值均有提升,其原因在于原始文本中的語義信息有限,缺少突發(fā)事件的背景知識,而引入概念圖譜對原始語句進行演化因子概念特征拓展后,彌補了這一空白,使得BiLSTM-Att和BiGRU-Att模型能夠學到更多深層次的語義特征,有助于突發(fā)事件演化關系分類。
本文提出了一種基于概念圖譜與BiGRU-Att模型的方法用于抽取突發(fā)事件演化關系,以克服現有演化關系抽取模型忽略了背景知識從而導致信息抽取不夠準確的問題。該方法將演化關系抽取轉化為四分類問題,引入概念圖譜對突發(fā)事件文本進行背景知識的擴充,將擴充后的文本作為BiGRU-Att模型的輸入進行特征學習,最后利用分類器完成演化關系的抽取。與其他模型在同一數據集上的對比實驗結果顯示,本文方法在準確率、召回率和F1值這3個評價指標上均取得最優(yōu)值,有助于構建更完備的突發(fā)事件知識庫。
本文方法仍有改進的空間,在下一步工作中可以考慮引入更多的先驗知識來進行演化關系抽取,例如句法和上下文特征,同時還可以考慮將注意力機制進行改進。