陳新元,廖 濤
(安徽理工大學 計算機科學與工程學院,安徽 淮南 232001)
事件論元抽取是指從自然語言文本的事件中識別出所有論元[1],并為這些論元分配相應的角色屬性,然后將其以結構化信息的形式呈現給用戶。在公開數據集ACE2005中,將事件分為8個父類型和33個子類型,將論元分為35種角色。目前,研究者大多關注論元本身的語義特征,而忽略了依存關系特征、觸發(fā)詞和論元的位置關系特征以及觸發(fā)詞類型特征等隱層信息,導致論元抽取的效果不夠理想。為了能更好地利用隱層信息特征,本文提出基于依存感知建模的事件論元抽取方法,有效提高了論元抽取性能。
本文的模型主要分為3層:輸入層、特征抽取層和輸出層,具體流程如圖1所示。

圖1 事件論元抽取模型
首先,本文采用中文維基百科語料庫訓練Word2Vec,并通過該模型的skip-gram模式獲取目標文本的詞向量表示e(wori);其次,通過候選論元的空間關系構建一個10維的位置向量表示e(posi);最后,通過觸發(fā)詞的標注類型構建一個35維的類型向量e(typi)。因此,可得處于第i位置詞語的最終上下文語義增強向量表示ei,如公式(1)所示。

公式(1)中,⊕表示的是通過拼接的方式整合上述向量,最終得到事件句的上下文語義增強向量表示E={e1,e2,e3,……en},其中,ei代筆第i個候選論元的向量表示。
此外,句子文本在通過Bert預訓練之后,每一個詞都捕獲了局部以及全局的語義信息。給定事件句向量X={x1,x2,x3,……xn},其中n代表事件句的長度,xi代表事件候選論元,將向量X輸入到Bert中進行預訓練,得到訓練后的句子向量表示H={h1,h2,h3,……h(huán)n}。同時,為了獲取句子中候選論元的依存關系表示,本文采用百度的自然語言處理工具DDParser進行依存句法分析,獲取到詞間的依存關系表示為R={r1,r2,r3,……rn}。
為了讓候選事件論元能夠對關鍵的語義依存特征給予更多的關注,本層構建了依存嵌入注意力網絡。依存嵌入注意力網絡,即是利用候選論元之間的語義依存關系,將語義依存特征和上下文特征進行相關性計算,從而使文本中的事件論元能夠具備依存嵌入注意力。依存嵌入注意力網絡一共有N層,其中每一層的輸出結果是下一層的輸入信息,每一層網絡接收到信息后與語義依存特征向量進行相關性計算。
隨著依存嵌入注意力網絡的訓練層數逐漸加深,會面臨梯度消失或梯度爆炸的風險,進而影響整體的擬合效果。本文引用殘差網絡(ResNet)的思想對依存嵌入注意力網絡進行調整,保證信息在正向傳遞的過程中,經過殘差網絡的修正后,下一層網絡蘊含的信息量多于上一層網絡。殘差網絡基本結構由殘差單元組成,殘差單元由卷積層、歸一化層和激活函數組成。對于給定的輸入序列信息,首先殘差網絡將輸入信息依次通過卷積層訓練、ReLU激活函數激活以及BN層歸一化操作,然后將得到的輸出信息送入多個殘差單元中,最后再通過BN層和全連接層處理得到最終結果。
本文將事件句中的每個候選詞看作一個節(jié)點,將詞間的依存關系看作是結點之間的邊,每個節(jié)點都包含3種邊:自環(huán)邊、正向傳播邊和反向傳播邊,根據依存關系可以得到該事件句的依存鄰接矩陣G={A,B}。為了加強捕捉依存關系的同時不錯失其他關鍵的節(jié)點信息,本文通過依存感知建模算法對依存關系進行感知建模,具體過程如表1所示。

表1 依存感知建模算法
在另一通道中,經由輸入層傳來的上下文語義增強向量,將被輸送到Bi-GRU中進行序列編碼,該雙向門控循環(huán)神經網絡的具體計算過程如公式(2)和(3)所示。

公式(2)和公式(3)分別代表正向和反向的序列編碼計算,通過將正向和反向的GRU編碼結果進行拼接得到上下文語義增強特征表示P={p1,p2,p3,……pn}。
由前述可知,通過特征抽取層得到依存感知特征表示O={o1,o2,o3,……on}和上下文語義增強特征表示P={p1,p2,p3,……pn},本文通過多頭注意力機制把兩個特征進行融合。該層將含有依存感知特征的句子向量切割為三部分,分別與上下文語義增強特征表示進行注意力運算,得到最終的候選論元隱層信息表示lesn如公式(4)所示。

式中,att(E,m,n)表示對所有的候選論元進行線性加權操作。對于第i個候選論元wi,通過一個全連接網絡為得到的每個類別進行打分,計算公式如(5)所示。

其中,W表示權重矩陣,參數b表示偏移量。得到打分之后,通過softmax函數對事件論元角色進行分類預測,如公式(6)所示。同時,本文通過自適應矩估計算法對參數進行更新,同時采用Dropout機制以防止出現過擬合現象。

本實驗數據集使用的是由上海大學語義智能實驗室構建的CEC2.0中午突發(fā)事件語料庫。本文隨機選取260篇文本作為訓練集,選取37篇作為測試集,剩余35篇作為驗證集。本文在實驗過程中,通過驗證集不間斷的檢測F1的分數,直至找到最大值并保留對應的實驗參數,以作為最終結果。本文詞向量設置為200維,事件觸發(fā)詞類型向量設置為35維,位置向量設置為10維,總共245維,設置防過擬合機制Dropout的實驗參數為0.4。本文通過準確率P、召回率R和F1值作為實驗的評估標準。
本文與當前主流模型的實驗結果對比,如表2所示。

表2 事件論元分類實驗結果對比
此外,本文通過不同的依存嵌入注意力網絡層數的實驗結果對比,確立事件論元抽取性能最佳的網絡層數,不同網絡層數實驗結果如表3所示。與不構建依存嵌入注意力網絡相比,利用依存嵌入注意力計算能夠明顯提升事件論元抽取的性能。

表3 不同層數實驗結果對比
因此,依據語義依存關系的影響程度不同,給予關鍵語義依存關系更高的注意力權重,能很好地提升模型的效果。對于使用不同依存嵌入注意力網絡層數的模型,其得到的準確率P、召回率R和F1值各不相同。當模型層數為1時,模型出現欠擬合現象,隨著層數的加深,準確率小幅度下降,召回率和F1逐步提升,當層數為7時F1值最大,模型達到最優(yōu)效果。
本文通過獲取事件句的依存結構關系,并提出了依存感知建模算法對該關系進行建模,得到了依存感知特征;同時構建上下文語義增強向量,輸入到雙向門控循環(huán)神經網絡中進行序列編碼,得到了上下文語義增強特征;最后融合上述特征,并進行事件論元的角色分類,在CEC2.0語料庫上的F1值達到了64.1%。