(四川大學網絡空間安全研究院 四川 610065)
事件是現實世界中客觀事實的陳述,每一個事件都反映了特定目標在一定的時間和環境內參與并表現出的動作特征。事件作為信息表示的一種重要形式[1],蘊含著豐富的信息,人們通常通過認識事件以及事件之間的聯系來認識和了解現實世界。隨著互聯網的發展以及人工智能技術的興起,自然語言處理領域關于事件與事件之間聯系的研究也隨之得到發展。在現實世界中,事件往往不是獨立發生的,其發生以及后續的發展都蘊藏著深層的邏輯聯系,一些看似無關的事件背后往往存在著一定的邏輯聯系。通過事件相關關系識別,能夠對大量的看似離散的安全事件,進行有效的事件演化、發展的推理與預測。事件之間存在的關系是極其復雜的,目前,在學術界,事件間的因果關系以及事件間的時序關系是主要研究方向,但在事件的相關關系上的研究較少,本文主要研究事件之間的相關關系。
Radinsky[2]等人通過新聞標題構建事件因果關系模板規則,利用模板匹配的方式,判斷新聞標題之間的因果性,從新聞標題中自動抽取事件對,并將這種事件對用于新聞事件預測。Zhao[3]等人在此基礎上,利用類似的方法進行事件對的抽取,然后利用WordNet 以及VerbNet 對事件泛化,構建抽象的事件因果關系網絡,再將事件因果關系網絡映射到一個連續的向量空間中,進行股票預測、事件預測等。
黃一龍[4]等人基于ACE(Automatic Content Extraction)2005 數據集,提出了一個基于數據集中事件的多種特征的事件識別方法,根據已標注出的7 項事件屬性以及4 項擴展特征,使用最大熵分類器進行事件相關關系判定。Chambers[5]等人先提取出事件中的事件描述屬性,如時態、語法以及句法特征,然后使用SVM 進行事件時序關系的判定。
付劍鋒[6]等人將事件關系識別轉化為對事件序列的標注問題,采用兩層CRF 標注出事件之間的因果關系。
本文將對事件對關系的抽取問題轉化為對事件對關系的二分類問題,提出基于層級注意力網絡的事件相關關系識別方法。基于ACE 2005 數據集,標注ACE_COR 語料庫;在此基礎上進行事件句特征提取,一方面通過神經張量網絡獲取事件對語義特征;另一方面通過事件句的結構特征提取獲得5 項事件對結構特征,最后將事件對語義特征和事件對結構特征進行融合,經過Softmax 分類器,獲取事件之間相關關系的識別結果。
本文以ACE 2005 中文數據集為研究基礎,抽取以下幾個方面的特征作為事件對結構特征。
(1)事件對類型(TYPE)
事件對類型表征了相關事件的類型相關的可能概率。本文將事件對中的兩個事件實例的類型進行組合,形成事件對類型特征。ACE 數據集有8 類事件類型,兩兩組隊可以形成28 類事件對類型。將28 類事件對類型進行編號,按類型相關的可能概率依次遞增,則將事件對類型的特征標記為事件對類型對應的編號數值。
(2)事件對子類型(STYPE)
事件對子類型進一步細化了相關事件的子類型相關的可能概率。本文將事件對中的兩個事件實例的子類型進行組合,形成事件對子類型特征。ACE 數據集有33 類事件子類型,兩兩組隊可以形成528 類事件對子類型。將528 類事件對子類型進行編號,按子類型相關的可能概率依次遞增,則將事件對子類型的特征標記為事件對子類型對應的編號數值。
本文設計了一個基于神經張量網絡[7](Neural Tensor Network,NTN)的語義模型對事件論元進行語義組合,能更好捕獲事件論元間的交互信息,然后構建了一個孿生神經網絡模型(ECR_NTN)對事件對進行建模,如圖1 所示例。

圖1 ECR_NTN 模型
本文模型主要分為4 個步驟:
(1)本文基于ACE 數據集的特點,將事件表示為一個四元組的形式:e={v,o1,o2,o3,o4},其中v 是動詞,o 是事件核心參數。將這些事件論元進行拼接,然后通過Word2Vec 獲得每一個事件的詞向量表示作為模型輸入,維度為300 維。
(2)通過兩個共享權重參數的張量神經網絡NTN,對事件的詞向量表示進行更深一步的挖掘,捕獲事件論元的交互信息,完成事件的表示,然后通過concat 方式,將兩個事件表示連接成事件對表示。
(3)通過兩個隱藏層,維度大小分別為100 與50,將事件對表示維度降低后,與事件對結構特征進行拼接,獲取最終的向量表示。
(4)最后通過,一個激活函數為“softmax”的Dense 層完成事件對相關關系的預測。
數據源采用的是信息抽取領域的主要數據集ACE 2005,本文在其之上進行標注,形成ACE_COR 數據集,數據集情況如表1 所示。

表1 數據集情況
為了更加充分地評估本文模型的性能和有效性,將本文模型與傳統機器學習SVM、RF 模型、神經網絡學習RNN 以及常見的深度學習Bi-GRU、Bi-LSTM 模型進行對比,本組實驗使用本文所構建的ACE_COR 語料庫,并在同等參數條件下建立以上5 種模型,各類模型性能對比結果如表2 所示。
如表2 所示,不難看出,基于傳統機器學習的SVM、RF 模型在準確率、召回率、F1 值方面遠低于其他模型,這是因為SVM、RF 模型都只是淺層的機器學習模型,無法挖掘出深層次的數據特征,并且SVM、RF 模型只利用了提取出的事件對結構特征,并沒有利用到事件對語義特征,缺失了對于事件相關關系識別較重要的語義信息。
對于淺層神經網絡RNN 模型來說,淺層神經網絡已經能夠利用事件句并捕獲到數據中更加復雜的特征,所以準確率、召回率以及F1值都高于傳統的機器學習模型,但是該類模型也只能捕獲到局部的數據特征。

表2 與其他模型性能對比結果
對于深度神經網絡Bi-GRU 以及Bi-LSTM 模型來說,能夠將捕獲的上文信息以及下文信息進行融合,極大地豐富了向量的信息表示能力,最終生成的向量能夠更好地表達事件句的內在信息,因此這兩類模型的準確率、召回率以及F1 值相較前述的四類模型有明顯提高。
本文建立的ECR_NTN 模型的各性能評估值高于其他模型,這是因為ECR_NTN 模型利用層級注意力網絡捕捉到高注意度的詞句,從而學習到更加本質的事件句語義特征,進而提升了事件相關關系的識別能力。
本文設計了一個用于中文事件關系識別的深度神經網絡模型ECR_HAN,ECR_HAN 模型使用層級注意力網絡,以層次結構的形式提取事件句的語義特征,并結合事件對結構特征,完成事件相關關系的識別。本文基于ACE 2005 中文數據集標注了一個中文事件相關關系語料庫,在此基礎上建立了ECR_HAN 模型,將ECR_HAN 模型與傳統機器學習模型以及常用深度神經網絡模型進行對比,ECR_NTN 模型在準確率、召回率、F1 值上均有提高性。在本文工作中,在事件關系上只考慮了事件對之間的相關關系,在后續的工作中,可以對具有事件相關關系的事件對進行更加細粒度的劃分,從而更好探索事件之間蘊含的邏輯關系。