彭楚越
(四川大學計算機學院,成都610065)
隨著信息技術的飛速發展,人類社會邁入大數據時代,大量網絡平臺每天都有數以萬計的自然語言文本產生,為了精準、快速地從海量的數據中篩選、獲取可用信息,信息抽取研究已然成為自然語言處理研究領域的熱點分支。事件抽取是信息抽取的重要子任務,目標是從包含事件信息的非結構化的文本中將事件信息以結構化的形式抽取出來。事件抽取可應用于反恐情報收集、新聞自動摘要等任務,結構化的事件信息可進一步應用于事件推理、信息檢索、知識庫建設等任務,具有豐富的研究價值。事件抽取的研究發展到現階段以基于神經網絡的方法為主,將事件抽取任務轉化為事件識別和論元角色分類任務,訓練神經網絡從標注數據中自動學習分類特征,在事件抽取研究工作中取得了較好成效。本文第一部分對事件抽取的定義作出詳細解釋,第二部分重點介紹自神經網絡方法被應用到事件抽取研究以來的相關工作。
事件抽取可按照是否預先定義事件類型結構(事件類型及每類事件包含的事件角色),分為限定域的事件抽取和開放域的事件抽取。限定域的事件抽取會預先定義好抽取哪些類型的事件,如“襲擊”事件、“殺人”事件、“審判”事件等。在定義事件類型的同時,也會定義好每類事件的參與者的角色,如“襲擊”事件中包含“襲擊者”、“受害者”、“工具”、“時間”、“地點”等事件角色。開放域的事件抽取旨在抽取出所有表達了事件的文本中的事件信息,不需要預先定義事件類型結構。通常在文章不特指“開放域”的情況下,所述的事件抽取都是限定域的事件抽取,本文主要研究“限定域”的事件抽取,下文提及的事件抽取皆指限定域的事件抽取。
事件:在特定環境、特定時間發生,并有若干角色參與的一件事情。
事件提及:包含有事件觸發詞及若干事件論元的一段文本。
事件觸發詞:清晰表達事件發生的核心詞。
事件論元:在事件中充當了某個角色的實體提及、時間表達、數值表達。
論元角色:事件論元在事件中充當的事件角色。
事件抽取就是從包含有事件信息的非結構化文本中,將事件觸發詞與事件論元以結構化的形式呈現出來。
事件抽取具體可分為四個子任務:事件觸發詞識別、事件類型分類、事件論元識別、論元角色分類。前兩個子任務可合并為事件識別任務,即識別事件提及中的觸發詞及其觸發的事件類型,后兩個子任務可合并為論元角色分類任務,即識別在事件提及中充當了事件角色的論元及其充當的事件角色。
例:假設定義“襲擊”事件為待抽取事件類型之一,針對自然語言文本“五名旁觀者在格拉斯哥機場襲擊事件中受傷”,事件抽取的任務是識別出觸發詞“襲擊”,表達的事件類型為“襲擊”,并且識別出事件論元“五名旁觀者”、“格拉斯哥機場”,在此襲擊事件中充當的角色分別為“受害者”、“地點”。
初期事件抽取的研究主要基于規則匹配或統計分析、人工設計特征的方法[1-5],這些方法或依賴于特定領域的專家對該領域掌握的專業知識,在不同領域之間的可移植性很低,或依賴于人為構建特征工程,工作量大且仍受人類知識局限的影響。近年來,將神經網絡應用于自然語言處理任務的研究取得了良好的進展,事件抽取的主流方法也發展為基于神經網絡的方法,旨在利用神經網絡自動地從訓練數據中學習到可用于事件抽取任務的數據特征。本文主要研究基于神經網絡方法的事件抽取。
基于神經網絡方法的事件抽取按照解決事件識別、論元角色分類這兩個子任務的流程又可分為管道式的事件抽取和聯合式的事件抽取。管道式的事件抽取將事件識別與論元角色分類兩個子任務以先后順序獨立進行。Chen等人[6]在2015年提出的DMCNN(動態多池化卷積神經網絡)就是很經典的管道式事件抽取模型,此模型將句子中每個詞編碼為詞嵌入向量,并加入了相對位置嵌入向量作為輔助事件類型分類的特征,在得到句子級別的特征時,與傳統CNN(卷積神經網絡)普遍采用的最大池化方式的不同之處在于,Chen的方法考慮到了一個句子中可能包含多個事件的情況,采用動態多池化的方式。在事件識別階段,根據當前待預測的候選觸發詞的位置,將句子經過卷積得到的特征圖進行分段池化,保留每個分段的最大值,這樣做可以捕獲句子不同部位的突出特征。完成事件識別任務后,觸發詞的事件類型得以確定,需要填充的事件角色隨之確定,再進入論元角色分類階段,根據觸發詞與候選事件論元的位置將句子經過卷積得到的特征圖分為三段進行池化,將各段池化的結果拼接構成句級特征。
管道式的事件抽取存在錯誤傳播的問題,事件類型識別錯誤,直接導致論元角色分類錯誤,且管道式的過程不可逆轉,論元角色的分類信息無法對事件識別任務起到輔助作用。聯合式的事件抽取對事件識別和論元角色分類兩個子任務進行聯合建模,利用子任務之間的交互信息達到協同訓練事件抽取模型的效果,提升事件抽取模型的整體性能。Nguyen[7]等人在2016年提出將RNN(循環神經網絡)運用到事件觸發詞和事件論元的聯合抽取任務中,對事件識別和論元角色分類兩個子任務進行聯合建模,該模型利用雙向的RNN從前到后、從后到前地為句中每個詞進行編碼,預測當前候選觸發詞的事件類型時,使用記憶向量記錄之前預測出的事件類型,以達到利用事件之間的關聯特征輔助后續事件識別的效果,若當前詞被識別為觸發詞,則將當前詞與各候選事件論元分別配對進行論元角色分類,在預測當前候選事件論元的角色時,使用記憶向量矩陣記錄之前預測出的事件類型和論元角色,以輔助當前候選事件論元的角色分類。Sha等人[8]針對過去神經網絡事件抽取模型對句法信息的利用不充分的現象,在2018年提出了DBRNN(Dependency-Bridge RNN,依存橋循環神經網絡),若兩詞之間具有依存句法關聯則建立依存橋,在預測當前詞是否為觸發詞及其觸發的事件類型時,考慮到與之以依存橋相連的詞的編碼信息,并為每類依存句法關系學習了權重,在融合信息時采取加權的形式。另外,作者利用張量刻畫所有候選事件論元之間的關聯特征,以提升論元角色分類的效果。
上述聯合式的事件抽取模型均通過共享神經網絡底層參數和向量的方式達到聯合建模抽取事件觸發詞和事件論元的目的,但盡管在同一模型中,事件識別與論元角色分類仍存在先后順序,并非同時進行,如何真正意義上同步實現事件觸發詞和事件論元的聯合抽取,仍是事件抽取研究的難題之一。
基于神經網絡的方法依賴大量標注數據,當前用于事件抽取研究的最廣泛也是最權威的數據集ACE2005規模較小,只涵蓋33個事件類型,且其中超過一半的事件類型的標注實例不超過100個。標注數據的稀缺是事件抽取研究面臨的一大瓶頸,而人工獲取事件信息的標注數據,對時間和人力資源的消耗亦是巨大的。于是,自動地獲取更多標注數據成為事件抽取的一大研究趨勢。Liu等人[9]在2016年提出融合框架關系詞典FrameNet擴充事件標注數據集,利用現有ACE2005數據集訓練ANN(人工神經網絡)事件識別模型,識別FrameNet中與ACE2005數據集中定義的33種事件類型存在良好映射的框架類型的例句,得到該例句的候選事件類型,再通過3個約束確定其事件類型,由此構建了基于FrameNet和ACE2005的事件標注數據集。Chen等人[10]在2017年提出將語義知識庫Freebase中的CVT看作事件實例,統計每類事件中事件角色被論元填充的頻數,計算每個事件角色與事件類型的相關度,選擇相關度高的事件角色作為該類事件的關鍵論元角色,依靠遠程監督的方法為Wikipedia語料中包含了某類事件關鍵論元的句子標注對應的事件類型,由此得到基于Wikipedia語料構建的事件標注數據集。Huang等人[11]在2018年提出將零樣本遷移學習的方法用于事件抽取,利用已有標注數據的事件類型的標注數據CNN對所有事件類型結構(包括沒有標注數據的事件類型)和事件提及的AMR語義結構進行編碼,使事件提及與其所屬事件類型的語義結構特征相似度盡可能高而與其他類別的語義結構特征相似度低,從而實現事件提及的事件類型分類,此方法不需要針對新定義的事件類型重新人工標注數據,也能進行對新定義事件類型的識別。
以上工作為解決事件抽取研究缺乏可用標注數據的問題作出了貢獻,但不同語種的語料資源和自然語言處理工具的開發差異仍限制著許多事件抽取研究工作的跨語言通用性。
本文首先描述了事件抽取的研究背景、研究意義,接著對事件抽取的相關術語及任務的定義進行了闡述,簡要概括了基于規則匹配、特征工程的事件抽取方法的短板,引出基于神經網絡方法的事件抽取相關工作,將神經網絡事件抽取模型分為管道式和聯合式兩類進行了重點介紹。基于神經網絡方法的事件抽取研究在不斷進步,但神經網絡方法對大量標注數據的依賴與現有事件標注數據集規模小、人工標注事件數據代價大之間存在的沖突對事件抽取研究的發展形成了不小的阻礙,近年來為了解決缺乏事件標注數據的問題,有學者提出融合外部資源的方法自動地產生事件標注數據并獲取了值得肯定的結果,但事件抽取研究仍有很多難題等待著我們去攻克。