代建華,彭若瑤,許路,蔣超,曾道建,李揚定
湖南師范大學 語言與文化研究院/智能計算與語言信息處理湖南省重點實驗室, 長沙 410081
信息抽取旨在從非結構化文本中抽取出結構化的信息, 例如從病人的醫療記錄中抽取出癥狀、 檢驗結果等一系列信息, 主要包括實體抽取、 實體關系抽取、 事件抽取和事件關系抽取等任務[1]. 實體抽取也稱為命名實體識別(Named Entity Recognition, NER), 是指從文本中抽取出具有特定意義的實體, 如人名、 地名、 機構名、 專有名詞等, 命名實體識別在各種自然語言處理應用中發揮著重要作用. 實體關系抽取則是判斷2個實體之間的語義關系. 事件抽取任務旨在識別特定類型的事件, 并把事件中擔任既定角色的要素以結構化的形式呈現出來, 該任務可進一步分解為4個子任務: 觸發詞識別、 事件類型分類、 事件論元識別和角色分類任務. 其中, 觸發詞識別即識別出句子中促使事件發生的核心詞, 通常是名詞或者動詞. 例如, “2008年北京舉辦了奧運會”中的“奧運會”就是名詞性觸發詞. 對于事件類型分類旨在判斷句子中觸發詞所對應的事件類型, 包括出生、 結婚、 死亡等. 事件論元識別即識別出事件中的論元, 也就是事件的參與者, 主要由實體、 值、 時間組成. 角色分類則是判斷句子中觸發詞和實體之間的角色關系, 如攻擊者、 受害者等. 事件抽取屬于信息抽取領域中的深層次研究內容, 它需要前述的幾項研究作為基礎, 涉及自然語言處理、 機器學習、 模式匹配等多個學科的方法與技術, 在信息抽取、 情報學等領域都有很好的應用前景. 事件關系反映了事件之間的一種語義關系, 可以為文本的深層理解提供關鍵線索, 事件關系抽取的目的則是提取一段文本內容中2個事件可能存在的關系, 例如“昨天突然降溫導致小王感冒了, 所以昨晚去了醫院”, 其中事件對(降溫, 感冒)、 (感冒, 去醫院)存在因果關系. 事件之間存在多少種關系類型仍然是一個有爭議的問題, 目前事件關系抽取主要研究共指關系、 因果關系和時序關系, 此外關系文本的多樣性和隱含性使得從文本中識別不同類型的事件關系面臨巨大挑戰.
自20世紀80年代信息理解會議(Message Understanding Conference, MUC)提出信息抽取任務以來, 信息抽取一直是自然語言處理的研究熱點. 早期主要采用基于規則的方法, 該類方法依靠人工制定規則, 其優點是可解釋性強而且不需要太多已標注的語料庫, 但是總結規則模板耗時長且模板可移植性差, 此外規則和詞典的維護任務也很繁重. 由于該類方法的諸多限制, 研究人員開始使用統計模型輔助機器學習算法來進行信息抽取, 主要通過一些統計學的手段對文本的一些特征信息進行統計, 然后利用機器學習擬合從輸入到輸出過程中的模型參數. 隨著深度學習時代的來臨, 基于深度學習的信息抽取模型受到廣泛關注, 研究者主要聚焦于如何使用深度學習方法自動提取句子中的有效特征, 不僅可以彌補傳統工程的缺點, 還可以避免使用傳統自然語言處理工具抽取特征時存在的錯誤累積問題[2]. 隨著研究的深入, 特別是大規模預訓練語言模型(Pre-trained Language Models, PLMs)的引入[3], 基于深度神經網絡的信息抽取模型在公開數據集取得了不錯的成績. 信息抽取技術是中文信息處理和人工智能的核心技術, 具有重要的科學意義. 通過將文本所表述的信息結構化和語義化, 信息抽取技術提供了分析非結構化文本的有效手段, 是實現大數據資源化、 知識化和普適化的核心技術. 被抽取出來的信息通常具有結構化的形式描述, 計算機可以直接處理, 從而實現對海量非結構化數據的分析、 組織、 管理、 計算、 查詢和推理, 并進一步為更高層面的應用和任務(如自然語言理解、 知識庫構建、 智能問答系統、 輿情分析系統)提供支撐. 本文將對基于深度神經網絡的信息抽取相關研究工作進行綜述.
信息抽取的核心是將非結構化的自然語言映射為結構化表示, 并轉換為可供計算機處理的知識. 然而, 自然語言表達具有多樣性、 歧義性和結構性的特點, 其中蘊含的知識也具有復雜性、 開放性以及規模巨大的特點, 進而導致信息抽取任務極具挑戰性.
在早期, 大部分信息抽取系統采用基于規則的方法, 該類方法依靠人工制定抽取模板, 優點是可預判和解釋, 但這種方法有其自身的局限性, 如移植性差, 很多場景很難甚至無法總結出有效的規則. 自90年代以來, 統計模型成為主流方法, 通常將信息抽取任務形式化為從文本輸入到特定目標結構的預測, 使用統計模型來建模輸入與輸出之間的映射, 并使用機器學習方法來學習模型參數. 隨著深度學習時代的來臨, 研究者開始探索如何使用深度神經網絡自動學習有區分性的特征, 進而避免使用傳統自然語言處理抽取特征時存在的錯誤累積問題[2]. 隨著研究的深入, 大規模預訓練語言模型[3]加下游任務微調的范式成為主流, 基于深度神經網絡的信息抽取模型性能得到很大提升.
實體抽取也稱為命名實體識別, 是自然語言處理領域的基礎且重要任務之一, 其目標是從非結構化的文本中抽取出具有特定意義或者指代性強的實體, 實體抽取任務是文本理解、 機器翻譯、 信息檢索、 知識庫建設等眾多自然語言處理任務的基礎工具. 最早在第六屆信息理解會議(MUC6)上提出“命名實體”并闡明了人員、 組織和本地化的語義識別以及時間和數量等數字表達式的重要性. 自MUC6以來, 研究人員對實體抽取的研究興趣越來越濃厚. 傳統的實體抽取方法主要分為三大類: 基于規則的方法、 基于無監督學習的方法、 基于有監督學習的方法.
早期的實體抽取系統使用手工構造的基于規則的算法, 這類算法通過選擇標點符號、 關鍵字、 指示詞等特征, 采用專家構造的規則模板, 通過模式和字符串匹配手段來識別實體, 這類算法往往依賴于知識庫或者詞典. 1991年Rau在第7屆IEEE人工智能應用會議上首次發表了抽取和識別公司名稱的研究成果, 該成果主要采用啟發式算法和手工編寫規則的方法[4]. 隨后, 多個基于規則的命名實體識別系統被相繼提出. 基于規則的方法不僅可解釋性強而且不需要太多已標注好的語料庫, 但其局限性在于構建成本高, 且規則針對特定領域, 擴展性較差. 無監督學習的方法主要是基于聚類, 通常根據上下文相似度, 利用分布統計信息從未標記的文本中提取出實體. 隨著大量標準語料的出現, 研究者開發了許多基于監督學習的實體抽取系統, 該方法通常將實體抽取任務轉換為多分類任務或者序列標注任務, 其主要步驟是從訓練樣本中學習出一個函數, 通過這個函數預測出新樣本的結果. 上述這些方法在很大程度上依賴于特征工程和特定的訓練數據, 當設計的特征不適合任務時, 可能會導致誤差傳播的問題.
近年來, 深度學習成為了主流, 并受到了各大領域的廣泛關注, 在過去幾年里, 深度神經網絡也被引入到實體抽取任務中來并取得了顯著的成功, 針對該任務提出了各種各樣的深度神經網絡模型. 深度神經網絡具有強大的特征提取能力, 能夠自動學習任務所需的有效特征. 循環神經網絡(Recurrent Neural Network, RNN)、 門控循環單元(Gated Recurrent Unit, GRU)、 長短期記憶網絡(Long Short-Term Memory, LSTM)等模型在序列數據建模方面取得了顯著成績, 這些神經網絡模型中往往使用的都是詞向量表示, 對于詞表外的詞則無法得到很好的表示, 因此許多研究人員通過添加字符向量來解決該問題. Li等[5]提出了一種基于RNN的方法WCP-RNN來提取中文生物醫學命名實體, 不僅考慮了詞向量還加入了字符向量來捕獲正字法和詞匯語義特征, 此外還將POS標簽作為先驗詞信息以提高最終性能. Huang等[6]借助了條件隨機場(Conditional Random Field, CRF), 提出利用BiLSTM-CRF架構來解決命名實體識別任務, BiLSTM相較于普通的RNN對長序列具有更好的建模能力, CRF也可以有效利用句子級的標注信息, 此外該模型具有較好的魯棒性. 隨后, 一系列基于BiLSTM-CRF的工作被提出[7-8]. Lample等[8]利用BiLSTM來提取單詞的字符級表示, 提出了一種將BiLSTM與CRF結合用于英文序列標簽預測的任務. RNN對時間序列處理的很好, 但是忽略了空間上下文的問題, 因此許多研究人員將CNN引入實體抽取中獲得了不錯的性能. Ma等[7]提出的BiLSTM-CNN-CRF模型在BiLSTM-CRF中加入了CNN, 能夠提高模型提取詞語上下文特征的能力. 注意力機制[9]在機器翻譯、 圖像分類、 語音識別等許多自然語言處理應用中發揮了巨大的優勢, 一些研究人員試圖將其應用于實體抽取任務中[10-11], 注意力機制有助于關注輸入序列的相關部分, 并捕捉較長序列的長期依賴, 能夠有效地從高維數據中提取特征. Zheng等[11]將卷積神經網絡與局部注意力機制結合形成卷積注意力層, 用于捕捉局部上下文信息, 并在雙向門控循環單元(Bidirectional Gated Recurrent Unit, BiGRU)和CRF層中間應用全局注意力機制優化對句子級信息的處理. 通過大量研究結果表明, 注意力機制可以提高NER模型的性能.
BERT等大規模預訓練語言模型在多項自然語言處理任務中獲得了較高的性能, 此外許多研究引入深度學習模型進行微調以更好完成實體抽取任務, 整合或微調預訓練語言模型的嵌入已成為深度神經網絡的新范式. 一方面這些嵌入表示是隨上下文變化的, 并且可以和傳統的嵌入表示相結合, 在多種任務上取得了較好的效果. 另一方面, 通過微調預訓練語言模型能夠遷移至其他各項任務中. Li等[12]在未標記的中國臨床記錄上預訓練了BERT模型, 同時他們證明相較于只進行微調的BERT模型, 在經過微調的預訓練BERT模型之上添加BiLSTM-CRF層效果更好. 此外, BGRU-CRF層在優化后的BERT模型上也取得了良好的效果[13].
實體關系抽取也稱為關系事實抽取, 也是自然語言處理領域的基礎任務之一, 其目標是在自然語言文本中識別出成對的命名實體, 并抽取出實體對之間的關系, 生成關系三元組. 即將非結構化文本轉化為結構性的知識, 在知識圖譜的構建、 融合等方面發揮重要作用[14-15].
早期的實體關系抽取方法可分為基于規則的方法和基于統計模型的方法. 基于規則的方法需要領域專家和語言學家之間的合作, 依靠人工制定規則, 構建基于單詞、 文本片段或語義的模式知識集. 有了這些語言知識和專業領域知識, 可以通過將預處理的文本進行模式匹配來實現實體關系抽取. 其優點是可預判和解釋, 但面臨移植性差的缺點, 依賴于人工窮舉規則, 然而有的運用場景很難總結出有效的規則, 更無法做到窮舉. 基于統計模型的方法通常將實體關系抽取任務轉為從文本輸入到特定目標結構的預測, 使用統計模型來建模輸入與輸出之間的關聯, 并使用機器學習方法來學習模型的參數. 可以細分為有監督方法、 半監督方法、 遠程監督方法和無監督方法. 這一類方法相對于基于規則的方法有明顯改進, 但總體上仍依賴于人工提取的特征, 領域適應性差, 在實際的運用場景中效果欠佳, 且使用傳統工具抽取特征將不可避免存在誤差傳播的問題.
為了解決這些問題, 研究者開始探索如何使用深度神經網絡自動學習到有區分性的特征, 進而避免使用傳統自然語言的特征抽取方法, 最初大多采用流水線方法進行關系抽取, 該方法將關系抽取任務拆解為命名實體識別和關系分類2個任務, 并為2個任務分別訓練模型, 即先對命名實體識別模塊進行訓練, 再將已訓練完成的命名實體識別模塊的輸出作為關系分類任務的輸入, 用以實現對關系分類模塊的訓練. 但流水線方式存在命名實體識別模塊的錯誤向后續模塊傳遞的問題, 并且忽視了2個任務之間的關聯性, 捕獲復雜語義關系能力較弱. 此外, 它們假設句子中只有一個關系實例, 而忽略了關系之間潛在的相互依賴關系. 由于流水線方法的固有缺陷, 研究人員將目光轉向了實體關系聯合抽取. Getoor等[16]首先指出NER和關系分類是密切相關的, 他們使用單獨的分類器識別句子中可能的實體和關系, 這些分類器的輸出用于使用線性規劃計算最佳關系事實. 聯合抽取方法主要分為兩類, 一類是表填充方法, 另一類是序列到序列方法. Miwa等[17]首先提出了表填充方法, 設計了一個實體關系表, 將關系抽取任務轉化為表格填充. 對于表填充方法, Gupta等[18]使用神經網絡對實體和關系進行聯合建模, 并開發了一種上下文感知的循環方式來學習關系的相互依賴性. 但表填充方法只能為每個實體對預測唯一的一個關系, 若一個實體對存在多種關系則無法被完整抽取, 即無法解決實際運用場景中的三元組重疊問題. Bekoulis等[19]添加了一個額外的CRF層來標記實體, 并設計了一種新的表格方案, 即多頭選擇, 用以解決三元組重疊問題.
序列到序列方法將關系抽取任務重新定義為序列生成問題. 這種模型的主干是編碼器-解碼器結構. 編碼器以一個句子作為輸入, 解碼器需要自動生成序列結果, 該結果可以進一步轉換為關系三元組. 序列到序列的方法最早由Zeng等[20]提出, 該方法將關系抽取視為生成三元組的任務, 其中實體從源句中復制, 關系則由預定義的關系集預測. Zeng等[21]進一步應用強化學習來學習提取順序. 這2項探索性研究存在一個問題, 即無法處理由多個詞構成的實體. 為此, Zeng等[22]在編碼器部分添加了序列標注層, 以幫助實體識別. 基于序列到序列的方法已經取得了很大的進展, 但仍然存在一些缺陷. 首先是前向解碼錯誤, 解碼器基于RNN, 以自回歸方式從左到右生成關系三元組. 當前的三元組預測依賴于先前的三元組, 一旦在某一步中出現解碼錯誤, 由于噪聲左側上下文的負面影響, 后續預測將進一步積累誤差. 其次是忽略了關系共現信息, 來自同一句子的三元組之間的關系有很強的相關性, 我們將其稱為關系共現信息, 這些信息可以用來預測一些僅考慮句子本身時難以預測的關系. 隨著深度神經網絡的不斷發展, 基于序列到序列方法的大規模預訓練語言模型在關系抽取任務中取得了很好的效果. 但是, 這些方法仍然難以滿足實際的應用場景. 對于金融、 醫療等垂直領域, 缺失標注數據現象更為明顯, 甚至數據獲取也很困難, 而神經網絡作為典型的“數據饑渴”模型, 在訓練樣例過少時性能會受到極大影響. 針對小樣本任務, Han等[23]發布了小樣本關系抽取數據集FewRel, Gao等[24]在 FewRel 數據集的基礎上提出了FewRel 2. 0, 增加了領域遷移和“以上都不是”檢測. 利用海量無監督數據得到的預訓練模型得到有效的語義特征是少量樣本快速學習知識的代表性方法.
真實場景中的關系還面臨著復雜的語境, 例如, 大量的實體間關系是通過多個句子表達的, 同一個文檔中的多個關系相互關聯. 文檔級的關系抽取最近也受到廣泛的關注, 代表性的方法是使用GNN融合分布在文檔中不同位置的實體信息, 并利用圖算法進行信息的傳遞. Christopoulou 等[25]構建以實體、 實體提及和句子為節點的文檔圖, 并通過圖上的迭代算法得到邊的表示進行關系分類, 之后有大量的研究者采用類似的方法對文檔建模. 除使用圖網絡外, 研究者也開始嘗試直接使用大規模預訓練語言模型建模文檔[26-27]. Zhou等[27]提出自適應閾值代替用于多標簽分類的全局閾值, 并直接利用預訓練模型的自注意力得分找到有助于確定關系的相關上下文特征.
事件是指在特定時間和特定地點發生的某件事, 涉及一個或多個參與者, 通常可以描述為狀態的變化. 事件抽取任務旨在識別特定類型的事件, 并以結構化的形式把事件中擔任既定角色的要素呈現出來, 該任務可進一步分解為4個不同難度的子任務: 觸發詞識別、 事件類型分類、 論元識別和角色分類任務. 事件抽取屬于信息抽取領域中的深層次研究內容, 它需要前述的幾項研究作為基礎. 在實際應用中, 事件抽取在信息檢索、 問答、 知識圖譜構建等領域中得到了廣泛的應用, 具有重要的研究意義和實用價值.
最早的事件抽取方法主要是基于規則的方法, 后來逐漸發展為模式匹配的方法, 它首先構造一些特定的事件模板, 然后通過各種模式匹配算法從文本中提取出符合模式約束條件的事件. 第一個基于模式的事件抽取系統來自1993年Riloff等人開發的用以提取恐怖事件的autolog系統[28], autolog利用了一組語言模板和一個手工標注的語料庫來獲取事件模式. 隨后, 也有研究者提出使用弱監督方法或自擴展技術, 通過使用少量的預分類訓練語料庫或種子模式來自動獲取更多的模板. 基于模式的事件抽取技術在許多工業領域中得到了廣泛的使用, 但由于其成本過高, 因此各種基于機器學習的事件抽取技術得到了快速發展. 基于機器學習的方法提取事件本質上是將事件抽取作為一個分類問題, 其核心在于分類器的構建和特征的選擇. 其主要過程是從訓練樣本中學習分類器, 然后應用分類器從文本中提取事件. 基于機器學習的方法能夠有效地捕捉觸發詞、 論元以及觸發詞之間關系的語義信息, 具有較高的可移植性和靈活性.
特征工程是基于機器學習的事件抽取任務的主要難點, 與經典的機器學習技術相比, 近年來發展迅速的深度學習方法可以自動提取句子中的顯著特征, 不僅可以使特征較好地適應其他特定的領域, 而且可以通過學習不斷地自動更新特征表示. 研究人員將許多深度神經網絡模型引入到事件抽取任務中, 通常將單詞表示作為輸入, 分類這些詞是否為事件觸發詞. Nguyen等[29]將事件抽取問題形式化為一個多分類問題, 利用卷積神經網絡自動從預訓練的詞嵌入、 位置嵌入和實體類型嵌入中學習特征表示, 克服了復雜的特征工程和誤差傳播, 但它依賴于其他監督模塊來獲取特征. Chen等[30]提出了一種動態多池化卷積神經網絡DMCNN, 根據事件觸發詞和論元使用一個動態多池層來保留更多關鍵信息, 他們引入了一個單詞表示模型來捕獲詞級別的語義信息, 并采用基于CNN的框架來捕捉句子級別的特征. 基于CNN的事件抽取模型的缺點是不能很好地捕獲遠距離的詞之間的語義依賴, 而RNN結構理論上可以對任意距離的2個詞進行建模表示. 因此, 許多研究者嘗試將循環神經網絡應用于事件抽取中. 如Sha等[31]提出的dbRNN模型將2個RNN神經元的句法依賴連接添加到雙向RNN中. 上述結構均難以處理圖形數據結構, 并且它們不能完全模擬詞間的依賴關系. 研究者開始將GNN引入到事件抽取[32]中, 其核心問題是為文本中的單詞構建一個圖. 隨著Transformer[9]的提出, 自注意力機制發揮了巨大的作用, 研究者們提出了許多基于自注意力機制來學習句子中每個單詞的重要程度. Ahmad等[33]提出的GATE框架引入了一種自注意力機制來學習不同句法距離單詞之間的依賴關系, 一方面GATE具有捕捉長距離依賴關系的能力, 另一方面, GATE使用句法距離來建模單詞之間的成對關系從而使其適合在不同類型的語言之間轉換.
隨著BERT的成功, 預訓練語言模型也被用于事件抽取[34]中. 由于預訓練語言模型使用了大量的未標記數據進行學習, 相較于傳統的神經網絡, 使用預訓練語言模型進行特征學習有很大的改進. 而Wadden等[34]發現基于預訓練語言模型的工作通常只專注于更好地微調, 因此轉而研究如何在大規模無監督數據中更好地利用豐富的事件知識來提高性能. 隨著預訓練語言模型體量的不斷增大, 對其進行微調的硬件要求、 數據需求和實際代價也在不斷上漲. 基于預訓練提示(Prompt)學習范式[35]的方法允許語言模型在大量原始文本上進行預訓練, 通過定義一個新的提示模板, 能夠應用在少樣本甚至零樣本學習中. Si等[36]第一次將基于Prompt的學習策略引入事件抽取領域中, 自動利用輸入和輸出端的標簽語義. 此外, 現有事件抽取方法的研究大多集中在句子層面, 即假設一個事件往往在一個句子中得以表示, 通常使用句子級別的上下文中的局部信息, 然而很多情況下事件信息分散在整個文檔中, 這種情況需要有更多的全局信息, 因此如何提取文檔級別的事件成為了重點研究對象, 催生出文檔級事件抽取的任務, 文檔級的事件抽取任務更具挑戰性, 需要考慮多事件表達等問題. 早期研究者用基于模式和基于分類器的方法來解決這個問題, 直到最近幾年, 研究人員開始引入深度神經網絡. 例如, Zhang等[37]提出一種兩步方法, 通過檢測句子中的隱含論證來連接論證; Li等[38]擴展了該任務, 提出一種基于條件文本生成的端到端神經事件參數提取模型.
事件關系反映了事件之間的一種語義關系, 為文本的深層理解提供了關鍵線索. 事件關系抽取的目的主要是提取一段文本內容中2個事件可能存在的關系, 它在文本理解、 邏輯推理和知識圖譜構建等眾多應用中都發揮出了重要作用. 現有事件關系抽取研究主要包括共指關系抽取、 因果關系抽取以及時序關系抽取.
1.4.1 事件共指關系抽取
共指關系抽取旨在確定文檔中已識別的多個事件實例是否指向同一個事件. 共指關系可以當作一個分類任務處理, 即看2個事件是否指向同一事件類型. 經典的機器學習模型如決策樹算法、 最大熵算法、 支持向量機等被應用于共指關系抽取中. 基于機器學習的方法首先統計每個事件的上下文文本特征, 比如詞頻特征、 位置特征、 句法特征、 事件主題信息、 語言特征等, 然后利用機器學習方法進行二分類.
基于深度學習的共指關系抽取通常使用CNN或者RNN對事件的上下文信息進行特征提取, 然后對所提取的信息進行動態池化整合, 最后進行分類. Lee等[39]提出端到端的模型, 在不需要輸入額外的特征的情況下, 利用BiLSTM提取特征取得了好的效果. 使用CNN來提取出單詞的上下文特征信息, 只考慮了句子中單詞與單詞間的局部信息, 并未注意到上下文對共指判斷的影響, 因此, 注意力機制也被應用到事件關系抽取中. Bugert等[40]提出一種多注意力機制的卷積神經網絡模型, 主要解決了事件特征難以獲取的問題. 通過使用深層的CNN建立語言模型, 自動地獲取事件特征, 并使用注意力機制進行加權, 篩選重要的特征, 融合2個事件的特征, 判斷2個事件是否同指. 此外, 論元兼容性經常被納入事件共指關系抽取中作為判斷依據, 即若2個事件在任何一個論元角色中有不相容的論證, 它們就不能是共指的. Huang等[41]提出了一個遷移學習框架, 利用大量的未標記數據來學習2個事件提及之間的兼容性.
1.4.2 事件因果關系抽取
事件因果關系抽取旨在識別文本中事件之間的因果關系, 為邏輯推理、 問題回答等NLP任務提供了關鍵線索. 現有的方法通常將事件因果關系抽取作為一項分類任務, 通過判斷2個句子的事件觸發詞來確定它們之間是否存在因果關系, 或者進一步預測相應的因果關系類型. 早期的事件關系抽取方法主要使用特征工程的方法, 為了提取表明事件因果關系的有效線索, 研究人員探索了各種文本特征, 例如, 詞匯和句法特征、 時間模式等.
隨著深度學習的發展, 基于深度神經網絡的方法被用于事件因果關系抽取任務中, Dasgupta等[42]通過基于LSTM的模型從語言的角度確定了文本中因果關系的語言表達. 上述方法針對句子或者跨度不大的段落, 而現實過程中往往需要對文檔級別的文本內容進行因果抽取, 此時就需要進一步考慮句子和句子之間、 句子和段落之間以及段落和段落之間的關系. 近年來, 研究者嘗試利用圖神經網絡表示文檔建模中各種不同粒度的信息, 通過圖卷積、 隨機游走等算法融合不同級別的節點信息, 從而將局部信息和整體信息整合到一起, 取得了較好的效果. 針對文檔級別的事件因果關系抽取, Phu等[43]提出了一個基于圖卷積神經網絡的模型, 通過構建交互圖來捕獲輸入文檔中針對事件的重要對象之間的相關鏈接. 此外, 為了增強對因果關系的表征, 特別是當文本過短或者文本包含信息量過少時, 可能沒有充足的依據來判斷, 引入外部特征或者常識經驗對事件因果關系的抽取發揮了促進作用, Liu等[44]嘗試將外部知識融入事件因果關系抽取任務中增強推理能力, 還提出了一種模型泛化機制來學習事件無關的、 上下文特定的模式, 提高了模型的泛化能力. Cao等[45]同時利用描述性知識和關系知識解決文本中缺乏明確因果線索的問題.
1.4.3 事件時序關系抽取
事件時序關系抽取任務旨在抽取事件之間的時間先后順序關系. 近年來, 時序關系抽取的主流研究主要基于TimeML格式[46], 它是標識事件、 時間及其相互關系中使用最廣泛的標注體系. 除了時間規則外, 還使用一些通過統計上下文特征來構建基于機器學習的模型, 這種方法通常根據事件的屬性、 語法等信息給出事件對的特征空間, 利用機器學習算法給出關系抽取模型, 并通過該模型預測事件對所屬的時序關系類別. 最近, 許多神經網絡模型被用來捕捉時序, 例如RNN方法[47], 以及利用神經網絡和預訓練語言模型構建的端到端系統[48].
信息抽取技術研究蓬勃發展, 已經成為了自然語言處理和人工智能領域的重要分支. 這一方面得益于一系列國際權威評測和會議的推動, 如消息理解系列會議, 自動內容抽取評測(Automatic Content Extraction, ACE)和文本分析會議系列評測(Text Analysis Conference, TAC). 另一方面也是因為信息抽取技術的重要性和實用性, 使其同時得到了研究界和工業界的廣泛關注. 縱觀信息抽取研究發展的態勢和技術現狀, 本文認為信息抽取的發展方向包括:
1)高效的小樣本學習能力
目前的小樣本學習設定需要用一個巨大的訓練集來訓練, 測試時只給出N個類別, 每類K個樣本, 在這N*K個樣本上學習并預測. 真實場景下的小樣本學習不存在巨大的訓練集, 從GPT3 開始, Prompt學習范式受到研究者的關注, 該范式將下游任務也建模成語言模型任務, 給出幾條或幾十條樣本作為訓練集, 借助大規模預訓練語言模型中蘊含的大量知識, 取得了不錯的小樣本學習效果. 此外, 相對于傳統的Pretrain+Finetune范式, Prompt可以擺脫指數級的預訓練參數量對巨大計算資源的需求, 能高效地利用預訓練模型. 基于上述分析, 本文認為信息抽取的發展方向之一就是利用預訓練提示學習范式進行高效的小樣本學習. 具體包括: ①提示學習中信息抽取任務模板的設計; ②模板的自動學習與挖掘; ③預訓練提示學習范式進行信息抽取的理論分析.
2)多模態信息融合
目前信息抽取主要針對的是純文本數據, 而常見的文檔具有多樣的布局且包含豐富的信息, 文檔以富文本的形式呈現, 其中包含大量的多模態信息. 從認知科學的角度來說, 人腦的感知和認知過程是跨越多種感官信息的融合處理, 如人可以同時利用視覺和聽覺信息理解說話人的情感, 可以通過視覺信息補全文本中的缺失信息等, 信息抽取技術的進一步發展也應該是針對多模態的富文檔. 多模態信息的融合也是信息抽取的重要發展方向, 具體包括: ①多模態預訓練模型的設計; ②多模態信息抽取框架中跨模態對齊任務設計; ③多模態信息的提取和表示.
3)數據驅動和知識驅動融合
現有神經網絡信息抽取方法依靠深度學習以數據驅動的方式得到各種語義關系的統計模式, 其優勢在于能從大量的原始數據中學習相關特征, 比較容易利用證據和事實, 但是忽略了專家知識. 單純依靠神經網絡進行信息抽取, 達到一定準確率之后, 就很難再改進. 從人類知識獲取方式來看, 很多決策判斷的同時要使用先驗知識以及現有數據. 數據驅動和知識驅動結合是模擬人腦進行信息抽取的關鍵所在. 基于上述分析, 本文認為構建數據驅動和知識驅動融合的抽取技術是信息抽取的發展方向, 具體包括: ①基于神經符號學習的信息抽取框架設計; ②學習神經網絡到邏輯符號的對應關系; ③神經網絡對于符號計算過程進行模擬.
信息抽取技術是自然語言處理的核心技術, 它將文本所表述的信息結構化和語義化, 并將其作為計算機的輸入, 供機器識別并進行處理, 實現了對海量非結構化數據的分析、 組織、 管理、 計算、 查詢和推理, 并進一步為更高層面的應用和任務提供支撐. 本文介紹了信息抽取任務的研究概況, 總結了近些年來信息抽取以及關鍵技術的研究進展, 主要分析了3種信息抽取的方法, 即基于規則和模板的抽取方法、 基于傳統機器學習的抽取方法以及基于深度神經網絡的抽取方法, 其中重點介紹了基于深度神經網絡的方法. 最后, 總結了信息抽取領域的未來的發展方向, 包括高效的小樣本學習能力、 多模態信息融合以及數據驅動和知識驅動融合等.