999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

事件抽取研究綜述

2023-02-05 11:30:54張聰聰都云程張仰森
計算機技術與發展 2023年1期
關鍵詞:方法模型

張聰聰,都云程,張仰森,2

(1.北京信息科技大學 計算機學院,北京 100101;2.北京信息科技大學 智能信息處理研究所,北京 100101)

0 引 言

事件不僅是社會活動的驅動力,也是社會活動的載體。它作為一種信息表示形式,在自然語言處理中起著重要作用。ACE國際評測會議將事件定義為:發生在某個特定時間點或時間段,某個特定地域范圍內,由一個或者多個角色參與的一個或多個動作組成的事情或者狀態的改變[1]。

事件抽取是構建事理圖譜[2]的重要任務之一,主要研究從非結構化的自然語言文本中自動抽取用戶感興趣的事件信息并以結構化的形式呈現,這對人們認知世界有著深遠的意義,是信息檢索、事理圖譜構建等相關應用的基礎。早期的事件抽取任務主要采用模式匹配的方法,隨著機器學習和深度學習的發展,使用特征工程和神經網絡的方法進行事件抽取受到越來越多的關注,事件抽取效果也隨之提升[3]。

首先,簡要敘述事件抽取的主要任務和評測指標;接著,對現有的事件抽取方法(基于模板匹配、機器學習)分別進行了詳細介紹;最后,概述事件抽取現階段的挑戰以及未來的發展趨勢。

1 事件抽取任務簡介

根據事件的復雜程度可以將事件抽取劃分為兩類:元事件抽取和主題事件抽取[4]。元事件指一個動作的發生或該動作狀態的改變。元事件抽取工作主要是識別該行為中參與的元素(如時間、地點、人物等)。而主題事件通常包含一系列元事件片段,這些事件片段都是基于某個核心的元事件并與之相關。現階段,事件抽取工作主要針對的是元事件的抽取,主題事件的抽取還處于起步階段。

事件抽取的主要工作是通過事件類型的識別獲取到相應的事件元素,并給這些事件元素分配角色。具體流程如圖1所示。

圖1 事件抽取流程

2000年,美國國家標準技術研究所(National Institute of Standards and Technology,NIST)首次舉辦了ACE評測會議,并在2005年將事件抽取任務納入ACE評測會議,該會議是目前國際上公認最具影響力的事件抽取公開評測會議[2]。ACE評測會議將事件定義為行為的發生或動作狀態的改變,并將事件抽取劃分為事件檢測和元素識別兩個子任務[1]。其中,事件檢測是指通過檢測文本中的事件觸發詞來判斷事件類型,每個事件類型都唯一對應一個事件表示框架。例如,競賽-勝負類型的事件表示框架是{賽事名稱,勝方,敗方}。元素識別則是根據事件表示框架識別文本中是否存在相應的事件元素,并為其分配角色。事件抽取工作包括識別事件觸發詞、事件類型、事件元素、元素角色[4]等。相關的術語說明如下:

實體:語義范疇中的一個或一類對象,包括人名、地名、組織名、載體名等。

事件提及(event mention):表示事件的短語或句子,包括事件觸發器和事件元素[5]。

事件觸發詞(event trigger):最能準確表達事件發生的關鍵詞通常是動詞或名詞[6]。

事件元素(event arguments):涉及特定事件的要素,包括概念、實體、價值、時間等。

元素角色(argument roles):事件元素與其涉及事件之間的關系。

在例句1中,事件抽取任務需要檢測到一個生活(life)類型和出生(born)子類型的事件,其中,事件觸發詞為“出生”,事件元素有“庫里”、“1988年”、“美國阿克倫”,其對應的元素角色是“人物”、“時間”、“地點”,具體內容如圖2所示。

圖2 事件抽取樣例

目前,事件抽取任務中經常使用DuEE數據集,這是一個用于真實場景中的中文事件提取(EE)的新數據集。與以前的事件抽取數據集相比,DuEE有幾個優點。(1)規模:DuEE包含19 640個事件,分為65個事件類型,以及映射到121個參數角色的41 520個事件參數,據我們所知,這是迄今為止最大的中國EE數據集。(2)質量:所有數據均經過人工標注,眾包審核,確保標注準確率高于95%。(3)真實性:架構涵蓋百度搜索的熱門話題,數據來自百家號新聞。該任務也接近現實世界的場景,例如,允許單個實例包含多個事件,允許不同的事件參數共享相同的參數角色,并且允許一個參數扮演不同的角色。

2 事件抽取效果評測

當前關于事件抽取的效果評測方法主要有兩種: 基于召回率與準確率的微平均值法和基于丟失率與誤報率的錯誤識別代價法。

(1)基于召回率與準確率的微平均值法。其中,P為準確率,即被系統標注為正確結果的總數和系統所有標注結果總數的比值,R為召回率,表示被系統標注為正確結果的總數與文本中標準標注結果總數的比值[7]。F1表示P值與R值的綜合度量。

其公式如下:

F1=2PR/(P+R)

(1)

(2)基于丟失率和誤報率的錯誤識別代價方法[8]。其中,Cmiss是一次損失的成本,Cfa是一次誤報的成本,L是損失率,M是誤報率,Ltar是系統對先驗概率的正面判斷,通常根據具體應用設置為一個常數。C是錯誤識別的代價,公式如下:

C=Cmiss*L*Ltar+Cfa*M*(1-Ltar)

(2)

上述兩種效果評測方法之間不存在簡單的反比關系,因此在分析兩種不同算法采用不同評估方法進行效果評測時,應進行適當的轉換。

微平均值法通常用于單一事件的提取任務,如緊急情況、財務信息等。對于主題跟蹤任務,人們通常對系統做出的錯誤判斷比準確率更敏感。這些錯誤包括:應為“是”的,判斷為“否”(丟失),應為“否”的,判斷為“是”(錯報)。因此,錯誤識別代價法通常被用作效果評價方法。此外,在實際應用中,各種事件抽取算法不僅要考慮識別結果的準確性,還要考慮算法的復雜性和可實現性。一些提取效果好的算法往往會犧牲時間。另外由于硬件要求高或訓練時間長,一些算法可能無法實現。

3 事件抽取研究方法

事件抽取工作主要是從非結構化文本中識別和提取事件信息,然后對其進行結構化表示。該文對事件抽取方法進行了梳理,總體上可以把事件抽取的實現方法劃分為兩種:(1)基于模式匹配的事件抽取方法;(2)基于機器學習的事件抽取方法;其中基于機器學習的方法又包括淺層機器學習與深度學習兩種。本節最后對上述兩種方法的抽取效果進行對比。

3.1 基于模式匹配的事件抽取

基于模式匹配的事件抽取方法是利用事件模板,進行事件檢測和元素提取。其中,事件模板可看作表示目標信息的上下文約束環境。使用模式匹配的方法進行事件抽取需要從模式庫中提取相應模式,然后將要抽取的事件語句與相應的模式進行匹配,從而獲取事件元素。具體流程如圖3所示。

圖3 基于模式匹配的事件抽取流程

早期的模式匹配方法,使用這種流程便可以輕松地抽取某一個領域的信息。然而隨著事件抽取在諸多領域的應用,模式匹配技術依賴于人工制作領域特定詞典這一問題,嚴重阻礙了事件抽取的發展。如何自動構建相關領域的詞典成為這一時期模式匹配技術急需解決的問題

1993年,Riloff等人[9]開發了一個名為AutoSlog的系統,該系統能夠自動構建特定領域的概念詞典,然后從文本中提取信息。1995年,Kim等人[10]開發出PALKA(并行自動語言知識獲取)事件抽取系統,該系統從一組特定領域的訓練文本及其所需的輸出中獲取語言模式,利用語義框架和短語結構進行事件抽取,解決了模式匹配方法難以擴展和移植的問題。

2005年,Stevenson等人[11]提出了一種新的獲取信息模式的方法。該方法假設有用的模式與那些已經確定的相關模式具有相似的含義,通過標準向量空間模型的變體比較模式,使用來自本體的信息捕獲語義相似性,與之前的方法相比,該方法的F1值提高了2%。2015年,Kai Cao等人[12]研究模式擴展技術,通過導入從外部語料庫中提取到的通用模式來提高事件抽取性能,實驗結果表明,具有擴展模式的模式匹配方法F1值為70.4%,高于基線1.6百分點。

總的來說,模式匹配的方法在某些特定的領域能夠取得不錯的效果,但是通過該方法實現的系統很難被應用到其他領域。原因是系統從一個領域到其他領域的移植需要重構匹配模式,而重新構建模式這個過程既耗時又費力,并且還需要領域專家的協助。雖然將統計模型引入模式匹配方法可以在一定程度上加快模式的獲取,但不同模式之間的沖突也是一個棘手的問題。此外,現有對語義程度的研究大多停留在句法層面,還有待進一步提高。鑒于上述存在的問題,基于機器學習的方法應運而生。

3.2 基于機器學習的事件抽取方法

基于機器學習的事件抽取方法包括淺層機器學習與深度學習兩種。

3.2.1 基于淺層機器學習的方法

基于淺層機器學習的事件抽取方法具有較高的可移植性和靈活性,其本質是將事件抽取轉化為分類問題,而分類問題的主要任務是選擇適當的特征,構造合適的分類器。分類器通常是基于統計模型構建,在基于淺層機器學習的事件抽取中主要應用到的統計模型有:最大熵模型、隱馬爾可夫模型、條件隨機場模型和支持向量機模型[13]。

事件抽取任務中首次應用到最大熵模型是在2002年,Chieu等人[14]在事件元素的識別中運用該模型,抽取演講公告和人員管理事件。隨后H. Llorens[15]在語義角色注釋中引入了條件隨機字段模型(CRF),并將其應用于TimeML事件抽取中。研究人員發現結合多種機器學習算法能夠提高事件抽取的效果。2006年,David Ahn[16]提出了一種簡單的、模塊化的事件抽取方法,該方法將事件抽取劃分為一系列分類子任務,每個分類子任務由機器學習分類器進行分類,進而評估這些子任務對整體任務性能的影響。

2008年,趙妍妍等人[17]為解決訓練模型中的數據不平衡和少量訓練數據帶來的數據稀疏問題,提出了一種事件觸發擴展和二元分類器相結合的方法,在參數識別步驟中,引入了基于最大熵的多分類方法,最終該事件抽取系統取得了較好的性能。基于此,2011年Yu Hong等人[18]提出了一種新的事件提取方法,他們利用跨實體推理將實體類型一致性視為預測事件提及的關鍵特征,通過這種推理方法改進了傳統的句子級事件抽取系統。

早期基于淺層機器學習的事件抽取通常將事件與實體分開建模,并在句子級別執行推理,這種做法忽略了文檔的其余部分。為解決該問題,2016年,Bishan Yang[19]提出了一種新的方法,對事件、實體及其關系的變量之間的依賴關系進行建模,并在文檔中對這些變量進行聯合推斷,目標是允許訪問文檔級上下文信息并促進上下文感知預測。實驗證明,該方法在ACE數據集上表現出了很好的效果。

上述方法雖然在某些程度上取得了長足的進步,但是這些方法的實現依賴于大規模的標注訓練語料庫。如果訓練語料不足或類別單一,會嚴重影響事件的抽取效果,因此,語料庫的建設成為了一項重要任務。由于語料庫的建設需要大量的人力和時間,為了解決這個問題,研究人員進一步探索了基于深度學習的事件抽取方法。

3.2.2 基于深度學習的事件抽取方法

深度學習即使用深層神經網絡的機器學習,與淺層神經網絡相比,深層神經網絡具有更好的特征學習能力,通過抽象數學的無監督逐層預訓練,可以更有效地表征原始數據的基本特征。Zhang Yajun等人[20]在2017年建立了基于深層神經網絡的事件識別模型,該模型利用BP神經網絡對事件進行識別,通過深層神經網絡抽取詞的深度語義信息。同時,他們還提出了一種混合式監督深層神經網絡,該網絡將有監督與非監督學習方法相結合,既可以提高識別效果,也可以控制訓練時間。

隨著對深度學習研究的深入,卷積神經網絡(CNN)[21]、遞歸神經網絡(RNN)[22]、圖神經網絡(GNN)[23]、transformer模型[24]等相繼被應用到事件抽取任務中。例如,2015年,Nguyen等人[25]使用卷積神經網絡(CNN)進行事件檢測,克服了傳統基于特征方法的兩個基本限制:復雜的特征工程和錯誤傳播。隨后,Chen Yubo等[26]在此基礎上提出了一種動態多池卷積神經網絡(DMCNN),該方法通過引入詞表示模型獲取詞的語義特征,然后采用卷積神經網絡(CNN)模型獲取句子級特征,并根據事件觸發器和參數使用動態多池層,以保留更多關鍵信息,有效解決了CNN網絡只能捕獲句子級特征這一缺點。

遞歸神經網絡(RNN)在命名實體識別等任務上取得的成功,顯示了其模型能夠處理不定長序列問題的能力。RNN模型由輸入層x、隱藏層h和輸出層y組成,其中隱藏層h是指RNN內部的狀態網絡,其結構如圖4所示。

在t時刻,ht表示當前隱藏層輸入,它由當前時刻的輸入xt和上一個隱藏層的輸出ht-1組成,而ht-1則包括了前一時刻的輸入信息以及上一個隱藏層中的信息。這樣,通過添加前一時刻輸入的隱藏層,增加了序列的歷史信息,從而可以利用距離獲取更長的句子信息。

圖4 RNN模型結構

2016年,Ghaeini[27]使用RNN處理多詞事件,這也是RNN在事件抽取任務中的首次嘗試。隨后Lin[28]等人采用改進的RNN模型,針對領域事件抽取中的語言特定問題,提出了一個卷積雙向LSTM神經網絡,該模型結合了LSTM和CNN,在沒有任何手工特征的情況下捕獲句子級和詞匯信息,然后在ACE 2005數據集上進行實驗,最終該方法在觸發標記和參數角色標記方面取得優異的性能。

隨著事件抽取技術的不斷發展,面向中文領域的事件抽取也受到了更多的關注,中文領域的事件抽取一般使用詞嵌入來捕獲相似性,但在處理稀有詞或以前未出現過的詞時會受到影響。研究者通過測試發現,字符能夠提供一些無法從句子中獲取的信息。鑒于上述問題,張俊一[29]基于注意力機制和語義特征,提出了一種結合詞表征的新結構—字詞嵌入。該方法通過使用注意力機制,從單詞或字符級別的嵌入中動態決定使用多少信息,然后借助語義特征,從句子中獲得更多關于單詞的信息。2017年,Duan Shaoyang等[30]考慮到句子的局部上下文不足以解決識別特定事件類型的問題,提出了一種文檔級遞歸神經網絡(DLRNN)模型,該模型可以自動提取跨句線索以改進句子級事件檢測,而無需設計復雜的推理規則。

前一階段的事件抽取,主要是對簡單句的抽取,即一個句子包含一個事件。但一般情況下,一個句子中存在多個事件是一種普遍現象,抽取這類事件比抽取單個事件更為困難。早期對包含多個事件的句子進行抽取時,通常采用順序建模的方法表征事件之間的關聯,這種方法在捕獲具有長依賴關系的事件上效率低下。于是在2018年,Xiao Liu等人[31]提出了一種聯合多事件抽取(JMEE)框架,即通過引入句法快捷弧來增強信息流,然后采用基于注意力的圖卷積網絡對圖信息進行建模,從而聯合抽取出多個事件觸發器和參數。在提取事件參數時,現有的提取方法會嚴重依賴實體識別作為預處理/并發步驟,從而導致錯誤傳播。為了避免此類問題,Du Xinya等人[32]在2020年引入了一種新的事件抽取范式,將其表述為問答(QA)任務,它以端到端的方式抽取事件參數,而且還能對訓練中未出現的角色抽取事件參數。在此基礎上,2021年Emanuela Boros[33]提出了一種改進的事件抽取范式,從而將事件抽取任務轉換為具有多個答案可能性和實體支持的問答(QA)問題。該方法基于預訓練和微調的語言模型,通過在不同級別標記的實體、實體位置、實體類型以及最后的參數角色對輸入上下文進行擴充。

事件檢測(ED)作為事件抽取的子任務對其性能的好壞有著重要作用,最近針對事件檢測的研究表明,句法依賴圖可用于圖卷積神經網絡(GCN)以實現事件抽取的最優性能。然而,在這種基于圖的模型中,隱藏向量的計算與候選觸發詞并無關聯,甚至會為事件預測時的候選觸發詞產生多余的信息。此外,當前的事件檢測模型不能利用依賴樹獲得單詞的整體上下文重要性分數來提高性能。鑒于上述問題,Nguyen[34]提出了一種新的門控機制,用于根據候選觸發詞的信息,過濾事件檢測中GCN模型隱藏向量的噪聲信息。

綜上所述,基于深度學習的事件抽取方法不僅克服了淺層機器學習的局限性,還能夠學習到更多抽象的數學特征,使數據具有更好的特征表達,從而實現文本事件的有效抽取。

3.3 典型事件抽取技術效果對比

通過對上述事件抽取技術發展過程的梳理,可以發現該項技術一直在不斷發展和完善過程中,從基于模板的抽取技術,到基于淺層機器學習的抽取技術,再到基于深度學習的抽取技術,事件抽取效果不斷得到提升,這種提升的過程也可以通過量化的評測指標體現出來。表1列舉了三種事件抽取實現方法中的代表性算法在ACE2005數據集上的抽取效果。

表1 典型事件抽取方法效果對比

通過表1可以看出,基于模式匹配的事件抽取方法的F1值可以達到70%左右(Kai Cao等[12]基于模式擴展的模式匹配方法),基于淺層機器學習的事件抽取方法,其F1值可以達到75%左右(Yu Hong等[18]連接實體及事件關系的抽取方法),而基于深度學習的事件抽取方法[35],F1值則能夠達到80%以上(基于PLM預訓練模型的事件抽取方法)。

與淺層機器學習和模式匹配方法相比,深度學習模型可以更有效地捕獲數據特征,因此,深度學習成為了當下事件抽取領域的主流方法。利用深度學習模型解決數據缺失的問題將為后續研究提供必要的支持。

4 事件抽取面臨的挑戰及研究趨勢

本節主要介紹事件抽取現階段面臨的挑戰及其未來的發展趨勢。

4.1 事件抽取面臨的挑戰

隨著事件抽取研究的深入發展,其在理論和應用上都取得了很大的進展。然而,人工智能和大數據技術的發展對事件抽取的準確性提出了更高的要求。目前面向事件提取的研究仍面臨許多挑戰,主要表現在以下幾個方面:

(1)缺乏大規模成熟的標注語料。

目前,事件抽取最主流的數據集還是ACE2005,而ACE2005是人工標注的數據集,只有33種事件類型,現階段,這么小規模的數據集難以支持訓練比較復雜的模型,測試結果也常常不那么穩定。因此,自動構建大型語料庫的技術和方法有待進一步研究。

(2)中文事件復雜的結構。

當前階段,中文領域的事件抽取工作仍處于起步階段。在技術層面上,中文事件內部結構的復雜性以及該工作依賴專家系統設計事件抽取框架的需要,導致中文事件抽取還沒有一個通用的框架。此外,人工標注的語料庫數據耗時耗力,所以現有的中文事件數據規模小、類型單一。

(3)事件抽取系統的可移植性并不理想。

受限于系統移植性差,現階段有關中文事件抽取的研究主要集中在生物醫學、微博、新聞、突發事件等方面。針對其他領域和開放領域的研究很少。

4.2 事件抽取的發展趨勢

隨著研究的深入和人工智能、大數據等先進技術的廣泛應用,可以預見事件抽取技術將在未來的研究中迅速發展,并呈現出以下發展趨勢:

(1)隨著相關技術的不斷發展,將進一步提高事件抽取的準確性和召回率。

(2)隨著跨文本語義理解和多語言文本處理技術的發展,跨文本和跨語言事件抽取的研究將更加廣泛,相關的應用系統將不斷發展。

(3)未來事件抽取研究將集中在應用程序上,并且該領域將繼續擴展,不再局限于特定領域,而是更加面向開放領域,并且系統的可移植性將得到進一步改善。

(4)相關的語料庫自動構建技術將取得突破,不再需要大量的人工能量,而語料庫的豐富將極大地促進事件抽取技術的發展。

5 結束語

基于深度學習的理論和方法在音頻、視頻、圖像和自然語言處理等眾多領域已經取得突破,并對事件技術的研究產生新的引領作用。由于基于深度學習的方法在挖掘語義關系、提取文本特征等方面有明顯的優勢,因此如何挖掘深度學習在事件抽取相關技術領域的潛力,提升事件抽取的性能,將是未來事件抽取技術的一個重要研究方向。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 欧美日韩亚洲综合在线观看 | 26uuu国产精品视频| 五月激情婷婷综合| www中文字幕在线观看| 亚洲香蕉伊综合在人在线| 色综合五月| 欧美性猛交xxxx乱大交极品| 福利一区在线| 国产高清在线观看| 欧美国产综合色视频| 自拍亚洲欧美精品| 国产成人精品无码一区二| 欧美丝袜高跟鞋一区二区| 在线播放91| 欧美 亚洲 日韩 国产| 国产免费羞羞视频| 漂亮人妻被中出中文字幕久久| 亚洲第一区欧美国产综合| 一区二区三区精品视频在线观看| 免费一级毛片在线播放傲雪网| 精品国产成人国产在线| 人人澡人人爽欧美一区| lhav亚洲精品| 亚洲色图在线观看| 亚洲AⅤ永久无码精品毛片| 国产精品高清国产三级囯产AV| 亚洲五月激情网| 日韩国产综合精选| 丁香婷婷久久| 国产亚洲精品97AA片在线播放| 97国产精品视频自在拍| 亚洲第一中文字幕| 国产精品永久久久久| 午夜性刺激在线观看免费| 国产美女精品在线| 国产精品久久久久鬼色| 欧美激情福利| 国产在线观看高清不卡| 2021国产精品自产拍在线观看| 成人午夜视频在线| 欧美午夜在线播放| 波多野结衣视频一区二区| 在线亚洲精品自拍| 国产第三区| 欧美区国产区| 国产一区二区丝袜高跟鞋| 国模在线视频一区二区三区| 久久精品国产精品青草app| 久草视频一区| 国产免费人成视频网| 天天色天天综合| 一区二区三区四区精品视频| 欧美色图第一页| 免费aa毛片| 免费毛片全部不收费的| 亚洲成人黄色在线| 亚洲开心婷婷中文字幕| 在线观看精品国产入口| 国产无码在线调教| 99re这里只有国产中文精品国产精品| 国产成人毛片| 欧美福利在线| 理论片一区| 四虎永久免费地址在线网站| 国产真实自在自线免费精品| 精品国产电影久久九九| 国产白浆在线观看| 亚洲乱强伦| 91麻豆精品视频| 免费女人18毛片a级毛片视频| 中文字幕有乳无码| 99国产精品一区二区| 亚洲中文字幕在线观看| 国产日产欧美精品| 亚洲综合狠狠| 久久精品人人做人人爽97| 欧美日韩免费| 91午夜福利在线观看| 亚洲人免费视频| 免费看a级毛片| 国产导航在线| 免费Aⅴ片在线观看蜜芽Tⅴ |