999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經網絡方法的事件抽取研究

2020-11-26 10:31:34彭楚越
現代計算機 2020年6期
關鍵詞:分類方法研究

彭楚越

(四川大學計算機學院,成都610065)

0 引言

隨著信息技術的飛速發展,人類社會邁入大數據時代,大量網絡平臺每天都有數以萬計的自然語言文本產生,為了精準、快速地從海量的數據中篩選、獲取可用信息,信息抽取研究已然成為自然語言處理研究領域的熱點分支。事件抽取是信息抽取的重要子任務,目標是從包含事件信息的非結構化的文本中將事件信息以結構化的形式抽取出來。事件抽取可應用于反恐情報收集、新聞自動摘要等任務,結構化的事件信息可進一步應用于事件推理、信息檢索、知識庫建設等任務,具有豐富的研究價值。事件抽取的研究發展到現階段以基于神經網絡的方法為主,將事件抽取任務轉化為事件識別和論元角色分類任務,訓練神經網絡從標注數據中自動學習分類特征,在事件抽取研究工作中取得了較好成效。本文第一部分對事件抽取的定義作出詳細解釋,第二部分重點介紹自神經網絡方法被應用到事件抽取研究以來的相關工作。

1 事件抽取的定義

1.1 限定域/開放域的事件抽取

事件抽取可按照是否預先定義事件類型結構(事件類型及每類事件包含的事件角色),分為限定域的事件抽取和開放域的事件抽取。限定域的事件抽取會預先定義好抽取哪些類型的事件,如“襲擊”事件、“殺人”事件、“審判”事件等。在定義事件類型的同時,也會定義好每類事件的參與者的角色,如“襲擊”事件中包含“襲擊者”、“受害者”、“工具”、“時間”、“地點”等事件角色。開放域的事件抽取旨在抽取出所有表達了事件的文本中的事件信息,不需要預先定義事件類型結構。通常在文章不特指“開放域”的情況下,所述的事件抽取都是限定域的事件抽取,本文主要研究“限定域”的事件抽取,下文提及的事件抽取皆指限定域的事件抽取。

1.2 事件抽取的相關術語

事件:在特定環境、特定時間發生,并有若干角色參與的一件事情。

事件提及:包含有事件觸發詞及若干事件論元的一段文本。

事件觸發詞:清晰表達事件發生的核心詞。

事件論元:在事件中充當了某個角色的實體提及、時間表達、數值表達。

論元角色:事件論元在事件中充當的事件角色。

事件抽取就是從包含有事件信息的非結構化文本中,將事件觸發詞與事件論元以結構化的形式呈現出來。

1.3 事件抽取的具體任務

事件抽取具體可分為四個子任務:事件觸發詞識別、事件類型分類、事件論元識別、論元角色分類。前兩個子任務可合并為事件識別任務,即識別事件提及中的觸發詞及其觸發的事件類型,后兩個子任務可合并為論元角色分類任務,即識別在事件提及中充當了事件角色的論元及其充當的事件角色。

例:假設定義“襲擊”事件為待抽取事件類型之一,針對自然語言文本“五名旁觀者在格拉斯哥機場襲擊事件中受傷”,事件抽取的任務是識別出觸發詞“襲擊”,表達的事件類型為“襲擊”,并且識別出事件論元“五名旁觀者”、“格拉斯哥機場”,在此襲擊事件中充當的角色分別為“受害者”、“地點”。

2 基于神經網絡方法的事件抽取

初期事件抽取的研究主要基于規則匹配或統計分析、人工設計特征的方法[1-5],這些方法或依賴于特定領域的專家對該領域掌握的專業知識,在不同領域之間的可移植性很低,或依賴于人為構建特征工程,工作量大且仍受人類知識局限的影響。近年來,將神經網絡應用于自然語言處理任務的研究取得了良好的進展,事件抽取的主流方法也發展為基于神經網絡的方法,旨在利用神經網絡自動地從訓練數據中學習到可用于事件抽取任務的數據特征。本文主要研究基于神經網絡方法的事件抽取。

2.1 管道式/聯合式神經網絡事件抽取模型

基于神經網絡方法的事件抽取按照解決事件識別、論元角色分類這兩個子任務的流程又可分為管道式的事件抽取和聯合式的事件抽取。管道式的事件抽取將事件識別與論元角色分類兩個子任務以先后順序獨立進行。Chen等人[6]在2015年提出的DMCNN(動態多池化卷積神經網絡)就是很經典的管道式事件抽取模型,此模型將句子中每個詞編碼為詞嵌入向量,并加入了相對位置嵌入向量作為輔助事件類型分類的特征,在得到句子級別的特征時,與傳統CNN(卷積神經網絡)普遍采用的最大池化方式的不同之處在于,Chen的方法考慮到了一個句子中可能包含多個事件的情況,采用動態多池化的方式。在事件識別階段,根據當前待預測的候選觸發詞的位置,將句子經過卷積得到的特征圖進行分段池化,保留每個分段的最大值,這樣做可以捕獲句子不同部位的突出特征。完成事件識別任務后,觸發詞的事件類型得以確定,需要填充的事件角色隨之確定,再進入論元角色分類階段,根據觸發詞與候選事件論元的位置將句子經過卷積得到的特征圖分為三段進行池化,將各段池化的結果拼接構成句級特征。

管道式的事件抽取存在錯誤傳播的問題,事件類型識別錯誤,直接導致論元角色分類錯誤,且管道式的過程不可逆轉,論元角色的分類信息無法對事件識別任務起到輔助作用。聯合式的事件抽取對事件識別和論元角色分類兩個子任務進行聯合建模,利用子任務之間的交互信息達到協同訓練事件抽取模型的效果,提升事件抽取模型的整體性能。Nguyen[7]等人在2016年提出將RNN(循環神經網絡)運用到事件觸發詞和事件論元的聯合抽取任務中,對事件識別和論元角色分類兩個子任務進行聯合建模,該模型利用雙向的RNN從前到后、從后到前地為句中每個詞進行編碼,預測當前候選觸發詞的事件類型時,使用記憶向量記錄之前預測出的事件類型,以達到利用事件之間的關聯特征輔助后續事件識別的效果,若當前詞被識別為觸發詞,則將當前詞與各候選事件論元分別配對進行論元角色分類,在預測當前候選事件論元的角色時,使用記憶向量矩陣記錄之前預測出的事件類型和論元角色,以輔助當前候選事件論元的角色分類。Sha等人[8]針對過去神經網絡事件抽取模型對句法信息的利用不充分的現象,在2018年提出了DBRNN(Dependency-Bridge RNN,依存橋循環神經網絡),若兩詞之間具有依存句法關聯則建立依存橋,在預測當前詞是否為觸發詞及其觸發的事件類型時,考慮到與之以依存橋相連的詞的編碼信息,并為每類依存句法關系學習了權重,在融合信息時采取加權的形式。另外,作者利用張量刻畫所有候選事件論元之間的關聯特征,以提升論元角色分類的效果。

上述聯合式的事件抽取模型均通過共享神經網絡底層參數和向量的方式達到聯合建模抽取事件觸發詞和事件論元的目的,但盡管在同一模型中,事件識別與論元角色分類仍存在先后順序,并非同時進行,如何真正意義上同步實現事件觸發詞和事件論元的聯合抽取,仍是事件抽取研究的難題之一。

2.2 解決缺乏事件標注數據問題的工作

基于神經網絡的方法依賴大量標注數據,當前用于事件抽取研究的最廣泛也是最權威的數據集ACE2005規模較小,只涵蓋33個事件類型,且其中超過一半的事件類型的標注實例不超過100個。標注數據的稀缺是事件抽取研究面臨的一大瓶頸,而人工獲取事件信息的標注數據,對時間和人力資源的消耗亦是巨大的。于是,自動地獲取更多標注數據成為事件抽取的一大研究趨勢。Liu等人[9]在2016年提出融合框架關系詞典FrameNet擴充事件標注數據集,利用現有ACE2005數據集訓練ANN(人工神經網絡)事件識別模型,識別FrameNet中與ACE2005數據集中定義的33種事件類型存在良好映射的框架類型的例句,得到該例句的候選事件類型,再通過3個約束確定其事件類型,由此構建了基于FrameNet和ACE2005的事件標注數據集。Chen等人[10]在2017年提出將語義知識庫Freebase中的CVT看作事件實例,統計每類事件中事件角色被論元填充的頻數,計算每個事件角色與事件類型的相關度,選擇相關度高的事件角色作為該類事件的關鍵論元角色,依靠遠程監督的方法為Wikipedia語料中包含了某類事件關鍵論元的句子標注對應的事件類型,由此得到基于Wikipedia語料構建的事件標注數據集。Huang等人[11]在2018年提出將零樣本遷移學習的方法用于事件抽取,利用已有標注數據的事件類型的標注數據CNN對所有事件類型結構(包括沒有標注數據的事件類型)和事件提及的AMR語義結構進行編碼,使事件提及與其所屬事件類型的語義結構特征相似度盡可能高而與其他類別的語義結構特征相似度低,從而實現事件提及的事件類型分類,此方法不需要針對新定義的事件類型重新人工標注數據,也能進行對新定義事件類型的識別。

以上工作為解決事件抽取研究缺乏可用標注數據的問題作出了貢獻,但不同語種的語料資源和自然語言處理工具的開發差異仍限制著許多事件抽取研究工作的跨語言通用性。

3 結語

本文首先描述了事件抽取的研究背景、研究意義,接著對事件抽取的相關術語及任務的定義進行了闡述,簡要概括了基于規則匹配、特征工程的事件抽取方法的短板,引出基于神經網絡方法的事件抽取相關工作,將神經網絡事件抽取模型分為管道式和聯合式兩類進行了重點介紹。基于神經網絡方法的事件抽取研究在不斷進步,但神經網絡方法對大量標注數據的依賴與現有事件標注數據集規模小、人工標注事件數據代價大之間存在的沖突對事件抽取研究的發展形成了不小的阻礙,近年來為了解決缺乏事件標注數據的問題,有學者提出融合外部資源的方法自動地產生事件標注數據并獲取了值得肯定的結果,但事件抽取研究仍有很多難題等待著我們去攻克。

猜你喜歡
分類方法研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
分類算一算
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 九色在线视频导航91| 亚洲黄色高清| 91激情视频| 午夜精品一区二区蜜桃| 亚洲色中色| 亚洲国产中文精品va在线播放 | 欲色天天综合网| 8090成人午夜精品| 国产精品久久久久久久久kt| 激情综合激情| 成人午夜免费观看| 久久一本精品久久久ー99| 欧美中文一区| 亚洲专区一区二区在线观看| 国产精品第一区| 乱人伦视频中文字幕在线| 四虎成人在线视频| 亚洲国产精品人久久电影| 97国产在线播放| 2020国产精品视频| 四虎永久在线精品国产免费| 日本亚洲最大的色成网站www| 国产69精品久久久久孕妇大杂乱 | 午夜人性色福利无码视频在线观看| 久久婷婷五月综合97色| 丝袜亚洲综合| 国产精品免费p区| 91免费片| 偷拍久久网| 精品国产免费人成在线观看| 精品五夜婷香蕉国产线看观看| 国精品91人妻无码一区二区三区| 亚洲青涩在线| 国产欧美综合在线观看第七页| 欧美另类第一页| 久久人搡人人玩人妻精品一| 日韩专区欧美| 青青久视频| 亚洲欧美日韩另类在线一| 丰满人妻被猛烈进入无码| 欧美精品高清| 在线观看精品国产入口| 亚洲婷婷丁香| 99久久国产综合精品2023| 国产欧美另类| 亚洲永久色| 日韩国产亚洲一区二区在线观看| 老司机精品一区在线视频| 制服丝袜国产精品| 99视频在线看| 国产成人亚洲无码淙合青草| 99在线小视频| 国产99在线观看| 国产色图在线观看| 97精品伊人久久大香线蕉| 久久国产亚洲偷自| 国产二级毛片| 99re免费视频| www亚洲天堂| 国产精品自在在线午夜| 99热精品久久| 欧美日韩国产系列在线观看| 爽爽影院十八禁在线观看| 久久这里只有精品66| 天天色天天操综合网| 欧美日在线观看| 最新日本中文字幕| 日韩小视频网站hq| 2020最新国产精品视频| 一级毛片无毒不卡直接观看| 日本精品一在线观看视频| 国产毛片高清一级国语 | 无码精品国产dvd在线观看9久| 国产精品女熟高潮视频| 亚洲欧美另类中文字幕| 亚洲性色永久网址| 97色伦色在线综合视频| 91极品美女高潮叫床在线观看| 91伊人国产| 色老头综合网| 日韩免费毛片| 亚洲a免费|