王 凱,洪 宇,邱盈盈,姚建民,周國棟
蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006
事件線索檢測(event nugget detection)作為信息抽取(information extraction)的一個任務,旨在從非結構化的文本中提取觸發事件的文本片段,并辨別所抽取事件的真偽性。根據KBP 2015(knowledge base population)事件線索檢測任務的定義,事件線索檢測由兩個子任務組成:(1)事件線索詞識別(event nugget recognition),需要抽取出觸發事件的詞或短語,并識別出事件的類型;(2)事件真偽性識別(event realis recognition),在事件線索詞識別的基礎上,進一步辨別出事件發生的真偽性。為更好地理解KBP評測事件線索檢查任務,下面給出一個完整的事件線索的結構表述。例句1中,事件線索詞為“sends”(譯為運送),所觸發的事件類型為Transport-Person,其事件真偽性為Actual(表示事件真實發生)。本文研究將只專注于事件線索詞識別部分,即找出事件線索詞并判定其事件類型。
例句1France sends soldiers to Haiti Feb29.
譯文:“法國于2月29日將士兵運送到海地。”
事件線索詞:sends
事件類型:Transport-Person
事件真偽性:Actual
事件線索檢測的研究還在起步階段,現有的方法主要沿用 ACE 2005(automatic content extraction)事件抽取的方法。大部分前人工作將事件檢測看成一個分類問題,人工精心設計了很多的詞匯級和句法級的特征(特征工程),并使用已有的自然語言處理工具進行獲取(如詞性標注、句法分析、命名實體識別等工具)。這些方法盡管取得很好的性能,但是一方面會耗費大量的時間,另一方面會有特征稀疏和錯誤傳遞的問題(無法利用遠距離的依賴信息和句子的語義信息)。
最近,深度學習已經在很多自然語言處理任務上被使用,并被證明是有效的,例如機器翻譯、分詞和情感分析。……