趙江江 秦兵
0引言
事件抽取任務隨著互聯網信息爆炸式的增長越來越凸顯其重要性,而事件元素抽取又是事件抽取中至關重要的-個研究點。該研究旨在將無結構化文本中人們感興趣的事件以結構化的形式存儲下來,以供自動文摘、自動問答、話題檢測等自然語言處理上層技術的使用和用戶方便的查看。早期的事件抽取研究一般采取模式匹配的方法,這種方法準確率較高,但是模板的獲取是實現的瓶頸,后來人們逐漸采用機器學習的方法,這種方法靈活性好,不需要太多的人工參與,但是由于構建的語料庫規模不是很大,會引起嚴重的數據稀疏問題,準確率比模式匹配的方法低。因此針對這兩種方法的優缺點,采用結合背景知識庫的半指導方法可能解決上述問題。本文采用基于Bootstrapping方法獲取模式的事件元素抽取,由于Bootstrapping方法的引入,儀需從一個或少數幾個初始事件種子出發,通過檢索WEB,即可自動學習出大量高準確率的模板用于事件元素抽取。同時引入模板泛化的概念,以進一步提高模板對語言現象的覆蓋率,并最終提高抽取的準確率與召回率。