一種基于最大熵分類器的新聞事件關(guān)聯(lián)特征抽取方法研究

2023-10-31 08:34:44韓超

昆鋼科技 2023年2期

韓超

（云南昆鋼電子信息科技有限公司）

1 引言

事件是一種描述特定的人、物、事在特定時間和特定地點相互作用的客觀事實[1]。從上世紀開始，便有研究者提出對不同事件表達層面中的動詞進行分類[2]。Vendler是第一個提出根據(jù)動詞表現(xiàn)的不同方式類型來對事件類型進行表示的人[3]，這引領(lǐng)了一場對事件結(jié)構(gòu)（Event Structure）進行研究的熱潮，后續(xù)的研究者們將詞法，句法以及語義依存融入到對事件的研究中[4]。

為了探究和判斷兩個事件是否存在關(guān)聯(lián)關(guān)系的問題，需要提供一些對事件之間是否存在關(guān)聯(lián)關(guān)系起到?jīng)Q定性作用的影響因子作為判斷的依據(jù)和計算參數(shù)。如果從事件的整體上來尋找這些參數(shù)和影響因子，將會很難成功找到充足的參數(shù)和影響因子來作為判斷事件之間是否有關(guān)聯(lián)關(guān)系的依據(jù)。所以本文著手于事件的內(nèi)部結(jié)構(gòu)，將事件細化為更細小的表達微粒，并從中尋找這些對事件關(guān)聯(lián)性起關(guān)鍵作用的影響因子和參數(shù)，可將其稱為事件關(guān)聯(lián)特征。

事件從事件結(jié)構(gòu)的層面上可以看作是由包括謂詞，參與者在內(nèi)的一系列事件特征構(gòu)成。通過歸納和分析事件結(jié)構(gòu)的規(guī)律和特征，本文將能夠?qū)κ录嚓P(guān)性產(chǎn)生巨大影響的因素歸結(jié)為7類：謂詞特征（predicate）參與者特征（who）、事件特征（what）、時間特征（when）、地點特征（where）、原因特征（why）以及方式特征（how）。

2 相關(guān)工作

近年來，隨著人工智能技術(shù)以及智能信息處理技術(shù)的蓬勃發(fā)展，在許多譬如自動問答、事件預(yù)測等人工智能應(yīng)用需求不斷增加的背景下，作為信息抽取研究的一個重點。事件關(guān)系識別逐漸成為領(lǐng)域內(nèi)的新興研究熱點。

近年來對事件關(guān)聯(lián)關(guān)系識別的研究也開始慢慢起步，并逐漸成為信息抽取技術(shù)的研究熱點。近年來這方面的研究大體可以總結(jié)如下：在蘇州大學(xué)的馬彬等提出了一種基于事件語義依存線索的方法來進行事件關(guān)聯(lián)關(guān)系的識別[5]。楊雪蓉等提出了一種基于事件核心詞和實體推理的方法來進行事件關(guān)聯(lián)關(guān)系的識別，他們在事件關(guān)聯(lián)關(guān)系識別的研究都取得了不錯的召回率和準確率[6]。榮莉莉等、張輝等以及劉盼盼提出根據(jù)事件之間的關(guān)鍵詞共現(xiàn)頻率來識別事件關(guān)聯(lián)關(guān)系的方法，劉盼盼更在此基礎(chǔ)上另外加入兩個判定因子來綜合識別事件關(guān)聯(lián)關(guān)系[7]～[9]。

3 新聞事件關(guān)聯(lián)特征抽取方法

事件關(guān)聯(lián)特征集的抽取是根據(jù)句子的短語句法分析樹或依存關(guān)系樹的結(jié)構(gòu)，以及詞或短語的詞法、語法、語義特征來識別并抽取事件關(guān)聯(lián)特征集合。本文使用最大熵分類器來實現(xiàn)事件關(guān)聯(lián)特征的分類和提取工作，簡單來說，可以將事件關(guān)聯(lián)特征抽取問題，看成是一個二元分類問題，并為每一種事件關(guān)聯(lián)特征定義二元分類器，這里需要定義包括謂詞在內(nèi)的參與者（who）、事件（what）、時間（when）、地點（where）、原因（why）、方式（how）這7個二元分類器。

3.1 最大熵分類器

最大熵分類器采用的最大熵模型是一種較為成熟的統(tǒng)計模型，對分類問題有著較好的效果，且具有訓(xùn)練速度快的優(yōu)勢。其基本思想為：給定一個已知的事件集，挖掘其潛在的約束條件，選擇一種模型把其他未知的事件排除在外。這個模型的條件是必須滿足已知的約束條件，并且對于未知的事件，需要盡可能使其分布均勻。

在預(yù)測一個候選特征是否屬于謂詞、參與者、事件、時間、地點、原因、方式這7個關(guān)聯(lián)特征的時候，將牽涉許許多多的影響因子，若x為一個通過影響因子組成的變量，y表示相應(yīng)的事件關(guān)聯(lián)特征的類型。P（y|x）是指系統(tǒng)對某個關(guān)聯(lián)特征預(yù)測為符合各個關(guān)聯(lián)特征類型的概率，這個概率便能用上面敘述的思想來估量和計算。最大熵模型要求P（y|x）在滿足一定約束的前提下，使公式中的熵的值最大：

上面所說的約束其實便是已經(jīng)掌握的真實信息，本文用如下公式來描述：

其中fi(x,y) 為最大熵模型的特征。n為所有特征的總數(shù)。可以看到這些特征描述了向量x與變量y 之間的聯(lián)系。最終概率輸出為：

其中λi是每個向量的權(quán)重，且：

3.2 特征選擇

根據(jù)語料庫中標注好的詞性及語義依存關(guān)系等事件信息，并結(jié)合各個類型的事件關(guān)聯(lián)特征的特點來定義特征向量：

（1）基本特征（Fa），在識別中文關(guān)聯(lián)特征實體類型時，需要對該實體的特性進行分析，這些特性對關(guān)聯(lián)特征實體的識別非常重要，這些特性包括：詞性、句法成分，依存關(guān)系，本文選取的基本特征為：

①實體原型：候選關(guān)聯(lián)特征實體本身；

②實體詞性：當前實體詞性；

③句法成分：當前實體在整個事件句中充當?shù)木浞ǔ煞郑ㄖ髦^賓定狀補）；

④依存關(guān)系：當前結(jié)點對應(yīng)的依存關(guān)系。

（2）文本環(huán)境特征（Fb），從文本層面上來判定事件中的實體是否屬于某一類事件關(guān)聯(lián)特征時，該實體所在的文本環(huán)境會對其造成影響，這些影響包括實體所在依存樹的前后節(jié)點上的成分的屬性，這些屬性包括語法成分，詞性以及其本身。這里將文本環(huán)境特征定義如下：

①實體之前第i個節(jié)點上的詞或短語；

②實體之后第i個節(jié)點上的詞或短語；

③實體之前第i個節(jié)點上的詞或短語的詞性；

④實體之后第i個節(jié)點上的詞或短語的詞性；

⑤實體之前第i個節(jié)點上的詞或短語的語法成分；

⑥實體之后第i個節(jié)點上的詞或短語的語法成分，其中i在1到2之間的整數(shù)。

綜上所述我們選取的中文新聞事件關(guān)聯(lián)實體特征如表1所示：

表1 中文新聞事件關(guān)聯(lián)實體特征定義

3.3 新聞事件關(guān)聯(lián)特征集抽取步驟

新聞事件關(guān)聯(lián)特征抽取的具體步驟如下：

（1）對新聞事件表達語句進行分詞，詞性標注和句法分析；

（2）除去停用詞后，通過剪枝算法將語料中的多余成分進行剔除；

（3）對訓(xùn)練語料進行特征向量選擇，特征的獲取，訓(xùn)練實例的生成，最終達到生成識別模型和分類模型的目的；

（4）將測試語料特征值、實例輸入生成好的識別模型和分類模型，進行事件關(guān)聯(lián)特征的角色識別和分類；

（5）經(jīng)過后處理，得到分類好的事件關(guān)聯(lián)特征集。

4 實驗分析

4.1 實驗語料

本文在ACE2005中文語料庫中共抽取了536篇新聞報道語料。對其中300篇新聞?wù)Z料進行了人工標注，其中包括1 440個事件，并標注了5 832個事件關(guān)聯(lián)特征實體。將這些標注完成的語料存儲于數(shù)據(jù)庫中構(gòu)建成了本文的事件關(guān)聯(lián)特征語料庫，本章的實驗語料便是來源于第三章中構(gòu)建的事件關(guān)聯(lián)特征語料庫。實驗數(shù)據(jù)的預(yù)處理使用的是哈爾濱工業(yè)大學(xué)語言技術(shù)平臺來進行詞性標注和依存分析，實驗過程中使用的最大熵模型選擇的是張樂博士寫的最大熵工具包maxent。

4.2 實驗評價標準

在自然語言處理領(lǐng)域，研究者們通常使用準確率以及召回率來作為實驗的評價標準，本文也使用準確率（P），召回率（R）以及F值來最為本文的評價標注，它們的計算公式如下：

上面公式中的P值和R值的取值范圍為：0≤P/R≤1，P和R分別是度量查準和查全效率的值，而F值則是度量綜合P值和R值來綜合評價系統(tǒng)性能的值。

4.3 實驗

為了測試本文提出的基于最大熵模型的事件關(guān)聯(lián)特征實體抽取方法（以下簡稱為Max）的有效性，這里與文獻[10]中的HMM方法和HTM方法一起使用相同的數(shù)據(jù)源進行實驗，對比實驗結(jié)果。

在對事件關(guān)聯(lián)特征實體的抽取實驗中，本文隨機選取語料中的200篇作為訓(xùn)練集，包括3 994個特征實體，剩下的100篇為測試集。實驗結(jié)果如表2所示：

表2 事件關(guān)聯(lián)特征實體抽取實驗結(jié)果

從上表的實驗結(jié)果可以看出本章中提出的基于最大熵模型的事件關(guān)聯(lián)特征實體抽取方法，即Max方法對于事件謂詞特征，參與者特征，時間特征以及地點特征的抽取效果比較好。但對于事情特征，原因特征以及方式特征的抽取效果相對交差。這是由于這三類特征的特點比較模糊，不容易判斷，其次在最大熵模型的特征選擇時對這三類特征實體的特征選擇還不夠具體。

相對而言，HMM方法和HTM方法只在識別參與者和地點特征時表現(xiàn)出較好的效果，對于其他5類特征的識別效果較差。本實驗提出的Max方法在7類特征實體的識別效果上都優(yōu)于其他兩個對比方法。其中謂詞特征提取準確率由51.3 %提升至81.3 %，召回率由53.4 %提升至73.6 %，F(xiàn)值由52.3 %提升至77.3 %。這也說明本文提出的Max方法對于識別事件的7類關(guān)聯(lián)特征實體更有針對性。

5 結(jié)語

（1）新聞事件關(guān)聯(lián)特征實體,提出使用最大熵模型來抽取新聞事件關(guān)聯(lián)特征實體的方法。并對事件關(guān)聯(lián)特征抽取方法設(shè)計實驗驗證，并分析了實驗結(jié)果。該方法都能取得較好的實驗結(jié)果，在事件關(guān)聯(lián)特征抽取實驗中，發(fā)現(xiàn)本文方法對事件的謂詞特征、參與者特征、時間特征以及地點特征的抽取效果較佳。

（2）本文方法較以往方法在準確率（P）、召回率（R)以及F值上均有顯著提高，其中謂詞特征提取準確率由51.3 %提升至81.3 %，召回率由53.4 %提升至73.6 %，F(xiàn)值由52.3 %提升至77.3 %。