999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于最大熵分類器的新聞事件關(guān)聯(lián)特征抽取方法研究

2023-10-31 08:34:44韓超
昆鋼科技 2023年2期
關(guān)鍵詞:關(guān)聯(lián)特征實驗

韓超

(云南昆鋼電子信息科技有限公司)

1 引言

事件是一種描述特定的人、物、事在特定時間和特定地點相互作用的客觀事實[1]。從上世紀開始,便有研究者提出對不同事件表達層面中的動詞進行分類[2]。Vendler是第一個提出根據(jù)動詞表現(xiàn)的不同方式類型來對事件類型進行表示的人[3],這引領(lǐng)了一場對事件結(jié)構(gòu)(Event Structure)進行研究的熱潮,后續(xù)的研究者們將詞法,句法以及語義依存融入到對事件的研究中[4]。

為了探究和判斷兩個事件是否存在關(guān)聯(lián)關(guān)系的問題,需要提供一些對事件之間是否存在關(guān)聯(lián)關(guān)系起到?jīng)Q定性作用的影響因子作為判斷的依據(jù)和計算參數(shù)。如果從事件的整體上來尋找這些參數(shù)和影響因子,將會很難成功找到充足的參數(shù)和影響因子來作為判斷事件之間是否有關(guān)聯(lián)關(guān)系的依據(jù)。所以本文著手于事件的內(nèi)部結(jié)構(gòu),將事件細化為更細小的表達微粒,并從中尋找這些對事件關(guān)聯(lián)性起關(guān)鍵作用的影響因子和參數(shù),可將其稱為事件關(guān)聯(lián)特征。

事件從事件結(jié)構(gòu)的層面上可以看作是由包括謂詞,參與者在內(nèi)的一系列事件特征構(gòu)成。通過歸納和分析事件結(jié)構(gòu)的規(guī)律和特征,本文將能夠?qū)κ录嚓P(guān)性產(chǎn)生巨大影響的因素歸結(jié)為7類:謂詞特征(predicate)參與者特征(who)、事件特征(what)、時間特征(when)、地點特征(where)、原因特征(why)以及方式特征(how)。

2 相關(guān)工作

近年來,隨著人工智能技術(shù)以及智能信息處理技術(shù)的蓬勃發(fā)展,在許多譬如自動問答、事件預(yù)測等人工智能應(yīng)用需求不斷增加的背景下,作為信息抽取研究的一個重點。事件關(guān)系識別逐漸成為領(lǐng)域內(nèi)的新興研究熱點。

近年來對事件關(guān)聯(lián)關(guān)系識別的研究也開始慢慢起步,并逐漸成為信息抽取技術(shù)的研究熱點。近年來這方面的研究大體可以總結(jié)如下:在蘇州大學(xué)的馬彬等提出了一種基于事件語義依存線索的方法來進行事件關(guān)聯(lián)關(guān)系的識別[5]。楊雪蓉等提出了一種基于事件核心詞和實體推理的方法來進行事件關(guān)聯(lián)關(guān)系的識別,他們在事件關(guān)聯(lián)關(guān)系識別的研究都取得了不錯的召回率和準確率[6]。榮莉莉等、張輝等以及劉盼盼提出根據(jù)事件之間的關(guān)鍵詞共現(xiàn)頻率來識別事件關(guān)聯(lián)關(guān)系的方法,劉盼盼更在此基礎(chǔ)上另外加入兩個判定因子來綜合識別事件關(guān)聯(lián)關(guān)系[7]~[9]。

3 新聞事件關(guān)聯(lián)特征抽取方法

事件關(guān)聯(lián)特征集的抽取是根據(jù)句子的短語句法分析樹或依存關(guān)系樹的結(jié)構(gòu),以及詞或短語的詞法、語法、語義特征來識別并抽取事件關(guān)聯(lián)特征集合。本文使用最大熵分類器來實現(xiàn)事件關(guān)聯(lián)特征的分類和提取工作,簡單來說,可以將事件關(guān)聯(lián)特征抽取問題,看成是一個二元分類問題,并為每一種事件關(guān)聯(lián)特征定義二元分類器,這里需要定義包括謂詞在內(nèi)的參與者(who)、事件(what)、時間(when)、地點(where)、原因(why)、方式(how)這7個二元分類器。

3.1 最大熵分類器

最大熵分類器采用的最大熵模型是一種較為成熟的統(tǒng)計模型,對分類問題有著較好的效果,且具有訓(xùn)練速度快的優(yōu)勢。其基本思想為:給定一個已知的事件集,挖掘其潛在的約束條件,選擇一種模型把其他未知的事件排除在外。這個模型的條件是必須滿足已知的約束條件,并且對于未知的事件,需要盡可能使其分布均勻。

在預(yù)測一個候選特征是否屬于謂詞、參與者、事件、時間、地點、原因、方式這7個關(guān)聯(lián)特征的時候,將牽涉許許多多的影響因子,若x為一個通過影響因子組成的變量,y表示相應(yīng)的事件關(guān)聯(lián)特征的類型。P(y|x)是指系統(tǒng)對某個關(guān)聯(lián)特征預(yù)測為符合各個關(guān)聯(lián)特征類型的概率,這個概率便能用上面敘述的思想來估量和計算。最大熵模型要求P(y|x)在滿足一定約束的前提下,使公式中的熵的值最大:

上面所說的約束其實便是已經(jīng)掌握的真實信息,本文用如下公式來描述:

其中fi(x,y) 為最大熵模型的特征。n為所有特征的總數(shù)。可以看到這些特征描述了向量x與變量y 之間的聯(lián)系。最終概率輸出為:

其中λi是每個向量的權(quán)重,且:

3.2 特征選擇

根據(jù)語料庫中標注好的詞性及語義依存關(guān)系等事件信息,并結(jié)合各個類型的事件關(guān)聯(lián)特征的特點來定義特征向量:

(1)基本特征(Fa),在識別中文關(guān)聯(lián)特征實體類型時,需要對該實體的特性進行分析,這些特性對關(guān)聯(lián)特征實體的識別非常重要,這些特性包括:詞性、句法成分,依存關(guān)系,本文選取的基本特征為:

①實體原型:候選關(guān)聯(lián)特征實體本身;

②實體詞性:當前實體詞性;

③句法成分:當前實體在整個事件句中充當?shù)木浞ǔ煞郑ㄖ髦^賓定狀補);

④依存關(guān)系:當前結(jié)點對應(yīng)的依存關(guān)系。

(2)文本環(huán)境特征(Fb),從文本層面上來判定事件中的實體是否屬于某一類事件關(guān)聯(lián)特征時,該實體所在的文本環(huán)境會對其造成影響,這些影響包括實體所在依存樹的前后節(jié)點上的成分的屬性,這些屬性包括語法成分,詞性以及其本身。這里將文本環(huán)境特征定義如下:

①實體之前第i個節(jié)點上的詞或短語;

②實體之后第i個節(jié)點上的詞或短語;

③實體之前第i個節(jié)點上的詞或短語的詞性;

④實體之后第i個節(jié)點上的詞或短語的詞性;

⑤實體之前第i個節(jié)點上的詞或短語的語法成分;

⑥實體之后第i個節(jié)點上的詞或短語的語法成分,其中i在1到2之間的整數(shù)。

綜上所述我們選取的中文新聞事件關(guān)聯(lián)實體特征如表1所示:

表1 中文新聞事件關(guān)聯(lián)實體特征定義

3.3 新聞事件關(guān)聯(lián)特征集抽取步驟

新聞事件關(guān)聯(lián)特征抽取的具體步驟如下:

(1)對新聞事件表達語句進行分詞,詞性標注和句法分析;

(2)除去停用詞后,通過剪枝算法將語料中的多余成分進行剔除;

(3)對訓(xùn)練語料進行特征向量選擇,特征的獲取,訓(xùn)練實例的生成,最終達到生成識別模型和分類模型的目的;

(4)將測試語料特征值、實例輸入生成好的識別模型和分類模型,進行事件關(guān)聯(lián)特征的角色識別和分類;

(5)經(jīng)過后處理,得到分類好的事件關(guān)聯(lián)特征集。

4 實驗分析

4.1 實驗語料

本文在ACE2005中文語料庫中共抽取了536篇新聞報道語料。對其中300篇新聞?wù)Z料進行了人工標注,其中包括1 440個事件,并標注了5 832個事件關(guān)聯(lián)特征實體。將這些標注完成的語料存儲于數(shù)據(jù)庫中構(gòu)建成了本文的事件關(guān)聯(lián)特征語料庫,本章的實驗語料便是來源于第三章中構(gòu)建的事件關(guān)聯(lián)特征語料庫。實驗數(shù)據(jù)的預(yù)處理使用的是哈爾濱工業(yè)大學(xué)語言技術(shù)平臺來進行詞性標注和依存分析,實驗過程中使用的最大熵模型選擇的是張樂博士寫的最大熵工具包maxent。

4.2 實驗評價標準

在自然語言處理領(lǐng)域,研究者們通常使用準確率以及召回率來作為實驗的評價標準,本文也使用準確率(P),召回率(R)以及F值來最為本文的評價標注,它們的計算公式如下:

上面公式中的P值和R值的取值范圍為:0≤P/R≤1,P和R分別是度量查準和查全效率的值,而F值則是度量綜合P值和R值來綜合評價系統(tǒng)性能的值。

4.3 實驗

為了測試本文提出的基于最大熵模型的事件關(guān)聯(lián)特征實體抽取方法(以下簡稱為Max)的有效性,這里與文獻[10]中的HMM方法和HTM方法一起使用相同的數(shù)據(jù)源進行實驗,對比實驗結(jié)果。

在對事件關(guān)聯(lián)特征實體的抽取實驗中,本文隨機選取語料中的200篇作為訓(xùn)練集,包括3 994個特征實體,剩下的100篇為測試集。實驗結(jié)果如表2所示:

表2 事件關(guān)聯(lián)特征實體抽取實驗結(jié)果

從上表的實驗結(jié)果可以看出本章中提出的基于最大熵模型的事件關(guān)聯(lián)特征實體抽取方法,即Max方法對于事件謂詞特征,參與者特征,時間特征以及地點特征的抽取效果比較好。但對于事情特征,原因特征以及方式特征的抽取效果相對交差。這是由于這三類特征的特點比較模糊,不容易判斷,其次在最大熵模型的特征選擇時對這三類特征實體的特征選擇還不夠具體。

相對而言,HMM方法和HTM方法只在識別參與者和地點特征時表現(xiàn)出較好的效果,對于其他5類特征的識別效果較差。本實驗提出的Max方法在7類特征實體的識別效果上都優(yōu)于其他兩個對比方法。其中謂詞特征提取準確率由51.3 %提升至81.3 %,召回率由53.4 %提升至73.6 %,F(xiàn)值由52.3 %提升至77.3 %。這也說明本文提出的Max方法對于識別事件的7類關(guān)聯(lián)特征實體更有針對性。

5 結(jié)語

(1)新聞事件關(guān)聯(lián)特征實體,提出使用最大熵模型來抽取新聞事件關(guān)聯(lián)特征實體的方法。并對事件關(guān)聯(lián)特征抽取方法設(shè)計實驗驗證,并分析了實驗結(jié)果。該方法都能取得較好的實驗結(jié)果,在事件關(guān)聯(lián)特征抽取實驗中,發(fā)現(xiàn)本文方法對事件的謂詞特征、參與者特征、時間特征以及地點特征的抽取效果較佳。

(2)本文方法較以往方法在準確率(P)、召回率(R)以及F值上均有顯著提高,其中謂詞特征提取準確率由51.3 %提升至81.3 %,召回率由53.4 %提升至73.6 %,F(xiàn)值由52.3 %提升至77.3 %。

猜你喜歡
關(guān)聯(lián)特征實驗
記一次有趣的實驗
“苦”的關(guān)聯(lián)
當代陜西(2021年17期)2021-11-06 03:21:36
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
奇趣搭配
抓住特征巧觀察
智趣
讀者(2017年5期)2017-02-15 18:04:18
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 国产又爽又黄无遮挡免费观看| 久久熟女AV| 国产亚洲精品va在线| 国产一区二区三区在线观看免费| 日日拍夜夜操| 91色在线观看| 亚洲欧美在线综合图区| 亚洲AV成人一区二区三区AV| 国产理论一区| 亚洲无码免费黄色网址| 欧美h在线观看| 国产精品自在自线免费观看| 国产精品九九视频| 国产精品成人免费综合| 69视频国产| 亚洲视频色图| 麻豆精品在线视频| Aⅴ无码专区在线观看| 亚洲第一av网站| 日韩精品久久久久久久电影蜜臀| 国产成人免费高清AⅤ| 久久精品国产精品青草app| 欧美日本一区二区三区免费| 国产在线八区| 97精品伊人久久大香线蕉| av手机版在线播放| 欧美在线一二区| 黄色污网站在线观看| 成人自拍视频在线观看| 中文字幕不卡免费高清视频| 久久国产拍爱| 国产成人亚洲毛片| 色婷婷在线播放| 久久黄色影院| 人妻精品全国免费视频| 国产亚洲高清视频| 亚洲开心婷婷中文字幕| 亚洲IV视频免费在线光看| 午夜福利视频一区| 99热亚洲精品6码| 欧美笫一页| 国产精品网址你懂的| 又猛又黄又爽无遮挡的视频网站| 色噜噜狠狠狠综合曰曰曰| 91福利片| 国产欧美专区在线观看| 99一级毛片| 97久久免费视频| 麻豆国产原创视频在线播放| 欧美色99| 亚洲精品波多野结衣| 色综合久久久久8天国| 久久亚洲欧美综合| 色综合日本| 精品伊人久久久香线蕉| 国产成人综合日韩精品无码不卡| 久久精品亚洲专区| 国产区免费精品视频| A级毛片无码久久精品免费| 国产精品手机在线观看你懂的| 国产精品视屏| 国产一区二区网站| 国产精品香蕉| 色婷婷视频在线| 国产日韩精品欧美一区喷| 亚洲av无码成人专区| 国产成人亚洲日韩欧美电影| 少妇精品在线| 999精品在线视频| 欧美日韩资源| 亚洲黄色成人| 亚洲精品国产成人7777| 四虎精品黑人视频| 婷婷激情亚洲| 天堂成人av| 99久久国产综合精品2023| 欧美色香蕉| 人妻精品久久久无码区色视| 欧美一级高清片欧美国产欧美| 日本成人在线不卡视频| 中文纯内无码H| 欧美一区精品|