999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于相似義原和依存句法的政外領(lǐng)域事件抽取方法*

2020-10-10 02:53:12
關(guān)鍵詞:方法

崔 瑩

(西南電子技術(shù)研究所,四川 成都 610036)

1 引言

隨著科技水平日新月異的更新發(fā)展,各類(lèi)新聞數(shù)據(jù)來(lái)源多種多樣,導(dǎo)致多源、多品類(lèi)、異構(gòu)新聞數(shù)據(jù)量突飛猛漲。新聞數(shù)據(jù)作為開(kāi)源情報(bào)的重要數(shù)據(jù)來(lái)源具有實(shí)時(shí)性高、海量、非結(jié)構(gòu)化等特點(diǎn)。面對(duì)海量非結(jié)構(gòu)化新聞數(shù)據(jù),如何從中對(duì)關(guān)注的目標(biāo)信息進(jìn)行深層次挖掘、分析與預(yù)測(cè),實(shí)現(xiàn)數(shù)據(jù)態(tài)勢(shì)感知、風(fēng)險(xiǎn)預(yù)警等目的成為當(dāng)前亟待解決的問(wèn)題。目前,對(duì)非結(jié)構(gòu)化文本類(lèi)新聞數(shù)據(jù)進(jìn)行結(jié)構(gòu)化轉(zhuǎn)換是新聞數(shù)據(jù)分析的基礎(chǔ),針對(duì)非結(jié)構(gòu)化文本類(lèi)新聞數(shù)據(jù)進(jìn)行結(jié)構(gòu)化信息提取主要有以下解決方法:命名實(shí)體提取、實(shí)體關(guān)系提取和事件提取等,其中命名實(shí)體提取、實(shí)體關(guān)系提取為初級(jí)信息提取;真正要做到信息關(guān)聯(lián)和事件關(guān)聯(lián)分析、預(yù)測(cè)挖掘等,需要進(jìn)行更高層次的信息提取,如事件抽取、主題提取等。事件抽取是指從文檔中識(shí)別出某個(gè)事件發(fā)生的時(shí)間、地點(diǎn)和事件的參與者等信息,并以結(jié)構(gòu)化的形式呈現(xiàn)出來(lái),形成模板形式的事件場(chǎng)景描述。針對(duì)大量混雜數(shù)據(jù)中的事件信息,越來(lái)越多的學(xué)者希望實(shí)現(xiàn)這類(lèi)特殊事件的自動(dòng)發(fā)現(xiàn),獲得大量精度高、機(jī)器可閱讀的事件數(shù)據(jù),并構(gòu)建出各類(lèi)結(jié)構(gòu)化事件庫(kù)[1 - 5]。本文針對(duì)政治外交(政外)領(lǐng)域事件提出了一種基于相似義原和依存句法的元事件提取方法,針對(duì)政外領(lǐng)域事件構(gòu)建了8種元事件類(lèi)別及對(duì)應(yīng)的事件觸發(fā)詞表和事件模板。并以不同來(lái)源相同領(lǐng)域數(shù)據(jù)進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果較傳統(tǒng)基于觸發(fā)詞的事件的召回率和F值均有提升,較基于神經(jīng)網(wǎng)絡(luò)的端到端事件抽取模型的抽取準(zhǔn)確率有顯著提升,為政外領(lǐng)域事件庫(kù)的構(gòu)建提供了很好的基礎(chǔ)支撐。

2 相關(guān)定義

定義1(元事件) 表示在特定時(shí)刻發(fā)生的一個(gè)動(dòng)作或狀態(tài)變化[6]。

定義2(事件抽取) 事件抽取是信息抽取領(lǐng)域一個(gè)重要的研究方向。事件抽取主要把人們感興趣的、用自然語(yǔ)言表達(dá)的事件以結(jié)構(gòu)化的形式呈現(xiàn)出來(lái)[6]。

目前事件抽取的研究方法主要有2類(lèi),如表1所示:基于模式匹配的方法和基于機(jī)器學(xué)習(xí)的方法。基于模式匹配的方法準(zhǔn)確率較高(如果模式提取得非常準(zhǔn)確),且接近人的思維方式,知識(shí)表示直觀、自然,便于推理。但是,這種方法往往依賴(lài)于具體語(yǔ)言、具體領(lǐng)域和文本格式,可移植性差,需要富有經(jīng)驗(yàn)的語(yǔ)言學(xué)家才能完成[7]。和基于模式匹配的方法相比,基于機(jī)器學(xué)習(xí)的方法健壯性和靈活性較好,比較客觀,不需要太多的人工干預(yù)和領(lǐng)域知識(shí),召回率較高,但由于語(yǔ)料庫(kù)規(guī)模的影響數(shù)據(jù)稀疏問(wèn)題比較嚴(yán)重,其準(zhǔn)確率較基于模式匹配的方法低,有時(shí)搜索空間很大還會(huì)導(dǎo)致巨大的空間開(kāi)銷(xiāo),效率不高[8]。另外,它需要大規(guī)模的語(yǔ)料庫(kù)進(jìn)行訓(xùn)練。

正是由于機(jī)器學(xué)習(xí)在政外領(lǐng)域進(jìn)行事件抽取時(shí)需要大規(guī)模的標(biāo)注語(yǔ)料,同時(shí)存在識(shí)別率低的問(wèn)題,本文擬采用基于模式匹配的方法對(duì)政外領(lǐng)域新聞數(shù)據(jù)進(jìn)行事件抽取。

定義3(基于模式匹配方法的事件抽取) 模式是一種規(guī)則,模式定義了事件信息抽取的規(guī)范。基于模式匹配方法的事件抽取是指通過(guò)定義好的模式來(lái)識(shí)別某一類(lèi)事件和抽取事件相關(guān)的元素信息。模式的獲取可以通過(guò)手工或者自動(dòng)的方式來(lái)設(shè)定。通過(guò)定義模式,形成最終的模式庫(kù),類(lèi)似于對(duì)知識(shí)進(jìn)行總結(jié)然后形成知識(shí)庫(kù),對(duì)整個(gè)系統(tǒng)起支撐作用。一般來(lái)說(shuō),基于模式匹配方法的事件信息抽取系統(tǒng)核心模塊是模式獲取和事件信息抽取[8]。

Table 1 Comparison of event extraction based on pattern matching and machine learning表1 基于模式匹配方法和基于機(jī)器學(xué)習(xí)方法的事件抽取對(duì)比

定義4(觸發(fā)詞) 觸發(fā)詞指的是能夠觸發(fā)事件發(fā)生的詞,多為動(dòng)詞性詞語(yǔ)。

定義5(義原) 義原(Semantics)在語(yǔ)言學(xué)中是指最小的不可再分的語(yǔ)義單位,而知網(wǎng)(HowNet)則是最著名的義原知識(shí)庫(kù)[9]。

3 政外領(lǐng)域新聞事件抽取

基于模式匹配方法的事件抽取主要分為2部分:事件檢測(cè)及類(lèi)別識(shí)別(事件識(shí)別);事件論元角色抽取(事件元素識(shí)別)。具體處理流程如圖1所示。

(1) 定義事件類(lèi)別,針對(duì)每類(lèi)事件構(gòu)建觸發(fā)詞表和事件模板,其中事件模板包括觸發(fā)詞、事件論元角色,如表2所示為考察訪問(wèn)類(lèi)元模板。

(2) 對(duì)單篇文檔進(jìn)行分詞、詞性標(biāo)注、切分句子等文本預(yù)處理操作。

(3) 根據(jù)觸發(fā)詞表,判斷句中是否包含觸發(fā)詞或與觸發(fā)詞相似的詞,對(duì)相似詞計(jì)算相似度,這里考慮到無(wú)法枚舉出所有事件類(lèi)型的觸發(fā)詞,因此采用了基于義原相似性的方法來(lái)擴(kuò)展事件觸發(fā)詞。

(4) 篩選觸發(fā)詞相似度滿足設(shè)定閾值的句子并將其作為事件句(即候選子事件),同時(shí)為事件句指定事件類(lèi)別。

(5) 提取事件句中的實(shí)體要素。

(6)根據(jù)事件類(lèi)別模板內(nèi)的論元角色約束篩選滿足事件類(lèi)別模板的事件元素,即事件元素的識(shí)別。

(7) 根據(jù)事件模板生成事件描述。

Figure 1 Meta event extraction process圖1 元事件抽取處理流程

在基于模式匹配方法事件抽取過(guò)程中,有2個(gè)核心關(guān)鍵環(huán)節(jié)。一是事件觸發(fā)詞表的構(gòu)建,觸發(fā)詞表構(gòu)建的完整性和準(zhǔn)確性,對(duì)事件的識(shí)別起到?jīng)Q定性的作用,因此如何完整地構(gòu)建觸發(fā)詞詞表至關(guān)重要。二是事件論元角色內(nèi)容的填充,一句話中針對(duì)同一事件要素類(lèi)型可能會(huì)提取到多個(gè)事件要素,如何選取合適的要素進(jìn)行事件論元內(nèi)容的填充同樣對(duì)事件提取最終結(jié)果的準(zhǔn)確性會(huì)產(chǎn)生深遠(yuǎn)的影響。

傳統(tǒng)觸發(fā)詞表的構(gòu)建主要通過(guò)計(jì)算詞頻、選取相關(guān)動(dòng)詞性關(guān)鍵詞作為觸發(fā)詞,或通過(guò)專(zhuān)家手工構(gòu)建觸發(fā)詞表。本文在傳統(tǒng)觸發(fā)詞構(gòu)建基礎(chǔ)上,采取了基于義原相似性計(jì)算的方法,對(duì)觸發(fā)詞進(jìn)行擴(kuò)展,能夠提升觸發(fā)詞表的完整性,提升事件識(shí)別準(zhǔn)確率和召回率。

Table 2 Metaevent template of visit class表2 考察訪問(wèn)類(lèi)元事件模板

本文在事件論元角色內(nèi)容填充過(guò)程中,綜合考慮上下文語(yǔ)義信息,結(jié)合句法分析、指代消解及觸發(fā)詞詞性判斷等方法,進(jìn)行事件論元角色內(nèi)容的填充。

基于模式匹配方法的元事件抽取主要處理環(huán)節(jié)包括觸發(fā)詞表的構(gòu)建、事件句的識(shí)別以及事件模板中論元角色內(nèi)容的填充,下面對(duì)這幾方面在本文實(shí)驗(yàn)中的實(shí)現(xiàn)原理及相關(guān)算法進(jìn)行詳細(xì)介紹。

3.1 觸發(fā)詞表的構(gòu)建

事件觸發(fā)詞是事件描述中的重要組成要素,直接引發(fā)事件的產(chǎn)生,是決定事件類(lèi)別的重要特征。而事件觸發(fā)詞具有領(lǐng)域特色,事件觸發(fā)詞的提取在進(jìn)行領(lǐng)域事件抽取過(guò)程中是非常重要的。本文對(duì)觸發(fā)詞表的構(gòu)建采用人工構(gòu)建初始觸發(fā)詞集合的方式,再通過(guò)對(duì)特定范圍內(nèi)的語(yǔ)料進(jìn)行人工分析結(jié)合義原相似性計(jì)算,擴(kuò)展并構(gòu)建觸發(fā)詞表。

首先根據(jù)新聞標(biāo)題或正文內(nèi)容中是否包含觸發(fā)詞作為判斷是否是候選事件的標(biāo)準(zhǔn),判斷句子中是否有觸發(fā)詞,有則歸類(lèi)到相關(guān)候選類(lèi)別中。判斷過(guò)程中考慮到觸發(fā)詞無(wú)法全面覆蓋所有新聞標(biāo)題關(guān)鍵詞,利用知網(wǎng)詞語(yǔ)相似度計(jì)算標(biāo)題文本中的詞語(yǔ)與類(lèi)別觸發(fā)詞的相似度。實(shí)詞的每一個(gè)概念是由一組義原描述式來(lái)定義的,這些義原描述式可以分為4部分:第一獨(dú)立義原描述式和其他獨(dú)立義原描述式、關(guān)系義原描述式和符號(hào)義原描述式。本文參考并借鑒了劉群等[10,11]的詞語(yǔ)相似度計(jì)算方法來(lái)計(jì)算觸發(fā)詞語(yǔ)義相似度:

第一獨(dú)立義原之間的相似度是通過(guò)計(jì)算義原在知網(wǎng)中上下位關(guān)系樹(shù)中的距離得到的,公式為:

(1)

其中,p1和p2表示2個(gè)義原;d是p1和p2在義原層次體系中的路徑長(zhǎng)度,是一個(gè)正整數(shù);α是一個(gè)可調(diào)節(jié)的參數(shù)。2個(gè)觸發(fā)詞概念之間的相似性可以通過(guò)式(1)計(jì)算觸發(fā)詞獨(dú)立義原之間的相似度得到,記為Sim1(S1,S2)。

其他獨(dú)立義原描述式,是指除第一獨(dú)立義原描述式以外的其他獨(dú)立義原描述式,因此這一部分相似度計(jì)算公式同第一獨(dú)立義原相似度計(jì)算公式,即式(1),這樣通過(guò)計(jì)算其他獨(dú)立義原描述式相似度得到2個(gè)概念之間的其它獨(dú)立義原相似度,記為Sim2(S1,S2)。

關(guān)系義原描述式,是用來(lái)描述概念和概念之間的關(guān)系,描述形式用“關(guān)系義原=基本義原”或者“關(guān)系義原=(具體詞)”或者“(關(guān)系義原=具體詞)”來(lái)表示,因此這一部分相似度計(jì)算仍然采用式(1),計(jì)算結(jié)果記為Sim3(S1,S2)。

符號(hào)義原描述式:其值是一個(gè)特征結(jié)構(gòu),該特征結(jié)構(gòu)中的每一個(gè)特征包含屬性和關(guān)系2部分,其中屬性是一個(gè)關(guān)系義原,值是一個(gè)基本義原或具體詞的集合。通過(guò)將2個(gè)概念的符號(hào)義原描述式中的基本義原或詞集合進(jìn)行兩兩組合,利用式(1)計(jì)算得到不同相似度值,符號(hào)義原相似度取其中基本義原相似度最大的值,我們將2個(gè)概念這一部分的相似度記為Sim4(S1,S2)。

最后,計(jì)算第一獨(dú)立義原描述式、其他獨(dú)立義原描述式、關(guān)系義原描述式和符號(hào)義原描述式4部分相似度的加權(quán)平均值作為詞語(yǔ)的相似度,如式(2)所示:

(2)

計(jì)算文本中的詞語(yǔ)與觸發(fā)詞的相似度過(guò)程中,如果文本中的詞語(yǔ)和多個(gè)類(lèi)別的觸發(fā)詞的相似度都超過(guò)閾值,那么選擇觸發(fā)詞相似度最高的類(lèi)別作為候選事件類(lèi)別。

利用以上相似義原擴(kuò)充觸發(fā)詞集方法,不同類(lèi)型事件觸發(fā)詞擴(kuò)展結(jié)果如表3所示。

3.2 事件句的識(shí)別

因?yàn)榻^大多數(shù)事件觸發(fā)詞的詞性是動(dòng)詞,因此事件句的識(shí)別是通過(guò)對(duì)句子進(jìn)行分詞處理,將所有詞性為動(dòng)詞的詞與觸發(fā)詞表進(jìn)行比對(duì),當(dāng)該句子中包含有觸發(fā)詞表中的某觸發(fā)詞時(shí),將該句判定為事件句,同時(shí)根據(jù)觸發(fā)詞指定該事件句的事件類(lèi)別。當(dāng)一句話中包含多個(gè)觸發(fā)詞時(shí),認(rèn)為該句屬于多事

Table 3 Trigger extension results表3 觸發(fā)詞擴(kuò)展結(jié)果

件句,對(duì)該事件句賦予多個(gè)事件類(lèi)別。

3.3 論元角色內(nèi)容的填充

論元角色內(nèi)容的填充主要是對(duì)事件句中的事件元素進(jìn)行識(shí)別,再按照事件模板將事件元素填充到對(duì)應(yīng)的論元角色中。論元角色內(nèi)容的填充結(jié)果準(zhǔn)確性主要依賴(lài)于分詞結(jié)果和依存句法分析結(jié)果的準(zhǔn)確性。由于政外領(lǐng)域語(yǔ)料觸發(fā)詞具有專(zhuān)業(yè)性,因此在觸發(fā)詞表構(gòu)建完成時(shí),為提高事件句識(shí)別準(zhǔn)確率,同步對(duì)分詞算法中用戶自定義詞典進(jìn)行了手動(dòng)更新。

本文實(shí)驗(yàn)中的分詞方法采用了HanLP分詞算法,通過(guò)對(duì)句子做依存句法分析,得到句子的依存句法關(guān)系,如圖2所示,利用句子的依存句法關(guān)系作為指導(dǎo),對(duì)抽取的實(shí)體元素進(jìn)行論元角色的填充,論元角色內(nèi)容填充流程如圖3所示。

Figure 2 Dependency parsing graph圖2 依存句法分析圖

Figure 3 Content filling process for argument roles圖3 論元角色內(nèi)容填充流程

該事件要素識(shí)別環(huán)節(jié)中,因?yàn)閿?shù)據(jù)涉及政外領(lǐng)域,HanLP分詞算法在政外領(lǐng)域中得到的分詞結(jié)果不夠準(zhǔn)確,經(jīng)常會(huì)將一個(gè)具有特殊含義的實(shí)體拆分為多個(gè)詞語(yǔ),對(duì)事件要素抽取準(zhǔn)確性造成了干擾。同時(shí),事件要素抽取后,需要對(duì)其在整個(gè)事件描述中的角色給予定義。因此,本文利用依存句法分析結(jié)果,加入一定的規(guī)則來(lái)提升事件要素識(shí)別和論元角色內(nèi)容填充的準(zhǔn)確率。部分規(guī)則如下:

規(guī)則1在句法樹(shù)中,通常將主謂賓詞語(yǔ)中的主語(yǔ)詞定義為事件主體,將謂語(yǔ)詞定義為事件觸發(fā)詞,賓語(yǔ)詞定義為事件客體。但是,實(shí)際情況是一句話中可能存在多個(gè)事件描述,因此需要進(jìn)一步結(jié)合規(guī)則來(lái)生成事件描述。如果存在多個(gè)動(dòng)賓關(guān)系,則判斷多個(gè)動(dòng)賓關(guān)系是否共享同一個(gè)主語(yǔ),針對(duì)同一主語(yǔ)生成多個(gè)事件描述;否則在事件句中,按動(dòng)賓關(guān)系對(duì)句子進(jìn)行分割,在子句中為各動(dòng)賓關(guān)系找到主語(yǔ)即事件主體,進(jìn)而生成多個(gè)事件描述。

規(guī)則2對(duì)事件要素填充事件客體這一論元角色時(shí),在句法樹(shù)中,如果與觸發(fā)詞構(gòu)成動(dòng)賓關(guān)系的詞語(yǔ)前面有定語(yǔ)詞,則將該定語(yǔ)與賓語(yǔ)詞進(jìn)行拼接,如果該定中關(guān)系的父節(jié)點(diǎn)詞語(yǔ)前仍有定語(yǔ),則繼續(xù)對(duì)該賓語(yǔ)進(jìn)行拼接,直至定中關(guān)系判定結(jié)束,則該拼接詞為事件客體。

例如,朝鮮勞動(dòng)黨中央委員會(huì)、朝鮮中央政治局、中華人民共和國(guó)第十三屆全國(guó)人民代表大會(huì)等,在句法樹(shù)中,上述示例中的短語(yǔ)常被識(shí)別為委員會(huì)、政治局、大會(huì)等,在事件要素填充過(guò)程中,此類(lèi)識(shí)別結(jié)果是不完整且不準(zhǔn)確的,因此通過(guò)結(jié)合句法樹(shù)中定中關(guān)系等判斷,可以提升事件要素識(shí)別準(zhǔn)確率和完整性,同時(shí)能夠?qū)︻I(lǐng)域詞典進(jìn)行很好的補(bǔ)充。

規(guī)則3同規(guī)則2,在判斷事件主體時(shí),在句法樹(shù)中,如果主語(yǔ)前有多個(gè)詞語(yǔ)與其是定中關(guān)系,則不斷向該定中關(guān)系的父節(jié)點(diǎn)循環(huán)拼接,直至定中關(guān)系判定結(jié)束,則拼接詞為事件主體。

4 實(shí)驗(yàn)分析

4.1 實(shí)驗(yàn)場(chǎng)景

首先以朝鮮勞動(dòng)新聞網(wǎng)金正恩相關(guān)報(bào)道為主要分析數(shù)據(jù)來(lái)源,對(duì)金正恩行為事件進(jìn)行分析。實(shí)驗(yàn)場(chǎng)景如表4所示,建立8種元事件類(lèi)別及對(duì)應(yīng)事件觸發(fā)詞和事件模板(如表5所示),利用該模板分別對(duì)不同來(lái)源數(shù)據(jù)和不同施事者數(shù)據(jù)的事件句識(shí)別和論元角色內(nèi)容填充進(jìn)行實(shí)驗(yàn)設(shè)計(jì),并對(duì)元事件抽取結(jié)果進(jìn)行驗(yàn)證,驗(yàn)證新聞數(shù)據(jù)中同一領(lǐng)域內(nèi)不同對(duì)象的相同類(lèi)型事件的描述是否相似,進(jìn)一步驗(yàn)證本文方法中事件觸發(fā)詞和事件模板對(duì)同一領(lǐng)域內(nèi)其他對(duì)象的相關(guān)數(shù)據(jù)抽取是否具有通用性。

同時(shí),為對(duì)比傳統(tǒng)方法與基于相似義原和依存句法的事件抽取方法在特定領(lǐng)域的抽取效果,在實(shí)驗(yàn)中采用傳統(tǒng)的基于模板匹配方法和基于LSTM的事件抽取方法,分別進(jìn)行實(shí)驗(yàn)比對(duì)。具體來(lái)說(shuō),基于模板匹配方法中,主要采用元事件基礎(chǔ)模板(如表5所示),其中事件觸發(fā)詞未進(jìn)行擴(kuò)展;LSTM方法中,模型主要由表示層(詞向量、位置向量、實(shí)體向量)、雙向的LSTM層、卷積層、max-pooling層和softmax分類(lèi)層組成,利用雙向LSTM完成詞表示,每個(gè)詞表示的基本信息包含有詞向量、實(shí)體類(lèi)別向量和依存關(guān)系向量。通過(guò)對(duì)比不同方法抽取結(jié)果,驗(yàn)證本文方法在特定領(lǐng)域中的優(yōu)勢(shì)。

實(shí)驗(yàn)使用的觸發(fā)詞表及元事件模板是通過(guò)基于相似義原對(duì)朝鮮勞動(dòng)網(wǎng)有關(guān)金正恩行為報(bào)道的數(shù)據(jù)進(jìn)行觸發(fā)詞相似性計(jì)算得到的。

Table 4 Experimental scenario settings表4 實(shí)驗(yàn)場(chǎng)景設(shè)置

Table 5 Meta event triggers and meta event templates表5 元事件觸發(fā)詞及元事件模板

針對(duì)不同的任務(wù)、不同的語(yǔ)料來(lái)源,事件抽取的評(píng)價(jià)方法也有所不同,本文借鑒ACE會(huì)議的評(píng)價(jià)標(biāo)準(zhǔn),采用經(jīng)典的準(zhǔn)確率P(Precision)、R召回率(Recall)和F值(F-Measure)評(píng)價(jià)最終的抽取結(jié)果。具體計(jì)算公式如下所示。

(1) 事件類(lèi)型類(lèi)別的識(shí)別:

(3)

其中,PS為事件類(lèi)型識(shí)別準(zhǔn)確率,RS為事件類(lèi)型識(shí)別召回率,其計(jì)算方式如式(4)和式(5)所示。

(4)

(5)

(2) 事件元素的識(shí)別:

(6)

其中,PA為事件元素識(shí)別準(zhǔn)確率,RA為事件元素識(shí)別召回率,其計(jì)算方式如式(7)和式(8)所示:

(7)

(8)

4.2 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)數(shù)據(jù)采用互聯(lián)網(wǎng)政治新聞?lì)I(lǐng)域事件數(shù)據(jù),如表6所示,共計(jì)784條新聞標(biāo)題數(shù)據(jù),標(biāo)注其所有事件要素和事件類(lèi)型,標(biāo)注數(shù)據(jù)類(lèi)別及個(gè)數(shù)如表7所示,其中550條作為訓(xùn)練數(shù)據(jù),234條作為測(cè)試數(shù)據(jù)。

Table 6 Experimental data表6 實(shí)驗(yàn)數(shù)據(jù)

Table 7 Tagging data表7 標(biāo)注數(shù)據(jù)

4.3 實(shí)驗(yàn)結(jié)果及分析

事件類(lèi)型識(shí)別結(jié)果對(duì)比和事件元素識(shí)別結(jié)果對(duì)比分別如圖4和圖5所示。

Figure 4 Comparison of event type recognition results圖4 事件類(lèi)型識(shí)別結(jié)果對(duì)比

Figure 5 Comparison of event element recognition results圖5 事件元素識(shí)別結(jié)果對(duì)比

本實(shí)驗(yàn)所采用的觸發(fā)詞表及事件模板類(lèi)型來(lái)自于領(lǐng)域?qū)<覍?duì)朝鮮勞動(dòng)網(wǎng)有關(guān)金正恩行為報(bào)道的總結(jié)歸納,事件類(lèi)型參考目前最權(quán)威的事件數(shù)據(jù)分類(lèi)編碼方案沖突與調(diào)解事件框架CAMEO(Conflict And Mediation Event Observations),所測(cè)試的數(shù)據(jù)均為同一領(lǐng)域相關(guān)報(bào)道。

(1)通過(guò)實(shí)驗(yàn)可以看出本文方法中觸發(fā)詞及元事件模板對(duì)同一領(lǐng)域內(nèi)其他主體對(duì)象的相關(guān)事件要素抽取具有通用性,說(shuō)明新聞數(shù)據(jù)中同一領(lǐng)域內(nèi)不同對(duì)象的相同類(lèi)型事件的描述是相似的。

(2) 通過(guò)基于模式匹配、相似義原、深度神經(jīng)網(wǎng)絡(luò)LSTM不同方法的對(duì)比實(shí)驗(yàn)分析發(fā)現(xiàn),在元事件類(lèi)型識(shí)別中,采用相似義原的觸發(fā)詞擴(kuò)展方法使得事件類(lèi)型召回率和事件類(lèi)型識(shí)別F值均得到了一定的提升,如圖4所示。數(shù)據(jù)召回率低主要是因?yàn)橛|發(fā)詞表不完備,元事件模板不完備,其他類(lèi)型元事件在元事件模板定義中缺失,通過(guò)補(bǔ)充觸發(fā)詞表可提高元事件類(lèi)型召回率。

(3) 通過(guò)基于模式匹配、相似義原、深度神經(jīng)網(wǎng)絡(luò)LSTM 3種方法的實(shí)驗(yàn)分析,如圖5所示,在元事件元素識(shí)別中,有未召回的事件元素主要是因?yàn)榉衷~結(jié)果中部分分詞結(jié)果不準(zhǔn)確,或是特殊的專(zhuān)有名詞,在實(shí)驗(yàn)過(guò)程中,通過(guò)將未識(shí)別出的詞加入到分詞詞典中,可提高事件元素識(shí)別召回率;同時(shí),可以看出由于基于相似義原的方法對(duì)觸發(fā)詞進(jìn)行了擴(kuò)展,因此該方法在事件要素識(shí)別準(zhǔn)確率和召回率上均有提升。

(4) 基于深度神經(jīng)網(wǎng)絡(luò)LSTM在政治外交領(lǐng)域的元事件元素識(shí)別召回率和準(zhǔn)確率不高的主要原因是論元角色涉及大量領(lǐng)域?qū)S忻~,如“朝鮮勞動(dòng)黨第5次支部委員長(zhǎng)大會(huì)”,只能抽取到“朝鮮”“勞動(dòng)黨”;而本文方法結(jié)合相似義原和依存句法的方法可以做到事件要素的準(zhǔn)確識(shí)別和抽取。

(5)針對(duì)政外領(lǐng)域數(shù)據(jù)的元事件抽取,需要專(zhuān)有的觸發(fā)詞表及元事件類(lèi)型定義。

5 結(jié)束語(yǔ)

元事件識(shí)別過(guò)程中觸發(fā)詞的擴(kuò)展、論元角色的識(shí)別(包括時(shí)間表達(dá)式識(shí)別、專(zhuān)有名詞的識(shí)別)、事件類(lèi)型的定義等都是影響元事件類(lèi)型識(shí)別和元事件元素識(shí)別效果的因素,在未來(lái)的研究中,可針對(duì)各方面嘗試不同的方法,在整體上提高對(duì)元事件抽取的質(zhì)量。

本文方法在實(shí)際工程中主要用于針對(duì)非結(jié)構(gòu)化文本類(lèi)新聞數(shù)據(jù)進(jìn)行結(jié)構(gòu)化抽取,通過(guò)元事件抽取得到數(shù)據(jù)內(nèi)部人物、時(shí)間、地點(diǎn)、組織等關(guān)聯(lián)關(guān)系,對(duì)事件庫(kù)的構(gòu)建進(jìn)行支撐和補(bǔ)充,進(jìn)一步為事件關(guān)系挖掘、事件預(yù)測(cè)等提供基礎(chǔ)支撐。

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學(xué)教學(xué)改革的方法
化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學(xué)習(xí)方法
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡(jiǎn)單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢(qián)方法
捕魚(yú)
主站蜘蛛池模板: 欧美黄色网站在线看| 青草视频久久| 亚洲AV无码一区二区三区牲色| 99精品免费欧美成人小视频 | 国产精品视频观看裸模| 国产午夜一级毛片| 亚洲色大成网站www国产| 思思热在线视频精品| 思思热在线视频精品| 国产香蕉国产精品偷在线观看 | 国产成人综合网| 综合色88| 国产福利一区视频| 国产精品成人第一区| 日本在线视频免费| 国产人碰人摸人爱免费视频| 夜夜爽免费视频| 国产成人精品一区二区三在线观看| 国产精品性| 日韩成人在线网站| 一级爱做片免费观看久久| 日韩成人高清无码| 精品国产成人a在线观看| 久久久久国产一区二区| 亚洲综合色婷婷中文字幕| 国产真实乱子伦精品视手机观看| 最新国产麻豆aⅴ精品无| 8090成人午夜精品| 国产成人超碰无码| 午夜精品国产自在| 久久天天躁狠狠躁夜夜2020一| 国产成人区在线观看视频| 亚洲成人手机在线| 97超碰精品成人国产| 综合天天色| 亚洲男人在线| 欧美一区二区精品久久久| 久久这里只有精品23| 国产精品刺激对白在线| 国产精品福利在线观看无码卡| 精品自拍视频在线观看| 日韩中文无码av超清| 成人毛片在线播放| 四虎永久在线视频| 亚洲精品桃花岛av在线| 熟妇丰满人妻| 国产精品自在拍首页视频8| 视频国产精品丝袜第一页| 国产女人综合久久精品视| 日本影院一区| 欧美狠狠干| 国产精品yjizz视频网一二区| 国产超碰在线观看| 国产福利观看| 91久久天天躁狠狠躁夜夜| aaa国产一级毛片| 亚洲全网成人资源在线观看| 欧美在线视频不卡| 国内老司机精品视频在线播出| 欲色天天综合网| 欧美a网站| 中文字幕佐山爱一区二区免费| 在线日韩一区二区| 手机在线国产精品| 亚洲色图欧美视频| 亚洲成人福利网站| 再看日本中文字幕在线观看| 最新国产午夜精品视频成人| 亚洲福利网址| 香蕉综合在线视频91| 3D动漫精品啪啪一区二区下载| 天天综合天天综合| 亚洲欧美成人综合| 欧美精品色视频| 欧美在线免费| 国产美女91呻吟求| 99视频在线免费看| 国产精品人莉莉成在线播放| 高潮毛片无遮挡高清视频播放 | 伊人久久青草青青综合| 婷婷成人综合| 国产一区二区三区日韩精品 |