肖 樂, 陳嘯林, 單 昕
(河南工業(yè)大學(xué)信息科學(xué)與工程學(xué)院,鄭州 450001)
近年來,全球糧食產(chǎn)業(yè)鏈供應(yīng)鏈不確定性風(fēng)險增加。據(jù)聯(lián)合國糧農(nóng)組織估計,病蟲害導(dǎo)致糧食作物每年損失質(zhì)量分?jǐn)?shù)20%~40%,中國是全球糧食主要生產(chǎn)國之一,據(jù)國家統(tǒng)計局?jǐn)?shù)據(jù)顯示:2021年中國糧食播種面積為1.18億hm2,產(chǎn)量為6.83億t,連續(xù)10年產(chǎn)量破6億t,為中國糧食安全提供了堅實的物質(zhì)基礎(chǔ)和供給保障[1]。儲糧受氣候變化、糧溫變化、儲糧害蟲繁殖等事件的影響而產(chǎn)生損耗,而傳統(tǒng)知識圖譜局限于靜態(tài)知識而無法展示事件的發(fā)展。針對該問題,本研究對儲糧害蟲事理圖譜的數(shù)據(jù)特征和構(gòu)建方法進行研究,根據(jù)儲糧害蟲數(shù)據(jù)特征對儲糧害蟲相關(guān)事件進行事件抽取,指導(dǎo)儲糧害蟲事理圖譜的構(gòu)建,有助于科研人員挖掘糧食儲藏深層機理,改善農(nóng)戶或糧庫工作人員等因?qū)Z事件發(fā)生的前因后果和發(fā)展邏輯的了解不系統(tǒng)不全面,而導(dǎo)致糧食在存儲中產(chǎn)生巨大損耗的問題。
事理圖譜是一個有向有環(huán)圖,以“謂詞性短語”為節(jié)點,以事件演化邏輯為邊,包含了事件實體和事件之間的因果、順承、共指、時序等關(guān)系。構(gòu)建儲糧害蟲事理圖譜可以梳理糧倉中儲糧害蟲引發(fā)糧食輿情事件的先后邏輯與演化規(guī)律,幫助農(nóng)戶掌握儲糧事件中的事理邏輯知識,達(dá)到及時應(yīng)對儲糧突發(fā)事件,減少蟲蛀損失,保障糧食安全的目的。
知識圖譜作為文獻計量分析的重要手段之一,因具有可視化、數(shù)據(jù)處理能力強、分析維度多等優(yōu)勢,近年來得到廣泛應(yīng)用[2]。但傳統(tǒng)知識圖譜受限于其本體概念,與事件圖譜、事理圖譜在多個方面有顯著區(qū)別。
Yang等[3]利用事件時間戳、事件內(nèi)容相似性等建模事件演化關(guān)系,以便高效地瀏覽和提取信息。李忠陽等[4]提出事理圖譜的概念,揭示事件之間的演化模式和發(fā)展邏輯。事理圖譜的推理被應(yīng)用于事件預(yù)測、常識推理、因果推理、對話生成、問答系統(tǒng)等任務(wù)中。構(gòu)建儲糧害蟲事理圖譜可以對儲糧害蟲相關(guān)事件進行推演、預(yù)測后續(xù)事件,總結(jié)并指導(dǎo)后續(xù)的防治。
目前知識圖譜在糧食領(lǐng)域的應(yīng)用目的主要在于提高糧食產(chǎn)量,減少糧食損失。Zhao等[5]利用知識圖譜改進對收獲后的谷物損失預(yù)測。Mawkhiew等[6]通過植物光感受器的基因知識圖譜研究糧食作物生理發(fā)育過程,來培育具有更高農(nóng)業(yè)效益的作物。Liu等[7]研究了農(nóng)作物病蟲害數(shù)據(jù)特征,介紹了農(nóng)作物病蟲害知識圖譜的構(gòu)建方法和具體應(yīng)用。Choudhary等[8]開發(fā)了YieldPredict框架來預(yù)測作物產(chǎn)量。在儲糧領(lǐng)域,肖樂等[9]提出通過構(gòu)建知識圖譜來對糧情決策系統(tǒng)做支持。而知識圖譜主要展示靜態(tài)知識,根據(jù)事理圖譜的特點可以更好地指導(dǎo)儲糧害蟲的防治。
對于糧食事件[10],考慮到圖1a中知識圖譜只能展示特定靜態(tài)知識的特性,利用糧食領(lǐng)域事件關(guān)聯(lián)性強的特點,可以將不同類型事件通過其動態(tài)關(guān)系連接成鏈,如圖1b中事件通過因果關(guān)系相連接,組成了一條事件鏈,來展示事件的動態(tài)演化邏輯。而事件鏈中的具體事件泛化為一般事理后,形成事理鏈如圖1c所示,多個事理鏈相連接結(jié)合構(gòu)成事理圖譜,可以清晰直觀地展現(xiàn)事件發(fā)展邏輯和演化規(guī)律。

圖1 事件演化邏輯
本研究針對構(gòu)建儲糧害蟲事理圖譜來減少糧庫損失這一目的,通過采集糧食大辭典[11]儲糧相關(guān)論文和網(wǎng)上爬取的儲糧害蟲事件等文本,對其進行數(shù)據(jù)預(yù)處理、標(biāo)注,構(gòu)建儲糧害蟲語料庫,并對儲糧害蟲事件的數(shù)據(jù)特征進行研究。本文將儲糧害蟲事件數(shù)據(jù)與其他領(lǐng)域事件數(shù)據(jù)中的因果關(guān)系詞的詞頻做對比,通過對儲糧害蟲事件中的因果關(guān)系詞、事件類型、觸發(fā)詞、隱性因果關(guān)系等進行分析,發(fā)現(xiàn)了儲糧害蟲事件數(shù)據(jù)事件密度低、事件類型因果關(guān)聯(lián)性強的數(shù)據(jù)特征。經(jīng)研究及實驗分析,自注意力集機制對觸發(fā)詞重疊的儲糧害蟲事件挖掘十分有效,從而提出了適用于儲糧害蟲事件的事件抽取方法和引入自注意力機制的Bert-BiLSTM-Attention事件類型識別模型。相比其他模型,實驗取得了更好效果。
事理圖譜的節(jié)點由抽象、廣義和語義完整的謂詞性短語表示,事理圖譜中的事理是具有一定抽象程度的事件,可以是由主語和謂詞組成的謂詞性短語,也可以是包含事件主體、論元、謂語動詞的多元組。
近年來,知識圖譜在糧食領(lǐng)域得到廣泛應(yīng)用,通過糧食知識圖譜可以對糧食領(lǐng)域智能問答系統(tǒng)、決策系統(tǒng)、專家系統(tǒng)等做支持,而對于事理圖譜目前的研究,在糧食領(lǐng)域應(yīng)用較少,事理圖譜中包含的事理邏輯相對于知識圖譜更符合人類的思考習(xí)慣,因此具有較強的可解釋性,且在事理圖譜上進行關(guān)系推理可以更進一步挖掘不同類型事件間的因果、時序等關(guān)系。
事理圖譜的研究任務(wù)如表3所示,目前主要有腳本事件預(yù)測和因果關(guān)系抽取。

表3 事理圖譜相關(guān)研究
2.1.1 腳本事件預(yù)測
事件發(fā)展有一定邏輯,將有共同主人公的一組有序事件組成事件鏈,統(tǒng)計腳本學(xué)習(xí)目標(biāo)是從原始文本中學(xué)習(xí)事件鏈。Chamber等[12]在2008年首先提出腳本事件預(yù)測,定義為給出一個事件的上下文,需要從候選列表中選擇最合理的后續(xù)事件[12]。Jans等[13]改進了Chamber等[12]的方法,明確建模事件對的時間順序[13]。基于事件對的方法適用于部分序列,對于長期時序的學(xué)習(xí),LSTM可以保存長期歷史信息[14]。Wang等[15]結(jié)合2種方法的優(yōu)點,使用LSTM隱藏狀態(tài)作為事件對建模的特征。但基于事件對和事件鏈的模型不能充分利用密集事件連接,因此李忠陽等[16]基于敘事事件鏈構(gòu)建了事理圖譜。
2.1.2 因果關(guān)系抽取
事理圖譜的節(jié)點存在時序、因果等關(guān)系,在許多情況下時序和因果關(guān)系往往可以互相決定[18]。
當(dāng)前因果關(guān)系的抽取技術(shù)包括基于知識、基于統(tǒng)計機器學(xué)習(xí)和基于深度學(xué)習(xí)的方法[19]。大多數(shù)因果關(guān)系抽取方法是通過句子中顯式因果關(guān)系詞進行抽取。然而文本中很多因果關(guān)系是隱式因果關(guān)系。Wang等[24]提出了從ADE語料庫中提取實體和關(guān)系的模型,對編碼序列表示和表表示,以識別實體及其關(guān)系,這2種表示相互作用,來挖掘句子中的隱性關(guān)系。Jin等[25]利用BiLSTM獲得因果之間更深層的上下文語義信息來挖掘句子之間的因果關(guān)系。
同時國內(nèi)也有以事件為核心的應(yīng)用型事理圖譜研究,如中科院軟件所開發(fā)的大規(guī)模事理學(xué)習(xí)與搜索系統(tǒng)學(xué)跡[26]和哈工大社會計算與信息檢索研究中心開發(fā)的金融事理圖譜demo,展示了事件之間的抽象因果關(guān)系[27]。
可解釋性指決策原因可以受人理解的程度。可解釋性的一個標(biāo)準(zhǔn)是:如果系統(tǒng)可以解釋其推理,那么我們就可以驗證這一推理是否合理[28]。
在某些任務(wù)中,人們需要了解做出決策的原因。侯中妮等[29]指出,出于高可靠性要求、道德和法律的要求、科學(xué)發(fā)現(xiàn)的要求,這3點推動了對可解釋性的需求。在知識推理中,根據(jù)解釋產(chǎn)生的方法可以將推理模型劃分為事前可解釋和事后可解釋兩大類。
可解釋性是事理圖譜的一個重要特征,要求人們可以通過事件之間的時序、因果等關(guān)系充分理解事件的演化過程。Li等[30]提出預(yù)先構(gòu)建的事理圖譜中獲取中間證據(jù)事件作為因果推理的邏輯規(guī)則。
事理圖譜主要展示事件的發(fā)展邏輯和演化規(guī)律,更符合人類的思考習(xí)慣,因此本身具有較強的可解釋性,同時對可解釋的因果關(guān)系抽取和知識推理有較高的準(zhǔn)確性要求。
知識推理旨在利用已有的知識推理出新知識的過程。知識推理的方法主要分為3類:基于規(guī)則的推理、基于分布式的推理和基于神經(jīng)網(wǎng)絡(luò)的推理。
基于演繹邏輯和規(guī)則的推理方法以邏輯操作符組合的形式利用已有的規(guī)則進行推理,如AMIE[31],TensorLog[32],NeuralLP[33],RNN-Logic[34]等。基于分布式的推理方法將高維、離散的數(shù)據(jù)嵌入到低維連續(xù)的向量空間中進行計算,代表模型有TransE[35]、RotateE[36]等。基于神經(jīng)網(wǎng)絡(luò)的推理,用深度神經(jīng)網(wǎng)絡(luò)模型計算實體對等的相似度得分來進行推理[37-39]。同時還有基于圖結(jié)構(gòu)的推理如PRA[40]、GraIl[41]等。
事理圖譜推理的任務(wù)主要有對事件時序關(guān)系的推理[17,30,42],根據(jù)事件時序關(guān)系可以挖掘事件因果關(guān)系。和對因果關(guān)系的推理[43,44], 實質(zhì)上相當(dāng)于測量一個事件在統(tǒng)計學(xué)上導(dǎo)致另一個事件的合理性。
目前面向儲糧害蟲的事理圖譜研究內(nèi)容主要是儲糧害蟲事件和因果關(guān)系的抽取。對于儲糧害蟲事理圖譜的構(gòu)建,需要通過挖掘事件之間的因果關(guān)系并形成事件鏈,來幫助有關(guān)人員了解儲糧害蟲事件的因果事件和演化規(guī)律,指導(dǎo)后續(xù)的害蟲防治,減少儲糧損失。
對于儲糧害蟲事件數(shù)據(jù)中事件因果關(guān)聯(lián)性強的特點,以儲糧害蟲事件數(shù)據(jù)構(gòu)建的事理圖譜具有較強的可解釋性,如:環(huán)境變化引起倉溫上升到綠豆象繁殖的適宜溫度,導(dǎo)致綠豆象大量繁殖,其中的事理邏輯為環(huán)境變化-倉溫上升-儲糧害蟲繁殖。同時在事理圖譜上進行推理,來挖掘不同事件類型之間更深的因果、時序等事理關(guān)系。
本文把儲糧害蟲事理圖譜數(shù)據(jù)總體架構(gòu)分為兩部分,如圖2分別是模式層和數(shù)據(jù)層。模式層包含已預(yù)先定義好的事件類及事件對應(yīng)的事理類,以及儲糧害蟲數(shù)據(jù)中的實體類和屬性類作為事件的論元角色,通過模式層構(gòu)建數(shù)據(jù)的總體架構(gòu)來指導(dǎo)數(shù)據(jù)的標(biāo)注工作。數(shù)據(jù)層為根據(jù)模式層定義的數(shù)據(jù)類型對儲糧害蟲事件進行標(biāo)注得到的數(shù)據(jù),包含儲糧害蟲相關(guān)事件、事件中參與的實體以及實體屬性和關(guān)系,和經(jīng)過泛化得到的事理。

圖2 儲糧害蟲事件數(shù)據(jù)架構(gòu)
事件抽取是構(gòu)建儲糧害蟲事理圖譜的核心任務(wù)。事件是指在特定時間和特定地點發(fā)生的特定事件,涉及一個或多個參與者,通常可以描述為狀態(tài)的變化[45]。事件主要由動詞或動名詞驅(qū)動,包含事件類型、事件觸發(fā)詞、事件論元、論元角色等。
事件抽取的4個子任務(wù):觸發(fā)詞識別,事件類型分類,論元識別,論元角色分類。根據(jù)這4個子任務(wù)的解決過程,事件抽取任務(wù)分為基于pipeline的事件抽取和基于聯(lián)合的事件抽取[46]。基于pipeline的方法將所有子任務(wù)視為獨立的分類問題:文獻[47,48],基于聯(lián)合的方法文獻[49,50]。
儲糧害蟲事理圖譜中的事件抽取重點抽取事件實例所屬的事件類型和其中論元的角色,將事件實例和論元泛化得到一般事理。
事件抽取得到的儲糧害蟲事件實例,如圖3抽取樣例中可以看到事件抽取得到事件的類別和其中所包含論元及其角色,再用基于模板匹配的關(guān)系抽取方法獲取事件之間的關(guān)系,利用預(yù)設(shè)好的模板庫,包含“導(dǎo)致”“造成”“引起”等能夠代表事件之間因果關(guān)系的關(guān)系詞,對儲糧害蟲事件進行搜索,并獲取關(guān)系詞的上下文作為“因”事件與“果”事件,“因”事件與“果”事件通過因果關(guān)系詞連接形成三元組,如果一個因果事件三元組的尾結(jié)點剛好是另一個三元組的頭結(jié)點,那么這種重疊將2個三元組結(jié)合起來,構(gòu)成事件鏈,并經(jīng)過泛化得到事理鏈。

圖3 抽取樣例
由于儲糧害蟲事件屬于一個較小的領(lǐng)域知識,事件類型之間相似度較高,因此基于模板匹配的關(guān)系抽取能夠達(dá)到較高的精確度。
儲糧害蟲事理圖譜構(gòu)建流程如圖4所示,首先對獲取的儲糧害蟲事件數(shù)據(jù)根據(jù)預(yù)先定義好的架構(gòu)進行標(biāo)注,對標(biāo)注好的數(shù)據(jù)進行事件抽取、事件分類、論元抽取、通過預(yù)設(shè)好的關(guān)系抽取模板進行事件關(guān)系抽取得到事件鏈。抽取得到的大量儲糧害蟲事件,利用其中部分論元進行結(jié)合可以泛化為一般事理,相似事件將被泛化為相同的事理,這些事理繼承了原事件鏈中的因果關(guān)系。通過事件鏈的因果關(guān)系來確定事理的邏輯關(guān)系,最后把得到的事理鏈及其對應(yīng)的事件以圖的形式存儲在Neo4j數(shù)據(jù)庫中。

圖4 儲糧害蟲事理圖譜構(gòu)建流程

圖5 Bert-BiLSTM-Attention模型圖
用糧食大辭典、相關(guān)論文和找到的網(wǎng)上儲糧害蟲相關(guān)事件數(shù)據(jù)構(gòu)建原始數(shù)據(jù)集,共獲取7 511條數(shù)據(jù)。表4定義了儲糧害蟲相關(guān)事件的4個類別和其中包含的共14個事件類型及其中的論元角色。獲取的數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗、去除停用詞、對獲取的數(shù)據(jù)用label studio在線標(biāo)注平臺對事件、觸發(fā)詞、論元等根據(jù)表4定義的事件類型及論元角色的抽取任務(wù)標(biāo)簽進行標(biāo)注得到儲糧害蟲事件語料庫。我們通過分析所構(gòu)建的儲糧害蟲事件語料庫得到儲糧害蟲事件數(shù)據(jù)特征,對能夠結(jié)合其特征的事件抽取方法進行研究。

表4 儲糧害蟲事件類型及對應(yīng)事件角色
由表4中不同事件類型的論元角色可知,同一類別中的不同事件類型相似度較高,而相似事件類型中往往有相同的觸發(fā)詞,如果通過標(biāo)注觸發(fā)詞來完成事件抽取會影響事件分類的準(zhǔn)確性。因此本研究直接對儲糧害蟲事件類型進行標(biāo)注,事件抽取時用事件類型識別來代替觸發(fā)詞識別。
儲糧害蟲事件包含環(huán)境影響、態(tài)勢、防治、損失等多個類別,不同類別之間有緊密的因果關(guān)系,每個類別包含多種具體事件類型。傳統(tǒng)的事件抽取方法是將觸發(fā)詞和事件論元進行統(tǒng)一抽取再分類,而在儲糧害蟲事件數(shù)據(jù)中,相似的事件類型中通常包含大量相同的觸發(fā)詞,針對儲糧害蟲事件數(shù)據(jù),基于觸發(fā)詞識別的抽取方法往往難以對同一類別的不同事件類型的事件準(zhǔn)確分類,而影響后續(xù)任務(wù)的準(zhǔn)確度。因此,我們將儲糧害蟲事件抽取任務(wù)分為兩步,第一步是無觸發(fā)詞的事件分類,按照預(yù)先定義的事件類型對事件數(shù)據(jù)進行無觸發(fā)詞分類,第二步是論元識別,按照預(yù)先定義的事件論元角色對論元進行識別并分類,可以用來確定完整的事件實例并利用論元對事件進行泛化,然后對事件進行關(guān)系抽取得到事件實例之間的因果關(guān)系。
本研究將4.1構(gòu)建的儲糧害蟲事件語料庫與其他領(lǐng)域事件數(shù)據(jù)對比,對儲糧害蟲事件數(shù)據(jù)和DuEE事件抽取中文數(shù)據(jù)集[51]的14 946條新聞事件做詞頻分析,設(shè)置了“產(chǎn)生”“影響”“導(dǎo)致”“造成”“由于”“引起”等可以表示因果關(guān)系的詞匯,在已獲取的數(shù)據(jù)中,每條數(shù)據(jù)最多只包含一種因果詞,在儲糧害蟲事件數(shù)據(jù)的7 511條數(shù)據(jù)中和DuEE事件抽取中文數(shù)據(jù)集的14 946條數(shù)據(jù)中,包含因果關(guān)系詞匯的數(shù)據(jù)所占比例如表5所示。

表5 糧食數(shù)據(jù)事件因果關(guān)系分析
由表5可知,不同類型糧食事件的因果關(guān)聯(lián)性較強。但在糧食數(shù)據(jù)中事件的密度較低,同一類別事件中不同事件類型相似度較高。其他領(lǐng)域事件中具有因果關(guān)系的事件的表述中大多包含“產(chǎn)生、影響、導(dǎo)致”等表示因果關(guān)系的詞匯,而儲糧害蟲事件數(shù)據(jù)中,存在大量事件有因果關(guān)系,但表述中不包含表示因果關(guān)系的詞匯,如表6所示。對于沒有包含因果關(guān)系詞匯的事件,通過其事件類型所屬類別標(biāo)簽來確定因果關(guān)系,并泛化為事理。

表6 儲糧害蟲事件數(shù)據(jù)樣例
經(jīng)過處理后得到的儲糧害蟲事件為半結(jié)構(gòu)化事件,一條事件文本中包含多個事件類型的具有相互關(guān)系的事件,經(jīng)過事件抽取和關(guān)系抽取組成一條事件鏈。
通過研究及實驗發(fā)現(xiàn)自注意力機制對觸發(fā)詞重疊的事件發(fā)現(xiàn)有較好效果。針對儲糧害蟲事件數(shù)據(jù)具有因果關(guān)聯(lián)性強和觸發(fā)詞重疊等特征,提出引入自注意力機制的Bert-BiLSTM-Attention模型進行儲糧害蟲事件類型的識別,在儲糧害蟲語料庫上的實驗結(jié)果(見4.4)與其他無此特征的公共數(shù)據(jù)集比較,效果顯著。
Bert預(yù)訓(xùn)練語言模型強大的語言表征能力和特征提取能力可以更好地對儲糧害蟲事件文本進行編碼,再利用BiLSTM同時雙向進行特征學(xué)習(xí)的特點,學(xué)習(xí)儲糧害蟲事件文本上下文特征,有效挖掘文本中蘊含的隱含特征。
在儲糧害蟲事件類型識別過程中,放棄觸發(fā)詞識別可以有效避免由于儲糧害蟲事件中觸發(fā)詞重疊造成的事件抽取準(zhǔn)確度低的問題,并加入自注意力機制在Attention層,來捕捉數(shù)據(jù)或特征的內(nèi)部相關(guān)性,挖掘文本中重疊的觸發(fā)詞的影響,解決長距離依賴問題,對儲糧害蟲事件中類似觸發(fā)詞的重要信息分配更多注意力,并對其充分理解識別。
在4.1所構(gòu)建糧食事件語料庫上進行事件抽取,用Bert-BiLSTM-Attention模型進行事件類型識別的具體流程如圖4所示。經(jīng)過標(biāo)注的語料分詞后首先通過Bert預(yù)訓(xùn)練語言模型得到相應(yīng)的詞向量, 再把得到的詞向量輸入到BiLSTM層,利用Attention層獲取每個元素的注意力值,與BiLSTM層得到的序列特征結(jié)合來突出重要信息, 最后通過Softmax層進行事件類型分類,從而完成事件類型識別任務(wù)。
Bert是一個基于Transformer 的雙向預(yù)訓(xùn)練語言表征模型,將Transformer Encode進行堆疊來充分捕捉句子的遠(yuǎn)距離語義。Bert中雙向Transformer的自注意力(Self-Attention)部分計算見式(1)~式(4)。
Q=X×WQ
(1)
K=X×WK
(2)
V=X×WV
(3)
Attention(Q,K,V)=softmax(QKTdk)V
(4)
式中:矩陣X為輸入;WQ、WK、WV為參數(shù)矩陣;Q(Query)、K(Key)、V(Value)矩陣本質(zhì)上為X的線性變換,作為歸一化。最后將權(quán)重矩陣和相應(yīng)的Value矩陣進行加權(quán)求和得到最后的注意力值。
將Bert微調(diào)后得到的子序列向量輸入到BiLSTM模型進行特征抽取來捕獲上下文信息。
BiLSTM即雙向長短期記憶神經(jīng)網(wǎng)絡(luò),由2層長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)組成。LSTM不僅對短期輸入敏感,而且能保持長期記憶功能。具體計算如式(5)~式(10)。
ft=σ(Wf×[ht-1,xt]+bf)
(5)
it=σ(Wi×[ht-1,xt]+bi)
(6)
gt= tanh(Wc×[ht-1,xt]+bc)
(7)
Ct=it×gt+ft×Ct-1
(8)
ot= σ(Wo×[ht-1,xt]+bo)
(9)
ht=ot×tanh(Ct)
(10)
式中:gt為記憶單元;it為輸入門;ot為輸出門;ft為遺忘門;ht為LSTM的輸出。Wf、Wi、Wc、Wo為隱藏層向量的權(quán)重矩陣;bf、bi、bc、bo為偏差向量。BiLSTM輸出的儲糧害蟲事件數(shù)據(jù)特征信息集合輸入到Attention層中。
Attention層計算過程見式(11)~式(13)。
et=VT·tanh(W1·ht+b)
(11)
αt= exp (et)∑Tj=1exp (ej)
(12)
C= ∑Tt=1αt·ht
(13)
式中:W1和VT為權(quán)重矩陣;b為偏差;et為輸入序列t時刻的注意力值。
對et進行歸一化得到αt,然后與ht進行線性加權(quán)求和,最終得到特征向量C,將C輸入到Softmax層進行分類,如式(14)所示,最終得到儲糧害蟲事件類型信息。
y=softmax(Ws·C+bs)
(14)
研究針對儲糧害蟲事件數(shù)據(jù)事件密度低、事件類型因果關(guān)聯(lián)性強的特點,選擇Bert+BiLSTM+Attention模型進行事件類型識別任務(wù)。
為了證明該模型對于儲糧害蟲事件抽取任務(wù)中無觸發(fā)詞事件類型識別的有效性,我們將該模型分別用于儲糧害蟲語料庫和DuEE事件抽取中文數(shù)據(jù)集、ACE2005事件抽取中文數(shù)據(jù)集,進行事件類型識別任務(wù),并在該模型上與儲糧害蟲語料庫進行效果對比。
同時將Bert-BiLSTM-Attention去掉Attention層,分別用Word 2vec和Bert來對數(shù)據(jù)向量化,通過在3個數(shù)據(jù)集上進行實驗比較Bert和Word 2vec對實驗結(jié)果的影響,和Attention層對于儲糧害蟲事件抽取任務(wù)中無觸發(fā)詞事件類型識別的重要性,以及用于針對儲糧害蟲事件數(shù)據(jù)特征的事件類型識別的必要性。
以F1值作為評價指標(biāo),實驗結(jié)果對比如表7所示。

表7 實驗結(jié)果對比
從表7可以看出, Attention層在儲糧害蟲事件類型識別中具有一定的重要性,在儲糧害蟲語料庫上進行實驗時去掉Attention層會導(dǎo)致性能嚴(yán)重下降,而在另外2個數(shù)據(jù)集上對實驗結(jié)果沒有明顯影響。同時,在實驗中,Bert與Word 2vec相比具有一定的優(yōu)勢,用Bert預(yù)訓(xùn)練語言模型來對數(shù)據(jù)進行向量化比Word 2vec在3個數(shù)據(jù)集上的實驗結(jié)果F1值有較為明顯的提升。而Bert-BiLSTM-Attention模型在儲糧害蟲語料庫上的實驗結(jié)果F1值相較于DuEE數(shù)據(jù)集和ACE2005數(shù)據(jù)集有明顯提升。
根據(jù)在不同場景下實驗得到的F1值,可以觀察到,基于Bert-BiLSTM-Attention模型的儲糧害蟲事件分類效果于其他方法相比有較大提升,而在DuEE和ACE2005事件抽取中文數(shù)據(jù)集上與Bert-BiLSTM模型的實驗結(jié)果沒有明顯變化,因此Attention層在儲糧害蟲事件類型識別中較為重要,但由于DuEE數(shù)據(jù)集及ACE2005中文數(shù)據(jù)集不同于儲糧害蟲數(shù)據(jù)的特征,該模型在儲糧害蟲領(lǐng)域的事件數(shù)據(jù)集上進行無觸發(fā)詞的事件抽取能取得更好的效果,證明了該模型針對儲糧害蟲事件數(shù)據(jù)特征的有效性。
通過事理圖譜研究,以期解決知識圖譜難以展示事件動態(tài)發(fā)展邏輯的問題,分析了事理圖譜的研究現(xiàn)狀和相關(guān)技術(shù),挖掘了儲糧害蟲數(shù)據(jù)中事件密度低,且儲糧害蟲事件數(shù)據(jù)中不同事件類型觸發(fā)詞重疊和事件因果關(guān)聯(lián)性強的數(shù)據(jù)特征,并在此基礎(chǔ)上提出了面向儲糧害蟲事件的抽取方法和引入自注意力機制的儲糧害蟲事件類型識別模型。
針對儲糧害蟲事理圖譜的構(gòu)建,設(shè)計了儲糧害蟲事件語料庫構(gòu)建的總體架構(gòu),定義了儲糧害蟲事件數(shù)據(jù)的框架,根據(jù)這一框架構(gòu)建了儲糧害蟲事件語料庫并提出了針對儲糧害蟲事件數(shù)據(jù)特征的事理圖譜構(gòu)建方法和流程。將儲糧害蟲事件抽取分為事件分類和論元分類兩個任務(wù)。在所構(gòu)建的儲糧害蟲語料庫上進行無觸發(fā)詞的事件分類任務(wù),用不同模型及數(shù)據(jù)集進行對比實驗,證明了本文提出的針對儲糧害蟲事件的抽取方法的有效性。
基于本研究所完成的儲糧害蟲事件類型識別任務(wù),將進一步研究儲糧害蟲事件的論元識別和事件泛化,梳理糧倉中儲糧害蟲引發(fā)糧食輿情的先后邏輯與事件演化規(guī)律,從而完善儲糧害蟲事理圖譜構(gòu)建,為糧食行業(yè)儲糧害蟲研究與防治提供科學(xué)手段,減少糧食產(chǎn)后損失,保障我國糧食安全。