
食品安全領域的輿情事件抽取是當前信息抽取領域的重要研究課題,也是食品安全輿情監(jiān)管和預測的重點技術之一。
如今,科研人員在研究事件抽取時,一般使用兩種方法。一是基于規(guī)則的方法,一般來說,這種方法更適用于英文報道,普適性較差,并不適用于中文輿情的事件抽取。第二種是基于神經(jīng)網(wǎng)絡模型的深度學習方法,近年來已成功地應用于各領域的中文事件抽取任務中,并表現(xiàn)出了更好的性能。本文的模型是基于深度學習的研究方法。
事件抽取相關工作的有關研究
事件抽取作為信息抽取的子任務,在知識挖掘領域起著非常重要的作用,也一直是經(jīng)典而又富有挑戰(zhàn)性的任務,在過去十幾年的研究發(fā)展中也取得了很多階段性的突破。
事件抽取研究中,首先被提出的就是研究者們通過文本分析和自身的語言知識,把語料中每一個句子用一系列特征和規(guī)則進行處理,我們稱之為基于規(guī)則的方法。2008年,Ji等人在不標記數(shù)據(jù)的前提下,采用基于規(guī)則的方法在句子和文檔之間傳播一致的觸發(fā)詞分類和事件元素,提高了性能。
2009年,鄭家恒和毋菲等人 針對中文事件的特點,提出了一種更適用于提取中文事件論元值的方法,他們的研究以決策樹為依托,對語料事件的觸發(fā)詞以及其上下文進行分析并將語料分類,最后利用規(guī)則匹配抽取語料中的目標詞。
后來,孟雷、丁效等人在依存句法的基礎上,提出了一種對事件元素抽取的方法,并根據(jù)短語結(jié)構句法分析,進一步確定事件元素的邊界情況。
研究發(fā)現(xiàn),通過句法關系結(jié)合抽取規(guī)則,能夠很好地抽取事件的元素核心詞,然后再利用短語結(jié)構句法,就能夠很好地確定完整的事件元素。
區(qū)別于基于規(guī)則的方法,基于神經(jīng)網(wǎng)絡模型的深度學習的方法近年來受到越來越多的研究者的重視,已經(jīng)成為了最主流的事件抽取方法。Ahn明確指出對于事件元素識別分類問題,可以將其轉(zhuǎn)變?yōu)槎嘧兞糠诸悊栴},并通過分類學習的方法,在ACE語料庫中,有效地識別事件觸發(fā)詞、事件元素。Xia等人于2015年提出一種融合文本、圖像和地點等信息的一種聯(lián)合架構模型,并用該模型抽取事件的空間和時間信息,然后在這一基礎上,將特定的事件信息抽取出來。Chen等人構建出了動態(tài)多池化卷積神經(jīng)網(wǎng)絡(DMCNN),利用簡單的NLP工具,能夠自動提取出詞匯及句子級別的特征提取出來。他們采用卷積神經(jīng)網(wǎng)絡(CNN)的框架來捕獲句子級線索,同時還提出了動態(tài)多池化卷積神經(jīng)網(wǎng)絡(DMCNN)來保留關鍵信息。實驗結(jié)果表明該方法優(yōu)于其他最新方法,是深度學習在事件抽取任務上應用的有效嘗試。
另一項里程碑的工作是Nguyen 等人提出在具有雙向遞歸神經(jīng)網(wǎng)絡的聯(lián)合框架中進行事件抽取,它在考慮事件觸發(fā)詞的基礎上,還兼顧事件元素,并且對聯(lián)合模型的記憶特征進行了深入地分析,并通過實驗證明了所提出的模型在ACE2005數(shù)據(jù)集上達到了最好的性能。隨著深度學習研究的不斷深入,圖卷積網(wǎng)絡也被應用于多事件抽取任務,并且成效顯著。
BiLSTM神經(jīng)網(wǎng)絡近年來也有了長足的發(fā)展,何等人利用BiLSTM,在抽取生物事件通用語料MLEE 時,表現(xiàn)出了非常好的抽取性能。
食品安全輿情事件抽取模型
本文所提出的食品安全輿情事件抽取模型,主要用于實現(xiàn)食品安全輿情事件觸發(fā)詞的識別及分類和食品安全輿情事件的論元識別及抽取。在本章節(jié)中,我們將詳細介紹食品安全輿情事件抽取模型的網(wǎng)絡結(jié)構和內(nèi)部的處理過程模型前期準備工作。
1. 食品安全輿情事件模型
我們參照ACE2005 對事件定義的8種事件類型和33種子類型,構建了實驗所需的食品安全輿情事件模型。該模型可通過輿情事件類型、觸發(fā)詞、必要論元角色(唯一)和可出現(xiàn)論元角色四部分,為食品安全輿情事件進行分類。具體分類如表1所示:
2.數(shù)據(jù)預處理
在神經(jīng)網(wǎng)絡中,數(shù)據(jù)輸入的質(zhì)量是至關重要的,因此我們需要對食品安全領域輿情語料庫中的語料進行預處理,提高其數(shù)據(jù)質(zhì)量,保證模型不會受到噪聲干擾,發(fā)揮最佳的性能。
第一步,數(shù)據(jù)清洗,由于網(wǎng)絡中的輿情文本中經(jīng)常存在一些特殊字符,例如:表情符號,亂碼,中文文本中不會出現(xiàn)的【@#¥&~^*/】等與輿情本身無關且干擾模型訓練效果的字符,所以我們首先要對其進行處理,將文本中的無用符號去除。
第二步,通過構建觸發(fā)詞詞典,將事件抽取視為分類工作。按照一定的知識邏輯和事件規(guī)律,按類別總結(jié)候選觸發(fā)詞,并在預料中驗證候選觸發(fā)詞,最終構建觸發(fā)詞詞典,并在后期實驗中不斷更新補充。
第三步:由于食品安全輿情報道往往是長文本,無法全部輸入到神經(jīng)網(wǎng)絡中,因此我們讀取語料庫中經(jīng)第一步中處理過后的輿情語料,以‘。為分隔符,加入標記符號“[SEP]”,最大長度為300字,對于長度大于300字的句子,選擇距離結(jié)尾最近逗號加入標記符號,將處理好的句子存儲到數(shù)據(jù)庫新的字段中。
同時,我們根據(jù)食品安全輿情事件模型對輿情語料進行人工標注,將輿情事件中的輿情事件類型,觸發(fā)詞,論元,論元角色等四部分內(nèi)容做標記,其中空值記為NULL。
3. 詞向量訓練
詞向量訓練是將字轉(zhuǎn)換為向量坐標表示的方法,通過語言模型的訓練,將模型詞典中的詞以向量形式表示,其中具有相似語義關系詞之間的坐標距離會更接近,在訓練時能夠更好的理解詞語的語義信息,是處理同義詞,相近詞等問題的有效手段。
本文通過Word2Vec,針對食品安全輿情預料,展開了一系列詞向量訓練。Word2Vec可以有效實現(xiàn)詞語的向量編碼,保留文本上下文特征和位置特征等,具有較好的語義表達準確性。
本研究完成的主要工作是基于BiLSTM-CRF構建了一個事件抽取模型,應用到食品安全領域輿情的事件抽取中。通過BiLSTM模型對語料進行特征提取,并通過CRF模型對事件類別和元素種類進行判別,這兩個模型共同組合成食品安全輿情事件抽取模型,其在測試集上取得了較好的效果。
本文的研究為食品安全輿情領域的事件抽取提供了新的方法及思路,為實現(xiàn)相關食品安全輿情監(jiān)管可視化平臺、食品安全輿情預測等應用奠定了基礎。
此外如何對抽取后出現(xiàn)的噪音數(shù)據(jù)進行識別、校正以及對食品領域詞、知識的補全將會是下一步工作的重點。未來可通過人工智能技術進一步打造食品安全輿情監(jiān)管智能化系統(tǒng),實現(xiàn)資源共享,為大眾和監(jiān)管部門可以快速準確的把握食品安全輿情提供便利。
作者:孫劭 北京工商大學電商與物流學院研究生