黎 紅,禹 龍,田生偉,吐爾根·依布拉音,趙建國
(1. 新疆大學 軟件學院,新疆 烏魯木齊 830008; 2.新疆大學 網絡中心,新疆 烏魯木齊 830046;3. 新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046; 4.新疆大學 人文學院,新疆 烏魯木齊 830046)
事件識別旨在抽取事件觸發詞,并將其所對應的事件作出對應的分類,然而同一類別事件可能含有不同的觸發詞,同一個觸發詞亦可能在不同的上下文中隸屬于不同類別的事件。此外,包含事件觸發詞是事件識別的必要條件,而不是充分條件。包含事件觸發詞的句子并不表示發生了該事件。如例①~③(維吾爾語的書寫格式從右向左,下文同)。

(希臘東部海域12日發生6.1級地震。)

(地震是地殼快速釋放能量過程中造成的震動。)

(地震局公布最新消息稱: ……)
突發事件[1]即指在一定區域內,無預期地發生,并對生命或財產構成威脅,對社會產生負面影響的事件。突發事件本身具備發生前不可預期、發生后受人關注的性質。突發事件識別的研究對自動問答、故障診斷等技術的進一步發展起到一定的推動作用,同時可為突發事件的事前防范做好預期,為事后處理提供參照。
深度學習技術的提出,不僅在圖像處理、語音識別等領域成效卓著,在自然語言處理研究中亦顯示出其優越性。Bahdanau[2]等人利用雙向遞歸神經網絡自動搜索與目標詞相關的源語句實現了英—法翻譯任務。Tang[3]等人提出門控的遞歸神經網絡,完成了跨文檔的情感分類。Mina[4]等人聯合長短期記憶網絡和遞歸神經網絡構成端對端的神經網絡模型,實現了實體與實體間關系的提取。國內學者亦利用深度學習模型在情感分析[5-6]和指代消解[7]等自然語言處理領域取得顯著成果。由此可見,深度學習模型中的多層學習結構有效地提高了模型的性能,對于抽象特征的提取促進了模型對深層語義信息的學習。長短期記憶網絡LSTM和深度卷積神經網絡作為典型的深度學習模型,其中長短期記憶網絡LSTM 能有效地捕獲每個詞的上下文信息,學習長期的依賴關系,因此非常適用于時間序列變化類問題建模。深度卷積神經網絡的優勢在于可以通過對數據局部特征的挖掘,抽取深層數據表征,學習其隱含的高階特征。
隨著對事件識別研究的不斷深入,如何有效地獲取事件結構以及語義上下文等特征,在基于深度學習技術的事件識別中起著至關重要的作用。由此,本文提出DCNNs-LSTM聯合模型,利用深度卷積網絡對維吾爾語文本的事件句結構進行建模,抽取維吾爾語文本事件的結構特征,并進行抽象化的學習。通過LSTM網絡捕獲事件句中上下文的序列化信息,對維吾爾語文本的突發事件進行高效識別。此外,本文引入基于神經網絡的Word Embedding 方法,因其在詞語語義表示方面表現出良好的性能,利用Word Embedding 之間的位置關系表示語義層面上的聯系,通過深度學習模型多層映射單元提取主要結構信息,以發現變量之間的真正關系形式,進而完成基于維吾爾語文本的突發事件識別任務。
事件識別是信息抽取和自然語言處理的基礎性問題,針對事件識別研究的方法有基于語句級的,如Lu和Roth[8]提出的一種采用無監督參數設置的結構化參數建模的學習框架Structured Preference Modeling (PM)。Li等人[9]提出的基于結構化感知器的聯合框架,不僅實現了事件觸發詞和事件要素的同步提取,同時解決了誤差反向傳播問題。亦有跨語句級實現的方法,如Liao等人[10]提出的文檔統計模型,以及跨文檔實現的方法,如Ji 和Grishman[11]通過利用比跨語句級更豐富的上下文信息進行跨文檔推理來達到事件識別及提取的目的,因而對于語料的數量以及標注的質量具有一定的依賴性。
近期,深度學習技術的推廣充分驗證了神經網絡從數據中自主學習數據特征的能力,并在自然語言處理領域表現出一定的優越性。在事件識別的研究中,Nguyen和Grishman[12]以及Chen[13]等人通過研究神經網絡對詞匯表征的學習特點,提出了基于卷積神經網絡的事件識別方法,并加入事件中實體類別信息和事件詞的位置信息作為額外特征。然而該方法僅局限于對事件句結構特征和詞匯特征的學習和提取,忽略了各詞在事件上下文中的語義表達。
基于前人的研究,本文提出的DCNNs-LSTM網絡聯合模型可利用深度卷積網絡對文本事件的局部特征進行捕獲,利用LSTM網絡對于序列依賴關系的學習能力獲取事件句中詞匯表征的序列化信息,引入Word Embedding特征項使表征信息抽象化,進一步提高模型對于突發事件的識別能力。
維吾爾語屬于阿爾泰語系突厥語族,是典型的黏著性語言,具有黏著性語言的共同特點。維吾爾語主要表現在以下兩個方面。


下面結合維吾爾語文本事件的特點,首先進行詞干提取,并對含有一定語法的構形附加成分進行切分。為便于讀者理解本文基于維吾爾語文本的事件識別方法,現明確以下定義。如例④所示。

(2017年1月7日19:30左右,衡水市桃城區滏東嘉園10號樓2單元1103室發生爆炸,2人死亡,1人受傷。)
定義1事件(event): 某個特定時間和環境下發生的,由若干角色參與,表現出動作特征的一件事情,由事件觸發詞和事件要素兩部分構成。


定義4事件類別(eventtype)以及子類別(subtype): 本文參照ACE(automatic content extraction)語料和實驗組維吾爾語語言專家的意見,結合維吾爾語語言特性將事件類別分為“突發事件”“法律”“接觸”等八個大類,每個事件類別各自對應若干個該事件類的子類別(詳見附表1)。
定義5事件極性(polarity): 參照ACE語料和實驗組維吾爾語語言專家的意見,本文將事件極性分為Negative和Positive。若根據事件上下文信息明確指出該事件已經發生或者正在發生,則事件極性為Positive;否則事件極性為Negative。由此可知,例④中三個事件的事件極性均為Positive。
定義6事件時態(tense): 包括過去發生的事件、現在正在發生的事件、將來即將發生的事件,以及無法確定時態的事件。
定義7語義類別(semanticclass): 語義即語言學中語言形式和言語形式所表現出來的全部意義,并非所有的語義都具有類別。根據實驗組維吾爾語語言學專家的意見,將維吾爾語中具有語義的語義類別劃分為“group_團體”、“ em_情感”等十四個類別(詳見附表2)。
針對維吾爾語文本的突發事件識別問題,我們提出DCNNs-LSTM聯合模型,實現對事件句中的每個詞的詞語表征及其基于事件句上下文情景的語義表達進行學習,以達到高效識別的目的。在實驗組維吾爾語語言專家的指導下,首先對實驗語料進行標注,在此基礎上完成事件特征的提取,從而生成訓練數據集和測試數據集,最后訓練模型,并測試得到聯合模型對維吾爾語文本突發事件的識別率。流程如圖1所示。

圖1 維吾爾語突發事件識別流程圖

如圖2所示,卷積神經網絡由特征提取層即卷積層和特征映射層即池化層組成。若一個卷積層和一個池化層組成卷積神經網絡中的一級,那么DCNNs則是由多級結構連接而成。本文提出具有兩層網絡結構的卷積神經網絡模型,設特征映射層的激活函數f(x)∈[1,l]→R,卷積層用于特征提取的核函數k(x)∈[1,k]→R,卷積核窗口滑動幅度為S,則卷積層C(y)∈[1,(l-k+1)]/S→R和池化層分別如式(1)、式(2)所示。
其中d=k=S+1,針對維吾爾語文本突發事件的識別,首先將每個維吾爾語文本的事件句特征xi∈{0,1}m轉化為一個二進制矩陣xi...m{0,1}m·n∈作為本文兩層卷積神經網絡的輸入,其中m為事件句長度,n為特征維度。由圖2可知,每個卷積層都利用一個卷積滑動窗口,可稱為過濾器F∈R′,通過順序滑動幅度S來提取前一層網絡中的局部特征,則窗口大小為a的過濾器,對于輸入特征集X,從池化層提取特征ui如式(3)所示。

圖2 卷積神經網絡
(3)
Graves等[16]深入探究了LSTM單元結構及性能特點,因其能夠學習長期的依賴關系而對于序列化問題的建模具有一定的優越性。這一特點更加適用于語句中詞序序列的語義表達。如圖3所示,LSTM網絡由循環連接的記憶塊組成,一個記憶塊中含有至少一個記憶細胞,以及三個控制信息的門控開關: 輸入門,消除門和輸出門。記憶細胞能夠記憶某一時間段的信息,對于事件識別問題,可利用LSTM記憶細胞來記憶語句中之前某一時刻的詞匯信息,充分學習事件句上下文詞匯序列,以達到深入發掘詞匯序列中語義及句法特征的目的。

圖3 LSTM網絡
其中輸入門接收并記憶輸入特征信息,如式(4)所示。消除門消除歷史特征信息,進行特征信息的更新,并由輸出門控制輸出學習到的事件特征序列化信息,如式(5)、式(6)所示。
這種門控的結構通過控制記憶細胞的狀態,來實現維吾爾語事件特征序列化信息的刪減或者增加,當決定什么樣的特征信息應該被存儲起來時,tanh層會生成一個候選狀態g,如式(7),最后式(8)完成記憶細胞狀態的更新,最終完成維吾爾語事件高階序列化特征信息的輸出,如式(9)所示。
式中,σ是一個sigmoid函數,Wi、bi、Wf、bf、Wo、bo分別為輸入門、消除門和輸出門的參數。
憑借LSTM在學習長期依賴關系方面的優勢,本文在深度卷積網絡最后一層卷積層后加入LSTM網絡,在深度卷積網絡抽取的序列化特征信息中獲取信息之間的依賴關系,以此對維吾爾語文本的突發事件進行觸發詞在文本中語義層面的分析,最終LSTM網絡對輸出的特征信息通過softmax函數實現維吾爾語文本突發事件的識別,如式(10)所示。
(10)
其中act為激活函數,指LSTM(xt,ht-1)網絡在時刻t的輸入特征x,以及其前一時刻的隱態ht-1。
聯合模型最終如圖4所示,根據前幾節內容,基于DCNNs-LSTM聯合模型的維吾爾語突發事件識別算法步驟如下:
輸入: 包含維吾爾語事件六大特征塊向量和事件觸發詞Word Embedding向量集合;
輸出: 0(該候選事件為突發事件)
1(該候選事件非突發事件)
Step1將包含事件觸發詞的詞序序列x=x1,x2,…,xn,基于已經由大規模語料庫訓練好的Word Embedding以特征向量形式表達;
Step2將Step1中Word Embedding向量融合六大特征塊向量作為DCNNs-LSTM的輸入,DCNNs通過滑動窗口S深度抽取事件句中各詞局部抽象特征,在池化層進行高階特征捕獲。
Step3聯合模型DCNNs部分輸出的高階特征作為LSTM網絡部分的輸入,LSTM網絡部分充分挖掘圍繞觸發詞展開的抽象序列關系特征,形成具有依賴關系的序列特征集合。
Step4采用Softmax分類器對Step3中的融合特征集進行分類,最終完成維吾爾語的突發事件識別任務。

圖4 集成架構
特征的選取對于識別結果有著最直接的影響。無效特征不能很好地對維吾爾語文本事件進行描述,不僅造成數據冗余度過高,亦會降低模型的識別效率。為選取有效特征,本文結合實驗組維吾爾語語言學專家總結的維吾爾語和文本事件的相關特性,采用維吾爾語文本事件特征(4.1節)與Word Emdedding(4.2節)相結合的方式進行維吾爾語文本突發事件的識別任務。
對于事件識別這樣一個具體的分類問題,只有通過加入大量的約束條件,才能使之變成適定的、可解的問題。因此本文選取詞特征、上下文特征、詞法特征、句法特征以及語義特征等多角度描述候選事件,如表1所示。

表1 維吾爾語事件特征

續表
在維吾爾語事件文本特征提取過程中,首先提取事件句中各詞詞干分析其詞法特征,形成詞法特征塊;然后對詞干構型附加成分加以切分,以此獲取其包含的語法和句法特征,以及各詞在事件句中所充當的語義角色;最終以觸發詞為中心分析各詞在事件句上下文中所承擔的詞法、句法及語義成分特征。
為提升模型的識別率,本文選用了基于神經網絡訓練的Word Embedding。其包含豐富的上下文信息,不僅可以描述觸發詞在當前文本中的語義規則,且避免了維數災難。
本次研究在原語料上進行了擴充,選取天山網、人民網等維吾爾語版網頁作為語料來源,利用網絡爬蟲下載網頁,進行去噪處理后獲取各類題材且未標注的生語料。使用Mikolov[17]提出的Word2vec工具進行Word Embedding的訓練,選擇Skip-gram + HS模型作為訓練框架,通過計算詞之間的余弦相似度表示文本語義上的相關程度。由此準確地獲取每個詞在低維空間中語義的分布情況。

表2 事件觸發詞詞向量信息
從表2中得到E1和E3事件觸發詞的詞向量,利用二者之間的余弦值來表示兩個觸發詞之間的語義相似度。而后將語義相似度作為一個特征加入突發事件識別任務的特征集中。
為驗證模型性能,本次研究將聯合模型分別與CNN和LSTM網絡做對比,并選取了不同特征塊組合,以驗證所選特征塊對模型識別率的影響,最后引入Word Embedding 特征項,實現對維吾爾語文本的突發事件識別任務的特征優化,提高識別率。
實驗采用了通用的方法評價突發事件類別的識別情況,包括準確率ACC、召回率REC、F-Value。令待評價的事件類別為Typei,i即突發事件,則三種評測方法如下:
首先在不引入Word Embedding 特征項的條件下,以4.1節提取的特征作為各模型輸入,利用CNNj(j表示CNN包含的卷積層數)、LSTM以及聯合模型進行維吾爾語文本的突發事件識別實驗。結果如圖5所示。

圖5 模型識別性能分析
結合表3和圖5可知,CNN2與CNN1相比預測精度提高了2.46%,召回率和F系數都提高了約2.5%,當卷積層增加到三層時 ,預測精度和F系數分別降低了0.24%,0.04%,召回率提高0.13%,這是因為CNN模型經過多層卷積和池化后所提取的高階特征不同。針對維吾爾語文本突發事件識別,CNN模型增加至兩層卷積層時,模型性能較優,因此本文提出的聯合模型選用具有兩層卷積層的DCNNs,其預測精度比性能較優的CNN2模型高出1.64%,召回率和F系數分別高出0.88%和1.21%。說明LSTM網絡對于事件句中上下文依賴關系的捕獲,在一定程度上提高了識別率。與非聯合模型LSTM網絡相比,其預測精度提高了4.1%,召回率和F系數分別提升了3.7%和4.13%,這是由于LSTM只學習到了事件句中單向的上下文語義表達,并缺少了對事件句中高階局部結構特征信息的獲取。

表3 模型有效性驗證數據信息
在事件識別任務中,有效特征的選擇亦會對模型的性能以及最終的識別率產生直接影響。為探討各特征塊對于維吾爾語文本突發事件識別的貢獻度,本文對特征塊所起的作用分別進行了詳細實驗,采用去掉某特征塊,以驗證去掉該特征塊后的識別結果,如表4所示。

表4 特征塊對實驗結果的影響
由表4可知,去掉詞特征塊和語義特征塊時,其預測精度、召回率以及F系數與5.1節中加入所有特征塊相比,降幅較小,預測精度(取平均值)約下降1.275%,召回率約下降1.29%,F系數約下降1.285%。說明聯合模型中LSTM網絡有效地捕獲了事件句中的各詞的詞性以及上下文語義信息,因此去掉該特征塊時并不會對實驗結果造成較大的影響。去掉句法特征塊、上下文特征塊以及事件特征塊時,其預測精度、召回率以及F系數降幅較大,預測精度約下降3.39%,召回率約下降2.26%,F系數約下降2.77%,說明觸發詞等事件特征、句法特征以及觸發詞的上下文特征,對于維吾爾語文本突發事件的識別結果影響較大,因此驗證了本文提出利用DCNNs-LSTM聯合模型進行維吾爾語文本突發事件識別任務所提取的特征有效。
由于Word Embedding富含詞匯語義及上下文位置關系信息的表達,因此本文引入Word Embedding特征項優化識別結果。為探討Word Embedding維度對模型性能的影響,將Word Embedding設定為10維、50維、100維、150維、200維、250維、300維,分別引入特征集,實驗結果如表5所示。

表5 Word Embedding維度對實驗的影響
由表5可知,Word Embedding維度的選擇對模型性能及識別率都有影響。當特征集中Word Embedding維度為100時,聯合模型DCNNs-LSTM的性能最佳,F系數達到80.99%,與5.1節相比,提高了10.22%。隨著維度不斷增加,模型各評估指標出現回落并略微波動。說明當維度過高時,模型對特征數據的泛化能力降低,因此造成模型性能下降。
通過此次研究,本文建立了一個有效的基于多層CNN聯合LSTM網絡的維吾爾語文本突發事件識別模型,并將該模型的表現與層數各異的CNN以及LSTM網絡相比。研究結果表明,聯合模型不僅對事件句中每個詞的局部特征信息進行學習,捕獲其高階特征,并且利用LSTM網絡對依賴關系的學習進而把握事件觸發詞在上下文語境中的語義信息,對于維吾爾語這種特殊的黏著性語言,聯合模型表現出一定的優越性。此外,針對突發事件識別的研究,結合維吾爾語自身特點分析,提出融合六大特征塊進行突發事件識別,并引入Word Embedding特征項以充分利用事件觸發詞所包含的語義信息。此方法的提出進一步優化了模型的識別性能。