獨立RNN 和膠囊網絡的維吾爾語事件缺失元素填充

2021-05-22 12:19:00王縣縣禹龍田生偉王瑞錦

自動化學報 2021年4期

王縣縣禹龍田生偉王瑞錦

事件抽取是信息抽取領域的一個重要研究方向,是將含有事件信息的非結構化文本以結構化的形式呈現出來.通過對事件抽取結果的分析,可以發現一個事件的信息往往分散在一個文檔的各個部分.在單個事件的描述中,很多事件元素缺失,使得單純的事件抽取獲取的信息并不完整、語義不明確[1].然而,有些事件中缺失的元素并非不存在,因為這些缺失的元素可以通過其他事件中的元素填充,進而使事件抽取的信息更加完整.考慮如下兩個事件句(維吾爾語的書寫格式為從右到左):

譯文:2017 年1月1日時間11時左右,在南京雨花西路和共青團路交叉口,一輛貨車往右轉彎過程中導致一輛電動車刮倒,電動車上母親當場身亡.

譯文:過路人立刻把女子懷里9個月的嬰兒送往附近南京市第一醫院.

以上兩個事件出現在同一篇章的不同位置,下劃線詞為觸發詞.表1和表2分別列出了兩個事件句對應事件元素抽取情況.

表1 事件句1中的元素Table 1 Arguments in event sentence 1

表2 事件句2中的元素Table 2 Arguments in event sentence 2

對事件1和事件2以及表1和表2進行分析,事件1中4個元素可在當前事件句中獲得,缺失一個元素;事件2中只有Agent-Arg、Artifact-Arg 和Destination-Arg 三個元素在當前事件句中獲得,其他角色均缺失.通過觀察和分析可以發現,事件2的缺失角色Origin-Arg 和Time-Arg 與事件1中Place-Arg 和Time-Arg 所對應的內容一致,即事件2的2個缺失元素可以從事件1中得到填充.通過填充,使事件2語義更完整,表達更加清晰.

主要貢獻如下:

1)將填充問題轉換成二分類問題,對維吾爾語事件缺失元素進行填充.

2)提出了注意力機制的獨立循環神經網絡和膠囊網絡的并行模型.

3)充分考慮事件元素類型,將事件元素分為4類,按照事件元素類型相同的規則構建樣本.

1 相關研究

目前,事件抽取技術在自然語言處理領域受到廣泛關注.早期,采用模式匹配算法[2?3]和淺層機器學習方法[4]進行信息抽取.而隨著深度學習[5]的提出,事件抽取技術的研究有了進一步的進展[6?7].Chen 等[8]引入詞表模型捕獲詞匯語義線索,使用動態池化卷積神經網絡(Dynamic multipooling convolutional neural network,DMCNN),在ACE2005語料上抽取事件本體.Chang 等[9]在雙向LSTM(Long short-terin memary)基礎上對隱藏狀態進行池化,從而對英文文本進行事件抽取.Zeng 等[10]提出了一種卷積雙向LSTM模型,從原始文本中捕獲句子級和詞匯信息,對事件觸發詞和元素標記.田生偉等[11]將詞向量作為雙向LSTM模型的輸入,挖掘給定事件句隱藏的上下文語義信息,結合事件觸發詞建立注意力機制對維吾爾語事件時序關系識別.然而這些學者的研究都是基于單模型的,對特征的提取有一定的局限性.黎紅等[12]提出DCNNs-LSTM的順序處理模型,將特征依次輸入DCNNs和LSTM完成維吾爾語突然事件的識別.該方法采用兩種模型順序組合的方式對特征進行處理,所以在特征傳輸過程中會丟失部分特征.

以上都是對事件抽取的研究,對事件缺失元素填充的論文較少,Gupta 等[13]使用規則和統計學習的方法只對缺失的Time元素進行填充.Huang等[14]利用上下文和領域相關文檔的信息,針對Target、Place等幾類進行填充.侯立斌等[15]提出了采用基于規則和機器學習的方法,對中文跨事件的缺失事件元素識別和填充.趙文娟等[16]提出了基于句法依存分析的角色填充思路和技術,以“森林火災”事件為例,用最大熵算法對填充過程進行了說明.以上研究都沒有充分考慮事件和事件元素的上下文語義特征,而且集中在漢語和英語等大語種,對于維吾爾語事件缺失元素填充研究很少.

事件抽取研究主要集中在觸發詞識別、事件類型分類、元素識別等任務上.事件缺失元素填充的研究主要是從其他事件中獲得事件元素,對當前事件元素進行補充.缺失元素填充是在觸發詞識別和元素識別等前提任務的基礎上進行研究.這為缺失元素填充提供了便利,但是由于這些前提任務識別率的局限性,為缺失元素填充任務帶來了一些級聯錯誤.另外,由于構成事件元素的單詞個數不統一,這也為缺失元素填充任務帶來一定的難度.

基于上述問題,提出結合注意力機制[17?18]獨立循環神經網絡和膠囊網絡的并行模型,來解決的維吾爾語缺失元素填充問題.將富含上下文語義信息的詞向量做為膠囊網絡的輸入,獲取其位置信息和局部特征,將18項事件間特征和候選元素特征,結合注意力機制,經過獨立RNN的處理,進一步獲取規則特征.兩個并行的模型同時處理各自更加擅長處理的特征,會減少有效特征在傳輸過程中的丟失.然后將兩類有效特征融合進行分類,最終完成維吾爾語事件缺失元素的填充.

2 預備知識

2.1 維吾爾語語言特點

維吾爾語是典型的黏著性語言,在構詞形式和語法形式上,都是通過在詞根或詞干上結合詞綴或詞尾的方式實現的.

維吾爾語中“格語法”是一種特殊的語言形式,名詞或名詞短語有主格、屬格、向格、賓格、位格、從格和界限格等多種格屬性.根據名詞和名詞短語的不同和上下文的變化,會在名詞或名詞短語后面附加上不同的格后綴.例如,在名詞或名詞短語后加“”變為屬格,表示人或事物的領屬關系.格語法在語法形式上具備獨立性,語法意義上具備穩定性.

本文是基于維吾爾語事件的研究,涉及到事件觸發詞和事件元素,其中,事件觸發詞多為動詞,而事件元素一般為名詞或名詞短語.為了保證維吾爾語的語言特色,本文在預處理階段未對語料進行詞干提取,保留了詞綴信息的完整性.在編碼階段,利用詞嵌入技術,充分挖掘了維吾爾語文本的深層語義信息.

2.2 事件定義

定義1.事件:指在特定的環境和時間下發生,由若干角色參與,表現出動作特征的一件事情[19].如事件句1和事件句2所示,分別描述的是交通事故事件和運輸事件.

定義3.事件元素:指描述事件具體信息的文本短語,包括參與者、時間和地點等.

定義4.缺失元素:每類事件有對應的元素,若元素對應的內容不存在,即為缺失元素.缺失元素分可填充缺失元素和不可填充缺失元素.表1中Wrecker-Arg (肇事者)和表2中的Tool-Arg (運送工具)為不可填充元素,表2中Origin-Arg (源地址)和Time-Arg (時間)對應的內容在事件句中沒有出現,但可以通過事件句1相應內容進行填充,為可填充缺失元素.本文缺失元素識別的基礎上進行,即只對可填充元素進行研究(后文所提缺失元素均為可填充元素).

定義5.候選元素:除缺失元素所在事件句之外的其他事件中的所有元素.候選元素應與缺失元素類型相同,本文將所有的事件元素分為4類:時間、人物、地點和其他.

定義6.元素對:指維吾爾語文本中所有缺失元素按照元素類型相同的組對規則與候選元素進行組對后的元素對.

2.3 任務描述

缺失元素填充,是指對于可以被填充的元素如何從其他事件描述中選擇合適的元素進行填充.本文將填充問題轉換為二分類問題,即按照一定的規則將缺失元素與候選元素兩兩組對,并判斷當前缺失元素是否可以被候選元素填充,從而構成正負樣例.具體步驟如下:

步驟1.將實驗語料中的每篇語料所提取出來事件放入事件列表ELi(i=1,2,···,N)中,N為實驗語料的總數.

步驟2.循環遍歷ELi中每一個事件,將缺失的元素放入到列表EM中.

步驟3(樣本1).循環遍歷EM,將缺失元素與所有候選元素兩兩組對,構成元素對〈m,c〉,然后判斷m是否可以被c填充,若可以被c填充,則為正例,標簽y為1;若不可以被c填充,則為負例,標簽y為0.構成元素對〈m,c;y〉,將其放入到元素對集合AL中.

步驟3(樣本2).循環遍歷EM,按照定義6將缺失元素與候選元素兩兩組對,構成元素對,然后判斷m是否可以被c填充,若可以被c填充,則為正例,標簽y為1;若不可以被c填充,則為負例,標簽y為0.構成元素對〈m,c;y〉,將其放入到元素對集合AL中.

步驟4.循環步驟2和步驟3,直至得到所有的元素對,并將其放入到集合AL中.

3 模型

本文提出了一個Att-Ind RNN-CapsNet模型,用于維吾爾語事件缺失元素填充.模型分為輸入層,聯合處理層,融合分類層3層.將輸入層的特征到聯合處理層,其中事件及候選元素的18項特征作為Att-IndRNN 的輸入,首先建立注意力機制,再通過獨立RNN獲取事件和元素的特征.事件觸發詞和候選元素的詞向量輸入膠囊網絡,挖掘上下文語義信息.其次,將兩個層的輸出傳入到融合分類層進行特征融合和分類,進而完成事件缺失元素的填充.圖1描述了整個維吾爾語事件缺失元素填充的模型結構.

3.1 輸入層

輸入層由兩部分構成,第一部分是將事件觸發詞和候選元素通過word2vec映射成富含上下文語義信息的低維向量α,α∈RM,M是詞向量維度;第二部分是事件和事件元素構成的內部規則特征h.詞向量α和規則特征h作為聯合處理層的輸入.

3.2 聯合處理層

1)Att-IndRNN層

從輸入層接收的規則特征h經過本層處理.首先計算注意力權重,公式如下:

其中,hi∈R為第i個手動特征,wh和bh分別為權重和偏置.ai表示特征hi的注意力權重.根據注意力權重向量a∈RL,對h進行注意力加權,得到經過注意力機制的輸出p,計算公式如下:

循環神經網絡[20]在序列學習問題中獲得廣泛應用,并且成果顯著.然而由于常見的梯度消失和梯度爆炸問題,循環神經網絡通常難以訓練.本文引入獨立循環神經網絡(IndRNN)[21],這種新型的RNN能有效解決網絡收斂時的梯度爆炸和消失問題.在IndRNN中,循環輸入用Hadamard乘積處理.將經過注意力機制的輸出向量p輸入到Ind RNN,進一步挖掘事件和事件元素的規則特征k.

圖1 模型結構圖Fig.1 Model structure

其中,pt∈RM和kt∈RN分別代表時間步長t的輸入和隱藏狀態,W ∈RN×M,u∈RN×N和b ∈RN分別為當前輸入的權重,循環輸入以及神經元偏置值,是Hadamard乘積,N是當前層中神經元的個數.每層中每個神經元與其他神經元不相連,彼此相互獨立,神經元的連接可以通過疊加兩層或者更多層的Ind RNN來實現.對于第n個神經元,隱藏層kn,t可以通過以下公式得到:

其中,wn和un分別表示第n行的輸入權重和循環權重.每個神經元僅在前一時間步從輸入和它自己的隱藏狀態中接收信息.也就是說,Ind RNN中的每個神經元獨立地處理一種類型的時空模型.即隨著時間的推移(即通過u)獨立地聚集空間模式(即通過w).不同神經元之間的相關性可以通過兩層或多層的堆疊來加以利用.在這種情況下,下一層的每個神經元處理上一層所有神經元的輸出.

2)CapsNet層

膠囊神經網絡(Capsule network,CapsNet)[22]是由Hinton在2017 年10月份首次提出的新型深度學習網絡架構,用于圖像的分類,其不同于卷積神經網絡的矢量輸入輸出,膠囊層的輸入輸出均為向量,并且采用動態路由算法來更新膠囊參數.而Zhao等[23]首次將膠囊網絡用于文本建模,驗證了膠囊網絡在文本處理任務上的有效性.故本文引入膠囊網絡處理從輸入層接收的語義特征α,得到富含上下文語義信息的局部特征q.

在膠囊網絡中,激活函數Squashing既保留了輸入向量的方向,又將輸入向量的模壓縮到(0,1)之間.輸出vj的計算公式如下:

其中,vj是膠囊j的矢量輸出,sj是總輸入矢量.

膠囊網絡第一層為一個激活函數為ReLU的卷積層,除了第一層膠囊外,所有膠囊的總輸入sj是對下面層膠囊的所有預測向量的加權求和,它是通過下面層膠囊的輸出ui乘以權重矩陣Wij而得到的.公式如下:

其中,cij是在動態路由過程中確定的耦合系數,表示每一個低層膠囊與其相對應的高層膠囊之間的權重.對于每個膠囊i來說,所有的權重cij的總和為1.cij由采用的動態路由算法中的softmax函數決定,計算公式如下:

其中bij是膠囊i與膠囊j的對數概率,用來更新cij,并將其初始化為0,在路由迭代過程中,bij會不斷更新,更新公式如下:

3.3 融合輸出層

本層將聯合處理層得到的語義特征q和規則特征k完成融合,具體操作是將規則特征k拼接到語義特征q之后,得到融合特征m,公式如下:

其中,⊕表示特征的拼接.

之后,將融合層的特征m輸入到一個全連接層,得到輸出f,再通過sigmoid函數得到結果S(f).sigmoid公式如下:

其中,S(f)是一個值為0到1的概率.若S(f)大于閾值,則分類結果判定為1,即當前樣本為正例,表示缺失元素可被該候選元素填充;否則,分類結果判定為0,即當前樣本為負例,表示缺失元素不可被該候選元素填充.

4 實驗

4.1 實驗數據

目前,國際上有MUC(僅有English語料)和ACE(有Arabic、Chinese和English3種語料)兩種用于事件抽取的語料庫,未發現關于維吾爾語事件抽取的語料.實驗選取天山網、人民網等維吾爾語網頁作為語料來源,利用網絡爬蟲下載網頁,經去重、去噪處理后篩選出包含事件描述的新聞報道文本作為實驗語料,參照ACE標注體系,在實驗組維語專家指導下對語料進行標注.

本實驗共標注了210篇語料,按照樣本2構建方法,共生成了3 696條樣本數據.統計發現其中包含1 777 條可被當前候選元素填充的樣本,有1 919條不可被當前候選元素填充的樣本.

4.2 特征提取

特征的選擇對模型的實驗效果有很大的影響,根據實驗組維吾爾語語言專家的意見,選取了以下18項事件特征和元素特征.

1)事件類別:反映了事件所屬類型,若缺失事件與候選事件類別相同,特征取1;否則,特征取0.

2)事件子類別:進一步定義了事件所屬類別,與事件類別類似,若缺失事件與候選事件類別相同,特征取1;否則,特征取0.

3)事件間間隔事件數目:對實驗語料進行統計可知,缺失事件與候選事件對間隔為[0,3]的約占81%.所以在此范圍內,特征取1;否則,特征取0.

4)事件對前后關系:缺失事件與候選事件在文檔中的前后關系,若缺失事件在前,特征為1;否則,特征為0.

5)事件極性:有Positive和Negative兩種,描述了事件為肯定事件還是否定的事件.若缺失事件與候選事件極性相同,特征取1;否則,特征取0.

6)事件時態:用來描述事件是過去發生的、正在發生的還是將來發生的.若缺失事件與候選事件時態相同,特征取1;否則,特征取0.

7)依存關系:兩個事件的觸發詞出現在一個句子中,則認定兩個事件具有依存關系.若缺失事件與候選事件具有依存關系,則特征取1;否則,特征取0.

8)和缺失事件類別相同的事件分布:統計整個文檔中各個類別事件的個數,與缺失事件類別相同的事件個數作為特征.

9)和缺失事件子類別相同的事件分布:統計整個文檔中各個類別事件的個數,與缺失事件子類別相同的事件個數作為特征.

10)和候選事件類別相同的事件分布:統計整個文檔中各個類別事件的個數,與候選事件類別相同的事件個數作為特征.

11)和候選事件子類別相同的事件分布:統計整個文檔中各個子類別的個數,與候選事件子類別相同的事件個數作為特征.

12)共指關系:若兩個事件為共指關系,缺失元素被候選元素填充的概率更大.缺失事件與候選事件具有共指關系,則特征取1;否則,特征取0.

13)缺失事件與候選元素的距離:統計缺失事件的觸發詞與候選元素的間隔詞的個數,個數為[0,50]的占69%.若在此范圍內,則特征取1;否則,特征取0.

14)缺失元素在缺失事件中擔當的角色:缺失事件的所有元素M A,判斷當前缺失元素在M A中的位置(即索引),作為特征.

15)候選元素在候選事件中擔當的角色:候選事件的所有元素CA,判斷當前候選元素在CA中的位置(即索引),作為特征.

16)和缺失元素類型相同的元素在文檔中分布:根據定義5,元素類型分為4類,統計文檔中各個類型元素的個數,與缺失元素類型相同的元素個數作為特征.

17)候選元素語義角色:語義角色是指名詞和動詞組成語義結構后,名詞在該語義結構中所擔任的角色.所有語義角色構成一個列表,候選元素的語義角色在列表中的位置(即索引)作為特征.

18)候選元素語義類別:語義類別可以很好地反應候選元素的信息,根據實驗組維吾爾語語言專家意見,將維吾爾語具有語義的語義類別劃分為“Hum-人類”、“Loc-地點”等14個類別,所有語義類別構成一個列表,候選元素的語義類別在列表中的位置(即索引)作為特征.

為了提高模型的識別效果,在以上18項特征的基礎上,引入了Word Embedding.本文選用了基于神經網絡訓練的Word Embedding,包含了豐富的上下文信息,充分表示缺失事件觸發詞、候選事件的觸發詞和候選元素在文本中的語音信息,同時避免了維數災難[24].本文使用Mikolov 等[25]提出的word2vec工具進行訓練.為了更準確地獲取每個詞在低維空間中語義的分布情況,在原有實驗語料的基礎上進行了擴充,選取天山網、人民網等維語版網頁作為語料來源,利用網絡爬蟲下載網頁,進行去重、去噪處理之后獲取不限題材且未標注的文本作為生語料.

在處理候選元素時,會遇到候選元素的詞匯個數不統一的情況,經統計元素詞匯個數為[1,5]的占70.87%,設元素個數為N,若N ≥5,本文會取當前獲選元素的后5個詞;若N<5時,會進行補零處理,即N個詞轉換成詞向量,5-N個與詞向量維度相同的零向量,合并組成元素詞向量.

4.3 實驗設計

本文實驗測評方式采用MUC標準,即準確率P,召回率R和F1考察缺失元素填充性能.其中,衡量模型整體性能的F1=(2×P ×R)/(P+R).

模型的參數設置對維吾爾語事件缺失元素填充效果起著關鍵的作用.最優參數設置如表3所示.

表3 模型最優參數表Table 3 Optimal parameters

其中,lr表示訓練過程中的學習率;lrdr學習率衰減率;bs表示每一次迭代批處理樣本數;ep表示模型訓練最優的迭代次數;dr表示訓練過程中的丟碼率;opt表示模型優化器算法.

為探索不同角度下維吾爾語事件缺失元素填充效果,本文設計了如下6個實驗:1)樣本構建方法對實驗性能的影響;2)本文模型與其他模型實驗性能對比;3)詞向量維度對實驗性能的影響;4)不同種類特征對實驗性能的影響;5)獨立特征與融合特征對實驗性能的影響;6)IndRNN層數的影響.

1)樣本構建方法對實驗性能的影響

為了驗證不同樣本構建方法對實驗性能的影響,本文選取兩種樣本構建方法.樣本1為不基于元素種類相同規則的構建方法.樣本2為第2.3節構建樣本方法.實驗結果如表4所示.

表4 不同樣本對實驗性能的影響(%)Table 4 Hyper parameters of experiment(%)

由表4知,不加入元素種類相同的規則的樣本1,P為85.76%,R為80.6%,F1為83.1%.與樣本1相比,樣本2的P,R和F1分別提高了1.18%,3.54%和2.42%.由此證明了樣本2中基于規則建方法的有效性,本文中之后的實驗均采用樣本2的構建方法.

2)與其他模型實驗性能對比

為了驗證本文提出模型的有效性,將本文模型與單獨的模型、注意力機制的單獨模型、組合模型和注意力機制的組合模型做對比.各個模型均在各自最優參數下進行實驗,以確保對比實驗結果的有效性.

由圖2和表5可知,相比于Ind RNN、CapsNet和IndRNN-CapsNet,加入注意力機制后的模型,F1值分別提高了0.98%、0.61%和2.96%,這是由于注意力機制可以從眾多特征中選擇出對當前任務目標更關鍵的信息,從而提高了模型的識別能力.與單獨模型相比,Ind RNN CapsNet的F1值分別提高了3.27%和0.01%,這是因為Ind RNN CapsNet同時提取了局部特征和全局語義信息.而本文模型比IndRNN-CapsNet的F1值提高了2.96%,結合了注意力機制和組合模型的兩種優點,使模型達到最優.

3)詞向量對實驗性能的影響

詞向量富含詞匯語義和上下文關系信息,但不同維度的詞向量蘊含的語義信息不同.本文分別選擇10,30,50,100和150維作為詞向量的維度進行詞實驗.實驗結果如表6所示.

由表6可知,隨著詞向量維度的增加,詞向量蘊含的語義信息越多,在50維時F1值最大,模型性能達到最優.當維度增加為100維和150維時,F1值分別下降了1.52%和4.4%,這是因為高維度的詞向量雖然含有更多的語義信息,但同時也會增加一些無用的干擾信息和噪音,從而影響模型的性能.

表5 本文模型與其他模型實驗性能對比(%)Table 5 Comparison between our model and other models (%)

圖2 模型對比圖Fig.2 Comparison between our model and other models

4)語義特征和規則特征對實驗性能的影響

第4.2節抽取的18項特征主要是事件類型、事件對位置關系以及元素分布情況等基于事件和元素的規則特征,并沒有考慮事件和元素的語義信息.為了探索語義特征對事件缺失元素填充的影響,將去掉語義特征的模型與包含兩類特征的模型做對比.此外,本節還探索了規則特征對填充性能的影響,將只包含語義特征的模型與包含全部特征的模型做對比.為了探究維吾爾語語言特點對實驗的影響,本文將去除動詞后綴和格后綴的維吾爾語文本訓練的詞向量稱為語義特征A,將原始文本訓練的詞向量稱為語義特征B,將兩種不同的語義特征做對比.實驗結果如表7 所示.

表6 詞向量對實驗性能的影響(%)Table 6 Influence of word vector dimension(%)

表7 不同種類特征對實驗性能的影響(%)Table 7 Influence of different kinds of features(%)

由表7 可知,在去掉語義特征A,只包含規則特征條件下,其P、R和F1與包含兩類特征的P、R和F1相比分別降低了6.51%,8.57%,7.49%;去掉語義特征B,只包含規則特征條件下,其P和R與包含兩類特征的P和R相比分別降低了12.28%,6.27%,反映整體性能的F1值降低了9.29%.實驗結果說明了對語義特征引入的有效性,這是因為事件缺失元素填充與語義有關,規則特征只是考慮了事件和元素的內部結構特征,缺乏對事件句的語義信息考慮.而與僅包含語義特征A相比,包含兩類特征的模型的P,R和F1值分別上升了3.33%,4.52%和3.89%;與僅包含語義特征B相比,包含兩類特征的模型的P,R和F1值分別上升了8.09%,0.48%和4.34%,由此證明了規則特征在維吾爾語缺失元素填充上的有效性.包含動詞后綴和格后綴信息的語義特征B與不包含動詞后綴和格后綴信息的語義特征A相比,在單獨作為特征和與規則特征結合兩種情況下,衡量模型整體性能的F1值均有提高,分別提高了1.35%,1.8%,這是因為維吾爾語中動詞后綴和格后綴是表達語法信息和時態信息的部分,如果去掉則無法更深層次挖掘維吾爾語文本的語義信息.

5)獨立特征與融合特征對實驗性能的影響

不同模型對不同種類的特征有著不同的學習能力.為探究沒有進行融合處理的獨立特征和融合特征對缺失元素填充的影響,本節設計了將獨立特征分別輸入Att-Ind RNN和CapsNet中,有Att Ind RNNh-CapsNetw和Att-Ind RNNw-Caps-Neth兩種情況.另外可以將兩種特征融合之后,再分別Att-IndRNN和CapsNet中.其中,CapsNetw表示將語義特征輸入到膠囊網絡中,w表示語義特征,h表示規則特征.

由表8可知,Att-Ind RNN處理規則特征且CapsNet處理語義特征的模型,與Att-Ind RNN處理語義特征且CapsNet處理規則特征的模型相比,P提高了10.34%,衡量整體性能的F1值提高了4.11%,這是因為語義特征富含上下文全局特征,經過膠囊網絡后可以獲取其局部信息,而結合注意力機制的獨立循環神經網絡處理規則特征,可以獲取全局特征.而將兩種特征融合之后再分別輸入到兩個模型,與Att-Ind RNN 處理規則特征且CapsNet處理語義特征的模型相比,P降低了4.24%,衡量整體性能的F1值降低了2.37%,說明了特征直接融合再經過模型處理,雖然特征更加豐富,但是同時也會使噪聲增加.

表8 獨立特征與融合特征對實驗性能的影響(%)Table 8 Influence of independent features and fusion features(%)

6)獨立循環神經網絡層數的影響

模型中的隱含層直接影響模型對維吾爾語事件缺失元素的填充能力.當隱含層過少時,模型不能很好地學習到更高階特征.而隱含層過多時,模型可能出現過擬合現象.為了探究獨立循環神經網絡層數對實驗性能的影響,本節設計了1層、2層和3層獨立循環神經網絡3種情況,實驗結果如表9.

由表9可知,2層隱含層與1層隱含層相比,P增加了4.96%,R增加了0.18%,衡量模型整體性能的F1值增加了2.56%,當隱含層增加到3層時,P,R和F1值分別降低了4.38%,2.76%和3.56%.這是因為模型經過多層獨立循環神經網絡所提取的高階特征不同.針對維吾爾語事件缺失元素填充,獨立循環神經網絡層數為2時,模型性能最優.

表9 獨立循環神經網絡層數對實驗性能的影響(%)Table 9 Influence of the number of Ind RNN(%)

5 結束語

事件缺失元素填充的研究有助于事件抽取技術的發展.現有的研究主要針對英語、漢語等大語種,對于維吾爾語事件缺失元素填充的研究很少,且現有的研究未考慮事件和事件元素的上下文語義關系.針對以上不足,本文提出了結合注意力機制的獨立循環神經網絡和膠囊網絡并行的維吾爾語事件缺失元素填充模型.該方法將由詞向量構成的語義特征和事件觸發詞與事件元素構成的規則特征分別輸入兩個不同的模型,即膠囊網絡和注意力機制的獨立循環神經網絡,之后將兩個模型輸出的兩種特征融合,作為分類器的輸入進而完成事件缺失元素填充.此外,本文還將事件元素分為4 類,按照元素類型相同的規則進行匹配,來構建樣本,從而進一步提升了模型的性能.

致謝

感謝楊啟萌、祁青山、牛苗、王歡歡等同學對本文提供的幫助和支持,在此謹向他們致以誠摯的謝意!