999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙層CNN?BiGRU?CRF 的事件因果關系抽取

2021-05-17 05:30:38鄭巧奪吳貞東鄒俊穎
計算機工程 2021年5期
關鍵詞:語義特征文本

鄭巧奪,吳貞東,鄒俊穎

(四川師范大學 計算機科學學院,成都 610101)

0 概述

事件作為文本類信息的重要表現形式,近年來在自然語言處理(Natural Language Processing,NLP)領域應用較廣泛,各類基于事件的理論模型[1]和應用技術相繼出現[2-3]。一個文本通常由多個事件組成,這些事件由同一個主題串聯,事件之間存在因果關系、時序關系等多種語義關系。其中,事件因果關系是較為常見和重要的一類關系,其體現出理解知識后進行推理的過程,反映了事件先后相繼、由因及果的聯系[4]。準確、高效地理解文本事件中的因果關系,對于掌握文本中事件的演變過程、預判事件后期發展以及文本處理的上層應用具有重要的現實意義。

在事件因果關系識別方面,國內外已提出眾多基于規則的方法和基于機器學習的方法[5-6],但這兩類方法存在特征工程代價大、事件因果關系識別覆蓋面低等問題。文獻[7]提出一種層疊機器學習模型,可分步解決事件因果關系識別的復雜問題,但其輸入與輸出缺乏深層語義特征,不能結合上下文推理事件隱式因果關系。文獻[8]通過使用深度學習技術,有效解決了事件因果關系抽取過程中深層語義信息推理時隱式因果關系缺失的問題。文獻[9]將雙向長短時記憶(Bidirectional Long Short-Term Memory,BiLSTM)神經網絡模型用于事件因果關系的識別,充分結合語義特征推理出上下文因果關系。由此可見,深度學習在事件因果關系識別領域已取得一定成果,但還存在關系邊界識別模糊和文本表征能力不足等問題。

本文提出一種基于雙層CNN-BiGRU-CRF 模型的事件因果關系抽取方法。將事件因果關系抽取分解為兩次序列標注任務并由雙層CNN-BiGRU-CRF 模型完成,結合基于Transformer的雙向編碼器表示(Bidirectional Encoder Representation from Transformer,BERT)模型與卷積神經網絡(Convolutional Neural Network,CNN)增強事件文本特征的表達能力,在模型中引入殘差思想[10-11],將文本信息局部特征與全局特征在每個時間序列步中進行線性加權融合,以提升模型對重要語義特征的提取能力。

1 相關理論

1.1 事件

在自動內容提取(Automatic Content Extraction,ACE)中,事件被定義為包含參與者的具體發生的事情,用來描述狀態的改變。目前,對事件的研究主要分為事件內部組成結構研究和事件外部關聯研究。事件內部組成結構研究是指對時間、地點和參與者等事件論元進行研究,事件外部關聯研究是指對事件因果關系和時序關系等多種語義關系進行研究。

1.2 事件因果關系

事件因果關系由原因事件和結果事件兩部分構成。根據文本上下文是否出現因果連接詞,分為帶標記因果關系和無標記因果關系[7]。根據文本上下文是否同時出現原因和結果,分為顯式因果關系(原因和結果同時出現)和隱式因果關系(只出現原因或結果)。顯式因果關系又分為一因一果、一因多果、多因一果和多因多果4 類。對于隱式因果關系,需根據文本上下文和深層語義推斷事件隱藏的原因或結果。

1.3 BERT 模型

BERT[12]模型的訓練過程分為兩個階段。第一階段采用雙層雙向Transformer模型并基于MLM和NSP兩種策略進行預訓練,以達到雙向和深度動態地利用文本上下文信息的目的。MLM 策略指給定1 個句子,隨機隱藏句子中部分詞,根據剩余詞預測被隱藏的部分,使模型能結合上下文語義信息推測句子中任何詞。NSP策略指給定文本中任意2 個句子,判斷其順序關系并構建二分類模型,使得BERT 模型能學習句子級別關系。第二階段將BERT 模型進行微調應用于下游任務,以適應領域任務的需求。

BERT 模型由多層Transformer 編碼模塊堆疊而成。Transformer 編碼單元是BERT 模型的核心,其結構如圖1 所示。其中,輸入文本的向量矩陣由字符表征、句子表征和位置表征構成。

圖1 Transfomer 編碼單元結構Fig.1 Structure of Transformer encoder unit

將向量矩陣輸入多頭自注意力(Multi-head Selfattention)模塊,利用目標字特征向量Q、目標字上下文特征向量K和原始向量V[13]計算并增強語義表達。其中,自注意力機制的計算思想為:Q與K先進行相似性計算獲取注意力權重,再基于注意力權重向量重構原始向量V,以區分V中目標詞上下文對其不同的重要程度。相關計算公式如下:

其中,dk為向量維度。將Q與K作用生成的注意力向量通過Softmax 激活函數形成注意力得分,然后對V中每個向量與其對應的注意力得分的點乘結果進行加權求和,得到輸入目標字的自注意力加權后的原始向量。

為擴展模型處理不同場景的能力,文獻[13]提出先對Q、K和V進行h次不同的投影,映射維度均為dk,再拼接不同自注意力模塊輸出結果,經過線性映射輸出形成多頭自注意力,相關計算公式如下:

多頭自注意力機制模塊輸出后,進行殘差連接與標準化處理。殘差連接使模型具備深度能力,標準化處理是使神經網絡節點進行0 均值1 方差映射[14],相關計算公式如下:

為增強模型線性表達能力,對每個字的增強語義向量進行兩次線性變換,輸入前饋神經網絡FFN,完成Transformer 編碼。若將上一步輸出表示為Z,則FFN 表達式為:

由于Transformer 模型摒棄了傳統循環神經網絡(Recurrent Neural Network,RNN)的結構及其對時間序列抽象化的能力,因此在特征表示中融入相對位置信息來保持其對時序信息的處理能力,具體相對位置信息如下:

其中,i為單詞維度,pos 為單詞位置,dmodel為embedding維度,sin 函數和cos 函數均表示不同頻率的計算。

1.4 雙向門控循環單元

門控循環單元(Gated Recurrent Unit,GRU)能有效克服循環神經網絡中的梯度問題與長期依賴問題[15],其在長短時記憶(Long Short-Term Memory,LSTM)神經網絡的基礎上合并細胞狀態與隱藏層狀態,并將遺忘門與輸入門結合為更新門,輸出門更名為重置門。GRU 和LSTM 均通過門結構保留重要特征,從而實現信息的長距離傳播。由于GRU 結構更簡單,其相較LSTM 少一個門且參數量也更少,因此GRU 的整體訓練速度快于LSTM[16-17]。GRU 單元結構如圖2 所示。

在圖2 中,zt和rt分別表示控制神經元信息讀寫的更新門和重置門。更新門用于控制前一時刻的狀態被帶入當前狀態的程度,重置門用于控制前一時刻狀態信息被寫入當前候選集的程度,其包含確定當前記憶內容與確定當前時刻隱藏層保留信息[18]兩部分,具體計算公式如下:

圖2 門控循環單元結構Fig.2 Structure of gated recurrent unit

其中,ht為當前GRU 單元的激活值,yt為t時刻的輸出,σ和tanh 為激活函數,wz、wr、wh和wo為對應的權值參數,為GRU 單元在t時刻的激活值,其同時受重置門rt、t-1 時刻GRU 單元激活值ht-1以及當前時刻輸入xt的控制。

由于GRU 網絡不能有效利用輸入文本的上下文信息,因此增加反向輸入的逆序GRU 對文本的逆向語義進行學習,然后將正反向GRU 合并構建雙向門控循環單元(Bidirectional Gated Recurrent Unit,BiGRU)以充分利用上下文信息挖掘因果關系,并采用正向與反向傳遞連接的方法進行合并,計算公式如下:

其中,Hf、Hb分別為正向與反向GRU 在時刻t的輸出向量,H為正向與反向GRU 隱層全部時間序列連接后的最終輸出。

1.5 卷積神經網絡

卷積神經網絡[19]主要基于動物視覺的局部感受野原理而構建。本文利用CNN 特性提取輸入事件句子中每個字詞的局部特征。若給定序列長度為t的句子S={w1,w2,…,wt},其經過BERT 模型生成對應的字向量V={v1,v2,…,vt},每個字向量vt對應維度d=768,且任意句子均能構成向量矩陣Rt×d并作為CNN 的輸入,在因果關系抽取任務中,K={k1,k2,…,kn}為卷積核集合,n為卷積核數量,則對輸入的字向量矩陣利用卷積核ki進行卷積操作后,目標字向量可形成局部特征向量fi,其表達式為:

其中,v為輸入的字向量矩陣,j為卷積核ki的窗口大小,b為偏置值,f為ReLU 激活函數。

通過式(15)使整個卷積核集合K作用于窗口中心字向量,并對該字向量vt形成不同的局部特征f,n個卷積操作表示如下:

其中,F為目標字vt經過n個卷積操作后形成的上下文特征集。

由于F是多特征高維度向量,因此采用池化操作降低其維度。因果語義角色詞作為顯著特征,可采用最大池化操作保留特征,其表達式為:

將每個特征向量fi經最大池化操作后保留的特征m進行全連接以固定其維度輸出,最終形成中心字向量vt的局部上下文表征,其表達式為:

在中心字向量卷積過程中,根據窗口大小,用“0”補齊每個句子邊界以避免出現窗口中心字左邊或者右邊無字的情況,導致卷積到空值。重復上述中心字向量卷積過程,同時,對輸入長度為t的句子向量矩陣,利用卷積集合K掃描整個句子序列形成整個句子的局部特征集,其表達式如下:

1.6 CRF 模型

GRU 僅考慮長遠的上下文信息,忽略了標簽之間的依賴關系。條件隨機場(Conditional Random Field,CRF)模型能在考慮標簽之間約束關系的情況下,獲得全局最優標簽序列[20]。

CRF 解碼標簽序列描述的條件概率模型為P=(Y|X),其中,Y為輸出變量(狀態序列),X為輸入變量(觀測序列)。利用訓練數據通過極大似然估計可得到條件概率模型P(Y|X),輸入x后計算得到條件概率P(y |x)最大的輸出序列y。

在訓練CRF 模型時,使用極大似然函數估計形成條件概率模型,其對數似然函數為:

其中,fk為關于x和y的特征函數,wk為訓練權重,Z(x)為歸一化因子。通過最大似然函數訓練獲取合適的參數使對數似然P最大,解碼函數用于搜索條件概率最高時對應的標簽序列Y,其表達式為:

2 雙層CNN-BiGRU-CRF 模型

2.1 模型結構

本文提出的雙層CNN-BiGRU-CRF模型結構如圖3所示,主要包括數據預處理層、上層CNN-BiGRU-CRF模型、下層CNN-BiGRU-CRF模型以及輸出。因果關系抽取任務被分解為語義角色詞識別任務與邊界特征詞識別任務,分別由上下兩層CNN-BiGRU-CRF模型完成,上層模型的輸出序列作為新特征被傳遞給下層模型。

圖3 本文模型結構Fig.3 Structure of the proposed model

上層CNN-BiGRU-CRF 模型用于完成分解任務中的因果關系語義角色詞識別任務。采用CEN-t 標注方案,其中C 表示原因事件,E 表示結果事件,N 表示無關事件,t 表示普通文本。基于因果關系的對應方式不同,將上層CNN-BiGRU-CRF 模型的標注結果作為特征輸入下層CNN-BiGRU-CRF 模型,進一步劃分因果關系邊界。采用BIO 標注方案,B 表示因果關系的開始詞,I 表示因果關系的中間詞或結尾詞,O 表示無關詞。輸入句子的預測輸出序列格式為:上層模型標注結果/下層模型標注結果。其中,標注結果含義如表1 所示。

表1 標注結果含義Table 1 Meaning of annotation results

由兩次分解任務的序列標注結果可識別因果關系對,具體為:1)結合模型預測輸出的序列和表1 中一次標注結果含義,可確定原因事件詞、結果事件詞等因果語義角色詞;2)結合模型預測輸出的序列和表1 中二次標注結果含義,可確定因果關系邊界詞,即因果關系對的對應關系。

2.2 CNN-BiGRU-CRF 模型

CNN-BiGRU-CRF 模型結構如圖4 所示,主要包括embedding 層、CNN-BiGRU 層和CRF 層。由圖4可以看到,本文列舉的輸入句子及其經上下層模型標注后的輸出結果。

圖4 CNN-BiGRU-CRF 模型結構Fig.4 Structure of CNN-BiGRU-CRF model

2.2.1 embedding 層

以突發事件因果關系抽取為例,使用突發事件樣本數據對BERT 模型進行微調以生成突發事件域的文本表示模型,再利用該模型對輸入本層的樣本句子生成特征向量矩陣,并加上首尾標簽與位置索引。若將輸入本層的樣本句子中每個字用wi表示,則句子S={w1,w2,…,wt}由BERT 模型生成的向量表示為矩陣V,其表達式如下:

其中,t為序列長度,768 為字向量維度,SEP 為句首標簽,CLS 為句尾標簽,index 為位置索引,v為BERT模型生成的字向量。輸入的每個樣本句子通過式(24)可轉換為對應的特征向量矩陣。

2.2.2 CNN-BiGRU 層

將上層生成的序列向量矩陣同時輸入CNN 與BiGRU 可分別提取句子深層局部特征與長距離特征。為豐富重點語義特征的表達信息,借鑒殘差思想將提取的局部特征和全局特征在每一個時間序列步進行融合。假設句子序列長度為t,經CNN 提取的特征S-CNN={M1,M2,…,Mt},經BiGRU 形成輸出S-BiGRU={H1,H2,…,Ht},則在每一個時間序列步融合的特征向量表達式如下:

其中,C為融合后的特征向量,TimeDistributed 為按照時間序列進行特征整合的殘差融合函數。按照時間序列t,采用線性加權法將句子局部特征S-CNN的Mi依次整合到句子全局特征S-BiGRU的Hi中,計算公式如下:

對于火災、地震、食物中毒等原因事件角色詞,以及死亡、受傷等結果事件角色詞和部分顯著的邊界特征詞,可在句子按照時間序列進行特征整合的過程中加大其特征權重w。

由上述可知,利用殘差思想來豐富句子特征以及采用線性加權法突出句子中重點語義特征,可得到因果關系高區分度特征,使整個模型更容易捕獲重點語義單元,從而優化模型抽取效果。

2.2.3 CRF 層

將上層輸出的每個字所對應全部標簽的發射概率矩陣和初始化的轉移概率矩陣作為原始CRF模型的訓練參數,采用最大似然函數訓練CRF 模型可確定標簽序列。

3 實驗與結果分析

3.1 實驗語料集

本文實驗選取上海大學實驗室自制的開源中文突發事件語料庫(Chinese Emergency Corpus,CEC)作為語料集。CEC 語料集基于國務院頒布的分類體系所得到,共包括地震、火災、食物中毒、交通事故以及恐怖襲擊5 個類別。其中,從互聯網上收集的CEC 生語料共332篇,均采用XML語言作為標注格式,其對突發事件、突發事件要素以及突發事件對應關系的標注較全面。通過去HTML 標簽、格式處理、事件句轉換、分詞、分字以及數據集自動標注等數據預處理操作將CEC 語料集轉換為模型訓練的樣本數據,并對文本數據進行增強處理,得到的CEC 語料集中有11 908 個事件,1 093 對因果關系,共構成4 446 條因果關系樣本數據,按照7∶1∶2 的數量比例分為訓練集、驗證集與測試集。CEC語料集具體數量信息與本文模型超參數設置分別如表2和表3 所示。

表2 CEC 語料集具體數量信息Table 2 Specific quantity information of CEC corpus

表3 本文模型超參數設置Table 3 Hyperparameter setting of the proposed model

3.2 評價指標

為驗證本文方法在事件因果關系上的抽取效果并便于分析,以整體標注準確率、召回率和F 值作為抽取效果的評價指標。在評估事件因果關系抽取正確性的過程中,若事件因果關系成對出現,則需同時考慮一對事件因果關系中原因事件標注與結果事件標注,不能僅以標注結果為準,因此在判斷一對事件因果關系抽取的正確性時,要求原因事件標注和結果事件標注同時正確(如果是一對多個結果,則要求多個結果全部正確),否則視為抽取錯誤。

3.3 結果分析

3.3.1 不同模型的對比

為驗證本文模型的性能,分別將本文模型與其他模型從單層和雙層、是否引入CNN 兩方面進行對比,并對不同文本表示模型進行比較分析。在CEC語料集上的事件因果關系抽取中,進行5 次實驗并取每次實驗的平均值作為最終值,不同模型的實驗結果如表4 所示。其中,前綴S-與D-分別代表單層模型與雙層模型,模型1 為基礎模型。由表4 可知,雙層模型5 的評價指標高于單層模型2,其原因是雙層模型對事件因果關系抽取任務進行分步處理,其第二層結構專用于學習邊界特征,提升整個模型識別因果關系邊界能力并簡化了單個深度學習模型任務復雜性。引入殘差結構(CNN-BiGRU 輸出線性加權整合后結構)的模型5 的各評價指標均高于未引入殘差結構的模型3,模型5 在增強特征表達能力后F 值提高5.02 個百分點,特別是召回率提升7.76 個百分點,說明殘差結構的應用有效豐富了因果關系抽取任務中重點語義特征,提高模型的特征提取性能。微調BERT 模型后所得模型5 的F 值較模型4 提高2.95 個百分點,驗證了BERT 模型的有效性。

表4 不同模型的評價指標結果Table 4 Evaluation index results of different models %

本文針對CNN 重要參數調節對模型5 的影響進行實驗,取5 次實驗的平均值作為最終值,實驗結果如圖5 所示。可以看出,在其他參數相同的情況下,CNN 的卷積核窗口大小為5 時模型5 的F 值最高,卷積核數量為32 時模型5 的F 值趨于穩定。由上述結果可知:CNN 卷積核窗口設置過大不利于提取句子局部特征,而卷積核窗口設置過小又無法充分提取句子局部特征,所提取特征缺少上下文語義信息;若卷積核數量越多,則CNN 提取的特征平面信息越豐富,當卷積核數量為128 時計算量較大,此時模型5的F 值僅較卷積核數量為32 時高出0.1 個百分點。

圖5 CNN 參數設置對模型5 的F 值影響Fig.5 Influence of CNN parameter setting on F value of the model 5

3.3.2 不同方法的對比

將本文方法分別與基于雙向BiLSTM 網絡的維語事件因果關系抽取方法[9](BiLSTM-Att-規則特征方法)、基于注意力機制的BiLSTM 網絡模型突發事件演化關系抽取方法[10](BiLSTM-Att-演化模型方法)以及融合對抗學習的因果關系抽取方法[21](GAN-BiGRU-CRF 方法)等先進的因果關系抽取方法進行對比分析,實驗結果如表5 所示。可以看出,本文方法的召回率較其他方法更高,這是因為本文更注重豐富與突出重點因果關系語義特征。本文方法的F 值高于其他3 種方法,其原因為:1)本文采用的雙層模型比其他方法采用的單層模型更適用于因果關系抽取任務,能充分挖掘出語義特征細節信息;2)本文方法采用的殘差特征加權融合方式突出了因果關系的語義角色特征與關系邊界特征,使模型更易訓練和學習;3)相較其他方法的文本表示模型,本文引入的BERT 模型具有更強大的文本表示能力。

表5 不同方法的評價指標結果Table 5 Evaluation index results of different methods %

4 結束語

本文提出一種基于殘差思想的雙層模型因果關系抽取方法。對復雜的事件因果關系抽取問題進行分解,分別采用兩個深度學習模型分步處理以增強關系邊界的識別。在模型內部結構中,利用BERT結構提取豐富的語義特征,再基于殘差思想結合CNN 與BiGRU 模型將特征進行線性加權融合增強語義表征能力。在中文突發事件語料集上的實驗結果表明,該方法的事件因果關系抽取效果較現有的事件因果關系抽取方法更好,能有效解決關系抽取覆蓋面低與語義表征不足的問題。后續將進一步擴充實驗語料集,從多領域特征融合著手提升模型的抽取效果。

猜你喜歡
語義特征文本
語言與語義
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 毛片网站在线播放| 国产幂在线无码精品| 国产精品香蕉在线| 不卡国产视频第一页| 日本精品一在线观看视频| 啪啪国产视频| 亚洲色精品国产一区二区三区| 精品久久高清| 亚洲乱码精品久久久久..| 成人福利免费在线观看| 91小视频在线| 精品国产免费观看| 在线99视频| 伊人久久大香线蕉aⅴ色| 欧美成人午夜影院| 久久综合色天堂av| 无码精品国产dvd在线观看9久 | 久久中文字幕2021精品| 国产激情第一页| 91九色国产porny| 国产后式a一视频| 亚洲日韩精品欧美中文字幕 | 欧美伊人色综合久久天天| 免费视频在线2021入口| 国产精品99一区不卡| 成人在线第一页| 国产欧美日韩另类精彩视频| 日韩色图区| 欧美va亚洲va香蕉在线| 亚洲中文精品人人永久免费| 女人一级毛片| 亚洲αv毛片| 欧美激情视频一区| 国产精品视频第一专区| 最新亚洲人成无码网站欣赏网| 欧美a级完整在线观看| 国产亚洲精品va在线| 美女免费精品高清毛片在线视| 久久综合干| 91精品国产91久久久久久三级| 久久精品无码国产一区二区三区| 色窝窝免费一区二区三区| 一边摸一边做爽的视频17国产| 亚洲精品成人7777在线观看| 九九视频免费在线观看| 日韩天堂在线观看| 干中文字幕| 9久久伊人精品综合| 人妻丰满熟妇αv无码| 天天色综合4| 少妇精品网站| 狠狠综合久久| 久热精品免费| 国产精品久久久久久影院| 日韩毛片免费视频| 国产精品自拍合集| 久久香蕉国产线看精品| 免费人成又黄又爽的视频网站| 天天操精品| 大香伊人久久| 亚洲制服丝袜第一页| 亚洲另类国产欧美一区二区| 四虎精品免费久久| 五月激激激综合网色播免费| 久久精品aⅴ无码中文字幕| 国产成人精品男人的天堂下载 | 国产尤物jk自慰制服喷水| 欧美综合区自拍亚洲综合天堂| 精品无码一区二区三区电影| 99久久国产综合精品2023| 青青青国产视频手机| 成人午夜天| 日本在线欧美在线| 国产精品欧美日本韩免费一区二区三区不卡 | 亚洲Av激情网五月天| 国产乱子伦手机在线| 亚洲午夜国产精品无卡| 波多野结衣一区二区三区AV| 亚洲日韩精品欧美中文字幕| 欧美日韩专区| 国产成人亚洲无码淙合青草| 午夜视频免费一区二区在线看|