999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于軟參數共享的事件聯合抽取方法

2023-01-01 00:00:00馮興杰趙新陽馮小榮
計算機應用研究 2023年1期

摘要:事件抽取是項重要的信息抽取任務,旨在抽取文本中的事件信息。目前基于多任務學習的事件聯合抽取方法大多基于硬參數共享,此類方法往往會導致蹺蹺板現象的出現,即一項任務的性能往往通過損害另一項任務的性能來提高。為了解決這一問題,提出了一種基于軟參數共享的事件聯合抽取方法,該方法明確地分離了共享參數和任務特定參數,并通過雙層門控網絡增強模型提取和篩選語義知識的能力,使模型能同時為兩個任務學習到合適的特征表示,實現了更高效的信息共享和聯合表示學習。在DuEE1.0公共數據集上進行了實驗,使用準確率、召回率、F1值作為評價指標,并通過對比實驗和消融實驗驗證了方法的有效性。對比基于硬參數共享的聯合抽取模型事件識別任務F1值提高了2.0%,論元角色分類任務F1值提高了0.9%,有效地緩解了蹺蹺板現象的出現,驗證了方法的有效性。

關鍵詞:事件抽取;多任務學習;軟參數共享;門控網絡

中圖分類號:TP391文獻標志碼:A

文章編號:1001-3695(2023)01-015-0091-06

doi:10.19734/j.issn.1001-3695.2022.06.0252

Joint event extraction method based on soft parameter sharing

Feng Xingjiea,Zhao Xinyanga,Feng Xiaorongb

(a.College of Computer Science amp; Technology,b.College of Air Traffic Management,Civil Aviation University of China,Tianjin 300300,China)

Abstract:Event extraction is an important information extraction task,which aims to extract event information from text.Most of the current event joint extraction methods based on multi-task learning are based on hard parameter sharing,which often leads to the seesaw phenomenon,in which the performance of one task tends to improve at the expense of the performance of another.In order to solve this problem,this paper proposed a method based on soft parameter sharing,this method clearly separated shared parameters and task-specific parameters,and enhanced the ability of model extraction and screening semantic knowledge through a double-layer gated network,so that the model could learn the appropriate feature representation for both tasks at the same time,and realized more efficient information sharing and jointed representation learning.This paper conducted experiments on the DuEE 1.0 public dataset,using accuracy,recall,and F1 values as evaluation indicators,and through the contrast experiment and the ablation experiments verify the effectiveness of the method.The F1 value of event recognition task is improved by 2.0%,and the F1 value of argument role classification task is improved by 0.9% compared with the joint extraction model based on hard parameter sharing,which effectively alleviated the emergence of seesaw phenomenon and verified the effectiveness of the method.

Key words:event extraction;multi-task learning;soft parameter sharing;gate network

0引言

事件抽取作為信息抽取研究中的一個重要課題,是推薦系統、智能問答、構建知識圖譜等應用的基礎工作。事件作為一種特定的信息形式,是指在特定的時間、地點的某件事的具體發生,涉及到一個或多個參與者,通常可以描述為狀態的變化[1]。事件抽取任務主要目的便是將此類事件信息如事件觸發詞和論元從非結構化文本中抽取為結構化的形式,事件抽取包括事件識別和論元角色分類兩個子任務,任務的主要元素包括事件觸發詞、事件類型、事件論元、論元角色。整個任務通過圖1中的一個示例進行說明,該示例描述了一個組織關系—裁員(事件類型),由裁員(事件觸發詞)觸發并用于確定事件的類型,提取的論元是根據事件類型定義的相關聯角色的實體(例如,對于組織關系—裁員事件,包括裁員方、裁員人數)。

近些年,隨著深度學習的發展,事件抽取算法的研究大多基于深度學習的體系結構,如CNN(convolutional neural network)、RNN(re-current neural network)、GNN(graph neural network)、Transformer等。這些工作中構建的神經網絡模型根據不同的抽取范式主要分為兩大類,分別是基于流水線(pipline)和基于聯合(joint)的抽取模型。基于流水線的模型是先抽取觸發詞完成事件識別任務,再抽取論元完成論元角色分類任務。但該方法往往存在兩個不足:a)誤差傳播,第一階段的事件識別任務產生的錯誤無法在下一階段糾正進而影響第二階段論元角色分類任務;b)缺乏信息交互,事件識別和論元角色分類兩個子任務相互依賴,流水線的方式往往忽略了兩個任務之間的信息交互,任務無法互相受益進而影響最終的抽取效果。基于聯合的方法是對兩個任務聯合建模同時完成事件識別和論元角色分類任務,近些年大部分的聯合抽取模型主要采用的是多任務學習中硬參數共享的方法,如圖2(a)兩個任務完全共享同一段底層網絡,再分別連接兩個任務各自的網絡層,這種聯合的抽取方式可以減輕誤差傳播的影響,并且兩個任務一起訓練共同更新整個網絡參數,加強了兩個任務之間的信息交互,進而提高最終的任務效果。但是,由于事件抽取兩個子任務存在差異性,聯合抽取的模型中完全共享的同一網絡往往會傾向于更復雜的任務(論元角色分類任務相較于事件識別任務更為復雜),因此會出現多任務學習中的蹺蹺板現象(一個子任務效果的提高,另一個子任務的效果降低)[2]。

多任務學習(multi-task learning,MTL)是指使用一個單一模型同時學習多個任務,通過任務間信息共享來同時提高多個任務的效果,多任務學習根據共享方式的不同,模型一般分為硬參數共享模型和軟參數共享模型[3],如圖2所示。相較于硬參數共享,軟參數共享的模型并不完全共享同一底層網絡而是鼓勵參數相似化,在保證任務間參數共享的前提下,共享的網絡層能更好地服務于兩個任務的下游結構,進而同時提高多個任務的效果,緩解蹺蹺板現象的發生。因此,本文針對上述傳統基于聯合的事件抽取方法的問題,提出了一種基于軟參數共享的雙層門控事件聯合抽取模型(joint event extraction model with double-layer gate,JEEDG)。首先受MMOE[4]工作的啟發,將共享網絡設計為一組子網絡,并通過第一層門控網絡使兩個任務能更好地捕獲到各自需要的共享信息;其次兩個任務擁有各自任務的私有網絡來保證學習到各自任務的特定信息,再通過第二層門控網絡對私有網絡和共享網絡學習到的特征進行動態加權融合,幫助兩個任務習得更好的特征表示,最終提升事件抽取任務的效果。

本文通過實驗觀察到基于硬參數共享的事件聯合抽取方法存在蹺蹺板現象,提出了一種基于軟參數共享的事件聯合抽取模型——JEEDG來解決多任務學習中的蹺蹺板問題,并在DuEE1.0數據集上驗證了模型的效果,訓練階段通過動態加權的方法為任務分配合適的損失權重來平衡兩個任務的訓練速度,并通過消融實驗驗證了方法的有效性。

1相關工作

1.1基于深度學習的事件抽取

最先基于深度學習的事件抽取工作采用的是基于流水線的模型,DMCNN[5]使用兩個動態多池卷積神經網絡進行事件識別任務和論元角色分類任務。Yang等人[6]提出了一種基于預訓練模型的事件抽取模型——PLMEE,同樣采用基于流水線的模型,在論元角色分類任務中利用觸發詞抽取的結果進行推理,并通過引入預訓練模型BERT[7],帶來性能上的提高。為了彌補pipline模型的缺陷,Nguyen等人[8]提出了JRNN模型來構建事件句的局部特征和全局特征。該算法通過RNN將兩個任務相結合來同時對事件觸發詞和論元角色進行預測。Joint3EE[9]是一個多任務模型,它通過共享的BiGRU隱藏表示執行實體識別、觸發詞檢測和論元角色分類。JMEE[10]對事件之間的關系進行建模。該模型從一個句子中同時提取多個觸發詞和論元,通過引入了語法快捷弧來增強信息流,并使用基于注意力機制的GCN對圖進行建模。MSBERT[11]將事件檢測和命名實體識別任務構建為基于共享預訓練模型的多任務學習任務,來為事件檢測引入事件的實體信息,進而提高事件檢測任務的效果。MTL-CRF模型[12]采用多任務學習方法對各事件子類進行互增強的聯合學習,進而有效緩解分類訓練后的語料稀疏問題。

1.2多任務學習

1998年Caruana等人[13]提出了一種廣泛使用硬參數共享的多任務學習模型,該模型具有共享的底層網絡結構,這種結構大大降低了過擬合的風險,但可能會遇到由任務差異引起的優化沖突,因為所有任務都需要使用共享網絡上的同一組參數。十字繡網絡[14]在深度MTL架構中引入了軟參數共享。該模型通過線性組合學習前一層的輸出作為特征融合手段。Yang等人[15]將來自多個任務的權重建模為張量,使用張量分解技術對模型參數進行劃分來分解出每層的共享參數和每個任務的相關系數。Eigen和Shazeer等人[16,17]將專家混合模型(mixture-of-experts model,MoE)轉換為基本構建塊,并將其堆疊在深度學習網絡中,MoE層在訓練過程根據該層的輸入選擇子專家網絡。MMOE采用基于輸入的兩個門控網絡將底層專家網絡組合起來處理任務間的差異,為各個任務篩選出每個專家網絡提取到的最相關的特征。FB-Latice-BiLSTM-CRF模型[18]增加了命名實體識別任務輸出反饋機制和Lattice機制,使用最大化同方差不確定性的最大高斯似然估計方法平衡各任務損失,提高了模型對詞語和實體語義特征的學習能力。

2模型設計

本文提出的JEEDG模型結構如圖3所示,主要包括嵌入層、編碼層、解碼預測層。首先將輸入的事件句通過嵌入層映射為字級別的嵌入向量表示,再將該向量表示分別輸入到編碼層中的共享網絡、私有網絡、門控網絡中,進行特征提取與特征融合,得到兩個任務各自的特征表示,最后分別輸入到兩個任務的解碼預測層,通過條件隨機場(conditional random field,CRF)[19]進行解碼,從所有可能的序列標簽中選擇出句子級別的全局最佳標簽序列作為最終輸出。

2.1嵌入層

嵌入層是將原始的輸入文本轉換為向量形式,預訓練模型使用ChineseBERT[20],它在預訓練階段融入了字符的字形和拼音信息,更加適合中文的自然語言處理任務,通過ChineseBERT獲取輸入文本的字符向量表示,作為編碼層的特征輸入。首先對于輸入的句子S,通過數據處理得到分詞后的序列T={t0,t1,…,tn}∈Vc,Vc是一個字符級詞表,其中t0和tn為輸入ChineseBERT所需要的特殊字符[CLS]和[SEP],n為序列的最大長度,每個字符ti通過ChineseBERT得到一個嵌入表示xi∈Euclid Math TwoRApd,d為嵌入向量的維度。

xi=embedding(ti)(1)

一個事件句的嵌入向量為x∈Euclid Math TwoRApn×d,即x={x0,x1,…,xn}。

2.2編碼層

本文將編碼層根據門控網絡分為兩層,第一層為共享層,用于為每個任務學習各自需要的共享知識,第二層為私有—共享層,通過私有網絡為每個任務學習特定的知識,輸出的特征表示和共享網絡輸出的特征表示通過第二層門控網絡進行特征融合,最后分別將兩個任務的融合后的特征表示輸出到各自的解碼預測層。

2.2.1基于門控網絡的共享網絡層

共享網絡由一組子網絡構成,每個網絡的參數受兩個任務的影響,每個子網絡是一個單層的全連接網絡,將其表示為fi(i=1,…,m),m為子網絡的數量,任務k經過第一層共享網絡后的輸出為

F(0)k(x)=∑mi=1g(0)k(x)ifi(x)(2)

其中:k=1,2,k為1時表示事件識別任務,k為2時表示論元角色分類任務,上標(0)表示為第一層;x為嵌入層的輸出向量,其中∑mi=1g(0)k(x)i=1,g(0)k(x)i為任務k第一層門控網絡對于第i個子網絡fi(x)輸出的權重值;g(0)k(x)是通過線性變化和softmax層來計算權重向量的加權函數,表示為

g(0)k(x)=softmax(Wgkx)(3)

其中:Wgk∈Euclid Math TwoRApm×n×d是一個可訓練矩陣;m是子網絡個數;d為輸入的特征維度;n為輸入序列長度。通過第一層的門控網絡對共享網絡子網絡的輸出特征有選擇地進行融合,在保證信息共享的同時使兩個任務從共享網絡中能夠篩選出任務需要的信息。

2.2.2基于門控網絡的私有—共享網絡層

私有網絡是兩個任務獨享的網絡,能夠在不受另一個任務干擾的情況下集中精力高效地學習任務特定的知識,本文選取BiGRU[21]網絡作為兩個任務的私有網絡,便于捕捉字符之間的依賴關系。GRU(gate recurrent unit)結構如圖4所示。

GRU的具體工作原理可以由以下幾個公式表示:

zt=σ(Wz·[ht-1,xt])(4)

rt=σ(Wr·[ht-1,xt])(5)

t=tanh(Wht·[rtht-1,xt])(6)

ht=(1-zt)ht-1+ztt(7)

其中:xt為當前時刻輸入的信息;ht-1為上一時刻的隱藏狀態;ht為傳遞到下一時刻的隱藏狀態;t為候選隱藏狀態;rt為重置門;zt為更新門;σ為sigmoid激活函數,將輸入數值轉換為(0,1)的數值;tanh為tanh激活函數,將輸入數值轉換為(-1,1)之間的數值。式(5)為重置門公式,用于捕捉時間序列里短期的依賴關系,控制前一時刻狀態信息有多少被遺忘;式(4)為更新門公式,其有助于捕捉長期依賴關系,用于控制是否將當前輸入與上一時刻隱含狀態信息更新到候選隱藏狀態。GRU相比較LSTM[22]只有兩個門控單元,因此參數量更少,訓練速度更快,并且效果與其相當。而為了能夠通過GRU更好地捕捉文本的雙向語義依賴,進一步采用BiGRU模型,如圖5所示,它由兩個單向GRU組成,輸入序列會分別以正序和逆序輸入兩個GRU網絡中進行特征提取,將提取后的特征向量進行拼接作為最后的網絡輸出,相應計算公式如下:

t=GRU(xt)(8)

t=GRU(xt)(9)

ht=[t,t](10)

最終兩個任務都分別通過BiGRU私有網絡學習到任務特定的特征表示,并通過第二層的門控網絡將其和共享網絡層學習到的特征表示進行有選擇的融合,進而保證兩個任務在編碼層都能學到盡可能多的共享知識和特定于各自任務的私有知識,其公式表達如下:

F(1)k(x)=g(1)k(x)privateHk+g(1)k(x)shareF(0)k(x)(11)

其中:上標(1)表示為第二層;g(1)k(x)private為任務k的第二層門控網絡對BiGRU私有網絡輸出特征的權重值;g(1)k(x)share為任務k的第二層門控網絡對共享網絡輸出特征的權重值。

2.3解碼預測層

解碼層預測主要包括線性層和CRF層。通常,在預測階段選用softmax分類器解決多分類問題,但softmax分類器在序列標注問題中無法考慮到標簽之間的依賴關系。如觸發詞或論元的第一個標簽是以B-開頭,而不是I-開頭,對于一組連續的觸發詞或者論元標簽它們一般是同一類型等。而CRF模型能夠通過轉移矩陣來考慮標簽之間的約束關系得到全局最優的序列標簽。對于其中一個任務線性層的輸出序列Z={z1,z2,…,zn},CRF輸出的標簽序列為Y={y1,y2,…,yn},則標簽序列的總得分為

S(Z,Y)=∑ni=0Tyi,yi+1+∑ni=1Si,yi(12)

其中:T是轉移得分矩陣;Tyi,yi+1表示標簽yi轉移到標簽yi+1的轉移得分;Si,yi表示第i個詞在標簽yi下的輸出得分。所以關于輸出序列Y的概率分布為

P(Y|Z)=exp(S(Z,Y))∑∈YZexp(S(Z,))(13)

其中:YZ為序列Z所有可能的標簽序列。CRF層的優化目的是真實標簽序列的得分占總體的比重越大越好,因此訓練過程中,最大化正確標簽序列Y*的對數似然估計如下所示。

log(P(Y|Z))=S(Z,Y*)-log(∑∈YZexp(S(Z,)))(14)

則每個任務的損失函數定義為

Loss=-log(P(Y|Z))(15)

在解碼預測階段,采用Viterbi動態規劃算法求解總得分最高的標簽序列作為最優序列。

2.4模型優化

為了更好地平衡兩個任務在訓練過程中的差異,使兩個任務的訓練速度盡可能一致,本文采用動態加權的方式為兩個任務在每一輪訓練分配新的損失權重。該方法通過考慮損失的變化率來學習每個任務的權重值,最后再將加權后的任務損失相加作為總損失,公式如下:

rk(e-1)=lk(e-1)lk(e-2)(16)

k(e)=2exp(rk(e-1))∑i=1,2exp(ri(e-1))(17)

Losse=0(e)LossTrigger+1(e)LossArgument(18)

其中:e代表訓練輪數epoch;rk為任務k上一輪訓練loss和上上輪訓練loss的比例代表上一輪loss的更新速率;epoch為0或1時,rk取值為1;lk為每個epoch的平均損失;k為任務k的損失權重,通過對rk進行softmax歸一化處理后乘以2獲得;LossTrigger為當前訓練事件識別任務的損失;LossArgument為論元角分類任務的損失。

3實驗結果與分析

3.1實驗數據與評測指標

本文使用的數據集為2021百度信息抽取競賽數據集-DuEE1.0[23],它是百度發布的中文事件抽取數據集,事件類型根據百度風云榜的熱點榜單選取確定,具有較強的代表性。數據集一共包含65種事件類型,并映射到121個論元角色。這些事件類型中不僅包含「解雇」、「上市」、「發布」等事件文本數據中常見的事件類型,還包含了「點贊」、「探班」等極具時代特征的事件類型。數據集中的句子來自百度信息流資訊文本,相比傳統的新聞資訊,文本表達自由度更高,事件抽取的難度也更大。

本文將該數據集分為訓練集、驗證集、測試集,訓練集包含11 000條事件句,驗證集包含1 000條事件句,測試集包含1 500條數據,采用BIO序列標注的策略,B表示觸發詞或者論元的開始位置,I表示中間位置和結束位置,O表示非觸發詞或論元。

本文采用字級別匹配的精確率(precision,P)、召回率(recall,R)以及F1(F1- score,F1)值作為評價指標來衡量模型效果。準確率是正確預測的觸發詞或論元的字數占預測標注觸發詞或論元的字數的比例,召回率是指正確預測的觸發詞或論元字數占實際標注觸發詞或論元字數的比例。為了綜合評價模型的性能,引入F1作為評價指標,它是準確率和召回率的加權幾何平均值。定義如下:

P=TPTP+FP×100%(19)

R=TPTP+FN×100%(20)

F1=2×P×RP+R×100%(21)

其中:TP為正確預測的觸發詞或論元的總字數;FP為錯誤預測的觸發詞或論元的總字數;FN為實際錯誤標注的觸發詞或論元的總字數。

3.2實驗環境和參數設置

本文所有實驗均通過深度學習框架Pytorch實現,實驗中模型輸入的最大序列長度為256,并通過ChineseBERT獲得其嵌入向量,維度為768維;將嵌入向量輸入到編碼層中,編碼層中的BiGRU網絡隱藏層維度設置值均為256,dropout設置值為0.5;通過編碼層學習得到兩個任務各自需要的特征表示向量,再輸入到解碼預測層,解碼預測層中的dropout設置值為0.5;訓練過程中采用AdamW優化器進行參數優化,學習率初始值為0.001,并采用Warmup預熱學習率調整方法提高模型的訓練效率,訓練迭代次數為50次,批處理大小為16。模型的具體參數設置如表1所示。其中,為了確定合適的共享網絡的子網絡數量,在保證性能的同時不過度增加網絡模型總參數量,分別將其設置為2,3,4來驗證效果,如表2所示,當子網絡數量為3時模型效果最優。

3.3對比模型

為了評估JEEDG模型性能,本文實現了以下五個實驗模型作為對比模型,并按照抽取范式分為基于流水線的模型(BERT+BiGRU,BERT+BiGRU+CRF)和基于聯合抽取的模型(BERT+BiGRU,BERT+BiGRU+CRF,BERT+MMOE+CRF),對比模型的嵌入層均采用ChineseBERT作為預訓練模型,下文中的BERT也均指ChineseBERT,模型和訓練階段的基礎參數均遵循3.2節的參數設置。

a)基于流水線的BERT+BiGRU模型是分別為事件識別任務與論元角色分類任務訓練一個該模型來完成事件抽取,BiGRU的參數設置和本文模型相同。而基于聯合抽取范式模型只訓練一個模型,通過硬參數共享的方式共享同一BiGRU層來同時完成事件識別與論元角色分類。解碼預測層均使用softmax分類器來獲得最終的預測結果。

b)BERT+BiGRU+CRF同樣分為基于流水線和基于聯合抽取的范式,在模型a)的基礎上將解碼預測層的softmax分類器替換為CRF網絡。

c)BERT+MMOE+CRF為基于聯合抽取的模型,MMOE模型是一種軟參數共享的方法,被用于基于多任務學習的推薦系統中,它通過將共享網絡層設計為一組專家網絡和門控網絡,來實現兩個任務間的軟參數共享。

3.4模型性能對比與分析

為了進一步驗證本文方法的有效性,在DuEE1.0數據集上對六個模型進行對比,對比結果如表3所示,其中粗體代表模型中的最佳結果。

a)由BERT+BiGRU+CRF模型與BERT+BiGRU對比發現,不論是基于流水線還是基于聯合的抽取范式,效果均優于未加CRF層的模型,可見CRF層在解碼過程考慮全局標簽信息能夠幫助模型提高最終的預測效果。

b)對比BERT+BiGRU與BERT+BiGRU+CRF兩種模型在基于流水線和基于聯合的抽取范式的效果,其中基于聯合的參數共享方式均采用硬參數共享的方法,設計為共享同一BiGRU網絡層。由實驗效果對比發現,相較于基于流水線的方法,基于聯合抽取的方法對論元角色分類任務都帶來了增益,F1值分別提高了3.4%和0.7%,說明通過參數共享能幫助該任務從事件識別任務學習到有益的知識來提高預測的效果,但事件識別任務效果均受到影響,F1值分別下降了0.57%和1.4%,出現了多任務學習中的蹺蹺板現象,證明了基于硬參數共享的方法,很難平衡兩個任務之間的差異,模型最終更傾向于論元角色分類任務,導致事件識別任務效果的降低。

c)BERT+MMOE+CRF模型將完全共享的BiGRU層改進為一組專家網絡,本實驗選取三個BiGRU網絡作為專家網絡組成共享網絡層,并通過一層門控網絡對三個BiGRU網絡的輸出特征進行加權融合再分別輸出到兩個任務的解碼預測層。通過對比發現,該方法對蹺蹺板現象有一定的緩解,與基于聯合抽取的BERT+BiGRU+CRF模型比較,論元角色分類任務的效果有輕微下降,但有效地降低了模型對于論元角色分類任務的傾向性,使得事件識別任務效果得到了提升。雖然F1值的提高仍低于基于流水線的方法,但相對于基于硬參數共享的方法,這種做法是值得的。

d)本文模型JEEDG與其他模型對比,如表3所示,可以看出F1值均高于其他模型,事件識別任務和論元角色分類任務的效果均為最優,相較于基于硬參數共享的BERT+BiGRU+CRF模型分別提高了2.0%和0.9%;同時與基于流水線的BERT+BiGRU+CRF模型進行對比,如表4所示,其他基于聯合的抽取模型在事件識別任務上F1值均降低,而JEEDG模型的事件識別任務與論元角色分類任務的F1值同時提高了0.6%和1.7%,說明了本文方法在保證兩個任務通過軟參數共享方法互相受益的同時,能夠更好地平衡兩個任務之間的差異,有效地緩解了基于硬參數共享的事件聯合抽取模型中的蹺蹺板現象。

3.5消融實驗

為了進一步驗證JEEDG模型不同部分對整體性能的貢獻,本文進行了消融實驗。首先是驗證雙層門控網絡結構對整體性能的影響,實驗結果如表5所示。其中single layer GateNet表示只使用一層門控網絡同時對共享網絡中子網絡輸出的特征表示和事件識別任務與論元角色分類任務各自私有網絡輸出的特征表示進行加權融合;w/o GateNet表示不使用門控網絡而是直接對這些網絡輸出的特征表示進行融合。通過實驗結果可以看出,雙層門控網絡的特征融合方式能夠更好地為任務篩選出網絡中的有用信息,并降低冗余信息對任務效果的影響,進而提高模型整體性能。其次對損失動態加權(dynamic weight loss,DWL)的效果與人工選擇固定的權重參數(5:5和4:6的權重比)效果進行對比可以看出,損失動態加權的方式可以更好地平衡兩個任務訓練速度的差異來幫助任務同時訓練到最優的結果。

3.6案例分析

為了更好地分析說明JEEDG模型的效果,本文在測試集中選取一個復雜事件句作為案例和基于聯合的BERT+BiGRU+CRF模型以及基于流水線的BERT+BiGRU+CRF模型的抽取結果進行案例分析,復雜事件句為包含兩種事件類型或以上的句子。對于此測試中選取的事件句,如表6所示。

對于事件識別任務,三個模型雖然均完整抽取出所有觸發詞,但基于聯合的BERT+BiGRU+CRF未能準確分類第二個事件的觸發詞,將觸發詞“亮相”錯誤分類為“產品行為—上映”,可以看出,基于硬參數共享的方式未能幫助事件識別任務提高抽取效果,反而可能會受到論元角色分類任務的影響,損害了模型在該任務上的性能。在論元角色分類任務中,相對于另外兩個任務基于流水線的BERT+BiGRU+CRF模型對論元“訊飛翻譯機3.0”未能完整抽取,只抽取出“訊飛翻譯機”,說明對于該任務,基于聯合的抽取模型通過參數共享能幫助其學習更多共享知識來提高預測的效果。同時,為了更好地說明雙層門控網絡在編碼層中的作用。將該測試案例中JEEDG模型的雙層門控網絡學習到的權重進行可視化,通過條形圖展示每個門控網絡的權重分布情況。如圖6所示,trigger gate和role gate分別指事件識別任務和論元角色分類任務的門控網絡。兩個任務各自的第一層門控網絡分別給共享層的三個子網絡一個學習到的權重值,通過第一層門控網絡,兩個任務便能以不同的方式利用共享層三個子網絡學習到的特征表示。對于事件識別任務,其第一層門控網絡給第二個子網絡分配的權重最多,說明該子網絡學習到的共享知識對該任務更為重要;而對于論元角色分類任務,它的第一個和第三個子網絡分配的權重值更高,說明這兩個網絡學習到的知識對于該任務更為重要。對于第二層門控網絡是分別為任務私有網絡和共享網絡層學習到的特征表示分配權重。對于事件識別任務私有網絡學習到的任務特定的特征表示對于該任務的幫助更大,所以分配了更高的權重值;而對于論元角色分類任務共享網絡層學習到的特征表示更為重要,分配了更高的權重。由該案例分析可以看出,通過雙層門控網絡能夠更好地為兩個任務篩選出各自需要的知識,進而同時提高事件聯合抽取模型在兩個任務上的效果。

4結束語

本文提出了一種新的基于軟參數共享的事件聯合抽取模型——JEEDG,該模型明確地分離了共享網絡和任務私有網絡學習到的參數,并通過雙層門控網絡增強模型提取和篩選語義知識的能力,使網絡能同時為兩個任務學習到合適的特征表示,避免了多任務學習中的蹺蹺板現象,實現了更高效的信息共享和聯合表示學習。在DuEE1.0數據上的對比實驗和消融實驗的結果表明,本文方法能夠有效地緩解蹺蹺板現象的出現,最終提高事件抽取的效果。未來將探究如何為論元角色分類任務設計更先進的模型框架,解決序列標注方法無法處理論元角色重疊的問題,并考慮為事件抽取任務創建其他輔助任務,來引入更多的事件知識。同時,將研究成果應用于課題組積累的大量民航不安全事件文本數據中,完成對該數據的事件抽取,為構建民航不安全事件知識圖譜提供支持。

參考文獻:

[1]Li Qian,Peng Hao,Li Jianxin,et al.A comprehensive survey on schema-based event extraction with deep learning[EB/OL].(2021-07-05).https://arxiv.org/abs/2107.02126v4.

[2]Tang Hongyan,Liu Junning,Zhao Ming,et al.Progressive layered extraction(PLE):a novel multi-task learning(MTL) model for persona-lized recommendations[C]//Proc of the 14th ACM Conference on Recommender Systems.New York:ACM Press,2020:269-278.

[3]Vandenhende S,Georgoulis S,Van Gansbeke W,et al.Multi-task learning for dense prediction tasks:a survey[J].IEEE Trans on Pattern Analysis And Machine Intelligence,2022,44(7):3614-3633.

[4]Ma Jiaqi,Zhao Zhe,Yi Xinyang,et al.Modeling task relationships in multi-task learning with multi-gate mixture-of-experts[C]//Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining.New York:ACM Press,2018:1930-1939.

[5]Chen Yubo,Xu Liheng,Liu Kang,et al.Event extraction via dynamic multi-pooling convolutional neural networks[C]//Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2015:167-176.

[6]Yang Sen,Feng Dawei,Qiao Linbo,et al.Exploring pre-trained language models for event extraction and generation[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2019:5284-5294.

[7]Devlin J,Chang Mingwei,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].(2019-05-24).http://doi.org/10.48550/arxiv.1810.04805.

[8]Nguyen T H,Cho K,Grishman R.Joint event extraction via recurrent neural networks[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2016:300-309.

[9]Nguyen T M,Nguyen T H.One for all:neural joint modeling of entities and events[C]//Proc of the AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:6851-6858.

[10]Liu Xiao,Luo Zhunchen,Huang Heyan.Jointly multiple events extraction via attention-based graph information aggregation[EB/OL].(2018-10-23).http://doi.org/10.48550/arxiv.1809.09078.

[11]王捷,洪宇,陳佳麗,等.基于共享BERT和門控多任務學習的事件檢測方法[J].中文信息學報,2021,35(10):101-109.(Wang Jie,Hong Yu,Chen Jiali,et al.Event detection by shared BERT and gate multi-task learning[J].Journal of Chinese Information Processing,2021,35(10):101-109.)

[12]賀瑞芳,段紹楊.基于多任務學習的中文事件抽取聯合模型[J].軟件學報,2019,30(4):1015-1030.(He Ruifang,Duan Shaoyang.Joint Chinese event extraction based multi-task learning[J].Journal of Software,2019,30(4):1015-1030.)

[13]Caruana R,O’Sullivan J.Multitask pattern recognition for vision-based autonomous robots[C]//Proc of International Conference on Artificial Neural Networks.London:Springer,1998:1115-1120.

[14]Misra I,Shrivastava A,Gupta A,et al.Cross-stitch networks for multi-task learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:3994-4003.

[15]Yang Y,Hospedales T.Deep multi-task representation learning:a tensor factorisation approach[EB/OL].(2017-02-16).http://doi.org/10.48550/arxiv.1605.06391.

[16]Eigen D,Ranzato M A,Sutskever I.Learning factored representations in a deep mixture of experts[EB/OL].(2014-03-09).http://doi.org/10.48550/arxiv.1312.4314.

[17]Shazeer N,Mirhoseini A,Maziarz K,et al.Outrageously large neural networks:the sparsely-gated mixture-of-experts layer[EB/OL].(2017-01-23).http://doi.org/10.48550/arxiv.1701.06538.

[18]武國亮,徐繼寧.基于命名實體識別任務反饋增強的中文突發事件抽取方法[J].計算機應用,2021,41(7):1891-1896.(Wu Guoliang,Xu Jining.Chinese emergency event extraction method based on named entity recognition task feedback enhancement[J].Journal of Computer Applications,201,41(7):1891-1896.)

[19]Lafferty J,McCallum A,Pereira F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proc of the 18th International Conference on Machine Learning.San Francisco,CA:Morgan Kaufmann,2001:282-289.

[20]Sun Zijun,Li Xiaoya,Sun Xiaofei,et al.ChineseBERT:Chinese pretraining enhanced by glyph and pinyin information[EB/OL].(2021-06-30).http://doi.org/10.48550/arxiv.2106.16038.

[21]Schuster M,Paliwal K K.Bidirectional recurrent neural networks[J].IEEE Trans on Signal Processing,1997,45(11):2673-2681.

[22]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.

[23]Li Xinyu,Li Fayuan,Pan Lu,et al.DuEE:a large-scale dataset for Chinese event extraction in real-world scenarios[C]//Proc of CCF International Conference on Natural Language Processing and Chinese Computing.Cham:Springer,2020:534-545.

收稿日期:2022-06-05;修回日期:2022-07-26基金項目:國家重點研發計劃課題項目(2020YFB1600101);國家自然基金重點項目(U2133207);中央高校基本科研業務費項目(3122020052)

作者簡介:馮興杰(1969-),男,河北邢臺人,教授,碩導,博士,主要研究方向為推薦系統、數據庫及數據倉庫、智能信息處理理論與技術;趙新陽(1997-),男,安徽六安人,碩士研究生,主要研究方向為自然語言處理、信息抽取;馮小榮(1980-),陜西韓城人,男(通信作者),高級實驗師,碩導,主要研究方向為機場終端區運行協同、飛行數據處理、空管不安全事件知識圖譜研究(fengxiaorong@163.com).

主站蜘蛛池模板: 国产理论最新国产精品视频| 国产午夜一级淫片| 尤物视频一区| 国产玖玖玖精品视频| 免费一级无码在线网站| 婷婷在线网站| swag国产精品| 试看120秒男女啪啪免费| 国产精品午夜福利麻豆| 成年免费在线观看| 成人噜噜噜视频在线观看| 亚洲天堂免费| 欧美成人亚洲综合精品欧美激情| 成人日韩欧美| 欧美成一级| 91色在线观看| 久久久久国产一级毛片高清板| 91视频日本| 欧美在线三级| 在线日本国产成人免费的| a毛片在线播放| 香蕉99国内自产自拍视频| a色毛片免费视频| 国产美女叼嘿视频免费看| 亚洲第一av网站| 在线欧美国产| 喷潮白浆直流在线播放| 国产一国产一有一级毛片视频| 午夜精品区| 日本午夜三级| 国产一区二区网站| 亚洲日本一本dvd高清| 亚洲一欧洲中文字幕在线| 久久综合国产乱子免费| 26uuu国产精品视频| 午夜毛片福利| 热伊人99re久久精品最新地| 色欲色欲久久综合网| 99精品影院| 国产主播喷水| 日韩精品亚洲人旧成在线| 日韩乱码免费一区二区三区| 国产成人一级| 美女国内精品自产拍在线播放| 亚洲第一国产综合| 伊人久久精品无码麻豆精品| 超薄丝袜足j国产在线视频| 香蕉99国内自产自拍视频| 亚洲中文字幕无码爆乳| 午夜精品久久久久久久2023| 在线毛片网站| 日韩A∨精品日韩精品无码| 国产美女精品一区二区| 亚洲国产无码有码| 91网址在线播放| 亚洲开心婷婷中文字幕| 欧美国产日韩在线观看| 国产一区二区三区在线精品专区| 91在线播放国产| 久久亚洲黄色视频| 国模私拍一区二区| 欧美日韩北条麻妃一区二区| 日韩成人免费网站| 国产波多野结衣中文在线播放| 精品国产免费观看| 少妇高潮惨叫久久久久久| 日本一区中文字幕最新在线| 久久精品亚洲中文字幕乱码| 国产最新无码专区在线| 国产剧情国内精品原创| 久久夜色撩人精品国产| 无码'专区第一页| 亚洲第一精品福利| 亚洲人成人无码www| 一级毛片在线免费视频| 久久婷婷五月综合97色| 亚洲第一精品福利| av尤物免费在线观看| 欧美在线视频不卡| 日韩成人午夜| 91人人妻人人做人人爽男同| 日韩一二三区视频精品|