魏 優,劉茂福,胡慧君
(1.武漢科技大學計算機科學與技術學院,湖北 武漢 430065; 2.智能信息處理與實時工業系統湖北省重點實驗室,湖北 武漢 430065)
生物醫學文獻數量龐大且增長迅速,對現有生物醫學文獻的信息抽取而言,理解生物醫學事件的上下文更具有重要意義。因而,更多的研究者專注于生物醫學事件抽取這項關鍵且極具挑戰性的任務,其目標是識別某一類型事件的觸發詞和與之相關的要素。如例1所示,從句子中可以抽取2個生物醫學事件,事件1是1個Blood vessel development(血管發育)類型的事件,用E1表示,包括事件觸發詞“angiogenesis”和對應的AtLoc類型要素“tumor”;事件2是1個Regulation(調控)類型事件,用E2表示,包括事件觸發詞“play a role”,1個Theme類型要素E1,1個Cause類型要素“Mps”。其中事件E2是1個嵌套事件,參與的Theme要素是事件E1。
例1句子“Mps also play a role in tumor angiogenesis.”存在事件,其結構化表示:Event E1(Type:Blood vessel development,Trigger:angiogenesis,Theme:tumor);Event E2(Type:Regulation,Theme:E1,Cause:Mps)
生物醫學事件抽取任務一經提出就吸引了大量關注,先前大部分用于生物醫學事件抽取的方法都是基于規則或基于傳統機器學習的。基于規則的方法需要人工構建規則,花費大量時間,并且還需要專業人員的參與;而基于傳統機器學習的方法,比如支持向量機SVM(Support Vector Machine)和條件隨機場CRF(Conditional Radom Field)等,與基于規則的方法相比抽取性能更好,但是依賴大量的復雜特征,泛化能力很差,并且缺乏詞的語義信息。近年來,隨著神經網絡的興起,基于預訓練詞向量和神經網絡的深度學習方法相繼被提出,詞向量通常可以獲取詞與詞之間的語義信息作為神經網絡模型的輸入,同時神經網絡模型可以自動學習一些抽象的特征,使用神經網絡方法進行事件抽取取得了更好的效果。雖然現有神經網絡方法表現出一定的優勢,但是仍然存在一些問題需要解決。(1)根據不同的上下文,同樣的單詞作為觸發詞可以表示不同的事件類型,比如,例2中句子1和句子2,2個句子中有相同的單詞“formation”,前者表示Binding類型事件,后者表示Development類型事件。(2)與例1類似的嵌套事件的抽取效果仍然不夠理想,特別是多層嵌套關系的事件抽取。
例2
句子1“VEGF165 mediatesformationof complexes containing VEGFR-2 and neuropilin-1 that enhance VEGF165-receptor binding.”中有事件Binding〈formation〉(Theme:VEGFR-2,Theme:neuropilin-1).
句子2“In addition,the endostatin vector treatment completely prevented theformationof pulmonary micrometastases in Lewis lung carcinoma (P = 0.0001).”中有事件Development〈formation〉(Theme:pulmonary micrometastases).
本文使用基于預訓練語言模型的深層語境詞表示來處理第1個問題,預訓練語言模型可以根據上下文動態捕獲詞的含義,同一單詞對應不同的上下文就有不同的詞表示,將這樣的動態詞表示作為序列標注模型的輸入,與靜態的預訓練詞向量作為輸入相比可以獲得更好的效果;另外,本文中要素檢測實質上是識別觸發詞-要素候選對(包括觸發詞與實體或觸發詞與觸發詞)的關系類型,對此本文提出基于自注意力的多分類模型,使用自注意力機制,不僅可以關注句子中對于候選對關系識別比較重要的部分,還可以捕獲句子中不同的相關特征,更有助于候選對關系識別。
隨著生物醫學自然語言處理BioNLP(Biomedical Natural Language Processing)的生物醫學事件共享任務BioNLP-ST(BioNLP Shared Task)[1 - 4]的多次舉辦,生物醫學事件抽取獲得的關注度也越來越高,許多系統和方法也相繼被提出。基于規則的方法,比如Kilicoglu等[5,6]提出的事件抽取方法ConcordU和Bui等[7]提出的事件抽取方法BioSEM,這些方法準確率較高,但召回率卻非常低,并且其規則是針對特定數據集定義的,泛化能力較差。傳統機器學習方法中,SVM是最具代表性的方法,比如圖爾庫大學提出的TEES(Turku Event Extraction System)系統[8],將事件抽取分為觸發詞識別和要素檢測2個子任務,并將2個子任務視為多分類任務,結合詞匯信息、語境信息、依存句法信息等構成的豐富特征采用SVM作為分類器,在歷屆BioNLP-ST共享任務中都取得了非常好的成績。Xia等[9]在TEES的基礎上,提出了一種特征累積有效性評估算法,通過梯度搜索的方式分析每一種特征對于整體性能的貢獻,找到最優的特征組合,進一步提升了TEES系統性能。Venugopal等[10]提出一種基于馬爾科夫邏輯網絡MLN(Markov Logic Networks)的連接模型,采用SVM模型對高維特征進行編碼。Wei等[11]結合SVM和CRF來進行事件觸發詞識別;Zhou等[12]提出了一種基于句子結構和主題分布相似性的半監督學習方法來挖掘未注釋語料的知識,輔助生物醫學事件抽取任務的研究。
近年來深度學習在一些自然語言處理任務上得到廣泛應用,并取得了很好的效果,結合詞向量的神經網絡模型也被應用到生物醫學事件抽取任務中。Nie等[13]提出詞向量輔助神經網絡預測模型進行生物醫學事件觸發詞識別;Li等[14]提出一種在動態擴展樹上的長短時記憶神經網絡模型用于生物醫學事件抽取;Wang等[15]提出一種基于依存分析的詞向量和深度學習模型的觸發詞識別方法;Bj?rne等[16]將TEES系統中的SVM用卷積神經網絡CNN(Convolutional Neural Network)替代,進一步提升了系統的性能;Rahul等[17]提出基于GRU(Gated Recurrent Unit)的神經網絡模型用于生物醫學事件觸發詞識別;Li等[18]提出要素注意力模型直接將要素信息用于輔助觸發詞識別;Li等[19]提出一種并行多池化卷積神經網絡模型用于生物醫學事件抽取,在MLEE(Multi-Level Event Extraction)[20]數據集上取得了目前最好的結果。
目前,雙向長短時記憶神經網絡Bi-LSTM(Bidirectional Long Short-Term Memory)結合CRF的模型在序列標注任務中用得最多,模型效果也較好。Bi-LSTM可以捕獲句子前向和后向有用的上下文信息,而CRF在預測當前標簽時具有利用句子級別和相鄰標簽信息的優勢。Lample等[21]和Ma等[22]都使用Bi-LSTM-CRF神經網絡結構結合字符級詞表示進行命名實體識別,所不同的是前者使用Bi-LSTM生成字符級詞表示,后者使用CNN得到字符級詞表示。基于Bi-LSTM和CRF的神經網絡模型也被廣泛應用到生物醫學領域的序列標注任務中[23 - 26]。注意力機制在自然語言處理任務中的首次應用是在機器翻譯領域,因其出色的表現而后被廣泛地應用到各類NLP(Natural Language Processing)任務中,并在各個任務中也取得了不錯的效果。隨著注意力機制的深入研究,各種注意力皆被提出,其中,自注意力(Self-attention)因其可以捕獲長距離依賴的優勢而成為近期的研究熱點,在語義角色標注[27]、實體識別[28]、關系抽取[29]等任務上都有成功應用。以往的研究表明,使用word2vec[30]、Glove[31]等獲得的預訓練詞向量可以提升模型的性能,但是預訓練詞向量仍然不能充分利用詞的含義及其上下文信息,因此基于上下文生成詞表示是至關重要的。Peters等[32]和Radford等[33]提出不同的預訓練語言模型,這些模型可以根據不同的上下文產生動態的深層語境詞表示,在多項NLP任務中都表現出強大的性能。
流水線式的生物醫學事件抽取流程包括3步,即事件觸發詞識別、事件要素檢測和后處理生成完整事件,其中最重要的是前2步。本文將觸發詞識別看作序列標注問題,將預訓練詞向量組合基于Bi-LSTM的字符級詞表示、預訓練詞向量組合基于CNN的字符級詞表示和基于預訓練語言模型的深層語境詞表示分別輸入到Bi-LSTM-CRF模型進行觸發詞識別,整體框架如圖1所示。觸發詞識別之后,接著進行事件要素檢測,本文沿用以前的方法,依舊將要素檢測看作一個多分類問題,提出一個基于自注意力的多分類模型。
觸發詞識別模型整體框架如圖1所示,其中最重要的2部分是詞表示和Bi-LSTM-CRF結構。本文將觸發詞識別看作序列標注問題,使用BIO(Begin Inside Outside)標簽對觸發詞進行標注,B-type代表組成觸發詞的開始單詞,I-type代表中間單詞,O代表不是觸發詞,type代表觸發詞類型。

Figure 1 Overview of trigger recognition model 圖1 觸發詞識別模型整體框架
3.1.1 字符級詞表示
字符級別的詞表示考慮了單詞在形態學方面的信息和知識,比如單詞的前綴和后綴信息。大量研究[21,22,34]表明,將字符級的詞表示與預訓練詞向量結合使用可以優化序列標注任務的效果。本文參考文獻[34]以2種方式獲取字符級別的詞表示,一是基于Bi-LSTM的方式,將字符表中的字符進行向量隨機初始化,得到字符向量表,單詞中的每個字符映射為字符向量后,輸入Bi-LSTM進行編碼得到字符級詞表示;另一種是基于CNN的方式,依然將單詞中的每個字符映射為字符向量后,然后經過卷積,再經過最大池化得到基于CNN的字符級詞表示。
獲得基于Bi-LSTM的字符級詞表示和基于CNN的字符級詞表示后,將它們分別與用word2vec訓練的基于單詞的預訓練詞向量拼接,得到最終的詞表示,并將其輸入到Bi-LSTM-CRF模型中。
3.1.2 深層語境詞表示
近來BERT(Bidirectional Encoder Representations from Transformers)[35]因在11項NLP任務中打破記錄而獲得極大的關注,因此預訓練語言模型被廣泛地運用到各類NLP任務中,包括序列標注、文本分類等,并且效果都得到很大的提升。目前將預訓練語言模型應用到下游任務主要有2種形式,一是基于特征的方式,二是基于微調的方式。本文采取基于微調的方式,使用BioBERT(Bidirectional Encoder Representations from Transformers for Biomedical text mining)[36]來獲取深層語境詞表示,然后將其輸入到Bi-LSTM-CRF模型中。BERT使用大量的通用領域語料比如English Wikipedia、BooksCorpus等進行訓練,而BioBERT在此基礎上再使用生物醫學領域的語料PubMed(PubMed Abstracts)和PMC(PMC full-text articles)進行訓練,更有利于生物醫學領域自然語言處理。
與預訓練詞向量不同的是,通過合并上下文信息,采用預訓練語言模型獲取的深層語境詞表示允許相同的單詞有不同的上下文含義。
3.1.3 Bi-LSTM-CRF
LSTM很好地解決了傳統循環神經網絡在訓練過程中存在的梯度消失和梯度爆炸問題,同時可以更好地對長距離依賴關系進行建模,因而被廣泛應用。在LSTM神經元中,狀態的保存與更新由輸入門、遺忘門、輸出門決定,輸入門控制可以保存到狀態中的輸入信息,遺忘門決定歷史狀態的保留信息,輸出門控制輸出更新后的狀態信息。LSTM神經元中t時刻各個單元的計算如下所示:
it=σ(Wiht-1+Uixt+bi)
(1)
ft=σ(Wfht-1+Ufxt+bf)
(2)
(3)
(4)
ot=σ(Woht-1+Uoxt+bo)
(5)
ht=ot⊙tanhct
(6)
其中,it、ft、ot、ct分別代表t時刻神經元的輸入門、遺忘門、輸出門和細胞狀態,xt是t時刻的輸入向量,ht是t時刻的隱藏狀態(輸出向量),σ代表sigmoid激活函數,tanh代表tanhyperbolic激活函數,⊙代表元素級乘法計算,U和W是權重矩陣,b是偏置向量。

在Bi-LSTM-CRF模型中,CRF主要是進一步增強前后標注的約束。對于Bi-LSTM的輸出序列h={h1,h2,…,hn},通過概率模型CRF獲得候選標簽序列y={y1,y2,…,yn},CRF原理如公式(7)所示:
(7)

L(W,b)=∑ilogp(y|h;W,b)
(8)
(9)

Figure 2 Model overview of argument detection圖2 要素檢測模型整體框架
模型整體結構如圖2所示,主要包括:(1)輸入,將句子中的每個詞轉換成對應的詞向量作為模型的輸入;(2)自注意力,使用多頭注意力獲取詞與詞之間的相關特征;(3)Bi-LSTM,順序編碼自注意力層的輸出;(4)實體注意力,計算候選觸發詞-實體對或觸發詞-觸發詞對,其它單詞與候選對的相對距離,實體類型以及事件類型的注意力權重,最終這些特征將作為句子特征用于最后的分類。
3.2.1 自注意力層
自注意力,也叫內部注意力,是注意力機制的一種特殊情況,它能夠關注句子本身從而學習句子內部的詞依賴關系,捕獲句子的內部結構。自注意力有許多不同的實現方式,本文使用的自注意力稱之為多頭注意力,主要包括線性變換、縮放點積注意力和拼接。
多頭注意力的輸入是3個相同的向量矩陣:查詢Q(Query)、鍵K(Key)和值V(Value),本文中Q=K=V=X,X={x1,x2,…,xn},xi∈Rdw(dw代表詞向量維度)為輸入句子的詞向量序列。首先對Q、K和V分別進行線性變換,然后進行縮放點積注意力(Scaled Dot-Product Attention)計算,計算公式如下所示:
(10)
其中縮放點積注意力結合線性變換需要進行h次,一次計算一個頭,并且是并行計算的,這樣可以使得模型在不同子空間學習相關信息。多頭注意力計算如式(11)和式(12)所示:
Multihead(Q,K,V)=WM[head1;…;headh]
(11)
(12)
3.2.2 Bi-LSTM層
經過自注意力層獲取句子的豐富信息后, 本文接著使用Bi-LSTM進行順序編碼,具體表示如下所示:
(13)
(14)
(15)

3.2.3 實體注意力層
將觸發詞識別出來后,要素檢測實際上是判斷句子中觸發詞-要素候選對的關系,這樣的候選對有2類:觸發詞與實體候選對,觸發詞與觸發詞候選對。因此,候選對的信息對于要素檢測是非常重要的。本文采用實體注意力來充分利用候選對的信息,所采用的特征包括:(1)H={h1,h2,…,hn},是將從自注意力層得到的表示向量M輸入到Bi-LSTM進行編碼后得到的隱層輸出;(2)相對位置特征;(3)事件類型特征;(4)候選對及其類型特征。具體的注意力機制計算如下所示,其中z∈R2dh就是最終得到的句子特征。
WE[he1;te1;he2;te2])
(16)
(17)
(18)

(19)
(20)
其中,K是實體類型數量,ri表示第i個實體類型向量。
然后將實體隱層狀態he1、he2和對應的類型te1、te2連接起來再通過矩陣WE∈Rda×(4dh+4dh)進行線性變換,最后通過式(17)和式(18)得到z。其中,v是權重矩陣。
3.2.4 分類輸出層
通過實體注意力層得到句子特征z后將其送入全連接層,再使用softmax進行最后的分類,則所有要素類別的條件概率如式(21)所示,y表示預測要素類別,S表示輸入句子,θ是模型要學習的所有參數,包括Wo∈R|R|×2dh和bo∈R|R|,|R|代表要素類別數量。
p(y|S,θ)=softmax(Woz+bo)
(21)
本文使用交叉熵L作為損失函數,定義如式(22)所示:
(22)
其中,|D|代表訓練集大小,(S(i),y(i))代表數據集S和y中第i個樣本,本文使用AdaDelta優化器來更新模型參數θ。為防止過擬合,本文使用系數為λ的L2正則化,另外也分別在詞向量層、Bi-LSTM和實體信息注意力之后加入Dropout(隨機失活),減少隱藏神經元的聯合適應性。
The general form of surface potential ψsλ(y) in GSGCDMT-SON MOSFET can be obtained by solving the second order differential equation given in Eq. (11). Its solution is given as
本文以MLEE語料集為基礎進行實驗,與BioNLP-ST共享任務語料集,只針對分子水平的事件抽取相比,MLEE語料集旨在抽取更廣泛的病理學過程中不同層級上的生物機制,包括分子、細胞、器官甚至整個生物機體。按照BioNLP-ST共享任務的數據標注標準,有針對性地定義了16種實體與19種事件結構類型,從而進行生物醫學事件抽取。MLEE語料集的19種生物事件類型分為4個大類別,分別為“Anatomical”“Planned”“Molecular”和“General”,描述了解剖、病理、分子和通用等生物過程以及治療方面的處理過程。在各個大類下,設有一系列的精確事件類型,如血管發育(Blood vessel development)、死亡(Death)、去磷酸化(Dephosphorylation)等,每種事件涉及指定的實體類型。表1給出了MLEE語料中的19類生物醫學事件的定義。本文將會對表1中定義的主要事件類型進行抽取,其中“Blood vessel development”事件類型可以沒有參與要素,“Regulation”“Positive regulation”“Negative regulation”和“Planned process”事件類型的要素可以是另一事件,這4類事件為可嵌套事件。
MLEE數據集分為訓練集、驗證集和測試集,其統計信息如表2所示,從中可以看出數據集中標注了大量的實體和事件信息,為事件抽取模型提供了足夠的訓練樣本。
在本文實驗中,模型先使用訓練集進行訓練,驗證集調整模型參數,然后訓練集和驗證集合并訓練得到最后的模型。另外,實體由官方給出,無需進行實體識別。本文使用精確率P(Precision)、召回率R(Recall)、F1值(F1-Score)作為評價指標。
4.2.1 觸發詞識別結果
將預訓練詞向量組合字符級詞表示,和基于預訓練語言模型的深層語境詞表示分別作為序列標注模型Bi-LSTM-CRF的輸入,得到觸發詞識別結果,如表3所示。

Table 1 Definition of primary events表1 主要事件的定義

Table 2 Statistical information of MLEE表2 MLEE數據集統計信息

Table 3 Experimental results of trigger recognition with different word representation表3 基于不同詞表示的觸發詞識別結果 %
(1)Bi-LSTM-CRF+CNN-Char:字符級詞表示通過CNN得到,并與預訓練詞向量結合作為Bi-LSTM-CRF模型的輸入;
(2)Bi-LSTM-CRF+LSTM-Char:字符級詞表示通過Bi-LSTM得到,并與預訓練詞向量結合作為Bi-LSTM-CRF模型的輸入;
(3)Bi-LSTM-CRF+BioBERT:深層語境詞表示通過預訓練語言模型BioBERT得到,作為Bi-LSTM-CRF模型的輸入;
(4)CG[37]是一個與MLEE類似的數據集,“+CG”表示在原有模型基礎上訓練集加入CG語料。
由表3可知,Bi-LSTM-CRF+LSTM-Char的F1值比Bi-LSTM-CRF+CNN-Char的高0.54%,說明基于LSTM的字符級詞表示比基于CNN的字符級詞表示可以更好地學習到單詞的形態學信息,而在本文中CNN只考慮單詞的三元距離,并且是與位置無關的,意味著不能區分三元組字符在單詞中的位置;LSTM考慮單詞中的所有字符,并且是與位置有關的,意味著可以區分單詞開頭和結尾的字符。對于觸發詞識別來說,位置依賴是很重要的信息,與CNN相比,在字符與單詞的關系建模方面,LSTM更有優勢。Bi-LSTM-CRF+BioBERT的F1值比Bi-LSTM-CRF+LSTM-Char的F1值高2.86%,并且精確率和召回率都有明顯提升,證明了深層語境詞表示比組合字符級詞表示的預訓練詞向量更加有效。另外,由表3可知,模型在加入CG語料擴充訓練集之后與加入之前比,整體F1值提高了0.5%,說明加入語料有利于模型效果提升;而從召回率和精確率來看,召回率有提升而精確率有所下降。其原因可能是擴充的語料可以讓模型學到一些有利特征作為補充,模型能夠預測出更多正確的觸發詞,因而召回率上升;但與此同時也加入了一些噪聲,比如單詞“sensitizing”在CG語料中被標注為觸發詞,但在MLEE語料中卻未被標注為觸發詞,另外有些單詞或短語分別在訓練集和測試集可以作為不同類型事件的觸發詞,并且有的單詞或短語比如“play a role”可以是觸發詞也可以不是,加入CG語料也使得這類單詞或短語有所增加,模型將原來不作為觸發詞的單詞預測為觸發詞或者將觸發詞類型判斷錯誤,從而使得精確率下降。
表4列出了已有方法的結果,前3種模型結合大量人工或工具獲得的特征,采用SVM模型進行觸發詞識別。4~8種模型基于詞向量采用神經網絡模型進行觸發詞識別。其中Li等[19]基于依存關系的詞向量使用并行多池化卷積神經網絡進行觸發詞識別,取得了當前最好的性能,F1值為80.27%,而本文基于深層語境詞表示的Bi-LSTM-CRF即Bi-LSTM-CRF+ BioBERT模型,比其高0.88%,加入CG后即Bi-LSTM-CRF+BioBERT+CG模型的F1值比其高1.38%,這說明了本文模型的有效性。與Li等模型相比,本文模型的優越性在于召回率的提高,而精確率略低于Li等模型。根據分析,由于生物醫學事件結構復雜,依存分析對句子中事件觸發詞識別的精確率具有較好的正向作用,Li等模型采用了詞語間的句法關系來訓練依存上下文信息,從而得到依存詞向量。

Table 4 Trigger recognition performances of different models表4 不同模型的觸發詞識別性能 %
4.2.2 事件抽取結果
在完成要素檢測后,得到了觸發詞與實體或觸發詞與觸發詞的關系類型,再經過后處理生成符合任務定義的完整事件,最終的事件抽取結果如表5所示。

Table 5 Event extraction performances of different models表5 不同模型的事件抽取性能 %
Pyysalo等[20]使用SVM進行事件抽取;Zhou等[12]使用一個基于隱藏主題的半監督學習框架進行事件抽取;Wang等[40]使用卷積神經網絡結合句法詞向量以及額外的語義特征包括主題特征、詞性特征等進行事件抽取;Li等[19]使用并行多池化卷積神經網絡結合基于依存關系的詞向量進行事件抽取。
從表5可知,本文提出的模型取得的整體事件抽取性能F1值為60.04%,比Pyysalo等[20]模型高4.81%,比Zhou等[12]模型高2.63%,比Wang等[40]模型高1.73%,比目前最好結果Li等[19]模型高0.39%,說明本文提出的模型對于生物醫學事件抽取是有效的。從召回率上來看,本文模型低于Zhou等[12]模型的,Zhou等提出一個半監督學習框架,基于句子結構和隱藏主題計算未標注數據和標注數據的語義距離,從而對未標注數據進行事件標注,然后將新標注的數據與原MLEE語料訓練集一起用于模型訓練,最終使得召回率有很大的提升。與Zhou等模型相比,本文模型加入一個與MLEE類似的語料,但是Zhou等模型新標注了5 143個句子,而本文加入的CG語料是1 803個句子,訓練數據小可能導致召回率偏低,另外后處理生成事件方式的不同也可能是本文模型召回率偏低原因之一。從精確率來看,本文模型低于Li等[19]模型的,一方面,由于串行方式進行事件抽取的錯誤傳播性,第1階段觸發詞識別是關鍵,本文模型觸發詞識別精確率低于Li等[19]模型的,觸發詞識別錯誤會造成第2階段要素識別的精確率降低,從而影響生成事件的精確率;另一方面,不同的后處理生成事件方式也可能導致本文精確率偏低。
從表6可以看出,本文模型在“Regulation”“Positive regulation”“Negative regulation”和“Planned process”4類事件類型上的抽取結果要好于Li等[19]模型的,而這4類事件是可嵌套的復雜事件,說明了本文提出的自注意力對于從不同方面捕獲更深層語義關系和特征的有效性。
本文采用基于不同詞表示的Bi-LSTM-CRF觸發詞識別模型和結合自注意力與Bi-LSTM的要素檢測模型,在生物醫學事件抽取上取得的結果和目前最好模型的結果相當,這說明了本文提出的模型對于生物醫學事件抽取的有效性。同時,本文還對比了結合字符級詞表示的預訓練詞向量和基于預訓練語言模型的深層語境詞表示對于觸發詞識別的影響,實驗表明,深層語境詞表示更有助于觸發詞識別。
然而,本文采用的事件抽取方式依然是流水線模式,先進行觸發詞識別再進行要素檢測,而此類方式存在錯誤傳播,即觸發詞識別錯誤會導致要素檢測也是錯誤的,同時也忽略了這2個任務之間的聯系,所以可以考慮聯合模型同時進行觸發詞和要素的識別。另外,MLEE數據集不均衡,有些類別的事件數量很少,這個問題也亟待解決。還可以考慮不同預訓練語言模型生成的深層語境詞表示以及預訓練詞向量與深層語境詞表示結合使用對于模型效果的影響。

Table 6 Comparison of detailed event extraction results with the current state-of-the-art models表6 與當前最好模型的詳細事件抽取結果對比 %