999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖卷積神經(jīng)網(wǎng)絡(luò)的隱式篇章關(guān)系識別

2021-10-12 04:39:08阮慧彬吳成豪周國棟
中文信息學報 2021年8期
關(guān)鍵詞:分類特征模型

阮慧彬,孫 雨,洪 宇,吳成豪,李 曉,周國棟

(蘇州大學 計算機科學與技術(shù)學院,江蘇 蘇州 215006)

0 引言

篇章關(guān)系識別旨在研究同一篇章內(nèi)兩個文本片段(短語、子句、句子或段落,簡稱論元)間的邏輯關(guān)系。作為自然語言處理(natural language processing,NLP)領(lǐng)域的一項基礎(chǔ)研究,篇章關(guān)系識別在上層自然語言處理應(yīng)用中具有重要價值[1],如情感分析[2-3]、機器閱讀理解[4]、文摘提取[5]和機器翻譯[6-8]等。篇章關(guān)系識別的任務(wù)框架如圖1所示,給定一個論元對(Arg1,Arg2),使用篇章關(guān)系分類模型來識別兩者間的篇章關(guān)系。

圖1 任務(wù)框架

目前,篇章關(guān)系識別研究領(lǐng)域最大的權(quán)威語料庫是賓州篇章樹庫[9](penn discourse treebank,PDTB),其根據(jù)不同粒度,將篇章關(guān)系定義為一個三層的語義關(guān)系類型體系。其中,最頂層的四類語義關(guān)系是:比較(comparison)關(guān)系、偶然(contingency)關(guān)系、擴展 (expansion)關(guān)系以及時序(temporal)關(guān)系。同時,根據(jù)兩個論元表述間是否具有連接詞(也稱為線索詞,如“because(因為)”等)作為銜接手段,PDTB將篇章關(guān)系分為兩類:顯式篇章關(guān)系(explicit discourse relation)和隱式篇章關(guān)系(implicit discourse relation)[1]。其中,顯式篇章關(guān)系是可直接通過顯式連接詞推理得到的篇章關(guān)系類型。如例1所示,此顯式偶然關(guān)系論元對包含顯式連接詞“so(所以)”,這一線索指明Arg2是由Arg1導致的結(jié)果,因此,我們可直接推理出例1中的論元對具有偶然關(guān)系。

例1 [Arg1]: and will take measures

(譯文:并將采取措施)

[Arg2]:sothis kind of thing doesn’t happen in the future

(譯文:所以這類事情不會再發(fā)生)

[篇章關(guān)系]: Contingency.Cause.Result

相對地,隱式篇章關(guān)系論元對中缺少顯式連接詞,所以其更依賴于詞法、句法、語義以及上下文等特征,如下述例2中的“hurricane (颶風)”是需要落實“precautionary mechanisms (預(yù)防機制)”的原因,因此,可推導出此論元對包含的篇章關(guān)系為偶然關(guān)系。

例2 [Arg1]: With a hurricane you know it’s coming

(譯文:你知道颶風將要來了)

[Arg2]: You have time to put precautionary mechanisms in place

(譯文:你有時間把預(yù)防措施落實到位)

[篇章關(guān)系]: Contingency.Cause.Result

顯式篇章關(guān)系研究目前已取得較高分類性能,Pitler等[10]采用顯式連接詞與篇章關(guān)系的映射即可達到93.09%的準確率。然而,隱式篇章關(guān)系識別性能相對較低,現(xiàn)有最優(yōu)方法在四大類關(guān)系上的F1值僅達53%[11]。因此,本文針對隱式篇章關(guān)系識別任務(wù)展開研究。

前人將注意力機制用于論元表示的計算[12-16],來評估論元間詞義信息的關(guān)聯(lián)性,借以捕獲重要的詞義特征來輔助隱式篇章關(guān)系識別。然而,相關(guān)研究僅關(guān)注論元自身或論元間的詞義特征關(guān)聯(lián)性,因此,這種單一特征無法全面地表征論元語義信息。若僅關(guān)注論元交互信息,如例3中的詞對信息“good-wrong (好的-錯誤的)”和“good-ruined (好的-毀壞的)”,其很容易導致此論元對被識別為對比關(guān)系[12]。但是如果論元捕獲了自身信息,關(guān)注到Arg1中的詞“not (不)”和“good (好的)”,再結(jié)合論元間的交互信息,關(guān)注到Arg2中的詞“ruined (毀壞的)”,那么基于詞“not (不)”和“ruined (毀壞的)”的雙重否定[17]可推理出此論元對包含的篇章關(guān)系為偶然關(guān)系。

例3 [Arg1]: Psyllium’s not a good crop

(譯文:車前草沒有好收成)

[Arg2]: You get a rain at the wrong time and the crop is ruined

(譯文:錯誤時間下的雨毀壞了莊稼)

[篇章關(guān)系]: Contingency.Cause.Reason

為了捕獲論元自身信息和論元間的交互信息,借以輔助隱式篇章關(guān)系識別,本文提出了一種基于自注意力和交互式注意力機制的圖卷積神經(jīng)網(wǎng)絡(luò)(self-attention and inter-attention based graph convolutional network, SIG),用于構(gòu)建隱式篇章關(guān)系分類模型。此模型基于自注意力機制(self-attention)及交互式注意力機制(inter-attention)來構(gòu)建鄰接矩陣,因此,這一模型可利用論元自身的語義特征,同時還能夠捕獲論元之間的交互信息,以編碼出更好的論元表征,來提升隱式篇章關(guān)系識別性能。

本文采用PDTB 2.0[9]數(shù)據(jù)集進行實驗和測試,結(jié)果證明本文所提模型SIG在隱式篇章關(guān)系分類上的表現(xiàn)優(yōu)于基準模型,且其在多個關(guān)系上優(yōu)于目前的隱式篇章關(guān)系識別模型。

1 相關(guān)工作

現(xiàn)有的隱式篇章關(guān)系識別研究主要分為兩個方向:構(gòu)建復(fù)雜的分類模型和挖掘大量的訓練數(shù)據(jù)。其中,模型構(gòu)建主要包括基于特征工程的機器學習模型以及基于論元表示的神經(jīng)網(wǎng)絡(luò)模型。

前人采用多樣化的語言學特征來構(gòu)建統(tǒng)計學習模型。在PDTB 數(shù)據(jù)集上,Pitler等[18]第一次嘗試使用多種語言學特征對頂層四類隱式篇章關(guān)系進行識別,其實驗性能超越隨機分類方法;Lin等[19]基于上下文特征、詞對特征、句法結(jié)構(gòu)特征以及依存結(jié)構(gòu)特征設(shè)計篇章關(guān)系識別模型;Rutherford和Xue[20]提取布朗聚類特征來緩解詞對稀疏性問題。Braud和Denis[21]基于淺層詞匯特征,使用現(xiàn)有的無監(jiān)督詞向量,訓練最大熵模型來進行隱式篇章關(guān)系分類;Lei等[17]挖掘每類關(guān)系的語義特征,結(jié)合話題連續(xù)性和論元來源這兩種銜接手段,訓練樸素貝葉斯模型,在四路分類上達到47.15%的F1值,其性能超過大部分現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型。

現(xiàn)今的隱式篇章關(guān)系識別研究大多構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型來提升分類性能。Ji和Eisenstein[22]基于論元以及實體片段的向量表示,使用兩個遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network, RNN)進行隱式篇章關(guān)系識別。Zhang等[23]提出了僅包含一個隱藏層的淺層卷積神經(jīng)網(wǎng)絡(luò),避免了過擬合問題;Chen等[12]基于雙向長短時記憶網(wǎng)絡(luò)(bidirectional long short-term memory network, Bi-LSTM)獲取詞向量表征,使用門控相關(guān)網(wǎng)絡(luò)(gated relevance network)捕捉詞對間的語義交互信息。Qin等[24]在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,增加了門控神經(jīng)網(wǎng)絡(luò)(gated neural network,GNN)來捕捉論元之間的交互信息(如詞對);Lan等[16]采用基于多任務(wù)注意力機制的神經(jīng)網(wǎng)絡(luò)模型,使用未標注外部語料庫BLLIP生成偽隱式篇章關(guān)系語料,來識別隱式篇章關(guān)系,將其作為輔助任務(wù)以提升PDTB隱式篇章關(guān)系識別性能。Bai和Zhao[13]構(gòu)造了復(fù)雜的論元表征模型,融合不同粒度詞向量、卷積、遞歸、殘差和注意力機制抽取論元特征;Nguyen等[11]采用了Bai和Zhao[13]的模型,此外,基于知識遷移對關(guān)系表示及連接詞表示進行映射,使其處于同一向量空間,從而輔助隱式篇章關(guān)系識別。

針對隱式篇章關(guān)系語料不足的問題,前人使用不同手段來擴充PDTB的隱式語料。朱等[25]通過論元向量,從其他數(shù)據(jù)資源里挖掘在語義和關(guān)系上與原始語料一致的實例;Wu等[26]發(fā)現(xiàn)雙語語料中存在顯隱式不匹配的情況,即英文語料中沒有連接詞,但其對應(yīng)的中文語料中卻有顯式連接詞,基于此,Wu等[26]從FBIS和HongKong Law語料庫中提取了偽隱式篇章關(guān)系語料;Xu等[27]用顯式篇章關(guān)系語料構(gòu)造偽隱式樣例,基于主動學習方法挑選含高信息量的樣例,來擴充隱式篇章關(guān)系語料;Ruan等[28]采用問答語料庫中的WHY式問答對,基于“問句陳述句轉(zhuǎn)換”生成偽隱式論元對,以擴充隱式因果關(guān)系語料。

2 方法

本文提出的基于自注意力和交互式注意力的圖卷積神經(jīng)網(wǎng)絡(luò)(self-attention and inter-attention based graph convolutional network, SIG)框架如圖2所示。

圖2 SIG模型框架圖

首先,通過微調(diào)的BERT語言模型[29]獲取兩個論元的論元表示;其次,通過拼接構(gòu)造特征矩陣和鄰接矩陣,從而得到全連接的“詞-詞”圖,作為圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)的初始特征,通過雙層GCN的隱藏層對詞特征進行卷積和非線性變換操作,以得到最終的詞表示;最后,將詞表示送入全連接層進行降維,并使用softmax函數(shù)對其進行歸一化,得到最終分類結(jié)果。

2.1 向量表示層

其中,CLS為專用分類符號,可使用其經(jīng)過BERT編碼的向量表示,作為整個輸入序列的向量表示;SEP為專用符號,用于分隔輸入序列中的兩個論元。

2.2 圖卷積神經(jīng)網(wǎng)絡(luò)

本節(jié)簡單介紹圖卷積神經(jīng)網(wǎng)絡(luò),這一模型架構(gòu)由Kipf和Welling[30]設(shè)計并在2016年提出,可對圖結(jié)構(gòu)數(shù)據(jù)直接進行計算。具體地,給定一個圖G=(V,E),V是包含N個節(jié)點的頂點集,E是包括自循環(huán)邊(即每個頂點都與自身相連)的邊集。Kipf和Welling[30]使用X∈N×dk作為特征矩陣,其中,每個節(jié)點的特征維度為dk,矩陣中第i行向量xvi∈dk表示第i個節(jié)點vi的特征。其鄰接矩陣A∈N×N中的元素aij表示圖中第i個節(jié)點與第j個節(jié)點間是否存在連接。一般情況下,若兩個節(jié)點之間存在連接,則aij值為1,否則為0[31]。在實際應(yīng)用中,多層GCN表現(xiàn)往往優(yōu)于單層,由于其可融合更廣范圍的節(jié)點信息。具體地,第l層對第l-1層的輸出進行編碼,計算如式(4)所示[31]。

其中,Wl∈dk×dk是可學習的參數(shù)矩陣,bl∈dk是偏置項,f為激活函數(shù),其可對輸出進行非線性變換。l表示GCN的層數(shù),第0層的GCN輸出為節(jié)點特征矩陣X,即L0=X。

圖卷積神經(jīng)網(wǎng)絡(luò)通過共享參數(shù)Wl對特征矩陣進行卷積操作。由于共享局部參數(shù),GCN在一定程度上能夠防止過擬合。在對文本進行處理時,構(gòu)建以詞特征表示為節(jié)點的GCN,則可通過節(jié)點A感受野范圍內(nèi)的鄰居節(jié)點來對節(jié)點A的語義特征向量進行更新,以得到包含鄰居節(jié)點語義信息的特征表示。

2.3 基于自注意力和交互式注意力的圖卷積層

本文使用多層GCN對論元表示矩陣進行更新。具體地,拼接兩個編碼后的論元表示作為節(jié)點特征矩陣,同時,拼接論元的注意力分數(shù)矩陣來構(gòu)造鄰接矩陣。

?節(jié)點特征矩陣

給定兩個編碼后的論元表示H1和H2,本文將其拼接作為節(jié)點特征矩陣X∈2L×dk,即X=[H1,H2]。在此基礎(chǔ)上,可對兩個論元表示同時進行圖卷積操作,借以得到富含論元自身信息和交互信息的特征矩陣。

?鄰接矩陣

考慮到篇章關(guān)系依賴于深層次的文本理解和論元間的信息交互,本文基于論元的自注意力分數(shù)矩陣和交互式注意力分數(shù)矩陣,來構(gòu)造圖卷積神經(jīng)網(wǎng)絡(luò)的鄰接矩陣,以得到一個以論元表示為節(jié)點的全連接圖。下面分別介紹本文所用的自注意力機制和交互式注意力機制的計算方法。

本文對論元表示H1和H2分別使用自注意力機制[32],來衡量其自身每個單詞表示的重要程度,以得到論元的自注意力分數(shù)矩陣S∈L×L。以Arg1為例,具體計算如式(5)~式(7)所示。

其中,WQ1∈dk×dk和WK1∈dk×dk是可學習的參數(shù)矩陣,以為分母防止內(nèi)積過大。同理,可計算得到Arg2的自注意力權(quán)重分布矩陣S2。

同時,在得到兩個論元的向量表示H1和H2后,本文對其使用交互式注意力機制[12],來計算得到論元對的交互注意力矩陣I∈L×L。具體地,對I進行歸一化可得到Arg1對Arg2中每個詞的交互式注意力分數(shù)I1,同理,對IT進行歸一化可得到Arg2對Arg1中每個詞的交互式注意力分數(shù)I2,具體計算如式(8)~式(10)所示。

其中,可學習的參數(shù)矩陣WI∈dk×dk是Arg1和Arg2信息交互的媒介。

通過上述計算可得到自注意力分數(shù)矩陣S1和S2以及交互式注意力分數(shù)矩陣I1和I2。基于此,本文拼接S1、S2、I1和I2,以得到融合論元自身信息和交互信息的鄰接矩陣A∈2L×2L,具體拼接方式如式(11)所示。

?圖卷積操作

基于以上公式得到圖卷積神經(jīng)網(wǎng)絡(luò)的節(jié)點特征矩陣X和鄰接矩陣A,我們參照公式(4)來計算節(jié)點特征矩陣X的圖卷積特征[31],此處采用的GCN層數(shù)為2,具體計算如式(12)所示。

2.4 全連接層

通過將F輸入全連接層,計算Arg1和Arg2間具有關(guān)系r的概率,具體計算如式(14)所示。

其中,W∈n×dk,b∈n是可學習的參數(shù),W可對最終特征表示F進行降維。是預(yù)測此論元對是否具有關(guān)系r的概率。

2.5 訓練

本文為PDTB語料四大類關(guān)系中的每一類分別構(gòu)造一個二分類器。在訓練過程中,本文采用交叉熵損失函數(shù)作為目標函數(shù),使用Adam[34]優(yōu)化算法更新所有模型參數(shù)。對于給定論元對(Arg1, Arg2)及其關(guān)系標簽yi,其損失函數(shù)計算如式(15)所示。

3 實驗

3.1 實驗數(shù)據(jù)

本文在賓州篇章樹庫[9](penn discourse treebank,PDTB)語料上用SIG模型進行隱式篇章關(guān)系識別實驗。PDTB由Prasad等在2008年提出,其來源于《華爾街日報》(Wall Street Journal,WSJ)的2 304篇文章,共標注了40 600個篇章關(guān)系樣本,其中,隱式篇章關(guān)系實例占16 224個[1]。為了與前人工作保持一致,本文以section 02-20為訓練集,section 00-01為開發(fā)集,section 21-22為測試集。頂層四類語義關(guān)系Comparison(COM.)、Contingency(CON.)、Expansion(EXP.)和Temporal(TEM.)的數(shù)據(jù)分布如表1所示[1]。

表1 PDTB四大類隱式篇章關(guān)系數(shù)據(jù)分布

由表1可知,在PDTB數(shù)據(jù)集中,除EXP.之外的其他三類篇章關(guān)系數(shù)據(jù)量都較少[18],類間不平衡問題使得研究者通常為各個關(guān)系類型單獨訓練二分類器[11-17,23-24]以進行評估。所以,本文參照前人工作,基于不同篇章關(guān)系的訓練集分別訓練二分類模型,一共得到4個二分類器,分別用于判斷樣例是否包含該篇章關(guān)系,并通過F1值對其性能進行評估。本文跟隨前人工作[11-17,23,24,36]未對同一個樣例的四次二分類結(jié)果進行整合,在進行二分類時僅討論單類篇章關(guān)系的是或否問題。此外,由于PDTB數(shù)據(jù)集存在正負例樣本不均衡的問題,本文對負例進行隨機下采樣[24],來構(gòu)造正負例平衡的訓練數(shù)據(jù)集。同時,為了更好地與前人工作進行比較,本文在PDTB數(shù)據(jù)集上進行了四路分類實驗,基于訓練集訓練一個四分類器,并采用Macro-F1值和準確率(Accuracy)對其進行評估。

3.2 實驗設(shè)置

為了證明使用GCN融合自注意力和交互式注意力機制有助于隱式篇章關(guān)系識別,本文設(shè)置了以下六個對比系統(tǒng)。

?BERT(Baseline):通過微調(diào)BERT模型得到Arg1和Arg2的隱層輸出后,分別對其進行裁剪,以得到兩個論元表征。然后通過逐詞求和獲取句級論元表征,通過拼接這兩個句級表征得到最終特征,并輸入至全連接層進行分類。

?Self:使用BERT獲取Arg1及Arg2的論元表征后,分別計算其自注意力分數(shù),并將自注意力權(quán)重作用到論元表征上;然后分別對更新后的論元表征進行逐詞求和,以獲取句級表征;最后拼接句級表征作為全連接層的輸入。

?Inter:得到BERT輸出的論元表征后,對其使用交互式注意力機制,來獲取交互式注意力權(quán)重分布矩陣,并作用于論元表征;然后再通過對新論元表征逐詞求和及拼接得到句對級論元表征,輸入全連接層進行隱式篇章關(guān)系分類。

?Concatenate:通過拼接上述Self和Inter系統(tǒng)分別生成的句級表征得到句對級論元表征,輸入到全連接層進行隱式篇章關(guān)系分類。

?Transformer:拼接通過BERT編碼得到的Arg1和Arg2的論元表征,作為具有8頭注意力機制的雙層Transformer[32]的輸入,再對Transformer編碼后的詞特征進行逐詞求和,借以得到論元對的句級表征,將其輸入到全連接層進行隱式篇章關(guān)系分類。

?SIG:使用BERT得到Arg1和Arg2的論元表征后,分別計算兩者的自注意力權(quán)重分布矩陣和交互式注意力權(quán)重分布矩陣;然后拼接兩個論元表征得到特征矩陣,再拼接注意力權(quán)重分布矩陣得到鄰接矩陣,來構(gòu)建雙層GCN;對最后一層GCN的輸出進行逐詞求和,以得到兩個論元的句級表征,并將其輸入全連接層進行隱式篇章關(guān)系分類。

3.3 參數(shù)設(shè)置

本文使用微調(diào)的BERT[29]隱層輸出作為論元表示,其中,我們設(shè)置隱層向量維度dk為768,論元最大長度L為80。基于論元表示構(gòu)造的特征矩陣,本文拼接論元自注意力和交互式注意力權(quán)重分布矩陣得到鄰接矩陣,構(gòu)造2層(l=2)GCN神經(jīng)網(wǎng)絡(luò),并使用tanh函數(shù)作為模型的激活函數(shù)。構(gòu)建Transformer模型時,我們采用了Vaswani等[32]工作中Transformer的編碼器作為本文的一層Transformer。本文采用了雙層Transformer對編碼后論元表示進行變換,且設(shè)置其前饋神經(jīng)網(wǎng)絡(luò)的隱層維度為768,并采用GeLU[33]作為激活函數(shù)。在訓練過程中,使用交叉熵作為損失函數(shù),采用基于Adam[34]的批梯度下降法優(yōu)化模型參數(shù),其中,批大小為32,學習率為5e-5。本文在最后一層GCN后進行了dropout計算,其隨機丟棄的概率為0.1。

3.4 實驗結(jié)果

本文采用六種不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,來分別對PDTB四大類隱式篇章關(guān)系進行分類,具體分類性能如表2所示。其中,本文所提模型SIG在多個關(guān)系上的表現(xiàn)優(yōu)于其他五個對比模型。其原因主要在于SIG融合了兩種注意力機制的優(yōu)點,在關(guān)注兩個論元自身信息的同時,還能夠關(guān)注到兩者間的交互信息,并通過這樣的信息來更新論元表示。因此,SIG能夠生成更符合隱式篇章關(guān)系分類任務(wù)特性的論元表示。

表2 不同模型在四大類篇章關(guān)系上的分類結(jié)果 (單位: %)

然而,模型Transformer采用了8頭注意力機制來捕捉多方面的論元自身信息和論元間的交互信息。但是, Transformer在模擬論元之間的信息交互時,僅采用論元點積矩陣作為注意力分數(shù)矩陣,而SIG可使用的注意力機制則較為靈活,本文采用了雙線性模型來模擬兩個論元之間的線性交互。此外,Transformer使用8頭注意力機制,而SIG僅采用單頭自注意力機制;同時,Transformer的注意力分數(shù)矩陣在不同層數(shù)值不一致,而SIG中不同層的GCN共享同一鄰接矩陣,其元素值的大小表示不同詞節(jié)點之間連接的強弱;且每層Transformer在使用注意力機制更新論元特征后,還需使用包含兩個全連接層的前饋神經(jīng)網(wǎng)絡(luò)對其進行變換,并采用了殘差機制。相較之下,SIG模型結(jié)構(gòu)更為簡單,在一定程度上防止了過擬合。因此,Transformer在數(shù)據(jù)量較多的Expansion關(guān)系上表現(xiàn)優(yōu)于SIG,而在其他關(guān)系上表現(xiàn)稍弱。

此外,模型Concatenate在幾乎所有篇章關(guān)系上,性能劣于Self和Inter,我們認為主要由以下兩方面原因造成:其一,僅拼接的方式過于簡單,難以模擬兩個論元之間的復(fù)雜關(guān)系和兩種注意力機制間的平衡;其二,此模型存在一定的過擬合問題。相對地,本文所提模型SIG應(yīng)用GCN來權(quán)衡兩種注意力機制。其中,GCN模型固有的權(quán)重共享特性在一定程度上能夠防止過擬合情況的發(fā)生,因此SIG幾乎能夠在四類篇章關(guān)系上分類性能超越其他模型。

為了證明本文所提模型SIG的有效性,我們與現(xiàn)有先進模型進行了對比(見表3)。其中,Bai和Zhao[13]使用字符級(Character)、子詞級(Subword)和基于ELMo[35]的詞級(Word)表示構(gòu)建多粒度論元表示,結(jié)合卷積操作、殘差機制、交互式注意力機制和多任務(wù)學習思想構(gòu)建復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)。在Bai和Zhao[13]的基礎(chǔ)上,Nguyen等[11]基于知識遷移思想,映射關(guān)系向量與連接詞向量到同一向量空間。此外,Lan等[16]借助BLLIP等外部數(shù)據(jù)訓練多任務(wù)模型。在同一篇章內(nèi),從上而下的篇章關(guān)系間存在一定關(guān)系,Dai和Huang[36]深入挖掘這一特點,利用集成學習的方法構(gòu)造隱式篇章關(guān)系分類器。

表3 SIG與現(xiàn)有先進模型對比結(jié)果 (單位: %)

相較于前人工作,本文所提模型SIG較為簡單,僅使用了標準PDTB數(shù)據(jù)集進行訓練,而其能在多個關(guān)系上分類性能超越目前最優(yōu)方法。其原因主要在于:①BERT預(yù)訓練語言模型中已含有大量先驗知識,其對需要常識知識的隱式篇章關(guān)系識別具有一定幫助; ②前人工作通常使用交互式注意力機制抽取論元間的交互信息,但忽略了論元自身信息的重要性,而SIG融合了自身信息以及交互信息。

表4展示了本文所用的PDTB四大類篇章關(guān)系上的詞匯分布。其中,每類關(guān)系中都含有大量未登錄詞(Out-Of-Vocabulary,OOV)。研究者通常將這些未登錄詞用特殊符號“UNK”表示,并統(tǒng)一初始化得到一致的詞向量,這雖能打破未登錄詞詞向量查找的困境,但是其削減了一定的信息量,且對隱式篇章關(guān)系識別帶來一定影響。

表4 四大類篇章關(guān)系上的詞匯分布

如例4中,未登錄詞“steamed (推進)”在訓練集中未出現(xiàn)過,在沒有詞“steamed (推進)”的情況下,僅靠“paused (暫停)”和“reaching its high (到達高點)”難以推導出因果關(guān)系。然而,BERT能夠使用詞的上下文信息為未登錄詞進行詞向量初始化,且“steamed forward (向前推進)”是“reaching its high (到達高點)”的原因,因此,可推導出此論元對包含的篇章關(guān)系為偶然關(guān)系。

例4 [Arg1]: Instead, the rally only paused for about 25 minutes and thensteamedforward as institutions resumed buying

(譯文:反而,股票價格的漲勢僅停了25分鐘左右,然后股價的漲勢便隨著機構(gòu)恢復(fù)購買股票而加速前進)

[Arg2]: The market closed minutes after reaching its high for the day of

(譯文:股市在股票交易量達到當日高點的幾分鐘后就關(guān)閉了)

[篇章關(guān)系]: Contingency.Cause.Result

為了證明模型SIG的有效性,本文使用模型Self、Inter和SIG對例3進行注意力權(quán)重分布計算,并對注意力權(quán)重數(shù)值逐詞求平均來繪制灰度色塊,分別獲取三個模型通過例3計算得到的注意力分布灰度圖(圖3)。由圖3可知,模型Self和SIG都關(guān)注到了Arg1中的單詞“not (不)”和“good (好的)”。然而,只有模型SIG對Arg2中的單詞“ruined (毀壞的)”賦予了較高權(quán)重。因此,模型SIG能夠通過單詞“not (不)”和“ruined (毀壞的)”的雙重否定[17]來推理得到這兩個論元之間包含的隱式篇章關(guān)系為偶然關(guān)系。

圖3 例3由不同系統(tǒng)得到的注意力分布灰度圖

本文對使用不同層數(shù)GCN構(gòu)造的模型進行了實驗,其性能如表5所示。

表5 基于不同層數(shù)GCN的模型分類性能 (單位: %)

其中,在GCN層數(shù)為2時(即GCN2),二分類器在F1值上達到最大值,而在GCN層數(shù)為4時,四路分類的Macro-F1值和準確率分別是53.86%和59.48%。這主要是由于二分類模型訓練集樣本量低于四分類模型,因此,當GCN層數(shù)較多時,二分類器易于出現(xiàn)過擬合現(xiàn)象。

4 結(jié)論

本文針對隱式篇章關(guān)系識別展開研究,提出了基于自注意力和交互式注意力機制的圖卷積神經(jīng)網(wǎng)絡(luò)模型,用以對隱式篇章關(guān)系進行識別。實驗結(jié)果表明,本文所提模型SIG表現(xiàn)優(yōu)于基準模型BERT,且其在多類關(guān)系上性能優(yōu)于現(xiàn)有先進方法。

從實驗結(jié)果可知,隱式篇章關(guān)系識別任務(wù)仍具有極大挑戰(zhàn)性,除EXP.外的其他三大類關(guān)系的分類性能皆較低,遠達不到實際應(yīng)用需求。下一步工作中,我們將從兩個方面展開研究:①針對數(shù)據(jù)不平衡問題,從外部挖掘高質(zhì)量的隱式篇章關(guān)系語料; ②構(gòu)建更復(fù)雜且符合隱式篇章關(guān)系識別任務(wù)特性的分類模型。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
主站蜘蛛池模板: 亚洲一区网站| 欧美日韩国产系列在线观看| 亚洲国产精品VA在线看黑人| 久久婷婷六月| 午夜免费视频网站| 日韩成人免费网站| 免费一级全黄少妇性色生活片| 99视频在线免费| 国产日韩欧美在线视频免费观看| 99精品一区二区免费视频| 久久国产V一级毛多内射| 欧美激情福利| 久久久精品国产SM调教网站| 国产成人精品日本亚洲| 亚洲中文无码av永久伊人| 人妻免费无码不卡视频| 农村乱人伦一区二区| 国产91精品最新在线播放| 色噜噜狠狠狠综合曰曰曰| 熟女视频91| 亚洲国产日韩在线观看| 全免费a级毛片免费看不卡| 中文字幕在线一区二区在线| 福利在线一区| 久久久久国产一区二区| 全部无卡免费的毛片在线看| 国产精品3p视频| 色噜噜狠狠色综合网图区| 狠狠色香婷婷久久亚洲精品| 91色国产在线| 114级毛片免费观看| 性做久久久久久久免费看| 亚洲AV无码精品无码久久蜜桃| 国产精品99一区不卡| 丁香五月激情图片| 久久久久久久久久国产精品| 人与鲁专区| 大乳丰满人妻中文字幕日本| 久久国产高潮流白浆免费观看| 亚洲无线一二三四区男男| 国产白浆视频| 国产99欧美精品久久精品久久| 午夜性刺激在线观看免费| 国产成人精品男人的天堂下载 | 少妇人妻无码首页| 日韩精品欧美国产在线| a级毛片免费看| 免费无码AV片在线观看国产| 国产对白刺激真实精品91| 伊人成色综合网| 国产成人精品一区二区免费看京| 在线国产你懂的| a毛片免费观看| 激情综合网激情综合| www.99在线观看| 四虎成人免费毛片| 亚洲成aⅴ人在线观看| 狠狠久久综合伊人不卡| 91成人试看福利体验区| 无码一区二区三区视频在线播放| 99精品热视频这里只有精品7| 伊人福利视频| 亚洲一区二区三区国产精华液| 538国产视频| 成人夜夜嗨| 国产sm重味一区二区三区| 亚洲精品无码AV电影在线播放| 成人亚洲视频| 亚洲一区国色天香| 欧美视频免费一区二区三区| 青草视频在线观看国产| 国产成人高清精品免费5388| 亚洲成人在线网| 亚洲欧州色色免费AV| 丁香五月激情图片| 一本色道久久88| 日韩精品无码免费一区二区三区| 国产视频入口| 五月激情婷婷综合| 久久亚洲美女精品国产精品| 永久毛片在线播| 夜夜高潮夜夜爽国产伦精品|