999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于堆疊式注意力機制的隱式篇章關系識別

2020-09-14 06:51:28阮慧彬徐揚孫雨洪宇周國棟
山西大學學報(自然科學版) 2020年3期
關鍵詞:分類機制特征

阮慧彬,徐揚,孫雨,洪宇,周國棟

(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)

0 引言

篇章關系識別是自然語言處理(Natural Language Processing,NLP)中的一項基礎任務,對其他自然語言處理任務具有廣泛應用價值,如情感分析[1]、事件抽取[2-3]、問答[4]、自動文摘[5]及機器翻譯[6-8]等。篇章關系識別旨在判定兩個連續的文本片段(即“論元”)Arg1和Arg2之間的語義關系。具體地,給定兩個論元Arg1和Arg2,通過分類器判斷兩者間的篇章關系,其任務框架如圖1所示。

圖1 篇章關系識別任務框架Fig.1 Task framework of discourse relation recognition

作為篇章關系識別研究任務的重要語料資源,賓州篇章樹庫[9](Penn Discourse Treebank,PDTB)將篇章關系分為四大類:對比關系(Compa-rison)、偶然性關系(Contingency)、擴展關系(Expansion)、時序關系(Temporal)。此外,依據論元對之間是否存在顯式連接詞,PDTB將篇章關系分為兩類:顯式篇章關系(Explicit Discourse Relation)和隱式篇章關系(Implicit Discourse Relation)。

例1 [Arg1] The computer system was operating

(譯文:電腦系統正在運行)

[Arg2] [Explicit=so] orders could be taken.

(譯文:[所以]可以接受訂單)

[篇章關系] Contingency.Cause.Result。

例2 [Arg1] I’m not so young anymore.

(譯文:我已經不再年輕)

[Arg2] [Implicit=So] I won’t be throwing 90 mph.

(譯文:我的拋出速度不會超過90英里/小時)

[篇章關系] Contingency.Cause.Result。

顯式篇章關系指直接由連接詞觸發的篇章關系類型,其論元間的篇章關系可根據連接詞來判定。如例1中的Arg2是Arg1的結果,其因果關系可通過連接詞“so”推斷得到。而如例2所示,隱式篇章關系缺乏連接詞等直觀推理線索,導致其難以被直接識別。因此,隱式篇章關系識別更依賴于深層的語義、句法以及上下文特征。本文主要研究隱式篇章關系識別。

傳統的隱式篇章關系識別方法主要依賴于特征工程,如Pitler[10]等抽取論元對的詞對、動詞類型、動詞短語長度及情感詞的極性等作為分類特征,在PDTB的四大類關系上取得優于隨機分類的性能。Lin[11]等在Pitler[10]等的基礎上提出使用句法結構特征和依存特征構建分類器。Rutherford和Xue[12]使用布朗聚類特征替代傳統的詞對特征,一定程度上緩解了特征表示稀疏問題,同時,他們還使用指代消解獲取實體級特征,以更好地對論元進行表示。Li[13]等進一步優化句法特征的表示方法,以解決特征表示稀疏問題。

近年來,由于分布式詞表示[14]一定程度上緩解了表示稀疏問題,且神經網絡模型在自然語言處理領域獲得一定成果。越來越多的研究者們構建精巧的神經網絡模型來進行隱式篇章關系識別。如 Zhang等[15]使用淺層卷積神經網絡(Convolutional Neural Network,CNN)對隱式篇章關系進行分類,其在四種關系上的分類性能均有所提升。Qin等[16]通過同一個CNN提取兩個論元的特征,在高速公路模型(Highway Network)的基礎上引入新的門控機制,來約束論元特征的交互。Chen等[17]采用門控機制來表征論元詞對之間的相關性。Guo等[18]對論元表示進行交互式注意力計算,以得到加權后的論元表示,作為張量神經網絡(Neural Tensor Network,簡稱為NTN)的輸入,并設計了包含L1和L2正則項的目標函數。Bai和Zhao[19]使用不同粒度的詞向量對論元進行表示,并使用卷積和遞歸編碼塊捕獲單個論元向量的信息,通過殘差及注意力機制獲得最終表示。Nguyen等[20]在Bai和Zhao[19]的基礎上,將關系表示和連接詞表示映射到同一空間中來實現知識遷移,從而提升隱式篇章關系識別性能。此外,為了緩解隱式篇章關系語料不足的問題,前人引入外部知識來輔助隱式篇章關系識別,如Liu等[21]融合了CNN和多任務學習(Multi-Task)的思想,以隱式篇章關系分類為主任務,顯式篇章關系分類、連接詞分類等任務為輔助任務,并引入了RST-DT、New York Times Corpus等外部語料擴充訓練語料,從而提升分類器性能。Lan等[22]提出基于注意力機制的多任務學習方法進行隱式篇章關系識別,并引入外部語料BLLIP訓練詞向量。Wu等[23]利用中英文平行語料中顯隱式不匹配的特性(即中文顯式語料對應的英文語料中不存在連接詞),從中挖掘隱式英文篇章關系語料用于擴充PDTB訓練集。

在隱式篇章關系識別任務上,前人將基于注意力機制(Attention Mechanism)的神經網絡模型作為捕捉論元關鍵信息的核心方法之一[17-22]。注意力機制能夠捕捉詞義信息間的關聯性,借以對詞義特征的重要性進行判定,如篇章領域最具代表性的上下文信息等特征。然而,相關研究僅僅關注論元之間交互特性對論元表示的約束,而忽略了論元自身的關鍵語義特征。針對以上問題,本文提出了一種基于堆疊式注意力機制(Stacked Attention)的神經網絡模型,并將其用于隱式篇章關系識別。這一方法融合了自注意力機制(Self-Attention)和交互式注意力機制(Interactive Attention),不僅能夠挖掘論元本身的有效特征,還融合了論元之間的交互信息。

本文在PDTB 標準數據集上對上述方法進行測試,實驗結果表明融合兩種注意力機制的方法在隱式篇章關系分類上表現優于基準模型,且其在擴展關系(Expansion)和時序關系(Temporal)上優于目前的隱式篇章關系識別模型。

1 基于堆疊式注意力的隱式篇章關系分類

1.1 總體結構

本文提出的堆疊式注意力機制模型主要分為四個部分:首先,通過雙向長短時記憶[24](Bi-direc-tional Long Short-Term Memory,Bi-LSTM)分別編碼Arg1和Arg2得到論元表示;其次,在論元表示上進行自注意力權重計算,借以得到自注意力分布式特征;然后,將其用于交互式注意力權重的計算,以得到堆疊式注意力表示;最后,拼接兩個論元的堆疊式注意力表示,并將其輸入全連接層進行非線性變換,然后送入softmax層得到關系分類結果。

圖2展示了模型整體框架,其中,對于論元中的每個單詞,我們先通過預訓練好的詞向量表將其映射為向量xw∈de,以初始化每個單詞的分布式表示,并對其進行拼接得到論元Arg1和Arg2的向量表示:

(1)

(2)

其中,L1和L2分別為Arg1和Arg2的長度。

在此基礎上,本文通過執行以下學習過程實現論元關系的分類。

圖2 基于堆疊式注意力機制的模型框架圖Fig.2 Framework of the stack-attention based model

藏狀態表示H1和H2;

2) 自注意力層將論元的隱藏狀態表示H1和H2作為輸入,分別通過矩陣運算得到每個單詞的自注意力權重分布,并以此獲得論元的自注意力表示R-SelfArg1和R-SelfArg2。

4) 我們拼接R-StackArg1和R-StackArg2,作為全連接層(Fully Connected Layer)的輸入,并將最終的向量表示輸入softmax層進行篇章關系分類。

1.2 Bi-LSTM層

在輸入序列長度較大時,傳統的循環神經網絡Recurrent Neural Network,RNN)存在遠距離信息丟失和梯度爆炸等問題。針對RNN的不足,Hochreiter和Schmidhuber[24]提出長短時記憶神經網絡,其采用輸入門、遺忘門和輸出門來控制網絡結構中細胞狀態的記憶程度,計算公式如下:

(3)

(4)

ht=ot⊙tanh(ct),

(5)

其中,it,ot及ft分別為輸入門、輸出門及遺忘門,ct為細胞狀態,ht為當前時刻的隱藏狀態,w∈4dh×(dh+de)為權重矩陣,b∈4dh為偏置,σ為sigmoid激活函數。

(6)

(7)

(8)

(9)

(10)

1.3 自注意力機制

(11)

α1=softmax(μ1),

(12)

R-SelfArg1=α1H1。

(13)

同理,根據式(11)(12)和(13),我們可計算得到Arg2的自注意力表示R-SelfArg2。

1.4 交互式注意力機制

在Ma等[26]工作的基礎上,本文對其2.2節中每個單詞的隱藏狀態ht進行累加,以作為Arg1和Arg2的論元表示:

(14)

(15)

(16)

(17)

其中,γ(·)的計算公式如下(以Arg1為例):

(18)

其中,W∈2dh×2dh為權重矩陣,b∈2dh為偏置。基于論元的交互式注意力權重ρt,我們對論元中每個單詞的隱藏狀態ht進行更新,并對其內積結果進行累加,以得到論元的交互式注意力表示R-Inter。具體計算公式如下:

(19)

(20)

1.5 堆疊式注意力機制

為了對論元進行更好的表示,本文將1.3節提到的自注意力機制,堆疊于1.4節介紹的交互式注意力機制之上,以構建表示能力更強的堆疊式注意力機制。具體地,針對1.4節的式(16)和(17),本文用1.3節所獲得的自注意力表示R-SelfArg1和R-SelfArg2,替換簡單的論元表示RArg1和RArg2,以得到堆疊式注意力權重向量βt。具體計算公式如下:

(21)

(22)

基于論元的堆疊式注意力權重βt,我們對論元中每個單詞的隱藏狀態ht進行更新,并累加其內積結果得到論元的堆疊式注意力表示R-Stack。具體計算公式如下:

(23)

(24)

我們拼接論元的堆疊式注意力表示R-StackArg1和R-StackArg2,并使用全連接層對其進行降維,將降維后的特征向量送入softmax層進行分類,從而獲得論元對的類別標簽。

1.6 模型訓練

在各個關系上,我們使用隨機抽樣的方法,來構造正負例平衡的訓練集。對于每個類別的分類器,我們采用Momentum[27]優化器對參數進行更新,并通過交叉熵(Cross-Entropy)損失函數[28]度量每個樣本的預測代價。在實際操作中,給定一個論元對(R1,R2)及其類別標簽y,其損失函數定義如下:

訪談中得知,除部分對英語非常感興趣的學生外,大部分學生以四、六級通過來“終結”英語學習,在通過四、六級考試后大大減少了花費在英語學習上的時間,加之大三之后學校沒有開設公共英語課程,學生接觸英語的機會越來越少,導致其英語水平隨年級升高而退步。

(25)

2 實驗

2.1 實驗數據

本文在PDTB數據集上對模型的隱式篇章關系識別性能進行評估,并以F1值(F1-score)和準確率(Accuracy)作為性能評價標準。依據前人工作[16],本文采用Sec 02-20作為訓練集,Sec 00-01作為開發集(又稱為“驗證集”),Sec 21-22作為測試集。其中,具體四大類篇章關系Comparison(Comp.)、Contingency(Cont.)、Expansion(Expa.)和Temporal(Temp.)的語料分布情況如表1所示。

表1 PDTB隱式篇章關系數據分布

由表1可知,各個關系類別上的數據分布不均衡,其中,擴展關系(Expansion)的樣本數量遠多于時序關系(Temporal)。因此,直接用所有數據訓練模型并進行測試的方法傾向于判定實例為樣本數量多的類別。同時,在每個關系類別上,其訓練集正負例分布不均衡(負例個數遠多于正例)。所以針對每個關系類別,我們對負例隨機抽樣來構造平衡數據,并用其訓練一個二分類器。這也是目前隱式篇章關系識別研究中通用的評測方法[18-22]。

2.2 實驗設置

本節針對所提模型Stacked-Attention設計了消融實驗,來展示所提模型不同部分對分類性能的影響。在實驗過程中,所有對比模型的參數設置與本文所提模型保持一致。

1) Bi-LSTM(基準系統):將Arg1和Arg2的詞向量表示分別作為Bi-LSTM的輸入,以得到每個單詞的隱藏狀態,將其分別拼接作為論元的隱藏狀態表示H1和H2。最后,拼接H1和H2并輸入全連接層進行關系分類。

2) Self-Attention(自注意力機制):通過Bi-LSTM得到論元的隱藏狀態表示后,使用式(12)計算得到論元的自注意力權重,并通過式(13)更新論元表示向量,以得到的自注意力表示。最后,拼接Arg1和Arg2的自注意力表示向量,作為全連接層的輸入并進行分類。

4) Stacked-Attention(堆疊式注意力機制):通過Bi-LSTM編碼得到論元的隱藏狀態表示后,使用Self-Attention獲得Arg1和Arg2的自注意力表示,并將其用于交互式注意力權重的計算(見式(21)和式(22)),以得到堆疊式注意力權重。在此基礎上,使用權重向量更新論元表示,以得到Arg1和Arg2的堆疊式注意力表示,將其拼接作為全連接層的輸入并進行關系分類。

2.3 參數設置

本文采用預訓練好的Glove[14]向量來初始化論元詞向量,并設定詞向量維度de為50。在訓練過程中,批(Batch size)大小為32, LSTM隱藏層的單元數dh為50,自注意力層的權重矩陣維度da為80。本文使用包含一個隱藏層的全連接層,其隱藏層神經元個數為80。為了避免過擬合,我們在全連接層之后使用了dropout,其比率設置為0.1。本文采用交叉熵損失[28]作為模型的損失函數,并使用Momentum[27]優化器對參數進行更新,其學習率設置為0.001。

2.4 實驗結果和討論

本文針對所提模型進行了消融實驗。在PDTB四大類關系上,基準模型Bi-LSTM、基于自注意力機制、交互式注意力機制和堆疊式注意力機制的模型分類性能如表2所示。

實驗結果表明,相較于基準模型Bi-LSTM,Self-Attention在F1值和準確率上都有所提升,其原因在于自注意力機制能夠捕獲論元表示中對自身較為重要的特征。同時,Interactive-Attention相較于Bi-LSTM在四大類關系上的分類性能也有所提升,其原因在于交互式注意力機制能夠捕獲論元之間的交互信息,并使用這一信息對論元表示進行更新,來得到含有交互信息的論元特征。而使用堆疊式注意力機制的模型分類性能優于單獨使用自注意力機制或交互式注意力機制,其原因在于基于堆疊式注意力的方法有效地結合了兩種注意力機制的信息,不僅關注了論元本身的特征,還融入了另一論元的特征信息。此外,堆疊式注意力機制在四大類關系上的分類性能均優于基準系統,尤其在Temporal關系上,其F1值和準確率相對于基準系統分別提高了6.57和3.82個百分點。

我們與前人工作進行了對比,具體性能如表3所示(表3中前人工作的性能來自原文獻)。其中,Bai等[19]使用基于字符、單詞、論元及論元對等不同粒度的特征表示方法,且在卷積神經網絡和循環神經網絡的基礎上,使用了殘差機制和注意力機制。相較之下,本文所提的Stacked-Attention在模型與論元的表示上較為簡單,只使用了預訓練好的詞向量。盡管如此,本文所提方法仍能在Expansion和Temporal關系上超越該方法。Liu[21]等引入了RST-DT、New York Times Corpus等外部語料庫訓練多任務模型,以隱式篇章關系識別為主任務,顯式篇章關系識別等為輔助任務。對于不同任務,Liu[21]等引入了詞、詞性、共現等人工特征以增加論元信息量。而本文只使用了標準PDTB隱式語料,并未引入外部特征,但在多個關系上的分類性能仍可超越其方法。

表2 消融實驗結果

表3 與現有模型對比(%)

由表3可知,Guo等[18]的工作在所有關系上超越了本文所提模型,他們采用Bi-LSTM分別對兩個論元進行編碼,使用交互式注意力機制更新得到新的論元表示,將新的論元表示輸入張量神經網絡中得到論元交互特征矩陣。Guo等[18]采用了L1正則化對張量項進行約束,采用L2正則化對其他參數進行約束。為了更好地對比本文所提堆疊式注意力機制和Guo等[18]的工作,我們對其工作進行了復現,并使用堆疊式注意力機制代替他們原文中的交互式注意力機制來進行對比。由于Guo等[18]暫時沒有公布其源碼,且其原文中有些細節并未詳細說明(如L1正則化項的系數等)。因此,本文的復現結果并未達到其原文中的結果。在復現Guo等[18]工作的過程中,本文采用的L1正則化項系數為0.01,L2正則化項系數為0.01,且在張量神經網絡中采用的激活函數為tanh。

表4展示了本文復現的Guo等[18]工作的結果(即Guo*)和使用本文所提堆疊式注意力機制代替他們的交互式注意力機制的結果(即Stacked-Attention*)。由表4可知,堆疊式注意力機制在各個關系上的F1值超過了Guo等[18]使用的交互式注意力機制。

本文使用自注意力機制、交互式注意力機制以及堆疊式注意力機制分別編碼例3中的論元對,以展示不同注意力機制對論元中各個成分的關注程度(見圖3)。其中,每個單詞對應的色塊顏色越深,表示該單詞獲得的注意力權重越大。在通常情況下,權重越大的單詞會直接影響最后的分類結果。

例3 [Arg1]Lastspring,thecomptroller'sofficecalledahalttoMr.Paul'sfling,givinghimsixmonthstosellthepaintings.

(譯文:去年春天,檢察官辦公室制止了保羅先生的胡鬧,給了他六個月的時間來賣這些畫。)

[Arg2] [Implicit=Because]Theacquisitionswere"unsafe,unsoundandunauthorized".

(譯文:這些對畫的收購是“不安全、不健全、未經授權”。)

[篇章關系] Contingency.Cause.Reason。

由圖3可知,自注意力機制的特征學習能力較差,對“a”和“the”這種無意義的單詞也賦予較高的權重。同樣地,交互式注意力機制為Arg1中的“lastspring”和“sixmonth”及Arg2中的“were”賦予了較高的權重,因此其很容易導致此句被誤分類為時序關系(Temporal)。而堆疊式注意力機制對Arg1中“paintings” 及Arg2中的“unsafe”、“unsound”和“unauthorized”給予了較高的權重,其中,Arg2中的這三個詞解釋了Arg1中“sellthepainting”發生的原因,因而基于堆疊式注意力機制的方法能將這個樣例正確地分類為偶然性關系(Contingency),但基于另外兩種注意力機制的方法則無法對其正確分類。

3 結論

本文旨在研究隱式篇章關系分類任務,并為其提出了基于堆疊式注意力機制的篇章關系分類模型。實驗結果表明,本文所提模型獲得了比基準系統更好的性能,且其與目前最優的隱式篇章關系分類模型性能可比。但同時,隱式篇章關系分類任務仍然具有很大的挑戰性。其主要原因在于訓練數據的缺乏,所以目前的分類方法在Temporal等類別上的分類性能仍然不高。因此,在下一步的工作中我們將從兩個方面展開研究,首先針對數據缺乏問題,將對PDTB語料進行擴充,從外部數據中篩選出優質的正負樣例樣本以擴充PDTB語料訓練集;其次,將繼續優化分類模型,借鑒目前先進的多任務、對抗學習等方法提高模型的判別能力。

表4 與Guo等工作進行對比(%)

圖3 例3在不同注意力機制下的注意力分布灰度圖Fig.3 Grey-scale map for attention distribution of example 3 under different attention mechanisms

猜你喜歡
分類機制特征
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 亚洲丝袜中文字幕| 区国产精品搜索视频| 国产第一页亚洲| 九九九精品成人免费视频7| 91精品福利自产拍在线观看| 国产91色在线| 日韩在线第三页| 三上悠亚精品二区在线观看| 亚洲国产中文欧美在线人成大黄瓜| 日韩视频福利| 亚洲成肉网| 精品视频一区二区三区在线播| 99精品国产自在现线观看| 欧美国产视频| 国产一区二区三区在线观看免费| 亚洲综合九九| 全午夜免费一级毛片| 久草国产在线观看| 精品国产免费观看| 免费激情网站| 97亚洲色综久久精品| 有专无码视频| 国产黑丝一区| 国产H片无码不卡在线视频| 99视频精品在线观看| 乱色熟女综合一区二区| 成人国产精品一级毛片天堂| 亚洲中久无码永久在线观看软件| AV在线天堂进入| 色爽网免费视频| 国产永久在线观看| 国产一区二区人大臿蕉香蕉| 中文字幕亚洲第一| 国产网站一区二区三区| 日韩黄色精品| 麻豆国产在线观看一区二区| 成人亚洲视频| 日韩精品无码免费专网站| 欧美三级视频网站| 亚洲swag精品自拍一区| 日韩 欧美 小说 综合网 另类| 国产成人无码Av在线播放无广告| 久久人与动人物A级毛片| 日韩欧美中文字幕在线精品| 亚洲国产亚洲综合在线尤物| 青青热久麻豆精品视频在线观看| 久久久久亚洲精品成人网| 无码福利日韩神码福利片| 欧美中文字幕一区| 色婷婷国产精品视频| 亚洲成人高清无码| 天天色天天操综合网| 欧美一区二区三区不卡免费| 久久精品国产亚洲麻豆| 国产精品香蕉在线| 特级aaaaaaaaa毛片免费视频| 精品久久久无码专区中文字幕| 国产精品福利尤物youwu| 国产系列在线| 日韩欧美中文在线| 亚洲成网777777国产精品| 亚洲大学生视频在线播放| 欧美在线导航| 久久成人国产精品免费软件| 欧洲欧美人成免费全部视频| 91热爆在线| 国产精品yjizz视频网一二区| 久久国产高清视频| 精品三级网站| 伊人国产无码高清视频| 国产在线观看精品| 欧美成人h精品网站| 亚洲第一黄片大全| 在线国产综合一区二区三区| 亚洲精选无码久久久| 免费人成黄页在线观看国产| 伊人久久久久久久| 无遮挡一级毛片呦女视频| 波多野结衣一二三| 1769国产精品视频免费观看| 秋霞午夜国产精品成人片| 国产精品手机在线播放|