999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合RoBERTa-GCN-Attention的隱喻識(shí)別與情感分類模型

2024-03-05 01:41:02楊春霞陳啟崗
關(guān)鍵詞:語義單詞機(jī)制

楊春霞,韓 煜,桂 強(qiáng),陳啟崗

(南京信息工程大學(xué) 自動(dòng)化學(xué)院,南京 210044)

(江蘇省大數(shù)據(jù)分析技術(shù)重點(diǎn)實(shí)驗(yàn)室,南京 210044 )

(江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心,南京 210044)

0 引 言

隱喻普遍存在于日常生活之中,在應(yīng)用中表現(xiàn)為將源域里的事物或知識(shí)投射到目標(biāo)域中,使其產(chǎn)生新的內(nèi)涵[1].研究隱喻可以幫助人們更好地理解這個(gè)世界,同時(shí)也能有效表達(dá)出內(nèi)心的部分想法.

識(shí)別文本是否具有隱喻性的過程被稱為隱喻識(shí)別.隱喻識(shí)別目前取得的成果較少,其原因在于兩點(diǎn):1)是隱喻詞與非隱喻詞之間的差異較小,導(dǎo)致難以識(shí)別;2)是同一單詞在不同語境中其隱喻性會(huì)發(fā)生改變.例如短語sun shines在“Make the hay while the sun shines.”句中表現(xiàn)出了隱喻性,但是在“The sun shines strongly.”句中表達(dá)的是原意.隱喻識(shí)別不僅能加強(qiáng)對(duì)隱喻的理解,還能為自然語言處理中的情感分析、機(jī)器翻譯等下游任務(wù)打好基礎(chǔ),因此是很有意義的.

隱喻情感分類任務(wù)是指對(duì)隱喻句所透露的情感極性進(jìn)行分類.隨著互聯(lián)網(wǎng)的迅速發(fā)展,越來越多的人在發(fā)表具有情感傾向的評(píng)論時(shí)使用了隱喻手法,并且這種將源域事物與目標(biāo)域事物相結(jié)合的方式能夠表達(dá)出更加強(qiáng)烈的情感.因此,為了更好地滿足商品銷售、輿論分析等應(yīng)用的需求,隱喻情感分類的研究是十分有必要的,此外它也能為隱喻識(shí)別提供數(shù)據(jù),提高其識(shí)別精度[2].

在隱喻句中,一個(gè)詞自身并不具備隱喻詞性或者情感傾向,但是在特定的語境中可能會(huì)表現(xiàn)出這兩種特性;另外隱喻識(shí)別與隱喻情感分類任務(wù)中的數(shù)據(jù)可以互相支持,具有很強(qiáng)的關(guān)聯(lián)性.基于以上兩個(gè)原因,Dankers等人[3]將隱喻識(shí)別和情感分類任務(wù)相結(jié)合構(gòu)造了多任務(wù)學(xué)習(xí)模型.他們使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-Directional Long Short Term Memory,BiLSTM)提取隱喻句中的語義特征,并且將其作為共享層為兩個(gè)任務(wù)共享特征參數(shù),最終經(jīng)過注意力層和分類層分別輸出了結(jié)果.實(shí)驗(yàn)結(jié)果表明,多任務(wù)學(xué)習(xí)模型經(jīng)過共享參數(shù)后不僅能夠提高兩個(gè)任務(wù)的性能,還能有效緩解隱喻數(shù)據(jù)集不足的問題.但是僅使用BiLSTM提取上下文信息會(huì)受到序列長(zhǎng)度的限制,由于隱喻句的長(zhǎng)度普遍過長(zhǎng),BiLSTM不能很好地傳輸序列起點(diǎn)的信息,導(dǎo)致對(duì)語義特征的提取不夠準(zhǔn)確;同時(shí)BiLSTM只能按序列順序傳遞每一時(shí)刻的信息,缺乏對(duì)非線性句法結(jié)構(gòu)信息的提取.并且該模型在隱喻數(shù)據(jù)集VUA[4]中只提取了單詞層面的特征信息,在數(shù)據(jù)集LCC[5]中只提取了句子層面的特征信息,缺乏在同一數(shù)據(jù)集上對(duì)粗細(xì)兩種粒度信息的同時(shí)捕捉.

為了解決以上問題,本文提出了一種基于語境RoBERTa(Robustly Optimized Bidirectional Encoder Representation from Transformers Pre-training Approach)與雙注意力圖卷積網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí)(Context-RoBERTa Bi-Attention and Graph Convolution Network Multitask Learning,CRBGM)模型.本文主要貢獻(xiàn)如下:

1)構(gòu)建了語境RoBERTa(Context-RoBERTa,CR)模型對(duì)隱喻語句進(jìn)行預(yù)訓(xùn)練.CR模型在RoBERTa的自注意力機(jī)制中加入了上下文信息,有效地捕捉了上下文中重要的隱喻語義特征信息,并將改進(jìn)后的自注意力機(jī)制應(yīng)用于句子層面編碼器中;同時(shí)使用圖卷積網(wǎng)絡(luò)(Graph Convolutional Networks,GCN)作為并行通道提取文本中句法結(jié)構(gòu)信息.

2)提出了一種雙層注意力機(jī)制,分別對(duì)單詞和句子層面編碼得到的特征信息應(yīng)用注意力機(jī)制分配權(quán)重,從而捕捉不同粒度上的重要隱喻信息.

3)本文在3個(gè)公開的隱喻識(shí)別數(shù)據(jù)集和3個(gè)構(gòu)建的隱喻情感數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與相關(guān)模型對(duì)比,其結(jié)果表明本文模型相對(duì)于對(duì)比模型效果較好.

1 相關(guān)工作

早期的隱喻識(shí)別算法大多是基于規(guī)則和特征的.Neuman等人[6]設(shè)計(jì)了基于名詞、形容詞和動(dòng)詞3種規(guī)則的自動(dòng)隱喻識(shí)別算法.Klebanov等人[7]訓(xùn)練了一個(gè)有監(jiān)督的機(jī)器學(xué)習(xí)系統(tǒng),經(jīng)過對(duì)語料的重新加權(quán)后再從具體數(shù)據(jù)集中獲取特征.這些算法能夠判斷簡(jiǎn)單句子的隱喻性,但對(duì)于結(jié)構(gòu)復(fù)雜的句子,其概念域是無法判斷的.隨著深度學(xué)習(xí)的發(fā)展,越來越多的研究采用了神經(jīng)網(wǎng)絡(luò)進(jìn)行隱喻識(shí)別,其原理是通過提取詞語的語境信息,再利用詞語與語境信息的不一致,從而判斷出其隱喻性.例如Gao等人[8]使用的端到端的BiLSTM模型,用于檢測(cè)上下文中隱喻詞的語義信息.Mao等人[9]在BiLSTM模型的基礎(chǔ)上加入了注意力機(jī)制,有效利用了隱喻識(shí)別中的語言學(xué)理論.隨著預(yù)訓(xùn)練模型的出現(xiàn)及應(yīng)用,張冬瑜等人[10]使用BERT(Bidirectional Encoder Representation from Transformers)模型對(duì)隱喻特征進(jìn)行建模,有效地提高了隱喻識(shí)別的效果.Gong等人[11]使用了基于RoBERTa[12]與外部資源相結(jié)合的模型,在豐富了語言信息的同時(shí),捕獲了隱喻句中的上下文語義特征信息.由于圖卷積網(wǎng)絡(luò)能挖掘語料中的非線性語義特征,受到了廣泛地使用.Liu等人[13]在一種新的聯(lián)合多事件提取框架中引入基于注意力機(jī)制的GCN,并通過依存句法樹提取隱喻句中句法信息,最終獲得了較好的精度.

傳統(tǒng)的情感分類方法主要基于情感詞典和機(jī)器學(xué)習(xí).唐曉波等人[14]對(duì)語料進(jìn)行依存句法分析,經(jīng)過機(jī)器翻譯后,再與英文情感詞典相對(duì)照分析,獲得了較好的情感分類效果.但是這類方法過于依賴情感詞典,一旦語料大量增長(zhǎng),情感詞典更新代價(jià)大、效率不高的劣勢(shì)就會(huì)凸顯出來.因此,傳統(tǒng)的機(jī)器學(xué)習(xí)方法近年來已經(jīng)被深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)所取代.Kalchbrenner等人[15]將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)用于句子的語義建模,獲得了不錯(cuò)的分類效果;Wang等人[16]采用了LSTM模型,解決了對(duì)長(zhǎng)本文情感分類過程中出現(xiàn)的梯度消失或梯度爆炸問題;Chen等人[17]采用注意力機(jī)制與BiLSTM模型的非線性結(jié)合,加強(qiáng)了模型處理復(fù)雜情況的能力;Kipf等人[18]使用GCN對(duì)局部圖結(jié)構(gòu)和情感節(jié)點(diǎn)特征進(jìn)行編碼.隨著BERT、RoBERTa等預(yù)訓(xùn)練模型的出現(xiàn),Li等人[19]和張軍等人[20]也將其應(yīng)用到了情感分類中,其模型精度具有顯著提升.

現(xiàn)有隱喻識(shí)別與情感分類的聯(lián)合研究要么側(cè)重于使用情感特征提升隱喻識(shí)別的精度,要么側(cè)重于自動(dòng)識(shí)別隱喻中的情感極性.Tomek等人[21]將基于人工設(shè)計(jì)的情感特征分類器用于隱喻識(shí)別任務(wù)中;林鴻飛等人[22]從以往的情感隱喻計(jì)算研究進(jìn)行分析和總結(jié),將其中的特點(diǎn)應(yīng)用到了新的應(yīng)用途徑中;Dankers等人[3]將BiLSTM作為共享層,提出了將隱喻識(shí)別和情感分類的第一個(gè)多任務(wù)學(xué)習(xí)模型.盡管Dankers等人設(shè)計(jì)的多任務(wù)學(xué)習(xí)模型在隱喻識(shí)別和情感分類任務(wù)中的精度都有提升,但是該模型對(duì)于文本中語義信息和句法信息提取不夠充分,因此本文在詞嵌入過程中使用CR模型提取與隱喻相關(guān)的上下文語義信息,并使用基于依存樹的GCN模型來捕獲隱喻句中的句法信息;另外該模型不能同時(shí)提取粗細(xì)粒度語料的信息,因此本文分別使用了單詞級(jí)和句子級(jí)注意力機(jī)制來分配不同層面的語義特征權(quán)重,充分保留和加強(qiáng)粗細(xì)粒度中的關(guān)鍵信息.

2 CRBGM模型

本文提出的CRBGM模型主要由詞嵌入層、信息獲取層、雙層注意力機(jī)制、門控共享單元和輸出層組成,其結(jié)構(gòu)如圖1所示.

圖1 CRBGM模型框架Fig.1 CRBGM model framework

2.1 詞嵌入層

2.1.1 上下文預(yù)訓(xùn)練模型

RoBERTa模型是由BERT模型改進(jìn)而來,主要有3處改進(jìn):1)采用了動(dòng)態(tài)Masking,即每輸入一個(gè)新的序列就伴隨著一種新的遮掩方式,相比BERT中固定的遮掩方式具有更高的靈活性;2)舍去了BERT中對(duì)性能影響不大的下一句預(yù)測(cè)(Next Sentence Prediction,NSP)任務(wù);3)擴(kuò)大了的batch size,使模型能夠在預(yù)訓(xùn)練過程中使用更多的數(shù)據(jù)集,從而在預(yù)訓(xùn)練結(jié)束后具有豐富的語義信息.與BERT模型相似,RoBERTa也是由多個(gè)雙向Transformer編碼器組成,其中Transformer編碼器由自注意力機(jī)制、殘差&層歸一化和前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成.自注意力機(jī)制是Transformer編碼器當(dāng)中的核心單元,其運(yùn)行過程如公式(1)所示:

(1)

其中,{Q,K,V}為輸入矩陣,dk為輸入向量維度.自注意力機(jī)制在每個(gè)輸入單詞之間建模,再對(duì)當(dāng)前單詞分配權(quán)重.隨后將得到隱藏向量?jī)纱蝹鬟f到殘差&層歸一化和前饋神經(jīng)網(wǎng)絡(luò)中.其中,層歸一化將輸入轉(zhuǎn)化為均值方差,殘差連接將輸入作非線性變換得到的結(jié)果與原輸入相疊加后作為輸出,再通過前饋神經(jīng)網(wǎng)絡(luò)中的兩層全連接層進(jìn)行計(jì)算,其過程如式(2)所示:

(2)

其中,{W0,W0′}是兩個(gè)全連接層的權(quán)重矩陣,{b0,b0′}是兩個(gè)全連接層的偏置項(xiàng).

由于RoBERTa中的自注意力機(jī)制使用輸入矩陣計(jì)算注意力權(quán)重,缺少對(duì)上下文信息的考慮,然而單詞的隱喻性和隱喻情感極性特征通常是由上下文語境所決定的,因此本文通過修改自注意力機(jī)制,將RoBERTa調(diào)整為能夠?qū)ι舷挛男畔⑦M(jìn)行感知的語境RoBERTa模型.

具體來說,本文在原始輸入矩陣{Q,K,V}的基礎(chǔ)上引入了學(xué)習(xí)參數(shù)和上下文信息矩陣,最終得到了上下文感知權(quán)重矩陣{QC,KC,VC}.其中,上下文信息在計(jì)算上下文感知權(quán)重和學(xué)習(xí)參數(shù)的過程中各引入了一次,上下文信息矩陣是由訓(xùn)練上下文信息的嵌入層將隱藏向量傳遞到具有殘差連接的前饋線性層中得到的.而學(xué)習(xí)參數(shù)是模型采用零對(duì)稱門控單元進(jìn)行控制,使用了tanh函數(shù)進(jìn)行計(jì)算獲得,同時(shí)在計(jì)算過程中整合了上下文信息,這使得學(xué)習(xí)參數(shù)不僅能夠在不同的頭部自注意力機(jī)制中改變大小,還豐富了矩陣的表示空間以及由此產(chǎn)生的的注意力權(quán)重分布.具體計(jì)算公式如式(3)~式(5)所示:

(3)

(4)

(5)

(6)

本文構(gòu)造的語境RoBERTa模型由12層語境Transformer編碼器組成,CTE模型的結(jié)構(gòu)如圖2所示.模型可以在預(yù)訓(xùn)練過程中依據(jù)數(shù)據(jù)集對(duì)參數(shù)微調(diào),將輸入句子S={w1,w2,…,wn}訓(xùn)練為上下文詞向量矩陣A={x1,x2,…,xn}.CR模型相比RoBERTa模型的優(yōu)勢(shì)在于它能夠通過感知上下文信息充分挖掘隱喻語料中的語義信息,更加適合隱喻這種語義特征差異較小,且詞義受語境影響較大的文本.

圖2 語境Transformer 編碼器結(jié)構(gòu)Fig.2 Context Transformer encoder structure

2.1.2 句法依存樹

為了準(zhǔn)確捕獲隱喻語料中的句法信息,本文通過spaCy將輸入句子生成對(duì)應(yīng)的依存結(jié)構(gòu),再利用依存結(jié)構(gòu)信息構(gòu)建無向圖,如式(7)所示:

G=(V,E)

(7)

其中V為依存樹中頂點(diǎn)的集合;E為單詞之間依存關(guān)系的邊集合.而依存樹中的頂點(diǎn)數(shù)據(jù)是由GloVe嵌入模型對(duì)輸入單詞向量化獲得.本文模型選擇依存樹的原因在于它可以有效地梳理句子中復(fù)雜的非線性語義關(guān)系,為后續(xù)GCN進(jìn)一步提取隱喻信息打下基礎(chǔ).

2.2 信息獲取層

2.2.1 BiLSTM層

LSTM通過在循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的基礎(chǔ)上添加了額外的記憶單元,有效解決了RNN在訓(xùn)練中存在的梯度消失問題.一個(gè)LSTM單元的結(jié)構(gòu)如圖3所示,它通常由一個(gè)核心細(xì)胞和3個(gè)門單元組成.其中I為記憶門,其作用是控制當(dāng)前單元的輸入信息;F為遺忘門,它控制著輸入信息的遺忘概率,盡可能地減少梯度爆炸和梯度消失出現(xiàn)的可能性,是LSTM中最重要的部分;O為輸出門,它決定著是否將儲(chǔ)存信息輸出.

圖3 LSTM模型結(jié)構(gòu)Fig.3 LSTM model structure

在LSTM網(wǎng)絡(luò)中,狀態(tài)信息都是單向輸入輸出的,這導(dǎo)致其只能學(xué)習(xí)某一時(shí)刻的特征信息,對(duì)于后續(xù)信息則無法捕捉.因此,本文模型選擇了BiLSTM作為代替,它可以提取多個(gè)時(shí)刻的特征信息,能夠在動(dòng)態(tài)詞向量的基礎(chǔ)上繼續(xù)捕捉隱喻語料中的上下文語義特征.BiLSTM是由兩組方向相反的LSTM所組成的神經(jīng)網(wǎng)絡(luò),過程如公式(8)和公式(9)所示:

(8)

(9)

其中,xi是由CR模型訓(xùn)練得到的動(dòng)態(tài)詞向量;HB為隱喻文本經(jīng)過BiLSTM提取得到的上下文語義信息表示矩陣.

2.2.2 GCN層

對(duì)于由依存樹生成的無向圖G=(V,E),本文模型使用了兩層GCN對(duì)其進(jìn)行編碼,它能夠有效地在樹形結(jié)構(gòu)中建立拓?fù)潢P(guān)系,以獲得其中的句法結(jié)構(gòu)信息.其過程如式(10)~公式(12)所示:

(10)

(11)

(12)

(13)

2.3 雙層注意力機(jī)制

為了從隱喻句的不同粒度信息中捕捉到隱喻信息,本文提出一種雙層注意力機(jī)制,分別從單詞和句子層面,去聚焦相關(guān)的隱喻特征信息.在單詞層面,分別對(duì)上下文語義信息表示與句法信息表示使用注意力機(jī)制.其過程如式(14)~式(19)所示:

(14)

(15)

(16)

(17)

(18)

(19)

(20)

(21)

(22)

本文模型使用雙層注意力機(jī)制的原因在于兩點(diǎn):在細(xì)粒度層面分配注意力權(quán)重,既保留了上下文語義特征信息,又補(bǔ)充了句子的依存結(jié)構(gòu)特征,能有效分辨特征差異較小的單詞,聚焦關(guān)鍵的特征信息;在粗粒度層面分配注意力權(quán)重,能對(duì)單詞在不同語境中其隱喻性和情感極性發(fā)生改變的情況進(jìn)行識(shí)別,避免出現(xiàn)歧義現(xiàn)象.

2.4 門控共享單元

在多任務(wù)學(xué)習(xí)模型中要實(shí)現(xiàn)對(duì)兩個(gè)任務(wù)的交互,就需要分享兩個(gè)任務(wù)所產(chǎn)生的參數(shù)信息,本文模型使用門控共享單元作為參數(shù)共享的媒介,對(duì)BiLSTM、GCN和CTE模型中的隱藏向量實(shí)行參數(shù)共享.其中,對(duì)隱喻識(shí)別和隱喻情感分類中的每個(gè)LSTM、CGN和Transformer單元設(shè)置了兩個(gè)門控共享單元,一個(gè)負(fù)責(zé)調(diào)節(jié)從主要任務(wù)到輔助任務(wù)的信息流,另一個(gè)則控制相反的信息流.具體過程如式(23)~式(26)所示:

gA=σ(WA[hA;hB]+bA)

(23)

(24)

gB=σ(WB[hA;hB]+bB)

(25)

(26)

本文模型選擇門控共享單元作為參數(shù)共享部分的原因在于,相比于使用同一編碼器作為共享部分的傳統(tǒng)方法,門控共享單元無論是在訓(xùn)練期間還是測(cè)試期間,都能為每個(gè)編碼器中的隱藏向量傳遞動(dòng)態(tài)的參數(shù),這使得模型具有更大的靈活性,并且能對(duì)特定的隱喻句調(diào)整信息流.

2.5 輸出層

(27)

其中,W為權(quán)重矩陣,b為偏置項(xiàng),g為模型最終輸出概率.

3 實(shí) 驗(yàn)

3.1 數(shù)據(jù)集

對(duì)于隱喻識(shí)別任務(wù),本文選用了3個(gè)英文隱喻識(shí)別數(shù)據(jù)集VUA[4]、TroFi[23]和MOH[24].其中VUA對(duì)隱喻詞詞性做了分類,一共收錄了239847個(gè)單詞,每句平均單詞為14.82個(gè),隱喻占比為15.85%;TroFi是基于Bootstrapping算法構(gòu)建的動(dòng)詞隱喻數(shù)據(jù)集,一共有105949個(gè)單詞,每句平均單詞為28.35個(gè),隱喻占比43.54%;MOH是從資源WordNet中抽取概念詞并進(jìn)行人工標(biāo)注的隱喻識(shí)別數(shù)據(jù)集,一共有5178個(gè)單詞,每句平均單詞為8個(gè),隱喻占比48.68%.

對(duì)于隱喻情感分類任務(wù),由于缺乏公開的英文數(shù)據(jù)集,本文對(duì)以上3個(gè)隱喻識(shí)別數(shù)據(jù)集進(jìn)行了人工標(biāo)注,構(gòu)建了隱喻情感數(shù)據(jù)集的原始語料.其過程分為3步:

1)標(biāo)注形式:由于選取的隱喻識(shí)別數(shù)據(jù)集都只標(biāo)注了句中的隱喻詞,因此本文采用<句子,隱喻詞,情感極性>標(biāo)注形式,其中在單詞前面標(biāo)記“M_”的即為隱喻詞,情感極性被定為3類(積極、消極和中性).具體實(shí)例如圖4所示.

圖4 隱喻情緒標(biāo)注實(shí)例Fig.4 Examples of metaphorical emotion labeling

2)標(biāo)注過程:要求3名情感分析領(lǐng)域的研究生(包括一名專家)同時(shí)對(duì)原始數(shù)據(jù)集進(jìn)行標(biāo)注.對(duì)于同一待標(biāo)注句,檢查3個(gè)人標(biāo)注的內(nèi)容,若至少有兩人的情緒類別標(biāo)簽相同時(shí),才能直接入庫;否則3個(gè)人共同商討并交換意見,在達(dá)成一致后才能將結(jié)果入庫.數(shù)據(jù)庫的標(biāo)注流程如圖5所示.

圖5 隱喻情緒數(shù)據(jù)集標(biāo)注流程圖Fig.5 Flow chart of metaphor emotion dataset annotation

3)數(shù)據(jù)集構(gòu)建結(jié)果及分析:本文基于以上流程,構(gòu)建了隱喻情感數(shù)據(jù)集VUA-E、TroFi-E和MOH-E,其情感極性分布情況如表1所示.

表1 隱喻情感數(shù)據(jù)集的情感統(tǒng)計(jì)Table 1 Emotion statistics of metaphor emotion datasets

表2 隱喻情緒數(shù)據(jù)集的一致性檢驗(yàn)Table 2 Consistency test of metaphorical emotion datasets

由表1可知,具有情感色彩的隱喻句在數(shù)據(jù)集VUA、TroFi和MOH中占比分別為42.98%、69.20%和70.63%.這說明隱喻數(shù)據(jù)集中的語料廣泛存在著情感色彩,值得研究.

為了保證構(gòu)建數(shù)據(jù)集的可靠性,本文采用了Kappa值來對(duì)3位標(biāo)注者(A、B和C)的結(jié)果(Result)與最終的隱喻情感數(shù)據(jù)集結(jié)果進(jìn)行一致性的檢驗(yàn),其具體數(shù)值如表 2所示.從表中數(shù)據(jù)可知,Kappa值基本高于0.6,這說明數(shù)據(jù)具有較高的一致性,構(gòu)建的隱喻情感數(shù)據(jù)集質(zhì)量合格.

3.2 實(shí)驗(yàn)參數(shù)設(shè)置

實(shí)驗(yàn)選擇語境RoBERTa作為預(yù)訓(xùn)練模型,共有12層,隱藏狀態(tài)維度為768,epoch為10,學(xué)習(xí)率為2e-5,dropout rate值為0.2,batch_size為32,共有124M個(gè)參數(shù);構(gòu)建依存樹的GloVe嵌入維度為300;編碼器BiLSTM的隱藏狀態(tài)維數(shù)為200;GCN的隱藏狀態(tài)設(shè)置為512.本文模型的參數(shù)總量約為127×106,占顯存大小約為1.3×104MB,而Dankers等人[3]的多任務(wù)學(xué)習(xí)模型參數(shù)量為112×106,占顯存6.5×103MB,相比之下本文模型的復(fù)雜度較高,為了防止過擬合,本文采用了Droupout技術(shù)和基于L2正則化的交叉熵?fù)p失函數(shù)來控制模型的復(fù)雜度,以追求更好的預(yù)測(cè)效果.此外,本文還將語境Transformer編碼器的自注意力權(quán)重大小限定為非負(fù)值,控制在[0,1]之間,即只允許它對(duì)每個(gè)位置上的隱藏向量進(jìn)行正加權(quán)組合.

3.3 對(duì)比試驗(yàn)方法

為了驗(yàn)證CRBGM的有效性,本文在隱喻識(shí)別和隱喻情感分類實(shí)驗(yàn)中分別采取了F1值(F1-Score)和準(zhǔn)確率(Accuracy,Acc)作為評(píng)估指標(biāo).對(duì)比模型如下:

Glove+ELMo+BiLSTM(GEB)[8]:使用詞向量模型GloVe和ELMo,將嵌入的詞向量輸入到BiLSTM中提取隱喻特征信息.

Glove+ELMo+BiLSTM+Attention(GEBA)[9]:將Glove和ELMo生成的詞向量傳遞到BiLSTM編碼器中,并加入了注意力機(jī)制對(duì)隱喻特征進(jìn)行關(guān)注.

CDT[25]:一種基于句法依存樹和GCN的模型,將句法信息傳遞到BiLSTM中繼續(xù)強(qiáng)化學(xué)習(xí)句中的語義特征.

RoBERTa[26]:使用預(yù)訓(xùn)練模型RoBERTa做隱喻識(shí)別和隱喻情感分類任務(wù).

BERT+BiLSTM+Attention+BiLSTM+Attention(BBABA)[27]:使用BERT進(jìn)行預(yù)訓(xùn)練,將BiLSTM作為句子和篇章層面的編碼器,同時(shí)引入了句子和篇章層面的注意力機(jī)制.

BERT+BiLSTM+Attention+MTL(BBAM)[3]:該模型是第1個(gè)將隱喻識(shí)別任務(wù)與隱喻情感分類任務(wù)相結(jié)合的多任務(wù)學(xué)習(xí)模型,采用了BERT作為預(yù)訓(xùn)練模型,并使用了BiLSTM編碼器和注意力機(jī)制.

3.4 實(shí)驗(yàn)結(jié)果與分析

在隱喻識(shí)別和隱喻情感分類任務(wù)中,基線模型與本文提出的CRBGM模型實(shí)驗(yàn)結(jié)果如表3所示.

表3 隱喻識(shí)別與隱喻情感分類任務(wù)各模型實(shí)驗(yàn)結(jié)果Table 3 Experimental results of each model of metaphor recognition and metaphor emotion classification task

由表 3可知,在兩類任務(wù)6個(gè)數(shù)據(jù)集上,本文提出的CRBGM模型的F1值和Acc值兩個(gè)評(píng)估指標(biāo)均高于基線模型,表明CRBGM模型的性能要好于其余基線模型.由于GEB僅使用了BiLSTM對(duì)上下文信息建模,而GEBA在GEB的基礎(chǔ)上加入了注意力機(jī)制,提取了上下文中與隱喻相關(guān)的語義特征,所以GEBA相比GEB性能有所提升.CDT模型在GEB模型的基礎(chǔ)上引入了句法依存樹和GCN,提取了隱喻句中的句法結(jié)構(gòu)信息,因此模型的精度在一定程度上優(yōu)于GEB模型.BBABA模型在句子和篇章層面使用了雙層注意力機(jī)制,性能優(yōu)于GEBA模型,說明在不同粒度層面使用注意力機(jī)制有助于提升模型性能.多任務(wù)學(xué)習(xí)模型BBAM對(duì)相似任務(wù)的特征參數(shù)進(jìn)行共享,相比GEBA效果較好,說明共享參數(shù)對(duì)同時(shí)提高兩個(gè)任務(wù)的效果是有一定幫助的.此外,RoBERTa、BBABA和BBAM是基于BERT或者Transformer結(jié)構(gòu)的模型,Transformer相比RNN能更加精準(zhǔn)地提取隱喻文本中的特征信息,所以其效果要優(yōu)于僅使用LSTM的基線模型.

本文提出的CRBGM模型在數(shù)據(jù)集VUA、TroFi和MOH上相比表現(xiàn)最好的基線模型BBAM的F1值分別提高了2.92%、3.51%、3.20%,在數(shù)據(jù)集VUA-E、TroFi-E和MOH-E中較BBGAM模型準(zhǔn)確率提升了3.07%、2.57%、1.81%,原因在于CRBGM改進(jìn)了提取上下文單詞的語義特征的方法,即在單詞嵌入和句子編碼的過程中使用含有上下文感知自注意力機(jī)制的語境RoBERTa和語境Transformer編碼器,它們都在自注意力機(jī)制中引入了上下文信息,能將自注意力權(quán)重聚集到與隱喻相關(guān)度更高的上下文信息中;同時(shí)使用依存樹和GCN提取隱喻句中的句法信息;并且還使用了雙層注意力機(jī)制,能夠?qū)卧~和句子層面中的隱喻特征信息進(jìn)行保留和加強(qiáng).綜上所述,CRBGM模型在隱喻識(shí)別和隱喻情感分類任務(wù)中是有效的,不僅能更有效地提取語義特征并引入句法依存關(guān)系,還能捕獲不同粒度上的隱喻信息.

3.5 模型分析

3.5.1 不同詞向量對(duì)模型性能的影響

為了驗(yàn)證CRBGM模型針對(duì)隱喻上下文特征提取難的問題采用CR詞向量模型的有效性,本文分別選取了GloVe、BERT和RoBERTa模型作為CR模型的替代進(jìn)行對(duì)比實(shí)驗(yàn)驗(yàn)證,以TroFi、MOH、TroFi-E、MOH-E數(shù)據(jù)集為例,實(shí)驗(yàn)結(jié)果如表4所示.

表4 不同詞向量對(duì)模型性能的影響Table 4 Effects of different word vectors on model performance

表5 不同注意力機(jī)制對(duì)模型性能的影響Table 5 Effects of different attention mechanisms on model performance

表6 隱喻句對(duì)比Table 6 Metaphorical sentence contrast

由表 4可知,GloVe對(duì)句中每個(gè)詞只能固定生成一個(gè)詞向量;BERT使用了自注意力機(jī)制,通過計(jì)算詞與詞之間的相似度去挖掘信息,生成了動(dòng)態(tài)詞向量,效果要好于GloVe;RoBERTa在BERT的基礎(chǔ)上使用了更靈活的遮掩方式,同時(shí)去掉了效率低下的任務(wù),還能容納更多的數(shù)據(jù),因此性能要優(yōu)于BERT;CR模型在RoBERTa模型的基礎(chǔ)上對(duì)自注意力機(jī)制引入了隱喻上下文信息,模型在充分學(xué)習(xí)上下文信息后能更準(zhǔn)確地聚焦于其中的語義信息,因此性能優(yōu)于RoBERTa.綜上,這組對(duì)比實(shí)驗(yàn)說明了CR模型的有效性.

3.5.2 不同注意力機(jī)制對(duì)模型性能的影響

為了驗(yàn)證雙層注意力機(jī)制的有效性,本文去掉了單詞和句子級(jí)注意力機(jī)制,建立了CR+ BiLSTM+ GCN+ CTE (CBGC)模型;只去掉了單詞級(jí)注意力機(jī)制,建立CR+ BiLSTM+ GCN+ CTE-Att (CBGCA)模型;只去掉句子級(jí)注意力機(jī)制,建立CR+ BiLSTM-Att+GCN-Att+CTE(CBAGAC)模型.以TroFi、MOH、TroFi-E、MOH-E數(shù)據(jù)集為例,將這些模型與原模型進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果如表 5所示.

通過對(duì)比無注意力與添加注意力機(jī)制的模型結(jié)果可知,使用注意力機(jī)制關(guān)注文本中的重要信息可以有效提高模型的分類效果.在只使用單層注意力機(jī)制的模型中,CBAGAC使用注意力機(jī)制分別關(guān)注BiLSTM和GCN提取到的細(xì)粒度特征的重要信息,CBGCA則使用注意力機(jī)制關(guān)注CTE提取到的粗粒度特征中的重要信息,對(duì)比結(jié)果發(fā)現(xiàn),使用注意力機(jī)制捕獲句子級(jí)特征中的重要信息在隱喻識(shí)別任務(wù)上效果較好,并且在文本很長(zhǎng)且隱喻性較強(qiáng)的TroFi數(shù)據(jù)集上增長(zhǎng)更為明顯;而使用注意力機(jī)制關(guān)注單詞層面的重要信息在隱喻情感分類任務(wù)中效果提升更多.

通過對(duì)比CRBGM模型與單層注意力機(jī)制模型的結(jié)果可知,使用雙層注意力機(jī)制同時(shí)捕捉單詞和句子層面中的關(guān)鍵信息,可以獲得一個(gè)詞在局部上下文和整句話中不同的隱喻信息,識(shí)別出更細(xì)小的隱喻性和情感變化,最終提高了分類效果,說明了雙層注意力機(jī)制的有效性.

3.5.3 GCN層數(shù)對(duì)模型性能的影響

為了驗(yàn)證GCN層數(shù)對(duì)模型性能的影響,以VUA和VUA-E數(shù)據(jù)集為例,設(shè)置GCN層數(shù)為1~5,實(shí)驗(yàn)結(jié)果如圖6所示.

圖6 不同GCN層數(shù)對(duì)模型性能的影響Fig.6 Effects of different GCN layers on model performance

圖6表示不同GCN層數(shù)對(duì)應(yīng)的CRBGM的F1值和Acc值,其中橫坐標(biāo)為GCN層數(shù),縱坐標(biāo)為F1值或Acc值.從中可以看出,在GCN層數(shù)為2時(shí),F1值和Acc值都達(dá)到了最大值,驗(yàn)證了本文選取GCN層數(shù)為2的合理性.當(dāng)層數(shù)大于3時(shí),F1和Acc值都明顯下降,其原因在于層數(shù)增大時(shí)會(huì)導(dǎo)致參數(shù)增多,訓(xùn)練難度加大,并且每個(gè)節(jié)點(diǎn)聚集的特征信息會(huì)大量重復(fù).

3.5.4 實(shí)例分析

為了分析CRBGM模型加入情感信息來提升隱喻識(shí)別任務(wù)效果的有效性,本文從數(shù)據(jù)集中抽取了幾個(gè)例句,在多任務(wù)模型與單任務(wù)模型的隱喻識(shí)別任務(wù)上進(jìn)行對(duì)比分析.結(jié)果如表 6所示.句中的隱喻詞已經(jīng)用下劃線標(biāo)出,需要對(duì)其隱喻性進(jìn)行識(shí)別的單詞用加粗字體表示.

由表 6可知,在第1句中,“peach”的意思由“桃子”變?yōu)椤懊廊恕?情感極性由中性變?yōu)榉e極;第2句中“buy”的意思從“購買”變?yōu)椤跋嘈拧?也是由中性變?yōu)榉e極情感;第3句中“pound”的意思由“磅”變?yōu)椤霸S多”,情感極性保持中性不變.由此可知,對(duì)于源域與目標(biāo)域情感標(biāo)簽不同的單詞,識(shí)別其隱喻性需要更加明確的情感標(biāo)記,因此,結(jié)合了情感分類任務(wù)的多任務(wù)模型對(duì)這類單詞的隱喻識(shí)別效果要優(yōu)于單任務(wù)模型;而對(duì)于源域與目標(biāo)域情感標(biāo)簽相同的單詞,識(shí)別其隱喻性則更加依賴于上下文語義信息,所以單任務(wù)模型預(yù)測(cè)的效果較好.分析結(jié)果說明本文提出的CRBGM模型在隱喻識(shí)別任務(wù)中加入情感信息能夠糾正其中的錯(cuò)誤判斷,有效提升預(yù)測(cè)效果.

雖然多任務(wù)學(xué)習(xí)模型在總體效果上有了提升,但是它也存在局限性.例如第4句中“grades are rising”,本文模型識(shí)別為隱喻,但是此類生活用語已不再被非專業(yè)人士視為隱喻;第5句中“shot”的隱喻性識(shí)別雖然正確,但是由于模型無法識(shí)別負(fù)面的隱喻術(shù)語可以促進(jìn)積極的情感,因此造成了情感分類的錯(cuò)誤判斷.

4 總 結(jié)

本文提出了一種基于語境RoBERTa與雙注意力圖卷積網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí)模型.在隱喻識(shí)別和情感分類任務(wù)中做了如下工作:1)將CR模型作為預(yù)訓(xùn)練模型對(duì)隱喻語料進(jìn)行詞向量化,并將結(jié)果輸入到BiLSTM中進(jìn)行編碼,得到上下文語義信息表示;2)使用依存樹和GCN提取句中的句法結(jié)構(gòu)信息;3)分別對(duì)上下文信息與句法信息使用單詞級(jí)注意力機(jī)制,將得到的隱藏向量相拼接獲得語義聯(lián)合向量表示,將其輸入到CTE中進(jìn)行編碼,再經(jīng)過句子級(jí)注意力機(jī)制,將得到的隱藏向量輸入到softmax分類層輸出結(jié)果;4)使用門控單元共享兩個(gè)任務(wù)過程中的參數(shù).在兩個(gè)任務(wù)上的對(duì)比實(shí)驗(yàn)表明,CRBGM具有一定的有效性.然而隱喻信息不僅局限于單詞和句子層面,因此下一步的工作將在篇章層面研究隱喻句之間的話語信息.

猜你喜歡
語義單詞機(jī)制
語言與語義
單詞連一連
自制力是一種很好的篩選機(jī)制
文苑(2018年21期)2018-11-09 01:23:06
看圖填單詞
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
破除舊機(jī)制要分步推進(jìn)
認(rèn)知范疇模糊與語義模糊
注重機(jī)制的相互配合
打基礎(chǔ) 抓機(jī)制 顯成效
最難的單詞
主站蜘蛛池模板: 亚洲第一天堂无码专区| 国产麻豆va精品视频| 香蕉蕉亚亚洲aav综合| 国产91小视频| 最新国语自产精品视频在| 青青青视频蜜桃一区二区| 国产无人区一区二区三区| 国产成人高清亚洲一区久久| 日韩欧美中文在线| 农村乱人伦一区二区| 国产成人精品高清不卡在线 | 国产精品久久自在自线观看| 国产欧美日韩91| 亚洲成人网在线观看| 全部免费特黄特色大片视频| 国产成人无码Av在线播放无广告| 丁香六月激情综合| 国模沟沟一区二区三区| 露脸真实国语乱在线观看| 欧美特黄一级大黄录像| 国产欧美亚洲精品第3页在线| 国产精品三区四区| 色呦呦手机在线精品| 色综合中文| 亚洲无线一二三四区男男| 69av在线| 国产精品第一区| 午夜福利视频一区| 亚洲精品无码不卡在线播放| 久久久久夜色精品波多野结衣| 国产第一页屁屁影院| 日韩欧美视频第一区在线观看| 国产欧美又粗又猛又爽老| 视频国产精品丝袜第一页| 国产网友愉拍精品视频| 日本免费一区视频| 少妇极品熟妇人妻专区视频| 国产噜噜噜| 多人乱p欧美在线观看| 国产永久在线观看| 99在线视频网站| 中文字幕第1页在线播| 国产福利在线免费| 亚洲女人在线| 日韩黄色在线| 色成人亚洲| 欧美在线精品怡红院| 99久久亚洲综合精品TS| 亚洲欧洲一区二区三区| 国产精品美乳| 美女一级毛片无遮挡内谢| 亚洲AV无码乱码在线观看代蜜桃 | 91网站国产| 国产成人盗摄精品| 免费国产无遮挡又黄又爽| 四虎成人在线视频| 欧美色综合网站| 午夜老司机永久免费看片| 亚洲天堂网在线观看视频| 狠狠干欧美| 亚洲成A人V欧美综合天堂| 全裸无码专区| 免费毛片视频| 午夜天堂视频| 国产成人精品视频一区视频二区| 精品久久香蕉国产线看观看gif| 亚洲综合第一区| 亚洲黄色网站视频| 不卡无码h在线观看| 亚洲男人的天堂视频| 麻豆精品国产自产在线| 欧美五月婷婷| 亚洲国产一区在线观看| 四虎国产精品永久一区| 亚洲最猛黑人xxxx黑人猛交 | 午夜日b视频| 国产一级毛片网站| 91毛片网| 九九久久99精品| 真实国产乱子伦高清| 欧美视频在线观看第一页| 亚洲网综合|