張 軍,張 麗,沈凡凡,譚 海,何炎祥
1.東華理工大學(xué) 信息工程學(xué)院,南昌 330013
2.東華理工大學(xué) 江西省放射性地學(xué)大數(shù)據(jù)技術(shù)工程實(shí)驗(yàn)室,南昌 330013
3.武漢大學(xué) 計(jì)算機(jī)學(xué)院,武漢 430072
4.南京審計(jì)大學(xué) 計(jì)算機(jī)學(xué)院,南京 211815
文本情感分析是指利用自然語(yǔ)言處理和文本挖掘技術(shù)對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理和抽取的過(guò)程[1]。文本情感分為顯示情感和隱式情感[2]。顯示情感含有明顯的情感詞,使得文本情感容易被區(qū)分;而隱式情感文本中不含有顯示情感詞,這使得文本情感分析變得困難,但是可以表達(dá)出比顯示情感更加豐富多彩的情感,這對(duì)當(dāng)今互聯(lián)網(wǎng)時(shí)代來(lái)說(shuō)顯得尤為重要。例如,商家可以對(duì)用戶評(píng)論中隱藏的情感進(jìn)行分析,以此對(duì)自己的產(chǎn)品進(jìn)行優(yōu)化,從而更好地滿足用戶需求。但是隱式情感通常表達(dá)比較含蓄、不直觀,導(dǎo)致隱式情感的分析與特征提取比較困難,因此隱式情感分析在自然語(yǔ)言處理中成為亟需解決的難點(diǎn)之一[3]。
近年來(lái),自然語(yǔ)言處理領(lǐng)域中針對(duì)文本情感分析的研究層出不窮,王麗亞等人[4]針對(duì)傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)中同層神經(jīng)元之間特征信息無(wú)法充分利用、缺乏句子整體特征表示、限制模型的特征學(xué)習(xí)能力等問(wèn)題,提出了基于CNN-BiGRU聯(lián)合網(wǎng)絡(luò)并引入注意力機(jī)制的模型,有效地提高了文本分類的準(zhǔn)確率。翟社平等人[5]針對(duì)雙語(yǔ)文本情感分析方法稀缺及準(zhǔn)確率較低的問(wèn)題,根據(jù)同一英文詞匯在不同語(yǔ)境下具有不同文本情感作用這一特點(diǎn),提出了基于注意力機(jī)制和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-directional long short term memory,BiLSTM)的雙語(yǔ)文本情感分析模型,提高了雙語(yǔ)文本情感分析的準(zhǔn)確率。陶永才等人[6]認(rèn)為單一的文本詞向量不能全面表示文本中的情感特征信息,且無(wú)法有效捕獲文本和標(biāo)簽之間的聯(lián)系,提出了一種基于多特征融合的短文本情感分析模型,從多特征矩陣中學(xué)習(xí)到句子中更全面的情感信息,使得短文本情感分析能力得到了有效提升。
目前關(guān)于情感分析的大部分研究以顯示情感分析為主,忽略了對(duì)隱晦情感表達(dá)的文本進(jìn)行分析,但不少文本情感分析應(yīng)用場(chǎng)景中又經(jīng)常出現(xiàn)帶有隱式情感的文本。相較于顯示情感分析,隱式情感分析面臨著更多更具復(fù)雜性的挑戰(zhàn)[7]:(1)隱式情感文本不含顯示情感詞,語(yǔ)言表達(dá)比較含蓄,使得基于情感詞典的方法和基于詞袋模型的文本表示不再有效;(2)隱式情感與語(yǔ)境和主觀表達(dá)聯(lián)系密切,缺乏通用性,使得對(duì)語(yǔ)義本身的理解更加困難。表1展示了蘊(yùn)含不同情感的隱式情感句示例。

表1 隱式情感句示例Table 1 Samples ofimplicit sentiment sentences
表1中,中性隱式情感句是對(duì)客觀事實(shí)進(jìn)行陳述,不摻雜任何隱式情感,相對(duì)容易區(qū)分;褒義情感句營(yíng)造了令人心曠神怡、十分愜意的氛圍;貶義情感句側(cè)面反映了動(dòng)物園的人流量大,影響游客觀看動(dòng)物的心情。這些看似普通的文本實(shí)則包含了不同的隱式情感,使得這些文本的情感分析更具挑戰(zhàn)性。
針對(duì)隱式情感分析中不含顯示情感詞引起的文本情感識(shí)別困難的問(wèn)題,Zhang等人[8]研究發(fā)現(xiàn)使用一些領(lǐng)域名詞以及名詞短語(yǔ)能夠隱晦表達(dá)情感,針對(duì)句子中被忽略的具有隱式情感傾向的名詞短語(yǔ)問(wèn)題,提出了一種識(shí)別具有隱式情感領(lǐng)域名詞特征的方法,通過(guò)修改特征的意見(jiàn)詞和上下文語(yǔ)境來(lái)確定特征極性。趙容梅等人[9]利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行特征提取,并結(jié)合長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory,LSTM)[10]結(jié)構(gòu)提取上下文信息,并且在網(wǎng)絡(luò)中加入注意力機(jī)制,構(gòu)建了一種新型混合神經(jīng)網(wǎng)絡(luò)中文隱式情感分析模型。隱式情感的識(shí)別通常還需要引入其他包含隱式情感的特征和知識(shí)。黃山成等人[11]根據(jù)文本的隱式情感極性與句中實(shí)體詞、上下文語(yǔ)境、外部知識(shí)相關(guān)的特點(diǎn),提出一種基于ERNIE2.0-BiLSTM-Attention的隱式情感分析方法,能夠較好捕捉隱式情感句的語(yǔ)義及上下文信息,有效提升了隱式情感的識(shí)別能力。陳秋娥等人[12]分析認(rèn)為現(xiàn)有序列化模型的中文隱式情感分析中的特征信息提取不夠準(zhǔn)確,對(duì)篇章級(jí)的文本信息提取存在梯度爆炸或梯度消失的問(wèn)題,提出了融合雙向長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)和樹(shù)形遞歸神經(jīng)網(wǎng)絡(luò)(context-aware tree recurrent neutral network,CA-TRNN)的并行混合模型,有效提高了分類結(jié)果的準(zhǔn)確率,并且時(shí)間代價(jià)小,具有更好的適用性。
然而,上述研究仍然存在隱式情感特征提取不夠準(zhǔn)確的問(wèn)題。對(duì)此,本文提出了一種基于RoBERTa的融合模型——RoBERTa-BiLSTM-Attention(RBLA)模型,通過(guò)優(yōu)化隱式情感分析任務(wù)中隱式情感特征的提取機(jī)制,進(jìn)一步提高隱式情感分類的精確率。本文的主要貢獻(xiàn)如下:
(1)使用RoBERTa模型進(jìn)行語(yǔ)言預(yù)訓(xùn)練,在增加訓(xùn)練數(shù)據(jù)的基礎(chǔ)上使用更大的batch size,同時(shí)采用動(dòng)態(tài)Masking機(jī)制對(duì)長(zhǎng)句序列進(jìn)行訓(xùn)練,有效捕捉了隱式情感句中詞語(yǔ)的語(yǔ)義特征。
(2)使用BiLSTM對(duì)隱式情感文本的上下文進(jìn)行特征提取,彌補(bǔ)了預(yù)訓(xùn)練模型遺忘上下文信息的缺陷,可以更加準(zhǔn)確地捕獲隱式情感文本的上下文特征。
(3)引入Attention機(jī)制,對(duì)隱式情感文本中不同分類的隱式情感詞進(jìn)行權(quán)重計(jì)算,避免了重要語(yǔ)義信息的丟失,可有效捕捉隱式情感文本中包含的隱式情感特征,并探究了Attention機(jī)制對(duì)RBLA模型在不同隱式情感分類中的影響。
RoBERTa模型[13]是在BERT預(yù)訓(xùn)練模型[14]的基礎(chǔ)上加以改進(jìn)得到的。RoBERTa主要針對(duì)BERT做了三點(diǎn)改進(jìn)[13]:(1)采用動(dòng)態(tài)Masking機(jī)制,每次向模型輸入一個(gè)序列時(shí),都會(huì)生成一種新的遮蓋方式。(2)刪除了Next Sentence Prediction(NSP)任務(wù)。(3)增加了預(yù)訓(xùn)練過(guò)程的語(yǔ)料規(guī)模,擴(kuò)大Batch Size的同時(shí)增加了訓(xùn)練時(shí)的步長(zhǎng)。
與BERT模型一致,RoBERTa模型同樣使用多個(gè)雙向Transformer模型[15]的encoder部分堆疊組成主體框架,能更徹底地捕捉文本中的雙向關(guān)系。圖1展示了Transformer模型的encoder邏輯結(jié)構(gòu)。

圖1 Transformer-encoder邏輯結(jié)構(gòu)Fig.1 Logical structure of Transformer-encoder
圖1中,詞向量表示單詞在整個(gè)語(yǔ)料庫(kù)中的位置信息;位置編碼表示單詞出現(xiàn)在句子中的位置,用于模型感知詞與詞之間的位置信息。詞向量和位置編碼相加作為encoder的輸入X。多頭注意力機(jī)制模塊使用多個(gè)獨(dú)立的Attention模塊對(duì)輸入層的信息進(jìn)行并行計(jì)算,可有效防止產(chǎn)生過(guò)擬合現(xiàn)象。殘差連接和層歸一化層是由殘差連接和層歸一化兩部分組成。層歸一化將每一層神經(jīng)元的輸入都轉(zhuǎn)化為均值方差,以增加非線性變化。殘差連接部分將輸入X和一個(gè)非線性變換F(X)進(jìn)行線性疊加,并將疊加后的結(jié)果作為輸出。其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,F(xiàn)(X)表示殘差,F(xiàn)(X)與X維度一致。

圖2 殘差連接網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Residual connection network structure
前饋神經(jīng)網(wǎng)絡(luò)層利用公式(1)對(duì)encoder的輸入進(jìn)行計(jì)算,生成相應(yīng)的向量矩陣We。該網(wǎng)絡(luò)層主要包含一個(gè)兩層的全連接層,其中,第一層使用了Relu激活函數(shù),使收斂速度更快,計(jì)算更加高效。

公式(1)中,W1與W2表示兩個(gè)全連接層之間的權(quán)重矩陣,b1與b2表示兩個(gè)全連接層之間的偏置項(xiàng)。
LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[16]的一個(gè)變體,有效緩解了RNN中存在的梯度消失問(wèn)題。圖3展示了LSTM邏輯結(jié)構(gòu),該結(jié)構(gòu)中包括遺忘門(mén)、輸入門(mén)和輸出門(mén),分別實(shí)現(xiàn)LSTM的遺忘階段、選擇記憶階段和輸出階段。

圖3 LSTM邏輯結(jié)構(gòu)Fig.3 Logical structure of LSTM
圖3中,ft、it和ot分別表示遺忘門(mén)、輸入門(mén)和輸出門(mén);ht-1為上一時(shí)刻的輸出,xt表示詞嵌入,二者一起作為L(zhǎng)STM的輸入;Ct表示細(xì)胞狀態(tài),Ct-1表示上一時(shí)刻細(xì)胞狀態(tài),保留了未被遺忘的歷史信息;ht為t時(shí)刻的輸出的隱藏層狀態(tài)。
遺忘門(mén)是對(duì)上一時(shí)刻的輸出進(jìn)行選擇性遺忘,其計(jì)算如公式(2)所示。其中,Wf表示權(quán)重矩陣,bf為偏置參數(shù)。

輸入門(mén)用于更新細(xì)胞狀態(tài)。上一個(gè)時(shí)刻的輸出ht-1和當(dāng)前輸入的信息xt通過(guò)sigmoid激活函數(shù)計(jì)算生成需要更新的信息it,計(jì)算如公式(3)所示;它們?cè)偻ㄟ^(guò)tanh函數(shù)計(jì)算生成一個(gè)新的候選值向量C?t,計(jì)算如公式(4);最后,利用公式(5)計(jì)算得到新的細(xì)胞狀態(tài)Ct。公式(3)~(5)中,Wi、Wc表示權(quán)重矩陣,bi,bc為偏置參數(shù)。

輸出門(mén)用來(lái)確定下一個(gè)隱藏狀態(tài)ht的值,其輸入為前一個(gè)隱藏層狀態(tài)信息ht-1和當(dāng)前輸入xt,通過(guò)sigmoid激活函數(shù)對(duì)其進(jìn)行計(jì)算,篩選出需要記住的重要信息,計(jì)算如公式(6)所示;之后利用tanh函數(shù)對(duì)輸入門(mén)新產(chǎn)生的細(xì)胞狀態(tài)Ct進(jìn)行非線性化處理,輸出t時(shí)刻的隱藏層狀態(tài)ht,計(jì)算過(guò)程如公式(7)所示。公式(6)和(7)中,Wo∈Rdh×dk表示權(quán)重矩陣,bo∈Rdh為偏置參數(shù)。

其中,·和?分別表示矩陣乘法和元素乘法。
本文的隱式情感分析任務(wù)是對(duì)隱式情感句進(jìn)行三分類(中性、褒義、貶義)。隱式情感句的上下文情感對(duì)隱式情感句的分類任務(wù)有著重要影響,對(duì)此,本文不僅捕捉隱式情感句本身的情感特征,還對(duì)隱式情感句上下文的情感特征進(jìn)行提取。
本文對(duì)隱式情感句分類任務(wù)可以定義為:對(duì)于給定的任意隱式情感句Xt及其對(duì)應(yīng)的上下文句子X(jué)c,對(duì)其進(jìn)行預(yù)測(cè)Xt和Xc對(duì)應(yīng)的Pt。公式(8)定義了隱式情感句的分類任務(wù)。

公式(8)中,Xt表示隱式情感句包含的語(yǔ)義情感特征,用矩陣形式表示為Xt=(Xt1,Xt2,…,Xtn),其中,n表示隱式情感句中包含的詞語(yǔ)數(shù)量,Xtn表示隱式情感句Xt的第n個(gè)詞語(yǔ)的情感特征。Xc表示隱式情感句上下文句子中包含的語(yǔ)義情感特征,用矩陣形式表示為Xc=(Vtc1,Vtc2,…,Vtcn),其中,Vtcn表示隱式情感句Xt對(duì)應(yīng)的上下文語(yǔ)句的第n個(gè)詞語(yǔ)的情感特征。Pt表示隱式情感句Xt所屬類別的概率,其中pt0表示的是該隱式情感句為中性的概率,pt1表示的是該隱式情感句為褒義的概率,pt2表示的是該隱式情感句為貶義的概率。
針對(duì)隱式情感分析面臨的句中隱藏情感捕捉困難等問(wèn)題,本文提出了一種基于RoBERTa的RBLA融合模型,利用大規(guī)模預(yù)訓(xùn)練模型RoBERTa學(xué)習(xí)隱式情感句中字詞的語(yǔ)義特征。該模型融合了雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和注意力機(jī)制,捕獲句子間的依賴關(guān)系,可有效提取文本中深層次的隱式情感特征,從而可更好地提升隱式情感分析模型的性能。RBLA模型包括輸入層、預(yù)訓(xùn)練模型層、BiLSTM層、Attention層、全連接層和輸出層,其模型結(jié)構(gòu)如圖4所示。

圖4 RBLA模型邏輯結(jié)構(gòu)Fig.4 Logical structure of RBLA model
本文模型的輸入層將輸入文本中的每個(gè)詞語(yǔ)通過(guò)one-hot編碼表示法轉(zhuǎn)換為相對(duì)應(yīng)的向量。首先將分類值映射成整數(shù)值,然后將每個(gè)整數(shù)值表示為二進(jìn)制向量,再使用位置編碼保存單詞在序列中的相對(duì)或絕對(duì)位置、感知詞與詞之間的位置信息,將得到的詞向量與位置編碼相加生成的詞嵌入向量作為預(yù)訓(xùn)練層中的輸入,表示為,其中,E的維度大小為n×d。輸入層邏輯結(jié)構(gòu)如圖5所示。其中,[CLS]表示起始位置分隔符,[SEP]表示句子結(jié)束標(biāo)識(shí)符。

圖5 輸入層邏輯結(jié)構(gòu)Fig.5 Logical structure of input layer
本文模型的RoBERTa層采用了12層的Transformer雙向編碼器作為隱式情感句的特征提取器。RBLA模型輸入層中的每個(gè)詞嵌入向量經(jīng)過(guò)RoBERTa層編碼運(yùn)算后,可實(shí)現(xiàn)詞嵌入向量之間的雙向關(guān)聯(lián),使得模型能學(xué)習(xí)到不同語(yǔ)境下每個(gè)詞嵌入向量包含的語(yǔ)義特征。
RoBERTa層采用動(dòng)態(tài)Masking機(jī)制對(duì)詞嵌入向量進(jìn)行預(yù)訓(xùn)練,其結(jié)構(gòu)如圖6所示。該層需要進(jìn)行兩個(gè)預(yù)訓(xùn)練任務(wù)。第一個(gè)任務(wù)需將詞嵌入向量復(fù)制10份,每份都隨機(jī)選擇15%的Tokens進(jìn)行動(dòng)態(tài)遮蓋,使得在大量數(shù)據(jù)不斷輸入的過(guò)程中,模型會(huì)逐漸適應(yīng)不同的掩碼策略,學(xué)習(xí)到不同的語(yǔ)言表征。第二個(gè)任務(wù)則使用FULL-SENTENCES訓(xùn)練方式,從多角度學(xué)習(xí)來(lái)自輸入層的詞嵌入向量,豐富語(yǔ)義信息,并將當(dāng)前的輸出輸入到前饋神經(jīng)網(wǎng)絡(luò)層,以加快收斂速度。詞向量E經(jīng)過(guò)RoBERTa層編碼后得到隱式情感文本中每個(gè)隱式情感詞在不同語(yǔ)境下所包含的情感特征為Xt=(Xt1,Xt2,…,Xtn)。

圖6 RoBERTa層邏輯結(jié)構(gòu)圖Fig.6 Logical structure of RoBERTa layer
在文本情感分類任務(wù)中,當(dāng)前時(shí)刻的輸出不僅和當(dāng)前時(shí)刻之前的狀態(tài)有關(guān),還可能和當(dāng)前時(shí)刻之后的狀態(tài)有關(guān)系。雙向長(zhǎng)短期記憶網(wǎng)絡(luò)BiLSTM是由一個(gè)正向處理序列的LSTM和一個(gè)反向處理序列的LSTM組成,可對(duì)輸入的上下文信息進(jìn)行深層次特征提取,從而有效捕捉隱式情感句上下文中包含的情感特征。因此,本文模型在RoBERTa層后引入了BiLSTM層,利用BiLSTM對(duì)隱式情感文本的上下文進(jìn)行特征提取,以更加準(zhǔn)確地捕獲隱式情感文本的上下文全局特征信息,從而彌補(bǔ)RoBERTa層中預(yù)訓(xùn)練模型容易遺忘上下文信息的缺陷。BiLSTM的邏輯結(jié)構(gòu)如圖7所示。在BiLSTM層中,兩個(gè)反向的LSTM共同決定了BiLSTM的最終輸出。對(duì)于每個(gè)時(shí)刻t,輸入信息會(huì)同時(shí)提供給正反兩個(gè)方向的LSTM。

圖7 BiLSTM的邏輯結(jié)構(gòu)Fig.7 Logical structure of BiLSTM
雙向長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)隱式情感文本進(jìn)行特征提取時(shí),第一層的正向長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)t時(shí)刻的輸入信息xt與t-1時(shí)刻的輸出信息St-1進(jìn)行正向運(yùn)算得到t時(shí)刻的正向輸出信息St,其計(jì)算如公式(9)所示;第二層反向長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)t時(shí)刻的輸入信息xt與t+1時(shí)刻的輸出信息Lt+1進(jìn)行反向運(yùn)算得到t時(shí)刻的反向輸出信息Lt,其計(jì)算如公式(10)所示;隱藏層將正反向的運(yùn)算結(jié)果保存下來(lái)共同決定雙向長(zhǎng)短期記憶網(wǎng)絡(luò)在t時(shí)刻最終的輸出結(jié)果Vt,其計(jì)算如公式(11)所示:

其中,W、U、V代表正向計(jì)算的權(quán)重矩陣,W"、U"、V"代表反向計(jì)算的權(quán)重矩陣。通過(guò)BiLSTM層輸出隱式情感句上下文中隱式情感詞包含的情感特征,表示為Xc=(Vtc1,Vtc2,…,Vtcn)。
為了有效突出隱式情感文本中隱含的重要信息,本文提出的RBLA模型還引入了注意力機(jī)制,對(duì)BiLSTM層的輸出詞向量依據(jù)其重要性分配高低不同的權(quán)重值,可減少預(yù)測(cè)所需的可學(xué)習(xí)權(quán)重的數(shù)量,從而更高效地學(xué)習(xí)目標(biāo)詞周圍句子的上下文嵌入語(yǔ)義。同時(shí)還可以在對(duì)每個(gè)輸入詞向量的權(quán)重系數(shù)再次加權(quán)平均時(shí),有效過(guò)濾原文本中存在冗余信息和噪聲,從而進(jìn)一步提高分類的精度。
注意力機(jī)制層首先對(duì)BiLSTM層輸出的隱式情感句上下文包含的情感特征Xc進(jìn)行計(jì)算,得到其隱含表示H,其計(jì)算如公式(12)所示;然后計(jì)算H與隨機(jī)初始化參數(shù)矩陣WT的相似度,將輸入的每個(gè)詞向量在整體語(yǔ)義場(chǎng)景下分配的權(quán)重系數(shù)用softmax函數(shù)進(jìn)行歸一化處理,得到每個(gè)詞向量的標(biāo)準(zhǔn)化權(quán)重α,其計(jì)算如公式(13)所示;最后將得到的權(quán)重矩陣αT與BiLSTM層輸出的隱式情感句上下文的情感特征信息Xc相乘得到最終的加權(quán)輸出Y,Y即是捕獲到的隱式情感文本中包含的隱式情感特征,其計(jì)算如公式(14)所示:

其中,Wa表示注意力層權(quán)重矩陣,ba表示注意力機(jī)制層的偏置項(xiàng)。
本文模型的全連接層將隱式情感傾向相關(guān)的融合分布式特征表示映射到實(shí)例標(biāo)簽空間,對(duì)隱式情感文本進(jìn)行分類。將注意力機(jī)制層的輸出Y輸入到全連接層,與全連接層權(quán)重矩陣Wd計(jì)算后輸出M,計(jì)算如公式(15)所示:

其中,bd表示全連接層的偏置項(xiàng)。
本文模型的輸出層采用softmax函數(shù)對(duì)全連接層的輸出信息M進(jìn)行歸一化處理,得到隱式情感文本中每個(gè)隱式情感詞的概率值m,通過(guò)隱式情感句中m值最大的隱式情感詞判斷隱式情感句的情感傾向。計(jì)算過(guò)程如公式(16)所示:

其中,Ws表示輸出層參數(shù)矩陣,b為輸出層的偏置項(xiàng)。
本文評(píng)測(cè)使用的數(shù)據(jù)集來(lái)源于2021年舉辦的第十屆全國(guó)社會(huì)媒體處理大會(huì)中文隱式情感分析評(píng)測(cè)數(shù)據(jù)集。該數(shù)據(jù)集主要來(lái)源于各大產(chǎn)品論壇、旅游網(wǎng)站、新浪微博,內(nèi)容包括旅游、國(guó)考、傳統(tǒng)節(jié)日、春節(jié)聯(lián)歡晚會(huì)、霧霾等方面。該數(shù)據(jù)集使用了一個(gè)大規(guī)模情感詞典對(duì)所有包含顯式情感詞的文本進(jìn)行過(guò)濾,并對(duì)剩下不含顯式情感詞的數(shù)據(jù)進(jìn)行標(biāo)注。其中,無(wú)情感傾向的數(shù)據(jù)被標(biāo)注為標(biāo)簽0、具有褒義隱式情感傾向的數(shù)據(jù)被標(biāo)注為標(biāo)簽1、具有貶義隱式情感傾向的數(shù)據(jù)被標(biāo)注為標(biāo)簽2。該數(shù)據(jù)集相關(guān)信息如表2所示。

表2 數(shù)據(jù)集信息表Table 2 Datasets information
由于數(shù)據(jù)集中的樣本數(shù)量不平衡,本文采用了Easy Ensemble采樣方法[17]對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行隨機(jī)下采樣。為了保障采樣質(zhì)量,每次抽樣過(guò)程均獨(dú)立采樣,對(duì)數(shù)據(jù)量大的類別降低抽樣比例,對(duì)數(shù)據(jù)量小的類別提高抽樣比例。實(shí)驗(yàn)過(guò)程中,對(duì)數(shù)據(jù)集進(jìn)行10次采樣后,生成了相對(duì)平衡的測(cè)試數(shù)據(jù)集。再結(jié)合CleanLab數(shù)據(jù)清洗方法對(duì)生成的新數(shù)據(jù)集進(jìn)行數(shù)據(jù)交叉清洗,去除數(shù)據(jù)集中的異常點(diǎn)。為了增強(qiáng)本文模型的泛化能力,在不改變?cè)恼Z(yǔ)義的情況下,本文還對(duì)數(shù)據(jù)進(jìn)行了增強(qiáng)處理。在下采樣的過(guò)程中,本文使用了NLPCDA工具包[18]對(duì)數(shù)據(jù)進(jìn)行增強(qiáng)操作,利用隨機(jī)同義詞替換方法對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充。
為了在隱式情感分析數(shù)據(jù)集上取得更優(yōu)的分類結(jié)果,本實(shí)驗(yàn)進(jìn)行了一些超參數(shù)設(shè)置,如表3所示。其中,Batch Size表示每個(gè)batch中訓(xùn)練樣本數(shù)量,BiLSTM網(wǎng)絡(luò)層的兩層LSTM設(shè)置相同的隱藏層單元數(shù),Epoch表示訓(xùn)練迭代次數(shù),LR表示學(xué)習(xí)率。實(shí)驗(yàn)采用了Dropout方法緩解過(guò)擬合現(xiàn)象。

表3 參數(shù)設(shè)置Table 3 Parameter settings
考慮到本次實(shí)驗(yàn)使用的計(jì)算平臺(tái)算力有限,Batch Size值設(shè)為32。BiLSTM網(wǎng)絡(luò)層的隱藏單元數(shù)在實(shí)驗(yàn)過(guò)程中分別設(shè)置了64、128、256三個(gè)值,當(dāng)其取值128時(shí)分類效果最好,因此,將BiLSTM網(wǎng)絡(luò)層的隱藏單元數(shù)設(shè)為128。通過(guò)類似的實(shí)驗(yàn)方法確定了LR參數(shù)的取值。參數(shù)Epoch和Dropout的取值分析如3.5.3小節(jié)所述。
實(shí)驗(yàn)采用準(zhǔn)確率P、召回率R以及F1值等3個(gè)指標(biāo)評(píng)價(jià)模型性能,其計(jì)算分別如公式(17)~(19)所示。
(1)精確率P表示正樣本預(yù)測(cè)為正樣本的數(shù)量占所有預(yù)測(cè)為正樣本的比重,計(jì)算如公式(17)所示:

(2)召回率R表示正樣本預(yù)測(cè)為正樣本的數(shù)量占所有實(shí)際類別為正的樣本數(shù)量的比重,計(jì)算如公式(18)所示:

(3)F1值為精確率和召回率的加權(quán)調(diào)和平均值,計(jì)算如公式(19)所示:

其中,TP表示將正樣本預(yù)測(cè)為正樣本的數(shù)量;FN表示將正樣本預(yù)測(cè)為負(fù)樣本的數(shù)量;FP表示將負(fù)樣本預(yù)測(cè)為正樣本的數(shù)量。
為了驗(yàn)證RBLA模型在隱式情感分析任務(wù)中的有效性,本文進(jìn)行了兩種類別的對(duì)比實(shí)驗(yàn)。第一種是將RBLA模型與幾種典型的現(xiàn)有文本分類模型進(jìn)行比較;第二種是探究注意力機(jī)制對(duì)本文模型的影響。本文實(shí)驗(yàn)共與以下六種文本分類模型進(jìn)行了對(duì)比。
(1)LSTM:通過(guò)學(xué)習(xí)句子的語(yǔ)義信息,獲取句子間依賴關(guān)系的傳統(tǒng)文本分類模型。
(2)LSTM-Attention[19]:在長(zhǎng)短期記憶網(wǎng)絡(luò)中引入注意力機(jī)制的隱式情感分析模型。
(3)BERT:使用BERT預(yù)訓(xùn)練模型做隱式情感文本分類任務(wù)。
(4)RoBERTa:使用RoBERTa預(yù)訓(xùn)練模型做隱式情感文本分類任務(wù)。
(5)EBA(ERNIE-BiLSTM-Attention):使用ERNIE2.0預(yù)訓(xùn)練模型進(jìn)行文本表示,再利用BiLSTM+Attention混合網(wǎng)絡(luò)將其輸出文本表示進(jìn)行隱式情感分析。
(6)CA-TRNN[20]:使用BiLSTM和TRNN兩個(gè)模型分別對(duì)上下文和目標(biāo)情感語(yǔ)句進(jìn)行建模的隱式情感分析模型。
3.5.1 本文模型對(duì)比當(dāng)前流行的分類模型
為了驗(yàn)證RBLA模型在隱式情感分類中的整體性能,分別與上述六種模型進(jìn)行了對(duì)比實(shí)驗(yàn),測(cè)試了它們的精確率、召回率和F1值,其實(shí)驗(yàn)結(jié)果如表4所示。

表4 實(shí)驗(yàn)結(jié)果對(duì)比Table 4 Comparison of experimental results單位:%
從表4可以看出,RBLA模型與LSTM-Attention、LSTM、BERT和RoBERTa四種基線模型中性能表現(xiàn)最好的RoBERTa模型相比,RBLA模型在精確率、召回率和F1值上分別高出了3.07、2.12和1.01個(gè)百分點(diǎn)。這說(shuō)明相較于典型的基線模型,本文提出的RBLA融合模型在隱式情感分析任務(wù)上具有更好的性能。另外,與當(dāng)前主流的CA-TRNN和EBA兩種隱式情感分析模型中分類效果最好的EBA模型相比,RBLA模型在精確率、召回率和F1值上分別高出了EBA模型1.44、2.72和1.42個(gè)百分點(diǎn)。這說(shuō)明相較于主流的融合模型,本文的RBLA融合模型在RoBERTa預(yù)訓(xùn)練模型的基礎(chǔ)上融合雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和注意力機(jī)制后,更加準(zhǔn)確地捕獲了隱式情感文本中的隱含情感特征,對(duì)隱式情感分析的整體效果得到了有效提升。
3.5.2 探究注意力機(jī)制對(duì)本文模型的影響
本文將隱式情感文本的情感傾向類別定義為中性、褒義和貶義三種,分別用標(biāo)簽0、1、2表示。為了探究RBLA模型方法中注意力機(jī)制對(duì)情感分類的影響,對(duì)RBLA模型和不加注意力機(jī)制的RBL(Roberta-BiLSTM)模型進(jìn)行了隱式情感分類性能對(duì)比,實(shí)驗(yàn)結(jié)果如表5所示。

表5 情感分類結(jié)果對(duì)比Table 5 Comparison of emotion classification results單位:%
從表5可以看出,本文提出的RBLA模型在中性、褒義和貶義三種情感分類的精確率上分別高出RBL模型1.63、0.71和1.73個(gè)百分點(diǎn)。同樣,相較于RBL模型,RBLA模型在中性情感分類和貶義情感分類的F1值上分別高出0.72和0.78個(gè)百分點(diǎn),在褒義情感分類的召回率上高出1.04個(gè)百分點(diǎn)。雖然RBLA模型在中性情感和貶義情感分類的召回率及褒義情感分類的F1值上略低于RBL模型,但從整體性能上看,RBLA模型在精確率和F1值上均高于RBL模型。
3.5.3 模型參數(shù)分析
為了進(jìn)一步提高模型預(yù)測(cè)精確率,實(shí)驗(yàn)還采用Dropout方法緩解過(guò)擬合現(xiàn)象。Dropout取值不同會(huì)影響模型的輸出結(jié)果。為了設(shè)置合理的Dropout值,進(jìn)行了多組實(shí)驗(yàn)。從圖8中可以看出,當(dāng)Dropout取值為0.5時(shí),各項(xiàng)指標(biāo)值最高,提高了模型的泛化能力。因此,Dropout參數(shù)取值為0.5。

圖8 Dropout曲線Fig.8 Dropout curve
為了進(jìn)一步展示本文提出的RBLA模型的優(yōu)越性,本文對(duì)該模型的訓(xùn)練過(guò)程進(jìn)行了進(jìn)一步探究。為了反映實(shí)驗(yàn)在迭代過(guò)程中的動(dòng)態(tài)變化,本次進(jìn)行了10次迭代實(shí)驗(yàn)。先對(duì)整體損失率進(jìn)行了動(dòng)態(tài)刻畫(huà),再對(duì)不同的情感的精確率、召回率和F1值分別進(jìn)行了動(dòng)態(tài)刻畫(huà),實(shí)驗(yàn)結(jié)果如圖9~圖12所示。

圖9 整體損失率變化圖Fig.9 Variation of loss rate

圖12 不同情感的F1值Fig.12 F1 values of different sentiments

圖11 不同情感的召回率Fig.11 Recall rate of different sentiments
圖9展示了RBLA模型訓(xùn)練過(guò)程中的loss值整體變化趨勢(shì),在第10次迭代完成時(shí),趨于收斂。因此,將參數(shù)Epoch的值設(shè)為10。
為了驗(yàn)證Epoch參數(shù)取值的有效性,還對(duì)RBLA模型的精確率、召回率和F1值的收斂情況進(jìn)行了實(shí)驗(yàn)分析。從圖10~圖12可以看出,當(dāng)Epoch取值為10時(shí),RBLA模型的精確率、召回率和F1值均趨于收斂。

圖10 不同情感的精確率Fig.10 Precision rate of different emotions
另外,從圖10~圖12還可以看出,RBLA模型對(duì)中性情感的預(yù)測(cè)具有最佳效果。而在預(yù)測(cè)褒義情感分類時(shí),精確率、召回率和F1值相較于其他兩種情感整體偏低。褒義情感在三種情感分類中的初始指標(biāo)值最低,說(shuō)明隱式文本中的褒義情感識(shí)別難度更大。但是,在模型訓(xùn)練過(guò)程中,RBLA在隱式文本的褒義情感分類性能上也取得了較好的提升,褒義情感的各項(xiàng)指標(biāo)的增長(zhǎng)率均高于中性情感和貶義情感。
3.5.4 實(shí)例分析
為了進(jìn)一步分析RBLA模型提取的隱式情感特征在隱式情感分類中的有效性,本文從數(shù)據(jù)集中抽取了幾個(gè)隱式情感例句與其他模型進(jìn)行對(duì)比分析,如表6所示。其中,“多數(shù)模型”代表本文在3.4節(jié)中選取的對(duì)比模型中大部分模型得出的結(jié)果,“少數(shù)模型”代表本文在3.4節(jié)中選取的對(duì)比模型中小部分模型得出的結(jié)果。

表6 情感句對(duì)比Table 6 Comparison of emotional sentence
從表6中的1、2句可以看出,RBLA模型和大部分對(duì)比模型在中性情感句上都已具有較好的分析效果。從3、4句可以看出,對(duì)褒義情感句進(jìn)行情感傾向判斷時(shí)的準(zhǔn)確率較低,難度較大,但RBLA模型相較于大部分對(duì)比模型在褒義情感句上的分析效果最好。從5、6句可以看出,RBLA模型相較于其他對(duì)比模型在貶義情感句上的分析效果最優(yōu)。更有力地說(shuō)明了本文提出的RBLA模型在隱式情感分析任務(wù)上有效提高了隱式情感特征提取的準(zhǔn)確性。
針對(duì)隱式情感文本中隱式情感特征捕捉不夠準(zhǔn)確導(dǎo)致的情感傾向分析困難問(wèn)題,本文提出了基于RoBERTa融合雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和注意力機(jī)制的RBLA模型。該模型使用RoBERTa模型捕獲隱式情感句中字詞的語(yǔ)義特征,再使用BiLSTM學(xué)習(xí)句子的正反向語(yǔ)義信息,捕獲句子間的依賴關(guān)系,以此對(duì)隱式情感句上下文進(jìn)行深層次的特征提取,最后使用注意力機(jī)制對(duì)包含隱式情感的情感詞進(jìn)行權(quán)重計(jì)算,突出文本中隱含的重要情感信息,進(jìn)一步提升了隱式情感分析的性能。通過(guò)實(shí)驗(yàn)結(jié)果可以看出,與現(xiàn)有的幾種典型的隱式情感文本分類模型相比,本文提出的RBLA模型在隱式情感分析的整體性能上得到了有效提升。
從實(shí)驗(yàn)結(jié)果來(lái)看,褒義隱式情感分類效果不如中性隱式情感和貶義隱式情感分類效果好。本文接下來(lái)將對(duì)隱式情感分析中的褒義情感分類開(kāi)展更深層次的研究。