石 磊,張?chǎng)钨?陶永才,衛(wèi) 琳
1(鄭州大學(xué) 信息工程學(xué)院,鄭州 450001) 2(鄭州大學(xué) 軟件技術(shù)學(xué)院,鄭州 450002)
近年來,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)民數(shù)量急劇上升,越來越多的網(wǎng)民在網(wǎng)絡(luò)社區(qū)(如微博、Twitter)表達(dá)對(duì)于熱點(diǎn)事件的觀點(diǎn)、對(duì)于產(chǎn)品的體驗(yàn)等.這些文本信息具有情感傾向,分析這些文本有助于輿情分析、產(chǎn)品銷售等[1].隨著信息呈指數(shù)級(jí)別的增長(zhǎng),人工處理的方式逐漸被淘汰,促進(jìn)了文本情感分析技術(shù)[2]的快速發(fā)展.
與普通文本分類相比,情感分類任務(wù)的難點(diǎn)在于多樣化的表達(dá)方式和較為復(fù)雜的句式等,因此使用特征選擇的方法具有局限性[3].
目前,情感分類常用的方法分為兩種:一種是基于語(yǔ)義詞典的方法:構(gòu)造情感詞典,借助該字典判斷情感的傾向;另一種是基于機(jī)器學(xué)習(xí)的方法:利用人工的方式設(shè)計(jì)篩選出文本的特征,將文本特征向量化之后輸入到機(jī)器學(xué)習(xí)算法(SVM、樸素貝葉斯、最大熵等方法)中進(jìn)行分類.
目前,準(zhǔn)確率比較高的算法是詞典與機(jī)器學(xué)習(xí)混合的方法,其思路可以概括為兩種:
1)“詞典+規(guī)則”,融合不同種類的分類器進(jìn)行情感分類;
2)“詞典+現(xiàn)有特征”,選擇最優(yōu)的特征組合進(jìn)行情感分類[4].
雖然上述的混合算法可以有效地提高文本情感分析的準(zhǔn)確率,但其缺陷是費(fèi)時(shí)費(fèi)力,需要人工提取特征,標(biāo)注數(shù)據(jù).
所以隨著媒體時(shí)代的快速發(fā)展,文本數(shù)據(jù)的規(guī)模不斷擴(kuò)大,將深度學(xué)習(xí)模型應(yīng)用于情感傾向性分析已成為重要的研究趨勢(shì).
現(xiàn)有的深度學(xué)習(xí)方法大多是將文本分詞之后轉(zhuǎn)換為詞向量,并輸入到深度神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí),沒有體現(xiàn)出對(duì)于文本中詞語(yǔ)之間的聯(lián)系和重要情感詞匯的關(guān)注,為了解決以上問題,本文提出一種情感分析模型,在輸入端添加自注意力機(jī)制,將得到的向量輸入到融合樹型結(jié)構(gòu)的LSTM模型中,為解決隨機(jī)梯度下降算法中存在的梯度彌散問題,在Tree-LSTM的輸出端引入Maxout神經(jīng)元,構(gòu)建了SAtt-TLSTM-M模型.通過在公開數(shù)據(jù)集COAE2014上的實(shí)驗(yàn),與現(xiàn)有結(jié)果相比,證明本文所構(gòu)建模型有助于提升情感分析準(zhǔn)確率.本文提出的模型不僅提高了情感分析的準(zhǔn)確率,而且解決了經(jīng)典深度學(xué)習(xí)方法忽視文本自身聯(lián)系的問題以及深度學(xué)習(xí)中的梯度彌散問題.
Pang 等人[5]在2002 年提出有關(guān)情感分析的內(nèi)容,近些年來,文本情感分析受到學(xué)者的重點(diǎn)關(guān)注并且取得了較大的發(fā)展.李強(qiáng)等人[6]使用5 種情緒狀態(tài)和語(yǔ)音特征,提出使用概率神經(jīng)網(wǎng)絡(luò)對(duì)情緒分類,并且取得了很好的結(jié)果.在自然語(yǔ)言處理中,神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制受到人類視覺中注意力的啟發(fā),注意力機(jī)制早期用于圖像處理[7],注意力機(jī)制允許模型根據(jù)輸入文本以及它到目前為止已經(jīng)生成的隱藏狀態(tài)來學(xué)習(xí)要注意什么,近來發(fā)現(xiàn)其在自然語(yǔ)言處理中,對(duì)于問答系統(tǒng)[8]、情感分析[9]的效果都有很大提升,并且出現(xiàn)了很多注意力機(jī)制的變形,比如自注意力機(jī)制.自注意力(Self-Attention)又稱作內(nèi)部注意力,其作用是能夠注意到文本中的關(guān)鍵信息,通常不需要其他額外的信息,它能使用自注意力關(guān)注本身進(jìn)而從句子中抽取相關(guān)信息,Vaswani等人[10]大量使用了自注意力(self-attention)機(jī)制來學(xué)習(xí)文本表示大大提升了機(jī)器翻譯的效果.Tai等人[11]利用LSTM模型試以一種樹型結(jié)構(gòu)來描述文本,該模型在情感分析上取得了不錯(cuò)的效果.Tree-LSTM是LSTM的變形,融入了樹型結(jié)構(gòu)的特征,Tai[11]等人對(duì)樹型結(jié)構(gòu)的LSTM結(jié)構(gòu)由底向上遞歸地合并相鄰的節(jié)點(diǎn).解決了循環(huán)神經(jīng)網(wǎng)絡(luò)在時(shí)間上的梯度彌散問題,但是在空間上仍然存在梯度彌散的問題,為此,Goodfellow等[12]將Maxout神經(jīng)元引入到機(jī)器學(xué)習(xí)任務(wù)中,該神經(jīng)元通過選取一組線性單元中的最大值來實(shí)現(xiàn)它的非線性化,在文本分類和語(yǔ)音識(shí)別領(lǐng)域取得了不錯(cuò)的效果.Cai等人[13]將Maxout神經(jīng)元分別與CNN和LSTM模型想結(jié)合,構(gòu)建CMNN和RMNN模型,并應(yīng)用到語(yǔ)音識(shí)別領(lǐng)域.
針對(duì)上述模型,本文首先融合了Self-Attention和Tree-LSTM模型,構(gòu)建SAtt-TLSTM模型;其次引入Maxout神經(jīng)元,構(gòu)建SAtt-TLSTM-M情感傾向性分析模型,最后將上述模型用于COAE2014的微博情感分析數(shù)據(jù)集中,具有實(shí)用性和創(chuàng)新性.
使用自注意力關(guān)注文本本身進(jìn)而從句子中抽取相關(guān)信息,自注意力又稱作內(nèi)部注意力,Self-Attention是注意力機(jī)制的一種特殊情況,在Self-Attention中,Q=K=V,每個(gè)序列中的單元和該序列中所有單元進(jìn)行attention計(jì)算,在本文中,Self-Attention被當(dāng)成一個(gè)層,與Tree-LSTM配合使用.
給定詞向量矩陣:X=[x1,x2,…,xn],xi∈Rd,其中n表示給定句子的長(zhǎng)度,d表示實(shí)數(shù)詞向量的維度.自注意力的思想是在計(jì)算過程中直接將句子中任意兩個(gè)單詞的關(guān)系通過一個(gè)計(jì)算步驟直接聯(lián)系起來,所以遠(yuǎn)距離依賴特征之間的距離被極大縮短,有利于有效地利用這些特征.包含句子上下文信息的詞向量,其計(jì)算見公式(1).
(1)
其中,αi,j>0是自注意力權(quán)重,并且通過Softmax正則化技術(shù)使∑jαi,j=1.自注意力權(quán)重的計(jì)算公式為公式(2)和公式(3).
(2)

(3)
其中,score(xi,xj)是通過MLP實(shí)現(xiàn)的,用MLP來建模詞對(duì)(xi,xj)的相關(guān)性.
最后,將上下文詞向量gi和詞向量xi進(jìn)行拼接,作為Tree-LSTM的輸入.
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)被廣泛用于解決不同的自然語(yǔ)言處理(NLP)任務(wù),但是受限于各自的缺點(diǎn)(RNN效果較好但參數(shù)較多、效率較低,CNN效率高、參數(shù)少但效果欠佳).基于以上模型的不足,本文使用Tree-LSTM模型.詳細(xì)的Tree-LSTM結(jié)構(gòu)如圖 1所示.

圖1 樹型結(jié)構(gòu)的LSTM網(wǎng)絡(luò)Fig.1 Tree-structured LSTM network
圖1中h為L(zhǎng)STM的隱層,c為L(zhǎng)STM的記憶單元.計(jì)算過程為公式(4)至公式(10)(在普通LSTM的基礎(chǔ)上做了修改).
(4)
(5)
fjk=σ(W(f)xj+U(f)hk+b(f))
(6)
(7)
(8)
(9)
hj=oj⊙tanh(cj)
(10)
其中,σ表示sigmoid函數(shù);U表示孩子節(jié)點(diǎn)隱含值的權(quán)重;W表示不同結(jié)構(gòu)內(nèi)的權(quán)重;b表示不同結(jié)構(gòu)的偏置項(xiàng);⊙表示向量對(duì)應(yīng)元素的乘積.計(jì)算模型中的任意一個(gè)單元,其孩子節(jié)點(diǎn)使用不同的參數(shù)矩陣.Tree-LSTM模型通過逐步訓(xùn)練將樹根節(jié)點(diǎn)的隱含輸出hroot作為句子的向量表示,輸入到Maxout神經(jīng)元中.
Maxout神經(jīng)元可以看做是在深度學(xué)習(xí)網(wǎng)絡(luò)中加入一層激活函數(shù)層,包含一個(gè)參數(shù)k,這一層相比ReLU,Sigmoid等,其特殊之處在于增加了k個(gè)神經(jīng)元,并且輸出激活值最大的值.
對(duì)于常見的Sigmoid函數(shù)的隱藏層節(jié)點(diǎn)輸出見公式(11):
hi(x)=sigmoid(xTwi+bi)
(11)
如果選用Sigmoid作為激活函數(shù),那么在使用梯度下降算法計(jì)算導(dǎo)數(shù)的時(shí)候,隨著網(wǎng)絡(luò)深度的增加,會(huì)出現(xiàn)梯度彌散的問題,而Maxout的出現(xiàn)恰好可以解決這個(gè)問題,而且有利于增加模型的深度[14],其結(jié)構(gòu)如圖 2所示.

圖2 Maxout神經(jīng)元結(jié)構(gòu)Fig.2 Maxout neuron structure
根據(jù)圖 2可知,每一個(gè)Maxout神經(jīng)元是由多個(gè)不同的神經(jīng)元組成,并且輸出是激活神經(jīng)元中的最大值,在Maxout神經(jīng)元中,其隱含層節(jié)點(diǎn)的輸出表達(dá)式為式(12):
(12)

Maxout神經(jīng)元在使用隨機(jī)梯度下降算法進(jìn)行訓(xùn)練過程中,其梯度的計(jì)算為式(13):
(13)
在以上模型的基礎(chǔ)上提出了基于SAtt-TLSTM-M的情感分類模型,本文深度神經(jīng)網(wǎng)絡(luò)模型的構(gòu)造從以下3個(gè)方面考慮:
a)對(duì)于句子中的詞向量,通過引入自注意力機(jī)制來學(xué)習(xí)句子內(nèi)非連續(xù)詞之間的語(yǔ)義相關(guān)特征;
b)輸入到Tree-LSTM中學(xué)習(xí)到句子結(jié)構(gòu)特征;
c)為防止梯度彌散的問題,引入Maxout神經(jīng)元得到更好的分類結(jié)果.其結(jié)構(gòu)見圖3所示.

圖3 基于SAtt-TLSTM-M的情感分類模型Fig.3 Sentiment ananlysis model based on SAtt-TLSTM-M
由圖 3可知,該模型實(shí)現(xiàn)情感分析時(shí)可分為以下幾個(gè)關(guān)鍵步驟:
1)分詞預(yù)處理.本文使用結(jié)巴分詞工具的精確模式將COAE2014中的40154條中文文本切分成以詞為單位的形式,并且使用哈工大的停用詞表去除文本中的停用詞,使用正則表達(dá)式去除文本中無用的字符.
2)構(gòu)建詞向量矩陣.Word2vec是Google公司開源的一款將詞表征為特征向量的工具,先利用該工具將1)中得到的分詞后的文本轉(zhuǎn)為向量詞典,然后構(gòu)建官方公布的5000條帶有情感標(biāo)簽的詞向量矩陣.該矩陣的行數(shù)為每條文本的詞數(shù),列數(shù)為每個(gè)詞對(duì)應(yīng)向量指定的位數(shù),截取微博為相同的長(zhǎng)度,句子詞較少的用0填充.

4)hs經(jīng)過Tree-LSTM模型后,句子的最終表示為:ht.
5)情感分類.將句子特征向量ht輸入到全連接層Maxout神經(jīng)元中,接著輸入到Softmax分類器中,對(duì)文本進(jìn)行積極和消極的二分類.
本文的實(shí)驗(yàn)環(huán)境及其配置如表 1所示.
本文采用COAE2014微博數(shù)據(jù)集,包括40000條微博數(shù)據(jù),其中官方公布了5000條數(shù)據(jù)的情感極性,由于該5000條帶有情感標(biāo)簽的數(shù)據(jù)集中,數(shù)據(jù)量較小,又沒有明顯的訓(xùn)練和測(cè)試集之分,所以本文對(duì)該5000條數(shù)據(jù)進(jìn)行10折交叉驗(yàn)證,利用數(shù)據(jù)集提供的40000條數(shù)據(jù)訓(xùn)練詞向量.
表1 實(shí)驗(yàn)環(huán)境配置
Table 1 Experimental environment configuration

實(shí)驗(yàn)環(huán)境環(huán)境配置操作系統(tǒng)處理器內(nèi)存編程語(yǔ)言深度學(xué)習(xí)框架Windows7NVIDIAGeForce940M8GBPython3.6Tensorflow1.8
本文使用3個(gè)評(píng)價(jià)指標(biāo)作為評(píng)價(jià)標(biāo)準(zhǔn):① Precision:評(píng)估的是分類結(jié)果的查準(zhǔn)率,具體計(jì)算見式(14),② Recall:評(píng)估的是分類結(jié)果的查全率,具體計(jì)算見式(15),③F1-measure:綜合評(píng)價(jià)指標(biāo),具體計(jì)算見式(16).
(14)
(15)
(16)
其中,TP(True Positive)代表實(shí)際和預(yù)測(cè)一致,都是積極樣本;TN(True Negative)代表實(shí)際和預(yù)測(cè)一致,都是消極樣本;FP(False Positive)代表實(shí)際和預(yù)測(cè)不一致,預(yù)測(cè)是積極樣本,實(shí)際是消極樣本;FN代表實(shí)際和預(yù)測(cè)不一致,預(yù)測(cè)是消極樣本,實(shí)際是積極樣本.
本文首先使用jieba對(duì)文本進(jìn)行分詞,然后使用Word2vec工具將分詞后的文本轉(zhuǎn)化為詞向量,經(jīng)過jieba分詞和word2vec向量化之后,微博文本數(shù)據(jù)轉(zhuǎn)換成了由向量組成的向量矩陣.詳細(xì)參數(shù)設(shè)置如表 2所示.
表2 模型參數(shù)設(shè)置
Table 2 Model parameter setting

參數(shù)名值單位文本保留最大長(zhǎng)度詞向量維度Word2vec訓(xùn)練窗口大小訓(xùn)練批大小(batch-size)Dropout參數(shù)Tree-LSTM輸出維度140505320.5300字符維———維
本文實(shí)驗(yàn)數(shù)據(jù)設(shè)置了四組對(duì)比實(shí)驗(yàn),將由word2vec訓(xùn)練得到的詞向量矩陣輸入到以下所描述的7個(gè)模型中.
1)SVM模型和MNB模型(multinomial naive Bayes,MNB)[14]:這兩種模型是機(jī)器學(xué)習(xí)中比較經(jīng)典的分類模型,在很多基礎(chǔ)分類任務(wù)中取得了不錯(cuò)的分類結(jié)果.
2)LSTM模型和RMNN模型:選取經(jīng)典的LSTM模型和RMNN模型[13]作為比對(duì)模型,RMNN模型在LSTM的基礎(chǔ)上引入了Maxout神經(jīng)元,目的是為了證明Maxout在模型中起到了優(yōu)化的作用.
3)Tree-LSTM模型和Self-Att+Tree-LSTM模型:這兩個(gè)實(shí)驗(yàn)對(duì)比的目的是為了證明添加自注意力機(jī)制后模型在情感分析任務(wù)上性能得到了提升.
4)SAtt-TLSTM-M模型:本文的情感分類模型融合了自注意力機(jī)制、Tree-LSTM、Maxout進(jìn)行情感分類.
圖 4展示了所有模型在訓(xùn)練過程中測(cè)試集的分類準(zhǔn)確率,圖中橫坐標(biāo)為訓(xùn)練次數(shù),縱坐標(biāo)為分類準(zhǔn)確率.

圖4 所有模型訓(xùn)練過程測(cè)試集分類準(zhǔn)確率Fig.4 Accuracy for all models on the training set
由圖 4可知,隨著訓(xùn)練次數(shù)的增加,7個(gè)模型的分類準(zhǔn)確率逐漸提升,最終穩(wěn)定在15到20次之間.最基本的SVM模型和MNB模型在16次以后,其準(zhǔn)確率停留在71%和72%左右,均低于其他模型.最基本的LSTM模型在訓(xùn)練19次以后,其準(zhǔn)確率停留在75%左右,在LSTM模型的基礎(chǔ)上,引入了Maxout神經(jīng)元的RMNN模型的準(zhǔn)確率停留在80%左右,相比LSTM模型提高了5%左右.這說明了Maxout神經(jīng)元起到了優(yōu)化分類結(jié)果的作用.Tree-LSTM和Self-Att+Tree-LSTM模型的實(shí)驗(yàn)結(jié)果對(duì)比,驗(yàn)證了Self-Att對(duì)于句子內(nèi)部特征表達(dá)的重要性,提高了約2%.對(duì)于本文提出的SAtt-TLSTM-M模型在Tree-LSTM的基礎(chǔ)上,不僅加入了自注意力機(jī)制用于提取句子內(nèi)部詞間的上下文信息,而且還引入了Maxout神經(jīng)元,解決了梯度彌散的問題,實(shí)驗(yàn)表明,本文提出的模型優(yōu)于其他對(duì)比模型,準(zhǔn)確率穩(wěn)定在88%左右,由此證明了該模型的可行性和優(yōu)越性.
表3 最佳參數(shù)模型分類結(jié)果
Table 3 Accuracy for models in optimal parameter

模 型 PrecisionRecallF值SVMMNBLSTM模型RMNN模型Tree-LSTM模型Self-Att+Tree-LSTMSAtt-TLSTM-M(本文)0.71720.72560.75850.80050.82300.84150.87900.72040.71850.79100.84170.85600.86580.89930.71880.72200.77440.82050.83920.85350.8890
四組對(duì)比實(shí)驗(yàn)在COAE2014微博數(shù)據(jù)集上3個(gè)測(cè)評(píng)結(jié)果如表 3所示.
實(shí)驗(yàn)結(jié)果表明,在情感分類任務(wù)上,采用Tree-LSTM模型整體上優(yōu)于其他機(jī)器學(xué)習(xí)方法.SAtt-TLSTM-M模型在Precision上最優(yōu),說明引入自注意力機(jī)制和Maxout起到了重要的優(yōu)化作用,在Recall和F值上也均優(yōu)于其他模型,充分證明了SAtt-TLSTM-M有助于提升情感分析的準(zhǔn)確率.
本文基于Self-Attention、Tree-LSTM和Maxout神經(jīng)元提出了SAtt-TLSTM-M模型,首先引入自注意力機(jī)制使句子上原始的詞向量融入了上下文向量;其次利用樹型結(jié)構(gòu)的LSTM學(xué)習(xí)句子的文本特征;最后引入Maxout神經(jīng)元解決了梯度彌散的問題.在COAE2014數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,證明了該模型優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)模型,不僅在情感分類準(zhǔn)確率上得到了提升,而且有助于社交媒體評(píng)論的情感分析,進(jìn)一步證明了深度學(xué)習(xí)在情感分析領(lǐng)域的可行性.在接下來的研究中,將對(duì)跨領(lǐng)域的文本情感分析進(jìn)行進(jìn)一步研究,以期進(jìn)一步提高深度學(xué)習(xí)在多領(lǐng)域情感分析的適應(yīng)性.