陳 欣,楊小兵,姚雨虹
(中國計(jì)量大學(xué) 信息工程學(xué)院,杭州 310018)
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)購已經(jīng)成為人們?nèi)粘I畹闹匾M成部分,相對(duì)于傳統(tǒng)購物中面對(duì)面的商品交易,網(wǎng)上購物看不見實(shí)際商品,僅通過商家上傳的圖片判斷商品質(zhì)量顯然不太可靠,所以商品評(píng)論就成為大家在網(wǎng)上購買各種商品時(shí)的重要參考依據(jù).淘寶、京東、拼多多等購物平臺(tái)的用戶往往在收貨后會(huì)寫下對(duì)商品的評(píng)價(jià),其他消費(fèi)者通過這些評(píng)價(jià)可以了解產(chǎn)品質(zhì)量、售前售后服務(wù)等.銷售商可以通過消費(fèi)者對(duì)商品的文本評(píng)語,分析消費(fèi)者對(duì)商品的看法,從而幫助改善制定的營銷措施[1].而隨著大數(shù)據(jù)時(shí)代的到來,信息規(guī)模的爆炸式增長,人工處理已經(jīng)無法滿足大規(guī)模文本分析任務(wù),因此文本情感分析技術(shù)也得到了迅速發(fā)展.
最開始,研究者在情感詞典和語義規(guī)則方面進(jìn)行研究,基于詞典和規(guī)則[2-4]的情緒分類方法解釋性強(qiáng),運(yùn)算速度快.但是隨著互聯(lián)網(wǎng)上新詞的不斷涌現(xiàn),基于詞典和規(guī)則的方法在分類時(shí)靈活度不高,難以應(yīng)對(duì)不斷變化的詞形詞義.為提高情感分類的性能,研究者開展了基于機(jī)器學(xué)習(xí)的情感分析方法.通過選取大量有意義的特征來完成情緒分析任務(wù).基于機(jī)器學(xué)習(xí)的方法[5,6]主要通過對(duì)數(shù)據(jù)集進(jìn)行特征提取,訓(xùn)練分類模型,然后對(duì)測試數(shù)據(jù)進(jìn)行預(yù)測.但是該方法依賴于提取的特征,而且需要構(gòu)建復(fù)雜的特征工程.由于這些方法存在的問題,一些學(xué)者開始使用深度學(xué)習(xí)(Deep Learning,DL)方法進(jìn)行情感分析研究,深度學(xué)習(xí)的方法[7-9]使用各種神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí),提取文本特征,避免了機(jī)器學(xué)習(xí)由于人工提取的特征不準(zhǔn)確而帶來的分類誤差.深度神經(jīng)網(wǎng)絡(luò)的多層非線性結(jié)構(gòu)可以捕捉文本的深層次特征,實(shí)現(xiàn)對(duì)文本的深層理解.
近年來,隨著DL技術(shù)的突飛猛進(jìn),越來越多的研究者開始將循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)算法及其優(yōu)化算法和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)算法應(yīng)用于文本情感分析任務(wù)中.CNN最早應(yīng)用在視覺領(lǐng)域中,經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)整合了卷積層和池化層,最早是由Collobert等人[10]應(yīng)用于情感分析任務(wù).為了獲得更好的句子表示,Kalchbrenner等人[11]把基本的CNN模型向兩方面進(jìn)行擴(kuò)展,作者一方面使用動(dòng)態(tài)池化技術(shù),另一方面增加了CNN的層數(shù).Kim[8]嘗試將隨機(jī)初始化詞嵌入和預(yù)訓(xùn)練詞嵌入兩種不同類型的詞嵌入整合在一起,雖然模型簡單,但達(dá)到一個(gè)不錯(cuò)的效果.陳志等[12]在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上把類別標(biāo)簽權(quán)重引入損失函數(shù),強(qiáng)化少數(shù)類對(duì)模型的影響,在文本分類任務(wù)中獲取較好的結(jié)果.
雖然卷積神經(jīng)網(wǎng)絡(luò)有很強(qiáng)的局部學(xué)習(xí)能力,但是忽略了反映句法和語義的遠(yuǎn)距離依賴特性,這種特性對(duì)于句子的理解非常重要.循環(huán)神經(jīng)網(wǎng)絡(luò)是一種具有記憶功能的網(wǎng)絡(luò),在序列數(shù)據(jù)的建模上有很大優(yōu)勢(shì),但是普通RNN存在不能處理長依賴的問題.Wang等人[13]使用長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)為tweet的情感分析進(jìn)行研究,和普通的RNN相比,LSTM可以更好的緩解梯度爆炸和梯度消失帶來的影響.Teng等人[14]首先使用雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM)對(duì)句子進(jìn)行建模,BiLSTM可以將一個(gè)句子表現(xiàn)的更加全面,每個(gè)詞的表示輸出可以與前后的詞關(guān)聯(lián)起來,但網(wǎng)絡(luò)結(jié)構(gòu)比較復(fù)雜,時(shí)間代價(jià)很高.門控循環(huán)神經(jīng)單元(Gated Recurrent Unit,GRU)由Cho等[15]在2014年提出,GRU是對(duì)LSTM的一種改進(jìn).GRU將遺忘門和輸入門合并為更新門,同時(shí)將記憶單元和隱藏層合并為重置門,相比LSTM參數(shù)少很多,因此運(yùn)算相對(duì)簡化且性能得以增強(qiáng).雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional Gated Recurrent Unit,BiGRU)是兩個(gè)單向GRU的結(jié)合,網(wǎng)絡(luò)結(jié)構(gòu)相比BiLSTM簡單,時(shí)間復(fù)雜度更低.雖然BiGRU能夠充分考慮到上下文信息,但是很難獲取深層語義特征,因而本文使用CNN網(wǎng)絡(luò)對(duì)BiGRU模型獲取的序列信息進(jìn)行提取(BiGRU-CNN),將特征優(yōu)化,充分獲取到文本上下文信息和深層語義.
近年來,注意力(Attention)機(jī)制[16,17]被廣泛應(yīng)用到基于深度學(xué)習(xí)的自然語言處理任務(wù)中,Attention可以快速提取稀疏數(shù)據(jù)的核心內(nèi)容,從而使模型更好地利用與訓(xùn)練目標(biāo)相關(guān)的特征.隨著注意力機(jī)制在許多任務(wù)中取得優(yōu)秀的效果,研究者開始將Attention機(jī)制添加到各種文本情感分析的模型中[18-23].馮興杰等[18]將傳統(tǒng)的CNN模型和注意力模型相結(jié)合進(jìn)行情感分析.張仰森等[19]將BiLSTM和Attention機(jī)制相結(jié)合對(duì)微博文本進(jìn)行情緒識(shí)別和情感分類.陳潔等[20]提將CNN和BiGRU并行的混合神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制相結(jié)合進(jìn)行情感分析.陶永才等[21]將池化層和Attention機(jī)制相結(jié)合,利用平均池化和最大池化提取文本特征,使用Attention機(jī)制生成權(quán)重進(jìn)行分類,在收斂時(shí)間更短的情況下獲取了較好的結(jié)果.高瑋軍等[22]提出一種AT-DCNN模型,使用Attention機(jī)制對(duì)詞向量進(jìn)行處理,降低冗余信息對(duì)于情感分析的影響,通過CNN模型進(jìn)行分類,彌補(bǔ)了CNN特征提取過程中信息丟失的問題.王麗亞等[23]提出一種T-CBGA模型,使用字符級(jí)詞向量表示文本,將相同的CNN-BiGRU-attention模型組成雙通道形式對(duì)文本進(jìn)行情感分析.在這些模型中,注意力機(jī)制的引入對(duì)文本分類任務(wù)的性能都有明顯的正面影響.因此本文在BiGRU-CNN模型中引入Attention機(jī)制,對(duì)模型提取的特征進(jìn)行權(quán)重分配,確定顯著信息,從而提高模型的性能.
目前常用的模型大多使用字符級(jí)詞嵌入或者詞語級(jí)詞嵌入進(jìn)行文本表示,Zhang等[24]使用詞語級(jí)詞嵌入和情感符號(hào)進(jìn)行結(jié)合,使用BiLSTM和注意力機(jī)制的雙通道網(wǎng)絡(luò)對(duì)微博文本進(jìn)行分析.Dos Santos和Gatti[25]采用了詞的字符特征進(jìn)一步加強(qiáng)了詞嵌入表示.劉龍飛等[26]將字符級(jí)詞向量和詞語級(jí)詞向量分別作為原始特征,通過CNN進(jìn)行特征提取,驗(yàn)證了在中文微博的情感分類任務(wù)中,字符級(jí)詞嵌入效果更好.鄭誠等[27]將CNN和GRU相結(jié)合提出一種DC-BiGRU_CNN模型,使用單詞級(jí)和字符級(jí)詞嵌入作為輸入層,采用密集連接的BiGRU網(wǎng)絡(luò)和CNN網(wǎng)絡(luò)提取特征,在文本分類任務(wù)中準(zhǔn)確率有明顯提升.王根生等[28]將詞嵌入特征、詞語的情感特征和權(quán)重特征融合GRU神經(jīng)網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)文本進(jìn)行情感分類,在較少數(shù)據(jù)量時(shí)也能獲得較好的效果.從這些研究中可以看出詞語級(jí)詞嵌入和字符級(jí)詞嵌入都能夠表示出文本的特征信息,為了更好的表示文本,本文分別將兩者作為BiGRU-CNN-Attention模型的輸入,將提取的特征進(jìn)行融合,以獲取更充足的信息.
綜上所述,本文提出了一種字詞融合的雙通道混合神經(jīng)網(wǎng)絡(luò)文本情感分析模型(CW_BGCA).將字符級(jí)詞嵌入和詞語級(jí)詞嵌入分別作為兩個(gè)混合網(wǎng)絡(luò)通道的輸入層,每個(gè)通道采用BiGRU-CNN-Attention混合網(wǎng)絡(luò)提取特征,最后將兩個(gè)通道分別獲取的特征拼接進(jìn)行分類.實(shí)驗(yàn)結(jié)果表明,利用該模型進(jìn)行文本分類的效果較優(yōu).
本文提出的CW-BGCA模型主要由3部分組成:基于字符級(jí)的BiGRU-CNN-Attention模型(記為C-BGCA模型)、基于詞語級(jí)的BiGRU-CNN-Attention模型(記為W-BGCA模型)、C-BGCA和W-BGCA模型的融合分類層.CW-BGCA模型的整體架構(gòu)如圖1所示.

圖1 CW-BGCA模型結(jié)構(gòu)圖Fig.1 CW-BGCA model diagram
詞嵌入是將文本中的詞語映射為低密度的數(shù)字向量的方法.詞嵌入主要有Word2Vec和Glove兩種方法.本文使用的是Word2Vec中的跳字模型(Continuous Skip-gram,Skip-gram).根據(jù)分詞粒度,在目前文本研究中,存在字符級(jí)和詞語級(jí)兩種詞嵌入.中文文本的研究大多數(shù)都是在詞語級(jí)詞嵌入的基礎(chǔ)上進(jìn)行的,分詞的效果直接影響著情感分析的性能,而網(wǎng)絡(luò)上的不規(guī)范用語比較嚴(yán)重,會(huì)對(duì)分詞效果造成很大的影響;字符級(jí)詞嵌入的方法不需要分詞,但字包含的語義信息沒有詞語充分,因此本文將將字符級(jí)詞嵌入作為C-BGCA模型的輸入層,將詞語級(jí)詞嵌入作為W-BGCA模型的輸入層,分別提取特征后融合進(jìn)行分類.
3.1.1 詞語級(jí)詞嵌入層
詞語級(jí)詞嵌入層為基于詞語特征系列模型的輸入,一般通過加載預(yù)訓(xùn)練的詞嵌入向量使用查字典的方法將文本表示為詞向量.詞典中單個(gè)向量的維度為k,詞語個(gè)數(shù)為N,詞典Dk×N通過大規(guī)模語料采用預(yù)訓(xùn)練模型訓(xùn)練得到.本文采用的是北京師范大學(xué)中文信息處理研究所與中國人民大學(xué)DBIIR實(shí)驗(yàn)室開源的使用Word2Vec模型(Skip-gram+負(fù)采樣)訓(xùn)練的百度百科詞向量[29,30].數(shù)據(jù)集中的每個(gè)文本由該文本中所有詞語的詞向量拼接而成,文本詞向量表示如公式(1)所示:
Xw=w1⊕w2⊕…⊕wn
(1)
其中:n表示單個(gè)文本中的詞語個(gè)數(shù),wi∈Dk×N,表示文本中第i個(gè)詞語的詞向量(i=1,2,…,n),?表示行向量拼接操作,Xw為詞語級(jí)的文本表示.
3.1.2 字符級(jí)詞嵌入層
字符級(jí)詞嵌入層為基于字符特征系列模型的輸入,以字為基本單位.本文的字向量使用隨機(jī)初始化的字嵌入層,字典中單個(gè)向量的維度和詞語級(jí)詞向量相同,也設(shè)為k,字個(gè)數(shù)為M,字典Dk×M是動(dòng)態(tài)隨機(jī)初始化得到的字典.字符級(jí)詞嵌入層將文本切分的字映射為低維向量,對(duì)于一個(gè)字符級(jí)的文本序列,將文本中字向量拼接起來,就可以得到整個(gè)文本序列的字向量表示,如公式(2)所示:
XC=c1⊕c2⊕…⊕cm
(2)
其中:m表示單個(gè)文本中的字的個(gè)數(shù),ci∈Dk×M表示文本中第i個(gè)詞語的詞向量(i=1,2,…,m),?表示行向量拼接操作,Xc為字符級(jí)的文本表示.
GRU是循環(huán)神經(jīng)網(wǎng)絡(luò)系列中的一種效果很好的模型,能夠有效的解決梯度損失和梯度爆炸的問題,而且模型結(jié)構(gòu)也比較簡單,訓(xùn)練速度很快.GRU模型中只有兩個(gè)門:分別是更新門zt和重置門rt.具體結(jié)構(gòu)如圖2所示:

圖2 GRU模型結(jié)構(gòu)圖Fig.2 GRU model diagram
前一個(gè)狀態(tài)信息對(duì)于當(dāng)前狀態(tài)的影響由zt控制,zt越大,當(dāng)前隱層受前一個(gè)狀態(tài)影響越大;前一個(gè)狀態(tài)信息的保留程度由rt控制,rt越小,寫入的上一個(gè)狀態(tài)信息越少.具體計(jì)算過程如公式(3)~公式(6) 所示:
zt=σ(Wz·[ht-1,xt])
(3)
rt=σ(Wr·[ht-1,xt])
(4)
(5)
(6)

BiGRU使用兩個(gè)GRU從兩個(gè)相反的方向提取文本特征,輸出由兩個(gè) GRU 的狀態(tài)共同決定.詞向量XW和字向量XC分別為詞語級(jí)模型W-BGCA和字符級(jí)模型C-BGCA中BiGRU層的輸入.
BiGRU 使用兩個(gè)GRU從兩個(gè)相反的方向提取文本特征,輸出由兩個(gè) GRU 的狀態(tài)共同決定.詞向量XW和字向量XC分別為詞語級(jí)模型W-BGCA和字符級(jí)模型C-BGCA中BiGRU層的輸入.
(7)
(8)

HW=(h1,h2,…,hn)
(9)
HC=(h1,h2,…,hm)
(10)
卷積層.可以通過不同的卷積核對(duì)輸入的序列進(jìn)行局部特征提取.卷積核窗口寬度和BiGRU層的輸出寬度一致.以詞語級(jí)模型W-BGCA為例,長度為d的卷積核把HW序列分為{H0:d-1,H1:d,…,Hi:i+d-1,…,Hn-d+1:n},對(duì)每一個(gè)分量做卷積操作得到卷積特征如公式(11)所示:
Vc=(v1,v2,…,vn-d+1)
(11)
其中,vi是對(duì)分量Hi:i+d-1進(jìn)行卷積操作后提取的特征.每次滑動(dòng)窗口得到的vi計(jì)算如公式(12):
vi=relu(W·Hi:i+d-1+b)
(12)
W為卷積核權(quán)重,b為偏置.
同樣的方式,字符級(jí)模型C-BGCA得到的卷積特征如公式(13):
Vw=(v1,v2,…,vm-d+1)
(13)
池化層.對(duì)卷積后得到的特征矩陣V執(zhí)行下采樣操作,從中選取局部最優(yōu)特征,本文采用的是最大池化進(jìn)行采樣,得到的特征li,向量L為li的組合,詞語級(jí)模型W-BGCA獲取的最大池化特征LW如公式(14)-公式(15):
li=max(v1,v2,…,vn-d+1)
(14)
Lw=(l1,l2,…,ln)
(15)
同理,字符級(jí)模型C-BGCA獲取的最大池化特征LC如公式(16)所示:
LC=(l1,l2,…,lm)
(16)
注意力層對(duì)分別對(duì)字符級(jí)和詞語級(jí)的BiGRU-CNN模型提取的特征進(jìn)行處理,確定顯著信息.其函數(shù)如公式(17)所示:
(17)
其中Q∈Rn×dk,K∈Rm×dk,V∈Rm×dv,dk為調(diào)節(jié)因子,使得內(nèi)積不至于太大.Attention層能夠?qū)×dk的序列Q編碼成了一個(gè)新的n×dv的序列.本文采用Self-Attention結(jié)構(gòu),即Attention(J,J,J),J表示輸入序列.在序列內(nèi)部做Attention ,尋找顯著特征.
AW=Attention(LW,LW,LW)
(18)
AC=Attention(LC,LC,LC)
(19)
將字符級(jí)模型C-BGCA經(jīng)過卷積層獲取的C-BiGRU-CNN模型和詞語級(jí)模型經(jīng)過卷積層獲取的W-BiGRU-CNN模型分別經(jīng)過注意力機(jī)制提取的顯著特征AW和AC進(jìn)行融合,得到融合特征A:
A=(AW⊕AC)
(20)
將融合特征A輸入到多層感知器(MLP),得到更高層的特征表示,并將其進(jìn)行非線性函數(shù)f變換,情感標(biāo)簽的得分如公式(21)所示:
Score(S)=f(WhA+bh)
(21)
其中:Score(S)∈R|Y|為情感標(biāo)簽的得分向量;Y表示情感標(biāo)簽的集合;Wh和bh分別為MLP的參數(shù)矩陣和偏置量,MLP不包含任何隱藏層.本文采用RELU函數(shù)完成非線性變換.然后對(duì)情緒得分向量執(zhí)行Softmax運(yùn)算,具體過程如公式(22):
(22)
本次實(shí)驗(yàn)的數(shù)據(jù)主要來自于網(wǎng)絡(luò)購物的評(píng)論,總共20000條數(shù)據(jù),包括書籍、酒店、計(jì)算機(jī)等5個(gè)領(lǐng)域的評(píng)論.其中,酒店評(píng)論來自中科院譚松波博士(1)https://www.aitechclub.com/data-detail?data_id=29整理的酒店評(píng)論語料,其他數(shù)據(jù)從京東商城網(wǎng)站整理獲取.正負(fù)樣本各10000條,正面情感標(biāo)記為1,負(fù)面情感標(biāo)記為0.統(tǒng)計(jì)數(shù)據(jù)如表1所示.

表1 數(shù)據(jù)統(tǒng)計(jì)表Table 1 Statistics table
將所有數(shù)據(jù)匯總為一個(gè)數(shù)據(jù)集,然后隨機(jī)打亂,按照8:2的比例分為訓(xùn)練集和測試集,實(shí)驗(yàn)數(shù)據(jù)如表2所示.

表2 詳細(xì)實(shí)驗(yàn)數(shù)據(jù)表Table 2 Detailed experimental data table
本文實(shí)驗(yàn)基于Tensorflow實(shí)現(xiàn),經(jīng)過多次迭代調(diào)整,最終CW_BGCA模型參數(shù)如表3所示.

表3 CW_BGCA模型參數(shù)設(shè)置Table 3 CW_BGCA model parameter settings
本文實(shí)驗(yàn)結(jié)果采用以下4種指標(biāo)作為評(píng)價(jià)標(biāo)準(zhǔn):Accuracy、Precision、Recall、F1,相關(guān)參數(shù)如表4所示.

表4 評(píng)價(jià)指標(biāo)相關(guān)參數(shù)Table 4 Related parameters of evaluation indicators
(23)
(24)
(25)
(26)
本文實(shí)驗(yàn)設(shè)置的對(duì)比模型有7組,包括單一網(wǎng)絡(luò)與混合網(wǎng)絡(luò)的比較,字符級(jí)詞向量與詞語級(jí)詞向量的比較,添加注意力機(jī)制的網(wǎng)絡(luò)對(duì)比,以及單通道與雙通道的對(duì)比.
1)BiGRU:單一的BiGRU網(wǎng)絡(luò),單通道,輸入詞向量.
2)CNN:單一的CNN網(wǎng)絡(luò),單通道,輸入詞向量.
3)C-BGC:先添加BiGRU網(wǎng)絡(luò),再添加CNN網(wǎng)絡(luò),單通道,動(dòng)態(tài)隨機(jī)初始化字向量作為輸入.
4)W-BGC:先添加BiGRU網(wǎng)絡(luò),再添加CNN網(wǎng)絡(luò),單通道,輸入詞向量.
5)CW_BGC:雙通道,每個(gè)通道中均為先添加BiGRU網(wǎng)絡(luò),再添加CNN網(wǎng)絡(luò),最后將雙通道分別獲取的字詞特征拼接,兩個(gè)通道分別輸入詞向量和動(dòng)態(tài)隨機(jī)初始化字向量.
6)C-BGCA:先添加BiGRU網(wǎng)絡(luò),再添加CNN網(wǎng)絡(luò),最后引入注意力機(jī)制,單通道,動(dòng)態(tài)隨機(jī)初始化字向量作為輸入.
7)W-BGCA:先添加BiGRU網(wǎng)絡(luò),再添加CNN網(wǎng)絡(luò),最后引入注意力機(jī)制,單通道,詞向量作為輸入.
8)CW_BGCA:雙通道,每個(gè)通道中都是先添加BiGRU網(wǎng)絡(luò),再添加CNN網(wǎng)絡(luò),然后引入注意力機(jī)制,最后將雙通道分別獲取的字詞特征拼接,兩個(gè)通道分別使用詞向量和動(dòng)態(tài)隨機(jī)初始化字向量作為輸入.
為驗(yàn)證本文模型的有效性,在相同實(shí)驗(yàn)環(huán)境下使用5個(gè)領(lǐng)域的20000條評(píng)論作為數(shù)據(jù)集,8組模型結(jié)果如表5所示.

表5 實(shí)驗(yàn)結(jié)果Table 5 Experimental results
表5將本文的CW_BGCA模型和其他7組對(duì)比模型的Accuracy、Precision、Recall和F1進(jìn)行了對(duì)比.由表格中的數(shù)據(jù)可以看出,本文提出的CW_BGCA模型在Accuracy、Precision和F1這3個(gè)指標(biāo)上都取得了最優(yōu)的結(jié)果.模型的分類效果和F1值正相關(guān),該模型在數(shù)據(jù)集上的F1值為0.9315,高于其他模型0.25%~4%,說明模型的分類效果明顯優(yōu)于對(duì)比模型.
第4組W-BGC模型和第1、2組的單一的BiGRU和CNN模型對(duì)比,在4個(gè)指標(biāo)上都有了明顯的提升.在綜合評(píng)價(jià)指標(biāo)F1上,W-BGC模型比單一的BiGRU和CNN模型分別提升了2.09%和3.03%.由于BiGRU模型只考慮到文本的上下文信息,忽略了局部特征對(duì)于情感分析的影響;CNN模型只考慮了局部語義特征,沒有考慮到上下文信息的影響.而使用CNN網(wǎng)絡(luò)對(duì)BiGRU模型獲取的序列信息進(jìn)行提取,可以將特征優(yōu)化,獲取到上下文和深層語義,得到更好的分類效果,與我們上文的分析一致.
第3組C-BGC模型的效果明顯低于第4組W-BGC模型.證明了詞語級(jí)詞向量的優(yōu)勢(shì),由于詞語是中文文本中表達(dá)信息的基本單位,所以在訓(xùn)練中使用詞語級(jí)詞嵌入相比字符級(jí)詞嵌入有更好的性能.
第5、8組字詞融合雙通道CW_BGC模型和CW_BGCA模型的效果優(yōu)于第3、4組和6、7組單獨(dú)使用詞語級(jí)詞嵌入和字符級(jí)詞嵌入,說明雙通道的字詞融合可以更加充分的提取到文本含義,對(duì)模型性能起到促進(jìn)作用.
第6、7、8組模型分別在第3、4、5組模型的基礎(chǔ)上添加了Attention機(jī)制,準(zhǔn)確率和F1值都有明顯的提高,說明在文本情感分類的模型中添加Attention機(jī)制能夠有效的提升模型效果.Attention機(jī)制對(duì)BiGRU-CNN模型提取的特征進(jìn)行權(quán)重分配,可以幫助模型快速提取到重要特征,提高模型的效果.
本文提出了一種CW_BGCA模型,首先將字符級(jí)詞嵌入和詞語級(jí)詞嵌入分別作為雙通道混合網(wǎng)絡(luò)的輸入層;然后通過BiGRU進(jìn)行全局語義建模,獲取上下文語義特征,再通過CNN對(duì)語義進(jìn)行卷積池化獲取局部語義特征,并分別引入Attention機(jī)制分配特征權(quán)重,優(yōu)化特征;最后將獲取的字詞特征融合進(jìn)行分類.實(shí)驗(yàn)驗(yàn)證,該模型能夠提高文本情感分類的性能.同時(shí),通過對(duì)比實(shí)驗(yàn)也驗(yàn)證了雙通道的混合模型效果優(yōu)于單獨(dú)的神經(jīng)網(wǎng)絡(luò)模型;字詞融合特征優(yōu)于單獨(dú)的字符級(jí)詞嵌入和詞語級(jí)詞嵌入的效果;以及添加Attention機(jī)制能夠明顯提升模型的性能.下一步將對(duì)深層的神經(jīng)網(wǎng)絡(luò)模型對(duì)于情感分析的影響做深入的研究.