字詞融合的雙通道混合神經(jīng)網(wǎng)絡(luò)情感分析模型

2021-03-13 06:00:44楊小兵姚雨虹

小型微型計(jì)算機(jī)系統(tǒng) 2021年2期

陳欣，楊小兵，姚雨虹

(中國計(jì)量大學(xué) 信息工程學(xué)院，杭州 310018)

1 引言

隨著互聯(lián)網(wǎng)的快速發(fā)展，網(wǎng)購已經(jīng)成為人們?nèi)粘Ｉ畹闹匾M成部分，相對(duì)于傳統(tǒng)購物中面對(duì)面的商品交易，網(wǎng)上購物看不見實(shí)際商品，僅通過商家上傳的圖片判斷商品質(zhì)量顯然不太可靠，所以商品評(píng)論就成為大家在網(wǎng)上購買各種商品時(shí)的重要參考依據(jù).淘寶、京東、拼多多等購物平臺(tái)的用戶往往在收貨后會(huì)寫下對(duì)商品的評(píng)價(jià)，其他消費(fèi)者通過這些評(píng)價(jià)可以了解產(chǎn)品質(zhì)量、售前售后服務(wù)等.銷售商可以通過消費(fèi)者對(duì)商品的文本評(píng)語，分析消費(fèi)者對(duì)商品的看法，從而幫助改善制定的營銷措施[1].而隨著大數(shù)據(jù)時(shí)代的到來，信息規(guī)模的爆炸式增長，人工處理已經(jīng)無法滿足大規(guī)模文本分析任務(wù)，因此文本情感分析技術(shù)也得到了迅速發(fā)展.

最開始，研究者在情感詞典和語義規(guī)則方面進(jìn)行研究，基于詞典和規(guī)則[2-4]的情緒分類方法解釋性強(qiáng)，運(yùn)算速度快.但是隨著互聯(lián)網(wǎng)上新詞的不斷涌現(xiàn)，基于詞典和規(guī)則的方法在分類時(shí)靈活度不高，難以應(yīng)對(duì)不斷變化的詞形詞義.為提高情感分類的性能，研究者開展了基于機(jī)器學(xué)習(xí)的情感分析方法.通過選取大量有意義的特征來完成情緒分析任務(wù).基于機(jī)器學(xué)習(xí)的方法[5，6]主要通過對(duì)數(shù)據(jù)集進(jìn)行特征提取，訓(xùn)練分類模型，然后對(duì)測試數(shù)據(jù)進(jìn)行預(yù)測.但是該方法依賴于提取的特征，而且需要構(gòu)建復(fù)雜的特征工程.由于這些方法存在的問題，一些學(xué)者開始使用深度學(xué)習(xí)(Deep Learning，DL)方法進(jìn)行情感分析研究，深度學(xué)習(xí)的方法[7-9]使用各種神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)，提取文本特征，避免了機(jī)器學(xué)習(xí)由于人工提取的特征不準(zhǔn)確而帶來的分類誤差.深度神經(jīng)網(wǎng)絡(luò)的多層非線性結(jié)構(gòu)可以捕捉文本的深層次特征，實(shí)現(xiàn)對(duì)文本的深層理解.

2 相關(guān)工作

近年來，隨著DL技術(shù)的突飛猛進(jìn)，越來越多的研究者開始將循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network，RNN)算法及其優(yōu)化算法和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)算法應(yīng)用于文本情感分析任務(wù)中.CNN最早應(yīng)用在視覺領(lǐng)域中，經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)整合了卷積層和池化層，最早是由Collobert等人[10]應(yīng)用于情感分析任務(wù).為了獲得更好的句子表示，Kalchbrenner等人[11]把基本的CNN模型向兩方面進(jìn)行擴(kuò)展，作者一方面使用動(dòng)態(tài)池化技術(shù)，另一方面增加了CNN的層數(shù).Kim[8]嘗試將隨機(jī)初始化詞嵌入和預(yù)訓(xùn)練詞嵌入兩種不同類型的詞嵌入整合在一起，雖然模型簡單，但達(dá)到一個(gè)不錯(cuò)的效果.陳志等[12]在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上把類別標(biāo)簽權(quán)重引入損失函數(shù)，強(qiáng)化少數(shù)類對(duì)模型的影響，在文本分類任務(wù)中獲取較好的結(jié)果.

雖然卷積神經(jīng)網(wǎng)絡(luò)有很強(qiáng)的局部學(xué)習(xí)能力，但是忽略了反映句法和語義的遠(yuǎn)距離依賴特性，這種特性對(duì)于句子的理解非常重要.循環(huán)神經(jīng)網(wǎng)絡(luò)是一種具有記憶功能的網(wǎng)絡(luò)，在序列數(shù)據(jù)的建模上有很大優(yōu)勢(shì)，但是普通RNN存在不能處理長依賴的問題.Wang等人[13]使用長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)為tweet的情感分析進(jìn)行研究，和普通的RNN相比，LSTM可以更好的緩解梯度爆炸和梯度消失帶來的影響.Teng等人[14]首先使用雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM)對(duì)句子進(jìn)行建模，BiLSTM可以將一個(gè)句子表現(xiàn)的更加全面，每個(gè)詞的表示輸出可以與前后的詞關(guān)聯(lián)起來，但網(wǎng)絡(luò)結(jié)構(gòu)比較復(fù)雜，時(shí)間代價(jià)很高.門控循環(huán)神經(jīng)單元(Gated Recurrent Unit，GRU)由Cho等[15]在2014年提出，GRU是對(duì)LSTM的一種改進(jìn).GRU將遺忘門和輸入門合并為更新門，同時(shí)將記憶單元和隱藏層合并為重置門，相比LSTM參數(shù)少很多，因此運(yùn)算相對(duì)簡化且性能得以增強(qiáng).雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional Gated Recurrent Unit，BiGRU)是兩個(gè)單向GRU的結(jié)合，網(wǎng)絡(luò)結(jié)構(gòu)相比BiLSTM簡單，時(shí)間復(fù)雜度更低.雖然BiGRU能夠充分考慮到上下文信息，但是很難獲取深層語義特征，因而本文使用CNN網(wǎng)絡(luò)對(duì)BiGRU模型獲取的序列信息進(jìn)行提取(BiGRU-CNN)，將特征優(yōu)化，充分獲取到文本上下文信息和深層語義.

近年來，注意力(Attention)機(jī)制[16,17]被廣泛應(yīng)用到基于深度學(xué)習(xí)的自然語言處理任務(wù)中，Attention可以快速提取稀疏數(shù)據(jù)的核心內(nèi)容，從而使模型更好地利用與訓(xùn)練目標(biāo)相關(guān)的特征.隨著注意力機(jī)制在許多任務(wù)中取得優(yōu)秀的效果，研究者開始將Attention機(jī)制添加到各種文本情感分析的模型中[18-23].馮興杰等[18]將傳統(tǒng)的CNN模型和注意力模型相結(jié)合進(jìn)行情感分析.張仰森等[19]將BiLSTM和Attention機(jī)制相結(jié)合對(duì)微博文本進(jìn)行情緒識(shí)別和情感分類.陳潔等[20]提將CNN和BiGRU并行的混合神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制相結(jié)合進(jìn)行情感分析.陶永才等[21]將池化層和Attention機(jī)制相結(jié)合，利用平均池化和最大池化提取文本特征，使用Attention機(jī)制生成權(quán)重進(jìn)行分類，在收斂時(shí)間更短的情況下獲取了較好的結(jié)果.高瑋軍等[22]提出一種AT-DCNN模型，使用Attention機(jī)制對(duì)詞向量進(jìn)行處理，降低冗余信息對(duì)于情感分析的影響，通過CNN模型進(jìn)行分類，彌補(bǔ)了CNN特征提取過程中信息丟失的問題.王麗亞等[23]提出一種T-CBGA模型，使用字符級(jí)詞向量表示文本，將相同的CNN-BiGRU-attention模型組成雙通道形式對(duì)文本進(jìn)行情感分析.在這些模型中，注意力機(jī)制的引入對(duì)文本分類任務(wù)的性能都有明顯的正面影響.因此本文在BiGRU-CNN模型中引入Attention機(jī)制，對(duì)模型提取的特征進(jìn)行權(quán)重分配，確定顯著信息，從而提高模型的性能.

目前常用的模型大多使用字符級(jí)詞嵌入或者詞語級(jí)詞嵌入進(jìn)行文本表示，Zhang等[24]使用詞語級(jí)詞嵌入和情感符號(hào)進(jìn)行結(jié)合，使用BiLSTM和注意力機(jī)制的雙通道網(wǎng)絡(luò)對(duì)微博文本進(jìn)行分析.Dos Santos和Gatti[25]采用了詞的字符特征進(jìn)一步加強(qiáng)了詞嵌入表示.劉龍飛等[26]將字符級(jí)詞向量和詞語級(jí)詞向量分別作為原始特征，通過CNN進(jìn)行特征提取，驗(yàn)證了在中文微博的情感分類任務(wù)中，字符級(jí)詞嵌入效果更好.鄭誠等[27]將CNN和GRU相結(jié)合提出一種DC-BiGRU_CNN模型，使用單詞級(jí)和字符級(jí)詞嵌入作為輸入層，采用密集連接的BiGRU網(wǎng)絡(luò)和CNN網(wǎng)絡(luò)提取特征，在文本分類任務(wù)中準(zhǔn)確率有明顯提升.王根生等[28]將詞嵌入特征、詞語的情感特征和權(quán)重特征融合GRU神經(jīng)網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)文本進(jìn)行情感分類，在較少數(shù)據(jù)量時(shí)也能獲得較好的效果.從這些研究中可以看出詞語級(jí)詞嵌入和字符級(jí)詞嵌入都能夠表示出文本的特征信息，為了更好的表示文本，本文分別將兩者作為BiGRU-CNN-Attention模型的輸入，將提取的特征進(jìn)行融合，以獲取更充足的信息.

綜上所述，本文提出了一種字詞融合的雙通道混合神經(jīng)網(wǎng)絡(luò)文本情感分析模型(CW_BGCA).將字符級(jí)詞嵌入和詞語級(jí)詞嵌入分別作為兩個(gè)混合網(wǎng)絡(luò)通道的輸入層，每個(gè)通道采用BiGRU-CNN-Attention混合網(wǎng)絡(luò)提取特征，最后將兩個(gè)通道分別獲取的特征拼接進(jìn)行分類.實(shí)驗(yàn)結(jié)果表明，利用該模型進(jìn)行文本分類的效果較優(yōu).

3 CW-BGCA模型

本文提出的CW-BGCA模型主要由3部分組成：基于字符級(jí)的BiGRU-CNN-Attention模型(記為C-BGCA模型)、基于詞語級(jí)的BiGRU-CNN-Attention模型(記為W-BGCA模型)、C-BGCA和W-BGCA模型的融合分類層.CW-BGCA模型的整體架構(gòu)如圖1所示.

圖1 CW-BGCA模型結(jié)構(gòu)圖Fig.1 CW-BGCA model diagram

3.1 嵌入層

詞嵌入是將文本中的詞語映射為低密度的數(shù)字向量的方法.詞嵌入主要有Word2Vec和Glove兩種方法.本文使用的是Word2Vec中的跳字模型(Continuous Skip-gram，Skip-gram).根據(jù)分詞粒度，在目前文本研究中，存在字符級(jí)和詞語級(jí)兩種詞嵌入.中文文本的研究大多數(shù)都是在詞語級(jí)詞嵌入的基礎(chǔ)上進(jìn)行的,分詞的效果直接影響著情感分析的性能，而網(wǎng)絡(luò)上的不規(guī)范用語比較嚴(yán)重，會(huì)對(duì)分詞效果造成很大的影響；字符級(jí)詞嵌入的方法不需要分詞，但字包含的語義信息沒有詞語充分，因此本文將將字符級(jí)詞嵌入作為C-BGCA模型的輸入層，將詞語級(jí)詞嵌入作為W-BGCA模型的輸入層，分別提取特征后融合進(jìn)行分類.

3.1.1 詞語級(jí)詞嵌入層

詞語級(jí)詞嵌入層為基于詞語特征系列模型的輸入，一般通過加載預(yù)訓(xùn)練的詞嵌入向量使用查字典的方法將文本表示為詞向量.詞典中單個(gè)向量的維度為k，詞語個(gè)數(shù)為N，詞典Dk×N通過大規(guī)模語料采用預(yù)訓(xùn)練模型訓(xùn)練得到.本文采用的是北京師范大學(xué)中文信息處理研究所與中國人民大學(xué)DBIIR實(shí)驗(yàn)室開源的使用Word2Vec模型(Skip-gram+負(fù)采樣)訓(xùn)練的百度百科詞向量[29，30].數(shù)據(jù)集中的每個(gè)文本由該文本中所有詞語的詞向量拼接而成，文本詞向量表示如公式(1)所示：

Xw=w1⊕w2⊕…⊕wn

(1)

其中：n表示單個(gè)文本中的詞語個(gè)數(shù)，wi∈Dk×N，表示文本中第i個(gè)詞語的詞向量(i=1,2,…,n)，?表示行向量拼接操作，Xw為詞語級(jí)的文本表示.

3.1.2 字符級(jí)詞嵌入層

字符級(jí)詞嵌入層為基于字符特征系列模型的輸入，以字為基本單位.本文的字向量使用隨機(jī)初始化的字嵌入層，字典中單個(gè)向量的維度和詞語級(jí)詞向量相同，也設(shè)為k，字個(gè)數(shù)為M，字典Dk×M是動(dòng)態(tài)隨機(jī)初始化得到的字典.字符級(jí)詞嵌入層將文本切分的字映射為低維向量，對(duì)于一個(gè)字符級(jí)的文本序列，將文本中字向量拼接起來，就可以得到整個(gè)文本序列的字向量表示，如公式(2)所示：

XC=c1⊕c2⊕…⊕cm

(2)

其中：m表示單個(gè)文本中的字的個(gè)數(shù)，ci∈Dk×M表示文本中第i個(gè)詞語的詞向量(i=1,2,…,m)，?表示行向量拼接操作，Xc為字符級(jí)的文本表示.

3.2 BiGRU層

GRU是循環(huán)神經(jīng)網(wǎng)絡(luò)系列中的一種效果很好的模型，能夠有效的解決梯度損失和梯度爆炸的問題，而且模型結(jié)構(gòu)也比較簡單，訓(xùn)練速度很快.GRU模型中只有兩個(gè)門：分別是更新門zt和重置門rt.具體結(jié)構(gòu)如圖2所示：

圖2 GRU模型結(jié)構(gòu)圖Fig.2 GRU model diagram

前一個(gè)狀態(tài)信息對(duì)于當(dāng)前狀態(tài)的影響由zt控制，zt越大，當(dāng)前隱層受前一個(gè)狀態(tài)影響越大；前一個(gè)狀態(tài)信息的保留程度由rt控制，rt越小，寫入的上一個(gè)狀態(tài)信息越少.具體計(jì)算過程如公式(3)～公式(6) 所示：

zt=σ(Wz·[ht-1,xt])

(3)

rt=σ(Wr·[ht-1,xt])

(4)

(5)

(6)

BiGRU使用兩個(gè)GRU從兩個(gè)相反的方向提取文本特征，輸出由兩個(gè) GRU 的狀態(tài)共同決定.詞向量XW和字向量XC分別為詞語級(jí)模型W-BGCA和字符級(jí)模型C-BGCA中BiGRU層的輸入.

BiGRU 使用兩個(gè)GRU從兩個(gè)相反的方向提取文本特征，輸出由兩個(gè) GRU 的狀態(tài)共同決定.詞向量XW和字向量XC分別為詞語級(jí)模型W-BGCA和字符級(jí)模型C-BGCA中BiGRU層的輸入.

(7)

(8)

HW=(h1,h2,…,hn)

(9)

HC=(h1,h2,…,hm)

(10)

3.3 卷積層

卷積層.可以通過不同的卷積核對(duì)輸入的序列進(jìn)行局部特征提取.卷積核窗口寬度和BiGRU層的輸出寬度一致.以詞語級(jí)模型W-BGCA為例，長度為d的卷積核把HW序列分為{H0:d-1，H1:d，…，Hi:i+d-1，…，Hn-d+1:n}，對(duì)每一個(gè)分量做卷積操作得到卷積特征如公式(11)所示：

Vc=(v1,v2,…,vn-d+1)

(11)

其中，vi是對(duì)分量Hi:i+d-1進(jìn)行卷積操作后提取的特征.每次滑動(dòng)窗口得到的vi計(jì)算如公式(12)：

vi=relu(W·Hi:i+d-1+b)

(12)

W為卷積核權(quán)重，b為偏置.

同樣的方式，字符級(jí)模型C-BGCA得到的卷積特征如公式(13)：

Vw=(v1,v2,…,vm-d+1)

(13)

3.4 池化層

池化層.對(duì)卷積后得到的特征矩陣V執(zhí)行下采樣操作，從中選取局部最優(yōu)特征，本文采用的是最大池化進(jìn)行采樣，得到的特征li，向量L為li的組合，詞語級(jí)模型W-BGCA獲取的最大池化特征LW如公式(14)-公式(15)：

li=max(v1,v2,…,vn-d+1)

(14)

Lw=(l1,l2,…,ln)

(15)

同理，字符級(jí)模型C-BGCA獲取的最大池化特征LC如公式(16)所示：

LC=(l1,l2,…,lm)

(16)

3.5 注意力層

注意力層對(duì)分別對(duì)字符級(jí)和詞語級(jí)的BiGRU-CNN模型提取的特征進(jìn)行處理，確定顯著信息.其函數(shù)如公式(17)所示：

(17)

其中Q∈Rn×dk,K∈Rm×dk,V∈Rm×dv，dk為調(diào)節(jié)因子，使得內(nèi)積不至于太大.Attention層能夠?qū)×dk的序列Q編碼成了一個(gè)新的n×dv的序列.本文采用Self-Attention結(jié)構(gòu)，即Attention(J，J，J)，J表示輸入序列.在序列內(nèi)部做Attention ，尋找顯著特征.

AW=Attention(LW,LW,LW)

(18)

AC=Attention(LC,LC,LC)

(19)

3.6 融合層

將字符級(jí)模型C-BGCA經(jīng)過卷積層獲取的C-BiGRU-CNN模型和詞語級(jí)模型經(jīng)過卷積層獲取的W-BiGRU-CNN模型分別經(jīng)過注意力機(jī)制提取的顯著特征AW和AC進(jìn)行融合，得到融合特征A:

A=(AW⊕AC)

(20)

3.7 輸出層

將融合特征A輸入到多層感知器(MLP)，得到更高層的特征表示，并將其進(jìn)行非線性函數(shù)f變換，情感標(biāo)簽的得分如公式(21)所示：

Score(S)=f(WhA+bh)

(21)

其中：Score(S)∈R|Y|為情感標(biāo)簽的得分向量；Y表示情感標(biāo)簽的集合；Wh和bh分別為MLP的參數(shù)矩陣和偏置量，MLP不包含任何隱藏層.本文采用RELU函數(shù)完成非線性變換.然后對(duì)情緒得分向量執(zhí)行Softmax運(yùn)算，具體過程如公式(22)：

(22)

4 實(shí)驗(yàn)與分析

4.1 數(shù)據(jù)集

本次實(shí)驗(yàn)的數(shù)據(jù)主要來自于網(wǎng)絡(luò)購物的評(píng)論，總共20000條數(shù)據(jù)，包括書籍、酒店、計(jì)算機(jī)等5個(gè)領(lǐng)域的評(píng)論.其中，酒店評(píng)論來自中科院譚松波博士(1)https://www.aitechclub.com/data-detail?data_id=29整理的酒店評(píng)論語料，其他數(shù)據(jù)從京東商城網(wǎng)站整理獲取.正負(fù)樣本各10000條，正面情感標(biāo)記為1，負(fù)面情感標(biāo)記為0.統(tǒng)計(jì)數(shù)據(jù)如表1所示.

表1 數(shù)據(jù)統(tǒng)計(jì)表Table 1 Statistics table

將所有數(shù)據(jù)匯總為一個(gè)數(shù)據(jù)集，然后隨機(jī)打亂，按照8:2的比例分為訓(xùn)練集和測試集，實(shí)驗(yàn)數(shù)據(jù)如表2所示.

表2 詳細(xì)實(shí)驗(yàn)數(shù)據(jù)表Table 2 Detailed experimental data table

4.2 模型參數(shù)設(shè)置

本文實(shí)驗(yàn)基于Tensorflow實(shí)現(xiàn)，經(jīng)過多次迭代調(diào)整，最終CW_BGCA模型參數(shù)如表3所示.

表3 CW_BGCA模型參數(shù)設(shè)置Table 3 CW_BGCA model parameter settings

4.3 評(píng)價(jià)標(biāo)準(zhǔn)

本文實(shí)驗(yàn)結(jié)果采用以下4種指標(biāo)作為評(píng)價(jià)標(biāo)準(zhǔn)：Accuracy、Precision、Recall、F1，相關(guān)參數(shù)如表4所示.

表4 評(píng)價(jià)指標(biāo)相關(guān)參數(shù)Table 4 Related parameters of evaluation indicators

(23)

(24)

(25)

(26)

4.4 對(duì)比實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)設(shè)置的對(duì)比模型有7組，包括單一網(wǎng)絡(luò)與混合網(wǎng)絡(luò)的比較，字符級(jí)詞向量與詞語級(jí)詞向量的比較，添加注意力機(jī)制的網(wǎng)絡(luò)對(duì)比，以及單通道與雙通道的對(duì)比.

1)BiGRU：單一的BiGRU網(wǎng)絡(luò)，單通道，輸入詞向量.

2)CNN：單一的CNN網(wǎng)絡(luò)，單通道，輸入詞向量.

3)C-BGC：先添加BiGRU網(wǎng)絡(luò)，再添加CNN網(wǎng)絡(luò)，單通道，動(dòng)態(tài)隨機(jī)初始化字向量作為輸入.

4)W-BGC：先添加BiGRU網(wǎng)絡(luò)，再添加CNN網(wǎng)絡(luò)，單通道，輸入詞向量.

5)CW_BGC：雙通道，每個(gè)通道中均為先添加BiGRU網(wǎng)絡(luò)，再添加CNN網(wǎng)絡(luò)，最后將雙通道分別獲取的字詞特征拼接，兩個(gè)通道分別輸入詞向量和動(dòng)態(tài)隨機(jī)初始化字向量.

6)C-BGCA：先添加BiGRU網(wǎng)絡(luò)，再添加CNN網(wǎng)絡(luò)，最后引入注意力機(jī)制，單通道，動(dòng)態(tài)隨機(jī)初始化字向量作為輸入.

7)W-BGCA：先添加BiGRU網(wǎng)絡(luò)，再添加CNN網(wǎng)絡(luò)，最后引入注意力機(jī)制，單通道，詞向量作為輸入.

8)CW_BGCA：雙通道，每個(gè)通道中都是先添加BiGRU網(wǎng)絡(luò)，再添加CNN網(wǎng)絡(luò)，然后引入注意力機(jī)制，最后將雙通道分別獲取的字詞特征拼接，兩個(gè)通道分別使用詞向量和動(dòng)態(tài)隨機(jī)初始化字向量作為輸入.

4.5 實(shí)驗(yàn)結(jié)果分析

為驗(yàn)證本文模型的有效性，在相同實(shí)驗(yàn)環(huán)境下使用5個(gè)領(lǐng)域的20000條評(píng)論作為數(shù)據(jù)集，8組模型結(jié)果如表5所示.

表5 實(shí)驗(yàn)結(jié)果Table 5 Experimental results

表5將本文的CW_BGCA模型和其他7組對(duì)比模型的Accuracy、Precision、Recall和F1進(jìn)行了對(duì)比.由表格中的數(shù)據(jù)可以看出，本文提出的CW_BGCA模型在Accuracy、Precision和F1這3個(gè)指標(biāo)上都取得了最優(yōu)的結(jié)果.模型的分類效果和F1值正相關(guān)，該模型在數(shù)據(jù)集上的F1值為0.9315，高于其他模型0.25%～4%，說明模型的分類效果明顯優(yōu)于對(duì)比模型.

第4組W-BGC模型和第1、2組的單一的BiGRU和CNN模型對(duì)比，在4個(gè)指標(biāo)上都有了明顯的提升.在綜合評(píng)價(jià)指標(biāo)F1上，W-BGC模型比單一的BiGRU和CNN模型分別提升了2.09%和3.03%.由于BiGRU模型只考慮到文本的上下文信息，忽略了局部特征對(duì)于情感分析的影響；CNN模型只考慮了局部語義特征，沒有考慮到上下文信息的影響.而使用CNN網(wǎng)絡(luò)對(duì)BiGRU模型獲取的序列信息進(jìn)行提取，可以將特征優(yōu)化，獲取到上下文和深層語義，得到更好的分類效果，與我們上文的分析一致.

第3組C-BGC模型的效果明顯低于第4組W-BGC模型.證明了詞語級(jí)詞向量的優(yōu)勢(shì)，由于詞語是中文文本中表達(dá)信息的基本單位，所以在訓(xùn)練中使用詞語級(jí)詞嵌入相比字符級(jí)詞嵌入有更好的性能.

第5、8組字詞融合雙通道CW_BGC模型和CW_BGCA模型的效果優(yōu)于第3、4組和6、7組單獨(dú)使用詞語級(jí)詞嵌入和字符級(jí)詞嵌入，說明雙通道的字詞融合可以更加充分的提取到文本含義，對(duì)模型性能起到促進(jìn)作用.

第6、7、8組模型分別在第3、4、5組模型的基礎(chǔ)上添加了Attention機(jī)制，準(zhǔn)確率和F1值都有明顯的提高，說明在文本情感分類的模型中添加Attention機(jī)制能夠有效的提升模型效果.Attention機(jī)制對(duì)BiGRU-CNN模型提取的特征進(jìn)行權(quán)重分配，可以幫助模型快速提取到重要特征，提高模型的效果.

5 結(jié)束語

本文提出了一種CW_BGCA模型，首先將字符級(jí)詞嵌入和詞語級(jí)詞嵌入分別作為雙通道混合網(wǎng)絡(luò)的輸入層；然后通過BiGRU進(jìn)行全局語義建模，獲取上下文語義特征，再通過CNN對(duì)語義進(jìn)行卷積池化獲取局部語義特征，并分別引入Attention機(jī)制分配特征權(quán)重，優(yōu)化特征；最后將獲取的字詞特征融合進(jìn)行分類.實(shí)驗(yàn)驗(yàn)證，該模型能夠提高文本情感分類的性能.同時(shí)，通過對(duì)比實(shí)驗(yàn)也驗(yàn)證了雙通道的混合模型效果優(yōu)于單獨(dú)的神經(jīng)網(wǎng)絡(luò)模型；字詞融合特征優(yōu)于單獨(dú)的字符級(jí)詞嵌入和詞語級(jí)詞嵌入的效果；以及添加Attention機(jī)制能夠明顯提升模型的性能.下一步將對(duì)深層的神經(jīng)網(wǎng)絡(luò)模型對(duì)于情感分析的影響做深入的研究.