999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

字詞融合的雙通道混合神經(jīng)網(wǎng)絡(luò)情感分析模型

2021-03-13 06:00:44楊小兵姚雨虹
關(guān)鍵詞:特征文本情感

陳 欣,楊小兵,姚雨虹

(中國計(jì)量大學(xué) 信息工程學(xué)院,杭州 310018)

1 引 言

隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)購已經(jīng)成為人們?nèi)粘I畹闹匾M成部分,相對(duì)于傳統(tǒng)購物中面對(duì)面的商品交易,網(wǎng)上購物看不見實(shí)際商品,僅通過商家上傳的圖片判斷商品質(zhì)量顯然不太可靠,所以商品評(píng)論就成為大家在網(wǎng)上購買各種商品時(shí)的重要參考依據(jù).淘寶、京東、拼多多等購物平臺(tái)的用戶往往在收貨后會(huì)寫下對(duì)商品的評(píng)價(jià),其他消費(fèi)者通過這些評(píng)價(jià)可以了解產(chǎn)品質(zhì)量、售前售后服務(wù)等.銷售商可以通過消費(fèi)者對(duì)商品的文本評(píng)語,分析消費(fèi)者對(duì)商品的看法,從而幫助改善制定的營銷措施[1].而隨著大數(shù)據(jù)時(shí)代的到來,信息規(guī)模的爆炸式增長,人工處理已經(jīng)無法滿足大規(guī)模文本分析任務(wù),因此文本情感分析技術(shù)也得到了迅速發(fā)展.

最開始,研究者在情感詞典和語義規(guī)則方面進(jìn)行研究,基于詞典和規(guī)則[2-4]的情緒分類方法解釋性強(qiáng),運(yùn)算速度快.但是隨著互聯(lián)網(wǎng)上新詞的不斷涌現(xiàn),基于詞典和規(guī)則的方法在分類時(shí)靈活度不高,難以應(yīng)對(duì)不斷變化的詞形詞義.為提高情感分類的性能,研究者開展了基于機(jī)器學(xué)習(xí)的情感分析方法.通過選取大量有意義的特征來完成情緒分析任務(wù).基于機(jī)器學(xué)習(xí)的方法[5,6]主要通過對(duì)數(shù)據(jù)集進(jìn)行特征提取,訓(xùn)練分類模型,然后對(duì)測試數(shù)據(jù)進(jìn)行預(yù)測.但是該方法依賴于提取的特征,而且需要構(gòu)建復(fù)雜的特征工程.由于這些方法存在的問題,一些學(xué)者開始使用深度學(xué)習(xí)(Deep Learning,DL)方法進(jìn)行情感分析研究,深度學(xué)習(xí)的方法[7-9]使用各種神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí),提取文本特征,避免了機(jī)器學(xué)習(xí)由于人工提取的特征不準(zhǔn)確而帶來的分類誤差.深度神經(jīng)網(wǎng)絡(luò)的多層非線性結(jié)構(gòu)可以捕捉文本的深層次特征,實(shí)現(xiàn)對(duì)文本的深層理解.

2 相關(guān)工作

近年來,隨著DL技術(shù)的突飛猛進(jìn),越來越多的研究者開始將循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)算法及其優(yōu)化算法和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)算法應(yīng)用于文本情感分析任務(wù)中.CNN最早應(yīng)用在視覺領(lǐng)域中,經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)整合了卷積層和池化層,最早是由Collobert等人[10]應(yīng)用于情感分析任務(wù).為了獲得更好的句子表示,Kalchbrenner等人[11]把基本的CNN模型向兩方面進(jìn)行擴(kuò)展,作者一方面使用動(dòng)態(tài)池化技術(shù),另一方面增加了CNN的層數(shù).Kim[8]嘗試將隨機(jī)初始化詞嵌入和預(yù)訓(xùn)練詞嵌入兩種不同類型的詞嵌入整合在一起,雖然模型簡單,但達(dá)到一個(gè)不錯(cuò)的效果.陳志等[12]在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上把類別標(biāo)簽權(quán)重引入損失函數(shù),強(qiáng)化少數(shù)類對(duì)模型的影響,在文本分類任務(wù)中獲取較好的結(jié)果.

雖然卷積神經(jīng)網(wǎng)絡(luò)有很強(qiáng)的局部學(xué)習(xí)能力,但是忽略了反映句法和語義的遠(yuǎn)距離依賴特性,這種特性對(duì)于句子的理解非常重要.循環(huán)神經(jīng)網(wǎng)絡(luò)是一種具有記憶功能的網(wǎng)絡(luò),在序列數(shù)據(jù)的建模上有很大優(yōu)勢(shì),但是普通RNN存在不能處理長依賴的問題.Wang等人[13]使用長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)為tweet的情感分析進(jìn)行研究,和普通的RNN相比,LSTM可以更好的緩解梯度爆炸和梯度消失帶來的影響.Teng等人[14]首先使用雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM)對(duì)句子進(jìn)行建模,BiLSTM可以將一個(gè)句子表現(xiàn)的更加全面,每個(gè)詞的表示輸出可以與前后的詞關(guān)聯(lián)起來,但網(wǎng)絡(luò)結(jié)構(gòu)比較復(fù)雜,時(shí)間代價(jià)很高.門控循環(huán)神經(jīng)單元(Gated Recurrent Unit,GRU)由Cho等[15]在2014年提出,GRU是對(duì)LSTM的一種改進(jìn).GRU將遺忘門和輸入門合并為更新門,同時(shí)將記憶單元和隱藏層合并為重置門,相比LSTM參數(shù)少很多,因此運(yùn)算相對(duì)簡化且性能得以增強(qiáng).雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional Gated Recurrent Unit,BiGRU)是兩個(gè)單向GRU的結(jié)合,網(wǎng)絡(luò)結(jié)構(gòu)相比BiLSTM簡單,時(shí)間復(fù)雜度更低.雖然BiGRU能夠充分考慮到上下文信息,但是很難獲取深層語義特征,因而本文使用CNN網(wǎng)絡(luò)對(duì)BiGRU模型獲取的序列信息進(jìn)行提取(BiGRU-CNN),將特征優(yōu)化,充分獲取到文本上下文信息和深層語義.

近年來,注意力(Attention)機(jī)制[16,17]被廣泛應(yīng)用到基于深度學(xué)習(xí)的自然語言處理任務(wù)中,Attention可以快速提取稀疏數(shù)據(jù)的核心內(nèi)容,從而使模型更好地利用與訓(xùn)練目標(biāo)相關(guān)的特征.隨著注意力機(jī)制在許多任務(wù)中取得優(yōu)秀的效果,研究者開始將Attention機(jī)制添加到各種文本情感分析的模型中[18-23].馮興杰等[18]將傳統(tǒng)的CNN模型和注意力模型相結(jié)合進(jìn)行情感分析.張仰森等[19]將BiLSTM和Attention機(jī)制相結(jié)合對(duì)微博文本進(jìn)行情緒識(shí)別和情感分類.陳潔等[20]提將CNN和BiGRU并行的混合神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制相結(jié)合進(jìn)行情感分析.陶永才等[21]將池化層和Attention機(jī)制相結(jié)合,利用平均池化和最大池化提取文本特征,使用Attention機(jī)制生成權(quán)重進(jìn)行分類,在收斂時(shí)間更短的情況下獲取了較好的結(jié)果.高瑋軍等[22]提出一種AT-DCNN模型,使用Attention機(jī)制對(duì)詞向量進(jìn)行處理,降低冗余信息對(duì)于情感分析的影響,通過CNN模型進(jìn)行分類,彌補(bǔ)了CNN特征提取過程中信息丟失的問題.王麗亞等[23]提出一種T-CBGA模型,使用字符級(jí)詞向量表示文本,將相同的CNN-BiGRU-attention模型組成雙通道形式對(duì)文本進(jìn)行情感分析.在這些模型中,注意力機(jī)制的引入對(duì)文本分類任務(wù)的性能都有明顯的正面影響.因此本文在BiGRU-CNN模型中引入Attention機(jī)制,對(duì)模型提取的特征進(jìn)行權(quán)重分配,確定顯著信息,從而提高模型的性能.

目前常用的模型大多使用字符級(jí)詞嵌入或者詞語級(jí)詞嵌入進(jìn)行文本表示,Zhang等[24]使用詞語級(jí)詞嵌入和情感符號(hào)進(jìn)行結(jié)合,使用BiLSTM和注意力機(jī)制的雙通道網(wǎng)絡(luò)對(duì)微博文本進(jìn)行分析.Dos Santos和Gatti[25]采用了詞的字符特征進(jìn)一步加強(qiáng)了詞嵌入表示.劉龍飛等[26]將字符級(jí)詞向量和詞語級(jí)詞向量分別作為原始特征,通過CNN進(jìn)行特征提取,驗(yàn)證了在中文微博的情感分類任務(wù)中,字符級(jí)詞嵌入效果更好.鄭誠等[27]將CNN和GRU相結(jié)合提出一種DC-BiGRU_CNN模型,使用單詞級(jí)和字符級(jí)詞嵌入作為輸入層,采用密集連接的BiGRU網(wǎng)絡(luò)和CNN網(wǎng)絡(luò)提取特征,在文本分類任務(wù)中準(zhǔn)確率有明顯提升.王根生等[28]將詞嵌入特征、詞語的情感特征和權(quán)重特征融合GRU神經(jīng)網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)文本進(jìn)行情感分類,在較少數(shù)據(jù)量時(shí)也能獲得較好的效果.從這些研究中可以看出詞語級(jí)詞嵌入和字符級(jí)詞嵌入都能夠表示出文本的特征信息,為了更好的表示文本,本文分別將兩者作為BiGRU-CNN-Attention模型的輸入,將提取的特征進(jìn)行融合,以獲取更充足的信息.

綜上所述,本文提出了一種字詞融合的雙通道混合神經(jīng)網(wǎng)絡(luò)文本情感分析模型(CW_BGCA).將字符級(jí)詞嵌入和詞語級(jí)詞嵌入分別作為兩個(gè)混合網(wǎng)絡(luò)通道的輸入層,每個(gè)通道采用BiGRU-CNN-Attention混合網(wǎng)絡(luò)提取特征,最后將兩個(gè)通道分別獲取的特征拼接進(jìn)行分類.實(shí)驗(yàn)結(jié)果表明,利用該模型進(jìn)行文本分類的效果較優(yōu).

3 CW-BGCA模型

本文提出的CW-BGCA模型主要由3部分組成:基于字符級(jí)的BiGRU-CNN-Attention模型(記為C-BGCA模型)、基于詞語級(jí)的BiGRU-CNN-Attention模型(記為W-BGCA模型)、C-BGCA和W-BGCA模型的融合分類層.CW-BGCA模型的整體架構(gòu)如圖1所示.

圖1 CW-BGCA模型結(jié)構(gòu)圖Fig.1 CW-BGCA model diagram

3.1 嵌入層

詞嵌入是將文本中的詞語映射為低密度的數(shù)字向量的方法.詞嵌入主要有Word2Vec和Glove兩種方法.本文使用的是Word2Vec中的跳字模型(Continuous Skip-gram,Skip-gram).根據(jù)分詞粒度,在目前文本研究中,存在字符級(jí)和詞語級(jí)兩種詞嵌入.中文文本的研究大多數(shù)都是在詞語級(jí)詞嵌入的基礎(chǔ)上進(jìn)行的,分詞的效果直接影響著情感分析的性能,而網(wǎng)絡(luò)上的不規(guī)范用語比較嚴(yán)重,會(huì)對(duì)分詞效果造成很大的影響;字符級(jí)詞嵌入的方法不需要分詞,但字包含的語義信息沒有詞語充分,因此本文將將字符級(jí)詞嵌入作為C-BGCA模型的輸入層,將詞語級(jí)詞嵌入作為W-BGCA模型的輸入層,分別提取特征后融合進(jìn)行分類.

3.1.1 詞語級(jí)詞嵌入層

詞語級(jí)詞嵌入層為基于詞語特征系列模型的輸入,一般通過加載預(yù)訓(xùn)練的詞嵌入向量使用查字典的方法將文本表示為詞向量.詞典中單個(gè)向量的維度為k,詞語個(gè)數(shù)為N,詞典Dk×N通過大規(guī)模語料采用預(yù)訓(xùn)練模型訓(xùn)練得到.本文采用的是北京師范大學(xué)中文信息處理研究所與中國人民大學(xué)DBIIR實(shí)驗(yàn)室開源的使用Word2Vec模型(Skip-gram+負(fù)采樣)訓(xùn)練的百度百科詞向量[29,30].數(shù)據(jù)集中的每個(gè)文本由該文本中所有詞語的詞向量拼接而成,文本詞向量表示如公式(1)所示:

Xw=w1⊕w2⊕…⊕wn

(1)

其中:n表示單個(gè)文本中的詞語個(gè)數(shù),wi∈Dk×N,表示文本中第i個(gè)詞語的詞向量(i=1,2,…,n),?表示行向量拼接操作,Xw為詞語級(jí)的文本表示.

3.1.2 字符級(jí)詞嵌入層

字符級(jí)詞嵌入層為基于字符特征系列模型的輸入,以字為基本單位.本文的字向量使用隨機(jī)初始化的字嵌入層,字典中單個(gè)向量的維度和詞語級(jí)詞向量相同,也設(shè)為k,字個(gè)數(shù)為M,字典Dk×M是動(dòng)態(tài)隨機(jī)初始化得到的字典.字符級(jí)詞嵌入層將文本切分的字映射為低維向量,對(duì)于一個(gè)字符級(jí)的文本序列,將文本中字向量拼接起來,就可以得到整個(gè)文本序列的字向量表示,如公式(2)所示:

XC=c1⊕c2⊕…⊕cm

(2)

其中:m表示單個(gè)文本中的字的個(gè)數(shù),ci∈Dk×M表示文本中第i個(gè)詞語的詞向量(i=1,2,…,m),?表示行向量拼接操作,Xc為字符級(jí)的文本表示.

3.2 BiGRU層

GRU是循環(huán)神經(jīng)網(wǎng)絡(luò)系列中的一種效果很好的模型,能夠有效的解決梯度損失和梯度爆炸的問題,而且模型結(jié)構(gòu)也比較簡單,訓(xùn)練速度很快.GRU模型中只有兩個(gè)門:分別是更新門zt和重置門rt.具體結(jié)構(gòu)如圖2所示:

圖2 GRU模型結(jié)構(gòu)圖Fig.2 GRU model diagram

前一個(gè)狀態(tài)信息對(duì)于當(dāng)前狀態(tài)的影響由zt控制,zt越大,當(dāng)前隱層受前一個(gè)狀態(tài)影響越大;前一個(gè)狀態(tài)信息的保留程度由rt控制,rt越小,寫入的上一個(gè)狀態(tài)信息越少.具體計(jì)算過程如公式(3)~公式(6) 所示:

zt=σ(Wz·[ht-1,xt])

(3)

rt=σ(Wr·[ht-1,xt])

(4)

(5)

(6)

BiGRU使用兩個(gè)GRU從兩個(gè)相反的方向提取文本特征,輸出由兩個(gè) GRU 的狀態(tài)共同決定.詞向量XW和字向量XC分別為詞語級(jí)模型W-BGCA和字符級(jí)模型C-BGCA中BiGRU層的輸入.

BiGRU 使用兩個(gè)GRU從兩個(gè)相反的方向提取文本特征,輸出由兩個(gè) GRU 的狀態(tài)共同決定.詞向量XW和字向量XC分別為詞語級(jí)模型W-BGCA和字符級(jí)模型C-BGCA中BiGRU層的輸入.

(7)

(8)

HW=(h1,h2,…,hn)

(9)

HC=(h1,h2,…,hm)

(10)

3.3 卷積層

卷積層.可以通過不同的卷積核對(duì)輸入的序列進(jìn)行局部特征提取.卷積核窗口寬度和BiGRU層的輸出寬度一致.以詞語級(jí)模型W-BGCA為例,長度為d的卷積核把HW序列分為{H0:d-1,H1:d,…,Hi:i+d-1,…,Hn-d+1:n},對(duì)每一個(gè)分量做卷積操作得到卷積特征如公式(11)所示:

Vc=(v1,v2,…,vn-d+1)

(11)

其中,vi是對(duì)分量Hi:i+d-1進(jìn)行卷積操作后提取的特征.每次滑動(dòng)窗口得到的vi計(jì)算如公式(12):

vi=relu(W·Hi:i+d-1+b)

(12)

W為卷積核權(quán)重,b為偏置.

同樣的方式,字符級(jí)模型C-BGCA得到的卷積特征如公式(13):

Vw=(v1,v2,…,vm-d+1)

(13)

3.4 池化層

池化層.對(duì)卷積后得到的特征矩陣V執(zhí)行下采樣操作,從中選取局部最優(yōu)特征,本文采用的是最大池化進(jìn)行采樣,得到的特征li,向量L為li的組合,詞語級(jí)模型W-BGCA獲取的最大池化特征LW如公式(14)-公式(15):

li=max(v1,v2,…,vn-d+1)

(14)

Lw=(l1,l2,…,ln)

(15)

同理,字符級(jí)模型C-BGCA獲取的最大池化特征LC如公式(16)所示:

LC=(l1,l2,…,lm)

(16)

3.5 注意力層

注意力層對(duì)分別對(duì)字符級(jí)和詞語級(jí)的BiGRU-CNN模型提取的特征進(jìn)行處理,確定顯著信息.其函數(shù)如公式(17)所示:

(17)

其中Q∈Rn×dk,K∈Rm×dk,V∈Rm×dv,dk為調(diào)節(jié)因子,使得內(nèi)積不至于太大.Attention層能夠?qū)×dk的序列Q編碼成了一個(gè)新的n×dv的序列.本文采用Self-Attention結(jié)構(gòu),即Attention(J,J,J),J表示輸入序列.在序列內(nèi)部做Attention ,尋找顯著特征.

AW=Attention(LW,LW,LW)

(18)

AC=Attention(LC,LC,LC)

(19)

3.6 融合層

將字符級(jí)模型C-BGCA經(jīng)過卷積層獲取的C-BiGRU-CNN模型和詞語級(jí)模型經(jīng)過卷積層獲取的W-BiGRU-CNN模型分別經(jīng)過注意力機(jī)制提取的顯著特征AW和AC進(jìn)行融合,得到融合特征A:

A=(AW⊕AC)

(20)

3.7 輸出層

將融合特征A輸入到多層感知器(MLP),得到更高層的特征表示,并將其進(jìn)行非線性函數(shù)f變換,情感標(biāo)簽的得分如公式(21)所示:

Score(S)=f(WhA+bh)

(21)

其中:Score(S)∈R|Y|為情感標(biāo)簽的得分向量;Y表示情感標(biāo)簽的集合;Wh和bh分別為MLP的參數(shù)矩陣和偏置量,MLP不包含任何隱藏層.本文采用RELU函數(shù)完成非線性變換.然后對(duì)情緒得分向量執(zhí)行Softmax運(yùn)算,具體過程如公式(22):

(22)

4 實(shí)驗(yàn)與分析

4.1 數(shù)據(jù)集

本次實(shí)驗(yàn)的數(shù)據(jù)主要來自于網(wǎng)絡(luò)購物的評(píng)論,總共20000條數(shù)據(jù),包括書籍、酒店、計(jì)算機(jī)等5個(gè)領(lǐng)域的評(píng)論.其中,酒店評(píng)論來自中科院譚松波博士(1)https://www.aitechclub.com/data-detail?data_id=29整理的酒店評(píng)論語料,其他數(shù)據(jù)從京東商城網(wǎng)站整理獲取.正負(fù)樣本各10000條,正面情感標(biāo)記為1,負(fù)面情感標(biāo)記為0.統(tǒng)計(jì)數(shù)據(jù)如表1所示.

表1 數(shù)據(jù)統(tǒng)計(jì)表Table 1 Statistics table

將所有數(shù)據(jù)匯總為一個(gè)數(shù)據(jù)集,然后隨機(jī)打亂,按照8:2的比例分為訓(xùn)練集和測試集,實(shí)驗(yàn)數(shù)據(jù)如表2所示.

表2 詳細(xì)實(shí)驗(yàn)數(shù)據(jù)表Table 2 Detailed experimental data table

4.2 模型參數(shù)設(shè)置

本文實(shí)驗(yàn)基于Tensorflow實(shí)現(xiàn),經(jīng)過多次迭代調(diào)整,最終CW_BGCA模型參數(shù)如表3所示.

表3 CW_BGCA模型參數(shù)設(shè)置Table 3 CW_BGCA model parameter settings

4.3 評(píng)價(jià)標(biāo)準(zhǔn)

本文實(shí)驗(yàn)結(jié)果采用以下4種指標(biāo)作為評(píng)價(jià)標(biāo)準(zhǔn):Accuracy、Precision、Recall、F1,相關(guān)參數(shù)如表4所示.

表4 評(píng)價(jià)指標(biāo)相關(guān)參數(shù)Table 4 Related parameters of evaluation indicators

(23)

(24)

(25)

(26)

4.4 對(duì)比實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)設(shè)置的對(duì)比模型有7組,包括單一網(wǎng)絡(luò)與混合網(wǎng)絡(luò)的比較,字符級(jí)詞向量與詞語級(jí)詞向量的比較,添加注意力機(jī)制的網(wǎng)絡(luò)對(duì)比,以及單通道與雙通道的對(duì)比.

1)BiGRU:單一的BiGRU網(wǎng)絡(luò),單通道,輸入詞向量.

2)CNN:單一的CNN網(wǎng)絡(luò),單通道,輸入詞向量.

3)C-BGC:先添加BiGRU網(wǎng)絡(luò),再添加CNN網(wǎng)絡(luò),單通道,動(dòng)態(tài)隨機(jī)初始化字向量作為輸入.

4)W-BGC:先添加BiGRU網(wǎng)絡(luò),再添加CNN網(wǎng)絡(luò),單通道,輸入詞向量.

5)CW_BGC:雙通道,每個(gè)通道中均為先添加BiGRU網(wǎng)絡(luò),再添加CNN網(wǎng)絡(luò),最后將雙通道分別獲取的字詞特征拼接,兩個(gè)通道分別輸入詞向量和動(dòng)態(tài)隨機(jī)初始化字向量.

6)C-BGCA:先添加BiGRU網(wǎng)絡(luò),再添加CNN網(wǎng)絡(luò),最后引入注意力機(jī)制,單通道,動(dòng)態(tài)隨機(jī)初始化字向量作為輸入.

7)W-BGCA:先添加BiGRU網(wǎng)絡(luò),再添加CNN網(wǎng)絡(luò),最后引入注意力機(jī)制,單通道,詞向量作為輸入.

8)CW_BGCA:雙通道,每個(gè)通道中都是先添加BiGRU網(wǎng)絡(luò),再添加CNN網(wǎng)絡(luò),然后引入注意力機(jī)制,最后將雙通道分別獲取的字詞特征拼接,兩個(gè)通道分別使用詞向量和動(dòng)態(tài)隨機(jī)初始化字向量作為輸入.

4.5 實(shí)驗(yàn)結(jié)果分析

為驗(yàn)證本文模型的有效性,在相同實(shí)驗(yàn)環(huán)境下使用5個(gè)領(lǐng)域的20000條評(píng)論作為數(shù)據(jù)集,8組模型結(jié)果如表5所示.

表5 實(shí)驗(yàn)結(jié)果Table 5 Experimental results

表5將本文的CW_BGCA模型和其他7組對(duì)比模型的Accuracy、Precision、Recall和F1進(jìn)行了對(duì)比.由表格中的數(shù)據(jù)可以看出,本文提出的CW_BGCA模型在Accuracy、Precision和F1這3個(gè)指標(biāo)上都取得了最優(yōu)的結(jié)果.模型的分類效果和F1值正相關(guān),該模型在數(shù)據(jù)集上的F1值為0.9315,高于其他模型0.25%~4%,說明模型的分類效果明顯優(yōu)于對(duì)比模型.

第4組W-BGC模型和第1、2組的單一的BiGRU和CNN模型對(duì)比,在4個(gè)指標(biāo)上都有了明顯的提升.在綜合評(píng)價(jià)指標(biāo)F1上,W-BGC模型比單一的BiGRU和CNN模型分別提升了2.09%和3.03%.由于BiGRU模型只考慮到文本的上下文信息,忽略了局部特征對(duì)于情感分析的影響;CNN模型只考慮了局部語義特征,沒有考慮到上下文信息的影響.而使用CNN網(wǎng)絡(luò)對(duì)BiGRU模型獲取的序列信息進(jìn)行提取,可以將特征優(yōu)化,獲取到上下文和深層語義,得到更好的分類效果,與我們上文的分析一致.

第3組C-BGC模型的效果明顯低于第4組W-BGC模型.證明了詞語級(jí)詞向量的優(yōu)勢(shì),由于詞語是中文文本中表達(dá)信息的基本單位,所以在訓(xùn)練中使用詞語級(jí)詞嵌入相比字符級(jí)詞嵌入有更好的性能.

第5、8組字詞融合雙通道CW_BGC模型和CW_BGCA模型的效果優(yōu)于第3、4組和6、7組單獨(dú)使用詞語級(jí)詞嵌入和字符級(jí)詞嵌入,說明雙通道的字詞融合可以更加充分的提取到文本含義,對(duì)模型性能起到促進(jìn)作用.

第6、7、8組模型分別在第3、4、5組模型的基礎(chǔ)上添加了Attention機(jī)制,準(zhǔn)確率和F1值都有明顯的提高,說明在文本情感分類的模型中添加Attention機(jī)制能夠有效的提升模型效果.Attention機(jī)制對(duì)BiGRU-CNN模型提取的特征進(jìn)行權(quán)重分配,可以幫助模型快速提取到重要特征,提高模型的效果.

5 結(jié)束語

本文提出了一種CW_BGCA模型,首先將字符級(jí)詞嵌入和詞語級(jí)詞嵌入分別作為雙通道混合網(wǎng)絡(luò)的輸入層;然后通過BiGRU進(jìn)行全局語義建模,獲取上下文語義特征,再通過CNN對(duì)語義進(jìn)行卷積池化獲取局部語義特征,并分別引入Attention機(jī)制分配特征權(quán)重,優(yōu)化特征;最后將獲取的字詞特征融合進(jìn)行分類.實(shí)驗(yàn)驗(yàn)證,該模型能夠提高文本情感分類的性能.同時(shí),通過對(duì)比實(shí)驗(yàn)也驗(yàn)證了雙通道的混合模型效果優(yōu)于單獨(dú)的神經(jīng)網(wǎng)絡(luò)模型;字詞融合特征優(yōu)于單獨(dú)的字符級(jí)詞嵌入和詞語級(jí)詞嵌入的效果;以及添加Attention機(jī)制能夠明顯提升模型的性能.下一步將對(duì)深層的神經(jīng)網(wǎng)絡(luò)模型對(duì)于情感分析的影響做深入的研究.

猜你喜歡
特征文本情感
如何在情感中自我成長,保持獨(dú)立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達(dá)“特征”
情感
在808DA上文本顯示的改善
不忠誠的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨(dú)立
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 91亚瑟视频| 亚洲国产欧美中日韩成人综合视频| 91久久偷偷做嫩草影院电| 沈阳少妇高潮在线| 欧洲熟妇精品视频| 日韩午夜福利在线观看| 极品av一区二区| 亚洲午夜福利在线| 热re99久久精品国99热| аv天堂最新中文在线| 3344在线观看无码| av在线5g无码天天| 亚洲无码37.| 午夜福利无码一区二区| 免费视频在线2021入口| 久久久久久高潮白浆| 四虎国产永久在线观看| 欧美福利在线观看| 东京热av无码电影一区二区| www中文字幕在线观看| 国产精品亚洲综合久久小说| 99re这里只有国产中文精品国产精品| 国产女人在线观看| 日韩免费毛片视频| 久操线在视频在线观看| 欧美有码在线| 亚州AV秘 一区二区三区| 日本在线欧美在线| 在线观看精品自拍视频| 一区二区三区精品视频在线观看| 亚洲AV无码一区二区三区牲色| 欧美激情网址| 国产精品19p| 无码综合天天久久综合网| 狠狠色婷婷丁香综合久久韩国| 天天综合网亚洲网站| 色偷偷综合网| 国产凹凸一区在线观看视频| 永久免费精品视频| 亚洲综合久久成人AV| 人人91人人澡人人妻人人爽| 91青青视频| 亚洲色图欧美在线| 久久久精品无码一二三区| 无码高潮喷水专区久久| 在线观看91香蕉国产免费| 黄色一及毛片| 2020国产免费久久精品99| 久综合日韩| 2022国产无码在线| 久久久久人妻一区精品色奶水 | 午夜限制老子影院888| 99视频在线精品免费观看6| 国产亚洲高清视频| 激情无码字幕综合| 日韩性网站| a级毛片免费看| 亚洲欧洲日韩国产综合在线二区| 欧美成一级| 毛片在线播放a| 欧美精品另类| 奇米精品一区二区三区在线观看| 毛片久久久| 精品国产中文一级毛片在线看 | 婷婷色中文网| h视频在线播放| 国产视频自拍一区| 18禁高潮出水呻吟娇喘蜜芽| 国产黄色免费看| 色网站在线免费观看| 这里只有精品在线播放| 天堂在线www网亚洲| 欧美中文字幕在线视频 | 久热99这里只有精品视频6| 2021精品国产自在现线看| 欧美日韩国产在线播放| 国产色网站| 毛片网站观看| 国产玖玖玖精品视频| 深爱婷婷激情网| 在线不卡免费视频| 欧美日韩激情在线|