999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多元特征融合的GRU神經網絡文本情感分類模型

2019-11-09 06:51:26王根生黃學堅
小型微型計算機系統 2019年10期
關鍵詞:分類特征文本

王根生,黃學堅,閔 潞

1(江西財經大學 計算機實踐教學中心,南昌 330013) 2(江西財經大學 國際經貿學院,南昌 330013) 3(江西財經大學 人文學院,南昌 330013)E-mail:wgs74@126.com

1 引 言

隨著互聯網平臺的快速發展和普及,越來越多網民通過網上發表自己的觀點和評論.如何快速準確的對這些信息進行情感分類是網絡輿情監控的一個重要環節[1,2].目前文本情感分類主要分為基于語義理解的算法、基于人工特征工程的機器學習算法、基于深度學習的算法和混合型算法[3].

基于語義理解的文本情感分類算法通過情感詞典和情感句式模板對文本進行情感判斷[4].如Recchia通過點互信息(point mutual information,PMI)度量詞語和情感詞典中褒貶詞的相似度,并通過這個相似度來計算詞語的情感度,再通過對文本所有詞語的情感度進行累加判斷文本情感[5];Bin通過HowNet語義字典計算詞語情感度,并對副詞、連詞和句子結構進行分析,構建文本情感分類算法[6];Agarwal針對情感表達的多詞特征,使用非結構化的文本情感詞進行情感表示,并通過語義取向的方法對多詞特征進行覆蓋,從而實現更精準的文本情感分類[7];王日宏通過加入情感義原從新定義情感相似度的計算,側重情感詞、否定詞、副詞的組合分析,提出否定詞和程度詞綜合處理模塊,并結合連詞為劃分標準的語句情感傾向分類[8];史偉通過情感空間模型,將在線評論情感細分為情緒表達和特征評價兩方面,構建句子到文檔層的情感計算方法[9];馮時提出一種基于句法依存分析技術的算法(sentiment orientation analysis based on syntactic dependency,SOAD)對博文搜索結果進行情感傾向性分析[10].

基于人工特征工程的機器學習算法通過對已標注情感類別的訓練樣本進行人工特征選取,再使用機器學習算法進行訓練,得出分類模型[11].這類機器學習算法主要有樸素貝葉斯(na?ve bayesian,NB)、K-近鄰(k-nearest neighbor,KNN)、支持向量機(support vector machine,SVM)等[12].如Nivet通過貪心法進行情感特征搜索,再使用多項式樸素貝葉斯算法進行訓練,得出情感分類模型[13];Kalaivani使用信息增益(information gain,IG)進行特征選擇,再通過KNN算法對文本的情感類別進行判斷[14];Yang提出一種基于改進一對一(one vs one,OVO)策略和SVM組合的多類別情感分類算法,使用多個SVM分類器構成置信度得分矩陣,使用改進的OVO策略確定文本的情感類別[15];冀俊忠通過特征選擇對情感詞典中的詞賦予不同權重,分析詞語情感極性和文檔情感的相關性,將情感詞語義權重特征融合到樸素貝葉斯算法中,實現文本情感分類[16];唐曉波通過計算情感詞的數量和情感度大小,提出貶義量和褒義量的概念,作為K-近鄰算法的特征向量,進行文本情感分類[17];肖正利用潛在語義分析(latent semantic analysis,LSA)方法建立“詞-文檔”的語義距離向量空間模型,然后使用SVM算法進行情感分類[18].

基于深度學習的算法是目前比較流行的文本情感分類算法[19],主要分為兩個部分,一部分是通過神經網絡語言模型學習低維詞嵌入(word embedding)向量,第二部分是通過深度神經網絡對詞嵌入數據進行建模,實現文本情感特征深層學習.如Xiao通過多層RBM(Restricted Boltzmann Machine)構建DNN(Deep Neural Network)網絡結構,以獲得更好的高層特征表示,實現微博的情感分類[20];Tao提出一種分而治之的方法,首先通過循環神經網絡模型把句子分成不同類型,然后利用一維卷積神經網絡對每種類型的句子做情感分類[21];Minlie通過標簽學習函數得到詞語的詞性標簽,把這些詞性標簽編碼到神經網絡中增強句子和短語的表達,并通過正面(POS)標簽控制樹形LSTM網絡的門,得到情感分類模型[22];張海濤通過Word2vec訓練得到詞嵌入向量,再使用卷積神經網絡(convolution neural network,CNN)對微博情感特征進行局部到全局的學習,得到情感分類模型[23];羅帆使用循環神經網絡(recurrent neural networks,RNN)對詞語和句子序列建模,通過卷積神經網絡識別跨語句的情感信息,構成多層H-RNN-CNN網絡的文本情感分類模型[24];孫曉提出一種基于多維擴展特征與深度學習的微博短文本情感分析模型,針對微博短文的特征稀疏,引入社交關系網絡進行特征擴展,通過疊加多層玻爾茲曼機(RBM)構建深度信念網絡(DBN),實現情感分類[25];

混合型算法主要有基于語義理解獲得文本情感特征,再結合機器學習算法或者深度學習算法進行情感分類;通過深度學習獲得低維詞嵌入向量再結合機器學習算法進行情感分類;通過構建多分類器進行分類.如Zhang利用Word2evc進行詞嵌入的學習,然后采用主成分分析方法(principal component analysis,PCA)對高維度向量進行降低維度處理,形成特征向量,最后利用SVMperf對評論文本進行訓練和分類[26];Catal基于樸素貝葉斯和支持向量機構建多情感分類器系統(MCS),利用投票的形式決定最終文本的情感類別[27];Wu通過融合情感詞典和詞語間的特定領域關系,構建多源領域的情感分類模型[28];徐健鋒在使用信息增益對高維樣本降維的基礎上,將語義理解和機器學習相融合,設計一種混合語義理解的機器學習中文情感分類算法[29];王汝嬌結合Tiwtter自身語言特征、情感字典資源設計原料特征和詞典特征,利用卷積神經網絡實現情感極性判斷[30];朱軍提出一種詞嵌入+支持向量機+情感詞典+樸素貝葉斯的集成學習情感分類模型[31].

通過研究分析發現,基于語義理解的文本情感分類算法相對簡單,對復雜多變的文本情感模型不易發現,很難建立完善的情感詞典和句式搭配模板,導致算法具有很強的局限性;基于人工特征工程的機器學習文本情感分類算法的效果很大程度上取決于人工特征工程,傳統人工特征工程存在語義丟失、矩陣稀疏、維度爆炸等問題,且該類算法是基于淺層的分類模型,對深層次的特征難以捕獲,所以算法的泛化能力不強;基于深度學習的文本情感分類算法通過神經網絡語言模型可以實現更好的文本表示,可以捕獲文本的深層特征,所以相比較前兩種算法能獲得更好的分類效果.但大部分深度學習算法追求數據驅動,忽略了自然語言中關于情感、權重的先驗知識,導致算法需要大量的訓練樣本才能獲得較好的效果.基于以上分析,本文提出基于詞嵌入特征、詞情感特征、詞權重特征三者融合的門控循環單元(Gated Recurrent Unit,GRU)神經網絡文本情感分類模型(TMMG).

2 研究基礎

2.1 詞嵌入和Word2evc

為了讓計算機能夠處理文本,需要把詞語進行數字化表示.最常見的思路是把詞語轉化成一個向量,如one-hot編碼,但one-hot編碼向量維度高、矩陣稀疏、語義缺失[32].針對這些問題,Bengio提出一種神經概率語言模型[33],把詞語映射到一個低維的向量空間,詞向量間的距離可以反映詞語的語義關系.Word2evc[34]是目前實現詞嵌入的主流框架.

Word2vec利用神經網絡從大規模文本庫中學習詞嵌入向量,其包括Skip-Gram和CBOW兩種算法模型.Skip-Gram算法通過輸入詞wt來預測其上下文Swt=(wt-k,…,wt-1,wt+1,…,wt+k),其中k為wt上下文窗口大小.CBOW模型則是根據上下文Swt去預測wt.Skip-Gram和CBOW訓練目標優化函數分別如公式(1)和公式(2)所示:

(1)

(2)

其中C為文本庫中所有的詞語.Word2vec訓練得到的模型是為了得到訓練后神經網絡中隱藏層的參數矩陣,這些隱藏層參數是Word2vec學習的詞嵌入向量.

2.2 門控循環單元(GRU)神經網絡

門控循環單元(GRU)神經網絡[35]是長短期記憶(LSTM)神經網絡[36]的變體.LSTM克服了循環神經網絡(RNN)[37]在處理遠距離依賴時的梯度消失或梯度爆炸問題,可以很好的保持時序數據中長短距離的依賴關系.GRU在保持了LSTM優勢的同時網絡結構也更簡單,相比于LSTM輸入門(input gate)、輸出門(output gate)、遺忘門(forget gate)的三門結構,GRU只有更新門(update gate)和重置門(reset gate),GRU單元網絡結構如圖1所示.

圖1 GRU單元結構Fig.1 GRU structure

GRU網絡向前傳播計算如公式(3)至公式(7)所示:

rt=σ(Wr·[ht-1,xt])

(3)

zt=σ(Wz·[ht-1,xt])

(4)

(5)

(6)

yt=σ(Wo·ht)

(7)

3 模型構建

3.1 構建多元特征融合向量文本表示算法

基于深度學習的文本情感分類算法,一般直接把基于詞嵌入向量的文本表示作為神經網絡的輸入,這種方式免去人工特征工程的繁瑣,減少了人為的干預,實現了端到端的自動化,但該類算法忽略了人們對文本情感的先驗認識,如詞語的詞性、情感色彩、權重等先驗知識,導致算法需要大量的訓練數據.所以本文在已有的詞嵌入向量特征基礎上,融入詞語情感特性和權重特征,形成多元特征融合的文本表示——多元特征融合向量文本表示算法,該算法模型如圖2所示.

3.1.1 詞嵌入向量特征

為了獲得文本預處理后的詞嵌入向量,需要建立詞嵌入向量庫,通過Word2vec框架構建詞嵌入向量庫是目前主流方式,并且已經有相關研究團隊公布了開源詞嵌入向量庫,如北京師范大學和人民大學的自然語義處理研究小組研發的基于全網超大規模文本開源詞嵌入向量庫CWV[38].這種開源庫覆蓋范圍廣,向量間距離反應的語義關系符合全局環境,向量維度也較固定.由于本文研究的文本對象是具有感情色彩的電影評論,具有情感特征和行業特征,不具有全局性和普遍性,所以本文提出基于Word2vec獨立訓練詞嵌入向量庫:訓練時,神經網絡隱藏層神經元個數設為100-300之間,隱藏層神經元的個數即為詞嵌入向量的維數;得到詞嵌入向量庫后,對文本d進行分詞和去停用詞處理,得到文本的詞序列W=[w1,…,wn],n為文本中詞語的總個數;根據Word2vec訓練得到的詞嵌入向量庫把詞序列W替換成詞嵌入向量矩陣,V(W)=[Vw1,…,Vwn],其中,Vwi為詞wi的詞嵌入向量,其表示如公式(8)所示:

Vwi=[v1,v2,…,vk]

(8)

其中k為詞嵌入向量的維度.

圖2 多元特征融合向量文本表示算法Fig.2 Multi feature fusion vector text representation algorithm

3.1.2 情感向量特征

①構建情感要素字典

根據自然語言文本情感表達特點,建立情感要素字典,該字典包括六種情感要素:正面情感詞、負面情感詞、程度詞、主張詞、否定詞、轉折詞.六種情感要素說明如下:

a)正面和負面情感詞是體現文本情感的主要因素;

b)程度詞增強或減弱情感詞的情感度;

c)主張詞后面表達的情感很大程度上決定了整個文本的情感色彩;

d)否定詞反轉情感詞的情感傾向;

e)轉折詞連接前后相反的兩個情感表達.

本文結合最新的知網情感分析詞語集(HowNet),構建了常見情感要素字典,如表1所示.

②情感向量特征表示

情感特征向量根據六種情感要素,建立六維特征表示,如公式(9)所示:

E(wi)=[e1,e2,e3,e4,e5,e6]

(9)

E(wi)為詞語wi的情感特性向量,向量六個維度從左到右分別對應正面情感詞、負面情感詞、程度詞、主張詞、否定詞、轉折詞.把詞語wi和情感要素字典一一匹配,匹配規則如下:

a)主張詞、否定詞、轉折詞不存在度量,如果匹配成功時把對應的情感特征向量位置設為1,不匹配則設為0;

b)程度詞級別分為極其、很、較、稍、欠5個級別,分別用1、2、3、4、5表示,和某個級別的程度詞匹配時填入對應級別;

c)情感詞使用情感度進行表示,本文提出使用情感詞嵌入向量和所有情感種子詞嵌入向量的平均余弦相似度來衡量,情感種子為情感表達明顯的詞,具體計算如公式(10)所示:

(10)

表1 情感要素字典Table 1 Emotion factor dictionary

Dwi為情感詞wi的情感度,m為情感種子詞數量,本文從正負情感詞中各挑選100情感種子詞,Vwn和Vwi分別代表情感種子詞wn和情感詞wi的詞嵌入向量,符號(·)代表兩個向量的點乘,‖Vwn‖*‖Vwi‖代表兩個向量的模長相乘.

3.1.3 權重特征

本文使用TF-IDF算法計算詞語權重,TF-IDF由詞頻(term frequency,TF)和逆向文檔頻率(inverse document frequency,IDF)組合而成,TF的計算如公式(11)所示:

(11)

tfi,j代表詞語wi在文檔dj中的詞頻,ni,j為wi在文檔dj中出現的次數,k為文檔dj中不同詞語的個數,分母為文檔dj中所有詞語出現次數總和.IDF計算如公式(12)所示:

(12)

idfi代表詞語wi在文本庫d中的逆向文檔頻率,nd為文本庫d中文檔的總個數,df(d,wi)為文檔庫d中包含詞語wi的文檔個數,加1是為了防止df(d,wi)為零的情況.最后TF-IDF歸一化后的計算如公式(13)所示:

(13)

通過公式可以看出,詞語Wi的權重和它在文檔dj中出現的頻率成正比,和在整個文本庫d中包含詞語Wi的文檔數成反比.

3.1.4 多元特征融合向量文本特征表示算法

在圖2多元特征融合向量文本特征表示算法模型中,首先按照公式(8)計算詞嵌入向量特征,按照公式(9)計算情感向量特征,按照公式(13)計算權重特征;然后把情感向量和詞嵌入向量進行拼接,組成一個新的向量,新向量的前半段為情感向量,后半段為詞嵌入向量;最后把權重和拼接向量相乘,形成多元特征融合的文本特征表示,計算如公式(14)所示:

M(wi)=tf_idf*[E(wi),Vwi]

(14)

3.2 GRU神經網絡文本情感分類模型(TMMG)構建

3.2.1 TMMG模型構建

根據公式(14)多元特征融合向量文本表示算法,將文本表示為融合特征序列,如公式(15)所示:

d=[M(w1),M(w2),…,M(wi-1),M(wi)]

(15)

M(w1)為文本中第1個詞的融合特征,,M(w2)為第2個,依次類推,再把這些序列化數據依次作為GRU神經網絡單元的輸入,構成TMMG模型,如圖3所示.

圖3 TMMG模型Fig.3 TMMG model

3.2.2 TMMG模型訓練分析

TMMG模型訓練過程如圖4所示.

①GRU神經網絡正向傳播

②GRU神經網絡誤差反向傳播

GRU神經網絡反向傳播中的損失函數L是用來指導反向傳播參數調節,在t時刻單元的損失函數L(t)計算如公式(16)所示:

(16)

根據公式(16),則整個GRU神經網絡序列的損失函數L如公式(17):

(17)

Wr=Wrx+Wrh

(18)

Wz=Wzx+Wzh

(19)

(20)

(21)

(22)

(23)

(24)

(25)

(26)

(27)

(28)

(29)

(30)

δt=δh,t·zt·σ′

(31)

(32)

(33)

(34)

(35)

(36)

(37)

(38)

(39)

(40)

(41)

(42)

4 實驗分析

4.1 實驗數據

4.1.1 原始數據

實驗環境基于TensorFlow和Python3.6;實驗數據來源于豆瓣影評,使用Python數據爬蟲,共爬取了404972條影評數據,其中1026條為缺失數據,最后保留403946條數據,包含8872部電影.

4.1.2 數據預處理

為了取樣均衡,每部電影最多選取200條數據,每條完整的影評數據包含評論內容和星級評分,星級評分等級(rating)為1-5星,采用粗粒度情感表示:正面情感、負面情感和中性情感:

①星級評分大于等于4星的標注為正面情感文本;

②星級評分小于等于2星的標注為負面情感文本;

③星級評分為3的標注為中性情感.

由于,本文只對文本情感進行正面和負面的二元分類,所以中性情感評論不考慮;同時刪除分詞結果大于150個詞的評價文本,最后得出的實驗數據如表2所示.

表2 實驗數據Table 2 Experimental data

其中每個類別隨機選擇90%做為訓練樣本,10%為測試樣本.在進行實驗之前還需要得到詞嵌入向量庫,本文使用google開源的Word2vec框架和CBOW模型對所有實驗樣本進行訓練.為了對比不同詞嵌入向量維度下的模型效果,分別選取了50、100、150、200四個維度進行詞嵌入向量生成.針對文本中出現的一些非詞語(表情、符號)也當成詞語放入Word2vec模型中訓練,得出其詞嵌入特征,因為這些表情和符號也是情感表達的重要因素;考慮到豆瓣影評中的表情符號并不是來自一套固定的表情工具包,而是由用戶的輸入法產生的,其形式如︿ ′ 、╭(╯^╰)╮、⊙▽⊙等,情感難于區分和計算,所以忽略其情感特征E(w),使用零向量代替.

4.2 TMMG模型實驗

4.2.1 TMMG模型算法

算法1.TMMG模型算法

Step 1.Selecttrainingset//分別選取4.1節中數據的90%作為訓練樣本,10%作為測試樣本;樣本表示為(xi,yi),xi為第i個樣本,yi為樣本xi的情感標簽,正面情感標記為1,負面者標記為0.

Step 2.Preprocessingtext//使用jieba工具庫進行分詞,對文中高頻出現的連詞、代詞、介詞進行刪除.

Step 3.Getwordembedding//根據Word2vec訓練得到詞嵌入向量庫,依次替換文本預處理后的詞.

Step 4.Calculationemotionalfeaturevector//根據情感要素字典依依匹配,如果是主張詞、否定詞、轉折詞中的一類,則直接情感特征向量的相應維度填1;如果是程度詞則根據程度級別在對應維度填入對應值;如果是情感詞,則根據公式(10)計算其情感度,填入對應維度;所有其他維度都填0.

Step 5.Calculationwordweight//使用歸一化后的tf_idf計算詞權重,具體計算見公式(13).

Step 6.Featurefusion//根據公式(14),把詞嵌入向量、情感特征向量、詞權重進行融合,得到多元融合特征.

Step 7.Textrepresentaion//根據融合特征,將文本表示為融合特征序列d=[M(w1),M(w2),…,M(wi-1),M(wi)].

Step 8.Train//把文本特征序列從后向前依次輸入GRU神經單元,即最后一個融合特征放入最后一個GRU單元,倒數第二個融合特征放入倒數第二個GRU單元,依次類推;最后剩余的GRU單元使用零向量填充.

Step 9.Test//在得到訓練結果后使用測試數據集進行測試,最后放入訓練后的模型進行測試,其中測試數據集也需要經過步驟2-7處理.

4.2.2 超參數

在訓練TMMG模型時不同的超參數也會影響到實驗結果,但不同超參數的實驗對比不是本文的主要研究內容,通過查閱相關資料和驗證測試,本實驗主要超參數采用情況如表3所示.

表3 TMMG模型超參數Table 3 TMMG model super parameter

4.2.3 實驗結果

本實驗選取Word2vec訓練得到的4套詞嵌入向量庫(維度分別為50、100、150、200)和開源詞嵌入向量庫CWV[38](其維度為300)進行對比,算法的分類性能分別從精準率(precision)、召回率(recall)、F1-Measure三個指標進行評價,測試結果如表4所示.

實驗顯示:①TMMG模型在詞嵌入向量維度為100時性能最好,精準率、召回率、F1-Measure分別達到了94.2%,94.1%,94.1%;②TMMG模型分類性能在利用自己訓練的詞嵌入向量庫上進行實驗,其性能優于CWV詞嵌入向量庫,這是由于CWV使用了面向全網各個領域的語料庫進行訓練,得到的詞嵌入向量更符合全局環境,并且它不能完全覆蓋本實驗所有的詞和表情符號;③所有實驗數據訓練的詞嵌入向量不僅能夠能覆蓋所有的詞和表情符號,并且得到的詞嵌入向量相對全局詞嵌入向量更貼切該局部問題領域.

表4 TMMG模型測試結果Table 4 TMMG model test results

4.3 實驗對比分析

在以下對比試驗過程中,TMMG都使用自己訓練維度為100的詞嵌入向量庫.

4.3.1 與傳統機器學習算法對比

為了對比TMMG和基于傳統機器學習文本情感分類算法的性能,分別選取樸素貝葉斯(NB)、K-近鄰(KNN)、支持向量機(SVM)三類傳統的機器學習文本情感分類算法進行對比,使用相同的樣本數據進行訓練與測試,三種算法具體流程分別如算法Ⅱ、Ⅲ、Ⅳ描述所示.

算法2.基于NB的文本情感分類算法

Step 1.Selecttrainingset//來源于事先標注情感標簽的文本.

Step 2.PreprocessingText//分詞處理,排除停用詞.

Step 3.Featureselection//根據預處理結果使用卡方檢測(chi-square test,CHI)進行特征選擇.

Step 4.Textrepresentation//使用詞袋模型(bag-of-words,BOW)對文本進行表示.

Step 5.Trainingclassifier//選用伯努利模型進行訓練,得出由先驗概率和似然函數構成的分類器.

Step 6.Testclassifier/選擇測試集測試分類器性能的相關指標.

算法3.基于KNN的文本情感分類算法

Step 1.Selecttrainingset//來源于事先標注情感標簽的文本.

Step 2.PreprocessingText//分詞處理,排除停用詞.

Step 3.Featureselection//根據預處理結果使用卡方檢測(chi-square test,CHI)進行特征選擇

Step 4.Weightcalculation//使用TF-IDF進行特征權重計算

Step 5.Textrepresentation//使用向量空間模型進行文本表示.

Step 6.SelectKneighborsamples//依次計算測試樣本和每個訓練樣本間的距離,并選取距離最小的k個臨近樣本,具體k值的選取使用交叉驗證方式確定.

Step 7.classification//使用k個臨近樣本中出現頻率最高的類別作為測試樣本分類預測.

算法4.基于SVM的文本情感分類算法

Step 1.Selecttrainingset//來源于事先標注情感標簽的文本.

Step 2.PreprocessingText//分詞處理,排除停用詞.

Step 3.Featureselection//根據預處理結果使用卡方檢測(chi-square test,CHI)進行特征選擇

Step 4.Weightcalculation//使用TF-IDF進行特征權重計算

Step 5.Textrepresentation//使用向量空間模型進行文本表示.

Step 6.Trainingclassifier//利用LIBSVM對樣本進行訓練,訓練時選用RBF核函數.

Step 7.Testclassifier//選擇測試集測試分類器性能的相關指標.

算法間的性能對比使用F1-Measure進行衡量,對比實驗結果如圖5所示.

圖5 與傳統機器學習算法性對比Fig.5 Comparison with traditional machine learning algorithms

通過實驗發現NB、KNN、SVM三個算法的平均F1-Measure值分別為81.2%、82.3%、83.4%,文本算法的F1-Measure值為94.1%,明顯優于傳統的機器學習文本情感分類算法.

4.3.2 與其他深度學習算法對比

為了進一步驗證TMMG模型,分別選取基于卷積神經網絡(CNN)、循環神經網絡(RNN)、長短記憶網絡(LSTM)、門控循環單元神經網絡(GRU)的深度學習文本情感分類算法進行對比.

為了減少實驗對比過程中不同超參數帶來的影響,所以盡量保持它們的一致,其超參數具體如表5所示.

依據表5超參數,使用相同的樣本數據進行訓練與測試,算法的分類性能分別從精準率(precision)、召回率(recall)、F1-Measure三個指標進行評價.最后得出測試結果如表6所示.

表5 TMMG、CNN、RNN、LSTM、GRU 5種算法的超參數Table 5 Super parameters of five algorithms of TMMG,CNN,RNN,LSTM and GRU

表6 TMMG、CNN、RNN、LSTM、GRU 5種算法的測試結果Table 6 Test results of five algorithms of TMMG,CNN,RNN,LSTM and GRU

通過對比實驗發現,深度學習算法都能保持較高的分類準確性,CNN、RNN、LSTM、GRU四種不添加任何情感和權重特征的算法性能相差不大,TMMG性能只是略高于其他幾類算法.為了探究在不同訓練數據集大小的情況下算法的性能差異,再分別選取訓練數據集從初始1萬依次遞增到32萬,每次以2倍遞增,共6次實驗對比,實驗對比結果如圖6所示.

通過實驗發現在訓練數據集比較小的情況下TMMG的性能明顯優于其他算法,而隨著訓練數據增加這種優勢也慢慢減少.這種情況是因為在訓練數據量比較小的情況下,算法純粹靠數據驅動進行模型訓練很難真正學到數據背后隱藏的知識,而通過引入情感和權重的先驗知識,一定程度上可以彌補數據量不足而產生的欠學習問題;當數據量達到一定規模后,深度學習算法依靠其強大的學習能力,不加入任何先驗知識也能很好的學習到數據背后的隱藏知識.

圖6 不同訓練數據集下的實驗對比Fig.6 Experimental comparison of different number training datasets

4.3.3 不同特征組合下的GRU對比

為了對比詞嵌入特征(Word2vec)、詞情感特征(Emotion)、詞權重特征(TF-IDF)3個特征不同組合下GRU的實驗效果,進行6組不同特征組合實驗(Word2vec、Emotion、Word2vec+Emotion、Word2vec+TF-IDF,Emotion+TF-IDF、Word2vec+Emotion+TF-IDF),實驗結果如表7所示.

通過對比發現,在單個特征中,Word2vec比Emotion效果好;兩兩組合比單個特征效果好,其中Word2vec+Emotion組合比Word2vec+TF-IDF和Emotion+TF-IDF的效果好;Word2vec+Emotion+TF-IDF三者組合為最優.其中,Word2vec+Emotion+TF-IDF這種組合模式就是本文提出的TMMG算法模型.

表7 不同特征組合下的GRU對比Table 7 GRU comparison under different feature combinations

5 結 語

隨著互聯網和自媒體的快速發展,越來越多的民眾通過網絡來發表觀點,如何對這些網絡文本進行情感自動分類是網絡預警監測的一個重要環節.基于語義理解的文本情感分類算法,由于文本表達的多樣性,很難建立完善的情感詞典和句式搭配模板,導致算法具有很強的局限性;基于人工特征工程的淺層機器學習文本情感分類算法存在語義丟失、矩陣稀疏,維度爆炸等問題,并且對深層次的特征難以捕獲,所以算法的泛化能力不強.近年來隨著數據量的增加和計算性能的快速提升,基于深層神經網絡的深度學習算法憑借其強大的學習能力,在自然語言處理、計算機視覺、圖像處理等領域快速發展;而大部分學者提出的基于深度學習文本情感分類算法追求數據驅動,忽略了自然語言中關于情感、權重的先驗知識,導致算法只能在大規模數據集的情況下才能獲得較好的性能.所以,本文提出基于詞嵌入特征、詞情感特征、詞權重特征融合的門控循環單元(GRU)神經網絡文本情感分類模型TMMG,實驗結果表明:TMMG模型性能遠高于傳統機器學習算法,相比于其他深度學習算法也具有一定優勢,并且在訓練數據不足的情況下這種優勢更加明顯;但TMMG模型在計算詞情感特征和詞權重特征時需要花費不少時間,其訓練時間也遠高于傳統機器學習算法,如何在分類性能和訓練耗時上獲得一個較好的平衡是值得繼續研究的方向.

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 亚洲国产成人久久77| 国产亚洲精品自在久久不卡| 亚洲国产精品无码AV| 青青草原国产免费av观看| 久久婷婷色综合老司机| 日本黄色不卡视频| 欧美午夜性视频| 国产视频大全| 国产在线观看一区二区三区| 国产精品综合久久久| 欧美国产在线精品17p| 青草娱乐极品免费视频| 国产免费好大好硬视频| 国产亚洲精品资源在线26u| 欧美亚洲中文精品三区| 91精品国产91久久久久久三级| 国产极品美女在线观看| 国产人人干| 4虎影视国产在线观看精品| 日韩大片免费观看视频播放| 国产免费精彩视频| 国产成人91精品| 嫩草在线视频| 五月婷婷综合网| 99国产精品国产高清一区二区| 国产欧美日韩综合一区在线播放| 国产日本一区二区三区| 欧美亚洲欧美| 看你懂的巨臀中文字幕一区二区| 亚洲美女一级毛片| 国产丝袜无码精品| 视频二区中文无码| 青草视频在线观看国产| 97se亚洲综合| 久久香蕉国产线看观看精品蕉| 一级成人欧美一区在线观看| 亚亚洲乱码一二三四区| 青青网在线国产| 国产chinese男男gay视频网| 国产区免费| 亚洲经典在线中文字幕| 欧美午夜在线观看| swag国产精品| 国产美女丝袜高潮| 久久精品只有这里有| 国产免费网址| 国产地址二永久伊甸园| 亚洲天堂视频在线观看免费| 免费无遮挡AV| 欧美a级完整在线观看| 青青草国产免费国产| 欧美h在线观看| 中日韩一区二区三区中文免费视频| 国产精品蜜芽在线观看| 欧美丝袜高跟鞋一区二区| 一级成人a毛片免费播放| 亚洲中字无码AV电影在线观看| 一级香蕉视频在线观看| 99久久婷婷国产综合精| 国产日韩欧美精品区性色| 在线观看精品自拍视频| 无码精品国产dvd在线观看9久| 免费高清a毛片| 国产男女免费视频| 国产福利在线免费| 伊人久久婷婷五月综合97色| 国产青榴视频| 欧美v在线| a毛片在线| 亚洲午夜福利精品无码不卡| 久久精品视频一| 狂欢视频在线观看不卡| 国产青榴视频| 亚洲精品日产AⅤ| 国产精品视频观看裸模| 国产av色站网站| 国产精品一区二区在线播放| 亚洲国产无码有码| 26uuu国产精品视频| 久久网综合| 精品久久久久成人码免费动漫| 亚洲av成人无码网站在线观看|