鄭州輕工業(yè)學院 金保華 王 睿 周 兵
近年來,網(wǎng)絡發(fā)展迅速,信息傳播手段也在更新?lián)Q代。微博平臺自誕生起便發(fā)展迅猛,逐漸形成一個很大的網(wǎng)絡自媒體形式。國外的微博平臺Twitter由埃文·威廉姆斯(Evan Williams)正式成立于2006年,從那時起,微博數(shù)據(jù)時代的大門被徹底打開。本研究引入深度學習方法,本文將對基于主題融合的深度學習模型展開研究。首先介紹了兩種融合主題特征的深度學習情感分類模型--融合主題向量的雙向LSTM情感分類模型和融合主題向量的CNN情感分類模型。最后通過設計對比實驗,對本章所提出了兩種模型的中文文本情感分類能力進行驗證,并給出實驗分析。
通常將深度學習模型用于情感分類時只考慮詞作為特征,并沒有考慮到外部知識(如主題信息)。而外部知識對于模型效果的提升是有用的,如文獻[2]在構(gòu)建深度學習模型時,將句子語法特征與詞向量特征相融合作為模型輸入,得到了比單一特征更為顯著的效果。文本主題與文本情感往往存在一定的共生性,主題與情感伴隨而生,不同的主題會表現(xiàn)出不同的情感傾向,那么深度學習模型是否能夠通過融合主題向量產(chǎn)生更好的釋義。進而提升中文文本情感分類模型準確率?為此,本文提出了兩種基于主題融合的深度學習情感分類模型。
LDA主題模型是對離散文本數(shù)據(jù)集進行建模的概率主題模型。它有3層生成式貝葉斯網(wǎng)絡結(jié)構(gòu),分為文檔集層、主題層及詞層,每層都有對應的參數(shù)控制,基于這樣一種前提假設:文檔集中包含多個隱含主題,各個主題是由文檔中多個詞語構(gòu)成。如圖2.1所示,LDA模型是一種典型的有向概率圖模型。其中TK為主題數(shù),TM為文檔總數(shù),tmN為第tm篇文檔中單詞的總數(shù)。α是每篇文檔主題的多項分布的Dirichlet先驗參數(shù),表征的是文檔集合中隱含主題間的相對強弱;β是每個主題下詞的多項式分布的Dirichlet先驗參數(shù),刻畫所有隱含主題自身的概率分布;tm,tnz是第tm篇文檔中第tn個詞的主題;tm,tnw為第tm篇文檔中第tn個詞。tmθ為文檔主題的概率分布,是維度為TK的向量;tk表示特定主題下特征詞的概率分布,是維度為v的向量(v為詞典中詞總數(shù))。

圖2.1 LDA概率圖模型

圖2.2 TB_LSTM結(jié)構(gòu)圖
本文考慮到中文輿情文本的復雜性和海量性,提出了基于主題融合的雙向LSTM情感分類算法,其原因有兩點:第一,雖然LSTM算法克服了傳統(tǒng)RNN的梯度消失(爆炸)問題和歷史信息損失問題,但是LSTM中只能較好融合上文信息,缺乏對下文信息的融合。因此,在面對復雜的文本時,LSTM模型的文本表示能力有限,故引入雙向LSTM網(wǎng)絡實現(xiàn)詞語的上下文信息融合,以此獲得更為優(yōu)質(zhì)的文本特征。第二,外部特征被證明能夠提升文本分類性能,其外部特征通常是句子的結(jié)構(gòu)特征,如詞性特征、詞語權(quán)重等方法。這些特征僅僅只是增加了提升了句子中關鍵詞的表達能力,沒有考慮到文本主題特征對于文本分類的作用。因此,本文通過融合文本的主題特征,以此獲取更具備中文文本情感分類能力的文本特征。最終構(gòu)建了如圖2.2所示的基于主題融合的雙向LSTM情感分類模型(TB_LSTM)。
如圖2.2所示,TB_LSTM在輸入時融合了主題向量,并通過兩個單層LSTM模型組合,得帶得到包含上下文信息的高層文本特征向量,并實現(xiàn)中文文本情感分類。TB_LSTM共有6層(如圖2.3所示),F(xiàn)0是模型的輸入層,其輸入詞向量和該詞的主題向量;F5是模型的分類層;F1,F(xiàn)2,F(xiàn)3,F(xiàn)4分別對于模型的四個隱層,W1、W2、W3、W5分別是層間或者層內(nèi)的連接權(quán)重集合;4ω、6ω、7ω、為模型層間連接權(quán)重。TB_LSTM模型的具體結(jié)構(gòu)如下:

在利用深度學習模型進行情感分類任務時,其巨大的參數(shù)規(guī)模和節(jié)點數(shù)量會增強對數(shù)據(jù)的刻畫能力,但是同時會增加模型訓練的復雜度和訓練成本。為了減少模型訓練成本,本章提出了基于主題融合的CNN情感分類模型(TCNN)。CNN是一種共享權(quán)值的深度學習模型,通過權(quán)重共享和局部連接減少參數(shù)變里,是一種很好的特征提取方法,能夠提取局部上下文信息。但是,當句子中信息較少時,需要文本的全局信息作為補充。而主題向量能夠?qū)υ谝欢ǔ潭壬媳碚骶渥拥娜痔卣鳌R虼吮灸P徒Y(jié)合主題向量為全局信息補充句子特征,構(gòu)建了如圖2.3所示的TCNN情感分類模型。

圖2.3 TCNN模型結(jié)構(gòu)圖
如圖2.3所示,TCNN主要由四部分組成:模型的輸入層、卷積層、采樣層和模型輸出層。
(1)輸入層
輸入層的功能是將文本的詞向量特征和文本的主題特征融合,并作為輸入數(shù)據(jù)傳入卷積神經(jīng)網(wǎng)絡模型,同時與卷積層相連接。卷積神經(jīng)網(wǎng)絡模型最早是用來處理圖像數(shù)據(jù),而圖像特有的像素可以直接作為二維數(shù)據(jù)使用。因此,當采用卷積神經(jīng)網(wǎng)絡對文本數(shù)據(jù)進行處理時,需要先將文本通過CBOW模型轉(zhuǎn)換為詞向量矩陣形式。
如圖2.4所示,設文本長度為n,即每條文本中包含n個詞,分別為第t個詞的詞向量和主題向量,其維度為m,則卷積神經(jīng)網(wǎng)絡輸入數(shù)據(jù)應為一個n×2m的二維矩陣,即由文本中n個詞向量和主題向量連接后縱向堆疊而成。

圖2.4 文本特征組合方式圖
TCNN的輸入向量TCNNHI包括兩部分(見式(4.10)),一個是詞向量,代表詞語的語義信息;另一個是主題向量ts,代表文本的主題信息。

(2)卷積層
考慮到計算的復雜性,本文只使用一個輸入特征圖,即只有一個輸入矩陣。在輸入層后,需由公式(2.7)對進行卷積操作。通常,在傳統(tǒng)卷積神經(jīng)網(wǎng)絡中,每個卷積層中只有一種類型的卷積核,但面對文本情感分類任務時,為盡可能考慮每個詞的前后文信息,從而提取多種粒度的文本局部特征,本文使用多種卷積核進行卷積操作。設定有u種規(guī)格卷積核,其規(guī)格分別為,同時設定每種卷積核的個數(shù)相同都為nm。則經(jīng)過卷積操作將會得到個不同的特征圖集合。其中第i種特征圖的規(guī)格為:。
(3)采樣層

(4)全連接層和非線性變換層
經(jīng)采樣層得到的特征圖需在全連接層進行向量連接,以得到連接后的特征向量,其計算過程見式(2.9)。



(5)Softmax分類層
將得到的高層文本特征向量TCNNh輸入一個Softmax分類器中,得到文本情感類別向量,其公式為:

本章實驗分為兩組。第一組實驗是當輸入詞向量分別為靜態(tài)詞向量(static-w2v)、非靜態(tài)詞向量(non-static-w2v)、字符向量(characher)時的各個模型情感分類效果對比,以驗證本文提出的TB_LSTM和TCNN的中文文本情感分類有效性。第二組實驗是所有模型都融合主題特征作為輸入時的情感分類效果對比,以驗證主題特征對提升中文文本情感分類的有效性。
(1)情感分類評價標準
目前國內(nèi)外的研究中,通常是從精度(Precision)、召回率(Recall)、F1值進行分析和準確率(Accuracy)等指標對文本情感分類的效果進行分析,這三個指標也是信息檢索、人工智能和自然語言處理等領域進行分析的主要指標,其中精度是指檢索出相關文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)的查準率;召回率指的是檢索出的相關文檔數(shù)和文檔庫中所有的相關文檔數(shù)的比率,衡量的是查全率;而F1值則是精度和召回率綜合值;準確率是不同類別精度的綜合值,衡量模型在整體樣本下的精確度。
在進行情感分類任務評價時,針對情感二元分類情形(分類結(jié)果為正向情感或負向情感),可構(gòu)建二元情感分類問題列聯(lián)表(表3.1所示)。其中,TP為情感分類中被正確判斷的正向文本數(shù)量;FN為情感分類中被錯誤判斷的正向文本數(shù)量;FP為情感分類中被錯誤判斷的負向文本數(shù)量;TN為情感分類中被正確判斷的負向文本數(shù)量

表3.1 二元情感分類問題列聯(lián)表
由此,可以確立相應的評判標準量化計算方式:
準確率為:

正向情感精度:

負向情感精度:

正向情感召回率:

負向情感召回率:

正向情感F1值:

負向情感F1值:

(2)詞語向量化
本文隨機選擇2017年5月新浪微博12,000余篇新聞文章作為語料集,利用Python的gensim工具進行詞向量計算,設定上下文窗口為10、迭代次數(shù)為5次、詞向量維度設定為300維,得到了詞向量矩陣。該詞向量矩陣中各詞向量間具有一定的語義相關性,如以“中國”為例,得到圖3.2所示的“中國”語義相似詞表。

表3.2 “中國”語義相似詞表
隨后經(jīng)過分詞、停用詞過濾后,訓練集中文本長度的眾數(shù)為55,因此設定m=60,對長度不足60的短文本在首尾分布增加相應數(shù)量的空詞,對長度大于60的短文本則在尾部截去相應的長度的詞。將經(jīng)上述中文文本預處理后的文本數(shù)據(jù)合并、去重,得到26180條訓練數(shù)據(jù)集,涉及到四個主題:“書籍”、“酒店”、“牛奶”,“手機”,隨后利用Python編寫LDA模型,設定主題數(shù)為4、α=β=0.1、迭代次數(shù)為200次,訓練得到每條文本和詞語的主題類別和如表3.3所示的每個主題下的高頻特征詞。

表3.3 主題特征詞表
在這四個主題的26180條訓練數(shù)據(jù)集中,共有正向情感語料12276條、負向情感語料13904條。按照9:1的比例,使用正負向情感語料23562條作為訓練集,剩余2618條情感數(shù)據(jù)作為測試集,實驗數(shù)據(jù)集分布情況如表3.4所示。

表3.4 二元情感分類實驗數(shù)據(jù)集分布情況表
(3)實驗配置
在本文實現(xiàn)深度神經(jīng)網(wǎng)絡的時候,考慮到實驗室資源不足,沒有采用GPU方式提高深度學習訓練效率,而是采用傳統(tǒng)的CPU方式實現(xiàn)。表3.5展示實驗的軟硬件環(huán)境和工具。
在進行基于主題融合的深度學習情感分類實驗前,對2000條數(shù)據(jù)集在不同中間層維度的準確率進行研究,以優(yōu)化獲取TB_LSTM的中間層的最佳維度,其結(jié)果如表3.6示。

表3.5 二元情感分類對比實驗軟硬件環(huán)境配置表

表3.6 不同中間層維度的TB_LSTM二元情感分類準確率表

表3.7 二元情感分類對比實驗相關模型的參數(shù)設置表
本文設計了兩組實驗來驗證基于主題融合的深度學習情感分類模型的有效性:
第一組實驗對比了輸入特征為靜態(tài)詞向量(static-w2v)、非靜態(tài)詞向量(non-static-w2v)時TB_LSTM和TCNN與CNN、LSTM、RAE三個模型在相同實驗環(huán)境下的二元情感分類任務的精度、召回率和準確率。表3.8列出了實驗的對比結(jié)果,其中“本文模型1”代表TB_LSTM、“本文模型2”代表TCNN。
根據(jù)表3.8和表3.9所示的各模型的文本情感分類實驗結(jié)果,針對本文提出的基于主題融合的深度學習情感分類模型,我們不難得到以下三點結(jié)論:
(1)TB_LSTM和TCNN在靜態(tài)和非靜態(tài)詞向量下相對于CNN、LSTM、RAE模型在正、負中文文本情感分類上都能達到最優(yōu)的精度、召回率和準確率。兩種模型的準確率比次優(yōu)的CNN模型高出0.4%-2.1%,比最差的RAE模型高出2.3%-4.2%。
(2)采用非靜態(tài)詞向量下中文文本情感分類準確率比靜態(tài)詞向量下的中文文本情感分類準確率平均高出0.2%-1.5%。這說明詞向量在模型中通過不斷的優(yōu)化將會有助于中文文本情感分類。
(3)相同條件下TCNN的各項指標整體要優(yōu)于TB_LSTM的各項指標,并且在時間復雜度上TCNN也優(yōu)于TB_LSTM,這表明TCNN能夠有效的提取文本情感分析的關鍵特征。而TB_LSTM模型的結(jié)構(gòu)相較而言過于復雜,需要大量樣本和成本進行充分訓練。

表3.8 靜態(tài)詞向量下不同模型的二元情感分類實驗結(jié)果

表3.9 非靜態(tài)詞向量下不同模型的二元情感分類實驗結(jié)果
本文首先給出BLSTM中文分詞模型、停用詞過濾技術(shù)、詞語向量化技術(shù),以此實現(xiàn)將非結(jié)構(gòu)化的輿情文本轉(zhuǎn)換為結(jié)構(gòu)化文本向量。而后,提出了兩種基于主題融合的深度學習情感分類模型:基于主題融合的雙向LSTM情感分類模型和基于主題融合的CNN情感分類模型,經(jīng)實驗對比分析,驗證兩種模型能在一定程度上提升情感分類準確性。
[1]Whitelaw,C,Garg,N,Argamon,S.Using appraisal groups for sentiment analysis.the 14th ACM International Conference on Information and Knowledge Management,2015.
[2]Ni Xiao-chuan,Xue Gui-rong,Ling Xiao,et al.Exploring in theweblog space by detecting informative and affective articles.The 16th International World Wide Web Conference,2017.
[3]Socher R,Pennington J,Huang E H,et al.Semi-supervised recursive autoencoders for predicting sentiment distributions.Empirical Methods in Natural Language Processing,2011.
[4]Richard Socher,Brody Huval,Christopher D.Manning,et al.Semantic Compositionality through Recursive Matrix-Vector Spaces.Joint Conference on Empirical Methods Computational Natural Language Learning,2012.
[5]Socher R,Perelygin A,Wu J Y,Chuang J,Manning C D,Ng A Y,Potts C.Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank.Conference on Empirical Methods in Natural Language Processing EMNLP,2013.
[6]陳力丹.關于輿論的基本理念[J].新聞大學,2015(05).
[7]謝耘耕,劉銳,徐穎.當前互聯(lián)網(wǎng)管理和輿論引導工作存在的問題及對策建議[J].科學發(fā)展.2016(08).
[8]賈爽.“一帶一路”∶Twitter網(wǎng)絡輿情分析與對策建議[D].南京大學,2016.
[9]巨慧慧.針對網(wǎng)絡輿情的情感傾向性研究[D].哈爾濱工業(yè)大學,2015.
[10]謝宜瑾.網(wǎng)絡輿情分析與管理技術(shù)的研究與實現(xiàn)[D].廣東工業(yè)大學,2016.