劉納 王新

摘要:基于機器學習的情感分類方法已經取得了較大進展,但在大量情感分類方法中,往往都是結合詞嵌入和傳統的機器學習方法,缺乏對文本主題以及時序關系等因素的有效利用。針對上述問題,提出了一種基于主題流與深度學習的情感分類算法,通過分析文本的主題分布,并引入時序關系,在此基礎上利用適合的長短記憶神經網絡的深度學習方法進行情感分類。實驗證明,基于主題流與深度學習的情感分類算法性能較好。
關鍵詞:NLP;情感分析;深度學習;主題流
DOIDOI:10.11907/rjdk.181487
中圖分類號:TP312
文獻標識碼:A 文章編號:1672-7800(2018)008-0028-03
英文摘要Abstract:At present,sentiment classification method based on machine learning has made great progress,but among the a large number of sentiment classification methods,word combination and traditional machine learning methods are often used,and there is a lack of effective use of such factors as text topics and sequence relationships in a large number of sentiment classification methods.In order to solve the problems,this paper presents a sentiment classification algorithm based on topic flow and deep learning,it analyzes the topic distribution of the text and introduces the sequence relationship and uses deep learning methods such as long short-term memory neural networks to classify the sentiment.Experiments show that the sentiment classification algorithm based on topic stream and deep learning proposed in this paper has better performance.
英文關鍵詞Key Words:NLP; sentiment analysis; deep learning; topic flow
0 引言
隨著互聯網及電子商務的快速發展,人們在線上的活動越來越多,產生了大量帶有主觀色彩的信息。這些帶有主觀性的信息可以是用戶對某次活動或服務的評價,或者是某新聞事件或文章的觀點等,對這些信息進行挖掘,可使政府部門了解相關輿情,輔助決策,對用戶進行個性化推薦以及對虛假評論進行檢測。僅靠人工對這些信息進行分析將耗費大量的人力物力和時間,通過計算機進行數據挖掘和分析是一個熱點,而情感分析是其中重要的分支[1-4]。
目前,情感分析的主要研究方法是傳統的機器學習分類算法,如貝葉斯分類、SVM以及聚類等[5-6],這些算法主要分監督學習、無監督學習[7-8]。監督學習需要靠大量的人工標注,代價較高。相反,無監督學習不需要人工標注數據,可降低標注代價,但效果完全依賴于訓練結果,無法有效提高性能。
本文對文本信息進行了深入研究,通過挖掘文本的主題分布和時序關系,采用深度學習方法進行情感分類。
1 相關工作
情感分析從2002年提出就受到廣泛關注,在中英文情感文本中得到廣泛應用,特別在線上評論和新聞評論的情感分析有了很大的發展。機器學習在情感分析中的應用受到研究者青睞[9-10]。Sida等[11]提出了采用樸素貝葉斯和SVM相結合的方法,實驗證明該方法取得了不錯的結果。Deriu等[12]提出利用神經網絡模型進行情感分析,與其它傳統方法相比效果較好。Catal等[13]提出了一種基于模糊聚類的方法,它是一種無監督學習方法,在減少人工標注的情況下取得了滿意的準確率。Xia等[14]提出了一種集成技術,集合詞性和詞關系等多種特征,并結合貝葉斯、信息熵以及SVM等方法進行廣泛的對比試驗,取得了一定進展和較好的實驗結果。本文研究了基于機器學習的情感分析方法,如樸素貝葉斯、支持向量機(SVM,Support Vector Machines)、神經網絡模型[15]以及聚類等。通過分析文本特征,將文本映射為特征向量的表示形式,然后通過機器學習模型進行分類和預測。
文本分析的一個重要研究方向就是自然語言處理。詞是文本的基本組成單元,主題分析(LDA,Latent Dirichlet Allocation)是其中一個重要分支[16],不少研究者在該領域進行了大量的研究工作。王偉等[17]提出基于LDA主題模型的評論文本情感分類。該文結合情感詞典,提出情感詞和上、下文,然后利用LDA挖掘情感特征,最后利用機器學習實現情感分類。該方法降低了情感特征的向量維度,取得了很好的分類效果。黃發良等[18]提出基于多特征融合的主題情感分析方法,挖掘多種文本特征進行情感分析。本文研究了主題分析在文檔中的應用,并在此基礎上結合深度學習方法應用于情感分析。
2 算法理論
2.1 LDA主題分析模型
LDA是Blei等[19]于2003年提出的基于貝葉斯概率的主題模型,該模型屬于無監督的機器學習模型,目的是以無監督的學習方式去挖掘文本中包含的主題信息,即“Topic”。該算法實質就是利用文本中詞語的共有隱含特征分析文本的Topic結構,主要對“一詞多義”和“一義多詞”兩種語言現象進行建模,模型表示如圖1所示。
圖1中,K表示主題個數,M表示文檔總數,Nm 表示第m篇文檔的單詞總數,β是每個主題Topic中詞的多項分布的Dirichlet先驗參數,α是每個文檔下Topic的多項分布Dirichlet先驗參數,zm,n是第m篇文檔中第n個詞的主題,wm,n是m篇文檔中的第n個詞。本文使用的主題模型LDA算法步驟如下:
LDA算法:
算法輸入:分詞之后的文檔,通常一篇文章一行,每行包含若干詞。
主題數K,超參數α和β
算法輸出:
每篇文檔的各個詞所屬的主題,model-tassign.txt
每篇文檔的主題概率分布:model-theta.txt
每個主題下的詞概率分布:model-phi.txt
每個主題下詞概率從高到低排序:model-tword.txt
2.2 深度學習模型
使用長短期記憶神經網絡(LSTM,Long Short-Term Memory)作為本文算法的深度學習部分。LSTM最早由Hochreiter等\[20\]于1997年提出,是一種特殊的循環神經網絡(RNN,Recurrent neural network),可以學習長期依賴信息。后來該算法得到了改良,在許多問題上得到應用。
所有 RNN 都具有一種重復神經網絡模塊的鏈式形式。在標準的 RNN 中,這個重復模塊只有一個非常簡單的結構,如一個 tanh 層,見圖2。
LSTM 同樣是這樣的結構,但是重復的模塊擁有不同的結構。不同于RNN單一神經網絡層,LSTM有4個,以一種非常特殊的方式進行交互,見圖3。
2.3 基于主題流與深度學習的情感分析算法
在上述基礎上本文提出基于主題流與深度學習的情感分析算法,簡稱TFDL-SA算法。本算法引入時序關系,首先對中文文本進行分詞,考慮詞的時序關系,利用LDA主題模型生成主題流,即Xi=t1,t2,…tn。其中Xi表示第i篇文檔的主題流,tj表示文檔中第j個詞的主題。文檔對應的標簽向量矩陣為y=[l1,l2,…,lm],其中li表示每篇文檔主題流Xi對應的標簽。然后將M篇文檔的主題流與標簽X,y作為LSTM深度學習模型的輸入特征,完成深度學習分類。
TFDL-SA算法步驟如下:
輸入:(X,y),其中X表示文檔的主題流,y表示文檔對應的標簽
輸出:分類結果,1表示積極,0表示消極
jieba分詞,生成帶有次序的詞字典
LDA主題生成模型,生成文檔的主題流向量表示
while 不收斂 doLSTM訓練end while
3 實驗結果及分析
為驗證算法性能設計如下實驗:數據集選用斯坦福大學Stanford Sentiment Treebank標準數據集,共兩種:一種是標注了兩種情感的數據(negative,positive);一種是標注了5種情感的數據(very negative,negative,neutral,positive,very positive),選用9 645個訓練集,2 210個測試集。
本實驗設置二分類和五分類兩種場景,使用準確率(accuracy)、綜合評價指標(F-score)作為衡量指標。實驗過程中加入對比實驗,分別是結合詞嵌入單純使用LSTM算法進行分類(簡稱Basic LSTM)、使用主題流分別與CNN和RNN算法進行分類(分別簡稱Topicflow + CNN和Topicflow + RNN)和本文提出的TFDL-SA算法分類。實驗結果如表1和表2所示。
實驗結果分析表明,本文提出的TFDL-SA算法在二分類和五分類時效果更好,準確率和F值都大于其它幾種算法,原因是本文算法考慮了文本中詞語所屬主題以及時序關系,包含更多的詞語本身詞性、語義等信息。在深度學習訓練時,使用LSTM可以更好地處理包含時間序列等信息的事件,多種因素結合使TFDL-SA算法具有較好性能。
4 結語
大量情感分類方法中缺乏對文本主題以及時序關系等因素的有效利用,為此本文提出了基于主題流與深度學習的情感分析算法。首先,該算法提出了主題流模式,引入文檔中詞的時序關系生成主題流,作為深度學習模型的輸入特征;其次,深度學習使用長短期記憶神經網絡,適合處理包含時間序列等信息事件。實驗結果表明,本文提出的情感分析算法具有較好的性能,優于目前幾種主流的算法分類結果。
本文基于主題生成模型和深度學習模型對情感分析進行了研究,但在詞所屬某個主題的選擇上未進行進一步研究,下一步將研究不同主題選擇對情感分析的影響。
參考文獻:
[1] AKKAYA C.Sentiment classification[M].New York:Springer ,2014.
[2] GO A,BHAYANI R,HUANG L.Twitter sentiment classification using distant supervision[J].Cs224n Project Report,2009(6):168-172.
[3] MAZZONELLO V,GAGLIO S,AUGELLO A,et al.A study on classification methods applied to sentiment analysis[C].IEEE Seventh International Conference on Semantic Computing,2013:426-431.
[4] LAVANYA S K,VARTHINI B P.Sentiment classification of web opinion documents[C].International Conference on Electronics and Communication Systems.IEEE,2014:1-5.
[5] BESPALOV D,QI Y,BAI B,et al.Sentiment classification with supervised sequence embedding[C].European Conference on Machine Learning and Knowledge Discovery in Databases,2012:159-174.
[6] LI T,XIAO X,XUE Q.An unsupervised approach for sentiment classification[C].Robotics and Applications.IEEE,2012:638-640.
[7] 唐慧豐,譚松波,程學旗.基于監督學習的情感分類技術比較研究[J].中文信息學報,2007,21(6):88-94.
[8] 代大明,王中卿,李壽山,等.基于情緒詞的非監督情感分類方法研究[J].中文信息學報,2012,26(4):103-108.
[9] 孫建旺,呂學強,張雷瀚.基于詞典與機器學習的中文微博情感分析研究[J].計算機應用與軟件,2014,31(7):177-181.
[10] XIA R,ZONG C,LI S.Ensemble of feature sets and classification algorithms for sentiment classification[J].Information Sciences,2011,181(6):1138-1152.
[11] WANG S,MANNING C D.Baselines and bigrams: simple,good sentiment and topic classification[C].Meeting of the Association for Computational Linguistics: Short Papers.Association for Computational Linguistics,2012:90-94.
[12] DERIU J,GONZENBACH M,UZDILLI F,et al.SwissCheese at SemEval-2016 Task 4: Sentiment Classification Using an Ensemble of Convolutional Neural Networks with Distant Supervision[C].International Workshop on Semantic Evaluation.2016:1124-1128.
[13] PHU V N,DAT N D,TRAN V T N,et al.Fuzzy C-means for english sentiment classification in a distributed system[J].Applied Intelligence,2017,46(3):717-738.
[14] XIA R,ZONG C,LI S.Ensemble of feature sets and classification algorithms for sentiment classification[J].Information Sciences,2011,181(6):1138-1152.
[15] 陳釗,徐睿峰,桂林,等.結合卷積神經網絡和詞語情感序列特征的情感分析[J].中文信息學報,2015,29(6):172-178.
[16] WEI X,CROFT W B.LDA-based document models for ad-hoc retrieval[J].International Conference on Neural Information Processing Systems ,2006(2):178-185.
[17] 王偉,周詠梅,陽愛民,等.一種基于LDA主題模型的評論文本情感分類方法[J].數據采集與處理,2017,32(3):629-635.
[18] 黃發良,馮時,王大玲,等.基于多特征融合的微博主題情感挖掘[J].計算機學報,2017,40(4):872-888.
[19] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].J Machine Learning Research Archive,2003(3):993-1022.
[20] HOCHREITER S,SCHMIDHUBER J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.
(責任編輯:杜能鋼)