999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題流與深度學習的情感分析算法

2018-10-29 11:09:14劉納王新
軟件導刊 2018年8期
關鍵詞:深度學習

劉納 王新

摘要:基于機器學習的情感分類方法已經取得了較大進展,但在大量情感分類方法中,往往都是結合詞嵌入和傳統的機器學習方法,缺乏對文本主題以及時序關系等因素的有效利用。針對上述問題,提出了一種基于主題流與深度學習的情感分類算法,通過分析文本的主題分布,并引入時序關系,在此基礎上利用適合的長短記憶神經網絡的深度學習方法進行情感分類。實驗證明,基于主題流與深度學習的情感分類算法性能較好。

關鍵詞:NLP;情感分析;深度學習;主題流

DOIDOI:10.11907/rjdk.181487

中圖分類號:TP312

文獻標識碼:A 文章編號:1672-7800(2018)008-0028-03

英文摘要Abstract:At present,sentiment classification method based on machine learning has made great progress,but among the a large number of sentiment classification methods,word combination and traditional machine learning methods are often used,and there is a lack of effective use of such factors as text topics and sequence relationships in a large number of sentiment classification methods.In order to solve the problems,this paper presents a sentiment classification algorithm based on topic flow and deep learning,it analyzes the topic distribution of the text and introduces the sequence relationship and uses deep learning methods such as long short-term memory neural networks to classify the sentiment.Experiments show that the sentiment classification algorithm based on topic stream and deep learning proposed in this paper has better performance.

英文關鍵詞Key Words:NLP; sentiment analysis; deep learning; topic flow

0 引言

隨著互聯網及電子商務的快速發展,人們在線上的活動越來越多,產生了大量帶有主觀色彩的信息。這些帶有主觀性的信息可以是用戶對某次活動或服務的評價,或者是某新聞事件或文章的觀點等,對這些信息進行挖掘,可使政府部門了解相關輿情,輔助決策,對用戶進行個性化推薦以及對虛假評論進行檢測。僅靠人工對這些信息進行分析將耗費大量的人力物力和時間,通過計算機進行數據挖掘和分析是一個熱點,而情感分析是其中重要的分支[1-4]。

目前,情感分析的主要研究方法是傳統的機器學習分類算法,如貝葉斯分類、SVM以及聚類等[5-6],這些算法主要分監督學習、無監督學習[7-8]。監督學習需要靠大量的人工標注,代價較高。相反,無監督學習不需要人工標注數據,可降低標注代價,但效果完全依賴于訓練結果,無法有效提高性能。

本文對文本信息進行了深入研究,通過挖掘文本的主題分布和時序關系,采用深度學習方法進行情感分類。

1 相關工作

情感分析從2002年提出就受到廣泛關注,在中英文情感文本中得到廣泛應用,特別在線上評論和新聞評論的情感分析有了很大的發展。機器學習在情感分析中的應用受到研究者青睞[9-10]。Sida等[11]提出了采用樸素貝葉斯和SVM相結合的方法,實驗證明該方法取得了不錯的結果。Deriu等[12]提出利用神經網絡模型進行情感分析,與其它傳統方法相比效果較好。Catal等[13]提出了一種基于模糊聚類的方法,它是一種無監督學習方法,在減少人工標注的情況下取得了滿意的準確率。Xia等[14]提出了一種集成技術,集合詞性和詞關系等多種特征,并結合貝葉斯、信息熵以及SVM等方法進行廣泛的對比試驗,取得了一定進展和較好的實驗結果。本文研究了基于機器學習的情感分析方法,如樸素貝葉斯、支持向量機(SVM,Support Vector Machines)、神經網絡模型[15]以及聚類等。通過分析文本特征,將文本映射為特征向量的表示形式,然后通過機器學習模型進行分類和預測。

文本分析的一個重要研究方向就是自然語言處理。詞是文本的基本組成單元,主題分析(LDA,Latent Dirichlet Allocation)是其中一個重要分支[16],不少研究者在該領域進行了大量的研究工作。王偉等[17]提出基于LDA主題模型的評論文本情感分類。該文結合情感詞典,提出情感詞和上、下文,然后利用LDA挖掘情感特征,最后利用機器學習實現情感分類。該方法降低了情感特征的向量維度,取得了很好的分類效果。黃發良等[18]提出基于多特征融合的主題情感分析方法,挖掘多種文本特征進行情感分析。本文研究了主題分析在文檔中的應用,并在此基礎上結合深度學習方法應用于情感分析。

2 算法理論

2.1 LDA主題分析模型

LDA是Blei等[19]于2003年提出的基于貝葉斯概率的主題模型,該模型屬于無監督的機器學習模型,目的是以無監督的學習方式去挖掘文本中包含的主題信息,即“Topic”。該算法實質就是利用文本中詞語的共有隱含特征分析文本的Topic結構,主要對“一詞多義”和“一義多詞”兩種語言現象進行建模,模型表示如圖1所示。

圖1中,K表示主題個數,M表示文檔總數,Nm 表示第m篇文檔的單詞總數,β是每個主題Topic中詞的多項分布的Dirichlet先驗參數,α是每個文檔下Topic的多項分布Dirichlet先驗參數,zm,n是第m篇文檔中第n個詞的主題,wm,n是m篇文檔中的第n個詞。本文使用的主題模型LDA算法步驟如下:

LDA算法:

算法輸入:分詞之后的文檔,通常一篇文章一行,每行包含若干詞。

主題數K,超參數α和β

算法輸出:

每篇文檔的各個詞所屬的主題,model-tassign.txt

每篇文檔的主題概率分布:model-theta.txt

每個主題下的詞概率分布:model-phi.txt

每個主題下詞概率從高到低排序:model-tword.txt

2.2 深度學習模型

使用長短期記憶神經網絡(LSTM,Long Short-Term Memory)作為本文算法的深度學習部分。LSTM最早由Hochreiter等\[20\]于1997年提出,是一種特殊的循環神經網絡(RNN,Recurrent neural network),可以學習長期依賴信息。后來該算法得到了改良,在許多問題上得到應用。

所有 RNN 都具有一種重復神經網絡模塊的鏈式形式。在標準的 RNN 中,這個重復模塊只有一個非常簡單的結構,如一個 tanh 層,見圖2。

LSTM 同樣是這樣的結構,但是重復的模塊擁有不同的結構。不同于RNN單一神經網絡層,LSTM有4個,以一種非常特殊的方式進行交互,見圖3。

2.3 基于主題流與深度學習的情感分析算法

在上述基礎上本文提出基于主題流與深度學習的情感分析算法,簡稱TFDL-SA算法。本算法引入時序關系,首先對中文文本進行分詞,考慮詞的時序關系,利用LDA主題模型生成主題流,即Xi=t1,t2,…tn。其中Xi表示第i篇文檔的主題流,tj表示文檔中第j個詞的主題。文檔對應的標簽向量矩陣為y=[l1,l2,…,lm],其中li表示每篇文檔主題流Xi對應的標簽。然后將M篇文檔的主題流與標簽X,y作為LSTM深度學習模型的輸入特征,完成深度學習分類。

TFDL-SA算法步驟如下:

輸入:(X,y),其中X表示文檔的主題流,y表示文檔對應的標簽

輸出:分類結果,1表示積極,0表示消極

jieba分詞,生成帶有次序的詞字典

LDA主題生成模型,生成文檔的主題流向量表示

while 不收斂 doLSTM訓練end while

3 實驗結果及分析

為驗證算法性能設計如下實驗:數據集選用斯坦福大學Stanford Sentiment Treebank標準數據集,共兩種:一種是標注了兩種情感的數據(negative,positive);一種是標注了5種情感的數據(very negative,negative,neutral,positive,very positive),選用9 645個訓練集,2 210個測試集。

本實驗設置二分類和五分類兩種場景,使用準確率(accuracy)、綜合評價指標(F-score)作為衡量指標。實驗過程中加入對比實驗,分別是結合詞嵌入單純使用LSTM算法進行分類(簡稱Basic LSTM)、使用主題流分別與CNN和RNN算法進行分類(分別簡稱Topicflow + CNN和Topicflow + RNN)和本文提出的TFDL-SA算法分類。實驗結果如表1和表2所示。

實驗結果分析表明,本文提出的TFDL-SA算法在二分類和五分類時效果更好,準確率和F值都大于其它幾種算法,原因是本文算法考慮了文本中詞語所屬主題以及時序關系,包含更多的詞語本身詞性、語義等信息。在深度學習訓練時,使用LSTM可以更好地處理包含時間序列等信息的事件,多種因素結合使TFDL-SA算法具有較好性能。

4 結語

大量情感分類方法中缺乏對文本主題以及時序關系等因素的有效利用,為此本文提出了基于主題流與深度學習的情感分析算法。首先,該算法提出了主題流模式,引入文檔中詞的時序關系生成主題流,作為深度學習模型的輸入特征;其次,深度學習使用長短期記憶神經網絡,適合處理包含時間序列等信息事件。實驗結果表明,本文提出的情感分析算法具有較好的性能,優于目前幾種主流的算法分類結果。

本文基于主題生成模型和深度學習模型對情感分析進行了研究,但在詞所屬某個主題的選擇上未進行進一步研究,下一步將研究不同主題選擇對情感分析的影響。

參考文獻:

[1] AKKAYA C.Sentiment classification[M].New York:Springer ,2014.

[2] GO A,BHAYANI R,HUANG L.Twitter sentiment classification using distant supervision[J].Cs224n Project Report,2009(6):168-172.

[3] MAZZONELLO V,GAGLIO S,AUGELLO A,et al.A study on classification methods applied to sentiment analysis[C].IEEE Seventh International Conference on Semantic Computing,2013:426-431.

[4] LAVANYA S K,VARTHINI B P.Sentiment classification of web opinion documents[C].International Conference on Electronics and Communication Systems.IEEE,2014:1-5.

[5] BESPALOV D,QI Y,BAI B,et al.Sentiment classification with supervised sequence embedding[C].European Conference on Machine Learning and Knowledge Discovery in Databases,2012:159-174.

[6] LI T,XIAO X,XUE Q.An unsupervised approach for sentiment classification[C].Robotics and Applications.IEEE,2012:638-640.

[7] 唐慧豐,譚松波,程學旗.基于監督學習的情感分類技術比較研究[J].中文信息學報,2007,21(6):88-94.

[8] 代大明,王中卿,李壽山,等.基于情緒詞的非監督情感分類方法研究[J].中文信息學報,2012,26(4):103-108.

[9] 孫建旺,呂學強,張雷瀚.基于詞典與機器學習的中文微博情感分析研究[J].計算機應用與軟件,2014,31(7):177-181.

[10] XIA R,ZONG C,LI S.Ensemble of feature sets and classification algorithms for sentiment classification[J].Information Sciences,2011,181(6):1138-1152.

[11] WANG S,MANNING C D.Baselines and bigrams: simple,good sentiment and topic classification[C].Meeting of the Association for Computational Linguistics: Short Papers.Association for Computational Linguistics,2012:90-94.

[12] DERIU J,GONZENBACH M,UZDILLI F,et al.SwissCheese at SemEval-2016 Task 4: Sentiment Classification Using an Ensemble of Convolutional Neural Networks with Distant Supervision[C].International Workshop on Semantic Evaluation.2016:1124-1128.

[13] PHU V N,DAT N D,TRAN V T N,et al.Fuzzy C-means for english sentiment classification in a distributed system[J].Applied Intelligence,2017,46(3):717-738.

[14] XIA R,ZONG C,LI S.Ensemble of feature sets and classification algorithms for sentiment classification[J].Information Sciences,2011,181(6):1138-1152.

[15] 陳釗,徐睿峰,桂林,等.結合卷積神經網絡和詞語情感序列特征的情感分析[J].中文信息學報,2015,29(6):172-178.

[16] WEI X,CROFT W B.LDA-based document models for ad-hoc retrieval[J].International Conference on Neural Information Processing Systems ,2006(2):178-185.

[17] 王偉,周詠梅,陽愛民,等.一種基于LDA主題模型的評論文本情感分類方法[J].數據采集與處理,2017,32(3):629-635.

[18] 黃發良,馮時,王大玲,等.基于多特征融合的微博主題情感挖掘[J].計算機學報,2017,40(4):872-888.

[19] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].J Machine Learning Research Archive,2003(3):993-1022.

[20] HOCHREITER S,SCHMIDHUBER J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.

(責任編輯:杜能鋼)

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: a国产精品| 91在线播放免费不卡无毒| 啪啪国产视频| 久久青青草原亚洲av无码| 国产99精品久久| 国产一二三区在线| 毛片久久久| 久操线在视频在线观看| 欧美色图久久| 免费一看一级毛片| 国产成人精品亚洲77美色| 国产精品熟女亚洲AV麻豆| 国产视频自拍一区| 欧美日韩精品一区二区视频| 91成人试看福利体验区| 久久情精品国产品免费| 亚洲av日韩综合一区尤物| 亚洲伊人久久精品影院| 亚洲第一成年人网站| 日韩欧美国产综合| 久久99精品久久久久久不卡| 九九久久精品免费观看| 国产在线欧美| 日本不卡在线视频| 精品国产免费第一区二区三区日韩| 99这里只有精品免费视频| 国产精品理论片| 色悠久久综合| 亚洲人成网站在线播放2019| 波多野结衣的av一区二区三区| 成人国产免费| 欧美日韩精品在线播放| 精品人妻无码中字系列| 高清不卡一区二区三区香蕉| 男女男免费视频网站国产| 欧美亚洲国产精品久久蜜芽| 日本免费高清一区| 2020亚洲精品无码| 色综合激情网| 啦啦啦网站在线观看a毛片| 蜜桃视频一区二区| 人妻出轨无码中文一区二区| 欧美有码在线观看| 一级毛片高清| 亚洲AV人人澡人人双人| 在线视频一区二区三区不卡| 三上悠亚在线精品二区| 无码中文字幕乱码免费2| 永久免费无码成人网站| 福利国产微拍广场一区视频在线| 亚洲啪啪网| 在线播放精品一区二区啪视频| 亚洲精品无码AV电影在线播放| 国产91熟女高潮一区二区| 波多野结衣一区二区三区四区视频| 亚洲国产看片基地久久1024| 亚洲日韩精品欧美中文字幕 | 99久久精品国产麻豆婷婷| 国产精品偷伦视频免费观看国产 | 黄色网址免费在线| 久久黄色免费电影| 国模粉嫩小泬视频在线观看| 97成人在线视频| 天天色天天操综合网| 超碰91免费人妻| 重口调教一区二区视频| 亚洲日本中文综合在线| 欧美在线一级片| 亚洲国产欧美目韩成人综合| 日韩精品欧美国产在线| 久久永久精品免费视频| 自拍偷拍欧美日韩| 99ri国产在线| 欧美国产三级| 国产成人夜色91| 国产视频你懂得| 国产办公室秘书无码精品| 一级毛片视频免费| 欧美精品在线看| 福利一区三区| 色老头综合网| 国产老女人精品免费视频|