999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的中文情感分析研究

2019-09-24 06:03:39楊丹張夢朱毅
電腦知識與技術 2019年21期

楊丹 張夢 朱毅

摘要:網絡中充斥著許多帶有強烈情感的評論和信息,對這些信息的分析成為了解人們意見的主要途徑。情感分析是自然語言處理(natural language processing, NLP)的一個方向,用來判斷文本描述的情緒類型。通過建立用戶自身的情感標志模型來識別語句的情感特征,并將設計好的模型利用深度學習框架進行情感分析,最終得到各模型的準確率。利用TensorFlow深度學習框架,對公開數據集分別采用CNN、LSTM模型進行情感分析和比較研究。驗結果表明,LSTM模型在實驗中表現較佳并可為相關情感分析模型的優化提供一定的意義。

關鍵詞: 情感分析;卷積神經網絡;長短期記憶神經網絡

中圖分類號: TP391? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2019)21-0188-00

開放科學(資源服務)標識碼(OSID):

Abstract:In the Internet there are full of comments and information with strong emotions, and the analysis of such information becomes the main way to know people's opinions. Emotion analysis is a direction of natural language processing (NLP), which is used to judge the types of emotions described in text. The emotional feature of the sentence is identified by building the user's own emotional model, and the designed model is used for emotional analysis with the deep learning framework. Finally, the accuracy of each model is obtained. Using the TensorFlow deep learning framework, the open data sets were analyzed and compared using CNN and LSTM models. The experimental results show that the LSTM model performs better in the experiment and can provide some significance for the optimization of related emotion analysis model.

Key words:sentiment analysis;convolutional neural network;long short-term memory network.

隨著電子信息技術的蓬勃發展,人們在日常生活當中的情感需求不斷增加,進而微信、微博等社交網絡的使用人數也在不斷增長,這些帶有情感的交流信息也在逐漸引起學者們的關注。近年來,由于人們不斷研究的神經網絡的推進,及深度學習的發展,在CNN、RNN等模型下進行自然語言情感分析也取得了許多突破。情感分析顧名思義即是將信息發送者所傳遞的信息通過一定方法進行分析得到其中隱藏的觀點及其態度。目前情感信息分類的首要目標為:基于情感詞的標注[1]。其主要將表示情感的詞分為,正面情感詞和負面情感詞,通過比較一句話中正負情感詞的相對數量,來判斷句子的情感。目前,市面上已經浮現出大量有關于情感分析的方法,如:基于情感詞典切分類方法[2],是機器學習在情感分析方面從零到有的突破;CNN模型[3],使用詞向量分類文本;RNN模型[4],利用上下文構建模型;遞歸神經網絡模型[5],發掘隱含特征,大大提升分類的準確性;在日新月異今天,越來越多的研究人員選擇使用深度學習技術來對文本進行分析,但在繽紛多樣的方法中,我們將通過比較得出最有效的方法進行情感分析。

在以往的分析方法中,研究者的關注點往往落在CNN模型與LSTM模型上,這兩種不分伯仲的研究方法各自在各自的領域發揮著無比強大的作用,CNN模型利用詞向量對文本進行分類,LSTM模型利用正反向量進行處理,顯而易見LSTM模型作為新一代的模型,在功能完善方面已經遠遠超過CNN模型,但在情感分析孰輕孰重我們還應該再做進一步的比較。

本文運用CNN和LSTM兩種分析模型進行對比,通過在公開數據集上的相關實驗,證明 LSTM模型在情感分析方面的有利及重要性。

1? 情感分析模型

1.1 CNN模型

CNN(Convolutional neural network,CNN,卷積神經網絡)是一個多層的神經網絡,它作為當時具有突破性的模型被研發出來,其基本結構為輸入層、卷積層、池化層、全連接層、輸出[6],如圖1所示。

傳統中文文本分類采用支持向量機(SVM)模型,該模型的缺點是:只統計文本出現的頻率,不考慮詞語之前的序列關系。

CNN模型首先需要進行預處理,將樣本轉換為詞向量, 句子中的每個詞語對應一個向量機。通過分析句子長度較短、結構,采用詞嵌入向量表示, 使得 CNN 模型在處理文本情感分析這一類問題上成為可能。

通常一個卷積神經網絡模型分為三層:

① 卷積層。卷積層為模型的輸入層。其功能是對數據進行特征提取,內部包含多個卷積核,通過卷積核中的每個元素都對應一個權重系數。卷積運算包含一個濾波器,通過濾波器將每個詞按序排列,將初始的句子矩陣轉化為詞向量。

②? 池化層。池化層的主要作用為下采樣,通過對 feature map進行采樣分析,濾除非重要成分,簡化系統參數數量,從而提高運算效率。本文采用最大池化來提取關鍵特征。

③? 全連接層。選擇 ReLU 作為其激活函數. 其目的是為防止過度擬合,需要設置Dropout= 0.5. 最終提取的特征傳到分類器, 采用 Softmax 函數計算每個標簽的概率。

1.2 LSTM模型

LSTM(LongShort-TermMemory,長短期記憶網絡)是由RNN(Recurrent neural network,循環神經網絡)演變而來[7],但它的有效性遠遠大于RNN。解決了RNN數據距離較長難以收斂的問題,通過加入判斷信息是否有用的處理器有效地解決了其他神經網絡的長距離依賴問題。并且在一定的程度上解決了兩大問題:RNN梯度消失及梯度爆炸,他在CNN與RNN的基礎上都更進了一步。

一個處理器(cell)包含遺忘門(forget gate)、輸入門(input gate)和輸出門(output gate)三扇門,如圖2所示。

遺忘門:在遺忘門連接上一個處理器ht-1的輸出,并通過在本單元輸入的xt在[ht-1,xt]內產生一個[0,1]以內的值,從而控制上一單元的遺忘程度。

輸入門:輸入門主要控制信息的輸入,輸入門通過yanh函數差生一個新的候選向量C來控制信息被加入的多少。

輸出門:輸出門控制當前處理器有多少信息被過濾掉,先激活當前單元,然后控制過濾的程度。

LSTM這種三門細胞的設計,使得LSTM可以記憶、更新長距離的信息,從而可以實現對長距離信息的處理。每扇門都利用xt和ht-1作為輸入,利用這些輸入計算一些中間狀態,并將信息匯總到ht。這些門作為不同的模塊,執行不同的功能。輸入門決定在每個輸入上增加多少信息,遺忘門決定丟棄什么信息,輸出門則根據中間狀態來進行輸出[8]。從抽象的角度來看,LSTM能更好地保存文本種測長期依賴關系,這也是LSTM在進行情感文本分析時的優勢所在。

2.實驗與分析

2.1數據集

本文中采用(ChnSentiCorp_htl_ba_2000)公開數據集中“有關中文情感挖掘的酒店評論語料”[9]作為訓練集與測試集,選用正負各1000的平衡語料作為數據集進行分析。數據集樣例見表 1。在這里停用詞使用的是中科院計算所中文自然語言處理開放平臺所發布的中文停用詞表,其中包含了1208個停用詞。

表 1? ?數據集樣例

2.2 數據預處理

采用Jieba分詞分別對正向語料詞匯及負向語料詞匯進行分類分詞處理。分類分詞處理結束后利用停用詞表分別對正負預料過濾停用詞。刪除評論中的無用詞、無效符號和標點符號。取最后利用Wiki中文語料的Word2vec模型[10]將文本信息轉化為特征詞向量。

2.3 實驗結果分析

CNN、LSTM模型的正確率分別為0.82和0.856。實驗橫向對比了兩種模型的正確率,前期數據處理后各個模型性能表現基本一致,充分證明了深度學習對于情感分析研究的可行性。LSTM就結果而言效果略優于CNN模型。

3 結論

經過上述實驗及對比分析結果表明:

①本文基于深度學習主要介紹了常見神經網絡模型,比較兩個深度學習模型的差異,驗證了本文思路的正確性。

②采用分詞預處理詞向量方法進行實驗,使得詞向量質量的提高,進而提高模型的準確率。CNN模型就結果而言并不能體現出自身的優勢。

③基于上述LSTM模型處理中文情感分析有較好的性能的特點,利用LSTM及其相關模型解決其他語言的情感分析,能否找到類似的模型作為下一步研究工作的重點。

參考文獻:

[1] 孟仕林,趙蘊龍.一種融合情感與語義信息的情感分析方法[J].計算機應用,2019(9).

[2] 伍行素,陳錦回.基于LSTM深度神經網絡的情感分析方法[J].上饒師范學院學報,2018(8).

[3]KIMY.ConferenceonEmpiricalMethodsinNaturalLanguageProcessing[C].Doha:ACL Press,2014:1746-1751

[4] Siwei Lai, Liheng Xu, Kang Liu, et al. Recurrent convolutional neural networks for text classification[C].

Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence, 2015: 2267-2273.

[5]SOCHERR,PERELYGINA,WUJY,etal.Seattle,WA,USA:ProceedingsofConferenceonEmpiricalMethodsinNatu- ralLanguageProcessing[C],Seattle:ACLPress,2013:1631-1642.

[6] 周飛燕,金林鵬,董軍.卷積神經網絡研究綜述[J].計算機學報,2017(40)1229-1251.

[7] 李楓林,柯佳.基于深度學習框架的實體關系抽取研究進展[J].情報科學,2018(8).

[8] 蘆金宇.tensorflow項目實戰(LSTM情感分析)(2018-03-03).https://blog.csdn.net/ch1209498273.

[9] 情感分析 訓練集數據 中文情感挖掘的酒店評論.https://download.csdn.net/download/qzwdh/9874251.

[10] 利用Python實現wiki中文語料的word2vec模型構建.http://www.jianshu.com/p/ec27062bd453.

【通聯編輯:唐一東】

主站蜘蛛池模板: 午夜高清国产拍精品| 波多野结衣无码视频在线观看| 精品国产网站| 久久大香香蕉国产免费网站| 乱人伦99久久| 毛片免费在线| v天堂中文在线| 亚洲精品日产AⅤ| 91年精品国产福利线观看久久| 欧美日韩激情| 亚洲天堂伊人| 色综合五月婷婷| 欧美午夜在线观看| 成人午夜免费视频| 国产成人精品高清在线| 欧美日本在线观看| 亚洲成AV人手机在线观看网站| 情侣午夜国产在线一区无码| 日本91视频| 四虎精品黑人视频| 日韩国产无码一区| 免费无遮挡AV| 久久黄色毛片| 国产无码网站在线观看| 免费在线成人网| 精品国产Av电影无码久久久| 国产自产视频一区二区三区| 亚洲天堂网在线视频| 色网在线视频| 尤物精品国产福利网站| 日韩AV无码一区| 久久久亚洲国产美女国产盗摄| 亚洲精品黄| 日本一区二区三区精品国产| 婷婷午夜影院| 国产激爽大片在线播放| 欧美性爱精品一区二区三区 | 欧美午夜一区| 一区二区午夜| 色哟哟精品无码网站在线播放视频| 18禁高潮出水呻吟娇喘蜜芽| 91精品专区国产盗摄| 成年人免费国产视频| 五月婷婷激情四射| 夜夜操天天摸| 丰满少妇αⅴ无码区| 亚洲色图欧美在线| 亚洲精品777| 精品国产欧美精品v| 日本道综合一本久久久88| 手机在线免费不卡一区二| 中文字幕在线欧美| 免费A∨中文乱码专区| 亚洲色图欧美视频| 国产黄在线免费观看| 狠狠亚洲婷婷综合色香| 少妇精品在线| 欧美久久网| 欧美精品色视频| 欧美a级完整在线观看| 欧美三级日韩三级| 久久青草热| 欧美日韩精品一区二区在线线| 亚洲动漫h| 九色视频线上播放| 久久久久国产一级毛片高清板| 国产麻豆永久视频| 99一级毛片| 熟妇丰满人妻| 国产乱子精品一区二区在线观看| 国产18页| 欧美性爱精品一区二区三区| 午夜a级毛片| 欧美日韩国产在线观看一区二区三区| 欧美乱妇高清无乱码免费| 一本二本三本不卡无码| 一本大道无码日韩精品影视| 国产二级毛片| 区国产精品搜索视频| 成AV人片一区二区三区久久| 亚洲伊人电影| av手机版在线播放|