999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

社交類網站中社交情緒的挖掘與判斷

2019-11-04 00:17:13張浩洋夏偉賢熊聰聰趙叢
科技資訊 2019年20期

張浩洋 夏偉賢 熊聰聰 趙叢

摘? 要:社交化媒體蘊含著大量的數據,通過分析數據,可以研究人們的消費習慣,使用用戶導向型策略進行商業化運作獲取直接的經濟收益。社交情緒分析成為這一體系中最重要的技術之一,國外已經對在英文數據集上的情感分析進行過相關研究。該文利用中文數據、神經網絡算法和相關的Web技術對此進行相關的研究,成功構建3個模型,實現了對任意輸入中文句子的情感分析,并可在極短時間內對輸入內容進行高精度的情感預測。

關鍵詞:情感分析? 自然語言處理? embedding? RNN神經網絡

中圖分類號:G206 ? ?文獻標識碼:A 文章編號:1672-3791(2019)07(b)-0186-03

由于有大量用戶生成內容,社交化媒體幾乎已經成為“大數據”的代名詞。挖掘這些豐富的數據可以探尋輿論、前沿和公眾情緒的趨勢。現如今,臉書、推特、微博、微信等一系列社交平臺讓人應接不暇,人們在社交媒體上花費的時間比歷史上任何一個階段都要多,社交媒體數據和社會熱點、市場營銷、品牌及商業的關系更加緊密。

1? 研究背景

情感分析早在20世紀90年代末出現,隨著機器學習中深度學習算法的應用和計算力的提升,快速高精度的情感分析研究近10年不斷地突破。傳統機器學習領域中也有以Native Bayes、Support Vector Machine(SVM)、最大熵等算法針對文本進行情感分析的實例。相比于豐富的英文數據集分析,中文數據進行情感分析的案例比較匱乏,研究文獻較少。

2? 分析方法建立

利用爬蟲技術獲取訓練數據用word2vec時使用緩存技術大大提高訓練性能,使用計算成本相對較低的GRU單元代替常用LSTM單元,使用BRNN解決深度網絡記憶丟失的問題,使用Dense層加softmax的形式靈活調整輸出。

2.1 數據采集和預處理

數據采集利用爬蟲技術采集Web上現有的數據,并編寫代理池,使用random-agent等中間件加快爬蟲的抓取效率。

預處理指把這些數據變成簡單可用的數據形式,用MongoDB進行數據的存取以及利用基本字符串的處理方法,把相應的編碼進行簡單的預處理,編寫相關函數進行數據結構的變換。

2.2 數據分析算法

數據分析算法主要指,采用深度學習中word2vec(count bag of words)對得到的評論進行編碼/詞嵌入embedding,和使用bidirectional-rnn以及gate recurrent unit所構建的RNN進行情感分析的預測,為該項目最核心點。

2.2.1 神經網絡部分架構

該架構主要分為編碼網絡(CBOW)和預測網絡(BRNN-GRU),利用CBOW進行word embedding 并用word embedding vector對BRNN-GRU進行訓練從而得到預測網絡。

2.2.2 編碼網絡

編碼網絡采用word2vec中count bag of words(CBOW) 對分詞進行編碼。

訓練word2vec需要很大量的corpus,故我們采用transfer_learning的技術,利用在大語料庫下訓練所得到的模型對中文分詞進行編碼。

2.2.3 CBOW的數模型結構

softmax(x)=? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)

(2)

(3)

這便是CBOW的前向傳播過程。

其中(2)中代表projection的過程,為輸入的各個進行過one-hot encoding后的向量,U為投影的矩陣,最后由softmax單元進行激活。

(4)

(5)

迭代使用(5)對投影矩陣U進行更新,直至U收斂,此時得到了完整CBOW模型。

由(5)所得的U矩陣就可以進行很好的詞表示:

(6)

由(6)我們得到了詞的詞嵌入函數word_vector該函數可以用來對詞進行embedding能得到很好的詞表示。

2.2.4 適應神經網絡的數據與處理

使用中文分詞工具jieba進行分詞,對評分進行one-hot encoding作為神經網絡的輸出標簽。利用word2vec對已經分好詞句子進行embedding,最終把這些數據一并緩存到磁盤得到sentence_matrix,此時得到的sentence_matrix則為神經網絡的input。

2.2.5 預測網絡(bidirectional gate recurrent neural network)

預測網絡采用GRU單元作為核心的神經元,相比于更加常見的LSTM單元GRU有著計算簡單的優點,卻沒有使得計算性能下降。

GRU單元的數學模型如下:

(8)

(9)

(10)

(11)

[A,B]代表對矩陣的拼接,*表示元素積,t為神經元所在網絡的層數。

GRU單元有兩個update和reset分別確定更新所占的權重以及重置所占的權重其計算分別對應(7)(8),其目的是為了控制神經網絡的記憶時候傳入更深層次的網絡。迭代使用(7)~(10)就可構建初步的rnn網絡的神經元,也是公式(11)所描述函數——GRU函數里面的參數同一RNN網絡里面共享。

接下來使用bidiretional recurrent neural network的結構對GRU單元所構建的rnn再進行一遍結構復雜化可以更好地處理傳統RNN記憶傳遞不到深層網絡的問題。

BRNN的思路相當于訓練兩個神經網絡,然后把同一批數據傳播的方向進行逆序投入網絡中訓練,用兩個網絡在同一時間步上的兩個輸出對后續的狀態進行預測。

下面是GRU-BRNN單元的具體數學模型:

設模型的RNN部分共有n層。

(12)

對(12)進行循環,t從0到n,把\tilde ct當成傳入下一層。

(13)

對(13)進行循環,構建Dense層,調整數據流。

(14)

接下來使用Dense層和softmax單元,即迭代(13)進行輸出數據的維度調整,對各個參數求梯度進行迭代更新直至算法收斂即可,根據輸出數據的不同得到3個模型,即5-bigru、2-bigru、3-bigru。

3? 結果和分析

3.1 訓練結果以及在驗證集上的測試

訓練出3個可供預測的模型:5-bigru、2-bigru、3-bigru,分別對應5分類、2分類和3分類模型。

下面是3個模型在訓練過程中loss和accuracy的變化的圖像(見圖1)。

5-bigru、3-bigru、2-bigru分別對應訓練過程iter1、iter3、iter2(見圖2)。

可以看出各個模型均呈現收斂趨勢,arruracy表現以二分類的模型,2-bigru的表現最好,為85.4%的準確率;5-bigru的最次,為39.4%的準確率。三者在真實的語言環境下都得到了相當準確的預測。

5-bigru準確率相對低下卻能做出合理預測的原因解釋: 原因首先是數據集有5個檔次“積極、不太積極、中性、不太消極、消極”,因為是客觀數據“這電影還行”這樣的評論可能給出“積極、中性、消極”的評價,都可以認為其合理。

改進方法就是把5個檔次的評分變成2個檔次或者3個檔次“積極、消極”或者“積極、中性、消極”,這樣一來準確性會有很大的提升,即2-bigru和3-bigru的準確率要高于5-bigru(見圖3)。

從loss函數的變化可以看出算法基本已經在該數據集上收斂,這證明神經網絡從數據集上學習到了部分數據的特征,可以進行合理的預測。而loss并沒有降低到一個相對低的值,這可能是由于數據集存在擾動;其次算法本身雖然是逼近真實的解空間,但因為神經網絡的結構限制,并不一定可以完美地貼合解空間,故認為這個loss函數的值處于一個合理的范圍。

3.2 模型測試

利用訓練好的模型,對微博的評論數據進行了小規模的預測,結果發現預測在合理范圍的值高于驗證集的理論準確率(見圖4)。

上面給出使用微博數據和3-bigru進行情感分析預測的實際例子,其實際預測大于驗證集的準確率,實用性的準確率比其理論準確率更高。其原因是自然語言本身存在一定的模糊性,相較于人工進行判別而言具有較低的錯誤率,其真實的預測情況要比在驗證集上的效果更好。

4? 結語

模型經測試已經得到了不錯的準確度,未來還是有很大的改進空間,比如換更大的爬蟲,獲得更多的數據,使用更快的計算機器,更換attention-model算法,使用對應預測體系語料庫從新訓練word2vec等。并且文中用到的是jieba分詞,沒有進行優化,按照內容進行專門優化也是以后研究的方向。

參考文獻

[1] Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Science,2013(7).

[2] Le QV,Mikolov T.Distributed Representations of Sentences and Documents[Z].2014.

[3] Bojanowski P,Grave E,Joulin A,et al.Enriching Word Vectors with Subword Information[Z].2016.

主站蜘蛛池模板: 国产亚洲男人的天堂在线观看| 国产在线自在拍91精品黑人| www.精品国产| 国产产在线精品亚洲aavv| 国产无码在线调教| 亚洲手机在线| 国产系列在线| 特级aaaaaaaaa毛片免费视频 | 四虎国产精品永久一区| 国产精品视频白浆免费视频| 九九视频在线免费观看| 丝袜国产一区| 园内精品自拍视频在线播放| 亚洲性影院| 欧美成人综合视频| 99视频在线观看免费| 国产a v无码专区亚洲av| 国产成人三级| 久久精品视频亚洲| 嫩草国产在线| 欧美亚洲一区二区三区在线| 亚洲青涩在线| 天堂成人在线| 美女内射视频WWW网站午夜| 午夜毛片福利| 国产乱子伦无码精品小说| 国产免费网址| 欧美精品黑人粗大| 国产精品网址你懂的| 中文字幕在线日本| 国产最爽的乱婬视频国语对白 | 一区二区影院| 日日拍夜夜操| 国产日韩久久久久无码精品| 99人妻碰碰碰久久久久禁片| 欧美不卡视频一区发布| 久久香蕉国产线| 无码福利视频| 欧美啪啪网| 嫩草在线视频| 精品自窥自偷在线看| 18禁高潮出水呻吟娇喘蜜芽| 国产91无码福利在线| 五月婷婷激情四射| 亚洲色大成网站www国产| 免费人成视网站在线不卡| 911亚洲精品| 99在线视频精品| 热99精品视频| 国产成人精品一区二区三区| 国产精彩视频在线观看| 亚洲美女一区二区三区| 成人在线视频一区| 露脸真实国语乱在线观看| 国产麻豆另类AV| 久久亚洲精少妇毛片午夜无码| 欧美啪啪精品| 欧美97欧美综合色伦图| 动漫精品啪啪一区二区三区| 国产嫩草在线观看| 九九热精品免费视频| 日韩精品中文字幕一区三区| www.精品国产| 日本不卡视频在线| 欧美a级完整在线观看| 日本一区中文字幕最新在线| 亚洲精品无码av中文字幕| 最新国语自产精品视频在| www亚洲精品| 亚洲精品桃花岛av在线| 欧美精品伊人久久| 成年午夜精品久久精品| 超碰精品无码一区二区| 99久久精品免费观看国产| 国产自无码视频在线观看| 国产aⅴ无码专区亚洲av综合网| 日本爱爱精品一区二区| 2020国产在线视精品在| 亚洲综合欧美在线一区在线播放| 国产精品免费p区| 在线视频精品一区| 精品伊人久久久久7777人|