999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

社交類網站中社交情緒的挖掘與判斷

2019-11-04 00:17:13張浩洋夏偉賢熊聰聰趙叢
科技資訊 2019年20期

張浩洋 夏偉賢 熊聰聰 趙叢

摘? 要:社交化媒體蘊含著大量的數據,通過分析數據,可以研究人們的消費習慣,使用用戶導向型策略進行商業化運作獲取直接的經濟收益。社交情緒分析成為這一體系中最重要的技術之一,國外已經對在英文數據集上的情感分析進行過相關研究。該文利用中文數據、神經網絡算法和相關的Web技術對此進行相關的研究,成功構建3個模型,實現了對任意輸入中文句子的情感分析,并可在極短時間內對輸入內容進行高精度的情感預測。

關鍵詞:情感分析? 自然語言處理? embedding? RNN神經網絡

中圖分類號:G206 ? ?文獻標識碼:A 文章編號:1672-3791(2019)07(b)-0186-03

由于有大量用戶生成內容,社交化媒體幾乎已經成為“大數據”的代名詞。挖掘這些豐富的數據可以探尋輿論、前沿和公眾情緒的趨勢。現如今,臉書、推特、微博、微信等一系列社交平臺讓人應接不暇,人們在社交媒體上花費的時間比歷史上任何一個階段都要多,社交媒體數據和社會熱點、市場營銷、品牌及商業的關系更加緊密。

1? 研究背景

情感分析早在20世紀90年代末出現,隨著機器學習中深度學習算法的應用和計算力的提升,快速高精度的情感分析研究近10年不斷地突破。傳統機器學習領域中也有以Native Bayes、Support Vector Machine(SVM)、最大熵等算法針對文本進行情感分析的實例。相比于豐富的英文數據集分析,中文數據進行情感分析的案例比較匱乏,研究文獻較少。

2? 分析方法建立

利用爬蟲技術獲取訓練數據用word2vec時使用緩存技術大大提高訓練性能,使用計算成本相對較低的GRU單元代替常用LSTM單元,使用BRNN解決深度網絡記憶丟失的問題,使用Dense層加softmax的形式靈活調整輸出。

2.1 數據采集和預處理

數據采集利用爬蟲技術采集Web上現有的數據,并編寫代理池,使用random-agent等中間件加快爬蟲的抓取效率。

預處理指把這些數據變成簡單可用的數據形式,用MongoDB進行數據的存取以及利用基本字符串的處理方法,把相應的編碼進行簡單的預處理,編寫相關函數進行數據結構的變換。

2.2 數據分析算法

數據分析算法主要指,采用深度學習中word2vec(count bag of words)對得到的評論進行編碼/詞嵌入embedding,和使用bidirectional-rnn以及gate recurrent unit所構建的RNN進行情感分析的預測,為該項目最核心點。

2.2.1 神經網絡部分架構

該架構主要分為編碼網絡(CBOW)和預測網絡(BRNN-GRU),利用CBOW進行word embedding 并用word embedding vector對BRNN-GRU進行訓練從而得到預測網絡。

2.2.2 編碼網絡

編碼網絡采用word2vec中count bag of words(CBOW) 對分詞進行編碼。

訓練word2vec需要很大量的corpus,故我們采用transfer_learning的技術,利用在大語料庫下訓練所得到的模型對中文分詞進行編碼。

2.2.3 CBOW的數模型結構

softmax(x)=? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)

(2)

(3)

這便是CBOW的前向傳播過程。

其中(2)中代表projection的過程,為輸入的各個進行過one-hot encoding后的向量,U為投影的矩陣,最后由softmax單元進行激活。

(4)

(5)

迭代使用(5)對投影矩陣U進行更新,直至U收斂,此時得到了完整CBOW模型。

由(5)所得的U矩陣就可以進行很好的詞表示:

(6)

由(6)我們得到了詞的詞嵌入函數word_vector該函數可以用來對詞進行embedding能得到很好的詞表示。

2.2.4 適應神經網絡的數據與處理

使用中文分詞工具jieba進行分詞,對評分進行one-hot encoding作為神經網絡的輸出標簽。利用word2vec對已經分好詞句子進行embedding,最終把這些數據一并緩存到磁盤得到sentence_matrix,此時得到的sentence_matrix則為神經網絡的input。

2.2.5 預測網絡(bidirectional gate recurrent neural network)

預測網絡采用GRU單元作為核心的神經元,相比于更加常見的LSTM單元GRU有著計算簡單的優點,卻沒有使得計算性能下降。

GRU單元的數學模型如下:

(8)

(9)

(10)

(11)

[A,B]代表對矩陣的拼接,*表示元素積,t為神經元所在網絡的層數。

GRU單元有兩個update和reset分別確定更新所占的權重以及重置所占的權重其計算分別對應(7)(8),其目的是為了控制神經網絡的記憶時候傳入更深層次的網絡。迭代使用(7)~(10)就可構建初步的rnn網絡的神經元,也是公式(11)所描述函數——GRU函數里面的參數同一RNN網絡里面共享。

接下來使用bidiretional recurrent neural network的結構對GRU單元所構建的rnn再進行一遍結構復雜化可以更好地處理傳統RNN記憶傳遞不到深層網絡的問題。

BRNN的思路相當于訓練兩個神經網絡,然后把同一批數據傳播的方向進行逆序投入網絡中訓練,用兩個網絡在同一時間步上的兩個輸出對后續的狀態進行預測。

下面是GRU-BRNN單元的具體數學模型:

設模型的RNN部分共有n層。

(12)

對(12)進行循環,t從0到n,把\tilde ct當成傳入下一層。

(13)

對(13)進行循環,構建Dense層,調整數據流。

(14)

接下來使用Dense層和softmax單元,即迭代(13)進行輸出數據的維度調整,對各個參數求梯度進行迭代更新直至算法收斂即可,根據輸出數據的不同得到3個模型,即5-bigru、2-bigru、3-bigru。

3? 結果和分析

3.1 訓練結果以及在驗證集上的測試

訓練出3個可供預測的模型:5-bigru、2-bigru、3-bigru,分別對應5分類、2分類和3分類模型。

下面是3個模型在訓練過程中loss和accuracy的變化的圖像(見圖1)。

5-bigru、3-bigru、2-bigru分別對應訓練過程iter1、iter3、iter2(見圖2)。

可以看出各個模型均呈現收斂趨勢,arruracy表現以二分類的模型,2-bigru的表現最好,為85.4%的準確率;5-bigru的最次,為39.4%的準確率。三者在真實的語言環境下都得到了相當準確的預測。

5-bigru準確率相對低下卻能做出合理預測的原因解釋: 原因首先是數據集有5個檔次“積極、不太積極、中性、不太消極、消極”,因為是客觀數據“這電影還行”這樣的評論可能給出“積極、中性、消極”的評價,都可以認為其合理。

改進方法就是把5個檔次的評分變成2個檔次或者3個檔次“積極、消極”或者“積極、中性、消極”,這樣一來準確性會有很大的提升,即2-bigru和3-bigru的準確率要高于5-bigru(見圖3)。

從loss函數的變化可以看出算法基本已經在該數據集上收斂,這證明神經網絡從數據集上學習到了部分數據的特征,可以進行合理的預測。而loss并沒有降低到一個相對低的值,這可能是由于數據集存在擾動;其次算法本身雖然是逼近真實的解空間,但因為神經網絡的結構限制,并不一定可以完美地貼合解空間,故認為這個loss函數的值處于一個合理的范圍。

3.2 模型測試

利用訓練好的模型,對微博的評論數據進行了小規模的預測,結果發現預測在合理范圍的值高于驗證集的理論準確率(見圖4)。

上面給出使用微博數據和3-bigru進行情感分析預測的實際例子,其實際預測大于驗證集的準確率,實用性的準確率比其理論準確率更高。其原因是自然語言本身存在一定的模糊性,相較于人工進行判別而言具有較低的錯誤率,其真實的預測情況要比在驗證集上的效果更好。

4? 結語

模型經測試已經得到了不錯的準確度,未來還是有很大的改進空間,比如換更大的爬蟲,獲得更多的數據,使用更快的計算機器,更換attention-model算法,使用對應預測體系語料庫從新訓練word2vec等。并且文中用到的是jieba分詞,沒有進行優化,按照內容進行專門優化也是以后研究的方向。

參考文獻

[1] Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Science,2013(7).

[2] Le QV,Mikolov T.Distributed Representations of Sentences and Documents[Z].2014.

[3] Bojanowski P,Grave E,Joulin A,et al.Enriching Word Vectors with Subword Information[Z].2016.

主站蜘蛛池模板: 91丝袜在线观看| 88av在线| 日本不卡视频在线| 国产美女自慰在线观看| 国产一区二区三区在线观看免费| 不卡午夜视频| 国产精品成人一区二区不卡| 久久综合九色综合97婷婷| 欧美亚洲国产日韩电影在线| a毛片免费观看| 欧美精品啪啪| 亚洲欧美日韩另类| 国产69精品久久| 国产精品欧美激情| 色综合网址| 亚洲有无码中文网| 91麻豆久久久| www.亚洲一区二区三区| 久久香蕉国产线看精品| 免费人成视网站在线不卡| 亚洲人成影视在线观看| 在线毛片免费| 五月天香蕉视频国产亚| 国产本道久久一区二区三区| 呦系列视频一区二区三区| 日韩精品一区二区三区免费在线观看| 99re视频在线| www精品久久| 亚洲综合亚洲国产尤物| 男女男免费视频网站国产| 2021亚洲精品不卡a| 成人国产一区二区三区| 免费观看国产小粉嫩喷水| 少妇精品在线| 国产成人久视频免费| 福利视频久久| 国外欧美一区另类中文字幕| 亚洲成人一区二区| 毛片在线播放a| 亚洲中文无码av永久伊人| 色AV色 综合网站| 精品剧情v国产在线观看| 亚洲大学生视频在线播放| 中文成人在线| 麻豆AV网站免费进入| 人妻丰满熟妇AV无码区| 国产18在线播放| 免费女人18毛片a级毛片视频| 国内精品伊人久久久久7777人| 综合社区亚洲熟妇p| 色噜噜狠狠色综合网图区| 一级片免费网站| 午夜视频日本| 欧美午夜小视频| 亚洲欧美精品一中文字幕| 99九九成人免费视频精品| 国产无码性爱一区二区三区| 国产精品偷伦在线观看| 热久久这里是精品6免费观看| 亚洲三级网站| 熟妇丰满人妻av无码区| 亚洲日本www| 亚洲天堂伊人| 中文字幕永久在线看| 四虎精品免费久久| 1024你懂的国产精品| 天堂成人av| 国产高清不卡视频| 亚洲乱伦视频| 国产人碰人摸人爱免费视频| 激情视频综合网| 欧美第九页| 亚洲无码高清免费视频亚洲 | 谁有在线观看日韩亚洲最新视频| 一级毛片高清| 一级一毛片a级毛片| 国产夜色视频| 成人午夜精品一级毛片| 亚洲精品无码在线播放网站| 成·人免费午夜无码视频在线观看| 国产激爽爽爽大片在线观看| 国产一区二区人大臿蕉香蕉|