999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的COVID-19疫情期間網民情緒分析

2020-12-14 04:35:10劉洪浩
軟件導刊 2020年9期
關鍵詞:深度學習

劉洪浩

摘 ?要: 微博文本情緒分析技術在輿情監控等領域具有廣泛應用。基于傳統機器學習模型和情感詞典進行情感分析的結果往往不夠理想,如何提升性能成為該領域的一個主要挑戰。本文中我們使用了基于深度學習的BERT以完成語言理解任務并與傳統做法性能相比較,結果中BERT模型取得了更好的性能。之后我們利用該模型進行三分類以分析COVID-19疫情期間的微博評論,總體上正面與中立情緒占主導。此外,我們也針對詞頻和詞云進行相關分析,以期實現全方面了解此次疫情期間社會情感狀態的目的。

關鍵詞: 深度學習,詞嵌入,BERT模型,情感分析,微博爬蟲,文本處理

中圖分類號: TP183 ???文獻標識碼: A ???DOI:10.3969/j.issn.1003-6970.2020.09.048

【Abstract】: Sentiment analysis of microblog text is widely used in public opinion monitoring and other fields. The results of sentiment analysis based on traditional machine learning models and sentiment dictionaries are often not ideal. How to improve performance has become a major challenge in this field. In this thesis, we use BERT based on deep learning to complete the language understanding task. Compared with traditional methods, BERT model has achieved better performance. We use the model to analyze microblog comments during the COVID-19 epidemic by conducting a three-category classification and find that positive and neutral emotions are dominant. We also conduct further analysis on word frequency and word cloud to gain more insights into the emotional states during the epidemic.

【Key words】: Deep learning; Word embedding; BERT; Sentiment analysis; Microblog crawler; Text processing

0 ?引言

文本是用于情感分析的典型數據集。由于情感文本數據的迅速增長和極高應用價值,使得自動識別和分析人們在文本中表達的情感成為一種必要。社交網絡文本情感分析被廣泛應用于在金融[1]、市場[2]、社 ?會[3]、娛樂[4]等諸多領域之中,關于文本情感識別算法相關的理論研究[5-7]也越發豐富。越來越多基于社交網絡的情感分析實踐和研究的出現表明其實用性與科學性。微博短文本已成為國內數據的情感表達和輿論走向的代表,它為研究社會發展和人類行為特征提供更多可能性。

新冠肺炎疫情備受社會各界關注。2020年1月1日至2月20日,疫情相關微博話題數超過200個。此次疫情為高熱度的重大社會熱點事件,對疫情期間的情感識別和可視化分析能客觀反映出疫情輿情的發展動向,有助于有關機構制定合理科學的決策,具有較高研究價值。

文本分類的精度取決于提取語義特征的方法和分類器的種類。本文關注基于深度學習的中文文本詞嵌入方法與傳統做法的比較和疫情期間情感分析。我們研究了基于深度學習中詞向量技術的情感識別方法,利用BERT模型和Embedding層預訓練方法,分別進行研究,實驗對比中BERT預訓練模型取得更加準確的結果。我們將利用BERT模型的分類結果對此次疫情全面分析,并給出疫情期間微博文本的詞云表示,以提高情感分析的準確度,達到全面了解此次疫情期間社會輿情的目標。

1 ?相關工作

本節簡要介紹微博數據情感分析的相關研究,以及獲得詞嵌入的方法。

1.1 ?微博數據情感分析

現有文獻中已有較為豐富的針對微博文本的情感分析策略。王培名等人[8]設計了自適應的并發采集算法優化模擬登錄和代理池的構造訪客Cookie功能,高效獲取微博數據,為微博數據采集策略提供了多樣性。劉楠[9]針對微博短文本形式的情感分析,歸納新的細粒度情感分析流程,提出TF和TF-IDF歸一化權重計算方法,與傳統提取特征的方法相比,能夠更準確判斷出多種類情感的權重,實現了該方法有效性的評估。

1.2 ?詞嵌入

詞嵌入是一種詞的數字向量化表示,相似含義的詞可用類似的向量表達。詞嵌入的研究關鍵在于獲得密集低維的分布式特征向量表示詞的不同特征,每一個詞與分布式向量相關聯,每個詞與向量空間中的點相關聯,促進與神經網絡詞的更好擬合和學習更新[10]。

2013年Google公司的Mikolov等人[11]開發出了基于神經網絡訓練詞向量新的模型體系結構Word2Vec,Word2Vec核心思想是通過詞的上下文窗口得到詞的向量化表示得到分布式的詞嵌入,其本質是降維操作,將One-Hot編碼形式的詞向量轉化為Word2Vec形式,Word2vec包括CBOW與Skip-Gram兩種模型。Pennington等人[12]在2014年提出了繼Word2Vec以后又一具有較大影響力的詞向量訓練方法Glove。Glove是一種無監督的詞嵌入模型,采用共現矩陣并對其降維,將局部信息和整體信息結合,解決了Word2Vec的只考慮詞與局部窗口信息和忽略了語料庫的統計信息的問題。

隨著詞嵌入模型不斷深入研究,詞嵌入模型更新速度越來越快,從傳統機器學習詞袋模型[13]等,發展到如今基于深度學習的預訓練方法諸如Word2Vec[14]、Glove[15]、 BERT[16]的詞嵌入算法,如今的詞嵌入方法通過神經網絡模型利用更長的上下文來解決自然語言問題[17]。

2 ?研究方法

2.1 ?數據獲取

我們采用已標注的10萬余條微博文本語料庫。在數據收集階段,我們使用微博API[18]收集微博文本數據,具體包含create_at(微博發布時間),id(發布用戶id),text(微博文本)屬性信息。我們一共收集到2020年1月1日至2月20日疫情期間的1萬余條微博文本作為待分析的文本。圖1展示了研究方法的總體流程。

2.2 ?預處理

我們原始的數據集需要經過預處理,過濾掉一些不符合要求的文本以便更契合情感分析任務。我們將對微博數據集中的中英文表情和符號表情進行過濾,然后利用jieba庫進行分詞,利用停用詞表進行深度清洗,篩選出停用詞,其中包括數字,中英文標點符號,語氣詞,無實意詞等。圖2顯示預處理的步驟。

2.3 ?模型

我們將使用訓練神經網絡時擬合詞嵌入層方法。深度神經網絡工具Keras,是一個深度學習框架,Keras的Embedding層和Word2Vec、Glove本質上是一樣的,將詞嵌入在淺層神經網絡中用密集向量表示同時在更小維度中集合信息,但其特點是可以和神經網絡一起訓練形成一個端到端的結構,以便高效擬合相應模型任務。Keras的Embedding層輸入數據要求為整數編碼,我們利用該庫中的分詞器Tokenizer API生成序列化向量作為嵌入層的輸入,Embedding層被定義為神經網絡的第一個隱藏層。該層使用方式靈活,我們利用該隱藏層作為深度學習模型的一部分共同進行模型學習和訓練,以將整數映射到Embedding層向量空間中的獲得帶有權重的密集向量。

同時我們還將使用最新的BERT預訓練模型進行研究,BERT模型由Devlin等人[19]在2018年提出,BERT模型被評為目前自然語言處理效果最佳的深度預訓練模型。BERT預訓練模型較之于以往預訓練模型最大優勢在于BERT運用了雙向轉換器如圖3所示。BERT的高效能同時體現在其特殊的預訓練方法,包含有Masked Language Model和Next Sentence Prediction。BERT模型的輸入由詞向量,段向量,位置向量三部分組成,如圖4所示。在詞向量里面有兩個特殊標志CLS,SEP。CLS作為第一個向量來得到句子向量,SEP用來區分句子。為了訓練深度雙向表示模型,需要BERT中的Masked Language Model和Next Sentence Prediction。

我們將利用Embedding層和BERT進行文本預訓練進行情感分類效果比較。神經網絡模型將用到深度學習框架Keras提供了網絡層線性堆疊的Sequential順序模型來搭載Relu全連接層和Softmax激活函數層。

2.4 ?可視化分析

我們針對處理后的微博文本數據借助第三方wordcloud庫和matplotlib庫對數據進行可視化分析。通過統計出高頻詞匯、評論量和平均情感數值的時間變化,我們從數字角度定量考察疫情期間輿情發展的情況,以便更加直觀了解此次疫情對民眾的影響。

3 ?實驗和結果

在這一節中,我們將詳細介紹我們在本次實驗中利用上述方法完成的具體實驗工作和結果。我們將訓練集和測試集經過預處理后,如圖2所示。產生了符合情感分析要求的10萬條語料集。

3.1 ?情感分析結果

我們分別利用Embedding層和BERT模型獲得詞嵌入,再擬合神經網絡構建情感識別模型,我們將前述的10萬條語料集劃分為訓練集,驗證集,測試集進行訓練,訓練輪次均為5次。在測試集上進行評估,結果對比如表1、2所示。

3.2 ?2019n-Cov疫情數據可視化結果

3.2.1 ?情感分類微博數據分布

情感分析結果為典型的三分類,1代表積極,0代表中性,–1代表消極。我們首先從宏觀角度獲得了評論在三種情感中所占數量,如圖5所示。總體分析可得,積極情緒文本比消極情緒文本在數量上較多,表明此次疫情期間網民整體呈現積極心態;中性情緒所占數量最大也代表了多數網民對此次疫情的不信謠不傳謠態度,這也證明了相關機構實施的大眾居家隔離等防疫措施有效性。

3.2.2 ?微博情感時間趨勢

我們從動態角度深入研究網民情緒變化,如圖6所示。消極情緒在1月20日左右呈現迅速增長趨勢,這可能是由于在1月20日鐘南山院士肯定新冠肺炎存在人傳人現象,加大網民的重視和恐懼程度。從2月8日至10日消極文本數量達到峰值顯示出李文亮醫生的逝世可能加重了負面情緒。但國家緊急實施居家隔離和調配全國力量支援湖北等多項措施,這使得2月10日以后積極情緒占比增大,網民情緒逐漸好轉。

3.2.3 ?平均情感數值時間變換

我們對預測結果進行情感數值平均化,得到平均情緒值隨時間的變化趨勢,如圖7所示。網民情緒在1月20號左右進入低沉期,驗證了圖6數據所示結論,之后情緒波動起伏,并在2月9日左右進入網民情緒低谷。之后每日新冠疫情感染人數逐漸下降,網民情緒逐漸好轉。從整體情緒幅度觀察,情緒波動較大,這說明了疫情期間不同地區的感染人數和死亡人數對網民的情緒造成不同程度的影響;在2月10日以后情緒逐漸雖有起伏整體仍保持積極心態,平均情緒數值逐漸有上升趨勢。

3.2.4 ?詞頻統計

關注網民疫情期間的熱點話題也是全面了解網民情緒和態度的重要途徑之一。我們利用測試集根據詞頻得到高低排序,得到前800詞語的詞云。如圖8所示。由詞云詞頻統計可知此次網民熱點討論為“疫情”、“武漢”、“肺炎”、“冠狀病毒”,“新型”等,這也表明在COVID-19期間,網友對此次新冠肺炎的重視和關注,同時也代表了冠狀病毒為此次新型肺炎的起源并對社會造成嚴重影響,也導致“口罩”、“醫院”等資源的缺乏和討論。此外我們可以從“武漢”、“加油”、“醫院”這些高頻率詞匯中體會到網民對武漢的關心,以及對所有為新冠肺炎抗爭的醫護天使的感謝。

4 ?結論

本文基于深度學習模型BERT比較了其在詞嵌入訓練的優越性,并獲得的較準確的情感分析結果,研究意義總結為如下三個方面:(1)比較了BERT模型和Embedding層的情感分類效果,解決了預訓練模型中單向信息流問題,并大大減少神經網絡的復雜度; (2)利用疫情之前的微博數據作為BERT模型訓練集對COVID-19期間測試集進行情感分類;(3)數據化地呈現出此次疫情網民的情緒變化和走向,結果表明網民在COVID-19疫情期間整體情緒積極。由于詞向量結合神經網絡的端到端學習模型具有多樣性,后續可比較Word2Vec,Glove等熱門模型,以獲得更高準確度的詞嵌入模型,同時利用Keras庫構建其他形式的神經網絡以加強性能。

參考文獻

[1]蔣鈺慧. 投資者情緒對我國股票市場收益率的影響研究[D]. 上海外國語大學, 2019.

[2]張愛華, 陳超雨. 基于文本分析的中國5G產業發展研 ??究——市場主體視角[J]. 北京郵電大學學報(社會科學版), 2019, 21(06): 90-102.

[3]劉雯, 高峰, 洪凌子. 基于情感分析的災害網絡輿情研 ?究——以雅安地震為例[J]. 圖書情報工作, 2013, 57(20): 104-110.

[4]柳池煜. 票房預測中的社交網絡評論情感挖掘技術研究[D]. 南京郵電大學, 2019.

[5]梁軍. 基于深度學習的文本特征表示及分類應用[D]. 鄭州大學, 2016.

[6]陳文. 中文短文本跨領域情感分類算法研究[D]. 重慶大學, 2016.

[7]彭浩, 朱望鵬, 趙丹丹, 等. 面向多源社交網絡輿情的情感分析算法研究[J]. 信息技術, 2019(02): 43-48.

[8]王培名, 陳興蜀, 王海舟, 王文賢. 多策略融合的微博數據獲取技術研究[J]. 山東大學學報(理學版), 2019, 54(05): 28-36+43.

[9]劉楠. 面向微博短文本的情感分析研究[D]. 武漢大學, 2013.

[10]BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3: 1137-1155.

[11]MIKOLOV T, CHEN Kai, COR RADO G, et al. Efficient estimation of word representations in vector space[J]. Computer Science, 2013, 2(12): 27-35.

[12]Pennington J, Socher R, Manning C. Glove: Global vectors for word representation[C]. Proceedings of the 2014 conference on empirical methods in natural language processing(EMNLP). 2014: 1532-1543.

[13]黃春梅, 王松磊. 基于詞袋模型和TF-IDF的短文本分類研究[J]. 軟件工程, 2020, 23(03): 1-3.

[14]彭曉彬. 基于word2vec的文本情感分析方法研究[J]. 網絡安全技術與應用, 2016(07): 58-59.

[15]陳珍銳, 丁治明. 基于Glove模型的詞向量改進方法[J]. 計算機系統應用, 2019, 28(01): 194-199.

[16]胡春濤, 秦錦康, 陳靜梅, 等. 基于BERT模型的輿情分類應用研究[J]. 網絡安全技術與應用, 2019(11): 41-44.

[17]劉勝杰, 許亮. 基于詞嵌入技術的文本表示研究現狀綜述[J]. 現代計算機, 2020(01): 40-43.

[18]王鐵剛. 社交媒體數據的獲取分析[J]. 軟件, 2015, 36(02): 86-91.

[19]Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv: 1810. 04805, 2018.

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 国产女人综合久久精品视| 97人人做人人爽香蕉精品| Aⅴ无码专区在线观看| 国产青榴视频| 国产精品一区二区无码免费看片| 欧美区日韩区| 精品伊人久久久大香线蕉欧美| 色婷婷成人| jizz国产视频| www精品久久| 国产高潮流白浆视频| 精品午夜国产福利观看| 91蝌蚪视频在线观看| 亚洲第一天堂无码专区| 免费a在线观看播放| 99爱在线| 国产乱视频网站| 国产成人无码综合亚洲日韩不卡| 五月丁香在线视频| 久久精品66| 中文字幕无码av专区久久| 九九热视频在线免费观看| 久久久国产精品无码专区| 国产网站免费看| 强奷白丝美女在线观看 | 亚洲国产精品日韩av专区| 亚洲欧洲日本在线| 色偷偷综合网| 超级碰免费视频91| 国产美女免费| 夜夜操天天摸| 国产区免费精品视频| 精品视频一区二区观看| 国产呦视频免费视频在线观看| 91久久夜色精品国产网站| 青草国产在线视频| 国产爽歪歪免费视频在线观看| 欧洲亚洲一区| 手机在线免费不卡一区二| 精品人妻系列无码专区久久| 国产在线观看一区二区三区| 成人va亚洲va欧美天堂| 日韩av无码精品专区| 久久中文字幕不卡一二区| 亚洲第一极品精品无码| 成年人国产网站| 九九精品在线观看| 亚洲国产系列| 欧美日韩一区二区三| 欧美成人综合在线| 五月综合色婷婷| 日韩在线视频网站| 国产精品女人呻吟在线观看| 精品久久久久久中文字幕女| 国产欧美日韩免费| 亚洲国产一区在线观看| 中文字幕色在线| 国产成人精品一区二区秒拍1o| 日本日韩欧美| 欧美成人区| 91精品福利自产拍在线观看| 日韩免费毛片| 亚洲国产无码有码| 男女男精品视频| 911亚洲精品| 九九线精品视频在线观看| 在线观看的黄网| 91精品国产综合久久香蕉922| 一本色道久久88| 在线欧美a| 国产杨幂丝袜av在线播放| 欧美一级高清片久久99| 3D动漫精品啪啪一区二区下载| 成人在线综合| 国产精品v欧美| 在线看免费无码av天堂的| 青青草国产免费国产| 亚洲天堂网2014| 国产成人精品亚洲日本对白优播| 亚洲欧美日韩综合二区三区| 欧美人在线一区二区三区| 亚洲精品午夜无码电影网|