999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于情感詞典和SVM的微博網民情感分析

2021-06-07 00:15:30王文韜張士豹
現代信息科技 2021年24期

王文韜 張士豹

摘 ?要:近年來網絡社交平臺興起,大眾傾向于在網上發表日常生活的感受,通過對這些文本的分析可以挖掘出人們的情感信息。文章基于新冠疫情暴發初期新浪微博有關新冠話題的評論數據,通過結合情感詞典和支持向量機的方法構建情感分類模型,接著通過情感時序分析和LDA主題模型綜合探討疫情期間微博網民的情感走勢與特征。經實驗分析,網民在新冠疫情期間的情感以積極情感為主,體現了大眾對于戰勝疫情有著相當充足的信心。

關鍵詞:新冠疫情;情感詞典;支持向量機;情感時序分析;LDA

中圖分類號:TP391.1;TP181 ? ? ? ? 文獻標識碼:A文章編號:2096-4706(2021)24-0024-05

Abstract: In recent years, with the rise of network social platforms, the public tends to publish their feelings in daily life on the Internet. Through the analysis of these texts, peoples emotional information can be mined. Based on the data of comments on the topic of COVID-19 on Sina micro-blog in the early stage of COVID-19 epidemic outbreak, this paper constructs an emotion classification model by combining emotion dictionary and Supports Vector Machine. Then, the emotion temporal sequence analysis and LDA (Latent Dirichlet Allocation) theme model are used to comprehensively explore the emotional trend and characteristics of micro-blog netizens during the epidemic period. According to the experimental analysis, the emotions of netizens during the COVID-19 epidemic period are mainly positive emotions, which shows that the public has sufficient confidence in overcoming the epidemic.

Keywords: COVID-19 epidemic; emotion dictionary; Support Vector Machine; emotion temporal sequence analysis; LDA

0 ?引 ?言

近些年來,社交媒體如微博、知乎等憑借著實時互動,多元化的特點已然成了傳播時事,網民表達自己情感的重要渠道[1]。微博的開放環境為網絡輿論的自由化提供了便利,人們隨時隨地便能在微博發表自己的想法。文本是用于情感分析的典型數據集,通過使用數據挖掘技術我們能夠得到文本中所蘊含的情感傾向,而通過對微博文本數據的挖掘,我們更能從中了解整個社會群體的情感,分析影響這些群體情感起伏的因素。

新冠疫情在這兩年斷斷續續,始終是網民討論的重要話題。尤其在2020年1月1日至2月18日這段時間,新冠疫情初步席卷全球,全球社交平臺的討論此起彼伏,讓其成了2020年最具影響力的一次熱點事件[2]。通過對疫情期間的網民評論數據進行分析,能夠挖掘出這期間網民的情感變化趨勢及主要影響他們情感的相應因素。總的來說,通過對互聯網熱點事件的實時分析,我們能夠即時掌控和把握網民的情感傾向,從而能夠為有關部門促進社會和諧穩定提供應對方向。

本文首先通過情感詞典標注微博文本數據的情感傾向,接著以支持向量機(SVM)構建情感分類模型,并以情感時序分析的方法探究網民情感發展趨勢,最后通過LDA(Latent Dirichlet Allocation)主題模型分析了不同情感態度下的特征,為輿情治理提供一定參考。

1 ?情感分析方法

網民的情感分析是一種對文本的情感傾向分析方法,通過對語句的提煉,可以分析出語句背后人們的主觀態度和情感傾向。現如今情感分析方法被廣泛應用在社交平臺和電商平臺的評論數據當中,大多是為了對這些評論進行挖掘,分析出這些評論的觀點信息和情感極性。目前在相關研究領域當中,情感分析主要使用機器學習,深度學習或者情感詞典的方法。

1.1 ?基于機器學習的情感分析

Pang[3]等運用多種機器學習方法,如樸素貝葉斯,支持向量機等,對電影評論數據進行了情感分類,證明了機器學習作為文本情感分析的可行性。Liu L[4]等通過SVM(Support Vector Machine),樸素貝葉斯和隨機森林對微博用戶的評論立場作出了識別。Xue[5]等用LDA主題模型來實現了對2 200萬條Twitter信息中新冠肺炎相關的突出主題及情感的識別。

1.2 ?基于深度學習的情感分析

Milagros[6]等提出了一種新的深度學習算法,該算法結合了依存語句,且對文本的情感分析效果較好。梁軍[7]等使用遞歸神經網絡實現了對COAE2014微博數據集的情感分析,且準確率接近于許多手工標注特征的傳統算法。梁斌[8]等提出了基于多注意力機制的卷積神經網絡,且其分類效果比傳統的卷積神經網絡效果好。

1.3 ?基于情感詞典的情感分析

情感詞典是對現有各種文本語言中各種情感詞的歸納,通過對情感詞典與待分析的文本進行比對,找出其中重疊的情感詞,從而可以確定該文本表露的情感。Cynthia[9]對情感詞典的研究較早,其通過對情感詞典不斷完善,使其將現有語言和情感詞典相匹配。栗雨晴[10]等提出了一種基于中英文雙語的情感詞典,通過雙語情感詞典的構建解決了當微博評論英文字符比重增加,導致分類效果下降的問題。Mohammed[11]等通過結合當前可用的英語詞匯和來自目標語言的未標注語料庫構建非英語情感詞典,且證實了能夠顯著提升非英語情感分類性能。

2 ?研究方法

2.1 ?基于情感詞典的文本情感分類

2.2 ?基于SVM的文本情感分類

情感詞典文本分類方法對情感詞典的依賴性極高,不同情感詞典對同一文本的分類效果也不同,甚至可能極性相反,因此需要選取較為準確的情感詞典。首先通過對待分類文本分詞去停用詞等預處理后,再對處理后的語句中的詞與所選擇的情感詞典的情感詞一一比對,根據比對后的正向情感詞與負向情感詞作差后的結果正負判斷該文本是屬于積極文本還是消極文本,是0則是中性文本,其中具體的步驟如下:

(1)選取情感詞典;

(2)對待分類文本預處理,包括分詞,去停用詞等;

(3)將預處理后的文本與情感詞典比對,計算文本的情感極性,如果為正數,為積極文本,如果為負數為消極文本,如果為0,則是中性文本;

(4)采用評估指標對文本的情感分類極性結果進行評估。

支持向量機目前在文本情感分類上運用較多,該方法采用監督學習方式對二分類問題進行建模。主要解決線性可分和線性不可分的情況,當線性可分時,則通過尋找一個最優超平面把樣本分隔開,線性不可分時,則使用核函數將其轉化為線性可分,通常使用多項式核,徑向基函數核,拉普拉斯核和Sigmoid核。而以上的最優超平面則稱作最大間隔超平面,這個平面到兩邊最近數據點的距離都是最大的,此時SVM問題轉化為一個凸二次規劃問題的求解。其原理圖如圖1所示。

支持向量機模型的基本思想即求兩類樣本的最大幾何間隔,即H1到H和H2到H的距離,而H就是通過不斷地訓練計算而求出用于分類的超平面(在二維空間中即一條直線),位于H1和H2上的圓形和正方形即支持向量集。最大化幾何間隔可以使算法的誤差上界最小,從而提高分類器的效果和泛化能力。

2.3 ?基于情感詞典和SVM的文本情感分類

本文通過采用情感詞典的方法標注微博文本數據來使得SVM模型訓練更加準確,從而提高整體的情感詞典-SVM分類模型的精度。首先對數據進行預處理,具體包括數據清洗,并對清洗后的數據分詞,去停用詞。再通過情感詞典的方法得出各個句子的情感得分,對以上得出的結果中,令情感得分正的為積極文本,情感得分負的為消極文本,情感得分為0的為中性文本。選取其中正負得分較為高的積極和消極文本作為數據集進一步進行分類模型訓練,通過機器學習SVM算法對此模型做驗證分析,具體流程圖如圖2所示。

而在得到情感分類模型后,本文通過情感時序分析和LDA主題模型分別分析了網民情感變化趨勢和特征。通過對情感詞典得到的每日微博評論的情感得分做日平均,畫出情感得分隨時間變化的曲線,并與每日新增感染人數作對比,以此分析新冠疫情期間網民的情感變化趨勢。而對選取的積極和消極文本進行LDA主題模型分析,可以得到不同態度的網民群體的情感特征。

3 ?實驗與結果分析

3.1 ?數據獲取

本實驗選取了在2020年舉辦的疫情期間網民情緒識別比賽的10萬條數據,此次比賽數據集是依據于“新冠肺炎”相關的230個主題關鍵詞進行數據采集,抓取從2020年1月1日到2020年2月18日期間的微博評論數據,這段時間是新冠疫情從被網民開始關注到疫情逐步得到緩解,大部分地區開始復工,能夠代表公眾在此期間的情感傾向和觀點態度,具有較高的輿論研究價值。表1為數據統計表。

3.2 ?基于情感詞典和SVM的情感分類模型構建

在通過情感詞典對微博評論初步標注計算情感得分之后,我們選取正負極性較高的積極的和消極的評論數據各1萬條。在本次實驗中,將對這些已經通過情感詞典篩選的數據集的80%隨機抽取作為訓練集,剩下的20%作為測試集,確定模型的精確度和誤差。再通過Word2Vec詞向量模型將文本語料轉換為詞向量,取詞向量維度為100維,再通過調用sklearn 中svm 包,采用RBF核函數( kernel=‘rbf,懲罰系數C=2,gamma=0. 1),訓練降維后數據,作出ROC曲線如圖3所示,得到此分類模型準確率達到0.96,可知該分類模型結果較好可以用于微博評論數據的情感分類。

3.3 ?情感時序分析

在得到了每條微博評論的情感得分后,對每日微博評論的情感得分做日平均,畫出情感得分隨時間變化的曲線,并與每日新增感染人數作對比,圖像如圖4所示。

從上述時序圖可以看出,在1月1日至1月18日,即使隨著確診人數的增加,大眾對于新冠的情感大多也是樂觀的積極的,相信這次疫情不會持續很久,會很快地得到控制,同時對感染的患者也是持祝福的情感,所以這段時間微博的評論大多都是積極的。在1月19日至2月1日,感染人數在這段時間內不斷地增長,死亡人數也在增多,大眾對新冠疫情也從一開始的樂觀變為恐懼和驚慌,微博評論的情感得分也在這一段時間內呈下降趨勢。在1月31日時,微博評論的情感得分達到了負值,表示了這段時間大眾的情感偏向消極。但是同時,這段時間大眾情感得分雖然呈下降趨勢,但是大部分還是為正,這就表明了大眾對于國家能夠走出這段疫情還是保有著堅定的信心的。在2月2日到2月18日這段時間里,隨著疫情逐漸得到控制,各省逐漸開始復工,大家之前那種恐慌消極的心情在政府各項行之有效的措施中也得以慢慢緩解。因此,微博評論的情感得分也有上升的趨勢。

我們根據上述的發展階段將時間分為3個部分,并對以下三個時間段作出相對應的詞云圖如圖5所示。在1月1日到1月18日可以發現微博主流的詞匯主要是“志愿者”“新冠病毒”“咳嗽”等詞匯,還有“綠色地球”等時事話題,說明疫情還在開始階段,人們開始關注但重視程度還不夠。1月19日到2月1日是疫情暴發時期,人們開始重視,高頻詞匯全部為與新冠病毒相關的詞語,如“感染”“病例”等,整體情緒較之前悲觀。2月2日到2月18日是輿論開始穩定的階段,除了上個階段的高頻詞之外還有“中國加油”“武漢加油”“抗疫”“戰疫”等積極的有正能量的詞匯,整體情緒開始好轉。還出現了“中醫藥”“雙黃連”等與當時“雙黃連可抑制新冠病毒”等新聞相關的詞匯,說明網民仍有一定恐慌情緒。

3.4 ?LDA主題模型

通過使用Gensim模塊對積極評論數據和消極評論數據分別構建LDA主題模型,設置主題數為3,每個主題下生成10個最有可能出現的詞語,如表2和表3所示。

表2反映了新冠疫情期間積極評論文本中的潛在主題。主題1中的關注點主要是中國,醫護人員、加油、致敬,主要反映了疫情期間網民對于國家以及醫護人員的加油和支持。主題2的關注點則是感染、病例、出院,主要反映了在疫情期間經過救治之后,出院的患者。主題3則主要關注讀書、口罩、體現了網民在疫情緩解,開始逐步復工復產的趨勢下,開始注重于生活的重新開始。

表3反映了新冠疫情期間消極評論文本中的潛在主題。主題1中的關注點主要是感染、確診、疫情,反映了疫情期間人們對于每天確診人數的增多所帶來的擔憂與害怕。主題2中的關注點則是野味、蝙蝠,反映了人們對于疫情源頭的痛恨。主題3中的關注點則是金銀花、醫院、出院、希望,體現了人們對新冠病毒所產生的恐慌,世界上各方力量都在尋求有助于緩解疫情的方法。

4 ?結 ?論

微博網民情感分析的主要任務是為了掌握網絡輿情動態,明確互聯網熱點事件的民眾態度及情感特征,為政府維護社會穩定作出一定參考。本文通過結合情感詞典與SVM構建了微博網民情感分類模型,取得了較好的分類效果,同時通過情感時序分析和LDA主題模型對此次疫情民眾情緒變化和特征進行了可視化分析,通過分析發現,民眾在新冠疫情期間的情感雖有對于新冠病毒的恐慌,但仍以積極情感為主,相互鼓勵,共同渡過這個難關,回歸正常生活。由于新冠疫情引起的輿論此消彼長,可以進一步擴大數據量,更加全面的探討新冠輿情的相關問題。

參考文獻:

[1] 王艷東,李昊,王騰,等.基于社交媒體的突發事件應急信息挖掘與分析 [J].武漢大學學報(信息科學版),2016,41(3):290-297.

[2] 韓珂珂,邢子瑤,劉哲,等.重大公共衛生事件中的輿情分析方法研究——以新冠肺炎疫情為例 [J].地球信息科學學報,2021,23(2):331-340.

[3] PANG B,LEE L,VAITHYANATHAN S. Thumbs up? Sentiment Classification using Machine Learning Techniques [J/OL].arXiv:cs/0205070 [cs.CL].[2021-11-03].https://arxiv.org/abs/cs/0205070v1.

[4] LIU L R,FENG S,WANG D L,et al. An Empirical Study on Chinese Microblog Stance Detection Using Supervised and Semi-supervised Machine Learning Methods [C]//Natural Language Understanding and Intelligent Applications.Kunming:Springer,2016:753-765.

[5] XUE J,CHEN J X,HU R,et al. Twitter discussions and concerns about COVID-19 pandemic:Twitter data analysis using a machine learning approach [J/OL].arXiv:2005.12830 [cs.SI].[2012.11.16].2020.https://arxiv.org/abs/2005.12830v2.

[6] FERN?NDEZ-GAVILANES M,?LVAREZ-L?PEZ T,JUNCAL-MART?NEZ J,et al. Unsupervised method for sentiment analysis in online texts [J].Expert Systems with Applications:An International Journal,2016,58(C):57-75.

[7] 梁軍,柴玉梅,原慧斌,等.基于深度學習的微博情感分析 [J].中文信息學報,2014,28(5):155-161.

[8] 梁斌,劉全,徐進,等.基于多注意力卷積神經網絡的特定目標情感分析 [J].計算機研究與發展,2017,54(8):1724-1735.

[9] WHISSELL C. Objective Analysis of Text:II.Using an Emotional Compass to Describe the Emotional Tone of Situation Comedies [J].Psychological Reports,1998,82(2):643-646.

[10] 栗雨晴,禮欣,韓煦,等.基于雙語詞典的微博多類情感分析方法 [J].電子學報,2016,44(9):2068-2073.

[11] KAITY M,BALAKRISHNAN V. An automatic non-English sentiment lexicon builder using unannotated corpus [J].The Journal of Supercomputing,2019,75(4):2243-2268.

作者簡介:王文韜(1997—),男,漢族,江蘇蘇州人,碩士在讀,研究方向:大數據分析;張士豹(1996—),男,漢族,安徽滁州人,碩士在讀,研究方向:圖像處理。

主站蜘蛛池模板: 国产农村1级毛片| 综合网天天| 91亚瑟视频| 欧美性爱精品一区二区三区 | 老司国产精品视频91| 91免费观看视频| 免费无码AV片在线观看中文| 精品综合久久久久久97| 在线观看91精品国产剧情免费| 日韩午夜片| 亚洲区视频在线观看| 国产96在线 | 日韩色图区| 综合色88| 日韩在线2020专区| 呦女亚洲一区精品| 国产高清不卡视频| 欧美a级在线| 国产男人天堂| AV网站中文| www.亚洲色图.com| 国产精品网曝门免费视频| 国产免费精彩视频| 激情综合图区| 91视频精品| 日本国产一区在线观看| 亚洲最大福利网站| 亚洲视频在线青青| 日韩天堂视频| 亚洲欧美另类日本| 97久久人人超碰国产精品| 午夜成人在线视频| 国产福利小视频高清在线观看| 日本高清免费不卡视频| 亚洲色偷偷偷鲁综合| 国产在线啪| 欧美亚洲激情| 亚洲乱码在线播放| 久久午夜夜伦鲁鲁片不卡| jizz在线观看| 性视频一区| 国产精品吹潮在线观看中文| 91青青在线视频| 福利在线不卡| 国产精品成人第一区| 亚洲区一区| 中文字幕无码中文字幕有码在线| 91精品视频网站| 国产区在线看| 国产精品久久久精品三级| 午夜精品久久久久久久无码软件| 国内精自线i品一区202| 国产在线专区| 亚洲人成网址| 九色最新网址| 国产大全韩国亚洲一区二区三区| 国产极品嫩模在线观看91| 无码国产偷倩在线播放老年人| 呦系列视频一区二区三区| 5555国产在线观看| 91区国产福利在线观看午夜| 国产高清在线精品一区二区三区 | 欧美中文字幕在线二区| 国产三级精品三级在线观看| 亚洲国产精品VA在线看黑人| 亚洲色成人www在线观看| 精品91自产拍在线| 久久久精品久久久久三级| 毛片最新网址| 呦女亚洲一区精品| 91在线精品麻豆欧美在线| 国产91特黄特色A级毛片| 亚洲区第一页| 色吊丝av中文字幕| 99久久国产综合精品2023| 久久96热在精品国产高清| 亚洲成在人线av品善网好看| 在线免费无码视频| 在线视频亚洲色图| 国产精鲁鲁网在线视频| 免费在线播放毛片| 欧美国产日韩另类|