999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞典和表情符號的微博輿情情感分析研究

2023-11-13 07:10:22張麗李菊
電腦與電信 2023年7期
關鍵詞:文本情感

張麗 李菊

(南京理工大學紫金學院計算機學院,江蘇 南京 210023)

1 引言

2023年3月2日,中國互聯網絡信息中心(CNNIC)第51次《中國互聯網絡發展狀況統計報告》[1](以下簡稱《報告》)發布。《報告》顯示,截至2022年12月,我國網民規模達10.67億,較2021年12月增長3549萬,互聯網普及率達75.6%。互聯網的開放性,使得公眾可以在網絡平臺便捷地對社會各方面的熱點事件發表意見和建議,因此形成了網絡輿情。隨著微博用戶數量的快速增長,微博中攜帶了大量的網絡輿情,其中蘊含了很多的情感信息。通過對這些文本中的情感信息進行挖掘,可以獲得用戶的情感傾向,從而實現情感分析[2]。通過情感分析,可以獲得公眾對于熱點事件的態度和反應,有利于及時對微博輿論進行干預和引導,促進社會輿論的良性發展[3]。同時,微博輿情分析涉及數據發掘和信息檢索等技術,具有廣泛的研究價值和實際的應用意義,是近年來的研究熱點[4]。

本文在爬取微博數據后,使用情感傾向點互信息算法(SO-PMI)選取新的情感詞,對現有情感詞典進行補充,并選取常用的表情符號構建了表情符號詞典,最終基于構建的詞典實現文本情感值的計算,并使用詞云圖展示關鍵詞。

2 相關工作

微博輿情的情感分析過程包括微博語料的爬取、預處理和情感分析。其中,最關鍵的過程為采用合適的方法進行情感分析,目前常用的有基于情感詞典的方法、基于機器學習的方法和基于深度學習的方法[3]。

微博文本篇幅較短,情感詞之間的關聯性較小,非常適合使用基于詞典的方法進行研究。基于情感詞典的分析方法實現較為簡單,只需要將預處理后的文本與詞典進行匹配,并采用一定方法計算情感得分。常用的情感詞典包括中國知網情感詞典HowNet、大連理工詞典、臺灣大學的NTUSD[5]和BosonNLP情感詞典[6]。由于網絡新詞日新月異,在使用詞典進行情感分析時,需要考慮情感詞的擴充。在微博中,網民經常使用各種表情符號表達強烈的情緒,因此在情感分析中需要考慮表情符號對情感值的影響。習海旭等[6]通過相似度計算后,構建了領域情感擴充詞典,實現了情感的可視化分析。吳勝杰等[7]通過統計信息識別新詞,對新詞進行情感分析,使用改進的PMI算法構建微博特定領域情感詞典,并選擇常用的表情符號構建表情符號詞典,實現了微博文本的情感計算。管雨翔等[8]使用TF-IDF和TextRank兩種方法提取種子詞,然后采用SO-PMI算法構建領域情感詞典,使用實驗驗證了構建詞典的應用效果。林江豪等[9]使用TF-IDF算法選擇種子表情符號,使用SO-PMI算法計算候選情感詞與種子表情符號的貢獻值,構建情感詞典。李楠等[10]等通過歸納表情符號的動態特征,進行微博輿情分析。胡湘君[11]在微博綜合計算過程中考慮了表情符號的作用,從而提高了模型的有效性。

本文對抓取后的數據進行清洗、分詞和去停用詞,通過TF-IDF算法獲得種子情感詞,再使用SO-PMI算法在預處理后文本中篩選情感新詞,補充到情感詞典中,通過計算詞頻選擇常用的表情符號構建表情符號詞典。通過情感極性值的計算和可視化方法,分析網絡熱點事件中人們的情感。

3 構建詞典

BosonNLP詞典是基于微博、論壇、新聞等數據來源構建,包括很多網絡用語和非正式的簡稱,更適合于微博的情感分析。本文使用BosonNLP詞典作為基礎情感詞典,使用TF-IDF篩選出文本中的種子情感詞,再使用SO-PMI篩選出微博文本中的新情感詞,加入到詞典中,完成情感詞典的擴充。本文還構建了表情符號詞典和雙重否定詞詞典,并使用中國知網的程度副詞詞典和否定詞詞典,完成情感極性的計算。

其中,微博情感詞典的構建過程如圖1所示。

圖1 微博情感詞典構建流程圖

3.1 微博語料的預處理

微博語料的預處理過程包括數據清洗、分詞和去停用詞[12]。其中數據清洗包括:

(1)刪除“【話題名稱】”“#話題名稱#”、@微博昵稱;

(2)刪除網頁鏈接、視頻、圖畫,各種中英文符號;

(3)保留表情符號,用于表情符號詞典的構建。

數據清洗結束后,就可以進行分詞,本文選用結巴分詞作為分詞工具。微博文本中出現大量網絡新詞的情況,例如“打call”“帶節奏”等,為確保分詞的正確性,本文補充了搜狗拼音輸入法的“網絡流行新詞”詞庫[13],使用jieba.load_userdict()導入自建詞典。

完成分詞后,使用“哈工大停用詞典”刪除停用詞,將分詞后的結果保存。

3.2 構建情感詞典

3.2.1 使用TF-IDF算法選擇種子情感詞

TF-IDF的全稱為Term Frequency–Inverse Document Frequency,是一種統計方法,用以評估一個詞語在文本中的重要性程度[14]。其中TF表示詞語在文本中出現的頻率,IDF表示詞語的逆向文件頻率。計算公式為:

其中,nij表示詞語i在文本dj中出現的次數,分母表示文本dj的總詞數。

其中,|D|表示所有文本的總數目,| {j:ti∈dj}|表示出現該詞語的所有文本數目,為了防止所有文檔中都不含該詞語時分母為0的情況,所以一般都要加1。

一個詞語的TF-IDF計算公式為:

對于預處理后的微博文本,使用TF-IDF算法篩選出50對正向情感種子詞和50對負向情感種子詞,部分種子詞如表1所示。

表1 情感種子詞示例

3.2.2 使用SO-PMI算法篩選新情感詞

點互信息算法PMI可以計算語料庫中詞語之間的相似度,其基本思想是詞語之間共現的頻率越高,說明相似性越高,反之,則越低。計算公式如下所示:

其中,P(w1,w2)表示兩個詞語w1和w2共同出現的概率,P(w1)和P(w2)分別表示詞語w1和w2單獨出現的概率。如果兩個詞語有很強的相關性,則共現概率大于單獨出現的概率,此時計算出的PMI值大于0。

SO-PMI通過PMI算法計算詞語的情感傾向,從而能夠選出新的情感詞。選定初始的正向情感種子詞集Wpos和負向情感種子詞集Wneg,計算詞語wordi的情感極性公式如下所示:

計算結果大于0時,表示詞語wordi為正向情感詞;反之,表示wordi為負向情感詞。

使用SO-PMI算法共篩選出了703個正向新情感詞和1673個負向新情感詞。根據SO-PMI值將情感詞的情感強度取值分段處理,賦予值為:[1,2,3]和[-3,-2,-1]。部分新情感詞如表2所示。

表2 新情感詞和情感強度示例

3.3 構建表情符號詞典

選擇微博文本中頻率較高的表情符號構建表情符號詞典。對預處理后的微博文本,使用正則表達式過濾后只保留表情符號,共計551個表情符。對表情符號進行詞頻統計,篩選出詞頻數較高的前10%共計60個表情,組成表情符號詞典。表情符號代表正向情感時,權重值設置為1;反之,權重值設置為-1。表情符號詞典如表3所示。

表3 表情符號詞典示例

3.4 構建否定詞詞典和雙重否定詞詞典

否定詞可以改變情感詞的情感極性,而雙重否定不會改變情感詞的情感極性,但是會加強情感強度[7]。本文通過手動搜集,構建了否定詞詞典和雙重否定詞詞典,其中否定詞共73個,雙重否定詞16個,部分詞如表4所示。

表4 否定詞詞典和雙重否定詞詞典示例

3.5 構建程度副詞詞典

程度副詞可以加強情感的表達強度,因此在情感分析時需要考慮情感詞前面是否有程度副詞。程度副詞詞典來源于知網詞典庫中的“中文程度級別詞語”,共219個詞語。這些詞語的情感強度共有6級,在權重設置時根據不同的級別從高到低依次設置為3、2.5、2、1.5、1和0.8,詞典示例如表5所示。

表5 程度副詞詞典示例

4 情感極性的計算

微博文本的情感極性結算過程為:

輸入:分詞后微博文本D

輸出:文本的情感值s

(1)逐條遍歷微博文本,提取其中的情感詞、否定詞、雙重否定詞、程度副詞和表情符號列表。

(2)初始化ω=1,s=0。

(3)遍歷微博文本Di中的全部詞,

①如果當前詞是情感詞,判斷該情感詞與上一個情感詞之間:

如果有否定詞,則w=(-1)n×w,n為否定詞的個數;

如果有雙重否定詞,則w=1×w;

如果有程度副詞,則w=d×w,d為程度副詞對應權重值。

②計算文本情感值s=s+w*v,其中v為情感詞對應的權重值。

③如果當前詞為表情符號,s=s+w*e,其中e為表情符號的權重值。

(4)返回s。

5 實驗及結果分析

本文實驗數據來自新浪微博,使用Python的Scrapy框架,爬取話題#狂飆#的微博文本,時間跨度為2023年1月14日到2023年2月6日,共計72965條記錄。對爬取后的數據進行預處理后,基于構建的詞典計算文本情感值,并進行可視化分析。

該劇在愛奇藝和中央電視臺首播,播放周期為2023年1月14日至2023年2月2日,該話題下每日博文發布數量如圖2所示。從圖2可以看出,每天發布的微博數量是螺旋式遞增的,在2月4日時達到頂峰,此時也是該劇播放結束后兩天。此后每日發布微博數量逐漸減少。

圖2 每日發布微博數量圖

每日平均情感分、每日正向平均情感分和每日負向平均情感分如圖3所示。從圖中可以看出,每日平均情感分均為正值,每日負向平均情感分和每日情感平均分波動不大,每日正向情感平均分在1月31日達到頂峰后逐漸回落。

圖3 平均情感得分圖

每日正向博文和負向博文的點贊數、轉發數和評論數如圖4、圖5、圖6所示。從圖中可以看出,正向博文的點贊數、轉發數和評論數基本上都大于負向博文,尤其是1月21日正向博文的點贊數和評論數都遠遠高于負向博文,也高于其他日期。當日正好是除夕,網民會有更多的時間觀看此劇,并對此劇進行評價。

圖4 每日正向博文和負向博文點贊數

圖5 每日正向博文和負向博文轉發數

圖6 每日正向博文和負向博文評論數

最后,使用詞云圖對文本中出現頻率較高的關鍵詞予以視覺化展示。在詞云圖中,詞頻越高的詞語字體越大,如圖7所示。通過圖中我們可以看到,出現較高的關鍵詞為劇名和劇中演員名字,說明網民在討論時多次提到這些詞語。其他頻率較高的關鍵詞集中在“真的”“好看”“好”等詞語,說明網民對該劇的評價很高。

圖7 關鍵詞詞云圖

6 結語

本文使用爬蟲爬取微博文本,在預處理后,使用SO-PMI算法在語料中篩選出情感新詞,對BosonNLP詞典進行了擴充,并選擇頻率較高的表情符號構建表情符號詞典。使用構建的詞典實現了情感分析,并使用可視化技術展現網民對熱點事件的情感態度和情感值變化過程,展現了對博文中詞頻較高的詞語。但是,分詞的正確性會影響后續的情感極性計算,情感分析本身的主觀性較強,會出現正話反說的場景,后續還需要繼續研究情感詞典的構建過程。

猜你喜歡
文本情感
如何在情感中自我成長,保持獨立
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
被情感操縱的人有多可悲
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
情感移植
發明與創新(2016年6期)2016-08-21 13:49:38
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 毛片在线播放a| 国产在线麻豆波多野结衣| 在线国产91| 一级毛片在线直接观看| 狠狠色噜噜狠狠狠狠色综合久| 99久久国产精品无码| 国产在线精彩视频二区| 国产毛片网站| 国产人成在线观看| 成色7777精品在线| 国产一级毛片yw| 沈阳少妇高潮在线| 国产微拍一区| 日韩一区二区在线电影| 亚洲一级毛片免费观看| 色亚洲成人| 黄色在线网| 日韩精品一区二区三区中文无码| 91成人在线观看视频| 亚洲综合色婷婷| 日韩毛片免费观看| 国产成人精品高清在线| 亚洲人成网站色7799在线播放| 五月六月伊人狠狠丁香网| 青青草原国产一区二区| 欧美一区二区三区香蕉视| 国产最爽的乱婬视频国语对白| 亚洲国产中文在线二区三区免| 蜜芽一区二区国产精品| 亚洲精品无码av中文字幕| 国产尤物jk自慰制服喷水| 99视频有精品视频免费观看| 国产在线观看人成激情视频| 午夜国产精品视频| 免费不卡视频| 国产香蕉在线| 老熟妇喷水一区二区三区| 欧美国产三级| 亚洲毛片在线看| 久久夜夜视频| 亚洲国产精品日韩av专区| 欧美不卡二区| 91在线国内在线播放老师| 91麻豆久久久| 国产综合在线观看视频| 欧美一级大片在线观看| 国产高清无码第一十页在线观看| 午夜欧美在线| 性色在线视频精品| 国产a在视频线精品视频下载| 一级全黄毛片| 日韩午夜福利在线观看| 精品国产污污免费网站| 亚洲色图欧美一区| 亚洲欧洲一区二区三区| 亚洲无码视频图片| 国产高颜值露脸在线观看| 99re视频在线| 一级福利视频| 免费国产无遮挡又黄又爽| 国产真实乱人视频| 亚洲精品卡2卡3卡4卡5卡区| 亚洲av无码成人专区| 91精品伊人久久大香线蕉| 福利在线不卡| 国产精品99r8在线观看| 风韵丰满熟妇啪啪区老熟熟女| 亚洲中文字幕av无码区| 波多野结衣在线一区二区| 露脸一二三区国语对白| 国产精品va免费视频| 日韩国产高清无码| 在线播放91| 毛片在线播放a| 亚洲女同一区二区| 国产99免费视频| 亚洲天堂网在线观看视频| 制服无码网站| 免费A级毛片无码无遮挡| 99视频在线看| 在线无码av一区二区三区| 国产欧美日韩精品综合在线|