999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題挖掘和情感分析的“新冠肺炎疫情”輿情分析研究

2020-09-15 16:30:34楊秀璋武帥夏換于小民
計算機時代 2020年8期

楊秀璋 武帥 夏換 于小民

摘要:針對“新冠肺炎疫情”熱點新聞和話題,提出一種基于主題挖掘和情感分析的輿情分析方法。通過Python抓取2020年1月20日至3月22日期間共計1389篇人民網的疫情新聞,利用數據預處理、特征詞提取、詞云可視化展現與“新冠肺炎疫情”相關的熱點主題,再采用共詞分析、LDA模型、知識圖譜和情感分析算法挖掘輿情演化趨勢。實驗結果表明,此次肺炎疫情的情感呈現積極狀態,熱點主題包括疫情、防控、醫院、工作、服務等。該方法能有效挖掘輿情事件的主題,具有一定的應用前景和使用價值。

關鍵詞:主題挖掘;情感分析;新冠肺炎疫情;知識圖譜

中圖分類號:TP391 文獻標識碼:A 文章編號:1006-8228(2020)08-31-06

0 引言

2019年12月,湖北省武漢市開始出現多起不明原因引發的肺炎病例,后證實是由一種新型冠狀病毒(2019-novel coronavirus,2019-nCoV)感染所致,以下簡稱新冠肺炎[1-2]。2020年2月ll日,世界衛生組織宣布將新冠肺炎命名為“COVID-19”[2]。

新冠肺炎疫情的不斷擴散,給全國社會經濟發展帶來了巨大挑戰,同時以網絡平臺為主的新聞報道及社交論壇引發了社會的廣泛關注。隨著感染人數和疑似人數不斷增加,互聯網中相關的熱點新聞及話題呈爆炸式增長。如何利用計算機方法和數據分析算法準確地識別熱點新聞和疫情主題,分析群眾的情感動態,挖掘民眾關注的話題,已成為數據分析人員的重要研究議題[4]。本文提出一種基于主題挖掘和情感分析的“新冠肺炎疫情”輿情分析方法。 近些年,國內外學者致力于輿情分析研究,并提出了相關分析方法。趙雪等[5]使用詞共現網絡的方法對中國鄉村之聲官方微博信息進行輿情分析,識別出熱點話題主要為農業經濟信息和農民民生。李建新[6]通過構建BPOAS-MSW模型,建立系統的言論模式。何夢嬌等[7]借助SVM模型對交通輿情主題進行分類,基于Apriori算法分析關鍵詞隱含的交通規則,再利用共現網絡分析交通問題與時間的變化規律。王心瑤等[8]通過內容分析法對微博信息進行歸類、情感值計算以及轉發路徑分析。謝修娟等[9]提出一種基于密度的K-Means初始聚類中心算法,解決初始聚類中心選取到孤立點易導致聚類結果局部最優的不足。武帥等[10]運用數據可視化及情感分析的方法對巴黎圣母院火災事件的輿情信息進行分析。張翼鵬等[11]提出一種改進的細菌覓食算法,將網頁相關數值作為測量網頁熱度的度量,從而建立熱度評價模型,得到了更好的聚類效果。陳興蜀等[13]對“新冠肺炎疫情”相關的話題展開輿情分析,可視化地展現本次疫情事件中網絡輿情的時空演化過程。林永明[13]踟提出了一種輿情文本的動態主題情感模型,能夠有效刻畫公眾所關注的話題及其情感變化,且效果顯著。

針對“新型肺炎疫情”熱點新聞和輿情話題的主題及情感難以辨別的問題,本文提出了一種結合主題挖掘和情感分析的輿情分析方法。本文的實驗數據集為2020年1月20日至3月22日期間在人民網發布的疫情相關新聞,共計1389篇。利用數據預處理、特征提取、詞云可視化技術挖掘目標數據的熱點主題,再采用共詞分析、LDA主題模型、知識圖譜和情感分析算法對目標數據進行分析,挖掘輿情主題演化趨勢。最終得出該時間段的疫情相關新聞數據的總體情感趨向,各時間段的核心主題,以及隨時間變遷的主題演化過程和知識圖譜。

1 研究方法

1.1 算法總體流程

本文旨在分析“新冠肺炎疫情”的熱點主題和情感態勢,其算法的總體流程如圖l所示。

(1)通過Python和Selenium技術自定義爬蟲抓取人民網“新冠肺炎疫情”相關的新聞,包括新聞標題、新聞內容、發布時間、新聞來源等信息。

(2)對所抓取的語料進行數據預處理,包括中文分詞、停用詞過濾、特征提取、數據清洗等,再將預處理之后文本存入數據庫中。

(3)輿情分析包括三個核心模塊,計量分析涉及時間分布分析、空間分布分析、詞頻統計;主題挖掘涉及LDA主題模型分析、共詞分析、知識圖譜構建;情感分析涉及情感詞提取、貝葉斯模型和情感時間分布分析,最終得出實驗結果。

1.2 數據采集及預處理

本文采集人民網關于“新冠肺炎疫情”相關的新聞1389篇,時間跨度為2020年1月20日至3月22日,從武漢市封城前到全國疫情基本控制共計9周的新聞數據,詳細信息如表1所示。其中,八方支援專題125篇,各地動態專題500篇,抗疫英雄專題127篇,權威解讀專題50篇,人民網評專題87篇,實況武漢專題200篇,一線守護專題200篇,疫情快訊專題100篇。

新聞數據采集完成之后,緊接著實施數據預處理操作。首先進行缺失值處理、重復值刪除;再通過Python調用Jieba庫進行中文分詞,并導入關鍵詞和停用詞字典完成停用詞過濾和數據清洗;最后進行情感詞提取、TF-IDF計算、共詞分析等處理。通過數據預處理,實驗能得到質量更高、數據更完整的文本,從而為后續的實驗提供有效支撐。

1.3 主題挖掘

主題挖掘(Topic Mining)旨在從海量文本信息中識別出關鍵詞、核心主題、情感分數等,進而實施文本挖掘、輿情分析和情感計算,其是數據挖掘、輿情分析領域的重要知識點[14]。主題模型通過計算概率來挖掘文本主題,常見的算法包括LSA和LDA,廣泛應用于自然語言處理、引文文獻挖掘、情感傾向分析、社交網絡分析等領域[15]。

LDA(Latent Dirichlet Allocation)'16]是一種無監督學習的主題概率生成模型,也被稱作三層貝葉斯概率模型,其是在pLSA模型的基礎上增加貝葉斯架構模塊所形成的。

1.4 情感分析

情感分析是輿情研究中極為重要的部分,旨在從文本內容中識別、抽取、分析及推理帶有情感色彩的主觀性文本。首先通過Jieba庫進行中文分詞和數據預處理操作,調用自定義情感詞典進行特征提取,并計算每個情感詞出現的頻數。接著采用已分好類的正面文本pos.txt和負面文本neg.txt進行模型訓練,并利用SnowNLP庫進行情感分析,其核心算法是貝葉斯模型。最后按照時間順序加權平均每天的情感分數,采用PyEcharts庫繪制情感時間分布圖。

2 實證分析

2.1 計量分析

本文從時間維度和空間維度分析新冠肺炎疫情的影響。采用Python從人民網“眾志成城,抗擊疫情”專題抓取了全國新冠肺炎的病例數據(如圖2),詳細展示了截止2020年3月22日全國累計確診病例、疑似病例、累計治愈病例和累計死亡病例的情況。

圖3為2020年3月22日全國各地區新冠肺炎累計確診病例的可視化地圖。由圖可知,全國疫情最嚴重的的省份為湖北,疫情較嚴重的省份包括廣東、河南、浙江、湖南等,疫情較輕的省份包括青海、新疆、寧夏、吉林等,疫情最輕的省份為西藏。

2.2 主題挖掘

(1)詞云主題演化分析

詞云旨在凸顯文本中出現頻率較高的關鍵詞,在視覺上直觀呈現。本文采用WordCloud對“新冠肺炎疫情”新聞進行詞云主題演化分析,以周為時間單位繪制圖4所示的“疫情”新聞主題演化圖。

由圖4可知,各時間段的核心主題詞均包括“疫情”,隨著時間的推移,“防控”也逐漸成為熱點話題。在前三周2020年1月20日至2月9日期間,新聞報道主要以疫情的蔓延情況為主,包括“疫情”、“感染”、“防控”、“病例”、“確診”、“新增”等主題詞,從側面說明該段時間為“疫情”的擴散期,初期還未能做到有效控制。在中間三周2020年2月10日至3月1日期間,新聞報道已由之前的“疫情”蔓延情況開始向“疫情”救治轉變,“防控”也成為重要的熱點話題,“醫院”、“醫療”、“支援”、“物資”、“武漢”、“社區”、“企業”等主題詞也清晰地呈現,體現了我們國家“一方有難,八方支援”的精神,“眾志成城,共抗疫情”的決心,從側面說明這段時期主要為“疫情”控制階段。在后三周2020年3月2日至3月22日期間,新聞報道逐漸開始向“疫情”穩定控制進行轉變,企業復工、社區服務、黨員活動等主題漸現,涉及的主題詞包括“社區”、“工作”、“企業”、“復工”、“黨員”、“黨建”“復產”等,從側面推測“疫情”得到穩定控制,人民的日常生活逐漸向正?;謴?。

(2) LDA-模型i題聚類

在基于LDA模型的主題聚類實驗中,采用TFIDF技術計算特征詞的權重。該技術采用統計方法,根據特征詞在文本中出現的次數和在整個語料中出現的文檔頻率,來計算一個特征詞在整個語料中的重要程度。其優點是能夠過濾掉一些常見的卻無關緊要的詞語,同時保留影響整個文本的重要特征詞。計算方法如下。

本文通過LDA模型主題挖掘實驗,發現其主題數設置為3效果最佳。接著調用LDA模型訓練得到每個模型內的主題詞及對應權重,最終聚類生成的效果圖如圖5所示,分別對應新型肺炎及疫情擴散、疫情防控及八方支援、企業復工及社區服務三個主題。

(3)共現知識圖譜分析

針對“新冠肺炎疫情”新聞主題關鍵詞的分析,本文提出一種基于共現矩陣和知識圖譜的分析方法,構建各主題詞的關聯關系,從而更好地挖掘本次疫情的主題演化關系。采用Gephi構建“新冠肺炎疫情”新聞的關鍵詞共現知識圖譜如圖6所示,共構建了319個核心主題關鍵詞和1753條關系,其平均路徑長度為2.257,最低共現權重為9,網絡直徑為5。通過知識圖譜將“新冠肺炎疫情”新聞相關的主題聚焦在一起,居于中心位置的是“疫情”和“防控”,其他的主題詞逐漸向邊緣分布擴散。圖中左邊紫色區域為疫情防控相關的主題詞及關系,右邊中心綠色區域為醫院治療相關的主題詞及關系,右邊藍色區域為肺炎病例相關的主題詞及關系,右上紅色區域為湖北省各市縣相關的主題詞及關系。其中“肺炎”和“確診”、“疫情”和“黨員”、“疫情”和“武漢”、“肺炎”和“防控”、“醫院”和“患者”、“肺炎”和“冠狀病毒”、“企業”和“復工”、“防控”和“黨建”等關鍵詞共現明顯,其連線較粗。

2.3 情感分析

本文通過自定義情感詞典提取疫情文本的情感特征詞,表2展示了排名前15的正面情感特征詞和負面情感特征詞。其中,正面情感特征詞出現的頻率及TFIDF值更高,“新冠肺炎疫情”新聞的整體情緒呈現積極態勢。正面情感特征詞包括“落實”、“健康”、“有效”、“重要”、“穩定”等,負面情感特征詞包括“嚴重”、“緊缺”、“重大”、“貧困”、“緊張”、“嚴峻”等。

接著采用SnowNLP庫和貝葉斯模型進行情感時間分布分析。當結果為正數時,情感表現為積極正面,值越高則情感積極性越高;當結果為負數時,情感表現為消極負面,值越低則情感消極性越高。

圖7為人民網“新冠肺炎疫情”新聞的情感時間分布結果,時間跨度為2020年1月20日至3月22日。該時段,新聞及群眾的態度趨于正面,共有55天情感分數呈積極狀態,有8天情感分數呈消極狀態。新聞的整體情緒符合國家“一方有難,八方支援”的精神,體現中華民族“眾志成城,共抗疫情”的決心。

3 結束語

針對“新型肺炎疫情”熱點新聞和輿情話題的主題及情感難以辨別的問題,本文提出了一種結合主題挖掘和情感分析的輿情分析方法。首先采用Python和Selenium抓取人民網2020年1月20日至3月22日期間共計1389篇“新冠肺炎疫情”相關的新聞,接著利用數據預處理、特征詞提取、詞云可視化展現與“新冠肺炎疫情”相關的熱點主題,再采用共詞分析、LDA模型、知識圖譜和情感分析算法挖掘輿情演化趨勢。

實驗結果表明,本文提出的方法能有效地識別出疫情新聞的主題關鍵詞,挖掘疫情的主題演化規律,形成以“疫情”和“防控”為中心,其他關鍵詞擴散的共現知識圖譜。同時,此次疫情的情感呈現積極狀態,九個時間段涉及疫情、防控、醫院、工作、服務等熱點主題。本文的方法能有效挖掘輿情事件的主題,歸納熱點新聞的演化規律和共現知識圖譜,為未來的災害應對、突發事件和輿情分析提供思路。

參考文獻(References):

主站蜘蛛池模板: 国产成人乱无码视频| 强奷白丝美女在线观看| 91九色视频网| 九色在线视频导航91| 国产乱人乱偷精品视频a人人澡| 国产精品乱偷免费视频| 久久国产精品影院| 国产91透明丝袜美腿在线| 国产一区成人| 日本亚洲国产一区二区三区| 久久精品人妻中文系列| 国产成人艳妇AA视频在线| 精品久久人人爽人人玩人人妻| 99在线观看国产| 国产网站一区二区三区| 国产成人av一区二区三区| 欧美一区二区人人喊爽| 成人免费午夜视频| 日韩福利在线观看| 国产精品入口麻豆| 97视频在线观看免费视频| 日韩午夜伦| 亚洲国产成人久久77| 精品国产免费观看一区| 大陆国产精品视频| 亚洲日本中文字幕乱码中文| 91av成人日本不卡三区| 99久久精品免费看国产免费软件 | 亚洲成肉网| 色妞永久免费视频| 丰满人妻被猛烈进入无码| 香蕉视频在线观看www| 久久精品无码一区二区国产区| 欧美一区二区三区香蕉视| 91麻豆精品国产91久久久久| 亚洲天堂网在线视频| 亚洲成A人V欧美综合天堂| 奇米影视狠狠精品7777| 91精品伊人久久大香线蕉| 欧美精品1区| 国产免费a级片| 国产精品一区在线观看你懂的| 狠狠色丁香婷婷综合| 中文精品久久久久国产网址 | 国产成人夜色91| 国产精品3p视频| 国产成人永久免费视频| 日韩色图在线观看| 扒开粉嫩的小缝隙喷白浆视频| 啪啪啪亚洲无码| 免费可以看的无遮挡av无码| 91久久偷偷做嫩草影院| 波多野结衣中文字幕久久| av在线5g无码天天| 久久国产亚洲偷自| 2020久久国产综合精品swag| 国产亚洲欧美日本一二三本道| 中文字幕人妻av一区二区| 青青青视频91在线 | 亚洲一级无毛片无码在线免费视频| 亚洲精品第一页不卡| 67194在线午夜亚洲| 欧美影院久久| 中文字幕自拍偷拍| 亚洲国产综合精品一区| 国产三级精品三级在线观看| 亚洲人成网线在线播放va| 国产精品流白浆在线观看| 福利在线免费视频| 成人一区专区在线观看| 久久亚洲国产一区二区| 国产精品99r8在线观看| 男女性午夜福利网站| 国模视频一区二区| 免费黄色国产视频| 伊伊人成亚洲综合人网7777| 青青操国产| 九九九精品视频| 91麻豆精品视频| 人妻21p大胆| 亚洲一级毛片在线观播放| 久久99国产综合精品女同|