999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SA-DTM 模型的突發公共衛生事件輿情演化分析

2022-11-18 07:44:02李博誠張云秋
中華醫學圖書情報雜志 2022年4期
關鍵詞:文本情感用戶

陳 妍,李博誠,張云秋

互聯網及網絡社交媒體的快速發展,大大降低了公眾發表網絡言論的門檻,越來越多的網絡用戶選擇在網絡社交平臺表達個人意見和情感傾向。微博作為其中的代表,因傳播速度快、社會影響力大而逐漸成為用戶信息傳播及信息獲取的重要渠道[1]。突發公共衛生事件因關乎公眾切身利益,往往持續時間久,關注人數多,而且極易觸動公眾的敏感神經,當事件被爆出后,公眾因擔憂自身生命健康安全而產生強烈的恐慌、憤怒等消極情緒,在網絡用戶中影響巨大[2]。而這些通過網絡傳達出的情感易形成社會輿論,會影響事件的發展及相關個人或組織的決策,甚至形成新的突發事件[3]。

近年來,信息技術的發展,尤其是文本挖掘相關技術和方法的日漸成熟,為突發公共衛生事件輿情的監控及輿情規律的呈現提供了新的解決思路。這些技術和方法可以幫助相關決策人員深入挖掘網絡中用戶生成的大量碎片信息[4],刻畫事件的演化過程和公眾情感的波動情況,實時把控用戶情感狀況,減少不良輿論對社會的負面影響[5]。

1 相關研究

1.1 主題分析研究現狀

在眾多對文本進行分析的方法中,主題模型(topic model)近些年逐漸成為研究熱點。主題模型是以非監督學習的方式對文集的隱含語義結構進行聚類的統計模型[6],因其在文本處理和分析方面的卓越性能和優異表現,被自然語言處理方面的研究者廣泛用于文本分析。如有學者使用LDA 模型對“立頓毒茶包”事件進行了輿情演化分析[7];還有學者對公眾針對共享單車政策修訂的意見反饋采納情況進行了研究[8];有學者提出一種由LDA 和支持向量機模型衍生而來的主題模型進行產品評論文本特征的提取,并進行主題聚類[9];還有學者提出一種面向產品評價信息文本進行文本特征提取的PMI-TFIDF模型,并與傳統的點互信息法進行了比較分析[10]。

1.2 主題-情感協同分析

目前,已有相關研究對主題和情感的協同分析進行了探討。國內有學者通過將文本情感與用戶畫像信息納入到圖模型,實現了基于微博的主題和情感的同步分析[11];有學者提出短文本情感主題模型SSTM,認為情感是依存于主題的[12];有學者根據微博評論的特點,提出了一種基于主題-情緒挖掘模型的情感分類方法[13];還有學者使用機器學習和情感計算對微博文本進行主題和情感綜合分析[14]。國外有學者基于推特數據集,通過對主題和情感的綜合分析提升在線零售業服務[15]。

綜上所述,現有主題分析研究未能考慮在時間線上某一時間片內的文本會受到前后文本的影響,導致呈現出的主題存在一定的偏移。同時,用戶情感也具有一定的動態性,用戶在短期內的情感波動往往與某一具體的熱點討論話題有關,單獨進行情感分析而忽略其所依附的主題,會降低情感的指向性。鑒于此,本文基于新浪微博平臺,通過動態主題模型提出綜合用戶討論主題和情感變化的SA-DTM 分析模型,以更好地探究突發公共衛生事件網絡輿情演化規律,為應急管理與決策服務。

2 研究框架與方法

2.1 總體框架概述

本文提出的SA-DTM 分析模型框架如圖1 所示,主要包括動態主題分析、情感分析和主題-情感可視化分析3 部分。

圖1 SA-DTM 分析模型框架

2.2 動態主題分析

2.2.1 LDA 主題模型

LDA 主題模型是一種基于詞袋思想的無監督貝葉斯模型。該主題模型認為,一篇文檔是由一組單詞所構成的“詞袋”結構,而其中的詞沒有先后順序。Beta 分布是二項式的共軛概率分布,而LDA模型中所使用的狄利克雷(Dirichlet)分布則是多項式分布的共軛概率分布。通常情況下,在LDA 模型中生成一篇文檔的方式可以通過以下幾步來實現:從Dirichlet 分布α中抽取出第i個文檔的主題分布θi;從主題的多項式分布規律θi中抽取生成屬于第i個文檔中第j個詞的特定主題zi,j;從Dirichlet分布β中抽取生成屬于主題zi,j的詞語分布模型?zi,j;從詞語的多項式分布?zi,j中采樣,并最終抽取生成我們想要得到的詞語ωi,j。

2.2.2 動態主題模型

動態主題模型是一種以LDA 為理論基礎的主題模型,能夠接受按照時間線排列好的語料信息,輸出在時間線上的不同時期文檔在主題上的變化,從而顯示在時間線上的某個時間片中人們主要討論和關注的主題,其中主題是由關鍵詞及其權重的組合表示的,在每個時間片上的主題數均為K個。

LDA 模型是以α和β為超參數初始化的Dirichlet分布函數,而在本文的動態主題模型中計算權重值ω=Vt/Vt-1,其中Vt和Vt-1 分別代表當前時間片和前一個時間片的文檔中單詞的個數,當前時間片的超參數α和β等于前一個時間片的α和β乘上權重ω。而在第一個時間片中初始化這兩個超參數時,通常情況下把這兩個參數初始化為0.01 和50/K,隨后的時間片則按照一定的規律進行計算[16]。

通過分析可知,區別于傳統的LDA 主題模型在整個主題生成過程中保持超參數不變,動態主題模型的超參數在生成過程中不斷調整與變化,并且充分考慮了上下文及前后時間片對主題聚類的影響,因此它更適合應用于持續時間長、事件變化多的突發公共衛生事件。

2.3 情感分析

情感分析也稱意見挖掘,是指自動、高效地對文本內容的情感傾向進行判斷,發現用戶對某個事件的態度和意見的過程。現階段有很多文本挖掘工具都支持情感分析功能,其中ROST-CM6 是目前較為成熟的文本挖掘工具,可對文本進行積極、中性和消極3 方面的情感分析。

2.4 主題-情感可視化分析

本文在LDAVis 的基礎上對氣泡圖進行了優化,使其可以綜合反映用戶討論的熱點話題與情感之間的關系。具體內容如下:氣泡圖中氣泡的大小表示話題的熱度,氣泡越大代表該主題下的評論越多;氣泡的顏色代表主題的情感極性,其中藍色代表積極情感,橙色代表消極情感,顏色越深其情感強度越大。

3 實證研究

3.1 數據收集及預處理

以新浪微博平臺“非洲豬瘟”事件為例,對本文所提出的分析模型進行實證分析。利用Gooseeker網絡爬蟲工具,以“豬瘟”為關鍵詞在新浪微博平臺檢索到2018 年8 月1 日—2019 年3 月31 日的全部數據共20 182 條。由于網絡社交媒體的開放性,所爬取的評論中涉及一些空白、網頁鏈接、@其他用戶的無用信息,通過關鍵詞篩選和人工檢查的方式對數據進行清洗,得到17 422 條評論數據。

3.2 主題識別

首先對評論進行時間片劃分。本文將所有評論按時間跨度中的8 個自然月均分為8 個片,并基于Python調用jieba分詞模塊對評論數據集進行分詞。為提高分詞結果,本文將哈工大停用詞表加入了停用詞詞典,將搜狗詞典的疾病預防專業詞庫填入用戶詞典。使用Gensim 模塊進行語料庫生成,生成步驟如下:首先,去除低頻詞以提高主題識別結果的代表性,本研究將閾值設為5,即刪除頻次小于5 的詞匯;其次,使用Doc2vec 將格式中的元素轉化為Bow 格式的向量;最后,通過困惑度曲線與實驗觀察調整,最終設定主題數為9,超參數α使用默認參數0.1,運行模型中的time 模式。

本文將時間片內主題詞權重最大的主題認定為該時間片內的主題,最終得出主題聚類結果。在事件暴發初期(2018 年8-11 月),人們關注的多是疫情的傳播、控制及發源地;同年9 月,關注焦點是通過科普有關豬瘟的知識盡可能阻止謠言的傳播。另外,從關鍵詞可以看出,豬瘟疫情也引發了對部分走私相關案件的討論;從2019 年1月份的主題關鍵詞可以看出在寧夏發生了豬瘟疫情,而從“磚家”這個關鍵詞則可以看出人們對專家發表的種種聲明的不信任和質疑。2019 年2 月,食品檢疫部門在三全水餃中檢查出豬瘟病毒核酸呈陽性,這一事件引起了強烈關注。在這一時間片中,用戶評論呈現爆發性增長,用戶分別對三全等食品企業,以及我國的食品檢疫有關部門產生了極大的質疑與不信任;而且從部分關鍵詞能看出用戶對這一事件的震驚和恐懼。2019年3 月,因為出現了多起對豬瘟檢疫結果隱瞞和造假的案件,這一話題成為了互聯網用戶關注的主要話題。

3.3 主題-情感演化分析

通過對特定主題下的評論進行情感分析,可以確保用戶所表達的情感與主題相關,以更好地探究用戶所表達情感的原因,進而更好地對網絡輿情進行合理引導。本文將一個時間片內包含至少一個主題關鍵詞的評論視為該主題下的評論。將所有評論分到所對應的主題下并導入ROST-CM6 軟件,所得結果如圖2 所示。

圖2 情感分析結果

本文結合LDAvis 進行了可視化改進,結果如圖3 所示。

圖3 主題-情感可視化分析

通過圖2 我們可以發現,在事件前期,用戶對事件的關注度較低并且對豬瘟事件的嚴峻性認識不足,故情緒相對平和;但是隨著之后豬瘟疫情再一次大規模暴發,全國多處都出現了豬瘟疫情的報道,用戶逐漸感到厭煩和焦躁,從2018 年11 月開始,負面情緒逐漸高漲,2019 年2 月由于“三全”事件的報道,負面情緒達到了頂峰,消極評論占比近50%。

根據ROST-CM6 所計算出的評論情感強度,得到關于主題-情感演化分析的結果(圖3)。可以看出主題1、主題3、主題9 這3 個主題氣泡最大,熱度最高,而且主題9 的負向情感強度最強烈,與之相反,主題2 的正向情感最為強烈。通過事件發展的整個過程可以看出,總共有兩次事件發展高潮,一是疫情剛剛發生的2018 年8 月,二是“三全”事件發生的2019 年2 月,表現為高熱度和高情感強度的雙高潮。2018 年10-12 月為事件發展較為平緩的時期。在“三全”事件爆發的半個月之后,網絡用戶的情緒逐漸平息。

通過上述情感與主題的演化分析,我們發現此類事件中與民眾生活相關的話題是輿情討論的熱點。有關部門在處理此類事件時也應將民生問題放在首位,將此類事件解決在萌芽階段,避免產生“聚集性”負面情緒,暴發負面輿情。通過分析發現,“豬瘟”這一突發事件的整個發展過程大概經歷了如下幾個階段:最初,疫情開始逐漸蔓延傳播,人們多關注豬瘟的傳播路徑和暴發地點,情感強度較弱,呈現輕微的消極表現;隨后,事件熱度慢慢降低,人們更關注一些豬瘟的謠言和暴發原因等邊緣話題;但是之后與食品安全息息相關的“三全水餃”事件突然暴發,使得用戶情緒的消極程度達到整個過程的最高點;最后,事件的熱度在半個月后逐漸冷卻,人們的關注點又慢慢轉移到邊緣話題。

突發公共衛生事件與其他突發事件不同,具有影響范圍廣泛、與日常生活更貼近、發展迅速、易對人體健康造成威脅等特點。因此,在此類事件發生后,尤其在互聯網和智能手機如此普及的今天,有關部門在有限時間內迅速做出反應,完成安撫群眾、科普相關知識、控制謠言的散布等一系列行動,對最大限度地緩解群眾的恐慌、減少事件的負面影響有重要作用。

4 結語

本文針對突發公共衛生事件持續時間長、討論話題多變的特點,利用動態主題模型,充分考慮了上下時間片對主題聚類的影響,以及互聯網用戶所表達情感與主題的相關性,構建了SA-DTM 模型。同時我們在LDAVis 的基礎上對氣泡圖進行了優化,使其可以綜合反映用戶討論的熱點話題與情感之間的關系。此外,通過建立的綜合用戶評論主題和用戶情感的網絡輿情分析模型進行了實證分析,結果表明該模型可以準確地呈現用戶所討論的熱點話題及對該話題所表達的情感傾向。今后的研究中將重點解決DTM 模型的超參數優化,并進一步對情感粒度進行細化,以求真實準確地還原用戶情感。

猜你喜歡
文本情感用戶
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 精品午夜国产福利观看| 91亚洲精品第一| 91亚洲国产视频| 日韩欧美综合在线制服| 99热这里只有精品免费| 色婷婷在线播放| 精品国产一区二区三区在线观看 | 亚洲国产亚综合在线区| 又猛又黄又爽无遮挡的视频网站| 欧美在线三级| 亚洲欧美另类色图| 国产亚洲精品91| 成人免费网站久久久| 国产精品成人免费综合| 国产精品人人做人人爽人人添| 久久精品亚洲专区| 国产69精品久久| 99久久亚洲精品影院| 亚洲伊人久久精品影院| AⅤ色综合久久天堂AV色综合 | 天天爽免费视频| 国产日本视频91| 免费中文字幕一级毛片| 久久99热66这里只有精品一| 精品国产91爱| 午夜在线不卡| 亚洲AV无码精品无码久久蜜桃| 亚洲欧美日韩成人在线| 亚洲一级毛片| 91精品国产一区| 国产91线观看| 波多野结衣久久精品| 免费一级全黄少妇性色生活片| 久久精品国产999大香线焦| 亚洲精品天堂自在久久77| 国产精品密蕾丝视频| 重口调教一区二区视频| 欧美综合在线观看| 国产成人久视频免费| 国产精品美女在线| 国产一区二区福利| 伊人天堂网| 亚洲中文字幕av无码区| 国产剧情国内精品原创| www.91在线播放| 91精选国产大片| 自拍亚洲欧美精品| 久久久久无码精品| 成人精品午夜福利在线播放| 麻豆AV网站免费进入| aa级毛片毛片免费观看久| 日韩国产亚洲一区二区在线观看| 无码专区在线观看| 狠狠色丁香婷婷综合| 无码'专区第一页| 五月激情综合网| 日韩亚洲综合在线| 欧美成人国产| 另类专区亚洲| 亚洲人成电影在线播放| 亚洲午夜福利精品无码不卡| 欧美日韩久久综合| 天天综合网亚洲网站| 97久久人人超碰国产精品| 国产黄色视频综合| 亚洲精品777| 99re视频在线| 亚洲天堂免费在线视频| 亚洲不卡av中文在线| 日本尹人综合香蕉在线观看 | 日韩在线影院| 真人高潮娇喘嗯啊在线观看| 免费激情网址| 久视频免费精品6| 亚洲 欧美 日韩综合一区| 亚洲天堂视频在线观看免费| 欧美综合在线观看| 亚洲一区二区三区国产精品| 日本不卡在线播放| 日本不卡视频在线| 理论片一区| 国产美女91呻吟求|