999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TextCNN的突發公共衛生事件網絡輿情分類研究

2023-10-26 00:50:56袁瓊芳張志強
無線互聯科技 2023年15期
關鍵詞:公共衛生分類文本

袁瓊芳,張志強

(貴州師范學院 數學與大數據學院,貴州 貴陽 550018)

0 引言

突發公共衛生事件是近年來熱點比較高的新聞事件,非常容易引起社會公眾的關注和大面積的網絡輿情討論,這類輿情次生輿情爆發風險高,需要政府和相關部門具備全面的應急管理和輿情識別的技能。傳統輿情情感分類技術在面對海量文本數據識別中存在速度慢、準確率低、成本高等問題,深度學習是近年來輿情情感分類的熱點技術,可以快速準確低成本地對海量輿情進行情感分類。TextCNN是Kim[1]在2014年提出的文本分類模型,該模型將深度學習CNN推廣應用到文本分類領域?;谏鲜霰尘?本文采用TextCNN模型對突發公共衛生事件網絡輿情分類工作展開相關研究。

1 相關文獻概述

深度學習在網絡輿情情感識別方面的研究和應用是國內學者近年來研究的熱點。鄧磊等[2]搭建了基于深度學習的網絡輿情監測系統框架;李芳等[3]設計了深度語義框架,構造自媒體網絡輿情情緒分類模型,并在開放數據集中進行了實證研究;邵輝[4]提出了BERT-TextCNN 網絡模型,并將該模型用于外賣中文評論數據集上進行情感分析;董晨[5]提出了基于深度學習算法的改進TextCNN分類模型且對新聞短文本數據進行了準確情感分類;彭清泉等[6]提出了基于ChineseBERT-BiSRU-AT的醫療文本分類模型,并對醫學影像報告文本數據集進行了實驗。

2 研究設計

2.1 研究思路

突發公共衛生事件發生后,新浪微博等互聯網平臺上充斥著社會公眾對突發公共衛生事件的各種輿情信息,如何對海量輿情數據進行快速識別和有效引導是政府和相關企業工作的重要內容。本文的研究思路如圖1所示。

圖1 研究思路

(1)突發公共衛生事件在新浪微博平臺上相關網絡輿情的數據采集和數據預處理。

(2)TextCNN卷積神經網絡文本分類模型對訓練集數據進行訓練和對驗證集數據進行驗證。

(3)運用調試好的TextCNN模型對待分類海量數據集進行輿情情感分類。

2.2 研究步驟

2.2.1 數據采集

新浪微博是社會公眾關注了解突發公共衛生事件新聞和發展趨勢的主要平臺,由此新浪微博上聚集了大量網民關于突發公共衛生事件的輿情討論,也由此產生了大量的網絡輿情數據。本文研究過程中通過相關爬蟲工具從新浪微博平臺爬取網民評論的輿情數據,將數據進行整理后形成待分類輿情數據集。

2.2.2 數據預處理

研究中采集得到的數據較多,很多是重復無效的評論,首先進行文本清洗,可通過Excel和Python對原始數據進行重復值刪除、缺失值刪除、數據合并與整合等文本清洗操作;文本清洗之后通過Python的jieba對評論文本數據進行中文分詞、去停用詞、統計詞頻操作;最后將中文分詞后的每個詞映射到一個數值索引,再通過字典將文本分詞后的序列轉為數值索引的序列。本文實驗過程中轉換時統一序列長度為20,以便輸入模型,不滿20長度的填充0,0對應補全字符,此時數據預處理階段的數值序列輸入構造完成。

2.2.3 TextCNN模型

TextCNN模型針對輿情文本分類和情感識別工作都能夠得到比較準確的結果,該模型經過以下4個步驟完成。

(1)輸入層。

輸入層的關鍵問題在于文本表示。本文研究中將數據預處理階段處理后的數值序列導入模型,通過Embedding層,初始化權重使用Baidu Encyclopedia 百度百科中文詞向量(300維)[7],將每個詞表示成一個向量,此時數值序列轉化為20×300的矩陣向量。

(2)卷積層。

卷積層中涉及多個超參數的設置,需要在具體實驗任務中嘗試才能得到最優的卷積效果,本文研究中對卷積層的參數調試后設置如下:卷積核數量(卷積中濾波器數量)設置為256,卷積核大小設置為3,激活函數設置為relu,初始化權值he_normal,strides設置為1。卷積操作之后將輸入層向量轉變成18×256的卷積特征矩陣。

(3)池化層。

池化層(Pooling)的主要作用是通過一定處理來減少模型參數個數,且在該過程中可以有效地防止模型出現過擬合現象。Pooling的方法很多,本文研究中選擇的是全局最大池化 GlobalMaxPool1D,通過GlobalMaxPool1D操作將卷積層18×256的特征轉化為一維的特征。

(4)全連接及輸出層。

池化層操作之后進入全連接層,通過 Dropout 操作預防模型過擬合,最后通過 Softmax 計算每個情感類別的概率。

2.2.4 模型訓練與驗證

TextCNN模型基本框架設計出來之后,需要對模型中的參數進行不斷調試,以確定最佳模型參數。對此,研究中從原始待分類數據集提取一部分數據(分為訓練集和驗證集)進行訓練和驗證。

為評估TextCNN模型文本情感分類算法的性能,本文選取準確率和損失函數兩個指標對模型進行評價。

準確率(Accuracy)是指文本分類器判別的所有情緒類別中正確的情緒類別的占比,計算公式為:

其中,ncorrect表示突發公共衛生事件輿情評論被文本分類器正確分類的數量;ntotal表示突發公共衛生事件輿情評論的總數量。

損失函數(Lossfunction)一般指單個訓練樣本預測值與真實值之間的誤差,在模型不存在過擬合的情況下,損失函數Loss值應該越小越好。損失函數有很多選擇,對于解決多分類工作的情況,可以選擇交叉熵損失函數來評價模型的誤差情況。交叉熵的公式為:

其中,p(xi)表示樣本的真實分布,q(xi)表示預測分布,n是總樣本個數。

2.2.5 對待分類數據進行情感分類

為及時掌握網民對突發公共衛生事件的看法和情感走向,需要對爬取的輿情數據進行快速有效的情感識別和分類?;谏鲜鰳嫿ǖ腡extCNN模型,對待分類的數據集進行情感區分,本文將網民的情感區分為正面、中立、負面3種不同狀態。

3 實驗分析

3.1 實驗環境

本研究數據運行需要的實驗環境配置如表1所示。

表1 實驗環境配置

3.2 數據來源

本文通過大數據爬蟲軟件從新聞微博上爬取2020年和2021年的突發公共衛生事件相關新聞的輿情評論數據,通過數據預處理后共得到27 260條數據。

3.3 模型訓練

TextCNN模型的最佳狀態不是唯一的,需要通過訓練集數據進行多次實驗測試才能確定模型的最佳參數,還需要通過驗證集數據對模型的預測準確性進行評價。從原始評論數據中選取1 200條輿情評論數據進行情感人工標注,為了使人工標注結果更具代表性,共標注出1 200條情感評論(400條正面評論、400條中立評論、400條負面評論),將1 200條人工標注情感的數據再次分為訓練集數據(720條)和驗證集數據(480條),將訓練集數據代入TextCNN模型進行訓練后,代入驗證集數據進行驗證,epoch次數會影響模型準確率,對dropout參數也做了多次調試,通過實驗對比,確認最佳關鍵參數設置如表2所示。

表2 模型主要參數設置

3.4 模型評價

模型準確率和損失值會隨著epoch次數調整發生改變,通過模型訓練,當epoch次數為50時,模型綜合效果最優,訓練集準確率達到99.86%,驗證集準確率達到74.17%,訓練集損失函數值0.117 2,驗證集損失函數值0.698 9,具體如圖2所示。

圖2 不同epoch次數對應的模型準確率和損失值變化

圖2中,左圖的橫坐標epoch表示模型訓練次數,縱坐標Accuracy表示準確率;右圖的橫坐標epoch表示模型訓練次數,縱坐標表示Loss損失函數值。

3.5 輿情情感分類

通過訓練集訓練得到最優的TextCNN模型后對待分類數據集進行情感分類,通過分類結果可以對網民的輿情情感進行判斷。

4 結語

突發公共衛生事件是近年來熱點比較高的新聞事件,非常容易引起社會公眾的關注和大面積的網絡輿情討論,對網民的情感評判和引導是政府和相關企業工作的重要內容。本文基于TextCNN模型對突發公共衛生事件網絡輿情進行情感分類,通過網絡爬蟲工具爬取微博平臺上的突發公共衛生事件網絡輿情數據,采用人工標注方式挑選出訓練集數據和驗證集數據,運用Python軟件代入TextCNN模型進行訓練測試后得到了較優的分類模型,該模型可以運用到突發公共衛生事件的具體實踐分類中。本文的實證成果對政府相關部門快速判斷公眾輿情走向、把握輿論引導的最佳時機、掌握輿論引導的分寸火候均有一定參考意義。

猜你喜歡
公共衛生分類文本
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
《首都公共衛生》征訂啟事
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
《首都公共衛生》征訂征稿簡則
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
公共衛生服務怎加強
中國衛生(2014年3期)2014-11-12 13:18:10
主站蜘蛛池模板: 丁香婷婷综合激情| 亚洲成人www| 久久这里只有精品2| 亚洲第一综合天堂另类专| 无码视频国产精品一区二区| 在线播放国产99re| 精品国产成人av免费| 人妻精品久久无码区| 91破解版在线亚洲| 在线观看精品国产入口| 最新日本中文字幕| 国产人妖视频一区在线观看| 亚洲欧美成人综合| 欧美精品色视频| 日韩小视频网站hq| 日本一区中文字幕最新在线| 精品欧美视频| 日韩欧美中文在线| 人妻丰满熟妇AV无码区| 亚洲中文无码av永久伊人| 亚洲 日韩 激情 无码 中出| 全裸无码专区| 波多野结衣视频网站| aa级毛片毛片免费观看久| 亚洲色欲色欲www在线观看| 久久精品这里只有国产中文精品| 亚洲欧美另类日本| 男人天堂伊人网| 在线人成精品免费视频| 国产成人av大片在线播放| 粗大猛烈进出高潮视频无码| 最新国产在线| 色综合手机在线| 97无码免费人妻超级碰碰碰| 国产女同自拍视频| 成年看免费观看视频拍拍| 玖玖精品在线| 日韩色图区| 素人激情视频福利| 秋霞国产在线| 亚洲精品国产成人7777| 国产乱肥老妇精品视频| 日本五区在线不卡精品| 五月婷婷精品| 91福利国产成人精品导航| 福利姬国产精品一区在线| 少妇极品熟妇人妻专区视频| 国产精品微拍| 国内精品视频在线| 国产精品熟女亚洲AV麻豆| 伊大人香蕉久久网欧美| 久久人体视频| 亚洲有码在线播放| 在线人成精品免费视频| 中文字幕无线码一区| 午夜爽爽视频| 好吊色妇女免费视频免费| 亚洲国产91人成在线| 亚洲视频在线青青| 久久精品国产亚洲AV忘忧草18| 日韩免费毛片| 日韩精品资源| 露脸真实国语乱在线观看| 国产精品视频系列专区| 亚洲日本中文字幕乱码中文| 日本少妇又色又爽又高潮| 精品视频91| 中文字幕乱妇无码AV在线| 欧美精品v| 久久福利网| 欧美福利在线| 中日无码在线观看| 一本久道热中字伊人| 国产主播一区二区三区| 2021国产在线视频| 五月天综合网亚洲综合天堂网| 国产福利一区视频| av一区二区无码在线| 日韩中文无码av超清| 久久久国产精品免费视频| 午夜精品影院| 国产九九精品视频|