基于TextCNN的突發公共衛生事件網絡輿情分類研究

2023-10-26 00:50:56袁瓊芳張志強

無線互聯科技 2023年15期

袁瓊芳,張志強

(貴州師范學院數學與大數據學院,貴州貴陽 550018)

0 引言

突發公共衛生事件是近年來熱點比較高的新聞事件,非常容易引起社會公眾的關注和大面積的網絡輿情討論,這類輿情次生輿情爆發風險高,需要政府和相關部門具備全面的應急管理和輿情識別的技能。傳統輿情情感分類技術在面對海量文本數據識別中存在速度慢、準確率低、成本高等問題,深度學習是近年來輿情情感分類的熱點技術,可以快速準確低成本地對海量輿情進行情感分類。TextCNN是Kim[1]在2014年提出的文本分類模型,該模型將深度學習CNN推廣應用到文本分類領域?；谏鲜霰尘?本文采用TextCNN模型對突發公共衛生事件網絡輿情分類工作展開相關研究。

1 相關文獻概述

深度學習在網絡輿情情感識別方面的研究和應用是國內學者近年來研究的熱點。鄧磊等[2]搭建了基于深度學習的網絡輿情監測系統框架;李芳等[3]設計了深度語義框架,構造自媒體網絡輿情情緒分類模型,并在開放數據集中進行了實證研究;邵輝[4]提出了BERT-TextCNN 網絡模型,并將該模型用于外賣中文評論數據集上進行情感分析;董晨[5]提出了基于深度學習算法的改進TextCNN分類模型且對新聞短文本數據進行了準確情感分類;彭清泉等[6]提出了基于ChineseBERT-BiSRU-AT的醫療文本分類模型,并對醫學影像報告文本數據集進行了實驗。

2 研究設計

2.1 研究思路

突發公共衛生事件發生后,新浪微博等互聯網平臺上充斥著社會公眾對突發公共衛生事件的各種輿情信息,如何對海量輿情數據進行快速識別和有效引導是政府和相關企業工作的重要內容。本文的研究思路如圖1所示。

圖1 研究思路

(1)突發公共衛生事件在新浪微博平臺上相關網絡輿情的數據采集和數據預處理。

(2)TextCNN卷積神經網絡文本分類模型對訓練集數據進行訓練和對驗證集數據進行驗證。

(3)運用調試好的TextCNN模型對待分類海量數據集進行輿情情感分類。

2.2 研究步驟

2.2.1 數據采集

新浪微博是社會公眾關注了解突發公共衛生事件新聞和發展趨勢的主要平臺,由此新浪微博上聚集了大量網民關于突發公共衛生事件的輿情討論,也由此產生了大量的網絡輿情數據。本文研究過程中通過相關爬蟲工具從新浪微博平臺爬取網民評論的輿情數據,將數據進行整理后形成待分類輿情數據集。

2.2.2 數據預處理

研究中采集得到的數據較多,很多是重復無效的評論,首先進行文本清洗,可通過Excel和Python對原始數據進行重復值刪除、缺失值刪除、數據合并與整合等文本清洗操作;文本清洗之后通過Python的jieba對評論文本數據進行中文分詞、去停用詞、統計詞頻操作;最后將中文分詞后的每個詞映射到一個數值索引,再通過字典將文本分詞后的序列轉為數值索引的序列。本文實驗過程中轉換時統一序列長度為20,以便輸入模型,不滿20長度的填充0,0對應補全字符,此時數據預處理階段的數值序列輸入構造完成。

2.2.3 TextCNN模型

TextCNN模型針對輿情文本分類和情感識別工作都能夠得到比較準確的結果,該模型經過以下4個步驟完成。

(1)輸入層。

輸入層的關鍵問題在于文本表示。本文研究中將數據預處理階段處理后的數值序列導入模型,通過Embedding層,初始化權重使用Baidu Encyclopedia 百度百科中文詞向量(300維)[7],將每個詞表示成一個向量,此時數值序列轉化為20×300的矩陣向量。

(2)卷積層。

卷積層中涉及多個超參數的設置,需要在具體實驗任務中嘗試才能得到最優的卷積效果,本文研究中對卷積層的參數調試后設置如下:卷積核數量(卷積中濾波器數量)設置為256,卷積核大小設置為3,激活函數設置為relu,初始化權值he_normal,strides設置為1。卷積操作之后將輸入層向量轉變成18×256的卷積特征矩陣。

(3)池化層。

池化層(Pooling)的主要作用是通過一定處理來減少模型參數個數,且在該過程中可以有效地防止模型出現過擬合現象。Pooling的方法很多,本文研究中選擇的是全局最大池化 GlobalMaxPool1D,通過GlobalMaxPool1D操作將卷積層18×256的特征轉化為一維的特征。

(4)全連接及輸出層。

池化層操作之后進入全連接層,通過 Dropout 操作預防模型過擬合,最后通過 Softmax 計算每個情感類別的概率。

2.2.4 模型訓練與驗證

TextCNN模型基本框架設計出來之后,需要對模型中的參數進行不斷調試,以確定最佳模型參數。對此,研究中從原始待分類數據集提取一部分數據(分為訓練集和驗證集)進行訓練和驗證。

為評估TextCNN模型文本情感分類算法的性能,本文選取準確率和損失函數兩個指標對模型進行評價。

準確率(Accuracy)是指文本分類器判別的所有情緒類別中正確的情緒類別的占比,計算公式為:

其中,ncorrect表示突發公共衛生事件輿情評論被文本分類器正確分類的數量;ntotal表示突發公共衛生事件輿情評論的總數量。

損失函數(Lossfunction)一般指單個訓練樣本預測值與真實值之間的誤差,在模型不存在過擬合的情況下,損失函數Loss值應該越小越好。損失函數有很多選擇,對于解決多分類工作的情況,可以選擇交叉熵損失函數來評價模型的誤差情況。交叉熵的公式為:

其中,p(xi)表示樣本的真實分布,q(xi)表示預測分布,n是總樣本個數。

2.2.5 對待分類數據進行情感分類

為及時掌握網民對突發公共衛生事件的看法和情感走向,需要對爬取的輿情數據進行快速有效的情感識別和分類?；谏鲜鰳嫿ǖ腡extCNN模型,對待分類的數據集進行情感區分,本文將網民的情感區分為正面、中立、負面3種不同狀態。

3 實驗分析

3.1 實驗環境

本研究數據運行需要的實驗環境配置如表1所示。

表1 實驗環境配置

3.2 數據來源

本文通過大數據爬蟲軟件從新聞微博上爬取2020年和2021年的突發公共衛生事件相關新聞的輿情評論數據,通過數據預處理后共得到27 260條數據。

3.3 模型訓練

TextCNN模型的最佳狀態不是唯一的,需要通過訓練集數據進行多次實驗測試才能確定模型的最佳參數,還需要通過驗證集數據對模型的預測準確性進行評價。從原始評論數據中選取1 200條輿情評論數據進行情感人工標注,為了使人工標注結果更具代表性,共標注出1 200條情感評論(400條正面評論、400條中立評論、400條負面評論),將1 200條人工標注情感的數據再次分為訓練集數據(720條)和驗證集數據(480條),將訓練集數據代入TextCNN模型進行訓練后,代入驗證集數據進行驗證,epoch次數會影響模型準確率,對dropout參數也做了多次調試,通過實驗對比,確認最佳關鍵參數設置如表2所示。

表2 模型主要參數設置

3.4 模型評價

模型準確率和損失值會隨著epoch次數調整發生改變,通過模型訓練,當epoch次數為50時,模型綜合效果最優,訓練集準確率達到99.86%,驗證集準確率達到74.17%,訓練集損失函數值0.117 2,驗證集損失函數值0.698 9,具體如圖2所示。

圖2 不同epoch次數對應的模型準確率和損失值變化

圖2中,左圖的橫坐標epoch表示模型訓練次數,縱坐標Accuracy表示準確率;右圖的橫坐標epoch表示模型訓練次數,縱坐標表示Loss損失函數值。

3.5 輿情情感分類

通過訓練集訓練得到最優的TextCNN模型后對待分類數據集進行情感分類,通過分類結果可以對網民的輿情情感進行判斷。

4 結語

突發公共衛生事件是近年來熱點比較高的新聞事件,非常容易引起社會公眾的關注和大面積的網絡輿情討論,對網民的情感評判和引導是政府和相關企業工作的重要內容。本文基于TextCNN模型對突發公共衛生事件網絡輿情進行情感分類,通過網絡爬蟲工具爬取微博平臺上的突發公共衛生事件網絡輿情數據,采用人工標注方式挑選出訓練集數據和驗證集數據,運用Python軟件代入TextCNN模型進行訓練測試后得到了較優的分類模型,該模型可以運用到突發公共衛生事件的具體實踐分類中。本文的實證成果對政府相關部門快速判斷公眾輿情走向、把握輿論引導的最佳時機、掌握輿論引導的分寸火候均有一定參考意義。