宋英華,呂 龍,劉 丹
(1. 武漢理工大學中國應急管理研究中心,武漢 430070;2. 武漢理工大學安全科學與應急管理學院,武漢 430070)
據中國互聯網絡信息中心(China Internet Net‐work Information Center,CNNIC)統計,截至2019年6 月,中國網民人數突破8.5 億人,其中超過6.8億人是網絡新聞用戶,占網民總數的80.3%[1]。由于網絡新聞用戶的數量龐大,一旦發生突發事件并在網絡中傳播,輿情擴散速度極快。如果傳播中的突發事件屬于負面新聞,就會造成巨大的網絡輿論,甚至會導致大規模群體性事件的發生,這既不利于社會秩序的穩定,又挑戰政府執政能力,破壞政府和國家在社會治理中的公信力。關于熱點新聞事件的網絡輿情管控,十九大報告中多次強調互聯網的監督管理工作,要求有關單位加強網絡內容治理,建立完善的網絡治理體系[2]。同時,2018 年中央網信辦聯合公安部發布《具有輿論屬性或社會動員能力的互聯網信息服務安全評估規定》,要求“及時處理熱點問題,防止網絡輿情失控”[3]。網絡輿情治理需要提前識別突發事件,而突發事件主要是以新聞文本為載體在互聯網中傳播,因此,新聞文本分類在網絡輿情前期的監督管理工作中的尤為重要。高效精確的突發事件新聞識別與自動分類可使有關部門及時搜集信息并跟蹤突發事件發展趨勢,當某類突發事件新聞報道的頻率劇增,應當引起重視,盡早提醒政府和相關部門及時關注并處理熱點事件,這不僅為政府采取措施爭取寶貴時間,有效地避免事件進一步惡化、導致群體性事件發生,而且能夠維護黨和政府治理社會的公信力。
高效精確的突發事件新聞識別與文本自動分類的核心在于文本信息表示和算法模型。國內外研究學者對此開展了大量的研究,總體分為兩個階段:傳統機器學習階段和深度學習階段。在傳統機器學習中,學者主要研究文本特征提取技術,例如,李文斌等[4]在統計計算各詞語的信息增益(informa‐tion gain,IG)時,考慮文本各文檔對于詞語熵值的貢獻度不同,在計算公式中引入文檔貢獻系數;劉海峰等[5]在計算互信息(mutual information,MI)時發現模型對低頻詞過度敏感,于是提出互信息與TF-IDF (term frequency-inverse document frequency)結合選取文本特征;Piskorski 等[6]用NEWUS 系統抽取網絡新聞中暴力和災難事件的信息特征,首先提取網絡新聞主題特征,然后按照新聞主題聚類,最后利用淺層語義分析和抽取語法對聚類中的每篇文檔進行事件匹配,以此挖掘新聞文本之間的差異;張永奎等[7]基于關鍵詞庫采用ID3 算法實現突發事件文本分類應用;毛文娟[8]采用TF-IDF值表示文本特征信息,基于K-means 聚類算法進行訓練樣本分類,以相似度和閾值監測新話題文本;王強[9]采用TDIDF 作為特征向量值,基于KNN(K-nearest neigh‐bor)算法對新樣本進行文本分類。傳統機器學習方法提取文本特征的能力有限,難以表達詞與詞之間的相互關系和詞序信息,導致準確率存在瓶頸。
近年來,深度學習方法逐漸成為研究趨勢和熱點,有學者提出使用深度學習技術提取文本特征信息,例如,Collobert 等[10]基于傳統機器學習技術在提取文本特征時容易出現數據維度爆炸和高稀疏性的問題,首次提出詞向量概念;Mikolv 等[11]首次提出詞嵌入方法word2vec 模型,該模型為詞向量轉換提供了技術支撐。同時,有學者提出使用神經網絡作為分類模型,例如,Kim[12]利用word2vec 模型生成詞向量,采用卷積神經網絡(convolutional neural networks,CNN)進行特征信息學習;金占勇[13]在詞向量基礎上,使用長短時記憶網絡(long shortterm memory,LSTM)實現突發災害事件網絡輿情情感分析;王東波等[14]在研究先秦典籍過程中,首先構建分類體系,然后使用TF-IDF 表達文本特征,并輸入至Bi-LSTM (bi-directional LSTM) 模型中,實驗結果表明,深度學習方法效果明顯優于機器學習方法。相對于傳統機器學習方法,深度學習方法的精度有所提高,但其神經網絡模型種類繁多,每種網絡模型學習信息的側重點存在差異,如CNN模型因其獨特的局部連接結構更傾向于提取局部空間特征信息,而RNN(recurrent neural network)模型因其序列結構(某一時刻的輸出作為下一時刻的部分輸入)更傾向于提取時間序列特征信息。由于單一的深度學習模型提取信息能力存在一定缺陷,有學者開始研究組合深度學習模型提取特征信息,例如,劉月等[15]在組合深度學習模型的基礎上,引入注意力機制研究新聞文本分類;Lai 等[16]將文本特征進行詞向量處理,輸入至RNN 和CNN 組成的RCNN(region CNN)神經網絡,并運用至文本分類中,分類性能明顯提高;趙容梅等[17]將卷積層與循環層重復串聯兩次組成混合神經注意力網絡(CNN-LSTM based on attention,CLA),第一次串聯實現詞編碼,第二次串聯實現句子編碼,最后基于注意力機制在Softmax 層實現中文隱式情感分析任務;梁志劍等[18]在研究文本分類中,首先使文本詞向量化,然后使用BiGRU 神經網絡提取文本特征信息,采用TF-IDF 算法對每種特征賦予權值,最后使用貝葉斯分類器實現分類任務;金寧等[19]首先使用詞向量方法表示文本特征,然后計算每個詞的TF-IDF 權值,權值矩陣與詞向量矩陣相乘,得到文本加權詞向量,然后輸入至BiGRU 層提取特征信息,最后經過卷積層實現農業問題分類;趙洪[20]在研究自動式文摘技術時,分別討論了CNN、RNN和組合模型方法的原理和優缺點。然而,上述組合深度學習的研究均采用單一的詞向量表達文本信息,只考慮了詞語間相互關系信息,而忽略了詞語與類別間相互關系。
鑒于此,考慮突發事件新聞與普通事件新聞關鍵詞特征不同,以及各類突發事件關鍵詞區分明顯的特點,為使模型能更全面學習文本特征信息、提升其性能,本文設計了兩級分類模型監控網絡新聞事件:第一級突發事件新聞識別模型識別網絡中的突發事件;第二級分類模型在上一級模型的基礎上實現突發事件新聞分類。遵循組合深度學習新聞文本分類的研究思路,特選取CNN、LSTM 和MLP(multilayer perceptron)模型,提出雙輸入組合深度學習的新聞文本分類的DCLSTM-MLP 模型,采用基于詞向量的方式與基于詞語離散度的方式并行表達,基于詞向量表征詞語間關系作為CNN 模塊的輸入,基于離散度向量表征詞語與類別間關系作為MLP 模塊的輸入,從而實現對新聞文本的局部空間特征信息、時間序列特征信息和詞語與類別間關系的綜合學習。
當互聯網上出現新聞事件時,基于組合深度學習的新聞文本分類流程步驟如下:
Step1.將新聞文本輸入卷積神經網絡中,預測該新聞文本是否屬于突發事件新聞,若不是則不需要監控,否則進入Step2。
Step2.突發事件新聞文本預處理和特征表達:分詞和過濾停用詞,使用word2vec 模型得到文本詞向量,并計算文本離散度向量。基于離散度的向量輸入反映了詞語與類別之間的關聯信息,值越大對分類的貢獻度越大;基于詞向量的輸入反映了詞與詞之間的語義關系。使用兩種特征表達方式可使模型盡可能學會文本深層次的特征。
Step3.將詞向量輸入至MCNN(multiple CNN)模塊,經過兩次卷積和池化操作得到文本空間特征信息,再將空間特征輸入至LSTM 模塊學習時間特征信息;將離散度向量輸入至MLP 模塊,隱藏層神經元則學習詞語與類別之間的相互關系,MLP 模塊和LSTM 模塊的輸出值拼接融合,輸入至Softmax 層進行特征縮放,并輸出突發事件新聞預測類別。
基于組合深度學習的新聞文本分類的具體流程如圖1 所示。

圖1 基于組合深度學習的新聞文本分類流程圖
與普通事件新聞文本相比,突發事件新聞文本中含有相對較少、但與突發事件新聞主題關聯性較強的關鍵詞特征,如新聞文本中出現“地震”,則該文本很有可能是地震類突發事件新聞。因此,本文利用相關性較強的關鍵特征詞表示新聞文本信息,并用來區分普通事件新聞與突發事件新聞。深度學習中,詞向量法采用空間距離代表詞義近似程度,以及one-hot 法采用0 和1 表示特征詞是否出現,忽略了詞語在文中的占比權重和詞語與類別間的關聯信息,因此,本文提出基于離散度的特征表示方法,具體步驟如下:
Step1.統計某個類別出現特定詞語的文本數量,組成該詞語的類別頻數向量。設vIm表示第m個類別中出現詞語I的文本數量,詞語I在含有n個類別的樣本集中頻數向量VI為

Step2.考慮文本集中各類別文本數量不同產生類別頻數向量的偏差,計算每個類別文本特定詞語的出現概率。設qi表示為第i類文本總數,類別概率向量PI為

Step3.計算PI的方差作為詞語I的離散度,方差越大,離散度越大,表明分類過程中包含的特征信息也越明顯。設是詞語I的概率均值,是詞語I的概率方差,離散度計算公式為
主體要素是以國家司法機關、行政機關為主的全社會力量。要求發動組織和全社會的人關心和參與治理犯罪。[5]科技是總體國家安全觀重點涉及的領域,高新技術犯罪將會給國家安全造成巨大隱患。只有動員全社會的力量才能切實有力的預防此類犯罪,使危害國家安全者無處藏身,危害國家安全的行為無法得逞。[6]踐行總體國家安全觀有利于凝聚預防人工智能犯罪的磅礴力量,構筑起多元主體參與的犯罪預防體系。眾人拾柴火焰高,相關主體應積極行動起來,為構筑起多元主體參與的犯罪預防體系添磚加瓦。


Step4.以各詞語的離散度組成文本離散度向量,長度為詞語總數,詞語出現,則對應的詞序列處為該詞的方差值,否則為0。設z為樣本集中詞匯總量,文本離散度向量D表示為

DCLSTM-MLP 模型結構如圖2 所示,該模型主要由三個部分組成:多層感知網絡(MLP)、多層卷積神經網絡(MCNN) 和單向長短時記憶網絡(LSTM)。其中,MLP 是以基于離散度的詞語與類別間特征向量為輸入,隱藏層神經元學習詞語與類別之間的相互關系,輸出詞語與類別間的特征信息向量;MCNN 是以含有詞語間特征信息的詞向量為輸入,該部分有5 種型號卷積核,經過不同型號卷積核的卷積-池化-再卷積操作,反復提取詞向量中的局部特征,輸出多種型號卷積核的文本空間特征信息向量;一種型號的卷積核提取的特征向量為一個時間片段,多種型號的卷積核提取的特征信息組成多個時間片段,輸入至LSTM 部分,使其學習多個時間片段的時間序列特征信息,最后輸出綜合空間特征向量。MLP 與LSTM 輸出的特征向量拼接融合成新的特征信息向量,然后輸入至全連接層再學習,將再學習后提取的特征信息輸入至Softmax 層進行特征縮放,最終得到文本類別。

圖2 DCLSTM-MLP模型結構
2.2.1 基于MCNN模型的詞向量特征提取
卷積神經網絡用于提取局部特征,由卷積層和池化層組成,包含若干個共享的濾波器,大小由每次過濾的詞數量(m) 和詞向量維度(a) 決定。設每次過濾的詞數為m,Z(x,y)表示第x個詞語第y個維度的值,用W(c,d)表示濾波器中第c行第d列的值。用f(i,1)表示卷積后第i行的特征值,則有

將濾波器得到的特征值經過最大池化操作,得到該濾波器的最大特征值C,

設有k種型號的濾波器,每種濾波器有h個,則經過卷積、池化和融合后可得到大小為(k,h)的feature map_1,用X(xx,yy)表示該feature map_1 中的值,代表第xx種型號、第yy個濾波器的最大特征值。
再次經過z個(z為類別數)大小為(1,h)的濾波器卷積操作,用Hl(1,zz)表示第l個濾波器第zz列的值,對feature map_1 進行卷積,提取每個卷積核與文本類別之間的關系,得到大小為(k,z)的feature map_2,用U(s,n)表示feature map_2 中的值,代表第s種型號、第n個濾波器的提取的特征信息與類之間的關系。設Φ是激活函數,bn是偏置量,則有

2.2.2 基于LSTM模型的時間序列特征提取
LSTM 單元結構中輸入門(input gate)、輸出門(output gate) 和遺忘門(forget gate)。LSTM 模型提取MCNN 輸出的feature map_2 中,各卷積核與類別間相互關系信息的序列信息。U(s:)表示feature map_2 第s行的向量,則有
遺忘門:

輸入門:

輸出門:

其中,Wf、Wi和Wc、Wo分別是遺忘門、輸入門和輸出門的神經網絡權重參數;bf、bi和bc、bo分別表示遺忘門、輸入門和輸出門的神經網絡偏置量;C?t和ht表示神經單元在t時刻的狀態值。
《國家突發公共事件總體應急預案》將突發事件分為4 類:公共衛生事件、社會安全事件、事故災難事件和自然災害事件。本文通過爬蟲技術,在百度新聞上以關鍵詞的形式,搜索10 類自然災害事件:暴風災害、暴雨災害、暴雪災害、地震災害、海嘯災害、洪澇災害、泥石流災害、森林火災災害、沙塵暴災害和山體滑坡災害,5477 條突發事件新聞文本;以及開源的常規新聞事件文本集(如經濟類、藝術類、政治類等新聞文本)有2815 條;合并后共計8292 條新聞文本。
總樣本集包含5477 條突發事件新聞文本和2815條普通新聞文本,隨機選取6699 篇新聞文本作為訓練集、1593 篇作為測試集,并將訓練集輸入至CNN 模型中。CNN 模型主要參數有文本長度、詞向量維度、卷積核個數和全連接層神經元數,每次改變單一模型參數,重復模擬3 次,得到模型的準確率、召回率和綜合值的平均值,去平均值最大時的參數為最佳參數,最佳參數和最優結果如表1 所示。
由表1 可知,CNN 模型準確率、召回率和綜合值均達到99.55%,可有效地識別普通事件新聞和突發事件新聞,為下一步突發事件新聞文本分類打下基礎。
3.3.1 離散度向量優越性檢驗
為檢驗提出的檢驗離散度向量表達方法的特征信息提取能力,以突發事件新聞文本為樣本集,與空間向量表達法(vector space model,VSM)、卡方檢驗法與TF-IDF方法對比實驗,具體結果如圖3所示。

表1 CNN模型最佳參數和最優結果
由圖3 可知,本文提出的離散度向量表達方法相對于VSM、卡方檢驗和TF-IDF 方法具有較好的信息表達能力,并且提取的特征信息更豐富。

圖3 各特征表達方式性能對比
3.3.2 模型參數調整
基于深度學習的新聞文本分類模型參數決定模型性能,為對比分析本文提出的DCLSTM-MLP 組合模型與MLP、Text-CNN、Text-LSTM、CLSTM 和CNN-MLP 模型,在獲取的突發事件新聞文本的同一訓練集基礎上,通過重復模擬3 次,每次改變單一模型參數,得到精確度、召回率和綜合值的平均值,取綜合值最大時的參數為最佳參數,如表2~表7所示,并以此設定各模型的最佳狀態。

表2 MLP模型參數及最佳值

表3 Text-CNN模型參數及最佳值

表4 Text-LSTM模型參數及最佳值
3.3.3 模型對比分析
在設定各模型最佳狀態的基礎上,以突發事件新聞文本同一測試集為對象,得到各模型的準確率、召回率和綜合值,結果如圖4 所示。
由圖4 可得到如下結論:
(1)總體而言,文本分類模型結構越復雜,表明其神經元個數越多,網絡層次越多,學習能力越強,模型的綜合性能也越強。從準確率角度分析,模型優劣比較為MLP<Text-LSTM<Text-CNN<CLSTM<CNN-MLP<DCLSTM-MLP;從召回率角度分析,MLP<Text-CNN<Text-LSTM<CLSTM<CNN-MLP<DCLSTMMLP;從綜合值角度分析,MLP<Text-CNN<Text-LSTM<CLSTM<CNN-MLP<DCLSTM-MLP。
(2)MLP 模型相對其他神經網絡結構最簡單,模型學習特征的能力有限;CLSTM 模型結構比CNN-MLP 復雜,但前者采用以詞向量為輸入值的單輸入方式,后者采用以詞向量和離散度向量為輸入值的雙輸入方式,后者輸入的信息更充足,模型學習的內容更全面,因此后者的準確率稍高;DCLSTM-MLP 模型結構最復雜,該模型不僅可以學習文本的序列信息與空間信息,也可以學習特征詞語與類別間相互關系信息,該模型準確率明顯高于其他模型;綜合值是綜合衡量準確率和召回率的參數,既能客觀反映準確率的趨勢,又能反映召回率的趨勢,所以模型越復雜,綜合值越高。

表5 CNN-MLP模型參數及最佳值

表6 CLSTM模型參數及最佳值

表7 DCLSTM-MLP模型參數及其最佳值
(3) DCLSTM-MLP 模型準確率達到94.82%,明顯高于其他模型(88.76%、92.46%、92.35%、93.68%和93.0%),其召回率(94.97%) 與綜合值(94.83%) 也明顯優于其他模型。總體而言,DCLSTM-MLP 模型綜合值(94.83%) 比其他模型分別高(6.06%、2.36%、2.47%、1.14%和1.79%),這表明該組合模型能提高分類性能。

圖4 模型性能對比
針對突發事件新聞與普通事件新聞的關鍵詞特征不同,以及各類突發事件關鍵詞區分明顯的特點,本文有如下三點創新。①設計了兩級分類模型,第一級模型識別突發事件新聞,第二級模型實現突發事件新聞分類。②不同于現有研究采用詞向量方式表達文本特征信息,本文考慮各詞語對分類影響貢獻度提出了離散度向量,通過計算各詞語的概率方差得到各詞對分類的貢獻度。③模型采用詞向量與離散度向量共同表達文本特征的雙輸入模式,以離散度向量表征詞語與類別間的相互關系,以詞向量表征詞語間的語義信息。通過實驗對比分析,本文提出的兩級分類模型中,第一級模型突發事件識別率達到99.5%,第二級模型準確率達到94.82%,表明該模型具有較好的突發事件新聞識別和分類能力。
本文不足之處在于文本預處理中使用了公開停用詞表,沒有構建與突發事件對應的專用停用詞表,導致部分特征信息被過濾掉,后期可建立突發事件新聞專用停用詞表。同時,樣本集數量較少,且各類新聞數量分布不均勻,導致模型效能有限,后期需采用更多的樣本集進行實驗。