一種基于深度學習模型的常識類謠言自動檢測方法

2021-05-28 12:37:36李郭鈺葉奕李金玲

現代計算機 2021年10期

李郭鈺，葉奕，李金玲

（南華大學計算機科學與技術學院，衡陽421000）

0 引言

隨著互聯網的出現和迅速發展，Web網絡為我們提供了信息傳播與共享，個人對新聞意見表達的平臺，在國家安全、經濟、現代信息服務等領域中的作用日益凸現。近幾年我國乃至國際通過網絡爆發的重大輿情事件激增，如三鹿奶粉事件、突尼斯的茉莉花事件等，都不同程度地掀起了網絡輿情浪潮，對事件發展、政府公信力、社會輿論安全以及國家安全造成了巨大的壓力[1]。借助互聯網這一當前規模最宏大、尺度最開放、參與門檻最低的公共輿論空間，不僅有尋求利益訴求的普通民眾，也有不懷好意散播謠言的不良分子。例如非典時期民眾對于板藍根、抗病毒口服液、醋等商品的搶購行為，就是因為聽信了這類犯了常識性錯誤的網絡謠言。隨著越來越多的“憑空捏造式”曝光事件不斷浮出水面，網絡中的常識性謠言已嚴重影響了民眾的正常生活。為了避免網絡輿論空間被人利用，人為制造偽謠言引發群體性事件，如何檢測和監控謠言成為目前凈化網絡環境迫切需要考慮的問題。

傳統的謠言檢測方法通常是從謠言的特征分析入手，然后利用機器學習算法根據建立的特征空間，把網絡輿情分為謠言和非謠言兩類。Castillo等人[2]從文本、用戶、話題、傳播等四個維度總結了15項關鍵特征，并采用J48算法實現了謠言的自動檢測。此后，學者們發掘了多種網絡謠言的特征[3-4]，如位置特征、時間序列特征、語言結構特征、網絡轉發度等多種特征，然后再利用SVM、決策樹、隨機森林等多種傳統機器學習算法進行謠言的自動識別[5]。上述基于特征的機器學習方法雖然在謠言檢測性能上取得了較好的成果，但是特征分析所耗費人力、物力和時間以及魯棒性不足等問題仍無法較好地解決。

隨著深度學習技術在圖像領域獲得的成功，不少學者開始在謠言檢測領域使用深度學習算法，旨在提升謠言檢測的自動化程度。Ma等人[6]首次將深度學習模型應用在社交媒體謠言檢測問題上，利用TF-IDF計算得到各個時間段的微博文本向量，并輸入雙層的門控循環單元GRU網絡學習事件的特征表示。廖祥文等人[7]考慮到微博問的時序特征，融合注意力機制和雙向GRU網絡模型，時間段序列的隱層表示，進而對微博事件進行分類。深度學習算法的不斷改進，謠言自動化監測性能也在逐步提升，但是在已有的研究中，謠言的內容特點并未被考慮。劉勘等人[8]首次提出了利用Multi-BiLSTM模型解決不同領域的謠言檢測問題，研究結果表明分領域進行謠言檢測性能較已有方法有較大提升。不過，該方法在應用過程中，必須對數據集進行細分，而現實生活中把數據集分為較多的子類別，既不現實也耗費時間。因此，本文把網絡上的謠言進行分類，重點針對常識類的謠言，根據其特征提出一種基于深度學習模型的常識類謠言自動檢測方法。

1 深度學習模型概述

1.1 LSTM模型結構

長短期記憶網絡（Long Short-Term Memory，LSTM）[14]是一種時間循環神經網絡，要是為了解決普通循環神經網絡（Recurrent Neural Network，RNN）模型中訓練長序列數據的梯度消失或梯度爆炸問題。從圖1所示的LSTM內部結構圖中可以看出LSTM與RNN的區別在于，LSTM模型中設立了三個門（gate）來決定上一層的input值是否重要到能被記住及能不能被輸出output。每個門（gate）都是由一個Sigmoid函數單元控制，其中輸入門（input gate）如果產生的值近似于零，則將把這里的值擋住，不會進到下一層；遺忘門（forget gate）產生值近似于零，將把區塊里記住的值忘掉；輸出門（output gate）可以決定在區塊記憶中的input是否能輸出。

圖1 LSTM模型結構圖

1.2 Attention機制

近年來，注意力（Attention）機制在自然語言處理領域許多問題的解決上得到了廣泛的應用。2017年，Google機器翻譯團隊發表的Attention is all you need中大量使用了自注意力（self-attention）機制來學習文本表示。自注意力機制也成為了近幾年深度學習的焦點之一，并在各種NLP任務上進行探索。Attention函數其本質可以被描述為一個查詢（query）到一系列（鍵key-值value）對的映射。在計算Attention時主要分為三步，首先是將query與每個key進行相似度計算得到權重，常用的相似度函數有點積、拼接、感知機等；接下來一般是使用一個Softmax函數對這些權重進行歸一化；最后將權重和相應的鍵值value進行加權求和得到最后的Attention。目前在NLP研究中，key和value常常都是同一個，即key=value。具體計算過程如圖2所示。

圖2 Attention機制計算原理圖

2 基于深度學習模型的常識類謠言檢測

2.1 常識類謠言檢測技術框架

本文主要是針對常識類謠言檢測方法的研究，目標是得到一個對常識類謠言識別準確率高，且各方面表現優異的模型。主要過程有數據獲取，語料預處理、模型訓練、數據可視化四個步驟。數據獲取主要通過網絡爬蟲爬取中國互聯網聯合辟謠平臺等多個網站上經過官方權威辟謠過的謠言信息，以及使用復旦大學文本分類數據集中的相關數據。對已有語料的預處理包括語料清洗、分詞、標注、去停用詞這四個步驟，處理后的數據集被分為謠言類，非謠言類。然后使用SVM、KNN、樸素貝葉斯這三種機器學習模型以及CNN、LSTM、MLP這三種深度學習模型進行訓練，并且在此基礎上衍生出了四種模型，進行對比實驗，最后利用Python中的plot將數據可視化處理。技術路線如圖3所示。

圖3 常識類謠言檢測技術路線圖

2.2 基于LSTM+Attention的常識類謠言檢測模型

由于LSTM的特征提取能力不夠理想，因此我們使用嵌入Attention機制的LSTM模型實現對常識類謠言的檢測，如圖4所示，具體步驟如下：

步驟一：首先使用Word2Vec模型，并加入Adam優化器，實現輸入文本的向量化。本文的語料庫p由n個句子組成，每個句子又由m個單詞組成，即，p={p1,p2,...,pn}，pi={si1,si2,...,sin},si={wi1,wi2,...,wim}。使用經過預訓練的向量集替換后的embedding矩陣形狀為365076×300，最后，設定embedding層的參數固定，不參加訓練，把預訓練的Word2Vec嵌入LSTM模型之中，接著利用LSTM_Layer進行詞語特征信息提取。

步驟二：由于LSTM的特征提取能力不夠理想，我們在此嵌入注意力機制，在文本信息向量化的前提下，提取文本的局部特征，然后將這些特征導入LSTM模型，通過注意力機制對LSTM模型的輸入與輸出之間的相關性進行重要度計算，根據重要度獲取文本整體特征。在此模型中，注意力層的效果可以看作是一個自動加權，它鏈接了兩個不同的模塊，這兩個模塊通過加權來鏈接。以獲得更好的特征提取效果。

步驟三：最后，融合局部特征和整體特征，通過分類器輸出分類結果。

圖4 基于LSTM+Attention的常識類謠言檢測模型圖

3 實驗

本文在各個模型對比實驗中用到的指標有四個，分別是準確率（Accuracy）、召回率（Recall）、精確率（Precision）、F1值。首先，語料被分為四類：

TP：樣本為正，預測結果為正，即樣本為謠言，實際被檢測為謠言；

FP：樣本為負，預測結果為正，即樣本為非謠言，實際被檢測為謠言；

TN：樣本為負，預測結果為負，即樣本為非謠言，實際被檢測為非謠言；

FN：樣本為正，預測結果為負，即樣本為謠言，實際被檢測為非謠言。

為了驗證本文所提出模型的有效性，把提出的LSTM+Attention模型與傳統的機器學習模型和主流的深度學習模型進行對比，實驗結果如表1所示。

表1 深度學習與機器學習模型對比分析

從表1我們可以看到LSTM_Word2Vec_Attention神經網絡模型的檢測準確率達到了92.2%，并且召回率也達到了93.5%，說明該模型在處理常識類謠言檢測問題上有著非常優異的表現。加入Attention機制以及Adam優化器使得LSTM模型進行了再一次的提升，這是由于Attention層更好地獲取語料中的特征，實現了對貢獻度不同的詞語進行提取，并且抓住樣本中本身存在的關系，同樣也體現出了Adam優化器的一些優點：①參數的更新沒有受梯度的伸縮變換的影響；②超參數的解釋性較好，一般情況下無需調整；③很適合應用于大規模的數據及參數的場景。

同時從表1中我們也能直觀地發現，實驗中所用到的深度學習模型對于常識類謠言檢測的表現，普遍優于機器學習模型。雖然深度學習模型對于數據的依賴性較大，執行時間普遍長于機器學習模型，但是大多數機器學習算法的性能依賴于所提取的特征的準確度，然而深度學習會嘗試從大量數據中直接獲取高等級的特征，這也是深度學習模型在處理常識類謠言識別這類問題上普遍強于傳統機器學習模型的一個重要因素。通過實驗數據的對比，我們也可以發現無論是對于機器學習模型還是深度學習模型，引入預訓練的Word2Vec模型會給訓練和測試結果帶來明顯的提升，所以文本向量化在處理這類問題上起著至關重要的作用。

4 結語

本文以準確、高效地識別常識類網絡謠言為目的，利用網絡爬蟲獲取了大量謠言信息，對語料進行了預處理之后，在LSTM_Word2Vec模型基礎上進行優化，并嵌入注意力機制，提出了一種LSTM_Word2Vec_At-tention神經網絡模型用于常識類的謠言檢測。

通過實驗數據的對比，本文得到了以下結論：首先相較于傳統機器學習模型，深度學習模型在常識類謠言檢測的任務中有著很好的表現；其次，加入預訓練的Word2Vec模型給模型準確率帶來了3-7.6%的提升，這說明文本向量化在處理這類問題上起著至關重要的作用；最后，在LSTM模型基礎上進行優化，并嵌入注意力機制和Word2Vec詞向量得到的LSTM_Word2Vec_Attention神經網絡模型達到了92.2%的準確率，這證明該模型對于常識類謠言任務有著比傳統深度學習模型更好的表現。