米 源,唐恒亮,2
1.北京物資學院 信息學院,北京101149
2.北京工業大學 多媒體與智能軟件技術北京市重點實驗室,北京100124
互聯網時代,社交媒體成為最大的信息傳播渠道。有研究發現,與傳統大眾媒體不同,社交媒體傳播信息速度快、范圍廣,正成為網絡謠言的主要傳播渠道。網絡謠言是以互聯網媒體平臺或網頁為主要載體,公開或半公開的傳播未經證實或缺乏事實依據的信息,混淆視聽形成替代性新聞。造謠者借助事件本身的重要性以及網絡信息的模糊性,利用富有煽動性的語氣蠱惑網民對謠言進行轉發,擴大傳播面積,將事件推向輿論中心。例如“是中國人就轉”“信不信由你”等都是常見擴散網絡謠言的煽動性語句。倘若未證實的消息上升為公眾話題,很可能混亂社會治安,形成謠言風暴,造成一系列難以預見的連鎖反應。
自武漢衛健委通報不明原因肺炎事件開始,新冠肺炎病毒已引起國內外公眾的關注,隨之而來的是,網絡上出現各類不實的信息。從初期的“吸煙可以預防非典,因為煙油可以阻擋病毒進入肺細胞”“吃維生素C泡騰片能預防新型冠狀病毒”等傳播虛假健康消息、影響疫情防控工作的謠言,到最近的“特朗普新冠病毒測試結果呈陽性”等可能造成社會恐慌的謠言,可以看出,借助網絡傳播渠道,網絡中的謠言對社會生活已造成極壞的影響。
目前網絡謠言信息繁雜,國內外網絡謠言治理主要是依靠政府網絡管理部門監管及一些公司建立的網絡辟謠平臺。鑒于手工監測網絡謠言存在周期性和滯后性,因此對網絡謠言實現自動鑒別,具有較為緊迫的現實意義。
鑒于網絡信息龐大,同時社交類本文其字數少、特征分散的特點,有些網絡謠言信息很難被技術識別。例如在關鍵詞中插入字符、中英文交替、使用拼音疊字諧音字等,甚至采用隱喻、反語等手法,均可在一定程度上避開句式特征的截取。
研究發現網絡謠言存在規律性,常見的謠言樣式可見表1。總結分析這些規律對實現網絡謠言實時監測和主動預警有重要意義。

表1 常見謠言樣式
此外,與真實信息在字面上差別很小的謠言或不包含詞庫關鍵詞的謠言很難被鑒別。為實現謠言文本特征的精準鑒別,大量的學者主要建立敏感詞庫和采用機器學習、深度學習、強化學習等技術的網絡謠言鑒別方法。
眾多學者從識別謠言的要素入手,構造相關特征實現對網絡謠言的自動鑒別。很多研究一般是從敏感事件和熱點話題的敏感詞庫和熱點詞庫入手,類似于關鍵字提取,采用計算特征詞權重的方法,取得了較好的效果。
構建敏感詞庫主要在于識別敏感詞匯信息、提取及擴展敏感詞匯[1]。學者們大多通過人工標記或者基于傳統權重計算方法[2]去衡量與選擇敏感信息,構建的詞庫多為專業詞匯。隨后,基于詞庫去迭代地識別敏感信息。僅僅構建基礎詞庫對網絡謠言的鑒別是不夠的,需要對其進行不斷擴充從而得到較為完備的詞庫。詞庫擴展,同樣類似于關鍵字擴展,可通過聚類等相關算法計算詞義相似性或語義相似性進行敏感詞匯的擴充[3]。劉耕等[4]采用基于廣義的jaccard 系數方法來計算詞匯間相似性,擴充得到敏感詞的相關聯詞匯。Chen等[5]提取詞典中近似敏感詞庫語義信息的詞作為擴展。Yu等[6]主要是通過調用嵌入在Web瀏覽器中的分析器來獲取DOM 結構以及視覺相關信息的VIPS(VIsion-based Page Segmentation)算法進行查詢擴展。Pnote等[7]將詞頻和文檔頻率按綜合頻率對詞信息進行排序,提出將統計語言模型和信息檢索相結合的擴展方法。Pedersen等[8]通過聚類算法實現到語義擴展。Turney等[9]通過計算傾向性基準詞與目標詞匯間相似度的方法識別詞匯語義傾向性。Neviarouskaya等[10]通過同義詞和反義詞的關系、上下文語義關系、推導關系以及與已知的詞匯單位復合來進行詞庫的擴展。Peng 等[11]利用線性鏈條件隨機場(CRFs)來進行基于字、詞、多詞等形式的領域集成的中文分詞,并通過基于概率的新詞檢測方法進行新詞識別。彭云等[12]從詞義理解、句法分析等角度獲得詞語間語義關系,并將其嵌入到主題模型,提出基于語義關系約束的主題模型SRC-LDA,從而實現主題詞的提取。Castillo 等[13]歸納文本特征、用戶特征、傳播特征和話題特征4個方面的要素以鑒別謠言,并在此基礎上總結出15項關鍵特征并利用決策樹算法實現對謠言的檢測。Ma 等[14]考慮謠言演變的時間特征,使用動態時間序列模型對謠言進行鑒別。祖坤琳等[15]基于微博的評論消息,將微博評論的情感傾向性加入模型,實現謠言的有效鑒別。李吉等[16]構建基于PAD 模型的網絡口碑情感強度測度模型,實時監控網絡口碑輿情。王晰巍等[17]構建基于移動環境下網絡輿情用戶評論情感分析模型,加強移動環境下網絡輿情信息監管。
以上所提到的方法雖然已取得一定效果,但是大多基于手工提取特征,只實現謠言特征的淺層提取,因而無法進一步提升準確率。鑒于深度學習技術可對文本特征進行深層提取,于是基于深度學習的網絡謠言鑒別方法成為主流。
Ma等[18]使用RNN及其衍生模型對Tweet謠言事件進行深層特征提取,實現網絡謠言的有效鑒別。Chen等[19]在此基礎上,引入注意力機制,同樣取得較好效果。Zhang等[20]提出借助多層自編碼器實現對謠言的無監督學習鑒別方式。Chen等[21]引入層次網絡,采用多層RNN模型,進一步提升模型的效果。劉勘等[22]提出一種深度遷移網絡,以Multi-BiLSTM 網絡為基礎,加入MMD 統計量計算的領域分布差異,訓練過程中同時學習源領域的標簽損失與領域間的分布差異,完成標簽信息在領域間的有效遷移。
傳統機器學習模型與深度學習模型都通過提取文本信息來實現網絡謠言鑒別[23],但都存在一個問題:模型需要借助海量的標注數據來訓練得到相關參數。但目前網絡謠言的標注大都需要用時較長的官方辟謠來實現人工標注數據,于是本文針對這一問題,提出采用半監督學習的圖卷積網絡來探尋解決方法。將大量的無標注數據和有限的有標注數據引入圖卷積網絡,通過聚合節點鄰域,不斷地訓練模型,進一步提升網絡謠言鑒別的準確性和穩定性。
圖卷積網絡GCN 可以看作是常規卷積網絡CNN的改編,用于對非結構化數據的本地信息進行編碼。本文使用圖卷積網絡GCN對所有帶標注的節點進行基于監督損失函數的訓練,并使其能夠學習所有節點(有標注或無標注)的表示。在半監督學習中,圖卷積網絡GCN通過聚合當前有標注節點及節點附近無標記節點的特征來生成當前有標注節點的特征表示。通過計算已知有標注節點的損失函數,反向傳播更新所有節點之間的共享權重,以此達到訓練模型的目的。
對于具有k個節點的給定圖G=(V,E),其中V是圖G的節點集,E是圖G中節點間的邊集。圖G中節點的數量為文檔節點的數量與詞匯節點的數量之和,即|V|=k。圖G中邊集E包含兩種邊,分別是文檔節點與其所屬詞匯節點間的邊和詞匯間的邊。其中,詞匯間的邊只選取每個詞匯與其左側詞匯、右側詞匯間的邊,以利用語句中的詞序信息。在圖卷積運算時,由于每個文檔的詞匯數量不同,故文檔節點附近的鄰居節點是不固定的。
本文將單位矩陣I∈Rk×k設置為初始特征矩陣X,其中每個詞匯與文檔的向量被表示為one-hot形式。為了方便起見,將節點i的第l層的輸出表示為其中表示節點i的初始狀態。對于一個L層的圖卷積網絡GCN,l∈[1,2,…,L],是節點i的最終狀態。由于圖卷積操作僅編碼直接鄰居的信息,因此一個L層圖卷積網絡GCN(如圖1 所示)其圖中的節點只能受到L步內的相鄰節點的影響。對圖中節點i的圖卷積操作可表示為:

圖1 GCN模型

其中,Wl是可訓練線性變換權重矩陣,bl是偏置項,A∈Rk×k為圖G的帶自環鄰接矩陣,TFIDFij表示文檔節點i中詞匯節點j的詞頻逆文檔頻率(TF-IDF),D∈Rk×k為圖G的度矩陣,σ是非線性激活函數,例如ReLU,可由計算得來。

其中,Wp和bp分別是學習的權重和偏差。
由于圖卷積網絡的操作基于有標記節點的特征表示,而其特征表示又取決于有標注節點及其附近未標注的鄰居節點,故本文模型通過標準梯度下降算法進行訓練,使用所有有標注節點上的期望交叉熵作為損失函數:

其中,yi表示真實值,pi表示由公式(5)求出的概率值,M為有標注的節點集合YL的大小。
盡管圖卷積網絡GCN 通常不考慮方向,但可以將其調整為適合方向感知的情況。因此,本文提出圖卷積網絡GCN的兩個變體,即在無向圖上的GCN-UG,以及在有向圖上的GCN-DG。實驗中,GCN-UG和GCN-DG之間的唯一區別在于它們的鄰接矩陣A∈Rk×k。無向圖GCN-UG與有向圖GCN-DG的鄰接矩陣可表示為:

可以發現,有向圖模型GCN-DG的鄰接矩陣比無向圖模型GCN-UG的鄰接矩陣稀疏得多,其實驗設置的目的是為驗證父節點是否會廣泛受其子節點影響。
本實驗所使用的數據存在已經被證實為網絡謠言的數據和網絡謠言被辟謠后的真實事件,其來源有三:
(1)騰訊新聞疫情平臺,收集關于“新冠肺炎病毒”的2020年1月18日至2020年3月15期間483條具有代表性的網絡謠言數據。同時,根據收集到的483條謠言信息反查是否存在對應的辟謠信息,將辟謠信息一并整理。
(2)新浪微博虛假消息辟謠官方賬號“微博辟謠”賬號,收集關于“抗擊新冠肺炎第一線”2020年1月1日至2020年3月15日期間該平臺公布的758個謠言事件。
(3)新華網承辦的中國互聯網聯合辟謠平臺,收集5 000條具有代表性的網絡謠言數據。此來源數據去除標注,用于半監督學習。
本文對這些不同渠道得到的數據進行人工篩選、去重、和匯總,最終得到包含5 246條網絡謠言的數據集以驗證半監督學習的圖卷積網絡對網絡謠言鑒別的提升作用,可見表2。隨后,這些數據都經過去噪聲、去停用詞等預處理過程。其中,去噪聲主要是刪除了總長度不足2 個字的數據,由于這類數據攜帶信息較少,處理的意義不大,刪除后可提高處理效率。此外,本文的訓練集包含2 627條數據,測試集包含2 627條數據。以上數據均被隨機選取生成數據集。

表2 已收集疫情網絡謠言樣例
本文在對收集到的5 246條以文字為傳播形式的網絡謠言的分析過程中,發現疫情相關網絡謠言的傳播跟疫情的發展存在一定聯系。圖2 顯示的是新冠肺炎疫情期間的每日新增確診曲線圖,圖3顯示的是新冠肺炎疫情期間的每日謠言數量曲線圖。可以發現,當每日的新冠肺炎確診人數在增多時,隨之而來的是每日謠言的數量在增多。

圖2 每日新增確診曲線圖

圖3 每日謠言數量曲線圖
本文采用一個兩層的圖卷積網絡GCN 進行實驗,簡化之前第2.1節的圖卷積網絡模型得到:

其中,W(0)輸入層到隱藏層的權重矩陣,W(1)為隱藏層到輸出層的權重矩陣,可通過梯度下降法訓練得到。
對于圖的鄰接矩陣A,本文使用LIL格式稀疏矩陣表示,以降低空間復雜度。模型通過Dropout 引入訓練過程中的隨機性,Dropout率為0.3,隱藏層為32個單元,最大迭代次數為100次,采用Adam優化算法,訓練過程中的學習率為0.001,省略L2 正則化。模型的停止條件為驗證集損失函數L連續10個迭代周期沒有下降為止。
此外,本文實驗環境所用硬件設備:操作系統為Windows 10 家庭版;CPU 為英特爾i5-8300H(四核,2.30 GHz);GPU為Nvidia GTX 1060(6 GB);內存為三星DDR4(16 GB)。
為了全面評估模型的兩個變體,即GCN-UG 和GCN-DG,將它們與一系列基線和最新模型進行了比較,如下所示:
(1)SVM(Support Vector Machine)算法是由Cortes和Vapnik[24]提出的一種屬于監督學習的二分類模型,學習策略是間隔最大化,常用來對小樣本、非線性及高維數據進行模式識別、分類以及回歸分析,并可以取得很好的效果。
(2)邏輯回歸(Logistic Regression,LR)算法通常是利用已知的自變量來預測一個離散型因變量的值,通過擬合一個邏輯函數來預測一個事件發生的概率值,其輸出值在0到1之間。
(3)LSTM(Long Short-Term Memory)最早由Hochreiter 和Schmidhuber[25]于1997 年提出,本文選取LSTM算法的優化算法BiLSTM進行實驗。
評估指標用于反映模型效果。在預測問題中,要評估模型的效果,就需要將模型預測結果和真實標注進行比較。由于模型重點在于鑒別網絡謠言,故本文要求模型的召回率Recall,即本身是謠言且被正確識別出來的比例盡量大,同時模型要保證其準確率Accuracy要盡量高。本文同時選取準確率Accuracy、精確率Precision、召回率Recall、F-measure 四種指標來評估模型的性能。本文引入混淆矩陣,如表3所示,表中,TP+FN+FP+TN=樣本總數。

表3 混淆矩陣
(1)準確率Accuracy是指正確分類的百分比。通常準確率越高,分類器越好,其定義如公式(10)所示:

(2)精確率Precision是指預測為正的樣本中有多少是真正的正樣本,其定義如公式(11)所示:

(3)召回率Recall是指所有準確的條目有多少被檢索出來,其定義如公式(12)所示:

(4)F1值是精確率P和召回率R的調和均值,通常F值越大,分類器越好,其定義如公式(13)所示:

本文實驗采用以上收集的數據集,通過SVM、LR、BiLSTM 和GCN 四種分類模型分別構建網絡謠言分類器,以實現對網絡謠言的自動鑒別,其中,SVM、LR模型在實驗中采用十折交叉驗證。四種模型評估指標的對比結果如表4所示。

表4 實驗結果
如圖4所示,盡管圖卷積網絡的用時較長于三種比較模型,但無向圖模型GCN-UG 在數據集上的準確率、召回率和F1 值始終高于SVM、LR、BiLSTM 三種比較模型,取得了可觀的結果。

圖4 實驗結果
通過實驗可知,采用半監督學習的圖卷積網絡可提升網絡謠言鑒別的準確率、召回率和F1 值,其中GCN-UG 的準確率達到85%,召回率達到86.1%,F1 值達到85.3%。可以看出,圖卷積網絡在提升網絡謠言的鑒別方面達到了預期的效果。同時,結果顯示無向圖模型GCN-UG的性能要優于有向圖模型GCN-DG,原因是有向圖相對于無向圖,其鄰接矩陣丟失了一部分重要的信息。對于基于圖的模型來說,來自父節點的信息與來自子節點的信息一樣重要。
此外,由于圖卷積網絡GCN 涉及其層數L,因此本文還研究了GCN 模型層數對模型最終性能的影響。由于上述實驗結果顯示,GCN-UG 模型的性能最優,故本文選擇GCN-UG 模型進行實驗。隨后,本文假定集合L={1,2,3,4,5,6},并在數據集上檢驗模型層數對無向圖模型GCN-UG 的影響。相關結果如圖5 所示。在評價模型的四個指標上,當L為2 時,無向圖模型GCN-UG 均達到最佳性能,這證明了在實驗中選擇層數是合理的,此外,隨著L的增加,四個指標都呈現下降趨勢,且當L等于6時,由于大量參數,GCN-UG基本上變得更難訓練。

圖5 模型層數對模型性能的影響
目前網絡謠言鑒別領域仍存在很多不足,面對如何更好的鑒別網絡謠言這個問題還有漫長的道路。為實現對網絡謠言的自動鑒別,本文提出采用基于半監督學習的圖卷積網絡對網絡謠言進行鑒別。通過圖卷積網絡獲取文本完整的特征向量表示,最終送入預測層生成類別預測概率。相較于基于傳統機器學習與深度學習的網絡謠言鑒別方法,本文所采用方法在召回率、F1值兩個評價指標上分別達到86.1%、85.3%,進一步提升網絡謠言鑒別的準確性和穩定性,有效利用無標注數據減少標注代價,同時解決監督學習模型泛化能力不強問題和無監督學習模型不穩定的問題。
本文所采用的數據集具有時效性,需依賴官方或者公眾平臺發布的辟謠信息作為語料標注,雖可通過程序自動獲取,但仍耗費一部分的時間和資源,本文后續將對此進一步研究,引入更先進的方法以便更好地解決時效性問題。同時,本文研究發現,文本存在領域性問題,相同的文本在不同領域表現不同,如“癌癥”在醫學領域屬于常見中立傾向,但在一些其他領域屬于貶義傾向。現有的網絡謠言鑒別方法對此表現不好,鑒別準確率較低。本文未來會在優化算法方面展開深入研究,以進一步提升算法性能。
相較于傳統的人工鑒別謠言方法,本文提出的模型攔截社交媒體和網絡新聞中的謠言數量可觀,為網絡謠言的治理提供新思路。同時,本文算法并不僅僅只適用于網絡謠言鑒別,也可用于其他文本類分類場景中。