句子級狀態下LSTM對謠言鑒別的研究

2022-01-01 00:00:00龐源焜張宇山

計算機應用研究 2022年4期

摘要：針對目前網絡謠言鑒別研究，文本學習往往會受到文本讀入內容過長導致長距離信息丟失或者是為了捕捉局部信息而依賴于長期輸入表示從而影響鑒別結果。通過提出S-LSTM（sentence-state long short term memory networks）算法在保留字詞節點信息的同時對句子進行聚合，從而保留句子的局部和全局信息，進而提升網絡謠言鑒別的精確性和有效性。與TextGCN、Bi-GCN、Att_BiLSTM等幾種深度網絡謠言鑒別方法的對比中，該方法在兩組模型測試上的準確率分別達到78.87%、90.30%，均取得了不錯的效果，在考慮句子全局信息的情況下，其對謠言鑒別效果會有不錯的提升。

關鍵詞：謠言鑒別；S-LSTM；圖神經網絡；文本分類

中圖分類號：TP183文獻標志碼：A

文章編號：1001-3695（2022）04-018-1064-07

doi：10.19734/j.issn.1001-3695.2021.08.0372

Rumor identification research based on sentence-state LSTM

Pang Yuankun，Zhang Yushan

（School of Statistics amp; Mathematics，Guangdong University of Finance amp; Economic，Guangzhou 510320，China）

Abstract：Aiming at the current research on the identification of online rumors，text learning is often affected by the long-distance information loss due to the long-distance reading of the text or the long-term input representation in order to capture local information，which affects the identification result.This paper proposed the S-LSTM algorithm which used it to aggregate sentences while retaining the word node information，thereby retaining the local and global information of the sentence，thereby improving the accuracy and effectiveness of network rumors identification.In comparison with several deep network rumor identification methods such as TextGCN，Bi-GCN，and Att_BiLSTM，the accuracy of this method on the two sets of model tests reaches 78.87% and 90.30%，respectively，and achieves good results.The result proves that the rumor identification effect can be improved in the case of considering the global information of the sentence.

Key words：rumor identification；S-LSTM；graph neural network；text classification

互聯網信息時代，網絡媒體的快速發展致使人們每天都能從網絡媒介中獲得大量的信息。研究表明，相比于傳統的大眾媒體，網絡媒體由于傳播途徑的特殊性，傳播信息的速度要更快，傳播的范圍要更廣，這也成為網絡謠言的主要溫床。網絡謠言具有突發性且流傳速度快的特點，因此很容易給社會造成不良影響。同時，網絡用戶也越來越重視自身的知情權，網絡事件發生后，往往會通過各種渠道獲取相關信息。但是由于一些客觀條件限制，以及人本身也缺乏真假鑒別能力，往往會盲目相信一些小道消息并且轉發，導致網絡謠言的蔓延。

中文文本的表示方式相比于英文的表示方法有明顯的不同，中文是一種非形態語言，缺乏形態標記，在日常生活的用語習慣中，語法手段并沒有那么明顯。英文更注重結構，而中文更多注重語義，如何讓計算機更深入去了解中文的語義便成了一個值得思考的問題。加之，中文更多的是使用短語，以至于中文文本分類對把握局部信息以及全局信息都很重要。

目前網絡謠言信息量大并且繁雜，國內網絡謠言治理主要還是依靠政府的網絡監管部門以及一些互聯網公司建立辟謠平臺。其均以人工檢測謠言的方式進行謠言甄別，使得控制謠言傳播的手段存在滯后性。如何建立一個行之有效的辟謠分類工具，成了一個有現實意義的事情。

而現實情況是謠言分類任務大多以字詞形式的序列進行輸入，通過提升對局部信息的學習能力來提高準確率即提高消息傳播機制的通用性；其次在文本學習中不能進行并行計算。本文是對所有的中文字詞信息進行聚合，保留中文長句子的全局信息，并結合各個字詞的信息進行并行訓練。

1相關工作

1.1基于深度學習主流的文本分類方法

深度學習主要是學習樣本數據的內在規律和表示結構，而本質是構建含有多隱層的機器學習架構模型，通過大規模數據訓練得到大量具有代表性的特征信息，從而對樣本進行預測和分類亦或是提高訓練精度。深度學習強調表征學習的重要性，將數據樣本在原空間的特征變換到一個新的特征空間來表示初始數據，這使得分類或預測問題更加容易實現，這也對文字、圖像和聲音等數據的解釋有很大的幫助。而基于深度學習的文本分類是進一步對文本這樣具有序列性質的信息進行讀取，而近年來針對時序數據的表征學習有了長足的進步。

LSTM（long short term memory）［1］網絡展示了其在自然語言處理中的特殊潛力，利用其適用于對時序數據進行建模的特性，在對于文本數據進行訓練時往往獲得了更佳的性能。此后，LSTM這一編譯器被用于很多領域，如機器翻譯［2］、關系提取［3］、文本分類［4］等。其中，雙向LSTM（bi-directional long short-term memory，BiLSTM）［5］能夠編譯出從后到前的信息，對褒貶義、同義詞、程度詞方面會有更好的表現，有更好的雙向語義捕捉。S-LSTM（sentence-state long short term memory networks）與BiLSTM在循環詞與詞的過程中，雙向信息流方式相似，但是狀態轉移上是有所不同的。

TextCNN（convolutional neural network for sentence classification）［6］，卷積神經網絡的特點就是相比于傳統的神經網絡中輸入和輸出神經元之間形成稠密的連接結構，其有小于輸入維度的卷積核，這樣每個輸出神經元僅與前一層特定區域內的神經元存在連接權重，這種特性形成了一個稀疏的連接結構，也稱做稀疏交互，這使得卷積神經網絡可以模擬句法結構。但對于中文來說，中文語法并沒有特定的語法結構，尤其是針對一般網絡用語，更多的是日常性語言。近些年來，在引入了圖結構的情況下，基于圖神經網絡的文本分類的有效性和穩定性有了很好的提升。而TextGCN（graph convolution neural network for text classification）［7］利用圖結構的特點，在整個數據集和語料庫之下來構建一個龐大的異構圖，同時結合卷積神經網絡，有效考慮順序信息以及局部信息，學習到更好的節點表示并很好地捕獲連續信息中的語義信息和語法信息。

DGCNN（deep graph convolution neural network）［8］利用深度網絡對在異構圖結構下的長句子進行訓練，大大提升了在長距離學習中詞的表現能力。S-LSTM的特殊性類似于圖神經網絡當中的圖能傳遞信息的能力，將局部的字詞以及整個句子以結構狀態的形式進行信息傳遞。

1.2基于深度學習文本分類的謠言鑒別方法

前述方法在深度學習文本分類方面已經取得了一些成果，但是基于其他復雜語言的表征提取，表現能力還是比較弱，尤其是在中文字詞表示方面。而現如今，中文的謠言鑒別還是在人工識別的基礎上來進行的，消耗時間長且效率慢，但有一部分算法也取得了不錯的效果。Ma等人［9］利用循環網絡特征來讀取上下文本的順序信息，從而對微博平臺中的謠言進行識別，通過循環方式對序列信息一一讀入，且對前者的輸入與后者的輸入沒有造成影響，使得RNN（recurrent neural network）對于網絡謠言這樣的序列數據信息的挖掘及語義分析是有效的。Chen等人［10］則在RNN的基礎上加入了深度注意力機制，使得在神經網絡在測試過程當中自動判斷出通道的合適性，然后分配合適的權重，當然在謠言信息傳輸過程中，不僅限于權重的分配，還對文本特征設置閾值，使得計算機在處理一些高噪聲的謠言數據時能夠提升準確率。文獻［11，12］則分別采用半監督圖卷積神經網絡和對抗生成網絡兩種類型對謠言數據進行處理，其特點都是在少量樣本的情況之下對謠言數據進行識別，分別利用圖卷積神經網絡對局部圖信號特征信息深度學習的特點和生成對抗網絡能使生成器逼近難以計算的概率分布的能力，對較少訓練數據的文本分類具有魯棒性，并在謠言分類過程中取得不錯的效果。Bian等人［13］有效利用謠言傳播深度和散布廣度這兩個關鍵特征，結合Bi-GCN圖模型，從謠言自頂向下（top-down）和自底向上（bottom-up）的傳播方向上發掘這兩個特征，針對兩個圖模型使用兩個GCN處理樹結構數據以捕獲謠言的傳播模式和散布模式，并且可以學習到更有助于謠言監測的高階表示，以增強謠言根源帖子的影響。除了通過傳播路徑挖掘出高階表示以進行謠言的識別之外，孫尉超等人［14］則利用更換詞向量預訓練方式替代傳統的word2vec、GloVe等預訓練模型，提高訓練模型速度，降低詞嵌入參數量，從而提高挖掘謠言內容的深層特征識別。

針對當前的網絡謠言鑒別研究，現有的模型算法在對應中文謠言分類上大多基于時序結構特征的序列特征，來提高對局部信息的抓取能力以及對局部信息深度解釋。但是對于文本長距離的表征學習以及全局信息抓取并沒有得到很好的解決。目前網絡謠言呈現的形式要更加復雜，例如在關鍵詞中插入字符、中英文交替、使用諧音、復雜形式的標題等，均可以在一定程度上干擾特征提取的過程。于是針對這一問題，提出了以句子級狀態作為輸入進行訓練，并且各個子級都可以進行并行運算。將較長時序的數據集引入循環網絡中進行訓練，同時通過調整窗口大小聚合子級的信息來不斷地訓練模型，進一步提高謠言鑒別的精確性和有效性。

2模型介紹

2.1LSTM

LSTM作為一種特殊的循環神經網絡，主要解決長序列中梯度消失和梯度爆炸的問題。這表明，相比于循環神經網絡，LSTM在更長的序列中有更好的表現。其細胞結構如圖1所示。ht表示句子語境下的結構和語義；ct表示LSTM的細胞狀態，貫穿整條鏈路，信息很容易以不變的方式流過，起到保存序列信息的作用。如圖1所示，ht-1和xt作為輸入的唯一來源控制遺忘門、記憶門、輸出門。同時當前的ct僅與輸出相關， ct-1和ct始終與輸入分離開來，顯然是作為LSTM記憶或者主要信息流的存在。在控制門和遺忘門一增一減的作用下完成信息流的更新，從而生成新的輸出ht。由此能明顯看到LSTM的缺陷，受限于模型僅能對序列相關的數據起作用，同時還不能進行并行運算，即便在Bi-LSTM中同時利用到兩個方向流的信息，在序列長度超過一定限度后，梯度依然還是會消失。所以以句子級狀態輸入進行信息提取的S-LSTM，針對謠言復雜的序列信息，并行運算來提高文本的特征提取能力是有必要的。

2.2S-LSTM

S-LSTM可以看做是LSTM的改編，但區別在于：S-LSTM對所有的信息進行了一次聚合，這樣類似于圖結構的節點聚合形式；其次利用LSTM中的循環狀態轉移方程來模擬子狀態之間的信息交換，從而逐步豐富狀態轉移的表示功能來進行模擬狀態轉移。

給定一個句子S=x1，x2，…，xn，其中xi代表第i個字或詞，n代表句子的長度，是要將每個字詞的隱藏向量hi和整個句子的隱藏向量g組合到一起去。其中hi代表句子語境下xi的結構以及語義特征，而g則聚合了整個句子的特征。在訓練中會對每個xi使用一個循環單元cti，同時對全局特征gt也使用一個循環單元cti。

形式上，時間步長處的LSTM狀態可以表示為

Ht={ht0，ht1，ht2，…，htn+1，gt}（1）

式（1）由每個字詞xi的子狀態hti和句子狀態gt組成。

對于初始狀態H0，一開始令h0i=g0=h0，其中h0是一個參數。從狀態Ht-1轉移到Ht是包括了從gt-1到gt以及ht-1i到hti兩種子狀態的轉移。狀態轉移的過程與LSTM相類似。

如圖2所示，每一個hti是基于xi、ht-1i-1 、ht-1i、ht-1i+1和gt-1連同相應的單元格所得來的：

ξti=［ht-1i-1，ht-1i，ht-1i+1］（2）

i^ti=σ（Wiξti+Uixi+Vigt-1+bi）（3）

ti=σ（Wlξti+Ulxi+Vlgt-1+bl）（4）

ti=σ（Wrξti+Urxi+Vrgt-1+br）（5）

ti=σ（Wfξti+Ufxi+Vfgt-1+bf）（6）

ti=σ（Wsξti+Usxi+Vsgt-1+bs）（7）

oti=σ（Woξti+Uoxi+Vogt-1+bo）（8）

uti=tanh（Wuξti+Uuxi+Vugt-1+bu）（9）

iti，lti，rti，fti，sti=softmax（i^ti，ti，ti，ti，ti）（10）

cti=itiuti+ltict-1i-1+rtict-1i+ftict-1i+1+stict-1g（11）

hti=otitanh（cti）（12）

其中：ξti 是文本窗口的隱藏向量的連接，作為一個文本窗的隱藏矩陣，文本窗的大小可以控制和相鄰詞的信息交換度；lti 、rti、fti、sti和iti是控制從ξti和xi到cti的信息流的門；ti控制來自輸入層xi的信息；lti、rti、fti、sti分別控制來自左邊文段內容的細胞狀態ct-1i-1、右邊文段的細胞狀態ct-1i+1、當前文本內容的細胞狀態ct-1i和以整個句子形式保存的細胞狀態ct-1g（其中lti、rti、fti、sti和iti都進行了歸一化處理，所以所有值總和為1）；oti是從細胞狀態cti到隱藏狀態hti的一個輸出門；Wx，Ux，Vx和bx（x∈{i，o，l，r，f，s，u}）是模型的參數；σ是sigmoid函數。

如圖3所示，gt的值是根據所有i∈［0，…，n+1］的值來計算的：

h=avg（ht-10，ht-11，…，ht-1n+1）（13）

tg=σ（Wggt-1+Ugh+bg）（14）

ti=σ（Wfgt-1+Ufht-1i+bf）（15）

ot=σ（Wogt-1+Uoh+bo）（16）

ft0，…，ftn+1，ftg=softmax（f^t0，…，f^tn+1，f^tg）（17）

ctg=ftgct-1g+∑iftict-1i（18）

gt=ottanh（ctg）（19）

其中：ft0，…，ftn+1，ftg是從ct-10，…，ct-1n+1和ct-1g的一個控制門，同時對其進行歸一化；ot是從循環細胞狀態的ctg到gt的輸出門；Wx，Ux和bx（x∈{g，f，0}）是模型的參數。

2.3S-LSTM字詞節點隱狀態算法

謠言序列的學習關鍵在于S-LSTM關于字詞節點ht隱狀態以及句子級節點的參數更新過程。兩個算法的處理過程是文章的重點。依據LSTM模型，訓練模型在已有的輸出門、輸入門以及循環門的基礎上增加了多個遺忘門，其目的是讓模型能夠接收更多信息，對序列的理解要更深一些。同時調整時間步的狀態可以進行深層學習。引入更多的信息意味著增加了運算的復雜度，但卻能提高模型的鑒別能力以及輸出更好的鑒別效果。

算法1SLSTM_ht細胞更新算法

輸入：上一步詞節點隱狀態ht-1，當前輸入xi，上一步句子級狀態gt-1，上一級細胞狀態ct-1。

輸出：新一級詞節點隱狀態ht和細胞狀態ct。

生成詞節點hti對應的所有門的參數word_gate［i，l，r，f，s，o，u］

使用W，U，V，b四個參數表示，得到輸入門、左右遺忘門、遺忘門、輸出門、循環門、句子遺忘門

更新LSTM的詞級細胞、詞節點隱藏狀態：

if win_sizegt;1：//設置隱狀態ht首尾參數

〈s〉，〈/s〉_weight=weight.data.nomal（0，0.1）

end if

combine =（ht-1，gt-1，xi）

ft=forget_layer（combine）

//送入遺忘門forget_layer，去掉無關數據

ut=candidate_layer（combine）

//記錄所有可能會加入到單元狀態ct的值

it=input_layer（combine）

//本層決定哪些數據要加入到新的單元狀態

ct=ct-1*ft+ut*it

ot=output_layer（combine）

ht=ot*tanh（ct）//將輸出與新單元狀態作點積得到新的隱層

返回ht，ct

2.4S-LSTM句子級節點算法

句子級節點緩解了LSTM等相關模型不能進行并行運算這一長期存在的問題，這導致在面對較長的句子的時候，依舊會出現梯度消失，這導致訓練效果欠佳，句子級節點gt的更新實則是單獨調用一個LSTM模型來進行訓練，而且訓練過程不僅使用自身的數據，還將字詞隱藏狀態的節點引用進來，使得句子級節點的內容更加豐富。

算法2S-LSTM_gt細胞更新算法

輸入：上一級的隱狀態ht-1，上一級的句子級節點gt-1，上一級細胞狀態ct-1。

輸出：新一級隱狀態 gt 和細胞狀態ct。

生成句子節點gt對應的所有門的參數sentence_gate［g，f，o］

使用W，U，V，b四個參數進行表示，得到遺忘門、輸出門、循環門、句子遺忘門

更新LSTM的句子級細胞，句子級隱藏狀態：

avg_ht = avg（ht-1）

combine_1 =（avg_ht ，gt-1）

combine_2 =（ht-1 ，gt-1）

ft=forget_layer（combine_1）//輸入遺忘門，去除無關數據

fi=forget_layer（combine_2）

softmax=softmax_layer（ft+fi）

ct=ct-1*softmax//所有候選信息都進入到新的細胞狀態

ot=output_layer（combine_1）

gt=ot*tanh（ct）

返回 gt，ct

if gt=initial_state：//初始默認數值

gt_weight=weight.data.nomal（0，0.1）

else

stdv=1.0/sqrt（hidden_size）

循環：用服從U（-stdv，stdv）的均勻分布中抽取得到的值對參數張量進行填充

2.5謠言的分類預測

前面主要介紹了S-LSTM模型來源依據以及S-LSTM中隱藏向量hi和g的運算過程。根據運算要求，實驗另外增加s和/〈s〉作為句子首尾的x0和xn+1。本實驗對謠言預測處理過程如圖4所示。

a）針對整個完整的序列，對n+2個詞表示進行信息聚合得到gt，計算過程可見2.4節關于gt的運算過程，當t=0時的初始狀態時，設置h0i=g0=h0，其中h0為一個參數；b）通過滑動窗口（圖4中的窗口大小為1）將三組向量連同上一層所得的句子級節點gt-1作為輸入進行模型訓練；c）設置時間步大小t進行多層訓練然后輸出，并針對全連接層降維成二維向量輸入到判別層；d）最后通過sigmoid判別函數對輸入向量進行謠言分類。謠言分類的sigmoid激活函數的計算公式為

F（αi）=11+exp（-αi）（20）

其中：F（αi）為謠言標簽類別的概率分布；αi為全連接層降維后輸出的二維向量。

3S-LSTM特征

從循環的角度來理解，S-LSTM使用一個結構狀態來表示完整句子，它同時由一個句子級別的子狀態和n+2個詞級子狀態來組成。不同于以往的LSTM，時間步是受句子長度影響的，但S-LSTM是以完整句子狀態進入循環狀態的。隨著時間步的增加，hti和gt所含文本內容也就更加豐富。而從文本信息的角度來看，一般的LSTM都是從句子的起始端開始傳遞到末尾端，因此會隨著時間步輸入文本信息的大小發生變化。相比之下，S-LSTM允許整個句子進行信息流的訓練，使得S-LSTM中細胞記憶狀態對于復雜程度比較高的句子來說，效率更高，精度也更高。

4實驗與分析

本章將評估S-LSTM對中文謠言分類的實驗效果，并與其他幾種檢測方法進行比較。本文在實驗設置當中使用的語料數據將會分成兩類，其中一類使用公開的中文詞向量進行訓練，另一類設置為使用訓練集訓練出來的詞向量。

4.1實驗設定

為了驗證S-LSTM在謠言特征提取的有效性，本文使用了兩組數據集，由于兩組數據均為中文微博謠言數據集，本文將兩組數據集標記為Weibo_1和Weibo_2以方便討論。兩組數據具體統計細節如表1所示。

從表1可以看出，兩組數據集的帖子數均比事件數要多，說明都包含有傳播和轉發等信息，同時Weibo_1的文本數據要更為復雜冗長，作為謠言的初期階段，傳播廣度和散布深度有限，但是文本內容卻更加復雜。而Weibo_2中的數據集是考慮到謠言傳播已經發生了一段時間，用戶轉發次數較多，處于謠言散布的中后期情況。

Weibo_1采用文獻［20，21］的微博謠言公開數據集，一共含有3萬多條數據集，數據預處理過程如圖5所示。由于謠言數據中的特殊符號所攜帶的信息相對來說比較少，通過對此類數據的預處理是有意義的。最終得到的謠言數據與非謠言數據共有5 895條，訓練樣本例子如表2所示。通過隨機分配形式進行訓練集、驗證集和測試集的劃分。其中訓練集為3 782條，驗證集為1 010條，訓練集為1 103條。以上數據均被隨機選取生成數據集。另一組數據Weibo_2［9］則引用于Bian等人［13］在謠言檢測中所使用的公開數據集。經預處理后一共含有4 664條數據集，訓練集為2 800條，驗證集為1 400條，訓練集為464條。其次，本文同時將兩組文本數據分為謠言與非謠言，謠言對應標簽為0，非謠言對應標簽為1。

在具體操作實驗之前，文章對文本數據進行了預處理，處理流程如圖5所示。

本文使用S-LSTM算法進行謠言分類則是通過更新迭代的方式更新算法1和2的各個參數，以得到最佳的模型，最終實驗的具體過程如算法3所示。

算法3S-LSTM謠言分類算法流程

輸入：詞嵌入矩陣、窗口大小、時間步長t、批量訓練模型大小、迭代次數、數據集

輸出：謠言分類結果。

a）初始化：依據批量大小和窗口大小，對數據初始化，添加首尾參數〈s〉，〈/s〉

b）訓練：引入到算法1和2中訓練ht和gt

c）迭代尋優：根據時間步t進行t層S-LSTM的訓練

d）循環更新：前向傳播計算神經元輸出；反向傳播計算隱狀態神經元的誤差項，并將誤差向上一層傳播；計算權重梯度、損失函數

e）使用Adam最小化損失函數

f）更新：利用訓練集和驗證集更新各個門的參數

g）預測：輸入測試集，計算隱藏狀態ht

h）把最后一步t層輸出的ht輸出到全連接層

i）測試：對全連接層降維并進行sigmoid判別，輸出判別結果

4.2實驗參數

本文采用語料詞向量作為初始化的詞嵌入層。其中兩組字典對應了不同的詞向量，第一組使用了搜狗實驗室的語料庫；另一組使用訓練集自身語料，通過GloVe模型生成300維的詞向量，訓練出來的詞向量會被用做詞嵌入處理。

超參數：本文均使用300維的詞向量作為嵌入層的初始化向量，涉及使用卷積核大小均為256。對S-LSTM參數進行調整，LSTM隱藏層數量為300，初始學習率為0.001，衰減率為0.97，min-batch為16，窗口大小為ξti的個數，時間步可自行調試。數據設置方面， ALBERT-BiLSTM基于ALBERT預訓練模型，對搜狗實驗室語料庫進行預訓練。其他模型的詞嵌入向量均由GloVe模型來進行訓練。另外Bi-GCN模型則需要微博謠言的帖子數、帖源以及對應轉發帖子來作為數據集。Weibo_1和Weibo_2兩組數據均有提供。其余方法的參數設置具體如表3所示。

4.3比較模型

為了更好地比較實驗效果，即對S-LSTM中文謠言鑒別實驗效果進行比對，本節將針對其他特定方法的中間過程進行簡單描述，其中模型1～6都是基于文本表示學習的鑒別方式，而模型7～9則是當前基于不同方向有效進行謠言鑒別的方法模型。各比較模型具體如下所示。

模型1FastText［15］算法其優點主要是將同樣的數據集輸入到文本分類中，有與深度網絡媲美的精度，卻在訓練時間上比深度網絡快許多數量級。核心思想是將整個文檔的詞及n-gram向量疊加平均得到文檔向量，然后用文檔向量作softmax多分類。該方法的好處是具備了深度、速度以及精度三個方面的綜合優勢。

模型2TextCNN［6］算法運用了卷積神經網絡捕獲局部特征，自動對n-gram特征進行組合和篩選，獲得不同層次的語義信息。針對文本數據建立一個n×m的矩陣，n表示詞的個數，m表示詞的維度，利用卷積核進行特征信息的提取，從而起到了對謠言數據學習的作用，進行文本分類。

模型3TextRNN（recurrent neural network）［16］算法相比于CNN用來提取句子中類似n-gram的關鍵信息，其擅長捕獲更長的序列信息，但面對長序列數據容易出現梯度消失問題。

模型4TextRCNN（recurrent convolutional neural network for text classification）［17］算法原理是把CNN的卷積層替換成雙向RNN，針對雙向RNN進行池化。通過雙向循環結構獲取上下文信息，在學習文本表達時可以大范圍地保留詞序。其次使用最大池化層獲取文本的重要部分，再自動判斷哪個特征在文本分類過程中起更重要的作用。

模型5DPCNN［18］算法是基于TextCNN不能通過卷積獲得文本長距離關系的基礎上進行改進的，其主要方法是加深卷積網絡深度，適當疊加并調整使用等長卷積以及池化層后，計算成本并沒有太大的影響，也使得網絡深度獲得更佳的關系。

模型6Att_BiLSTM（attention-based bidirectional LSTM）［19］算法是在Bi_LSTM模型上加入attention層。attention是先計算每個序列時序的權重，然后將所有時序的向量進行加權和作為特征向量，再進行softmax分類。在提升模型效果基礎上，其增加模型的可解釋性，更好地平衡對分類任務的貢獻程度。

模型7TextGCN（graph convolutional networks for text classification）［7］算法基于文本和詞的異構圖，使用了one-hot作為特征輸入，在GCN上能夠對文本進行半監督分類，無須進行預訓練，建構圖網絡之后使用卷積神經網絡進行訓練，最終對謠言數據進行分類。其中米源等人［11］在檢測研究中也是基于該模型進行謠言鑒別。

模型8ALBERT-BiLSTM（alite BERT bidirectional LSTM）［14］算法最大特征是計算成本相比BERT大幅度降低，降低embedding層的詞嵌入維度，在字詞深層語義特征提取方面有比較高的提升，將訓練好的詞向量結合Bi_LSTM進行訓練最終輸出預測結果。

模型9Bi-GCN（bi-directional GCN）［13］原理是通過自上而下傳播的因果特征和自底向上的謠言散布結構特征來構建兩個不同的節點圖。再通過GCN、DropEdge等手段得到模型的兩個不同的高階表示，最后將兩個節點表示聚合，得到了兩種表示的信息融合，最后計算出預測標簽。

4.4評估標準

一個合適的評估指標能更好地衡量模型的準確率。在預測問題中，想要評估模型的效果，就需要在預測結果與真實標準的結果中進行比較：a）針對兩組數據，評估了準確度（acc.）和兩種分類的精度（prec.）、召回率（rec.）以及F1值，來說明S-LSTM在謠言分類中的效果；b）討論在不同的窗口和在不同循環次數下的準確率，觀察S-LSTM學習效率；c）利用LSTM在不同的時間步以及不同的步長與準確率的比較，其中加入對照組，以基于注意力機制的BiLSTM作為S-LSTM模型對照，同時還會對以公開語料作為字典輸入以及以訓練集作為字典輸入進行比較，觀察在不同特定語料下訓練出來的模型準確率。

4.5結果對比和分析

在相同數據集下，與TextCNN、TextRCNN、DPCNN、FastText、ALBERT-BiLSTM等模型進行比較，最終結果呈現如表4和5所示，其中：F為非謠言； Y為謠言。表中給出了各模型的準確率和兩種分類的精確度、召回率以及F1值。其中S-LSTM模型的時間步為7，窗口大小為3，循環次數為3。

實驗數據結果顯示，S-LSTM在準確率以及F1值上始終高于其他九種模型，取得了較好的結果。實驗表明，以句子狀態的文本輸入方式來進行復雜句子的網絡謠言分類可提升網絡謠言鑒別的準確率，其中S-LSTM的準確率為78.87%，優于其他模型。謠言與非謠言的F1值分別為0.861和0.552。值得關注的是，S-LSTM提升的效果要比ALBERT-BiLSTM等最新模型的效果要好。說明在復雜句型的情況下，句子狀態下的S-LSTM的性能是比較優越的，分析認為原因在于文本狀態轉移的方式不同，也就是說狀態信息上的轉移對于文本語義是起到關鍵作用的。

表4中TextRNN和Att_BiLSTM模型表現效果一般，說明傳統的循環網絡在處理一些更復雜的中文文本時，單純以單個詞或字逐個輸入的循環訓練還是存在局限性，即便利用到了序列中的局部信息，句子整體信息依舊沒有被利用。這從側面說明，句子級別的節點gt能更好地進行非局部的信息傳遞，提高了文本特征學習的有效性。需要注意到Bi-GCN在Weibo_1預測表現中并不理想，主要原因在于缺乏訓練所需的謠言傳播以及寬度散步等數據，該模型的作用并沒有得到充分發揮。

為此，本文為了提高科學性和有效性，使用Weibo_2進行了第二次實驗，實驗結果如表5所示。

當謠言數據集的復雜度降低的時候，各個模型的準確率也隨之提高。值得關注的是，Bi-GCN的實驗結果要比S-LSTM的實驗結果好。其主要原因在于，S-LSTM與Bi-GCN在謠言鑒別中方向存在區別。Weibo_2中的傳播數據以及散播程度這兩個關鍵特征數量更多，文本數量相對較少，Bi-GCN這一模型更具優勢，表明在識別謠言散布的中后期，考慮謠言傳播方式進行識別是不錯的選擇。

在第二組實驗當中，基于對文本表示學習的方法，在謠言類別的精確度表現一般，筆者認為主要問題是在面對一些語義、語境更為復雜的文本數據時，文本特征的提取、學習并沒有對內容進行充分深刻的挖掘。但是在文本學習方面，S-LSTM依然保持相當的優勢，鑒別結果達到了90.03%，優于其他模型。這說明，解決LSTM不能并行運算等問題，以句子級狀態作為輸入的模型確實能提高鑒別水平，為謠言鑒別工作提供一定的參考意義。

為了更為客觀地呈現出表中客觀反映S-LSTM模型在特殊情形之下的鑒別效果。抽取表2中三組真實樣本作為詳細實際的測試，三句話均符合表1最后一行特點的句子，第一個句子轉發次數僅有10次的句子，表2第二、三句均來自于Weibo_1，轉發次數僅有1次的句子。抽取上面三組樣本，與幾組關鍵的模型進行比較，如表6所示。

從表6的結果分析來看，每一組模型對兩種謠言模型的鑒別水平相對都比較好，但是對案例中非謠言的鑒別效果比較差，其中只有Text-GCN和S-LSTM鑒別正確，從側面也說明，鑒別謠言的關鍵在于如何對判別信息是否是真，與人為實際情況的鑒別過程相同，很難用簡單的方式來進行鑒別。同時，使用表2中第三句話制作了訓練流程，具體如圖6所示。

方框內的圓圈表示詞向量，序列通過滑窗的作用，以向量的形式與句子級狀態gt一并輸入到模型當中進行訓練，多層運算后輸出并降維至全連接層，緊接著降維至二維，引入sigmoid判別得到概率［0.866 9，0.277 9］。本文設定謠言標簽為0，非謠言為1，圖6中的實例被判定為謠言，與實際標簽相同。

此外，基于Weibo_1數據集，本文還對S-LSTM的各個參數進行調試和比較。參數初始設定：循環次數為5（一次循環表示為一次正向和一次反向傳播）、滑窗大小為1、步長為5。對比參數根據具體實驗進行修改，其余參數以初始設定為準。

a）從圖7中對所有樣本訓練次數與準確率的比較發現，模型在不同窗口的情況之下，幾乎都是在第二次循環達到最大值，這也從側面說明，S-LSTM在訓練過程中對信息流有充分的采納，以至于循環次數不需要太大就已經達到最佳的效果，循環次數越多反而會造成過擬合現象。

b）由于S-LSTM與一般LSTM的時間步設置不同，Bi-LSTM是以句子的長度大小作為時間步設定的，而S-LSTM的時間步是人為設定。根據經驗，時間步越長，訓練的深度越深，計算機對信息的理解也就越深。

從圖8可以看出，時間步從1到11這個過程中，剛開始隨步長增多，準確率也快速增大。在達到最大值之前依然還會計算增長。這也從側面說明了LSTM在狀態信息轉移的過程中信息交換的有效性。另一方面還看到了窗口大小的不同也會對模型的準確率造成一定的影響。窗口大小ξti是作為輸入信息的多少來進行信息導入。其中窗口為1的時候，僅僅利用了當前字詞的信息，并沒有利用到鄰居字詞的信息，所以在步長為2的時候就已經達到最大，而且整體的表現效果較差。

c）本文還使用了兩種不同的語料庫進行訓練。訓練結果發現，S-LSTM在兩種不同的語料庫情況下，表現出來的結果差異并不明顯，只是在使用搜狗語料庫的情況下，最大值會更早出現，而后準確率快速下降；而自訓練的語料則在第二次循環時出現最佳情況，與圖9所描述的結果一致。準確率隨時間步變化，如圖9所示。

說明S-LSTM在保留著兩種子級狀態，既保留句子級的全局狀態信息，也保留了詞級的局部信息，這使得S-LSTM即使在語料缺乏的情況下，依然有能力對全局和局部信息進行分析。當然，這一部分實驗還有待商榷，需要進一步去探討。

5結束語

目前為止，對于網絡的謠言鑒別應用方面還有很多的不足，其中對于中文語義情感的識別分類就是其中的關鍵，解決鑒別文本這方面問題的路程還很漫長。本文給出了謠言鑒別的一種思路：在文本識別的過程中，通過保留句子級狀態的形式將完整的句子進行訓練，從而使得整個訓練能夠同時保留局部和全局的信息，并且隨著時間步的不斷增大，使得上下文的信息流可以得到充分利用。相比于傳統的機器學習以及循環網絡等模型的訓練，本文模型有更好的準確率和有效性。與此同時，該模型的穩定性相比于其他模型來說，也有更好的效果，不需要過多的循環次數便可以達到比較好的效果。這給謠言鑒別等文本語義分類的實踐提供了一種參考。當然本文還有更大的提升空間，其中一個就是如何繼續在相對復雜并冗長的文本當中提高準確率和降低損失值。其二就是句子級狀態節點gt的輸入長度可以進行控制，甚至可以使用多組gt來作為輸入。本文未來還會在文本處理方面繼續深入研究，進一步提升算法的性能。

此外，本文除了為網絡謠言鑒別提供新的思路之外，該算法還可以應用到其他文本類別分類以及文本語義分類等場景。

參考文獻：

［1］Hochreiter S，Schmidhuber J.Long short-term memory［J］.Neural Computation，1997，9（8）：1735-1780.

［2］Bahdanau D，Cho K，Bengio Y.Neural machine translation by jointly learning to align and translate［EB/OL］.（2016-05-19）.https：//arxiv.org/abs/1409.0473.

［3］Marcheggiani D，Titov I.Encoding sentences with graph convolutional networks for semantic role labeling［C］//Proc of Conference on Empirical Methods in Natural Language Processing.2017：1506-1515.

［4］Miwa M，Bansal M.End-to-end relation extraction using LSTMs on sequences and tree structures［C］//Proc of the 54th Annual Meeting of the Association for Computational Linguistics.2016：1105-1116.

［5］Zhang Shu，Zheng Dequan，Hu Xinchen，et al.Bidirectional long short-term memory networks for relation classification［C］//Proc of the 29th Pacific Asia Conference on Language，Information and Computation.2015：73-78.

［6］Kim Y.Convolutional neural networks for sentence classification［C］//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg，PA：Association for Computational Linguistics，2014：1746-1751.

［7］Yao Liang，Mao Chengsheng，Luo Yuan.Graph convolutional networks for text classification［C］//Proc of AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2019：7370-7377.

［8］Peng Hao，Li Jianxin，He Yu，et al.Large-scale hierarchical text classification with recursively regularized deep graph-CNN［C］//Proc of World Wide Web Conference.Switzerland：International World Wide Web Conferences Steering Committee，2018：1063-1072.

［9］Ma Jing，Gao Jing，Mitra P，et al.Detecting rumors from microblogs with recurrent neural networks［C］//Proc of the 25th International Joint Conference on Artificial Intelligence.2016：3818-3824.

［10］Chen Tong，Li Xue，Yin Hongzhi，et al.Call attention to rumors：deep attention based recurrent neural networks for early rumor detection［C］//Proc of Pacific-Asia Conference on Knowledge Discovery and Data Mining.Berlin：Springer，2018：40-52.

［11］米源，唐恒亮.基于圖卷積網絡的謠言鑒別研究［J］.計算機工程與應用，2021，57（13）：161-167.（Mi Yuan，Tang Hengliang.Rumor identification research based on graph convolutional network［J］.Computer Engineering and Applications，2021，57（13）：161-167.）

［12］劉勘，杜好宸.基于深度遷移網絡的Twitter謠言檢測研究［J］.數據分析與知識發現，2019，3（10）：47-55.（Liu Kan，Du Haochen.Detecting Twitter rumors with deep transfer network［J］.Data Analysis and Knowledge Discovery，2019，3（10）：47-55.）

［13］Bian Tian，Xiao Xi，Xu Tingyang，et al.Rumor detection on social media with bi-directional graph convolutional networks［C］//Proc of AAAI Conference on Artificial Intelligence.2020：549-556.

［14］孫尉超，陳濤.基于 ALBERT-BiLSTM 模型的微博謠言識別方法研究［J］.計算機時代，2020（8）：21-26.（Sun Weichao，Chen Tao.Research on microblog rumor recognition method based on ALBERT-BiLSTM model［J］.Computer Era，2020（8）：21-26.）

［15］Joulin A，Grave ，Bojanowski P，et al.Bag of tricks for efficient text classification［C］//Proc of the 15th Conference of the European Chapter of the Association for Computational Linguistics.Stroudsburg，PA：Association for Computational Linguistics，2017：427-431.

［16］Liu Pengfei，Qiu Xipeng，Huang Xuanjing.Recurrent neural network for text classification with multi-task learning［C］//Proc of the 25th International Joint Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2016：2873-2879.

［17］Lai Siwei，Xu Liheng，Liu Liheng，et al.Recurrent convolutional neural networks for text classification［C］//Proc of the 29th AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2015：2267-2273.

［18］Johnson R，Zhang Tong.Deep pyramid convolutional neural networks for text categorization［C］//Proc of the 55th Annual Meeting of the Association for Computational Linguistics.Stroudsburg，PA：Association for Computational Linguistics，2017：562-570.

［19］Zhou Peng，Shi Wei，Tian Jun，et al.Attention-based bidirectional long short-term memory networks for relation classification［C］//Proc of the 54th Annual Meeting of the Association for Computational Linguistics.Stroudsburg，PA：Association for Computational Linguistics，2016：207-212.

［20］Liu Zhiyuan，Zhang Le，Tu Cunchao，et al.Statistical and semantic analysis of rumors in Chinese social media［J］.Scientia Sinica Informationis，2015，45（12）：1536-1546.

［21］Song Changhe，Yang Cheng，Chen Huimin，et al.CED：credible early detection of social media rumors［J］.IEEE Trans on Knowledge amp; Data Engineering，2021，33（8）：3035-3047.

收稿日期：2021-08-31；修回日期：2021-10-09基金項目：國家自然科學基金資助項目（61876207）；廣東省基礎與應用基礎研究基金資助項目（2020A1515011405）

作者簡介：龐源焜（1997-），男，廣東佛山人，碩士研究生，主要研究方向為自然語言處理與計算智能；張宇山，男（通信作者），廣東廣州人，副教授，碩導，博士，主要研究方向為計算智能與機器學習（11246687@qq.com）．

計算機應用研究2022年4期

計算機應用研究的其它文章: 融合多路特征和注意力機制的強化學習關鍵幀提取算法; 基于對抗學習的醫學圖像分割領域自適應研究; 基于多級上下文引導的實時語義分割網絡; 基于卷積特征聚合的細粒度圖像檢索方法; 顏色恢復和邊緣保持的低照度圖像超分辨率重建方法; 輕量級多信息圖卷積神經網絡動作識別方法