汪子航,言鵬韋,蔣卓人
(浙江大學公共管理學院信息資源管理系,杭州 310058)
當前,社交媒體已經逐漸取代電視、報紙等傳統媒體,成為人們日常生活中接收信息的重要途徑[1]。然而,社交媒體的開放屬性也為謠言的產生和傳播創造了條件。謠言,即“信息流傳中的尚未得到證實的陳述”[2],這些未經驗證的信息可能會引起社會公眾的懷疑或焦慮[3],推動虛假信息傳播或導致輿論問題。此外,社交媒體數據規模日益增長、數據形式日趨復雜,謠言信息在社交媒體中以信息傳播樹的形式層層擴散并大量傳播。因此,高效、準確地識別網絡謠言并針對謠言傳播特征進行治理是亟待解決的研究問題。
然而,目前社交媒體謠言識別的研究仍然面臨兩大挑戰。其一,謠言傳播網絡中的復雜結構特征難以被充分挖掘。目前自動化謠言識別重點關注的是傳播內容、傳播用戶等特征[4-9],而對于傳播結構的特征關注較少。其二,隨著深度神經網絡為代表的復雜模型在謠言識別任務上的應用,模型可解釋性的需求也日益高漲。由于深度神經網絡等復雜模型的推理過程通常是一個“黑箱”過程,在社會實踐中使用黑盒模型可能引發算法歧視等社會問題。相關法律法規(如歐盟的《通用數據保護條例》)對機器學習算法的可解釋性也提出了明確要求。因此,社交媒體謠言識別算法急需可解釋性分析,以提升其可信度。
針對上述挑戰,本文設計并實現了一個可解釋圖神經網絡謠言識別模型。該模型利用圖神經網絡對謠言數據進行識別,同時從網絡結構和節點特征兩個角度對模型決策進行解釋分析。具體而言,首先,本文基于社交媒體的用戶信息和消息傳播結構等構建謠言數據集,將用戶信息,如用戶粉絲數等作為傳播節點特征;將用戶間的交互行為,如轉發等作為傳播結構中的邊,構建包含多維節點特征的信息傳播樹。其次,利用殘差圖卷積神經網絡模型,同時對信息傳播樹中的節點信息與結構信息進行學習,以提高謠言識別的準確率。最后,通過訓練圖神經網絡解釋器,利用基于網絡結構掩碼的學習與基于節點特征掩碼的學習識別模型決策中對模型預測重要的網絡結構和節點特征,并生成模型解釋。
本文使用源自新浪微博和推特的謠言數據集進行模型實驗驗證與可解釋分析。模型驗證結果表明:①本文采用的殘差圖卷積神經網絡模型在兩個數據集的所有評價指標上均超過了對照組模型,證明了該模型的有效性和泛化性;②本文采用的模型僅使用謠言傳播的結構特征也可以對謠言進行準確識別,驗證了謠言傳播結構特征的重要性和圖神經網絡模型的魯棒性。結合圖神經網絡模型解釋器生成的解釋可以發現:①非謠言數據的傳播結構較為扁平,而謠言數據的傳播結構相對縱深較長,在傳播路徑上往往產生多級轉發或評論;②對于復雜的傳播網絡,圖神經網絡模型可以充分學習用戶互動中的結構信息,取得良好的預測結果;對于簡單的傳播網絡,其傳播結構特征較弱,需要結合更豐富的節點特征進行謠言識別。
本文的主要貢獻:第一,本文從模型可解釋性出發,提出了可解釋圖神經網絡謠言識別模型,不僅能夠對謠言進行精準識別,而且能夠結合圖神經網絡解釋器對謠言傳播機理進行分析。本文既增強了深度學習模型的可信度,也在謠言識別領域對信息行為和信息價值的理論進行了全新的探索。第二,與已有研究側重于傳播內容等特征進行謠言識別相比,本文將謠言傳播結構特征納入了謠言識別模型,以提高識別準確率。同時,利用圖神經網絡模型對謠言傳播結構進行可解釋分析,更好地總結了謠言傳播行為的規律和模式。第三,在中英文兩個數據集上,本文綜合全局和案例分析得出謠言的拓撲結構特征和節點特征,并基于發現提出謠言治理的策略建議,對于謠言鑒別和輿情治理具有積極的實踐意義。
謠言的本質屬性在于未經驗證[2-4],本文將社交媒體謠言定義為在社交媒體平臺上廣泛傳播的、未經驗證的信息陳述。傳統的謠言識別研究通常將其轉化為一個基于特征挖掘的分類問題。謠言的傳播過程形成了從信息源到不同受眾逐級傳播的信息傳播樹,其中包含了謠言信息本身的內容特征、傳播路徑中涉及的用戶特征以及由傳播中用戶間互動產生的序列特征與結構特征。早期的謠言識別主要采用傳統機器學習算法,關注對文本特征與時序特征的挖掘[4-6,10-12],重點在于通過特征挖掘提高謠言識別模型的準確率。Afroz 等[10]利用詞匯、句法和內容特定的特征,在眾多數據集上的謠言檢測任務中取得了較好的效果。Ma 等[12]使用動態時間序列的結構從信息傳播的過程中抽取時間屬性,以觀察謠言在傳播過程中隨時間的變化。此外,部分研究通過統計的方式對信息傳播特征進行提取,初步驗證了傳播特征對謠言識別的重要性[6,11]。
近年來,深度學習被廣泛應用于謠言識別中。與傳統的機器學習方法相比,深度學習方法可以依靠復雜的模型結構對文本、圖像等信息進行特征挖掘與提取。這一研究方法的轉變,使問題從對輸入特征的建模轉變成設計一種有效解決謠言識別任務的網絡結構。例如,Yu 等[8]與Wang 等[9]分別利用CNN(convolutional neural network)與LSTM(long short-term memory)加強了對文本信息提取的設計。
上述謠言識別方法關注的重點為謠言傳播內容、傳播用戶和傳播時序的特征,但對于謠言傳播網絡的結構特征,已有研究難以直接對傳播結構進行建模與分析,而圖神經網絡的發展為此提供了新的研究可能[13]。圖卷積網絡(graph convolution network,GCN)是一種專門針對圖數據進行空間特征提取的卷積神經網絡[14],包括GraphSAGE(graph sample and aggregate)[15]、GAT(graph attention network)[16]、PGC(partition graph convolution)[17]等。近年來,研究者開始探索圖神經網絡在謠言識別中的運用。例如,Bian 等[18]將會話表示為一個有向樹的結構,使用圖卷積網絡,分別自上而下和自下而上對會話樹進行編碼,用于學習謠言傳播結構的特征;Bai 等[19]基于原始信息和回復構建圖數據,建立了具有節點比例分配機制的集成圖卷積網絡;王昕巖等[20]采用邊權重來描述事件之間聯系的緊密程度,提出了一種基于加權圖卷積神經網絡模型,對新浪微博中的謠言進行檢測。
本文旨在結合謠言內容、用戶屬性以及謠言傳播網絡結構等多維度的特征對謠言識別進行可解釋性分析,利用圖神經網絡方法進行研究。
近年來,機器學習技術在謠言識別場景的應用提高了謠言識別任務的準確率,但模型決策過程缺乏可解釋性,限制了其在諸多場景的應用,因此,越來越多的研究者開始探索機器學習的可解釋性。
一方面,對于非圖結構的神經網絡,目前常用的一種解釋方法是基于代理模型的方法,如LIME(local interpretable model-agnostic explanations)[21]模型用一個簡單的線性模型作為代理,對一個復雜的黑箱模型的局部區域進行近似。另一方面,許多研究使用基于梯度的反向傳播來計算輸入的重要性,如類激活映射(class activation mapping,CAM)等[22-26],以及應用反事實推理的方法LEWIS[27]等,這些方法的關鍵思想是將梯度作為輸入重要性的近似值。
社交網絡是一種圖結構。近年來,對圖神經網絡的解釋工作的研究日益增加。Pope 等[28]將最終的節點嵌入映射到輸入空間,利用原始GNN(graph neural network)的網絡參數和分類器的輸出計算輸入的重要性,將基于梯度的方法擴展到GNN 中,用于解釋圖分類模型。Huang 等[29]將LIME 擴展到圖模型中,采用非線性代理模型的重要特征來近似對GNN 的解釋。Vu 等[30]通過隨機擾動的方法獲取局部的數據集,借助可解釋的貝葉斯網絡來擬合該數據集,可以同時用于解釋節點分類和圖分類任務。Ying 等[31]和Luo 等[32]分別提出了基于掩碼學習的GNNExplainer 與PGExplainer,對于給定一個訓練好的GNN 模型和一個預測結果,掩碼學習可以用于識別一個小的子圖結構和一個節點特征的子集,使整個輸入圖中GNN 預測的互信息最大化,可以同時識別對預測重要的網絡結構和節點特征。
本文提出的可解釋圖神經網絡謠言識別框架包含兩個重要組成部分:謠言傳播樹網絡結構與節點特征預處理模塊(2.1 節)和可解釋圖神經網絡謠言識別模型(2.2 節)。其中,網絡結構與節點特征預處理模塊主要負責網絡謠言原始數據的預處理工作,可解釋圖神經網絡謠言識別模型由殘差圖卷積神經網絡模型(2.2.1 節)和基于掩碼學習的圖神經網絡解釋器(2.2.2 節)兩大模塊組成。該框架的輸入是謠言傳播樹原始數據,通過預處理后,可解釋圖神經網絡謠言識別模型可通過殘差圖卷積神經網絡模型對信息是否為謠言進行預測,而圖神經網絡解釋器通過訓練可以分別生成基于網絡結構的解釋和基于節點特征的解釋??傮w而言,本文提出的識別框架如圖1 所示。

圖1 可解釋圖神經網絡謠言識別框架
在一個信息的傳播樹中,以原始信息為根節點,每一次評論/轉發作為一個節點,使用粉絲用戶數等用戶屬性特征和基于信息文本內容的文本嵌入特征等作為節點特征,根據信息的轉發/評論關系,建立由被轉發/評論者指向轉發/評論者的邊,構建謠言傳播樹網絡結構數據。
對于數據集中的第i個事件,用yi表示其對應的標簽,Y={y1,y2,y3,…,yn}∈Rn×2表示數據集標簽的集合。根據信息的轉發關系,構建信息的傳播結構。其中,V={v1,v2,v3,…,vn}表示圖中所有的節點,E={e1,e2,e3,…,en}表示圖中所有的邊。A∈Rni×ni代表ci的鄰接矩陣,表示節點間的連接情況,若節點i和節點j之間有連接,則Aij=1,否則,Aij=0。X∈Rni×m代表數據集的特征矩陣,其中m為特征的維度。
2.2.1 殘差圖卷積神經網絡模型
本文設計了一個基于殘差圖卷積神經網絡的謠言識別模型。該模型的輸入為以事件為單位的信息傳播樹,輸出為該事件的預測標簽。其核心思想是使用殘差圖卷積網絡抽取節點的鄰居節點的信息來更新每一層隱藏層的信息,從而整合謠言的擴散過程中的關鍵結構信息,獲取社交網絡結構的深層表征。第k個圖卷積層的隱藏特征矩陣Hk的計算過程為
其中,Wk-1表示可訓練參數。第k層的隱藏特征被聚合后再通過信息傳播函數M得到下一層的隱藏特征,當k=1 時,隱藏特征即節點原始特征。基于此,本文為每一層添加了殘差連接,作為殘差圖卷積網絡(ResGCN)[33]模型。該方法已經被驗證能夠有效地避免梯度消失,可以在深層次上獲得更好的聚合能力,即
殘差圖卷積神經網絡模型結構如圖2 所示。為了避免過擬合,在Readout 層使用Dropout 策略。
將圖數據輸入圖卷積網絡,可得到輸出的隱藏特征矩陣H={h1,h2,h3,…,hn},使用全局平均池化操作來聚合該表征的信息。通過全連接層和Softmax 層計算事件i的預測標簽,即
其中,是一個二維向量,表示預測為謠言和非謠言的概率。通過最小化預測標簽和真實標簽y的交叉熵來訓練模型參數。
2.2.2 基于掩碼學習的圖神經網絡解釋器
本文采用基于掩碼學習的圖神經網絡解釋器[31]對殘差圖卷積神經網絡的預測進行解釋,通過改變輸入模型的信息、對比模型結果,來監測被改變的信息的重要性,從而確定邊和特征對決策的重要程度,如圖3 所示。具體來說,給定一個訓練好的圖神經網絡模型和一個預測結果,該圖神經網絡解釋器可以通過學習邊和節點特征的掩碼來預測解釋結果,從而識別一個小的子圖結構GS?G和一個節點特征的子集XS?X,通過使整個輸入的原始圖的預測以及通過掩碼獲得的新的GNN 預測的互信息MI 最大化來優化掩碼,即

圖3 圖神經網絡解釋器工作原理[31]
新浪微博和推特(Twitter)分別是中文領域和世界范圍內兩大重要的社交媒體平臺,具有用戶量多、曝光度大、信息傳播快的特點,容易成為謠言傳播的重災區。為了驗證本文提出的可解釋性圖神經網絡模型的有效性和魯棒性,選擇來自上述兩個平臺的公開數據集進行實驗。Chinese_Rumor_Dataset數據集(https://github.com/thunlp/Chinese_Rumor_Dataset)是依據新浪微博社區管理中心公示內容中的謠言微博進行收集的,本文使用的是該數據集的第二部分,即CED_Dataset 數據集[34],該數據集包含事件的原始微博及其相應的轉發/評論微博。本文通過爬蟲進一步獲取數據集中相關用戶的粉絲數、博文發布數等用戶屬性信息。PHEME 數據集[35]對“弗格森騷亂”“《查理周刊》槍擊事件”等9 個突發新聞事件相關推文數據進行收集,具體包含原始推文及其回復,以及相關用戶的屬性信息。
按照2.1 節謠言傳播樹網絡結構與節點特征預處理模塊,根據交互關系對上述兩各數據集構建傳播網絡數據。每個傳播網絡對應一個二分類的標簽,表示謠言或非謠言。剔除數據缺失的事件,使用Python 的PyTorch Geometric 庫構建圖結構數據集,其中CED_Dataset 包含3300 個圖結構,PHEME包含6425 個圖結構。兩數據集的標簽分布情況如表1 所示。

表1 實驗數據集標簽分布情況
Wellman[36]認為,人們之間的互動和交流形成了社會關系,使得人們能夠學習他人的意見。因此,人們傳播消息很大程度上受到其社交關系的影響。本文選擇粉絲用戶數、關注用戶數、博文發布數作為用戶特征,用于衡量一名用戶的社會關系的復雜程度和強弱程度。
在本文所研究的數據集中,CED_Dataset 數據集中傳播樹節點更多,即謠言事件本身的轉發或評論等交互信息更豐富,傳播結構較為復雜;PHEME 數據集傳播結構相對較為簡單。圖4 展示了兩個數據集的傳播樹的節點數量分布情況。

圖4 數據集傳播樹節點數量分布直方圖
從理論角度來看,根據Bai 等[19]的研究結果,當傳播樹的結構較為簡單時,謠言和非謠言之間的圖的全局結構特征可能難以區分。因此,對于簡單的傳播樹,文本特征對于謠言檢測更為重要。從實際數據角度來看,在微博的信息傳播網絡結構中,大量用戶僅僅轉發而不做評論,不存在文本內容。
基于上述兩點原因,本文對CED_Dataset 數據集和PHEME 數據集采用不同的特征選擇策略。在CED_Dataset 數據集中,使用粉絲用戶數、關注用戶數和博文發布數3 個用戶屬性信息作為節點特征。PHEME 數據集中的傳播樹結構更為簡單,只依靠用戶信息難以對是否為謠言進行判斷。因此,PHEME 數據集中節點特征除了用戶的關注用戶數、粉絲用戶數和博文發布數特征以外,還包含了每個節點所包含的文本信息。對于節點的文本信息,本文使用Sentence-BERT(bidirectional encoder representations from transformers)[37]獲取其向量表示,將文本轉換為768 維向量,并將其作為節點特征的一部分。兩個數據集的具體使用特征信息如表2所示。

表2 CED_Dataset數據集和
PHEME數據集特征選擇
基于預處理的數據集,本文從3 個方面來全面驗證可解釋圖神經網絡謠言識別模型:①網絡謠言識別的效果(4.2 節);②基于傳播結構的可解釋性分析(4.3 節);③基于節點特征的可解釋性分析(4.4 節)。
本文的實驗在Windows 10 操作系統和Python 3.7 環境下進行。采用Pytorch Geometric 框架構建謠言識別模型,并進行模型訓練。模型選擇的優化器為Adam,損失函數為交叉熵,分類層激活函數為Sigmoid。超參數設置如表3 所示。

表3 超參數設置
本節使用訓練后的圖神經網絡模型對數據集進行預測。對于預測的結果,使用準確率(accuracy)、精確率(precision)、召回率(recall)和F1 值(F1 score)來衡量其準確性。
本文設置了5 組實驗作為對照組,分別檢驗不同情況下的實驗結果以及本文模型的性能。各組實驗具體如下。
(1)支持向量機[38]:支持向量機是一種二分類算法,其目標是得到最好的超平面,對數據進行二元分類。經過擴展,支持向量機也能應用于回歸問題。
(2)隨機森林[39]:隨機森林是Bagging 集成算法的一種,多顆隨機采樣變量的弱分類器組成了隨機森林。隨機森林的所有基評估器均是決策樹,模型的最終分類結果由子樹進行投票得到。
(3)XGBoost[40]:XGBoost 是一種集成算法,通過優化結構化損失函數來生成弱學習器,糾正前面所有弱學習器的殘差,最終多個學習器共同用于預測。
(4)樸素貝葉斯[41]:樸素貝葉斯方法是一種基于貝葉斯定理和特征條件獨立假設的分類方法。
(5)GCN[14]:GCN 是基于不使用殘差連接的樸素圖操作的圖卷積網絡模型。
在實驗中,使用十折交叉驗證方法,實驗結果如表4 所示。比較表4 中不同模型的表現可以看出,本文設計的基于殘差圖卷積神經網絡的謠言識別模型在兩個數據集上的所有評價指標均優于其他對照組模型,這充分證明了該模型的有效性和泛化性。在CED_Dataset 數據集上,GCN 模型超過了上述機器學習算法的性能;在PHEME 數據集上,GCN 模型的性能有所欠缺。而殘差圖卷積神經網絡模型則分別在兩個數據集上大幅度地超過了上述所有算法模型的準確性。此外,殘差圖卷積神經網絡模型在僅使用少量特征的情況下仍然能夠得到較高的準確性,從而驗證了該模型的魯棒性。

表4 謠言識別結果
圖神經網絡解釋器通過學習傳播結構中邊的掩碼并為邊生成權重,表示其對預測結果的影響程度。如上文所述,CED_Dataset 數據集中謠言信息擴散范圍較廣,傳播樹結構豐富;PHEME 數據集中謠言信息的擴散范圍較小,傳播結構相對簡單。因此,本節主要基于CED_Dataset 數據集解釋結構特征在謠言識別中作用,下文分別從案例和全局層面對模型生成的解釋進行闡述。
4.3.1 基于案例的傳播結構可解釋性分析
抽取CED_Dataset 數據集中節點較多、結構相對復雜的數據進行案例分析,選取其中一則關于“火車盒飯價格”的謠言數據與關于“下架日系產品”的非謠言數據進行對比。圖5 展示了這兩個樣本的原始網絡結構以及標記了邊權重的網絡結構。圖5b 和圖5d 用顏色的深淺來表示邊權重的大小,連邊顏色越深,表示其權重越大,代表其在謠言識別模型的決策過程中越重要。

圖5 CED_Dataset典型案例——傳播結構
由原始傳播網絡結構(圖5a 和圖5c)可以看出,謠言案例的傳播樹呈現雙中心的結構,兩個中心的一層傳播節點數目分別占整體節點總數的32.4%與22.4%。在非謠言的信息傳播樹中,非謠言案例呈現以根節點為中心的單中心結構,其一層傳播節點數占整體節點數的86.6%,信息傳播的核心節點相對單一。此外,結合表5 可知,案例中的謠言網絡傳播鏈平均長度是非謠言的2 倍,說明其傳播深度比非謠言案例更深。

表5 CED_Dataset案例——傳播鏈平均長度
由圖5b 和圖5d 可以看出,在謠言案例中,兩個中心節點的一層傳播并沒有被賦予較高的權重,相反地,模型更多地關注長傳播鏈條的末段傳播部分;在非謠言的傳播結構的解釋中,整體邊的權重未呈現顯著差異。
結合實際傳播過程中的具體討論內容與用戶進行分析發現,在初始傳播階段,即一級轉發/評論中,用戶通常是基于自身經歷對事件進行客觀討論;隨著傳播繼續進行,類似“欺騙消費者[抓狂]”的討論內容增加,討論情緒傾向明顯增強。結合對案例中不同傳播層級的用戶屬性進行分析。表6 展示了一至三級轉發/評論層次下的節點的用戶特征的平均情況,表明隨著轉發層次的深入,用戶的粉絲用戶數、關注用戶數、博文發布數逐漸減少,尤其是粉絲數顯著下降。

表6 CED_Dataset謠言案例——不同轉發層次節點特征均值
上述分析說明,隨著轉發層次的深入,轉發/評論者更多為在網絡中影響力較小的普通用戶,這些用戶對信息的甄別和篩選能力相對較弱[42],面對不確定性的謠言事件,容易引發不同立場并產生遞進式的討論,使得謠言事件具有相對更深的傳播結構。因此,較深的傳播結構反映了該微博的不確定性與爭議性。而模型通過關注這些傳播鏈較長的傳播結構,有助于對謠言進行判別。
4.3.2 基于全局的傳播結構可解釋性分析
為進一步探索普遍性的規律,本文結合社交網絡的屬性,分別對謠言和非謠言數據進行全局統計分析。對謠言與非謠言傳播樹的節點數量、一級轉發/評論占比、近似傳播深度(以圖數據中最大傳播長度/節點總數來近似事件傳播的深度)的平均值進行統計與可視化,如圖6 所示。
圖6a 展示了一級轉發/評論在傳播網絡中的占比情況,非謠言數據的一級轉發/評論占比呈現左偏分布,說明針對非謠言事件的討論主要直接發生在與原始信息之間,而謠言事件中直接轉發/評論占比分布相對均衡。在整體上,非謠言事件的直接轉發/評論占比大于謠言事件。圖6b 對比了謠言與非謠言傳播樹中信息傳播深度的分布情況,相比于非謠言事件,謠言事件的傳播層次更深。
總體而言,謠言事件更容易引發用戶間的深層次傳播。上述全局統計情況驗證了圖神經網絡解釋器在具體案例中生成的解釋結論。Prasad[43]認為,謠言是一種群體反應,具有情緒化的傾向。這在熟人之間的網絡中更加突出。劉于思等[44]的研究表明,熟人關系居多的社交網絡提升了人們之間的依賴度和信賴度,人們更傾向于彼此分享信息。因此,當謠言事件出現在用戶的社交網絡中時,用戶往往傾向于通過轉發以分享情緒,在累次轉發的過程中,隨著轉發層次的遞增,情緒化現象變得越發嚴重,從而進一步加劇了用戶對謠言的轉發。
如2.2 節所述,圖神經網絡解釋器不僅可以通過邊權重的學習生成網絡結構的解釋,也可以通過學習節點特征的掩碼得出節點特征的權重。某一節點特征的權重越高,說明在這個網絡中,該節點特征的改變對預測結果產生的影響越大。相較于CED_Dataset,PHEME 數據集擁有更豐富的節點特征,節點特征除了包含用戶的關注用戶數、粉絲用戶數和博文發布數外,還納入了每個節點所包含的文本特征信息。因此,本節主要基于PHEME 數據集,通過節點特征的重要程度來解釋節點特征在謠言識別中作用。
4.4.1 基于案例的節點特征可解釋性分析
選取PHEME 數據集中“悉尼人質”事件下的謠言數據進行分析?!跋つ崛速|”事件是指2014 年12 月15 日澳大利亞悉尼市中心一家咖啡館發生的人質劫持事件。下文結合一則事件中關于“炸彈布置”的謠言數據與一則關于“警方行動”的非謠言數據的節點特征進行可解釋分析。
圖7 以謠言傳播樹的形式對比了謠言案例和非謠言案例的部分節點特征:①節點顏色深淺表示節點的博文發布數,顏色越深表示數量越多;②節點大小表示節點粉絲用戶數,節點越大表示數量越多;③節點的文本嵌入通常包含情感立場等語義信息,因此結合文本的立場進行案例分析;④用邊的顏色表示子節點對其父節點的立場,可以劃分為認同、不認同、中立或無關三類,分別標記為藍色、紅色與黑色。在圖7a 中,謠言案例的根節點和12號節點的博文發布數顯著大于其他節點,并且12號節點對根節點持不認同的態度;而在圖7b 中,僅有根節點的博文發布數顯著大于其他節點。博文發布數代表了用戶的在社交平臺上的活躍度。從案例數據上看,在謠言案例的傳播中出現了高活躍度節點的對立;在非謠言案例中,整個傳播結構由單個觀點輸出者主導。

圖7 PHEME案例傳播樹結構
通過圖神經網絡解釋器可以得出案例中不同特征對預測重要性的權重,其中,文本嵌入特征的權重由768 維文本嵌入權重的和得到,作為整體文本嵌入特征的重要性表示。對全部4 個特征的重要性進行0-1 標準化,得出謠言和非謠言案例中各個特征的相對重要程度,可以發現文本嵌入特征相對重要程度超過99%,說明模型對案例是否為謠言的預測幾乎全部依賴于文本信息。
圖8 展示了謠言案例中的文本向量的情況,本文使 用t-SNE(t-distributed stochastic neighbor embedding)[45]對其進行降維,將768 維向量轉化為32 維向量,并采用熱圖分組展示圖中13 個節點的文本向量。文本向量由上到下包括謠言原文、持認同立場的文本、中立或無關立場的文本以及持不認同立場的文本。如圖8所示,不同內容、立場的文本在部分維度上存在顯著差異,圖中使用方框標記了這些維度,說明文本向量包含了豐富的語義信息,對謠言識別有重要意義。

圖8 PHEME謠言案例——文本向量熱力圖
4.4.2 基于全局的節點特征可解釋性分析
為了進一步探索普遍性的規律,參照上述案例分析對特征權重的處理對PHEME 整體數據集進行統計,得出謠言和非謠言數據中各個特征的相對重要程度,具體如表7 所示。就PHEME 數據集而言,謠言識別模型在進行預測時很大程度上依賴于傳播中的文本信息。其原因可能是,對于簡單的傳播網絡,由于互動者較少,謠言和非謠言之間的網絡結構特征相似,文本特征對于謠言的識別更為重要。

表7 PHEME數據集標準化重要性權重
利用KL 散度(Kullback-Leibler divergence)[46]驗證文本特征在謠言與非謠言上分布的差異性。經計算,謠言的文本特征各維度重要性分布與非謠言的文本特征各維度重要性的KL 散度為0.342,說明謠言和非謠言的文本嵌入特征值在重要性分布上存在顯著差異。
此外,對謠言識別中的用戶屬性特征進行統計分析并做可視化處理,圖9a~圖9c 所示為謠言數據,圖9d~圖9f 所示為非謠言數據;圖中對比了PHEME 數據集中謠言與非謠言傳播樹中用戶平均粉絲用戶數、平均關注用戶數、平均博文發布數的分布情況??梢钥闯?,謠言數據中的平均用戶粉絲用戶數、平均關注用戶數、平均博文發布數均少于非謠言數據,這說明謠言數據中涉及的用戶在社交平臺上的影響力與活躍度均較低。另外,謠言與非謠言數據在用戶屬性特征上的分布相似,削弱了用戶屬性特征在謠言識別模型預測中的重要性。

圖9 PHEME數據集平均用戶數據分布直方圖
本節通過圖神經網絡解釋器的學習分別生成基于節點特征的解釋和基于傳播結構的解釋,結合案例分析與全局統計分析發現:①從傳播結構來看,一方面,非謠言的傳播結構相對較為扁平,往往由信息源直接傳播到網絡中的絕大多數用戶,而謠言傳播縱深往往相對較長,經由較多次轉發引發廣泛傳播與討論;另一方面,非謠言數據傳播核心單一,而謠言數據傳播中且容易出現雙中心甚至多中心的結構,引發觀點的對峙與辯論。②從傳播的用戶及內容來看,謠言文本內容本身是進行謠言識別的根本依據,尤其是在謠言傳播初期等傳播網絡較小的情形下。此外,謠言傳播涉及的用戶通常在社交媒體上影響力較低、活躍度較低。
針對當前謠言識別研究中傳播網絡結構信息應用不足與可解釋性不足的問題,本文提出可解釋圖神經網絡謠言識別框架。一方面,可通過殘差圖卷積網絡謠言識別模型充分挖掘謠言傳播網絡中的結構信息,提高謠言識別準確率;另一方面,可通過圖神經網絡解釋器的學習分別生成基于節點特征的解釋和基于傳播結構的解釋,提升模型的可解釋性與可信度。
根據研究發現,謠言在傳播結構上具有路徑長、中心多的特點,而涉及謠言傳播的用戶通常活躍度與影響力較低。從謠言治理角度來看,在謠言傳播初期,需要更關注謠言文本,通過文本特征對謠言進行有效快速識別;在謠言傳播后期,需要關注引發深度討論與傳播的事件,長而深的傳播鏈條對謠言識別起著關鍵作用。對于社交媒體用戶,在使用社交媒體時,也可以根據本文總結出的謠言傳播的結構特點及內容特征增強對謠言的辨別能力。
本文具有一定的理論意義和實踐價值。
理論意義上,在信息行為的視角下,本文將謠言識別任務結合圖神經網絡進行可解釋分析,可以有效挖掘謠言傳播行為發生的機理,從行為特征以及傳播結構等方面提取模式和規律,從而更好地解釋和預測人們在不同情境下的謠言傳播行為,為驗證現有理論提供實證結果。在信息價值的視角下,本文在社交媒體數據的基礎上自動生成謠言識別的傳播網絡結構和傳播節點屬性的雙重解釋,是決策中信息質量和價值評估理論框架的一種新探索。
實踐價值上,在謠言鑒別方面,圖神經網絡模型可以從海量社交媒體數據中篩選出潛在的謠言信息,并對其進行分析和評估。這有助于平臺管理方了解謠言的傳播路徑、傳播者及其背后的潛在動機,從而更好地洞察謠言事件的本質。在輿情治理方面,社交媒體上的謠言傳播對社會輿情產生深遠影響,管理部門可以利用圖神經網絡模型對謠言進行實時檢測和可解釋性分析。有助于政府部門及時了解社會輿情的變化趨勢、民意的走向,并為政府決策提供依據。
未來可考慮傳播網絡的動態變化,進一步提升謠言識別模型的性能。信息的傳播結構是一個隨時間變化的過程,對此動態網絡進行研究,有助于更深入地理解謠言傳播機制。