畢 蓓,潘慧瑤,陳 峰,隋京言,高 揚(yáng),王耀君*
(1.中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京 100083;2.北京理工大學(xué)計(jì)算機(jī)學(xué)院,北京 100081;3.北京工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院,北京 100124;4.中國科學(xué)院計(jì)算技術(shù)研究所,北京 100190)
(?通信作者電子郵箱wangyaojun@cau.edu.cn)
微博即微型博客,是一種基于用戶關(guān)系分享、傳播以及獲取簡短實(shí)時(shí)信息的廣播式的社交媒體。最早也是最知名的微博是美國Twitter,新浪微博于2009 年面世,是當(dāng)前中文社交媒體中活躍用戶數(shù)最多的微博媒體。本文提及的微博指新浪微博,研究使用的微博謠言數(shù)據(jù)也是來自新浪微博的官方公開數(shù)據(jù)。
微博謠言是指通過新浪微博傳播的,在傳播過程中被證實(shí)為謠言的內(nèi)容。微博謠言的內(nèi)容涉及社會(huì)安全、食品安全、社會(huì)熱點(diǎn)、明星名人等,具有傳播速度快、波及面廣、危害大等特性。部分涉及社會(huì)熱點(diǎn)的謠言具有煽動(dòng)網(wǎng)民負(fù)面情緒及破壞社會(huì)穩(wěn)定、擾亂公共秩序、削弱公權(quán)部門權(quán)威性等特點(diǎn),破壞性極大。如果可以根據(jù)微博的傳播模式,設(shè)計(jì)算法模型在微博謠言傳播的早期自動(dòng)監(jiān)測及預(yù)警,然后進(jìn)一步轉(zhuǎn)交于有公信力的部門及時(shí)甄別,可以降低謠言的破壞性。
異構(gòu)圖(Heterogeneous Graph)是指一個(gè)圖模型中可以存在不止一種節(jié)點(diǎn)和邊的圖,且允許不同類型的節(jié)點(diǎn)擁有不同維度的特征或?qū)傩浴.悩?gòu)圖神經(jīng)網(wǎng)絡(luò)專門用于處理異構(gòu)圖數(shù)據(jù),是當(dāng)前熱門的算法,被應(yīng)用于生物醫(yī)學(xué)[1]、人機(jī)交互[2]和網(wǎng)絡(luò)安全[3]等領(lǐng)域。而引入注意力機(jī)制的異構(gòu)圖注意力網(wǎng)絡(luò)(Heterogeneous graph Attention Network,HAN)在DBLP、IMDB和ACM 等科研平臺(tái)和機(jī)構(gòu)發(fā)布的多行業(yè)公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果都優(yōu)于幾種常用異構(gòu)圖算法[4]。本文主要探索異構(gòu)圖注意力模型應(yīng)用于包括社交媒體的信息傳播網(wǎng)絡(luò)分析場景中的效果,基于異構(gòu)圖注意力網(wǎng)絡(luò)構(gòu)建謠言監(jiān)測模型,通過對(duì)傳播內(nèi)容及傳播網(wǎng)絡(luò)的分析,實(shí)現(xiàn)新浪微博的謠言監(jiān)測。
在早期的研究中,網(wǎng)絡(luò)謠言監(jiān)測工作主要集中于從文本內(nèi)容、用戶信息和傳播結(jié)構(gòu)中手動(dòng)提取特征,訓(xùn)練傳統(tǒng)機(jī)器學(xué)習(xí)分類器實(shí)現(xiàn)謠言識(shí)別和謠言監(jiān)測。例如,Castillo 等[5]的決策樹、Kwon 等[6]的隨機(jī)森林和Yang 等[7]的支持向量機(jī)(Support Vector Machine,SVM)。Ma 等[8]在訓(xùn)練SVM 分類器時(shí),考慮了謠言的時(shí)間特征,利用時(shí)間序列建模技術(shù)來整合各種謠言信息。此外,Ma 等[9]還提出了傳播樹核模型,這是一種基于核的方法,通過分析傳播樹結(jié)構(gòu)之間的相似性來識(shí)別謠言。
近年來出現(xiàn)了一些使用深度學(xué)習(xí)模型來識(shí)別社交媒體謠言的方法。首次應(yīng)用神經(jīng)網(wǎng)絡(luò)模型監(jiān)測謠言的是Ma等[10],他們利用遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)學(xué)習(xí)網(wǎng)絡(luò)謠言的文本表示。Chen 等[11]改進(jìn)了該方法,提出了一種基于RNN 的深度注意力模型,為不同的文本特征分配不同的權(quán)重。Yu 等[12]則提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的方法,利用CNN 學(xué)習(xí)輸入序列的關(guān)鍵特征,形成重要特征之間的高層交互。而Liu等[13]的時(shí)間序列分類器結(jié)合了RNN 和CNN,對(duì)用戶特征在傳播路徑上的全局和局部變化分別進(jìn)行捕獲。最近,Ma等[14]還采用了對(duì)抗學(xué)習(xí)方法,利用生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)的生成器產(chǎn)生沖突和噪聲,迫使鑒別器從增強(qiáng)的、更具挑戰(zhàn)性的例子中學(xué)習(xí)更強(qiáng)的謠言指示性表示。
采用傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行謠言監(jiān)測,不僅費(fèi)時(shí)費(fèi)力,而且這些手動(dòng)提取的特征往往缺乏從謠言傳播網(wǎng)絡(luò)中提取的高層表示。深度學(xué)習(xí)方法能自動(dòng)學(xué)習(xí)謠言的高級(jí)特征,但這些方法不能處理圖或樹的全局關(guān)系,并沒有充分利用微博的傳播信息。
傳統(tǒng)的深度學(xué)習(xí)方法被應(yīng)用在提取歐氏空間數(shù)據(jù)的特征方面取得了巨大的成功,但處理非歐氏空間數(shù)據(jù)的表現(xiàn)卻仍難以使人滿意。為了分析復(fù)雜的圖數(shù)據(jù),Gori 等[15]提出了圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)模型。Kipf 等[16]將深度學(xué)習(xí)中常用于圖像的CNN 推廣到圖數(shù)據(jù)上,創(chuàng)建了圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN),在此基礎(chǔ)上Pei等[17]設(shè)計(jì)了圖卷積深度神經(jīng)網(wǎng)絡(luò)模型Geom-GCN 來更好地捕獲結(jié)構(gòu)信息和長距離依賴。受到注意力機(jī)制的啟發(fā),Veli?kovi? 等[18]設(shè)計(jì)了圖注意力網(wǎng)絡(luò)(Graph Attention neTwork,GAT)。該模型根據(jù)相鄰節(jié)點(diǎn)的表示來計(jì)算每個(gè)節(jié)點(diǎn)的中間表示,而不需要進(jìn)行代價(jià)高昂的矩陣運(yùn)算,但模型只適用于同構(gòu)圖。在探索注意力機(jī)制應(yīng)用于異構(gòu)圖的效果方面,Wang等[4]提出了異構(gòu)圖注意力網(wǎng)絡(luò)(HAN)。
微博是一個(gè)廣播式的社交平臺(tái),用戶通過關(guān)注機(jī)制分享、傳播以及獲取簡短的實(shí)時(shí)信息,這種信息傳播網(wǎng)絡(luò)可以建模為一張異構(gòu)圖[19]。本研究提出了一種基于異構(gòu)圖注意力網(wǎng)絡(luò)的模型MicroBlog-HAN 用于謠言微博的識(shí)別,為了描述簡便,簡稱為MHAN模型。
每一條微博的異構(gòu)圖網(wǎng)絡(luò)包含至少兩個(gè)節(jié)點(diǎn),即微博主貼內(nèi)容及主貼的用戶名;如果有轉(zhuǎn)發(fā)和評(píng)論,每一次轉(zhuǎn)發(fā)及評(píng)論都分別可構(gòu)建為異構(gòu)圖中的一個(gè)節(jié)點(diǎn)。節(jié)點(diǎn)之間用三種邊連接:用戶-微博、用戶-評(píng)論/轉(zhuǎn)發(fā)、微博-評(píng)論/轉(zhuǎn)發(fā),如圖1所示。

圖1 微博的信息傳播網(wǎng)絡(luò)異構(gòu)圖示例Fig.1 Example of heterogeneous graph of microblog information dissemination network
元路徑是微博異構(gòu)圖的重要組成。異構(gòu)圖的一條元路徑Φ[20]可以定義為:

可簡略表示為A1A2…Al+1。該元路徑描述了節(jié)點(diǎn)A1到Al+1的一個(gè)復(fù)合關(guān)系R=R1°R2°...°Rl,°代表關(guān)系的復(fù)合操作。在微博數(shù)據(jù)構(gòu)成的異構(gòu)圖中,微博之間有可能形成多種元路徑連接,不同的元路徑包含不同的語義信息。例如“W1-U1-W2”和“W1-P1-U1-P2-W2”為微博異構(gòu)圖中的兩條元路徑,前者代表兩條微博W1和W2是由同一用戶U1發(fā)布的,后者代表兩條微博W1和W2被用戶U1轉(zhuǎn)發(fā)或評(píng)論。
給定元路徑Φ,節(jié)點(diǎn)i基于元路徑Φ的鄰居被定義為通過元路徑Φ與節(jié)點(diǎn)i連接的節(jié)點(diǎn)集。需要特別說明的是,節(jié)點(diǎn)的鄰居包括自身。同樣以微博異構(gòu)圖為例,假設(shè)微博Wi由用戶Uj發(fā)布,給定元路徑模式“W1-U1-W2”,微博Wi基于該元路徑模式的鄰居是用戶Uj發(fā)布的所有微博的集合,包括Wi本身。
通過2.1 節(jié)和2.2 節(jié)定義了異構(gòu)圖元路徑和基于元路徑的鄰居后,可進(jìn)一步定義異構(gòu)圖注意力網(wǎng)絡(luò)。HAN 模型采用分層的注意力結(jié)構(gòu):第一層是節(jié)點(diǎn)級(jí)注意力,目的是學(xué)習(xí)每一個(gè)節(jié)點(diǎn)基于元路徑的鄰居的權(quán)重,并對(duì)其進(jìn)行聚合,得到特定語義的嵌入;第二層是語義級(jí)注意力,目的是學(xué)習(xí)元路徑之間的差異,得到特定語義的節(jié)點(diǎn)嵌入的最優(yōu)加權(quán)組合[4]。圖2描述了這兩個(gè)層級(jí)的注意力聚合過程。下面分別對(duì)兩個(gè)層級(jí)的構(gòu)建原理和構(gòu)建過程進(jìn)行詳細(xì)描述。

圖2 HAN模型的分層注意力結(jié)構(gòu)Fig.2 Hierarchical attention structure of HAN model
2.3.1 節(jié)點(diǎn)級(jí)注意力
首先通過微博的傳播網(wǎng)絡(luò)構(gòu)建元路徑Φ1(W1-U1-W2)和Φ2(W1-P1-U1-P2-W2);然后利用自注意力機(jī)制學(xué)習(xí)微博節(jié)點(diǎn)基于元路徑的鄰居的重要性。利用word2vec 提取微博i的文本特征作為節(jié)點(diǎn)i的初始嵌入hi;接著以初始嵌入為輸入,利用節(jié)點(diǎn)級(jí)注意力深層次神經(jīng)網(wǎng)絡(luò)計(jì)算元路徑權(quán)重;最后,對(duì)所有通過softmax歸一化,得到權(quán)重系數(shù)。詳細(xì)計(jì)算過程如下:

將鄰居節(jié)點(diǎn)的特征和相應(yīng)的權(quán)重系數(shù)聚合,就可以得到微博異構(gòu)圖節(jié)點(diǎn)i基于元路徑Φ的嵌入。為了穩(wěn)定訓(xùn)練過程,模型采用多頭注意力機(jī)制,重復(fù)計(jì)算節(jié)點(diǎn)級(jí)注意力K次并連接計(jì)算結(jié)果,作為微博i特定語義的嵌入,最終節(jié)點(diǎn)i的節(jié)點(diǎn)級(jí)節(jié)點(diǎn)嵌入的計(jì)算公式為:

2.3.2 語義級(jí)注意力
將所有微博節(jié)點(diǎn)的特征輸入節(jié)點(diǎn)級(jí)注意力后,可以得到兩組語義特定的節(jié)點(diǎn)嵌入,記作。語義特定的節(jié)點(diǎn)嵌入只能從一個(gè)方面反映節(jié)點(diǎn),只能反映被同一用戶發(fā)布的語義,只能反映被同一用戶轉(zhuǎn)發(fā)/評(píng)論的語義。為了融合兩種語義,學(xué)習(xí)更全面的節(jié)點(diǎn)嵌入,使用語義級(jí)注意力學(xué)習(xí)每個(gè)元路徑的重要性,softmax 歸一化得到每個(gè)元路徑的權(quán)重系數(shù),計(jì)算過程如下。

其中:attsem是語義級(jí)注意的深層神經(jīng)網(wǎng)絡(luò),模型結(jié)構(gòu)如圖3 所示;W為權(quán)重矩陣;b為偏置;q為語義級(jí)注意力向量;V為微博節(jié)點(diǎn)集,||V表示微博節(jié)點(diǎn)數(shù)目。q與特定語義的節(jié)點(diǎn)嵌入的非線性變換做內(nèi)積,對(duì)結(jié)果進(jìn)行平均得到wΦi,wΦi可以用來衡量元路徑Φi的重要性。

圖3 attsem神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of attsem neural network

Z為聚合了元路徑Φ1和Φ2的語義信息的語義級(jí)節(jié)點(diǎn)嵌入,包含被同一用戶發(fā)布、轉(zhuǎn)發(fā)和評(píng)論的語義信息,是最終的微博節(jié)點(diǎn)嵌入,可以輸入到多層感知器中執(zhí)行二分類任務(wù),使用交叉熵作為損失函數(shù)。
模型在兩個(gè)真實(shí)的微博謠言數(shù)據(jù)集上對(duì)模型進(jìn)行評(píng)估,分別是Weibo2016 和Weibo2021。其中:Weibo2016 數(shù)據(jù)集是由香港浸會(huì)大學(xué)的Ma 等[10]提供,其謠言微博數(shù)據(jù)來自2016年之前微博社區(qū)管理中心公布的不實(shí)微博信息;Weibo2021數(shù)據(jù)集是通過爬蟲從微博社區(qū)管理中心的公開數(shù)據(jù)進(jìn)行采集獲取,采集了2019—2021 年間被官方證實(shí)的謠言微博及其評(píng)論轉(zhuǎn)發(fā)數(shù)據(jù)。為保證數(shù)據(jù)樣本均衡,同時(shí)也采集了同時(shí)間段的數(shù)量相近的非謠言微博。表1 展示了兩個(gè)數(shù)據(jù)集的樣本信息。其中,本文研究采集的Weibo2021 數(shù)據(jù)集已上傳到https://github.com/lemon-coder/Weibo2021-dataset。

表1 Weibo2016和Weibo2021數(shù)據(jù)集的統(tǒng)計(jì)信息Tab.1 Statistics of Weibo2016 and Weibo2021 datasets
MHAN 模型使用8 個(gè)注意力頭,并用隨機(jī)梯度下降法更新參數(shù),Adam 算法優(yōu)化模型,學(xué)習(xí)率為0.005。訓(xùn)練過程在200 個(gè)epoch 上迭代。每個(gè)微博節(jié)點(diǎn)初始的特征向量的維數(shù)為6 000,訓(xùn)練集與測試集的比例為6∶4。實(shí)驗(yàn)采用了如下4個(gè)結(jié)果評(píng)價(jià)指標(biāo)。
準(zhǔn)確率:在謠言及非謠言數(shù)據(jù)上的識(shí)別準(zhǔn)確率;
精確率:正確預(yù)測為正的占全部預(yù)測為正的比例;
召回率:正確預(yù)測為正的占全部實(shí)際為正的比例;
F1打分:精確率和召回率的調(diào)和平均數(shù)。
基于Weibo2016 數(shù)據(jù)集,將MHAN 及MHAN 衍生模型與以下模型比較,實(shí)驗(yàn)結(jié)果如表2 所示。其中MHAN 及其衍生模型以外模型的實(shí)驗(yàn)結(jié)果來自Ma等[10]的研究。

表2 各模型在Weibo2016數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果Tab.2 Experimental results of different models on Weibo2016 dataset
DTR[21]:基于決策樹的模型,通過查詢短語檢測謠言的排序方法。
DTC[5]:利用謠言特征組合的決策樹模型。
RFC[6]:利用謠言特征組合的隨機(jī)森林模型。
SVM-RBF[7]:結(jié)合謠言特征的RBF核支持向量機(jī)模型。
SVM-TS[8]:對(duì)謠言特征隨時(shí)間的變化進(jìn)行建模的支持向量機(jī)模型。
GRU[10]:基于RNN,從用戶評(píng)論中學(xué)習(xí)時(shí)態(tài)語言模式的模型。
MHANWUW:只考慮“W1-U1-W2”元路徑的MHAN。
MHANWPUPW:只考慮“W1-P1-U1-P2-W2”元路徑的MHAN。
此外,使用了近3 年的Weibo2021 數(shù)據(jù)集對(duì)MHAN 進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。

表3 MHAN模型在Weibo2021數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果Tab.3 Experimental results of MHAN models on Weibo2021 dataset
如表2 所示,依賴人工提取的機(jī)器學(xué)習(xí)謠言識(shí)別模型(DTR、DTC、RFC、SVM-RDF 和SVM-TS)在Weibo2016 數(shù)據(jù)集上表現(xiàn)普遍較差,測試集準(zhǔn)確率都在90%以下。這說明人工提取的文本、用戶和傳播等特征只能在一定程度上反映謠言特征,缺乏更高層的表示。
GRU 在測試集上的準(zhǔn)確率和F1 都高于傳統(tǒng)機(jī)器學(xué)習(xí)分類器。這是因?yàn)椋阂环矫?,作為神?jīng)網(wǎng)絡(luò)模型,GRU 能自動(dòng)學(xué)習(xí)深層的潛在特征;另一方面,GRU 能捕捉相關(guān)微博的信息隨時(shí)間的變化。
MHAN 的表現(xiàn)優(yōu)于其他模型,測試集準(zhǔn)確率達(dá)到了91.2%,說明模型泛化能力較強(qiáng)。該模型具有良好的可解釋性,利用注意力機(jī)制分別提取“被同一人發(fā)布”和“同一人轉(zhuǎn)發(fā)評(píng)論”這兩種語義信息,最后融合兩種語義,充分挖掘了微博異構(gòu)圖基于語義的結(jié)構(gòu)信息。對(duì)比MHAN、MHANWUW和MHANWPUPW在測試集上的準(zhǔn)確率和F1 都較低,說明在謠言監(jiān)測任務(wù)中,這兩個(gè)元路徑的語義都是有意義的。
表3 的實(shí)驗(yàn)結(jié)果顯示,在Weibo2021 數(shù)據(jù)集上,MHAN 模型的準(zhǔn)確率和F1都在85%以上,而MHANWUW和MHANWPUPW表現(xiàn)較差,進(jìn)一步驗(yàn)證了MHAN 模型的有效性,且能適用于泛化的數(shù)據(jù)集。
同時(shí),對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),發(fā)布微博謠言的用戶往往還具有發(fā)布其他不實(shí)言論的歷史。另外一個(gè)有意思的發(fā)現(xiàn)是:謠言舉報(bào)者常常是同一批用戶,說明謠言的受眾有重疊且有些用戶有很強(qiáng)的謠言甄別能力和檢舉意識(shí)。
本文將微博數(shù)據(jù)構(gòu)建成一張異構(gòu)圖,并利用異構(gòu)圖注意力網(wǎng)絡(luò)建立微博謠言監(jiān)測模型。經(jīng)過在謠言實(shí)驗(yàn)數(shù)據(jù)的驗(yàn)證,結(jié)果表明MicroBlog-HAN 模型在謠言分類任務(wù)上的表現(xiàn)優(yōu)于其他模型。
在未來的工作中,將嘗試結(jié)合圖片、視頻和用戶信息提取微博更全面的特征,在保障召回率的前提下,進(jìn)一步提高分類的準(zhǔn)確率。另外,將探索自動(dòng)提取元路徑的方法,進(jìn)一步挖掘微博異構(gòu)圖的信息。