





摘 要:在謠言檢測(cè)的問(wèn)題上,現(xiàn)有的研究方法無(wú)法有效地表達(dá)謠言在社交網(wǎng)絡(luò)傳播的異構(gòu)圖結(jié)構(gòu)特征,并且沒(méi)有引入外部知識(shí)作為內(nèi)容核實(shí)的手段。因此,提出了引入知識(shí)表示的圖卷積網(wǎng)絡(luò)謠言檢測(cè)方法,其中知識(shí)圖譜作為額外先驗(yàn)知識(shí)來(lái)幫助核實(shí)內(nèi)容真實(shí)性。采用預(yù)訓(xùn)練好的詞嵌入模型和知識(shí)圖譜嵌入模型獲取文本表示后,融合圖卷積網(wǎng)絡(luò)的同時(shí),能夠在謠言傳播的拓?fù)鋱D中更好地進(jìn)行特征提取以提升謠言檢測(cè)的精確率。實(shí)驗(yàn)結(jié)果表明,該模型能夠更好地對(duì)社交網(wǎng)絡(luò)中的謠言進(jìn)行檢測(cè)。與基準(zhǔn)模型的對(duì)比中,在Weibo數(shù)據(jù)集上的精確率達(dá)到96.1%,在Twitter15和Twitter16數(shù)據(jù)集上的F1值分別提升了3.1%和3.3%。消融實(shí)驗(yàn)也表明了該方法對(duì)謠言檢測(cè)皆有明顯提升效果,同時(shí)驗(yàn)證了模型的有效性和先進(jìn)性。
關(guān)鍵詞:知識(shí)表示; 圖卷積網(wǎng)絡(luò); 謠言檢測(cè); 知識(shí)圖譜
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2022)07-017-2032-05
doi:10.19734/j.issn.1001-3695.2022.01.0003
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(U193607);國(guó)家重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(2020FYA0607902)
作者簡(jiǎn)介:郭秋實(shí)(1997-),男(通信作者),吉林長(zhǎng)春人,碩士研究生,主要研究方向?yàn)樽匀徽Z(yǔ)言處理和數(shù)據(jù)挖掘(1415142293@qq.com);李晨曦(1995-),男,湖北武漢人,碩士,主要研究方向?yàn)槿斯ぶ悄芎椭R(shí)圖譜;劉金碩(1974-),女,吉林遼源人,教授,博導(dǎo),博士,主要研究方向?yàn)樾畔踩蛿?shù)據(jù)挖掘.
Rumor detection with knowledge representation and graph convolutional network
Guo Qiushi?,Li Chenxi,Liu Jinshuo
(Key Laboratory of Aerospace Information Security and Trusted Computing,Ministry of Education,School of Cyber Science and Engineering,Wuhan University,Wuhan 430072,China)
Abstract:Existing research methods have not effectively expressed the structural features of the heterogeneous graph of rumors and not introduced external knowledge as a means of content verification.Therefore,this paper proposed a rumor detection method with knowledge representation and graph convolutional network.It introduced the knowledge graph as additional prior knowledge to verify the authenticity of the content.After applying pre-training word embedding and knowledge graph embedding models to obtain text representation and fusing graph convolutional network simultaneously,it could extract features well in the topological graph of rumor propagation to improve the accuracy of rumor detection.Compared with the baseline methods,experimental results show that the proposed model reaches 96.1% at precision on Weibo,3.1% improvement at F1 on Twitter15 and 3.3% improvement at F1 on Twitter16 respectively.The ablation experiment also shows this method has a significant improvement on rumor detection,and simultaneously verifies the effectiveness and progressiveness of this model.
Key words:knowledge representation;graph convolutional network;rumor detection;knowledge graph
0 引言
過(guò)去的數(shù)年,互聯(lián)網(wǎng)用戶數(shù)量一直保持著激增的勢(shì)頭,國(guó)內(nèi)新浪微博和國(guó)外推特等社交媒體被廣泛應(yīng)用。社交媒體中的謠言具有傳播速度快、涉及范圍廣且辟謠成本大的特點(diǎn),嚴(yán)重影響了網(wǎng)民獲取信息的真實(shí)性以及社會(huì)網(wǎng)絡(luò)健康生態(tài)[1]。近年來(lái),國(guó)內(nèi)外研究團(tuán)隊(duì)針對(duì)謠言識(shí)別這一研究熱點(diǎn)提出了許多理論和方法。傳統(tǒng)的檢測(cè)方法主要采用了有監(jiān)督學(xué)習(xí)的思路,例如人工構(gòu)造用戶特征、文本內(nèi)容和謠言傳播模式。Qazvinia等人[2]對(duì)Twitter中產(chǎn)生的謠言進(jìn)行檢測(cè),選取了推特內(nèi)容特征、用戶行為特征和推特標(biāo)簽(“#”、短鏈接等)特征。Cao等人[3]將謠言信息的研究分為了基于手工特征、基于傳播以及基于深度神經(jīng)網(wǎng)絡(luò)的研究方法。然而這些基于人工構(gòu)造特征的模型耗時(shí)耗力且忽略了先驗(yàn)知識(shí)的引入,無(wú)法提取更精細(xì)的文本特征。
隨著深度學(xué)習(xí)的高速發(fā)展,有學(xué)者使用深度學(xué)習(xí)方法從社交媒體謠言傳播路徑或者網(wǎng)絡(luò)中,捕獲謠言隨時(shí)間傳播的序列特征,以構(gòu)建時(shí)間序列特征模型。Jin等人[4]提出了一種新穎的遞歸神經(jīng)網(wǎng)絡(luò)保持機(jī)制,融合文本和社交網(wǎng)絡(luò)特征進(jìn)行有效的謠言檢測(cè)。Bao等人[5]利用BP神經(jīng)網(wǎng)絡(luò)模型對(duì)微博謠言進(jìn)行檢測(cè),選取了相關(guān)微博的數(shù)量、客觀評(píng)論數(shù)和話題類型,通過(guò)引入?yún)?shù)調(diào)控的激活函數(shù)和加快網(wǎng)絡(luò)學(xué)習(xí)速度的沖量項(xiàng)來(lái)提升模型效果。文獻(xiàn)[6]對(duì)于帶有疑問(wèn)的帖子進(jìn)行聚類,進(jìn)而構(gòu)建謠言分類器,通過(guò)社交媒體轉(zhuǎn)發(fā)的跟帖中的質(zhì)疑信號(hào)來(lái)判斷謠言與否。Yang等人[7]通過(guò)多重卷積提取的文字和圖像的潛在特征,并最終結(jié)合圖像和文字的顯示特征,將所有特征投影到統(tǒng)一的特征空間中進(jìn)行訓(xùn)練分類。雖然上述深度神經(jīng)網(wǎng)絡(luò)的方法可以得到局部鄰域內(nèi)的相關(guān)特征,但是不能處理圖或樹(shù)上的全局結(jié)構(gòu)關(guān)聯(lián),即忽視了謠言散布的全局結(jié)構(gòu)特征。
基于此,本文充分考慮了引入知識(shí)圖譜作為額外先驗(yàn)知識(shí)的重要性,并針對(duì)社交網(wǎng)絡(luò)的異構(gòu)圖結(jié)構(gòu)使用圖卷積挖掘節(jié)點(diǎn)傳播行為,以更好地進(jìn)行文本表示。本文提出的方法在三個(gè)開(kāi)源數(shù)據(jù)集上的檢測(cè)結(jié)果均有明顯提升。模型的整體框架如圖1所示。
1 引入知識(shí)圖譜的文本表示
在社交媒體謠言檢測(cè)任務(wù)中,本文考慮了外部知識(shí)的引入,添加知識(shí)圖譜作為額外的先驗(yàn)知識(shí)。在知識(shí)圖譜嵌入的模型基礎(chǔ)上,首先提取文本的實(shí)體表示,并進(jìn)行實(shí)體嵌入和文本詞嵌入。接著融合多頭注意力層獲取文本高階表示,最后將兩種表示結(jié)果相結(jié)合。
1.1 知識(shí)圖譜嵌入
本文為引入知識(shí)圖譜作為額外先驗(yàn)知識(shí)表示,提出了生成式對(duì)抗網(wǎng)絡(luò)的知識(shí)圖譜嵌入模型[8]。其中生成式對(duì)抗網(wǎng)絡(luò)的生成器產(chǎn)生負(fù)樣本集合并產(chǎn)生候選實(shí)體的類型;判別器則同時(shí)接受正負(fù)樣本并計(jì)算它們的得分。
具體地,本文選取了TransE模型來(lái)作為獨(dú)立的生成器和判別器。TransE是基于實(shí)體和關(guān)系的向量表示,并利用嵌入向量之間的距離進(jìn)行建模[9]。給定一組正樣本三元組實(shí)例向量(h,r,t),分別表示頭部實(shí)體向量、關(guān)系向量和尾部實(shí)體向量,核心目標(biāo)是使h+r≈t,即模型的打分函數(shù)如下所示。
其中:‖x‖表示歐幾里德范數(shù)。
當(dāng)生成器以正樣本作為輸入時(shí),本文按照三元組的類型來(lái)決定替換頭部實(shí)體和尾部實(shí)體的概率。當(dāng)三元組類型為多對(duì)一時(shí),即替換尾部實(shí)體;當(dāng)三元組類型為一對(duì)多時(shí),即替換頭部實(shí)體[10]。形式化表示來(lái)說(shuō),對(duì)于隨機(jī)采樣的包含正負(fù)樣本的候選實(shí)體集合,生成器初始化一個(gè)TransE模型,利用式(1)的打分函數(shù)計(jì)算所有候選正樣本得分。最后通過(guò)歸一化表示,得到對(duì)于正樣本的采樣概率,如式(2)所示。
其中:ti和tj表示候選實(shí)體集合中不同的尾部實(shí)體。對(duì)于計(jì)算得到的所有采樣概率,概率最大值即正樣本輸出。
對(duì)于采用TransE模型的判別器來(lái)說(shuō),力求正樣本的打分函數(shù)fr(h,t)迫近于0而負(fù)樣本的打分函數(shù)fr(h′,t′)不為0[11],這樣可以使模型在訓(xùn)練過(guò)程中有效清晰地分離正負(fù)樣本。然而,對(duì)于效果優(yōu)秀的生成器來(lái)說(shuō),其產(chǎn)生的正樣本集合(h,r,t)對(duì)應(yīng)的打分函數(shù)fr(h,t)應(yīng)當(dāng)更小,這是因?yàn)槟:y以辨別的正負(fù)樣本可以提高模型的實(shí)例嵌入效果,為后續(xù)的知識(shí)表示提供良好的預(yù)訓(xùn)練效果。
1.2 知識(shí)表示
在知識(shí)表示部分,本文采用預(yù)訓(xùn)練好的詞嵌入模型和知識(shí)圖譜嵌入模型分別進(jìn)行文本詞向量表示和文本的實(shí)體表示;然后融合多頭注意力層提取詞向量和實(shí)體向量的高階表示;最后結(jié)合謠言傳播圖輸送到圖卷積網(wǎng)絡(luò)進(jìn)一步特征提取。
其中:Q=K=V=X;dx為特征維數(shù)。然后在多頭注意力機(jī)制的輸出H^基礎(chǔ)之上,引入兩層全連接前饋神經(jīng)網(wǎng)絡(luò),該全連接層的表達(dá)式如下:
其中:TH1、TH2、bH1、bH2為參數(shù)矩陣和偏置矩陣;12…n為全連接層表達(dá)結(jié)果;σ(x)=max(0,x)表示ReLU激活函數(shù)。
2 融合圖卷積網(wǎng)絡(luò)的謠言檢測(cè)方法
由于社交媒體謠言傳播路徑為一種異構(gòu)圖結(jié)構(gòu)[12],所以,本文利用圖卷積網(wǎng)絡(luò)來(lái)獲取社交媒體謠言的傳播特征。融合圖卷積網(wǎng)絡(luò)的謠言檢測(cè)方法如圖2所示。
2.1 建立傳播圖
定義社交媒體謠言檢測(cè)數(shù)據(jù)集為集合C={c1,c2,…,cm},其中ci第i個(gè)謠言事件,m表示數(shù)據(jù)集中的謠言事件數(shù)量。每個(gè)謠言事件ci具體地表示為ci={mi,ni1,ni2,…,nini-1,Gi},其中mi表示謠言事件的原始帖子,nij表示第j個(gè)轉(zhuǎn)發(fā)帖子,ni表示謠言事件ci包含的初始帖子數(shù)量,Gi為謠言傳播圖。傳播圖Gi形式化表示為Gi={Ei,Vi},其中節(jié)點(diǎn)集合為Vi={mi,ni1,ni2,nini-1},邊集合表示為Ei={bipq|p,q=0,1,…,ni-1}。在傳播圖的表示中,mi代表傳播圖的根節(jié)點(diǎn),bipq表示節(jié)點(diǎn)之間社交媒體的傳播狀態(tài)。例如,節(jié)點(diǎn)ni1與ni2的微博或者推特存在轉(zhuǎn)發(fā)或者評(píng)論狀態(tài),在傳播圖中則存在一條有向邊bi21。
在謠言傳播圖矩陣當(dāng)中,鄰接矩陣A涵蓋了從根節(jié)點(diǎn)到下游節(jié)點(diǎn)的傳播文本信息。為了緩解過(guò)擬合的問(wèn)題,本文采用去邊(DropEdge)[14]操作,即在每一次訓(xùn)練過(guò)程中,隨機(jī)在輸入圖信息當(dāng)中除去一些邊用來(lái)形成不同的傳播圖,從而提高模型的泛化效果。形式化表示為對(duì)于謠言傳播圖的鄰接矩陣A,在DropEdge操作之后,新的鄰接矩陣A′可表示為
2.3 融合圖卷積的謠言分類
本文利用知識(shí)表示和圖卷積網(wǎng)絡(luò)來(lái)刻畫(huà)謠言分類模型,用謠言事件屬于標(biāo)簽的最大概率結(jié)果來(lái)判別是否為謠言。由于圖卷積輸出的特征矩陣Z包含長(zhǎng)度不一的文本序列長(zhǎng)度,所以,本文對(duì)圖卷積層輸出的特征矩陣進(jìn)行均值池化以獲取所有節(jié)點(diǎn)的傳播信息。均值池化公式如下所示。
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
本文選擇三種社交媒體謠言數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集。第一個(gè)數(shù)據(jù)集是Ma等人[16]創(chuàng)建的Weibo數(shù)據(jù)集,經(jīng)整理該數(shù)據(jù)集包含2 212個(gè)謠言事件和2 248個(gè)非謠言事件;第二個(gè)數(shù)據(jù)集是Liu等人[17]創(chuàng)建的Twitter15數(shù)據(jù)集,經(jīng)整理其中包括94個(gè)非謠言事件和446個(gè)謠言事件;第三個(gè)數(shù)據(jù)集是Ma等人[18]創(chuàng)建的Twitter16數(shù)據(jù)集,經(jīng)整理其中包含了499個(gè)謠言事件和493個(gè)非謠言事件。在這三種數(shù)據(jù)集中,節(jié)點(diǎn)表示社交媒體用戶,邊表示轉(zhuǎn)發(fā)或者評(píng)論之間的關(guān)系。其中,Twitter15和Twitter16數(shù)據(jù)集的每個(gè)事件的標(biāo)簽都是根據(jù)辟謠網(wǎng)站中文章的真實(shí)性標(biāo)簽標(biāo)注(snopes.com和Emergent.info)。三種數(shù)據(jù)集包含的關(guān)鍵參數(shù)如表1所示。
3.2 創(chuàng)建實(shí)驗(yàn)知識(shí)圖譜
在創(chuàng)建實(shí)驗(yàn)所需的知識(shí)圖譜中,本文針對(duì)不同的數(shù)據(jù)集相應(yīng)地構(gòu)建了不同的知識(shí)圖譜類型。針對(duì)中文Weibo數(shù)據(jù)集,本文利用CN-DBPedia的公開(kāi)API獲取數(shù)據(jù)創(chuàng)建中文知識(shí)圖譜。針對(duì)英文Twitter15和Twitter16數(shù)據(jù)集,利用DBPedia創(chuàng)建相應(yīng)的英文知識(shí)圖譜。具體地,本文從謠言數(shù)據(jù)集提取謠言類型的實(shí)體,將實(shí)體連接到開(kāi)放的知識(shí)圖譜當(dāng)中并提取與這些實(shí)體相連接的關(guān)系,基于提取的關(guān)系和實(shí)體創(chuàng)建實(shí)驗(yàn)所需的知識(shí)圖譜類型。
在本文的實(shí)驗(yàn)當(dāng)中,實(shí)驗(yàn)參數(shù)設(shè)置如下:使用隨機(jī)梯度下降算法更新實(shí)驗(yàn)參數(shù),并采用Adam算法來(lái)優(yōu)化本文模型;在Twitter15和Twitter16數(shù)據(jù)集的學(xué)習(xí)率設(shè)置為0.000 2和0.000 5,Weibo數(shù)據(jù)集的學(xué)習(xí)率設(shè)置為0.000 5。每個(gè)節(jié)點(diǎn)的隱層特征向量維度為64;在防止過(guò)擬合DropEdge操作中,下降率和丟棄率分別設(shè)置成0.2和0.5,迭代次數(shù)為200輪,其中驗(yàn)證損失函數(shù)不再下降時(shí)使用早停法(early stopping)。
3.3 實(shí)驗(yàn)設(shè)置
3.3.1 評(píng)價(jià)指標(biāo)
本文將社交媒體謠言檢測(cè)任務(wù)視為二分類問(wèn)題,為評(píng)估模型性能,采用經(jīng)典的精確率(precision)、召回率(recall)和F1值作為評(píng)價(jià)指標(biāo)。其中三種評(píng)價(jià)指標(biāo)的定義式如下:
其中:TP表示預(yù)測(cè)標(biāo)簽和真實(shí)標(biāo)簽皆為謠言事件的概率;FP表示真實(shí)標(biāo)簽為非謠言事件但預(yù)測(cè)標(biāo)簽為謠言事件的概率;FN表示真實(shí)標(biāo)簽為謠言事件但預(yù)測(cè)標(biāo)簽為非謠言事件的概率。
3.3.2 基準(zhǔn)方法
本文選取了在謠言檢測(cè)領(lǐng)域中取得過(guò)突出效果的模型作為基準(zhǔn)方法,并在三種數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。對(duì)比實(shí)驗(yàn)所采用的基準(zhǔn)方法如下:
a)Bi-PG[12]。由Bian等人提出了一種雙向傳播圖結(jié)構(gòu)的模型,能夠在更細(xì)微的文本特征上進(jìn)行謠言檢測(cè)任務(wù)。
b)PPC[13]。一種通過(guò)提取謠言傳播過(guò)程的用戶特征,并結(jié)合深度神經(jīng)網(wǎng)絡(luò)的謠言檢測(cè)模型。
c)CIAM[19]。將用戶可信度信息和注意力機(jī)制加入到謠言檢測(cè)層當(dāng)中,并使用多任務(wù)學(xué)習(xí)框架進(jìn)行訓(xùn)練。
d)DTC[20]。由Castillo等人提出的一種采取人工手段提取謠言特征,并構(gòu)建分類決策樹(shù)來(lái)對(duì)謠言進(jìn)行判別的分類方法。
e)RVNN[21]。該方法使用了樹(shù)狀遞歸神經(jīng)網(wǎng)絡(luò)在Twitter15和Twitter16數(shù)據(jù)集上建模來(lái)進(jìn)行謠言檢測(cè)任務(wù)。
f)MKN[22]。一種從真實(shí)世界的知識(shí)圖譜中檢索外部知識(shí),以補(bǔ)充謠言帖子短文本的語(yǔ)義表示的謠言檢測(cè)模型。
3.4 實(shí)驗(yàn)結(jié)果及分析
3.4.1 對(duì)比實(shí)驗(yàn)結(jié)果及分析
表2~4展示了本文的模型和基準(zhǔn)方法在三種數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果。根據(jù)實(shí)驗(yàn)數(shù)據(jù)集的類型,本文在二分類類型的Weibo數(shù)據(jù)集中給出了真謠言事件和假謠言事件的準(zhǔn)確率、召回率和F1值;對(duì)于Twitter15和Twitter16數(shù)據(jù)集包含了四種不同形式的謠言類別,即非謠言事件、假謠言事件、真謠言事件和未被證實(shí)的謠言事件。因此,本文在Twitter15和Twitter16數(shù)據(jù)集上采取F1值評(píng)測(cè)指標(biāo)來(lái)全面刻畫(huà)模型的性能。
例如,在Twitter16數(shù)據(jù)集中,有這樣一段假謠言事件:“Hillary Clinton and her State department were actively arming Islamic jihadists,which includes ISIS.”,從中可以提取到一組負(fù)類三元組(Hillary Clinton,actively arming,Islamic jihadists)。對(duì)應(yīng)的真謠言事件為:“Hillary Clinton-led state department had approved weapon shipments to Libya during the intervention in 2011,and that those weapons had later ended up in the hands of jihadists.”,這里提取到的三元組包括(Hillary State Department,had approved,weapon shipments)以及(weapon shipments,is to,Libya)。本文即利用生成式對(duì)抗網(wǎng)絡(luò)的知識(shí)圖譜嵌入模型對(duì)正負(fù)樣本進(jìn)行打分并計(jì)算采樣概率,將概率最大化的輸出值作為實(shí)體表示。在社交媒體的轉(zhuǎn)發(fā)或評(píng)論中,本文通過(guò)構(gòu)建傳播圖獲取謠言的分類標(biāo)簽,并將本方案和取得良好效果的基準(zhǔn)模型進(jìn)行了對(duì)比。
根據(jù)對(duì)比實(shí)驗(yàn)結(jié)果,可以得出以下結(jié)論:
a)相較于人工構(gòu)造特征的方法,基于深度學(xué)習(xí)的模型在三種評(píng)測(cè)指標(biāo)均有較高的準(zhǔn)確率。這是因?yàn)槿斯?gòu)造的特征依賴性大且對(duì)數(shù)據(jù)不敏感,耗時(shí)耗力,導(dǎo)致最終的謠言檢測(cè)效果不理想。針對(duì)目前流行的謠言檢測(cè)模型,本文提出的引入知識(shí)表示的圖卷積網(wǎng)絡(luò)謠言檢測(cè)方法在三種數(shù)據(jù)集上皆有明細(xì)提升效果。例如,在Twitter16數(shù)據(jù)集關(guān)于希拉里的謠言性質(zhì)屬于假謠言事件。針對(duì)希拉里假謠言事件所構(gòu)成的三元組(h,r,t),采取預(yù)訓(xùn)練好的詞嵌入模型和知識(shí)圖譜嵌入模型獲取文本表示,接著基于本文所構(gòu)建的圖卷積模型進(jìn)行特征提取,在F1值上達(dá)到了0.828。其中,在Weibo數(shù)據(jù)集上真謠言事件的準(zhǔn)確率達(dá)到了96.1%,在Twitter15和Twitter16數(shù)據(jù)集上真謠言事件對(duì)比現(xiàn)有表現(xiàn)優(yōu)越的基準(zhǔn)模型在F1值分別提升了3.1%和3.3%。
b)CIAM模型在規(guī)模更大的Weibo數(shù)據(jù)集上表現(xiàn)不佳,Weibo數(shù)據(jù)集包含大量轉(zhuǎn)發(fā)評(píng)論和跟帖,在線性傳播結(jié)構(gòu)中的謠言檢測(cè)性能較差。RVNN模型認(rèn)為傳播圖中的所有節(jié)點(diǎn)貢獻(xiàn)度相同,在傳播過(guò)程中對(duì)新的傳播節(jié)點(diǎn)敏感,導(dǎo)致模型無(wú)法精確提取更精細(xì)的文本特征,分類效果不理想。
c)對(duì)比Bi-PG模型不難發(fā)現(xiàn),該模型僅僅提取內(nèi)容本身特征,缺乏外部知識(shí)的導(dǎo)入,容易引起詞之間的歧義發(fā)生,容易導(dǎo)致正負(fù)類謠言分類的準(zhǔn)確率變低。盡管PPC模型在社交媒體謠言傳播中使用了線性結(jié)構(gòu)進(jìn)行高維特征提取,然而其忽略了謠言信息傳播過(guò)程的異構(gòu)圖結(jié)構(gòu)。MKN方法從知識(shí)圖譜中檢索外部知識(shí),但是在訓(xùn)練節(jié)點(diǎn)表達(dá)時(shí)過(guò)于依賴節(jié)點(diǎn)之間的屬性,因此沒(méi)有達(dá)到最佳效果。相反,本文提出的模型在各種情況下皆有穩(wěn)定準(zhǔn)確的效果,展示了其穩(wěn)定性和魯棒性。
3.4.2 消融實(shí)驗(yàn)結(jié)果及分析
為了驗(yàn)證引入知識(shí)圖譜、圖卷積結(jié)構(gòu)對(duì)于謠言檢測(cè)模型的有效性,本文針對(duì)Weibo數(shù)據(jù)集進(jìn)行了消融實(shí)驗(yàn)。消融實(shí)驗(yàn)結(jié)果如表5所示。
在表5中,base模型表示使用簡(jiǎn)單的詞向量文本表示方法并使用多頭注意力機(jī)制提取文本特征;KG(knowledge graph)表示在知識(shí)圖譜嵌入的基礎(chǔ)上結(jié)合了多頭注意力機(jī)制提取文本特征;GCN(graph convolutional network)表示有向傳播圖卷積網(wǎng)絡(luò);UDGCN(undirectional convolutional network)為無(wú)向傳播圖卷積網(wǎng)絡(luò)。
從對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn)的結(jié)果可以看出,本文使用的知識(shí)表示方法在詞向量的基礎(chǔ)之上引入知識(shí)圖譜作為先驗(yàn)知識(shí)表示,對(duì)實(shí)體以及文本內(nèi)容起到更好的表示作用,有利于提取更精細(xì)的謠言文本特征,提升模型的泛化能力。
為了驗(yàn)證使用圖卷積網(wǎng)絡(luò)進(jìn)行謠言檢測(cè)的有效性,本文分別構(gòu)建了無(wú)向和有向傳播圖來(lái)提取謠言傳播的特征。謠言傳播是一個(gè)有向的過(guò)程,因此采用有向傳播圖提取謠言特征能提升模型的效果進(jìn)而提升謠言檢測(cè)準(zhǔn)確率。從表5可以得知,僅使用圖卷積網(wǎng)絡(luò)比base模型在準(zhǔn)確率有著7.7%的提升,在F1值有著高達(dá)5.9%的提升。這表明在謠言傳播異構(gòu)圖中使用圖卷積網(wǎng)絡(luò)可以更好地進(jìn)行特征融合,有利于獲取特征表示,增強(qiáng)模型的謠言檢測(cè)效果。
4 結(jié)束語(yǔ)
本文提出了準(zhǔn)確率更高更有效的知識(shí)表示和圖卷積網(wǎng)絡(luò)謠言檢測(cè)模型。引入知識(shí)圖譜作為先驗(yàn)知識(shí)來(lái)獲得更好的實(shí)體表示,同時(shí)融合圖卷積網(wǎng)絡(luò)以提取謠言傳播圖的特征,以提升謠言檢測(cè)的精確率。在三種數(shù)據(jù)集上將本文方法與六種基線模型相比較,并在三個(gè)評(píng)測(cè)指標(biāo)上均有明顯提升,同時(shí)具有良好的魯棒性。未來(lái),筆者將致力于圖像、音視頻等多模態(tài)信息的謠言檢測(cè)方法研究,從多模態(tài)的角度進(jìn)行謠言檢測(cè)研究可以更加增強(qiáng)模型的普適性和有效性,在社交網(wǎng)絡(luò)、數(shù)據(jù)資產(chǎn)管理和輿情分析等領(lǐng)域?qū)⒂袕V闊的前景。
參考文獻(xiàn):
[1]Wang W Y.Liar,liar pants on fire:a new benchmark dataset for fake news detection [C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2017:422-426.
[2]Qazvinian V,Rosengren E,Radev D R,et al. Rumor has it:identi-fying misinformation in microblogs [C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2011:1589-1599.
[3]Cao Juan,Guo Junbo,Li Xirong,et al. Automatic rumor detection on microblogs:a survey [EB/OL].(2018-07-10).https://arxiv.org/abs/1807.03505.
[4]Jin Zhiwei,Cao Juan,Guo Han,et al. Multimodal fusion with recurrent neural networks for rumor detection on microblogs [C]//Proc of the 25th ACM International Conference on Multimedia.New York:ACM Press,2017:795-816.
[5]Bao Peng,Shen Huawei,Jin Xiaolong,et al. Modeling and predicting popularity dynamics of microblogs using self-excited Hawkes processed [C]//Proc of International Conference on World Wide Web.New York:ACM Press,2015:9-10.
[6]Zhao Zhe,Resnick P,Mei Qiaozhu.Enquiring minds:early detection of rumors in social media from enquiry posts [C]//Proc of International Conference on World Wide Web.New York:ACM Press,2015:1395-1405.
[7]Yang Fan,Yu Xiaohui,Liu Yang,et al. Automatic detection of rumor on Sina Weibo [C]//Proc of ACM SIGKDD Workshop on Mining Data Semantics.New York:ACM Press,2012:1-7.
[8]Devlin J,Chang Mingwei,Lee K,et al. BERT:pre-training of deep bidirectional transformers for language understanding [C]//Proc of the 31st North American Conference on Chinese Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2019:4171-4186.
[9]Wang Jin,Wang Zhongyuan,Zhang Dawei,et al.Combining know-ledge with deep convolutional neural networks for short text classification [C]//Proc of the 26th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:2915-2921.
[10]Annervaz K M,Somnath B R C,Ambedkar D.Learning beyond datasets:knowledge graph augmented neural networks for natural language processing [C]//Proc of the 30th North American Conference on Chinese Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:313-322.
[11]Heike A,Hinrich S.Global normalization of convolutional neural networks for joint entity and relation classification [C]//Proc of Confe-rence on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2017:1723-1729.
[12]Bian Tian,Xiao Xi,Xu Tingyang,et al. Rumor detection on social media with bi-directional graph convolutional networks [C]//Proc of the 34th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:549-556.
[13]Liu Yang,Wu Y B.Early detection of fake news on social media through propagation path classification with recurrent and convolutional networks [C]//Proc of the 32nd AAAI Conference on Artificial Intelli-gence.Palo Alto,CA:AAAI Press,2018:354-361.
[14]Rong Yu,Huang Wenbing,Xu Tingyang,et al. DropEdge:towards deep graph convolutional networks on node classification [EB/OL].(2020-03-12).https://arxiv.org/abs/1907.10903v4.
[15]Lu Yiju,Li Chengte.GCAN:graph-aware co-attention networks for explainable fake news detection on social media [C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2020:505-514.
[16]Ma Jing,Gao Wei,Wei Zhongyu,et al. Detect rumors using time series of social context information on microblogging websites [C]//Proc of the 24th ACM International Conference on Information and Knowledge Management.New York:ACM Press,2015:1751-1754.
[17]Liu Xiaomo,Nourbakhsh A,Li Quanzhi,et al. Real-time rumor debunking on Twitter[C]//Proc of the 24th ACM International Confe-rence on Information and Knowledge Management.New York:ACM Press,2015:1867-1870.
[18]Ma Jing,Gao Wei,Mitra P,et al.Detecting rumors from microblogs with recurrent neural networks [C]//Proc of the 25th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2016:3818-3824.
[19]Li Quanzhi,Zhang Qiong,Si Luo.Rumor detection by exploiting user credibility information,attention and multi-task learning [C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2019:1173-1179.
[20]Castillo C,Mendoza M,Poblete B.Information credibility on Twitter[C]//Proc of the 20th International Conference on World Wide Web.New York:ACM Press,2011:675-684.
[21]Ma Jing,Gao Wei,Wong K F.Rumor detection on Twitter with tree-structured recursive neural networks[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:1980-1989.
[22]Zhang Huaiwen,F(xiàn)ang Quan,Qian Shengsheng,et al.Multi-modal knowledge-aware event memory network for social media rumor detection[C]//Proc of the 27th ACM International Conference on Multimedia.New York:ACM Press,2019:1942-1951.
[23]Yuan Chunyuan,Ma Qianwen,Zhou Wei,et al.Jointly embedding the local and global relations of heterogeneous graph for rumor detection[C]//Proc of IEEE International Conference on Data Mining.Pisca-taway,NJ:IEEE Press,2019:796-805.
[24]Huang Qi,Yu Junshuai,Wu Jia,et al. Heterogeneous graph attention networks for early detection of rumors on Twitter[C]//Proc of International Conference on World Wide Web.New York:ACM Press,2019:114-122.
[25]Wu Lianwei,Rao Yuan,Zhao Yongqiang,et al. DTCA:decision tree-based co-attention networks for explainable claim verification [C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2020:1024-1035.
[26]米源,唐恒亮.基于圖卷積網(wǎng)絡(luò)的謠言鑒別研究 [J].計(jì)算機(jī)工程與應(yīng)用,2021,57(13):161-167.(Mi Yuan,Tang Hengliang.Rumor identification research based on graph convolutional network [J].Computer Engineering and Applications,2021,57(13):161-167.)