郭鈴霓,黃 艦,吳興財(cái),楊振國(guó),劉文印,2
1.廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510006
2.鵬城實(shí)驗(yàn)室網(wǎng)絡(luò)空間安全研究中心,廣東 深圳 518000
互聯(lián)網(wǎng)時(shí)代,推特、微博、微信等在線社交媒體平臺(tái)的快速發(fā)展,給讀者獲取新聞資訊提供了便利,也為虛假新聞的滋生和傳播提供了土壤。《2019年網(wǎng)絡(luò)謠言治理報(bào)告》(http://society.people.com.cn/n1/2019/1226/c1008-31524533.html)指出,2019年期間,微信平臺(tái)共發(fā)布17 881篇辟謠文章,辟謠文章閱讀量1.14億次。其中,醫(yī)療健康、食品安全、社會(huì)科學(xué)是虛假新聞的高發(fā)領(lǐng)域。
虛假新聞的泛濫,給社會(huì)和人們的日常生活帶來(lái)不同程度的負(fù)面影響。例如,新冠肺炎疫情期間,各種虛假新聞層出不窮,包括但不限于:“鹽水漱口防病毒”“喝板藍(lán)根可以預(yù)防新型冠狀病毒”“雙黃連口服液能抑制新型冠狀病毒”等。諸如此類的虛假新聞,導(dǎo)致相關(guān)商品遭哄搶脫銷,不僅誤導(dǎo)群眾,還擾亂市場(chǎng)經(jīng)濟(jì)。Vosoughi等人指出,相比于真實(shí)新聞,虛假新聞傳播更快、更頻繁[1]。因此,對(duì)虛假新聞進(jìn)行檢測(cè),具有重要意義。
最初的虛假新聞檢測(cè)主要依賴于官方辟謠網(wǎng)站,由相關(guān)領(lǐng)域的多位專家對(duì)新聞的真實(shí)性進(jìn)行研判。這種方式需要專家知識(shí),不僅耗費(fèi)大量的人力物力,而且時(shí)效性差。近年來(lái),基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的虛假新聞自動(dòng)檢測(cè)技術(shù)得到了發(fā)展。目前的虛假新聞檢測(cè)方法大致可以分為基于內(nèi)容的檢測(cè)方法和基于社交上下文的檢測(cè)方法。兩種方法的區(qū)別在于是否使用社交上下文信息。例如,新聞在社交媒體上的傳播路徑、社交用戶彼此之間的關(guān)系網(wǎng)絡(luò)、社交用戶的參與情況(點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論)等。社交上下文信息越豐富,越有利于虛假新聞檢測(cè)。然而,基于社交上下文的虛假新聞檢測(cè)方法不適用于虛假新聞早期檢測(cè),當(dāng)新聞在新聞渠道上發(fā)布但尚未在社交媒體上傳播時(shí),社交上下文信息不充分。虛假新聞早期檢測(cè)具有實(shí)際意義,當(dāng)虛假新聞曝光的次數(shù)越多,并且反復(fù)出現(xiàn)在社交用戶視野中時(shí),用戶越容易相信其真實(shí)性。一旦用戶認(rèn)為虛假新聞是真的,就很難改變他們的認(rèn)知。基于新聞內(nèi)容的檢測(cè),由于不需要考慮社交上下文信息,數(shù)據(jù)容易獲取且能夠?qū)崿F(xiàn)虛假新聞的早期檢測(cè),受到越來(lái)越多的關(guān)注。已有研究通常把新聞文本內(nèi)容作為整體,進(jìn)行虛假新聞檢測(cè),較少考慮到新聞標(biāo)題和正文之間的語(yǔ)義關(guān)聯(lián)性。如果一則新聞并非真實(shí)發(fā)生,為了吸引讀者,通常會(huì)采用獵奇、煽動(dòng)性的標(biāo)題,往往與正文內(nèi)容無(wú)關(guān)。雖然帶有“標(biāo)題黨”的新聞文章通常并不可靠,但并非所有這些新聞文章都是虛假新聞,這促使去探索虛假新聞和“標(biāo)題黨”之間的關(guān)系。
為解決上述問(wèn)題,本文提出一種基于雙分支網(wǎng)絡(luò)聯(lián)合訓(xùn)練的虛假新聞檢測(cè)模型(jointly training twobranch network,JTTN),該模型由兩個(gè)分支子網(wǎng)絡(luò)構(gòu)成,分別是最大池化網(wǎng)絡(luò)分支(max pooling network branch,MPB)和廣義均值池化網(wǎng)絡(luò)分支(generalized mean pooling network branch,GPB)。MPB采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本特征提取,GPB在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,引入了可訓(xùn)練的池化層,兩個(gè)分支網(wǎng)絡(luò)聯(lián)合訓(xùn)練,共同學(xué)習(xí)新聞內(nèi)容潛在的語(yǔ)義特征。在每個(gè)分支子網(wǎng)絡(luò)中,對(duì)新聞的標(biāo)題和正文之間進(jìn)行語(yǔ)義關(guān)聯(lián)性度量。最終,對(duì)兩個(gè)分支子網(wǎng)絡(luò)聯(lián)合訓(xùn)練后的結(jié)果進(jìn)行決策融合,輸出模型的預(yù)測(cè)結(jié)果。
基于內(nèi)容的虛假新聞檢測(cè)方法指利用新聞的內(nèi)容進(jìn)行檢測(cè),包括文本信息(標(biāo)題、正文、網(wǎng)頁(yè)鏈接),視覺(jué)信息(圖片、表情包),音頻信息等。現(xiàn)有研究大多集中在新聞的文本內(nèi)容上,從中提取統(tǒng)計(jì)特征或語(yǔ)義特征。Castillo等人[2]基于新聞文本內(nèi)容的語(yǔ)言特征來(lái)檢測(cè)虛假新聞,他們?cè)O(shè)計(jì)了一份語(yǔ)言特征列表,如問(wèn)號(hào)、表情符號(hào)、情緒正負(fù)詞和代詞,來(lái)衡量推特上信息的可信度。Popat[3]發(fā)現(xiàn),文章的語(yǔ)言風(fēng)格對(duì)于理解文章的可信度起著至關(guān)重要的作用。然而,基于語(yǔ)言風(fēng)格的特征不具備語(yǔ)義信息,很容易被操縱。Feng等人在文獻(xiàn)[4]中使用上下文無(wú)關(guān)的語(yǔ)法規(guī)則識(shí)別虛假信息。Ma等人[5]首先探索了通過(guò)捕獲時(shí)間語(yǔ)言特征來(lái)用深度神經(jīng)網(wǎng)絡(luò)表示新聞的可能性。Chen等人[6]將注意力機(jī)制引入到循環(huán)神經(jīng)網(wǎng)絡(luò)中,以集中捕獲獨(dú)特的時(shí)間語(yǔ)言特征。隨著多媒體技術(shù)的發(fā)展,虛假新聞試圖利用帶有圖像或視頻的多媒體內(nèi)容來(lái)吸引和誤導(dǎo)讀者,以便迅速傳播。Qi等人[7]從圖像角度出發(fā),通過(guò)探索圖像物理層面和語(yǔ)義層面的不同特征,提出了一個(gè)多域視覺(jué)神經(jīng)網(wǎng)絡(luò)模型來(lái)融合頻域和像素域的視覺(jué)信息,從而進(jìn)行虛假新聞檢測(cè)。該模型對(duì)不同數(shù)據(jù)集的泛化能力仍需進(jìn)一步驗(yàn)證。Xue等人[8]進(jìn)一步挖掘虛假圖片的信息,對(duì)圖片的像素域特征和頻域特征進(jìn)行融合后,作為視覺(jué)特征。同時(shí),引入了圖片的物理屬性,最后通過(guò)集成學(xué)習(xí)聯(lián)合視覺(jué)特征和物理特征,實(shí)現(xiàn)虛假新聞圖片檢測(cè)。
大部分基于內(nèi)容的虛假新聞檢測(cè)工作通常把新聞標(biāo)題和正文作為一個(gè)整體來(lái)進(jìn)行語(yǔ)義和風(fēng)格特征的分析,較少工作直接從“標(biāo)題黨”的角度出發(fā),即分析標(biāo)題和正文之間存在的差異和關(guān)聯(lián)性。雖然已經(jīng)有針對(duì)“標(biāo)題黨”檢測(cè)任務(wù)的研究工作[9],但該工作的重點(diǎn)在于識(shí)別新聞是否存在“標(biāo)題黨”的現(xiàn)象。因此,基于“標(biāo)題黨”檢測(cè)的思想,本文重點(diǎn)探索新聞標(biāo)題和正文之間的語(yǔ)義關(guān)聯(lián)性,利用最大均值差異(maximum mean discrepancy,MMD)[10]進(jìn)行度量。結(jié)合深度神經(jīng)網(wǎng)絡(luò)和不同的池化操作進(jìn)行聯(lián)合訓(xùn)練,自動(dòng)提取文本的潛在特征,以檢測(cè)新聞的真實(shí)性。
基于社交上下文的虛假新聞檢測(cè)方法通過(guò)探索與新聞相關(guān)的社交上下文信息來(lái)檢測(cè)虛假新聞,即新聞在社交媒體上的傳播方式以及用戶的參與情況等。社交用戶和新聞之間的互動(dòng)所建立的社會(huì)聯(lián)系,為新聞提供了豐富的社交上下文信息。社交上下文信息代表了用戶在社交媒體上對(duì)新聞的參與情況[11],例如關(guān)注者數(shù)量、評(píng)論、點(diǎn)贊、話題標(biāo)簽和分享轉(zhuǎn)發(fā)的網(wǎng)絡(luò)結(jié)構(gòu)。Wu等人[12]利用社交媒體上的用戶資料和新聞傳播路徑來(lái)分類虛假新聞。Liu等人[13]將新聞的傳播路徑作為多元時(shí)間序列來(lái)建模,結(jié)合RNNs和CNNs網(wǎng)絡(luò)來(lái)檢測(cè)虛假新聞。然而,在虛假新聞的早期檢測(cè)階段,即新聞在新聞渠道上發(fā)布但尚未在社交媒體上傳播時(shí),不能依靠新聞的傳播信息,因?yàn)樗鼈儾⒉淮嬖赱14]。Ma等人[15]基于樹(shù)狀結(jié)構(gòu)的遞歸神經(jīng)模型來(lái)學(xué)習(xí)推文的表示。Jin等人[16]使用了手工提取的關(guān)注者數(shù)量、轉(zhuǎn)發(fā)量等社交上下文特征。尹鵬博等人[17]通過(guò)對(duì)用戶的歷史微博進(jìn)行分析,結(jié)合用戶屬性和微博文本,采用C-LSTM模型實(shí)現(xiàn)謠言檢測(cè)。沈瑞琳等人[18]提出基于多任務(wù)學(xué)習(xí)的微博謠言檢測(cè)方法,利用情感分析任務(wù)輔助謠言檢測(cè),在一定程度上解決了深度學(xué)習(xí)中帶標(biāo)簽數(shù)據(jù)不足的問(wèn)題,但模型對(duì)相關(guān)的輔助數(shù)據(jù)具有依賴性。
社交上下文信息通常是非結(jié)構(gòu)化數(shù)據(jù),需要通過(guò)大量的手工勞動(dòng)來(lái)收集。同時(shí),社交上下文特征需要經(jīng)過(guò)一段時(shí)間的積累才能提取出來(lái),不能及時(shí)檢測(cè)新出現(xiàn)的虛假新聞。在新聞還沒(méi)在社交媒體上傳播開(kāi)來(lái)之前,需要使用基于內(nèi)容的檢測(cè)方法,因?yàn)樵谶@個(gè)階段還不存在豐富的社交上下文信息。因此,本文基于新聞內(nèi)容本身,通過(guò)挖掘潛在的信息來(lái)進(jìn)行虛假新聞檢測(cè)。
本文提出的基于雙分支網(wǎng)絡(luò)聯(lián)合訓(xùn)練的虛假新聞檢測(cè)模型結(jié)構(gòu)如圖1所示,模型由兩個(gè)分支子網(wǎng)絡(luò)組成,分別是MPB和GPB。每個(gè)分支子網(wǎng)絡(luò)包含了三個(gè)模塊:(1)文本特性提取器;(2)標(biāo)題正文間語(yǔ)義關(guān)聯(lián)性度量;(3)虛假新聞分類器。首先,文本特性提取器分別提取新聞文章的標(biāo)題特征和正文特征,并使用MMD來(lái)度量它們之間的語(yǔ)義關(guān)聯(lián)性,然后將兩個(gè)特征進(jìn)行加權(quán)融合,作為虛假新聞分類器的輸入。最后,對(duì)兩個(gè)分支子網(wǎng)絡(luò)聯(lián)合訓(xùn)練的分類結(jié)果進(jìn)行決策融合,輸出模型的預(yù)測(cè)結(jié)果(真實(shí)或虛假)。MPB采用最大池化進(jìn)行下采樣,GPB采用廣義均值池化進(jìn)行下采樣。

圖1 JTTN模型Fig.1 JTTN model
給定一篇由標(biāo)題T(title)和正文B(body text)組成的新聞文章A={T,B},在不同的分支子網(wǎng)絡(luò)中,采用不用的文本特征提取方法。在MPB中,本文使用卷積神經(jīng)網(wǎng)絡(luò)Text-CNN[19]來(lái)學(xué)習(xí)新聞的特征表示。Text-CNN利用不同窗口大小的多個(gè)卷積核來(lái)捕獲文本的特征信息。對(duì)于標(biāo)題T中的每個(gè)字,對(duì)應(yīng)的d維詞嵌入向量表示為x lt∈Rd,l=1,2,…,n t。本文使用下標(biāo)t來(lái)標(biāo)識(shí)標(biāo)題T,使用下標(biāo)b來(lái)標(biāo)識(shí)正文B。新聞標(biāo)題的詞嵌入向量序列可表示為:

其中,T1:n t∈Rn t×d,⊕表示拼接操作,n t為新聞標(biāo)題的長(zhǎng)度。窗口大小為h的卷積核以標(biāo)題中h個(gè)詞的連續(xù)序列作為輸入,對(duì)其進(jìn)行卷積操作,輸出特征映射。以從第i個(gè)字開(kāi)始的連續(xù)序列為例,卷積操作可表示為式(2):

其中,x i:(i+h-1)t∈Rh×d,⊕表示拼接操作,w t為卷積核,b t為偏置項(xiàng),σ(·)是ReLU激活函數(shù)。對(duì)卷積操作后得到的特征映射進(jìn)行最大池化操作,實(shí)現(xiàn)降維。池化層對(duì)特征映射取最大值,從中提取出最重要的信息。每個(gè)特征映射經(jīng)過(guò)最大池化后,可表示為:

最后,將池化后的結(jié)果輸入全連接層,得到標(biāo)題的特征表示為:

其中,R tm的下標(biāo)tm表示標(biāo)題特征通過(guò)MPB子網(wǎng)絡(luò)獲得,W tm表示權(quán)重矩陣,∈Rk,k表示不同窗口大小的卷積核數(shù)目。
類似地,對(duì)于長(zhǎng)度為nb的新聞?wù)腂,經(jīng)過(guò)d維詞嵌入后,可表示為:

采用跟上述新聞標(biāo)題相同的特征提取方式,新聞?wù)奶卣骺杀硎緸椋?/p>

Text-CNN的池化層采用最大池化操作,在減少模型參數(shù)量的同時(shí)能保證特征的位置和旋轉(zhuǎn)不變性,但是忽略了文本特征的位置信息。Radenovi?等人在文獻(xiàn)[20]中提出了一種可訓(xùn)練的廣義均值池化層(GeM pooling layer),并證明其能夠顯著提高檢索性能。廣義均值池化介于最大池化和均值池化之間,二者是其特殊形式。
因此,在GPB子網(wǎng)絡(luò)中,基于Text-CNN的網(wǎng)絡(luò)結(jié)構(gòu),采用廣義均值池化代替原來(lái)的最大池化方式,來(lái)捕獲不同粒度的特征信息。對(duì)于公式(2)得到的每個(gè)特征映射cit,分別進(jìn)行廣義均值池化操作。計(jì)算公式可表示為:

當(dāng)p i=1時(shí),廣義均值池化相當(dāng)于均值池化,當(dāng)pi→∞時(shí),廣義均值池化相當(dāng)于最大池化。相比于最大池化,廣義均值池化包含可學(xué)習(xí)的參數(shù)p i,對(duì)輸入的樣本先求p次冪,然后取均值,再進(jìn)行p次開(kāi)方。
將池化后的結(jié)果輸入到全連接層,得到新聞標(biāo)題的特征表示為:

其中,R tg的下標(biāo)tg表示標(biāo)題的特征表示通過(guò)GPB子網(wǎng)絡(luò)獲得,W tg為權(quán)重矩陣,b tg為偏置項(xiàng)。
類似地,對(duì)于新聞?wù)腂,通過(guò)GPB子網(wǎng)絡(luò)獲得的特征表示為:

一篇完整的新聞通常由標(biāo)題(短文本)T和正文(長(zhǎng)文本)B組成。受到“標(biāo)題黨”檢測(cè)任務(wù)的啟發(fā),發(fā)現(xiàn)虛假新聞發(fā)布者為了吸引更多讀者閱讀和傳播虛假信息,通常會(huì)使用夸大、獵奇、色情的標(biāo)題來(lái)吸引眼球,新聞的正文內(nèi)容往往與標(biāo)題不匹配。但僅僅檢測(cè)“標(biāo)題黨”還不夠,因?yàn)橐恍┱鎸?shí)新聞也會(huì)存在“標(biāo)題黨”現(xiàn)象。因此,在上述文本特征提取過(guò)程中,使用兩個(gè)分支網(wǎng)絡(luò),充分挖掘新聞的語(yǔ)義信息。接下來(lái),本文使用最大均值差異來(lái)度量新聞標(biāo)題和正文之間的語(yǔ)義關(guān)聯(lián)性。最大均值差異是遷移學(xué)習(xí),尤其是域適應(yīng)中使用最廣泛的一種損失函數(shù),主要用來(lái)度量在再生希爾伯特空間中兩個(gè)分布的距離。
假設(shè)一篇新聞的標(biāo)題和正文來(lái)自于兩個(gè)文本語(yǔ)義分布,分別表示為X T和X B。如果標(biāo)題跟正文描述同一件事情,在語(yǔ)義上相關(guān),則認(rèn)為它們所在的分布相同,該新聞傾向于是真實(shí)新聞。反之,該新聞傾向于是虛假新聞。本文使用MMD來(lái)度量標(biāo)題和正文兩個(gè)分布間的距離,距離定義為:

其中,σ(·)表示映射函數(shù),用于把原變量映射到再生希爾伯特空間。如果一篇新聞是虛假新聞,則它的標(biāo)題和正文之間的MMD距離要比真實(shí)新聞大,關(guān)聯(lián)性更小。本文目的在于最大化虛假新聞的標(biāo)題和正文之間的MMD距離。如果這個(gè)值足夠小,就認(rèn)為兩個(gè)分布相同,否則就認(rèn)為它們不相同。MMD距離損失函數(shù)可以表示為:

其中,θT={θtm,θt g}表示新聞標(biāo)題特征提取過(guò)程中所需參數(shù),θB={θbm,θbg}表示新聞?wù)奶卣魈崛∵^(guò)程中所需參數(shù)。
到目前為止,通過(guò)文本特征提取器,分別獲得新聞標(biāo)題和正文的特征表示。在MPB中,標(biāo)題T的特征表示為R tm,正文B的特征表示為R bm。在GPB中,標(biāo)題T的特征表示為R tg,正文B的特征表示為R bg。在每個(gè)分支網(wǎng)絡(luò)中,分別對(duì)標(biāo)題特征和正文特征進(jìn)行加權(quán)融合,融合后的特征作為虛假新聞檢測(cè)器的輸入,然后連接含Softmax函數(shù)的全連接層來(lái)預(yù)測(cè)新聞的真假。虛假新聞分類器可表示為L(zhǎng)d(·;θd),θd表示分類器中的所有參數(shù)。對(duì)于第i篇新聞ai,虛假新聞檢測(cè)器的最終輸出記為pθ(ai),表示該新聞是虛假新聞的概率。


其中,R m、R g分別表示一篇文章在MPB和GPB中融合后的特征。λ1、λ2、λ3、λ4分別表示加權(quán)權(quán)重。虛假新聞檢測(cè)器的目的在于識(shí)別某一篇文章是否是虛假新聞。用Y表示新聞文章集合A的真實(shí)標(biāo)簽集合,使用交叉熵?fù)p失函數(shù)作為虛假新聞檢測(cè)器的分類損失:

其中,a i表示某一篇文章,y表示該文章對(duì)應(yīng)的真實(shí)標(biāo)簽。目的在于尋找最優(yōu)的參數(shù)來(lái)最小化分類損失,這個(gè)過(guò)程可以表示為:

為了從不同范圍和粒度捕獲新聞文章的文本信息,采用了雙分支網(wǎng)絡(luò)聯(lián)合訓(xùn)練的方法,分別為MPB和GPB。在每個(gè)分支網(wǎng)絡(luò)里,基于Text-CNN和不同的池化方式,提取新聞的標(biāo)題和正文特征,然后利用MMD度量標(biāo)題和正文之間的語(yǔ)義距離并約束兩個(gè)分布的特征。最后,兩個(gè)分支網(wǎng)絡(luò)聯(lián)合訓(xùn)練,輸出虛假新聞檢測(cè)任務(wù)的預(yù)測(cè)結(jié)果。這樣做的目的在于,(1)檢測(cè)虛假新聞;(2)充分探索新聞的標(biāo)題和正文之間的語(yǔ)義關(guān)聯(lián)性。模型最終的損失函數(shù)可以表示為:

其中,ζclass(·)表示交叉熵分類損失。ζmmd m(·)表示在MPB中,標(biāo)題和正文間的語(yǔ)義關(guān)聯(lián)損失。θtm、θbm分別表示在MPB中標(biāo)題和正文特征提取過(guò)程中所需要的參數(shù)。類似地,ζmmd g(·)表示在GPB中標(biāo)題和正文之間的語(yǔ)義關(guān)聯(lián)損失。θtg、θbg分別表示在GPB中標(biāo)題和正文特征提取過(guò)程中所需要的參數(shù)。目的在于最小化最終的損失函數(shù),該過(guò)程可以表示為:

其中,θtm、θbm、θtg、θbg、θd表示MPB子網(wǎng)絡(luò)、GPB子網(wǎng)絡(luò)以及分類器中包含的參數(shù),例如卷積核、權(quán)重矩陣、偏置項(xiàng)等。通過(guò)反向傳播算法對(duì)上述參數(shù)進(jìn)行更新,其優(yōu)化過(guò)程見(jiàn)算法1。每輪訓(xùn)練都采用Adam優(yōu)化器,通過(guò)自適應(yīng)調(diào)整學(xué)習(xí)率來(lái)優(yōu)化網(wǎng)絡(luò)的收斂速度。在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,采用Early Stop策略,當(dāng)模型的性能無(wú)明顯變化時(shí),停止訓(xùn)練。
算法1JTTN
輸出:網(wǎng)絡(luò)參數(shù)θtm,θbm,θtg,θbg,θd
1.隨機(jī)初始化網(wǎng)絡(luò)參數(shù):θtm,θbm,θtg,θbg,θd
2.whilenot convergence do/*當(dāng)網(wǎng)絡(luò)未收斂時(shí)*/
3. for each epochdo/*對(duì)于每一輪迭代,執(zhí)行以下步驟*/
4. for each mini-batch do/*對(duì)于每一個(gè)批處理,執(zhí)行以下操作*/
10. end for
11. end for
12.end
13.返回網(wǎng)絡(luò)參數(shù):θtm,θbm,θtg,θbg,θd
為評(píng)估本文所提出的模型性能,研究采用Wang等人公開(kāi)的新聞數(shù)據(jù)集[21]進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集(https://github.com/yaqingwang/WeFEND-AAAI20)收 集 了 從2018年3月到2018年10月,微信公眾號(hào)發(fā)布的新聞文章。公開(kāi)的新聞數(shù)據(jù)集包含了微信公眾號(hào)名稱(新聞發(fā)布者)、新聞標(biāo)題、新聞鏈接、新聞封面鏈接、用戶反饋報(bào)告以及新聞標(biāo)簽(fake or real)這六項(xiàng)信息。為了能夠探索新聞標(biāo)題和正文之間的語(yǔ)義關(guān)聯(lián)性,從而進(jìn)行虛假新聞檢測(cè),在該數(shù)據(jù)集的基礎(chǔ)上,做進(jìn)一步的信息收集和數(shù)據(jù)清洗。根據(jù)數(shù)據(jù)集公開(kāi)的新聞鏈接和封面鏈接,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)爬取了每一篇新聞對(duì)應(yīng)的文章正文,封面圖片以及文章內(nèi)部的圖片。由于受到微信營(yíng)運(yùn)平臺(tái)的監(jiān)管和讀者的反饋舉報(bào),很多新聞都已經(jīng)失效,特別是虛假新聞。通常情況是新聞文章被刪除或者公眾號(hào)被封號(hào),這導(dǎo)致不能爬取到所有完整的數(shù)據(jù)。因此,對(duì)于已經(jīng)失效的新聞文章,只保留它們的標(biāo)題信息。最終得到的數(shù)據(jù)統(tǒng)計(jì)信息如表1所示。本文使用新聞的標(biāo)題和正文數(shù)據(jù)作為模型的輸入。

表1 新聞數(shù)據(jù)集統(tǒng)計(jì)信息Table 1 Statistics of news dataset
為了驗(yàn)證本文方法的有效性,選取了目前虛假新聞檢測(cè)任務(wù)常用的方法作為基線方法進(jìn)行對(duì)比。
(1)CNNT:CNNT只使用新聞標(biāo)題作為輸入,由于缺乏正文,所以在JTTN模型的基礎(chǔ)上去掉標(biāo)題和正文之間的語(yǔ)義關(guān)聯(lián)性度量,然后使用雙分支網(wǎng)絡(luò)進(jìn)行特征提取,再通過(guò)分類器進(jìn)行二分類。
(2)CNNB:CNNB只使用新聞?wù)淖鳛檩斎耄溆嘣O(shè)置與CNNT相同。
(3)LSTM:LSTM使用一層LSTM作為文本特征提取器,通過(guò)對(duì)RNN在每個(gè)時(shí)間步長(zhǎng)的輸出進(jìn)行平均,得到潛在表示,然后將這些表示輸入到全連接層進(jìn)行預(yù)測(cè)。建立在LSTM特征提取器之上的全連接層輸出新聞是虛假新聞的概率。
(4)HAN[22]:HAN基于新聞的內(nèi)容,構(gòu)建了一個(gè)層次注意力神經(jīng)網(wǎng)絡(luò)框架來(lái)進(jìn)行虛假新聞檢測(cè)。它對(duì)新聞內(nèi)容進(jìn)行編碼,采用“詞-句子-文章”的層次化結(jié)構(gòu)來(lái)表示一篇文章,在句子級(jí)別關(guān)注詞層次,在文檔級(jí)別關(guān)注句層次。
(5)Att-RNN[16]:Att-RNN利用注意機(jī)制來(lái)融合文本、視覺(jué)和社會(huì)上下文特征。實(shí)驗(yàn)中,去除視覺(jué)和社會(huì)上下文信息,其余部分相同。
(6)EANN[23]:EANN由三個(gè)主要部分組成,多模態(tài)特征提取器、虛假新聞檢測(cè)器和事件鑒別器。多模態(tài)特征提取器從帖子中提取文本和視覺(jué)信息,它與虛假新聞檢測(cè)器一起學(xué)習(xí)可識(shí)別的特征表示來(lái)檢測(cè)虛假新聞。事件鑒別器負(fù)責(zé)刪除任何特定于事件的特征。由于輸入只有文本信息,所以去除了視覺(jué)特征提取器和事件鑒別器。
(7)SAFE[24]:SAFE基于Text-CNN提取新聞文本特征,通過(guò)計(jì)算新聞文章文本和視覺(jué)信息之間的相似性,實(shí)現(xiàn)虛假新聞檢測(cè)。該模型以完整的新聞文章作為輸入,設(shè)置了與文獻(xiàn)[24]相同的超參數(shù)。
本文使用準(zhǔn)確率(Accuracy)、精確度(Precision)、召回率(Recall)、F1值(F1-score)作為評(píng)估指標(biāo)。通常F1值越高,說(shuō)明分類器性能越好。實(shí)驗(yàn)采用PyTorch深度學(xué)習(xí)框架來(lái)構(gòu)建虛假新聞檢測(cè)模型并進(jìn)行模型訓(xùn)練。根據(jù)新聞的發(fā)布日期,按照7∶1∶2的比例劃分?jǐn)?shù)據(jù)集,70%作為訓(xùn)練集、10%作為驗(yàn)證集、20%作為測(cè)試集。其中,最新發(fā)布的新聞文章作為測(cè)試數(shù)據(jù)。在參數(shù)設(shè)置方面,新聞標(biāo)題長(zhǎng)度n t設(shè)為32,正文長(zhǎng)度nb設(shè)為300,不足部分用0填充,超出部分刪除。標(biāo)題和正文的嵌入維度d均設(shè)為300,最后加權(quán)融合后的特征維度為128維。Text-CNN有三種卷積核,大小分別為2、3、4,每種卷積核的數(shù)量為200。在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,使用Adam優(yōu)化器,設(shè)置批處理大小為256,迭代次數(shù)為200,學(xué)習(xí)率為1E-3。MMD中的映射函數(shù)φ(·)為高斯核函數(shù)。
表2顯示了本文方法跟其他方法的實(shí)驗(yàn)對(duì)比結(jié)果。實(shí)驗(yàn)結(jié)果表明,針對(duì)虛假新聞檢測(cè)任務(wù),本文提出的方法在準(zhǔn)確率、精確度和F1值上均優(yōu)于其他方法,取得了最好的分類性能。針對(duì)實(shí)驗(yàn)結(jié)果,有以下幾點(diǎn)分析:(1)從CNNT和CNNB的實(shí)驗(yàn)結(jié)果可以看出,將新聞標(biāo)題和正文一起作為模型的輸入來(lái)檢測(cè)虛假新聞,其性能優(yōu)于僅使用標(biāo)題或者正文作為模型的輸入。由此可驗(yàn)證新聞標(biāo)題正文間語(yǔ)義關(guān)聯(lián)性度量的有效性。(2)HAN采用了詞層級(jí)和句層級(jí)的注意力機(jī)制,目的在于提取出文章中貢獻(xiàn)最大的詞和句子。這種解決方法,對(duì)文本分類能起到很好的效果,但不適用于虛假新聞檢測(cè),因?yàn)樘摷傩侣勔彩菄@一個(gè)主題展開(kāi)描述。僅僅依靠文章最重要的信息,無(wú)法有效地檢測(cè)虛假新聞,導(dǎo)致虛假新聞?lì)A(yù)測(cè)結(jié)果的F1分?jǐn)?shù)偏低。(3)LSTM擅長(zhǎng)處理時(shí)序信息,在文本任務(wù)中,它能夠更好地聯(lián)系上下文信息提取特征,但虛假新聞檢測(cè)任務(wù)更注重語(yǔ)義風(fēng)格等的局部特征,對(duì)時(shí)序特征不會(huì)過(guò)分依賴,因此使用Text-CNN進(jìn)行特征提取的EANN模型能夠更好地提取文本的局部特征,在虛假新聞檢測(cè)任務(wù)上表現(xiàn)得更好。(4)SAFE通過(guò)引入額外的全連接層來(lái)擴(kuò)展Text-CNN,以自動(dòng)提取每篇新聞文章的文本特征。與之不同的是,本文方法引入了可訓(xùn)練的池化層,通過(guò)訓(xùn)練網(wǎng)絡(luò)自動(dòng)調(diào)節(jié)參數(shù),進(jìn)一步學(xué)習(xí)新聞潛在的文本特征,故其總體性能優(yōu)于SAFE。(5)本文的模型使用雙分支網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練,能夠充分地挖掘新聞文章潛在的語(yǔ)義風(fēng)格特征,從而捕獲虛假新聞與真實(shí)新聞的差異。另外,基于“標(biāo)題黨”檢測(cè)的思想,通過(guò)度量新聞標(biāo)題和正文之間的語(yǔ)義關(guān)聯(lián)性,能更好地檢測(cè)出虛假新聞。

表2 JTTN模型與其他方法的實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison of experimental results between JTTN model and other methods
為了分析不同關(guān)聯(lián)性度量方法對(duì)實(shí)驗(yàn)結(jié)果的影響,共設(shè)計(jì)了4種變體:(1)去掉標(biāo)題和正文之間的語(yǔ)義關(guān)聯(lián)性度量(-MMD)。(2)使用CORAL[25]作為度量方法(CORAL)。(3)使用余弦相似度作為度量方法(COS)。(4)使用最大均值差異作為度量方法,即本文提出的方法(MMD)。實(shí)驗(yàn)結(jié)果如表3所示,結(jié)果表明,在4種變體中,使用最大均值差異作為度量方法的實(shí)驗(yàn)結(jié)果最好,使用余弦相似度作為度量方法的效果次之。實(shí)驗(yàn)結(jié)果也表明新聞標(biāo)題和正文之間的語(yǔ)義關(guān)聯(lián)性度量對(duì)虛假新聞檢測(cè)任務(wù)的有效性。

表3 不同關(guān)聯(lián)性度量方法的實(shí)驗(yàn)結(jié)果Table 3 Results of different correlation measurement methods
最大均值差異比余弦相似度表現(xiàn)更優(yōu)的原因在于:余弦相似度假設(shè)在語(yǔ)義特征空間中,兩個(gè)特征向量對(duì)應(yīng)位置的元素特征是對(duì)齊的,但這種假設(shè)過(guò)于嚴(yán)格,在異構(gòu)源向量中通常是無(wú)效的。而最大均值差異是將兩個(gè)特征向量映射到再生希爾伯特空間中,通過(guò)核學(xué)習(xí)方法,來(lái)度量?jī)蓚€(gè)分布之間的距離,并不要求兩個(gè)特征向量間的元素特征對(duì)齊,更適用于度量標(biāo)題和正文間的語(yǔ)義關(guān)聯(lián)性。
為了探究雙分支網(wǎng)絡(luò)聯(lián)合訓(xùn)練模型是否比單分支網(wǎng)絡(luò)訓(xùn)練更有效,本文設(shè)計(jì)了單分支網(wǎng)絡(luò)與雙分支網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)。以本文設(shè)計(jì)的JTTN模型為基礎(chǔ),分別去掉其中的一個(gè)分支,作為單分支網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果如圖2所示,其中,MPB、GPB分支表示單分支網(wǎng)絡(luò),JTTN表示雙分支網(wǎng)絡(luò)。
從圖2的結(jié)果可以看出,雙分支網(wǎng)絡(luò)的準(zhǔn)確率和F1值均比單分支網(wǎng)絡(luò)高。雙分支網(wǎng)絡(luò)的F1值分別比MPB和GPB高出了0.016和0.015。證明了雙分支網(wǎng)絡(luò)聯(lián)合訓(xùn)練比單分支網(wǎng)絡(luò)單獨(dú)訓(xùn)練效果更好。

圖2 單分支網(wǎng)絡(luò)與雙分支網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果對(duì)比Fig.2 Comparison of single-branch network and two-branch network experimental results
在損失函數(shù)計(jì)算公式(19)中,α和β被用來(lái)權(quán)衡交叉熵分類損失(α)和語(yǔ)義關(guān)聯(lián)損失(β)之間的相對(duì)重要性。為了評(píng)估α和β對(duì)模型性能的影響,設(shè)計(jì)了相關(guān)實(shí)驗(yàn),分別設(shè)置α和β的值從0遞增到1,步長(zhǎng)設(shè)置為0.2。在α和β不同的取值下,模型的檢測(cè)結(jié)果(準(zhǔn)確率和F1值)如圖3所示。可以看出,相比于α,不同的β值對(duì)模型性能的影響較為顯著。當(dāng)β的取值較大時(shí),模型的準(zhǔn)確率和F1值較高,分類器效果較好。由此,可以驗(yàn)證模型中標(biāo)題正文間語(yǔ)義關(guān)聯(lián)性度量的可行性和有效性。圖3(a)中,準(zhǔn)確率的變化范圍從0.982到0.988,α和β的不同取值對(duì)準(zhǔn)確率的影響不明顯。圖3(b)中,F(xiàn)1值的變化范圍從0.91到0.95,相差了0.04。從實(shí)驗(yàn)結(jié)果可知,當(dāng)α=0.2;β=0.4或者α=0.4;β=1時(shí),也就是說(shuō),當(dāng)α∶β≈1∶2.3時(shí),模型取得最好的效果。

圖3 損失函數(shù)參數(shù)分析Fig.3 Parameter analysis of loss function
圖4展示了本文提出的模型在訓(xùn)練過(guò)程中,最終的損失函數(shù)值(loss)隨迭代次數(shù)(epoch)變化的情況。網(wǎng)絡(luò)經(jīng)過(guò)約20次迭代訓(xùn)練后,逐漸收斂到相對(duì)平穩(wěn)的趨勢(shì)。由此可以驗(yàn)證本文提出的模型的有效性以及損失函數(shù)計(jì)算的可行性。

圖4 損失函數(shù)Fig.4 Loss function
對(duì)于模型分類錯(cuò)誤的新聞,找出具有代表性的例子進(jìn)行分析,探究分類錯(cuò)誤的原因,如圖5所示。圖5(a)表示真實(shí)新聞被預(yù)測(cè)為虛假新聞的例子,從文章內(nèi)容可以看出,它的標(biāo)題使用了問(wèn)號(hào),且引用網(wǎng)友的話,讓讀者迫切地想知道文章主角的真實(shí)身份到底是什么。很明顯,這符合“標(biāo)題黨”的現(xiàn)象。文章正文前半部分對(duì)標(biāo)題提出的人物身份進(jìn)行描述,但后半部分,卻轉(zhuǎn)向描述別的人物,偏離了標(biāo)題。基于上述兩點(diǎn),本文模型把它識(shí)別成了虛假新聞。圖5(b)表示虛假新聞被預(yù)測(cè)為真實(shí)新聞的例子,文章標(biāo)題表明已找到“馬航MH370”失聯(lián)飛機(jī),正文部分也舉例證明標(biāo)題的說(shuō)法,很難區(qū)分真假,所以本文模型將其預(yù)測(cè)為真實(shí)新聞。

圖5 識(shí)別錯(cuò)誤的新聞例子Fig.5 Examples of wrong results
文本所提出的基于雙分支網(wǎng)絡(luò)聯(lián)合訓(xùn)練的虛假新聞檢測(cè)方法,通過(guò)采用雙分支網(wǎng)絡(luò)結(jié)構(gòu)來(lái)挖掘新聞標(biāo)題和正文潛在的語(yǔ)義特征,同時(shí),度量標(biāo)題和正文之間的語(yǔ)義關(guān)聯(lián)性,實(shí)現(xiàn)虛假新聞的早期檢測(cè)。本文模型取得了較好的性能,準(zhǔn)確率、F1值分別高達(dá)0.988、0.941。實(shí)驗(yàn)結(jié)果表明,基于雙分支網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練的方法具有可行性和有效性。目前本文僅使用新聞的文本類型(單模態(tài))作為模型的輸入,未來(lái)的工作將集中在增加模型的輸入數(shù)據(jù)類型,采用更多的社交媒體信息,如圖片、視頻等作為模型的輸入,實(shí)現(xiàn)多模態(tài)虛假新聞檢測(cè)。