張敏
(陜西藝術(shù)職業(yè)學(xué)院,影視傳媒學(xué)院,陜西, 西安 710054)
社交媒體是一個(gè)能夠分享用戶生成的內(nèi)容、信息、想法和表達(dá)方式的平臺,訪問容易,成本低廉,傳播速度快。如今,它已成為最容易、最及時(shí)、最優(yōu)秀的新聞消費(fèi)來源。由于社會化媒體上沒有管理機(jī)構(gòu)[1],它使得低質(zhì)量的新聞,甚至是假新聞傳播得比真實(shí)新聞要快。與傳統(tǒng)的新聞來源相比,帶有圖像和視頻的新聞吸引了讀者的注意力,成為一條更強(qiáng)有力的故事線。無論是互聯(lián)網(wǎng)還是科技的合作,都在各個(gè)方面降低了難度,但另外,社交媒體也給錯(cuò)誤信息帶來了根源。人的內(nèi)在傾向?qū)е铝巳藗兏菀紫嘈盘摷傩畔ⅲ@就造成了虛假新聞。本文設(shè)計(jì)了一個(gè)高效的神經(jīng)網(wǎng)絡(luò)來檢測假新聞,該方法使用三維張量向量傳遞輸入數(shù)據(jù)。在這個(gè)張量中,新聞和用戶之間的互動被吸引,并與用戶社區(qū)信息連接在一起。這種三維張量可以被認(rèn)為是知識數(shù)據(jù),并在處理多關(guān)系數(shù)據(jù)時(shí)在網(wǎng)絡(luò)中使用[2-3]。隨后,使用張量分解的方法,基于新聞內(nèi)容和社會背景特征進(jìn)行分析,最終對新聞的真假進(jìn)行了判斷。
計(jì)數(shù)矩陣描述新聞文章的文本內(nèi)容,用N表示,維數(shù)為n×v,其中n是新聞文章的總數(shù),v是詞匯表中的單詞數(shù)。
參與矩陣用U表示,維數(shù)為n×u,其中n是新聞文章的總數(shù),u是社交媒體上的用戶數(shù)。
利用clauset-newman-moore算法從用戶網(wǎng)絡(luò)中提取重要的關(guān)系,這是一種有效的計(jì)算方法[4]。由C表示的用戶社區(qū)矩陣,其維數(shù)為u×c,其中u是給定社交網(wǎng)絡(luò)中的用戶數(shù),c是已識別社區(qū)數(shù)。
張量的形成如式(1)[5]所示:
Tijk=Uij×Cjk
(1)
其中,i代表矩陣U、C的第i行,j、k分別代表矩陣U、C的第j和k列。
矩陣化操作將張量重新排序?yàn)榫仃嘯3]。一個(gè)i型張量T可以表示為T∈RI1×I2×…×Ii。張量T的i型矩陣化可由式(2)得到,
(2)
矩陣X1是張量的模1矩陣化,其維數(shù)為n×(u×c)。
耦合矩陣張量分解(CMTF)如文獻(xiàn)[5-7]所示。這種技術(shù)解決了優(yōu)化目標(biāo),目標(biāo)如式(3)所述,
(3)
式中,T是新聞、用戶和社區(qū)信息的張量,T1、T2、T3表示對矩陣T1、T2和T3的Kruskal運(yùn)算,矩陣N是新聞內(nèi)容矩陣,N1和N2是N的非負(fù)矩陣分解(NMF)[8]。重寫式(3),如式(4)所示:
(4)
可以利用分量f1和f2的計(jì)算梯度來解決優(yōu)化問題。梯度的計(jì)算用式(5)~式(7)表示:
(5)
(6)
(7)
其中,
Z=T1,T2,T3
(8)
Z1=T1(T3⊙T2)T
(9)
Z2=T2(T3⊙T1)T
(10)
Z3=T3(T2⊙T1)T
(11)
T-i=TI⊙…Ti+1⊙Ti-1⊙…⊙T1
(12)
式中,符號⊙表示Khatri Rao積[9],Xi是張量T的i型矩陣化。最終的梯度矩陣是由關(guān)于因子矩陣的向量化偏導(dǎo)數(shù)串聯(lián)而成的,如式(13):
(13)
人工神經(jīng)網(wǎng)絡(luò)(ANN):為分類任務(wù)設(shè)計(jì)了一個(gè)人工神經(jīng)網(wǎng)絡(luò)。在這個(gè)網(wǎng)絡(luò)中,使用了4個(gè)隱藏層,它們具有不同數(shù)量的過濾器和丟失值,提出的系統(tǒng)采用內(nèi)容和上下文特征相結(jié)合的方法,將測試樣本分為2類:假類和真類。
深度混合神經(jīng)網(wǎng)絡(luò)(DeepNet):設(shè)計(jì)了一種具有7個(gè)隱層和LSTM層的深度混合神經(jīng)網(wǎng)絡(luò)。為了更好地提取特征,設(shè)計(jì)了具有不同核尺寸卷積層的神經(jīng)網(wǎng)絡(luò),提出的模型在2個(gè)數(shù)據(jù)集上都提供了最新的結(jié)果。
特征提取:從BuzzFeed新聞網(wǎng)站中,獲取數(shù)據(jù)集,經(jīng)過clauset-newman-moore算法在提出的數(shù)據(jù)集中得到的社區(qū)數(shù)是81。在提出的模型中,利用這些社團(tuán)形成了一個(gè)張量。從表1可以看出,數(shù)據(jù)集中的新聞文章數(shù)是182篇,用戶總數(shù)是15 257。將所有的輸入矩陣作為分類特征進(jìn)行降維。可以在表1觀察輸入向量的整體維數(shù)。

表1 使用BuzzFeed的特征尺寸
特征提取:Fakeddit是一個(gè)新的數(shù)據(jù)集,由來自不同分類的假新聞,大約80萬個(gè)例子組成。以該數(shù)據(jù)集為例,經(jīng)過clauset-newman-moore算法得到的社區(qū)數(shù)是122。在提出的模型中,利用這些社團(tuán)形成了一個(gè)張量,新聞文章總數(shù)1 063 106篇,用戶總數(shù)358 504人。表2給出了作為分類任務(wù)輸入特征的所有矩陣的維數(shù)。

表2 使用Fakeddit的特征尺寸
人工神經(jīng)網(wǎng)絡(luò)(ANN):實(shí)現(xiàn)了一個(gè)具有4個(gè)密集隱層的ANN,分別設(shè)計(jì)了512、256、128和64個(gè)隱層節(jié)點(diǎn)。這里使用了弱ReLU作為激活函數(shù),對隱藏層設(shè)置為a=0.001,對于輸出層使用Softmax。在這些系統(tǒng)中,輸入權(quán)重從正態(tài)分布初始化,使用Adam作為優(yōu)化器對設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)進(jìn)行了20個(gè)階段的優(yōu)化。這里采用了Dropout作為正則化方法,從而避免過擬合。
深度混合神經(jīng)網(wǎng)絡(luò)(DeepNet):設(shè)計(jì)了一個(gè)包含7個(gè)隱藏層的DeepNet,其隱藏節(jié)點(diǎn)個(gè)數(shù)分別為1 024、512、256、128、64、32和2。在這個(gè)系統(tǒng)中,采用ReLU作為激活函數(shù),a=0.01,用Softmax函數(shù)作為最終輸出層。在該網(wǎng)絡(luò)中,輸入權(quán)重由規(guī)則模式初始化,并利用Adam作為優(yōu)化算法對設(shè)計(jì)的DeepNet進(jìn)行縮放。然后使用了一個(gè)Dropout作為正則化方法是用來繞過過擬合。
本文提出DeepNet的體系結(jié)構(gòu):圖1顯示了Deep神經(jīng)網(wǎng)絡(luò)的分層體系結(jié)構(gòu)。在提出的架構(gòu)中,第一層是一個(gè)嵌入層,它接受長度為32的1 000字索引向量的輸入,然后是一個(gè)卷積層,它執(zhí)行基于矩陣乘法的操作。第一個(gè)卷積層由內(nèi)核大小為3組成,然后是最大池;第二個(gè)卷積層由內(nèi)核大小為4組成,然后是最大池;第三個(gè)卷積層包含內(nèi)核大小為5,然后是最大池。架構(gòu)中的下一層是LSTM層,用于處理順序數(shù)據(jù)的性質(zhì)。然后考慮了提出的神經(jīng)網(wǎng)絡(luò)中的7個(gè)密集層。第一個(gè)密集層有1 024個(gè)節(jié)點(diǎn),其衰減值為0.25;第二個(gè)隱藏層有512個(gè)節(jié)點(diǎn),其“Dropout”值為0.25;第三個(gè)隱藏層有256個(gè)節(jié)點(diǎn)和0.25的衰減值,依此類推。使用ReLU(校正線性單元)作為激活函數(shù)。ReLU的公式可以定義為

圖1 提出的模型
σ=max(0,z)
(14)
由于Adam實(shí)現(xiàn)簡單,計(jì)算高效,對內(nèi)存需求少,參數(shù)的更新不受梯度的伸縮變換影響,并且適用于梯度稀疏或梯度存在很大噪聲的問題,因此在提出的網(wǎng)絡(luò)中,將Adam作為優(yōu)化器。
下面介紹了檢測假新聞的有效分類方法。
(1) 將新聞內(nèi)容和社會語境特征與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合:將新聞內(nèi)容和社會語境特征相結(jié)合,利用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,并將結(jié)果與現(xiàn)有的基準(zhǔn)進(jìn)行比較。
(2) 新聞內(nèi)容與社會語境+深網(wǎng):結(jié)合新聞內(nèi)容與社會語境的特征,采用深網(wǎng)進(jìn)行更準(zhǔn)確的結(jié)果分析,并將結(jié)果與現(xiàn)有方法進(jìn)行了比較。
Fakeddit: Fakeddit 來自假新聞+Reddit。每個(gè)示例都由2路、3路和5路特征化類進(jìn)行標(biāo)記。
BuzzFeed:使用提出的方法對FakeNews-Net數(shù)據(jù)集中的BuzzFeed數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。在數(shù)據(jù)集中,存在以下信息。
包含真假新聞:包括新聞ID、標(biāo)題、文本、URL、作者、來源等屬性的新聞文章。
包含新聞用戶參與:在數(shù)據(jù)集中,它指定一個(gè)數(shù)字,用于描述用戶在社交媒體上共享新聞文章的次數(shù)。
包含用戶連接:定義用戶網(wǎng)絡(luò)。
FakeNews-Net數(shù)據(jù)集的簡要描述見表3。

表3 FakeNews-Net數(shù)據(jù)集說明
BuzzFeed和Fakeddit的分類結(jié)果列于表4和表5。

表5 Fakeddit分類結(jié)果
為了驗(yàn)證提出的模型的性能,使用了精確度、召回率、F1-分?jǐn)?shù)和準(zhǔn)確度作為評價(jià)參數(shù)。表4顯示,通過使用Deep-Net作為提出的分類模型,將新聞內(nèi)容與基于社會背景的特征進(jìn)行整合,可以得到更準(zhǔn)確的結(jié)果。給出了簡單神經(jīng)網(wǎng)絡(luò)和交叉熵?fù)p失曲線的精度,并給出訓(xùn)練樣本和用于分析的時(shí)期數(shù)。提出的模型中(DeepNet),精度和交叉熵?fù)p失與訓(xùn)練樣本已經(jīng)存在。為了驗(yàn)證新聞內(nèi)容組合(包括圖2所示的新聞文章的社會背景)的分類性能,對年代數(shù)做了相同的對比(圖3)。從曲線上可以看出,該模型對基于內(nèi)容和上下文的數(shù)據(jù)具有較高的準(zhǔn)確率,達(dá)到95.20%。

圖3 基于內(nèi)容和上下文特征的DeepNet的準(zhǔn)確度和交叉熵?fù)p失

表4 使用BuzzFeed的分類結(jié)果

圖2 利用基于內(nèi)容和上下文的特征相結(jié)合的ANN的準(zhǔn)確度和交叉熵?fù)p失
建議的方法勝過現(xiàn)有的假新聞檢測基準(zhǔn),因?yàn)樗鼨z查了內(nèi)容屬性的組合以及用戶與特定新聞文章的通信。使用了2個(gè)真實(shí)世界的假新聞數(shù)據(jù)集:BuzzFeed和Fakeddit。在這種方法中,新聞文章的社會關(guān)系被用作從表示新聞用戶參與度和用戶連接的張量中提取的隱藏特征。在此基礎(chǔ)上,提出了一種耦合矩陣張量因子分解方法來捕獲新聞用戶組內(nèi)部的相關(guān)關(guān)系。它提供了具有社會聯(lián)系的新聞文章的整體表現(xiàn),有助于提高假新聞檢測的性能。
本文介紹了提出的深層神經(jīng)網(wǎng)絡(luò)的分類性能。在提出的模型中既使用了新聞文章的內(nèi)容,也使用了基于社會背景的特征。一種耦合張量因子分解,用于獲得新聞文章的基本表示,使用真實(shí)世界的假新聞數(shù)據(jù)集驗(yàn)證了提出的模型的性能。分類結(jié)果表明,提出的方法具有較高的F1分?jǐn)?shù),并且將內(nèi)容和上下文特征相結(jié)合可以得到更準(zhǔn)確的分類結(jié)果。