王 莉
(太原理工大學 大數據學院,山西 晉中 030600)
隨著網絡技術的快速發展及自媒體的廣泛應用,微博、知乎、快手、騰訊新聞等媒體平臺成為用戶發布、獲取和分享信息的重要來源和主要場所,但同時也為網絡虛假信息的滋生和泛濫提供了溫床。網絡虛假信息是通過媒體發布、傳播帶有虛假內容的新聞或消息[1],其迷惑性強、傳播速度快。2018年《科學》雜志刊登文章指出,社交媒體平臺中,虛假信息比真實信息傳播得更快,更廣泛,真實信息需要比虛假信息多花5倍時間,才能達到同樣的傳播量[2]。因此,虛假信息傳播在政治、經濟、社會等各個方面造成了極為惡劣的影響。例如,2016年美國大選期間社交媒體上產生的虛假信息,誤導選民對政治候選人的看法,甚至左右了選舉結果[3];2013年,巴拉克·奧巴馬在一次爆炸中受傷的虛假信息引發了美股巨震,兩分鐘內蒸發了1 360億美元股值[4]。世界經濟論壇將虛假信息列為全球最大風險之一,根據2019年的一項經濟研究表明,網絡虛假信息每年給全球經濟造成780億美元的損失,且還在不斷增長。2020年Facebook公司刪除了700萬條關于新型冠狀病毒虛假信息的帖子[5];在國內,近幾年類似“鐘南山院士建議鹽水漱口防病毒”,“飲高度酒可消滅病毒活性”,“小孩做核酸被捅死”等虛假信息的傳播,讓不明真相的民眾更加焦慮和恐慌,極大地干擾了疫情防控工作。世界衛生組織提出了“信疫”概念,指出人類不僅要打贏現實世界大流行的新冠病毒之戰,也必須打贏網絡空間大流行的信疫之戰。由此可見,網絡虛假信息問題已經十分嚴峻,亟需探索高效的虛假信息檢測方法,阻斷虛假信息傳播,保障網絡空間信息可信、安全。
近年來,虛假信息檢測已成為國內外研究熱點,相關研究通常是把它建模為一個分類問題。存在兩種問題建模:一種是將其定義為二分類問題,即虛假信息(T)和真實信息(F)。另一種是將其定義為四分類問題,即分為非謠言(N)、經過驗證的非謠言(F)、真謠言(T)、未經驗證的謠言(U)。大多數研究采用二分類模型,任務目標為訓練學習函數f:p→y,其中p為信息,y為標簽值y∈{0,1}.
根據所使用的數據對象不同,網絡虛假信息檢測的研究工作可以分為三類:基于信息內容的方法[6-33],基于用戶的方法[34-40]和基于傳播的方法[41-53]。其中,基于信息內容的方法主要利用信息內容進行檢測;基于用戶的方法主要利用信息發布者或轉發者的個人描述、性別、粉絲量、關注量等用戶屬性進行虛假信息識別;基于傳播的方法主要利用信息傳播過程中的評論、轉發等特征進行虛假信息識別。
信息內容是指從一條網絡信息中可以直接獲取到的數據,采集難度小,且和信息同步,有助于實現虛假信息的早期檢測?;谛畔热莸奶摷傩畔z測方法主要分為三類:基于文本的方法、基于圖像的方法、基于文本和圖像多模態融合的方法。
1.1.1基于文本的虛假信息檢測
文本是對信息的文字描述,其中帶有作者的思想和寫作意圖,呈現出多樣的語言習慣和風格。根據所使用的特征不同,基于文本的虛假信息檢測研究主要分為基于文本語言特征的方法和基于文本結構特征的方法兩種類型。
1) 基于文本語言特征的虛假信息檢測。基于文本語言特征的虛假信息檢測方法通常以字、詞、句及其他文本特征為建模對象,依賴機器學習或深度學習方法得到豐富的語言知識以檢測虛假信息。HORNE et al[6]在單詞級別構建了文本風格特征、復雜性特征和心理特征,提出了一種基于支持向量機(SVM)的虛假信息檢測模型。PéREZ-ROSAS et al[7]手工構建了文本的N-grams特征、標點符號、心理語言學等單詞級別的組合特征集,訓練支持向量機模型實現虛假信息檢測。這類機器學習方法在一定程度上取得了不錯的效果,但普遍受限于復雜的預處理工作和繁瑣耗時的特征工程,并且無法用于不斷出現的新型造假信息,所以難以在實際應用中發揮作用。
基于深度學習的虛假信息檢測方法可以自動提取特征,避免了復雜特征工程,提升了檢測效率。相關研究主要利用卷積神經網絡(CNN)、循環神經網絡(RNN)等方法學習信息內容基于詞、句子、文本級別的語義表示,進而完成虛假信息檢測。在詞級別,WANG[8]提出了一種基于深度學習的檢測方法,利用CNN和雙向長短期記憶網絡(BiLSTM)整合詞嵌入以檢測虛假信息。VOLKOVA et al[9]結合CNN和LSTM網絡融合文本語言線索和詞嵌入以評估信息真實性。DHAMANI et al[10]基于CNN與LSTM的耦合網絡處理表情符號、俚語、拼寫錯誤等特征,進而檢測虛假信息。CHAWDA et al[11]將遞歸卷積神經網絡(RCNN)和LSTM應用在虛假信息檢測中,捕獲了相鄰單詞之間的上下文依賴關系。此外,許多研究提出基于句級別和段落級別的虛假信息檢測方法。YU et al[12]基于CNN模型學習段落嵌入表征以提取信息的高級文本特征。AHN et al[13]使用預訓練語言模型BERT,在句子級別檢測虛假信息。張恒[14]構造了LSTM和CNN的混合模型,引入前饋式注意力機制和基于上下文的注意力機制檢測虛假信息。LIU et al[15]以N-gram為計算單元,提出一種基于分層注意力機制的CNN和Bi-LSTM結合的虛假信息檢測方法。
2) 基于文本結構特征的虛假信息檢測。文本是由詞、短語、句子、段落、篇章等不同粒度的文本單元按照一定關系搭建起來的有序結構,不同結構反映了內容主體的因果、順承、轉折、強調、限制等邏輯信息,表達出不同的語義。因此,將文本結構關系引入將有助于提升虛假信息檢測效果。
基于文本結構特征的虛假信息檢測研究主要分為基于樹結構的方法和基于圖結構的方法兩類。a.基于樹結構的方法。ZHOU et al[16]從詞匯、句法、語義和語篇層面捕獲虛假信息的寫作風格,使用了文本修辭結構樹提取語篇特征,采用機器學習模型進行檢測。UPPAL et al[17]采用深度學習技術,首先利用雙向門控遞歸單元(GRU)網絡學習句子表征,然后基于樹形結構整合句子表示以檢測虛假信息。b.基于圖結構的方法。和樹結構相比,圖結構具有更強的結構化信息表達能力。圖卷積神經網絡(GCN)[18]將深度神經網絡應用在圖結構數據上,在自然語言處理任務中取得了許多優異的效果[19-21]。TextGCN[19]依據整個語料庫中文本和單詞之間的關系構建圖進行文本節點分類,但該模型不適用于歸納式學習,即面對訓練數據集中沒有的新文章時需要重新構建圖和重新訓練。ZHANG et al[20]提出了面向歸納式學習的TextING模型,對每篇文本利用單詞之間的局部共現關系來構建文本圖結構,取得了很好的文本分類效果。虛假信息檢測方面,VAIBHAV et al[21]提出,虛假信息與真實信息的全文句子間關系結構不同,因此,以全文句子為節點建立完全圖,引入GCN,通過最大池化層整合句子嵌入,生成文本表示,檢測虛假信息。進一步,考慮到全文句子之間不僅存在全局依賴關系,而且存在相鄰順序關系,WANG et al[22]提出一種基于句子間的全局語義交互關系結構、局部相鄰順序結構和全局順序結構特征的虛假信息早期檢測模型SemSeq4FD.該模型構建了句子全連接完全圖,采用GCN和自注意力機制獲得了全局句子表示;采用文本卷積神經網絡針對句子順序關系處理,得到局部句子表示;兩者拼接后形成增強型表示,再按照全文句子順序建立LSTM網絡,生成最終文本表示,用于虛假信息檢測。在中、英文兩種語言的數據集上進行跨來源、跨領域實驗,該模型均表現優秀。
1.1.2基于圖像的虛假信息檢測
虛假圖像主要表現為兩種形式:偽造和誤用。
Photoshop等圖像編輯軟件功能的不斷完善以及生成式對抗網絡在圖像合成領域取得的巨大成功正在降低圖像偽造的技術門檻,偽造圖像的檢測技術正在引起越來越多的關注?,F有的虛假圖片檢測方法主要包括基于手工特征的方法和基于深度學習的方法?;谑止ぬ卣鞯姆椒ù蠖嗷谔摷賵D像底層特征進行分析,效率高,但通常只能檢測特定類型的篡改?;谏疃葘W習的方法不受限于篡改手段類型,具有廣闊的發展空間。ZHOU et al[23]提出了一種基于Faster R-CNN的方法,從RGB流和噪聲流中提取篡改特征,用于虛假信息檢測。QI et al[24]提出了多域視覺神經網絡,設計了一個包括頻域模塊、像素域模塊和融合模塊的框架,用于學習視覺表征來檢測偽造圖像。實際應用中通常將基于特征的方法和基于深度學習的方法結合以提升檢測效果。
另一類基于圖像的虛假信息是誤用圖像,即圖像和文本不匹配,將不是同一事件的文本和圖像放在一起,混肴視聽。這類檢測一般通過對文本和圖像中的時間、地點、人物等關鍵信息進行提取,評估信息匹配程度以識別虛假信息。
1.1.3基于文本和圖像多模態融合的虛假信息檢測
為了增強信息可讀性,越來越多的網絡信息包含有文本和圖像,這些不同模態之間具有互補性、信息增強作用等特性,對于更好地理解原始數據的語義有著非常重要的作用。因此,近年來,基于多模態特征融合的虛假信息檢測越來越受到關注[25]。
信息表達越充分,越有利于信息檢測效果。為了得到豐富的全文信息表達,研究者們通常首先針對文本和圖像這兩種不同模態分別進行特征表達,然后采用拼接方式將兩種學習后的模態表征進行集成。SINGHAL et al[26]利用BERT提取文本向量表征,利用VGG19提取圖像向量表征,然后將其拼接作為聯合表征。YANG et al[27]不僅從文本和圖像中提取顯式特征,而且利用卷積神經網絡學習其潛在特征,然后將文本和圖像的顯式特征和潛在特征映射到同一特征空間中進行拼接,最后使用學習到的特征來檢測虛假信息?;谄唇拥娜诤戏绞胶唵危珱]有挖掘和區分不同特征對虛假信息檢測的不同重要性,也沒有考慮不同模式之間的隱含關系,對虛假信息檢測性能支持有限。因此,JIN et al[28]提出了一種具有注意力機制的循環神經網絡att-RNN,以融合帖子的圖像和文本特征進行虛假信息檢測。SONG et al[29]提出了一種基于跨模態注意殘差和多通道卷積神經網絡的多模態假信息檢測框架,可以根據注意力權重從另一個源模態中選擇性地提取與目標模態相關的信息。為了進一步學習文本和圖像之間的共享表征,WANG et al[30]提出了事件對抗神經網絡EANN,其中多模態特征提取器負責從帖子中提取文本和視覺特征,它與虛假信息檢測器合作,可以學習可判別的表征來檢測虛假信息,而事件判別器的作用是去除事件的特定特征并保留事件之間的共享特征,由此來學習代表各種主題和領域的事件不變特征,從而有利于對新事件進行檢測。KHATTAR et al[31]提出了一種多模態變分自動編碼器(MVAE),該編碼器能夠學習文本和圖像共享表征,經過訓練可以發現推文中各種模態之間的相關性,然后將變分自動編碼器與分類器耦合以檢測虛假信息。ZHOU et al[32]提出了相似度感知模型來研究文本和圖像信息之間的相似性在檢測虛假信息中的作用。孟杰等[33]提出了一種基于雙重注意力機制的多模態深度融合虛假信息檢測模型MMDF,采用雙向門控循環單元GRU結構提取文本語義特征,通過多分支卷積-循環神經網絡結構提取圖像的多層次語義特征以及不同層次特征之間的順序依賴關系;然后利用模間注意力機制融合文本特征和圖像的不同層次語義特征,利用模內注意力機制分別聚合增強型文本內部表征和增強型圖像內部表征,最后利用注意力機制將文本和圖像的原始信息注入到多模態聯合表征中,加強原信息的作用,進行虛假信息預測。
總之,基于文本圖像融合的虛假信息檢測研究主要集中在各模態表征學習、多模態融合機制的設計等環節,以期形成多模態數據協同,提升檢測性能。
在社交媒體網絡上,用戶是消息傳播的主體,用戶的身份信息在一定程度上代表了其發布內容的可信度。用戶信息,一般指可從社交媒體網絡上獲取的個人描述、性別、粉絲量、關注量、居住城市和愛好等屬性信息,一定程度上隱含了用戶權威程度和可信度。比如,一些大V用戶,具有賬號等級高、地理位置可見、發布頻率具有規律等特點,其發布的消息可信度也較高;而一些未經驗證的普通用戶賬號,賬號信息少,發布信息無規律,網絡社交關系異于通常情況,其發布或轉發的消息則很有可能是虛假信息。因此,引入用戶社交屬性信息,將從另一方面輔助提升虛假信息檢測的性能,具有重大的應用價值。
研究者們對于用戶屬性與虛假信息檢測間的關系進行了多方面的積極探索。GHENAI et al[34]分析了在Twitter上發布健康類虛假信息的一類用戶,將這類用戶同正常用戶進行了多方面的對比,構建了用戶屬性集合,然后將這些屬性特征輸入到Logistic分類器中進行分類,實驗結果證明基于用戶屬性建模的有效性。YANG et al[35]提取基于用戶的特征取得了不錯的分類效果,其中用戶特征包括性別、居住地和粉絲量等。CASTILLO et al[36]利用Twitter上的一組用戶特征來檢測虛假信息,這些特征包括粉絲量、朋友數、注冊年月等。SHU et al[37]為了揭示用戶特征和虛假信息之間的聯系,對用戶顯式特征和隱式特征進行了比較分析,揭示了有些用戶特征有助于檢測虛假信息。他們的工作為深入探索社交媒體的用戶特征提供了寶貴經驗。LIU和WU[38]結合循環神經網絡RNN和卷積神經網絡CNN來基于用戶特征學習高級表示。該方法被證明有非常好的虛假信息早期檢測性能,同時該工作也是第一次將深度學習作用于用戶特征進行虛假信息檢測的工作。LU和LI[39]將參與社交的所有用戶構建為一個完全連通圖以輔助檢測虛假信息,大大提升了虛假信息檢測的結果。薛海清等[40]提出一種基于用戶傳播網絡與消息內容融合的虛假信息檢測模型,利用多模態門控單元對用戶社交屬性表征、結構表征和帖子內容表征進行融合,增強了信息表征,提高了虛假信息檢測效果。
社交媒體網絡上,消息被發布后,每個用戶都可以對其進行點贊、評論、轉發及分享,這些社交活動構成了信息的傳播網絡,其中包含了許多對消息真實性判斷有幫助的潛在信息。例如:評論,通常是公眾對原文的真實反映和觀點,而且評論數據通常和原文在同一頁上,數據獲取簡單;轉發,與評論一樣包含了公眾的觀點,且體量更大,但數據質量參差不齊。這些信息傳播中的各種行為從另一個角度為虛假信息檢測提供了新的線索。當前基于傳播的虛假信息檢測研究主要集中在對評論和轉發行為的利用上,所以本文從基于評論的方法和轉發的方法兩方面展開闡述分析。
1.3.1基于評論的虛假信息檢測
基于評論的方法一般是通過挖掘評論和原文的關系以提升檢測效果。張仰森等[41]提出通過計算評論的異常度來實現對虛假信息的檢測。MA et al[42]基于評論順序建立了樹結構遞歸神經網絡RvNN,從評論和文本內容中捕捉各節點的隱藏表示,用于分類。SHU et al[43]意識到評論與原文關聯關系的重要性,提出dEFEND模型來學習貼子和評論之間的語義關聯,并使用互注意力機制提供可解釋性,取得了較好的虛假信息檢測結果。WU et al[44]提出了自適應交互融合網絡AIFN來實現帖子和評論的融合并將其用于虛假信息檢測任務。YANAGI et al[45]認為評論對于虛假信息檢測任務非常重要,但是有些消息可能存在評論不足的問題,他們通過訓練生成器模型來為消息生成評論進而提高檢測性能。LIN et al[46]在評論轉發圖的基礎上增強了用戶交互,提出了層次圖注意力模型,取得了較好的虛假信息檢測結果。YANG et al[47]從原文和評論的回復結構、原文和評論的相互選擇、評論內部的主題漂移三方面進行建模,提出一種基于原文和評論的虛假信息檢測模型PostCom2DR,在中文和英文虛假信息檢測中均提升了檢測準確率。
1.3.2基于轉發的虛假信息檢測
現有的研究根據建模類型的不同,主要可以分為3種:基于轉發鏈的方法、基于轉發樹的方法和基于轉發圖的方法。
基于轉發鏈的方法主要將消息的所有轉發按照時間順序看成一個時間鏈來處理。KWON et al[48]研究虛假信息和真實信息在轉發上的差異,并從時間和內容兩個方面分析得出一系列轉發特征,然后利用機器學習方法來判斷一個貼子是否是虛假信息。基于轉發樹的方法則主要將信息的轉發建模為一棵消息樹,通過對消息轉發樹中根節點到葉子節點的路徑進行一系列操作來檢測虛假信息。LAO et al[49]通過結合虛假信息轉發鏈與轉發樹的方式提出了RDLNP模型,該模型分別對虛假信息的擴散和時序信息進行建模,被證明有較好的結果。但上述做法通常僅關注學習轉發過程中的時間序列信息,而忽略了消息之間相互轉發的全局關系。最近的一些研究開始將消息轉發建模為一個轉發圖,然后利用圖網絡技術來解決虛假信息檢測問題。WEI et al[50]針對虛假信息檢測問題,提出了一種多深度M-GCN模型,該模型能夠捕獲多尺度的鄰居信息。WU et al[51]對消息轉發時形成的消息轉發圖迭代的使用圖神經網絡直到收斂,將收斂之后的節點表示用于分類。BIAN et al[52]將轉發結構建模為轉發圖,建立雙向圖卷積網絡biGCN學習轉發中的結構特征,然后結合原文進行虛假信息檢測。楊延杰等[53]引入融合門控的圖卷積神經網絡,提出了一種基于原文和轉發網絡的虛假信息檢測模型GUCNH,在中英文虛假信息檢測以及早檢測方面均具有明顯優勢。
當前,國內外各政府及相關機構紛紛出臺相關法律、法規對發布和傳播虛假信息的行為進行打擊,各互聯網企業、網站平臺等紛紛設立檢測機制進行虛假信息鑒別。在美國,臉書公司鼓勵用戶舉報虛假帖子,并雇用專業的事實檢查人員來檢測虛假信息。國外Snopes、 FactCheck、PolitiFact等網站利用人工及多技術結合查驗信息真假。在國內,國家網信辦、各省市互聯網信息辦公室等機構設立了中國互聯網聯合辟謠平臺、各地市辟謠平臺等,進行權威發布、媒體求證、謠言舉報、信息核實和辟謠課堂學習及宣傳等。這些平臺主要采用人工審核及多技術手段結合方式識別不實信息,同時承擔了宣傳和網民新媒體素養的教育職能。
除了運營或商用平臺外,研究者們也在開發各種自動化虛假信息檢測系統,以期減少當前平臺上主要依賴人工核實信息的勞動強度和難度,實現自動信息檢測。SHU et al[54]提出了一個端到端的虛假信息檢測工具FakeNewsTracker,對信息進行真假檢測和特征可視化。蔣昊[55]針對虛假信息傳播過程,建模實現了一個基于傳播結構的虛假信息檢測系統。常超舜[56]開發了一個在線虛假信息檢測和分析的系統,通過網絡爬蟲匹配一些官方辟謠數據,對未匹配到的信息應用深度學習算法模型進行識別。在可解釋的虛假信息檢測系統研究方面,YANG et al[57]提出了XFake模型,利用決策樹、自注意力機制和XGBoost分類器從多個角度分析和檢測虛假信息,并提供可視化解釋作為證據。PRZYBYA et al[58]從文本風格特征、句子相似度等方面,構建了可解釋的虛假信息檢測工具Credibilator。該系統基于Chrome擴展程序,具有方便檢測的優點,但是僅支持全頁面檢測、英文檢測。太原理工大學大數據智能理論與工程研究中心王莉教授團隊開發了一套在線虛假信息實時檢測與交互式擴展系統,該系統作為瀏覽器端插件直接擴展,無需專門安裝;后端嵌入自有產權的算法模型,可同時實現中文、英文信息的虛假性檢測;具有虛假信息實時檢測、用戶交互反饋和模型因果解釋三大功能,支持模型持續學習、自修正及解釋等能力。
網絡信息爆炸的今天,各種虛假信息給國家、社會、企業和個人造成了極大的負面影響和危害。網絡虛假信息檢測已經成為維護網絡空間秩序、保障人民生命財產安全、社會穩定、國家安全的一項重要措施。國內外企業界和學術界紛紛展開研究和探索,近年來出現了許多研究成果。但是由于虛假信息跨領域、跨語言、跨平臺以及虛假信息制造者手段的不斷更新,虛假信息的自動檢測仍然任重而道遠。通過對國內外相關領域研究工作的調研和分析,本文認為網絡虛假信息檢測仍然存在數據、模型以及跨模態檢測等方面的挑戰。
1) 數據問題。主要表現為標注數據的缺乏、不同領域虛假信息數據分布的不均衡以及與真實信息數據相比的數據不平衡問題,這些都在一定程度上制約了以深度學習為核心數據驅動的虛假信息檢測技術的發展。所以,在未來,一方面需要相關機構或研究者聯合起來,積極進行公開共享數據集建設;另一方面,需要研究小樣本等對數據依賴小的新興檢測技術。
2) 模型適配與遷移問題。一些數據分析的工作表明,不同領域的信息數量、信息可得性、虛假信息占比分布等具有差異,如何利用容易采集的民生、娛樂等領域數據訓練出具有一定普適性的檢測模型或易于遷移的模型,用以跨領域、跨平臺、跨來源的信息檢測,是虛假信息檢測技術落地應用所無法避開的一個問題。
3) 跨模態檢測。當前網絡的信息載體主要有文本、圖片、視頻與語音等,不同模態的造假技術也各有不同;虛假信息的表現呈現出多樣化,文本造假、文本關鍵信息缺失、圖片造假、圖片誤用、語音拼接等,如何利用多種模態的信息,跨模態檢測、融合多模態檢測是未來虛假信息檢測的一個重要研究方向。
網絡空間中,虛假信息的制造和檢測將構成貫穿網絡全生命周期的永遠的博弈。虛假信息檢測問題的研究,不僅是技術問題,也是法律、宣傳、教育、認知等各方面的問題,需要國家、企業、教育、民眾等各級機構和所有大眾的深度參與和認真覺悟。深度學習、知識圖譜、認知心理等科學技術將會深度融合,在技術方面發揮出重要的支撐作用。