基于多模態Transformer的虛假新聞檢測研究

2024-01-03 09:10:10王震宇朱學芳

情報學報 2023年12期

王震宇，朱學芳

（南京大學信息管理學院，南京 210023）

0 引言

近年來，移動智能設備的迅速發展改變了人們獲取信息的方式，社交媒體已經成為人們瀏覽信息、表達和交流意見的主要渠道。隨著微博、Twit‐ter、抖音等應用程序的用戶數量大幅上升，社交媒體平臺上存在的信息數據也呈現爆發式增長。虛假新聞[1]常被定義為“故意、可證實為虛假并可能誤導讀者的新聞文章”，由于用戶不會驗證其發布或轉發信息的真實性，造成了大量虛假新聞的廣泛傳播。如果沒有恰當的監管，那么這些虛假新聞很可能會誤導更多的讀者，甚至造成惡劣的社會影響，因此，針對社交媒體平臺上的虛假新聞檢測研究已經成為一個新的研究熱點。

為了遏制虛假新聞的傳播，社交媒體平臺做了許多嘗試。早期主要是通過邀請相關領域的專家或機構對用戶發布的虛假新聞進行確認，這種方法費時、費力且無法應對指數式增長的信息數據，當前自動化虛假新聞檢測方法受到了廣泛關注?，F有的自動化虛假新聞檢測方法可以歸納為傳統機器學習方法和深度學習方法兩類。其中，傳統機器學習方法包括支持向量機（support vector machine，SVM）[2]和決策樹[3]等，這些方法依賴于從新聞相關信息中手工提取的特征。然而，虛假新聞的內容十分復雜，難以依靠手工提取到足夠的有效特征，深度學習方法利用神經網絡充當特征提取器，能夠從原始數據中自動提取特征。例如，Ma等[4]利用循環神經網絡（recurrent neural network，RNN）從新聞的文本和社會背景中學習隱藏表示；Yu等[5]利用卷積神經網絡（convolutional neural network，CNN）從虛假新聞中提取關鍵特征和特征高階交互關系。但是，上述方法通常只關注新聞中的文本信息，而忽略了其他模態的信息（如圖像），這些信息對提升虛假新聞檢測性能同樣十分關鍵。圖1是Twitter數據集中關于臺風桑迪的虛假新聞示例，其中圖片是經過處理的，結合圖像信息和文本信息有助于對虛假新聞進行檢測。

圖1 Twitter虛假新聞示例

隨著深度神經網絡在各種非線性表示學習任務中不斷取得突破，許多多模態表示學習任務也開始使用深度學習方法提取特征，其中包括多模態虛假新聞檢測。Wang等[6]提出了事件對抗神經網絡（event adversarial neural network，EANN），該模型能夠在提取虛假新聞中多模態特征的同時刪除特定于某個事件的特征。Khattar等[7]提出了多模態變分自編碼器（multimodal variational auto encoder，MVAE）來提取新聞中的多模態特征，并將提取到的特征分別送入解碼器和分類器中用于重建原始樣本和虛假新聞檢測。Singh等[8]使用NasNet Mobile模型提取圖像特征，同時使用BERT（bidirectional encoder representations from transformers）和ELEC‐TRA（efficiently learning an encoder that classifies to‐ken replacements accurately）組合模型提取文本特征，大大減少了模型參數數量，提高了模型訓練速度。雖然上述模型均在虛假新聞檢測任務中表現出良好的性能，但是依然存在以下問題。

（1）現有的多模態虛假新聞檢測方法主要使用預訓練的深度卷積神經網絡來提取圖像特征，如VGG16（visual geometry group 16）[9]、VGG19[6-7,10-11]、ResNet[12]。在實際訓練過程中，充當圖像特征提取器的預訓練模型的參數會保持凍結，但是預訓練模型并不完美，這會限制整個多模態模型的性能。為了減少特征提取時間，圖像特征通常會被預先存儲起來，往往會使得這些模型的缺點被忽略。

（2）由于不同模態數據之間可以相互補充，因此，處理好跨模態特征融合是多模態模型成功的關鍵。現有多模態虛假新聞檢測方法使用的特征融合方式通常十分簡單，例如，EANN[6]和SpotFake[10]僅將圖像特征和文本特征拼接在一起送入分類器中，沒有充分考慮模態間的互補關系。

為了解決上述問題，本文提出了基于端到端訓練的多模態Transformer模型（multimodal end-to-end transformer，MEET），訓練過程中模型所有參數不會凍結。MEET主要由多模態特征提取器和特征融合模塊構成。通過使用視覺Transformer代替CNN提取圖像特征，將對圖像輸入的處理簡化為與處理文本輸入一致的無卷積方式，統一了不同模態的特征提取過程。特征融合模塊使用共同注意力（coattention）模塊[13]，其中文本特征和圖像特征被分別輸入兩個對稱的Transformer中，并使用交叉注意力機制來實現多模態交叉融合。此外，本文研究了端到端預訓練對模型性能的影響，預訓練數據集均為多模態數據集。通過在3個公開虛假新聞數據集上的實驗，證明了本文模型性能優于當前最好的方法。

本文的主要貢獻如下：

（1）提出了MEET模型，使用視覺Transfomer作為圖像特征提取器，以相同的方式處理不同模態的輸入，同時采用端到端的方式對模型進行了訓練。

（2）首次在虛假新聞檢測任務中使用共同注意力模塊，該模塊已經成功應用于多個視覺語言任務中[14]，如圖像問答、圖像文本檢索等。本文通過實例分析證明了共同注意力模塊在虛假新聞檢測中的有效性。

（3）第一次在虛假新聞檢測任務中引入端到端預訓練，并在Twitter數據集上與沒有經過預訓練的MEET模型進行了對比分析，實驗結果驗證了端到端預訓練方法的優越性。

1 相關研究

1.1 虛假新聞檢測

現有的虛假新聞檢測方法可以大致分為傳統方法和深度學習方法。早期研究者[15-16]主要使用由專家從新聞相關信息中手工提取的特征訓練虛假新聞分類器，如用戶特征、主題特征、傳播特征等。雖然這些手動選擇的特征被證實是有效的，但提取這些特征通常需要復雜的特征工程。與傳統方法相比，深度學習方法能夠從原始數據中自動提取特征，目前用于虛假新聞檢測任務的深度學習方法可以分為單模態虛假新聞檢測方法和多模態虛假新聞檢測方法。

現有的單模態虛假新聞檢測方法主要是從新聞文本中提取文本特征或從新聞圖片中提取圖像特征。Ma等[4]使用循環神經網絡從新聞中學習隱藏特征。Yu等[5]使用卷積神經網絡獲取新聞的關鍵特征和高階交互關系。Bahad等[17]進一步研究了CNN和RNN在虛假新聞檢測中的表現，使用新聞文本特征評估了雙向長短期記憶（long short-term memory，LSTM）網絡、CNN、RNN和單向長短期記憶網絡的性能。此外，Qi等[18]提取了新聞圖像不同像素域的視覺信息，并將其送入多域視覺神經網絡來檢測虛假新聞。

隨著深度學習技術在特征提取和特征融合中的廣泛應用，多模態虛假新聞檢測方法受到越來越多的關注。Jin等[19]首次在虛假新聞檢測領域使用多模態模型，通過注意力機制融合了提取到的新聞圖像、文本和社會背景特征。Khattar等[7]提出了能夠學習兩種模態共享表示的MVAE，模型被訓練從學習到的共享表示中重建兩種模態，并將學習到的共享用于虛假新聞檢測。Singhal等[10]使用預訓練BERT模型提取新聞文本特征，同時使用預訓練VGG19模型提取新聞圖像特征。Qian等[12]使用預訓練模型學習新聞文本和圖像表示，并將學習到的文本和圖像表示輸入多模態上下文注意網絡以融合不同模態特征。

雖然預訓練模型已經成功用于提取新聞的多模態特征，但是不同模態的特征提取器通常會使用不同的模型結構，如提取文本特征的Transformer結構、提取圖像特征的CNN結構，CNN結構比Trans‐former結構更加復雜，特征提取時間也更長。為了節省訓練時間，實際訓練時往往會選擇凍結預訓練模型參數，只訓練整個模型的頭部，而無法達到端到端的訓練效果。

1.2 視覺Transformer

盡管Transformer已經成為自然語言處理的主流架構[20]，但是直至最近才被用于圖像處理[21-22]。為了將圖像變為符合Transformer輸入要求的序列形式，視覺Transformer（vision transformer，ViT）將圖片切分為大小相同的patch后組合成序列輸入，patch機制的引入極大簡化了將圖像嵌入形式轉變為文本嵌入形式的過程。視覺Transformer已經在許多計算機視覺任務中取得了最先進的成果，如物體檢測[23]、圖像補全[24]、自動駕駛[25]等。本文提出的MEET模型是以視覺Transformer作為圖像特征提取器的、完全基于Transformer的多模態模型。

2 模型設計

本文提出的基于多模態Transformer的虛假新聞檢測模型結構如圖2所示。整個模型主要由3個部分構成，分別是多模態特征提取器、共同注意力模塊和虛假新聞檢測器。多模態特征提取器負責提取新聞的文本特征和圖像特征，之后，文本特征和圖像特征會被送入共同注意力模塊進行多模態特征融合，最后，融合特征會作為虛假新聞器的輸入以生成最終的分類結果。

圖2 基于多模態Transformer的虛假新聞檢測模型

2.1 文本特征提取

文本特征提取器采用Transformer結構，Trans‐former在問答任務、命名實體識別、文本分類等多個領域均被證明是有效的[26-28]。為了提升模型的泛化性能，本文使用了在大規模語料上預訓練的語言模型。目前常用的預訓練語言模型有BERT[26]和Ro‐BERTa[27]，兩者均使用Transformer編碼器作為網絡主體。RoBERTa相較于BERT的主要改進在于修改了BERT原有的預訓練策略，包括使用更大的文本嵌入詞匯表、預訓練任務中去除預測下一個句子和使用動態掩碼策略等。RoBERTa已經在多個自然語言處理任務上表現出超越BERT的性能[27]。本文在第3節中對這兩種文本編碼器進行了對比分析。此外，為了證明預訓練語言模型的必要性，本文還測試了只使用BERT的嵌入層作為文本編碼器的情況。

令T={t[CLS],t1,…,tm,t[SEP]}，其中T表示輸入的文本嵌入；m表示新聞文本中的單詞數；t[CLS]為分類標記嵌入，表示該位置的特征向量用于分類任務；t[SEP]為分句標記嵌入，用于句子結尾。提取到的文本特征表示為L={l[CLS],l1,…,lm,l[SEP]}，其中li對應于ti轉換后的特征；l[CLS]為分類標記的特征向量，代表文本的語義特征。L的計算公式為

其中，l∈Rdt為對應位置的輸出層隱藏狀態；dt為文本嵌入維數。

2.2 圖像特征提取

為了使圖像輸入的三維矩陣結構變為符合Transformer輸入要求的序列結構，首先要對圖像進行序列化預處理，整個處理過程如圖3所示。假設圖像輸入矩陣尺寸為224×224×3，使用卷積層將圖像切分為14×14個patch，之后將所有patch展平成長度為196的序列，在序列前拼接分類標記嵌入再加上位置嵌入，就得到了完整的圖像嵌入矩陣。本文圖像特征提取器采用基于對比語言圖像預訓練（contrastive language-image pre-training，CLIP）的視覺Transformer模型[29]，以下簡稱CLIP-ViT。CLIPViT與其他預訓練視覺Transfomer的區別在于其預訓練數據是多模態的，是在從互聯網上抓取的4億個圖像文本對上訓練的。此外，CLIP-ViT在Ima‐geNet分類等基準數據集上展現出強大的零樣本學習能力。本文在第3節中通過對比實驗深入研究了CLIP-ViT的作用。

圖3 圖像預處理過程

對于給定圖像嵌入R，通過CLIP-ViT提取到的圖像特征可以表示為

其中，v∈Rdr；vClass為分類標記的特征；dr為圖像嵌入維數。

2.3 共同注意力模塊

為了使模型能夠學習到圖像和文本之間的語義對應關系，本文使用共同注意力模塊對圖像特征和文本特征進行交叉融合。如圖4所示，共同注意力模塊由兩個交叉注意力網絡構成，每個交叉注意力網絡都是一個N層的Transformer結構，與一般Transformer相比，每層多了一個交叉注意力塊。通過在兩個網絡對應層的交叉注意力塊之間交換鍵矩陣K和值矩陣V，使得圖像對應的文本特征能夠被納入網絡輸出的圖像表示中，同樣地，文本對應的圖像特征也會被納入網絡輸出的文本表示中。共同注意力模塊已經被用于視覺語言模型中，并且在圖像問答、圖像標注等任務上證明了其有效性[13-14]。

圖4 共同注意力模塊

2.4 多模態融合及分類

通過共同注意力模塊的交叉注意力機制，本文得到了更新后的圖像特征W={w0,w1,…,wn}和文本特征S={s0,s1,…,sm}，其中w0和s0分別表示圖像和文本的分類特征。將圖像分類特征與文本語義分類進行拼接，得到多模態融合特征C。

虛假新聞檢測器以多模態融合特征C作為輸入，利用兩層全連接層來預測新聞是真假新聞的概率，計算公式為

其中，σ1為gelu激活函數；σ2為softmax激活函數；H為第一層全連接層的輸出；P為最終輸出的分類預測概率，模型損失函數為P與新聞標簽真實值的交叉熵。

3 實證研究

3.1 數據集及評價指標

本文將提出的MEET模型與其他基線模型在3個公開的虛假新聞數據集上進行了比較，包括英文Twitter數據集[30]、中文Weibo數據集[19]以及中文Bi‐en數據集①https://www.biendata.xyz/competition/falsenews/。

Twitter數據集是在MediaEval研討會上發布的虛假新聞檢測數據集MediaEval2015[30]，該數據集由17000條來自Twitter平臺的推文文本及其相關圖像組成，是多模態虛假新聞檢測任務中最常用的數據集之一。遵照已有研究成果[7]，本文以沒有重疊事件的方式將數據集劃分為訓練集（15000條）和測試集（2000條）。

Weibo數據集由經過微博官方辟謠平臺驗證的虛假新聞和經新華社核實的真實新聞組成，這些新聞同樣包含文本和圖像[19]。使用不同語言的數據集能夠更好地評估模型的泛用性和魯棒性。按照已有方法[7]將該數據集劃分為訓練集（80%）和測試集（20%）。

Bien數據集來自人工智能競賽平臺BienData舉辦的互聯網虛假新聞檢測挑戰賽①，原始數據集分為兩個部分：帶標簽的訓練集（38471條）和不帶標簽的測試集（4000條）。與已有研究[31]一致，本文將原始訓練集按照4∶1劃分為訓練集和測試集。

為提高數據質量，本文首先對3個數據集進行簡單的預處理，篩選出既包含文本又包含圖像的新聞，其中圖像僅限靜態圖片，不包括動態圖像和視頻。經過篩選和處理后的數據集統計信息如表1所示。

本文使用準確率（accuracy）作為模型主要評價指標，這是分類任務中的常用指標。此外，實驗中統計了模型的精確率（precision）、召回率（re‐call）和F1分數（F1-score）作為補充評價指標，可以減少類型不平衡時準確率指標可靠性下降的問題。

3.2 端到端預訓練設置

本文對MEET模型進行了端到端的視覺語言預訓練（vision-and-language pre-training，VLP）。預訓練任務包括掩碼語言建模（masked language model‐ing，MLM）和圖像文本匹配（image-text matching，ITM）。在MLM任務中，將15%的輸入文本替換為掩碼標記（[MASK]），并讓模型學習輸出被替換的原始文本。在ITM任務中，按相同概率采樣匹配和不匹配的圖像標題對送入模型，模型需要輸出輸入的圖像標題對是否匹配。

本文遵循已有研究[32]，在4個公開數據集上對模型進行端到端預訓練，包括COCO數據集[33]、Con‐ceptual Captions數據集[34]、SBU Captions數據集[35]和Visual Genome數據集[36]。為了使預訓練數據集與微調數據集中的文本語言保持一致，本文只在英文Twitter數據集上對端到端預訓練效果進行了驗證。

3.3 實驗設置及模型超參數

根據對3個公開數據集中文本長度的統計，將Twitter數據集文本序列最大長度設置為50，Weibo數據集和Bien數據集文本序列最大長度設置為200，超出部分截斷，不足部分補零。對于圖片，所有圖片輸入大小均被調整為224×224×3，訓練過程中對圖片應用隨機的數據增強[37]以加強模型泛化性能，驗證和測試過程中不使用數據增強。

本文所有實驗均在內存為32G，顯卡為NVID‐IA RTX 3090的服務器上完成。本文使用的編程語言為python 3.8，使用的深度學習框架為pytorchlightning 1.3.2、pytorch 1.7.1和transformers 4.6.0。

MEET模型的圖像特征提取器和文本特征提取器均是12層Transformer結構，圖像嵌入和文本嵌入維數均為768。共同注意模塊中兩個交叉注意力網絡均為6層Transformer結構。虛假新聞檢測器中兩層全連接層的神經元個數分別為1536和2，激活函數分別為gelu和softmax，損失函數為交叉熵損失函數。

本文使用AdamW優化器，訓練批次大小為256，為了減緩模型過擬合同時加速模型收斂，學習率在訓練總步數的前10%中會從0線性遞增到設置的學習率，之后再線性衰減到0。

3.4 文本和視覺編碼器的對比分析

由于完全訓練一個MEET模型耗時較長，本文先在較少訓練輪數下探究了不同文本和視覺編碼器的表現。實驗分為兩個階段：首先，評估了在缺少視覺或文本模態時各種編碼器的性能；其次，通過研究不同文本編碼器與視覺編碼器的組合，深入分析了視覺編碼器的作用。為了保證實驗的可靠性，每個實驗在不同的隨機數種子上執行5次，并采用測試集的平均準確率作為評價指標。實驗中所有模型的訓練輪數設定為10，底層和頂層學習率分別設定為1e-5和1e-4，底層包括文本編碼器和視覺編碼器，頂層包括共同注意力模塊和虛假新聞檢測器。

3.4.1 文本編碼器對比

如表2所示，BERT和RoBERTa在各數據集上表現存在顯著差異。在中文Weibo數據集和Bien數據集中，兩者表現相當；但在英文Twitter數據集上，BERT明顯優于RoBERTa。值得注意的是，僅基于文本的BERT和RoBERTa在兩個中文數據集的測試集上的準確率已超過部分使用非Transformer結構文本編碼器的多模態模型。此外，采用BERT嵌入層的模型在3個數據集的測試集上僅持續預測同一類別，這表明預訓練文本編碼器在僅基于文本的虛假新聞檢測任務中是必要的。

表2 無視覺模態時的文本編碼器對比

3.4.2 視覺編碼器對比

如表3所示，本文在圖像方面比較了CLIP-ViT-16和CLIP-ViT-32兩種模型，其中16和32表示模型的patch大小。實驗結果表明，CLIP-ViT-16在所有數據集上性能更佳。在Twitter數據集上，視覺編碼器明顯優于文本編碼器，這與各數據集中新聞圖片數量有關。Twitter數據集的圖片數量遠少于Weibo數據集和Bien數據集，因此，視覺編碼器在Twitter數據集上需要學習的虛假新聞圖像特征也較少。

表3 無文本模態時的視覺編碼器對比

3.4.3 文本和視覺編碼器組合對比

如表4所示，所有多模態組合模型相較于單一模態模型的性能都有明顯提升，這包括僅使用BERT嵌入層作為文本編碼器的模型。在引入視覺模態后，各文本編碼器之間的性能差距顯著減小，但使用一個預訓練的文本編碼器仍具有重要意義。在視覺編碼器方面，CLiP-ViT-16和CLiP-ViT-32均表現出良好性能，尤其是CLiP-ViT-16在Weibo數據集和Bien數據集上分別達到了89.70%和97.15%的平均準確率，超越了現有最佳模型的表現。

表4 文本和視覺編碼器組合對比

3.4.4 學習率設置

本文深入探討了不同學習率對模型性能的影響，并選用CLiP-ViT-16和RoBERTa作為默認編碼器。表5展示了在4種學習率設置下訓練的模型表現。對于Weibo數據集和Bien數據集，對模型頂層參數采用更高的學習率有助于取得更好的結果。然而，在Twitter數據集上模型性能卻呈現下降趨勢。這是由于Twitter數據集中視覺模態相對文本模態更為重要，多模態融合過程中視覺模態起主導作用，較高的學習率容易導致過擬合現象。相反地，在Weibo數據集和Bien數據集中文本模態和視覺模態的重要性相當，較高的學習率有助于學習到更復雜的多模態融合策略。

表5 不同學習率設置對比

3.5 基線模型

3.5.1 單模態模型

（1）Textual：該模型僅使用新聞文本作為模型輸入。使用預訓練的詞嵌入模型生成文本嵌入，將文本嵌入輸入雙向LSTM模型以提取新聞文本特征，最后使用全連接層輸出分類結果。

（2）Visual：該模型僅使用新聞圖片作為模型輸入。先將圖片輸入預訓練VGG19模型提取圖像特征，再將圖像特征輸入全連接層進行虛假新聞檢測。

3.5.2 多模態模型

（1）EANN[6]：EANN主要由3個部分組成，即多模態特征提取器、虛假新聞檢測器和事件鑒別器。在多模態特征提取器中，分別使用TextCNN模型和預訓練VGG19模型提取文本特征和圖像特征，將提取到的文本特征和圖像特征拼接后輸入虛假新聞檢測器中。為了保證實驗公平，本文使用的是不包含事件鑒別器的簡化版EANN。

（2）MVAE[7]：MVAE使用雙模態變分自編碼器和二值分類器進行虛假新聞檢測。其中，雙模態變分自編碼器使用雙向LSTM模型和預訓練VGG19模型作為文本編碼器和圖像編碼器，利用全連接層進行特征融合。

（3）SpotFake[10]：SpotFake使用預訓練語言模型（BERT）提取文本特征，并使用預訓練VGG19模型提取圖像特征，沒有使用特征融合方法。

（4）HMCAN（hierarchical multi-modal contextu‐al attention network）[12]：HMCAN使用預訓練BERT模型和ResNet模型提取新聞文本特征和圖像特征，并將提取到的特征輸入多模態上下文注意網絡進行特征融合，此外模型還使用層次編碼網絡捕捉輸入文本的層次語義特征。

（5）CEMM（correlation extension multimod‐al）[31]：CEMM先利用光學字符識別（optical char‐acter recognition，OCR）技術從附加圖像中識別文本信息，再使用BERT和雙向LSTM從新聞文章及其OCR文本中提取文本特征，并計算兩者的相似性得分。最后將這些特征與圖像直方圖特征拼接后輸入分類器以進行虛假新聞檢測。

3.6 實驗結果及分析

根據3.4節的實驗結果，本文選擇RoBERTa作為MEET模型的文本編碼器，CLIP-ViT-16作為視覺編碼器。表6展示了MEET模型與其他基線模型在3個公開數據集上的性能對比。為了公平對比，本文在這3個數據集上訓練了HMCAN模型，學習率設定為1e-3，保持其他訓練設置與MEET模型一致。

表6 不同方法在3個數據集上的實驗結果

如表6所示，在Twitter數據集上HMCAN模型的復現結果與原文存在較大差異，這可能是因為在劃分Twitter數據集時，HMCAN沒有確保訓練集與測試集的事件無重疊。此外，從HMCAN的公開源碼可知該模型并非端到端訓練，這也可能對其性能產生影響。同時，HMCAN在處理BERT提取的文本特征時將其平均分成3段與圖像特征進行分層特征融合，但在這一過程中模型沒有充分考慮短文本的情況，導致后兩段文本中存在大量無效的填充標記（padding token）。然而，源碼中模型并未對這些填充標記進行掩碼處理。對于Twitter數據集，本文僅關注HMCAN模型的復現結果。

實驗結果顯示，多模態模型相較于單模態模型具有顯著優勢。除了本文方法外，SpotFake模型和HMCAN模型的表現同樣出色，這表明預訓練的BERT模型能夠更有效地從新聞文本中提取特征。本文提出的MEET模型在3個數據集上的準確率均超過其他基線模型，并在其他評價指標上也能取得最佳或次佳的成績。MEET(VLP)模型在Twitter數據集上的表現尤為突出，進一步證實了端到端預訓練能提升模型性能。圖5是MEET(VLP)模型和MEET模型在訓練過程中的損失曲線，可以看出，MEET(VLP)模型在前200步的訓練損失下降速度更快，這表明端到端預訓練不僅能提升模型性能，還可以加速模型收斂。

圖5 不同預訓練設置下的訓練損失曲線

為了展示MEET模型在多模態融合上的優越性，本文對兩個虛假新聞實例進行了注意力可視化分析。如圖6所示，雖然從文本內容上看，這兩則新聞似乎無法判斷真偽，但圖6a中窗外的海底景色和圖6b中墻上的合影照片均顯得異?？梢?。在共同注意力模塊的第一層注意力圖中，模型最初將注意力分散在圖片的各個區域。經過一層交叉注意力網絡后，第二層注意力圖顯示模型能夠在圖像中檢測到文本的部分語義對象，如“views”“bedroom”“toilets”。在多次交叉融合后，最終層注意力圖體現出模型將注意力集中在兩幅圖中最不合理的部分，并成功判斷出這些新聞為虛假信息。以上可視化分析結果可以證實，本文模型能夠有效地利用多模態信息對虛假新聞進行檢測。

圖6 MEET模型多模態融合注意力可視化

4 總結與展望

針對現有多模態虛假新聞檢測方法的不足，本文提出了一種基于多模態Transformer的虛假新聞檢測模型。首先，該模型將圖像輸入序列化成文本輸入的形式；其次，利用預訓練Transformer以相同的方式提取文本特征和圖像特征；再其次，通過共同注意力模塊實現不同模態間的交叉融合；最后，將融合后的圖像特征和文本特征拼接起來送入全連接層生成檢測結果。本文在3個公開數據集上進行了對比實驗和實例分析，實驗結果證明了該模型的優勢和模型中每個模塊的有效性。本文部分內容已用于申請發明專利[38]。

同時，本文尚存在以下不足。由于受到端到端預訓練數據集的限制，本文只在Twitter數據集上驗證了端到端預訓練的效果，后續可以嘗試在預訓練數據集中添加中文數據集或多語言數據集，從而能夠在更多不同語言的虛假新聞數據集上進行端到端預訓練的實驗。此外，本文模型只考慮了新聞的文本信息和圖像信息，未來可以考慮引入更多模態以提升模型檢測性能。