999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多模態深度融合的虛假信息檢測

2022-03-01 12:34:02楊延杰
計算機應用 2022年2期
關鍵詞:模態特征文本

孟 杰,王 莉*,楊延杰,廉 飚

(1.太原理工大學大數據學院,太原 030600;2.北方自動控制技術研究所,太原 030006)

0 引言

社交媒體在給人們帶來便利的同時,促進了虛假信息的廣泛傳播,對社會穩定造成了巨大的威脅。例如,在2019 新型冠狀病毒暴發之后,各種虛假信息在社交媒體廣泛傳播[1],引起民眾極大的恐慌。因此,迫切需要使用技術手段自動化檢測虛假信息,防止引發嚴重負面影響。

早期方法主要從文本內容中提取語言特征[2-4]來檢測虛假信息,后來研究發現圖片也包含豐富的信息,能有效提高模型檢測準確率。因此,最近很多研究工作將文本和圖片這兩種模態信息相結合,采用基于多模態的方法檢測虛假信息。然而,現有多模態方法存在一定不足。首先,對圖片表征時,大多數工作依賴于VGG19[5]的最終輸出,忽略了圖片的不同層次特征;其次,在學習多模態聯合表征時只考慮到不同模態之間的交互關系,忽略了單模態內部的復雜關系以及單模與多模的交互關系。

為了解決上述問題,本文提出了一種基于文本和圖片信息的多模態深度融合(Multi-Modal Deep Fusion,MMDF)模型來識別虛假信息,首先,用雙向門控循環單元(Bi-Gated Recurrent Unit,Bi-GRU)提取文本特征,并借鑒Qi 等[6]的方法,用多分支卷積-循環神經網絡(Convolutional Neural Network-Recurrent Neural Network,CNN-RNN)提取圖片的不同層次特征;然后采用模間和模內注意力機制動態融合多模態信息,得到多模態聯合表征;最后,通過注意力機制將各模態原表征與融合后的多模態聯合表征進行再融合,加強原信息的作用。實驗結果表明,本文模型可以有效融合多模態信息。

本文的工作主要包括以下幾個方面:

1)提出了一種基于VGG19 的多分支網絡CNN-RNN 來提取圖片的不同層次特征;

2)提出了模間和模內注意力機制,在學習不同模態交互關系的基礎上,進一步捕獲了單模內的復雜關系;

3)將各模態原表征與融合后的多模態聯合表征通過注意力網絡相結合,加強原信息的作用。

1 相關工作

虛假信息可以定義為故意捏造且驗證為假的信息[7-8],而模態是指每一種信息的來源或形式。本文按照模態數將目前研究大致分為兩類:基于單模態的方法和基于多模態的方法。

1.1 基于單模態的方法

基于單模態的方法分為基于文本的方法和基于圖片的方法。

基于文本的方法在早期主要通過提取各種手工特征并結合機器學習方法進行虛假信息檢測[9],但易受到數據集的限制,可擴展性較差。隨著深度學習的廣泛應用,Ma 等[4]引入遞歸神經網絡學習文本的隱藏表征;劉政等[10]通過卷積神經網絡隱含層的學習訓練來挖掘表示文本深層的特征;受生成對抗網絡(Generative Adversarial Network,GAN)的啟發,Ma 等[11]提出了一種基于GAN 的模型,通過對抗性訓練可以捕獲低頻但判別性更強的特征。

除了文本之外,圖片已被證明在虛假信息檢測中起著非常重要的作用[8,12]。早期研究主要使用圖像的基本統計特征,但無法完整提取圖片內包含的大量信息。最近研究通常使用經過預訓練的深層CNN 來提取圖片特征。Qi 等[6]通過注意力機制動態融合圖片頻域和像素域的特征進行虛假信息檢測。

雖然虛假信息檢測從單模態的角度已經取得了一定進展,但僅僅從文本或圖片的角度來研究問題,信息利用率和檢測性能較低。

1.2 基于多模態的方法

基于多模態的方法使用文本和圖片這兩種模態信息來檢測虛假信息。Singhal 等[13]利 用BERT(Bidirectional Encoder Representations from Transformers)提取文本特征,用VGG19 提取圖片特征,并將這些特征拼接作為聯合表征進行分類;Jin 等[14]提出了一種具有注意力機制的循環神經網絡,以融合文本和圖片特征進行虛假信息檢測;Song 等[15]則利用跨模態注意力殘差網絡從源模態中選擇性地提取與目標模態相關的信息;為了排除特定事件對信息真假判別的干擾,Wang 等[16]提出了一種利用事件對抗神經網絡來檢測虛假信息的方法,該方法可以學習不同事件之間的共性,取得了較好的效果;Zhang 等[17]利用事件記憶網絡來捕獲與特定事件無關的潛在話題信息,對新出現的事件獲得了更好的泛化能力;為了學習跨模態的共享潛在表示,Khattar 等[18]提出了一種多模態可變自動編碼器,通過將可變分自動編碼器與分類器相結合以進行虛假信息檢測;Zhou 等[19]則通過比較圖片和文本之間的相似性來檢測虛假信息。在比較相似性的基礎上,Xue 等[20]引入了誤差等級分析(Error Level Analysis,ELA)算法,使用卷積神經網絡對圖片在物理層面的真實性進行判斷。

2 問題定義

設P={p1,p2,…,pm}是一個虛假信息數據集,其中pi為第i個帖子,m為數據集中帖子的個數。對于任意帖子p={T,V},T和V分別代表其對應的文本和圖片。虛假信息檢測任務可以描述為學習一個函數f(T,V)→y,其中標簽值y∈{0,1},0 代表真實信息,1 代表虛假信息。

3 本文模型

本文模型主要由四部分組成:文本特征提取器、圖片特征提取器、多模態融合器和虛假信息檢測器,如圖1 所示。

圖1 本文模型總體框架Fig.1 Overall framework of the proposed model

3.1 文本特征提取器

為了捕獲句子中的長期依賴關系和單詞的上下文信息,本文采用Bi-GRU 作為文本特征提取器的核心模塊。用經過Word2Vec[21]預訓練的詞嵌入來初始化每個單詞向量。對于文本T,第i個單詞初始化向量為Ti∈Rk(k為維度)。

因此,具有n個單詞的文本表示為:T={T1,T2,…,Tn}。Bi-GRU 計算如下:

對于第i個時間步,∈Rk表示Ti通過前向GRU 得到的隱藏表征,∈Rk則表示Ti通過后向GRU 得到的隱藏表征,隱藏表征hi由拼接而成,即hi=,hi∈R2k。按順序將n個時間步的隱藏表征堆疊起來得到文本特征矩陣Tm∈Rn×2k。將前向GRU 中最后一個時刻的隱藏層向量和后向GRU 中第一個時刻的隱藏層向量表征拼接的結果作為整個文本的原表征Tf∈R2k,即Tf=。

3.2 圖片特征提取器

圖片特征提取器的核心是多分支CNN-RNN 模塊,如圖2所示,包括5 個CNN 分支,每個分支的Block 與VGG19 相對應,將每個分支提取出來的特征分別依次通過卷積層、平鋪層和全連接層,得到對應特征向量vt∈Rk(t∈[1,5]),代表從局部到全局不同層次的特征。

圖2 多分支CNN-RNN結構Fig.2 Multi-branch CNN-RNN structure

不同層次的特征之間有很強的依賴性。例如,中層特征紋理由底層特征線組成,又構成了高層特征對象,這可以視為一種序列關系,所以用Bi-GRU 對這些特征之間的順序依賴性進行建模:

類似于文本特征提取器,得到圖片特征矩陣Vm∈R5×2k和圖片原表征Vf∈R2k,即Vf=。

3.3 多模態融合器

3.3.1 模間注意力模塊

為捕獲文本和圖片之間的交互關系,首先使用注意力機制計算不同模態之間的相關性,然后根據學習到的相關性權重更新文本和圖片特征矩陣。注意力機制公式如下:

其中:Attention(·)為注意力模塊運算函數;Q、K、V分別為query 矩陣、key 矩陣和value 矩陣;d作為防止分子點積值過大的比例因子,其值為輸入特征的維度。

經過模間注意力模塊得到的文本更新特征矩陣Tupdate和圖片更新特征矩陣Vupdate分別為:

其中:Tupdate∈Rn×2k;Vupdate∈R5×2k;Wq1,Wk1,Wv1,Wq2,Wk2,Wv2∈R2k×2k。

將Tm與Tupdate拼接作為新的文本特征矩陣Tm1∈Rn×4k:

同理,可得新的圖片特征矩陣Vm1∈R5×4k:

3.3.2 模內注意力模塊

單模內關系是不同模態間交互關系的補充,本文利用模內注意力模塊對單模內關系建模,其計算過程如下:

其中:Tm2∈Rn×4k和Vm2∈R5×4k分別是最終得到的文本和圖片特征矩陣;Wq11,Wk11,Wv11,Wq21,Wk21,Wv21∈R4k×4k。

3.3.3 融合模塊

對上面得到的Tm2和Vm2分別做平均池化,得到文本和圖片的最終表征RT,RV∈R4k:

其中:AvgPool(·)為平均池化。將文本表征RT和圖片表征RV拼接起來,得到文本和圖片聯合表征∈R8k,即=[RT,RV]。然后將其線性變換,得到多模態聯合表征Rf∈R2k。

3.4 虛假信息檢測器

在不同模態信息融合過程中,原文本和原圖片信息存在一定程度的丟失。建立注意力機制將各模態原表征Tf,Vf與融合后的多模態聯合表征Rf進行再融合,加強原信息的作用,其計算過程如下:

其中:Ww表示權重矩陣;bw表示偏置項;h1、h2、h3分別表示Rf、Vf、Tf;u1、u2、u3分別是h1、h2、h3經過非線性變換之后的結果;上下文向量uw在訓練過程中隨機初始化并共同學習;αt表示第t個表征的標準化權重;s即輸入帖子的高級表征。

使用激活函數為softmax 的全連接層將高級表征s投射到二分類目標空間,得到概率分布p:

其中:Wc表示權重參數;bc表示偏置項。損失函數定義為預測概率分布和真實標簽之間的交叉熵誤差:

其中:m是帖子的個數;yi∈{0,1}為真實標簽值,1 表示虛假信息,0 表示真實信息;pi表示預測為虛假信息的概率。

4 實驗與分析

4.1 數據集

4.1.1 Weibo數據集

微博(Weibo)數據集[14]真實信息從中國權威信息來源收集,虛假信息則通過微博官方辟謠系統獲得。本文使用類似于文獻[5]的方法進行數據預處理,刪除重復圖像和低質量圖像,以確保整個數據集的均勻性。然后將整個數據集按7∶1∶2 的比例劃分為訓練集、驗證集和測試集,并確保它們不包含任何相同事件。

4.1.2 CCF競賽數據集

該數據集來自中國計算機學會(China Computer Federation,CCF)舉辦的“疫情期間互聯網虛假信息檢測”競賽,包含8 個領域:健康、經濟、技術、娛樂、社會、軍事、政治和教育。數據預處理過程和Weibo 數據集類似。表1 列出了這兩個數據集的統計信息。

表1 數據集的統計信息Tab.1 Dataset statistics

4.2 實驗設置

軟硬件環境為:Intel i7 2.20 GHz CPU,64 GB 內存,RTX-3090 GPU,Python3.7.6,scikit-learn0.22.1,Pytorch1.4.0。

在整個網絡的訓練中,batchsize 設置為100,epoch 設置為100,學習率為10-3,dropout 設置為0.3。優化器為Adam。

4.3 基準模型

為了驗證本文所提出模型的性能,將其與兩類基準模型進行了比較:單模態模型和多模態模型。

4.3.1 單模態模型

1)Text:首先將預訓練的詞嵌入輸入Bi-GRU 以提取文本特征,然后將其輸入帶有softmax 激活函數的全連接層進行分類。

2)Visual:將圖像輸入經過預訓練的VGG-19 網絡來提取視覺特征,然后將其輸入全連接層并通過softmax 函數進行分類。

4.3.2 多模態模型

1)VQA(Visual Question Answering)[22]:旨在根據給定的圖片回答相應問題。實驗中,將文本和圖片特征拼接作為聯合表征,多分類層替換為二分類層,長短期記憶(Long Short-Term Memory,LSTM)網絡層數設置為1。

2)Neural Talk[23]:根據給定圖片生成對應字幕的模型。將循環神經網絡(RNN)在每個時間步隱藏表征的平均值作為文本和圖片的聯合表征,然后通過全連接層進行預測。

3)att-RNN[14]:利用含有注意力機制的循環神經網絡融合文本表征和圖片表征進行虛假信息檢測。

4)EANN(Event Adversarial Neural Network)[16]:是一種端到端的事件對抗神經網絡。事件判別器用于度量不同事件之間的差異性,并進一步學習事件之間的共享特征。

5)多模態變分自動編碼器(Multimodal Variational AutoEncoder,MVAE)[18]:用于學習各模態之間的相關性,然后與分類器相結合以檢測虛假信息。

4.4 實驗結果分析

基準模型和本文模型在兩個數據集上的實驗結果如表2 所示。實驗結果表明,本文模型的準確率優于基準模型。

表2 兩個數據集上的實驗結果Tab.2 Experimental results on two datasets

在兩個數據集上,Text 的準確率均高于Visual,原因是帖子內容大多數以文本為核心,輔以相應圖片,所以文本包含更豐富的語義信息。

從單模態和多模態的角度來看,多模態模型的準確率均高于單模態,說明不同模態之間的信息為互補關系,多模態信息相結合可以有效提高虛假信息檢測準確率。

在CCF 競賽數據集上MMDF 模型準確率比EANN 高2.7個百分點,比MVAE 高1.9 個百分點。在Weibo 數據集上比EANN 高4.5 個百分點,比MVAE 高2.4 個百分點。說明本文模型能夠較好地融合多模態信息,具有較好的虛假信息檢測性能。

4.5 t檢驗

本節使用t檢驗來驗證本文模型相對于基準模型的改善顯著性。表3 顯示了在10 次實驗的基礎上,MMDF 模型分別相對于MVAE、EANN 和att-RNN 在兩個數據集上的t檢驗結果。表3 中的p值均小于0.05,說明本文模型相對于基準模型的改善具有顯著性。作為驗證,還根據自由度和置信水平查找t值,以驗證結論是否正確。通過查詢t分布表,在自由度為18,置信度為95%的情況下,t值為1.734 1,而表3 中t值均大于該值,證明其結論是正確的。

表3 多個模型在兩個數據集上的t檢驗對比結果Tab.3 Comparison results of t-tests of multiple models on two datasets

4.6 多模態聯合表征可視化

為了進一步證明MMDF 模型的優越性,圖3 是運用t-SNE(t-distributed Stochastic Neighbor Embedding)算法可視化MMDF 模型和MVAE 模型在兩個數據集上的多模態聯合表征的結果。圖3 中“·”和“+”分別對應虛假信息和真實信息??梢杂^察到,在兩個數據集上,MMDF 模型均學習到可判別性更強的多模態聯合表征,這進一步驗證了本文模型的優越性。

圖3 用t-SNE可視化在兩個數據集測試數據上的多模態聯合表征Fig.3 t-SNE visualization of multi-modal joint representations on the test data of two datasets

4.7 消融實驗

為了進一步研究本文所提MMDF 模型中各個模塊的作用,通過刪除某些模塊,簡化模型進行對比實驗,其結果如圖4 所示。圖4 中:

1)MMDF:包含所有模塊;

2)w/o T:刪除文本原表征,只保留多模態聯合表征和圖片原表征;

3)w/o V:刪除圖片原表征,只保留多模態聯合表征和文本原表征;

4)w/o inter-att:刪除模間注意力,保留模內注意力;

5)w/o intra-att:刪除模內注意力,保留模間注意力。

從圖4 可以看出:在兩個數據集上,w/o inter-att 和w/o intra-att 準確率最低,表明了挖掘不同模態間關系和單模內關系對虛假信息檢測的重要性。在CCF 競賽數據集上w/o inter-att 準確率高于w/o intra-att;但在Weibo 數據集上情況卻相反,說明不同模態間關系和單模內關系在不同情況下重要性有所差異。在CCF 競賽數據集上,w/o T 的準確率為77.9%,w/o V 的準確率為78.3%,均比MMDF 模型略低;在Weibo 數據集上,w/o T 的準確率為82.3%,w/o V 的準確率為82%,同樣低于MMDF 模型的準確率。這說明原文本和原圖片融合過程中確實存在一定程度的信息丟失,將各模態原表征與融合后的多模態聯合表征進行再融合,加強原信息的作用,能有效提高模型檢測準確率。

圖4 在兩個數據集上的消融實驗結果Fig.4 Ablation experiment result on two datasets

5 結語

本文提出了一種多模態信息深度融合模型用于虛假信息檢測,該模型利用模間和模內注意力機制捕獲語言和視覺領域之間的高層交互,并建立注意力機制將各模態原表征與融合后的多模態聯合表征進行再融合,加強原信息的作用。在兩個數據集上的實驗結果表明,本文模型的檢測準確率優于基準模型。在同一個帖子中,有時候會附加多張不同的圖片,從不同的角度向用戶傳達信息。在未來的工作中,會進一步考慮如何將文本信息和多張不同的圖片信息相結合來檢測虛假信息。

猜你喜歡
模態特征文本
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲国产成人麻豆精品| 狠狠色综合久久狠狠色综合| 丁香五月亚洲综合在线| 99免费在线观看视频| 国产精品免费电影| 大陆精大陆国产国语精品1024| 91娇喘视频| 91色在线视频| 亚洲看片网| 成年午夜精品久久精品| 国产精品网曝门免费视频| 亚洲欧美国产高清va在线播放| 国产成人凹凸视频在线| 999福利激情视频| 亚洲综合天堂网| 四虎影视无码永久免费观看| 亚洲AV无码一区二区三区牲色| 亚洲国产中文精品va在线播放| 欧美高清三区| 欧美午夜一区| 国产原创自拍不卡第一页| 国产精品一区不卡| 国产欧美视频在线观看| 8090成人午夜精品| 久久天天躁狠狠躁夜夜躁| 国产成人麻豆精品| aaa国产一级毛片| 亚洲男人在线天堂| 好紧太爽了视频免费无码| 国产va在线观看免费| 亚洲日本在线免费观看| 国产无码网站在线观看| 午夜欧美理论2019理论| www.99精品视频在线播放| 中文字幕日韩视频欧美一区| 欧美日韩精品在线播放| 91小视频版在线观看www| 高清久久精品亚洲日韩Av| 香蕉久久国产精品免| 国产毛片高清一级国语| 在线观看亚洲国产| 国内精品久久久久鸭| 成人字幕网视频在线观看| 美美女高清毛片视频免费观看| 欧美在线三级| 国产爽爽视频| 激情成人综合网| 久久香蕉国产线| 国产欧美日韩精品综合在线| 亚洲福利片无码最新在线播放| 激情六月丁香婷婷| 亚洲高清中文字幕在线看不卡| 国产又大又粗又猛又爽的视频| 国产欧美视频在线观看| 中文字幕久久精品波多野结| 欧美天堂久久| 日本在线亚洲| 97精品伊人久久大香线蕉| 欧美视频免费一区二区三区| 欧美日韩激情| 中文字幕亚洲精品2页| 人与鲁专区| 日本久久网站| 亚洲区视频在线观看| 黄片一区二区三区| 色婷婷综合激情视频免费看| 91欧美亚洲国产五月天| 91精品综合| 日本精品αv中文字幕| 四虎影视永久在线精品| 尤物特级无码毛片免费| 欧美三级视频在线播放| 国产第一色| 久久亚洲国产最新网站| 国产精品久久久免费视频| 国产综合另类小说色区色噜噜| 国产精品九九视频| 青青操视频免费观看| 在线看片国产| 五月天丁香婷婷综合久久| 成人午夜网址| 亚洲视频免|