基于圖文融合的社交媒體反諷識別

2020-09-26 11:43:52林敏鴻蒙祖強(qiáng)

電腦知識與技術(shù) 2020年24期

林敏鴻蒙祖強(qiáng)

摘要：文本與圖片相結(jié)合的多模態(tài)內(nèi)容在社交媒體上變得越來越常見。多模態(tài)數(shù)據(jù)包含了更為全面的信息，能更好地理解用戶的真正想表達(dá)的意圖。對多模態(tài)數(shù)據(jù)的反諷識別研究也受到了越來越多的關(guān)注。本文提出了一種基于深層語義融合的多模態(tài)反諷識別方法。通過實驗證明了，本文的模型在各項指標(biāo)上都要優(yōu)于傳統(tǒng)的單模態(tài)的反諷識別模型。

關(guān)鍵詞：社交媒體;反諷識別;多模態(tài)融合

中圖分類號：TP393 ? ? ?文獻(xiàn)標(biāo)識碼：A

文章編號：1009-3044（2020）24-0185-02

1引言

在社交媒體上，人們喜歡采用多種多樣的修辭方法來豐富自己的語言表達(dá)。反諷就是最常見的修辭方法之一。這種方式真正要表達(dá)的信息往往與字面理解的意涵的相反，通常需要更多的語境信息來輔助理解。反諷識別是一種隱式情感分析，對觀點挖掘，輿情分析等任務(wù)中都有著重要的意義。反諷識別最初是針對文本數(shù)據(jù)的研究。而隨著信息技術(shù)的發(fā)展，人們可以很方便地在社交媒體上運(yùn)用圖片、音頻以及視頻等多種多樣的方式進(jìn)行表達(dá)。文本與圖片相結(jié)合的多模態(tài)內(nèi)容在社交媒體上變得越來越常見。對多模態(tài)數(shù)據(jù)的反諷識別研究也受到了越來越多的關(guān)注。為了更好地對多模態(tài)數(shù)據(jù)進(jìn)行反諷識別，本文提出了一種基于深層語義融合的多模態(tài)反諷識別方法（Multimodal irony recognition method based on deep semantic fusion， MIRM）。該方法構(gòu)造了兩個神經(jīng)網(wǎng)絡(luò)模型來提取圖像特征和文本特征，然后采用雙線性融合的方法來獲取圖像和文本的聯(lián)合特征表示，并對其進(jìn)行是否含有反諷表達(dá)的判斷。最后實驗表明，該方法在各項指標(biāo)中都優(yōu)于傳統(tǒng)的對單一文本數(shù)據(jù)的反諷識別。

2基于圖文融合的反諷識別

2.1特征表示

本文方法采用雙向門控單元（Bi-directional Gated Recurrent Unit， BiGRU）網(wǎng)絡(luò)來獲取文本特征表示。在BiGRU網(wǎng)絡(luò)中，t時刻的隱藏層輸出狀態(tài)為[ht]，由前向隱藏層輸出狀態(tài)[ht，]和后向[ht]隱藏層狀態(tài)輸出拼接得來，將其作為第i個文本中第t個單詞的向量表示。然后對每個詞向量進(jìn)行注意力加權(quán)計算來獲取文本的特征表示。具體的計算過程如公式1和公式2所示。

最后，需要對模型進(jìn)行文本情感分類的預(yù)訓(xùn)練，讓參數(shù)[W1]和向量[b1]在訓(xùn)練過程中不斷優(yōu)化更新，得到有效的注意力權(quán)重參數(shù)和能夠有效提取文本情感特征表示的文本特征提取網(wǎng)絡(luò)。

另外，在本模型中，采取卷積網(wǎng)絡(luò)提取圖像特征表示。該網(wǎng)絡(luò)的卷積部分的選擇VGGNet16的預(yù)訓(xùn)練模型的卷積層。我們將第i個圖像數(shù)據(jù)的最后一層的卷積輸出經(jīng)過了平均池化之后的特征圖集合記為[Fi={F1i，F(xiàn)2i，…，F(xiàn)Ni}]。每個[Fli]都是圖像[Ii]的一個局部特征圖，但每個特征圖對當(dāng)前網(wǎng)絡(luò)的圖像情感表征學(xué)習(xí)并不是同等重要的。因此，需要學(xué)習(xí)重要性度量來區(qū)別各個特征圖的重要程度。在本章中，特征圖的注意力的權(quán)重計算如下：

權(quán)重矩陣W與偏置b都是可隨網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)的參數(shù)。[tanh （?）]是一個非線性函數(shù)。[Fli]通過一個全連接層計算得到對應(yīng)的注意力分?jǐn)?shù)[sli]。[sli]經(jīng)過歸一化計算得到對應(yīng)的注意力權(quán)重[αli]。然后對每個特征圖進(jìn)行加權(quán)計算得到加權(quán)特征圖[Flai]，經(jīng)過一層全連接層后得到最終的圖像特征表示[Vi]。與文本特征提取網(wǎng)絡(luò)一樣，沒有經(jīng)過訓(xùn)練的注意力模塊是沒有意義的，因此我們同樣需要對網(wǎng)絡(luò)進(jìn)行圖像情感分類的預(yù)訓(xùn)練以獲得真正有效的圖像情感特征提取模型。

2.2特征融合

本文將圖像特征和文本特征采用雙線性融合[2]策略來獲取圖像和文本的聯(lián)合特征表達(dá)。第i個圖片的特征表示為[Vi]，第i個文本的特征向量為[Ti]，則文本和圖像的聯(lián)合特征表示[Zi]為

2.3分類器

本文構(gòu)建了一個包含了兩層全連接網(wǎng)絡(luò)和一個softmax層的分類器，以獲取分類的概率分布。分類器的輸入是聯(lián)合特征向量[Zi]，而輸出是該圖文數(shù)據(jù)類別的概率分布向量。向量的第0位表示該數(shù)據(jù)被判斷為0類（無反諷表達(dá)）的概率，第1位表示被判斷為1類（有反諷表達(dá)）的概率。

3實驗與討論

本文采用的實驗數(shù)據(jù)集是一個公開的多模態(tài)反諷識別數(shù)據(jù)集，將其記作TwittersSarcasm數(shù)據(jù)集[1]。數(shù)據(jù)集中包含了10560個正例數(shù)據(jù)，14075個反例數(shù)據(jù)。另外還采用了圖像情感分類數(shù)據(jù)集和文本情感分類數(shù)據(jù)集作為圖像特征提取和文本特征提取網(wǎng)絡(luò)的預(yù)訓(xùn)練數(shù)據(jù)集。一個是Twitter_img圖像情感數(shù)據(jù)集。總共包含了8443張情緒積極的圖片和2256張情緒消極的圖片。另一個是Analytics Vidhya機(jī)構(gòu)提供的Twitter文本情感分析數(shù)據(jù)集Twitter_text，其中包含了73221條情緒消極的文本與58659條情緒積極的文本。

本模型需要對特征提取網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。在圖像特征提取網(wǎng)絡(luò)和文本特征提取網(wǎng)絡(luò)之后各添加一個分類器，構(gòu)成圖像分類模型和文本分類模型。然后讓該圖像分類模型在Twitter_

img情感數(shù)據(jù)集上進(jìn)行圖像情感分類訓(xùn)練，以對網(wǎng)絡(luò)中注意力計算層的參數(shù)進(jìn)行微調(diào)，使得網(wǎng)絡(luò)能自覺關(guān)注情感語義相關(guān)圖像區(qū)域。同時，讓文本分類模型在Twitter_text數(shù)據(jù)集上進(jìn)行文本情感分類訓(xùn)練，使得網(wǎng)絡(luò)能有效提取情感語義信息。由此得到圖像特征提取網(wǎng)絡(luò)和文本特征提取網(wǎng)絡(luò)的預(yù)訓(xùn)練模型。

為了驗證模型的有效性，本文構(gòu)造了多個文本分類模型，同時對多模態(tài)圖文反諷數(shù)據(jù)集TwittersSarcasm進(jìn)行了實驗。比較模型如下：

BiGRU模型是處理文本分類問題最常用的模型之一，在此用于對文本數(shù)據(jù)的反諷識別。

BiGRU-ATT模型是在BiGRU模型基礎(chǔ)上增加注意力加權(quán)的文本反諷識別模型。

TextCNN模型是用卷積神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行分類的經(jīng)典卷積結(jié)構(gòu)。

本文采用精確率（Precision）、召回率（Recall）、F1值（F1 score）和準(zhǔn)確率（Accuracy）作為模型的評價標(biāo)準(zhǔn)。各模型在反諷數(shù)據(jù)集TwittersSarcasm的實驗結(jié)果如表1所示。結(jié)合圖文數(shù)據(jù)進(jìn)行反諷識別的模型MIRM相較于僅對文本數(shù)據(jù)進(jìn)行反諷識別的TextCNN模型、BiGRU模型和BiGRU-ATT模型效果都要好。本文所提出的模型相比于文本分類模型BiGRU和TextCNN，準(zhǔn)確率提高了4%和3.5%。這也證實了相比單一的文本數(shù)據(jù)，結(jié)合圖文信息能更好地理解反諷表達(dá)。

在原來模型框架的基礎(chǔ)上，選擇拼接（concatenation）、按位乘（element-wise product）、按位加（element-wise sum）以及雙線性融合等方法進(jìn)行特征融合然后反諷識別實驗。從表2中可知，簡單的特征融合方式的反諷識別效果相對于單模態(tài)模型并沒有較大的提升。說明了簡單的交互并不能很好地利用多模態(tài)之間的潛在語義信息。采用了雙線性融合的MIRM模型相對于其他融合方法在各項評價指標(biāo)上都有較大的提升，說明了雙線性融合能夠使得模態(tài)間的交互更全面，提高了融合特征的信息表示能力。

5總結(jié)

本文提出了一種基于深層語義融合的多模態(tài)反諷識別方法。通過實驗發(fā)現(xiàn)，與單一的文本數(shù)據(jù)相比結(jié)合圖文信息能更好地理解反諷表達(dá)，運(yùn)用雙線性融合獲取模態(tài)間交互信息能獲取模態(tài)間更深層的關(guān)聯(lián)信息從而提高了反諷識別的準(zhǔn)確率。

參考文獻(xiàn)：

[1] Cai Y T，CaiHY，WanXJ.Multi-modal sarcasm detection in twitter with hierarchical fusion model[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Florence，Italy.Stroudsburg，PA，USA：Association for Computational Linguistics，2019：2506-2515.

[2] Fukui A，ParkDH，YangD，et al.Multimodal compact bilinear pooling for visual question answering and visual grounding[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Austin，Texas.Stroudsburg，PA，USA：Associationfor Computational Linguistics，2016：457-468.

【通聯(lián)編輯：光文玲】

電腦知識與技術(shù)2020年24期

電腦知識與技術(shù)的其它文章: 教學(xué)樓智能燈控系統(tǒng)的設(shè)計; 思科模擬器在計算機(jī)網(wǎng)絡(luò)創(chuàng)新教學(xué)中的應(yīng)用策略; 大數(shù)據(jù)環(huán)境下電子商務(wù)安全問題研究; 大數(shù)據(jù)技術(shù)在廣電網(wǎng)格化營銷服務(wù)中應(yīng)用研究; 5G環(huán)境下運(yùn)用視聯(lián)網(wǎng)技術(shù)開展“智能+”大學(xué)生電子商務(wù)創(chuàng)新創(chuàng)業(yè)培養(yǎng)模式研究?; 數(shù)字化校園一卡通建設(shè)的幾點建議