林敏鴻 蒙祖強(qiáng)


摘要:文本與圖片相結(jié)合的多模態(tài)內(nèi)容在社交媒體上變得越來越常見。多模態(tài)數(shù)據(jù)包含了更為全面的信息,能更好地理解用戶的真正想表達(dá)的意圖。對多模態(tài)數(shù)據(jù)的反諷識別研究也受到了越來越多的關(guān)注。本文提出了一種基于深層語義融合的多模態(tài)反諷識別方法。通過實驗證明了,本文的模型在各項指標(biāo)上都要優(yōu)于傳統(tǒng)的單模態(tài)的反諷識別模型。
關(guān)鍵詞:社交媒體;反諷識別;多模態(tài)融合
中圖分類號:TP393 ? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)24-0185-02
1引言
在社交媒體上,人們喜歡采用多種多樣的修辭方法來豐富自己的語言表達(dá)。反諷就是最常見的修辭方法之一。這種方式真正要表達(dá)的信息往往與字面理解的意涵的相反,通常需要更多的語境信息來輔助理解。反諷識別是一種隱式情感分析,對觀點挖掘,輿情分析等任務(wù)中都有著重要的意義。反諷識別最初是針對文本數(shù)據(jù)的研究。而隨著信息技術(shù)的發(fā)展,人們可以很方便地在社交媒體上運(yùn)用圖片、音頻以及視頻等多種多樣的方式進(jìn)行表達(dá)。文本與圖片相結(jié)合的多模態(tài)內(nèi)容在社交媒體上變得越來越常見。對多模態(tài)數(shù)據(jù)的反諷識別研究也受到了越來越多的關(guān)注。為了更好地對多模態(tài)數(shù)據(jù)進(jìn)行反諷識別,本文提出了一種基于深層語義融合的多模態(tài)反諷識別方法(Multimodal irony recognition method based on deep semantic fusion, MIRM)。該方法構(gòu)造了兩個神經(jīng)網(wǎng)絡(luò)模型來提取圖像特征和文本特征,然后采用雙線性融合的方法來獲取圖像和文本的聯(lián)合特征表示,并對其進(jìn)行是否含有反諷表達(dá)的判斷。最后實驗表明,該方法在各項指標(biāo)中都優(yōu)于傳統(tǒng)的對單一文本數(shù)據(jù)的反諷識別。
2基于圖文融合的反諷識別
2.1特征表示
本文方法采用雙向門控單元(Bi-directional Gated Recurrent Unit, BiGRU)網(wǎng)絡(luò)來獲取文本特征表示。在BiGRU網(wǎng)絡(luò)中,t時刻的隱藏層輸出狀態(tài)為[ht],由前向隱藏層輸出狀態(tài)[ht,]和后向[ht]隱藏層狀態(tài)輸出拼接得來,將其作為第i個文本中第t個單詞的向量表示。然后對每個詞向量進(jìn)行注意力加權(quán)計算來獲取文本的特征表示。具體的計算過程如公式1和公式2所示。
最后,需要對模型進(jìn)行文本情感分類的預(yù)訓(xùn)練,讓參數(shù)[W1]和向量[b1]在訓(xùn)練過程中不斷優(yōu)化更新,得到有效的注意力權(quán)重參數(shù)和能夠有效提取文本情感特征表示的文本特征提取網(wǎng)絡(luò)。
另外,在本模型中,采取卷積網(wǎng)絡(luò)提取圖像特征表示。該網(wǎng)絡(luò)的卷積部分的選擇VGGNet16的預(yù)訓(xùn)練模型的卷積層。我們將第i個圖像數(shù)據(jù)的最后一層的卷積輸出經(jīng)過了平均池化之后的特征圖集合記為[Fi={F1i,F(xiàn)2i,…,F(xiàn)Ni}]。每個[Fli]都是圖像[Ii]的一個局部特征圖,但每個特征圖對當(dāng)前網(wǎng)絡(luò)的圖像情感表征學(xué)習(xí)并不是同等重要的。因此,需要學(xué)習(xí)重要性度量來區(qū)別各個特征圖的重要程度。在本章中,特征圖的注意力的權(quán)重計算如下:
權(quán)重矩陣W與偏置b都是可隨網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)的參數(shù)。[tanh (?)]是一個非線性函數(shù)。[Fli]通過一個全連接層計算得到對應(yīng)的注意力分?jǐn)?shù)[sli]。[sli]經(jīng)過歸一化計算得到對應(yīng)的注意力權(quán)重[αli]。然后對每個特征圖進(jìn)行加權(quán)計算得到加權(quán)特征圖[Flai],經(jīng)過一層全連接層后得到最終的圖像特征表示[Vi]。與文本特征提取網(wǎng)絡(luò)一樣,沒有經(jīng)過訓(xùn)練的注意力模塊是沒有意義的,因此我們同樣需要對網(wǎng)絡(luò)進(jìn)行圖像情感分類的預(yù)訓(xùn)練以獲得真正有效的圖像情感特征提取模型。
2.2特征融合
本文將圖像特征和文本特征采用雙線性融合[2]策略來獲取圖像和文本的聯(lián)合特征表達(dá)。第i個圖片的特征表示為[Vi],第i個文本的特征向量為[Ti],則文本和圖像的聯(lián)合特征表示[Zi]為
2.3分類器
本文構(gòu)建了一個包含了兩層全連接網(wǎng)絡(luò)和一個softmax層的分類器,以獲取分類的概率分布。分類器的輸入是聯(lián)合特征向量[Zi],而輸出是該圖文數(shù)據(jù)類別的概率分布向量。向量的第0位表示該數(shù)據(jù)被判斷為0類(無反諷表達(dá))的概率,第1位表示被判斷為1類(有反諷表達(dá))的概率。
3實驗與討論
本文采用的實驗數(shù)據(jù)集是一個公開的多模態(tài)反諷識別數(shù)據(jù)集,將其記作TwittersSarcasm數(shù)據(jù)集[1]。數(shù)據(jù)集中包含了10560個正例數(shù)據(jù),14075個反例數(shù)據(jù)。另外還采用了圖像情感分類數(shù)據(jù)集和文本情感分類數(shù)據(jù)集作為圖像特征提取和文本特征提取網(wǎng)絡(luò)的預(yù)訓(xùn)練數(shù)據(jù)集。一個是Twitter_img圖像情感數(shù)據(jù)集。總共包含了8443張情緒積極的圖片和2256張情緒消極的圖片。另一個是Analytics Vidhya機(jī)構(gòu)提供的Twitter文本情感分析數(shù)據(jù)集Twitter_text,其中包含了73221條情緒消極的文本與58659條情緒積極的文本。
本模型需要對特征提取網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。在圖像特征提取網(wǎng)絡(luò)和文本特征提取網(wǎng)絡(luò)之后各添加一個分類器,構(gòu)成圖像分類模型和文本分類模型。然后讓該圖像分類模型在Twitter_
img情感數(shù)據(jù)集上進(jìn)行圖像情感分類訓(xùn)練,以對網(wǎng)絡(luò)中注意力計算層的參數(shù)進(jìn)行微調(diào),使得網(wǎng)絡(luò)能自覺關(guān)注情感語義相關(guān)圖像區(qū)域。同時,讓文本分類模型在Twitter_text數(shù)據(jù)集上進(jìn)行文本情感分類訓(xùn)練,使得網(wǎng)絡(luò)能有效提取情感語義信息。由此得到圖像特征提取網(wǎng)絡(luò)和文本特征提取網(wǎng)絡(luò)的預(yù)訓(xùn)練模型。
為了驗證模型的有效性,本文構(gòu)造了多個文本分類模型,同時對多模態(tài)圖文反諷數(shù)據(jù)集TwittersSarcasm進(jìn)行了實驗。比較模型如下:
BiGRU模型是處理文本分類問題最常用的模型之一,在此用于對文本數(shù)據(jù)的反諷識別。
BiGRU-ATT模型是在BiGRU模型基礎(chǔ)上增加注意力加權(quán)的文本反諷識別模型。
TextCNN模型是用卷積神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行分類的經(jīng)典卷積結(jié)構(gòu)。
本文采用精確率(Precision)、召回率(Recall)、F1值(F1 score)和準(zhǔn)確率(Accuracy)作為模型的評價標(biāo)準(zhǔn)。各模型在反諷數(shù)據(jù)集TwittersSarcasm的實驗結(jié)果如表1所示。結(jié)合圖文數(shù)據(jù)進(jìn)行反諷識別的模型MIRM相較于僅對文本數(shù)據(jù)進(jìn)行反諷識別的TextCNN模型、BiGRU模型和BiGRU-ATT模型效果都要好。本文所提出的模型相比于文本分類模型BiGRU和TextCNN,準(zhǔn)確率提高了4%和3.5%。這也證實了相比單一的文本數(shù)據(jù),結(jié)合圖文信息能更好地理解反諷表達(dá)。
在原來模型框架的基礎(chǔ)上,選擇拼接(concatenation)、按位乘(element-wise product)、按位加(element-wise sum)以及雙線性融合等方法進(jìn)行特征融合然后反諷識別實驗。從表2中可知,簡單的特征融合方式的反諷識別效果相對于單模態(tài)模型并沒有較大的提升。說明了簡單的交互并不能很好地利用多模態(tài)之間的潛在語義信息。采用了雙線性融合的MIRM模型相對于其他融合方法在各項評價指標(biāo)上都有較大的提升,說明了雙線性融合能夠使得模態(tài)間的交互更全面,提高了融合特征的信息表示能力。
5總結(jié)
本文提出了一種基于深層語義融合的多模態(tài)反諷識別方法。通過實驗發(fā)現(xiàn),與單一的文本數(shù)據(jù)相比結(jié)合圖文信息能更好地理解反諷表達(dá),運(yùn)用雙線性融合獲取模態(tài)間交互信息能獲取模態(tài)間更深層的關(guān)聯(lián)信息從而提高了反諷識別的準(zhǔn)確率。
參考文獻(xiàn):
[1] Cai Y T,CaiHY,WanXJ.Multi-modal sarcasm detection in twitter with hierarchical fusion model[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Florence,Italy.Stroudsburg,PA,USA:Association for Computational Linguistics,2019:2506-2515.
[2] Fukui A,ParkDH,YangD,et al.Multimodal compact bilinear pooling for visual question answering and visual grounding[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Austin,Texas.Stroudsburg,PA,USA:Associationfor Computational Linguistics,2016:457-468.
【通聯(lián)編輯:光文玲】