摘 要:如何有效挖掘單模態(tài)表征并實(shí)現(xiàn)多模態(tài)信息的充分融合是多模態(tài)情感分析研究的重點(diǎn)之一。針對(duì)多模態(tài)情感分析中的模態(tài)間噪聲和多模態(tài)特征融合不充分等問(wèn)題,提出一種基于跨模態(tài)門(mén)控機(jī)制和改進(jìn)融合方法的多模態(tài)情感分析模型。首先,利用跨模態(tài)門(mén)控機(jī)制去除模態(tài)間噪聲,提取互補(bǔ)信息以增強(qiáng)模態(tài)表示。然后,利用權(quán)重和相似約束分別關(guān)注不同模態(tài)情感貢獻(xiàn)的差異性和情感表達(dá)的一致性。最后,結(jié)合模態(tài)的多層次表示獲得情感分析的結(jié)果。在三個(gè)公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提模型是有效的,相比已有的一些模型取得了更好的性能。
關(guān)鍵詞:多模態(tài)情感分析; 模態(tài)間噪聲; 跨模態(tài)門(mén)控機(jī)制; 多模態(tài)融合
中圖分類(lèi)號(hào):TP391
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2023)07-016-2025-06
doi:10.19734/j.issn.1001-3695.2022.12.0766
Multimodal sentiment analysis based on cross-modal gating mechanism and
improved fusion method
Miao Yuqing1a,1b,1c, Yang Shuang1a, Liu Tonglai2?, Zhang Wanzhen2,3, Zhu Lin1a, Zhou Ming4
(1. a.School of Computer Science amp; Information Security, b.Guangxi Key Laboratory of Image amp; Graphics Intelligent Processing, c.Guangxi Key Laboratory of Cryptography amp; Information Security, Guilin University of Electronic Technology, Guilin Guangxi 541004, China; 2.College of Information Science amp; Technology, Zhongkai University of Agriculture amp; Engineering, Guangzhou 510225, China; 3.Engineering Comprehensive Training Center, Guilin University of Aerospace Technology, Guilin Guangxi 541004, China; 4.Guilin Hivision Technology Company, Guilin Guangxi 541004, China)
Abstract:How to effectively mine unimodal representations and achieve full fusion of multimodal information is one of the key points in multimodal sentiment analysis. To address the issues of inter-modal noise and inadequate fusion of multimodal features in multimodal sentiment analysis, this paper proposed a multimodal sentiment analysis model based on cross-modal gating mechanism and improved fusion method. Firstly, this paper utilized cross-modal gating mechanism to remove inter-modal noise and extract complementary information, enhancing the modal representation. Then, the model used weight and similarity constraint to focus the difference of emotional contribution and the consistency of emotional expression among modalities, respectively. Finally, the model combined multi-level representation of modalities to obtain results of sentiment analysis. Experimental results on three public datasets show that the proposed model is effective and achieves better performances than some existing models.
Key words:multimodal sentiment analysis; inter-modal noise; cross-modal gating mechanism; multimodal fusion
0 引言
隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,越來(lái)越多的人們通過(guò)社交媒體表達(dá)觀點(diǎn)、分享生活,產(chǎn)生了形式多樣的多模態(tài)數(shù)據(jù),如文本、圖像、視頻和音頻等,這些數(shù)據(jù)帶有大量的個(gè)人情感信息。多模態(tài)情感分析是從文本、圖像、音頻等模態(tài)中挖掘情感信息,目前已經(jīng)成為一個(gè)重要的研究方向,其應(yīng)用場(chǎng)景有智能陪伴、智能客服、抑郁癥檢測(cè)等。
多模態(tài)為情感分析提供了更加豐富的信息。為了對(duì)模態(tài)間的相互作用建模,文獻(xiàn)[1,2]利用跨模態(tài)轉(zhuǎn)換機(jī)制將一種模態(tài)轉(zhuǎn)換到另一種模態(tài)中,以增強(qiáng)目標(biāo)模態(tài)特征。然而,更多的信息并不意味著更好的結(jié)果。Zhan等人[3]研究表明,噪聲是跨模態(tài)轉(zhuǎn)換中常見(jiàn)的問(wèn)題,它降低了模型的性能。因此,對(duì)跨模態(tài)交互信息建模時(shí),應(yīng)考慮去除模態(tài)間噪聲。
多模態(tài)情感分析中的另一個(gè)關(guān)鍵問(wèn)題是多模態(tài)融合,多模態(tài)融合方法主要有前期融合或后期融合[4]。大多數(shù)前期融合只是簡(jiǎn)單地將各模態(tài)拼接起來(lái),忽略了不同模態(tài)的重要性差異,較難有效挖掘情感信息。研究表明[5~7],每個(gè)模態(tài)的重要性是不同的,通常文本模態(tài)在情感分析中發(fā)揮的作用最強(qiáng),圖像模態(tài)次之,音頻模態(tài)最弱。因此各模態(tài)對(duì)情感分析的貢獻(xiàn)度是不同的。在后期融合中,大多數(shù)方法默認(rèn)每種模態(tài)的情感極性是相同的,忽略了各模態(tài)情感不一致性問(wèn)題。所以在多模態(tài)融合中,應(yīng)考慮不同模態(tài)的情感貢獻(xiàn)度和情感一致性。文獻(xiàn)[8,9]通過(guò)多層網(wǎng)絡(luò)提取特征,以獲得模態(tài)的高層表示,但網(wǎng)絡(luò)層數(shù)的增加會(huì)導(dǎo)致特征丟失,文獻(xiàn)[10]提出殘差網(wǎng)絡(luò)來(lái)解決這個(gè)問(wèn)題。此外,研究表明,圖像情感分析可通過(guò)結(jié)合不同層次的特征提高模型的泛化性[11,12]。但現(xiàn)有多模態(tài)情感分析往往關(guān)注模態(tài)的高層特征,較少考慮低層特征對(duì)情感分析的影響。
針對(duì)以上問(wèn)題,提出一個(gè)跨模態(tài)門(mén)控機(jī)制和改進(jìn)融合方法的多模態(tài)情感分析模型(multimodal sentiment analysis model based on cross-modal gating mechanism and improved fusion me-thod,MCGMF),其主要貢獻(xiàn)如下:a)提出跨模態(tài)門(mén)控機(jī)制,對(duì)模態(tài)間的相互作用建模,提取模態(tài)間關(guān)聯(lián)互補(bǔ)信息,去除模態(tài)間噪聲,進(jìn)而增強(qiáng)目標(biāo)模態(tài)的情感表征;b)提出一種多模態(tài)融合方法,對(duì)不同模態(tài)情感貢獻(xiàn)的差異性和情感表達(dá)的一致性建模,并將模態(tài)的高層與低層表示結(jié)合起來(lái),實(shí)現(xiàn)多模態(tài)特征的充分融合,從而提高模型的泛化性;c)在三個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行了充分實(shí)驗(yàn),驗(yàn)證了所提模型的有效性。結(jié)果表明在多模態(tài)情感分析中取得了更好的性能。
1 相關(guān)工作
隨著機(jī)器學(xué)習(xí)的快速發(fā)展,現(xiàn)有多模態(tài)情感分析研究大多采用深度學(xué)習(xí)的方法,基于特征空間挖掘多模態(tài)信息。Hazarika等人[13]將每種模態(tài)分別投影到共享空間和特定空間,以改善多模態(tài)特征;Sun等人[14]考慮到文本特征通常優(yōu)于非文本特征,以文本作為基準(zhǔn),通過(guò)向量外積和相關(guān)性分析對(duì)三種模態(tài)的相關(guān)性建模;Zadeh等人[15]提出了一種張量融合網(wǎng)絡(luò),采用笛卡爾積以模擬模態(tài)間的相互作用;Liu等人[16]將高階張量分解為低秩張量,大大降低了情感分析模型的復(fù)雜度;Zeng等人[17]通過(guò)模態(tài)調(diào)制損失來(lái)學(xué)習(xí)單模態(tài)貢獻(xiàn),使用過(guò)濾模塊移除模態(tài)間噪聲;Wang等人[18]通過(guò)音頻和視頻模態(tài)調(diào)整文本詞向量表示,以融合多模態(tài)特征。
近年來(lái),基于注意力機(jī)制的方法廣泛應(yīng)用于多模態(tài)情感分析領(lǐng)域。注意力機(jī)制能夠提取各模態(tài)的顯著特征,通過(guò)并行處理能夠加快模型的訓(xùn)練速度。包廣斌等人[19]利用雙模態(tài)交互注意力融合兩種模態(tài)的信息;Chauhan等人[20]利用上下文信息和交互注意力來(lái)提取模態(tài)間的交互作用;Tsai等人[2]利用跨模態(tài)注意力機(jī)制,對(duì)兩兩模態(tài)間的交互信息建模,并通過(guò)自注意力[21]提取單模態(tài)特征;Han等人[22]基于注意力機(jī)制提取兩兩模態(tài)間的互補(bǔ)信息,并利用門(mén)控機(jī)制改善單模態(tài)表示;宋云峰等人[23]利用跨模態(tài)注意力機(jī)制融合兩兩模態(tài),并在不同層次使用自注意力機(jī)制提取顯著特征。
受以上工作啟發(fā),本文利用跨模態(tài)注意力機(jī)制分別提取文本音頻和視頻音頻跨模態(tài)特征,利用門(mén)控機(jī)制判別跨模態(tài)信息是否為噪聲,并以此選擇使用原始音頻特征還是加入跨模態(tài)信息;通過(guò)自注意力機(jī)制提取各模態(tài)顯著特征。在多模態(tài)融合中,引入權(quán)重系數(shù)表示各模態(tài)的情感貢獻(xiàn)度,并通過(guò)相似約束優(yōu)化模態(tài)的共性情感特征,得到模態(tài)的高層特征;此外,在考慮高層情感特征的同時(shí)引入低層特征,以此提高模型的泛化性。
2 多模態(tài)情感分析模型
2.1 模型概述
本文提出的跨模態(tài)門(mén)控機(jī)制和改進(jìn)融合方法的多模態(tài)情感分析模型MCGMF如圖1所示。模型主要由特征提取模塊、注意力機(jī)制模塊和多模態(tài)融合模塊組成。特征提取模塊主要提取各模態(tài)的低層特征。注意力機(jī)制模塊由跨模態(tài)門(mén)控機(jī)制和自注意力機(jī)制組成。多模態(tài)融合模塊將模態(tài)的低層特征和含有權(quán)重與特征約束項(xiàng)的高層特征融合起來(lái)。
2.2 特征提取
給定一段語(yǔ)料樣本X,首先進(jìn)行預(yù)處理操作,對(duì)于模態(tài)m,其原始特征表示為Xm∈RTm×dm。其中,R表示實(shí)數(shù)集;Tm表示模態(tài)m的序列長(zhǎng)度;dm表示模態(tài)m的特征維度;m表示某種模態(tài),m∈{v,l,a},v表示視頻模態(tài),l表示文本模態(tài),a表示音頻模態(tài)。將預(yù)處理后的各模態(tài)特征向量輸入到一維卷積層,捕獲序列的局部結(jié)構(gòu)特征并投影到相同的維度,計(jì)算公式如下:
2.3 注意力機(jī)制
自注意力機(jī)制能夠關(guān)注模態(tài)內(nèi)的時(shí)序關(guān)系和顯著特征,文本和視頻模態(tài)通過(guò)自注意力機(jī)制提取時(shí)序特征。音頻模態(tài)先通過(guò)跨模態(tài)門(mén)控機(jī)制提取包含文本和視頻信息的跨模態(tài)音頻特征,再由自注意力機(jī)制提取音頻模態(tài)的時(shí)序特征。
2.3.1 跨模態(tài)門(mén)控機(jī)制
文獻(xiàn)[2,4]表明,在情感分析中文本模態(tài)發(fā)揮的作用最大,而音頻模態(tài)的作用最弱。受文獻(xiàn)[2]的啟發(fā),利用跨模態(tài)Transformer提取文本音頻和視頻音頻跨模態(tài)特征,然后根據(jù)音頻的跨模態(tài)特征與原始特征的相似性判別跨模態(tài)特征的有效性,如果有效則選擇跨模態(tài)特征,否則為噪聲,選擇原始音頻特征,其結(jié)構(gòu)如圖2所示。
音頻模態(tài)通過(guò)跨模態(tài)Transformer得到包含文本信息的音頻特征Al和包含視頻信息的音頻特征Av,跨模態(tài)特征與原始音頻特征的相似度sim的計(jì)算公式如下:
其中:cos表示余弦相似度;θ表示Am和A之間的向量夾角;m∈{l,v};‖·‖表示向量的模;A為原始音頻特征;n表示向量中元素個(gè)數(shù);Ai表示原始音頻特征的第i個(gè)分量;Ami表示跨模態(tài)特征中的第i個(gè)分量。
為了去除模態(tài)間的噪聲,提出相似度作為含有跨模態(tài)信息的音頻特征與原始音頻特征情感一致性的度量。若相似度越大,說(shuō)明加入跨模態(tài)信息后的音頻特征與原始音頻特征的情感極性是相似的,即跨模態(tài)信息是有效的,應(yīng)突出跨模態(tài)音頻特征;若相似度越小,說(shuō)明加入跨模態(tài)信息后,音頻特征的情感極性發(fā)生了改變,即跨模態(tài)信息為噪聲,不應(yīng)使用跨模態(tài)特征。
在跨模態(tài)門(mén)控機(jī)制中設(shè)定一個(gè)閾值,若相似度大于設(shè)定閾值,則門(mén)控被激活,使用跨模態(tài)音頻特征;否則使用原始音頻特征。其計(jì)算公式如下所示。
其中:Fm表示經(jīng)過(guò)門(mén)控機(jī)制得到的特征,m∈{v,l};A表示原始音頻特征;Am表示跨模態(tài)音頻特征;threshold是超參數(shù),表示門(mén)控機(jī)制設(shè)定的閾值。將兩個(gè)跨模態(tài)Transformer的輸出向量拼接后得到音頻特征FA,其計(jì)算公式如下所示。
2.3.2 自注意力機(jī)制
將各模態(tài)特征向量輸入到自注意力機(jī)制中提取時(shí)序特征。自注意力機(jī)制的計(jì)算公式為
2.4 多模態(tài)融合
經(jīng)過(guò)注意力機(jī)制,分別得到各模態(tài)的時(shí)序特征,然后輸入到多模態(tài)融合網(wǎng)絡(luò)。考慮到各模態(tài)對(duì)情感的貢獻(xiàn)度不同,在多模態(tài)融合階段,以文本模態(tài)為基準(zhǔn),分別計(jì)算各模態(tài)的相對(duì)權(quán)重并進(jìn)行歸一化處理,得到各模態(tài)的權(quán)重系數(shù)。同時(shí),引入差異損失函數(shù),將模態(tài)間的差異損失最小化來(lái)學(xué)習(xí)各模態(tài)的情感一致性特征,由此得到各模態(tài)高層特征。最后將高層特征與特征提取階段得到的低層特征拼接起來(lái)得到多模態(tài)融合特征。多模態(tài)融合結(jié)構(gòu)如圖3所示。
先分別計(jì)算三種模態(tài)特征與文本時(shí)序特征的相似性,得到各模態(tài)的相對(duì)權(quán)重值sm,其計(jì)算公式如下:
其中:Hm表示模態(tài)m的時(shí)序特征;Hl表示文本時(shí)序特征。
為了避免文本模態(tài)的權(quán)重系數(shù)為1,而視頻和音頻模態(tài)的權(quán)重系數(shù)接近于0,對(duì)權(quán)重值采用縮放策略,再進(jìn)行歸一化處理,得到權(quán)重系數(shù)λm,如式(12)所示。
其中:sv、sl、sa表示相對(duì)權(quán)重;d表示模態(tài)的特征維度。
然后,將權(quán)重系數(shù)應(yīng)用于各模態(tài)時(shí)序特征得到hm,計(jì)算為
其中:λm表示模態(tài)m的權(quán)重系數(shù)。
在多模態(tài)融合中,除了計(jì)算各模態(tài)的權(quán)重系數(shù)來(lái)表示模態(tài)的情感貢獻(xiàn)外,還對(duì)各模態(tài)特征進(jìn)行優(yōu)化,以學(xué)習(xí)共性情感特征。
中心矩差異函數(shù)(center moment discrepancy,CMD)[24]是較為新穎的距離評(píng)價(jià)指標(biāo),相比歐氏距離和余弦距離,它可以更好地衡量?jī)煞N數(shù)據(jù)之間的分布差異,其計(jì)算公式如下所示。
其中:X和Y是有界隨機(jī)樣本,在[a,b]上有不同的概率分布;E(X)是樣本X的期望;Ck(X)是樣本X所有坐標(biāo)的k階中心矩。
將權(quán)重和各模態(tài)時(shí)序特征相乘后,引入CMD作為模態(tài)間特征分布差異的損失函數(shù)。計(jì)算文本和音頻、文本和視頻以及音頻和視頻特征之間的差異性,并求其平均值作為模態(tài)間的整體差異。通過(guò)最小化CMD損失以減小模態(tài)間的差異性,獲得最大化的模態(tài)間共性特征。CMD損失函數(shù)計(jì)算公式如下:
其中:hm1和hm2分別表示兩種模態(tài)的特征向量。
經(jīng)過(guò)各模態(tài)權(quán)重計(jì)算和最小化差異損失后,得到各模態(tài)的高層特征。雖然高層特征包含了不少情感信息,但多層網(wǎng)絡(luò)引起的特征丟失往往導(dǎo)致模型的泛化性不強(qiáng),因此將模態(tài)的低層特征和高層特征拼接起來(lái),從而獲得更多的情感信息。多模態(tài)融合特征的計(jì)算公式為
其中:lowm表示模態(tài)m的低層特征,由式(2)得到;hm表示模態(tài)m的高層特征,由式(13)得到,f∈R6d。
2.5 情感分析
將多模態(tài)融合特征f輸入到情感分類(lèi)器中得到最終的情感分析結(jié)果。本文包括分類(lèi)和回歸兩種情感分析任務(wù),分別使用標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)和均方差損失函數(shù)優(yōu)化模型的參數(shù)。兩種任務(wù)的損失函數(shù)如式(17)和(18)所示。
其中:N表示樣本數(shù)量;y和分別表示樣本標(biāo)簽和預(yù)測(cè)結(jié)果。
將情感分析的任務(wù)損失和CMD損失作為整個(gè)模型的優(yōu)化函數(shù),計(jì)算公式如下所示。
3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)集使用公開(kāi)發(fā)布的CMU-MOSI[25]、CMU-MOSEI[26]和UR-FUNNY[27]。其中,在CMU-MOSI和CMU-MOSEI數(shù)據(jù)集中進(jìn)行情感回歸實(shí)驗(yàn),在UR-FUNNY數(shù)據(jù)集上進(jìn)行情感分類(lèi)實(shí)驗(yàn)。CMU-MOSI為YouTube上的單鏡頭評(píng)論錄像,包括93個(gè)視頻、2 199個(gè)話語(yǔ)片段。其中,每段話語(yǔ)都標(biāo)注了位于[-3,3]的情感標(biāo)簽,情感標(biāo)簽的正負(fù)分別表示積極情感和消極情感,其絕對(duì)值越大,則情感強(qiáng)度越強(qiáng)。CMU-MOSEI類(lèi)似于MOSI數(shù)據(jù)集,是目前規(guī)模最大的視頻多模態(tài)情感分析數(shù)據(jù)集,包括3 228個(gè)視頻、2 3453個(gè)話語(yǔ)片段。UR-FUNNY數(shù)據(jù)集來(lái)自TED演講視頻,其中包含16 514個(gè)多模態(tài)幽默片段,每個(gè)樣本都標(biāo)記了人物是否表達(dá)幽默情緒。
上述三個(gè)數(shù)據(jù)集經(jīng)預(yù)處理和篩選后,按照訓(xùn)練集、驗(yàn)證集和測(cè)試集進(jìn)行劃分,詳細(xì)統(tǒng)計(jì)如表1所示。
3.2 實(shí)驗(yàn)設(shè)置及評(píng)價(jià)指標(biāo)
經(jīng)過(guò)數(shù)據(jù)預(yù)處理,文本特征維度dl為768,MOSI、MOSEI和UR-FUNNY數(shù)據(jù)集的音頻特征維度da分別為74、74和81,視頻特征維度dv分別為47、35和75。
通過(guò)深度學(xué)習(xí)框架PyTorch搭建模型,將預(yù)處理好的數(shù)據(jù)輸入到模型中得到多模態(tài)融合特征并輸出情感分析的結(jié)果。其中,注意力機(jī)制模塊中的參數(shù)設(shè)置如下,Transformer層數(shù)為5,多頭注意力的頭數(shù)為5,各模態(tài)隱層特征的維度為40。實(shí)驗(yàn)中首先通過(guò)調(diào)整跨模態(tài)門(mén)控機(jī)制得到最佳閾值,通過(guò)多次實(shí)驗(yàn),發(fā)現(xiàn)門(mén)控機(jī)制閾值設(shè)為0.7時(shí)效果最好。通過(guò)微調(diào)學(xué)習(xí)率使模型參數(shù)不斷逼近最優(yōu)特征附近,MOSI、MOSEI和UR-FUNNY數(shù)據(jù)集上的學(xué)習(xí)率分別設(shè)置為9.1×10-5、5×10-5和8×10-5。最后通過(guò)調(diào)整CMD損失函數(shù)的系數(shù)得到性能最優(yōu)的模型,MOSI、MOSEI和UR-FUNNY數(shù)據(jù)集上超參數(shù)α分別設(shè)為0.3、0.3和0.1時(shí)效果最好。整個(gè)實(shí)驗(yàn)通過(guò)不斷迭代來(lái)訓(xùn)練模型,訓(xùn)練批次大小為32,迭代次數(shù)為40,并采用Adam優(yōu)化器優(yōu)化模型參數(shù),為防止過(guò)擬合,設(shè)置了提前終止訓(xùn)練。
保持上述超參數(shù)的設(shè)置,分別移除模型的一部分結(jié)構(gòu)進(jìn)行消融實(shí)驗(yàn),以確定模型各部分的有效性。同時(shí),增加了跨模態(tài)門(mén)控機(jī)制在單模態(tài)、雙模態(tài)和三模態(tài)中的使用,以進(jìn)一步分析模態(tài)間的相互作用對(duì)情感分析的影響。具體實(shí)驗(yàn)結(jié)果在3.4節(jié)進(jìn)行了詳細(xì)的闡述。實(shí)驗(yàn)評(píng)價(jià)指標(biāo)與文獻(xiàn)[13]相同,對(duì)于MOSI和MOSEI數(shù)據(jù)集,使用7分類(lèi)準(zhǔn)確率(Acc-7:情感分?jǐn)?shù)位于[-3,3])、2分類(lèi)準(zhǔn)確率(Acc-2:積極/消極情感)、F1值、平均絕對(duì)誤差(mean absolute error,MAE)和皮爾森相關(guān)性(Pearson correlation,Corr);對(duì)于UR-FUNNY數(shù)據(jù)集,采用2分類(lèi)準(zhǔn)確率(Acc-2:幽默/非幽默)作為評(píng)價(jià)指標(biāo)。
3.3 模型對(duì)比
為了驗(yàn)證所提模型的有效性,與現(xiàn)有模型進(jìn)行比較:
a)TFN[15]。利用張量融合網(wǎng)絡(luò)的方法,在多模態(tài)情感分析中對(duì)單模態(tài)、雙模態(tài)和三模態(tài)信息建模,并將張量融合層的輸出用于情感分析。
b)LMF[16]。提出低秩多模態(tài)融合方法,將高階張量分解為低秩張量,大大降低了計(jì)算復(fù)雜度,提高了模型訓(xùn)練的效率。
c)MulT[2]。利用跨模態(tài)Transformer,對(duì)于任一目標(biāo)模態(tài),將其余兩個(gè)模態(tài)的信息轉(zhuǎn)換到目標(biāo)模態(tài),充分提取跨模態(tài)特征,并對(duì)模態(tài)的長(zhǎng)距離時(shí)序依賴性建模。
d)ICCN[14]。以文本模態(tài)作為基準(zhǔn),得到基于文本的音頻和基于文本的視頻特征,并對(duì)三個(gè)模態(tài)使用相關(guān)性分析,促進(jìn)多模態(tài)融合。
e)MISA[13]。利用模態(tài)表示學(xué)習(xí),將多模態(tài)數(shù)據(jù)分解為模態(tài)特定表示和模態(tài)不變表示,通過(guò)不斷優(yōu)化模型參數(shù),學(xué)習(xí)多模態(tài)數(shù)據(jù)的語(yǔ)義信息。
f)MAG-BERT[28]。基于BERT模型的多模態(tài)適應(yīng)門(mén)結(jié)構(gòu),允許BERT在微調(diào)期間接受多模態(tài)非語(yǔ)言數(shù)據(jù)的輸入,以得到包含多模態(tài)信息的文本表示。
g)BBFN[22]。基于Transformer的門(mén)控網(wǎng)絡(luò)提取模態(tài)間互補(bǔ)信息,并利用雙模態(tài)表示進(jìn)行多模態(tài)融合。
h)CubeMLP[29]。利用特征混合的思想,將多模態(tài)合并在三個(gè)軸上,通過(guò)三個(gè)MLP單元在每個(gè)軸上依次進(jìn)行非線性變換,得到充分融合的多模態(tài)特征。
3.4 實(shí)驗(yàn)結(jié)果及分析
3.4.1 模型有效性實(shí)驗(yàn)
對(duì)比實(shí)驗(yàn)引用了文獻(xiàn)[13,22]的基準(zhǔn)數(shù)據(jù)。為了與現(xiàn)有方法進(jìn)行公平比較,在同一實(shí)驗(yàn)環(huán)境下復(fù)現(xiàn)了已有模型,在三個(gè)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果如表2所示。從表2可看到,所提MCGMF相比對(duì)照模型取得了更有競(jìng)爭(zhēng)力的結(jié)果。相比已有一些模型在準(zhǔn)確率和F1值上平均提升超過(guò)1.0%,并且模型的誤差平均減小了2.0%以上。與最新方法CubeMLP相比,在MOSI和MOSEI數(shù)據(jù)集上的準(zhǔn)確率較為接近,部分指標(biāo)取得了更好的性能。
與模型LMF、TFN和ICCN相比,MCGMF在各項(xiàng)指標(biāo)上均有提升,說(shuō)明注意力機(jī)制模塊能提取模態(tài)的顯著特征,去除無(wú)關(guān)噪聲,將高低層特征結(jié)合起來(lái)能夠有效融合多模態(tài)特征,實(shí)現(xiàn)更準(zhǔn)確的情感分類(lèi)。與MulT相比,MCGMF減少了跨模態(tài)Transformer的使用,僅在音頻模態(tài)中引入跨模態(tài)門(mén)控機(jī)制,說(shuō)明跨模態(tài)門(mén)控機(jī)制能去除模態(tài)間的噪聲,提取模態(tài)間互補(bǔ)信息以增強(qiáng)音頻模態(tài)特征。相比MISA,MCGMF優(yōu)化了多模態(tài)融合策略,考慮了不同模態(tài)的情感貢獻(xiàn)度以及模態(tài)間的共性情感特征,說(shuō)明模態(tài)的權(quán)重和相似性約束在多模態(tài)融合中起到了作用。相比MAG-BERT,所提模型不僅提取了模態(tài)間的互補(bǔ)信息,還將多模態(tài)融合特征用于情感分析,說(shuō)明改進(jìn)的融合方法能增強(qiáng)多模態(tài)融合特征與情感之間的映射關(guān)系。
與最新方法比較,MCGMF在各項(xiàng)指標(biāo)上也呈現(xiàn)出具有競(jìng)爭(zhēng)力的性能。與BBFN相比,所提模型的大部分指標(biāo)優(yōu)于BBFN,說(shuō)明將模態(tài)的高層和低層表示結(jié)合起來(lái)預(yù)測(cè)情感,可以提高多模態(tài)情感分析的性能,低層特征能為情感分析提供更多的信息,進(jìn)而實(shí)現(xiàn)多模態(tài)特征的充分融合。CubeMLP模型在MOSI數(shù)據(jù)集上的Acc-2和F1值指標(biāo)、MOSEI數(shù)據(jù)集上的Acc-7指標(biāo)表現(xiàn)更好,所提模型在這些指標(biāo)上取得了接近的性能,同時(shí)在其他指標(biāo)上優(yōu)于CubeMLP,說(shuō)明跨模態(tài)門(mén)控機(jī)制能夠利用模態(tài)間的互補(bǔ)信息增強(qiáng)音頻特征,并減少多模態(tài)融合特征的噪聲,將情感貢獻(xiàn)度、情感一致性和高低層特征綜合考慮的融合方法能夠促進(jìn)多模態(tài)融合,并提高模型的泛化能力。
3.4.2 模型消融實(shí)驗(yàn)
由于UR-FUNNY數(shù)據(jù)集僅有一個(gè)評(píng)價(jià)指標(biāo),為避免消融實(shí)驗(yàn)的隨機(jī)性,所以在MOSI和MOSEI數(shù)據(jù)集上設(shè)計(jì)了五組消融實(shí)驗(yàn),如表3所示。模型消融實(shí)驗(yàn)的說(shuō)明如下:
MCGMF/G:移除MCGMF模型中的跨模態(tài)門(mén)控機(jī)制,驗(yàn)證跨模態(tài)門(mén)控機(jī)制的有效性。
MCGMF/L:移除MCGMF模型中的低層次特征,驗(yàn)證低層特征是否起到信息補(bǔ)充的作用。
MCGMF/W:移除MCGMF模型中的權(quán)重計(jì)算,驗(yàn)證各模態(tài)情感貢獻(xiàn)度的作用。
MCGMF/S:移除MCGMF模型中的相似約束,驗(yàn)證模態(tài)間情感一致性的作用。
MCGMF/WS:移除MCGMF模型中的權(quán)重計(jì)算和相似約束,驗(yàn)證融合機(jī)制的有效性。
從表3可看到,所提模型的效果最好,缺少不同模塊均會(huì)降低所提模型的性能。以Acc-7為例,相比完整的MCGMF模型,實(shí)驗(yàn)2中缺少低層特征,模型準(zhǔn)確率明顯下降,MOSI和MOSEI數(shù)據(jù)集中均下降了1.9%。實(shí)驗(yàn)1中缺少跨模態(tài)門(mén)控機(jī)制,模型在MOSI和MOSEI數(shù)據(jù)集中準(zhǔn)確率分別下降了2.6%和1.3%。實(shí)驗(yàn)3中缺少權(quán)重計(jì)算,實(shí)驗(yàn)4中缺少相似約束項(xiàng),實(shí)驗(yàn)5表示去除權(quán)重和相似約束,由表3數(shù)據(jù)可知,缺少權(quán)重和相似約束均會(huì)降低模型的性能,并且權(quán)重的作用更大。從表中數(shù)據(jù)整體來(lái)看,MCGMF模型的低層特征起主要作用,其次是跨模態(tài)門(mén)控機(jī)制,緊接著是模態(tài)的權(quán)重,最后則是各模態(tài)的相似約束。
3.4.3 跨模態(tài)門(mén)控機(jī)制在不同模態(tài)中的效果
為了進(jìn)一步驗(yàn)證跨模態(tài)門(mén)控機(jī)制在不同模態(tài)中的效果,設(shè)計(jì)了6組對(duì)比實(shí)驗(yàn),比較在不同模態(tài)中添加跨模態(tài)門(mén)控機(jī)制對(duì)模型整體性能的影響。實(shí)驗(yàn)結(jié)果如表4所示,其中l(wèi)表示文本模態(tài),v表示視頻模態(tài),a表示音頻模態(tài)。括號(hào)內(nèi)容表示在目標(biāo)模態(tài)中加入跨模態(tài)門(mén)控機(jī)制,如G(l)表示在文本模態(tài)中加入跨模態(tài)門(mén)控機(jī)制。
從表4可以看到,在文本或視頻單模態(tài)中使用跨模態(tài)門(mén)控機(jī)制,模型的整體性能表現(xiàn)一般。在視頻和文本模態(tài)中使用跨模態(tài)門(mén)控機(jī)制,模型的Acc-2有所提升;在其余雙模態(tài)中使用跨模態(tài)門(mén)控機(jī)制,模型的整體性能明顯下降。由此可知,模態(tài)間的相互作用具有一定的復(fù)雜性,并非在所有模態(tài)中使用跨模態(tài)門(mén)控機(jī)制均能取得好的性能,由于在所有模態(tài)中使用跨模態(tài)門(mén)控機(jī)制會(huì)增加模型的空間復(fù)雜度,反而會(huì)降低模型的性能;但在音頻模態(tài)中使用跨模態(tài)門(mén)控機(jī)制可取得更好的效果,驗(yàn)證了文本和視頻模態(tài)能夠增強(qiáng)音頻模態(tài)的情感特征。
3.4.4 案例分析
為進(jìn)一步分析跨模態(tài)門(mén)控機(jī)制和模態(tài)低層特征對(duì)模型性能的影響,對(duì)比模型的預(yù)測(cè)結(jié)果與樣本標(biāo)簽,如表5所示。其中,NG表示模型缺少門(mén)控機(jī)制,NL表示模型缺少低層特征。
在案例1、2中,文本帶有明顯的語(yǔ)義信息,模型的預(yù)測(cè)結(jié)果大致相同,說(shuō)明文本在多模態(tài)情感分析中的重要性。案例3中,由于文本句子較短,但語(yǔ)速有停頓和強(qiáng)調(diào),音頻特征較為明顯,跨模態(tài)門(mén)控機(jī)制過(guò)濾的噪聲較少,預(yù)測(cè)結(jié)果和真實(shí)標(biāo)簽大致相同;而缺少低層特征后,預(yù)測(cè)結(jié)果的誤差增大。在案例5、6中,缺少門(mén)控機(jī)制時(shí),模型預(yù)測(cè)結(jié)果的誤差增大,由于音頻特征并不明顯,跨模態(tài)特征中噪聲較多,需要跨模態(tài)門(mén)控機(jī)制去除模態(tài)間噪聲;缺少低層特征的預(yù)測(cè)結(jié)果也和真實(shí)標(biāo)簽相差較大,說(shuō)明低層特征有助于情感分析,結(jié)合高低層特征進(jìn)行情感分析更符合人類(lèi)多角度的思考方式。
在案例4中,文本表達(dá)的情感是積極的,模型預(yù)測(cè)情感也為積極,而樣本標(biāo)簽為消極,經(jīng)分析發(fā)現(xiàn),案例4的上下文語(yǔ)境表達(dá)的是消極情感,因此案例4帶有諷刺含義,說(shuō)明所提模型對(duì)上下文信息處理中存在不足。
4 結(jié)束語(yǔ)
針對(duì)多模態(tài)情感分析中存在的模態(tài)間噪聲,模態(tài)融合不充分,以及模態(tài)信息丟失引起的模型泛化性不強(qiáng)等問(wèn)題,提出了跨模態(tài)門(mén)控機(jī)制和改進(jìn)融合方法的多模態(tài)情感分析模型MCGMF。跨模態(tài)門(mén)控機(jī)制提取模態(tài)間關(guān)聯(lián)互補(bǔ)信息,去除模態(tài)間的噪聲,通過(guò)文本和視頻模態(tài)增強(qiáng)音頻模態(tài)的情感表征;引入模態(tài)權(quán)重系數(shù)和相似性約束分別表示模態(tài)的情感貢獻(xiàn)度和情感一致性,并結(jié)合模態(tài)的高低層表示實(shí)現(xiàn)多模態(tài)特征的充分融合。在三個(gè)公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提模型是有效的,在提高情感分析準(zhǔn)確率的同時(shí)降低了模型的誤差,相比已有一些模型取得了更好的性能。
在未來(lái)工作中,將考慮模態(tài)的上下文信息,并進(jìn)一步研究模態(tài)多層次表示的關(guān)系。
參考文獻(xiàn):
[1]Yang Kaicheng, Xu Hua, Gao Kai. CM-BERT: cross-modal BERT for text-audio sentiment analysis[C]//Proc of the 28th ACM International Conference on Multimedia. New York:ACM Press, 2020: 521-528.
[2]Tsai Y H H, Bai Shaojie, Liang P P, et al. Multimodal transformer for unaligned multimodal language sequences[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019: 6558-6569.
[3]Zhan Yibing, Yu Jun, Yu Zhou, et al. Comprehensive distance-preserving autoencoders for cross-modal retrieval[C]//Proc of the 26th ACM International Conference on Multimedia. New York: ACM Press, 2018: 1137-1145.
[4]趙小明, 楊軼嬌, 張石清. 面向深度學(xué)習(xí)的多模態(tài)情感識(shí)別研究進(jìn)展[J]. 計(jì)算機(jī)科學(xué)與探索, 2022,16(7): 1479-1503. (Zhao Xiaoming, Yang Yijiao, Zhang Shiqing. Survey of deep learning based multimodal emotion recognition[J]. Journal of Frontiers of Computer Science and Technology, 2022,16(7): 1479-1503.)
[5]Zhuang Xuqiang, Liu Fangai, Hou Jian, et al. Transformer-based interactive multi-modal attention network for video sentiment detection[J]. Neural Processing Letters, 2022,54(3): 1943-1960.
[6]Yu Wenmeng, Xu Hua, Meng Fanyang, et al. CH-SIMS: a Chinese multimodal sentiment analysis dataset with fine-grained annotation of modality[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 3718-3727.
[7]Yuan Ziqi, Li Wei, Xu Hua, et al. Transformer-based feature reconstruction network for robust multimodal sentiment analysis[C]//Proc of the 29th ACM International Conference on Multimedia. New York: ACM Press, 2021: 4400-4407.
[8]Tang Jiajia, Li Kang, Jin Xuanyu, et al. CTFN: hierarchical lear-ning for multimodal sentiment analysis using coupled-translation fusion network[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2021: 5301-5311.
[9]Ghosal D, Akhtar M S, Chauhan D, et al. Contextual inter-modal attention for multi-modal sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 3454-3466.
[10]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2016: 770-778.
[11]Rao Tianrong, Li Xiaoxu, Xu Min. Learning multi-level deep representations for image emotion classification[J]. Neural Processing Letters, 2020,51(3): 2043-2061.
[12]Rao Tianrong, Li Xiaoxu, Zhang Haimin, et al. Multi-level region-based convolutional neural network for image emotion classification[J]. Neurocomputing, 2019,333: 429-439.
[13]Hazarika D, Zimmermann R, Poria S. MISA: modality-invariant and-specific representations for multimodal sentiment analysis[C]//Proc of the 28th ACM International Conference on Multimedia. New York:ACM Press, 2020: 1122-1131.
[14]Sun Zhongkai, Sarma P, Sethares W, et al. Learning relationships between text, audio, and video via deep canonical correlation for multimodal language analysis[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 8992-8999.
[15]Zadeh A, Chen Minghai, Poria S, et al. Tensor fusion network for multimodal sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2017: 1103-1114.
[16]Liu Zhun, Shen Ying, Lakshminarasimhan V B, et al. Efficient low-rank multimodal fusion with modality-specific factors[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2018: 2247-2256.
[17]Zeng Ying, Mai Sijie, Hu Haifeng. Which is making the contribution: modulating unimodal and cross-modal dynamics for multimodal sentiment analysis[C]//Proc of Findings of the Association for Computational Linguistics: EMNLP 2021. Stroudsburg, PA: Association for Computational Linguistics, 2021: 1262-1274.
[18]Wang Yansen, Shen Ying, Liu Zhun, et al. Words can shift: dyna-mically adjusting word representations using nonverbal behaviors[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 7216-7223.
[19]包廣斌, 李港樂(lè), 王國(guó)雄. 面向多模態(tài)情感分析的雙模態(tài)交互注意力[J]. 計(jì)算機(jī)科學(xué)與探索, 2022,16(4): 909-916. (Bao Guangbin, Li Gangle, Wang Guoxiong. Bimodal interactive attention for multimodal sentiment analysis[J]. Journal of Frontiers of Computer Science and Technology, 2022,16(4): 909-916.)
[20]Chauhan D S, Akhtar M S, Ekbal A, et al. Context-aware interactive attention for multi-modal sentiment and emotion analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Proces-sing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 5647-5657.
[21]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[22]Han Wei, Chen Hui, Gelbukh A, et al. Bi-bimodal modality fusion for correlation-controlled multimodal sentiment analysis[C]//Proc of International Conference on Multimodal Interaction. New York: ACM Press, 2021: 6-15.
[23]宋云峰, 任鴿, 楊勇, 等. 基于注意力的多層次混合融合的多任務(wù)多模態(tài)情感分析[J]. 計(jì)算機(jī)應(yīng)用研究, 2022,39(3): 716-720. (Song Yunfeng, Ren Ge, Yang Yong, et al. Multimodal sentiment analysis based on hybrid feature fusion of multi-level attention mechanism and multi-task learning[J]. Application Research of Computers, 2022,39(3): 716-720.)
[24]Zellinger W, Lughofer E, Saminger-Platz S, et al. Central moment discrepancy(CMD) for domain-invariant representation learning[C]//Proc of the 5th International Conference on Learning Representations. 2017.
[25]Zadeh A, Zellers R, Pincus E, et al. Multimodal sentiment intensity analysis in videos: facial gestures and verbal messages[J]. IEEE Intelligent Systems, 2016,31(6): 82-88.
[26]Zadeh A A B, Liang P P, Poria S, et al. Multimodal language analysis in the wild: CMU-MOSEI dataset and interpretable dynamic fusion graph[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2018: 2236-2246.
[27]Hasan M K, Rahman W, Zadeh A A B, et al. UR-FUNNY: a multimodal language dataset for understanding humor[C]//Proc of Confe-rence on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 2046-2056.
[28]Rahman W, Hasan M K, Lee S, et al. Integrating multimodal information in large pretrained transformers[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 2359-2369.
[29]Sun Hao, Wang Hongyi, Liu Jiaqing, et al. CubeMLP: an MLP-based model for multimodal sentiment analysis and depression estimation[C]//Proc of the 30th ACM International Conference on Multimedia. New York:ACM Press, 2022: 3722-3729.