999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多任務(wù)學(xué)習(xí)與層疊 Transformer 的多模態(tài)情感分析模型

2024-01-13 10:38:32陳巧紅孫佳錦漏楊波方志堅(jiān)
關(guān)鍵詞:模態(tài)特征文本

陳巧紅,孫佳錦,漏楊波,方志堅(jiān)

(浙江理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310018)

多模態(tài)情感分析是新興的深度學(xué)習(xí)技術(shù),不僅應(yīng)用于視頻的情感極性識別,也是用戶行為分析、對話生成的基礎(chǔ).作為文本情感分析的延伸,數(shù)據(jù)源不僅有文本模態(tài),還包含音頻與視覺模態(tài),同一數(shù)據(jù)段中的不同模態(tài)往往相互補(bǔ)充,為語義和情感消歧提供額外的線索[1].任何話語的每個(gè)模態(tài)都包含著獨(dú)特的信息[2],這些獨(dú)特的信息可能與其他模態(tài)信息相互沖突,并被認(rèn)為是噪聲,但它們在預(yù)測情感極性方面可能是有用的.多模態(tài)情感分析現(xiàn)存兩大挑戰(zhàn):1)如何模擬人類接受多模態(tài)信息的過程,對模態(tài)內(nèi)特征進(jìn)行有效建模,以便保留模態(tài)的異質(zhì)性,并盡可能篩除噪聲;2)在跨模態(tài)建模時(shí),能夠有效地集成異構(gòu)數(shù)據(jù),提取并整合有意義的信息.

多模態(tài)融合方式主要分為3 種:早期融合[3]、后期融合[4]與中期融合[5].早期融合是在模型的初期通過特征拼接融合不同模態(tài)的特征.后期融合為每個(gè)模態(tài)建立單獨(dú)的模型,再使用多數(shù)投票或加權(quán)平均方法將輸出集成.中期融合將不同模態(tài)的數(shù)據(jù)先轉(zhuǎn)化為高維特征表達(dá),再于模型的中間層進(jìn)行融合.根據(jù)輸入模態(tài)的特征是否按時(shí)間步對齊,多模態(tài)融合又分為時(shí)序融合與非時(shí)序融合.時(shí)序融合模型根據(jù)時(shí)間對不同模態(tài)進(jìn)行連續(xù)建模,須先將不同模態(tài)特征對齊,再按時(shí)序依次融合每個(gè)時(shí)間步的特征.Wang 等[6]通過時(shí)序融合,將每個(gè)時(shí)間步的文本特征作為主模態(tài),將音頻和視覺特征作為輔助模態(tài)對詞表征進(jìn)行動(dòng)態(tài)調(diào)整,再將調(diào)整后的特征序列輸入長短時(shí)記憶(LSTM)網(wǎng)絡(luò).在非時(shí)序融合研究方面,Zadeh 等[7]提出基于張量融合的方法,將經(jīng)過時(shí)序網(wǎng)絡(luò)提取的單模態(tài)特征,使用笛卡爾積進(jìn)行融合.Yu 等[8]通過創(chuàng)建多標(biāo)簽數(shù)據(jù)集SIMS,并在情感分析中利用多任務(wù)學(xué)習(xí)來指導(dǎo)單模態(tài)特征提取,后續(xù)Yu 等[9]又提出SELF-MM,通過自監(jiān)督學(xué)習(xí)策略生成偽單模態(tài)標(biāo)簽來適應(yīng)傳統(tǒng)單標(biāo)簽數(shù)據(jù)集.Tsai 等[10]分別將不同模態(tài)特征輸入Transformer 的編碼器結(jié)構(gòu),實(shí)現(xiàn)非對齊特征的注意力交互.其他方法(如圖膠囊網(wǎng)絡(luò))也被提出并取得了良好的效果[11-13].

上述模型只利用多模態(tài)整體情感標(biāo)簽,且整體采用三元對稱結(jié)構(gòu)[14],輪流對3 個(gè)模態(tài)中的每對模態(tài)進(jìn)行建模,平等的計(jì)算每個(gè)模態(tài)對最終情感的貢獻(xiàn).在情感交流的過程中,不同模態(tài)所攜帶的信息量不同,文本模態(tài)是多模態(tài)情感的主要載體,音頻和視覺信息起輔助作用.本研究提出層疊跨模態(tài)Transformer 結(jié)構(gòu),將文本模態(tài)作為目標(biāo)模態(tài),并將音頻模態(tài)與視覺模態(tài)依次與文本模態(tài)融合,通過模擬人類接受多模態(tài)信息的過程來平衡不同模態(tài)的情感貢獻(xiàn);引入多任務(wù)學(xué)習(xí)與門控機(jī)制,根據(jù)模態(tài)異質(zhì)性調(diào)整跨模態(tài)特征融合,更有效地集成異構(gòu)數(shù)據(jù),提取并整合有意義的信息;通過Gradnorm 與子任務(wù)動(dòng)態(tài)權(quán)重衰減來調(diào)優(yōu)多任務(wù)損失,指導(dǎo)單模態(tài)異質(zhì)性特征提取.

1 基于多任務(wù)學(xué)習(xí)和層疊Transformer的多模態(tài)情感分析模型

1.1 算法架構(gòu)

本研究算法架構(gòu)如圖1 所示,該框架共分為4 個(gè)步驟:單模態(tài)特征提取、跨模態(tài)特征融合、情感預(yù)測和多任務(wù)損失調(diào)優(yōu).1)將給定視頻片段作為輸入,分別使用 BERT[15]、LibROSA[16]、openface2.0[17]提取文本特征XT、音頻特征XA與視覺特征XV.2)采用LSTM[18]網(wǎng)絡(luò)作為單模態(tài)特征提取的基礎(chǔ)框架,對于不同模態(tài)的初始特征,分別通過對應(yīng)模態(tài)的單向LSTM 網(wǎng)絡(luò),將特征映射到同一維度,令每一時(shí)間步特征能感知當(dāng)前特征的上下文.通過將最終時(shí)間步特征輸入前饋層得到單模態(tài)預(yù)測,并在訓(xùn)練階段與真實(shí)標(biāo)簽計(jì)算分類損失,引導(dǎo)時(shí)序特征的提取,以保證輸出的特征能在過濾噪聲的同時(shí)最大程度保存模態(tài)異質(zhì)性.3)通過跨模態(tài)特征融合模塊,將3 個(gè)模態(tài)的特征依次輸入層疊的跨模態(tài)Transformer 網(wǎng)絡(luò)得到融合特征,并將對應(yīng)模態(tài)的高級語義特征間的相似度作為Transformer 殘差連接的門控,指導(dǎo)模態(tài)間的注意力交互.4)將融合特征通過特征補(bǔ)充后輸入前饋層,得到情感預(yù)測.

圖1 基于多任務(wù)學(xué)習(xí)和層疊Transformer 的多模態(tài)情感分析模型結(jié)構(gòu)圖Fig.1 Structure of multimodal sentiment analysis model based on multi-task learning and stacked cross-modal Transformer

1.2 單模態(tài)特征提取模塊

單模態(tài)特征提取模塊旨在從初始特征序列中學(xué)習(xí)模態(tài)內(nèi)表示.本研究使用LSTM 網(wǎng)絡(luò)對原始輸入特征進(jìn)行提取,即

式中:Xm∈Rlm×dm為 模態(tài)m的原始輸入特征,l表示特征序列的長度,d表示特征維度,模態(tài)分別標(biāo)記為文本T、音頻A、視覺V;Hm∈Rlm×dh為模態(tài)m經(jīng)過LSTM 網(wǎng)絡(luò)提取后的隱藏層特征,LTSMm為使用單向LSTM 網(wǎng)絡(luò)對模態(tài)m進(jìn)行特征提取.不同模態(tài)的LSTM 特征提取網(wǎng)絡(luò)的輸入維度不同,因此本研究將各個(gè)LSTM 網(wǎng)絡(luò)的隱藏層維度統(tǒng)一為dh,以適應(yīng)之后的跨模態(tài)特征融合.Hm被用作跨模態(tài)特征融合模塊的輸入,將Hm的末尾時(shí)間序列特征HmL通過多層感知機(jī)(MLP)得到高級語義特征Gm,作為跨模態(tài)特征融合模塊的門控輸入來指導(dǎo)跨模態(tài)特征融合,即

以往的模型采用CNN、GRU 或者LSTM 提取不同子模態(tài)內(nèi)部特征,由于這類模型只以多模態(tài)整體情感標(biāo)簽為訓(xùn)練目標(biāo),在訓(xùn)練過程中,為了篩除原始特征中的噪聲,模型會(huì)將對跨模態(tài)特征融合至關(guān)重要的單模態(tài)異質(zhì)性特征一并篩除,只保留模態(tài)中的共性特征.受Yu 等[8]啟發(fā),本研究引入多任務(wù)學(xué)習(xí)機(jī)制,以保留單模態(tài)特征的異質(zhì)性,通過將Gm輸入至前饋層得到單模態(tài)分類結(jié)果,并在訓(xùn)練時(shí)結(jié)合真實(shí)標(biāo)簽計(jì)算交叉熵?fù)p失,以指導(dǎo)LSTM 網(wǎng)絡(luò)提取單模態(tài)特征,使模型在有效表征單模態(tài)情感的基礎(chǔ)上進(jìn)行特征融合,進(jìn)而識別多模態(tài)整體情感,計(jì)算式為

式中:f()為前饋層,D為圖文評論樣本總數(shù),N為情感類別數(shù),ym,i為第i個(gè)視頻片段對m模態(tài)的真實(shí)情感分值,為預(yù)測情感分值,為第i個(gè)視頻片段對模態(tài)m預(yù)測為第k類情感的概率.ym,i,k為指示變量,若與真實(shí)樣本類別相同,則ym,i,k為1,不同則為0.式(3)表示將高級語義特征Gm通過前饋層得到情感預(yù)測,式(4)用于分類任務(wù)計(jì)算損失值,式(5)用于回歸任務(wù)計(jì)算損失值.

1.3 跨模態(tài)特征融合模塊

在大腦識別多模態(tài)信息的過程中,聽覺器官反饋給大腦的是經(jīng)過融合后的文本與音頻特征,之后該特征再與視覺器官接收的特征進(jìn)行交互[19].基于這點(diǎn)啟發(fā),本研究提出層疊Transformer結(jié)構(gòu),將文本特征與音頻特征先進(jìn)行跨模態(tài)Transformer 融合,得到語言特征后,再將語言特征與視覺特征進(jìn)行融合.

跨模態(tài)特征融合模塊由跨模態(tài)Transformer 堆疊組成,跨模態(tài)Transformer 的原理是利用多頭自注意力機(jī)制[20],通過將目標(biāo)模態(tài)的查詢值與輔助模態(tài)的鍵值進(jìn)行相似度對比,在低層特征級別增強(qiáng)目標(biāo)模態(tài)特征.此前的MULT 模型[10]通過跨模態(tài)Transformer 將文本、音頻和視覺特征進(jìn)行兩兩組合后,再將得到的6 組經(jīng)過注意力機(jī)制增強(qiáng)的融合特征進(jìn)行拼接,作為3 個(gè)模態(tài)的融合特征,如圖2 所示.這種融合方式,本質(zhì)上只是對2 個(gè)模態(tài)進(jìn)行注意力增強(qiáng),融合程度不足,且當(dāng)模態(tài)擴(kuò)充到更高維數(shù)時(shí),該融合方式的參數(shù)量與訓(xùn)練時(shí)間都會(huì)呈指數(shù)級上升.本研究所提模塊通過堆疊跨模態(tài)Transformer,將文本特征依次與音頻、視覺特征融合,可以有效解決上述缺陷.此外,本研究在跨模態(tài)Transformer 中加入各模態(tài)的高級語義特征Gm,通過比較2 個(gè)模態(tài)高級語義特征的余弦相似度sα,β,作為Transformer 殘差連接的門控,以指導(dǎo)目標(biāo)模態(tài)接受或拒絕輔助模態(tài)的引導(dǎo).

圖2 2 種融合結(jié)構(gòu)的對比Fig.2 Comparison of two fusion architecture

對于從單模態(tài)特征提取子網(wǎng)中得到的序列特征HT、HA、HV與 高 級 語 義 特 征GT、GA、GV,先 將HT、HA、GT、GA輸 入至 跨 模態(tài)Transformer 網(wǎng)絡(luò),得到經(jīng)過音頻特征加強(qiáng)的文本特征HTA,融合了音頻特征的模式更接近語言.將HTA的尾部特征輸入前饋層,得到高級語義特征GTA,作為下一次跨模態(tài)Transformer 的門控輸入.為了能讓模型保留語言特征的異質(zhì)性,將GTA通過前饋層,得到語言情感分類結(jié)果,并在訓(xùn)練階段計(jì)算與真實(shí)標(biāo)簽的交叉熵?fù)p失,指導(dǎo)本層的跨模態(tài)融合.將HTA、HV、GTA、GV輸 入 跨 模 態(tài) 門 控Transformer網(wǎng)絡(luò),得到多模態(tài)情感特征HTAV.跨模態(tài)門控Transformer 如圖3 所示.對于 主 模 態(tài) α 與輔助模態(tài)β , T ransformerβ→α表 示 將 模 態(tài) β 對 模 態(tài) α 做 引 導(dǎo) 注意 力, T ransformerβ→α中 包 含n層 跨 模 態(tài) 注 意 力塊,向每層跨模態(tài)注意力塊輸入目標(biāo)模態(tài)、Hβ,經(jīng)過層歸一化和映射后得到Query、Key 和Value,表達(dá)式分別為

圖3 跨模態(tài)門控Transformer 結(jié)構(gòu)圖Fig.3 Structure of cross-modal gated Transformer

Transformer 為了強(qiáng)化目標(biāo)模態(tài)的特征信息,通過殘差連接的方式使原目標(biāo)模態(tài)Hα得到輔助模態(tài)的補(bǔ)充.傳統(tǒng)的Transformer 是針對單模態(tài)與自注意力機(jī)制設(shè)計(jì)的,其目標(biāo)模態(tài)與輔助模態(tài)的來源相同.跨模態(tài)Transformer 與傳統(tǒng)Transformer不同,當(dāng)目標(biāo)模態(tài)與輔助模態(tài)的差異性過大,導(dǎo)致難以有效融合時(shí),應(yīng)該降低輔助模態(tài)對目標(biāo)模態(tài)的影響與干擾;當(dāng)目標(biāo)模態(tài)與輔助模態(tài)的差異性較小時(shí),應(yīng)該增強(qiáng)跨模態(tài)融合的強(qiáng)度.本研究在跨模態(tài)Transformer 的殘差連接中加入門控機(jī)制,通過將目標(biāo)模態(tài)與輔助模態(tài)對應(yīng)的高層特征進(jìn)行余弦相似度對比,得到相似度sα,β作為殘差連接的門控,指導(dǎo)跨模態(tài)Transformer融合,得到本層跨模態(tài)融合特征,作為下一Transformer層的目標(biāo)模態(tài)輸入,計(jì)算式為

1.4 情感預(yù)測

在情感預(yù)測前,再將不同模態(tài)的高層特征整合,以提高模型的穩(wěn)健性.取出經(jīng)過音頻、視覺特征引導(dǎo)的文本特征HTAV的尾部特征,將文本高層特征GT、視覺高層特征GV,與拼接,再輸入前饋層得到分類結(jié)果,計(jì)算過程式為

特征整合時(shí)沒有拼接音頻高層特征與語言高層特征,原因是音頻偽標(biāo)簽與真實(shí)標(biāo)簽存在差異,雖然能指導(dǎo)音頻特征的提取,但音頻特征高層特征的可信度不高,經(jīng)過實(shí)驗(yàn)證明,將音頻特征加入拼接會(huì)降低多模態(tài)情感預(yù)測的性能.此外,語言高層特征與文本高層特征GT、經(jīng)過引導(dǎo)的文本尾部特征存在較多冗余,將它們補(bǔ)充至整合特征的意義不大.

1.5 多任務(wù)損失調(diào)優(yōu)

在訓(xùn)練階段,將不同模態(tài)的損失值加權(quán)求和,得到損失函數(shù),即

式中:wm為不同模態(tài)m損失占總體損失的權(quán)重,模態(tài)分別標(biāo)記為文本T、音頻A、視覺V、文本融合音頻TA 和多模態(tài)M.在訓(xùn)練過程中發(fā)現(xiàn),不同子任務(wù)的收斂速度與損失值體量不同,這將導(dǎo)致任務(wù)的不平衡進(jìn)而阻礙模型的訓(xùn)練.這種阻礙體現(xiàn)在反向傳播時(shí)參數(shù)的梯度不平衡,為此基于Gradnorm[21]自適應(yīng)平衡多個(gè)任務(wù)之間的損失權(quán)重,計(jì)算過程式為

子任務(wù)對總體情感的訓(xùn)練起輔助作用,隨著訓(xùn)練的推進(jìn),子任務(wù)在多任務(wù)損失函數(shù)中的占比應(yīng)該逐漸降低,因此每經(jīng)過一輪訓(xùn)練,計(jì)算所有子任務(wù)的學(xué)習(xí)完成率并衰減它的權(quán)值,新增權(quán)值cm調(diào)整子任務(wù)權(quán)重,計(jì)算過程式為

式中:cm為任務(wù)m的完成度系數(shù);pm為任務(wù)m在該輪測試集中的準(zhǔn)確率,pm越大,訓(xùn)練完成度越高,對應(yīng)的完成度系數(shù)越小.式(24)表示總損失值由每個(gè)子任務(wù)的損失與cm、wm相乘得到,式(25)表示cm與pm間的數(shù)量關(guān)系.

2 實(shí)驗(yàn)及結(jié)果分析

2.1 數(shù)據(jù)集與評價(jià)指標(biāo)介紹

數(shù)據(jù)集CMU-MOSEI[22]的23 000 多段對話提取自某視頻網(wǎng)站的1 000 多條視頻,標(biāo)記每段對話的情感極性值范圍為[-3, 3].SIMS[8]是針對中文多模態(tài)情感分析的數(shù)據(jù)集,相比如MOSI[23]與MOSEI 的單標(biāo)簽數(shù)據(jù)集,SIMS 額外提供文本、音頻與視覺單模態(tài)標(biāo)簽,本研究的完整模型依賴于該數(shù)據(jù)集提供的細(xì)粒度單模態(tài)標(biāo)簽.該數(shù)據(jù)集為從60 個(gè)原始視頻中提取的2 281 個(gè)視頻片段,令標(biāo)記者在僅接受單一模態(tài)輸入的情況下給出該模態(tài)的情感得分.實(shí)驗(yàn)過程中數(shù)據(jù)集分別按60%、20%和20%的比例劃分為訓(xùn)練集、測試集和驗(yàn)證集.

為了公平地評估模型性能,在2 個(gè)數(shù)據(jù)集上分別執(zhí)行回歸和分類任務(wù).回歸任務(wù)的指標(biāo)包括平均絕對誤差MAE 和皮爾遜相關(guān)系數(shù)Corr,分類任務(wù)將二分類準(zhǔn)確率A c c 2,三分類準(zhǔn)確率Acc3 和F1 值作為評價(jià)指標(biāo).

2.2 實(shí)驗(yàn)細(xì)節(jié)與參數(shù)設(shè)置

本研究模型在Nvidia 3090GPU 上進(jìn)行進(jìn)行訓(xùn)練,操作系統(tǒng)為Windows 10,使用python3.8 為編程語言,深度學(xué)習(xí)框架為pytorch1.2.0,完整實(shí)驗(yàn)參數(shù)設(shè)置如表1 所示.

表1 所提模型在2 個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)參數(shù)設(shè)置Tab.1 Experimental parameter settings of proposed model in two datasets

2.3 基準(zhǔn)模型

為了驗(yàn)證所提出的模型,選擇性能優(yōu)異、代碼開源且復(fù)現(xiàn)后性能與原文接近的6 個(gè)模型進(jìn)行對比.1)TFN[7]:張量融合網(wǎng)絡(luò)通過對提取的單模態(tài)特征進(jìn)行交替的笛卡兒積,得到多維張量,以對模態(tài)內(nèi)與模態(tài)間動(dòng)態(tài)進(jìn)行建模,M_TFN[8]:TFN 的多任務(wù)版本.2)LMF[24]:TFN 的改進(jìn)版本,通過使用特定模態(tài)因子進(jìn)行低秩多模態(tài)融合來產(chǎn)生多模態(tài)輸出表示,使用多模態(tài)表示來生成預(yù)測任務(wù),M_LMF[8]為LMF 的多任務(wù)版本.3)MFN[25]:通過提取不同子模態(tài)的相鄰時(shí)序特征,實(shí)現(xiàn)特點(diǎn)視圖與跨視圖的交互,通過特殊的注意力機(jī)制構(gòu)造多視圖門控記憶模塊,以增加模型的可解釋性.4)MISA[26]:結(jié)合包括分布相似性、正交損失、重構(gòu)損失和任務(wù)預(yù)測損失在內(nèi)的損失組合來學(xué)習(xí)模態(tài)不變和模態(tài)特定表示,通過將每個(gè)模態(tài)投射到模態(tài)共性(modality-invariant)與模態(tài)特性(modalityspecific)2 個(gè)不同的子空間,以保存模態(tài)特征的異質(zhì)性與統(tǒng)一性.5)MULT[10]:利用跨模態(tài)Transformer,將輔助模態(tài)融入目標(biāo)模態(tài),得到多組跨模態(tài)融合特征后,再通過特征拼接進(jìn)行整合.6)CMFIB[27]:從信息瓶頸理論出發(fā),通過互信息估計(jì)器的互信息估計(jì)模塊,優(yōu)化多模態(tài)表示向量與真實(shí)標(biāo)簽之間的互信息下界,獲得具有較好預(yù)測能力的多模態(tài)表示向量.

2.4 結(jié)果對比分析

本研究所提模型和基準(zhǔn)模型在2 個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2、3 所示, 其中,T為訓(xùn)練時(shí)間,N為參數(shù)量.在MOSEI 與SIMS 數(shù)據(jù)集上的結(jié)果顯示,MTSA 在去除多任務(wù)標(biāo)簽的輔助后,性能依然能高于傳統(tǒng)模型TFN、MFN,且與MULT 這類基于跨模態(tài)Transformer 結(jié)構(gòu)的模型相比,性能仍有提升.雖然MTSA 在MOSEI 數(shù)據(jù)集上略低于MISA 與CMFIB,但在SIMS 數(shù)據(jù)集上,MTSA通過多任務(wù)機(jī)制利用數(shù)據(jù)集中額外的單模態(tài)精細(xì)標(biāo)簽,相比CMFIB、MISA 有了較大的性能提升,說明MTSA 對不同數(shù)據(jù)集的泛化能力更強(qiáng);此外,MTSA 對比多任務(wù)框架M_TFN 與M_LMF也有明顯的提升,這些結(jié)果初步證明了MTSA 在多模態(tài)情感分析中的有效性.在模型參數(shù)量、訓(xùn)練時(shí)間與計(jì)算速度方面,MTSA 的指標(biāo)明顯低于MFN、MISA 與CMFIB 這些性能較優(yōu)但構(gòu)造比較復(fù)雜的模型.與MULT 相比,層疊的跨模態(tài)融合結(jié)構(gòu)相比三元對稱的跨模態(tài)融合結(jié)構(gòu)能夠顯著減少參數(shù)冗余并加快模型的訓(xùn)練與運(yùn)算速度.

表2 SIMS 數(shù)據(jù)集上不同模型的性能對比結(jié)果Tab.2 Performance comparison of results with different models in SIMS dataset

表3 MOSEI 數(shù)據(jù)集上不同模型的性能對比結(jié)果Tab.3 Performance comparison of results with different models in MOSEI dataset

2.5 消融實(shí)驗(yàn)

將MTSA 與4 種模型變體進(jìn)行消融實(shí)驗(yàn).1)MTSA+WA:在MTSA 模型的基礎(chǔ)上,添加自適應(yīng)權(quán)重調(diào)整,通過Gradnorm 實(shí)現(xiàn)多任務(wù)損失調(diào)優(yōu),并根據(jù)子任務(wù)的學(xué)習(xí)完成率衰減該任務(wù)的權(quán)值.2)MTSA-G:在MTSA 模型的基礎(chǔ)上,刪去跨模態(tài)門控模塊,不再根據(jù)2 個(gè)模態(tài)高層特征的相似度改變跨模態(tài)Transformer 殘差連接系數(shù).3) MTSAGMT:在MTSA-G 的基礎(chǔ)上,僅使用整體任務(wù)標(biāo)簽進(jìn)行訓(xùn)練,不再將單任務(wù)損失值加入總損失值.4) MTSA-SMT:在MTSA-GMT 的基礎(chǔ)上,將層疊Transformer 結(jié)構(gòu)修改為三元對稱的并行Transformer結(jié)構(gòu),再將融合后的6 組Transformer 頭部特征進(jìn)行拼接后輸入多層感知機(jī),得到情感分類.

消融實(shí)驗(yàn)在SIMS 數(shù)據(jù)集上進(jìn)行,采用準(zhǔn)確率、F1 值、MAE 與Corr 作為評估指標(biāo),實(shí)驗(yàn)結(jié)果如表4 所示.實(shí)驗(yàn)結(jié)果顯示,MTSA+WA 的實(shí)驗(yàn)效果最好,缺少不同模塊會(huì)對實(shí)驗(yàn)結(jié)果造成不同影響.MTSA-G 相比MTSA 省去了跨模態(tài)相似度門控模塊,其總體性能略低于MTSA-G,這是由于通過將2 個(gè)模態(tài)高層特征的余弦相似度作為跨模態(tài)融合時(shí)殘差連接的門控,可以更好地融合不同模態(tài)的特征.MTSA+WA 與MTSA 的消融實(shí)驗(yàn)結(jié)果表明,對多任務(wù)損失函數(shù)進(jìn)行動(dòng)態(tài)調(diào)優(yōu)能有效提高模型的性能.此外,MTSA-SMT 未采用層疊的Transformer 結(jié)構(gòu),而是將3 個(gè)輸入模態(tài)兩兩組合,進(jìn)行跨模態(tài)Transformer,并將得到的6 組雙模態(tài)融合特征拼接,因此MTSA-SMT 的參數(shù)量與運(yùn)算時(shí)間都遠(yuǎn)高于MTSA-SMT 的,在SIMS 數(shù)據(jù)集上,MTSA-GMT 的性能明顯高于MTSA-SMT,進(jìn)一步說明層疊Transformer 結(jié)構(gòu)的優(yōu)越性.MTSA-G 與MTSA-GMT 的實(shí)驗(yàn)結(jié)果表明,通過利用單模態(tài)特征標(biāo)簽指導(dǎo)多任務(wù)學(xué)習(xí),能夠有效提升模型對單模態(tài)異質(zhì)性的保留能力,進(jìn)而提高多模態(tài)情感分析性能.

表4 所提模型在SIMS 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Tab.4 Results of ablation experiments of proposed model in SIMS dataset

為了進(jìn)一步探討不同層疊順序與主輔模態(tài)的選擇對多模態(tài)情感分析的影響,分別以文本、音頻、視覺作為主模態(tài),并按不同的層疊順序依次將剩余模態(tài)作為輔助模態(tài)進(jìn)行跨模態(tài)融合,消融實(shí)驗(yàn)結(jié)果如表5 所示.可以看出,以文本為主模態(tài)進(jìn)行跨模態(tài)融合的模型比以音頻或視覺為主模態(tài)的模型在實(shí)驗(yàn)中取得的效果好,證明文字在多模態(tài)情感分析中是作為支點(diǎn)的.此外,文本模態(tài)先與音頻模態(tài)進(jìn)行融合,再與視覺模態(tài)融合的順序,其性能優(yōu)于其他層疊融合順序的性能,這可能是這種融合方式與人腦識別多模態(tài)情感的過程更接近導(dǎo)致的.

表5 SIMS 數(shù)據(jù)集上的模態(tài)融合順序?qū)嶒?yàn)結(jié)果Tab.5 Results of mode fusion sequence in SIMS dataset

2.6 樣例分析

如表6 所示,為了體現(xiàn)MTSA 的泛化性能與其對單模態(tài)情感預(yù)測的準(zhǔn)確率,從SIMS 數(shù)據(jù)集中選取典型樣例進(jìn)行模型測試.表中分別列出每個(gè)實(shí)例的文本、音頻、視覺信息,原視頻編號,MTSA 對不同模態(tài)的情感預(yù)測結(jié)果以及不同模態(tài)的真實(shí)情感標(biāo)簽.可以看出,本研究所提模型能夠有效提取文本、音頻和視覺等單模態(tài)信息,在能夠識別單模態(tài)情感的基礎(chǔ)上,進(jìn)一步實(shí)施跨模態(tài)融合,識別多模態(tài)整體情感.

表6 所提模型在SIMS 數(shù)據(jù)集的樣例分析Tab.6 Sample analysis of proposed model in SIMS dataset

3 結(jié) 語

本研究提出的MTSA 在多模態(tài)情感分析任務(wù)中有較好的性能.MTSA 利用LSTM 與多任務(wù)學(xué)習(xí)在一定程度上解決單模態(tài)特征異質(zhì)性難以提取的問題,通過累加輔助模態(tài)任務(wù)損失避免了模型在訓(xùn)練過程中單模態(tài)特征坍縮;將各模態(tài)的高級語義特征的相似度計(jì)算,作為門控指導(dǎo)跨模態(tài)特征融合;通過層疊Transformer 結(jié)構(gòu)進(jìn)行特征融合,提升融合深度并避免融合特征冗余.MTSA在2 個(gè)數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果顯示了模型的有效性;消融實(shí)驗(yàn)和定性分析證明了MTSA 的性能.由于SIMS 數(shù)據(jù)集中受試者提供的音頻標(biāo)簽并不準(zhǔn)確,通過計(jì)算偏移量的方式模擬純音頻標(biāo)簽不足.在之后的工作中將繼續(xù)研究如何更好地提取各模態(tài)的特征,尤其是音頻和視覺模態(tài),更有效地融合模態(tài)信息.

猜你喜歡
模態(tài)特征文本
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
由單個(gè)模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 91免费观看视频| 色综合天天操| 亚洲成人www| 亚洲国产综合精品中文第一| 71pao成人国产永久免费视频| 99久久精品无码专区免费| 国产精品va| 特级毛片免费视频| 国产黄色爱视频| 国内嫩模私拍精品视频| 毛片免费在线视频| 乱人伦中文视频在线观看免费| 中文字幕乱码二三区免费| 亚洲成人一区二区| 欧美在线视频不卡第一页| 狠狠色狠狠色综合久久第一次| 2024av在线无码中文最新| 成人福利在线观看| 99热这里只有精品国产99| 青青国产视频| 波多野结衣一区二区三区AV| 一级香蕉人体视频| 国产浮力第一页永久地址| 亚洲永久色| 狠狠ⅴ日韩v欧美v天堂| 亚洲国产精品日韩av专区| 2021精品国产自在现线看| 欧美一级大片在线观看| 亚洲人精品亚洲人成在线| 国产va在线| 色综合网址| 亚洲黄网视频| 四虎影视国产精品| 亚洲综合经典在线一区二区| 精品国产自在现线看久久| 亚洲人成网站在线播放2019| 国产 在线视频无码| 5555国产在线观看| 中字无码av在线电影| 四虎AV麻豆| 无码视频国产精品一区二区| 国产人成乱码视频免费观看| 日本人妻丰满熟妇区| 性欧美精品xxxx| 亚洲狼网站狼狼鲁亚洲下载| 国产大片喷水在线在线视频| 国产精品久久久久鬼色| 国产91小视频在线观看| 国产精品无码影视久久久久久久| 国产免费好大好硬视频| 免费黄色国产视频| 欧美日韩一区二区在线免费观看| 国产91高清视频| 日本成人在线不卡视频| 精品视频在线观看你懂的一区| 亚洲黄网在线| 午夜精品久久久久久久2023| 亚洲激情区| 亚洲精品波多野结衣| 人人爽人人爽人人片| 国产成人免费手机在线观看视频| 亚洲成人免费在线| 99无码熟妇丰满人妻啪啪| 男人的天堂久久精品激情| 欧美精品亚洲二区| 扒开粉嫩的小缝隙喷白浆视频| 国产青榴视频| AV无码一区二区三区四区| 国产女人喷水视频| 亚洲成a人片在线观看88| 国产美女在线观看| 色婷婷视频在线| 最新精品久久精品| 凹凸精品免费精品视频| 日本一区二区不卡视频| 欧美日本在线观看| 91破解版在线亚洲| 国产在线自乱拍播放| 国产精品爽爽va在线无码观看| 久久semm亚洲国产| 国产成人免费| 在线精品欧美日韩|