999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CLIP和交叉注意力的多模態(tài)情感分析模型

2024-03-09 02:42:16賴宇斌廖宇翔陳寧江
關(guān)鍵詞:模態(tài)特征文本

陳 燕, 賴宇斌, 肖 澳, 廖宇翔, 陳寧江

(1.廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,廣西 南寧 530000;2.廣西大學(xué) 廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,廣西 南寧 530000)

隨著科技的發(fā)展和短視頻平臺(tái)的流行,人們?cè)谏缃幻襟w和各種網(wǎng)站平臺(tái)上的情感表達(dá)方式也越來越多樣化,不僅有文本,還有圖片、音頻、視頻等多模態(tài)信息。相比于單一模態(tài)信息,多模態(tài)數(shù)據(jù)可以從不同視角表達(dá)語義信息,包含更多情感內(nèi)容。圖1為一個(gè)多模態(tài)表達(dá)的例子,一段視頻片段配上字幕“你那點(diǎn)財(cái)務(wù)還需要助理?”,如果只看文字,可能會(huì)感覺說話者是在輕視和嘲諷對(duì)方,讓觀眾認(rèn)為此處表現(xiàn)出消極的情感極性。但是結(jié)合視頻內(nèi)容,就可以發(fā)現(xiàn)說話者是在開玩笑地和對(duì)方交流,想表達(dá)的是積極情感。因此,利用多模態(tài)信息的互補(bǔ)和增強(qiáng),可以更全面和準(zhǔn)確地理解人們的情感狀態(tài)。

圖1 多模態(tài)數(shù)據(jù)示例

在文本數(shù)據(jù)缺乏情感信息的情況下,可以利用圖片、視頻或其他模態(tài)信息來加強(qiáng)和補(bǔ)充。但文本和圖像包含的情感信息屬于不同層次和不同程度的信息,因此存在相關(guān)性的同時(shí)也會(huì)包含冗余信息和噪聲信息。此外,目前許多特征融合方法依賴預(yù)設(shè)的規(guī)則或權(quán)重,不能自適應(yīng)地調(diào)整模態(tài)之間的關(guān)系和重要性。因此,多模態(tài)情感分析任務(wù)面臨著一些挑戰(zhàn)。

情感分析任務(wù)最早由Pang等[1]提出,通過詞袋框架和有監(jiān)督的機(jī)器學(xué)習(xí)方法對(duì)電影文本評(píng)論進(jìn)行情感分類。隨著數(shù)據(jù)語料庫(kù)和人工智能技術(shù)的發(fā)展,情感分析任務(wù)得到了越來越多人的重視,并得到了廣泛的應(yīng)用[2]。目前,情感分析研究不局限于單一模態(tài)的文本數(shù)據(jù),還包括圖片、動(dòng)圖、視頻等多種模態(tài)數(shù)據(jù)相融合的情感分析。

在文本情感分析方面,李勇等[3]基于雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)與位置注意力機(jī)制提取語義特征,使用CNN對(duì)食品評(píng)論進(jìn)行分類,得到比較好的分類效果。Munikar等[4]通過BERT預(yù)訓(xùn)練模型對(duì)10 000余條電影評(píng)論數(shù)據(jù)進(jìn)行細(xì)粒度情感分析,提高了多分類情感任務(wù)的效果。在視覺情感分析方面,Zhu等[5]提出了一種統(tǒng)一的CNN-RNN模型,通過不同層次的特征融合和依賴關(guān)系,有效地實(shí)現(xiàn)了視覺情感識(shí)別。You等[6]提出了一個(gè)基于注意力機(jī)制的視覺情感分析模型,能夠自動(dòng)發(fā)現(xiàn)和加權(quán)圖像中與情感相關(guān)的局部區(qū)域。在多模態(tài)情感分析方面,針對(duì)多模態(tài)情感分析中存在的標(biāo)注數(shù)據(jù)量少、模態(tài)間融合不充分,以及信息冗余等問題,Wang等[7]使用選擇加法學(xué)習(xí)方法將不同模態(tài)的特征進(jìn)行加權(quán)平均,得到一個(gè)多模態(tài)的特征表示,可以提高神經(jīng)網(wǎng)絡(luò)的泛化能力;吳思思等[8]使用后端融合的方法,提出了一種基于感知融合的多任務(wù)多模態(tài)情感分析模型,有效地整合了文本、語音和圖像3種模態(tài)信息,并利用多任務(wù)學(xué)習(xí)來提高模型的泛化能力。但上述多模態(tài)情感分析模型在特征融合上有一定缺陷,需要使用自注意力機(jī)制加強(qiáng)模態(tài)之間信息交互和融合。

針對(duì)多模態(tài)情感分析數(shù)據(jù)集數(shù)據(jù)缺乏、模型特征融合不足等問題,本文提出了一種基于對(duì)比語言-圖片訓(xùn)練(contrastive language-image pretraining,CLIP)[9]和交叉注意力(cross-attention,CA)的多模態(tài)情感分析(multimodal sentiment analysis,MSA)模型CLIP-CA-MSA。本文使用了根據(jù)自然語言指示從圖像中預(yù)測(cè)最相關(guān)的文本片段的CLIP多模態(tài)預(yù)訓(xùn)練模型和利用提示學(xué)習(xí),在少量數(shù)據(jù)下得到較好的文本情感分類效果的PIFT[10]模型,并進(jìn)行特征提取,同時(shí)引入了交叉注意力機(jī)制來實(shí)現(xiàn)不同模態(tài)之間的信息傳遞。對(duì)于視覺情感分析,借助CLIP預(yù)訓(xùn)練模型的豐富先驗(yàn)信息,使用標(biāo)簽文本作為提示信息,并采用預(yù)訓(xùn)練的對(duì)比學(xué)習(xí)方法進(jìn)行相似度計(jì)算,得到相似度分?jǐn)?shù)最高的類別作為視覺情感分析結(jié)果。為了減少冗余和噪聲信息的影響,使用了不確定性損失函數(shù)來自動(dòng)分配視覺和文本的重要性占比,以增強(qiáng)模型的泛化能力和魯棒性。

1 基于CLIP和交叉注意力的多模態(tài)情感分析模型

本文提出的CLIP-CA-MSA模型結(jié)構(gòu)如圖2所示。

圖2 CLIP-CA-MSA模型結(jié)構(gòu)

首先將視頻按照一定的幀率分割成若干張圖片,然后使用CLIP預(yù)訓(xùn)練的BERT模型和ViT模型來提取標(biāo)簽特征和每張圖片的圖像特征,并使用Transformer編碼器將圖像特征構(gòu)建成一個(gè)視頻特征向量。接著使用PIFT模型來提取文本數(shù)據(jù)的文本特征。隨后,使用交叉注意力機(jī)制將圖像特征向量和文本特征向量進(jìn)行交互。最后,再利用標(biāo)簽特征計(jì)算視頻和標(biāo)簽之間的相似度,得到一個(gè)視頻分類特征向量。該向量和文本分類特征向量一起被輸入到同方差不確定性損失中進(jìn)行計(jì)算,并輸出最終的情感分類結(jié)果。

CLIP-CA-MSA模型算法如下。

輸入:視頻數(shù)據(jù)集Dv和文本數(shù)據(jù)集Dt,數(shù)據(jù)集數(shù)量大小M,最大迭代次數(shù)N;

輸出:模型f。

① fort=1,2, …,Ndo

② form=1,2, …,Mdo

③ ∥將視頻數(shù)據(jù)輸入到視頻編碼器

④ video_encorder←Dv(m);

⑤ Transformer_encorder←video_encorder;

⑥ ∥將文本數(shù)據(jù)輸入到文本編碼器

⑦ text_encorder←Dt(m);

⑧ ∥特征提取

⑨Hv←Transformer_encorder;

⑩Ht←text_encorder;

1.1 特征提取

本文使用的多模態(tài)情感分析數(shù)據(jù)集包含文本、視頻2個(gè)模態(tài)。

(1)文本特征提取。文本模態(tài)由文本信息(視頻對(duì)應(yīng)的字幕信息)和標(biāo)簽信息(加入提示的標(biāo)簽文本)構(gòu)成,如式(1)所示。

Text={T,P1,P2,P3}。

(1)

式中:Text表示文本模態(tài);T表示文本信息;P1、P2、P3表示加入提示的分類標(biāo)簽(如中性、積極和消極)信息。

將文本信息T和標(biāo)簽信息P1、P2、P3按字粒度劃分,如式(2)、(3)所示。

T={TCLS,T1,…,Tn};

(2)

(3)

為了避免模型規(guī)模過大和訓(xùn)練難度大的問題,采用了基于提示嵌入和焦點(diǎn)損失函數(shù)的PIFT模型來提取文本特征,具體提取過程如式(4)所示。為保證模型的情感分析精度,利用經(jīng)過CLIP預(yù)訓(xùn)練的BERT模型來提取標(biāo)簽信息,提取過程如式(5)所示。

Ht=PIFT(TCLS,T1,T2,…,Tn);

(4)

HP=[HP1,HP2,HP3]=BERT(P1,P2,P3)。

(5)

式中:Ht表示文本特征向量;Hp表示所有類別的標(biāo)簽特征向量。

(2)視頻特征提取與融合。為了獲取視頻表示,首先從視頻片段中按幀提取出一組圖像,即V=(V1,V2,…,Vm),其中m表示每組圖片最大數(shù)量(本文實(shí)驗(yàn)中m=6)。然后通過視覺編碼器對(duì)其進(jìn)行編碼,得到視頻特征序列。

(6)

如圖2中視頻編碼器模塊所示,CLIP-CA-MSA利用ViT編碼器對(duì)輸入圖像中每個(gè)塊之間的相互關(guān)系進(jìn)行建模以獲取圖像特征,如式(7)所示。

H={H1,H2,…,Hm}=ViT(L1,L2,…,Lm)。

(7)

式中:H1表示ViT從第1張圖片提取出圖像特征;H表示視頻特征序列。

最終,需要融合圖像特征序列得到代表整組圖像特征的視頻特征向量Hv。本文使用Transformer編碼器來融合視頻特征序列。首先,插入標(biāo)記HCLS作為視頻全局特征表示,并為圖像加入時(shí)序信息;其次,使用自注意力機(jī)制獲取視頻中的時(shí)空關(guān)系,以有效地幫助識(shí)別視頻情感極性。具體融合過程如式(8)所示。

Hv=Transformer(HCLS,H1,H2,…,Hm)。

(8)

式中:Hv為視頻的特征向量,蘊(yùn)含視頻的重要信息。

1.2 交叉注意力機(jī)制

為了減少單一模態(tài)情感信息不足或噪聲污染的問題,本文使用交叉注意力機(jī)制進(jìn)行模態(tài)交互。交叉注意力機(jī)制是一種在多模態(tài)情感分析中用于融合不同模態(tài)信息的注意力機(jī)制,它可以在圖像、文本等模態(tài)之間交叉計(jì)算注意力分?jǐn)?shù),以提取共享的情感特征,并增強(qiáng)每個(gè)模態(tài)的表示能力。本文采用的交叉注意力機(jī)制的基本原理如圖3所示。

圖3 交叉注意力機(jī)制

首先,使用一個(gè)輸入作為查詢(Q),另一個(gè)輸入作為鍵(K)和值(V),用注意力機(jī)制來計(jì)算2個(gè)輸入每個(gè)元素之間的相關(guān)性;其次,將注意力權(quán)重與值(V)相乘并求和,得到模態(tài)間的交互特征;最后,將交互特征與原始輸入連接起來,形成新的融合了多模態(tài)信息的特征表示。通過這種方式,可以有效地減少單個(gè)模態(tài)在情感分析中的局限,提高模型的泛化性能和魯棒性。

多頭注意力機(jī)制是交叉注意力機(jī)制進(jìn)行模態(tài)交互的重點(diǎn),其計(jì)算過程如式(9)、(10)所示。

(9)

(10)

式中:·為點(diǎn)乘操作;Softmax代表歸一化函數(shù);dk表示鍵向量的維度,此處的作用為對(duì)點(diǎn)積的結(jié)果進(jìn)行縮放,避免結(jié)果過大或過小影響Softmax的梯度。

殘差連接與正則化計(jì)算過程如式(11)、(12)所示。

S′t=LayerNorm(St+Qt);

(11)

S′v=LayerNorm(Sv+Qv)。

(12)

以式(11)為例,將Qt與St相加能夠幫助特征向深層網(wǎng)絡(luò)傳遞,再進(jìn)行正則化以提高模型的穩(wěn)定性和收斂速度,得到S′t。然后將其進(jìn)行前向傳播為特征增加非線性變化,增強(qiáng)其表達(dá)能力。最后經(jīng)過一次求和與歸一化得到文本-視頻特征向量Ht2v。式(12)同理,最后得到視頻-文本特征向量Hv2t。

1.3 圖像相似度分類

為了在少量數(shù)據(jù)下提高模型效果,根據(jù)視頻特征向量與每個(gè)情感分類標(biāo)簽之間的相似程度來判斷其所屬類別。具體相似度計(jì)算過程如式(13)所示。

(13)

1.4 同方差不確定性損失

多模態(tài)任務(wù)的重點(diǎn)之一在于如何平衡不同任務(wù)損失之間的權(quán)重,目前大多數(shù)方法采用對(duì)多個(gè)模態(tài)的損失函數(shù)進(jìn)行加權(quán),其損失函數(shù)如式(14)所示。

Lossall=μtLosst+μvLossv。

(14)

式中:μt與μv分別表示文本和視頻模態(tài)損失函數(shù)的權(quán)重;Losst與Lossv表示文本和視頻模態(tài)損失函數(shù),Losst使用焦點(diǎn)損失函數(shù),Lossv使用相似度計(jì)算損失函數(shù);Lossall表示總體網(wǎng)絡(luò)的損失函數(shù),即多模態(tài)任務(wù)的優(yōu)化目標(biāo)。

然而,簡(jiǎn)單的線性加權(quán)求和方法需要人為設(shè)定每個(gè)模態(tài)的權(quán)重,這不符合實(shí)際數(shù)據(jù)的分布和特性,會(huì)導(dǎo)致某些模態(tài)被過分強(qiáng)調(diào)或忽略,也限制了模型的泛化能力。

因此,本文使用同方差不確定性損失來自動(dòng)平衡不同模態(tài)之間的損失函數(shù)權(quán)重,同時(shí)避免信息的丟失或者冗余。假設(shè)x表示模型的輸入,W為參數(shù)矩陣,其概率似然估計(jì)如式(15)所示。

P(y|fW(x))=Softmax(fW(x))。

(15)

式中:Softmax函數(shù)用來從產(chǎn)生的概率向量中抽取樣本。假設(shè)文本與視頻模態(tài)的輸出向量為yt與yv,并都服從高斯分布,則模型的最大似然函數(shù)如式(16)所示。

P(yt,yv|fW(x))=P(yt|fW(x))·P(yv|fW(x))=

N(yt;fW(x),σt2)·N(yv;fW(x),σv2)。

(16)

為了最大化似然參數(shù),需要最小化其負(fù)對(duì)數(shù)似然函數(shù),過程如式(17)所示。

L(W,σt,σv)=-logP(yt,yv|fW(x))∝

logσt+logσv。

(17)

2 實(shí)驗(yàn)結(jié)果及分析

本文將詳細(xì)介紹所采用的多模態(tài)數(shù)據(jù)集、實(shí)驗(yàn)評(píng)價(jià)指標(biāo)和實(shí)驗(yàn)參數(shù)設(shè)置,將CLIP-CA-MSA模型與其他多模態(tài)模型進(jìn)行對(duì)比實(shí)驗(yàn)并進(jìn)行分析。

2.1 多模態(tài)數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

為驗(yàn)證CLIP-CA-MSA模型的情感分析性能,本文采用公開數(shù)據(jù)集CH-SIMS(chinese single and multimodal sentiment)[11]進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)集分布情況如圖4所示。

圖4 CH-SIMS數(shù)據(jù)分布圖

CH-SIMS數(shù)據(jù)集是一個(gè)中文多模態(tài)情感分析數(shù)據(jù)集,視頻來源于中文電影、電視劇和演出節(jié)目,根據(jù)說話者的話語將視頻幀劃分為多個(gè)片段,每個(gè)片段對(duì)應(yīng)一個(gè)說話者的一句話,長(zhǎng)度在1~10 s之間,對(duì)每個(gè)視頻片段的文本和視覺模態(tài)分別進(jìn)行消極、中性和積極的情感極性標(biāo)注。

2.2 多模態(tài)模型對(duì)比實(shí)驗(yàn)

本文選取了幾種常用的多模態(tài)情感分析模型作為基準(zhǔn)模型,并與CLIP-CA-MSA模型進(jìn)行實(shí)驗(yàn)對(duì)比和分析。這些基準(zhǔn)模型包括以下幾種。

TFN[12]:使用張量外積來顯式地聚合單模態(tài)、雙模態(tài)和三模態(tài)之間的交互關(guān)系。

LMF[13]:使用LSTM編碼文本,CNN編碼圖像,用低秩張量外積來聚合模態(tài)間的交互關(guān)系。

MulT[14]:利用方向性成對(duì)交叉模態(tài)注意力,可以在不同時(shí)間步中關(guān)注多模態(tài)序列之間的交互,并隱式地適應(yīng)數(shù)據(jù)的對(duì)齊方式。

Self-MM[15]:利用自監(jiān)督任務(wù)來增強(qiáng)多模態(tài)情感分析的方法,可以同時(shí)學(xué)習(xí)不同模態(tài)的特征表示和情感分類。

MMAF[8]:利用多任務(wù)學(xué)習(xí)和感知融合層對(duì)多模態(tài)數(shù)據(jù)進(jìn)行情感分析。

MMAF+T+A+V:將MMAF提取的多特征向量與單模態(tài)特征向量融合。

CLIP-CA-MSA模型與上述基準(zhǔn)模型在CH-SIMS數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)結(jié)果如表1所示。

表1 多模態(tài)模型對(duì)比實(shí)驗(yàn)結(jié)果

由表1可以看出,TFN和LMF的效果相對(duì)較差,說明張量外積聚合交互關(guān)系并不足以捕捉多模態(tài)數(shù)據(jù)之間復(fù)雜的關(guān)聯(lián)性。MulT能夠捕捉不同時(shí)間步中多模態(tài)序列之間的交互關(guān)系,但仍沒有考慮到多模態(tài)數(shù)據(jù)之間的語義一致性和情感相關(guān)性。Self-MM讓模型同時(shí)學(xué)習(xí)到多模態(tài)數(shù)據(jù)之間的內(nèi)在聯(lián)系,提高情感分類效果。MMAF通過引入多任務(wù)學(xué)習(xí)和感知融合層來增強(qiáng)多特征向量的表達(dá)能力,而MMAF+T+A+V能更好地理解每個(gè)單獨(dú)模態(tài)以及整體模態(tài)對(duì)于情感分類任務(wù)的貢獻(xiàn)程度,并且避免了信息冗余或丟失,兩者的Acc和F1值均有明顯的提升。

CLIP-CA-MSA模型利用CLIP方法來提取多模態(tài)特征和標(biāo)簽特征,引入PIFT模型來提取文本特征,交叉注意力機(jī)制能保留模態(tài)內(nèi)特征和關(guān)注模態(tài)間特征,通過同方差不確定性損失自動(dòng)調(diào)整模態(tài)重點(diǎn),使得模型在準(zhǔn)確率Acc上達(dá)到了78.07%,F1值達(dá)到了77.39%。

綜上所述,CLIP-CA-MSA模型最優(yōu),其成功的原因在于它引入了強(qiáng)大的多模態(tài)特征提取方法、多模態(tài)融合方式以及自動(dòng)均衡模態(tài)權(quán)重,使得模型能夠更好地利用多模態(tài)數(shù)據(jù)之間的交互關(guān)系。

2.3 多模態(tài)融合對(duì)比實(shí)驗(yàn)

為驗(yàn)證CLIP-CA-MSA模型多模態(tài)融合的效果,先將視頻和文本模態(tài)用視覺模型和文本模型分別進(jìn)行單模態(tài)實(shí)驗(yàn),再進(jìn)行模態(tài)融合實(shí)驗(yàn)。

2.3.1 視覺模型對(duì)比實(shí)驗(yàn)

本文對(duì)CH-SIMS數(shù)據(jù)集中的視頻模態(tài)部分進(jìn)行情感分類任務(wù),采用了常用的5個(gè)深度學(xué)習(xí)視覺模型進(jìn)行測(cè)試和比較。進(jìn)行實(shí)驗(yàn)對(duì)比的模型相關(guān)信息如下。

VGG-16[16]:使用小卷積核和多卷積子層方法的深度神經(jīng)網(wǎng)絡(luò),提高計(jì)算效率和網(wǎng)絡(luò)性能。

ResNet[17]:由多個(gè)殘差塊組成深度神經(jīng)網(wǎng)絡(luò),使用快捷連接的方法,解決了深層網(wǎng)絡(luò)訓(xùn)練中的退化現(xiàn)象。

ConvNeXt[18]:基于CNN卷積網(wǎng)絡(luò),參考Transformer網(wǎng)絡(luò)的思想,對(duì)ResNet網(wǎng)絡(luò)的卷積層、池化層和注意力機(jī)制進(jìn)行了改進(jìn)。

OpenFace2.0[19]:一個(gè)面部行為分析工具,使用基于卷積神經(jīng)網(wǎng)絡(luò)的局部模型,可以從圖片中檢測(cè)出68個(gè)人臉關(guān)鍵點(diǎn),并根據(jù)這些關(guān)鍵點(diǎn)估計(jì)頭部姿態(tài)、眼睛注視方向和面部動(dòng)作單元。

ViT[20]:通過將圖片分成固定大小的塊,然后通過線性變化作為Transformer的輸入序列,從而進(jìn)行特征提取和分類。ViT-B-16使用16×16的塊,ViT-B-32使用32×32的塊。

視覺模型的實(shí)驗(yàn)結(jié)果如表2所示,P為精確率,R為回收率。

表2 視覺模型對(duì)比實(shí)驗(yàn)結(jié)果

由表2可知,VGG-16模型的層數(shù)較淺,無法很好地提取視頻特征,所以表現(xiàn)最差。而ConvNeXt網(wǎng)絡(luò)的卷積層、池化層和注意力機(jī)制的改進(jìn)能使視頻分類效果有一定提升。OpenFace2.0在面部行為分析上表現(xiàn)優(yōu)異。ResNet34具有良好的深度和殘差連接結(jié)構(gòu),能夠很好地提取視頻特征。ResNet50是ResNet系列中更深、更復(fù)雜的模型,具有更多的層和殘差塊,使網(wǎng)絡(luò)能夠更準(zhǔn)確地進(jìn)行視頻分類,其效果略好于ResNet34,這也證明了深層網(wǎng)絡(luò)能夠提高模型的表現(xiàn)。

ViT模型中,相較于ViT-B-32,ViT-B-16的準(zhǔn)確率和F1值分別提高了2.00百分點(diǎn)和0.99百分點(diǎn),這是由于塊的大小對(duì)模型性能的影響,更小的塊可以捕捉到更細(xì)粒度的圖像特征。相比于效果最差的VGG-16,準(zhǔn)確率和F1分別提高了21.65百分點(diǎn)和33.19百分點(diǎn)。相較于ResNet50,其準(zhǔn)確率提升了1.79百分點(diǎn),但是F1降低了0.45百分點(diǎn)。

由于該數(shù)據(jù)集的規(guī)模不大、多樣性不足,無法很好地判斷2個(gè)模型的優(yōu)劣。ViT-B-16準(zhǔn)確率較高,說明其在處理圖像中的全局特征和細(xì)粒度特征方面表現(xiàn)更好,可以更好地識(shí)別視頻中的物體和場(chǎng)景,但需要更多的計(jì)算資源和數(shù)據(jù)量。而ResNet50有較高的F1值,這說明該模型在處理視頻中的空間信息方面表現(xiàn)更好,能夠更準(zhǔn)確地對(duì)視頻進(jìn)行分類,同時(shí)具有較好的穩(wěn)健性。

本文使用基于消融分析的可視化方法Ablation-CAM[21],為2個(gè)模型生成視覺解釋并且定位圖像中的相關(guān)區(qū)域,如圖5所示。

圖5 可視化分析

這2張熱力圖顯示出了模型對(duì)于人臉表情的關(guān)注點(diǎn)。ResNet的熱力圖顯示出了模型對(duì)于圖像的整體區(qū)域都有關(guān)注,其中主要集中在人臉上,但分散的關(guān)注點(diǎn)可能會(huì)導(dǎo)致模型判斷錯(cuò)誤。而ViT的熱力圖則顯示出了模型對(duì)于人臉表情的關(guān)注更加集中,這是因?yàn)閂iT使用了自注意力機(jī)制,可以更好地捕捉到圖像中的局部特征。

2.3.2 文本模型對(duì)比實(shí)驗(yàn)

采用文本分類模型ALBERT[22]、BERT[23]、ERNIE[24]、MacBERT[25]和RoBERTa[26]作為詞嵌入工具,使用提示嵌入和焦點(diǎn)損失進(jìn)行情感分類,得到的模型分別為Al-PIFT、B-PIFT、E-PIFT、M-PIFT和PIFT。文本模型實(shí)驗(yàn)結(jié)果如表3所示。

表3 文本模型對(duì)比實(shí)驗(yàn)結(jié)果

由表3可知,Al-PIFT在所有指標(biāo)上都表現(xiàn)最差,說明其在降低參數(shù)量和內(nèi)存消耗的同時(shí),也限制了模型容量和表征能力。B-PIFT雖各項(xiàng)指標(biāo)有了一定的提升,但表現(xiàn)不如其他模型。E-PIFT的各項(xiàng)指標(biāo)均有所提高,說明ERNIE模型能增強(qiáng)對(duì)中文語言特征的理解能力。M-PIFT使用糾錯(cuò)型掩碼語言模型等方法進(jìn)一步提高模型性能。PIFT模型在所有指標(biāo)上都取得了最好的結(jié)果,這說明RoBERTa通過增加數(shù)據(jù)量和訓(xùn)練時(shí)間等方法進(jìn)一步提高模型性能,讓模型學(xué)習(xí)到更豐富的先驗(yàn)信息。

2.3.3 模型融合實(shí)驗(yàn)

為驗(yàn)證模態(tài)融合的有效性,文本模型均采用效果最好的PIFT進(jìn)行文本特征提取,對(duì)視覺模型使用效果較好的ResNet34、ResNet50、ViT-B-32及ViT-B-16進(jìn)行視覺特征提取,再使用本文方法進(jìn)行模態(tài)融合,實(shí)驗(yàn)結(jié)果如表4所示。

表4 模態(tài)融合對(duì)比實(shí)驗(yàn)

通過實(shí)驗(yàn)評(píng)估,發(fā)現(xiàn)CLIP-ResNet50和CLIP-CA-MSA表現(xiàn)相近,但CLIP-CA-MSA在準(zhǔn)確率和回收率2個(gè)指標(biāo)上均優(yōu)于CLIP-ResNet50。

3 消融實(shí)驗(yàn)

為驗(yàn)證本文各模塊對(duì)多模態(tài)情感分析的性能提升效果,本文分別針對(duì)視頻融合方法、特征融合方法、圖像分類方法及損失函數(shù),在CH-SIMS數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。

3.1 視頻融合方法消融實(shí)驗(yàn)

視頻融合的方法主要有MeanP、LSTM、Transformer[27]3種。其中,MeanP可以減少計(jì)算量和內(nèi)存的消耗,但是也忽略了視頻中的時(shí)序信息,無法捕捉視頻的動(dòng)態(tài)變化和關(guān)鍵幀。LSTM可以學(xué)習(xí)視頻中的長(zhǎng)期依賴關(guān)系,捕捉視頻的時(shí)序信息和動(dòng)態(tài)變化,但計(jì)算量和內(nèi)存消耗較大,容易出現(xiàn)梯度消失或爆炸的問題。Transformer使用自注意力機(jī)制對(duì)多幀視頻進(jìn)行并行建模,實(shí)現(xiàn)全局交互和長(zhǎng)范圍依賴,捕捉視頻中時(shí)空信息動(dòng)態(tài)變化。視頻融合方法消融實(shí)驗(yàn)結(jié)果如表5所示。

表5 視頻融合方法消融實(shí)驗(yàn)結(jié)果

從表5可知,MeanP方法各項(xiàng)指標(biāo)都較低,比文本單模態(tài)分類準(zhǔn)確率低了0.44百分點(diǎn),說明MeanP忽略了視頻中情感的變換過程。LSTM可以有效地考慮到視頻特征之間的時(shí)序關(guān)系,在各項(xiàng)指標(biāo)上都有提升。Transformer方法能考慮到視頻特征之間的空間關(guān)系與交互信息,準(zhǔn)確率較LSTM方法提高了0.88百分點(diǎn)。

3.2 多模態(tài)特征融合方法消融實(shí)驗(yàn)

拼接(concat)和交叉注意力(cross-attention)為多模態(tài)特征融合的2種方法。簡(jiǎn)單拼接方法將各模態(tài)數(shù)據(jù)進(jìn)行簡(jiǎn)單拼接后使用一個(gè)編碼器來處理融合后的信息,可以節(jié)省計(jì)算資源,但會(huì)忽略單模態(tài)內(nèi)的交互信息。交叉注意力為每個(gè)模態(tài)設(shè)計(jì)一個(gè)Transformer編碼器,提取各模態(tài)特征,再交互模態(tài)特征,得到綜合的多模態(tài)表示。可以實(shí)現(xiàn)不同模態(tài)之間的信息交互,從而獲得更豐富的語義信息。其他模塊保持不變,更改多模態(tài)特征融合方法,實(shí)驗(yàn)結(jié)果如表6所示。

表6 多模態(tài)特征融合方法消融實(shí)驗(yàn)結(jié)果

由表6可知,交叉注意力方法可以更好地處理各模態(tài)的特征,避免了冗余信息問題,因此相對(duì)于拼接方法的情感分類效果有了明顯的提高。

綜上所述,通過對(duì)多模態(tài)情感分析模型的消融實(shí)驗(yàn)進(jìn)行效果對(duì)比,發(fā)現(xiàn)交叉注意力機(jī)制在CH-SIMS數(shù)據(jù)集上表現(xiàn)較好,驗(yàn)證了該方法的有效性。

3.3 視覺情感分類方法消融實(shí)驗(yàn)

本文實(shí)驗(yàn)使用CLIP模型中的相似度分類方法(similarity-CLS)將視覺特征與類別進(jìn)行相似度計(jì)算,得分最高的類即為分類結(jié)果。與常用的線性分類(lineaer-CLS)進(jìn)行對(duì)照實(shí)驗(yàn),使用CH-SIMS數(shù)據(jù)集,結(jié)果如表7所示。

表7 圖像情感分類方法消融實(shí)驗(yàn)結(jié)果

由表7可知,Linear-CLS方法的準(zhǔn)確率為76.75%,比相似度分類方法低1.76百分點(diǎn)。線性分類方法需要單獨(dú)訓(xùn)練線性分類器,在特征空間中尋找一個(gè)超平面,將不同類別的數(shù)據(jù)分離開來,這種方法的表現(xiàn)可能會(huì)受到特征空間分布的影響。并且由于CH-SIMS的數(shù)據(jù)量不大、視頻中存在噪聲干擾,也會(huì)導(dǎo)致線性分類方法準(zhǔn)確率降低。而相似度計(jì)算方法與CLIP模型的預(yù)訓(xùn)練任務(wù)相同,預(yù)訓(xùn)練模型所學(xué)習(xí)到的豐富特征可以直接轉(zhuǎn)移到下游任務(wù),不需要額外的適應(yīng)過程,減少了模型的訓(xùn)練時(shí)間和數(shù)據(jù)需求。

3.4 損失函數(shù)消融實(shí)驗(yàn)

為了證明本文使用損失函數(shù)的有效性,將其與加權(quán)求和損失函數(shù)進(jìn)行對(duì)比實(shí)驗(yàn)。損失函數(shù)消融實(shí)驗(yàn)結(jié)果如表8所示。

表8 損失函數(shù)消融實(shí)驗(yàn)結(jié)果

由表8可知,使用加權(quán)求和后的各項(xiàng)指標(biāo)較單模態(tài)而言已經(jīng)有了較大的提升,這說明將損失加權(quán)求和能夠在一定程度上平衡不同模態(tài)的重要性和難度。但同方差不確定性損失在多模態(tài)情感分析中具有更好的效果,其在準(zhǔn)確率與F1值上較加權(quán)求和損失提升了1.32和1.29百分點(diǎn),說明各模態(tài)固有不確定性的重要性以及自動(dòng)調(diào)整各模態(tài)權(quán)重能夠更加準(zhǔn)確地學(xué)習(xí)到不同模態(tài)的信息,提高模型的性能。

4 結(jié)論

本文針對(duì)多模態(tài)情感分析存在的模態(tài)融合不充分、信息冗余以及數(shù)據(jù)量不足等問題,提出一種基于特征融合和不確定性損失的多模態(tài)情感分析模型CLIP-CA-MSA。首先,闡述了CLIP-CA-MSA的整體框架。然后介紹了實(shí)驗(yàn)所使用的數(shù)據(jù)集以及參數(shù)設(shè)置,通過實(shí)驗(yàn)驗(yàn)證了該模型的優(yōu)越性,并探究了不同的視覺模型對(duì)該方法的影響,證明了多模態(tài)預(yù)訓(xùn)練模型對(duì)該方法的有效提升。然后,通過消融實(shí)驗(yàn),驗(yàn)證各模塊的有效性。但本文只使用了CH-SIMS數(shù)據(jù)集的文本部分和視頻的視覺部分。后續(xù)研究將加入視頻中的音頻模態(tài),以確保數(shù)據(jù)的完整性,進(jìn)一步提升模型情感分析的準(zhǔn)確率和泛化能力。

猜你喜歡
模態(tài)特征文本
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
如何快速走進(jìn)文本
主站蜘蛛池模板: 福利在线一区| 黄色网页在线观看| 黄片在线永久| 免费人成网站在线观看欧美| 白丝美女办公室高潮喷水视频| 国产网友愉拍精品| 欧美天堂久久| 99re免费视频| 午夜在线不卡| 白浆免费视频国产精品视频| 2022国产无码在线| 亚洲专区一区二区在线观看| 亚洲精品高清视频| 亚洲乱码在线播放| 日韩欧美国产中文| 日本成人精品视频| 国产成人精品2021欧美日韩| 2020亚洲精品无码| 欧美精品黑人粗大| 成人毛片在线播放| 午夜少妇精品视频小电影| 欧美日韩一区二区在线免费观看 | 狠狠色丁香婷婷| 曰AV在线无码| 国产91九色在线播放| 一级爆乳无码av| 播五月综合| 亚洲欧洲自拍拍偷午夜色| 国产精品三级av及在线观看| 国产va在线| 亚洲三级a| 2021最新国产精品网站| 另类欧美日韩| 青青草原国产| 欧美日韩亚洲综合在线观看| 久久久91人妻无码精品蜜桃HD| 国产综合欧美| 日韩国产黄色网站| 成人中文在线| 无码免费视频| 亚洲一级毛片在线播放| 国产尹人香蕉综合在线电影 | 日韩不卡高清视频| 国内精品久久久久久久久久影视 | 久久婷婷六月| 国产乱论视频| 国产女人爽到高潮的免费视频| 久久精品国产一区二区小说| 人妻21p大胆| 久久成人免费| 国产成人精品高清不卡在线| 欧美一区日韩一区中文字幕页| 亚洲美女一级毛片| 国产极品粉嫩小泬免费看| 好吊色妇女免费视频免费| 四虎永久在线精品影院| 午夜视频免费一区二区在线看| 欧洲成人免费视频| 色偷偷综合网| 欧美成人精品一级在线观看| 亚洲伊人久久精品影院| 日韩精品毛片人妻AV不卡| 欧美精品一区在线看| 日韩成人在线一区二区| 国产成人综合日韩精品无码不卡| 国产精品浪潮Av| 亚洲国产中文综合专区在| 欧洲成人在线观看| 日本少妇又色又爽又高潮| 又黄又爽视频好爽视频| 男女男精品视频| 久久久久亚洲精品成人网| 免费国产高清视频| 亚洲日本中文字幕天堂网| 黄色网址免费在线| 99成人在线观看| 欧美另类第一页| 亚洲va在线∨a天堂va欧美va| 精品人妻无码区在线视频| 五月天婷婷网亚洲综合在线| 国产一二视频| 国产精品黑色丝袜的老师|