程子晨,李 彥,葛江煒,糾夢菲,張敬偉
1.天津師范大學 電子與通信工程學院,天津 300387
2.天津市無線移動通信與無線電能傳輸重點實驗室,天津 300387
隨著社交媒體的發(fā)展,人們更加傾向于在各種社交媒體上通過視頻的形式來發(fā)表自己的意見與想法,這些視頻包含了大量的個人情感信息。通常情況下,一條視頻會包含三種模態(tài)的信息:文本、聽覺、視覺,因此將包含兩種或兩種以上模態(tài)的信息流稱為多模態(tài)數(shù)據(jù)。如何利用多模態(tài)數(shù)據(jù)來執(zhí)行下游任務,建立新一代人機交互,已經(jīng)成為人工智能領域的研究熱點與難點[1]。其中,多模態(tài)情感分析就是其中一個主要的研究問題。多模態(tài)情感分析(multimodal sentiment analysis,MSA)旨在利用多模態(tài)數(shù)據(jù),挖掘其中包含的情感狀態(tài),并利用神經(jīng)網(wǎng)絡來計算相應的情感得分,一個簡單的多模態(tài)情感分析框架如圖1所示。

圖1 多模態(tài)情感分析框架圖Fig.1 Multimodal sentiment analysis framework diagram
在之前的研究中,研究者們主要關注了如何將來自不同模態(tài)的信息進行互補融合,探索模態(tài)之間的動態(tài)交互[2],以達到充分利用不同模態(tài)有用信息,減小模態(tài)間差距的目的。主要就是通過神經(jīng)網(wǎng)絡強大的特征提取能力,將多模態(tài)數(shù)據(jù)映射到特征空間中,并在特征空間內(nèi)針對提取到的張量進行建模。例如,使用RNN及其變體網(wǎng)絡針對多模態(tài)序列進行建模[3-5],Zadeh等[6]提出了基于張量的融合方式,利用張量的外積生成多模態(tài)表示向量,Liu等[7]提出一種低秩分解的融合策略,降低了計算的復雜度。然而,這些融合方法雖然有效,但計算復雜度仍較高,并且生成的高緯度多模態(tài)表示向量中容易含有噪聲模態(tài)和冗余信息,會有較高的過擬合風險,因此,如何對模型的學習進行限制,使得最終生成的多模態(tài)表示向量中能夠包含盡可能多的與任務相關的有效信息,是目前需要解決的重要問題。
先前的研究中,已經(jīng)證明了語言模態(tài)在多模態(tài)情感分析中占據(jù)主導地位[5,8-10],因此在將來自不同模態(tài)的數(shù)據(jù)進行融合的過程中,最終生成的多模態(tài)表示向量會不可避免地攜帶與任務無關的噪聲信息,并且這種噪聲在缺少后續(xù)操作的情況下并不能被濾除,很容易影響下游任務的執(zhí)行,并且這些多模態(tài)表示向量通常有較高的維度,不利于提高模型的泛化能力,會有較高的過擬合風險。當訓練數(shù)據(jù)有限時,過擬合風險會進一步提高[11]。
為了解決上述問題,Mai等[12]提出了一種基于對抗性訓練的方法來減小模態(tài)之間的差距,Yu等[13]提出一種利用自監(jiān)督策略動態(tài)生成單模態(tài)標簽模塊,以達到更好學習多模態(tài)融合的目的。Mai等[11]提出一種利用對比學習的方法,拉近不同模態(tài)之間距離的方法,以達到減少冗余信息的目的。
雖然上述方法在不同程度上緩和了冗余信息與噪聲對最終結(jié)果的影響,但其方法僅限于小而不平衡的情感數(shù)據(jù)集[14],并且對于融合后生成的多模態(tài)表示向量并沒有更多的關注,導致融合后生成的表示向量具有較高的維度和復雜度,仍不利于下游任務,并且針對不同的融合方式的可遷移性并不突出。
信息瓶頸理論[15-17]是一種基于信息論的方法,該理論指出,若表示向量丟棄了與下游任務無關的信息,則會增加下游任務的魯棒性[18]。因此,受Mai等[19]啟發(fā),本文提出跨模態(tài)融合與信息瓶頸模型(cross modal fusion and information bottleneck)。該模型首先利用模態(tài)子網(wǎng)絡對來自不同模態(tài)的數(shù)據(jù)提取特征。之后利用不同的融合方式對來自不同模態(tài)的數(shù)據(jù)進行融合,以得到多模態(tài)表示向量。為了使得多模態(tài)表示向量中盡可能少地包含噪聲信息的同時盡可能地增加與真實標簽之間的相關性,設計了一個包含了互信息上、下界估計器的互信息估計模塊。在該模塊中利用MINE[20]估計器,對表示向量與真實標簽之間的互信息進行下界估計,利用神經(jīng)網(wǎng)絡對下界進行優(yōu)化,使其變得緊致,以使得表示向量具有與真實標簽更高的相關程度,利用CLUB[21]估計器,針對表示向量與輸入數(shù)據(jù)之間的互信息進行上界估計,并使其達到最小,以使得多模態(tài)表示向量中來自輸入數(shù)據(jù)的噪聲信息得以濾除。利用該互信息估計模塊,可以使得融合后的表示向量盡可能多地包含與下游任務相關的信息,盡可能少地包含與輸入數(shù)據(jù)中無關信息,以達到學習一種多模態(tài)簡潔表示,降低學習復雜度與模型過擬合風險的目的。
多模態(tài)情感分析已經(jīng)成為自然語言處理和多模態(tài)學習領域的研究熱點。在多模態(tài)情感分析領域,先前的研究工作主要針對于多模態(tài)向量表示學習和多模態(tài)融合兩個方面開展,并且均取得了較大的研究進展。
對于多模態(tài)表示學習方面,其主要的思想在于如何減少單模態(tài)表示之間的距離差異,使得不同模態(tài)之間的差距得以縮小。Yu等[13]利用自監(jiān)督學習策略,設計了一個標簽自動生成模塊,并將其運用在多模態(tài)和單模態(tài)訓練任務上以達到減小模態(tài)差異的目的。Mai等[11]將對比學習的思路引入多模態(tài)情感分析中,使得模型可以動態(tài)地探索類間的關系,實現(xiàn)跨模態(tài)交互的同時保持了不同類別的信息,以減小模態(tài)差距。Han等[9]將互信息的概念引入多模態(tài)情感分析中,提出了一種分層次最大化互信息學習框架,防止與任務相關信息丟失。Hazarika等[22]將模態(tài)向量投影至兩個不同的空間中,利用正則化組件進行模態(tài)不變和模態(tài)特定的表示學習。Mai等[12]基于對抗性編碼器-解碼器-分類器框架,以減少不同模態(tài)間差異性的目的,基于此,Wang等[14]提出基于VAE的對抗性多模態(tài)域轉(zhuǎn)移算法,以獲得更具判斷力的多模態(tài)表示,并減小模態(tài)差異。
在多模態(tài)情感分析領域,更多的研究是針對多模態(tài)融合方面開展。如何針對來自不同模態(tài)的數(shù)據(jù)進行高效地融合,是該領域面臨的一個重點問題。早期的研究主要關注于在向量空間中對張量的各種操作[6-7,18],由于Transformer[23]和BERT[24]擁有強大的特征提取能力,許多研究針對Transformer中自注意力模塊進行改進,使得不同模態(tài)的向量可以動態(tài)交互,達到跨模態(tài)融合、互補學習的目的[25-28]。Qi等[29]提出一種基于Transformer的多模態(tài)編解碼網(wǎng)絡,以解決特定模態(tài)和多模態(tài)之間的長期依賴性問題。Yang等[30]基于BERT提出用于多模態(tài)情感分析的轉(zhuǎn)換框架。Sun等[31]創(chuàng)造性地提出了一種由多個基于MLP單元組成的多模態(tài)特征處理框架,可以對多模態(tài)數(shù)據(jù)在不同軸上進行展開,并且降低了計算復雜度與計算成本。Rahman等[32]提出了多模態(tài)門控組件,使得BERT模型在不改變結(jié)構(gòu)的基礎上能夠動態(tài)地接受多模態(tài)信息。Yang等[33]提出掩碼注意力機制,動態(tài)地接收文本與音頻模態(tài)的交互。Luo等[34]提出一種多尺度融合和自監(jiān)督移位聚類損失來解決在未對齊的多模態(tài)序列中的情感分析問題,該模型可以解決了單模態(tài)的模糊語義邊界問題,并且提出的損失可以時刻保持融合特征的差異化。
與上述方法不同,本文探究了利用信息瓶頸理論來緩解基于復雜融合策略生成具有極高維度和計算復雜度多模態(tài)表示向量的有效性,使得生成的多模態(tài)表示向量能夠盡可能多地包含與下游任務相關的有效信息,并且盡可能“遺忘”來自輸入數(shù)據(jù)的噪聲信息,以獲取一種簡潔表示。
信息瓶頸(information bottleneck,IB)最初是由Tishby等[15]提出,旨在尋找一種可以最大保留信號信息的較短的信號形式,之后引入深度學習領域,從互信息的角度為神經(jīng)網(wǎng)絡提供了可解釋性[16,35]。在深度學習中,IB旨在使神經(jīng)網(wǎng)絡在復雜的約束條件中找到良好的表示,使其具有強大的預測能力的同時盡可能少地含有與任務不相關的信息,即IB旨在最大化神經(jīng)網(wǎng)絡的中間表示和標簽之間的互信息,最小化中間表示與輸入數(shù)據(jù)之間的互信息[19]。其目標函數(shù)如公式(1)所示:
其中,Y為神經(jīng)網(wǎng)絡的真實標簽,Z為輸入數(shù)據(jù)的中間編碼表示,X為輸入數(shù)據(jù)。一般地,在深度學習中,選擇最大化該目標函數(shù),以尋找良好的數(shù)據(jù)編碼表示。在本文中選擇使用兩個互信息估計模塊,分別對目標函數(shù)中的第一項和第二項進行優(yōu)化估計,并將其聯(lián)立作為最終的目標函數(shù)。
Federici等[36]將信息瓶頸理論擴展到無監(jiān)督多視圖領域,利用多個數(shù)據(jù)視圖為下游任務生成具有魯棒性表示的新方法;Lee等[37]基于IB提出一種不完全多視角觀測的深度變分信息瓶頸方法,拓展了IB在深度學習中的應用;Wan等[18]提出一種全新的無監(jiān)督多視圖表示學習模型,可以平衡多個視圖之間的互補性和一致性;Mai等[19]將信息瓶頸理論引入多模態(tài)情感分析中,并且根據(jù)模態(tài)表示向量融合方式的不同,提出了三種多模態(tài)信息瓶頸框架,可以充分地限制模型的學習,強迫其學習一種具有強大預測能力的中間編碼表示。
與上述方法不同,本文主要是將該目標函數(shù)進行拆分,并且利用不同的互信息估計器對其進行拆分估計,并且由于輸入數(shù)據(jù)較為稀疏,對于互信息的計算并不容易,因此采用神經(jīng)網(wǎng)絡來分別擬合互信息的下界與上界,并邊界達到極致,以此得到互信息的最大值與最小值。
在多模態(tài)情感分析中,網(wǎng)絡的輸入數(shù)據(jù)為一段話語,其中包含了三種模態(tài)信息,分別為文本、聽覺、視覺,分別用表示,其中l(wèi)m,m∈{l,a,v}代表每個模態(tài)向量的序列長度,dm,m∈{l,a,v}代表向量的維度。整個CMFIB網(wǎng)絡結(jié)構(gòu)如圖2所示。

圖2 CMFIB網(wǎng)絡結(jié)構(gòu)Fig.2 Architecture of CMFIB
在CMFIB中,分別利用三個獨立的模態(tài)子網(wǎng)絡獲取文本、聽覺、視覺三個模態(tài)的表示向量,以獲取模態(tài)特定信息。對于文本模態(tài),利用BERT模型提取特征,并且將最后一層的輸出作為文本模態(tài)的表示向量,并記為Fl,對于聽覺和視覺模態(tài),分別利用一維卷積網(wǎng)絡來提取其表示向量,之后將得到的表示向量通過特定的線性層將其統(tǒng)一至相同的維度。表示過程如公式(2)、(3)、(4)所示:
其中,Wl、Wa、Wv為線性變換的參數(shù)矩陣,F(xiàn)un為非線性激活函數(shù),bl、ba、bv為線性變換的偏置系數(shù),θ為BERT模型和CNN網(wǎng)絡的參數(shù)。
之后,將得到的Fl、Fa、Fv輸入至融合網(wǎng)絡中,得到多模態(tài)聯(lián)合表示向量Fz。在本文中,使用了兩種基于Transformer的融合[8,26]、一種基于圖網(wǎng)絡的融合[12]、一種基于張量融合[6]、一種基于低秩張量的融合方式[7]、三種簡單融合,使得網(wǎng)絡在此得到跨模態(tài)交互融合的目的,使來自不同模態(tài)的向量信息在此可以充分融合,學習到互補信息。充分探究在利用信息瓶頸理論條件下,各種融合方式效果的不同。在本文中,融合網(wǎng)絡使用?m表示。則融合過程如公式(5)所示:
其中,θm為融合網(wǎng)絡的參數(shù)。之后,將得到的聯(lián)合表示通過一個前饋神經(jīng)網(wǎng)絡,得到多模態(tài)編碼表示向量(以下簡稱表示向量),記為Z。為了滿足公式(1)中的目標函數(shù),需要分別計算表示向量與真實標簽、輸入數(shù)據(jù)之間的互信息。
在信息論中,互信息捕獲了不同變量之間的非性關系,可以用于變量之間相關性的度量。對于兩個隨機變量X、Y之間的互信息定義如公式(6)所示:
其中,KL(*)代表KL散度運算。根據(jù)公式(6),在計算二者的互信息時需要知道兩者之間的聯(lián)合概率分布和各自的邊緣分布。然而,在MSA中,輸入數(shù)據(jù)往往都是具有較高的維度,并且數(shù)據(jù)集過于稀疏,無法準確地知道其是如何分布的,而且只能通過神經(jīng)網(wǎng)絡的編碼器模型得到后驗分布概率P(Y|Z),對于各自的邊緣分布和聯(lián)合分布都是難以估計的。因此,需要利用神經(jīng)網(wǎng)絡擬合其概率分布,不斷對下界進行優(yōu)化,使得互信息下界能夠更加接近真實的互信息。
因此在本文中,利用MINE[20]作為表示向量與真實標簽的互信息估計器,利用神經(jīng)網(wǎng)絡作為編碼器取近似的概率分布,最大化二者之間的互信息,使得表示向量可以最大程度上包含與任務相關的信息。MINE主要采用了KL散度的兩種表現(xiàn)形式,其中Donsker-Varadhan[38]表示會為MINE估計器產(chǎn)生更加緊致的邊界,而f-divergence[39-40]表示提供的邊界則會寬松一些。在本文中采用的是Donsker-Varadhan表示(DV表示)。DV表示如公式(7)所示:
其中,P、Q為兩種任意分布,T為從樣本空間Ω到實數(shù)R的任意函數(shù)映射。令F為一個包含任意滿足函數(shù)T的類,則可以得到該表示的下界,如公式(8)所示:
根據(jù)公式(6)可知,表示向量Z與真實標簽Y之間的互信息定義如公式(9)所示:
將公式(9)帶入公式(8)中,可以推出表示向量與真實標簽之間互信息的下界表示,記為公式(10):
然而在實際中,去尋找這樣一種T是極其困難的。由于神經(jīng)網(wǎng)絡可以被視為一種復雜的非線性網(wǎng)絡,可以用于擬合各種復雜的非線性函數(shù),因此使用參數(shù)為θ∈Θ的神經(jīng)網(wǎng)絡族代替函數(shù)T來擬合該互信息下界,因此可以推出公式(11):
由于在輸入數(shù)據(jù)中,需要用經(jīng)驗分布代替其整體分布,則最終的互信息下界表達式如公式(12)所示:
從公式(12)中可以看出,在訓練過程中通過反向傳播,對其中的使用神經(jīng)網(wǎng)絡擬合的非線性函數(shù)進行動態(tài)調(diào)整,可以不斷地提高該互信息的下界,并使該下界變得更為緊致,最終實現(xiàn)互信息的最大化,以確保得到的表示向量能夠含有針對下游任務相關的更多信息。
由于經(jīng)過融合網(wǎng)絡之后,表示向量會不可避免地攜帶一定量來自輸入數(shù)據(jù)的與任務不相關的冗余信息和噪聲,這些信息和噪聲會對下游任務的精確分類產(chǎn)生較強的影響,因此,需要減小表示向量與輸入向量之間的互信息,以達到濾除其中噪聲和冗余信息的目的。在本文中,利用CLUB[21]互信息估計器來計算表示向量與輸入數(shù)據(jù)之間的互信息上界,通過對上界的估計來限制表示向量對輸入數(shù)據(jù)中信息的包含,以增強模型的魯棒性。
為表示方便,在本節(jié)中x表示輸入數(shù)據(jù),z表示多模態(tài)表示向量。將輸入數(shù)據(jù)與表示向量之間互信息上界表示為ICLUB(Z,X),該上界具體表示如公式(13)所示:
由于在實際的任務中,條件概率p(z|x)與聯(lián)合概率分布p(z,x)是很難計算的,若將其直接視為標準高斯分布,則會導致互信息的估計出現(xiàn)較大的偏差,并且在后續(xù)對各項進行蒙特卡洛采樣時,該偏差會進一步地增大[21]。因此,選擇使用參數(shù)為ω的神經(jīng)網(wǎng)絡對概率分布進行擬合,通過反向傳播算法對其進行動態(tài)調(diào)整,優(yōu)化該上界表示。利用神經(jīng)網(wǎng)絡擬合后的表示如公式(14)所示:
其中,qω(z,x)為是用參數(shù)為ω的神經(jīng)網(wǎng)絡擬合后的概率分布。之后針對輸入數(shù)據(jù)和表示向量進行采樣,可以得到兩個變量之間的無偏估計量,如公式(15)所示:
其中,N為樣本批量大小。
聯(lián)立公式(1)、(12)、(15),可以得到最終的目標函數(shù)約束項,記為:
在本文中,將多模態(tài)情感分析作為回歸任務,將整個模型的最后輸出記為,真實標簽記為yi,則任務損失記為。
最終,整個模型的損失定義為:
在本文中,使用CMU-MOSI[41]、CMU-MOSEI[42]和CH-SIMS[43]三個在多模態(tài)情感分析中常用的數(shù)據(jù)集對本文提出的模型進行性能測試。
3.1.1 CMU-MOSI
CMU-MOSI數(shù)據(jù)集包含了從Youtube上收集到的93個視頻,并人工將其分割成為2 199條視頻片段,并且每條視頻片段都包含一種情感狀態(tài),每一種情感狀態(tài)使用情感分數(shù)表示,取值范圍從-3(極負向)到+3(極正向)。在本次實驗中,使用其中1 284條視頻片段用于訓練,229條視頻片段用于驗證,686條視頻片段用于測試。
3.1.2 CMU-MOSEI
CMU-MOSEI數(shù)據(jù)集是CMU-MOSI數(shù)據(jù)集的擴展,其中包含了超過兩萬條視頻片段,與CMU-MOSI數(shù)據(jù)集一樣,在MOSEI數(shù)據(jù)集中,所有的視頻片段都是用取值從-3到+3的情感分數(shù)代表視頻所包含的情感極性。在該數(shù)據(jù)集中,使用16 265條視頻進行訓練,1 869條視頻進行驗證,4 643條視頻進行測試。
3.1.3 CH-SIMS
CH-SIMS數(shù)據(jù)集是一個中文的多模態(tài)數(shù)據(jù)集。該數(shù)據(jù)集包含了2 281個視頻片段,并且每一條視頻片段都有一種情感極性狀態(tài),該狀態(tài)使用從-1到1的情感分數(shù)對每個樣本進行標記。在文中使用1 368條樣本進行訓練、456條樣本進行驗證、457條樣本進行測試。
3.1.4 特征提取
在本次實驗中,對于視覺模態(tài),采用Facet來提取面部動作單元、頭部姿態(tài)等特征信息,采樣頻率為30 Hz。聽覺模態(tài)使用COVAREP[44]提取包括Mel倒譜系數(shù)、基音頻率、譜包絡等在內(nèi)的特征信息。對于文本,使用bertbase-uncased版本。利用P2FA將三種模態(tài)的特征在時間步級別對齊。對于聽覺模態(tài)和文本模態(tài),兩個數(shù)據(jù)集的維度是一樣的,分別為74和768,對于MOSI數(shù)據(jù)集,視覺模態(tài)的特征為47,對于MOSEI數(shù)據(jù)集,視覺模態(tài)的特征為35,對于SIMS數(shù)據(jù)集,文本模態(tài)特征為768,聽覺模態(tài)維度為33,視覺模態(tài)維度為709。
3.1.5 評價指標
為了與之前的研究保持一致,在本次實驗中采取了在多模態(tài)情感分析領域中常用的四種指標[43,26],分別為:(1)MAE(平均絕對誤差),模型的預測值與真實標簽之間的平均絕對差值,該指標越低越好;(2)Corr(相關系數(shù)),代表了預測值與真實標簽之間的相關程度。(3)二分類精度(Acc2)代表對正向、負向情感極性的分類精度;(4)F1 Score,代表了對二元精度的加權。
為了充分驗證本文所提出的模型,在本節(jié)中選取若干種在多模態(tài)情感分析領域的經(jīng)典模型,利用上述四種指標來討論性能表現(xiàn)。
MAG-BERT[32]:該模型提出了多模態(tài)適應門的模塊,使得BERT和XLNet在微調(diào)階段也能接受多模態(tài)數(shù)據(jù)的輸入。
CubeMLP[31]:提出一種完全基于MLP的多模態(tài)特征處理框架,可以在三個維度軸上將特征混合,之后將其展平后進行任務預測。
MISA[22]:提出一種多模態(tài)情感分析框架,可以針對不同模態(tài)學習模態(tài)不變和模態(tài)特定的特征表示,并針對不同種類的表示向量提出分布相似性損失、正交損失、重建損失以及預測損失。
MMIM[9]:將互信息概念引入多模態(tài)情感分析領域,最大化輸入級和融合級特征表示的互信息,以達到濾除噪聲信息以及冗余信息的目的。
MIB[19]:將信息瓶頸理論引入多模態(tài)情感分析領域,針對融合方式的不同,提出了三種多模態(tài)信息瓶頸模型,以達到尋找最小充分的多模態(tài)編碼表示,并濾除噪聲以及冗余信息,在本文中,取其在兩個數(shù)據(jù)集中表現(xiàn)最好的模型進行對比實驗。
Self_mm[13]:設計了一種基于自監(jiān)督學習策略的標簽生成模塊,對多模態(tài)和單模態(tài)任務進行聯(lián)合訓練,在訓練階段設計了一種動態(tài)調(diào)整策略,能引導模型將重點放在模態(tài)差異較大的樣本之上[43]。
Hycon[11]:提出了一種同時進行模態(tài)內(nèi)/模態(tài)間對比學習和半對比學習的混合對比學習框架,設計了一個細化項,以達到防止模型陷入次優(yōu)解的目的,提高了模型的泛化能力。
ICDN[28]:為針對模態(tài)進行動態(tài)建模,提出了集成一致性和差異性的網(wǎng)絡,并引入自監(jiān)督策略,動態(tài)地生成單模態(tài)情感標簽,以指導最終的情感分析結(jié)果。
在本次實驗中,使用Adam作為優(yōu)化器,批量大小為32,學習率為1E-5,深度學習框架為Pytorch,實驗基于一塊RTX5000GPU,在本次實驗中,默認使用的融合方式為CM5[8]。
經(jīng)過多次對比實驗,在三個數(shù)據(jù)集上的表現(xiàn)分別如表1、表2、表3所示。

表1 CMU-MOSI測試集實驗結(jié)果Table 1 Results on test set of CMU-MOSI dataset

表2 CMU-MOSEI測試集實驗結(jié)果Table 2 Results on test set of CMU-MOSEI dataset

表3 CH-SIMS測試集實驗結(jié)果Table 3 Results on test set of CH-SIMS dataset
從表1、表2、表3中的數(shù)據(jù)可以得出,在本次實驗所用的三個數(shù)據(jù)集上,本文提出的模型要比其余的算法表現(xiàn)更為出色,在表格中,最優(yōu)表現(xiàn)用加粗字體標出。從表1中可以看出,對于CMU-MOSI數(shù)據(jù)集,除CMFIB之外,CubleMLP的性能是最優(yōu)的,但CMFIB取得了更優(yōu)的性能表現(xiàn),對于Acc2指標來說,CMFIB要比CubleMLP高出0.009 6,對于F1指標CMFIB要比其高出0.01,對于相關系數(shù),CMFIB要比其高出0.049 6,并且MAE達到了所有模型中的最低水平。從表2的數(shù)據(jù)可以看出,對于CMU-MOSEI數(shù)據(jù)集,除CMFIB外,Hycon達到了最優(yōu)水平。在Acc2指標方面,CMFIB要比Hycon模型高出0.003 2,在Corr指標方面,CMFIB要比其高出0.017 7,對于MAE指標,CubeMLP則表現(xiàn)得更為出色。從表3的數(shù)據(jù)中可以看出,對于CH-SIMS數(shù)據(jù)集,CMFIB在各項指標方面都取得了更好的表現(xiàn),對于MAE,相對于Self_mm降低了0.001 3,對于Acc2,則提高了0.004 1。以上數(shù)據(jù)能夠很好地證明,本文提出的模型的表現(xiàn)更為優(yōu)異,也證明了學習簡潔有效的多模態(tài)編碼表示是十分有效的。
為了進一步驗證本文提出的CMFIB模型中各個部分的作用,在本節(jié)從多個角度進行消融實驗,觀測每個部分對于最終實驗結(jié)果的影響。本節(jié)中,消融實驗基于CMU-MOSI數(shù)據(jù)集,實驗中的超參數(shù)等按照3.2節(jié)所示。
3.3.1 互信息下界估計消融實驗
在本小節(jié)中,主要探討各種互信息估計器對最終結(jié)果的影響。在本文中,互信息估計器主要是在針對表示向量同真實標簽以及輸入數(shù)據(jù)之間起作用,并且分為互信息上界估計與互信息下界估計,因此首先探討關于使用InfoNCE[45]和NWJ[39]作為互信息下界估計器,同時也探究了不使用互信息下界估計對結(jié)果的影響。此時互信息上界估計仍然使用CLUB,融合方式為CM5。InfoNCE與NWJ估計器分別如公式(18)、(19)表示,其中Z為表示向量,Y為真實標簽:
其中,在公式(18)、(19)中,N代表批量大小,在分母中,引入了在真實標簽值所構(gòu)成的集合中不屬于該標簽的負例集合,將其作為噪聲處理。并且,引入了基于能量的變分函數(shù)族f(*)[46],也稱為一個critic,該函數(shù)族包含了任意一種可以將樣本對映射為評價值的函數(shù)。在公式(18)中,若要使其達到最優(yōu),則需要f(x,y)=lgp(y|x)+c(y)。在公式(19)中,若要使其達到最優(yōu),則f(x)=1+lg(y|x)。
本節(jié)實驗利用CMU-MOSI數(shù)據(jù)集,各種超參數(shù)的設定參照3.2節(jié)。結(jié)果如表4所示。

表4 互信息下界估計對比Table 4 Lower bound of mutual information estimation
可以從表4中看出,采用MINE來對互信息下界進行估計效果要更加出色,在四種指標上均優(yōu)于其他兩種互信息下界估計器。并且從第三行中可以看出,當去除互信息下界估計后,實驗目標變成了最小化表示向量與輸入數(shù)據(jù)之間的互信息,對于Acc2精度有較大幅度的下滑,這說明在信息瓶頸理論中,最大化表示向量與真實標簽之間的互信息具有重要作用,能夠提高表示向量與標簽之間的相關程度,使得經(jīng)過融合后的表示向量具有與任務相關的重要信息,能夠生成高質(zhì)量的預測結(jié)果。
3.3.2 互信息上界估計消融實驗
在本小節(jié)中,主要討論VUB[16]、L1Out[46]和不使用互信息上界估計三種情況下對最終結(jié)果的影響。其中,融合方式與超參數(shù)設置均與3.3.1小節(jié)中相同,使用MINE作為互信息下界估計器。VUB與L1Out互信息估計器計算過程如公式(20)、(21)所示,其中Z為表示向量,X為任意輸入數(shù)據(jù)的表示向量:
其中,在公式(20)中,qθ(*)為利用參數(shù)為θ的神經(jīng)網(wǎng)絡對概率密度函數(shù)的變分估計,服從多元高斯分布,即qθ(z|x)~N(z|μθ1(x),σθ2(x)I),r(z)為一服從標準正態(tài)分布的變分近似值,即r(z)~(0,I);在公式(21)中,N為采樣的樣本數(shù)即批量大小。消融實驗結(jié)果如表5所示。

表5 互信息上界估計對比Table 5 Upper bound of mutual information estimation
從表5中的數(shù)據(jù)可以看出,使用CLUB作為互信息上界估計時,可以達到最好的效果。對于VUB,在公式(20)中,將表示向量Z的邊緣分布近似地看作標準正態(tài)分布,這會導致較大的偏差。對于L1Out,盡管該公式不需要引入過多的學習參數(shù),但高度依賴足夠多的樣本大小來實現(xiàn)令人滿意的蒙特卡洛采樣,因此在實踐中,L1Out的數(shù)值并不穩(wěn)定[21]。當完全不采用上界估計時,代表此時目標最大化表示向量與真實標簽之間互信息,而對于表示向量中來自輸入數(shù)據(jù)的噪聲信息并沒有處理,因此造成了模型的精度下降了0.004 5,并且也能看出,在信息瓶頸的目標函數(shù)中,第二項實際上起的是一種輔助和約束作用,并不會主導模型的學習。
3.3.3 融合方式消融實驗
在本小節(jié)中,主要探討關于不同種融合方式對最終實驗結(jié)果的影響。在本文中,融合方式有八種,分為兩個方面。
(1)基于簡單策略的融合方式:三種不同模態(tài)表示向量的拼接、對位相乘以及對位相加。
(2)基于張量操作的融合策略:張量融合[6]、低秩張量融合[7]、圖網(wǎng)絡融合[12]、Mult[26]和CM5[8]。
并且,為了更方便地看出本文中所提出的互信息上界/下界估計對融合后的表示向量的作用,在每一次融合方式之后,會跟隨一次不帶互信息估計模塊的實驗,實驗結(jié)果如表6所示。

表6 融合方式消融實驗結(jié)果Table 6 Ablation results of fusion method
從表中數(shù)據(jù)可以觀測到,對于Acc2和F1指標,幾乎所有的融合方式在添加了互信息估計模塊后都有一定的提升,這表明在本文中所提出的學習簡潔充分的多模態(tài)編碼表示策略是極為有效的。并且,在融合方式中,CM5在整個消融實驗中均取得了較好的成績,在該模型中,來自不同模態(tài)的向量首先通過了跨模態(tài)調(diào)制融合模塊,充分地學習了互補信息,并且在之后的模態(tài)門控模塊中,可以充分地探尋模態(tài)之間的動態(tài)交互,不僅保留了單模態(tài)的信息,同時也使不同模態(tài)接收到了其余模態(tài)的補充信息。盡管如此,在原始的CM5由于較為復雜的融合策略,表示向量中依然會有較多的、與下游任務無關的冗余信息,因此,在引入互信息估計模塊之后,通過對學習策略進行限制,使得生成的表示向量中盡可能多地保留與下游任務相關的信息,并且盡可能多地“遺忘”在輸入數(shù)據(jù)中的噪聲與冗余信息,使得生成的表示向量具有較高的質(zhì)量,適合用于下游任務。在其余的融合方式中,對于三種模態(tài)的直接拼接表現(xiàn)更優(yōu),因為在直接拼接的融合方式中,來自三種模態(tài)最原始的單模態(tài)信息得到了保留,并且直接拼接的方式也避免了生成較高緯度表示向量導致模型過擬合的風險,但直接拼接的方式無法有效地針對模態(tài)的動態(tài)融合進行有效的建模。
3.3.4 超參數(shù)消融實驗
在本小節(jié)中,主要探究在公式(1)和公式(17)中,不同的超參數(shù)對結(jié)果產(chǎn)生的影響。本小節(jié)的實驗基于MOSI數(shù)據(jù)集。
在公式(1)中,超參數(shù)β控制了多模態(tài)表示向量與輸入數(shù)據(jù)之間互信息值,并且從表7中的數(shù)據(jù)可以看出,隨著β的減小,模型的性能逐漸提高,并且在1E-5時達到了最優(yōu),這代表了本文中引入的方法是合理有效的,在β為一較小值時,該項不會主導模型的學習,更多的是關注表示向量與真實標簽之間的互信息最大化的過程,并且該項的存在防止了必要信息被過濾的同時,保證了冗余噪聲的濾除。

表7 超參數(shù)β分析Table 7 Analysis on parameterβ
從表8中可以看出,當超參數(shù)α設置為1時,整個模型達到最優(yōu)的水準,對于Acc指標分別提升了0.015 2、0.005 6、0.006 1,并且Corr指標也均有明顯的優(yōu)化,當超參數(shù)設置為0時,這代表目標此時目標只是常規(guī)的情感分析任務,結(jié)果在3.3.3小節(jié)有所說明,這代表了本文提出的信息瓶頸理論是有效的,表明了基于信息瓶頸理論的互信息估計模塊的提出具有重要的作用。

表8 超參數(shù)α分析Table 8 Analysis on parameterα
在本文中,為了使得模型在融合后生成的多模態(tài)表示向量能夠具有強大的預測能力,并且降低模型過擬合的風險的同時能夠?qū)W習到來自不同模態(tài)的互補信息,引入了信息瓶頸理論,并根據(jù)其目標函數(shù)構(gòu)建了互信息上界估計與互信息下界估計,分別最大化表示向量與真實標簽之間的互信息,最小化表示向量與輸入數(shù)據(jù)之間的互信息,以達到學習簡潔有效的多模態(tài)表示的目的。在公開的數(shù)據(jù)集上進行了多次的對比實驗和消融實驗,其中對比實驗的結(jié)果證明了本文提出的方法是行之有效的,并且達到了多模態(tài)情感分析領域的先進水平。在消融實驗中探索了不同種類的融合方式和互信息估計方式對最終結(jié)果的影響,并針對最終的實驗結(jié)果進行分析,說明了本文選取的互信息估計器和融合方式是合理且有效的。