魏金龍 邵新慧



摘 要:針對各模態之間信息密度存在差距和融合過程中可能會丟失部分情感信息等問題,提出一種基于非文本模態強化和門控融合方法的多模態情感分析模型。該模型通過設計一個音頻-視覺強化模塊來實現音頻和視覺模態的信息增強,從而減小與文本模態的信息差距。之后,通過跨模態注意力和門控融合方法,使得模型充分學習到多模態情感信息和原始情感信息,從而增強模型的表達能力。在對齊和非對齊的CMU-MOSEI數據集上的實驗結果表明,所提模型是有效的,相比現有的一些模型取得了更好的性能。
關鍵詞:多模態情感分析; 多模態融合; 模態強化; 門控機制
中圖分類號:TP391?? 文獻標志碼:A?? 文章編號:1001-3695(2024)01-006-0039-06
doi:10.19734/j.issn.1001-3695.2023.04.0213
Multimodal sentiment analysis based on non-text modality reinforcement and gating fusion method
Abstract:To address the problems of information density gaps between modalities and the possibility of losing some sentiment information in the fusion process, this paper proposed a multimodal sentiment analysis model based on non-text modality reinforcement and gating fusion method. The model reduced the gap with text modality by designing an audio-visual reinforcement module to achieve information enhancement of audio and visual modalities. Then, the cross-modal attention and gating fusion method allowed the model to fully learn the multimodal sentiment information and the original sentiment information to enhance the representation of the model. Experimental results on the aligned and unaligned CMU-MOSEI datasets show that the proposed model is effective and achieves better performances than some existing models.
Key words:multimodal sentiment analysis; multimodal fusion; modality reinforcement; gating mechanism
0 引言
情感分析一直是自然語言處理領域的重要研究方向之一,在輿情監控、產品推薦、金融風控等領域有著廣泛應用[1]。近年來,隨著多媒體技術的發展和短視頻的興起,包含了文本、音頻和視覺信息的多模態情感分析受到了越來越廣泛的關注,相比于單模態情感分析,多模態情感分析可以融合來自不同模態的信息,從而作出更加準確的情感判斷。而多模態情感分析的關鍵任務之一是如何設計高效的融合網絡,使得模型可以充分學習到不同模態的情感信息,從而進行準確的情感預測。早期的多模態融合策略主要包括早期融合[2]和晚期融合[3]。早期融合的主要做法是將來自不同模態的特征進行拼接,送入情感分類器中進行情感預測。而晚期融合主要利用每個單模態特征進行情感預測,通過對單模態預測結果采取加權平均或者投票機制得到最終的預測結果。雖然上述兩種策略均可以完成多模態情感分析任務,但是不能充分挖掘各模態的內部信息和模態間的交互作用。隨著Transformer模型的出現[4],文獻[5,6]基于Transformer的注意力機制實現多模態融合,使得多模態情感表達更加充分。但是,上述方法通常將各個模態看作同等重要,忽視了不同模態之間的信息密度存在差異,而部分研究表明[7,8],在多模態情感分析中,文本模態的重要性通常最高,而音頻、視覺模態的重要性較低。因此,在多模態情感分析中要充分關注不同模態之間的信息差異,從而提高融合效率。
此外,目前的多模態情感分析往往只關注于融合特征,而忽視了原始的情感信息表示,在多模態的融合過程中可能會丟失部分原始情感特征,使得模型的表達不夠充分。部分研究表明[9],結合不同層次的特征進行情感分析可以有效提高模型的性能。因此,如何充分學習多模態情感表示和原始情感特征也是多模態情感分析面臨的關鍵問題之一。
針對上述問題,本文提出了一個基于非文本模態強化和門控融合方法的多模態情感分析模型(multimodal sentiment ana-lysis based on non-text modality reinforcement and gating fusion method,NMRGF),主要貢獻如下:
a)提出一個音頻-視覺強化模塊,通過對音頻和視覺兩個低級模態進行強化,減少冗余信息的出現,從而減小兩者與文本模態的差距,提高融合效率。
b)提出一種門控融合方法,使得模型能夠充分學習多模態情感特征和原始情感特征,增強模型的表達能力。
c)在對齊和非對齊下的CMU-MOSEI數據集上進行了充分實驗,結果表明該模型相比于一些現有模型達到了最佳性能。
1 相關工作
多模態情感分析的重點任務是融合來自不同模態的信息,目前主要的融合方法包括基于張量融合[10,11]、基于圖融合[12]、基于翻譯策略的融合[13,14]、基于注意力的方法[15~18]等,上述方法在多模態情感分析任務中都取得了較好的效果。其中,基于注意力的方法通常表現更好。
近年來多模態情感分析更多關注于和其他領域前沿方法的結合。Rahman 等人[19]充分發揮預訓練模型的優勢,將非文本模態的信息融入到BERT模型的微調階段,使得文本模態可以學習到其他兩個模態的信息。Yu等人[20]通過自監督的方式生成單模態情感強度標簽,隨后使用多任務學習聯合訓練多模態和單模態情感分析任務。Sun等人[21]基于特征混合的思想,提出一種基于多個MLP單元組成的多模態特征處理方法,可以對多模態數據在不同軸上進行展開,并且降低了計算成本。Han等人[22]將互信息的概念引入多模態情感分析中,提出了一種分層次最大化互信息學習框架,有效減少了各個模態中的冗余信息,提高預測準確率。Hazarika 等人[23]將模態向量投影至兩個不同的空間中,同時進行模態不變和模態特定的表示學習。Wu等人[24]則利用圖神經網絡和膠囊網絡實現多模態融合,大大提高了計算效率。文獻[25]通過深度典型相關分析方法學習不同模態之間的相關性,從而完成情感預測。
受到上述研究的啟發,本文在完成各個模態的特征提取之后,首先利用Self-Transformer模塊增強單模態特征的表達;之后設計一個音頻-視覺強化模塊完成兩種低級模態特征的強化,減小和文本模態的信息差距;最后利用跨模態注意力完成多模態融合過程,并通過門控融合機制使得模型充分學習多模態情感信息和原始情感信息,增強模型的表達能力和泛化能力。
2 多模態情感分析模型
2.1 模型概述
本文提出的基于非文本模態強化和門控融合方法的多模態情感分析網絡NMRGF如圖1所示。該模型主要由特征提取和單模態特征表征模塊、音頻-視覺強化模塊、多模態融合和情感信息門控模塊三部分組成。特征提取和單模態特征表征模塊對單模態特征進行提取并通過Self-Transformer增強其表達。音頻-視覺強化模塊實現音頻和視覺這兩個低級模態的強化,多模態融合和情感信息門控模塊使模型通過跨模態注意力操作完成多模態融合,并充分學習多模態情感信息和原始情感信息。
2.2 特征提取和單模態特征表征模塊
2.2.1 特征提取和一維卷積
給定一個視頻片段X,分別利用不同的工具提取其文本模態T、音頻模態A和視覺模態V的原始特征,三個模態的初始特征可以表示為Im∈RApTm×dm,其中Tm代表序列長度,dm代表特征維度,m∈{T,A,V}。對于文本模態,使用BERT預訓練模型進行特征提取[26],將BERT模型最后一層的輸出作為文本模態的表示IT。對于音頻模態,使用COVAREP[27]提取音頻特征IA,對于視覺模態,使用Facet工具[28]提取視覺模態特征IV。
將得到的原始特征輸入到一維卷積層,一方面可以捕捉各模態內部的局部特征,另一方面統一各模態的特征維度方便后續計算,計算公式如下:
Xm=Conv1D(IM,kernel) M∈{A,V,T}(1)
2.2.2 Self-Transformer模塊
得到各模態初始特征Xm后,通過Self-Transformer 模塊進一步增強模態特征的表示,該模塊主要利用了原始Transformer模型的編碼器部分,該部分主要由多頭注意力(MHA)、層歸一化(LN)以及帶有殘差連接的前饋神經網絡(FFN)組成,該模塊通過多頭注意力機制可以學習到序列全文的信息,從而增強建模能力。Self-Transformer中第l層的表達如下所示。
yl=MHA(LN(Xl-1m))+ LN(Xl-1m)(2)
Xlm=FFN(LN(yl))+ LN(yl)(3)
其中:Xlm代表第l層的輸出;多頭注意力MHA通過多頭處理,分別捕捉不同子空間的特征,最后再拼接起來作為最終的表示,其計算公式如下。
其中:Q、K、V是同一個模態的特征通過線性變換得到的;m是注意力的頭數;WQi、WKi、WVi、WO代表訓練參數;concat代表拼接操作。原始特征Xm通過多層Self-Transformer模塊的堆疊,使得三個模態特征不斷增強自身信息的表達,得到各模態的原始情感特征hT、hV、hA。
2.3 音頻-視覺強化模塊
由于文本模態常常在多模態情感分析工作中占據主導地位,音頻和視覺模態的信息對于多模態情感分析的貢獻相對較低,即這兩種模態與文本模態的信息密度差異較大。受到文獻[29]的啟發,本文設計了一個音頻-視覺強化模塊來實現音頻和視覺模態的強化,從而減小與文本模態之間的信息差距,使得后續的多模態融合過程更加高效。具體而言,本文提出一個聚合塊來實現音頻和視覺特征的強化,該聚合塊的序列長度為B(BTm),特征維度為d,利用該聚合塊和Self-Transformer模塊不斷增強音頻和視覺兩種模態特征的信息。首先將該聚合塊和音頻特征拼接,經過多層的Self-Transformer模塊,使得該聚合塊學習到音頻模態的信息;之后將已經學習到音頻信息的聚合塊和視覺特征拼接,再經過多層的Self-Transformer模塊,使得該聚合塊學習到視覺模態的特征,利用該聚合塊實現音頻和視覺模態特征的強化,使得模型充分學習來自這兩個模態的特征,從而減小與文本模態的信息差距。將該模塊最后一層的輸出作為強化后的音頻-視覺模態表示hVA,該表示融合了音頻和視覺模態的情感信息。其計算公式如下:
2.4 多模態融合和情感信息門控模塊
2.4.1 多模態融合模塊
將增強后的音頻-視覺模態特征hVA,同文本特征hT進行多模態融合,利用文獻[5]提出的Crossmodal-Transformer模塊進行融合,該模塊借鑒了Transformer模型編碼器的主要思想,通過源模態的特征不斷增強目標模態的特征,使得目標模態可以學習到源模態的信息,從而實現多模態的融合,具體過程如圖2所示。該模塊的核心是跨模態注意力的計算,給定目標模態特征hT,源模態特征hVA,跨模態注意力的(crossmodal attention,CM)計算方式如式(9)所示。
其中:向量Q由目標模態提供;向量K和V由源模態提供。通過這種跨模態注意力的計算,使得文本模態可以學習到來自音頻和視覺模態的信息。同樣,音頻和視覺模態特征也可以通過這種方式學習到來自文本模態的信息,通過這種方式實現多模態融合過程。經過多層的Cross-Transformer堆疊之后,對得到的兩個融合向量再經過多層的Self-Transformer不斷增強跨模態特征表示,最終得到多模態情感信息表示hT-VA和hVA-T。
2.4.2 情感信息門控模塊
為了避免在多模態融合過程中丟失部分原始情感信息,在得到hT-VA和hVA-T兩個融合表示之后,本文利用這兩個融合了三種模態信息的特征表示生成一個情感信息門控單元gate,該單元將控制多模態情感信息和原始情感信息在最終的情感表示中的比重,具體過程如下:
2.5 情感預測
練樣本的數量,yi代表該樣本的真實標簽。
3 實驗設計與結果分析
3.1 數據集
實驗數據集選擇CMU-MOSEI數據集[12],這是目前最大的多模態情感分析數據集,該數據集包括22 856個帶有情感注釋的視頻片段,每個片段標注的情感值在[-3,3],數值越小代表負面情緒越明顯,數值越大則表示正面情緒越明顯。根據各個模態是否對齊,即各模態的序列長度是否相同,可以分為對齊數據和非對齊數據。該數據集的訓練集、驗證集和測試集的數量分別是16 326、1 871和4 659。
3.2 實驗設置及評價指標
通過特征提取之后,文本模態的特征維度是768,音頻模態的特征維度是74,視覺模態的特征維度是35。
本文模型搭建和訓練在Python 3.8和深度學習框架PyTroch 1.10下進行,訓練環境是Ubuntu 20.04,GPU為顯存24? GB的RTX3090。初始學習率設置為2E-3,BERT學習率設置為5E-5,優化器使用AdamW并設置學習率衰減策略,訓練批次大小為32,迭代次數為10。
模型涉及的主要超參數設計如下:三種模態下一維卷積的卷積核大小為1,公共維度d為60,Self-Transformer和Cross-Transformer模塊的層數為5,多頭注意力的頭數為5。
本文選取的評價指標包括平均絕對誤差(MAE)、皮爾森相關系數(Corr)、二分類準確率(Acc-2)、F1值和七分類準確率(Acc-7)五個指標以全面衡量模型的性能。其中,除平均絕對誤差MAE外,其他的指標數值越高越好。
3.3 對比實驗
本文分別在對齊數據下和非對齊數據下進行實驗,并與不同的基準模型進行比較。對齊數據下選取的基準模型有:
a)MFN[30]。利用LSTM網絡對三個模態進行建模,并設計一個DMAN模塊實現不同模態之間的交互作用從而完成多模態融合。
b)Graph-MFN[12]。在MFN模型的基礎上,設計一種動態融合圖方法實現不同模態之間的交互作用。
c)ICCN[25]。采用深度典型相關分析的方法探索三種模態之間的相關性,從而完成多模態融合。
d)MISA[23]。將不同模態的特征向量投影至兩個不同的空間中,同時進行模態不變和模態特定的表示學習。
e)MAG-BERT[19]。把非文本模態的特征融合到BERT微調階段,使得詞向量表示可以學習其他模態的信息。
f)BIMHA[31]。設計一種新的多頭注意力方式去捕捉兩兩模態之間的潛在聯系以完成多模態融合。
非對齊數據下選取的基準模型:
a)TFN[10]。采用張量外積的方式對單模態、雙模態和三模態信息進行建模,并將最終的融合向量用于情感分析。
b)LMF[11]。在TFN的基礎上,采用張量低秩分解的方法降低模型的復雜度和計算成本。
c)MulT[5]。利用跨模態注意力實現兩兩模態的交互作用,從而完成多模態融合。
d)GraphCAGE[24]。利用圖神經網絡和膠囊網絡更好地捕捉不同模型之間的交互作用,從而完成多模態融合過程。
e)Self-MM[20]。采用自監督的方式生成單模態情感標簽,隨后使用多任務學習聯合訓練多模態和單模態情感分析任務。
f)MMIM[22]。首次將互信息引入多模態情感分析,提出一種分層次最大化互信息學習框架,有效減少了各個模態中的冗余信息。
g)NHFNET[29]。通過增強音頻和視覺模態的信息來降低跨模態注意力的計算復雜度,提高多模態融合效率。
在不同數據集下的實驗結果如表1、2所示。實驗結果表明,無論是在對齊數據下還是非對齊數據下,本文NMRGF模型在各項指標上都表現出了最佳性能。進一步,同MFN、TFN、LMF、ICCN、GraphCAGE等非基于注意力方法進行多模態融合的模型相比,模型的各項指標都有顯著提高,其中二分類準確率約提升3%,充分說明注意力融合策略相較于其他的融合方式可以更加準確地捕捉到不同模態之間的交互作用。相比于MulT、NHFNET、MISA、BIMHA等模型,NMRGF也表現出了明顯優勢,說明加入原始情感信息并使模型充分學習到多模態情感表示和原始情感表示可以提高預測準確率。
與MAG-BERT、MMIM、Self-MM等先進模型相比,本文模型在各項指標上也略優于它們,其中七分類準確率提升約1.2%,進一步說明將先進的注意力融合策略和情感信息門控融合機制相結合,可以使得模型學習到更加完整的情感表示,從而豐富模型的情感表達能力,進而作出更加精準的情感判斷。
3.4 消融實驗
為了進一步驗證本文模塊的合理性,在非對齊下的CMU-MOSEI數據集上設計如下七組消融實驗,實驗結果如表3所示。
NMRGF表示原模型;A表示去掉情感信息門控模塊,直接將多模態融合特征和原始情感特征相加得到最終的表示向量用于情感預測;B表示去掉文本模態的情感信息門控模塊,保留音頻和視覺模態的情感信息門控模塊;C表示去掉音頻和視覺模態的情感信息門控模塊,保留文本模態的情感信息門控模塊;D表示去掉情感信息門控模塊和原始情感信息特征,將多模態融合之后的兩個情感表示相加作為最終的情感特征用于情感預測;E表示保留情感信息門控模塊,原始情感信息特征替換為經過一維卷積之后的三個模態的特征;F表示保留情感信息門控模塊,不使用音頻-視覺強化模塊,僅使用文本和音頻模態完成多模態情感分析;G表示保留情感信息門控模塊,不使用音頻-視覺強化模塊,僅使用文本和視覺模態完成多模態情感分析。由表3可知,本文設計的七組消融實驗結果相比原模型在各個指標上都有不同程度的下降,說明本文所設計的不同模塊可以有效提高多模態情感分析的準確率。具體而言,當去掉情感信息門控模塊之后,直接使用多模態特征和原始的情感特征相加作為最終的輸出表示,模型的各項指標都有所下降,由于模型不能有選擇地學習多模態情感信息和原始情感信息,導致部分冗余信息的產生,降低了模型的性能。而如果去掉原始情感信息表示和情感信息門控模塊,只使用多模態融合之后的特征作為最終表示,模型的整體表現也有所下降,說明加入原始情感信息增強模型的情感表達能力是非常有必要的。針對不同的模態,分別去掉對應的情感信息門控模塊進行情感預測,可以看到模型的表現進一步變差,其中只去掉文本模態的門控機制后模型效果下降得最少,本文認為一方面是因為人們情感的表達一般主要依賴于文本模態,另一方面是由于BERT預訓練模型的天然優勢,使得文本模態本身含有豐富的情感信息,門控機制在文本模態中發揮的作用相對較弱。此外,本文將原始情感信息特征替換為經過一維卷積之后三個模態的特征表示,而不是經過Self-Transformer增強后的模態特征,可以看到模型性能也有所下降,說明通過堆疊多層的Self-Transformer之后,三個模態的原始情感特征得到了增強,更能代表原始的情感信息。最后,當去掉音頻-視覺強化模塊后,只使用文本和音頻或者文本和視覺模態完成多模態情感分析時,模型的預測能力有所下降,說明通過增強兩個低級模態的語義信息可以減小和文本模態的信息差距,從而提高融合效率,幫助模型作出更準確的判斷。
3.5 音頻-視覺強化模塊的對比實驗
為了進一步驗證音頻-視覺強化模塊在多模態情感分析中的預測效果,針對該模塊設計如下四組對比實驗:
T表示只有文本模態進行多模態情感分析,即只將原始的文本情感表示hT傳入情感分類器中進行情感預測;A表示只有音頻模態進行多模態情感分析,即只將原始的音頻情感表示hA傳入情感分類器中進行情感預測;V表示只有視覺模態進行多模態情感分析,即只將原始的視覺情感表示hV傳入情感分類器中進行情感預測;A+V表示只將通過音頻-視覺強化模塊增強后的音頻-視覺表示hVA傳入情感分類器中進行情感預測。
實驗結果如圖4所示。由圖4不難發現,在僅使用單模態信息進行情感預測時,文本模態表現出了絕對優勢,進一步驗證了文本模態是多模態情感分析的主導模態,其自身蘊涵豐富的情感信息。而單獨使用音頻或者視覺模態進行情感分析時,相比于單獨使用文本模態時,F1值下降了接近20%,說明這兩個模態中存在較多的冗余信息,情感表達能力較弱,相比而言視覺模態的預測表現略好于音頻模態,但兩者都與文本模態的預測表現存在較大的差距,所以直接使用這兩個模態的原始特征進行融合可能會導致多模態融合效率降低,由此說明對這兩個低級模態進行強化是非常有必要的。而只使用本文提出的音頻-視覺強化模塊增強后的特征進行情感分析時,相比于只使用音頻或視覺特征,該特征的預測表現在多個指標上都有明顯提升,說明通過音頻-視覺強化模塊的作用,可以有效減少這兩個低級模態中存在的冗余信息,增強兩個模態的情感表示,從而達到非文本模態強化,減小與文本模態的信息差距、提高多模態融合效率的目的。
3.6 案例分析
為了更加直觀地說明本文模型在實際樣本中的預測效果以及該模型的先進性,本文從CMU-MOSEI數據集中選擇部分樣本和不同模型的預測值進行對比,如表4所示。其中:“文本”一列表示該片段文本模態的信息;“音頻”一列代表該片段的音頻模態信息;“視覺”一列代表該片段的視覺模態信息;“真實值”一列代表該片段的真實情感值;“NMRGF”一列代表
本文模型的預測結果;“Self-MM” 一列代表使用Self-MM模型進行預測的結果;“MMIM”一列代表使用MMIM模型進行預測的結果。具體而言,在案例1中,文本模態沒有傳達明顯的情感信息,音頻和視覺模態也沒有提供較多的情感特征,因此模型作出了中性情感的判斷,與真實值差距極小。在案例2中,說話者的文本內容表達出了明顯的正面情感,音頻和視覺模態也蘊涵著積極的情感信息,盡管Self-MM和MMIM這兩個模型也作出了正確的情感傾向判斷,但是NMRGF模型通過非文本模態信息的增強,給出的預測值更加接近真實值,預測效果明顯更好。而對于案例3,文本模態和音頻模態并沒有非常明顯的情感傾向,但是視覺模態包含了明顯的負面情感信息(皺眉),NMRGF通過音頻-視覺強化模塊學習到了該情感信息并作出了較為準確的判斷,而Self-MM模型的預測值和真實值差距較大,MMIM模型則作出了完全相反的判斷。通過上述案例分析,進一步說明了本文模型在實際樣本中的預測效果,相比于一些現有模型,該模型可以更加準確地完成多模態情感分析任務。
4 結束語
針對多模態情感分析中模態之間信息存在差異以及部分情感特征丟失的問題,本文提出了一種基于非文本模態強化和情感信息門控融合方法的多模態情感分析模型(NMRGF)。該模型在完成特征提取和單模態特征表征之后,首先通過音頻-視覺強化模塊完成對兩個低級模態的強化,從而減小與文本模態之間的信息差距,提高融合效率。在多模態融合階段,通過Cross-Transformer結構和情感信息門控模塊,使得模型可以充分完成多模態融合并利用不同層次的情感特征,從而增強模型的預測能力。為了驗證該模型的性能,本文在對齊和非對齊的CMU-MOSEI數據集上進行了大量實驗,實驗結果表明,該模型的整體性能優于一些現有模型。此外,通過消融實驗,進一步說明了本文所設計模塊的合理性和有效性,案例分析則直觀地給出了模型在實際樣本中的預測效果。但是,本文方法計算開銷較大,模型的訓練效率較低,而且在實際視頻數據中的預測效果還需要進一步地探索。接下來的主要研究工作應關注于簡化多模態融合的過程并提高模型的魯棒性。
參考文獻:
[1]Chaturvedi I, Cambria E, Welsch R E, et al. Distinguishing between facts and opinions for sentiment analysis: survey and challenges[J].Information Fusion,2018,44:65-77.
[2]Poria S, Cambria E, Hazarika D, et al. Multi-level multiple attentions for contextual multimodal sentiment analysis[C]//Proc of IEEE International Conference on Data Mining.Piscataway,NY:IEEE Press,2017:1033-1038.
[3]Nojavanasghari B, Gopinath D, Koushik J, et al. Deep multimodal fusion for persuasiveness prediction[C]//Proc of the 18th ACM International Conference on Multimodal Interaction.New York:ACM Press,2016:284-288.
[4]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J].Advances in Neural Information Processing Systems, 2017,30:5998-6008.
[5]Tsai Y H H, Bai Shaojie, Liang P P, et al. Multimodal transformer for unaligned multimodal language sequences[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:ACL,2019:6558-6569.
[6]Sahay S, Okur E, Kumar S H, et al. Low rank fusion based transformers for multimodal sequences[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:ACL,2020:29-34.
[7]Wang Yansen, Shen Ying, Liu Zhun, et al. Words can shift:dynamically adjusting word representations using nonverbal behaviors[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI,Press,2019:7216-7223.
[8]Chen Minping, Li Xia. SWAFN: sentimental words aware fusion network for multimodal sentiment analysis[C]//Proc of the 28th International Conference on Computational Linguistics.New York:International Committee on Computational Linguistics,2020:1067-1077.
[9]Rao Tianrong, Li Xiaoxu, Xu Min. Learning multi-level deep representations for image emotion classification[J].Neural Processing Letters,2020,51(3):2043-2061.
[10]Zadeh A, Chen Minghai, Poria S, et al. Tensor fusion network for multimodal sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL,2017:1103-1114.
[11]Liu Zhun, Shen Ying, Lakshminarasimhan V B, et al. Efficient low-rank multimodal fusion with modality-specific factors[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:ACL,2018:2247-2256.
[12]Zadeh A B, Liang P P, Poria S, et al. Multimodal language analysis in the wild:CMU-MOSEI dataset and interpretable dynamic fusion graph[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:ACL,2018:2236-2246.
[13]Pham H, Liang P P, Manzini T, et al. Found in translation: learning robust joint representations by cyclic translations between modalities[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:6892-6899.
[14]Tang Jiajia, Li Kang, Jin Xuanyu, et al. CTFN: hierarchical lear-ning for multimodal sentiment analysis using coupled-translation fusion network[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:ACL,2021:5301-5311.
[15]Chauhan D S, Akhtar M S, Ekbal A, et al. Context-aware interactive attention for multimodal sentiment and emotion analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Proces-sing.Stroudsburg,PA:ACL,2019:5647-5657.
[16]Han Wei, Chen Hui, Gelbukh A, et al. Bi-bimodal modality fusion for correlation-controlled multimodal sentiment analysis[C]//Proc of the 29th ACM International Conference on Multimodal Interaction.New York:ACM Press,2021:6-15.
[17]包廣斌,李港樂,王國雄.面向多模態情感分析的雙模態交互注意力[J].計算機科學與探索,2022,16(4):909-916.(Bao Guangbin, Li Gangle, Wang Guoxiong. Bimodal interactive attention for multimodal sentiment analysis[J].Journal of Frontiers of Compu-ter Science and Technology,2022,16(4):909-916.)
[18]宋云峰,任鴿,楊勇,等.基于注意力的多層次混合融合的多任務多模態情感分析[J].計算機應用研究,2022,39(3):716-720.(Song Yunfeng, Ren Ge, Yang Yong, et al. Multimodal sentiment analysis based on hybrid feature fusion of multi-level attention mechanism and multitask learning[J].Application Research of Compu-ters,2022,39(3):716-720.)
[19]Rahman W, Hasan M K, Lee S, et al. Integrating multimodal information in large pretrained transformers[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:ACL,2020:2359-2369.
[20]Yu Wenmeng, Xu Hua, Yuan Ziqi, et al. Learning modality-specific representations with self-supervised multi-task learning for multimodal sentiment analysis[C]//Proc of the 35th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2021:10790-10797.
[21]Sun Hao, Wang Hongyi, Liu Jiaqing, et al. CubeMLP: an MLP-based model for multimodal sentiment analysis and depression estimation[C]//Proc of the 30th ACM International Conference on Multimedia.New York:ACM Press,2022:3722-3729.
[22]Han Wei, Chen Hui, Poria S. Improving multimodal fusion with hie-rarchical mutual information maximization for multimodal sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL,2021:9180-9192.
[23]Hazarika D, Zimmermann R, Poria S. MISA: modality-invariant and specific representations for multimodal sentiment analysis[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:1122-1131.
[24]Wu Jianfeng, Mai Sijie, Hu Haifeng. Graph capsule aggregation for unaligned multimodal sequences[C]//Proc of the 23rd ACM International Conference on Multimodal Interaction.New York:ACM Press,2021:521-529.
[25]Sun Zhongkai, Sarma P, Sethares W, et al. Learning relationships between text, audio, and video via deep canonical correlation for multimodal language analysis[C]//Proc of the 34th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020: 8992-8999.
[26]Devlin J, Chang Mingwei, Lee K, et al. BERT:pre-training of deep bidirectional transformers for language understanding[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:ACL,2019:4171-4186.
[27]Degottex G, Kane J, Drugman T, et al. COVAREP:a collaborative voice analysis repository for speech technologies[C]//Proc of the 39th International Conference on Acoustics,Speech and Signal Processing.New York:IEEE Press,2014:960-964.
[28]Baltruaitis T, Robinson P, Morency L P. OpenFace: an open source facial behavior analysis toolkit[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2016:1-10.
[29]Fu Ziwang, Liu Feng, Xu Qing, et al. NHFNET:a non-homogeneous fusion network for multimodal sentiment analysis[C]//Proc of IEEE International Conference on Multimedia and Expo.Piscataway,NJ:IEEE Press,2022:1-6.
[30]Zadeh A, Liang P P, Poria S, et al. Memory fusion network for multi-view sequential learning[C]//Proc of the 32nd AAAI Confe-rence on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:5634-5641.
[31]Wu Ting, Peng Junjie, Zhang Wenqiang, et al. Video sentiment analysis with bimodal information-augmentedmulti-head attention[J].Knowledge-Based Systems,2021,235(10):article ID 107676.