文培煜,聶國豪,王興梅,2,吳沛然
1. 哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001
2. 哈爾濱工程大學(xué) 水聲技術(shù)全國重點(diǎn)實(shí)驗(yàn)室,黑龍江 哈爾濱 150001
情感識(shí)別技術(shù)的研究開始于20 世紀(jì)80 年代,但直到近年來才得到廣泛關(guān)注和應(yīng)用。情感識(shí)別技術(shù)對于了解社會(huì)輿情、預(yù)測用戶需求、改善服務(wù)質(zhì)量等方面具有重要意義。目前,情感識(shí)別已經(jīng)應(yīng)用到社交網(wǎng)絡(luò)、輿情分析等領(lǐng)域中,并取得了顯著的成果。例如,在輿情分析方面,情感識(shí)別技術(shù)可以幫助政府和媒體準(zhǔn)確了解公眾對某一事件或政策的態(tài)度和情緒,為輿論引導(dǎo)和政策制定提供參考。
情感識(shí)別存在不同粒度級(jí)別,包括篇章、詞、句子。本文著重于句子級(jí)別的情感識(shí)別。張悅[1]基于時(shí)延神經(jīng)網(wǎng)絡(luò)和雙向編碼器表示提出ECAPA-TDNN-LSTM(emphasized-channel-attention,propagation and aggregation in TDNN,LSTM),并將其應(yīng)用于語音情感識(shí)別;鄭艷等[2]提出了一種結(jié)合一維卷積以及門控循環(huán)單元模型(convolution gated recurrent unit, CGRU),緩解了模型過擬合問題;Wang 等[3]提出了一種斷開的遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,RNN),將信息流限制在固定的步長;Lin 等[4]在句子建模過程中運(yùn)用了自注意機(jī)制;Wang 等[5]采用了基于膠囊網(wǎng)絡(luò)的方法,利用一個(gè)積極和一個(gè)消極的膠囊來捕捉相應(yīng)的情感特征,許多外部資源,包括詞性標(biāo)注工具、情感詞典、句法等,通常可以為情感分類提供補(bǔ)充信息。由于情感詞匯包含情感詞的一般和準(zhǔn)確的情感得分,Teng 等[6]將它們與上下文敏感權(quán)重相結(jié)合,以確定最終的情感得分。與此不同的是,Tay 等[7]將情感詞匯作為詞級(jí)先驗(yàn),利用對積極詞匯和消極詞匯的注意機(jī)制來改進(jìn)情感特征提取;Socher 等[8]在解析樹上應(yīng)用遞歸自編碼器和遞歸神經(jīng)張量網(wǎng)絡(luò);Tai 等[9]和Zhu 等[10]用樹形拓?fù)鋵鹃L短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)進(jìn)行了擴(kuò)展。
然而,越來越多的網(wǎng)絡(luò)網(wǎng)站允許用戶上傳視頻和圖片來表達(dá)自己,這使得只關(guān)注文本的方法是不夠的。因此,人們提出和進(jìn)行了大量的研究工作來理解多模態(tài)數(shù)據(jù)中的情感。這些工作不僅為使用多模態(tài)數(shù)據(jù)可以獲得更好的性能提供了證據(jù),而且還探索了如何有效地利用多模態(tài)數(shù)據(jù),這仍然是多模態(tài)情感分析中需要解決的關(guān)鍵問題。
如何有效地融合多模態(tài)特征以充分利用多模態(tài)數(shù)據(jù)是目前研究的熱點(diǎn)。Chen 等[11]提出了帶時(shí)間注意的門控多模態(tài)嵌入長短期記憶網(wǎng)絡(luò)(gated multimodal embedded long and short-term memory networks with temporal attention, GMELSTM(A)),解決了話語級(jí)特征的融合會(huì)使詞級(jí)特征中包含的大量局部信息丟失這個(gè)問題。GMELSTM(A)采用門機(jī)制對多模態(tài)特征進(jìn)行細(xì)化,并在詞級(jí)上進(jìn)行融合。Zadeh 等[12]設(shè)計(jì)了記憶融合網(wǎng)絡(luò)(memory fusion network, MFN),該網(wǎng)絡(luò)捕獲了跨越不同模式和時(shí)間的相互作用。范習(xí)健等[13]提出一種融合聽覺模態(tài)和視覺模態(tài)信息的兩模態(tài)情感識(shí)別方法。 Xu 等[14]提出了包含2 個(gè)交互記憶網(wǎng)絡(luò)的多交互記憶網(wǎng)絡(luò)(multi-interaction memory network containing 2 interaction memory networks, MIMN)來監(jiān)督給定目標(biāo)的文本和視覺信息。這些工作都表明有效地融合圖像信息可以幫助模型獲得更好的性能。林子杰等[15]為了通過輔助任務(wù)學(xué)習(xí)更多情感傾向的視頻和語音表征,提高多模態(tài)融合的效果,提出了一種基于多任務(wù)學(xué)習(xí)的多模態(tài)情感識(shí)別方法。
上述方法存在計(jì)算量較大、僅限于時(shí)序數(shù)據(jù)的問題以及沒有考慮使用更多的模態(tài)數(shù)據(jù),為了解決以上問題且同時(shí)利用文本、視頻、音頻3 種模態(tài)解決噪聲干擾,提升情感識(shí)別的精確度與魯棒性,本文提出一種基于模態(tài)融合的情感識(shí)別方法,融合文本、視頻、音頻3 種模態(tài)數(shù)據(jù)并挖掘其中的互補(bǔ)信息,然后利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)以及注意力機(jī)制捕捉融合特征的上下文信息得到豐富的新的特征表示,解決單模態(tài)情感識(shí)別信息不全面、容易受噪聲干擾等問題,從而提高情感識(shí)別的精確度。
本文提出了基于模態(tài)融合的情感識(shí)別網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)分為特征提取模塊、特征融合模塊、特征增強(qiáng)模塊和下游任務(wù)模塊4 個(gè)部分。特征提取模塊用于提取模態(tài)特征;特征融合模塊可以得到多模態(tài)融合特征;隨后,搭建了特征增強(qiáng)模塊獲得信息更加豐富的新的特征表示;最后,搭建了下游任務(wù)模塊,接受新的特征表示并輸出情感分類結(jié)果。
基于模態(tài)融合的情感識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 基于模態(tài)融合的情感識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)
特征提取模塊分為3 個(gè)部分,分別是提取文本、視頻、音頻3 個(gè)不同模態(tài)的單模態(tài)特征。提取特征時(shí),分別將單一模態(tài)數(shù)據(jù)輸入模型進(jìn)行提取。因?yàn)槲谋尽⒁纛l與視頻均是連續(xù)不斷的序列模態(tài),所以本實(shí)驗(yàn)中采取的是雙向門控網(wǎng)絡(luò)(bidirectional gated recurrent unit, BiGRU)來分別提取單模態(tài)特征。BiGRU 和LSTM 或雙向長短期記憶網(wǎng)絡(luò)(bi-directiona long short-term memory, BiLSTM)是常見的深度學(xué)習(xí)模型。BiGRU 和LSTM/BiLSTM在情感識(shí)別方面的共同之處是它們能夠處理序列數(shù)據(jù)并捕捉上下文信息。它們具備記憶能力,能夠在輸入序列中保留并利用先前的信息。LSTM 是一種經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(luò),通過遺忘門、輸入門和輸出門的機(jī)制來控制信息的傳播和遺忘,從而更好地處理長期依賴關(guān)系。在情感識(shí)別任務(wù)中,LSTM 能夠捕捉文本中的上下文信息,有助于對情感進(jìn)行分類。BiLSTM 是LSTM 的變種,它通過在模型中引入反向傳播來獲取更全面的上下文信息。BiLSTM 能夠同時(shí)利用過去和未來的信息,對文本語境進(jìn)行更好的建模。BiGRU 是另一種循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),與BiLSTM類似,能夠在模型中同時(shí)利用過去和未來的信息。與LSTM/BiLSTM 相比,BiGRU 具有更簡化的門控機(jī)制,使其計(jì)算效率更高,BiGRU 通常能夠提供更全面的上下文信息,有助于提高情感識(shí)別的性能。
由于文本、音頻與視頻均可看作是序列模態(tài),所以模型主體仍采用BiGRU 網(wǎng)絡(luò)。BiGRU 是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)。具體來說,BiGRU 解決了傳統(tǒng)RNN 的梯度消失問題,同時(shí)對遠(yuǎn)程依賴關(guān)系進(jìn)行建模。目前的研究表明,在分類過程中使用這種網(wǎng)絡(luò)來整合上下文信息是有好處的。BiGRU 的優(yōu)點(diǎn)在于其具有較強(qiáng)的建模能力,能夠捕捉到長距離依賴關(guān)系,同時(shí)也比傳統(tǒng)的RNN 模型有更快的訓(xùn)練速度和更好的魯棒性。BiGRU 是由2 個(gè)方向不同的門控循環(huán)單元(gated recurrent unit, GRU)層組成的神經(jīng)網(wǎng)絡(luò),其中一個(gè)從前向后讀取輸入序列,另一個(gè)從后向前讀取輸入序列。每個(gè)GRU 層包含了1 個(gè)重置門、1 個(gè)更新門和1 個(gè)隱藏狀態(tài)。重置門為網(wǎng)絡(luò)提供了從歷史信息中遺忘不重要信息的能力,而更新門則提供了從新信息中選擇需要保留的信息的能力。BiGRU 將正向和反向的輸出拼接在一起,形成最終的輸出向量表示,該表示捕獲了整個(gè)序列的上下文信息。BiGRU 中的每個(gè)時(shí)間步可以用如下公式計(jì)算:
前向GRU 單元:
后向GRU 單元計(jì)算公式與前向一致。
式中: σ為sigmoid函數(shù),tanh為雙曲正切激活函數(shù), ⊙為對應(yīng)位置相乘,xt為輸入序列的第t個(gè)時(shí)間步的向量表示,W和b為輸入的權(quán)重矩陣和偏置向量,U為隱藏狀態(tài)的權(quán)重矩陣。在BiGRU 中,前向和后向GRU 單元的參數(shù)是獨(dú)立的,所以它們各自擁有一組W、U和b。
進(jìn)行單模態(tài)特征提取時(shí),首先分別將文本、音頻、視頻3 種單模態(tài)可訓(xùn)練數(shù)據(jù)輸入BiGRU 網(wǎng)絡(luò);然后將BiGRU 網(wǎng)絡(luò)最終輸出的向量表示經(jīng)過一個(gè)大小為100 的全連接層;之后經(jīng)過tanh激活層,再乘以一個(gè)掩碼矩陣;最后將所得結(jié)果以一定概率進(jìn)行選擇性丟棄(dropout),得到的結(jié)果作為文本、音頻、視頻的單模態(tài)特征。
經(jīng)過特征提取的3 種單模態(tài)特征的維度全部被調(diào)整一致。
特征融合模塊的作用是將特征提取模塊所提取的3 種單模態(tài)特征進(jìn)行多模態(tài)融合操作,將3 種單一模態(tài)特征轉(zhuǎn)換為一種比任何單一模態(tài)具有更加豐富信息的多模態(tài)融合特征。文中為了體現(xiàn)注意力融合的效果,采取2 種融合方法,分別是直接拼接與基于注意力的多模態(tài)融合。
對于輸入的3 種模態(tài)的特征數(shù)據(jù),若采用直接拼接的融合方式,則是直接將3 種模態(tài)特征數(shù)據(jù)按列拼接在一起;若采用基于注意力的多模態(tài)融合方式,則是利用注意力機(jī)制進(jìn)行融合。首先將3 種模態(tài)按列拼接在一起,然后循環(huán)處理每一句話語的3 種模態(tài)特征(此時(shí)每句話語的3 種模態(tài)特征已被拼接在一起),將每句話語的拼接特征經(jīng)過一個(gè)大小為100 的全連接層,然后經(jīng)過一個(gè)tanh層激活,將激活值與一個(gè)服從標(biāo)準(zhǔn)差為0.01、正態(tài)分布的維度為(100,1)的矩陣進(jìn)行矩陣相乘,將相乘結(jié)果經(jīng)過softmax層得到注意力權(quán)重向量,將注意力權(quán)重向量與拼接特征進(jìn)行矩陣相乘得到的就是每句話語的多模態(tài)融合特征。
注意權(quán)重向量 α和融合后的多模態(tài)特征向量F的計(jì)算方法如下:
式中:B為3 種單模態(tài)特征按列拼接在一起得到的多模態(tài)特征,WF∈Rd×d為全連接層的權(quán)重矩陣,ωF∈Rd為服從正態(tài)分布的矩陣,α ∈R3,F(xiàn)∈Rd。
所有周圍的話語在目標(biāo)話語的情感分類中并不是具有相同相關(guān)性的。為了放大上下文豐富話語的貢獻(xiàn),本模塊使用了注意力機(jī)制與雙向循環(huán)神經(jīng)網(wǎng)絡(luò)BiGRU。
本文將M個(gè)話語級(jí)特征序列(由上一模塊得到的融合特征F或單模態(tài)特征)輸入BiGRU。設(shè)x∈Rd×M輸入到BiGRU 網(wǎng)絡(luò),其中M為視頻中的話語數(shù)。矩陣x可以表示為x=[x1,x2,···,xM],其中xt∈Rd,t∈[1,M],xt是每條話語的多模態(tài)融合特征。
該BiGRU 網(wǎng)絡(luò)的輸出表示為H∈R2d×M,即根據(jù)多模態(tài)融合特征得到語境感知的話語表示特征H,其中H=[h1,h2,···,hM],ht∈R2d,ht是每條話語的融合特征經(jīng)過BiGRU 網(wǎng)絡(luò)得到的新的特征表示。
圖2 中第2、5 行的圓圈表示經(jīng)由BiGRU 網(wǎng)絡(luò)得到的話語表示特征ht,第4 行的圓圈表示注意權(quán)重向量 αt,第3 行的圓圈表示加權(quán)隱藏表示rt。rt是由話語表示特征H與注意權(quán)重向量 αt進(jìn)行對應(yīng)位置相乘操作所得到的,其目的是將計(jì)算得到的注意力權(quán)重賦予話語表示ht,得到的rt是結(jié)合了經(jīng)過注意力機(jī)制放大后的上下文信息的表示特征,上下文的相關(guān)性在rt上得到充分體現(xiàn)。為了不損失原本話語表示特征ht中包含的話語特征信息,將ht與rt分別乘以權(quán)重矩陣后進(jìn)行矩陣相加得到網(wǎng)絡(luò)最終的輸出h?t,h?t包含了原本話語的特征信息,同時(shí)又綜合了整個(gè)視頻中所有M條話語的上下文信息。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。

圖2 基于注意力的雙向網(wǎng)絡(luò)結(jié)構(gòu)
設(shè)At表示以ht表示的話語的注意力網(wǎng)絡(luò)。At的注意力機(jī)制產(chǎn)生一個(gè)注意權(quán)重向量 αt和一個(gè)加權(quán)隱藏表示rt,其表達(dá)式如下:
式中:Pt∈R2d×M,αt∈RM,rt∈R2d。其中,Wh∈RM×2d×2d、ω ∈RM×2d是權(quán)重矩陣,Wh[t]和ω[t]被第t個(gè)注意力模型使用,t∈[1,M]。
最后,將該話語的BiGRU 表示ht修改為
式中:∈R2d和Wp,Wx∈RM×2d×2d為訓(xùn)練時(shí)需要學(xué)習(xí)的權(quán)重矩陣;t∈[1,M]。
下游任務(wù)模塊接收特征增強(qiáng)模塊中的每個(gè)輸出,進(jìn)行情感分類。分類網(wǎng)絡(luò)主體由3 個(gè)大小為200 的全連接層和1 個(gè)大小與數(shù)據(jù)集情感種類數(shù)相同的全連接層構(gòu)成,最后連接1 個(gè)Softmax層進(jìn)行分類,輸出預(yù)測結(jié)果。
本文損失函數(shù)設(shè)計(jì)分為2 步。Softmax Cross Entropy 是一種常用的損失函數(shù),用于多類別分類任務(wù),Softmax Cross Entropy 損失函數(shù)適用于具有多個(gè)類別的分類問題。它通過將模型輸出的原始分?jǐn)?shù)轉(zhuǎn)換為概率分布,并計(jì)算模型預(yù)測值與真實(shí)標(biāo)簽之間的差異,從而對分類任務(wù)進(jìn)行優(yōu)化和訓(xùn)練。它對于模型參數(shù)的優(yōu)化提供了可導(dǎo)的梯度信息,這使得可以使用基于梯度的優(yōu)化算法(例如梯度下降)來迭代地調(diào)整參數(shù)值,逐漸減小損失函數(shù)的值,從而提高模型的性能。Softmax Cross Entropy 損失函數(shù)在優(yōu)化的過程中,通過最小化不同類別的預(yù)測概率與真實(shí)標(biāo)簽之間的差異,鼓勵(lì)模型在概率輸出上更好地區(qū)分不同的類別。這幫助模型更好地學(xué)習(xí)到類別之間的邊界和特征差異,提高分類的準(zhǔn)確度。此外,在計(jì)算損失時(shí),Softmax Cross Entropy 損失函數(shù)自動(dòng)考慮了多個(gè)類別之間的關(guān)系。通過Softmax 函數(shù)將原始分?jǐn)?shù)轉(zhuǎn)換為概率分布,確保所有類別的概率之和為1。這有助于解決分類問題中的多義性和不確定性,使模型輸出更加合理和可解釋。因此本實(shí)驗(yàn)采用Softmax Cross Entropy 方法為主體,計(jì)算損失。
將網(wǎng)絡(luò)最后一個(gè)全連接層的softmax 操作單獨(dú)提取出來,可得到針對一個(gè)batch 的預(yù)測值 (而非預(yù)測概率值)的Softmax Loss 為
式中 |C|為標(biāo)簽數(shù)量。
其次,利用L2范數(shù)計(jì)算每個(gè)可訓(xùn)練參數(shù)的誤差,防止過擬合,計(jì)算公式如下:
式中:t為張量,sum為求和函數(shù),Aoutput為結(jié)果。
總的損失函數(shù)公式為
式中: λ為超參數(shù),M為一個(gè)batch 內(nèi)的話語總數(shù),K為可訓(xùn)練參數(shù)(張量)的總數(shù)。可以通過調(diào)整λ來防止過擬合。
2.1.1 實(shí)驗(yàn)數(shù)據(jù)集
本文所用到的數(shù)據(jù)集是3 個(gè)多模態(tài)公開數(shù)據(jù)集,分別是CMU-MOSI、CMU-MOSEI、IEMOCAP。
3 個(gè)數(shù)據(jù)集劃分如表1。

表1 實(shí)驗(yàn)數(shù)據(jù)集劃分
2.1.2 實(shí)驗(yàn)性能評(píng)價(jià)指標(biāo)
本文使用了3 個(gè)評(píng)估指標(biāo),分別是分類精確度(accuracy)、F1 得分和損失收斂速度,從這3 個(gè)方面衡量實(shí)驗(yàn)效果的指標(biāo)。由于精確度僅取決于分類結(jié)果是否與標(biāo)簽一致,因此如果樣本分布不均衡,正確率不能很好地反映分類效果以及網(wǎng)絡(luò)的性能。
在樣本不均衡的情形下,精確度過高的意義是不大的,因此精確度指標(biāo)的參考意義可能會(huì)下降,因此,本文采用平均類型為macro 的F1 分?jǐn)?shù),這是一種用于多分類問題的性能評(píng)價(jià)指標(biāo),它綜合了對每個(gè)類別的預(yù)測準(zhǔn)確率和召回率,計(jì)算出一個(gè)在各個(gè)類別上的平均得分且更注重各個(gè)類別之間的平衡性。
2.2.1 消融實(shí)驗(yàn)
本文對文本、音頻、視頻3 個(gè)不同的單模態(tài)以及不同的多個(gè)模態(tài)組合在3 個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。首先分別在3 個(gè)數(shù)據(jù)集的測試集上對3 個(gè)不同單模態(tài)和多模態(tài)組合進(jìn)行實(shí)驗(yàn)并記錄50 輪次的精確度,本文繪制了3 個(gè)單模態(tài)和多模態(tài)組合的每次實(shí)驗(yàn)的精確度曲線圖,如圖3 所示。

圖3 CMU-MOSI 數(shù)據(jù)集上精確度曲線
圖3 中,文本模態(tài)特征的精確度最終收斂約為75%,在各種模態(tài)之間,文本模態(tài)的表現(xiàn)優(yōu)于其他2 種模態(tài),文本加其他模態(tài)的表現(xiàn)也較為突出,因此可以認(rèn)為文本模態(tài)為主要模態(tài),同時(shí)視頻加音頻模態(tài)的表現(xiàn)不如文本模態(tài),可能是特征提取的方式出現(xiàn)問題,需要改進(jìn)音頻和視頻模態(tài)的特征提取方法。多模態(tài)組合的精確度均優(yōu)于3 個(gè)單一模態(tài)的精確度。其中3 種模態(tài)的組合精確度最高,精確度最終收斂約為80%。
圖4 為IEMOCAP 數(shù)據(jù)集上精確度曲線圖,多模態(tài)組合的精確度均優(yōu)于3 個(gè)單一模態(tài)的精確度。文本模態(tài)特征的精確度約62.8%,音頻模態(tài)的精確度約55%,視頻模態(tài)的精確度約36.0%,而2 種多模態(tài)組合均可達(dá)到約63%的精確度,其中3 種模態(tài)的組合精確度最終收斂約為65%。

圖4 IEMOCAP 數(shù)據(jù)集上精確度曲線
圖5 中,多模態(tài)組合的精確度均優(yōu)于3 個(gè)單一模態(tài)的精確度。文本模態(tài)特征的精確度約69.0%,音頻模態(tài)的精確度約66.9%,視頻模態(tài)的精確度約65.3%,而多模態(tài)組合平均可達(dá)到約70%的精確度,其中3 種模態(tài)的組合精確度最終收斂約為76%。

圖5 CMU-MOSEI 數(shù)據(jù)集上精確度曲線
本文還以F1 得分為判斷標(biāo)準(zhǔn),對比每組實(shí)驗(yàn)結(jié)果,來證明在本文的情感分析任務(wù)中使用多模態(tài)的效果優(yōu)于單模態(tài)(T 為文本、A 為音頻、V 為視頻)。表2~4 為3 個(gè)數(shù)據(jù)集上的F1 得分。

表2 CMU-MOSI 上拼接融合的F1 得分 %

表3 IEMOCAP 上拼接融合的F1 得分 %
由表2~4 可知,多個(gè)模態(tài)組合的F1 得分均優(yōu)于單一模態(tài),其中3 種模態(tài)組合的得分最高。
綜上,結(jié)合精確度與F1 得分,本文利用實(shí)驗(yàn)證明了多個(gè)模態(tài)的表現(xiàn)比單一模態(tài)表現(xiàn)更好,識(shí)別的效果更高。同時(shí)也注意到采用了3 種模態(tài)融合方法后比采用單一文本模態(tài)識(shí)別的F1 得分高了約2 個(gè)百分點(diǎn),在此給出分析。首先,模型的訓(xùn)練數(shù)據(jù)量和質(zhì)量對于融合模態(tài)的效果影響很大。如果融合模態(tài)的數(shù)據(jù)集規(guī)模較小,或者其中某些模態(tài)的數(shù)據(jù)質(zhì)量不高,可能限制了整體的效能提升。其次,3 種模態(tài)的信息是否互補(bǔ)也是影響融合效果的關(guān)鍵因素。如果音頻、視頻和文本中的信息存在大量冗余或相似性較高,那么融合的效果可能會(huì)受到限制。此外,文本模態(tài)更易于處理和分析、更具有可解釋性、更易于獲取和標(biāo)注,可能導(dǎo)致文本模態(tài)表現(xiàn)較好,成為主導(dǎo)模態(tài)。最后,融合多種模態(tài)的模型相對于單一文本模式的模型更為復(fù)雜。對于這個(gè)任務(wù),參數(shù)配置對于效果提升較為重要,后續(xù)繼續(xù)調(diào)整參數(shù)可能對性能有一定提升。
2.2.2 融合方法對比實(shí)驗(yàn)
由于在上面的實(shí)驗(yàn)中的多個(gè)模態(tài)的融合方式都是直接拼接,因此本文將注意力機(jī)制加入模態(tài)融合,利用注意力機(jī)制的優(yōu)勢放大3 個(gè)模態(tài)中重要的信息,獲取具有更加豐富信息的融合特征,提升識(shí)別效果。
首先分別在3 個(gè)數(shù)據(jù)集的測試集上對3 個(gè)模態(tài)的不同融合方式進(jìn)行實(shí)驗(yàn)并記錄50 輪次的精確度,本文繪制了3 個(gè)模態(tài)2 種融合方式的每次實(shí)驗(yàn)的精確度曲線圖,如圖6~8 所示。

圖6 CMU-MOSI 數(shù)據(jù)集上拼接與注意力融合精確度曲線

圖7 IEMOCAP 數(shù)據(jù)集上拼接與注意力融合精確度曲線

圖8 CMU-MOSEI 數(shù)據(jù)集上拼接與注意力融合精確度曲線
由圖6~8 可以看出,將注意力機(jī)制應(yīng)用于融合,在一定程度上可以提高識(shí)別精確度,并且能夠縮短收斂時(shí)間。計(jì)算二者的F1 得分指標(biāo),比較識(shí)別性能。表5~7 為模型在3 個(gè)數(shù)據(jù)集上的F1 得分。

表5 CMU-MOSI 上的F1 得分%

表6 IEMOCAP 上的F1 得分%

表7 CMU-MOSEI 上的F1 得分%
如表5~7 所示,通過計(jì)算得到的F1 得分也可以看出基于注意力融合相較拼接融合而言F1 得分指標(biāo)在3 個(gè)數(shù)據(jù)集上分別提升了0.9%、0.4%和0.8%,即情感識(shí)別效果優(yōu)于拼接融合特征。
本文繼續(xù)對2 種融合方式進(jìn)行實(shí)驗(yàn),以loss 收斂速度作為評(píng)價(jià)指標(biāo)。當(dāng)訓(xùn)練模型的損失曲線收斂的越快,代表模型學(xué)習(xí)到了數(shù)據(jù)中更多的信息,從而在相同數(shù)量的迭代次數(shù)下,使模型的訓(xùn)練誤差更小。這也意味著模型可以更好地泛化到未見過的數(shù)據(jù)上,因?yàn)槟P鸵呀?jīng)學(xué)會(huì)了數(shù)據(jù)中的共性特征,而不是只學(xué)習(xí)了數(shù)據(jù)集本身的特定屬性。實(shí)驗(yàn)繪制了在拼接融合和基于注意力融合在訓(xùn)練學(xué)習(xí)時(shí)的loss 損失函數(shù)的前50 輪的損失函數(shù)曲線。圖9~11 為訓(xùn)練損失曲線。

圖9 CMU-MOSI 數(shù)據(jù)集上訓(xùn)練損失曲線

圖10 IEMOCAP 數(shù)據(jù)集上訓(xùn)練損失曲線

圖11 CMU-MOSEI 數(shù)據(jù)集上訓(xùn)練損失曲線
由圖9~11 可見,訓(xùn)練學(xué)習(xí)時(shí)本文所使用的方法都可以使模型收斂,然而,基于注意力融合的特征進(jìn)行訓(xùn)練的損失更小,且其收斂點(diǎn)出現(xiàn)的更早,說明對于同一個(gè)模型而言,基于注意力融合特征比直接拼接的特征有著更快的收斂速度,效果更好。
2.2.3 模型對比實(shí)驗(yàn)
本文還在CMU-MOSI 數(shù)據(jù)集上與支持向量機(jī)(support vector machines, SVM)、LSTM 進(jìn)行了對比實(shí)驗(yàn)。F1 得分結(jié)果如表8 所示。
LSTM 在對比實(shí)驗(yàn)中的表現(xiàn)均優(yōu)于SVM 的表現(xiàn),這是因?yàn)镾VM 在對話語進(jìn)行分類時(shí)無法掌握話語的上下文信息,無法感知話語存在的語境信息。從表8 可以看出,基于注意力的BiGRU 在單模態(tài)與拼接模態(tài)的實(shí)驗(yàn)中總體優(yōu)于LSTM。這再次證實(shí),盡管2 個(gè)網(wǎng)絡(luò)都可以訪問上下文信息,但基于注意力的BiGRU 較LSTM 能力更強(qiáng),能夠捕獲上下文中的關(guān)鍵信息。表8 中還證明了不同融合方式對結(jié)果也存在影響,在同一模型下,基于注意力融合的表現(xiàn)強(qiáng)于拼接融合,可以得到更有效的融合特征。
表8 的數(shù)據(jù)還體現(xiàn)了多模態(tài)的表現(xiàn)是優(yōu)于單一模態(tài)的,不同模態(tài)通過互補(bǔ)信息,能夠得到效果更好的融合特征。
本文對多模態(tài)在情感識(shí)別中的應(yīng)用進(jìn)行了研究,提出了一個(gè)基于模態(tài)融合的情感識(shí)別網(wǎng)絡(luò)模型,通過多模態(tài)融合構(gòu)建融合特征,從而獲得更好的分類效果。對模型進(jìn)行實(shí)驗(yàn)并得出結(jié)論如下:
1)將多模態(tài)學(xué)習(xí)應(yīng)用在情感識(shí)別鄰域,多模態(tài)效果均好于單一模態(tài),其中同時(shí)利用3 個(gè)模態(tài)的效果最優(yōu)。
2)本文提出了一種基于模態(tài)融合的情感識(shí)別網(wǎng)絡(luò)框架。特征融合模塊中基于注意力融合能夠得到表現(xiàn)良好的多模態(tài)融合特征。在特征增強(qiáng)模塊中,將注意力機(jī)制與雙向循環(huán)網(wǎng)絡(luò)BiGRU 結(jié)合,充分地捕捉多模態(tài)融合特征的上下文信息,得到信息更加豐富且全面的新表示。
3)本文提出的網(wǎng)絡(luò)模型的F1 得分均高于SVM 和LSTM,達(dá)到了81.0%。
本文提出的基于模態(tài)融合的情感識(shí)別網(wǎng)絡(luò)在識(shí)別性能上有較好的表現(xiàn),有一定的應(yīng)用價(jià)值。