






摘 要:多模態語音情感識別是近年來在自然語言處理和機器學習領域備受關注的研究方向之一,不同模態的數據存在異構性和不一致性,將不同模態信息有效地融合起來并學習到高效的表示形式是一個挑戰.為此,本文提出了一種新的基于時序信息建模和交叉注意力的多模態語音情感識別模型.首先采用時間卷積網絡(Time Convolutional Network,TCN)提取語音、文本和視頻數據的深層時序特征,使用雙向門控遞歸單元(Bidirectional Gated Recurrent Unit,Bi-GRU)捕捉序列數據的上下文信息,提高模型對序列數據的理解能力.然后基于交叉注意力機制和Transformer構建多模態融合網絡,用于挖掘并捕獲音頻、文本和視覺特征之間交互的情感信息.此外,在訓練過程中引入彈性網絡正則化(Elastic Net Regularization)防止模型過擬合,最后完成情感識別任務.在IEMOCAP數據集上,針對快樂、悲傷、憤怒和中性四類情感的分類實驗中,準確率分別為87.6%、84.1%、87.5%、71.5%,F1值分別為85.1%、84.3%、87.4%、71.4%.加權平均精度為80.75%,未加權平均精度為82.80%.結果表明,所提方法實現了較好的分類性能.
關鍵詞:語音識別; 多模態情感識別; 時間卷積網絡; 交叉注意力機制; 彈性網絡
中圖分類號:TP391.9
文獻標志碼: A
Multimodal emotion recognition based on TCN-Bi-GRU and cross attention Transformer
LI Jia-hua, CHEN Jing-xia*, BAI Yi-min
(School of Electronic Information and Artificial Intelligence, Shaanxi University of Science amp; Technology, Xi′an 710021, China
)
Abstract:Multimodal speech emotion recognition is one of the research directions that has received much attention in the fields of natural language processing and machine learning in recent years.Different modalities of data have heterogeneity and inconsistency,and effectively integrating information from different modalities and learning efficient representation forms is a challenge.Therefore,this article proposes a new multimodal speech emotion recognition model based on temporal information modeling and cross attention.Firstly,a Time Convolutional Network (TCN) is used to extract deep temporal features of speech,text,and video data,and a Bidirectional Gated Recurrent Unit (Bi GRU) is used to capture contextual information of sequence data,improving the model′s ability to understand sequence data.Then,based on the cross attention mechanism and Transformer,a multimodal fusion network is constructed to mine and capture the emotional information of the interaction between audio,text,and visual features.In addition,elastic net regularization is introduced during the training process to prevent overfitting of the model and ultimately complete the emotion recognition task.In the classification experiments on the IEMOCAP dataset for four types of emotions:Happiness,sadness,anger,and neutrality,the accuracy rates were 87.6%,84.1%,87.5%,and 71.5%,respectively,and the F1 values were 85.1%,84.3%,87.4%,and 71.4%,respectively.The weighted average accuracy is 80.75%,and the unweighted average accuracy is 82.80%.The results indicate that the proposed method achieves good classification performance.
Key words:speech recognition; multimodal emotion recognition; time convolutional network; cross attention mechanism; elastic network
0 引言
在人與人交流時,語音攜帶著豐富的情感信息,幫助人們理解彼此的感受和需求.隨著人工智能的普及和信息時代的發展,人們與人工智能設備的交互變得日益頻繁[1].為了使人工智能設備能夠更好地理解人類情感,提供智能、個性化的服務,語音情感識別(Speech Emotion Recognition,SER)應運而生.這項研究的重點是分析語音信號中的音頻特征,推斷并識別說話者的情感狀態,它包括基于語音的情感識別任務和提取并學習語音、文本以及其他數據特征的任務[2].
早期的語音情感識別方法通常依賴于手工設計的特征和機器學習算法,例如使用基于高斯混合模型、隱馬爾可夫模型、支持向量機等方法對聲學特征進行分類[3].Albornoz等[4]提出基于聲學頻譜和韻律信息的七種情感多特征分層方法,比標準分類器和固定特征提高了分類性能.Schmitt等[5]使用由梅爾頻率倒譜系數(MFCC)創建的音頻詞袋(Bag-of-Audio-Words,BoAW)的方法進行語音情感識別,使用支持向量回歸在喚醒和效價維度上連續預測情感.以上方法需要人工提取語音信號的特征,如基音頻率、聲音強度、語速等,并且對噪聲和環境變化敏感,難以處理復雜的情感表達.隨著深度學習技術的發展,深度學習方法能夠自動學習語音信號中的抽象特征,更好地捕捉語音信號中的情感信息.陳婧等[6]提出了一種新的多粒度特征提取方法.該方法基于不同的時間單元,包括短期幀粒度特征、中期片段特征和長期窗口特征.為融合多粒度特征,提出一種基于認知啟發的遞歸神經網絡(CIRNN).通過組合不同時間層次的特征,模擬人類對音頻信號的逐步處理,通過突出情感的時間序列和內容信息的作用,實現多層次的信息融合.近年來,研究者們進一步探索新的模型架構、特征融合方法和數據增強技術,以提高情感識別的性能.Sun等[7]提出一種基于DNN決策樹SVM模型的語音情感識別方法,既能挖掘語音信號的深層情感信息,又能從易混淆的情緒中提取出更豐富的情感特征.將傳統機器學習方法與深度學習方法相結合成為研究語言情感識別的一種有效方式[8].
在語音情感識別研究中,研究者們逐漸認識到單一模態往往無法提供足夠豐富的信息幫助模型理解說話者的情感狀態.同時,人類語言的表達具有歧義性和欺詐性,同一句話用不同的語氣、語調會傳達出不同的情感,單一模態的語音情感識別無法準確理解這些細微的差別.為解決單模態存在的局限性,現有學者開始探索引入多模態數據對語音情感識別進行深入研究.這一趨勢使得多模態語音情感識別(Multimodal Speech Emotion Recognition,MSER)成為越來越多研究者關注的焦點.
然而,不同模態數據之間存在著互補性,也存在沖突性,多模態語音情感識別面臨著如何利用來自不同模態數據間的相關性和互補性進行有效融合的挑戰.Wang等[9]受Transformer的啟發,提出了一種新的融合方法Trans-Modality,將語音、文本和視頻特征通過Transformer進行特征學習和融合,通過全連接層進行分類,取得顯著的分類效果.隨著多模態語音情感識別的不斷研究,注意力機制扮演著越來越重要的作用,它可以提高模型對語音信號中與情感相關的重要特征的關注度.Yoon等[10]使用兩個雙向長短期記憶網絡獲取話語的隱藏表示,并提出一種名為Multi-hop的注意力機制,用來自動推斷模態之間的相關性,提高了模型的識別性能.Pan等[11]基于語音、文本和視頻三種模態提出了一種新的多模態注意力機制(cLSTM-MMA),有選擇地融合了音頻、文本和肢體語言信息,實現較優的情感識別性能.上述研究表明,多模態方法在泛化性和潛在表示的方面優于單模態方法[12],多模態輸入會進一步提高模型的情感分類性能[13];不同模態的信息對最終情感識別性能的貢獻是不同的,模型應該更加關注識別分類時提供更多有效信息的模態.
本文采用結合時序卷積和Transformer的復雜網絡提取并學習語音、文本和視頻多模態特征,捕獲多模態特征之間的內在聯系.采用時間卷積網絡挖掘時序數據的深層特征,學習深層特征中的情感信息.通過雙向門控循環單元使模型更全面地理解序列信息,有效地捕捉時序數據中的長期依賴關系和上下文信息.為了更好的將不同模態的信息進行融合,基于Transformer采用交叉注意力機制(Cross attention mechanism)將多模態特征進行交互融合,提高模型的識別準確率.同時,訓練過程中使用彈性網絡正則化方法避免過擬合問題的出現,增強模型的魯棒性和泛化性.
本文的其余組織結構如下:第二節介紹所提出的方法,第三節介紹了數據集與實驗設置,第四節展示了實驗結果及分析,第五節進行了總結.
1 本文方法
本文基于語音、文本和視頻三種模態,構建了一種基于TCN-Bi-GRU時序網絡和交叉注意力Transformer相結合的情感識別模型(Emotion recognition model based on TCN-Bi-GRU temporal network and cross attention Transformer,TB-CAT),其整體框架如圖1所示.
1.1 基于交叉注意力的Transformer
面對具有復雜對齊關系的多模態數據時,解決來自不同模態的特征融合成為設計多模態語音情感識別模型的巨大挑戰.在廣泛的人工智能任務中Transformer發揮著重要作用,由于其注意力機制在長序列建模方面表現突出,在自然語言處理領域取得了巨大成功.Tsai等[14]提出名為MulT(Multimodal Transformer)的模型,引入跨模態的交叉注意力機制捕捉語音、文本和面部表情數據特征之間的聯系,在對四類情感的識別準確率和F1值上實現了高水平的識別效果.受其啟發,本文搭建了基于三種模態的交叉注意力Transformer(Cross attention Transformer,CAT)融合網絡,通過交叉注意力機制學習語音、文本和視頻模態之間的相互作用.
基于交叉注意力Transformer的融合網絡由三種模態彼此交互的6個跨模態Transformer組成,利用交叉注意力引導一種模態關注另一種模態并相應地更新特征,學習兩種模態之間的關聯.融合后的多模態特征經過自注意力Transformer提取更重要的情感信息[15],最終完成識別任務.融合網絡的核心是交叉注意力Transformer塊,該模塊可以有效地處理每個模態輸入的時序信息,減少訓練過程中任何一個模態的信息損失,其結構如圖2所示.
假設語音模態輸入A和文本輸入T基于多頭交叉注意力機制進行跨模態交互,輸入序列表示為X=[x1,x2,…,xn],其中n是序列的長度,Xα表示語音序列,Xβ表示文本序列.
多頭注意力機制通過h組不同的線性投影來變換查詢(Query,Q)、鍵(Key,K)和值(Value,V),將h組注意力頭的輸出拼接在一起產生最終輸出,通過計算多組注意力,進一步提高模型對不同特征的表達能力.以下為多頭注意力公式:
MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
(1)
式(1)中:head1,head2,…,headh代表多頭注意力機制中的每個注意力頭,它們具有相同的結構,不同的參數.Wo是多頭注意力的輸出進行線性變換的參數矩陣.
注意力機制公式如下:
headh=Attention(Q,K,V)
(2)
交叉注意力公式如下:
Attention(XAWQA,XTWKT,XTWVT)=softmaxXAWQA*XTTWTKTdkXTWVT
(3)
式(3)中:將式(2)中的Q定義為QA=XαWQα,K定義為Kβ=XβWKβ,V定義為Vβ=XβWVβ.將XA乘以可訓練參數矩陣WQA作為注意力中的Q的線性變換,將XT分別乘以可訓練的參數矩陣WKT,WVT作為注意力中的K和V的線性變換,其中WQA,WKT和WVT是可學習的權重矩陣.dk是Q或K的向量維度,除以dk是為了緩解梯度爆炸或梯度消失問題.
基于交叉注意力的Transformer以一種模態的Q通過多個注意力層與另一種模態中的K和V交互,允許模型在不同空間上學習不同的關系,提高了模型對復雜關系的建模能力,在處理多模態數據時能更好地捕捉不同特征之間的關系.
1.2 TCN-Bi-GRU
在多模態語音情感識別中,語音、文本等數據通常為時序數據,長距離上下文信息具有相關性和依賴性.由于語音情感識別任務是需要考慮長期依賴關系的任務,普通的CNN受限于局部感受野的大小,難以捕獲到較長時間跨度的信息,因此提出了一種時間卷積網絡與雙向門控循環單元的組合模塊(TCN-Bi-GRU)對時序信息進行建模,提取數據深層特征并捕捉上下文信息.
為了更好地對三種模態的特征序列的交互進行建模,首先將多模態特征維度大小對齊,利用TCN卷積層提取多模態數據的高階特征,這些特征可以更好地表達多模態數據中的局部模式和全局趨勢.通過位置嵌入層將時間信息注入特征序列[16],輸入Bi-GRU捕捉特征序列的上下文信息,幫助模型更好地理解特征在上下文中的含義,有助于更準確地捕捉序列中的長期依賴關系.
時間卷積網絡[17]的卷積架構旨在處理序列數據,具有因果卷積、擴張卷積和殘差連接的卷積網絡架構.TCN可以確保輸出特征維度與輸入序列長度相同實現對齊特征維度,利用卷積層捕獲時序數據中的局部和全局特征.TCN基本描述如下:
TCN=1D FCN+causal convolutions
(4)
式(4)中:1D FCN代表1維全卷積網絡,causal convolutions為因果卷積.
本實驗主要采用TCN卷積層進行操作.對于一維序列輸入x∈Rn和濾波器f:{0,…,k-1}→R,擴張卷積運算F在序列元素s上的定義如下:
F(s)=∑k=1i=0f(i)·xs-d·i
(5)
式(5)中:d是膨脹因子,k是濾波器大小,s-d·i表示過去的方向.擴張因果卷積如圖3所示.
為捕捉到序列數據中的長期依賴關系,采用Bi-GRU進一步提取更豐富和高級的特征表示.GRU模型基于LSTM細胞結構改變而來,混合了隱藏狀態和單元狀態,并將輸入門和遺忘門組合為一個更新門[18].Bi-GRU則是在GRU模型基礎上引入了雙向結構,從而更好地捕捉序列數據的雙向上下文信息,Bi-GRU結構如圖4所示.
Bi-GRU的門控機制通過兩個門自適應調整信息的流動,更新門控制過去的信息能夠繼續保留到當前時刻的數據量,重置門決定如何將過去的信息與新的信息相結合,并確定過去的信息將被遺忘的程度[19].假設輸入序列x=(x1,x2,…,xT),其中xT是序列中的第t個時間步的特征向量,T為序列長度.GRU單元可由以下公式表達:
更新門:
zt=σ(Wz·[ht-1,xt]+bz)
(6)
式(6)中:zt為門控更新信號,σ為sigmoid函數,Wz為權重矩陣,xt為當前輸入值,ht-1為上一時刻輸出值,bz為偏置項.
重置門:
rt=σ(Wr·[ht-1,xt]+br)
(7)
式(7)中:rt為重置信號,Wr為權重矩陣,br為偏置項.
隱藏節點的候選:
h~t=tanh(Wh·[rt·ht-1,xt]+bh)
(8)
式(8)中:ht~為候選隱含狀態,Wh為權重矩陣,bh為偏置項.
更新隱藏狀態:
ht=(1-zt)·ht-1+zt·h~t
(9)
TCN有效地提取多模態數據深層特征,Bi-GRU捕捉時序數據中的上下文信息,幫助模型更好地理解和利用時序信息.TCN-Bi-GRU時序網絡可以更好地理解和利用多模態數據中的情感信息,提高情感識別的準確性.
1.3 彈性網絡-正則化
為緩解在數據較少或數據質量較差的情況下模型易過擬合的問題,本文引入彈性網絡正則化幫助模型進行訓練.彈性網絡(正則化)結合了L1正則化(Lasso)和L2正則化(Ridge),旨在克服Lasso和Ridge分別的缺點,常用于處理具有高維特征和強特征相關性的數據集,允許根據特定問題在特征選擇和權重收縮之間進行權衡.本文在損失函數中添加正則化項,實現彈性網絡正則化方法.
彈性網絡的損失函數形式如下:
Loss=A(W)+λ1W1+λ2|W22
(10)
式(10)中:A(W)為模型原始損失函數(交叉熵損失函數),表示模型預測值與實際值之間的交叉熵誤差.λ1和λ2是正則化參數,用于控制L1和L2正則化的懲罰強度.λ1W1表示L1正則化項,鼓勵稀疏性和特征選擇,即推動一些特征的系數變為零,有助于選擇最相關的特征并降低模型的復雜性.λ2W22表示L2正則化項,用于產生平滑的系數,減小特征之間的系數差異,防止任何一個特征主導模型的預測,提高模型的穩定性.
彈性網絡同時考慮到了L1和L2正則化的影響,不僅能通過改變L1來提高模型預測精度,也能通過L2來防止模型過擬合[20],彈性網絡正則化為模型的魯棒性和泛化性提供保障.
2 數據集與實驗設置
為了進行性能評估,在IEMOCAP數據集上訓練和測試了所提出的MSER模型,這是一個廣泛用于多模態情感識別研究的數據集.
2.1 數據集
IEMOCAP(交互式情感二元運動捕捉數據庫)[21]數據集來源于南加州大學SAIL實驗室.它包含關于音頻和文字記錄以及面部表情的信息,該數據集包含兩個人之間的對話記錄,并由人工注釋和驗證.由南加州大學戲劇系的7名專業演員和3名高年級學生,選出了5名女演員和5名男演員.該數據庫被記錄來自10位演員的面部、頭部和手部標記,在腳本化和自發的口語交流場景中提供有關他們面部表情和手部動作的詳細信息.10個專業演員(5男5女),扮演的雙人對話一共分為5個Session,每個Session1男1女.由于選定的劇本有女性和男性角色,因此在5個會話中的每個會話中都記錄了一個男演員和一個女演員.本文選擇常用的4種情感(快樂、悲傷、憤怒和中性)進行實驗.情感數據樣本分布如表1所示.
2.2 實驗設置
本文基于NVIDA GeForce GTX 3090顯卡、32 GB內存的centos操作系統下的pytorch框架展開實驗.采用Adam優化模型,使用了32的批量大小、3×10-3的學習率和3.5×10-3的丟棄率進行訓練.Transformer配置選擇為5層,具有20個注意力頭和40維隱藏單元.TCN使用了三個不同的卷積核,分別針對語音、文本和視頻模態,卷積核大小分別為5、3、3.使用ReLU函數作為激活函數.Bi-GRU固定了尺寸為128的隱藏維度.彈性網絡正則化中,L1正則化項設置為1.5×10-4,L2正則化項設置為1.25×10-3.
本文使用實驗數據來自Tsai等[14]的研究,以下為多模態數據特征提取方法:
文本:將文本數據利用預訓練模型Glove[22](Glove.840B.300d)進行詞嵌入,嵌入大小為300維向量.
語音:使用COVAREP[23]聲學分析框架進行特征提取.提取聲學特征包括12個梅爾頻率倒譜系數(MFCC)、音高跟蹤和有聲/無聲分割特征、聲門源參數、峰值斜率參數和最大色散商.特征維度為74.
視頻:使用面部表情分析工具包FACET表示35個面部動作單元,以記錄面部肌肉運動,用于表示每幀的基本和高級情感.
3 實驗結果與分析
本節使用IEMOCAP數據集對所提模型在加權精度(WA)、未加權精度(UA)、準確率(Acc)以及F1值(F1 score)上進行四類情感識別實驗,對實驗結果進行分析和討論.通過消融實驗證明了更多的情感信息對模型的良好性能至關重要,驗證了所提模型結構的合理性與有效性.
3.1 對比試驗
本文采用CV-10驗證方法,對比實驗結果如表2、表3所示.在表2中,Zhang等[24]提出基于多頭注意力融合網絡模型(MAFN),創新的改變Transformer編碼器輸入部分并對多模態建模完成情感識別任務,WA和UA分別為75.6%和71.4%.賈寧等[25]基于音頻、文本和面部表情信息提出一種多性能指標下的多模態融合方案,實現了高精度、強泛化的識別效果,WA和UA分別為77.9%和78.8%.觀察發現,所提出方法的相較于MAFN在WA上提高了0.051 5,在UA上提高了0.114.相較于賈寧等的方法在WA上提高了0.028 5,在UA上提高了0.04.證明了TCN-Bi-GRU有助于模型學習到更深層次的時序特征,基于交叉注意力機制的Transformer融合網絡有效地捕獲了不同模態間的情感信息,提高了模型的識別準確率.
在表3中,Wang等[26]提出了遞歸注意變異嵌入網絡(RAVEN),對非語言子詞序列的細粒度結構建模,并基于非語言線索動態地改變詞的表示完成情感識別任務.觀察表3,所提方法相較于RAVEN,快樂的F1值降低了0.003,其余情感的Acc分別提高0.004、0.012、0.002、0.019,F1值分別提高0.015、0.006、0.022.所提方法相較于MulT,在生氣(Angry)的Acc和F1值分別提升0.001和0.003,中性(Neutral)F1值上提升0.008.根據實驗結果分析,快樂由于情感樣本較少,訓練過擬合導致模型不穩定,測試性能降低.模型捕獲時序信息的上下文信息和長期依賴關系,對于中性和生氣兩種情感的識別性能提升顯著,悲傷情感的識別性能影響微弱.
本文所提方法對多模態特征進行深層提取和學習,挖掘不同模態間的互補信息,提高了模型識別性能.在評價指標UA、WA、Acc和F1值上與先進結果的比較具有一定競爭力.
3.2 消融實驗
為了進一步研究各個構成要素對TB-CAT的影響,本文進行了消融實驗,其結果如表4所示.
觀察表4中第一部分可以發現,僅以視頻為目標模態進行交互時,相較于以語音為目標模態交互與以文本為目標模態交互,中性的Acc分別提升0.044 8和0.023 7,F1值分別提升0.039 5和0.024 1.生氣的Acc分別提升0.014 9和0.022 9,F1值分別提升0.014 3和0.022 5.結果表明,視頻模態中的視覺信息對于判斷說話者的中性和生氣情感具有關鍵作用.
觀察表4中第二部分可以發現,當三種模態同時交互融合時,僅使用交叉注意力Transformer(CAT)的模型在四類情感的Acc和F1值上與以一種模態為目標模態進行交互融合時的結果相近.當模型加入TCN-Bi-GRU后,除悲傷的Acc略微降低0.003 8,其余情感的Acc分別提高0.010 9、0.039 5、0.020 5,F1值分別提高0.001 2、0.001 1、0.032 3、0.029 6.證明了模型加入TCN-Bi-GRU時序網絡增強對特征序列的理解,使模型整體的識別性能提高.加入彈性網絡正則化后,四類情感的Acc分別提升0.005 8、0.002 1、0.003 4、0.012 2,F1值分別提升0.011 4、0.000 5、0.001、0.012 5.證明了正則化方法有效地改善了小數據集在訓練過程中過擬合的問題,增強了模型的穩定性.
4 結論
本文提出了一種新的多模態語音情感識別方法,針對語音、文本和視頻三種模態搭建了基于時間卷積和交叉注意力的Transformer模型.將時間卷積網絡與雙向門控循環單元結合有效地提取了多模態數據深層特征,幫助模型捕獲時序數據信息中的上下文信息和長期依賴關系.通過基于交叉注意力機制的Transformer融合網絡挖掘不同模態特征之間的互補關系,學習并融合語音、文本和視頻特征的情感信息,解決了多模態數據有效融合的問題,提高了模型分類識別的效果.此外,在訓練過程中引入彈性網絡正則化,控制了模型的復雜度降低了過擬合的風險.結果表明,所提出的模型在IEMOCAP數據集上實現了具有競爭力的識別性能.
參考文獻
[1] Akay M B,Ogˇuz K.Speech emotion recognition:Emotional models,databases,features,preprocessing methods,supporting modalities,and classifiers[J].Speech Communication,2020,116:56-76.
[2] Geethu V,Vrindha M K,Anurenjan P R,et al.Speech emotion recognition,datasets,features and models:A review[C]//2023 International Conference on Control,Communication and Computing (ICCC).Thiruvananthapuram:IEEE,2023:1-6.
[3] Khalil R A,Jones E,Babar M I,et al.Speech emotion recognition using deep learning techniques:A review[J].IEEE Access,2019,7:117 327-117 345.
[4] Albornoz E M,Milone D H,Rufiner H L.Spoken emotion recognition using hierarchical classifiers[J].Computer Speech amp; Language,2011,25(3):556-570.
[5] Schmitt M,Ringeval F,Schuller B.At the border of acoustics and linguistics:Bag-of-audio-words for the recognition of emotions in speech[C]//Proceedings of the 17th Annual Conference of the International Speech Communication Association.San Francisco:ISCA,2016:495-499.
[6] 陳 婧,李海峰,馬 琳,等.多粒度特征融合的維度語音情感識別方法[J].信號處理,2017,33(3):374-382.
[7] Sun L,Zou B,Fu S,et al.Speech emotion recognition based on DNN-decision tree SVM model[J].Speech Communication,2019,115:29-37.
[8] 羅德虎,冉啟武,楊 超,等.語音情感識別研究綜述[J].計算機工程與應用,2022,58(21):40-52.
[9] Wang Z,Wan Z,Wan X.Transmodality:An end2end fusion method with transformer for multimodal sentiment analysis[C]//Proceedings of the Web Conference.New York:ACM,2020:2 514-2 520.
[10] Yoon S,Byun S,Dey S,et al.Speech emotion recognition using multi-hop attention mechanism[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP).Brighton:IEEE,2019:2 822-2 826.
[11] Pan Z,Luo Z ,Yang J ,et al.Multi-modal attention for speech emotion recognition[C]//Proceedings of the 21st Annual Conference of the International Speech Communication Association.Shanghai:ISCA,2020:364-368.
[12] Huang Y,Du C,Xue Z,et al.What makes multi-modal learning better than single (provably)[J].Advances in Neural Information Processing Systems,2021,34:10 944-10 956.
[13] Chen W,Xing X,Xu X,et al.Key-sparse transformer for multimodal speech emotion recognition[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP).Singapore:IEEE,2022:6 897-6 901.
[14] Tsai Y H H,Bai S,Liang P P,et al.Multimodal transformer for unaligned multimodal language sequences[C]//Proceedings of the Conference Association for Computational Linguistics.Florence:NIH Public Access,2019:6 558-6 569.
[15] Maji B,Swain M,Guha R,et al.Multimodal emotion recognition based on deep temporal features using cross-modal transformer and self-attention[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP).Rhodes Island:IEEE,2023:1-5.
[16] Wang X,Wang M,Qi W,et al.A novel end-to-end speech emotion recognition network with stacked transformer layers[C]//ICASSP 2021-2021 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP).Toronto:IEEE,2021:6 289-6 293.
[17] Yang L,Liu J.EEG-based emotion recognition using temporal convolutional network[C]//2019 IEEE 8th Data Driven Control and Learning Systems Conference (DDCLS).Dali:IEEE,2019:437-442.
[18] Zhu Z,Dai W,Hu Y,et al.Speech emotion recognition model based on Bi-GRU and focal loss[J].Pattern Recognition Letters,2020,140:358-365.
[19] Maji B,Swain M.Advanced fusion-based speech emotion recognition system using a dual-attention mechanism with conv-caps and bi-gru features[J].Electronics,2022,11(9):1 328-1 345.
[20] 賀文灝,王德賢,鄧 萍,等.基于彈性網絡正則化的隱因子預測模型[J].計算機應用與軟件,2019,36(7):287-293.
[21] Busso C,Bulut M,Lee C C,et al.IEMOCAP:Interactive emotional dyadic motion capture database[J].Language Resources and Evaluation,2008,42:335-359.
[22] Pennington J,Socher R,Manning C D.Glove:Global vectors for word representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).Doha:ACL,2014:1 532-1 543.
[23] Degottex G,Kane J,Drugman T,et al.COVAREP-A collaborative voice analysis repository for speech technologies[C]//2014 IEEE International Conference on Acoustics,Speech and Signal Processing (Icassp).Florence:IEEE,2014:960-964.
[24] Zhang J,Xing L,Tan Z,et al.Multi-head attention fusion networks for multi-modal speech emotion recognition[J].Computers amp; Industrial Engineering,2022,168:108 078-108 088.
[25] 賈 寧,鄭純軍.融合音頻、文本、表情動作的多模態情感識別[J].應用科學學報,2023,41(1):55-70.
[26] Wang Y,Shen Y,Liu Z,et al.Words can shift:Dynamically adjusting word representations using nonverbal behaviors[C]//Proceedings of the AAAI Conference on Artificial Intelligence.Hawaii:AAAI,2019:7 216-7 223.
【責任編輯:蔣亞儒】