中圖分類號:TB9;TP183 文獻標志碼:A 文章編號:1674-5124(2025)07-0001-08
Abstract: Aiming at the problem that Transformer has insuficient ability to extract temporal features and local information in speech emotion recognition, this article proposes anew deep learning architecture that integrates BiLSTM, Transformer and 2D-CNN. This model processes diffrent types of acoustic features respectively through two independent channels:the BiLSTM-Transformer channel is mainly used to capture temporal dependence and global context information, while the 2D-CNN channel focuses on extracting spatial features in Spectrograms and Mel-spectrogram. Meanwhile,this paper designs a multi-feature fusion strategy to effectively fuse the Spectrogram, Mel-spectrogram and eGeMAPS feature set, thereby enhancing the emotion recognition ability of the model. Experiments were conducted on the two datasets of CASIA and EMO-DB, achieving accuracy rates of 93.41% and 92.46% respectively. These results are significantly superior to the existing methods based on a single acoustic feature, indicating that the proposed multi-feature fusion strategy can effectively improve the emotion recognition performance of the model. Keywords: speech emotion recognition; BiLSTM; multi-feature fusion; Transformer
0 引言
語音不僅是人類交流的基本載體,也是情緒表達的重要方式[1]。隨著人工智能的發展,語音情感識別(speech emotion recognition,SER)在智能助手、情感計算和虛擬現實等人機交互場景中得到廣泛關注[2]。然而,如何高效提取情感特征并構建準確分類模型仍是關鍵挑戰。
早期研究主要基于音高、共振峰和能量等傳統聲學特征[3],這些特征可分為韻律、音質和頻譜三類[4。其中,頻譜特征因能有效刻畫語音的時頻動態,在情感識別中應用最廣。但傳統特征在捕捉復雜、細微情緒方面能力有限,限制了識別性能的提升[5]。
近年來,深度學習憑借自動特征學習能力在SER任務中取得顯著進展,尤其是卷積神經網絡(convolutionalneuralnetworks,CNN)結合聲譜圖的應用表現突出。聲譜圖能直觀呈現語音信號的時頻變化,有助于捕捉與情緒相關的動態特征,而CNN通過局部感知和參數共享機制提升了建模效率。文獻[顯示,將聲譜圖與MFCC聯合輸人一維CNN,在RAVDESS和EMO-DB數據集上分別達到71.61% 與 86.1% 的準確率。
為彌補CNN在建模長時序信息方面的不足,研究者引人長短時記憶網絡(longshort-termmemory,LSTM)。文獻驗證了LSTM在捕捉長期依賴方面的有效性,但其對靜態特征敏感,可能引發響應延遲與不穩定性。雙向長短記憶力網絡(bidirectional long short-term memory, BiLSTM)通過雙向結構增強時間上下文建模能力,能更好識別跨時間間隔的情感模式[8,但在處理長期依賴時存在一定局限,難以保持長時間的上下文信息[9]
Transformer的提出為SER帶來了新的研究方向。該模型基于自注意力機制,最初用于自然語言處理,因其優異的全局建模能力與并行計算性能,逐漸應用于SER任務[1o]。相較于LSTM,Transformer在捕捉長時依賴和全局上下文信息方面表現更強,訓練效率也更高。文獻[11]提出的CTNet框架采用
Transformer建模多模態特征,在IEMOCAP與MELD數據集上取得顯著效果,驗證了其在情感識別中的有效性。
盡管Transformer具備并行優勢,但其每步需全局計算,計算成本較高;而LSTM雖效率更高,卻難以建模全局依賴。為結合兩者優勢,研究者提出BiLSTM-Transformer混合架構[12],利用BiLSTM處理局部時序信息,Transformer捕捉全局依賴,提升建模能力同時降低資源消耗[13]。多頭注意力機制的引入進一步增強了特征序列的并行處理能力,使該混合模型在SER任務中表現出良好性能,為情感識別中的長期依賴建模提供了高效解決方案。
當前深度學習模型在SER中主要關注頻譜圖或梅爾譜圖等靜態聲學特征的空間建模,較少涉及語音信號的動態時序依賴。為提升識別性能,研究者開始探索多通道特征融合方法,通過聯合建模空間與時序特征實現更全面的情感表達。文獻[14]提出多通道設計策略,有效實現兩類特征的協同建模;文獻[15]則通過融合全局聲學特征與局部頻譜信息,分別在無加權和加權準確率上達到 74.2% 和75.4% 。此外,文獻[16基于多通道特征提取與一維CNN結構,進一步驗證了多特征融合策略在SER中的有效性。
盡管現有方法顯著提升了SER的分類性能,但在模型結構設計與特征融合策略上仍存在不足。單一模型難以全面挖掘語音中的多層次情感信息,多特征融合方式亦有待進一步優化。為此,本文提出一種融合BiLSTM-Transformer與CNN的多特征語音情感識別模型。該模型首先利用CNN分別從語譜圖和梅爾頻譜圖中提取空間特征,隨后通過BiLSTM-Transformer結構建模其時序依賴關系。為增強特征表達能力,引入并行雙分支結構融合多源特征,并結合多頭注意力機制提取高階特征。最終,融合特征經全連接層降維后輸入Softmax分類器,實現情感類別預測。
1系統模型
本文提出的SER模型架構如圖1所示,包括特征提取模塊、頻域特征提取模塊、時域特征提取模塊和特征融合模塊。頻域特征模塊利用2D-CNN分別從語譜圖和梅爾頻譜圖中提取局部空間特征;時域特征提取模塊采用BiLSTM-Transformer網絡建模語音信號中的長時序依賴關系。此外,為了更有效地整合兩種異構特征的優勢,本文設計了并行處理的雙通道特征提取策略,并引入多頭注意力機制進一步捕捉特征間的內在關聯。該融合策略不僅增強了不同模態特征的互補性,還有效提升了模型的泛化能力與情感識別準確性。
1.1 頻域特征提取模塊
頻域特征提取模塊旨在從語譜圖和梅爾頻譜圖中提取多尺度空間特征,捕捉與情感相關的局部時頻變化。該模塊采用2D-CNN對兩種輸入分別進行處理,先以 5×5 的卷積核提取粗粒度特征,再通過 3×3 的卷積核獲取更細致信息。每次卷積后均引入批量歸一化與ReLU激活函數以增強非線性表達能力并加快收斂。最大池化用于壓縮特征圖尺寸,降低過擬合風險。兩路特征圖經獨立處理后沿通道維拼接,實現梅爾譜與語譜特征融合。融合結果進一步通過多層卷積與池化層。在特征展平與全連接過程中引入Dropout機制,以提高魯棒性并緩解過擬合。最終,特征圖經Flatten展平后通過兩層全連接降維至128維,用于后續融合處理。
1.2 時域特征提取模塊
盡管BiLSTM和Transformer均具備全局建模能力,但兩者在建模機制上具有互補性。BiLSTM擅長捕捉局部時序依賴,適用于建模語音的短時動態特征,而Transformer更適合處理長距離上下文關系。在本模型中,BiLSTM用于提取基礎時序特征,Transformer進一步強化全局語義建模。
本模塊以eGeMAPS(extendedGenevaMinima-listicAcousticParameterSet)特征集合作為輸人特征,每 200ms 提取一幀特征,針對每段語音生成一個形狀為 88×t 的時序特征矩陣,其中t為時間步數量。88為每幀特征維度,該特征序列隨后被輸入至BiLSTM以實現局部時序信息建模。BiLSTM由前向和后向兩個LSTM層組成,前向LSTM按照時間順序處理輸入序列,捕捉前向上下文信息;后向LSTM則逆序處理輸入序列,提取后向上下文特征。本模塊如圖2所示。單向LSTM的更新公式如下:
ot=σ(Wo?[ht-1,xt]+bo)
ht=σt?tanh(Ct)
式中: σ —激活函數;逐元素乘法;
xt t時刻的輸入序列;
Ct 細胞狀態;
臨時細胞狀態;
ht -當前時間步的隱層狀態;
(204號 ht-1 前一時間步的隱層狀態;
ft 遺忘門;
1 記憶門;
σσt 1 輸出門;
bf?bi?bc? bo ——遺忘門、記憶門、細胞狀態輸出門的偏置。
通過三個門控制信息進出單元的傳輸,最終得到與輸入序列長度相同的隱層狀態序列。
在BiLSTM中,前向與后向隱藏狀態在每個時間步進行拼接, ht 表示為
ht=[ht-f⊕ht-b]
式中: ht-f —正向傳播;
(204號 ht-b —反向傳播。
在捕獲局部時序特征后,BiLSTM的輸出序列進一步輸入至Transformer編碼器,以增強全局上下文建模能力。Transformer首先對每個時間步的BiLSTM輸出添加位置編碼,以保留時序位置信息:
Zt=ht+Pt
其中, ?Pt 表示第 t 個時間步的位置編碼向量。
隨后,采用多頭自注意力機制動態建模各時間步之間的關聯性,其計算過程為:
其中, 為當前輸入序列中每個位置的查詢向量, K 表示與
配對使用的向量, V 是根據
和 K 計算出的注意力權重向量, dk 為向量維度。 Q,κ 和 V 通過輸入特征的線性映射生成, W 為其對應的權重矩陣。
Q=ZWQ,K=ZWK,V=ZWV
最終通過多頭機制并拼接各個注意力頭的結果。在自注意力建模后,Transformer編碼器通過前饋神經網絡進一步提升特征表達能力:
FFN(x)=ReLU(xW1+b1)W2+b2
1.3 特征融合模塊
為了進一步整合來自頻域和時域的多源特征信息,本文在特征融合階段采用多頭注意力機制(multi-headattention,MHA)對融合特征進行深層建模,并通過堆疊全連接網絡模塊逐步提升特征的判別能力,最終實現情感類別的準確預測。MHA結構如圖3所示。
具體而言,設來自頻域分支和時域分支的特征分別記為 !
。為了統一特征維度,首先對兩路特征進行拼接操作,得到融合特征向量:
Fcon=[F1;F2]∈Rd
其中 d=d1+d2 ,本研究中 d=256 。
隨后,融合后的特征向量被送入多頭注意力模塊,以充分挖掘不同特征分量之間的相互依賴關系
和重要性。多頭注意力機制首先通過線性映射生成 矩陣:
Q=FconWQ,K=FconWK,V=FconWV
其中, WQ,WK,WV∈Rd×d 為可學習的權重矩陣。
每個注意力頭的輸出計算如式(9)所示,將所有注意力頭的輸出拼接后,再通過線性變換得到多頭注意力輸出:
MHA(Fcon)=Concat(head1,…,headh)WO
式中: h —頭數;
WO 一 輸出線性層的權重矩陣。
多頭注意力輸出后,特征被送入堆疊的全連接模塊,每個模塊包括:線性映射,批量歸一化層,激活函數,Dropout以緩解過擬合。經過一次全連接模塊結構后,再接人第二個相同結構的全連接模塊,最后,將輸出的特征送入Softmax分類器,生成最終預測類別。多頭注意力機制如圖3所示。
2語料庫描述與特征提取
2.1 情感語料庫
為了驗證本文所提出語音情感識別模型的有效性,選用CASIA中文語音情感語料庫[17]與EMO-DB德語語音情感語料庫[18]。
CASIA語料庫由中國科學院自動化研究所構建,在無噪音錄音環境下由4位專業播音員(2男2女)錄制完成。該語料庫包含6種基本情感類別,共計9600條情感語音。其中,公開可獲取部分包括每類情感各200條語音,總計1200條樣本。
EMO-DB語料庫由德國柏林工業大學采集完成,錄制過程在專業的聲學環境中進行,參與者包括5位男性與5位女性播音員,共表達7種基本情感,語音樣本總數為535條。
2.2 特征提取
特征提取是從語音信號中獲取有效情感信息的關鍵步驟,對語音情感識別至關重要。本文利用Python的Librosa庫提取幀級頻譜特征。
語譜圖通過短時傅里葉變換生成,是二維時頻表示,橫軸為時間,縱軸為頻率,顏色強度反映能量幅值,能較好保留語音細節,適合捕捉頻率隨時間的動態變化。圖4展示了語音樣本的語譜圖。
梅爾頻譜圖通過將語譜圖的頻率軸映射到符合人類聽覺的梅爾刻度上,獲得更加貼合感知的時頻表示。圖5展示了語音樣本的梅爾頻譜圖。
eGeMAPS是一組標準化聲學參數,包含88個高層語音特征(HSFs),由25個低級描述符計算而成,涵蓋頻域、能量及頻譜平衡等信息。作為有效的音頻特征,eGeMAPS在語音情感識別中廣泛應用。本文采用OpenSmile工具從語音信號中提取該特征集,用于后續情感識別。
3 實驗與分析
3.1 實驗設置
本實驗采用了Pytorch深度學習框架實現,具體硬件配置為:GPU使用NVIDIAGeForceRTX3080,內存為32GB,CPU為IntelCorei7-14700K。算法仿真實驗基于Python編程語言進行實現。為了優化模型的性能,實驗選擇了Adam優化器,并采用了分類交叉熵損失函數,將其參數設置為:批量大小為32,初始學習率為0.001,優化迭代次數設定為100。優化器的學習率在訓練過程中進行了動態調整,以實現更好的收斂效果。實驗所用的評價指標為準確率(Accuracy)、召回率(Recall)和F1值。
3.2 實驗結果對比
3.2.1 N 值確定
在本次實驗中,為了進一步優化模型,確定 N 的值,測試了不同數量的Transformer編碼器,并分別在EMO-DB和CASIA數據集上進行了實驗,旨在分析Transformer編碼器數量對模型性能的影響。實驗結果如圖6所示。
實驗結果顯示,當 N=3 時,兩數據集均達到較高準確率;但繼續增加數量后,EMO-DB準確率出現下降,可能因過擬合或訓練效率降低。由此,本文選取3為Transformer編碼器數量。
3.2.2 消融實驗結果
為驗證不同類型特征對模型性能的影響,本文在CASIA和EMO-DB兩個數據集上分別進行單一特征輸入的消融實驗,實驗結果如表1所示。
表1單一特征消融實驗準確率
%
表1顯示了梅爾譜圖在兩數據集均表現最佳,優于eGeMAPS和語譜圖。eGeMAPS準確率最低。總體來看,梅爾譜圖在情感識別中表現最優。
為驗證不同特征組合對模型性能的影響,本文設計了多組特征融合的消融實驗。通過對比各組合在不同數據集上的表現,分析特征融合的優勢和適配性。實驗結果見表2和表3。
表2顯示,多特征融合顯著提升了情感識別性能。三種特征聯合達到最高準確率 93.41% 、召回率 92.86% 和F1值 93.12% 。任意兩種特征組合也優于單一特征,其中語譜圖與梅爾譜圖融合準確率達 92.62% ,表明兩類頻譜特征互補性良好。
表3顯示,多特征融合顯著提升了EMO-DB數據集上的模型性能。三種特征融合在準確率、召回率和F1值均表現最佳。隨著融合特征數量增加,識別準確率穩步提升,驗證了異構特征的互補性和融合優勢。
表2CASIA多特征組合消融實驗
%
表3EMO-DB多特征組合消融實驗
%
3.2.3 混淆矩陣分析結果
為分析模型在各情感類別上的表現,繪制了CASIA和EMO-DB數據集的混淆矩陣。圖7和圖8分別展示了CASIA和EMO-DB數據集的混淆矩陣。
圖7的混淆矩陣顯示,模型在憤怒、高興和悲傷的識別準確率較高,分別達到 98%.96% 和 98% 。害怕與中性情感間存在一定誤判,可能因聲學特征相似所致。總體來看,模型在CASIA數據集表現穩定,驗證了多特征融合策略的有效性。
準確率
圖8EMO-DB混淆矩陣圖
圖8的混淆矩陣顯示,模型在高興和悲傷情感上的識別準確率較高,分別為 98% 和 97% ,分類效果理想。厭惡與恐懼情感存在一定混淆,可能因發音節奏和聲調相似所致。整體來看,模型在EMO-DB數據集上表現穩定,驗證了方法的跨語言情感識別能力。
進一步分析模型的識別結果發現,“害怕\"在CASIA中易被誤判為\"中性\",\"驚訝\"在EMO-DB中也與\"厭惡\"存在混淆。原因可能在于這些情感在聲學特征上存在相似性,同時樣本數量偏少,加之個體表達差異,導致模型判別困難。后續研究可結合注意力可視化或聽覺感知分析,進一步探討易混情感的識別機制。
3.2.4模型計算與資源開銷分析
為評估所提出模型的計算復雜度與資源開銷,本文統計了主要模塊的參數量,如表4所示,
從表4可以看出,整體模型參數量約為 6.2×106 其中2D-CNN分支約 2.1×106 ;時域特征提取模塊約為 3.7×106 ;融合模塊與全連接分類器部分參數量約為 0.4×106 。在本實驗設置的硬件平臺下,模型對單條語音的平均推理時間為 68ms ,可滿足部分實時或準實時的語音情感識別需求。同時,在推理過程中,GPU使用率約為 64% ,CPU使用率約為 71% 具備較好的硬件適配性。
3.2.5 模型對比分析
為全面驗證本文模型的優越性,本文在CASIA與EMO-DB兩個數據上選取多種具有代表性的現有模型作為對比對象,通過比較不同模型在識別準確率上的表現,驗證所提多特征融合結構在情感識別任務中的有效性與魯棒性。
如表5所示,本文模型在CASIA數據集上獲得了 93.41% 的識別準確率,顯著優于其他對比方法。其中,相比DRSN-BiGRU提升了7.38個百分點,相比2DCNN-LSTM提升了5.92個百分點,較CNN-Transformer也提升了2.56個百分點。結果表明,本文在多特征融合、時空聯合建模的設計,有效提升了模型的情感識別能力。
如表6所示,本文所提出的模型在EMO-DB數據集上實現了 92.46% 的識別準確率。相比改進語音處理加2-DCNN模型提升了9.06個百分點,相比ASGRU-CNN提升了3.52個百分點,較Dense-DCNN提升了1.4個百分點,略高于CNN-Transformer模型的 92.04% 。在所有對比模型中表現最優。結果表明本文提出的多特征融合策略與雙通道建模結構具備良好的魯棒性與泛化能力。
3.2.6 t-SNE可視化分析
為了深入分析模型在EMO-DB數據集上的性能表現,采用t-SNE技術對高維特征空間進行降維可視化。效果如圖9和圖10所示。
圖9展示了EMO-DB數據集的t-SNE可視化圖,情感類別在特征空間中分布清晰,聚類明顯。憤怒、快樂、厭惡等情緒集中且界限分明。體現了模型對細粒度情感的辨識能力。
圖10展示了CASIA數據集的可視化圖,各情感類別在嵌入空間中呈現出良好的聚類效果,其中,憤怒、悲傷、驚訝等類別邊界清晰,表明本文模型顯著提升了情感特征的判別性。
4結束語
本文提出基于雙通道時空融合注意力網絡的多特征語音情緒識別模型,通過將BiLSTM替代Transformer位置編碼,提升了時間上下文建模能力并降低計算復雜度;2D-CNN通道則強化了頻譜圖的局部特征提取。實驗表明,該融合模型在多個數據集上表現優異,顯著提升了識別準確率和魯棒性,為情感計算提供了有效的結構設計思路,具備良好的應用前景。盡管所提模型在多個數據集上取得了較高的準確率,某些相近情感類別之間仍存在一定的識別混淆。后續研究中可嘗試結合更細粒度的聲學標注、樣本重加權機制進一步提升模型區分能力。
參考文獻
[1]SINGH Y B,GOEL S.A systematic literature review of speech emotion recognition approaches[J].Neurocomputing, 2022,492:245-263.
[2]唐咸榮,高瑞貞.聯合CTC 和 Transformer的輪式移動機器 人語音控制研究[J].中國測試,2024,50(6):117-123. TANGXR,GAOR Z.Research on voice control ofwheeled mobile robots combining with CTC and Transformer[J]. China Measurement amp; Test,2024,50(6):117-123.
[3]TANKO D,DEMIR FB,DOGAN S,etal.Automated speech emotion polarization for a distance education system based on orbital local binary pattern and an appropriate sub-band selection technique[J].Multimedia Tools and Applications, 2023,82(26):40839-40856.
[4]VASUKI P.Design of hierarchical classifier to improve speech emotion recognition[J].Computer Systems Science amp; Engineering,2023,44(1).
[5]KSHIRSAGAR S R,FALK T H.Quality-aware bag of modulation spectrum features for robust speech emotion recognition[J]. IEEE Transactions on Affective Computing, 2022,13(4): 1892-1905.
[6]ISSA D,DEMIRCI M F,YAZICI A.Speech emotion recognition with deep convolutional neural networks[J]. Biomedical Signal Processing and Control,2020,59:101894.
[7]張學友,石永建,李冀,等.應用LSTM-RNN的特高壓直流 輸電系統繼電保護故障檢測方法[J].中國測試,2025, 51(3): 177-184. ZHANGXY,SHIYJ,LiJ,etal.Research onfault detection method of UHV DC transmission system relay protection based on LSTM-RNN[J].China Measurement amp; Test,2025, 51(3): 177-184.
[8]MISHRA S,BHATNAGARN,PRAKASAMP,et al. Speech emotion recognition and classification using hybrid deep CNN and BiLSTM model[J].Multimedia Tools and Applications, 2024,83(13):37603-37620.
[9]常澤煜,田亮.基于Bi-LSTM和Kalman的光伏發電功率超 短期預測[J].中國測試,2025,51(5):141-147. CHANG Z Y, TIAN L. Photovoltaic power generation ultrashort-term power prediction based on Bi-LSTMand Kalman[J].China measurementamp; Test,2025,51(5):141- 147.
[10] TANGXY,HUANGJZ,LINYX,et al.Speech emotion recognition via CNN-Transformer and multidimensional attention mechanism[J].Speech Communication,2025: 103242.
[11] LIAN Z,LIUB,Tao JH. CTNet: Conversational transformer network for emotion recognition[J]. IEEE/ACM Transactions onAudio,Speech,and Language Processing,2021,29:985- 1000.
[12] DONG J,ZHANG Y L,HU J. Short-term air quality prediction based on EMD-transformer-BiLSTM[J].Scientific Reports,2024,14(1):20513.
[13]LUC,ZONGY,ZHENGWM,etal.Domain invariant feature learning for speaker-independent speech emotion recognition[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2022,30: 2217-2230.
[14]KHAN M,GUEAIEB W,SADDIK A E,etal.MSER: Multimodal speech emotion recognition using cross-attention with deep fusion[J].Expert Systemswith Applications,2024, 245:122946.
[15]FENGL,LIULY,LIUSL,etal.Multimodal speech emotion recognition based on multi-scale MFCCs and multi-view attention mechanism[J]. Multimedia Tools and Applications, 2023,82(19): 28917-28935.
[16] LIU M Y, RAJ A NJ, RAJANGAM V, et al.Multiscalemultichannel featureextractionandclassification throughonedimensional convolutional neural network for Speech emotion recognition[J].Speech Communication,2024,156:103010.
[17] LIU SH,ZHANG MY,FANG M,et al.Speech emotion recognition based on transfer learning from the FaceNet framework[J]. the Journal of the Acoustical Society of America,2021,149(2):1338-1345.
[18]BURKHARDT F,PAESCHKE A,ROLFES M,etal.A database of German emotional speech[C]//Conference of the International Speech Communication Association,2005.
[19] HAN T, ZHANG Z, RRN M Y,et al. Speech emotion recognition based on deep residual shrinkage network[J]. Electronics,2023,12(11): 2512.
[20] ZHAOJF,MAOX,CHENLJ.Speech emotion recognition usingdeep 1Damp; 2D CNNLSTMnetworks[J].Biomedical signal processing and control, 2019, 47: 312-323.
[21]BAUTISTAJL,LEE YK,SHINH S.Speech emotion recognition based on parallel CNN-attention networks with multi-fold data augmentation[J]. Electronics, 2022, 11(23): 3935.
[22]喬棟,陳章進,鄧良,等.基于改進語音處理的卷積神經網絡 中文語音情感識別方法[J].計算機工程,2022,48(2):281- 290. QIAOD,CHENZJ,DENGL,et al.Methodforchinese speech emotion recognition based on improved speechprocessingconvolutional neural network[J]. Computer Engineering,2022,48(2): 281-290.
[23]高鵬淇,黃鶴鳴.基于ASGRU-CNN時空雙通道的語音情 感識別[J].計算機仿真,2024,41(4):180-186. GAO P Q, HUANG H M. Speech emotion recognition based on ASGRU-CNN spatiotemporal dual channel[J].Computer simulation,2024,41(4):180-186.
[24] LIL Q,XIE K,GUO XL,et al.Emotion recognition from speech with StarGAN and Dense - DCNN[J]. IET Signal Processing,2022, 16(1): 62-79.
(編輯:譚玉龍)