





摘 要:隨著大數據的快速發展,深度學習技術已經能夠自動提取語音的深度特征表征,突破了傳統機器學習存在的瓶頸。然而,如何在有限的資源下有效利用多模態信息所承載的復雜情感特征,是情感識別領域的挑戰之一。為了解決這個問題,文中提出了基于知識蒸餾(KD)的輕量級多模態神經網絡,分別訓練教師網絡和(TN)和學生網絡(SN)。最后,文中結果驗證了模型未來跨平臺使用的有效性。
關鍵詞:大數據;深度學習;多模態;情感識別;知識蒸餾;神經網絡
中圖分類號:TP389.1 文獻標識碼:A 文章編號:2095-1302(2024)06-00-04
0 引 言
情感識別可以使人機交互的過程更加流暢和自然[1]。在早期研究中,主要通過語音做情感識別,語音情感識別主要集中在傳統的機器學習算法[2-3]領域,隨后深度學習方法迅速成為情感識別領域的主流方法。唐等人采用卷積神經網絡(CNN)和循環神經網絡(RNN)相結合的方法提取語音情感特征,捕捉長期依賴,得到了很好的結果[4]。然而,這種方法面臨2個問題:情感表達的多樣性和大量參數。對于前者,文中采用語音、文本多模態方式,將跨模態自我注意機制植入網絡模型中,以充分捕捉跨模態的情感信息。對于后者,文中采用知識蒸餾作為模型壓縮技術,在提高識別率的同時壓縮模型,其易跨平臺移植。
1 網絡模型設計
1.1 教師網絡(TN)
1.1.1 卷積神經網絡提取語音特征
文中采用卷積神經網絡提取語音特征。卷積神經網絡已被廣泛用于序列建模,該模型減少了網絡中的參數數量,避免了特征提取和分類過程中過于復雜的數據重建和過度擬合,空間不變性使得該模型更加穩健[5]。梅爾頻譜在一定程度上模仿了人類信息接收的模式,被廣泛應用于語音識別和語音情感識別[6]。文中構建的網絡結構如圖1所示。
在特征提取過程中,正則化可以稀疏性地選取有效特征,此舉不僅有助于加快模型訓練速度,還能提高模型的準確性。與批量歸一化(BN)相比,濾波-響應歸一化(FRN)層使用二次參數在(W,H)維度上進行歸一化,以消除中間操作引起的問題。文中使用FRN層作為卷積神經網絡中的正則化機制。FRN計算公式如下所示:
(1)
式中:γ和β代表可學習的參數;xi代表特征向量;c表示很小的正常量;N表示維度;vi表示計算后的特征向量;參數t是可學習的參數。在FRN層后是閾值邏輯單元(TLU),可避免在結果中任意偏移零值會產生大量零值并導致模型訓練困難等問題。
1.1.2 堆疊Transformer網絡提取文本特征
傳統的特征表示是指對文本數據使用單次傳統特征表示,忽略詞與詞之間的關聯性,導致語義關系、結構組織和上下文等信息丟失。因此,使用GloVe向量以避免這些問題。根據文本的特點,將長度設定為128個單詞,詞嵌入向量的維數為300。
Transformer結構完全依賴于自我注意,不使用序列對齊的RNN或卷積,以一種更容易促進捕獲任意位置的文本之間的長期依賴關系方式來計算輸入-輸出表示[7]。由于任務不同,文中對Transformer結構的解碼器做了改進,通過一層卷積塊代替位置嵌入,以充分利用文本的序列和空間信息。編碼器的結果與從卷積塊獲得的空間表征一起被送入多頭自注意層,最終學習出深度文本特征表征。文中設置了三層Transformer結構來提取包含上下文信息的特征表示,用文本的詞嵌入作為網絡結構的輸入。
1.1.3 跨模態聯合注意機制(CMJA)
自我注意機制已經被證明在序列數據生成中取得了不錯的效果[8]。文中采用跨模態聯合注意機制來學習語音和文本之間的相似性,避免獨立于說話人情感識別所產生的噪音,增強了情感特征的識別能力。在跨模態之前,文中使用對齊機制將文本與語音序列對齊。整個過程分為3個階段。第一階段包括對輸入序列進行線性變換,獲得3個向量Qa、Kt和Vt,公式如下所示:
(2)
式中:Qa、Kt和Vt分別代表語音特征向量的查詢、文本特征向量的鍵和值;Wq,Wk和Wv分別表示查詢、權重和值的參數矩陣;Xa和Xt分別是語音和文本特征的表示。第二階段通過縮放點積計算Qa和Kt的相似度權重。最后,重要特征的權重Softmax機制促進對重要特征的關注而忽略不相關的數據。公式如下所示:
(3)
式中:dk是對Qa維度的縮放系數;Qa、Kt和Vt分別代表語音特征向量的查詢、文本特征向量的鍵和值,表示經過跨模態計算后的特征向量。
1.2 基于教師網絡和學生網絡的知識蒸餾技術(SN_KD)
知識蒸餾最早用于壓縮模型和減少模型延遲[9-10],專注于詞的嵌入和目標分布估計,并使用自然語言處理領域的知識提煉技術來提高語言模型和機器翻譯性能。這些通過使用預訓練網絡產生的隱性知識來實現,用以訓練新的、較淺的網絡。受此啟發,文章在情感識別領域使用知識蒸餾技術,以獲得高性能、易于跨平臺移植的網絡。
知識蒸餾的第一步是教師網絡訓練,在教師網絡中,語音特征提取器的輸入特征為梅爾頻譜圖,向量表示為Audioinput=(x1, x2, ..., xn),學習的深層特征表示為H1=(h1, h2, ..., hm)。此外,我們還提取了語音的prosody特征,定義為P=(x1, x2, ..., xp),從而增加語音的信息表示。對于文本特征提取器,將輸入空間定義為RS×Maxlen,將其送入網絡模型以獲得詞嵌入向量,通過改進后的Transformer結構學習具有上下文依賴關系的高層次文本特征表示H2=(h1, h2, ..., hk)。通過跨模態聯合注意機制設計了一個空間注意權重,以挖掘語音和文字之間存在的隱性關系,從而獲得語音和文字之間相似關系的表示。教師網絡得到的融合特征如下所示:
(4)
下一步開始構建結構較為精簡的學生網絡。向教師網絡學習,通過不斷擴大與教師網絡參數空間的重疊區域,壓縮教師網絡模型的同時接近教師網絡的性能。此外,整個訓練過程是由教師網絡的軟標簽損失和樣本硬標簽權重分配共同決定的。軟標簽來自教師網絡的輸出歸一化,用于學習教師網絡的預測。溫度值會影響類別之間的平滑度,并影響教師網絡的預測。這種方法的優點是彌補了分類中監督信號不足的缺陷,增加了相對信息,同時實現了數據增強,使模型的泛化能力更易增強。硬標簽是樣本的真實標簽,它提供了數據的絕對信息,明確了其分類。模型損失的計算公式如下:
(5)
式中:α表示硬標簽目標的損失權重;Lhard表示硬標簽損失;Ldistill表示軟目標的損失;yj表示Teacher模型在Softmax下輸出在第j類上的值;zTj表示在教師網絡下第j類的預測標簽值;zjS表示在學生網絡下第j類的預測標簽值。
2 實驗和結果
2.1 數據集
在IEMOCAP數據集上評估改進的模型,該數據集在情感識別領域被廣泛使用。該數據集分為IMPROVED和SCRIPT兩個子集,其中包含語音、文本和視頻數據。為了與大多數現有研究保持一致,文中只使用IMPROVED數據和4種情緒做五折交叉驗證:快樂、悲傷、中性和生氣。進一步將數據分為訓練集/驗證集/測試集,共包含5 531個樣本數據點。為避免隨機初始化帶來的問題,每一輪被測試了10次,每一輪測試集的結果是10次結果的平均值。
2.2 實驗設置
文中使用keras框架實現了模型的訓練和測試,并在訓練集上以100輪訓練模型。為避免訓練過重時的過度擬合,保留具有最佳性能的模型,在驗證集上使用提前停止機制。最后在測試集上對該模型進行了情感分類測試。采用ReLU作為激活函數,選擇交叉熵作為損失函數。我們選擇keras框架的默認adam優化器。初始學習率為10e-4,批次大小為32,超參數見表1所列。
2.3 實驗結果分析
通過與其他研究比較,驗證改進模型的性能。模型間實驗結果對比和本實驗對比結果分別見表2、表3所列。
從表2中可以看到,文中構建的基于知識蒸餾的學生模型在WA和UA方面都優于文獻[14]提出的方法,證明了文中提出模型在多模態研究中的優越性。從表3可以看出,與使用單種梅爾頻譜特征相比,加入prosody特征后,網絡性能提高了1.82%,表明加入prosody特征帶來了更多的情感信息。
為探索單模態與多模態模型對情感分類任務的影響,采用同一網絡進行多模態分類。從表3可以看出,多模態條件下的WA為68.9%,高于單模態的WA值,證明了多模態特征融合在情感識別領域的有效性。
盡管文中構建的多模態神經網絡在性能上有所提高,但可以清楚看到,模型的WA低于文獻[11]中提出的模型。原因可能是文中的模型在訓練過程中過度擬合,降低了其泛化能力;簡單模型只能夠提取相對較淺的特征表示。為驗證猜想,文中增加了正則化來觀察結果的變化。由于計算資源有限,使用較小的批處理量是不錯的選擇,嘗試在多模態模型中加入FRN層,WA為71.2%。雖然加入FRN正則化后的WA略高于文獻[14]提出的方法,但UA值卻較低,說明文中構建的模型在分類某類情感方面較弱。受文獻[12]的啟發,WA通過跨模態聯合注意機制獲得語音和文本之間的相似性,加強對情感特征的識別,在WA和UA中得到一定程度的性能提升。此外,文章還與文獻[12]中提出的工作在參數量上進行了比較,見表4所列。
通過表4可以看出,文中構建的基于知識蒸餾的學生網絡SN_KD采用更少的參數量得到了更好的結果。
學生網絡的效果略差于教師網絡,主要是因為2個模型之間存在模型容量的差距,學生網絡在學習過程中很難學到教師網絡的所有知識。盡管如此,與沒有進行知識蒸餾的學生網絡相比,經過知識蒸餾的學生網絡模型性能有了很大提高,說明文中的方法是有效的。
3 結 語
文中提出的基于知識蒸餾技術的多模態網絡主要貢獻有以下幾點:
(1)構建復雜的模型作為教師模型,排除不同說話人的干擾,促進對更強大時空特征表示的學習。
(2)構建學生網絡,通過應用知識蒸餾不斷學習從壓縮的教師網絡中獲得的知識,擴大與教師網絡知識空間的重疊區域,實現小模型高性能和易跨平臺的移植和部署。
模型的有效性在流行的IEMOCAP數據集上得到了驗證。在未來的研究中,筆者還將探索異構性之間的知識蒸餾方法以及在單任務模型指導下的多任務模型。
注:本文通訊作者為趙曉靜。
參考文獻
[1]喬文婷.基于神經網絡的語音情感識別算法研究[D].西安:西安電子科技大學,2023.
[2] SINGH P,SRIVASTAVA R,RANA K P S,et al. A multimodal hierarchical approach to speech emotion recognition from audio and text [J]. Knowledge-based systems,2021,229:107316.
[3] MEYER P. Improving convolutional recurrent neural networks for speech emotion recognition [C]// 2021 IEEE Spoken Language Technology Workshop (SLT). IEEE,2021.
[4]唐小煜,程慧慧,彭汪月,等.基于ICNN與Bi-LSTM的語音情感識別方法.CN202010751797.4[P].2023-06-11.
[5]孫林慧,陳嘉.語音情感識別方法.CN201810685220.0[P]. 2023-06-11.
[6]程適,駱曉寧,李冬城,等.一種基于雙向LSTM的語音情感識別模型[J].長江信息通信,2022,35(7):19-22.
[7]高利軍,薛雷.基于Transformer架構的語音情感識別研究[J].工業控制計算機,2023,36(1):3.
[8]徐華南,周曉彥,姜萬,等.基于自身注意力時空特征的語音情感識別算法[J].聲學技術,2021,40(6):8.
[9] HINTON G,VINYALS O,DEAN J. Distilling the knowledge in a neural network [J]. Computer science,2015,14(7):38-39.
[10] HAHN S,CHOI H. Self-knowledge distillation in natural language processing [Z]. arXiv:1908.01851
[11] CAI L,HU Y,DONG J,et al. Audio-textual emotion recognition based on improved neural networks [J]. mathematical problems in engineering,2019,2019(6):1-9.
[12] PAN Z,LUO Z,YANG J,et al. Multi-modal attention for speech emotion recognition [J]. arXiv:2009.04107.
[13] KRISHNA D N. Multimodal emotion recognition using cross-modal attention and 1D convolutional neural networks [Z]. In:Proc. INTERSPEECH. Shanghai,China,2020:4243-4247.
[14] CHEN M. multi-scale fusion framework for bimodal speech emotion recognition [Z]. In:Proc. INTERSPEECH. Shanghai,China,2020:374-378.
[15]賈寧,鄭純軍.融合音頻,文本,表情動作的多模態情感識別[J].應用科學學報,2023,41(1):16.
基金項目:北京科技大學天津學院骨干人才培養計劃(TYGG2022D03)