






















摘" 要: 減小域間差異和加強特征情感表達是解決跨庫語音情感識別任務的兩個主要問題,但少有研究同時考慮到上述問題,為此,提出一種基于解耦知識蒸餾策略優化的域自適應跨庫語音情感識別算法。在域自適應算法中引入解耦知識蒸餾(DKD)策略,提高特征提取器獲取具有顯著情感信息的域不變特征的能力;并提出一個時頻域自校正卷積神經網絡(TFSC?CNN),融合不同感受域的特征細節,豐富特征中的情感信息,作為教師模型,指導特征提取器的訓練過程;最后,使用優化后的特征提取器進行對抗訓練,減小特征的域間差異,提升模型的泛化能力。所提方法在CASIA、EmoDB和RAVDESS數據集上進行了6組不同的跨庫語音情感識別任務,在UAR和WAR兩個評價指標上分別取得了49.74%和50.62%的識別結果;同時,通過消融實驗進一步驗證了不同改進模塊的有效性。文中方法為跨庫情感識別提供了一種新思路。
關鍵詞: 跨庫語音情感識別; 時頻域自校正模塊; 解耦知識蒸餾; 域自適應; 對抗訓練; 域不變特征
中圖分類號: TN912.3?34" " " " " " " " " " " " "文獻標識碼: A" " " " " " " " " " " " 文章編號: 1004?373X(2024)17?0173?08
Domain adaptive cross?corpus speech emotion recognition optimized by decoupled knowledge distillation
GAO Xiang1, BAI Jing1, XUE Peiyun1, 2, DONG Zhenan1, QIANG Yan3
(1. College of Electronic Information and Optical Engineering, Taiyuan University of Technology, Jinzhong 030600, China;
2. Shanxi Academy of Advanced Research and Innovation, Taiyuan 030032, China;
3. College of Computer Science and Technology, Taiyuan University of Technology, Jinzhong 030600, China)
Abstract: Reducing inter?domain differences and enhancing feature emotion expression are two outstanding issues in the cross?corpus speech emotion recognition (SER). However, few studies have been focused on the above. For this reason, a domain adaptive cross?corpus SER algorithm optimized by decoupled knowledge distillation (DKD) strategy is proposed. A DKD strategy is introduced into the domain adaption algorithm to improve the feature extractor′s ability of obtaining domain?invariant features with significant emotion information. A time?frequency domain self?calibration convolutional neural network (TFSC?CNN) is proposed. The TFSC?CNN is integrated with the feature details of different receptive fields, and enriched with the emotional information in the features. After that, it is served as a teacher model to guide the training process of the feature extractor. The optimized feature extractor is used for adversarial training of the model, so as to reduce the inter?domain differences of features and improve its generalization ability. Six different cross?corpus SER tasks are implemented on the datasets CASIA, EmoDB and RAVDESS. The proposed method achieves recognition results of 49.74% and 50.62% on the evaluation metrics UAR (unweighted average recall) and WAR (weighted average recall), respectively. Additionally, ablation experiments are conducted to validate the effectiveness of different improvement modules. The proposed method provides a new idea for cross?corpus emotion recognition.
Keywords: cross?corpus SER; TFSC module; DKD; domain adaptation; adversarial training; domain?invariant feature
0" 引" 言
語音情感識別(Speech Emotion Recognition, SER)是智能化人機交互的關鍵技術之一,能夠幫助使用者盡早關注到自己的負面情緒,并及時調整,被廣泛應用于醫療、輔助駕駛、高危工作等領域,可有效預防意外的發生[1?2]。傳統的語音情感識別方法側重于在一個已知的語料庫中完成訓練和測試,卻忽視了實際應用中,測試語音樣本常常未知,且特征分布存在較大差異,因此,跨庫語音情感識別逐漸成為新的研究熱點[3]。
特征分布對齊問題是提高跨庫語音情感識別模型性能的關鍵因素,針對此問題,文獻[4]設計了一個最大化核范數和均值差異的模塊優化傳統域自適應算法,有效降低了樣本在決策邊界處的密度,同時增加了模型對目標域樣本的辨別能力。文獻[5]通過使用類別粒度差異來評估域間距離,提出一種基于局部域適應的跨庫語音情感識別框架。文獻[6]提出一種遷移子空間學習的方法,旨在學習一個投影矩陣,將數據樣本轉換到新的標簽空間,并利用最大平均差異準則及轉移非負矩陣分解方法保證其具有相似的特征分布。
然而,上述方法在探索域自適應算法時重點專注于特征分布的適應性,而忽視了特征提取器的關鍵作用。特征提取器過于簡單,可能無法捕獲數據中的復雜關系和高階特征,導致信息損失,泛化能力差,影響模型性能;反之,特征提取器過于復雜又會導致過擬合、計算復雜度高、對噪聲敏感等問題,同樣影響模型使用[7]。因此,特征提取器的合理設計是域自適應算法的關鍵一環。
知識蒸餾[8](Knowledge Distillation, KD)常被用于模型壓縮和遷移學習中,蒸餾后的模型既減小了模型的大小,又保持了相對較高的性能,是域自適應算法中理想的特征提取器。文獻[9]使用知識蒸餾的方法壓縮模型,在年齡估計任務上將模型速度提升了15倍,同時提高了模型的魯棒性。文獻[10]采用自適應聯合學習方法,將VGG和ResNext兩個教師網絡中的知識傳遞給學生模型,大幅減少了模型參數量。文獻[11]在融合了多頭注意力機制的深度卷積神經網絡中使用解耦知識蒸餾(Decoupled Knowledge Distillation, DKD)進行優化,驗證了logit蒸餾方法在語音情感識別任務中的有效性。但上述方法僅僅壓縮了模型大小,并沒能在跨數據集場景下分析模型性能,實用性較差。
綜上,本文提出了一種基于解耦知識蒸餾[12]策略優化的域自適應算法。首先,提出了時頻域自校正卷積神經網絡(Time?frequency Domain Self?calibration Convolutional Neural Network, TFSC?CNN),利用時域和頻域中的多尺度信息動態調整輸出特征,保證了模型的特征提取能力;其次,運用解耦知識蒸餾方法將訓練好的教師模型遷移至相對簡單的卷積神經網絡(Convolutional Neural Network, CNN)上,在保持情感分類性能的同時,壓縮模型大小;最后,將預訓練后的CNN模型作為特征提取器,進行對抗訓練,提升跨庫語言情感識別模型的性能。
1" 跨庫語言情感識別模型
本文提出的基于解耦知識蒸餾優化域自適應的跨庫語言情感識別模型框架如圖1所示。主要分為兩個部分:第一部分是知識蒸餾過程,包括教師模型的設計以及解耦知識蒸餾訓練,利用解耦知識蒸餾細化遷移過程的特性,將教師模型的知識更好地傳遞到特征提取器中;第二部分是域自適應模型訓練過程,利用第一部分得到的特征提取器進行域自適應訓練,完成跨庫語言情感識別任務。
1.1" 特征處理
語音特征的質量往往會對模型性能產生顯著影響,故本文選用對數梅爾頻譜圖(Log?Mel Spectrogram)作為模型的輸入特征[13],相較于韻律特征、音質特征、譜特征等底層聲學特征,Log?Mel頻譜圖中包含更多的有效信息,同時也是當前主流的SER模型最常用的特征之一。
1.2" 基于解耦知識蒸餾的對抗訓練框架
為了保證特征信息的有效提取和遷移,本文首先提出時頻域自校正卷積神經網絡作為教師模型強化特征提取過程,并采用解耦知識蒸餾方法指導學生模型的訓練,使其能夠更好地完成域自適應算法的訓練,得到更具泛化性的模型。
1.2.1" 時頻域自校正卷積神經網絡的提出
為了提高CNN的細節捕獲能力和全局依賴性,本文提出了一種新的注意力模塊——時頻域自校正模塊(Time?frequency Domain Self?calibration Module, TFSC),并將其與CNN融合搭建了時頻域自校正卷積神經網絡(TFSC?CNN)作為教師模型。該網絡可以從時域和頻域中提取不同維度的相關信息,并融合不同感受域中捕獲的特征,提高網絡的全局依賴性。TFSC?CNN結構示意圖如圖2所示。
圖2中,“Conv”“BatchNorm”和“ReLU”分別為卷積層、批歸一化層和激活函數層,三者組合在一起構成一個卷積塊,用于捕獲Log?Mel頻譜圖中情感特征。TFSC模塊作為特征校正模塊,利用時域和頻域不同尺度的高維特征,實現對淺層特征的有效優化,其工作原理如圖3所示。
TFSC模塊包含兩部分輸入,[Ci]為第[i]層卷積塊的輸出特征,[Si-1]為前一層時頻域自校正模塊的輸出特征。首先,利用兩個1×1的卷積塊將輸入特征[Ci]在通道層分為兩部分,得到尺寸為[C2×H×W]的[X1]和[X2],分別對其進行時域維度和頻域維度的處理;然后,對[X1]采用平均池化運算壓縮時域維度,并利用矩形卷積核提取特征信息,間接擴大卷積核的感受野,提取時域的粗粒度特征;接著,通過上采樣運算將得到的時域特征恢復到與[X1]相同的維度,方便其與[X1]進行求和運算,獲得高維時域特征[Xt];最后,利用得到的高維時域特征[Xt]形成自校正權重對細粒度特征[Si-1]完成自校正操作,實現時域特征的注意力增強,得到優化后的輸出特征[Yt]。通過相同步驟,得到注意力增強后的頻域特征[Yf]。將[Yt]和[Yf]簡單拼接后經過一個1×1的卷積塊即可融合為時頻域自校正模塊最終的輸出特征[Si]。
算法流程如下:
[Xt=Uω1DX1r×1+b1r×1+X1] (1)
[Xf=Uω2DX21×s+b21×s+X2] (2)
[Yt=ω4ω3Si-1+b3·σXt+b4] (3)
[Yf=ω6ω5Si-1+b5·σXf+b6] (4)
式中:[D?r×1]和[D?1×s]為平均池化運算;[U?r×1]和[U?1×s]為雙線性上采樣插值運算,其中,[r×1]和[1×s]為池化核和上采樣核的大??;[ω1]和[b1]分別為矩形卷積核的權重矩陣和偏置值;[σ(?)]為Sigmoid函數;[“?”]為元素級乘法運算;[ωj]和[bjj=3,4,5,6]分別表示不同尺寸為3×3的卷積核的權重矩陣和偏置值。
經過分析,TFSC模塊通過池化和上采樣操作來擴展卷積核的感受野,能自適應地調整每個空間位置周圍的特征提取,此外,兩部分輸入的相互約束和融合加強了深層特征和淺層特征間的關聯度,更利于有效信息的采集。
卷積神經網絡本身就對圖像特征具有強大的表征力,TFSC?CNN融合了時頻域自校正模塊與卷積神經網絡各自的優勢,在處理Log?Mel頻譜圖時更加得心應手。
卷積神經網絡層數加深,得到的特征就會更加抽象和語義化,相比之下,淺層特征中更容易清晰地劃分出Log?Mel頻譜圖的時頻域信息,故不同于多數時頻注意力機制的用法,本文選擇將TFSC模塊添加在卷積神經網絡的前半部分,利用兩個TFSC模塊從時域和頻域兩個維度增強CNN提取細粒度特征的能力;同時利用深層卷積層提取的高維語義特征信息完成對淺層特征的自校正操作,增強特征的全局依賴性,得到更精細的特征。隨后,在網絡的后半部分使用兩個卷積塊提取和融合深層抽象特征。最后使用全局平均池化(Global Average Pooling, GAP)層和全連接層完成情感分類任務。
1.2.2" 學生模型
本文選擇了一個具備四層卷積塊的簡單網絡作為學生模型,以保持較低的復雜度并適應后續的域自適應訓練。該模型主要由卷積層和池化層組成,池化層用于降低數據維度;每層卷積層后均連接有一個批量歸一化(BatchNorm)層和ReLU激活函數以加速訓練,增加網絡的非線性擬合能力和穩定性。整個學生模型結構簡潔而有效,網絡具體結構如表1所示。
1.2.3" 解耦知識蒸餾訓練
解耦知識蒸餾將傳統的KD損失重新表述為兩個獨立部分的加權和,即目標類知識蒸餾(Target Class Knowledge Distillation, TCKD)和非目標類知識蒸餾(Non?target Class Knowledge Distillation, NCKD)。具體框架如圖4所示。
首先,DKD將分類預測分為如下兩部分。
1) 對目標類和所有非目標類進行二值預測:
[pt=exp(zt)j=1Cexp(zj)," "p\t=k=1,k≠tCexp(zk)j=1Cexp(zj)] (5)
2) 對每個非目標類進行多類別預測:
[pi=exp(zi)j=1,j≠tCexp(zj)] (6)
式中:[C]為類別數目;[zi]為第[i]類預測的logit值;[pt]為目標類的二值預測概率;[p\t]為其他所有非目標類的二值預測概率;[pi]為第[i]個非目標類的多類別預測概率。
然后,傳統的KD損失中的Kullback?Leibler(KL)散度函數被重新表述為:
[KD=pTtlogpTtpSt+i=1,i≠tCpTilogpTipSi=pTtlogpTtpSt+pT\ti=1,i≠tCpTilogpTipSi+logpT\tpS\t=pTtlogpTtpSt+pT\tlogpT\tpS\t+pT\ti=1,i≠tCpTilogpTipSi=KL(bT ‖bS)+(1-pTt)KL(PT ‖PS)] (7)
式中:[T]和[S]分別表示教師模型和學生模型;[KL(bT ‖bS)]表示蒸餾過程中目標類的教師和學生的二元概率之間的相似度,即TCKD;[KL(PT ‖PS)]表示非目標類中教師和學生概率的相似度,即NCKD。故式(7)可改寫為:
[KD=TCKD+1-pTtNCKD] (8)
此時,設置兩個超參數[α]和[β]作為TCKD和NCKD各自的權重,則DKD的損失函數可表示為:
[LDKD=α?TCKD+β?NCKD] (9)
得到蒸餾損失[LDKD]后,再計算學生模型的預測結果[PS]和情感語音樣本的正確標簽之間的交叉熵損失,得到分類任務損失[LCE]:
[LCE=-i=1CTargeti·logPS] (10)
最后,調節[LDKD]和[LCE]的權重系數,組成總損失函數:
[Loss=λLDKD+1-λLCE] (11)
式中[λ]為權重系數,取值范圍為(0,1)。通過所得總損失函數可完成解耦知識蒸餾過程,實現分類知識從教師模型到學生模型的傳遞,得到一個簡潔高效的學生網絡作為域自適應算法的特征提取器。
1.2.4" 域自適應算法
為了減小源域和目標域語音樣本間的特征分布差異,本文采用經典的深度域自適應算法中對抗訓練的思想,其具體結構如圖5所示。
首先,特征提取器和情感分類器選用和前文卷積神經網絡(見表1)相同的模型結構,并使用蒸餾后學生模型的權重參數對特征提取器進行初始化。初始化操作可以幫助模型得到更好的初始特征表示,有助于模型更好地適應和學習目標域的數據特征,減少領域之間的差異,提高模型性能和泛化能力。
然后,通過特征提取器和域鑒別器之間的梯度反轉層(Gradient Reversal Layer, GRL),完成對抗訓練。
域自適應網絡的訓練目標是最小化情感分類損失[Lc],最大化領域分類損失[Ld]。情感分類損失用于度量情感標簽分類的準確性,其損失函數可表示為:
[Lcy;θf,θc=-1ni=1nlogGyGfxiyi] (12)
式中:[θf]、[θc]分別表示特征提取器和情感分類器中的可訓練參數;[Gf(?)]為特征提取函數,得到語音樣本經過特征提取器后的輸出;[Gy(?)]為標簽預測函數,生成語音樣本的情感分類標簽;[n]為源域中標記的訓練樣本數量。
領域分類損失用于領域自適應訓練,其損失函數可表示為:
[Ldd;θf,θd=-1ni=1nlogGdGfxidi-1mj=1mlogGdGfxjdj] (13)
式中:[θd]表示域鑒別器中的可訓練參數;[Gd(?)]為領域判別函數,生成領域分類結果;[m]為目標域中未標記的訓練樣本數量。
故最終的目標函數為:
[Ly,d;θf,θc,θd=Lcy;θf,θc-λLdd;θf,θd] (14)
式中[λ]用于控制損失之間的權重。
2" 實驗及結果分析
2.1" 數據集
為了評估所提算法的有效性,本文在3個公開的語音情感數據集CASIA、EmoDB和RAVDESS上進行了多組對照實驗。
CASIA由中國科學院自動化研究所錄制,4名演員(兩名男性和兩名女性)分別演繹了6種情感:快樂、悲傷、憤怒、驚訝、恐懼和中性,共計1 200條語音數據。
EmoDB由德國柏林工業大學錄制。10名演員(5名男性和5名女性)模擬了7種情感:中性、憤怒、恐懼、快樂、悲傷、厭惡和無聊,共計535條語音數據。
RAVDESS由24名專業演員(12名男性和12名女性)以中性的北美發音錄制了8種情感:中性、平靜、快樂、悲傷、憤怒、驚訝、恐懼、厭惡,共計1 440條語音數據。
2.2" 實驗設置
實驗從3個數據集中選取了5種共有的情感類別(快樂、悲傷、憤怒、恐懼、中性),設計了6組跨庫語音情感識別任務。任務具體設置如表2所示。
在知識蒸餾過程中,將源域樣本按9∶1的比例隨機劃分為訓練集和測試集,采用10折交叉驗證的方式觀察特征提取器的分類性能;學習率設置為0.001,BatchSize設置為64,迭代輪數設置為500。在域自適應訓練過程中,取出目標域樣本中80%的無標簽數據和源域樣本中的有標簽數據一起參與訓練,目標域樣本中余下的20%作為測試集;對特征提取器、情感分類器、域鑒別器三部分分別進行優化,學習率分別設置為0.001 5、0.005、0.001 5,BatchSize設置為64,迭代輪數設置為250。所有實驗使用Python 3.9和TensorFlow框架實現,優化器選用Adam算法,GPU為GeForceRTX 3080 Ti,顯存為12 GB。
實驗采用非加權平均召回率(Unweighted Average Recall, UAR)和加權平均召回率(Weighted Average" Recall, WAR)作為模型的評價指標。
2.3" 實驗結果及分析
2.3.1" 解耦知識蒸餾效果驗證實驗
為了驗證教師模型在單一數據集上的卓越表現及解耦知識蒸餾方法在知識遷移上的有效性,實驗對比了教師模型、學生模型以及經過傳統知識蒸餾(KD)和解耦知識蒸餾(DKD)優化后的學生模型在各個數據集上的分類效果。
實驗結果如表3所示。
結果顯示,所提教師模型在各數據集中均展現出優于學生模型的識別性能,證明了其指導學生模型的有效性。同時,相較于未經優化的學生模型,傳統知識蒸餾方法可以使模型的UAR在CASIA、EmoDB、RAVDESS數據集上分別提升3.94%、1.34%、6.06%,WAR分別提升3.70%、1.19%、4.97%;而解耦知識蒸餾通過對KL散度深度解剖,進一步提煉出真正指導模型分類任務的知識,使模型的性能再次提升,UAR分別提升了4.94%、2.77%、8.09%,WAR分別提升了5.30%、2.19%、6.94%。關于式(11)中蒸餾損失權重系數[λ],經過實驗對比,最終取值為0.9,因為較高的蒸餾損失權重有利于模型更多地關注教師模型的決策邊界細節,模仿教師模型決策過程,提高模型泛化能力,降低過擬合風險。蒸餾溫度[T]取值為5,中等的蒸餾溫度在平滑標簽時,可以保留一些相對尖銳的概率分布,有助于模型更精確地學習教師模型的輸出分布。實驗結果證明,解耦知識蒸餾方法可以更大程度地挖掘logit蒸餾的潛力,選取教師模型中的關鍵信息遷移至學生模型。
2.3.2" 模型性能及消融實驗
為了驗證本文所提跨庫語音情感識別模型的有效性及模型中各模塊的必要性,設計了一組消融實驗,在6組任務下進行了驗證。
1) Only?CNN:所提學生模型。
2) CNN+KD:經KD優化的學生模型。
3) CNN+DKD:經DKD優化的學生模型。
4) CNN+DA:學生模型作為特征提取器,進行域自適應訓練。
5) CNN+KD+DA:經KD優化的學生模型權重參數初始化特征提取器,完成域自適應訓練。
6) CNN+DKD+DA:即本文所提模型。
實驗結果如表4和表5所示。
將表中結果繪制為點線圖,如圖6所示,可以清楚地觀察到本文提出的各種改進均對CNN適應跨庫語音情感識別任務帶來了支持,所提模型在6組任務中平均UAR為49.74%,領先消融實驗中其余模型1.61%~14.87%;平均WAR為50.62%,領先其余模型1.75%~15.98%。對于普通的CNN模型,有限的特征提取能力往往難以適應具有不同特征分布的跨庫語音情感識別任務;而知識蒸餾策略為原始CNN模型提供了有效的指導,增強了其特征提取能力,使得模型性能提升。同時,域自適應算法可以通過對抗性損失函數幫助模型學習域不變特征,顯著提升原始CNN模型的識別性能和穩定性;當加入解耦知識蒸餾優化域自適應算法中的特征提取器后,模型性能達到最優。實驗結果表明,特征提取器的性能會對模型的泛化能力產生影響,高效的特征提取器在保證模型提取到樣本中復雜的高階特征的同時,又避免了過分擬合源域數據;而解耦知識蒸餾策略可以對特征提取器預訓練,利用強大的教師模型指導特征提取器提取更具魯棒性的域不變特征,進一步提高域自適應算法的性能。
2.3.3" 與其他算法對比
將本文所提模型與一些最新的算法進行性能對比,進一步驗證所提模型的有效性。所選算法有:
1) 聯合分布自適應回歸算法[14](Joint Distribution Adaptive Regression, JDAR);
2) 深度自編碼器子域自適應[15](Depth Autoencoder Subdomain Adaption, DASA);
3) 基于決策邊界優化域自適應算法[6](Decision Boundary Optimized Domain Adaption, DBODA);
4) 一種遷移學習和多損失動態調節算法[16](Transfer Learningand Multi?Loss Dynamic Adjustment Algorithm, TLMLDA)。
不同跨庫語音情感識別模型的UAR對比如表6所示。
可以看出,在C2E和E2C任務中,本文所提模型的UAR均優于其他模型,分別取得了3.23%~10.76%和2.25%~6.69%的領先,平均識別率提升了3.76%~8.73%。結果表明,本文所提方法可以有效優化域不變情感特征的提取過程,緩解對抗訓練過程中情感顯著信息的丟失,在跨庫語音情感識別任務中取得了性能提升。
3" 結" 語
本文提出了一種基于解耦知識蒸餾優化的域自適應跨庫語音情感識別方法,旨在強化傳統域自適應算法的特征提取能力并保證其泛化能力,獲取包含顯著情感信息的域不變特征,緩解不同數據集之間的分布差異對情感識別模型性能的影響。首先,本文設計了一個時頻域自校正模塊,輔助CNN實現在具體數據集場景下的有效分類,并將其作為教師模型進行解耦知識蒸餾,優化域自適應算法中的特征提取器;然后,利用對抗訓練提高模型的泛化能力和在跨庫語音情感識別任務上的表現;最后,模型在3個公開數據集上進行了多組實驗,驗證了方法的有效性,在C2E和E2C任務中,取得了優于其他模型3.76%~8.73%的效果。
盡管本文所提模型已經取得了較好的效果,但數據集樣本不足仍是困擾跨庫語言情感識別任務的關鍵原因,探索有效的數據增強方法和偽標簽的使用將是下一階段的工作重點。
注:本文通訊作者為白靜。
參考文獻
[1] HASHEM A, ARIF M, ALGHAMDI M. Speech emotion recognition approaches: A systematic review [J]. Speech communication, 2023, 154: 102974.
[2] WANI T M, GUNAWAN T S, QADRI S A A, et al. A comprehensive review of speech emotion recognition systems [J]. IEEE access, 2021, 9: 47795?47814.
[3] GAO Y, OKADA S, WANG L B, et al. Domain?invariant feature learning for cross corpus speech emotion recognition [C]// 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New York, NY, USA: IEEE, 2022: 6427?6431.
[4] 汪洋,傅洪亮,陶華偉,等.基于決策邊界優化域自適應的跨庫語音情感識別[J].計算機應用,2023,43(2):374?379.
[5] ZHAO H, NING Y E, WANG R. Improved cross?corpus speech emotion recognition using deep local domain adaptation [J]. Chinese journal of electronics, 2023, 32(3): 1?7.
[6] LIU N, ZHANG B F, LIU B, et al. Transfer subspace learning for unsupervised cross?corpus speech emotion recognition [J]. IEEE access, 2021, 9: 95925?95937.
[7] HAGAD J L, KIMURA T, FUKUI K, et al. Learning subject?generalized topographical EEG embeddings using deep variational autoencoders and domain?adversarial regularization [J]. Sensors, 2021, 21(5): 1792.
[8] GOU J P, YU B S, MAYBANK S J, et al. Knowledge distillation: A survey [J]. International journal of computer vision, 2021, 129(6): 1789?1819.
[9] GRECO A, SAGGESE A, VENTO M, et al. Effective training of convolutional neural networks for age estimation based on knowledge distillation [J]. Neural computing and applications, 2022, 34(24): 21449?21464.
[10] SEPAHVAND M, MOHAMMADI F A. Joint learning method with teacher?student knowledge distillation for on?device breast cancer image classification [J]. Computers in biology and medicine, 2023, 155: 106476.
[11] ZHAO Z P, WANG H, WANG H S, et al. Hierarchical network with decoupled knowledge distillation for speech emotion recognition [C]// 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New York, NY, USA: IEEE, 2023: 1?5.
[12] ZHAO B R, CUI Q, SONG R J, et al. Decoupled knowledge distillation [C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York, NY, USA: IEEE, 2022: 11943?11952.
[13] MUKHAMEDIYA A, FAZLI S, ZOLLANVARI A. On the effect of Log?Mel spectrogram parameter tuning for deep learning?based speech emotion recognition [J]. IEEE access, 2023, 11: 61950?61957.
[14] ZHANG J C, JIANG L, ZONG Y, et al. Cross?corpus speech emotion recognition using joint distribution adaptive regression [C]// 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New York, NY, USA: IEEE, 2021: 3790?3794.
[15] 莊志豪,傅洪亮,陶華偉,等.基于深度自編碼器子域自適應的跨庫語音情感識別[J].計算機應用研究,2021,38(11):3279?3282.
[16] TAO H W, WANG Y, ZHUANG Z H, et al. Cross?corpus speech emotion recognition based on transfer learning and multi?loss dynamic adjustment [J]. Computational intelligence and neuroscience, 2022(54): 1?10.