尹夢濤 楊亞璞



摘要:針對跨庫微表情識別中因訓練和測試樣本特征分布不一致而造成的識別效果不理想的問題,提出一種基于域內不變特征和域間不變特征(Intra-domain and Inter-domain Invariant Features,IIDIF) 整合的跨庫微表情識別的領域泛化方法。IIDIF使用知識蒸餾框架獲取傅里葉相位信息作為域內不變特征,通過對齊源域特征之間的二階統計量作為域間不變特征,同時設計一個不變特征損失將域內不變特征和域間不變特征整合為領域不變特征。在三個廣泛使用的微表情數據集CASMEⅡ、MMEW以及SMIC上的實驗表明,IIDIF方法的平均準確率為55.37%,優于現有主流的領域自適應和領域泛化方法,驗證了所提出的IIDIF方法在跨庫微表情識別任務上的優越性。
關鍵詞:跨庫微表情識別;域內不變特征;域間不變特征;領域泛化
中圖分類號:TP391? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2024)09-0027-05
開放科學(資源服務)標識碼(OSID)
0 引言
微表情是人們試圖隱藏內心真實情緒時所產生的一種自發式面部表情,通常持續時間只有0.04~0.2 s,且變化強度很低[1]。微表情可以準確反映人們真實的心理狀態和情緒,無法偽造也不能抑制,在商務談判、刑偵和心理疾病治療等領域上具有廣泛的應用前景[2]。
近些年來,研究人員在微表情識別任務上提出了許多有效的方法,如能有效提取微表情外觀特征的三個正交平面的局部二值模式(LBP-TOP)[3];能準確計算面部細微動作變化特征,并通過時空信息進行微表情識別的光流法[4]等。最近,隨著深度學習的發展及其在面部表情識別[5]上的成功應用,深度學習方法也被應用于微表情識別任務[6]。如用于捕獲微表情序列細微時空變化的時空卷積遞歸網絡(STRCN)[7]等。
雖然微表情識別研究已經取得了顯著的進展,但現有大多數微表情識別方法的訓練和測試樣本都來自遵循相同特征分布的同一個數據集,而在許多實際應用中,用于訓練和測試的微表情樣本可能來自不同的數據集。不同數據集的種族、性別、攝像設備等會有所不同,這破壞了訓練和測試樣本之間的特征分布一致性。在這種情況下,上述微表情識別方法的性能可能會急劇下降。因此,一部分研究人員開始關注訓練和測試樣本來自不同數據集的跨庫微表情識別這一具有挑戰性的課題。目前,研究人員大多采用領域自適應方法解決訓練集(源域)和測試集(目標域)特征分布不一致的問題。領域自適應方法是遷移學習方法[8]的一種,嘗試利用源域中豐富的標記樣本信息,通過減少數據集之間的特征偏差來促進對目標域的學習。
然而,領域自適應方法依賴一個強有力的假設,即目標域數據可用于模型適應,這在實際場景中并不總是成立。在許多應用中,目標數據在部署模型之前很難獲得,甚至是未知。對此,一部分研究者嘗試使用領域泛化方法解決此問題。領域泛化方法的一個顯著特點是在訓練過程中,目標域是未知的。具體來說,領域泛化的目標是利用來自單個或多個相關但不同的源域數據進行模型訓練,使模型能夠很好地推廣到任何未知的目標域[9]。自2011年研究者們開始探索領域泛化以來,已經提出大量的方法來解決此問題,包括增加數據多樣性的數據增強[10]、通過模擬多個任務來學習一般可轉移知識的元學習等[11]。領域不變特征學習[12]也是一種主流的領域泛化方法,旨在從不同領域中學習領域不變的特征表示或者對特征進行解耦以獲取更有意義的泛化特征,從而有利于跨域泛化。
領域泛化方法雖然更有利于模型的實際應用,但它比領域自適應方法更難以實現,目前與跨庫微表情識別相關的領域泛化方法研究工作相對較少。為了更好地利用領域泛化技術解決跨庫微表情識別存在的問題,本文提出了一種基于域內和域間不變特征的跨庫微表情識別方法(Intra-domain and Inter-domain Invariant Features,IIDIF) 。本文將域內和域間兩種不變特征整合為領域不變特征進行模型訓練。對于域內不變特征,IIDIF通過知識蒸餾框架捕獲對數據進行傅里葉變換之后的高級內在語義,對于域間不變特征,IIDIF利用相關性比對來對齊源域的特征分布,同時設計增加了一個發散損失函數來最大化發散兩種不變特征之間的距離,以保證使更多不同的域內和域間不變特征參與模型訓練。最后通過實驗驗證了該方法的有效性。
1 IIDIF模型及方法
為了提高僅利用微表情源域樣本訓練出的模型在未知微表情目標域上的識別性能,本文從領域泛化的角度出發,設計了基于域內和域間不變特征的跨庫微表情識別算法,跨庫微表情識別流程圖如圖1所示。
在模型訓練階段,首先對訓練數據進行預處理,然后利用特征提取器分別提取域內不變特征和域間不變特征,并在最大化兩種不變特征之間的距離后,將其整合為領域不變特征進行分類。
1.1 域內不變特征提取
信號由振幅信息和相位信息兩部分組成。在信號的傅里葉譜中,相位分量保留了原始信號中的大部分高級語義,而振幅分量主要包含低級統計信息。相位信息的重要性如圖2所示。
在圖2中,對圖片a和b進行離散傅里葉變換。對于單通道尺寸大小為M×N的圖像數據[x],其傅里葉變換[Fx]為:
[Fxu,v=m=0M-1n=0N-1xm,ne-j2πmMu+nNv] (1)
式中:[u]和[v]為頻率變量,[Fx]振幅分量和相位分量可以分別表示為:
[Axu,v=R2xu,v+I2xu,v12] (2)
[Pxu,v=arctanIxu,vRxu,v] (3)
其中,[Rx]和[Ix]分別表示[Fx]的實部和虛部。
通過上式可以得到a和b相應的幅值信息[Aa]、[Ab]和相位信息[Pa]、[Pb],保持幅值信息不變,交換兩幅圖的相位信息,最后對重新組合的圖像信息進行離散傅里葉逆變換,得到兩幅新的圖像a*和b*。從結果中可以看出,a*與b相似,b*與a相似,從而說明傅里葉相位包含更多原來圖像的信息。
傅里葉相位信息作為一種領域不變特征已經引起許多研究者的關注。例如,Xu等人[13]提出了一種基于傅里葉變換的領域泛化框架,利用傅里葉相位特征不易受域變化影響的特點,從頻譜相位分量中學習更多信息以幫助模型獲得域內不變的特征。
本文利用知識蒸餾框架獲取域內不變的傅里葉相位特征信息。知識蒸餾(Knowledge Distillation,KD) 是一種鼓勵在不同網絡中包含特定特征的教師—學生訓練框架。域內不變的傅里葉相位特征蒸餾框架如圖3所示。
將輸入教師網絡數據[x]的傅里葉相位表示為[x],使用[x,y]訓練教師網絡后,在教師網絡訓練完成之后,使用特征知識蒸餾來引導學生網絡學習傅里葉相位信息。經過蒸餾引導后,學生網絡參數[ws]可以表示為:
[ws=argminwx,yL1fx;w,y+L2FeaSx,FeaTx] (4)
式中:[L1?,?]為神經網絡中常用的交叉熵損失函數,[f?;w]為學生網絡,[w]為學生網絡中的參數,[FeaS]和[FeaT]分別為學生網絡和教師網絡的特征提取器,[L2]為使學生網絡特征接近教師網絡特征的均方誤差損失函數。
1.2 域間不變特征提取
僅使用傅里葉相位特征可能不足以獲得足夠的分類判別特征。因此,本文利用多個訓練域中包含的跨域知識來探索域間不變特征。具體來說,給定兩個域[Si]和[Sj],對它們的二階統計量(協方差)進行對齊,域間對齊損失函數[L3]為:
[L3=14d2Ci-Cj2F] (5)
式中:[?2F]為平方矩陣Frobenius范數,[Ci]和[Cj]分別為[Si]和[Sj]的協方差矩陣。針對本文跨庫微表情識別任務只有單個源域的情況,通過使用隨機參數在源域上進行采樣,得到與源域具有不同特征分布的隨機域,之后將源域與隨機域進行域對齊訓練以獲取域間不變特征。
1.3 領域不變特征整合
由于域內不變特征和域間不變特征之間可能存在重復和冗余,為了能盡可能利用更多不同的不變特征,定義一個發散損失函數[L4],通過利用L2距離函數最大化發散域內不變特征[z1]和域間不變特征[z2]之間的距離,以提取更多有利于泛化的不變特征,發散損失函數[L4]公式表示為:
[L4z1,z2=-z1-z222] (6)
匯合公式(4) ,(5) ,(6) ,可以得到IIDIF完整的優化目標:
[ws=argminwx,yL1fx;w,y+λ1L2FeaSx,FeaTx+λ2L3+λ3L4z1,z2] (7)
式中:[λ1]、[λ2]、[λ3]分別為域內不變特征學習、域間不變特征學習以及發散損失函數的超參數,模型通過調整平衡超參數以獲得更好的分類性能。
2 實驗結果與分析
2.1 數據集預處理
本文在三個公開的微表情數據集上進行實驗,分別是CASMEⅡ數據集[14]、MMEW數據集[15]以及SMIC數據集[16]。由于不同微表情數據集之間的情緒類別不統一,為了更好地進行泛化實驗,需要對微表情數據集的情緒類別進行重新標注。考慮到3種微表情數據集的情緒類別和實驗設置的合理性,本文對實驗涉及的3個微表情數據集進行以下重新組織和標注:
1) 對于CASMEⅡ數據集,舍棄類別為“其他”的情緒樣本,將“厭惡”“壓抑”“悲傷”“恐懼”樣本標記為“消極”,將“快樂”樣本標記為“積極”,“驚訝”樣本的標簽保持不變。
2) 對于MMEW數據集,舍棄類別為“其他”以及數量較少的“憤怒”情緒樣本,將“悲傷”“厭惡”和“恐懼”樣本標簽標記為“消極”,將“快樂”樣本標記為“積極”,“驚訝”樣本的標簽保持不變。
3) 對于SMIC數據集,保持原有的“消極”“積極”以及“驚訝”情緒樣本類別不變。
重新標注和排序后,每個數據集中的樣本數量如表1所示。
由于微表情數據集的樣本數量較少,不足以支撐模型訓練,因此需要對數據樣本進行擴增以增加實驗的可靠性。為避免丟失特征細節,僅對微表情序列的起始幀和頂點幀圖片采用旋轉和鏡像翻轉這兩種方法進行擴增。由于微表情數據集中不同情緒類別的數量相差過大,為避免因樣本類別不均衡而造成的實驗性能下降,對樣本數量較少的類別,將其頂點幀前一幀或者后一幀圖像同樣視作樣本頂點幀,以實現大致平衡不同類別樣本數量的目的。經過擴增之后的微表情數據集的樣本數量信息如表2所示。
2.2? 跨庫微表情實驗設置
本文實驗基于CentOS Linux release 7.6.1810(CORE) 操作系統進行,CPU為Intel(R) Xeon(R) Gold 6226R、GPU為NVIDIA GeForce RTX 3090,實驗環境為Python 3.8和CUDA 11.0,深度學習框架為PyTorch 1.7.0。
實驗選取三個微表情數據集中的任意2個分別作為源域和目標域進行跨庫微表情識別實驗,共有6種組合,實驗方案如表3所示。
其中:C為CASMEⅡ數據集,S為SMIC數據集,M為MMEW數據集,“→”兩邊的字母分別為源域和目標域。
2.3 消融實驗
2.3.1 模型結構消融實驗
本文研究基于領域不變特征的跨庫微表情識別,領域不變特征包括域內不變特征和域間不變特征。為了驗證這兩種不變特征以及加入不變特征損失函數后對模型性能的提升效果,以M→C跨庫微表情識別任務為例,設計了如下消融實驗,消融實驗結果如表4所示,其中“√”表示添加本文模型的相應部分,“—”表示沒有添加本文模型的相應部分。
從表4的結果可以看出,同時使用域內和域間兩種不變特征的模型識別準確率為57.94%,比僅使用域內不變特征或者域間不變特征的模型識別準確率分別提升了3.12%和1.02%。加入使兩種不變特征之間距離最大化的不變特征損失后,識別準確率提升了0.93%。可見,本文提出的方法能有效提升模型在跨庫微表情識別上的泛化性能。
2.3.2 超參數消融實驗
本文中,[λ1]、[λ2]、[λ3]分別是域內不變特征、域間不變特征以及不變特征損失對應的三個超參數,超參數設置的不同會直接影響模型識別的性能。為了驗證三個超參數對實驗結果的影響,通過改變一個超參數并固定另外兩個超參數的方式設置消融實驗,三個超參數取值分別設置為0.01、0.1、1、10。M→S跨庫微表情識別任務超參數靈敏度實驗結果如圖4所示。
從圖4中可以看出,當超參數[λ1]=1、[λ2]=10、[λ3]=1時,準確率最高,泛化效果最好。
2.4 對比實驗
為驗證本文所提方法的有效性,分別選擇與主流的領域自適應方法和領域泛化方法進行比較。選取的領域自適應方法有DDAN[17]、BNM[18]、BSAN[19]、BEDA[20],領域泛化方法有DANN[21]、Vrex[22]、ANDMask[23]、DDG[24]、DRM[25]。所有方法均選擇ResNet18為骨干網絡,在CASMEⅡ、MMEW和SMIC三個數據集上的6種跨庫組合下評估性能。
觀察表5中不同方法在6組跨庫微表情實驗任務中的結果可知,本文提出的方法在C→S、S→C、S→M以及M→S四種跨庫任務上達到最優的效果,且在六組跨庫任務實驗中的平均準確率為55.37%。在與領域自適應方法的結果比較中,本文所提方法的平均準確率相較于DDAN、BNM、BSAN、BEDA分別提升了2.86%、3.37%、3.02%和1.41%。同時本文方法在跨庫微表情識別上的平均準確率相較于其他主流的領域泛化方法也有了顯著的提升,平均準確率相較于DANN、Vrex、ANDMask、DDG、DRM分別提升了4.83%、4.10%、2.93%、2.03%和1.47%。從實驗結果上來看,本文方法相比于其他先進算法性能提升較為明顯,可以有效提高跨庫微表情識別精度。
3 結論
本文從更有利于微表情識別模型的實際應用角度出發,提出一種基于領域不變特征的跨庫微表情識別的領域泛化方法。該方法整合了域內和域間兩種不變特征,并利用L2函數最大化兩種不變特征之間的距離,以保證使用更多的不變特征信息參與模型訓練。通過在3個微表情數據集的6組跨庫識別任務上的實驗結果表明,該方法的性能明顯優于其他領域泛化和領域自適應方法。未來的研究可以考慮將更多類型的域內不變特征和域間不變特征結合起來,以達到更好的泛化性能。
參考文獻:
[1] 于明,鐘元想,王巖.人臉微表情分析方法綜述[J].計算機工程,2023,49(2):1-14.
[2] 周偉航,肖正清,錢育蓉,等.微表情自動分析方法研究綜述[J].計算機應用研究,2022,39(7):1921-1932.
[3] PFISTER T,LI X B,ZHAO G Y,et al.Recognising spontaneous facial micro-expressions[C]//2011 International Conference on Computer Vision.November 6-13,2011.Barcelona,Spain.IEEE,2011:1449-1456.
[4] HAPPY S L,ROUTRAY A.Fuzzy histogram of optical flow orientations for micro-expression recognition[J].IEEE Transactions on Affective Computing,2019,10(3):394-406.
[5] 曾晴,曾小舟,申靜.基于多層卷積神經網絡的人臉表情識別方法[J].電腦知識與技術,2023,19(9):13-15.
[6] ZENG X M,ZHAO X C,ZHONG X Y,et al.A survey of micro-expression recognition methods based on LBP,optical flow and deep learning[J].Neural Processing Letters,2023,55(5):5995-6026.
[7] XIA Z Q,HONG X P,GAO X Y,et al.Spatiotemporal recurrent convolutional networks for recognizing spontaneous micro-expressions[J].IEEE Transactions on Multimedia,2020,22(3):626-640.
[8] 魏小明.基于遷移學習VGG-16的微表情識別[J].電腦知識與技術,2023,19(1):31-34.
[9] WANG J D,LAN C L,LIU C,et al.Generalizing to unseen domains:a survey on domain generalization[J].IEEE Transactions on Knowledge and Data Engineering,2023,35(8):8052-8072.
[10] LU W,WANG J D,CHEN Y Q,et al.Semantic-discriminative mixup for generalizable sensor-based cross-domain activity recognition[J].Proceedings of the ACM on Interactive,Mobile,Wearable and Ubiquitous Technologies,6(2):65.
[11] LI D,YANG Y X,SONG Y Z,et al.Learning to generalize:meta-learning for domain generalization[J].Proceedings of the AAAI Conference on Artificial Intelligence,2018,32(1):3490-3497.
[12] LI Y,GONG M M,TIAN X M,et al.Domain generalization via conditional invariant representations[J].Proceedings of the AAAI Conference on Artificial Intelligence,2018,32(1):3579-3587.
[13] XU Q W,ZHANG R P,ZHANG Y,et al.A fourier-based framework for domain generalization[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 20-25,2021.Nashville,TN,USA.IEEE,2021:14383-14392.
[14] YAN W J,LI X B,WANG S J,et al.CASME II:an improved spontaneous micro-expression database and the baseline evaluation[J].PLoS One,2014,9(1):e86041.
[15] BEN X Y,REN Y,ZHANG J P,et al.Video-based facial micro-expression analysis:a survey of datasets,features and algorithms[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,44(9):5826-5846.
[16] LI X B,PFISTER T,HUANG X H,et al.A Spontaneous Micro-expression Database:inducement,collection and baseline[C]//2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG).April 22-26,2013.Shanghai,China.IEEE,2013:1-6.
[17] WANG J D,CHEN Y Q,FENG W J,et al.Transfer learning with dynamic distribution adaptation[J].ACM Transactions on Intelligent Systems and Technology,11(1):6.
[18] CUI S H,WANG S H,ZHUO J B,et al.Towards discriminability and diversity:batch nuclear-norm maximization under label insufficient situations[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020.Seattle,WA,USA.IEEE,2020:3941-3950.
[19] ZHU Y C,ZHUANG F Z,WANG J D,et al.Deep subdomain adaptation network for image classification[J].IEEE Transactions on Neural Networks and Learning Systems,2021,32(4):1713-1722.
[20] YANG J F,PENG X Y,WANG K,et al.Divide to adapt:mitigating confirmation bias for domain adaptation of black-box predictors[C]//International Conference on Learning Representations, ICLR, 2023:1-21.
[21] GANIN Y,USTINOVA E,AJAKAN H,et al.Domain-adversarial training of neural networks[M]//Domain Adaptation in Computer Vision Applications.Cham:Springer International Publishing,2017:189-209.
[22] KRUEGER D,CABALLERO E,JACOBSEN J,et al.Out-of-distribution generalization via risk extrapolation (REx)[C]//International Conference on Machine Learning, ACM, 2021: 5815-5826.
[23]PARASCANDOLO G, NEITZ A, ORVIETO A, et al. Learning explanations that are hard to vary [C]//9th International Conference on Learning Representations, OpenReview.net, 2021:1-24.
[24] ZHANG H L,ZHANG Y F,LIU W Y,et al.Towards principled disentanglement for domain generalization[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 18-24,2022.New Orleans,LA,USA.IEEE,2022:8014-8024.
[25] ZHANG Y F,WANG J D,LIANG J,et al.Domain-specific risk minimization for domain generalization[C]//Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.August 6 - 10,2023,Long Beach,CA,USA.ACM,2023:3409-3421.
【通聯編輯:唐一東】