結合多注意力機制和中間幀序列的微表情識別

2023-03-17 07:28:36李思誠周順勇曾雅蘭

無線電工程 2023年3期

李思誠, 周順勇?, 朱豪, 曾雅蘭, 劉學

(1.四川輕化工大學自動化與信息工程學院,四川宜賓 644000;2.四川輕化工大學人工智能四川省重點實驗室,四川宜賓 644005)

0 引言

微表情是當一個人經歷某種情緒但試圖隱藏時的一種短暫的、不自覺的面部運動。正常的面部表情,也被稱為宏表情,持續時間在1/2~4 s,涉及到大面積的面部運動[1]。 Matsumoto 等[2]認為微表情發生在面部小部分區域,持續時間通常為 1/25~1/5 s。雖然微表情面部動作的簡短和低幅度使得人眼甚至經驗豐富的專家難以實時識別微表情。但是與宏表情不同,人們很難掩飾自己的微表情。因此,微表情在理解人類潛在情感方面發揮著至關重要的作用,為刑事審訊[3]、國家安全[4]、測謊[5-6]、心理疾病的臨床診斷等各種應用提供了幫助。

微表情研究可分為微表情檢測和微表情識別。微表情檢測是在一段長視頻幀序列中自動檢測到微表情存在的開始幀至結束幀序列,并可使用視頻關鍵幀提取技術檢索到面部微表情運動幅度最大的Apex 幀位置。微表情識別是將檢測出的微表情視頻序列自動分類為具體的情感類別。本文主要研究微表情識別任務。

1978 年Ekman 等[7]研究并開發了面部動作編碼系統(FACS) 和微表情訓練工具(METT)[8]。FACS 將面部表情分解成肌肉運動的各個組成部分,稱為動作單位(AU)。 AU 分析可以有效地解決表示不同個體表情的歧義問題,提高表情識別性能[9]。

另一方面,METT 有助于提高人工識別面部微表情的能力,為后續構建可靠的微表情數據集提供了幫助。盡管如此,人工識別面部微表情的能力依然有限,準確判斷的概率僅有47%[10]。因此,利用計算機視覺技術設計一種行之有效的識別算法輔助人工識別顯得愈加重要。

本文的主要貢獻如下:

① 引入了2 種注意力機制模塊,使得神經網絡學習時更聚焦于面部的細微變化。

② 由于微表情發生時面部運動幅度較小,所以輸入圖像采用視頻序列中面部運動幅度最大的峰值幀(Apex Frame)和前后4 幀組成的中間幀序列。

③ 本文在3 個自發微表情數據集中進行實驗證明了此方法識別效果優于傳統方法。

1 相關工作

1.1 傳統方法

微表情識別研究初期特征提取主要采用手工提取特征,大致分為2 類:基于像素值的方法和基于特征區域變化的方法。

基于像素值的方法通過統計面部區域像素值獲得微表情紋理特征,如基于局部二值模式(LBP)[11]的算法。此后,Pfister 等[12]在LBP 算法基礎上從二維擴展至三維空間提出了基于三維局部二值直方圖(LBP-TOP)的算法,能夠更好地處理并提取動態特征。繼LBP-TOP 后,Huang 等[13]提出了判別時空局部二值量化模式 (STCLQP)的算法,利用積分投影獲得水平和垂直投影,再采用LBP 算法提取2 個投影上的運動特征。

基于特征區域變化的方法不會直接考慮像素值,而是聚焦于特征點或特征區域的變化。目前主流的方法是提取面部運動光流特征,如Liu 等[14]于2015 年首次將光流引入至微表情識別領域,提出了一種主方向平均光流特征(MDMO),該方法不僅較已有方法有著更高的準確率而且更為簡單。光流法主要分析微表情序列起始幀到峰值幀在光流場中的變化,Patel 等[15]提出了利用局部時空區域中的光流積分獲得的運動矢量并求出起始和偏移的幀編號來識別微表情。 Happy 等[16]提出了一種光流方向直方圖模糊化(FHOFO),從視頻流矢量方向構造合適的角度直方圖,對時間模式進行編碼,用于微表情的分類,為基于特征區域變化的識別方法融入了新的想法。

1.2 深度學習方法

上述傳統手工提取特征的方法,雖然能夠有效識別微表情,但是過程往往較為復雜,耗時長,而且需要專業的心理學家進行提取。因此并不能在實際應用中發揮很好的作用。與傳統方法需要研究人員有著心理學方面的先驗知識相比,利用神經網絡自主學習物體的固有形狀和外觀特征能夠得到更高層的語義信息。近年來,越來越多的學者嘗試將深度學習方法應用于微表情識別領域。

Patel 等[17]首次在微表情識別領域使用深度學習方法,挑選出有用的深度特征,剔除無關的深度特征用于識別。 Peng 等[18]提出了一種結合了從頂點幀學習的空間特征和從相鄰幀學習的時間特征來識別微表情的新型峰值時間網絡(ATNet)。 Liong等[19]介紹了一種新的特征描述符,該特征描述符將光流與CNN 相結合,從起始幀至頂點幀獲得光流信息后,將光流特征送入Off-ApexNet 模型進行進一步的特征增強和表情分類。繼Off-ApexNet 后,Liong等[20]又設計了一種淺層三流三維卷積神經網絡(Shallow Triple Stream Three-dimensional CNN,STSTNet),該網絡模型更小,卻能提取更具差異性的高級特征。 Xia 等[21]提出了一種新的基于深度遞歸卷積網絡的微表情識別方法,捕捉了微表情序列的時空變形。該模型由用于提取視覺特征的遞歸卷積層和用于識別的分類層組成,以端到端的方式進行優化,避免了手動特征設計。

綜上所述,與傳統方法相比,深度學習技術在微表情識別領域更為有效且效率更高。但是由于目前公開的自發微表情數據集較少,僅使用峰值幀作為輸入圖像容易造成在訓練集上測試正確度較高,在測試集上測試正確度較低。本文在選擇輸入圖像時觀察到峰值幀前后幾幀的差異十分輕微,為了避免過擬合現象,采用面部運動幅度最大的峰值幀(Apex Frame)和前后4 幀組成的中間幀序列作為輸入圖像。此外,在特征提取時,為了使模型對面部細節的輕微變化更加敏感而在不同位置加入了多種注意力機制,以便有效得提取深層信息。

2 本文算法

2.1 整體結構

本文算法的整體結構流程可分為預處理、特征提取以及表情分類3 個部分。特征提取使用Res-Net34 網絡模型為基礎,構建ECANet34-DA 網絡模型,通過訓練宏表情數據集Fer2013[22]得到先驗知識,利用遷移學習應用到微表情識別領域,整體結構流程如圖1 所示。

圖1 整體結構流程Fig.1 Overall structure

2.2 預處理

2.2.1 人臉對齊及裁剪

在預處理階段,首先需要找到微表情視頻序列中峰值幀的位置索引值,SAMM 和CASME II 數據集已經由心理學家提前標定了峰值幀位置。而SMIC數據集提供的是微表情的起始幀和結束幀位置索引值,本文使用了幀間差最大法[23]提取各微表情視頻序列的關鍵幀作為SMIC 數據集的峰值幀。其次,由于微表情的視頻序列包含了較多的干擾信息,所以需要裁剪出關鍵人臉區域。通過Dlib 庫對人臉68 個關鍵點進行標定,然后基于這些標定點進行對齊,保持雙眼標定點的連線水平進行矩形裁剪以剔除冗余的背景信息,裁剪結果如圖2 所示。

圖2 人臉裁剪Fig.2 Cropped image

2.2.2 中間幀序列

實驗對比發現,峰值幀附近幀序列的表情變化差異極其微小,因此,構建由峰值幀及其前后4 幀組成的中間幀序列,以該中間幀序列作為輸入圖像,更好地解決數據量不足的問題,獲得更好的檢測效果。

2.3 特征提取

2.3.1 ECA 模塊

Efficient Channel Attention(ECA)[24]模塊是一種高效通道注意力模塊,是SENet[25]的改進版,由于SENet 進行的降維操作將會影響對通道注意力的預測,且獲取依賴關系效率不高,所以ECA 模塊采用不降維的局部跨通道交互策略,能夠有效降低模型復雜性的同時保持良好的性能。 ECA 模塊的具體結構如圖3 所示。

圖3 ECA 模塊具體結構Fig.3 ECA module

ECA 模塊在SENet 的基礎上舍棄了2 個全連接層,在對卷積塊進行全局平均池化后的特征,直接使用一個自適應大小Kernel_Size 的1D 卷積進行學習,隨后通過Sigmoid 函數固定輸入特征層每一個通道的權值。最后原特征層通過與獲得的通道權值相乘得到χ~,使得模型在不增加復雜性的同時對各通道特征更有辨別能力。

2.3.2 DA 模塊

Dual-Attention(DA)模塊是一種參考CBAM[26]機制的結合了雙重注意力的機制的輕量級卷積注意力模塊,在CBAM 基礎上加入了從輸入特征層與注意力輸出特征層相加的殘差連接(Residual Connection),相比ECA 模塊只關注通道特征能更好地處理空間特征。 DA 包含SAM 和CAM 兩個子模塊,具體結構如圖4 所示。

圖4 DA 模塊具體結構Fig.4 Structure of DA module

SAM 子模塊將輸入的特征圖F分別經過全局最大池化和全局平均池化后,再分別輸入多層感知機(MLP)。然后融合二者輸出的結果,經Sigmoid函數激活,得到SAM 特征圖Ms(F)。

CAM 子模塊先在空間維度上,對特征圖F′=F×Ms(F)進行2 種池化,然后對2 張特征圖進行融合,再對其結果進行一次一維卷積處理,經過Sigmoid函數激活得到CAM 特征圖Mc(F′),最終輸出F″=F′×Mc(F′)+F。

2.3.3 ECANet34-DA 網絡

本文用到的基本網絡是34 層ResNet 模型。ResNet 網絡由He 等[27]提出,其核心是使用殘差塊(Residual Block),將前面某一層的輸出直接跳過多層與后面數據層相加。網絡結構參考了VGG19 網絡[28],但在其基礎上加入了2 種不同的殘差塊結構,如圖5 所示。

圖5 2 種殘差塊結構Fig.5 Two structures of residual block

根據ResNet 網絡層數的使用不同的結構,18,34 層為圖5(a),50,101,152 層為圖5(b)。 ECANet34-DA 在ResNet34 的ResBlock 中加入了ECA模塊及DA 模塊,其結構如圖6 所示。

圖6 ECANet34-DA 結構Fig.6 ECANet34-DA structure

2.4 表情分類

完成表情分類工作的方法是在神經網絡末層加入Softmax 回歸進行樣本分類。當樣本輸入至Softmax 層后,神經元會對該樣本進行預測并輸出一個屬于當前類別的概率值。最終,各樣本概率值最大的類別即為表情分類結果。

3 實驗

3.1 數據集與數據處理

3.1.1 數據集

本文使用到微表情的自發數據集共3 種:SMICHS[29],CASME II[30]和SAMM[31]數據集。 SMIC-HS數據集是全球首個公開發布的自發式微表情數據集,由芬蘭奧盧大學的趙國英團隊收集。 CASME II數據集是中科院心理研究所傅小蘭團隊收集,受試者全部來自亞洲。 SAMM 數據集是英國曼徹斯特大學Moi Hoon Yap 團隊于2018 年收集,該數據集受試者男女比例1 ∶1,包括13 個種族,19~57 歲。 3 個數據集具體信息如表1 所示。

表1 常用數據集的具體信息Tab.1 Common datasets

由于SMIC-HS 和SAMM 樣本數據不足,所以在CASME II 數據集上進行了多情緒類別實驗。CASME II 包括“厭惡”“高興”“其他”“壓抑”“悲傷”“恐懼”和“驚訝”7 類微表情。而恐懼和悲傷樣本十分稀少,因此在多類別實驗時,保留其余5 類。

3.1.2 數據集融合

為了使3 個數據集能夠融合使用以增加實驗數據,按SMIC-HS 的情緒三分類(消極、積極、驚訝)對CASME II 和SAMM 數據做了重新劃分以便統一樣本標簽。具體操作為:“厭惡”“憤怒”“壓抑”“輕蔑”“悲傷”“恐懼”樣本歸為“消極”樣本;“高興”樣本歸為“積極”樣本;“驚訝”樣本保持不變;“其他”樣本無法歸類故不使用。新劃分數據集的具體信息如表2 所示。

表2 新劃分數據集的具體信息Tab.2 Newly divided datasets

3.2 實驗設置

本實驗的操作系統為Windows 11,處理器為AMD Ryzen 7-5800H,CPU 主頻3. 20 GHz,GPU 為NVDIA GeForce RTX3060,顯存12 GB。實驗使用Python 3.9. 12,Pytorch1. 10. 0 框架搭建神經網絡。預訓練使用Fer2013 宏表情數據集,為提取微表情特征提供先驗知識。通過留一交叉驗證 (Leaveone-subject-out Cross-validation,LOSOCV) 法驗證微表情識別效果。為解決微表情數據樣本類別分布不平衡的問題,損失函數使用Focal Loss 函數,定義為:

式中,p為模型預測屬于類別y=i的概率;α為類別i的權重因子;()γ為調制系數,γ≥0。

評價指標包括:未加權F1 得分 (Unweighted F1-score,UF1)、系統平衡精度(Unweighted Average Recall,UAR)和準確率 (Accuracy)。

UF1 得分因為其可以不受各樣本類別數量差異影響,所以在處理多情緒類別問題上是一個很好的評估標準:

式中,C為微表情總類別數;F1i為類i的F1 指數;TP,FP,FN分別為真陽性、假陽性、假陰性。

UAR 又叫做未加權平均召回率,這是一種較加權平均召回率更合理的評估標準:

式中,Acc為準確率;Acci為類i的準確率;TN為真陰性。

3.3 實驗結果及分析

3.3.1 CASME II 上的多類表情實驗

多類表情實驗選用CASME II 數據集中“厭惡”“高興”“其他”“壓抑”“驚訝”5 類微表情。采用LOSOCV 法作為驗證方法,即每一輪實驗中預留一位受試者的表情作為測試集,這樣可以避免訓練集和測試集中人臉樣本混合造成的測試結果不準確。

本文方法與其他主流方法的識別效果對比如表3所示,選取UF1 和Accuracy 兩個指標。通過對比可以發現,本文方法在多類識別率上有著不錯的提升,在CASME II 數據集的5 類微表情識別上,較最優主流算法TSCNN-II 的UF1 提升了1. 26%, 準確率提升了4.47%。

表3 多類表情識別與其他算法效果對比Tab.3 Comparison of multi-class expression recognition and other algorithms

3.3.2 新劃分數據集上的3 類表情實驗

以SMIC-HS 數據集劃分為基準,重新劃分了CASME II 和SAMM 數據集,歸為“消極”“積極”“驚訝”三類。在相同實驗條件下,與其余做3 類識別的文獻中的主流方法對比結果如表4 所示。

表4 3 類表情識別與其他算法效果對比Tab.4 Comparison of the effects of three types of expression recognition and other algorithms

由表4 可以看出,本文所提出的算法在3 類別微表情識別上依然有著不錯的效果,在SMIC-HS 數據集上識別效果最佳:UF1 提升了2. 56%,UAR 提升了2. 09%;在CASME II 和SAMM 數據集上也有著不錯的效果。因此該算法與主流算法相比較依然有不錯的競爭力。

3.4 消融實驗

為了驗證ECANet34-DA 網絡的提取微弱特征的有效性,在CASME II 的5 類別微表情數據集上進行消融實驗,實驗方法設計如表5 所示。

表5 5 種消融實驗方法Tab.5 Ablation experiments

消融實驗的結果如圖7 所示。由圖7 可以看出,在ResNet34 網絡模型中融入ECA 和DA 模塊后,有效地提高了網絡模型的精度。此外,使用中間幀序列作為特征輸入相較于使用峰值幀,不僅有效解決了因訓練數據太少導致的過擬合現象,還在一定程度上提高了識別效果。

圖7 消融實驗結果對比Fig.7 Comparison of the results of ablation experiments

4 結束語

本文提出了一種結合多注意力機制和中間幀序列的微表情識別算法,構建了一種更加注重微表情的微弱運動變化的ECANet34-DA 網絡模型。使用改進的ResNet34 網絡模型,引入ECA 模塊及DA 模塊專注于提取不同情緒下面部細微差異特征。在提取出峰值幀索引值后,選取其附近8 幀序列組成的中間幀序列用作輸入圖像,緩解了因數據量不足造成的過擬合現象,同時擴充了數據集。實驗結果表明,該方法對于微表情的識別效果顯著,較其余主流算法有著不錯的競爭力。未來研究將聚焦于融合多數據集的特征提取,解決跨數據集微表情識別困難等問題。