








摘" 要:為了提高非約束環境下的人臉表情識別效果,研究并設計了一種嵌入注意力機制的兩階段特征融合表情識別深度卷積神經網絡框架。該網絡框架設計和引入了多個注意力模塊,旨在精準提取圖像局部位置的表情特征信息。同時,通過構建密集連接殘差塊,有效提升了特征提取的質量并增強了網絡的穩定性。在此基礎上,將局部特征與多尺度模塊提取的全局特征進行融合,從而獲得更具判別力的表情特征。實驗結果顯示,所提方法在RAF-DB數據集上表現出較好的表情識別性能。
關鍵詞:表情識別;注意力機制;局部特征;特征融合
中圖分類號:TP391.4 文獻標識碼:A 文章編號:2096-4706(2025)04-0043-05
Expression Recognition Method Based on Attention Mechanism and
Feature Fusion
JIANG Tao, LI Chuzhen
(School of Information Technology, Guangdong Technology College, Zhaoqing" 526100, China)
Abstract: In order to improve the performance of facial expression recognition in unconstrained environments, a two-stage feature fusion expression recognition deep Convolutional Neural Network framework with embedded Attention Mechanism is studied and designed. This network framework designs and introduces multiple attention modules aimed at accurately extracting expression feature information of local image positions. Meanwhile, by constructing densely connected residual blocks, the quality of feature extraction is effectively improved and the stability of the network is enhanced. On this basis, the local features are fused with the global features extracted by the multi-scale module to obtain more discriminative expression features. The experimental results show that the proposed method exhibits good expression recognition performance on the RAF-DB dataset.
Keywords: expression recognition; Attention Mechanism; local feature; feature fusion
0" 引" 言
表情是人類傳達情感最有力和最自然的信號之一,在交流中扮演著重要的角色[1]。面部表情識別(Facial Expression Recognition, FER)因其在多個領域的廣泛應用,正成為計算機視覺領域備受關注的研究課題。無論是在人機交互[2]、駕駛員疲勞監測[3],還是在智能教育和醫療診斷中[4],FER都展現出重要價值,使其成為學術界和工業界共同關注的焦點。FER旨在將圖像或視頻片段分類為幾種基本情緒之一,即中性、快樂、悲傷、驚訝、恐懼、厭惡、憤怒,甚至更多[5]。這就需要去建立表情圖像與表情類別之間的映射關系,然后計算機根據這種映射關系自動確定面部表情。
近年來,深度卷積神經網絡(DCNN)在計算機視覺領域大放異彩,其最大的優勢之一在于能從海量的原始數據中,智能地提取出有價值的特征,擁有出色的自適應學習特性。與傳統的手工特征相比,DCNN在揭示高層語義和挖掘數據本質方面顯得更為出色[6]。然而,面部表情識別任務的復雜性高于其他圖像識別任務,因為它要求對面部特征進行細致的刻畫,以實現更高的識別精度。在應用DCNN進行面部表情識別時,可能會因為對面部關鍵部位如眼部和嘴部的特征關注不夠,而導致部分有效特征信息的丟失,這種不足可能會影響識別的準確性[7]。由此,為了提升識別性能,需要不斷探索如何更好地提取面部關鍵區域的局部特征,以確保在處理復雜表情時,能夠充分捕捉和利用這些細節特征,從而提高整體識別的精確度和可靠性。因此,本文提出了一種基于注意力機制和特征融合的人臉表情識別算法,該算法旨在融合全局特征和局部特征,提升模型的特征提取能力,并增強對不同表情的辨識能力。本文所提算法將注意力模塊、多尺度模塊、密集連接殘差塊嵌入到FER的DCNN架構中。采用不同特征提取分支對面部局部特征、全局特征分別進行提取,并通過兩階段融合方法來提高整體性能。
1" 網絡結構
1.1" 網絡整體結構
本文提出的基于注意力機制局部與全局特征融合的表情識別網絡整體結構如圖1所示。首先由ResNet-18的前三個卷積層模塊組成特征提取網絡來獲取輸入圖片的淺層表情特征圖,接著將得到的表情特征圖采用一個三分支網絡進行處理,分別進入通道注意力模塊,空間注意力模塊以及多尺度模塊。通道注意力模塊以及空間注意力模塊所提取的局部特征,再由注意力嵌入模塊做特征增強后進行第一階段的特征融合,再將融合后的局部特征與多尺度模塊提取的全局特征進行第二階段的特征融合,以形成全面豐富的特征表示。最后將特征融合結果送到ResNet-18的最后一個卷積模塊得到輸出特征,再通過全連接層以及Softmax函數進而得到表情辨別的結果。在本文提出表情識別網絡中,嵌入了數個注意力機制模塊來提升模型的聚焦能力,并嵌入密集連接殘差塊來提高特征提取的質量和增加網絡的穩定性,現對各個模塊的結構設計進行說明。
1.2" 通道注意力模塊
通道注意力模塊結構如圖2所示,通過使用全局平均池化(Global Average Pool)以及Reshape操作進行特征轉換,將特征圖大小變成C×1×1。接著引入了兩個全連接(Fully Connected, FC)層,用于學習通道間的關系,得到一個與輸入通道數相同的權重向量。這個權重向量可以被看作是每個通道的注意力權重。最后把注意力權重和特征圖相乘,生成針對通道增強后的特征圖。這種自適應的通道權重調整可以加強有用的特征,抑制無用特征,使網絡更好地聚焦于重要的特征信息。
1.3" 空間注意力模塊
空間注意力模塊結構如圖3所示,通過使用最大池化(Maxpool)以及平均池化(Average Pool)將特征圖變成H×W×1的大小。緊接著將兩特征圖進行特征融合,經過一個大小1×1的卷積,再使用Sigmoid激活函數產生出注意力權重。最后,將注意力的權重與特征圖相乘,生成針對空間增強后的特征。
1.4" 多尺度模塊
傳統的卷積神經網絡存在卷積核單一、只能獲取某種固定尺度的特征的缺點,鑒于此,本文在表情識別模型中設計了多尺度模塊,利用多分支卷積提取多尺度特征,增強網絡的全局特征提取能力。本文設計的多尺度模塊如圖4所示,基于Inception結構[8]思想,通過使用1×1的卷積層對通道數做變換,然后再通過不同大小的卷積核并行卷積和池化,提取多尺度特征,最后將得到的不同尺度特征在通道維度進行合并,形成一個具有豐富特征表示的輸出。
1.5" 注意力嵌入模塊
注意力嵌入模塊(Attention Embedding Module, AEM)結構如圖5所示。在AEM中,通過將高階的特征與低階的特征相乘,補足模型在卷積中可能丟失的特征信息,使得模型訓練出的信息能夠更加豐富。AEM運行的流程表達如下:
(1)
(2)
其中Fl是來自第3個卷積層的特征,X是來自密集連接殘差塊(Residual in Residual Dense Block, RRDB)的輸入特征,GAP是全局平均池層,R表示Reshape層,DReLU是具有ReLU激活函數的Dense層,DSigmoid是具有Sigmoid激發函數的Dense層。
1.6" 密集連接殘差塊
為了更有效地提取豐富的表情特征并穩定網絡訓練過程,模型中嵌入了密集連接殘差塊(Residual in Residual Dense Block, RRDB),如圖6所示,RRDB模塊由三個Dense Block構成,每個Dense Block內部包含四組卷積層,每組均配以Leaky ReLU激活函數,并使用3×3的卷積核。每組卷積層包含32個卷積核,通過密集連接方式實現特征的有效復用,最后,模塊通過一個3×3的卷積層進行特征整合。為了增強模型的穩定性,設計了一種機制,即在每個Dense Block的輸出端,都會應用一個介于0和1之間的系數來進行殘差縮放。這種設計思想源自密集連接策略和多級殘差網絡,RRDB模塊通過在卷積層之間建立跳躍連接,充分利用每一層卷積特征。連接的構建不僅能夠增強特征保留的完整性,還能確保信息在最小化噪聲干擾的情況下高效流動。跳躍連接方式加強了特征間的傳播,也在模塊內部實現了信息的深層交互,使每一層信息都能參與到整體學習中,進而提高網絡的表現力和泛化能力。這樣的設計策略除了能穩定模型訓練還能提升網絡整體的訓練速度以及最大限度地保留圖像特征的同時,增進網絡的深度。
2" 實驗與分析
2.1" 數據集
為了驗證所提方法的有效性,本文在人臉表情數據集RAF-DB[9](Real-world Affective Faces DataBase)上進行了實驗。RAF-DB是一個大規模的真實世界非約束環境下的面部表情數據集,廣泛應用于表情識別、情感計算、人機交互等領域的研究[6],同時因為圖像來自真實的場景,反映了現實生活中的復雜情感表達,比實驗室環境下拍攝的標準化數據更具有挑戰性,其中包含大約3萬張多樣的臉部圖片,基于眾包標注,每張圖片已由約40位標記者獨立標記。RAF-DB包含了七種基本表情類別,分別是憤怒(Angry)、厭惡(Disgust)、恐懼(Fear)、高興(Happy)、傷心(Sad)、驚訝(Surprise)和中性(Neutral),涵蓋了人類情感表達的主要類型[10]。本文共使用15 339張被標注為不同表情類別的面部表情圖像,其中用于訓練的有12 271張,用于測試的有3 068張。
2.2" 實驗結果與分析
實驗使用Python語言和PyTorch深度學習框架,采用AutoDL服務器平臺進行實驗,實驗環境為Liux操作系統,基礎鏡像為PyTorch 1.10.0,Python 3.8,Cuda版本為11.3,GPU RTX 4090 (24 GB),Xeon(R)Platinum 8362處理器。
在數據集上進行網絡訓練時,優化器采用隨機梯度下降SGD優化器,初始學習率設置為0.01,將經過數據預處理的數據注入模型,每次按照批數量(batch size)64進行訓練,訓練一共迭代400次,動量設為0.9,權值衰減設為0.000 1,激活函數采用ReLU函數。
圖7為模型在RAF-DB數據集上的混淆矩陣,它的每一行代表了數據的真實歸屬類別,每一列代表了分類器預測得到的類別。
由圖7可見,“高興”表情的識別準確率最高,達到了96%,其次是“悲傷”,準確率為91%,“驚訝”“中立”和“憤怒”的識別準確率也均超過了80%。相比之下,“恐懼”和“厭惡”這兩種表情,由于外觀變化不明顯,識別率分別為64%和69%,且容易混淆,這可能與它們同屬于消極表情類別,之間的表情相似性有關,基礎網絡對這兩類表情的初始識別精度也較低。除此之外,其他表情類別被誤識別的情況對比基礎網絡有明顯改善,通過本方法,在充分提取局部特征的同時融合全局特征,使圖像特征能最大限度得到利用,提高了表情識別準確率。
2.3" 消融實驗
為了驗證本文方法中三分支兩階段全局-局部特征融合表情識別模型的有效性,本節在RAF-DB數據集上,對模型進行了消融研究,探索基礎網絡和模塊的不同組合,以驗證和分析各個模塊對識別結果的影響。結果如表1所示,在RAF-DB數據集上,采用ResNet-18作為基礎網絡,不添加任何模塊時的準確度數據為84.71%;當僅使用第1個分支進行實驗時,可以得到86.61%的效果;當僅使用第2個分支進行實驗時可以達到86.23%;當僅執行第3個分支時可以達到87.1%;另外,也對第1、2分支和第1、3分支以及第2、3分支組合進行實驗,分別的結果為87.27%,88.94%以及88.61%,本文所提出的完整模型(3個分支,2階段融合)的識別率達到了89.31%,表現最佳。
3" 結" 論
本文針對傳統DCNN主要關注整體圖像特征提取而忽視局部細節的問題,提出了一種創新的網絡模型,此模型將局部與全局特征分兩個階段進行融合。在全局特征提取方面,模型采用多尺度模塊,能夠捕獲不同尺度的全局信息;另一方面,引入三重注意力模塊,提取關鍵區域的局部特征,同時嵌入密集連接殘差塊,通過殘差塊的跨連傳遞不同層次的表情特征,在確保信息完整性的同時防止網絡退化。實驗結果表明本文所設計方法,在表情識別任務中表現出了較好的性能。
參考文獻:
[1] 蔣斌,鐘瑞,張秋聞,等.采用深度學習方法的非正面表情識別綜述 [J].計算機工程與應用,2021,57(8):48-61.
[2] BARENTINE C,MCNAY A,PFAFFENBICHLER R,et al. A VR Teleoperation Suite with Manipulation Assist [C]//Companion of the 2021 ACM/IEEE International Conference on Human-robot Interaction.Boulder:ACM,2021:442-446.
[3] VERMA B,CHOUDHARY A. A Framework for Driver Emotion Recognition Using Deep Learning and Grassmann Manifolds [C]//2018 21st International Conference on Intelligent Transportation Systems(ITSC).Maui:IEEE,2018:1421-1426.
[4] LI T H,DU C F,NAREN T Y,et al. Using Feature Points and Angles between them to Recognize Facial Expression by a Neural Network Approach [J].IET Image Processing,2018,12(11):1951-1955.
[5] 蔣斌,崔曉梅,江宏彬,等.輕量級網絡在人臉表情識別上的新進展 [J].計算機應用研究,2024,41 (3):663-670.
[6] JIANG M,YIN S L. Facial Expression Recognition Based on Convolutional Block Attention Module and Multi-feature Fusion [J].International Journal of Computational Vision and Robotics,2023,13(1):21-37.
[7] WANG K,PENG X J,YANG J F,et al. Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition [J].IEEE Transactions on Image Processing,2020,29:4057-4069.
[8] SZEGEDY C,LIU W,JIA Y Q,et al. Going Deeper with Convolutions [J/OL].arXiv:1409.4842 [cs.CV].(2014-09-17).https://arxiv.org/abs/1409.4842.
[9] LI S,DENG W H,DU J P. Reliable Crowdsourcing and Deep Locality-preserving Learning for Expression Recognition in the Wild [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:2584-2593.
[10] TENG J N,ZHANG D,ZOU W,et al. Typical Facial Expression Network Using a Facial Feature Decoupler and Spatial-temporal Learning [J].IEEE Transactions on Affective Computing,2023,14(2):1125-1137 :1125-1137.
作者簡介:江濤(1983.10—),男,漢族,江西安福人,副教授,碩士,研究方向:深度學習、計算機視覺;李楚貞(1989.10—),女,漢族,廣東潮州人,副教授,碩士,研究方向:深度學習。
收稿日期:2024-08-29
基金項目:廣東理工學院創新強校工程科研項目(2022GKJZK004);廣東理工學院人工智能重點學科項目(2024KDZK001);廣東理工學院實驗教學示范中心項目(SFZX202402)