冉瑞生,翁穩穩,王寧,彭順順
(重慶師范大學 計算機與信息科學學院,重慶 401331)
面部表情是人體語言的一部分,是對心理情感的一種表露形式,是情感傳遞的重要方式。美國傳播學家MEHRABIAN 通過實驗提出,在情緒的表達中,面部表情所占比重高達55%[1]。由此可見,人臉表情識別(Facial Expression Recognition,FER)是非常具有研究價值的課題。1971年,心理學家EKMAN 把基本表情劃分為6種,分別為開心、傷心、驚訝、害怕、生氣和厭惡[2],盡管不同人之間有所差異,但這些表達情感的方式是人類共有的。
傳統的表情識別方法主要是通過人工設計特征并結合分類模型達到表情識別的目的。局部二值模式(Local Binary Pattern,LBP)[3]、Gabor 小波變換[4]以及尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)[5]等常被用來提取特征,再結合支持向量機(Support Vector Machine,SVM)[6]等分類模型來識別表情。在早期,這些經典的特征提取算法在一些表情數據集上取得了不錯的效果[7-8],但也有很多缺點,主要表現為人工設計特征非常復雜、耗時和性能較低,對于實驗室環境下的表情數據集,表情變化單一且不受自然環境干擾,不同表情之間的差異明顯,因此基于人工設計特征的方法可以取得不錯的效果。但自然場景下的人臉表情受到光照、遮擋、不同種族、年齡、性別等因素的影響,表情特征復雜,傳統的表情識別方法效果很差。
隨著深度學習的崛起,卷積神經網絡(Convolutional Neural Network,CNN)憑借自身強大的特征提取能力被廣泛應用在計算機視覺領域,執行圖像分類、目標檢測等任務。人臉表情識別也屬于圖像分類任務的一種,因此許多經典的卷積神經網絡模型,如LeNet[9]、VGG[10]、ResNet[11]等常被作為基礎網絡用在人臉表情識別任務上,并在此基礎上進行改進優化,從而達到提升模型識別準確率的目的。例如,文獻[12]通過深度學習網絡來提取特征,并采用L2 正則化和支持向量機相結合的方式替代Softmax 函數,提升了模型人臉表情識別準確率。文獻[13]提出一種新的學習方法IcRL,通過提取獨立的表情特征來學習不同類別表情之間的相互關系,并擴大類間距離與類內距離之比。文獻[14]基于殘差網絡ResNet18,將過濾器響應正則化、批量正則化、實例正則化和組正則化進行組合,并分別嵌入網絡之中,平衡和改善特征數據分布,提升模型性能。文獻[15]提出一種新的深度位置保持卷積神經網絡DLP-CNN,目的是通過增強保留局部性來提高深層特征的判別能力,同時最大化類間離散度。文獻[16]提出一種基于注意力機制的卷積神經網絡(ACNN),可以感知人臉的遮擋區域,并關注最具鑒別性的未遮擋區域,針對不同的關注區域,提出基于局部的ACNN(PACNN)和基于全局人臉區域的ACNN(GACNN)。文獻[17]提出一種新穎的深度嵌入方法,該方法的目的是設計學習判別性表情特征同時表示大量類內變化的表情特征,通過最小化樣本與其最近的子類中心之間的距離來形成局部緊湊的表示空間結構,最終提升模型性能。
也有針對人臉面部遮擋等因素設計的表情識別方法,如文獻[18]提出一種新穎的生成對抗網絡用于遮擋表情識別,在加權重建損失、三元組損失和對抗損失的三重約束下,生成器自然地補充了表情圖像中的遮擋,再利用2 個判別器來區分圖像真假以及完成表情分類。文獻[19]通過結合殘差網絡和VGG16 網絡,提出基于改進VGG16 的20 層卷積神經網絡,并采用混合特征融合策略將Gabor 濾波器與改進網絡并行化,通過實驗驗證了方法的優勢。
由此可見,為了讓表情識別模型在自然場景下具有良好的魯棒性以及較高的識別率,必須讓模型具有提取復雜特征的能力(如表情局部變化細微的特征以及面部表情遮擋的區域),以及能夠提取反映表情變化的關鍵特征,抑制非表情特征。
本文以殘差網絡作為主要的特征提取網絡,在網絡輸入端通過引入裁剪掩碼模塊(Cutout)[20],擴充訓練數據的復雜性。在殘差單元的最前端引入關鍵特征表征模塊,即使用卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)[21],在空間和通道維度上提取表情的關鍵特征。最后在網絡輸出端引入Dropout 正則化技術[22],提升模型的泛化能力。將本文方法在兩個公開數據集Fer2013[23]和RAF-DB[15]上進行實驗,以驗證該方法的有效性。
本文提出的人臉表情識別方法使用殘差網絡ResNet18 作為基礎網絡,由裁剪掩碼、關鍵特征表征以及Dropout 正則化這3 部分構成,本文方法的流程如圖1 所示。

圖1 本文方法的流程Fig.1 Procedure of method in this paper
由圖1 可知,裁剪掩碼單元能夠模擬遮擋數據,將輸入圖像中一部分保持原樣,另外一部分隨機擦除一個矩形區域,從而增強數據集。在使用殘差網絡粗略提取特征后,將其送入殘差單元之前在模型中加入關鍵特征表征模塊,關鍵特征表征模塊主要由通道注意力和空間注意力構成,用于提取人臉的關鍵特征,讓殘差單元學習到更加精細的特征。最后在特征圖輸出前,使用Dropout 正則化策略,達到組合不同訓練模型的目的,提升模型泛化能力。
近年來,注意力機制被廣泛應用于各種視覺任務中,注意力機制的核心思想是幫助網絡選擇視覺區域中最重要的特征,并集中關注它。最常使用的有通道注意力機制以及混合注意力機制(空間和通道結合)。其中通道注意力機制最具代表性的網絡是通道注意力網絡(Squeeze and Excitation Networks,SENet)[24],通過計算輸入特征圖每個通道的權值,讓網絡學習更多重要的特征,從而提升模型性能,最終在圖像分類任務上取得了顯著效果。在許多任務中,空間位置信息具有不同的作用,尤其在表情識別中,嘴巴、眼睛等區域的重要性程度明顯更大。為彌補通道注意力的缺陷,混合注意力機制又增加了空間注意力,從而在特征提取時也關注特征圖上的空間位置。CBAM[21]是混合注意力機制最具代表性的網絡,通過串聯通道注意力和空間注意力,在圖像分類任務中相比SENet,取得了較好的效果。本文關鍵特征表征模塊就是利用混合注意力機制[21]進行特征選擇,使特征表達更加準確。
1.1.1 通道注意力
將特征圖F∈?C×H×W輸入通道注意力模塊中(其中:C為通道數;H為特征圖高度;W為特征圖寬度)。首先使用最大池化和平均池化對輸入特征圖進行壓縮,得到2 個特征向量FCmax和FCavg,分別表示最大池化特征和平均池化特征。然后將FCmax和FCavg送入包含一個隱藏層的多層感知機(Multi-Layer Perceptron,MLP)里,得到2 個1×1×C的通道注意力特征圖,其中為了減少參數量,隱藏層的神經元個數為(r是壓縮比例)。將多層感知機輸出的兩個通道注意力特征圖進行元素求和并通過激活函數Sigmoid,最終得到具有特征聚合性的通道注意力圖Mc∈?C×1×1。將輸入特征與最終得到的通道注意力圖相乘即可得到經過通道注意力表征過后的新特征,具體計算式如式(1)所示:

其中:σ代表Sigmoid 激活函數;和W1∈?C×Cr分別為多層感知機的權重,在參數W0后加入ReLU 激活函數,向模型中加入更多非線性因素。通道注意力模塊結構如圖2 所示。

圖2 通道注意力模塊的結構Fig.2 Structure of channel attention module
1.1.2 空間注意力
輸入一個特征圖F∈?C×H×W,沿通道方向分別使用最大池化和平均池化生成兩個二維特征圖和,采用通道維度級聯的方式將這兩個特征圖進行合并,生成新的特征圖。然后使用一個7×7 大小,填充設置為3 的卷積核,作用于新的特征圖,并通過Sigmoid 激活函數后生成最終的空間注意力圖MS∈?H×W。與輸入的特征圖F∈?C×H×W進行相乘即可獲得空間位置的關鍵特征表征圖。具體計算式如式(2)所示:

其中:σ代表Sigmoid 激活函數;f7×7代表卷積核大小為7×7 的標準卷積層。空間注意力模塊的結構如圖3所示。

圖3 空間注意力模塊的機構Fig.3 Structure of spatial attention module
為提升模型的泛化能力,常常需要對原始輸入數據做數據增強處理,例如翻轉、鏡像變換等操作,但這些操作都是在原數據基礎上進行簡單的線性變換,并不能帶來更多的數據復雜性。因此為了讓模型訓練過程中學習更多接近真實環境下的人臉表情,本文引入了裁剪掩碼模塊(Cutout)[20]。
文獻[20]對圖像進行裁剪掩碼有兩種思路,最早是通過可視化技術獲取輸入圖像的重要視覺特征,然后把這一部分進行掩碼。但是在實驗過程中,作者發現該方法與直接隨機掩碼圖像中一部分特征的差別并不大,而且前者還引入了額外的重要特征計算,因此舍棄了這種方法,并且論文中也指出裁剪掩碼的區域大小比裁剪的形狀更重要。因此本文使用裁剪掩碼模塊(Cutout),借鑒文獻[20]中的第2 種思路,在輸入圖像中進行隨機裁剪,掩碼形狀只需是正方形。具體操作是利用固定大小的正方形對圖像進行遮擋,在正方形范圍內,所有值都被設置為0 或者其他純色值。裁剪掩碼的算法過程主要有以下4步。
步驟1輸入參數n_holes、llength和iimg。其中第1 個參數為掩碼單元的個數,第2 個參數為掩碼正方形像素邊長,第3 個參數為輸入圖像像素矩陣。
步驟2根據輸入圖像img獲取圖像的高(H)和寬(W),并生成一個二維矩陣mH×Wmask,其中元素全部賦值為1。
步驟3根據n_holes 值進行遍歷,生成掩碼矩陣。計算式如式(3)所示:

步驟4把輸入圖像的像素矩陣與掩碼矩陣進行矩陣點乘獲得最終圖像,計算式如式(4)所示:

在使用深度卷積神經網絡時,為防止網絡過擬合,往往需要使用大量數據進行訓練,但在實際中大數據集的標注需要大量時間和資源。為解決這一問題,文獻[22]提出一種Dropout 正則化策略,通過阻止特征檢測器的共同作用來提高神經網絡的性能。以下主要介紹Dropout 正則化在訓練和測試階段的大致過程。
訓練時,首先隨機(臨時)刪除網絡中一部分隱藏神經元,輸入輸出神經元保持不變,其次把輸入特征通過修改后的網絡前向傳播,然后把計算出的損失結果通過網絡反向傳播回去,并在沒有刪除的神經元上根據優化策略更新連接參數,被隨機刪除的神經元不會參與本次前向傳播的計算。如圖4 所示為標準神經網絡(左)與加入Dropout 后的神經網絡(右)的前向傳播結構。測試時,為保證模型輸出結果的穩定性,并且讓測試數據和訓練數據總體一致,需要在測試階段時乘以丟棄權重p,即測試時權重必須進行縮放,測試時的權重參數為W(l)test=p×W(l)。

圖4 神經網絡的結構對比Fig.4 Structure comparison of neural network
為提高在自然場景下的人臉表情識別率,本文提出基于人臉關鍵特征提取的表情識別方法。首先經過裁剪掩碼模塊得到真實場景下具有遮擋因素的表情圖像,其次利用關鍵特征表征模塊來幫助網絡提取更加精細的表情特征,然后結合Dropout 正則化策略幫助網絡融合多次訓練結果,提升模型泛化能力。其中基礎網絡使用殘差網絡ResNet18,本文使用2 種結構的殘差單元來提取特征,如圖5 所示。使用兩種殘差模塊是為了保持特征尺寸一致,殘差模塊1 提取特征前后特征圖尺寸沒有發生變化,殘差模塊2 的捷徑連接需要讓輸入特征尺寸和輸出特征尺寸一致,因此使用步長為2 的卷積。

圖5 不同殘差單元結構Fig.5 Different residual unit structures
本文所提模型主要由輸入層裁剪掩碼、特征提取層(一個標準卷積、一個通道注意力和空間注意力、一個殘差模塊1 和3 個殘差模塊2)、全局平均池化、全連接層以及丟棄權重p=0.5 的Dropout 層組成,最后使用Softmax Loss 進行表情分類損失的計算。
在現實場景中,遮擋問題一直以來是一個難題。為使模型能夠處理更多具有遮擋人臉表情的數據,提升對遮擋人臉表情識別的能力,本文引入了裁剪掩碼單元(Cutout),通過模擬現實場景中人臉表情遮擋數據,提升模型學習能力。圖6 所示為輸入圖像進行裁剪掩碼后的示例圖,在模型訓練過程中裁剪區域是隨機產生的。本文將裁剪掩碼模塊中n_holes(掩碼個數)和llength(掩碼正方形邊長)分別設置為1 和16。

圖6 裁剪掩碼示意圖Fig.6 Schematic diagram of clipping mask
在使用卷積操作提取特征的過程中,特征圖的通道數會逐漸增加,而其中每個通道的特征對于關鍵信息的貢獻是不一樣的。有的通道存在大量的關鍵特征,而有的通道有用信息少,因此會產生冗余特征,導致模型性能降低。為解決該問題,本文采用通道注意力機制,使用不同的池化策略并行計算,壓縮特征圖所產生的權重,并與輸入特征圖點乘,從而給予每個特征通道不同的權重。
在提取人臉表情特征時,人臉五官的位置也具有一定的空間關系,而不同五官的特征對于表情的影響程度不同,如嘴巴區域肌肉的變化比鼻子、眉毛等區域的特征更多,但傳統卷積操作對于空間位置的特征提取使用相同的方法。為解決該問題,本文引入空間注意力機制,使網絡可以學習到特征圖空間位置之間的關系。將通道注意力與空間注意力融合后的結構如圖7 所示。

圖7 混合注意力結構Fig.7 Hybrid attention structure
通過融合通道注意力和空間注意力模塊,可以同時獲取關鍵特征通道和特征間的位置關系,從而使模型提取的表情特征表征更加準確。輸入特征F∈?C×H×W,經過通道注意力模塊后得到新的特征FC,再把該特征輸入到空間注意力模塊中得到最終的關鍵特征表征FS,具體特征計算式如式(5)所示:

其中:?表示矩陣同位素點乘運算。
通過引入裁剪掩碼和關鍵特征表征模塊后,模型提取的特征更具代表性,表情區分度更高。但在人臉表情識別中,各類表情的種類單一且數量較少,使用深度學習模型訓練時容易造成過擬合,且表情識別精度也會降低。因此,本文在裁剪掩碼和關鍵特征表征模塊后,在網絡末端又加入了Dropout 策略,這樣可以起到2 個作用:1)訓練時前向傳播隨機失活部分神經元,有利于加快模型訓練速度,并減少相鄰神經元間的過渡依賴,有效解決網絡過擬合問題;2)在多次迭代訓練時,隨機失活神經元不同,可以達到類似訓練不同模型的效果,多個結果相互修正,最終提升模型識別準確率。本文方法的網絡結構如圖8 所示。

圖8 本文方法的網絡結構Fig.8 Network structure of method in this paper
本文實驗使用深度學習框架PyTorch,版本1.10.0,編程語言為Python3.7,操作系統為Ubuntu 18.04.5,顯卡型號為NVIDIA RTX3090。實驗中保持超參數一致,使用隨機梯度下降算法(Stochastic Gradient Descent,SGD)對交叉熵損失優化,動量設置為0.09,衰減系數設置為0.000 5,初始學習率設置為0.01,在訓練80 次后學習率開始衰減,總共迭代次數(epoch)設置為300,將每次訓練完成后測試集上準確率最高的參數作為模型精度。在實驗過程中為了使模型訓練達到最優,對訓練集數據進行了數據增強。本文使用10-crop 數據增強的手段,使數據量得到擴充,其具體做法是將尺寸為48×48 像素的原始圖像進行裁剪,分別從圖像正中間、右上角、右下角、左上角和左下角進行裁剪,最后生成5 張尺寸為44×44 像素的圖像,然后把得到的圖像進行鏡像操作,使訓練數據被擴充為原來的10倍。
本文實驗使用2 個公開人臉表情數據集進行評估,分別是Fer2013 和RAF-DB 數據集,均為真實場景下的數據庫,均包含7 種基本表情,包括驚訝、害怕、厭惡、開心、傷心、生氣和自然。
Fer2013[23]數據集是2013 年Kaggle 比賽使用的人臉表情數據集,圖像均是使用谷歌人臉識別接口從網上獲取,人臉角度較多且有遮擋,涵蓋不同年齡段的人,且男性和女性各占一定比例,符合自然條件下的表情分布。其主要由35 886 張不同表情圖像組成,其中訓練集有28 708張,驗證集和測試集各3 589張,每張圖像的大小是48×48 像素。
RAF-DB[15]是一個真實世界人臉表情數據集,該數據集從互聯網上下載了大約30 000 張面部圖像,圖像大小均為100×100 像素。本文手動將圖像縮放到48×48 像素。數據庫包含單標簽子集和雙標簽子集兩個不同子集。單標簽子集包括7 類基本情緒和邊界框,該數據集中的受試者年齡從0~70 歲不等,包括52%的女性,43%的男性,還有5%的不確定。對于種族分布,高加索人占77%,非裔美國人占8%,亞洲人占15%。并且數據集中的大量圖像具有遮擋、姿態等變化,符合自然場景下的表情分布。本文主要使用7 類基本表情,共15 339 張圖像作為實驗數據集,其中包括12 271 張訓練集圖像和3 068 張測試集圖像。
圖9 是本文所使用數據庫的示例圖像,第1 排為Fer2013 數據庫示例圖,第2 排為RAF-DB 數據庫示例圖。從圖9 可知,這2 個數據集中存在大量遮擋、光照、性別等變化的圖像。此外,兩個數據集上每種表情數量的統計數據如圖10 所示。

圖9 本文數據集示例Fig.9 Examples of datasets in this paper

圖10 Fer2013 和RAF-DB 數據集的表情數據分布Fig.10 Distribution of expression data of Fer2013 and RAF-DB datasets
為驗證本文方法的可靠性,在Fer2013 與RAF-DB數據集上進行了實驗驗證,并與當前先進的人臉表情識別方法進行比較。此外,為說明本文方法對各類表情的識別效果,使用最終訓練模型在測試集上生成的混淆矩陣進行分析。最后,為驗證本文提出的各個模塊的有效性,進行了消融實驗。
3.2.1 網絡模型有效性驗證
本文所提模型在2 個公開數據集上的混淆矩陣結果如圖11 所示。圖11(a)是在Fer2013 數據庫上的實驗結果,從中可以看出對于“高興”和“驚訝”2 個特征變化明顯的表情,模型準確率達到了較高水平,分別為93%和84%。圖11(b)是在RAF-DB 數據庫上的實驗結果,該數據集上的圖像質量較Fer2013 數據集好,因此整體模型識別準確率相對較高,實驗結果中有4 種表情識別率都超過了80%,模型能較好地識別各種表情。

圖11 2 個公開數據集上的混淆矩陣結果Fig.11 Confusion matrix results on the two public datasets
3.2.2 與現有方法的對比
為進一步證明本文所提方法的識別性能,在Fer2013 與RAF-DB 數據集上與當前已有的先進方法進行對比,實驗結果如表1 和表2 所示。從表中可知,各種方法在本文所使用的數據集中都取得了較高的識別率。其中文獻[25]提出的一種注意力分層雙線性池化殘差網絡,采用有效的通道注意力機制顯式地建模各通道的重要程度,并引入雙線性池化層來捕獲層間部分特征關系,該方法在Fer2013 數據集上取得了73.840%的識別準確率。文獻[26]提出的一種雙通道遮擋感知神經網絡模型,分別使用VGG 和ResNet 網絡來學習遮擋表情特征和全臉特征,將兩種特征融合后在RAF-DB 數據集上取得了86%的識別準確率。本文方法是在殘差網絡提取全局特征的前提下,通過引入通道注意力和空間注意力來提取圖像淺層的關鍵特征,為模型增加了更多精細化特征。另外引入的裁剪掩碼是通過隨機掩碼輸入圖像,手動向網絡中添加非線性因素,迫使模型在真實環境數據集上學習更多遮擋表情特征。最后使用Dropout 正則化,使模型融合學習參數,提升模型的泛化性。本文方法在Fer2013 和RAF-DB 數據集上分別取得了74.366%和86.115%較高的識別準確率,與對比方法相比,準確率最高,驗證了本文方法的有效性。

表1 不同方法在Fer2013 數據集下的識別準確率對比 Table 1 Comparison of recognition accuracy of different methods under Fer2013 dataset %

表2 不同方法在RAF-DB 數據集下的識別準確率對比 Table 2 Comparison of recognition accuracy of different methods under RAF-DB dataset %
3.2.3 消融實驗
為測試本文所引入的裁剪掩碼和關鍵特征表征模塊CBAM 對網絡的有效性,進行了交叉對比實驗,實驗結果如表3 所示。以融合了Dropout 正則化策略的殘差網絡ResNet18 作為基礎網絡(Base),分別向模型中加入裁剪掩碼以及關鍵特征表征模塊CBAM 后作對比實驗。從表3 可知,在基礎網絡中單獨加入裁剪掩碼和關鍵特征表征模塊都能提升網絡性能,當2 個模塊同時加入網絡時,準確率提升最為顯著,在Fer2013 和RAF-DB 數據集上比基礎網絡分別提升了約1.34 和0.99 個百分點。由此可以推斷在加入關鍵特征表征模塊后可以使基礎模型提取的表情特征更加精細化,從而提升模型識別率。可見本文引入的各個模塊對于基礎網絡都是有效的,并且能夠共同促進網絡性能的提升。

表3 不同模塊的識別準確率對比 Table 3 Comparison of recognition accuracy of different modules %
3.2.4 遮擋表情驗證
為了讓本文模型學習到人臉表情被遮擋的情形,從而更接近真實環境下的人臉表情,本文引入了裁剪掩碼模塊。此外,為驗證本文方法在具有遮擋情形下的人臉表情識別效果,本文在CK+數據集[7]上利用裁剪掩碼模塊[20]隨機在人臉圖像上添加遮擋,從而模擬具有遮擋的表情。然后用本文方法進行表情識別。圖12 給出了各種表情的遮擋圖像,以及用本文方法預測的結果。圖13 給出了本文方法在CK+數據集上實驗所得的混淆矩陣。從圖12、圖13 可以看出,遮擋住人臉較關鍵的部位如嘴巴、眼睛等之后,本文模型仍能準確識別出圖像的真實表情。此外,本文方法在CK+數據集上取得93.939%的準確率,說明本文方法對于遮擋圖像仍然具有較高的識別率,具有一定魯棒性。

圖12 本文方法預測遮擋表情的結果示例Fig.12 Example of the results of method in this paper to predict occlusion expressions

圖13 本文方法在CK+數據集下的混淆矩陣Fig.13 Confusion matrix of method in this paper under CK+dataset
本文方法也存在一定的局限性。從圖11 的混淆矩陣可以看出,本文模型對個別表情的識別準確率較低,且存在表情相互識別錯誤的情形。比如在Fer2013數據集上,“害怕”表情的識別準確率較低。這主要是由于Fer2013 數據集上存在大量低質量圖像以及非人臉圖像。Fer2013 數據集是評估實驗中最難的數據集,該數據集上人工正常識別率僅為65%左右。此外,相似表情易發生混淆也是原因之一,例如“害怕”和“傷心”、“厭惡”和“生氣”表情在現實中并非單一發生,生氣的情緒會產生厭惡,害怕會導致傷心,因此利用靜態表情圖像進行識別是較難的。另外從圖10 可知,部分表情數量較少(如厭惡等),因此模型很難學到相關表情特征,導致識別準確率較低。
本文也分析了表情識別失敗的案例。圖14 給出了本文方法在RAF-DB 數據集下識別失敗的案例。經分析可知,這可能是由于部分圖像的質量太低;有些圖像的表情表達特別隱晦,容易造成誤判;有些圖像中表情明顯的區域被完全遮擋,模型無法提取到特征。這時可能需要結合人臉姿態、手勢等進行表情判別。

圖14 本文方法在RAF-DB 數據集下識別失敗的案例Fig.14 Identifies failure case of method in this paper under RAF-DB dataset
針對自然場景下人臉表情受遮擋、光照等因素影響,以及表情局部變化細微,導致現有人臉表情識別準確率較低的問題,提出一種基于人臉關鍵特征提取的表情識別方法。通過引入裁剪掩碼模塊,使模型能有效提取遮擋表情特征。在此基礎上使用關鍵特征表征模塊使模型在通道和空間維度上引導網絡學習更多關鍵特征,提高模型區分表情局部細微變化的能力及魯棒性。最后在網絡末端加入Dropout 正則化,有效緩解過擬合,提升模型的識別性能。在兩個自然場景下的人臉表情數據集Fer2013 和RAF-DB 上的實驗結果表明,本文方法與L2-SVMs、IcRL、DLP-CNN 等方法相比,表情識別準確率得到有效提升。但該方法存在部分表情識別率較低、個別表情之間誤判的問題,下一步將在保證識別準確率的前提下,通過研究動態序列的人臉表情識別,提升人臉表情識別方法在自然場景下的識別準確率及在低質量圖像等情形下的魯棒性。