韓保金 任福繼











摘要:針對使用深度學習提取人臉表情圖像特征時易出現冗余特征,提出了一種基于多層感知機(MLP)的改進型Xception人臉表情識別網絡.該模型將Xception網絡提取的特征輸入至多層感知機中進行加權處理,提取出主要特征,濾除冗余特征,從而使得識別準確率得到提升.首先將圖像縮放為48*48,然后對數據集進行增強處理,再將這些經過處理的圖片送入本文所提網絡模型中.消融實驗對比表明:本文模型在CK+數據集、JAFFE數據集和MMI數據集上的正確識別率分別為98.991%、99.02%和80.339%,Xception模型在CK+數據集、JAFFE數據集和MMI數據集上的正確識別率分別為97.4829%、90.476%和74.0678%,Xception+2lay模型在CK+數據集、JAFFE數據集和MMI數據集上的正確識別率分別為98.04%、84.06%和75.593%,通過以上消融實驗對比,本文方法的識別正確率明顯優于Xception模型與Xception+2lay模型.與其他模型相比較也驗證了本文模型的有效性.
關鍵詞:人臉表情識別;卷積神經網絡(CNN);多層感知機;Xception;深度可分離卷積
中圖分類號:TP 391.41文獻標志碼:A
Improved Xception Facial Expression Recognition Based on MLP
HAN Baojin1,REN Fuji2
(1. School of Computer and Information,Hefei University of Technology,Hefei 230601,China;2. Graduate School of Advanced Technology and Science,University of Tokushima,Tokushima 7708502,Japan)
Abstract:Aiming at the problem of redundant features when using deep learning to extract facial expression image features,an improved Xception facial expression recognition network based on multi-layer perceptron(MLP)is proposed. In this model,the features extracted from the Xception network are input into the multi-layer perceptron for weighting,the main features are extracted,and the redundant features are filtered out so that the recognition accuracy is improved. First,the image is scaled to 48*48,then the data set is enhanced,and these processed images are fed into the network model proposed in this paper. A comparison of ablation experiments show that:The correct recognition rates of this model on the CK + dataset,JAFFE dataset,and MMI dataset are 98.991%,99.02% and 80.339% respectively. The correct recognition rates of Xception model on the CK + dataset,JAFFE dataset and MMI dataset are 97.4829%,90.476%,and 74.0678%,respectively. The correct recognition rates of the Xception + 2laymodel on the CK + dataset,JAFFE dataset and MMI dataset are 98.04% and 74.0678%,84.06%,and 75.593%,respectively. By comparing the above ablation experiments,the recognition accuracy of this method is significantly better than the Xception model and the Xception + 2lay model. Compared with other models,the effectiveness of this model is also verified.
Key words:facial expression recognition;convolutional neural network (CNN);multilayer perceptron (MLP);Xception;depth separable convolution
人臉表情識別是人類情緒狀態識別的有效技術之一,表情識別技術廣泛應用于智能問答、在線學習、用戶線上體驗等智能化人機交互系統中,具有巨大的市場潛力與應用背景,成為了人工智能領域的研究熱點[1].
人臉表情識別根據研究方法的不同,分為傳統方法與深度學習方法,傳統方法包括Gabor小波、局部二值模式(LBP,Local binary patterns)[2]、方向梯度直方圖(HOG,Histogram of Gradient)等.Gabor 小波,可獲得最佳的局部化和類人式視覺接收場模型.局部二值模式具有旋轉不變性和灰度不變性等顯著的優點.方向梯度直方圖對圖像幾何和光學形變都能保持很好的不變性,允許有一些細微的動作變化并不影響檢測效果.李文輝等[3]提出了一種多通道Gabor人臉識別方法:依據各通道特征可分離性判據確定特征提取區域,計算通道權值,采用模糊加權規則融合多通道的識別結果.基于特征的中性直方圖(包括灰度直方圖)特征和典型的表情特征,Mlakar等[4]提出一種有效的特征選擇系統應用于人臉表情識別系統.Kwong等[5]提出了關鍵人臉檢測、顯著性映射、局部二值模式和方向梯度直方圖的12種可能組合,以及6種機器學習分類算法,共生成72個模型.伴隨而來的又有許多輔助人臉表情識別的方法,如湯紅忠等⑹提出的人臉驗證方法,判斷是否為同一個身份.這樣為以后處理人臉表情識別時可加上身份驗證,從而提高識別正確率.綜上所述,傳統方法各有優點且取得了較好的實驗結果,但是由于傳統方法中提取的特征均在人工選定區域內,這樣就使得提取出來的特征只能在特定空間中,在沒有額外訓練的情況下,很難形成其它特征用于提高人臉表情識別率.同時,由于人臉姿態、圖片光照、攝影角度與不同膚色的人種等各種外界因素的改變對于識別正確率也造成了一些干擾,為了提高識別正確率需要在實驗中加入更多的數據量,以提取充分的信息.
隨著計算機技術的發展,計算機軟硬件在性能上得到了顯著提升,為深度學習的提出與應用創建了環境,其中以卷積神經網絡為主的一系列網絡變體在理論與實際應用中得到了廣泛的研究與應用. 其優勢在于不用針對特定的圖像數據集或分類方式提取具體的人工特征,而是用類人式的視覺處理機制對圖像進行抽象化處理,自動進行特征提取并篩選,這就能實現批量式的圖像處理,從而完成了對圖像自動化處理的操作,免去了大量的人工勞動且相較于之前的正確率得到了提升.卷積神經網絡是一種有監督的學習模型,具有局部連接、權值共享、下采樣的特點,能夠有效地挖掘出數據局部特征,對圖像的平移縮放、旋轉都有較好的穩定性.它能以原始數據作為輸入,通過卷積、池化與非線性激活函數等一系列操作,用于提取數據集中的特征.常用于圖像分類的CNN(Convolutional Neural Networks)[7-8]結構模型種類繁多,如AlexNet[9]、VGG、ResNet[10]、BDBN. AlexNet網絡模型創新性地采用ReLU激活函數,加快了模型的收斂速度.VGG-Net模型使用較小3*3卷積核代替大卷積核,同時增加了模型深度. ResNet模型解決了深度網絡的退化問題.TANG等[11]提出一種基于表情識別的課堂智能教學評價方法,該方法具有實時性、客觀性和細粒度的特點,該方法充分考慮了學生的情緒狀態,將情緒狀態模型與傳統的教學評價方法相結合,利用經典的卷積神經網絡AlexNet完成了人臉表情識別的預訓練,并在相應的數據集上取得了良好的效果.
FEI等[12]提出通過一種新的解決方案來處理面部圖像并解釋情緒的時間演變過程,從AlexNet的完全連通的第6層提取深層特征,并利用標準的線性判別分類器來獲得最終的分類結果.SARKAR等提出[13]一種基于VGGNet的卷積神經網絡和一種新的處理技術,所提出的方法可顯著提高數據集的性能,與不同數據集比較也證明了該方法的優越性.TRIPATHI等[14]提出了一種基于語音特征并在聚焦損失下訓練的殘差卷積神經網絡(ResNet)來識別語音情感.
上述研究方法針對情感分類問題從多個方向進行了改進,如網絡深度、激活函數、損失函數等,但沒有使用能夠提取特征信息較豐富的網絡結構且對于冗余特征也未做處理.
本文針對人臉表情識別中提取的特征信息豐富度較低與冗余特征未被處理等問題,進行了兩個方面的改進:1)選擇了能夠提取較豐富特征信息的卷積神經網絡作為基礎;2)增加了多層感知機,通過標定不同特征的權重來提取主要特征,抑制冗余特征.
1Xception算法介紹與改進
1.1Xception算法介紹
本文主要的研究框架是基于Xception模型構建,如圖1所示,其框架由3個主要部分組成,分別為輸入層,中層和輸出層.輸入層主要作用是用來不斷下采樣,減少空間維度.中層的主要作用是為了不斷學習關聯關系,優化特征.輸出層的主要作用為最終匯總,整理特征,交由全連接層(FC,fully connected layer)進行表達.
Xception算法是在inceptionv3基礎上進行改進的,把inceptionv3中的3*3模塊全部換成了depthwise separable convolution(深度可分離卷積).通常標準卷積操作將特征圖的空間相關性與通道間相關性一并處理,而深度可分離卷積則將空間與通道信息處理過程完全分開.Depthwise卷積的主要作用
為將每個輸入特征通道單獨卷積,若輸入特征圖數量為n,卷積核大小為m*m,這樣每個輸入特征圖都將對應一個獨立的m*m卷積核進行卷積,輸出n個特征圖.而Pointwise卷積使用1*1的標準卷積來關聯特征通道之間的相關性輸出特征.其結構如圖2所示.
深度可分離卷積可以在保留較高準確率的情況下減少大量的模型參數和計算量.雖然深度可分離卷積減少了參數量,但是Xception模型的總參數量與InceptionV3相差不大,主要原因為Xception模型旨在提高分類效果,在網絡其他位置增加了參數量.
1.2多層感知機
多層感知機(multilayer perceptron,MLP)由感知機發展而來,其主要特征是有多個神經元層.其基本結構包括輸入層、隱含層與輸出層,其隱含層的數量可多可少,輸入層到隱含層可看作一個全連接層,隱含層到輸出層可看作一個分類器.
圖3所示的多層感知機模型中,輸入和輸出個數分別為4和3,中間的隱藏層中包含了5個隱藏單元(hidden unit).由于輸入層不涉及計算,所以圖3 中的多層感知機的層數為2.由圖3可見,隱藏層中的神經元和輸入層中各個輸入完全連接,輸出層中的神經元和隱藏層中的各個神經元也完全連接.因此,多層感知機中的隱藏層和輸出層都是全連接層.
1.3采用MLP改進Xception模型
由圖1,輸入層在不斷下采樣,減少空間維度,同時也在保持原始特征的學習,這樣就可以提取更深層的特征避免了原始特征的丟失.中層在不斷學習關聯關系,優化特征,同時也在學習輸入層中所學習的特征,如此既能學習到中層特征也能學習到輸入層中的特征,進而能夠獲得較豐富的特征信息.由圖3可以直觀看出多層感知機的結構,輸入層與隱藏層直接相連,隱藏層與輸出層直接相聯,而且多層感知機中隱藏層的參數隨著訓練的進行隨時變動,更加有利于輸入層信息量與輸出層信息量達到盡量相一致,同時又可以對特征進行加權處理,從而加強了重要特征的權重.
將由Xception網絡模型提取出的特征向量送入多層感知機中,并利用softmax函數對所提取的特征向量進行權重學習,從而得到一組最優的權重分布. 通過訓練集對網絡進行有監督的訓練,不斷地學習圖像中的內容.在訓練過程中,通過不斷地調整MLP中的層數與層內的各參數,最終確定在層數為3時,整個模型效果最好,所以本文提出了[(Xception+3lay)如下圖4(a)所示的網絡結構],為對比網絡效果,還作出了圖4(b)(Xception+2lay)的結構作為一種對比網絡結構.
2實驗與分析
2.1實驗數據集
為了評估本文提出的算法,本節將在三個公開的面部表情數據集上進行實驗,這三個數據集分別是日本女性面部表情庫(JAFFE)、擴展的Cohnkanade庫(CK+)表情庫和MMI數據集.由于本文實驗針對靜態圖像,因此截取視頻序列((CK+)表情庫與MMI表情庫)的表情變化的三個峰值作為圖像樣本,及對JAFFE數據庫的表情對其眼部周圍添加噪聲,所有圖片縮放為48*48.如圖5所示為處理后照片的形式,前三張為(CK+)表情庫處理后的照片形式,中間三張為JAFFE表情庫處理后的照片形式,后三張為MMI表情庫處理后的照片形式.如表1所示,各個表情數據集的分布與對應情感類圖像數量,其中CK+圖像總數量為981張,JAFFE圖像總數量為639張.MMI圖像總數量為609張,形成的總圖片數為2229張.
實驗中,在訓練階段,采用隨機切割44*44的圖像,并將圖像進行隨機鏡像,然后送入訓練.在測試階段,避免訓練集中的圖像進入測試集中.將圖片在左上角、左下角、右上角、右下角、中心進行切割并做鏡像操作,這樣的操作使得所要訓練的數據集的數量擴大了l0倍,再將這l0張圖片送入模型中.然后將得到的概率值取平均,最大的值即為對應表情類別,這種方法有效地降低了誤識別率.
2.2實驗環境與設置相關參數
實驗需用相關環境如下:操作系統為l8.04.l- Ubuntu版本,顯卡為l2 G顯存Nvidia GeForce GTXl080Ti一塊,CPU 為Intel (R)Xeon (R)CPU E5- 2620 v3@ 2.40 GHz,Python版本為Python3.6.10,深度學習框架安裝pytorchl.6.0,TensorFlow版本為l.l4.0.實驗使用GPU加快模型計算速度,減少訓練時間,選擇小批次帶動量參數的隨機梯度下降法(stochastic gradient descent,SGD)作為模型參數優化器(Optimizer).學習率更新采用固定周期縮減策略,將初始學習率設置為0.0l;其余相關設置見表2,本實驗所需相關參數是在實驗中不斷調試后才最終確定.為了擴大數據集并增強模型泛化能力,本文將采用十折交叉法,將JAFFE、CK+和MMI數據集上的樣本總量大致平均分為10份,每次試驗從中選取其中9份即樣本總量的90%作為訓練樣本,剩余的被用作測試.
2.3消融實驗
為了驗證本文所提出方法的有效性,將本文方法與Xception和Xception+2lay作對比分析.1)在三個數據集上使每個模型由隨機參數開始訓練,直至收斂,并且保證三個模型在相同條件下完成訓練.2)在模型訓練過程中,訓練集每迭代完一個周期,對測試數據集進行一次測試,達到所需訓練周期后,迭代終止.3)為了保證實驗數據的可靠性,實驗重復進行了十次,計算平均值作為識別結果,表3為對比數據的結果.
由表3可以得出,三個數據集在Xception、Xception+2lay與本文所提算法表現都良好,但前兩個網絡沒有本文所提網絡的效果好.從單個分支來看,在CK+數據集上Xception、Xception+2lay與本文提出的算法相差不大且分類正確率是遞增的狀態,可推測多層感知機確實能提高特征信息利用率.三個網絡在JAFFE數據集上的表現差異較大.前兩個網絡結構表現不佳,一方面是由于JAFFE數據集本身數據量較少,提取特征信息中含有較多冗余信息,另一方面也可得出前兩個網絡無法有效地除去冗余特征,導致識別正確率表現不佳.而本文所提出的網絡結構中含多層感知機,能夠有效減少冗余特征,所以即使在有較多冗余特征的情況下也能表現出較好的結果.在MMI數據集上,總體識別率并不高,一方面是由于個體表情之間差異較大,另一方面可能是由于遮擋物(如化妝、配戴眼鏡)導致的識別率總體一般. 但是本文所提方法與前兩種方法相比,具有明顯優勢,這就從側面說明多層感知機能提取重要特征,提高正確識別率.
由圖6可知,在CK+數據集總體正確識別率為98.9%,在JAFFE數據集總體正確識別率為98.9%,在MMI數據集總體正確識別率為80.1%.在表情分類中,高興與驚訝的識別效果最好,而害怕與傷心表情的識別效果較低,出現這種結果,主要是由于高興與驚訝表情的變化較為明顯,而害怕與悲傷的變化不太明顯,圖像中的表情反應的特征上可以看出,高興與驚訝表情圖像所提取的特征差異較大,易于區分,從而為以后識別正確率高奠定了基礎.而害怕與悲傷圖像所提取的特征差異較小,在分類過程中易出現混淆,這樣就導致其分類正確率相對較低一些.CK+數據集與JAFFE的正確率相對于MMI數據集要高一些,這是因為MMI數據集中人臉遮擋物所致和個體表情之間差異較大的原因所致.
2.4與其它方法對比
本次采用了不同方法與本文方法進行對比,表4給出了對比結果.從表4中可看出Lenet-5在CK+、JAFFE與MMI正確率分別為85.31%、82.67%與68.644%;本文所提算法正確率最高,由此可得本文所提算法是一種性能優良的網絡模型.文獻[2]提出了一種基于特征局部紋理編碼算子——中心對稱局部梯度編碼,然后通過訓練一臺極限學習機來估計預期的值.這樣通過局部紋理與極限學習相結合,可以提高局部特征利用率,但是由于極限學習的訓練速度慢,易陷入局部極小值對于學習率較敏感,所以在訓練后的效果上可能提升不高.其中文獻[7]提取圖像的多對角HOG特征,并與CNN合并提出了一種優化算法的分類器融合方法,通過迭代取得了很好的結果.文獻[8]提出了基于靜態圖像的雙通道加權混合深度卷積神經網絡.文獻[9]提出了一種基于多方向梯度計算HOG(moo-HOG)特征和深度學習特征的分類器迭代融合了面部表情識別方法(AlexNet).文獻[7]、[9]都是通過傳統方法與卷積神經網絡結合起來,由于提取的特征過于單一,所以可以適當改進提取特征方法.文獻[17]提出一種表達式分類利用概率圖模型提高小尺度樣本集學習算法的準確性的算法.文獻[18]提出了一種基于奇異值分解的共聚類特征選擇策略,利用該策略尋找表情特征中具有較高識別能力的最顯著區域.文獻[19]提出了一種基于局部的分層雙向遞歸神經網絡(PHRNN)來分析時序序列的面部表情信息.文獻[20]提出了一種具有注意機制的卷積中立網絡(CNN),它能夠感知人臉的遮擋區域,并將焦點集中在最具辨別性的非遮擋區域,針對不同的ROI,介紹了ACNN的兩種版本:基于補丁的ACNN(pACNN)和基于全局局部的ACNN(gACNN).pACNN只關注局部面片.gACNN將補丁級的局部表示與圖像級的全局表示集成在一起.文獻[21]提出了一種期望最大化算法來可靠地估計情感標簽,揭示了現實世界中的人臉往往表現出復合甚至混合的情感.文獻[22]提出了一個多任務的深度框架,借助關鍵點特征識別人臉表情.
3結論
本文所提出的方法,在CK+、JAFFE和MMI數據集上的實驗結果表明,相比于其他常用模型,本文方法的識別效果最好;在分支消融實驗結果與其它方法的結果對比中發現,Xception網絡對于表情分類來說確實有一定的優勢,增加了多層感知機后可以有效提高分類正確率.以上都是針對靜態圖片,而隨著視屏廣泛在日常生活中出現,如何把語音與圖像相結合進行情感分析將是下一步要做的工作.
參考文獻
[1] ALHARBI M,HUANG S H. A survey of incorporating affective computing for human-system co-adaptation [C]//Proceedings of the 2020 The 2nd World Symposium on Software Engineering. NewYork,NY,USA:ACM,2020:72-79.
[2] YANG J,WANG X,HAN S,et al. Improved real-time facial expression recognition based on a novel balanced and symmetric local gradient coding[J]. Sensors(Basel),2019,19(8):1899.
[3]李文輝,高璐,林逸峰,等.特征選擇模糊加權多通道Gabor人臉識別[J].湖南大學學報(自然科學版),2013,40(4):87-93.
LI W H,GAO L,LIN Y F,et al. Feature selection fuzzy weighted multi-gabor face recognition [J]. Journal of Hunan University (Natural Sciences),2013,40(4):87-93.(In Chinese)
[4] MLAKAR U,FISTER I,BREST J,et al. Multi-objective differential evolution for feature selection in facial expression recognition systems [J]. Expert Systems With Applications,2017,89:129-137.
[5] KWONG J C T,GARCIA F C C,ABU PAR,et al. Emotion recognition via facial expression:utilization of numerous feature descriptors in different machine learning algorithms [C]//TENCON 2018-2018 IEEE Region 10 Conference. October 28-31,2018. Jeju,Korea (South). IEEE,2018:2045-2049.
[6]湯紅忠,張小剛,陳華,等.結合加權子空間和相似度度量學習的人臉驗證方法研究[J].湖南大學學報(自然科學版),2018,45(2):152-160.
TANG H Z,ZHANG X G,CHEN H,et al. Face verification based on weighted subspace and similarity metric learning [J]. Journal of Hunan University(Natural Sciences),2018,45(2):152-160.(In Chinese)
[7] LI K,JIN Y,AKRAM M W,et al. Facial expression recognition with convolutional neural networks via a new face cropping and rotation strategy [J]. The Visual Computer,2020,36(2):391-404.
[8] ZHANG H P,HUANG B,TIAN G H. Facial expression recognition based on deep convolution long short-term memory networks of double-channel weighted mixture[J]. Pattern Recognition Letters,2020,131:128-134.
[9] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM,2017,60(6):84-90.
[10] YANG J X,ADU J H,CHEN H G,et al. A facial expression recognition method based on dlib,RI-LBP and ResNet[J]. Journal of Physics:Conference Series,2020,1634(1):012080.
[11] TANG X Y,PENG W Y,LIU S R,et al. Classroom teaching evaluation based on facial expression recognition [C]//Proceedings of the 2020 9th International Conference on Educational and Information Technology. Oxford United Kingdom. New York,NY,USA:ACM,2020:62-67.
[12] FEI Z X,YANG E F,LI D D U,et al. Deep convolution network based emotion analysis towards mental health care[J]. Neurocomputing,2020,388:212-227.
[13] SARKAR R,CHOUDHURY S,DUTTA S,et al. Recognition of emotion in music based on deep convolutional neural network[J]. Multimedia Tools and Applications,2020,79(1/2):765-783.
[14] TRIPATHI S,KUMAR A,RAMESH A,et al. Focal loss based residual convolutional neural network for speech emotion recognition [EB/OL]. 2019:arXiv:1906.05682 [eess. AS]. https;// arxiv.org/abs/1906.05682.
[15] CHOLLET F. Xception:deep learning with depthwise separable convolutions[ C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. July 21-26,2017,Honolulu,HI,USA. IEEE,2017:1800-1807.
[16] HOWARD A G,ZHU M L,CHEN B,et al. MobileNets:efficient convolutional neural networks for mobile vision applications[EB/OL]. 2017:arXiv:1704.04861 [cs. CV]. https://arxiv.org/abs/1704.04861.
[17] SUN J G,LI T,YAN H,et al. Research on an expression classification method based on a probability graph model[J]. Multimedia Tools and Applications,2020,79(45/46):34029-34043.
[18] KHAN S,CHEN L J,YAN H. Co-clustering to reveal salient facial features for expression recognition[J]. IEEE Transactions on Affective Computing,2020,11(2):348-360.
[19] ZHANG K H,HUANG Y Z,DU Y,et al. Facial expression recognition based on deep evolutional spatial-temporal networks [J]. IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2017,26(9):4193-4203.
[20] LI Y,ZENG J,SHAN S,et al. Occlusionaware facial expression recognition using CNN with attention mechanism[J]. IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2018:2018Dec14.
[21] LI S,DENG W H. Reliable crowdsourcing and deep localitypreserving learning for unconstrained facial expression recognition [J]. IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2019,28(1):356-370.
[22]王善敏,帥惠,劉青山.關鍵點深度特征驅動人臉表情識別[J].中國圖象圖形學報,2020,25(4):813-823.
WANG S M,SHUAI H,LIU Q S. Facial expression recognition based on deep facial landmark features[J].Journal of Image and Graphics,2020,25(4):813-823.(In Chinese)