基于多特征融合卷積神經網絡的人臉表情識別

2019-01-14 02:46:56王建霞陳慧萍李佳澤張曉明

河北科技大學學報 2019年6期

王建霞陳慧萍李佳澤張曉明

摘要：針對卷積神經網絡特征提取不夠充分且識別率低等問題，提出了一種多特征融合卷積神經網絡的人臉表情識別方法。首先，為了增加網絡的寬度和深度，在網絡中引入Inception結構來提取特征的多樣性;然后，將提取到的高層次特征與低層次特征進行融合，利用池化層的特征，將融合后的特征送入全連接層，對其特征進行融合處理來增加網絡的非線性表達，使網絡學習到的特征更加豐富;最后，輸出層經過Softmax分類器對表情進行分類，在公開數據集FER2013和CK+上進行實驗，并且對實驗結果進行分析。實驗結果表明：改進后的網絡結構在FER2013和CK+數據集的面部表情上，識別率分別提高了0.06%和2.25%。所提方法在人臉表情識別中對卷積神經網絡設置和參數配置方面具有參考價值。

關鍵詞：計算機圖像處理;面部表情識別;卷積神經網絡;特征融合;特征提取;表情分類

中圖分類號：TP319 ? 文獻標志碼：A ? doi：10.7535/hbkd.2019yx06012

Abstract：Aiming at the problem of insufficient feature extraction and low recognition rate of convolutional neural network， a novel facial expression recognition method based on multi-feature fusion convolutional neural network is proposed. First， to increase the width and depth of the network， Inception architecture is introduced into the network to extract the diversity of features; Then， the extracted high-level features are fused with the low-level features， and the pooled features are used to send the fused features into the full connection layer， then the fused features are processed to increase the non-linear expression of the network and enrich the features learned by the network. Finally， the output layer classifies the expressions by Softmax classifier， conductes experiments on FER2013 and CK+， and analyzes the experimental results. Experimental results show that the improved network structure improves the recognition rate of facial expressions in FER2013 and CK+ data sets by 0.06% and 2.25%， respectively. The proposed method is valuable for setting up convolution neural network and parameter configuration in facial expression recognition.

Keywords：computer image processing; facial expression recognition; convolutional neural network; feature fusion; feature extraction; expression classification

人臉面部表情在人們的日常交流中起到了舉足輕重的作用，人們可以通過情緒的表達來傳遞一些信息。人臉表情識別現如今廣泛應用于計算機視覺、公安安防、心理治療和人際交互等領域[1]。但是由于人臉面部表情識別具有復雜性和多樣性等特點，這就使得人臉面部表情的識別有了很大的難度。

人臉表情識別大致包括圖像采集、圖像預處理、特征提取和表情識別分類4個步驟，其中特征提取是最關鍵的步驟，研究者們也針對這方面進行了深入研究，提出了很多方法。文獻[2]提出從面部顯著區域中提取LBP和HOG特征，用Z-score方法對這兩種方法進行融合實現表情識別。文獻[3]融合Gabor和LBP特征向量進行表情識別，結果表明，與單一方法相比較，融合后的效果更好。文獻[4]使用Fisher線性判別法來改進傳統的主成分分析法，通過增加類間離散矩陣以增大類別之間的距離，應用于礦工面部表情的識別，但其對光照因素比較敏感。

傳統的識別方法雖然能得到較好的分類效果，但是太依賴于前期的人工提取特征，人對其干擾因素比較大。目前，由于卷積神經網絡的無監督學習特性，使得特征提取和識別變得更加簡單，因此在表情識別中，也常常用到卷積神經網絡。文獻[5]提出微笑檢測的面部表情識別方法，使用卷積神經網絡在GPU上對數據集進行訓練和測試。文獻[6]首次將跨連卷積網絡模型應用于人臉表情識別，在LeNet-5網絡的基礎上進行改進，將網絡中的池化層與全連接層融合，提取圖像中的高層次特征與低層次特征，取得了不錯的分類效果。文獻[7]提出一種加權混合神經網絡，將提取的灰度圖像在經過ImageNet數據庫訓練的VGG-16網絡上進行參數初始化，將圖像提取LBP特征后送入由DeepID改進的淺層網絡中，對這2個通道的輸出以加權的方式融合，實驗證明，該方法優于手工特征和單通道的神經網絡。文獻[8]提出融合神經網絡結構和條件隨機場的方法，在網絡中使用了3個Inception-ResNet模塊，大大提高了識別能力。文獻[9]提出了一種新的神經網絡島嶼損失模型，增加了類間差異，使類內距離變小。文獻[10]提出了一種雙通道卷積神經網絡，將提取的眼睛輸入第1通道，嘴巴輸入第2通道，通道融合送入全連接層，提高分類的精度。文獻[11]提出了EmotionDAN模型，將面部表情地標作為分類損失函數的一部分，同時擴展了深度對齊網絡，取得了不錯的效果。

本文提出了一種多特征融合卷積神經網絡方法，既考慮了圖像的高層次特征，又考慮了圖像的低層次特征，同時又將具有降維功能的Inception v1模塊引入卷積神經網絡中，通過拓寬卷積神經網絡的深度和寬度來增強提取特征的能力，并將此模型應用于人臉表情識別。本文中的神經網絡借鑒了VGG網絡，但是又不同于VGG網絡，沒有完全采用3×3的卷積核，而是采用3×3和5×5的卷積核，padding采用“SAME”，池化層均采用2×2的池化區域，激活函數的使用更能凸顯表情的邊緣信息和紋理信息。為了防止過擬合，在全連接層引入了Dropout技術。實驗結果表明，改進后的網絡能有效提高人臉表情識別的準確率，達到更好的分類效果。

1 VGG-16網絡結構

VGG是在AlexNet基礎上進行改進的，并在ILSVRC[12]2014年比賽中取得了分類項目第2名和定位項目第1名的好成績。VGG-16網絡輸入圖片格式為224×224×3，采用的卷積核尺寸為3×3，卷積步長設置為1，采用的最大池化區域為2×2，步長為2。在經過13個卷積層和5個最大池化層處理后，輸出一個4 096維度的數據，然后經過3個全連接層處理，最終輸入Softmax對圖像進行分類，將分類結果輸出。采用2個3×3的卷積核代替1個5×5的卷積核，3個3×3的卷積核代替1個7×7的卷積核，在保證感受野相同的同時，也加深了網絡的深度。增加了ReLU[13]激活函數的使用次數，使特征的學習能力增強;使用最大池化層，不僅減少了網絡中的參數，而且更有利于保持圖像的性質。VGG-16網絡模型如圖1所示。為了提高表情識別的識別率和魯棒性，在文中網絡架構方面做了改進。

2 跨連卷積神經網絡的改進

2.1 VGG網絡模型的改進

傳統的神經網絡只是把提取到的特征向后傳輸，沒有很好地將低層次的特征進行有效利用，從而對分類結果產生影響。同時，網絡層數的不斷加深會產生梯度的彌散問題，進而對網絡的訓練也會產生一定影響。為了克服這一傳統缺點，在本文中引入了跨連思想[14]，用于人臉表情的分類。該網絡輸入一幅圖像X，然后分別交錯經過卷積層（L1，L3，L5）、池化層（L2，L4，L6，L8）、Inception v1模塊、2個全連接層（L9，L10）和輸出層（O）。將池化層L2，L4，L6，L8提取到的特征直接送入全連接層進行特征融合并分類，輸出層有7個分類。

VGG網絡通過相同的卷積核進行特征提取，在每個卷積層的后邊均加入了ReLU激活函數以及批量正則化，可以緩解過擬合問題。改進后的網絡結構是基于VGG-16網絡結構修改得到的，輸入大小為44像素×44像素，卷積層均采用3×3和5×5的卷積核，步長為1，采用padding=“SAME”，即卷積后保持圖像空間分辨率不發生改變，其中5×5的卷積核可以學習到更多的空間特征。一次卷積就等價于做了一次特征變換，不同卷積核的使用，增加了網絡模型對不同尺度的適應性。池化層跟在卷積層的后面，采用2×2的滑動窗口，步長設置為2。全連接層中的Dropout設置為0.5，即丟棄網絡中一半的神經網絡單元，有效防止過擬合，使網絡的泛化能力更強，因而減少了網絡的復雜度，同時也加快了運算速度。每個卷積層的后邊都會添加BN層，對每層輸入數據進行標準化處理。

3 實驗

實驗是基于Python3的深度學習框架Keras進行的，使用的操作系統為Windows10，硬件配置：中央處理器（CPU）為Intel（R） Xeon（R） E5-2630 v2，主頻為2.60 GHz，內存為32 GB;圖形處理器（GPU）為NVIDIA Quadro K2000，顯存為3 GB。安裝了NVIDIA CUDA Framework8.0和cuDNN庫。

3.1 數據集

在實驗中分別采用FER2013表情數據集和The extended Cohn-Kanade dataset （CK+）表情數據集進行實驗。

FER2013數據集來自于2013年Kaggle比賽中的數據集，包含了35 887張圖片，在這里選用了其中的28 709張圖片用作訓練集，3 589張圖片用作測試集，3 589張圖片用作驗證集。每張圖片都是固定大小為48像素×48像素的灰度圖。其中共包含了7種表情：憤怒、厭惡、恐懼、高興、悲傷、驚訝、中性。圖像涵蓋了不同的人種、年齡、光照、遮擋、側臉、姿勢等，同時圖像的分辨率偏低，使得在該數據集上進行表情識別具有挑戰性。圖3為FER2013數據集中的7種表情樣例圖像。

CK+數據集是包含123個人、總共593個表情的視頻序列樣本。本實驗僅取某一種表情高潮狀態的3張圖片，檢測到人臉并且將人臉裁剪到48像素×48像素大小。共包含7種表情，分別為生氣、厭惡、害怕、開心、悲傷、驚訝及中性表情，圖4為CK+數據集中的7種表情樣例圖像。

由于數據集中的數據量不足，因而需對數據進行數據增強處理，如表2所示。表2中，“Rotation_range”即為圖片可以隨機轉動的角度;“Rescale”表示對圖片進行隨機縮放;“Shear_range”表示逆時針方向的隨機剪裁角度;“Zoom_range”表示隨機縮放的幅度;“Horizontal_flip”表示隨機水平翻轉;“Fill_mode”表示當進行變換時超出邊界的點會根據設置的參數進行處理。

3.2 實驗結果及分析

將圖像處理成固定大小的數據格式，方便將數據輸入到神經網絡中。FER2013數據集中人臉圖像的大小為48像素×48像素，將圖像處理成大小為44像素×44像素，對圖像的像素歸一化到[0，1]內，對圖像進行數據擴充，擴充方法的參數如表2所示。通過這一方法，擴大了數據集的數量并實現了空間不變性。表3為FER2013數據集中的表情識別集。

CK+數據集采用5-折交叉驗證方法，將圖像分成5份，每份都分別含有7種表情，每次實驗時，選擇其中的4份作為訓練集，剩余的1份作為測試集。訓練集用于訓練分類器，測試集用于測試和得到模型。進行5次實驗，最后取5次實驗的平均結果作為最終的實驗結果。表4為CK+數據集中的表情平均識別率。

從表3可以看出，高興和驚訝的表情識別率最高，由此可見，這些表情相較于其他表情來說比較明顯，動作幅度比較大。憤怒、厭惡、恐懼、悲傷的表情識別難度比較大，其中恐懼和悲傷表情比較相似，因為它們都具有額頭緊皺和嘴唇拉開的特征。生氣與厭惡表情具有相同的皺眉和嘴角等特征，所以識別表情的時候容易發生混淆。

從表4可以看出，算法在CK+數據集中的整體表現較好，但在識別厭惡、害怕和悲傷表情時準確率要低一些，主要原因可能是害怕、厭惡和悲傷之間表情的關系定義不是很明確，導致檢測時識別率有所下降。

由表3和表4可知，同種算法在CK+表情庫的識別效果要優于在FER2013表情庫，造成這種結果的原因是FER2013表情庫的影響因素比較多，更接近于現實生活中的圖片，更具有代表性。因CK+是標準實驗室圖片，影響因素比較少，所以識別率相對于FER2013來說要高很多。

為了證明本文方法的有效性，在基準數據庫的基礎上，對比了本文算法與表情識別主流算法的性能。表5和表6分別為在FER2013和CK+中的實驗結果對比。文獻[16]使用純卷積神經網絡模型，表情識別率為57.10%;文獻[17]使用與GoogleLeNet[18]相似結構的Inception，表情識別率達到71.60%;文獻[19]使用深層次的VGG網絡，表情識別率為72.70%;文獻[20]提出基于面部表情識別其中情緒裝填的結果，以表情要素系數做特征進行計算，用3-NN和MLP神經網路進行特征分類;文獻[5]在LeNet-5網絡的基礎上提出了跨連接網絡，將低層次特征與高層次特征進行融合，以彌補樣本數量的不足，表情識別率達到83.74%。由表5和表6對比結果可知，在這兩種數據集中，與其他方法相比，本文算法有較好的識別效果。在FER2013數據集中，本文算法比其他方法的識別率至少提高了0.06%。在CK+數據集中，本文算法較其他方法的識別率至少提高了2.55%。

4 結語

針對人臉表情識別效果欠佳、魯棒性差等問題，提出了一個改進的跨連接卷積神經網絡來識別7種面部表情。在VGG網絡的基礎上對網絡進行了改進，將網絡中的低層次特征與高層次特征進行融合，并將融合后的特征輸入全連接層，充分利用了每個池化層的特征;引入了Inception網絡結構，增加網絡深度的同時，也增加了網絡的寬度，使網絡學習到的特征更加豐富，同時也加快了收斂速度。實驗證明，本文的特征提取方法在FER2013和CK+數據集上的識別率有明顯提高。本文僅考慮了表情圖片比較復雜、各個表情的類內差距比較大的情況，后續工作還需要增大表情類間差距，降低類內差距，進一步提高表情的識別率。

參考文獻/References：

[1] 徐峰，張軍平. 人臉微表情識別綜述[J]. 自動化學報， 2017，43（3）：333-348.

XU Feng， ZHANG Junping. Facial microexpression recognition： A survey[J]. Acta Automatica Sinica， 2017， 43（3）：333-348.

[2] LIU Yanpeng， LI Yibin， MA Xin， et al. Facial expression recognition with fusion features extracted from salient facial areas[J]. Sensors， 2017， 17（4）： s17040712.

[3] SUN Yuechuan， YU Jun. Facial expression recognition by fusing Gabor and local binary pattern features[C]//International Conference on Multimedia Modeling. Cham： Springer， 2017： 209-220.

[4] 杜云，張璐璐，潘濤. 基于改進的主成分分析法的礦工表情識別[J]. 河北科技大學學報， 2019， 40（1）： 45-50.

DU Yun， ZHANG Lulu， PAN Tao. Miner expression recognition based on improved principal component analysis[J].Journal of Hebei University of Science and Technology，2019，40（1）：45-50.

[5] IVANOVSKY L， KHRYASHCHEV V， LEBEDEV A， et al. Facial expression recognition algorithm based on deep convolution neural network[C]//2017 21st Conference of Open Innovations Association （FRUCT）. Helsinki：IEEE， 2017： 141-147.

[6] 李勇，林小竹，蔣夢瑩. 基于跨連接 LeNet-5 網絡的面部表情識別[J]. 自動化學報， 2018， 44（1）： 176-182.

LI Yong， LIN Xiaozhu， JIANG Mengying. Facial expression recognition with cross-connect LeNet-5 network[J]. Acta Automatica Sinica， 2018， 44（1）： 176-182.

[7] YANG Biao， CAO Jinmeng， NI Rongrong， et al. Facial expression recognition using weighted mixture deep neural network based on double-channel facial images[J]. IEEE Access， 2017：2784096.

[8] HASANI B， MAHOOR M H. Spatio-temporal facial expression recognition using convolutional neural networks and conditional random fields[C]//2017 12th IEEE International Conference on Automatic Face & Gesture Recognition （FG 2017）. Washington DC：IEEE， 2017： 790-795.

[9] CAI Jie， MENG Zibo， KHAN A S， et al. Island loss for learning discriminative features in facial expression recognition[C]//2018 13th IEEE International Conference on Automatic Face & Gesture Recognition （FG 2018）. Xi′an：IEEE， 2018： 302-309.

[10] NWOSU L， WANG Hui， LU Jiang， et al. Deep convolutional neural network for facial expression recognition using facial parts[C]//2017 IEEE 15th Intl Conf on Dependable， Autonomic and Secure Computing， 15th Intl Conf on Pervasive Intelligence and Computing， 3rd Intl Conf on Big Data Intelligence and Computing and Cyber Science and Technology Congress. Orlando：IEEE， 2017： 1318-1321.

[11] TAUTKUTE I， TRZCINSKI T， BIELSKI A. I know how you feel： Emotion recognition with facial landmarks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition（CVPR） Workshops. [S.l.]：[s.n.]， 2018： 1878-1880.

[12] RUSSAKOVSKY O， DENG Jia， SU Hao， et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision， 2015， 115（3）： 211-252.

[13] 龔震霆，陳光喜，曹建收. 卷積神經網絡在腦脊液圖像分類上的應用[J]. 計算機工程與設計， 2017， 38（4）：1056-1061.

GONG Zhenting，CHEN Guangxi，CAO Jianshou. Cerebrospinal fluid images classification based on convolution neural network[J]. Computer Engineering and Design， 2017， 38（4）：1056-1061.

[14] 張婷，李玉鑑，胡海鶴，等. 基于跨連卷積神經網絡的性別分類模型[J]. 自動化學報， 2016， 42（6）： 858-865.

ZHANG Ting， LI Yujian， HU Haihe， et al. A gender classification model based on cross-connected convolutional neural networks[J]. Acta Automatica Sinica， 2016， 42（6）： 858-865.

[15] KLAMBAUER G， UNTERTHINER T， MAYR A， et al. Self-normalizing neural networks[C]//Advances in Neural Information Processing Systems. Linz：[s.n.]， 2017： 971-980.

[16] TMEN V， SYLEMEZF， ERGEN B. Facial emotion recognition on a dataset using convolutional neural network[C]//2017 International Artificial Intelligence and Data Processing Symposium（IDAP）. Malatya：[s.n.]， 2017： 8090281.

[17] PRAMERDORFER C， KAMPEL M. Facial expression recognition using convolutional neural networks： State of the art[J]. CoRR， 2016：1612.02903v1.

[18] SZEGEDY C， LIU Wei， JIA Yangqing， et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition（CVPR）. Boston：IEEE， 2015： 7298594.

[19] SIMONYAN K， ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//3rd International Conference on Learning Representations. San Diego：ICLR， 2014：1409.1556V6.

[20] 徐琳琳，張樹美，趙俊莉. 構建并行卷積神經網絡的表情識別算法[J]. 中國圖象圖形學報， 2019， 24（2）： 227-236.

XU Linlin， ZHANG Shumei， ZHAO Junli. Expression recognition algorithm for parallel convolutional neural networks[J]. Journal of Image and Graphics， 2019，24（2）：227-236.