劉帥師,郭文燕,張言,程曦
人臉表情識別技術是生理學、心理學、圖像處理、模式識別和計算機視覺等領域的一個具有挑戰性的交叉學科[1]。為了確保信息的完整性,研究人員們使用不存在遮擋人臉表情圖像在受控的實驗室條件下進行實驗和研究[2]。然而,人臉遮擋在現實生活中很常見,例如,太陽鏡可以遮擋眼睛區域、一條圍巾或外科口罩遮擋嘴部區[3]。因此,在人臉存在遮擋的表情識別仍然是人臉表情識別系統在實際應用中最重要的瓶頸之一。
近年來,針對部分遮擋人臉表情識別,研究人員已經提出了許多方法來減少遮擋對表情識別的影響。Kotsia等[4]受Fisher的線性判別分析和支持向量機(support vector machine,SVM)的啟發,提出了一種新穎的最小類內方差的多類分類器來研究在不同人臉器官遮擋的情況下對人臉表情識別的影響。Tarrés 等[5]提出了基于 PCA(principal component analysis)和 LDA(linear discriminant analysis),并結合直方圖均衡化和均值、方差歸一化預處理的方法,減少了遮擋部分對人臉識別過程的影響。Kotsia等[6]對遮擋的人臉圖像進行Gabor小波濾波提取紋理特征,利用監督的判別非負矩陣因子分解(discriminant non-negative matrix factorization,DNMF)進行圖像分解,再采用基于模型的方法來描述特定面部特征的幾何位移來完成遮擋圖像的特征表征。Zhang等[7]利用蒙特卡羅算法對表情圖像提取Gabor特征,并遍歷表情圖像的每個區域進行模板匹配以產生對遮擋具有魯棒性的特征向量。Wang等[8]利用改進的中心對稱局部二值模式和梯度中心對稱局部方向模式GCS-LDP,利用卡方距離求取測試集圖像與訓練集圖像特征直方圖之間的距離。但是,上述方法主要研究眼部遮擋和嘴部遮擋對人臉表情識別效果的影響,沒有充分考慮遮擋在現實生活中出現的特點,對隨機遮擋情況的適應性較弱。人臉遮擋的特點是遮擋可以在人臉的任何地方發生,并且遮擋范圍的大小和遮擋的形狀都是未知的,沒有任何關于它的先驗知識[9]。因此,不能只考慮臉部某個區域對人臉表情識別的影響情況,應該根據遮擋的特點來展開研究,并提出一些可以克服這個問題的方法。Wright等[10]采用稀疏編碼方法完成人臉識別任務,并提出使用已知類別的訓練人臉圖像對測試人臉圖像進行稀疏表示的方法,在隨機遮擋人臉識別系統中取得了較為理想的識別效果。M. Zhu等[11]利用稀疏分解求出待測圖像的稀疏表示系數,并在待測圖像所在的子空間內實現表情類別判斷,該方法使待測圖像的分解系數變得更稀疏,同時避免身份特征對表情分類的干擾。
為了提高稀疏表示的魯棒性和有效性,本文提出了基于魯棒的正則化編碼和自動更新權重的隨機遮擋表情識別方法。受魯棒回歸理論的啟發[10],即通過自適應地不斷迭代的方法來給殘差分配不同的權重,直到估計過程收斂。本文通過假設編碼殘差和編碼系數分別是獨立同分布的,并基于最大后驗估計的原則來對給定的信號進行魯棒回歸,為了方便實現,正則化編碼的最小化問題將轉換成一個自動更新權重的問題,通過設計合理的權重函數可以魯棒地識別出遮擋部分從而減小它們對編碼過程的影響。在JAFFE和Cohn-Kanade數據庫上,本文方法對隨機遮擋表情識別的魯棒性進行了驗證,取得了較理想的識別效果。
通常情況下,稀疏編碼問題可以定義為

貝葉斯估計的觀點確切地說是從最大后驗概率估計觀點考慮人臉表示的問題。通過字典對待測表情圖像進行編碼,編碼向量的最大后驗概率估計變成。利用貝葉斯公式得



由于表情圖像的變化多樣性,很難預先確定稀疏表示殘差的分布。通常,假設概率密度函數是對稱的、單調并且可微的。因此,具有以下性質:

根據ρθ的性質,和符號相同,所以是非負的標量。因此進一步,從而可以寫成

雖然,式(8)是式(4)的局部近似值,但是這樣做可以將魯棒的正則化編碼模型的最小化問題通過迭代再加權重l2正則編碼來解決,也就是通過式(7)不斷更新權重。這樣最小化問題轉變成了如何計算對角權重矩陣。
初值對人臉表情識別取得較理想的識別效果至關重要。為了對待測表情圖像設置初值,首先應該初始化的編碼殘差。 本文對初 始化為;是初始編碼向量。由于待測表情圖像所屬類別事先未知,因此的合理初始編碼向量可以設置為這樣表示的就是所有訓練表情圖像的平均表情圖像。



因此,本文方法的流程如圖1所示。首先,待測的人臉表情圖像的每個像素點賦予不同的權重。其次,通過連續迭代得到收斂的權重矩陣。權重隨著每次迭代的收斂曲線如圖2所示。然后, 得到收斂的權重矩陣后,待測表情圖像的最優稀疏表示也可以通過計算得到。最后,計算每類訓練表情圖像逼近待測表情圖像的編碼殘差,并根據最小逼近殘差的準則將待測表情圖像分類到訓練表情圖像逼近待測表情圖像最小逼近殘差所對應的類別。每類訓練表情圖像逼近待測表情圖像的逼近殘差如圖3所示。為了減少原始表情特性的特征維數,本文應用PCA的方法對特征進行降維處理,Eigenface特征應用到與本文方法進行對比的其他算法中。定義為PCA的投影矩陣,那么,式(8)將變為


圖1 本文方法的流程Fig. 1 The structure of our method

圖2 權重收斂曲線Fig. 2 The convergence curve of the weigh

圖3 不同類別訓練圖像逼近待測圖像的殘差圖Fig. 3 The residual of each training class approximates the test image
實驗采用日本女性表情圖像JAFFE數據庫和Cohn-Kanade數據庫來驗證本文所提方法的可行性和有效性。JAFFE數據庫包含10個女性共213張人臉表情圖像,并且每個人都有7種表情,每種表情有3或4張表情圖像樣本。實驗時選用10個人共137表情圖像作為訓練樣本,其中(高興-19,驚訝-20,悲傷-20,恐懼-20,厭惡-18,憤怒-20 和中性-20)。其余的76張人臉表情圖像作為測試樣本。基于JAFFE數據庫的表情圖像數量少,實驗將遍歷3種情況來取得平均識別率。而 Cohn-Kanade人臉表情數據庫是由100名大學生按照指定的方式來從中性表情呈現23幅表情序列,這些人都來自18~30歲的大學心理系的學生。其中15%為歐洲人(包括黑種人和白種人),3%為亞洲人或拉丁人種,65%為女性。該數據庫也包含與JAFFE數據庫一樣的7種表情類別。對于Cohn-Kanade數據庫,選用10個人7種表情(高興-6,驚訝-6,悲傷-6,恐懼-6,厭惡-6,憤怒-6和中性-6)共420張表情序列進行實驗。其中,10個人7種表情共210張表情圖像作為訓練樣本,其余的作為測試樣本。為了驗證算法在Cohn-Kanade數據庫的泛化性能實驗遍歷6種情況來取得平均識別率。
由于JAFFE數據庫和Cohn-Kanade數據庫中的表情圖像稍有頭部傾斜和尺寸大小不一,需要經過預處理來消除這些差異。本文采用類似文獻[12]的預處理方法:通過旋轉使眼睛水平面對準,并根據兩眼間的距離來從原始的表情圖像裁剪出實驗用的只含正面人臉表情的矩形區域。JAFFE數據庫中的原始人臉表情圖像的尺寸為256×256,Cohn-Kanade數據庫中的原始人臉表情圖像尺寸為640×490。兩數據庫中的表情圖像進行尺寸歸一化128×104,利用直方圖均衡化來增強表情圖像某些區域的局部對比度,如圖4所示。

圖4 實驗用的兩數據庫中的部分隨機遮擋表情圖像Fig. 4 Some samples of occluded facial images in two databases
與其他的影響因素不同,如姿勢的變化,它的變化特點是可以事先預測判別出來的。然而,面部遮擋是特別難以處理的,因為它具有隨機性的特點,也就是說,遮擋可以發生在人臉表情圖像的任意位置并且大小也是任意的。我們對于遮擋發生的位置和遮擋面積的大小沒有任何明確的先驗知識。關于遮擋唯一有的先驗信息就是遮擋毀壞的像素點可能是彼此相鄰的,就是說某個區域的像素點可能是連續毀壞。圖4表示的兩個表情數據中一些在不同遮擋程度塊遮擋級別下的人臉表情圖像。遮擋級別表示的是遮擋的部分占整個人臉表情圖像的百分比是多少。所以遮擋級別是正數并且處于[0,1],遮擋級別為0表示圖像沒有被遮擋,1表示圖像全部被遮擋,例如:遮擋級別0.1表示圖像的10%被遮擋。基于稀疏表示的人臉表情識別方法最重要特點是對于人臉遮擋具有魯棒性。為更好地驗證本文提出的方法對于隨機遮擋的魯棒性,采用表情識別方法:KNN[14](K-nearest neighbor)、SVM[15]、SRC[10](sparse representation-based classifier)、GSRC[16](gabor feature based sparse representation)與本文方法在以下兩種數據庫進行對比。
表1和表2分別表示的是本文提出的方法與其他方法分別在JAFFE數據庫上和在Cohn-Kanade數據庫上對應不同遮擋級別的平均識別率。

表1 不同方法在JAFFE數據庫上的識別率Table 1 The accuracies of different methods on JAFFE %

表2 不同方法在Cohn-Kanade數據庫上的識別率Table 2 The accuracies of different methods on Cohn-Kanade %
從表1和表2可看出,隨遮擋級別增大人臉表情的識別率逐漸減小,符合人們的感性認識。表情識別方法在遮擋級別為0.1~0.5會取得較理想的識別效果。由于訓練樣本和測試樣本用自身像素值不需特征提取過程,KNN[16]和SVM[17]方法在遮擋級別很大時沒有很好的識別效果。且這兩種方法要結合提取較好區分性特征的提取方法才可發揮較好的分類效果,可看出本文的方法比SRC[10]和GSRC[12]表情識別率略高。
本方法在隨機遮擋的情況下取得比其他方法較為理想的識別效果,接下來分析本文在不同遮擋級別對于每種表情識別的影響大小。兩種數據庫不同遮擋級別對每種表情的遮擋情況如表3和表4。

表3 每種表情在JAFFE數據庫不同遮擋級別的識別率Table 3 The accuracies of each expression on JAFFE in different levels of block occlusions %

表4 每種表情在Cohn-Kanade數據庫不同遮擋級別的識別率Table 4 The accuracies of each expression on Cohn-Kanade in different levels of block occlusions %
從表3和表4可以看出,隨著表中給出的人臉表情圖像的隨機遮擋級別的增大,兩種數據庫上不同的人臉表情識別率隨之降低。在兩種數據庫中,生氣、高興、中性、悲傷和驚訝表情在圖像遮擋級別為0~0.1取得了較為理想的識別效果。這是由于遮擋級別較小,這些表情圖像的決策信息缺失的少。在這兩種數據庫上所有表情只有驚訝表情的識別效果在遮擋級別為0.2時受到了影響,其他表情都沒有受到影響。當圖像遮擋級別為0.3時,在這兩種數據庫上所有表情只有生氣、悲傷和驚訝表情識別效果受到了影響。當圖像遮擋級別為0.4~0.5,在JAFFE數據庫上高興和中性表情取得了較好的識別效果,在圖像遮擋級別為0.6時中性表情取得了較好的識別效果。然而在Cohn-Kanade數據庫上,當圖像遮擋級別為0.4~0.6時,恐懼和中性表情取得了較好的識別效果。當圖像遮擋級別為0.7~0.9時,所有的表情的識別率(除了中性表情外)都受到了較為嚴重的影響。
從兩表中可以看出中性表情識別率在不同的圖像遮擋級別下都可以保持了較高的識別率。即使在遮擋級別為0.9的JAFFE數據庫上,中性表情的識別率仍為60%。這是由于本文在賦予編碼殘差的初值時,選用的是所有訓練表情圖像的平均表情作為的初值,中性表情和平均人臉表情很相似。因此,即使在遮擋級別很大是,中性表情也較其他表情更容易更有效地識別。
圖5表示的是JAFFE數據庫上所有測試的中性表情圖像和所有訓練表情圖像的平均表情圖像。雖然在JAFFE數據庫上中性表情的識別效果在遮擋級別很高的時候也能取得較好識別效果,但是在Cohn-Kanade數據庫上這種現象表現的并不是十分明顯。在遮擋級別為0.9時的中性表情識別率為46.67%。盡管中性表情的識別率較其他的表情識別率高,但是與在JAFFE數據上的識別率相比還是相差較大。這是由于JAFFE數據庫上的人臉表情圖像都是女性,并且都屬于同一國家的。

圖5 JAFFE數據庫Fig. 5 JAFFE
而Cohn-Kanade數據庫中的人臉表情圖像是來自不同的國籍和不同性別的。這將造成如圖6所示的中性表情和平均人臉表情之間的相似性較小。因此,當遮擋級別為0.7~0.9時,在Cohn-Kanade數據庫上的中性表情較JAFFE上的中性表情的識別率低。盡管,中性表情的識別率在兩種表情數據庫上相差較大,但是Cohn-Kanade數據庫中的表情圖像來自不同的國籍和性別更符合實際情況,在該數據庫上進行實驗更有利于算法的推廣和實際應用。

圖6 Cohn-Kanade數據庫Fig. 6 Cohn-Kanade
本文提出了基于魯棒的正則化編碼模型和自動更新權重的隨機遮擋表情識別方法。根據人臉表情遮擋隨機性的特點,提高了稀疏表示的魯棒性和有效性并且減少隨機遮擋部分對人臉表情識別的影響。本文方法使用原始圖像數據(像素點)即可不需要采用特征降維、特征提取、綜合訓練樣本和特定領域信息等,通過求取編碼問題的最大后驗概率,從而來實現對遮擋的魯棒性。根據編碼殘差來對待測圖像的所有像素點自適應的分配和反復迭代權重,這樣可以魯棒地辨別出遮擋造成的奇異值并減少它們對編碼過程的影響。在JAFFE數據庫和Cohn-Kanade數據庫上與其他幾種方法進行了不同遮擋級別情況下識別率的對比實驗,由結果可以看出本文提出的方法取得了較好的識別效果,較其他幾種方法有效并對隨機遮擋具有較強的魯棒性。
[1]MERY D, BOWYER K. Face recognition via adaptive sparse representations of random patches[C]//IEEE International Workshop on Information Forensics and Security.London, UK, 2015: 13–18.
[2]WANG J, LU C, WANG M, et al. Robust face recognition via adaptive sparse representation[J]. IEEE transactions on cybernetics, 2014, 44(12): 2368.
[3]趙軍, 趙艷, 楊勇,等. 基于降維的堆積降噪自動編碼機的表情識別方法[J]. 重慶郵電大學學報: 自然科學版, 2016,28(6): 844–848.ZHAO Jun, ZHAO Yan, YANG Yong, et al. Facial expression recognition method based on stacked denoising autoencoders and feature reduction[J]. Journal of Chongqing university of posts and telecommuncaitions: natual science edtion, 2016, 28(6): 844–848.
[4]KOTSIA I, PITAS I, ZAFEIRIOU S, et al. Novel multiclass classifiers based on the minimization of the withinclass variance[J]. IEEE transactions on neural networks,2009, 20(1): 14–34.
[5]TARRéS F, RAMA A, TORRES L. A novel method for face recognition under partial occlusion or facial expression variations[C]//Proceedings of the 47th International Symposium ELMAR. Zadar, Croatia, 2005: 163–166.
[6]KOTSIA I, BUCIU I, PITAS I. An analysis of facial expression recognition under partial facial image occlusion[J]. Image and vision computing, 2008, 26(7): 1052–1067.
[7]ZHANG Ligang, TJONDRONEGORO D, CHANDRAN V.Toward a more robust facial expression recognition in occluded images using randomly sampled Gabor based templates[C]//Proceedings of 2011 IEEE International Conference on Multimedia and Expo. Barcelona, Spain, 2011: 1–6.
[8]王曉華,李瑞靜,胡敏,等. 融合局部特征的面部遮擋表情識別[J]. 中國圖象圖形學報, 2016, 21(11): 1473–1482.WANG Xiaohua, LI Ruijing, HU Min, et al. Occluded facial expression recognition based on the fusion of local features[J]. Journal of image and graphics, 2016, 21(11):1473–1482.
[9]WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation[J]. IEEE transactions on pattern analysis and machine intelligence, 2009, 31(2):210–227.
[10]朱明旱, 李樹濤, 葉華. 基于稀疏表示的遮擋人臉表情識別方法[J]. 模式識別與人工智能, 2014, 27(8): 708–712.ZHU Minghui, LI Shutao, YE hua. An occluded facial expression recognition method based on sparse representation[J]. Pattern recognition and artificial intelligence, 2014,27(8): 708–712.
[11]WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation[J]. IEEE transactions on pattern analysis and machine intelligence, 2009, 31(2):210–227.
[12]CAO J, ZHANG K, LUO M, et al. Extreme learning machine and adaptive sparse representation for image classification[J]. Neural networks the official journal of the international neural network society, 2016, 81(c): 91.
[13]ZHANG Jian, JIN Rong, YANG Yiming. Modified logistic regression: an approximation to SVM and its applications in large-scale text categorization[C]//Procee-dings of the Twentieth International Conference on Machine Learning. Washington, DC, USA, 2003: 888–895.
[14]LIU Shuaishi, ZHANG Yan, LIU Keping, et al. Facial expression recognition under partial occlusion based on Gabor multi-orientation features fusion and local Gabor binary pattern histogram sequence[C]//Proceedings of the 9th International Conference on Intelligent Information Hiding and Multimedia Signal Processing. Beijing, China,2013: 218–222.
[15]LIU Licheng, CHEN Long, CHEN C L. Weighted joint sparse representation for removing mixed noise in image[J]. IEEE transactions on cybernetics includes computational approaches to the field of cybernetics, 2016: 1–12.
[16]YANG M, SONG T, LIU F, et al. Structured regularized robust coding for face recognition[J]. IEEE transactions on image processing a publication of the IEEE signal processing society, 2013, 22(5): 1753–1766.
[17]羅元, 吳彩明, 張毅. 基于PCA與SVM結合的面部表情識別的智能輪椅控制[J]. 計算機應用研究, 2012, 29(8):3166–3168.LUO Yuan, WU Caiming, ZHANG Yi, et al. Facial expression recognition based on principal component analysis and support vector machine applied in intelligent wheelchair[J].The research and application of computer, 2012, 29(8):3166–3168.