摘 要:針對目前表情識別類間信息無關狀態,提出了一種表情類間學習的神經網絡分類識別算法。該算法首先構建一個BP網絡學習對和一個距離判據單元,該距離判據單元僅用來計算類間的實際距離,類間期望距離是根據大量實驗結果獲得的;然后通過類內實際輸出和類間期望距離來修正該網絡;最后給出一組實例樣本進行表情分類識別。實驗結果表明,該算法能有效地識別人臉表情,能緊密地將各類表情間的信息聯系起來,效率和準確性均有明顯提高。
關鍵詞:表情識別;類間學習;神經網絡;類間期望;距離判據
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2008)07-2219-04
Facial expression recognition using neural network of congener learning
ZHOU Shu-ren1,2 , LIANG Xi-ming1 , YANG Qiu-fen1 , LIU Guo-ying2
(1. School of Information Science Engineering, Central South University, Changsha410083, China; 2.School of Computer Communication Engineering, Changsha University of Science Technology, Changsha410076, China)
Abstract: In view of the current unrelated status of expressions recognition in congener information, this paper proposed an algorithm of the neural network classification of expression congener learning. The algorithm first built a pair of network of BP and an unit of the distance judgment evidence which was only used to calculate the actual distance between categories, and the congener expected distance was obtained under a lot of experiments, then amended the network by the actual output of inner class and the expected distance of congener, finally tested expression recognition through a set of samples. The experimental results demonstrate the feasibility of the algorithm which is able to link information between two expressions at random closely. It shows that the algorithm can improve the efficiency and accuracy of facial expression recognition obviously.
Key words: expression recognition; congener learning; neural network; congener expectations; distance judgment evidence
近年來,人機交互方面的研究日益得到關注,并且吸引了許多來自不同領域的學者,包括工程科學、心理科學、神經系統科學及計算機科學等。由于人臉在社會活動中扮演著極其重要的角色,人臉表情自動識別已成為模式識別的一個非常重要又極具意義的分支。隨著計算機智能化的發展,人們試圖賦予計算機類似于人的表情,使人工智能更加完整,人臉表情識別作為一門嶄新的學科已受到了國內外許多科研機構的關注。
人臉表情含有豐富的人體行為信息,Ekman等人[1]提出了表情的六種最基本的分類,即高興、驚奇、悲傷、憤怒、恐懼和厭惡(圖1)。雖然人的表情是極為復雜的,實際所表現出來的表情遠不只這六種,但人類所有的表情卻均可由這六種基本表情經過復雜的融合而產生。人臉面部表情的具體體現可參考文獻[2]。人們在研究人臉表情的各種狀態信息時,一般是孤立地進行考慮,而沒有就表情信息本身之間的聯系進行深入研究。因此,本文將就這一問題展開探討。
1 人臉表情識別概述
面部表情的含義是一種穩定的語義,并不會隨著環境的改變而改變,人臉面部表情的產生是由于肌肉的牽引將正常的人臉變形成為有表情的人臉。根據目前國內外研究表情識別的方法,主要可分為三種:
a)本征臉法。將圖像看做矩陣,計算本征值和對應的本征向量作為代數特征進行人臉表情識別,而不是提取眼嘴鼻等部分幾何特征[3],如C. Padgett等人[4]的靜態圖像本征臉表情分類,基于特征臉的主分量分析法(principal component analysis,PCA)、Fisher 線性判別法(Fisher’s linear discriminants,FLD)、獨立分量分析法(independent component analysis,ICA)等。本征臉法在小樣本時識別率不高,而在人臉模式數較大時又會使計算量增加。
b)局部特征法。將人臉的各個器官組織在識別時分開,將其看做是不同的特征要素。對臉部不同的表情單元,僅考慮對表情識別有重要貢獻的單元,一般只考慮眉毛、眼睛和嘴,這樣可以大大提高計算的速度,減少數據冗余。比較典型的方法是Lanitis等人[5]通過提取眼、嘴和鼻等重要特征點的位置和局部幾何形狀作為識別特征,用臉部一系列的特征點組成可變形的區塊,通過比對特征點的相互位置和形狀來識別人臉表情。還有Gabor小波法和神經網絡法[6~9]。
c)模型法。根據臉部的肌肉結構和物理特征發展而來的,通過其形變的各種狀態區分不同的表情。典型的方法有隱馬爾可夫模型法(hiden Markov model,HMM)、光流法(optical flow)、臉部運動編碼(facial action coding system,FACS)分析模型方法。FACS是根據物理結構和肌肉模型對臉部特征向量序列進行表情編碼,通過識別44個運動單元(action units)中的某些運動單元來識別人臉表情[10]。
2 類間學習神經網絡算法
生命科學與工程科學的相互交叉、相互滲透、相互促進導致了人工神經網絡的產生。人工神經網絡由于其良好的自學習、自組織及模仿人腦智能等方面的能力,已經在手寫體漢字、字符識別中取得了良好的效果[11]。其中,BP神經網絡是人們使用最廣泛的一類神經網絡,它的優點是結構簡單、易于訓練,具有良好的自學習能力、強大的分類能力和容錯能力,可以實現從輸入到輸出的非線性映射。這些特性使得它可以和其他方法結合起來發揮更好的作用,在人臉表情識別方面已經取得了一些成效。
人臉是一個柔性體而不是一個剛體,各種表情之間的變化也有一定影響。在實際生活中,人的面部表情并不是單一的某種表情,而是可以隨著心情和情緒發生復雜變化的,表現在面部表情上,不同的臉部特征部件(眉、眼、嘴)所包含的表情信息是不同的[12]。在某一時刻的表情可認為是多種基本表情在不同程度上的組合。表情的變化細微而復雜,但各種表情的變化要受到臉部特征部件運動條件的約束,這種約束使得任意兩種表情之間存在一定的距離。
本文對人臉的六種基本表情及中性臉相互考慮,根據它們之間的類間期望距離來訓練網絡,避免了孤立表情的相關性。類間學習神經網絡算法首先介紹人臉表情的特征提取,其次介紹神經網絡學習對及其結構,再闡述類間學習神經網絡設計與訓練方法;最后說明神經網絡分類識別結構。
2.1Gabor小波變換表情特征提取
Gabor小波是小波基中的一種,從外形上看,Gabor小波被封裝在一個Gaussion分布的形狀中,而且它的積分為零。Gabor小波在圖像處理中的特征提取、紋理分析和立體視差估計等方面有許多應用。Gabor小波是一組窄帶帶通濾波器[13],其在空間域和頻率域均有較好的分辨能力,并有明顯的方向選擇和頻率選擇特性,Gabor濾波器的特性使得其對于亮度和人臉姿態的變化不敏感。二維Gabor濾波器的沖擊響應是將復指數振蕩函數乘以高斯包絡函數所得的結果:
式(1)中:k為特征小波向量,包含了波長和方向的信息,通過改變k的相位和波長,可以得到一組不同的Gabor濾波器, σ定義了小波濾波器的帶寬,可取 σ=2π; i為復數單位。根據表情圖像區域選取的特殊要求,這里僅選取左眼部(左右眼對稱)和嘴部兩區域,均使用三種頻率和六個方向,這樣定義了由18個 Gabor小波組成的小波族用于提取表情特征。
一幅圖像的 Gabor小波表示就是該圖像和一族 Gabor小波卷積所得到的結果。假設 I(x,y)表示一幅圖像的灰度分布,則其 Gabor小波表示為
其中: Ok(x,y)就是原圖像 I(x,y)與相應于包含尺度與方向信息k的 Gabor 小波卷積結果。人臉表情區域選取方法如圖2所示。
表情區域的特征選取根據濾波器的幅值計算其統計特征,包括均值L、標準差R、偏態差K。以眼部為例,Gabor小波的個數為18,根據式(2)計算的表情區域輸出圖像的幅值求出統計特征,可以得到一組54維的特征向量。
2.2 類間學習神經網絡概要設兩類表情對象分別為A和B,在高維輸入特征空間和低維輸出特征空間根據非線性傳遞函數來求解。若對象A和B的輸入特征空間X有m維,則xA=xA1,xA2,…,xAm ,若輸出得到一個n維的向量空間Y,則yA=yA1,yA2,…,yAn,且xA∈Rm,yA∈Rn,兩對象A和B的期望輸出之間的距離[14]為DAB,倘若對象A和B為同一表情則DAB=0,否則DAB>0。輸入空間的維數m能夠在Gabor小波特征提取時決定,輸出向量的維數n據實際問題可自行決定,并通過式(3)來優化網絡結構。
2.3 類間學習神經網絡結構
神經網絡結構如圖3所示,網絡I和Ⅱ是一個典型的三層感知機。網絡Ⅰ和Ⅱ是兩個輸入對象A和B的特征參數,距離判據D用來計算網絡Ⅰ與Ⅱ輸出單元的距離dAB,在該組合神經網絡結構的學習過程中,期望值DAB是根據大量樣本的實驗結果不斷進行計算而獲得的(圖4),同類之間可以直接設定其期望距離為0,不同類之間按式(5)計算。
DAB=λ∑mi=1XAi-XBi2/∑j∈S,j≠A∑mi=1XAi-Xji2(5)
其中:A、B屬于集合S(happy,surprise,sad,angry,fear,disgust,neutral);λ為當前比對表情類之間的比率因子。
例如 DAB(happy,happy)= 0, 而DAB(happy,sad)= 0.7,DAB(sad,disgust)= 0.4等。
2.4 類間學習神經網絡設計與訓練
該類間學習神經網絡是建立在誤差反向傳播算法(error back propagation algorithm,EBP)之上的。采用BP算法的多層神經網絡模型一般稱為BP網絡,它是目前人工神經網絡中研究最深入、應用最廣泛的一類網絡。BP網絡由輸入層、隱含層和輸出層組成,隱含層可以是一層或多層。文中采用的是三層BP網絡,即隱含層只有一層。
2.4.1 誤差反向傳播評價
對于任意輸入的單個表情模式類,由給定的I/O樣本計算網絡類內輸出,得出誤差,誤差反向傳播,修正加權,直到滿足期望的誤差指標(圖5)。第A個樣本輸入/輸出為(X,Y),輸入維數m,輸出維數n,其誤差為各輸出單元誤差之和[15]。極小化誤差評價函數為
但是,修正加權的過程還受到期望值D的影響,這便是類間學習的另一個環節。
2.4.2 類間距離判據評價
對于任意輸入的兩個表情模式類,它們之間的期望值D被作為有師學習信號,可用于調節網絡的權值。兩表情模式類(A,B)之間的均方誤差ε可由DAB及概率密度函數p(xA,xB,DAB)來表示。對于DAB來說,不同的表情模式類可能得到的是不同的值,均方誤差ε的計算如下:
ε2()=∑A∑B(‖DAB-dAB‖2p(xA,xB,DAB))(8)
實際輸出dAB可由式(9)計算得出。其中:R表示一旋轉矩陣;T表示一平移矩陣??紤]到dAB表示的是兩表情模式類之間的相對距離,所以需要經過變換才能得到這一值。
2.4.3 類間距離判據學習方法
假設輸入層、隱含層和輸出層的單元數分別是m、h和n,激勵函數均采用sigmoid函數,即f(x)=(1+e-x)-1,網絡Ⅰ與Ⅱ均采用相同的結構、連接權值和訓練方法。若輸入的樣本總數為s,類間總的誤差函數由式(10)決定。
權值調整按式(11)進行,為學習因子,η為促使網絡穩定收斂的經驗值。
在學習過程中,若不能滿足Ed≤ε,則繼續進行學習,直到滿足該條件或者迭代次數達到某一初始值時終止。
2.5 表情分類識別
表情分類識別采用單一BP神經網絡進行,其網絡結構與圖4的BP神經網絡對中的任一網絡結構相同,不包含距離判據D,上述學習結果可直接用到該分類結構上(圖6)。
3 實驗結果
實驗中考慮七種表情(包含中性臉),即中性、高興、悲傷、憤怒、害怕、驚嚇和厭惡。對每種表情只提取眼睛和嘴部區域的特征,人臉表情數據來源為日本Kyushu大學的JAFFE(japanese female facial expression)數據庫[16]、Yale數據庫[17]和自建表情數據庫(僅用來測試)。JAFFE數據庫包含213張圖像,七種表情;Yale數據庫包含165張圖像,15個人的表情,每人11張;自建表情數據庫包含200張圖像。因此一共有表情圖像578張。
實驗分兩組進行,一組(278張)作為網絡訓練用;另一組(300張)作為測試用,每個表情圖像上只獲取兩個區域,即左眼部和嘴部,根據人臉面部結構特征的先驗信息和灰度積分特征確定表情特征區域,然后將特征區域標準化、歸一化。通過對此兩個區域進行Gabor小波變換而獲取特征值。每個區域進行三個尺度、六個方向的 Gabor 小波變換,經過采樣處理再級聯之后,作為該幅人臉圖像的特征矢量,再輸入到神經網絡進行訓練或識別。由于每個窗口提取的特征矢量維數均是54,輸入層神經元個數設計為108。本文使用一個三層的BP網絡作為分類器,隱層神經元個數設計為12,輸出層的神經元個數為3,學習因子設為0.3,動量因子η設為0.4。兩類情感的期望值DAB如表1所示。
表情圖像在訓練和測試之前均先進行Gabor小波特征提取,表情分類測試結果如表2所示,在測試集中,除中性表情圖像為30張外,其他六種表情圖像均為45張。在300張測試集中,共正確識別出279張,有21張錯誤識別,平均正確識別率為93。
4 結束語
人臉表情識別是根據人臉的表情信息進行特征分類的,傳統的方法是將表情各自分別進行處理,并據此進行分類識別,從而忽略了類間的關聯信息。本文提出的表情類間學習的神經網絡分類識別算法,合理考慮了類間信息,使表情信息局部化與全局化的利用有機結合。為此,首先構建一個BP網絡學習對和一個距離判據單元,然后通過類內期望輸出和類間期望距離來修正該網絡,最后給出一組實例樣本進行表情分類識別。實驗結果表明,該算法使識別率有了顯著提高,平均正確識別率達到93%,雖然這一結果離現實應用還有一定的距離,但對問題的最終解決應有較好的促進作用。
未來工作中,如何更有效地減少數據冗余,使得表情類間信息的應用更加規范化以及如何減少網絡的訓練時間等諸多問題有待進一步研究,表情的特征提取一直以來也是許多研究工作者關注的問題,相信隨著研究的不斷深入,表情識別的研究與應用會得到不斷擴展。
參考文獻:
[1] EKMANP,FRIESEN W V.Facial action coding system[M].Palo Alto:Consulting Psychologists Press,1978.
[2]高文, 金輝. 面部表情圖像的分析與識別[J]. 計算機學報, 1997,20(9):782-789.
[3]TURKM,PENTLAND A. Eigenfaces for recognition[J].Cognitive Neuroscience, 1991,3(1):71-86.
[4]PADGETT C, COTTRELL G. Identifying emotion in static face images[C]// Proc of the 2nd Joint Symposium on Neural Computation:San Diego:University of California,1995:91-101.
[5]LANITIS A, TAYLOR C, COOTES T.A unified approach to coding and interpreting face images[C]//Proc of the 5th International Conference on Computer Vision (ICCV’95). 1995:368-373.
[6]WONG Jia-jun, CHO S Y. Facial emotion recognition by adaptive processing of tree structures[C]//Proc of ACM Symposium on Applied computing. 2006:23-30.
[7]CHO S Y , WONG Jia-jun. Probabilisticbasedrecursivemodel for face recognition [R] //Lecture Notes inComputerScience3641.[ S. l.]:Springer-Verlag, 2005: 1245 -1254.
[8]KRUEGERV,SOMMER G. Gabor wavelet networks for object representation[J]. Journal of the Optical Society of America, 2002,19(6):1112-1119.
[9]LIU C, WECHSLER H. Independent component analysis of Gabor features for face recognition[J]. IEEE Trans on Neural Networks,2003,14(4):919-928.
[10]GHIJSEN M,HEYLEN D,NIJHOLT A,et al Facial affect displays during tutoring sessions[C]//Proc of International Conference on Intelligent User Interfaces.San Diego, CA:[s.n.],2005.
[11]RUMELHART D E, HINTON G E,WILLIAMS R J. Learning representations by back-propagating errors[J].Nature, 1986,323:533-536.
[12]EKMAN P, REVEALED E. First owl books[M]. New York: Henry Holt and Company LLC, 2004.
[13]DU S ,WARD R.Statistical non-uniform sampling of Gabor wavelet coefficients for face recognition[C]// IEEE IntConf on Acoustics, Speech, and Signal Processing . Philadelphia:[s.n.],2005.
[14]DUCH W, Neural minimal distance methods[C]// Proc of the 3rd Conference on Neural Networks and Their Applications. Kule:[s.n.],1997:183-188.
[15]RUMELHART D E. Learning internal representation by error propagation[M].[S.L.]:MIT Press, 1986:318-362.
[16]MICHAEL J L, BUDYNEK J, KAMATSU S. Automatic classification of single facial Images[J]. IEEE Trans on Pattern Analysis and Machine intelligence, 1999, 21 (12) : 1357-1362.
[17]BELHUMEUR P N, HESPABNHA J P,KRIENG MAN D J. Eigenfaces vs. fisherfaces: recognition using class specific linear projection [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 1997,19(7):711-720.
[18]COHEN I, GARG A,HUANG T. Emotion recognition from facial expressions using multilevel HMM[C]//Proc of Neural Information Processing Systems,Workshop. 2000.
[19]KAPOORA, PICARD R. Multimodal affect recognition in learning environments[C]//Proc ofMultimedia. Singapore :[s.n.],2005.
[20]PADGETTC, COTTRELL G, ADOLPHSR.Categorical perception in facial emotion classification[C]// Proc of the 18th Annual Conference of the Cognitive Science Society. Hillsdale, NJ:Lawrence Erlbaum Associates,1996.(上接第2215頁)
4 結束語
理論分析和實驗結果表明,本文所提出簡化的SIFT特征點提取算法可以在保證性能的同時提高算法的實時性。雖然改變SIFT金字塔結構帶來的誤差會影響所提取特征點的魯棒性,但是可以通過減少采樣間隔和增加采樣深度在一定程度上提高算法的性能。而對描述子結構的修改不僅沒有影響原有的性能,還簡化了計算過程。因而,這種簡化算法比較適合于立體視覺匹配等對算法實時性要求較高的圖像處理領域中。
參考文獻:
[1]
HARRIS C, STEPHENS M. A combined corner and edge detector[C]// Proc of the 4th Alvey Vision Conference. Manchester: [s.n.], 1988: 147-151.
[2]MIKOLAJCZYK K, SCHMID C. Indexing based on scale invariant interest points[C]// Proc of the 8th International Conference on Computer Vision.Vancouver: [s.n.], 2001: 525-531.
[3]CARNEIRO G, JEPSON A D. Multi-scale phase-based local features[C]// Proc ofIEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2003: 736-743.
[4]JOHANSSON B,MOE A. Patch-duplets for object recognition and pose estimation[C]// Proc of the 2ndCanadian Conference on Computer and Robot Vision. 2005: 9-16.
[5]LOWE D G.Distinctive image features from scale invariant keypoints[J]. International Journal of Computer Vision, 2004, 60 (2): 91-110.
[6]BROWN M, LOWE D G.Recognising panoramas [C]// Proc of the 9th International Conference on Computer Vision. Nice: [s.n.], 2003: 1218-1225.
[7]SE S, LOWE D G, LITTLE J J.Vision-based global localization and mapping for mobile robots[J]. IEEE Trans on Robotics, 2005,21 (3): 364-375.
[8]LINDEBERG T. Feature detection with automatic scale selection[J]. International Journal of Computer Vision, 1998, 30(2): 79-116.
[9]GAO Jian, HUANG Xin-han, PENG Gang, et al. A quick feature detecting method applied in robot vision[C]// Proc ofIEEE International Conference on Mechatronics and Automation. Haerbin: [s.n.], 2007: 736-743.
[10]SCHMID C, MOHR R, BAUCKHAGE C. Comparing and evaluating interest points[C]// Proc of the 6th International Conference on Computer Vision.1998: 230-235.
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文?!?/p>