唐紅梅,石京力,郭迎春,韓力英,王 霞
(河北工業大學 信息工程學院,天津 300401)
基于MG-LTP與ELM的微表情識別
唐紅梅,石京力,郭迎春,韓力英,王 霞
(河北工業大學 信息工程學院,天津 300401)
特征提取和表情分類是表情識別的關鍵技術。針對傳統方法識別率低的缺點,首先,提出了一種基于平均灰度的局部三值模式(MG-LTP)新算法,用于提取表情特征;其次,使用極限學習機(ELM)作為分類器,用于特征分類;最后,將二者結合用于表情識別,并進一步應用于人臉微表情識別中。在JAFFE數據庫及CASME人臉微表情數據庫進行試驗,與傳統方法對比,取得了較好的效果。
微表情;特征提取;分類識別;局部三值模式;極限學習機
人臉表情在人與人交流的交流過程中,起著非常重要的作用。但是,有些表情的變化速度很快,并不容易察覺到。1969年,Ekman和Friesen定義了一種新的面部表情,稱之為微表情(Micro-Expression)[1]。微表情是人類試圖壓抑或隱藏真實情感時泄露的非常短暫的、不能自主控制的面部表情,它是一種非常快速的表情,持續時間僅為1/25~1/5s。目前,美國的Ekman團隊和Shreve團隊、加拿大的李康團隊和Porter團隊、芬蘭的趙國英團隊、日本的Polikovsky團隊以及中國的傅小蘭團隊等都在開展微表情相關課題的研究[2-3]。
使用計算機對表情進行分類識別包含很多步驟,其中主要的是特征提取和分類器識別。常用的特征提取方法主要有主成分分析(PCA)、線性判別分析(LDA)、獨立成分分(ICA)和局部二值模式(LBP)等[4-6]。LBP是一種局部紋理描述算子,能夠很好描繪圖像局部紋理特征。為了增強圖像局部紋理特征對噪聲和光照變化的魯棒性,在參考文獻[7]中,Tang和Triggs對LBP算法進行優化,提出了局部三值模式(LTP)算法。雖然LTP算法對LBP算法有了改善,但由于提取特征的局部化特點,使得其缺乏對圖像整體信息的把握,在抗噪聲干擾方面依然能力不足。常用的分類器主要有K近鄰(KNN)、神經網絡法(NN)、貝葉斯分類和支持向量機(SVM)等[8-10]。為了克服以上幾種算法識別率低、參數復雜和運算速度慢的缺點,在參考文獻[11]中,Huang提出了一種基于單隱層前饋神經網絡的新算法,稱為極限學習機(ELM)。
綜上所述,該文針對LTP算法進行改進,綜合利用圖像的局部特征和整體信息,提出了MG-LTP新算法,并使用ELM作為分類器,在JAFFE數據庫上進行表情識別,進一步在CASME數據庫上進行微表情識別,給出了實驗結果和分析。通過分析微表情,目的是發現人試圖隱藏的真實情感,能夠廣泛應用于臨床、司法、安全等領域。在日常生活中,微表情研究具有十分重要的實際意義,例如商業談判、審訊嫌疑犯等,都可以通過分析細微表情來尋求對方的真實意圖。
1.1 LTP算子描述
局部三值模式(LTP)是一種局部紋理特征提取方法,由局部二值模式(LBP)發展而來。LTP的基本思想定義如下:設置閾值t,與中心像素灰度值gc構成新的區間[gc-t,gc+t]。若像素灰度值gi在此區間內,則gi量化為0;若gi大于區間最大值,則gi量化為1;若gi小于區間最小值,則gi量化為-1。計算如下
(1)
(2)
式中:i=0,1,2,…,R-1;gc為中心像素點灰度值;gi為中心像素點周圍的像素點灰度值;R為周圍像素點的個數;t為閾值。當選取R為8時,閾值t為5,編碼如圖1所示(箭頭代表編碼順序)。

圖1 標準LTP編碼示意圖
為了計算簡單,LTP編碼可以分為正值LTP計算和負值LTP計算,兩部分分別計算編碼,如圖2所示。

圖2 正負值LTP編碼示意圖
LTP是LBP的擴展算法,由二元改進為三元,因此能夠提取更豐富的局部紋理特征,并且設置了閾值區間,使計算結果受像素灰度差異變化的影響變小[12],所以該算法較LBP更具有判別能力,而且對于統一區域的噪聲更不敏感。使用LBP算子,LTP算子進行濾波,實驗結果如圖3所示。

圖3 LBP/LTP 濾波圖像
1.2 MG-LTP新算法描述
LTP作為一種局部紋理特征提取的算法,缺乏對圖像整體信息的粗粒度把握,抗噪聲干擾能力不足。因此,本文提出平均灰度局部三值模式(Mean-gray Local Ternary Patterns,MG-LTP)算法,結合圖像局部紋理特征與圖像整體信息的特點,來改善LTP的不足之處。
在MG-LTP的計算中,不再進行相鄰像素之間的比較,取而代之的是相鄰像素塊之間平均灰度的比較。主要思想是,首先設置像素塊大小(不同的像素塊大小代表不同的觀察和分析粒度,通常以MGs-LTP表示像素塊大小為S×S的LTP),計算每個像素塊的平均灰度;其次設置閾值計算三元編碼;最后為了方便計算,將三元編碼轉換為二元編碼。與LTP相比,MG-LTP的優點主要體現在計算了S×S像素塊的平均灰度,把握住了圖像的整體信息,增強了算法的抗噪聲干擾能力。詳細步驟如下:
1)設置像素塊大小,并計算每個像素塊的平均灰度。若設置像素塊大小為3×3(陰影部分為1個3×3像素塊),并計算每一個像素塊的平均值,如圖4所示。

圖4 計算S×S像素塊的平均灰度
2)計算三元編碼。根據LTP算法,若設置閾值t為5,計算MG-LTP三元編碼,如圖5所示。

圖5 計算三元編碼
3)由上一步驟得到的三元編碼,根據上文中LTP計算方法,可以轉換為二元的正值MG-LTP編碼和負值MG-LTP編碼兩部分。將二者串聯起來,作為MG-LTP編碼,如圖6所示。

圖6 三元編碼轉換為二元編碼
在文獻[11]中,Huang和Zhu等人在單隱層前饋神經網絡(SLFNs)的基礎上提出了一種新的算法,稱為極限學習機(ELM)。相比傳統前饋神經網絡,ELM分類器學習速度更快、精度更高、參數調整更為簡單。ELM結構如圖7所示。

圖7 ELM結構圖

(3)
式中:ai=[ai1,ai2,…,ain]T,是連接輸入結點和第i個隱藏層節點的權值向量;bi是第i個隱藏層節點的偏差;βi=[βi1,βi2…,βim]T是連接第i個隱藏層結點與輸出結點的權值向量;ai·xj表示向量ai和向量xj的內積。激勵函數g(x)的類型一般設置為“Sine”,“Sigmoid”或“RBF”。如果上述的前饋神經網絡能零誤差的逼近這N個樣本,則存在ai,bi,βi使
(4)
式(4)可以簡化為
Hβ=T
(5)
其中
(6)
(7)
(8)
誤差存在時,定義εj為預測值與實際值tj之間的誤差,式(4)改寫為
(8)
定義E(W)為預測值與實際值的誤差平方,為了尋求最好的預測結果,問題便轉化為尋找最優權值W=(a,b,β)來使E(W)最小,如式(9)所示
(9)
Huang和Chen提出一種思想,若激勵函數無窮可微,則不需要去調整全部網絡的參數。網絡訓練前,輸入權值ai和偏差bi隨機設定,訓練過程中保持數值不變[13]。ELM分類識別結果的優良取決于隱藏層節點輸出權值βi。通過計算公式(5)的最小二乘解來完成網絡的最優訓練,并且解是唯一的
(10)
式中:H*表示隱含層輸出矩陣H的Moore-penrose廣義逆[14]。
實驗選擇JAFFE人臉表情數據庫以及CASME人臉微表情數據庫。其中JAFFE包含了213幅日本女性的臉相,表情庫中共有10個人,每個人有7種表情(中性、高興、驚奇、憤怒、悲傷、恐懼、厭惡)。部分JAFFE人臉表情數據庫圖片如圖8所示。

圖8 部分JAFFE人臉表情數據庫圖片
CASME是中科院心理研究所公開發布的微表情數據庫,該數據庫共有195個微表情,全部在實驗室環境下誘發得到,視頻的頻率是60f/s(幀/秒)[15]。部分CASME微表情數據庫圖片如圖9所示。
實驗中,本文使用的訓練樣本與識別樣本的比例為2∶1。每種表情訓練圖片為20張,測試表情為10張。共7種表情,所以使用的訓練樣本圖片總數為140,識別樣本圖片總數為70。在本文所提出的方法中,LTP閾值t設為5;MG-LTP設為MG4-LTP,即采用4×4像素塊來計算平均灰度;ELM的神經節點個數,通過交叉驗證,設為300。
對于JAFFE數據庫,試驗結果如表1所示。從試驗結果可以看出,高興、驚訝和害怕這三種表情識別完全正確,識別率達到100%。生氣的識別率最低,只有60%,由表中數據可以看到,生氣被錯誤的識別為高興、悲傷、嫌惡和中性的概率分別為10%。其余幾種表情的識別率介于上述數值之間,為80%和90%。總體來說,70個識別樣本中,正確識別了62個,識別率達到87.14%,誤判率為12.86%。

表1 JAFFE數據庫識別結果 %
對于CASME數據庫,試驗結果如表2所示。從試驗結果可以看出,害怕表情識別完全正確,識別率達到100%。生氣和厭惡的識別率最低,只有70%,由表2中數據可以看出,這兩類表情分別存在被錯誤地識別為其他三類表情的情況。驚訝和中性的識別率為80%,高興和悲傷的識別率均為90%。總體來說,70個識別樣本中,正確識別了58個,識別率達到82.86%,誤判率為17.14%。CASME數據庫上的識別率要比JAFFE數據庫低,主要是因為微表情的特征較細微,對不同表情特征提取的結果要求比較高。

表2 CASME數據庫識別結果 %
在均使用同一種分類器ELM的前提下,在JAFFE數據庫上和CASME微表情數據庫上,使用不同的特征提取方法(PCA,LDA,LBP,LTP,MG-LTP)進行比較,實驗結果如圖10和表3所示。從中可以看出,傳統的PCA和LDA效果不是很理想,識別率最低,LBP和LTP效果較好,識別率得到了提高。本文提出的MG-LTP算法要比其余4種算法的識別率高,效果最好,由此可見把握整體圖像的粗粒度有助于減少噪聲干擾,提高圖像識別率。

圖10 不同特征提取方法經ELM分類器后的識別結果比較

表3 不同特征提取方法經ELM分類器后的識別結果比較 %
為了準確分析算法的性能,減少外部環境的差異對實驗的影響,所有實驗均在CPU為Intel(R) Core(TM)2 Duo,2.2 GHz主頻,4Gbyte/s內存,Windows 7操作系統和MATLAB R2010b的環境下進行。
本文針對傳統表情識別方法的低識別率問題,首先提出平均灰度局部三值模式(MG-LTP)新算法,再與極限學習機(ELM)結合起來進行表情及微表情的分類識別。該方法充分利用了MG-LTP算法結合圖像局部紋理特征與圖像整體信息的特性,具有判別能力強、對噪聲不敏感的優點以及ELM識別精度高、參數調整簡單的優點。在JAFFE數據庫和CASME微表情數據庫上進行試驗,取得了較好的識別結果。如何更加實時地在動態視頻序列中進行微表情分類識別,是下一步研究的重點。
[1]EKMAN P.Telling lies:clues to deceit in the marketplace,politics,and marriage revised edition[M].New York:WW Norton & Company,2009.
[2]YAN W J,WANG S J,LIU Y J,et al.For micro-expression recognition: database and suggestions[J].Neurocomputing,2014(1):82-87.
[3]SHREVE M,BRIZZI J,FELILATYEV S,et al.Automatic expression spotting in videos[J].Image and Vision Computing,2014,32(8):476-486.
[4]PANG S,OZAWA S,KASABOV N.Incremental linear discriminant analysis for classification of data streams[J].IEEE Trans.Systems,Man,and Cybernetics,2005,35(5):905-914.
[5]OJALA T,PIETIKAINEN M,MAENPAA T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
[6]BARTLETT M S,MOVELLAN J R,SEJNOWSKI T J.Face recognition by independent component analysis[J].IEEE Trans.Neural Networks,2002,13(6):1450-1464.
[7]TAN X,TRIGGS B.Enhanced local texture feature sets for face recognition under difficult lighting conditions[J].IEEE Trans.Image Processing,2010,19(6):163-165.
[8]LIU Z,PAN Q,DEZERT J.A new belief-based K-nearest neighbor classification method[J].Pattern Recognition,2013,46(3):834-844.
[9]BARAKAT M,DRUAUX F,LEFEBVRE D,et al.Self adaptive growing neural network classifier for faults detection and diagnosis[J].Neurocomputing,2011(18):3865-3876.
[10]FUNG G M,MANGASARIAN O L.Multicategory proximal support vector machine classifiers[J].Machine Learning,2005,59(1):77-97.[11]HUANG G B,ZHU Q Y.Extreme learning machine:theory and applications[J].Neurocomputing,2006(1):489-501.
[12]MEHTA R,EGIAZARIAN K.Face recognition using scale-adaptive directional and textural features[J].Pattern Recognition,2014,47(5):1846-1858.
[13]CHEN H,PENG J,ZHOU Y.Extreme learning machine for ranking: generalization analysis and applications[J].Neural Networks,2014(53):119-126.
[14]HAN H G,WANG L D,QIAO J F.Hierarchical extreme learning machine for feedforward neural network[J].Neurocomputing,2014(128):128-135.
[15]YAN W J,WU Q,LIU Y J,et al.Casme database: a dataset of spontaneous micro-expressions collected from neutralized faces[C]//Proc.201310th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition(FG).[S.l.]:IEEE Press,2013:1-7.
唐紅梅(1968— ),女,副教授,碩士生導師,研究方向為數字圖像處理、模式識別;
石京力(1988— ),碩士生,研究方向為數字圖像處理;
郭迎春(1970— ),女,博士,副教授,研究方向為圖像處理、模式識別。
責任編輯:時 雯
Micro-expression Recognition Based on MG-LTP and ELM
TANG Hongmei,SHI Jingli,GUO Yingchun,HAN Liying,WANG Xia
(SchoolofInformationEngineering,HebeiUniversityofTechnology,Tianjin300401,China)
Feature extraction and expression classification are the key technologies of expression recognition.Considering of the low recognition rate of traditional methods,a new algorithm called mean gray local ternary patterns(MG-LTP) based on mean gray is firstly proposed in this paper,and MG-LTP is used to extract expression feature.Then,extreme learning machine(ELM) is used as a classifier for feature classification.Finally,the above two methods are combined for expression recognition,and further for facial micro-expression recognition.Experiments are completed on JAFFE database for expression recognition and CASME databases for facial micro-expression recognition.Compared with traditional methods,the method used in this paper achieves better results.
micro-expression;feature extraction;expression recognition;local ternary patterns;extreme learning machine
【本文獻信息】唐紅梅,石京力,郭迎春,等.基于MG-LTP與ELM的微表情識別[J].電視技術,2015,39(3).
TP391.4
A
10.16280/j.videoe.2015.03.031
2014-07-13