高婷婷 李航 殷守林



摘 要:針對人臉表情識別領域受噪聲和遮擋等因素影響識別率不高的問題,結合局部和全局特征,提出一種基于面部表情的情感分析混合方法。首先,通過將梯度直方圖(HOG)與復合局部三元模式(C-LTP)融合來進行特征提取;其次,將HOG和C-LTP提取的特征融合到單個特征向量中;最后,采用多類支持向量機分類器把特征向量進行情感分類;最后,將提出的方法在3個公共表情圖像數據庫中與現有的表情識別方法進行對比實驗。結果表明,提出的方法在MMI,JAFFE,CK+數據庫上的正確識別率分別為98.28%,95.75%,99.64%,平均識別率比其他方法高出10%,優于其他現有的方法。提出的表情識別方法,可有效促進人機交互系統的發展和計算機圖像理解的研究,對實現人體語言與自然語言的融合,以及語言與表情連接模型的建立與實現具有重要意義。
關鍵詞:模式識別;人臉表情識別;特征融合;HOG;C-LTP;支持向量機
中圖分類號:TP957.52 文獻標識碼:A
doi:10.7535/hbkd.2021yx02004
A facial expression recognition method based on face texture feature fusion
GAO Tingting,LI Hang,YIN Shoulin
(Software College,Shenyang Normal University,Shenyang,Liaoning 110034,China)
Abstract:Aiming at facial expression recognition, the recognition rate is not high due to noise and occlusion. A hybrid approach of facial expression has been presented by combining local and global features. First, feature extraction is performed to fuse the histogram of oriented gradients (HOG) descriptor with the compounded local ternary pattern (C-LTP) descriptor. Second, features extracted by HOG and C-LTP are fused into a single feature vector. Third, the feature vector is sent to a multi-class support vector machine classifier for facial classification. Finally, the proposed method is compared with the existing facial expression recognition methods in three public facial expression image databases, and the results show that the recognition rates of the proposed method in MMI, JAFFE and CK+ databases are 98.28%, 95.75% and 99.64%, respectively. The average recognition rate is 10% higher than other methods, which is better than other existing methods. The results of this study provide a reference for the research of facial expression recognition in many situations. The method of facial expression recognition proposed can effectively promote the development of human-computer interaction system and the study of computer image understanding. It is of great significance to realize the fusion of human language and natural language, as well as the establishment and implementation of the connection model between language and expression.
Keywords:
pattern recognition; facial expression recognition; feature fusion; HOG; C-LTP; support vector machine
面部表情[1]是人際關系中非常重要的交流方式。人臉表情識別在測謊、行為分析、監視系統、運輸和機器人技術等多個研究和開發領域中具有多種應用[2-3]。隨著機器人的發展,表情識別將有助于在人與機器之間創建智能的視覺界面,從而促進人機交互(HCI)[4]。
此外,在許多現實工作中,例如,駕駛員疲勞檢測、教師情緒檢測等,都需要高效的人臉表情識別。目前,基于深度學習方法已被用于識別面部表情。李軍等[5]提出了一種融合多尺度卷積神經網絡和雙向長短期記憶的模型,不僅能夠增強特征信息間的聯系,還可通過不同尺度的卷積核提取到更加豐富的特征信息。張雯婧等[6]針對實際場景中人臉表情識別訓練和測試數據因來自不同場景從而導致識別性能顯著下降的問題,提出了一種基于稀疏子空間遷移學習的跨域人臉表情識別方法。蘇志明等[7]提出了一個基于多尺度雙線性池化神經網絡的模型,解決了由于人臉表情細微的類間差異和顯著的類內變化使得人臉表情識別困難,從而導致識別率低的問題。尹鵬博等[8]為了解決深度學習模型在人臉表情識別研究中存在數據集需求量大、硬件配置要求高等問題,提出了基于卷積注意力的輕量級人臉表情識別方法。但以上方法在特定表情識別情況下,存在識別效率較低的問題。
面部表情識別(FER)[9-10]在預處理步驟中,通過圖像增強技術消除噪聲,采用各種模糊效果和細節差分來提高輸入圖像的質量[11],然后在輸入圖像中檢測到臉部及其組成部分(眼睛、眉毛、臉頰、鼻子和嘴巴)。如Viola-Jones人臉檢測算法[12-13]。相對于其他最新技術,該算法在實時檢測面部及其組件方面提供了更高的準確性。考慮到各種資源(例如計算、存儲和傳輸資源)的可用性,將感興趣區域(ROI)裁剪并調整為指定的尺寸。
1 改進的表情識別方法
本文提出的改進方法具體是:選擇一個數據庫,然后將其劃分為訓練集和測試集。在訓練階段,經過人臉檢測后,臉部區域被裁剪成一個圖像,并通過采用圖像增強技術增強圖像的質量,如將SRCNN圖像重建來獲取高分辨率圖像。在特征提取的第一步,使用梯度直方圖(HOG)和混合局部三元模式(C-LTP)描述符從裁剪的圖像中提取特征到特征向量中,然后將提取的特征融合到單個特征向量中。對提取的特征向量根據其對應的表達式標簽進行標記,表示7個標準面部表情。標記的特征向量被反饋送到多分類器中,以有效地訓練基礎機器。總體框架如圖1所示。
1.1 圖像預處理
在預處理步驟中,對輸入圖像進一步處理以提高其質量。最初圖像包含噪聲或其他類型的模糊元素,可能會降低識別的精度。因此,為了消除噪聲數據并保留重要信息,將大小為3×3的中值濾波器應用于輸入圖像。用中值替換附近的每個像素,有助于消除椒鹽噪聲,但不會降低輸出圖像的清晰度。同樣,當使用低分辨率或低對比度圖像時,識別率也會降低。為此,采用直方圖均衡技術增強圖像對比度,并對光照效果進行歸一化處理。經濾波和直方圖均衡后,在圖像中檢測到人臉。人臉檢測后,將圖像裁剪并調整為128×128。基于多核圖像超分辨率方案人臉檢測、ROI的提取和調整,如圖2所示。
1.2 特征提取
提出的方法基于外觀和形狀信息2種類型的特征描述符,被用于從面部圖像中提取的主要特征,這些特征融合形成一維特征向量。
1.2.1 梯度直方圖(HOG)
HOG用來計算邊緣的方向和像素的可見性,即圖像的局部切片中有多少像素的邊緣沿特定方向通過。HOG是一種強大的特征提取技術,可提取描述基礎圖像ROI中每個像素的特征。
在梯度計算中,計算每個像素的居中水平和垂直梯度。在水平和垂直方向上應用一維中心離散導數掩膜最方便和有效的方法是
Dx=[-1 0 1],Dy=[-1 0 1]-1 。(1)
每個方向的卷積運算為
IFx=IFDx,IFy=IFDy。(2)
其中:式(1)顯示了用于計算x和y導數的掩碼;x和y導數通過等式中的卷積掩膜計算得出式(2);代表乘積;IF為包含ROI的預處理圖像;IFx和IFy是一個圖像的x和y的導數。HOG特征描述符由梯度幅值|M|和邊緣方向θ組成,大小和方向梯度分量計算為
M=IFx2+IFy2,(3)
θ=arctanIFyIFx。(4)
使用方向梯度的矩形直方圖(R-HOG)[14]提取人臉特征,R-HOG塊由正方形網格組成,由3個參數表示:每塊的單元數、單元的大小以及該塊中每個單元的直方圖中的單元數。
在實驗評估中不同大小的單元格(例如8×8,12×12和16×16),評估不同大小的塊(例如2×2)和具有不同單元的重疊塊的大小,如圖3所示。以單元大小16×16、塊大小2×2為例,通過實驗證明了具有50%重疊塊的準確性和有效性。
1.2.2 復合的本地三元模式
本地三進制模式(LTP)是本地二進制模式(LBP)的概括[15]。LTP功能比LBP更有效,因為LTP功能對噪聲魯棒性更出色。LTP直方圖的維數大,導致直方圖具有較大的尺寸。因此,為減少特征尺寸,將LTP代碼分為2個LBP:上(正)LBP和下(負)LBP,如圖4所示。
由于LTP將小的像素差異編碼為一個單獨的狀態更具彈性,因此,為解決噪聲問題,將LTP嵌入HOG以幫助提出的方法在更大程度上對噪聲具有魯棒性。最后,將提取的HOG和C-LTP特征向量融合到單個特征向量中,并為FER系統中的面部表情識別進行標記。
1.3 基于多分類器的表情分類
采用支持向量機作為面部表情分類和識別的分類器,首先將2個類別的訓練數據映射到一個較高維的空間,然后構造2類數據之間具有細邊界的最優分離超平面。在提出的方法中,采用one versus rest[16]策略。由于具有大量的訓練特征,因此在提出的方法中采用了具有線性核的支持向量機。SVM分類器的線性內核ψ可以描述為
ψF⌒HOG+C-LTPi,φi=1/1+eF⌒iHOG+C-LTPTLJ。(5)
給定標記的訓練樣本F⌒HOG+C-LTPi,Li,其中i = 1,2,3,...m;F⌒(HOG+C-LTP)i∈Rn+1 ;LJ∈。分類可以描述如下:
CF⌒(HOG+C-LTP)i=sign∑ni=1αiLJψF⌒(HOG+C-LTP)i,φi+b,(6)
其中:αi是對偶優化問題的Lagrange乘數;ψ是一個核函數;b是超平面的偏差。
2 實驗與結果
本次實驗使用了3個數據庫,每個數據庫都隨機分為訓練集和測試集。通過改變訓練數量進行實驗并測試圖像。所提方法中用于所有仿真的平臺是在具有2.70 GHz CPU速度、4.00 GB RAM和Windows 10 64位版本操作系統的PC。
2.1 JAFFE表情數據庫
該數據庫[17]由10位日本女性的213張圖像組成,所有213張圖像均已用于實驗中。JAFFE數據庫的一些樣本圖像如圖5 a)所示。
2.2 CK+數據庫
CK數據庫[18]包含來自123個對象的姿勢和非姿勢表情。圖5 b)說明了來自CK+數據庫的一些樣本圖像。實驗使用了不同數量的圖像。這項研究總共使用了CK+數據庫中的630張圖像(7個表達式中的每個包含90張圖像)。
2.3 MMI數據庫
MMI[19]數據庫包含20多名男女受試者(44%為女性)。他們的年齡從19歲到62歲不等,來自不同的國家(歐洲、亞洲、南美洲等)。從不同的視頻中總共提取273幀圖像。圖5 c)顯示了來自MMI數據庫的一些示例圖像。
2.4 實驗驗證
如表1所示,在第1階段,使用了3個數據庫中的少部分圖像作為訓練集,并使用其余圖像進行測試。
在第2階段,使用了大部分的圖像用于培訓,其余圖像用于測試。在第3階段,采用10倍交叉驗證,根據變化的表達式將數據庫隨機分為10個相等的段。每次訓練10個細分中的9個,剩下10%的圖像用于測試。結果顯示,提出的方法以高識別率成功地識別出面部表情。
2.5 噪聲魯棒性
在實際環境中,噪聲是降低圖像質量的主要因素,導致各種計算機視覺和模式識別的性能不佳。為此將不同級別的椒鹽噪聲隨機添加到大小為128×128的測試圖像中。圖6顯示了在不同噪聲水平下的示例圖像。在3個數據庫中評估了提出的方法的魯棒性,提出的方法對椒鹽噪聲具有較強的魯棒性,如表2所示。在改變噪聲密度的同時,識別率會發生不同的變化。隨著噪聲密度的增加,識別率降低,可以看出,噪聲密度(P)為0.01時,與CK+相比噪聲削弱了JAFFE和MMI數據庫的識別率。隨著噪聲密度增加到0.02,所有數據庫的識別率逐漸降低,但與MMI和CK+相比,JAFFE數據庫的識別率在某種程度上更好。當噪聲密度增加時,與JAFFE和MMI相比,CK+的下降速度更為嚴重。
2.6 遮擋魯棒性
遮擋的存在也會影響圖像質量并降低面部表情識別系統的性能。將隨機大小的塊添加到測試圖像中以檢查遮擋的魯棒性。塊大小從15×15到55×55。這些塊隨機添加到面部圖像上,如圖7所示。最終的平均識別率如表3所示。與JAFFE相比,CK+和MMI數據庫的識別精度都非常出色。當添加15×15和25×25的塊大小時,CK+和MMI的識別率幾乎相同,分別為99.2%和96.1%以及99.1%和95.9%;對于15×15和25×25的塊大小,JAFFE的識別率幾乎相等。與JAFFE和MMI相比,對于上述塊大小,提出的CK+數據庫系統的整體準確性非常合理,再次顯示了提出的方法具有較好的識別準確性。
2.7 與其他方法的比較
將提出的方法與現有的面部表情識別算法的結果準確性進行比較。選擇這些方法是因為在相同的數據庫上使用類似的測試策略產生了最優的性能。可以看出,所提出的方法優于使用表1中所示的相同數據庫的其他現有方法。所提出方法的正確識別率在MMI數據庫上為98.28%,在JAFFE上為95.75%,在CK+數據庫上為99.64%。表4顯示了使用相同的JAFFE,MMI和CK+數據庫的提出方法與現有方法之間的性能比較,提出方法在3個數據庫都具有較高的識別效果。
提出的方法得到了較為理想的表情識別結果,因為提出的方法同時考慮了局部和全局描述符,以及從包含人臉的圖像中提取特征。為此將方向梯度直方圖(HOG)描述符與復合局部三元模式(C-LTP)結合使用,以將特征提取到單個特征向量中。使用HOG和C-LTP從整個裁剪的面孔中提取特征,描述了基礎面孔的外觀、形狀和紋理變化,是因為在面部表情分析中,即使臉部的一小部分也可以在表情識別中發揮重要作用。因此,僅從面部單個組成部分提取特征會導致面部表情所涉及的大量信息的丟失。提出的方法的主要貢獻是形狀、外觀分別通過HOG和C-LTP提取其紋理變化,再對其進行特征集成。還可以將局部和全局特征感知為單個實體,從而彌補了局部和全局特征的弱點,同時改善了特征向量的生成。最后將提取的特征向量反饋送到SVM進行分類。考慮到人臉的異質性和表情的多樣性,采用了多類支持向量機以生成更準確的FER算法。
本文提出的FER方法的主要優勢如下:
1)提出了一種全自動面部表情識別方法,該方法對各種實際環境元素(例如噪聲、光照變化以及部分重疊或遮擋)均具有魯棒性。
2)提出采用HOG與C-LTP結合方式提取更魯棒的特征,可以從人臉中提取出重要特征,從而提高人臉表情識別的準確性。
3)HOG和C-LTP的組合可將局部和全局特征感知為單個實體,從而彌補了局部和全局特征的弱點,同時改善了更具魯棒性的特征向量的生成。
3 結 語
本文提出了一種基于面部情感識別的情感知識方法,提取具有C-LTP的定向梯度直方圖描述符,以對人臉情緒進行穩定分類。實驗結果表明:與其他方法相比,所提出的方法具有最高的識別精度;還證實了所提出的FER方法能夠在各種挑戰下識別面部表情,例如遮擋物或噪音的存在。盡管噪聲會嚴重影響識別精度,但該方法仍具有較好的性能。
本文所提方法僅針對靜態圖像的識別精度有所提高,如果存在具有復雜背景及干擾物與目標極為相似的圖像,識別效果不太理想,今后將研究更為先進的基于深度學習的方法以及從視頻中的靜態圖像擴展到動態識別中識別面部表情,從而為與面部情感分析有關的各種以視頻為中心的問題的解決提供參考。
參考文獻/References:
CORNEANU C A,MARC O S,COHN J F,et al.Survey on RGB,3D,thermal,and multimodal approaches for facial expression recognition:history,trends,and affect-related applications[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2016,38(8):1548-1568.
楊曉龍,閆河,張楊.人臉表情識別綜述[J].數字技術與應用,2018,36(2):223-224.
YANG Xiaolong,YAN He,ZHANG Yang.Overview of facial expression recognition[J].Digital Technology and application,2018,36(2):223-224.
付喜梅,莊思發.人臉表情識別的概述[J].電腦知識與技術,2018,14(23):211-214.
FU Ximei,ZHUANG Sifa.Overview of facial expression recognition[J].Computer Knowledge and Technology,2018,14(23):211-214.
朱亞忱.基于特權信息的情感識別[D].合肥:中國科學技術大學,2015.
ZHU Yacheng.Emotion Recognition Based on Privileged Information[D].Hefei:University of Science and Technology of China,2015.
李軍,李明.融合Multi-scale CNN和Bi-LSTM的人臉表情識別研究[J].北京聯合大學學報,2021,35(1):35-39.
LI Jun,LI Ming.Research on facial expression recognition based on the combination of multi-scale CNN and Bi-LSTM[J].Journal of Beijing Union University,2021,35(1):35-39.
張雯婧,宋鵬,陳棟梁等.基于稀疏子空間遷移學習的跨域人臉表情識別[J].數據采集與處理,2021,36(1):113-121.
ZHANG Wenjing,SONG Peng,CHEN Dongliang,et al.Cross-domain facial expression recognition based on sparse subspace transfer learning[J].Journal of Data Acquisition and Processing,2021,36(1):113-121.
蘇志明,王烈,藍崢杰.基于多尺度分層雙線性池化網絡的細粒度表情識別[J/OL].計算機工程.[2021-02-22].doi:10.19678/j.issn.1000-3428.0060133.
SU Zhiming,WANG Lie,LAN Zhengjie.Fine-grained expression recognition based on multi-scale hierarchical bilinear pooling network[J/OL].Computer Engineering..doi:10.19678/j.issn.1000-3428.0060133.
尹鵬博,潘偉民,張海軍.基于卷積注意力的輕量級人臉表情識別方法[J/OL].激光與光電子學進展.[2021-01-09].http://kns.cnki.net/kcms/detail/31.1690.TN.20210107.1716.008.html.
YIN Pengbo,PAN Weimin,ZHANG Haijun.Lightweight facial expression recognition method based on convolutional attention[J/OL].Laser & Optoelectronics Progress.[ 2021-01-09].http://kns.cnki.net/kcms/detail/31.1690.TN.20210107.1716.008.html.
黨宏社,王淼,張選德.基于深度學習的面部表情識別方法綜述[J].科學技術與工程,2020,20(24):9724-9732.
DANG Hongshe,WANG Miao,ZHANG Xuande.A review of facial expression recognition methods based on deep learning[J].Science,Technology and Engineering,2020,20(24):9724-9732.
KUMAR P,HAPPY S L,ROUTRAY A.A real-time robust facial expression recognition system using HOG features[C]//International Conference on Computing.[S.l.]:IEEE,2017.doi:10.1109/CAST.2016.7914982.
譚小慧,李昭偉,樊亞春.基于多尺度細節增強的面部表情識別方法[J].電子與信息學報2019,41(11):2752-2759.
TAN Xiaohui,LI Zhaowei,FAN Yachun.Facial expression recognition method based on multi-scale detail Enhancement[J].Journal of Electronics and Information,2019,41(11):2752-2759.
戴鑫.移動平臺上的實時人臉特征點定位算法研究 [J].信息記錄材料,2019,20(12):164-165.
DAI Xin.Research on real-time facial feature point location algorithm on mobile platform[J].Information Recording Materials,2019,20(12):164-165.
ZHANG Y,JI Q.Active and dynamic information fusion for facial expression understanding from image sequences[J].IEEE Trans Pattern Anal Mach Intell,2005,27(5):699-714.
RASHA O M,MAZEN M S,OMAR A M.Fusion time reduction of a feature level based multimodal biometric authentication system[J].International Journal of Sociotechnology and Knowledge Development,2020,12(1):67-83.
WIESLAW C,KATARZYNA S.Using the one-versus-rest strategy with samples balancing to improve pairwise coupling classification[J].International Journal of Applied Mathematics and Computer Science,2016,26(1):191-201.
李艷秋,顏普,高翠云,等.基于表情特征描述與稀疏加權決策的情感識別[J].安徽建筑大學學報,2019,27(4):78-82.
LI Yanqiu,YAN Pu,GAO Cuiyun,et al.Emotion recognition based on expression feature description and sparse weighted decision[J].Journal of Anhui Jianzhu University,2019,27(4):78-82.
付俊妮.基于局部先驗約束的極低分辨率面部表情識別[J].電子設計工程,2019,27(9):123-126.
FU Junni.Very low resolution facial expression recognition based on local prior constraints[J].Electronic Design Engineering,2019,27(9):123-126.
夏添.基于深度學習的表情識別算法研究[D].南京:東南大學,2019.
XIA Tian.Study on Facial Expression Recognition Algorithm Based on Deep Learning[D].Nanjing:Southeast University,2019.
鐘偉,黃元亮.基于特征融合與決策樹技術的表情識別方法[J].計算機工程與科學,2017,39(2):393-398.
ZHONG Wei,HUANG Yuanliang.Facial expression recognition method based on feature fusion and decision tree technology[J].Computer Engineering and Science,2017,39(2):393-398.
鐘志鵬,張立保.基于多核學習特征融合的人臉表情識別[J].計算機應用,2015,35(sup2):245-249.
ZHONG Zhipeng,ZHANG Libao.Facial expression recognition based on multi-core learning feature fusion[J].Computer Application,2015,35(sup2):245-249.
鄒元彬,樂思琦,廖清霖等.基于LBP和LPQ的面部表情識別[J].信息技術與信息化,2020(9):199-205.
ZOU Yuanbin,LE Siqi,LIAO Qinglin,et al.Facial expression recognition based on LBP and LPQ[J].Information Technology and Informatization,2020(9):199-205.
SHAN C,GONG S,MCOWAN P W.Facial expression recognition based on local binary patterns:A comprehensive study[J].Image & Vision Computing,2009,27(6):803-816.
文元美,歐陽文,凌永權.一種面向表情識別的ROI區域二級投票機制[J].計算機應用研究,2019,36(9):2861-2865.
WEN Yuanmei,OUYANG Wen,LING Yongquan.A second-level voting mechanism in ROI region for facial expression recognition[J].Computer Application Research,2019,36(9):2861-2865.