殷柯欣, 廖冰冰, 胡文楠, 包 芳
(長春工業大學 計算機科學與工程學院, 吉林 長春 130012)
人臉表情是人類表達自我、溝通交流的重要方式,通過表情可以讀出人類內心的真實想法。人臉表情識別(Facial Expressions Recognition,FER)技術將心理學、生理學、圖像處理與模式識別等研究領域進行交叉融合,在情感分析、心理學、醫學分析、軍事等領域成為研究熱點。人臉表情識別過程包括人臉表情圖像采集、圖像預處理、特征提取和表情分類四個基本步驟。
表情圖像采集作為FER第一步,對表情識別具有重要影響。在采集圖像過程中,環境影響是不可避免的。這些影響包括光照、姿態、低分辨率以及遮擋等。文中主要對遮擋表情圖像進行詳細總結。李小薪等[1]提出引起面部遮擋的因素可以分為:
1)極度光照不均勻造成的光線遮擋;
2)覆蓋人臉的實物遮擋;
3)自身姿態造成的自遮擋。
光線造成的面部遮擋可以從去除光線的角度處理,自身姿態造成的自遮擋主要由主觀意愿造成,文中重點針對實物遮擋的人臉表情圖像進行分析,介紹由實物造成面部遮擋圖像預處理方法。實物遮擋包括墨鏡、口罩、圍巾等造成的面部遮擋,以及周圍物體或他人身體造成的遮擋,如圖1所示。

(a) 墨鏡遮擋 (b) 口罩遮擋 (c) 手槍遮擋
文中主要從CNKI、CCF、IEEE、谷歌學術和百度學術等文獻數據庫查閱了近3年相關文獻。首先介紹了遮擋表情圖像的傳統處理方法,然后進一步將遮擋表情圖像處理算法分為基于面部重要區域、基于圖像重構和基于深度學習的處理三個角度介紹。數據集是表情識別研究中重要的一部分,文中對常用的人臉數據集進行了介紹與分析。最后總結了現階段遮擋表情圖像預處理存在的問題,并對其未來研究方向做出了分析。
傳統的人臉表情圖像預處理包括人臉檢測、人臉剪裁、圖像歸一化及特征定點[2],然而這些操作只針對理想的表情圖像有效,并不能解決由遮擋造成的表情圖像問題。李蕊[3]在傳統表情圖像預處理的基礎上,把預處理擴展為彩色圖像進行灰度化、灰度直方圖均衡化和尺度歸一化,再分塊提取Gabor特征和BM-SVM分類,并在JAFFE和RaFD表情庫上實驗,識別率達到80%以上。加權平均法對彩色圖像灰度化、人臉圖像灰度直方圖均衡化、表情圖像尺度歸一化分別如圖2~圖4所示。

圖2 加權平均法對彩色圖像灰度化

圖3 人臉圖像灰度直方圖均衡化

圖4 表情圖像尺度歸一化
灰度化、均衡化以及歸一化等預處理并不能直接解決遮擋造成的人臉表情圖像識別問題。對于遮擋表情圖像的噪聲問題,文獻[4]利用高斯濾波來除去歸一化后人臉圖像噪聲,采用差值中心對稱局部二值模式(Difference Center-Symmetric Local Direction Pattern)和差值局部方向模式(Difference Local Directional Pattern)提取特征,在JAFFE表情庫進行實驗,識別率達到85%以上。
對于人臉表情識別來說,人臉面部中每個部分并不像在人臉識別中那樣重要,僅使用重要的局部特征也可以實現表情圖像的正確識別。文獻[5]使用感興趣區域(Region of Interest, ROI)方案對表情圖像進行預處理,使得人臉表情識別的正確率提升了4%~5%,證明了局部面部區域對表情識別的有效性。Lian等[6]研究了局部面孔的表情識別,將人臉面部圖像分為鼻子、嘴巴、眼睛、鼻子到嘴巴、鼻子到眼睛、嘴到眼睛以及整個臉部7個區域,如圖5所示。

圖5 整個面部區域以及被分成的7個子區域
通過混淆矩陣(Confusion Matrix)和類別激活圖(Class activation Map)分析,發現嘴巴區域比其他區域包含更多情感信息,為遮擋圖像的表情識別明確了更需關注的領域。
基于區域劃分的三維面部表情識別算法很難將表情不變區域和表情易變區域準確劃分,桑高麗等[7]提出多區域劃分方法,將人臉區域劃分為多個可重疊的模板區域,利用投票機制確定最終匹配結果。在Bosphorus數據庫中遮擋人臉圖像的識別率達到了良好效果。
人臉表情圖像中的信息包括表情特征、身份特征和噪聲等,將它們作為獨立部分。董俊蘭等[8]提出一種基于非凸低秩分解雙字典誤差模型(Non-convex Low Rank Decomposition Double Dictionary Error Model)的遮擋表情識別方法。非凸對數函數低秩分解可將每類表情圖像的表情特征和身份特征分離,定義單個矩陣表示遮擋引起的誤差,該矩陣可以從未遮擋圖像特征矩陣中分離出來,測試樣本中減去誤差矩陣恢復情感分類階段的圖像,最后根據類別表情特征在聯合稀疏表示的貢獻量進行分類,這種方法對隨機遮擋表情圖像識別具有魯棒性。
常見的圖像重構算法有壓縮感知(Compressed Sensing, CS)、三維重構(3D Reconstruction)、主成分分析(Principal Component Analysis, PCA)等。CS可以大幅度降低圖像數據,通過對圖像整體進行重構提高圖像質量,但并不適于遮擋人臉表情圖像實現部分重構[9]。人臉圖像本身具有三維特性,構建三維模型來處理圖像問題具有一定有效性。文獻[10]使用凹凸貼圖對粗略估計的3D人臉模型進行分層,然后擴展到被遮擋的面部區域,生成合理的細節,該方法在查看狀態下可以產生詳細的3D面部形狀。


(1)
式中:Y----特征提取后降維的數據。
PCA在處理遮擋圖像時沒有對遮擋和非遮擋區域分開處理,導致重構圖像受遮擋區域的影響較大。李瑞靜[11]提出基于信息熵PCA的遮擋重構算法,定義了信息熵內積,

(2)
式中:u,v----特征向量;
w----估計圖像遮擋區域的信息熵,信息熵值越大,信息量越大,利用公式對遮擋圖像進行加權融合重構。
在JAFFE和CK庫的識別率較PCA算法更高。
魯棒主成分分析(Robust Principal Component Analysis, RPCA)是PCA的擴展,對異常值、數據丟失和觀測值嚴重損壞等問題具有更強的魯棒性。Ramìrez等[12]通過RPCA重建遮擋圖像,并開發了一個Weber本地描述符(WLD)遮擋魯棒的面部表情識別框架,通過實驗證明RPCA提高了遮擋面部表情的識別率。
另外,還有一些其他人臉圖像重構方法。文獻[13]針對頭戴式顯示器(Head Mounted Display)帶來的面部遮擋問題,介紹了一種僅使用RGB圖像的解決方法,利用面部界標點來估計用戶的臉部形狀、表情和姿勢,根據非遮擋區域信息恢復臉部紋理和當前場景照度;文獻[14]分析基于機器自動面部表情分析的應用,介紹了早期常用的處理遮擋方法,基于面部的視覺配置重構遮擋部分缺失的幾何或紋理特征。
深度學習算法憑著良好的泛化能力,被廣泛應用在各個領域,尤其是圖像處理的人臉識別和表情識別。處理遮擋圖像的常見模型有卷積神經網絡(Convolutional Neural Networks, CNN)、生成對抗網絡(Generative Adversarial Network, GAN)和原型網絡(Prototypical Networks, PN)。
Y Li等[15]提出一種基于注意力機制的卷積神經網絡(Convolution Neural Network with Attention mechanism, ACNN),它可以感知遮擋區域,將主要注意力集中于未遮擋區域。其具體原理是通過pACNN(path-based ACNN)在卷積層中裁出人臉感興趣區域,用PG-Unit學習其權值并判斷,同時利用gACNN(global-local-based ACNN)整合區域。文獻[16]創建了一個具有姿勢和遮擋屬性的人臉表情數據集,然后提出新型區域注意力(Region Attention Network, RAN),即由CNN產生的各區域特征聚合嵌入到固定長度表示,文獻[17]在此基礎上通過固定位置、隨機和基于人臉關鍵點,將原始人臉圖像裁剪成幾個區域,新區域再和原始人臉圖像一起輸入到神經網絡中進行特征提取,通過區域偏置損失函數(RB-Loss)確定人臉區域的注意力權值,達到良好的識別率。
Shi等[18]針對傳統CS在隨機采樣過程中容易忽略信號特性和改進CS算法計算復雜度高等問題,提出基于卷積神經網絡的CS框架(CSNet),該框架可以在圖像中自適應學習采樣矩陣,從而保留更多的圖像結構信息。
深度學習中生成對抗網絡是良好的圖像重構模型,具有良好的數據生成能力,其原理與“黑盒”相似,可以避免難題推斷等問題[19]。文獻[20]利用生成對抗網絡修補破損區域,圖像復原和判斷流程如圖6所示。

圖6 基于GAN的人臉圖像重構
遮擋圖像通過生成器生成復原圖像,復原圖像和遮擋圖像以及原始的完整圖像通過分類器和判別器。與普通CNN比,識別率高出2.99個百分點。
王海涌[21]提出一種改進的GAN模型,利用自動編碼器構成生成器和兩個鑒別器,對遮擋人臉表情圖像填充修復。實現隨機遮擋50%以下的人臉圖像達到84.56%的識別率,與PCA、稀疏表示方法(Sparse Representation)、CNN算法相比,該算法的識別率更高。但對遮擋面積超過50%的面部修復效果不佳,且對抗函數導致GAN的訓練過程較難控制。文獻[22]提出人臉局部遮擋圖像進行用戶無關表情識別的方法,利用Wassertein生成對抗網絡(Wasserstein Generative Advertise Net)補全人臉圖像,同時使用表情識別網絡在表情識別和身份識別之間建立對抗關系,取得用戶無關的表情特征并分類。
原型網絡是針對機器學習需要大量訓練樣本的缺陷提出來的,它只需要訓練集提供一個小樣本的支持集,深度原型網絡架構如圖7所示[23]。
文獻[24]指出在現實生活中遮擋圖像的數據遠少于完整的人臉圖像,提出基于原型網絡的識別方法,將遮擋人臉圖像的表情識別問題分為幾次學習問題,實現通過較少的訓練樣本從遮擋面部圖像中識別表情。
充分了解數據庫的特點,選擇合適數據庫,才能保證實驗的科學性和嚴謹性。由于人臉表情庫的數量很多,常用人臉數據庫及其基本特點見表1。

圖7 深度原型網絡架構

表1 常用人臉數據庫及其基本特點
人臉表情圖像預處理作為提高表情識別率的重要環節,關系到FER技術是否可以很好地用于日常生活中。遮擋表情圖像的傳統預處理方法只對圖像大小、顏色等進行處理,沒有對圖像內容進行深入研究,沒有從根本上解決遮擋給圖像造成的問題;基于重要區域的預處理介紹了圖像中影響表情識別較多的面部區域,遮擋表情圖像可以側重面部局部研究,還從三維圖像和圖像信息兩個角度分別對遮擋表情圖像劃分區域,一定程度上提高了遮擋圖像的表情識別率;基于圖像重構的預處理介紹了常用的圖像重構技術和用于遮擋表情圖像重構算法及其改進算法;基于深度學習的預處理以不同的網絡模型為基礎,從不同角度介紹了遮擋表情圖像的預處理,CNN通過改進其網絡結構、計算等對遮擋圖像處理,GAN及其改進算法通過圖像重構或者修復破損區域處理遮擋表情圖像,PN將其小樣本訓練的優勢用于研究。
目前,遮擋表情圖像的預處理在不同方向都有一定的研究成果,識別率都較傳統的處理算法更高。未來研究可從以下幾點進行:
1)遮擋圖像的人臉識別有了一定的研究[25],但表情識別相較于人臉識別更側重五官間的聯系變化和面部紋理特征等,所以可以在遮擋人臉圖像的基礎上進一步研究,從而應用于遮擋表情圖像。例如目前3D重構技術被廣泛用于人臉圖像重構,文獻[26]提出一種多視角的3D面部重構框架,其中利用紋理約束提高了3D面部形狀精確度,重構圖像具有一定的魯棒性。
2)語義環境是圖像處理中的重要部分,研究自然場景中遮擋人臉表情圖像同樣可以合理對圖像語義進行分析。文獻[27]從光譜分割的角度提出一種包含圖像紋理、顏色特征和神經網絡生成高級語義信息的圖形結構,該結構可以使圖像自動生成語義軟段,從而進行圖像編輯。X Zhan等[28]針對自然環境遮擋圖像的語義研究提出的部分補全網絡具有良好的借鑒意義。