徐 峰 張軍平
人臉微表情識別綜述
徐 峰1,2張軍平1,2
人臉表情是人際交往的重要渠道,識別人臉表情可促進對人心理狀態和情感的理解.不同于常規的人臉表情,微表情是一種特殊的面部微小動作,可以作為判斷人主觀情緒的重要依據,在公共安防和心理治療領域有廣泛的應用價值.由于微表情具有動作幅度小、持續時間短的特點,對微表情的人工識別需要專業的培訓,且識別正確率較低.近年來不少研究人員開始利用計算機視覺技術自動識別微表情,極大地提高了微表情的應用可行性.本文綜述人臉微表情識別的定義和研究現狀,總結微表情識別中的一些關鍵技術,探討潛在的問題和可能的研究方向.
微表情識別,表情識別,情緒識別,計算機視覺,面部動作編碼系統
表情是人類情緒的直觀反應,表情識別一直是計算機視覺的重要研究課題之一.在過去幾十年中,研究人員已經在各類表情識別問題中取得了重要的成果[1?6].
近年來,針對自發式的表情(Spontaneous expression)的識別逐漸成為新的研究熱點[7?8].與普通表情不同,自發式的表情無法偽造和抑制,可以反映人的真實情緒.
微表情(Microexpression)是一種自發式的表情,在人試圖掩蓋內在情緒時產生,既無法偽造也無法抑制[9].與表情研究相比,微表情發現的歷史較短.1966年Haggard等第一次提出了微表情的概念[10],此后Ekman等報道了關于微表情的案例[11].在一段心理醫生與抑郁癥病人的對話中[11],經常微笑的病人偶爾有幾幀非常痛苦的表情.研究人員將這種人在經歷強烈情緒時產生的快速、無意識的自發式面部動作稱為微表情.
微表情在情緒識別任務上的可靠度很高,對表情情感識別任務有潛在的利用價值,如婚姻關系預測[12]、交流談判[13]、教學評估[14?15]等.除了用于情感分析,研究人員觀察到了有意說謊時產生的微表情[16],經過微表情識別訓練,普通人識別說謊的能力得到提高[17].
微表情的持續時間非常短,研究表明微表情僅持續1/25s~1/3s[18],且動作幅度非常小,不會同時在上半臉和下半臉出現[16,18],因此正確觀測并且識別有著相當的難度.
盡管已有了專業的培訓工具[19],但依靠人力識別的準確率并不高,已知的文獻報道中只有47%[20].另外,依靠人力識別受限于專業培訓和時間成本,難以進行大規模推廣.因此,近年來依賴計算機實現人臉微表情自動識別的需求越來越高.
利用計算機識別微表情具有獨特的優勢.1)無論多迅速的運動,只要客觀上被攝像機捕捉,計算機就能獲取相應的信息并進行處理,因此研究人員引入高速攝像機用于微表情的捕捉.2)只要能訓練出高效、穩定的模型,計算機就能夠以低廉的成本處理大規模的微表情識別任務,這顯然超過專業人員人工識別微表情的效率.
然而面部產生微表情的同時也存在無關的變化,正確分離無用信息,提取微表情相關的重要信息,是用計算機有效識別微表情的關鍵所在.
目前的研究可以分為兩類研究方向,一種是通過構建計算機視覺特征,尋找高效的表達形式描述微表情并進行模型學習;另一種是針對微表情本身的特點,尋找合適的學習算法進行模型的構建.
這兩種研究方式并不是互斥的,一個現實的微表情識別系統往往需要兩部分協同工作才能有效地完成識別任務.而一些機器學習的技術也被應用到求解特征表達的過程之中.目前這兩類工作都在現有數據集上取得了一定效果.
當前國內關于微表情方面的研究綜述主要集中在心理學方面,例如中國科學院的吳奇等的工作綜述了微表情的潛在應用[21].關于微表情自動識別的綜述僅有山東大學的賁晛燁等較早期的工作[22],將微表情識別方法分為應變模式法和利用機器學習的方法,前者計算面部皮膚的應變響應模式并確定閾值作為識別的依據,后者使用特征提取與模式分類的框架進行識別.
近年來涌現了大量針對微表情中不同細分問題的新研究,已經超出了以往的分類范疇.與賁晛燁等的綜述[22]相比,本文側重按微表情識別中的不同問題進行分類,介紹近年來大量新的研究工作.本文組織結構如下:第1節給出微表情識別的具體問題定義;第2節介紹微表情的數據集;第3節從不同的問題定義出發介紹當前微表情識別的方法;第4節和第5節討論微表情識別潛在的問題及未來值得研究的方向.

圖1 微表情識別中的具體任務Fig.1 Speci fi c tasks in microexpression recognition
微表情識別是一個較為寬泛的問題,實際包含了多個具體的目標.
對于一段給定的面部圖像序列,首先要鑒別其中是否包含微表情.這包括兩種場景,一種是將微表情從無表情(即肌肉不運動時靜止的面部狀態)的序列中區分出來;另一種是區別微表情和普通的表情.這兩者都稱為微表情的檢測任務.
與普通表情一樣,微表情蘊含了人類的情緒.鑒別微表情包含的情緒是最常見的任務.在一段已知是微表情的人臉序列中,識別其中表達的情緒,稱為微表情的分類任務.
通常所說的微表情識別包含了上述兩類任務.其基于的應用場景假設是,從一段人臉圖像序列中檢測微表情的片段,再對檢測出的微表情的情緒進行分類.
除了上述兩種任務,微表情識別還有更加精細的劃分.與普通表情相似,微表情也可以分為兩段,并以三個時間點分割.起始點(Onset)是指微表情出現的瞬間;頂點(Apex)是指微表情幅度最大的瞬間;終止點(O ff set)是指微表情消失的瞬間.階段劃分就是從一段人臉圖像序列中檢測微表情并對三個特殊的時間點進行標定.
面部動作編碼系統(Facial action coding system,FACS)是一種表情識別領域常用的編碼標準,包含一組預先定義的編碼表,每個編碼稱為一個動作單元(Action unit,AU).每個動作單元表示一個特定的面部局部動作,例如動作單元2表示眉毛外端上揚(Outer brow raiser),動作單元3表示眉毛下垂(Brow lowerer)等.微表情可以用FACS進行編碼,即對微表情進行動作單元識別.
圖1展示了微表情識別的兩類通用框架.在圖1(a)中,算法只需要考慮已經分割好的面部圖像序列,檢測其中屬于微表情的序列,并對微表情序列進一步分類或者識別其中的動作單元;在圖1(b)中,算法在長視頻里檢測尋找微表情并進行階段劃分,標定起始點、頂點、終止點,這也可以看作是檢測問題的一種拓展.
微表情數據采集困難,且非專業人員很難鑒定微表情.因此微表情數據集的采集和選擇非常重要.目前已知的微表情數據集有:芬蘭Oulu大學的SMIC(Spontaneous microexpression corpus)[23]和SMIC 2[24]、中國科學院的CASME(Chinese Academy of Sciences microexpression)[25]和CASME II[26]、美國南佛羅里達大學的USF-HD[27]和日本筑波大學的 Polikovsky dataset[28]. 其中SMIC 2包含三個子集HS、VIS和NIR,其區別是拍攝設備不同,分別是高速攝像機、普通相機和近紅外攝像機.
由于微表情的特殊性,一個數據集有3項值得注意的要素,分別是幀率、誘導方式和標注方式.
2.1 幀率
微表情的持續時間通常只有1/25s~1/3s,而普通攝像機的幀率是25幀/秒,因此有可能僅捕捉到非常少的幾幀圖像,難以進一步處理.為此,一些數據集引入高速攝像機拍攝微表情.例如SMIC使用100幀/秒的攝像機,CASME使用60幀/秒的攝像機,捕捉更多的面部圖像.現有文獻中幀率最高的是Polikovsky等使用的數據集[28]和CASME II[26],兩者都采用200幀/秒的高速攝像機.但幀率并不是越高越好,過高的幀率會導致快門進光量減少,降低圖像質量.
也有一些例外,如SMIC 2/VIS、SMIC 2/NIR和USF-HD,這些數據集是用來衡量算法在普通幀率下識別微表情的性能的.
2.2 誘導方式
微表情有特定的發生場景,是人在試圖掩蓋自己情緒時產生的微小面部動作.嚴格地說,人主觀模擬的微小表情不能稱為微表情.因此誘導方法決定了微表情數據集的可靠程度.
在SMIC中[23],被試者被要求觀看能夠引起情緒波動的視頻,并盡力不流露出內在情緒;而記錄者則被要求在不觀看視頻的情況下猜測被試者的情緒.為了激勵被試者盡力抑制表情,如果被試者的情緒被記錄者發現,則被試者需要填一份冗長的問卷作為懲罰.這樣的機制能夠確保微表情的可靠性.
CASME[25]采用了類似的機制確保數據集的可靠性.同樣以觀看視頻誘發被試者的情緒,如果被試者成功抑制了自己的情緒沒有被記錄者發現,可以獲得一份現金獎勵.
在另外一些數據集中,沒有類似的機制來保證數據的可靠性,只是要求被試者觀看微表情的視頻圖像資料,并試圖模仿微表情,因此可能并不能稱為嚴格意義上的微表情.
專家表示,5~6歲的兒童適宜在晚8點入睡,8歲的兒童適宜在晚9點入睡,11~12歲的少年適合在晚10點入睡。另外,除了入睡覺時間要固定之外,起床的時間也應該形成規律。
2.3 標注方式
根據問題定義的不同,微表情數據集的標注方法各有不同.在多數數據集中,微表情識別通常被拆分成兩項子任務,即檢測與分類.給定一段圖像序列,檢測旨在鑒定該序列是否包含微表情;分類是在該序列是微表情的假定下,對微表情進行進一步的情緒分類.
在進一步的分析中,與普通表情類似,微表情可以用情緒和FACS[29]兩種方法進行標記.微表情對應的情緒可以根據粒度的大小分為不同的類別,例如積極情緒和消極情緒,或愉快、驚訝、厭惡、恐懼和悲傷等.
SMIC和SMIC2都使用了情緒分類進行標注. CASME和CASME II對每個表情既標注了情緒,也標注了FACS編碼.
表1總結了上述微表情數據集.圖2展示了一些微表情的示例.

表1 現有微表情數據集Table 1 Existing datasets of microexpressions

圖2 微表數據集示例Fig.2 Examples of microexpression datasets
在過去幾年中,涌現了不少微表情識別的研究工作.大多數工作同時研究微表情的檢測與分類兩個問題,也有一些工作針對特點問題,例如特定情緒的微表情的檢測、微表情不同階段的劃分等.本節根據不同的問題定義,介紹現有的微表情識別方法.
3.1 通用的微表情檢測與分類方法
3.1.1 基于LBP-TOP的識別方法
Pfister等的工作[23]是最早的自動識別微表情的嘗試之一.該方法極具代表性,為之后的微表情識別工作提供了可靠的驗證平臺和對比標桿.
該方法首先使用一個68點的主觀形狀模型(Active shape model,ASM)[30]定位人臉的關鍵點.以得到的關鍵點為基礎,使用局部加權平均算法(Local weighted mean,LWM)[31]計算每個序列第一幀中面部圖像與模型面部圖像的形變關系,并將該形變作用于對應序列的每一幀圖像.這在一定程度上消除了不同人臉、不同序列在無表情狀態下的差異.
由于輸入圖像序列的幀數量一般是不同的,因此需要統一對齊到相同幀數上. 這項工作中使用時域插值模型(Temporal interpolation model, TIM)[32]進行該插幀任務.將每幀圖像視作高維空間中的一個點,而圖像通常是高度冗余的數據,因此存在一個對應的低維流形映射.這種插值算法把圖像序列映射到低維流形上并進行插值,再重新映射到原空間,就得到了插值后的視頻.
對于上述得到的相同幀數的對齊后的人臉圖像序列,需要提取其進一步的特征.這項工作中使用了局部二值模式(Local binary pattern,LBP)[33]的一種拓展方法.
局部二值模式試圖編碼圖像中局部像素的共生(Co-occurrence)模式.以最簡單的局部二值模式為例,考慮一個像素與周圍8個相鄰像素的大小關系,周圍像素值比中心像素值大或者相等的記1http://www.cse.oulu. fi/CMV/Downloads/LBPMatlab,周圍比中心小的記0,連接后得到一個二進制數用于表征局部像素共生模式.圖3展示了一個3×3的圖像塊,圖4展示了該圖像塊上的局部二值模式的計算.將相鄰像素值減去中心像素值,對得到的差值進一步處理,將≥0的差值記1,<0的差值記0,得到8位二進制數(00111010)2.

圖3 一個3×3的圖像塊及其對應的像素值Fig.3 A 3×3 image patch and the corresponding pixel values

圖4 局部二值模式計算過程Fig.4 Calculation process of local binary pattern
更一般地,LBP算子可以定制兩個參數,以一個像素為中心,作半徑為R的圓,在圓周上均勻采P個點,計算每個點所在位置的像素與中心像素的關系,即得到一個P位二進制數.
在微表情的識別中,為了編碼時空的共生模式,該工作使用了LBP-TOP(Local binary pattern on three orthogonal plane)算子[34],對視頻XY平面、XT平面、Y T平面分別抽取LBP特征.具體地,設定三個時空軸(X,Y,T)上的半徑RX,RY,RT和三個時空平面上的采樣數量PXY,PXT,PYT,在每個時空平面上作對應半徑決定的橢圓,并均勻采點,計算該平面上的局部二值模式,最后拼接得到最終的特征表達.圖5展示了一個LBP-TOP特征抽取的例子,其中,RX=RY=3,RT=1,PXY= 20,PXT=PYT=8.陰影部分是參與計算的像素.

圖5 LBP-TOP示例[34]Fig.5 Illustration of LBP-TOP[34]
最后,在LBP-TOP特征的基礎上使用支持向量機(Support vector machine,SVM)、隨機森林(Random forest,RF)和多核學習(Multiple kernel learning,MKL)等算法進行檢測和分類.
該工作的算法設計較簡單,利用了常規表情分析中的很多技術,作為微表情識別的初期嘗試,獲得了不錯的效果.一個重要的優點在于預處理十分精細,為適應微表情這一特征領域做了嘗試,也為后來的工作奠定了基礎和比較的參考.這種方法各組成部分的代碼都是公開的1.
3.1.2 基于STCLQP的識別方法
完備局部量化模式 (Completed local quantized pattern,CLQP)[35]是LBP的一項改進工作.與LBP只編碼局部像素的灰度值大小關系不同,完備局部量化模式將中心像素與周圍像素的局部共生模式分解成符號正負和幅值大小,并加入中心像素的梯度信息,分別用二進制數進行編碼.在構建統計直方圖的階段,為了降低特征的維度,完備局部量化模式并不統計所有可能的二進制編碼,而是考慮最常出現的二進制模式,引入了向量量化的技術,可以指定量化過程中的中心數量(編碼本中詞的數量),得到指定維度的直方圖作為特征.STCLQP (Spatial temporal completed local quantized pattern)[36]是CLQP在三維時空的擴展,計算方式與LBP-TOP類似,即在XY平面、XT平面和Y T平面分別抽取CLQP特征,并進行拼接,作為STCLQP特征.
將STCLQP用于微表情識別的優點在于考慮更多信息,但這不可避免地引入了高維度,使用向量量化的技術一定程度上可以緩解這一問題.
3.1.3 基于LBP-SIP的識別方法
與基于LBP-TOP改進的微表情識別工作不同,六交點局部二值模式(Local binary pattern with six intersection points,LBP-SIP)[37]從另一個角度拓展了LBP特征用于微表情識別.考慮LBP-TOP的一種特例,即R=1,P=4,此時LBP-TOP計算三個平面上各4個像素與中心像素的關系,需要用12位的二進制數表示.針對于此,LBP-SIP將中心點同平面上的四個點用作空間紋理描述,前后兩幀的中心點用作時間紋理的描述.這樣僅需要4+ 2=6位二進制數進行描述.圖6展示了LBP-SIP的計算示例,其中陰影部分是參與計算的像素.

圖6 LBP-SIP示例Fig.6 Illustration of LBP-SIP
這項工作的主要改進就是降低了特征的維度,提高了特征抽取的效率.據報道,其處理速度是LBP-TOP的2.8倍[37].在留一人驗證的實驗設置下,LBP-SIP在5類CASME II數據集和SMIC數據集上的最高分類準確率分別為 66.40% 和64.02%;在CPU為Core i7、內存為8GB的實驗環境下,CASME II中序列的LBP-TOP平均抽取時間是18.289s,LBP-SIP抽取時間為15.888s.前者的識別時間為0.584s,后者為0.208s.
3.1.4 基于Delaunay時域編碼的識別方法
Lu等[38]提出了基于 Delaunay三角化的時域編碼模型(Delaunay-based temporal coding model,DTCM).利用主觀表觀模型(Active appearance model,AAM)[39]對人臉圖像序列進行標定.由于微表情自身的變動幅度很小,僅用關鍵點不能很好地描述表情變化,因此利用特征點將序列圖像歸一化,得到特征點位置固定的人臉圖像序列. Delaunay三角化[40]可以根據給定的特征點,把人臉分割為一系列三角形區域.因為特征點已經過歸一化,因此每個三角區域的大小和形狀是相同的,具有相同的像素數量.通過對比相同區域隨著時間的變化,可以刻畫微表情的動態過程.具體地,對第i幀的第j個三角區域,計算如下特征:

若以Ti,j表示序列中第i幀的第j個三角區域的特征向量,Ti,j,k是該向量的第k個像素,m用于歸一化計算.xi,j計算每個相同三角區域在相鄰幀中特征向量之差的累加值.顯然,正值的xi,j表示連續幀相同區域灰度增強,負值表示灰度減弱,這可能是表情變化或整體照明的變化引起的.因此,為了進一步編碼該特征,需要選定合理的閾值:

這種方法引入了主觀表觀模型(AAM)和Delaunay三角化對人臉進行區域的劃分,只編碼含有重要信息的區域,理論上識別能力很強.但是在所有圖像上使用AAM進行標注可能面臨標注結果不穩定的問題,從而破壞后續處理的有效性.
3.1.5 基于時空梯度特征的識別方法
Polikovsky等[28]使用一種梯度特征描述面部的時空局部動態.1)使用主觀形狀模型定位人臉關鍵點,根據常用FACS編碼把人臉分割為12個區域;2)對每個區域的圖像進行一些預處理,包括歸一化和平滑處理.上述過程得到預處理完畢的12個時空塊,每個塊對應一個面部局部區域.
在一個微表情序列中,可以在每個像素點計算三個方向(X,Y,T)上的梯度.計算12個區域的每一幀中所有像素的梯度并量化,就能構建該區域中的梯度直方圖,并作為該微表情圖像序列的特征.
在獲得該特征后,假定每一幀微表情圖像只包含一個動作單元(Action unit,AU),即FACS的具體編碼,則該動作單元就可以作為圖像的標注.在所有圖像的梯度直方圖特征空間上使用k–均值算法進行聚類,類別數量設置為所有圖像中出現過的動作單元的數量.對每一個聚類簇,將多數特征對應的動作單元作為類簇的真實標注.
對一個新的需要測試的微表情圖像序列,依照上述方式提取每幀的梯度直方圖特征,用上述類簇判定每一幀的動作單元,再使用加權投票的方式決定該微表情序列的動作單元和對應情緒.
該工作的特征比較簡單,是平面梯度直方圖的一種拓展.模型構建過程采用了較為復雜的過程,可以看作一種用k–均值算法輔助構造的k近鄰模型,該算法一定程度上對標注的正確性比較魯棒,對少量的錯誤標注不敏感.同時也存在局限,雖然微表情牽涉的面部肌肉數量較少,但假設只有一個動作單元仍有可能不成立.此時模型的識別結果是次優的.
3.1.6 基于Gabor特征的識別方法
Wu等[41]通過Gabor特征描述每一幀的面部圖像,并用GentleSVM識別微表情.首先在視頻的每一幀中抽取Gabor特征:

對于一段新的視頻,用上述訓練得到的模型判定每一幀的情緒,計算最長的連續具有相同情緒的幀序列.通過視頻的幀率可以計算每一段情緒的持續時間,根據微表情的定義,持續時間在1/25~1/5s之間的是微表情片段,長于1/5s的是常規表情.丟棄常規表情后對微表情進行進一步的分類.
這一方法的優點在于自動完成了圖像序列的分割,相比使用滑動窗口截取視頻段再分類的方法降低了計算代價;另外Gabor特征也具有較強的描述能力,在很多人臉相關的問題中已經得到過驗證.但是也存在一些問題,首先模型需要訓練基于圖像的微表情模型,而目前的微表情數據集是針對視頻的,如果使用常規表情數據集,則模型正確性可能較差;在幀分類階段,部分幀可能被分錯,從而導致一個普通表情被分為多段,則較短的時間會致使模型錯判為微表情.
Zhang等[42]也采用Gabor作為微表情的特征,采用CASME II作為數據集,建立以圖像為樣本的模型.另外使用PCA和LDA用作維數約簡和判別分析.
3.1.7 基于顏色空間變換的特征增強
Wang等[43]探索了顏色空間對后續特征抽取的影響,提出了張量獨立顏色空間(Tensor independent color space,TICS).在人臉面部的圖像數據中,用RGB編碼的圖像的三個通道分量是高度相關的,也就是三通道之間的互信息量接近零.因此在這樣的三通道圖像中進一步抽取特征(例如常用的LBP-TOP),則很有可能得到幾乎一致的特征表達,并不能給識別帶來提升.在另一項工作[44]中,嘗試了CIELab和CIELuv兩種顏色空間,這兩種顏色空間在人膚色相關應用中有著較好的應用.實驗證明顏色空間的轉換帶來了識別效果的提升.為了進一步利用這種效應,他們試圖通過算法尋找最優的顏色空間變換.首先將圖像序列看作4階張量X ∈RI1×I2×I3×I4,其中I1,I2是圖像的尺度,I3是圖像序列的幀數,I4是顏色通道的數量.則問題轉換為尋找一個張量在第4階上的投影使得變換Yi=Xi×4UT4后得到最優的顏色空間.這一問題可以通過獨立成分分析完成.
在此基礎上,比較了RGB空間上的LBP-TOP算子和優化后的顏色空間上的LBP-TOP算子,證明顏色空間的優化給識別效果帶來了提高.
3.1.8 基于STLBP-IP的識別方法
面部圖像積分圖(Integral projection)是計算機視覺中的一種常用技術,通過對面部圖像的像素進行橫向和縱向的累加,得到與寬度和高度相同維度的特征向量.可以進行面部器官的定位,人眼狀態的識別等.
Huang等[45]拓展了積分圖技術用于微表情的識別,提出了時空局部二值模式積分圖(Spatiotemporal local binary pattern with integral projection,STLBP-IP).首先將一段圖像序列中所有幀減去某一無表情的圖像,得到一段差異圖像的序列.對每一幀圖像進行橫向和縱向的累加求和,得到兩個方向的積分向量和其中t是幀序號.在一維的積分圖上計算一維局部二值模式(1DLBP)[46]

其中,參數W為線性掩模,作用類似于平面LBP中的半徑長度;δ是狄拉克函數;zc是掩模中心像素, St(zc)是其對應的值;zp是zc的相鄰像素.在每一幀的累加積分圖上計算1DLBP,得到特征fXY,這是對平面圖像的描述.
為了加入隨時間變化的信息,對每一幀的水平積分向量Ht進行拼接,得到h×T的積分圖圖像,其中h是圖像高度,T是圖像幀數.對該圖像進行歸一化后計算平面LBP特征,得到特征fYT.
結合fXY和fYT可以共同描述微表情序列,再使用支持向量機就完成了微表情的檢測和分類任務.
3.1.9 基于FDM的識別方法
Xu等[47]以光流場為描述微表情運動模式的基礎特征,并進一步提取更精簡表達的形式,提出了面部動力譜特征(Facial dynamics map,FDM).
首先抽取兩幀之間的稠密光流場.在稠密光流場(Ut,Vt)的基礎上,進一步去除面部平移造成的誤差.具體地,定義目標

其中,Ut和Vt分別是第t幀圖像和第t+1幀圖像的光流場的水平和豎直分量,I是所有元素為1的矩陣,Φ統計矩陣中0元素的數量.即尋找水平和豎直方向上的修正量,使得修正后的光流場中大多數元素為0,這是基于微表情中面部絕大部分區域是靜止的這樣的假設.這樣的預處理能力在像素級別上對面部進行精細化的對齊.
由于面部肌肉尺度的限制,在局部空間和時間中,運動向量應當是趨同的.因此把抽取出的光流場進一步分割成小的時空立方體,在每個立方體中使用一種迭代的算法抽取時空立方體的主方向.用wi,j表示立方體i,j坐標的光流運動向量,則主方向的目標

該方法基于光流場的計算,能較好地反應微表情的運動模式,且計算的面部動力譜特征容易可視化,可以對微表情的深層理解起一定的輔助作用.作者提供了核心算法的代碼2http://www.iipl.fudan.edu.cn/%7Ezhangjp/sourcecode/fdm.py.其瓶頸在于稠密光流場的計算時間比較長,不適合做實時、大規模的微表情識別.
3.1.10基于MDMO的識別方法
Liu等[48]在視頻序列中抽取主方向,并進一步計算面部分塊中的平均光流特征,提出了主方向平均光流特征(Main directional mean optical fl ow feature,MDMO).
在進一步提取基于光流場的特征之前,首先對面部圖像幀進行操作.先利用DRMF模型[49]定位每一幀的人臉關鍵點,然后對第2幀起的每一幀光流場進行修正,尋找一個仿射變換矩陣,使得每一幀的面部特征點在該矩陣變換下與第1幀的面部關鍵點差異最小化.
在特征抽取中,定義了一種基于關鍵點的人臉分塊規則,將面部分割為互不重疊的36個區域.同時,逐幀抽取光流場,然后在每一分塊中提取主方向.與Xu等的工作[47]不同,他們計算每個分區中最類似的光流場運動向量的平均值,并作為該區域的運動特征.具體地,他們在每個分塊中計算HOOF (Histrogram of oriented optical fl ow)特征[50],將所有光流方向向量量化到8個區間,然后作統計直方圖.并基于此計算:

得到的向量可以用支持向量機建模,用于處理微表情的檢測和識別任務.
3.1.11 基于判別式張量子空間分析的識別方法
Wang等[51]將微表情看作三維時空中的張量,通過判別式的子空間學習方法(Deterministic tensor subspace analysis)學習最優的特征表達,然后使用極限學習機(Extreme learning machine, ELM)[52]進行模式分類.
將微表情圖像序列看作三階張量 X ∈RI1×I2×I3,其中I1×I2是圖像的尺度,I3是幀數.由于微表情序列可能有不同的幀數或圖像尺度,因此需要先使用插值算法得到維度相同的張量.如果對這些張量進行投影,得到

投影的目的是使得變換后的張量Yi具有盡量大的類間距離和盡量小的類內距離,具體地,優化如下目標函數:

其中,分子是所有Y(變換后的樣本)的類間距離,分母是各個類的類內距離.C是類別數量,表示第i個類的算術平均;Nc是第c個類的樣本數量;Bij=
上述優化問題可以轉變成廣義特征值問題,并進行迭代求解.求得變換矩陣U1,U2,U3,對于新的測試樣本,使用求得的矩陣對其進行變換,得到新的特征表達后使用極限學習機進行模式分類.
3.1.12 基于稀疏張量典型相關性分析的識別方法
Wang等[53]通過張量表示微表情序列及其LBP特征,并在張量上進行典型相關性分析(Sparse tensor canonical correlation analysis),學習微表情序列本身與其LBP特征的關系.將兩種變換后的表達作為最終特征,并利用最近鄰算法進行分類,性能取得了進一步的提升.
該方法融合了計算機視覺的特征和比較強的理論算法,比單一的特征工程更著重于實際問題.
3.1.13 基于MMPTR的識別方法
Ben等[54]把微表情圖像序列看作三階張量,并尋找最優投影矩陣.試圖優化類間拉普拉斯散度(Laplacian scatter)[54]與類內拉普拉斯散度之差.
對于新的樣本,利用學習得到的投影矩陣對其進行變換,得到新的張量表達形式,然后用兩種方式對其進行分類.
在第一種分類方式中,尋找與新樣本歐氏距離最接近的已有標簽樣本,并將已有標簽樣本的標簽作為新樣本的分類.即張量空間中的最近鄰方法.
在第二種分類方法中,先將變換后的張量向量化,再在已有標簽樣本中進行最近鄰搜索.
3.1.14 基于RPCA的識別方法
Wang等[55]通過RPCA將微表情分解成靜態面部圖像和動態微表情過程.假設有一段微表情序列V∈Rh×w×f,其中h和w是圖像的高和寬,f是視頻的幀數.由于微表情的動作幅度很小,可以分解為沒有表情的部分和微表情變化的部分.用D∈Rhw×f表達圖像序列,即D有h×w行和f列.假設D=A+E,目標優化

即最小化A的秩與E的0范數之和;這是非凸的優化問題,可以轉換為最小化A的?范數與E的1范數之和

通過拉格朗日法可以解該問題.上述過程中得到的E在這里可以表征微表情的動態.在此基礎之上,使用一種改進的算子局部時空方向特征(Local spatiotemporal directional feature,LSDF)[55]提取微表情動態的特征,并用支持向量機進行分類.
3.2 針對微表情分類的方法
針對微表情的分類任務提出的算法,其中不少可能也可以應用到檢測任務中,但并沒有經過實驗的進一步驗證.
3.2.1 基于CBP-TOP的分類方法
中心化二值模式(Centralized binary pattern, CBP)[56]是一種針對局部二值模式的改進.它的計算方式與LBP類似,以當前像素為中心點,作半徑為R的圓,在圓周上取均勻分布的P個點,得到對應位置上的P個像素.與LBP不同的是,像素的取值是中心點與周圍相鄰點的平均值之差,因此對應二進制編碼長度大約是LBP的一半,直方圖維度更低.另外編碼過程中增加了一個閾值作為參數,如果該像素值之差的絕對值超過預設閾值則記作1,否則記0,得到P/2+1位的二進制數.圖7展示了一個CBP計算的例子,其中R=1,P=8,其對應的圖像塊是圖3中的3×3像素矩陣,其閾值參數為50,得到的二進制數是(01110)2.

圖7 中心化二值模式計算過程Fig.7 Calculation process of centralized binary pattern
CBP相對于LBP的改進之處在于:1)可以獲得更低維度的特征;2)考慮了中心點與周圍像素的關系,增加了一些信息量.
Guo等[57]提出用CBP-TOP算子代替LBPTOP,實驗取得了更好的效果.CBP-TOP是CBP特征在三維時空的拓展,即在XY平面、XT平面、Y T平面分別計算CBP特征,然后拼接得到CBPTOP特征.使用極限學習機對得到的特征進行模式分類,處理微表情的分類問題.
3.2.2 基于Riesz小波變換的識別方法

Oh等[58]使用Riesz小波函數將圖像幀進行小波變換:其中,f(x)是輸入圖像,R1,R2是Riesz操作符,ψk是小波函數,k是小波尺度.
上述過程可以表達為


在上述三種中間特征的基礎上,分別構建三者的統計直方圖,就可以得到最終的特征.由于三者并不是來自同一數據分布,因此使用了多核學習進行微表情的建模.
3.2.3 基于運動模式放大的分類方法
微表情識別的兩大難點在于持續時間短和動作幅度小.前者已經通過高幀率攝像機得到一定的解決,后者依靠精細的預處理和高分辨率的特征表達來解決.Li等[59]使用歐拉視頻放大(Eulerian video magni fi cation,EVM)[60]技術將微小的動作幅度增強放大,再通過一些常規的識別技術對放大后的微表情進行識別.
歐拉視頻放大技術是一種計算機圖形學技術,用于視頻中微小變化的捕捉和放大.其原理如下:一段視頻可以通過拉普拉斯變換得到其頻域表示,不同尺度的運動對應著不同頻域的頻率分量.因此通過對某些頻率波段施加帶通的放大濾波器就可以增強對應尺度的運動.
具體地,使用截斷頻率是[0.3,4]Hz的無限脈沖響應(In fi nite impulse response,IIR)濾波器對視頻進行處理,對微表情進行定向地放大.然后嘗試了LBP-TOP、HOG-TOP、HIGO-TOP三種特征提取微表情的表示.需要注意的是,這里處理的視頻需要是微表情數據,因此這種方法針對解決的是微表情分類的問題.
Chavali等[61]也使用了這種動作放大技術.
3.2.4 基于特定點跟蹤的特定動作單元識別
Yao等[62]試圖解決特定AU的識別,即動作單元12(Lip corner puller)和動作單元16(Lip corner depressor)的識別.這兩種動作單元對應著愉悅和厭惡兩種重要的情緒,因此有一定的應用價值.他們的方法首先使用一套精細定義的規則定位人臉,再基于人臉尋找嘴角的位置.用TLD(Trackinglearning-detection)跟蹤器[63]追蹤嘴角的位置,識別嘴角的運動模式,就可以區分這兩種動作單元.
3.3 針對微表情檢測的方法
微表情的檢測任務在邏輯上要比分類任務更優先,只有通過檢測任務篩選的片段才會進行進一步的分類.因此檢測算法的質量直接關系到后續處理的有效性.在檢測任務中,可以再細分為兩種.第一種是一個簡單的二分類問題,給定一段較短的面部圖像序列,算法只要判斷該序列是否是一個微表情即可.這與之前介紹的方法類似;第二種則更適用于實際應用,給定一段長視頻,算法需要從中找出微表情開始和結束的時間點.微表情的階段分割任務可以看作是后者的進一步工作,但目前針對該問題的工作很少.
3.3.1 基于幾何形變建模的檢測方法
Xia等[64]通過對幾何形變進行建模,解決微表情檢測的問題.對于一段人臉圖像序列,首先使用STASM(Active shape models with SIFT descriptor)[65]進行關鍵點的定位,得到每幀的面部形狀.為了消除頭部移動造成的變化,將每幀與第1幀進行Procuste變換[30],即通過平移、縮放、旋轉最小化與第1幀之間的誤差,完成這一處理后的差別就是面部形變造成的.
對每一幀的特征點,計算兩部分特征,即


其中,σ表示在整段序列之中取方差,β和1?β分別是兩部分的權重.該式計算的vi表示兩部分差異特征的加權平均.
隨后通過隨機過程對每一幀是否含有微表情進行建模:

其中,Φ(i,j)是基于上述特征計算的轉移概率,由訓練數據集估算得到;?fi是第i幀的前后近鄰;pt(i)表示第t輪計算中第i幀含有微表情的概率,迭代計算20次后根據概率取閾值判定是否含有微表情.
3.3.2 基于特征差異的檢測方法
計算面部圖像連續幀的計算機視覺特征,考察短時間內的特征變化,常規表情與微表情的變化應當是不同的.Moilanen等[66]基于這樣的原則使用手工設計的特征和準則處理微表情的檢測問題.
把面部圖像分割成6×6=36個圖像塊,在每個圖像塊中計算LBP直方圖特征.為了衡量一幀圖像在一段圖像序列中的突變程度,計算與當前幀(Current frame,CF)各相差k幀的前后兩幀(分別為Tail frame(TF)和Head frame(HF))的特征平均值,通過CF的特征與該平均值的卡方距離衡量當前幀在視頻中的變化程度

對于每一幀,以差異值最大的三分之一的圖像塊的差異和作為該幀的進一步特征Ft(t是幀序號),并考慮前后幀之間的關系,計算

即對差異序列Ft進行時間平滑.經過上述過程計算得到的特征Ct可以表征人臉圖像序列的變化程度.在此基礎上,通過手工選擇閾值T=Cmean+p ×(Cmax?Cmean)就可以判定微表情的出現,其中p是一個[0,1]之間的百分數,Cmax和Cmean分別表示Ct序列的最大值和平均值.
這種方法比較巧妙,實驗證明具有效果,但是設計思路較為復雜,同時需要手工設定參數,在實際應用中可能需要重新設定參數、閾值等.
3.3.3 基于光流場積分的階段分割方法
Patel等[67]試圖對一段微表情圖像序列標定其起始點(Onset)、頂點(Apex)和終止點(O ff set).首先用DRMF(Discriminative response map fi tting)模型[49]定位人臉的關鍵點,再基于FACS的規則將關鍵點進行分組,即相同面部器官上的關鍵點歸為同一組,例如左眉毛、右眉毛、嘴部等.再抽取逐幀之間的光流場,則每個特征點都分配到對應的運動向量,每一分組的平均運動可以由其中點的運動向量取算術平均獲得.對每一分組,計算其隨著時間的運動幅值的累加值,通過尋找累加值的頂點,則可以得到其對應的動作單元的頂點.在頂點的基礎上,尋找起始點可以看作一個優化問題:在起止點之前的幀到頂點所在幀,其運動幅值累加值在逐漸增長;而起始點所在幀開始,到頂點所在幀,其運動幅值是逐漸減小的.通過這一準則,可以尋找到合理的起始點位置.終止點位置的尋找基于這樣的規則:頂點之后第一個與起始點的點積為負的幀即是終止點.
3.3.4 基于特征差異的微表情頂點定位
Yan等[68]利用特征差異定位微表情頂點,具體使用了兩種特征.
在基于受限局部模型 (Constrained local model,CLM)[69]的方法中,利用該模型定位人臉的66個關鍵點.從第2幀起計算每一幀的特征向量相對第1幀特征向量的累計偏差,尋找該偏差的峰值,則對應為微表情的頂點.
在基于局部二值模式的方法中,先利用CLM定位人臉關鍵點,并劃分出若干關鍵區域,計算關鍵區域中的局部二值模式直方圖作為每幀的特征向量.類似地,計算每幀的特征向量與第1幀的相關性

這種方法標定的頂點與人識別結果對比,取得了較好的效果.
3.3.5 基于Strain Tensor的檢測方法
Shreve等[27,70]通過計算運動強度來檢測微表情.
首先使用主觀形狀模型定位面部特征點并切割出小的矩形區域.然后,計算每個區域中的光流場,并以此為基礎計算張力張量(Strain tensor),用于度量一塊區域中的人臉部位相對于時間的變化強度.具體地,首先計算兩幀圖像之間的光流場,得到每個點的運動向量[u,v]T,并計算該點的有限張力張量(Finite strain tensor)

這種方法可以檢查微表情是否存在,也可以用來區分常規表情與微表情.然而這種方法沒有使用機器學習技術,需要通過人工選定閾值.在訓練數據較大的情況下不適用,而當訓練數據較小時,閾值選擇的有效性又很難保障.
Liong等[71]使用類似的方法,加入時間平滑的技巧.即對每一幀的每個像素,計算前后若干幀在該點的張力張量的平均值.將由此得到的特征用支持向量機建模,進行微表情的檢測和分類.
4.1 實驗結果對比
為了給出現有方法的直觀比較,表2選取了在公共數據集CASME和CASME II上驗證過的若干方法的結果作為對比.由于數據集的類別間分布并不均衡,現有工作通常選擇其中的幾類進行驗證;不少工作選擇“留一人驗證”的方式,即每次選出一名被試的樣本作為測試集,其余用作訓練.也有部分工作選擇了其他的驗證方式.表2注明了每個結果使用的數據集類別數量,以及相應的驗證方式.其中LBP-TOP、STCLQP、LBP-SIP的結果取自文獻[72];DTSA的驗證方式是在每個類別中隨機選15個樣本作為訓練集,其余作為測試集;MMPTR的驗證方式是隨機選15個樣本作為訓練集,其余作為測試集;其余方法使用留一人驗證.

表2 現有微表情識別方法的識別準確率(%)對比Table 2 Recognition accuracy(%)of existing approaches on common datasets
4.2 現有方法總結
P fi ster等[23]是微表情識別最早的嘗試者之一,他們將傳統的面部表情的識別方法應用到微表情識別中,根據微表情本身的特性做了一定的適應.后期不少工作都致力于在特征的層面上改進微表情的識別性能[36?37,57].這些工作都取得了不錯的性能改進,其共性在于從時空紋理的角度挖掘面部表情的變化,具有很強的描述能力,但是計算得到的特征的可解釋性欠佳.
近年來出現了不少從運動角度描述微表情的工作[47?48,67],在保證識別性能的前提下,給出了良好的可解釋性.然而,基于稠密光流場的特征耗時較長,對于微表情這樣僅持續很短時間的面部運動顯得代價過大,幾乎無法應用到實時檢測中.
除了上述從人工特征出發的工作,我國的王甦菁、賁晛燁分別進行了不少從理論算法上優化微表情特征表達的工作[44,51,53?54].這些方法具有很強的理論性,同時不只適用于微表情的特征表達,也可用于普通面部運動甚至其他計算機視覺的識別分類問題.
上述兩大類方法并不沖突,而是可以共同使用.例如文獻[44]在TICS變換后的圖像上提取LBPTOP特征;文獻[54]也可用于在已有特征下進一步計算表達.
此外,早期工作的假設較為簡單,只在分割好的面部表情序列上進行檢測和分類,而微表情分割本身是一個困難的問題.近年來有不少工作研究在長視頻中檢測微表情并進行進一步分割[64,66?67],這對于微表情識別走向實用化是必不可少的.
表3比較了現有的微表情學習算法.
近年來微表情識別領域涌現了大量新的研究工作,這是對微表情的利用價值的肯定.可以預見,未來會有更多的工作嘗試進一步提高微表情的識別性能,并逐漸將微表情識別應用到實際中.本文總結了現有技術的一些問題和未來可能的研究方向.
5.1 針對微表情的預處理技術
利用現有數據集的一個好處是可以直接在預處理好的圖像上嘗試新的算法,減輕了預處理流程的壓力.然而預處理是微表情識別中非常重要的一項流程,其重要程度應當超過普通的表情識別或其他面部信息識別,其原因就是微表情的動作幅度很小,且持續時間太短.現有的數據集的錄制過程中,被試位置相對穩定,在經過進一步的對齊處理,較容易得到高質量的圖像.但在實際應用中是很難做到的,因此針對微表情的精細化預處理值得研究.

表3 現有微表情識別方法Table 3 Existing approaches for microexpression recognition
另外,微表情預處理中應用到一些常見技術,有比較多的候選項,但是其中哪種最適合對微表情進行精細化的處理還少有研究.例如人臉關鍵點定位幾乎在所有工作中都會涉及,候選技術有ASM、AAM、DRMF等;又如幀數對齊,有些工作使用TIM技術,但是Xu等[47]報道了線性插值對微表情有更好的適應性,因為微表情幀率較高,相鄰幀之間時間間隔很短,基于流形的插幀方式反而可能造成較線性插值更高的誤差.
確立一組對微表情有效的預處理流程,可能在后續算法不變的情況下取得更好的效果.
5.2 長視頻中的微表情檢測
目前很多研究工作基于現有的數據集,而數據集中的圖像序列已經預先進行了分割,因此提出的算法只需要完成檢測和分類兩種模式識別的任務.而實際任務中,通常要分析長視頻中對象的表情和微表情,上述的技術模式很難處理這樣的問題.最簡單的彌補方式是引入滑動窗口,對窗口內的子序列進行檢測和分類.但這會極大地提升計算量,且窗口的長度難以確定.因此,在長視頻中高效地檢測微表情的出現是一項非常關鍵的技術,這將構成之后進一步檢測和分類的輸入.這種任務和微表情序列的階段劃分有些類似,而階段劃分需要尋找起始點、頂點和終止點.
目前已經有一些工作嘗試解決這種問題,但也存在局限.例如Shreve等[27,70]和Moilanen等[66]的工作都需要手工設定閾值作判斷,可能因個人差異等因素,在真實場景中出現失效的問題.Wu等[41]對每一幀進行檢測,然后通過微表情的時間特性進行序列的區分,在單幀識別率較低時會造成整體檢測的失效.
5.3 高效的微表情識別
對于一段微表情圖像序列進行分類,識別其中的對應情緒,是微表情最有可能的實際應用之一.由于一段微表情序列的實際時間非常短,只有1/25s~1/3s,對處理速度提出了很高的要求.在單機實時處理場景下,如果不能以類似的時間對一段微表情圖像序列進行分類,就可能積累更多的待處理任務,導致低效的系統.高效的方法總是受歡迎的,有兩種應用場景需要極端高效的處理算法:1)在嵌入式設備或者移動終端上,只有非常高效的方法能勝任;2)將識別算法部署在服務器上,并以服務的方式向不同的終端提供,則高效的算法意味著更少的硬件投入.
目前還較少有工作探討這方面的性能,而近期出現的一些關于光流場計算的方法雖然有著很好的識別率,但是不可避免地在時間性能上有待提高.
5.4 微表情動作單元的識別
動作單元檢測是常規表情識別中一項重要的子任務,但在微表情中對動作單元進行檢測面臨著更大的難度.然而這并不是沒有價值的.正確的識別動作單元可以作為情緒識別結果的強有力證據,使情緒識別結果具有可解釋性.另外,心理學對微表情的各種性質仍在研究之中,不少結論尚存在爭議.動作單元級別的精細化識別,結合可視化的標定技術,可以作為心理學中微表情研究的重要依據,具有跨學科輔助研究的意義.
1 Shan C F,Gong S G,McOwan P W.Facial expression recognition based on local binary patterns:a comprehensive study.Image and Vision Computing,2009,27(6):803?816
2 Rahulamathavan Y,Phan R C W,Chambers J A,Parish D J.Facial expression recognition in the encrypted domain based on local fi sher discriminant analysis.IEEE Transactions on A ff ective Computing,2013,4(1):83?92
3 Wang S F,Liu Z L,Wang Z Y,Wu G B,Shen P J,He S,Wang X F.Analyses of a multimodal spontaneous facial expression database.IEEE Transactions on A ff ective Computing,2013,4(1):34?46
4 Sun Xiao,Pan Ting,Ren Fu-Ji.Facial expression recognition using ROI-KNN deep convolutional neural networks. Acta Automatica Sinica,2016,42(6):883?891 (孫曉,潘汀,任福繼.基于ROI-KNN卷積神經網絡的面部表情識別.自動化學報,2016,42(6):883?891)
5 Liu Shuai-Shi,Tian Yan-Tao,Wang Xin-Zhu.Illuminationrobust facial expression recognition based on symmetric bilinear model.Acta Automatica Sinica,2012,38(12):1933? 1940 (劉帥師,田彥濤,王新竹.基于對稱雙線性模型的光照魯棒性人臉表情識別.自動化學報,2012,38(12):1933?1940)
6 Liu Shuai-Shi,Tian Yan-Tao,Wan Chuan.Facial expression recognition method based on Gabor multi-orientation features fusion and block histogram.Acta Automatica Sinica, 2011,37(12):1455?1463 (劉帥師,田彥濤,萬川.基于Gabor多方向特征融合與分塊直方圖的人臉表情識別方法.自動化學報,2011,37(12):1455?1463)
7 Taheri S,Patel V M,Chellappa R.Component-based recognition of faces and facial expressions.IEEE Transactions on A ff ective Computing,2013,4(4):360?371
8 El Mostafa M K A,Levine M D.Fully automated recognition of spontaneous facial expressions in videos using random forest classi fi ers.IEEE Transactions on A ff ective Computing,2014,5(2):141?154
9 Ekman P.Darwin,deception,and facial expression.Annals of the New York Academy of Sciences,2003,1000:205?221 10 Haggard E A,Isaacs K S.Micromomentary facial expressions as indicators of ego mechanisms in psychotherapy. Methods of Research in Psychotherapy.US:Springer,1966. 154?165
11 Ekman P,Friesen W.Nonverbal Leakage and Clues to Deception.Technical Report,DTIC Document,1969.
12 Gottman J M,Levenson R W.A two-factor model for predicting when a couple will divorce:exploratory analyses using 14-year longitudinal data.Family Process,2002,41(1): 83?96
13 Salter F,Grammer K,Rikowski A.Sex di ff erences in negotiating with powerful males.Human Nature,2005,16(3): 306?321
14 Whitehill J,Serpell Z,Lin Y C,Foster A,Movellan J R. The faces of engagement:automatic recognition of student engagementfrom facial expressions.IEEE Transactions on A ff ective Computing,2014,5(1):86?98
15 Pool L D,Qualter P.Improving emotional intelligence and emotional self-efficacy through a teaching intervention for university students.Learning and Individual Di ff erences, 2012,22(3):306?312
16 Porter S,ten Brinke L.Reading between the lies:identifying concealed and falsi fi ed emotions in universal facial expressions.Psychological Science,2008,19(5):508?514
17 Warren G,Schertler E,Bull P.Detecting deception from emotional and unemotional cues.Journal of Nonverbal Behavior,2009,33(1):59?69
18 Yan W J,Wu Q,Liang J,Chen Y H,Fu X L.How fast are the leaked facial expressions:the duration of microexpressions.Journal of Nonverbal Behavior,2013,37(4): 217?230
19 Ekman P.MicroExpression Training Tool(METT).University of California,San Francisco,2002.
20 Frank M G,Herbasz M,Sinuk K,Keller A,Nolan C.I see how you feel:training laypeople and professionals to recognize fl eeting emotions.In:Proceedings of the 2009 Annual Meeting of the International Communication Association.New York,2009.http://www.allacademic.com/meta/ p15018-index.htm
21 Wu Qi,Shen Xun-Bing,Fu Xiao-Lan.Micro-expression and its applications.Advances in Psychological Science,2010, 18(9):1359?1368 (吳奇,申尋兵,傅小蘭.微表情研究及其應用.心理科學進展,2010, 18(9):1359?1368)
22 Ben Xian-Ye,Yang Ming-Qiang,Zhang Peng,Li Juan.Survey on automatic micro expression recognition methods. Journal of Computer-Aided Design and Computer Graphics,2014,26(9):1385?1395 (賁晛燁,楊明強,張鵬,李娟.微表情自動識別綜述.計算機輔助設計與圖形學學報,2014,26(9):1385?1395)
23 P fi ster T,Li X B,Zhao G Y,Pietik¨ainen M.Recognising spontaneous facial micro-expressions.In:Proceedings of the 2011 IEEE International Conference on Computer Vision. Barcelona,Spain:IEEE,2011.1449?1456
24 Li X B,P fi ster T,Huang X H,Zhao G Y,Pietik¨ainen M.A spontaneous micro-expression database:inducement,collection and baseline.In:Proceedings of the 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition.Shanghai,China:IEEE,2013.1?6
25 Yan W J,Wu Q,Liu Y J,Wang S J,Fu X L.CASME database:a dataset of spontaneous micro-expressions collected from neutralized faces.In:Proceedings of the 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition.Shanghai,China: IEEE,2013.1?7
26 Yan W J,Li X B,Wang S J,Zhao G Y,Liu Y J,Chen Y H,Fu X L.CASME II:An improved spontaneous microexpression database and the baseline evaluation.PLoS One, 2014,9(1):e86041
27 Shreve M,Godavarthy S,Goldgof D,Sarkar S.Macroand micro-expression spotting in long videos using spatiotemporal strain.In:Proceedings of the 2011 IEEE International Conference and Workshops on Automatic Face and Gesture Recognition.Santa Barbara,CA,USA:IEEE,2011. 51?56
28 Polikovsky S,Kameda Y,Ohta Y.Facial micro-expression detection in hi-speed video based on facial action coding system(FACS).IEICE Transactions on Information and Systems,2013,E96-D(1):81?92
29 Ekman P,Friesen W V.Facial Action Coding System.Palo Alto:Consulting Psychologists Press,1977.
30 Cootes T F,Taylor C J,Cooper D H,Graham J.Active shape models-their training and application.Computer Vision and Image Understanding,1995,61(1):38?59
31 Goshtasby A.Image registration by local approximation methods.Image and Vision Computing,1998,6(4):255?261
32 Zhou Z H,Zhao G Y,Pietik¨ainen M.Towards a practical lipreading system.In:Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Colorado,USA:IEEE,2011.137?144
33 Ojala T,Pietik¨ainen M,Maenpaa T.Multiresolution grayscale and rotation invariant texture classi fi cation with local binary patterns.IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971?987
34 Zhao G Y,Pietik¨ainen M.Dynamic texture recognition using local binary patterns with an application to facial expressions.IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(6):915?928
35 Huang X H,Zhao G Y,Hong X P,Pietik¨ainen M,Zheng W M.Texture description with completed local quantized patterns.Image Analysis.Berlin Heidelberg:Springer,2013.1?10
36 Huang X H,Zhao G Y,Hong X P,Zheng W M,Pietik¨ainen M.Spontaneous facial micro-expression analysis using spatiotemporal completed local quantized patterns.Neurocomputing,2016,175:564?578
37 Wang Y D,See J,Phan P C W,Oh Y H.LBP with six intersection points:reducing redundant information in LBPTOP for micro-expression recognition.In:Proceedings of the 12th Conference on Computer Vision,Singapore.Singapore:Springer,2014.21?23
38 Lu Z Y,Luo Z Q,Zheng H C,Chen J K,Li W H.A delaunay-based temporal coding model for micro-expression recognition.Computer Vision-ACCV Workshops.Switzerland:Springer International Publishing,2014.
39 Cootes T F,Edwards G J,Taylor C J.Active appearance models.IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(6):681?685
40 Barber B C,Dobkin D P,Huhdanpaa H.The quickhull algorithm for convex hulls.ACM Transactions on Mathematical Software,1996,22(4):469?483
41 Wu W,Shen X B,Fu X L.The machine knows what you are hiding:an automatic micro-expression recognition system.In:Proceedings of the 4th International Conference on A ff ective Computing and Intelligent Interaction.Memphis, TN,USA:Springer-Verlag,2011.152?162
42 Zhang P,Ben X Y,Yan R,Wu C,Guo C.Micro-expression recognition system.Optik—International Journal for Light and Electron Optics,2016,127(3):1395?1400
43 Wang S J,Yan W J,Li X B,Zhao G Y,Fu X L.Microexpression recognition using dynamic textures on tensor independent color space.In:Proceedings of the 22nd International Conference on Pattern Recognition.Stockholm,Sweden:IEEE,2014.4678?4683
44 Wang S J,Yan W J,Li X B,Zhao G Y,Zhou C G,Fu X L,Yang M H,Tao J H.Micro-expression recognition using color spaces.IEEE Transactions on Image Processing,2015, 24(12):6034?6047
45 Huang X H,Wang S J,Zhao G Y,Piteik¨ainen M.Facial micro-expression recognition using spatiotemporal local binary pattern with integral projection.In:Proceedings of the 2015 IEEE International Conference on Computer Vision Workshops.Santiago,Chile:IEEE,2015.1?9
46 Houam L,Ha fi ane A,Boukrouche A,Lespessailles E,Jennane R.One dimensional local binary pattern for bone texture characterization.Pattern Analysis and Applications, 2014,17(1):179?193
47 Xu F,Zhang J P,Wang J Z.Microexpression identi fi cation and categorization using a facial dynamics map.IEEE Transactions on A ff ective Computing,PP(99):1?1,DOI: 10.1109/TAFFC.2016.2518162
48 Liu Y J,Zhang J K,Yan W J,Wang S J,Zhao G Y,Fu X L.A main directional mean optical fl ow feature for spontaneous micro-expression recognition.IEEE Transactions on A ff ective Computing,2016,7(4):299?310
49 Asthana A,Zafeiriou S,Cheng S Y,Pantic M.Robust discriminative response map fi tting with constrained local models.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR, USA:IEEE,2013.3444?3451
50 Chaudhry R,Ravichandran A,Hager G,Vidal R.Histograms of oriented optical fl ow and binet-cauchy kernels on nonlinear dynamical systems for the recognition of human actions.In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami,Florida: IEEE,2009.1932?1939
51 Wang S J,Chen H L,Yan W J,Chen Y H,Fu X L.Face recognition and micro-expression recognition based on discriminant tensor subspace analysis plus extreme learning machine.Neural Processing Letters,2014,39(1):25?43
52 Huang G B,Zhu Q Y,Siew C K.Extreme learning machine: theory and applications.Neurocomputing,2006,70(1?3): 489?501
53 Wang S J,Yan W J,Sun T K,Zhao G Y,Fu X L.Sparse tensor canonical correlation analysis for micro-expression recognition.Neurocomputing,2016,214:218?232
54 Ben X Y,Zhang P,Yan R,Yang M Q,Ge G D.Gait recognition and micro-expression recognition based on maximum margin projection with tensor representation.Neural Computing and Applications,2015,127(3):1?18
55 Wang S J,Yan W J,Zhao G Y,Fu X L,Zhou C G. Micro-expression recognition using robust principal component analysis and local spatiotemporal directional features. Computer Vision— ECCV 2014 Workshops.Switzerland: Springer International Publishing,2014.
56 Fu X F,Wei W.Centralized binary patterns embedded with image euclidean distance for facial expression recognition. In:Proceedings of the 4th International Conference on Natural Computation.Jinan,China:IEEE,2008.115?119
57 Guo Y C,Xue C H,Wang Y Z,Yu M.Micro-expression recognition based on CBP-TOP feature with ELM.Optik—International Journal for Light and Electron Optics,2015, 126(23):4446?4451
58 Oh Y H,Le Ngo A C,See J,Liong S T,Phan R C W, Ling H C.Monogenic riesz wavelet representation for microexpression recognition.In:Proceedings of the 2015 IEEE International Conference on Digital Signal Processing.Singapore:IEEE,2015.1237?1241
59 Li X B,Hong X P,Moilanen A,Huang X H,P fi ster T,Zhao G Y,Pietik¨ainen M.Reading hidden emotions:spontaneous micro-expression spotting and recognition.arXiv Preprint arXiv:1511.00423[Online],available:https://arxiv.org/ abs/1511.00423,February 20,2017
60 Wu H Y,Rubinstein M,Shih E,Guttag J,Durand F,Freeman W T.Eulerian video magni fi cation for revealing subtle changes in the world.ACM Transactions on Graphics,2012, 31(4):65
61 Chavali G K,Bhavaraju S K N V,Adusumilli T,Puripanda V.Micro-expression Extraction for Lie Detection Using Eulerian Video(Motion and Color)Magnication[Master dissertation],Blekinge Institute of Technology,Swedish,2014.
62 Yao S Q,He N,Zhang H Q,Yoshie O.Micro-expression recognition by feature points tracking.In: Proceedings of the 10th International Conference on Communications. Bucharest,Romania:IEEE,2014.1?4
63 Kalal Z,Mikolajczyk K,Matas J.Tracking-learning-detection.IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(7):1409?1422
64 Xia Z Q,Feng X Y,Peng J Y,Peng X L,Zhao G Y.Spontaneous micro-expression spotting via geometric deformation modeling.Computer Vision and Image Understanding, 2016,147:87?94
65 Milborrow S,Nicolls F.Active shape models with SIFT descriptors and MARS.In:Proceedings of the 2014 International Conference on Computer Vision Theory and Applications.Lisbon,Portugal:IEEE,2014.380?387
66 Moilanen A,Zhao G Y,Pietik¨ainen M.Spotting rapid facial movements from videos using appearance-based feature difference analysis.In:Proceedings of the 2nd International Conference on Pattern Recognition.Stockholm,Sweden: IEEE,2014.1722?1727
67 Patel D,Zhao G Y,Pietik¨ainen M.Spatiotemporal integration of optical fl ow vectors for micro-expression detection. Advanced Concepts for Intelligent Vision Systems.Switzerland:Springer International Publishing,2015.369?380
68 Yan W J,Wang S J,Chen Y H,Zhao G Y,Fu X L.Quantifying micro-expressions with constraint local model and local binary pattern.Computer Vision—ECCV 2014 Workshops.Switzerland:Springer International Publishing,2014.
69 Cristinacce D,Cootes T F.Feature detection and tracking with constrained local models.In:Proceedings of the 2006 BMVC.Edinburgh:BMVA,2006.929?938
70 Shreve M,Godavarthy S,Manohar V,Goldgof D,Sarkar S.Towards macro-and micro-expression spotting in video using strain patterns.In:Proceedings of the 2009 IEEE Workshop on Applications of Computer Vision.Snowbird, UT,USA:IEEE,2009.1?6
71 Liong S T,Phan R C W,See J,Oh Y H,Wong K.Optical strain based recognition of subtle emotions.In:Proceedings of the 2014 International Symposium on Intelligent Signal Processing and Communication Systems.Kuching, Sarawak,Malaysia:IEEE,2014.180?184
72 House C,Meyer R.Preprocessing and descriptor features for facial micro-expression recognition[Online],available: https://web.stanford.edu/class/ee368/Project-Spring-1415/ Reports/House-Meyer.pdf,February 20,2017
Facial Microexpression Recognition:A Survey
XU Feng1,2ZHANG Jun-Ping1,2
Facial expression is an important channel in social interaction.Reading facial expression can improve understanding of psychological condition and emotional status.Di ff erent from normal expressions,microexpression is a special kind of subtle facial action.It serves as a vital clue for a ff ective estimation,and has broad applications in public security and psychological treatment.Recognizing microexpression requires professional training for human due to its short duration and subtle movement.So far a low recognition accuracy has been reported in the literature.In recent years,researchers have been studying microexpression recognition based on computer vision,which can largely improve the feasibility of such recognition.In this article,we introduce problem de fi nition and current research status of microexpression,survey several representative techniques in this topic,and discuss some underlying issues and potential research directions.
Microexpression recognition,expression recognition,emotion recognition,computer vision,facial action code system(FACS)

徐 峰 復旦大學計算機科學技術學院碩士研究生.主要研究方向為計算機視覺,人臉表情識別.E-mail:feng-xu@fudan.edu.cn(XU Feng Master student at the School of Computer Science,Fudan University.His research interest covers computer vision and facial expression recognition.)

張軍平 復旦大學計算機科學技術學院教授.主要研究方向為機器學習,智能交通,生物認證與圖像識別.本文通信作者.E-mail:jpzhang@fudan.edu.cn(ZHANG Jun-Ping Professor at the School of Computer Science,Fudan University.His research interest covers machine learning,intelligent transportation systems,biometric authentication,and image processing.Corresponding author of this paper.)
徐峰,張軍平.人臉微表情識別綜述.自動化學報,2017,43(3):333?348
Xu Feng,Zhang Jun-Ping.Facial microexpression recognition:a survey.Acta Automatica Sinica,2017,43(3): 333?348
2016-05-15 錄用日期2016-07-28
Manuscript received May 15,2016;accepted July 28,2016
國家自然科學基金(61673118,61273299),浦江人才計劃(16PJD0 09)資助
Supported by National Natural Science Foundation of China (61673118,61273299)and Shanghai Pujiang Program(16PJD0 09)
本文責任編委賴劍煌
Recommended by Associate Editor LAI Jian-Huang
1.上海智能信息處理重點實驗室上海200433 2.復旦大學計算機科學技術學院上海200433
1.Shanghai Key Laboratory of Intelligent Information Processing,Shanghai 200433 2.School of Computer Science,Fudan University,Shanghai 200433
DOI10.16383/j.aas.2017.c160398