劉小琴,趙 暉
(新疆大學 信息科學與工程學院,新疆 烏魯木齊830046)
人臉特征點定位不僅是人臉識別研究領域中的研究熱點,同時也是計算機視覺和圖形學領域的一個基本問題。實時的人臉特征定位更為表情分析、姿態估計和三維重建等后續研究工作提供了不可或缺的基礎性數據[1]。今年來,許多國內外學者深入研究特征點的重定位問題,雖然已經取得了較為豐碩的成果,但仍然無法達到精確定位,且算法不可避免會耗費相當長的時間,這對實時性要求較高的系統并不適用。人臉活動單元是描述人臉肌肉運動的基本單元,它是??寺┦縿摿⒌拿娌炕顒咏饷芟到y(FACS)[2]的重要組成部分。盡管人類的面部動作存在著豐富性、模糊性和動態性,但其各種復雜的表情,都是由單個AU或多個AU組合產生[3]。因此,通過識別AU來達到識別面部表情的目的,不僅判斷標準相對準確,而且能從根本上反應面部的肌肉的運動趨勢,提高了面部表情識別的準確度。隨著表情識別的深入,國內的各種表情庫也應運而生,如北京航空航天大學建立的北航人臉表情(BHU)庫[4]及中國科學院技術研究所建立的CAS-PEAL人臉數據庫[5]。另外,鑒于靜態圖片的信息有限性,而AU的動態變化過程包含著許多很有實用價值的信息。因此研究工作開始轉向動態圖像序列[6]。一些動態序列表情庫也相繼建立起來,如卡內基 .梅隆大學的Cohn-Kanade動態庫及CED-WYU (1.0)動態庫[7]等。截至目前,對圖像序列開展的研究較少主要有:Tian et al.[8]提出對正面圖像序列基于唇部跟蹤和模板匹配,從圖像序列中自動識別15個AU 及其組合的系統;Ramya et al.[9]采用小波濾波、支持向量機和隱爾馬科夫模型分析正面圖像序列,自動檢測3個AU;Pantic et al.針對側面圖像序列,研究20個AU及其組合的檢測。為了驗證本文提出方法的有效性,采用CMU動態庫中的圖像序列,針對AU的動態性展開研究,根據序列中某個AU的動態變化過程修正特征值,進而對特征點進行重新定位。實驗證明通過此方法不僅可以快速地對特征點進行重新定位,而且達到了提高重定位特征點準確度的目的。
AU識別的方式主要有兩種:基于幾何特征的和基于紋理特征的[10]。在幾何特征的基礎上添加紋理特征雖然可以提高識別精確度,但是由于紋理特征的判別是通過像素比來衡量的,即大于某一閾值將其定位為出現,小于該閾值則不出現,其動態性不明顯。為了方便說明問題,本文選取對六個基本表情 (驚奇、恐懼、厭惡、憤怒、悲傷、高興)貢獻較大且易于采用幾何特征進行識別的AU作為實驗對象。為了提高訓練模型的精確性,根據需要識別的AU,每幅圖片人工手動標定26個特征點,如圖1所示。

圖1 人臉特征點手工標定示例
因為訓練樣本的標點情況,會直接影響訓練出AAM模型的優劣,進而影響AAM后續的自動定位精確度,最終對AU的識別產生至關重要的影響。所以,在進行手動標定訓練樣本時,應盡可能的準確。另外,鑒于人體視覺的個體差異性,整個標定過程盡可能由同一人標定。
為了減少圖像大小及拍攝時頭部晃動引起的距離誤差,需要對圖像序列進行對齊和縮放操作。由于同一個人的兩內眼角點基本保持不變,故本文首先根據所標記的兩個內眼角點,對圖像進行縮放,將同一個序列的兩內眼角距離統一,此操作并不直接對圖片進行縮放和裁剪,而是對坐標值操作,間接達到圖片縮放的效果,具體操作如下:
已知圖像序列初始幀的左眼角坐標為 (x10,y10),右眼角坐標為 (x11,y11),左右眼角之間的距離d0可由公式(1)求出,第i幀的左右眼角對應坐標為 (xi10,yi10)和(xi11,yi11),左右眼角之間的距離d可由式 (2)求出,縮放因子α由式 (3)求出

根據上述公式,序列中任一點坐標 (xi,yi)縮放后的坐標均可表示為 (αxi,,αyi)。
另外,在訓練AAM時,鑒于張嘴和閉嘴具有較大的區分性,放在一起進行訓練,訓練出的模型匹配效果不好。因此,對驚奇、高興及恐懼等嘴部變化劇烈的表情來說,需要針對張嘴和閉嘴各訓練一個模型,共訓練出9個模型。
利用訓練好的AAM,對實驗選定的圖像序列進行自動匹配定位,其結果如圖2所示。

圖2 AAM自動定位特征點
觀察自動定位結果,絕大部分序列效果較好,但是當模型的初始位置偏離人臉較大的時候,常常會陷入局部最小,從而導致人臉特征點定位的失敗,這是因為基于AAM的人臉特征點定位方法易受初始化位置的影響。針對此問題,葉超等人提出一種基于多分辨率AAM (MR-AAM)的雙重擬合方法,快速而準確地獲得初始位置。本文采用先移動模板至眼角大致準確的位置,然后再進行匹配。當個別序列的某些特征點明顯定位不準確時,則需要進行手動調整。
我們將特征提取轉換為識別AU的參數集合。首先定義一個人臉的坐標系,由于內眼角的相對位置是不受肌肉收縮影響的,因此可將兩個內眼角的連線作為x軸,y軸與x軸垂直且垂直平分兩內眼角連線段。
上半臉特征:我們通過11個參數表示上半臉的特征,其中4個用來描述眉毛,6個用來描述眼睛,1個用來描述眉間距,上半臉特征表示見表1。

表1 上半臉特征表示
下半臉特征:我們通過6個參數表示下半臉特征,其中1個表示嘴寬,2個表示嘴角運動,2個表示嘴唇厚度,1個表示嘴高,下半臉特征表示見表2。

表2 下半臉特征表示
每一AU的出現,都對應于一縷肌肉的收縮,都會在面部引起相應的表觀變化,本文所研究AU得解釋及其引起的表觀變化見表3。
在對AAM定位結果進行移動模板并匹配、手動調整特征點后,由于人眼觀察的不準確性,仍然不可避免地產生較大誤差,這給AU識別帶來困難,尤其是AU強度較弱時,一個較小的誤差就有可能產生相反方向的變化,進而導致某一AU識別的失敗。因此,在進行AU識別之前,對特征點進行重定位是十分必要的。然而直接對特征點進行定位,不但操作復雜而且人眼視覺不可避免地會產生誤差,本文將通過修正特征值的方法來間接達到特征點重定位的目的,以CMU庫中S119-002圖像序列為例,進行闡述特征值修正的詳細過程。

?
人臉活動單元是一個時域信號,某個AU動作不是一蹴而就的,而是一個循序漸進的變化過程,僅僅根據某一時刻的人臉靜態圖像識別AU的出錯率較高,而且性能也不夠穩定。充分考慮人臉活動單元的時域信息和表達的上下文關系,是進行魯棒的AU識別的一種解決方法。由于AAM定位不夠準確或手工微調特征點時由于視覺誤差造成的手工調整特征點時的不準確性,序列經常會產生孤立幀,如圖3所示。所謂孤立幀是指某幀的某些特征點與其相鄰的前后兩幀坐標變化較為劇烈的幀。然而某個AU動作不可能出現一幀突變的情況,所以這種變化事實上并不存在。出現類似情況,會對AU識別帶來障礙,特別是在AU強度較弱時,孤立幀的產生,會在很大程度上影響AU識別的結果。為此在進行AU識別之前,需要首先對所取得的特征值進行去孤立幀操作,減少偶然或人為因素造成的誤差,為后續工作做鋪墊。

圖3 孤立幀
孤立幀的處理方法:計算序列中的某一特征點對應的每一幀 (x2,y2)與前一幀 (x1,y1)的垂直距離dr、與后一幀 (x3,y3)的垂直距離df、點 (x1,y1)及點 (x3,y3)所確定直線L的斜率k和截距b。其中k和b可由式 (4)和式 (5)求出,而dr及df可由式 (6)和式(7)求出

若dr及df均大于某一閾值時,則將點 (x2,y2)變換到直線L上。此閾值的選擇是一個經驗值,需要通過大量的實驗驗證閾值的最佳值,過大或過小都將影響識別AU時所選取樣本的好壞,進而影響識別結果。本文在卡耐基梅隆大學的Cohn-Kanade數據庫 (簡稱CMU庫)上進行了大量實驗,得到內眉角的閾值采用0.1為宜。序列處理前后的效果如圖4和圖5所示。

Matlab具體實現如下述程序段所示:


為了便于后續的歸 “0”和歸 “一”操作,需要先找出序列中的所有拐點。本文拐點的查找采用Douglas-Peucker算法,該算法是一種遞歸算法,其基本思想是:先用直線連接曲線段AB的兩個端點A和B,然后從曲線上找出到直線AB距離最遠的點C,并計算點C到直線AB的距離d,需比較d與預先給定的閾值t的大小,如果小于t,則點C不是關鍵點,如果大于t,則點C為所找的拐點,依此類推,即可找出所有拐點,具體推導過程如圖6所示。

圖6 點C為拐點
序列特征值的第一個拐點對應的幀定為某個AU出現的初始幀。
初始幀之前所有幀的特征值歸零,這樣可以減少強度較弱時的誤差影響,提高AU的識別率。
本文采用的CMU庫中99%以上的AU都是經歷 “起始-高峰-保持”,效率,減少 AAM 的定點誤差,可以在AU強度達到最大時 (序列中最后一個拐點),將最大幀之后的所有幀都歸一化到最大幀的值。
歸 “0”和歸 “一”處理后的效果如圖7所示。

圖7 歸 “0”和歸 “一”處理后
由于偶然誤差等多方面的原因,使得直接用數據進行數據分析存在一定的問題,因此有必要對原始數據進行數據平滑預處理,這是數據預處理的一項重要工作,要想從測量數據中提取有用的信息,必須對其進行平滑以盡量減小偶然誤差的影響。常用的數據平滑算法有:加法平滑[11](additive smoothing)、Good-Turing 估 計[12]、折 扣 參 數 平 滑(discounting smoothing)、線性插值平滑 (linear interpolation smoothing)、基于扣留估計的參數平滑技術。有給定最小值平 (clipping with a floor value)和 Katzs式平滑等。
本文根據找到的所有拐點,采用移動窗口擬合多項式平 滑 (Savitzky-Golay 平 滑 )[13]方 法 對 曲 線 進 行 平 滑。Savitzky-Golay平滑濾波器最初由Savitzky A和Golay M于1964年提出,被廣泛應用于數據流平滑去噪,是一種在時域內基于多項式,通過滑動窗口利用最小二乘法進行擬合的方法。這是一種直接處理來自時間域內數據平滑問題的方法。該方法的優勢是簡單快速,且相對于其他的平均方法,更能保留相對極大值、極小值及寬度分布等特性。以序列S119-002右內眉角特征點變化為例,進行S-G平滑后如圖8所示。

圖8 S-G平滑曲線
在經過特征值修正之后,根據第一幀坐標 {(x0,y0),(x1,y1), … (x25,y25)} 和 修 正 后 的 上 半 臉 特 征 值(m1’,m2’, …m11’)和 下 半 臉 特 征 值 (n1’,n2’,…n6’),對每個特征點進行重新定位,重定位后的坐標為{(x0’,y0’),(x1’,y1’),… (x25’,y25’)}。以右內眉角為例,內眉角初始幀坐標P (x11,y11),內眉角到內眼角連線距離為d0,第i幀坐標為Q (xi11,yi11),則重定位后的坐標需滿足以下兩個條件:
(1)重定位后的坐標 (x11’,y11’)在射線PQ上;
(2)到內眼角連線距離為m11’d0+d0;
特征點重定位是表情識別的重要環節之一,特征點定位正確與否直接影響AU識別的準確程度。對于表情識別領域,由于肌肉運動相對較為微弱,直接對特征點進行調整,不但繁瑣,而且由于視覺誤差,會有失準確性,本文提出的通過特征值修正達到調整特征點的方法,操作相對較為簡單,且通過實驗驗證了可以間接達到調整特征點位置的目的。
對于AU動態性分析,CMU庫中AU出現的順序幾乎全是是:沒有出現—起始—高峰—保持。然而實際情況遠比這復雜,例如AU可能從某一高峰狀態直接達到另一高峰狀態,即出現多峰動態過程。因此,需要在更多的表情庫上進一步驗證本文提出方法的可行性,面向各種復雜實際情況的AU動態性研究是未來研究的必然趨勢。
:
[1]YE Chao,LI Tianrui,GONG Xun.Facial feature point localization based on MR-AAM dual-fitting [J].Journal of Computer Applications,2011,30 (10):2724-2727 (in Chinese). [葉超,李天瑞,龔勛.基于MR-AAM雙重擬合的人臉特征點定位方法 [J].計算機應用,2011,30 (10):2724-2727.]
[2]Markin Evgeny,Prakash Edmond C.Tracking facial features with occlusions [J].Journal of Zhejiang University Science A,2006,7 (7):1282-1288.
[3]ZHAO Hui,WANG Zhiliang,LIU Yaofeng.A survey of automatic facial action units recognition [J].Journal of Computer Aided Design & Computer Graphics,2010,22 (5):894-906(in Chinese).[趙暉,王志良,劉遙峰.人臉活動單元自動識別研究綜述 [J].計算機輔助設計與圖形學報,2010,22 (5):894-906.]
[4]XUE Liyu,MAO Xia,ZHANG Fan.Design and realization of BHU expression database [J].Journal of Beijing University of Aeronautics and Astronautics,2007,33 (2):224-228 (in Chinese).[薛麗雨,毛峽,張帆.BHU人臉表情數據庫的設計與實現 [J].北京航空航天學報,2007,33 (2):224-228.]
[5]GAO Lei,LI Xiaodong.Improved LPP algorithm for face recognition [J].Computer Engineering and Applications,2011,47(17):185-187 (in Chinese).[高雷,李曉東.基于改進的有監督保局投影人臉識別算法 [J].計算機工程與應用,2011,47(17):185-187.]
[6]TANG Jinghai,ZHANG Youwei.Method of facial expression recognition based on dynamic sequence feature [J].Computer Engineering and Applications,2008,44 (8):220-222 (in Chinese).[唐京海,張有為.基于動態序列特征的人臉表情識別方法 [J].計算機工程與應用,2008,44 (8):220-222.]
[7]HUANG Yong.Facial expression recognition based on graphoptimized locality preserving projections [J].Computer Engineering and Applications,2011,47 (27):210-215 (in Chinese).[黃勇.基于圖像優化局部保留投影的人臉表情識別[J].計算機工程與應用,2011,47 (27):210-215.]
[8]TONG Yan,LIAO Wenhui,JI Qiang.Facial action unit recognition by exploiting their dynamic and semantic relationships[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29 (10):1683-1699.
[9]Ramya R,Anandanataraj R.Application of neuro fuzzy network for the analyzing the pain through facial expression [J].Inter-national Journal of Recent Trends in Engineering,2009,2 (4):8-10.
[10]SONG Yuqing,LIU Bo,XIE Jun.Medical image texture features classification based on gabor wavalet transform [J].Computer Engineering,2010,36 (11):200-202 (in Chinese).[宋余慶,劉博,謝軍.基于Gabor小波變換的醫學圖像 紋 理 特 征 分 類 [J]. 計 算 機 工 程,2010,36 (11):200-202.]
[11]WANG Da,CUI Rui.Data smoothing technology summary[J].Computer Knowledge and Technology,2009,5 (17):4507-4509 (in Chinese).[王達,崔蕊.數據平滑技術綜述[J].電腦知識與技術,2009,5 (17):4507-4509.]
[12]ZHANG Jian.English named entity recognition using statistics-based and rules-based method [D].Harbin:Harbin Institute of Technology,2006 (in Chinese).[張劍.統計與規則相結合的英語命名實體識別 [D].哈爾濱:哈爾濱工業大學,2006.]
[13]CAI Tianjing,TANG Han.Summary based on the least squares fitting principle of Savitzky-Golay smoothing filter[J].Digital Communition,2011 (1):63-68 (in Chinese).[蔡天凈,唐瀚.Savitzky-Golay平滑濾波器的最小二乘擬合原理綜述 [J].數字通信,2011 (1):63-68.]