杜杏菁,白廷柱,何玉青
(1.北京理工大學 光電學院光電成像技術與系統教育部重點實驗室,北京100081;2.華北科技學院 計算機系,河北 三河065201)
人臉識別技術目前使用的較多的是二維 (2D)人臉識別,但2D人臉識別受到光照、姿態、表情的影響較大,很難達到滿意的效果,因此最近幾年人們又轉向研究三維(3D)人臉識別。3D人臉建模領域的研究進展和3D數據獲取技術的發展為3D人臉識別奠定了基礎[1]。3D人臉識別加入了人臉的深度信息,彌補了2D人臉識別的很多缺陷[2-3],三維人臉識別的方法可以分為基于曲率的方法[4]、基于形狀表征的方法[5-6]、基于空域信息的方法[7]和三維可變形模型的方法[8-9]。最近,一種利用三維人臉模型投影進行2D測試圖像與3D模板圖像結合的識別模式被提出,并取得一定的效果[10],但該模式需要對每個2D測試圖像和模板庫中的每個模型做比較,時間效率不高。胡峰松等使用的Candide-3模型與正面人臉配準重建3D模型,對重建3D模型進行各種角度旋轉得到姿態不同的數字人臉。本文以Candide-3模型為基礎,對該模型進行簡化,提取其中的形狀和表情關鍵點與單幅人臉關鍵點配準,重建人臉幾何結構,以重建的幾何模型為基礎,對各三角網格進行紋理映射,得到較為逼真的特定人臉3D模型。根據文中確定的輸入圖像的姿態對3D人臉進行旋轉后實現人臉識別。實驗表明,文中對Candide-3模型的進一步簡化實現特定人臉重建提高了重建速度,減弱姿態表情對人臉識別的影響,通過三角網格的紋理映射,得到了更為逼真的人臉模型。
Candide模型是一種參數化的人臉網格模型,它包含了少量的網格結點和三角面片。Candide-3是由原始的Candide變化來,它由113個頂點、184個三角面片、65個運動單元,如圖1所示。每個頂點由三維坐標表示,即Pi=(xi,yi,zi)T,i∈ [1,113],所有113個點的坐標構成標準人臉模型,結合輸入圖像產生特定人臉的3D模型V。

圖1 Candide-3模型

式中:——標準模型;S——形狀單元;A——動作單元;R,s、t——姿態變換參數;σ、 ——靜態控制參數、動態控制參數。任何輸入圖像都可以通過調整這5個參數由珚V變換得到輸入圖像姿態下的模型V。
針對關鍵點的數量和類別,去除與重建結果關系小的頂點,如面部不易提取的特征點等,從而減少了標準模型的頂點個數,在不影響重建人臉的效果下提高重建速度。
輸入圖像首先要提取特征點才能與標準模型進行擬合,形成特定人臉模型,然后進行插值及紋理合成,最終得到重建人臉3D圖像。本文選擇了表示人臉形狀和姿態表情的正面關鍵點,替代Candide-3模型的113個點。所選擇的關鍵點如表1所示,標注在人臉上如圖2所示。

表1 關鍵點數據

圖2 特征點標注
人臉姿態就是指人臉相對于3個坐標軸的旋轉角度。人臉自由度是指人臉姿態的變化范圍。人臉的姿態變化由6個自由度決定,分別是X、Y、Z軸的平移和旋轉。當人臉對應的3個自由度都確定時,就得到了人臉的姿態數據。假設α、β、γ是人臉分別繞X、Y、Z軸旋轉形成的角度,即人臉的3個自由度:
(1)γ角的確定:人臉繞Z軸的平面旋轉形成γ角,可以直接使用兩眼連線與水平方向的夾角計算出來,幾何關系如圖3(a)所示。假設兩眼中心坐標分別為 (xl,yl,zl),(xr,yr,zr),那么,γ的計算公式為

(2)β角的確定:人臉沿Y軸左右旋轉形成β角。表現在人臉幾何特征關系之間是嘴巴中心點到兩眼連線的垂直線的交點發生了變化,如圖3(b)所示。通過分析w1、w2可以大體推斷出人臉繞Y軸旋轉的方向,也就是判斷出人臉是左轉還是右轉。當w1=w2時為正面人臉,當w1>w2時為左轉,相反為右轉。一般正面人臉的w1,w2的值約為65°,人臉右轉時w1變小,人臉左轉時w1變大。
(3)α角的確定:抬頭和低頭時人臉沿X軸旋轉形成α角。此時變化比較大的是嘴巴中心點到兩眼連線中心點的距離。當抬頭時距離變小,當低頭時距離變大,如圖3(c)所示,距離變化的本質是鼻尖點到嘴巴中心點距離的變化所致。假設兩眼連線中心與鼻尖點的距離為m,鼻尖點與嘴巴中心距離為n,一般情況下m,n的比例為3∶2。

圖3 人臉各姿態
在Candide-3中,AUs (Action Units)、AUV (action unit vector)是兩個不同但又有聯系的概念。AUs是面部的一個肌肉的基本行為單元,而AUV對應的是一個完整行為,一個AUV對應一個或多個AUs,如:AUV6表示一個眨眼動作,它由 AUs42 (Slit)、43 (Eyes Closed)、44(Squint)、45(Blink)共同作用組成,而不同的系數變化過程可以表示不同的動作,睜眼、閉眼也是由AUV6完成的。對于輸入圖像與3D模型進行配準時,首先選擇表示臉部靜態特征的關鍵點,在Candide-3中選擇少量的關鍵點,這些關鍵點分別確定了臉部高度參數、眉毛垂直位置、眼睛垂直位置、眼睛寬度、兩眼距離、鼻子z軸擴展及垂直位置、嘴巴的垂直位置、嘴寬、眼睛的高度、鼻尖高度,經這些關鍵點配準后相關的姿態參數R、s、t就可以確定。
輸入圖像與Candide-3模型各頂點之間的配準是特定人臉三維重建的關鍵,即參數調整和優化的過程。輸入圖像I0可以近似表示為訓練集中所有圖像的線性組合

式中:I——訓練集中圖像,m——訓練集圖像總數,ω——線性組合系數,ω*——使輸入圖像偏差最小的系數,則輸入圖像自動配準的模型V為

所以R,s,σ,t可按下式計算

ω*可以按如下計算求得

式中:A——訓練圖像矩陣,B——輸入圖像I0的像素點矢量,求得ω*后,即可用式 (5)結合訓練集中手工標定的配準模型的參數,計算輸入圖像的參數,實現了輸入圖像與模型之間的自動配準,然后,進行紋理合成即可得到特定人臉的三維模型。最后對模型進行旋轉變換得到各種姿態的模型。
2.4.1 平滑插值
由于人臉具有較多的不規則的凹凸,直接插值效果不理想[12-14],棱角分明,特別是鼻子、眼睛、嘴部輪廓的插值效果不夠理想,為此,將二維薄平面樣條函數推廣到三維空間,采用薄平面樣條函數作為式 (7)的基函數

式中:s——徑向基函數,x對應網格頂點的三維坐標,p——低階多項式,λ——徑向基系數,Φ——基函數。使s不僅能滿足插值條件,還能最小化其二階導數平方的積分。
2.4.2 網格分塊的紋理映射
基于圖像的視角相關紋理映射,在正面、左側90°、右側90°分別對模型作一次紋理映射,每個網格點在不同視角下,有紋理重合。正面紋理映射與側面紋理映射的分界線可以確定清晰有用的紋理和冗余紋理,消除冗余紋理,平滑分界線附近的顏色。對與分界面相交的三角形,紋理映射時將原來的三角形細分成兩個,對新三角形分別進行紋理映射。設分界面為z=zdepth,三角形一邊的兩個頂點坐標分別為 (x0,y0,z0)(x1,y1,z1),則經過這兩個頂點的直線為

此直線和分界面的交點為

得到了新三角形的頂點坐標,進而計算頂點法線,這樣就可以用分界面右側對應的紋理對右側三角形進行映射,分界面左側的三角形則用左側對應的紋理進行映射。
2.4.3 頂點紋理坐標
本文把網格模型和紋理圖像結合起來,分別按照網格中的三角片進行紋理映射,對每一個三角片的紋理映射,采用簡單的正交映射,其紋理坐標計算如下[15]

式中:(x,y,z)——模型所有頂點平移到第一象限后的坐標, (u,v)的3種形式分別對應了網格模型正面紋理坐標。
人臉表情主要通過人臉局部區域肌肉的變化而產生,3D臉部模型根據網格相關節點的位移實現人臉的表情變換,局部節點的位置變化會引起網格三角片的變化。線形肌肉模型是控制節點相關的有效方法,需要給節點的位移以必要的一種約束。
2.5.1 彈性約束
三維網格人臉表面要保持網格的整體結構,要求三角片自身對外力有反作用,可以采用Y.Zhang定義的非線性函數來模擬作用力和反作用力之間的關系,這種關系用點約束和邊約束來描述[16]。
假設模型任意一點xi與相鄰點xj采用結構彈性相連,dij為這兩點間初始狀態的距離,彈性抵抗力可用式 (11)計算

臉部皮膚點C在肌肉收縮力F作用下,當反作用力不能約束C點的運動時,使臉部網格結構遭到破壞,為了避免這種破壞,使用邊約束模型。

結合線性肌肉模型、點約束、邊約束,可以得到任意點的受力函數

將特定人臉模型根據姿態角進行旋轉,進行二維投影,使用PCA算法進行主成分提取,然后與二維健側人臉圖像進行識別。
平面圖像經過關鍵特征眼睛、眉毛、鼻子、嘴巴等的特征點提取,與模型配準,調整參數,得到特定人臉三角網格結構,如圖4所示。

圖4 人臉網格
由圖4可以看出,特定人臉網格比較稀疏,但能夠表示人臉的幾何結構。
本文選取了基本正面人臉圖像做紋理合成,網格模型使用的是簡化后的candide-3模型。得到較為逼真的三維特定人臉,如圖5所示,根據前面得到的輸入圖像的姿態角,對三維人臉進行旋轉后,再進行識別。
識別圖像采用JAFFE圖像庫中的15個人的214個不姿態、表情的圖像進行,采用PCA識別算法,計算機環境為Pentium 4CPU 2.00GHz、512MB內存,Windows XP系統,對圖像進行Candide-3模型識別與簡化的Candide-3模型識別準確率比較,得到如表2所示數據。

表2 直接識別與姿態校正后識別效果

圖5 特定三維人臉
本文分析了Candide-3模型,對該模型進行關鍵特征點的簡化,提出了基于網格模型的三角紋理合成的紋理映射。首先給出了姿態角的幾何結構確定方法,然后提取特征關鍵點并進行標注,與一般的模型進行配準,最后給出結構信息的重建參數模型和紋理的融合算法。通過實驗比較,經過姿態表情關鍵點的重建與Candide-3模型重建明顯提高了重建速度,經過姿態表情處理,提高了識別準確率。
[1]Boehnen C,Flynn P J.Accuracy of 3Dscanning technologies in a face scanning context[C].Washington,DC,USA:Proceedings of the Fifth International Conference on 3-D Digital Imaging and Modeling,2005:310-317.
[2]HU Yiding,ZHU Bin,GAN Junying.Face recognition with multiple pose based on 3-D face model [J].Computer Engineering and Design,2009,30 (7):1728-1731 (in Chinese).[胡異丁,朱斌,甘俊英.基于三維人臉建模的多姿態人臉識別 [J].計算機工程與應用,2009,30 (7):1728-1731.]
[3]Bowyer K W,Chang K,Flynn P J.A survey of approaches and challenges in 3Dand multi-modal 2D +3Dface recognition[J].Computer Vision and Image Understanding,2006,101(1):1-15.
[4]CHAI Xiujuan,SHAN Shiguang.Pose and illumination invariant face recognition based on 3Dface reconstruction [J].Journal of Software,2006,17 (3):525-534 (in Chinese).[柴秀娟,山世光.基于3D人臉重建的光照姿態不變人臉識別 [J].軟件學報,2006,17 (3):525-534.]
[5]HU Fengsong,LIN Yaping.Individual 3Dface generationbased on candide-3for face recognition [J].Journal of Hunan University(Natural Sciences),2008,35 (1):69-73 (in Chinese). [胡峰松,林亞平.應用于人臉識別的基于Candide-3特定人臉三維重建 [J].湖南大學學報,2008,35 (1):69-73.]
[6]HU Fengsong,ZHANG Maojun.Pose and illumination invariant face recognition based on HMM with one sample per person [J].Chinese Journal of Computers,2009,32 (7):1424-1431 (in Chinese).[胡峰松,張茂軍.基于HMM的單樣本可變光照姿態人臉識別 [J].計算機學報,2009,32 (7):1424-1431.]
[7]YANG Jun,LIU Zhifang.Pose invariant face recognition based on 3Dmodel[J].Opto-Electronic Engineering,2009,36 (1):140-145(in Chinese).[楊軍,劉直芳.基于三維模型的多姿態人臉識別 [J].光電工程,2009,36 (1):140-145.]
[8]CHANG K,Bowyer K,Flynn P.Effects on facial expression in 3Dface recognition [C].Proc of the SPIE,2005:132-143.
[9]ZHAO Minghua,YOU Zhisheng.Novel face recognition method based on 3Dmodel projection [J].Opto-Electronic Engineering,2007,34 (12):77-80 (in Chinese).[趙明華,游志勝.一種基于三維模型投影的人臉識別新方法 [J].光電工程,2007,34 (12):77-80.]
[10]WANG Chengzhang,YIN Baocai.An improved 3Dface modeling method based on morphable model[J].Acta Automatica Sinica,2007,33 (3):232-238 (in Chinese).[王成章,尹寶才.改進的基于變形模型的三維人臉建摸方法 [J].自動化學報,2007,33 (3):232-238.]
[11]ZHAO Minghua,YOU Zhisheng,LIU Zhifang,et al.Novel face recognition method based on 3Dmodel projection [J].Opto-Electronic Engineering,2007,34 (12):77-81.
[12]TAN X,CHEN S,ZHOU Z H,et al.Face recognition from a single image per person [J].Pattern Recognition,2006,39 (9):1725-1745.
[13]DU Bo,SHAN Shiguang,QING Laiyun,et al.Empirical com-parisons of several preprocessing methods for illuminationin-sensitive face recognition [C].Proceedings of the ICASSP,2005:981-984.
[14]O’Toole AJ,Phillips PJ,Jiang Fang,et al.Face recognition algorithms surpass humans matchingfaces over changesinil-lumination [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29 (8):532-541.
[15]ZHAO Xiangyang,DU Limin.An automatic and robust image mosaic algorithm [J].Journal of Image and Graphics,2004,9 (4):417-422.
[16]ZHU Yunfeng.Image-based 3Dmodel adaptation for face reconstruction and expression animation [J].Journal of System Simulation,2006,18 (8):409-413 (in Chinese).[朱云峰.基于圖像的臉部模型調整及表情動畫技術研究 [J].系統仿真學報,2006,18 (8):409-413.]