賈項南, 于鳳芹, 楊慧中, 陳 瑩
(江南大學 物聯網工程學院,江蘇 無錫 214122)
近年來,級聯形狀回歸模型在人臉特征點定位[1~5]領域取得了重大突破。Dollar P于2012年首次提出了級聯姿態回歸(cascaded pose regression,CPR)模型[6]預測物體的形狀。Cao X等人在CPR的基礎上提出了顯性形狀回歸算法(explicit shape regression,ESR)[7],并用于人臉特征點定位,模型總體計算量大且未考慮物體的遮擋問題。對此,Burgos-Artizzu X P等人提出了魯棒性級聯回歸方法(robust cascaded pose regression,RCPR)[8],采用智能重啟的初始化方法,并將遮擋信息引入到模型當中,實現了有遮擋的特征點定位,但模型仍然復雜。Ren S等人對級聯回歸進行了改進,提出了局部二值化特征(local binary features,LBF)回歸算法[9],采用平均形狀作為初始形狀,引入隨機森林作為局部學習器,但隨機森林結構復雜不利于構造,雖然提高了速度,但精度未改善。
本文針對以上問題,對級聯回歸模型進行改進研究:對模型的初始化方法進行改進,充分利用圖像的紋理信息,并提取特征點局部區域的方向梯度直方圖(histogram of oriented gradient,HOG)特征,采用普氏分析法得到最初人臉形狀與真實人臉形狀間的最佳仿射變換參數,建立圖像特征與仿射參數之間的映射關系,通過變換得到更接近真實人臉形狀的初始形狀提高模型的收斂速度和精度;在各個特征點局部區域構造隨機蕨局部學習器代替全局回歸器,并學習得到計算簡單且高度稀疏的局部二值化特征以提高模型的速度;采用全局線性回歸對局部學習得到的二值化特征進行計算得到形狀增量,更新每一級的預測形狀,實現人臉特征點定位。
人臉特征點定位是由初始形狀通過加上一系列回歸得到的形狀增量一步一步收斂于真實人臉形狀的過程。假設一幅人臉圖像有L個人臉特征點,人臉形狀可以表示為S=[x1,y1;x2,y2;…;xL,yL],S為2L維的矩陣,用于存儲人臉形狀在整幅圖像中的位置信息。給定人臉圖像I和初始人臉形狀S0,S的更新迭代過程如下
St=St-1+WtΨt(I,St-1),t=1,2,…,T
(1)
式中St為第t次迭代后的人臉形狀;Wt為線性回歸矩陣;Ψt(I,St-1)為特征映射函數,與人臉特征和上一級估計的形狀有關。
本文從初始化和模型回歸器的構造方式入手,對級聯回歸模型進行改進,使初始人臉形狀逐步收斂于真實人臉形狀,實現人臉特征點的定位。
二維仿射變換用于改變人臉形狀的旋轉角度、尺度和位置。整個仿射變換過程可以表示[10]
(2)
式中 (x0,y0)為原始坐標;(xn,yn)為變換后的新坐標;(xr,yr)為旋轉中心;θ為旋轉角度;txr,tyr為根據旋轉中心得到的水平和垂直方向偏移量;sx,sy分別為水平和垂直方向縮放尺度。通過普氏分析[11]得到最佳的仿射變換參數β1~β6,從初始人臉形狀每個特征點的3×3局部區域塊抽取HOG特征,通過學習6個線性回歸器建立從HOG特征到仿射變換參數β1~β2間的映射。訓練過程中,β1~β6表示如下
y1=β1,y2=β2,y3=β3+β1xr+β2yr
(3)
y4=β4,y5=β5,y6=β6+β4xr+β5yr
(4)
通過式(5)學習線性回歸模型

(5)
式中i為訓練樣本的圖片數量;φi為從最初的人臉特征點局部區域抽取的HOG特征;rk為權重向量;bk為偏移量。式(5)為線性最小方差問題。通過線性回歸模型的求解過程可以從訓練集中得到rk,bk。對于輸入的任意圖片,只需計算特征點局部區域的HOG特征,用訓練得到的回歸參數,即可求出仿射變換參數,進而求得變換后的初始形狀。

(6)

由于對各個特征點進行局部學習存在彼此之間相互獨立缺乏全局性約束且學習得到的二值化特征高度自由的情況。因此,采用全局線性回歸,聯合所有特征點的二值化特征,對其進行計算并求得形狀增量。將式(1)的求解過程轉化為目標函數式(7)的求最優值的過程
(7)
在學習過程中引入L2范數的正則項,λ控制正則化力度防止模型過擬合。通過式(7)學習得到全局回歸矩陣,回歸矩陣相乘得到形狀增量ΔSt=Ψt*Wt,結合上一級估計的形狀,即可得到本次迭代預測的形狀St=St-1+ΔSt,進入下一次迭代,直到預測的形狀收斂于真實人臉形狀,結束回歸過程。
改進的級聯回歸模型人臉特征點定位具體步驟為:
1)輸入人臉圖片I和人臉形狀S,計算仿射變換參數,提取HOG特征,建立映射關系,求出6個回歸器,計算變換后的初始形狀S0;
2)在人臉特征點周圍隨機選取P個像素,產生P2個像素差值特征,從中選出與回歸目標相關的F對像素差值特征和F個閾值;
3)根據步驟(2)選取的像素差值特征和閾值構造隨機蕨,對每一個特征點生成M個隨機蕨構成隨機蕨叢林,通過隨機蕨叢林對特征點周圍的紋理進行學習,得到二值化特征;
4)對于所有訓練樣本得到的二值化特征,采用全局線性回歸學習得到全局回歸矩陣,計算得到全局形狀增量ΔSt=Ψt*Wt,更新當前階段預測的形狀St=St-1+ΔSt;

6)輸入測試樣本I,隨機選擇S0,初始化S0,加載訓練集當前階段構造好的隨機蕨,對特征點局部區域的紋理進行編碼,得到二值化特征,加載在訓練過程中學習的全局回歸矩陣Wt,計算全局形狀增量,更新當前預測的形狀;
7)進入下一級回歸,重復步驟(6),直到初始人臉形狀收斂于真實人臉形狀,測試結束。
實驗運行環境為Windows7 64位,Intel Core i3—2310M CPU處理器,6GB內存,MATLAB R2016a仿真系統。采用公認的主流測試數據庫LFPW[12],HELEN[13],AFW[14]進行仿真實驗。LFPW包含了811張訓練圖像,224張測試圖像;HELEN庫包含了2 000張訓練圖像,330張測試圖像;AFW包含330張圖像,300張用于訓練,30張用于測試。3個數據集包含了大量遮擋,表情姿態豐富和光照變化的圖像,且數據集中均已給定了68個特征點作為真實人臉形狀,無需重新標定。由于數據庫中的圖像大小不一,本文通過人臉檢測框將樣本裁剪成120×120大小。
設置人臉特征數L為68,最大的迭代次數T為7,隨機蕨叢林包含的蕨數M為10,每一株蕨的深度F為5,半徑r為距離特征點的偏移量,每一級最佳特征提取的區域半徑和每一級隨機選取的像素特征個數P如表1設置。

表1 參數設置
為了從定量的角度驗證本文算法的有效性,在數據庫LFPW,HELEN,FW上分別與文獻[7~9],3種算法進行了對比。以樣本測試時定位速度作為時間的評價標準,均一化誤差[7]作為人臉形狀預測誤差的衡量標準
(8)
式中Si為預測的人臉形狀;i為真實人臉形狀;di為每個樣本瞳孔間的歐氏距離,用于對樣本誤差進行歸一化,以公平對比樣本之間的誤差。從表2可知,3個庫上,本文算法較文獻[7]定位誤差分別降低了25 %,15 %,13 %,較文獻[8]定位誤差分別降低了14 %,7 %,6 %。由于文獻[7,8]采用100級以上的回歸,所以,造成模型速度慢不能滿足實時性要求。3個庫中,本文算法與現公認定位效果較好的文獻[9]相比,誤差分別降低了15 %,7 %,12 %,時間分別減少了18 %,7 %,17 %。本文算法明顯優于其他3種算法。

表2 4種算法在3數據庫中誤差與時間對比
為了更直觀地評價本文算法的正確性和有效性,采用文獻[15]的評價標準,畫出積分誤差分布(cumulative error distribution,CED)曲線,如圖1所示,縱坐標為定位誤差小于均一化誤差的測試樣本數量占總的測試樣本數量的比率,CED曲線更能直觀展現在某一誤差上本文算法和其他3種算法特征點定位的正確率。圖1(a)為在數據庫LFPW上的CED曲線,圖1(b)為在數據庫HELEN上的CED曲線。從圖1(a)可以看出:本文算法總體上都優于其他3種算法,當樣本誤差為0.1時,本文算法實現了98 %的定位精度,而文獻[7~9]分別實現了89 %,94 %,97 %的定位精度。從圖1(b)可以看出:當樣本誤差為0.1時,本文算法實現了93 %的定位精度,而文獻[7~9]分別實現了88 %,91 %,93 %的定位精度。

圖1 2種數據庫上CED曲線
從定性的角度進一步分析實驗效果。圖2為在數據庫LFPW上的最終定位效果,第一行姿態偏轉較大,本文定位效果良好,由于姿態偏轉,導致文獻[7]嘴角定位失敗,文獻[8]左邊的顴骨定位失敗;第二行為表情豐富的圖像,由于本文充分利用紋理信息并在局部區域選擇具有判別性的特征,定位效果好于其他幾種算法;第三行分辨率較低,幾種方法對于兩頰的定位效果均不理想,文獻[7,8]對鼻孔定位失敗,文獻[9]對眉毛定位失敗;第四行光照變化,由于本文使用了像素差值特征對于光照有很好的魯棒性,較其他幾種算法實現了更好的定位效果;第五行右眼有遮擋,由于人臉未發生偏轉,幾種算法均實現了良好的定位效果。

圖2 LFPW庫上最終定位效果對比
提出了一種改進的級聯回歸模型人臉特征點定位方法,在多個具有挑戰性的數據庫上進行了仿真實驗,通過仿真實驗將本文算法與其他幾種算法進行了對比。實驗證明:本文算法具有模型規模小、運算速度快、定位精度高、實時性強等優點。但本文算法對于具有背景干擾的人臉圖像上特征點定位仍然存在不足,為今后主要研究的內容。
參考文獻:
[1] 孫君頂,劉曉惠,陳鵬鵬.基于改進局部方向模式的人臉識別[J].傳感器與微系統,2016,35(6):52-55.
[2] 李月龍,靳 彥,汪建鳴,等.人臉特征點提取方法綜述[J].計算機學報,2016,39(7):1356-1374.
[3] Ningbo H,Haibin L,Yiming Q,et al.Face super-resolution reconstruction and recognition using non-local similarity dictionary learning based algorithm[J].IEEE Journal of Automatica Sinica,2016,3(2):213-224.
[4] 黃 進,冬奇,陳毅能,等.混合現實中的人際交互綜述[J].計算機輔助設計與圖形學學報,2016,28(6):869-880.
[5] Meng Y,Lei Z,Jian Y,et al.Regularized robust coding for face recognition[J].IEEE Transactions on Image Processing,2013,22(5):1753-1766.
[6] Dollar P,Welinder P,Perona P.Cascaded pose regression[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2010:1078-1085.
[7] Cao X,Wei Y,Sun J.Face alignment by explicit shape regres-sion[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2012:2887-2894.
[8] Burgos-Artzzu X P,Perona P,Dollar P.Robust face landmark estimation under occlusion[C]∥IEEE International Conference on Computer Vision,2013:1-8.
[9] Ren S,Cao X,Wei Y,et al.Face alignment at 3 000 fps via regressing local binary features[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2014:1685-1692.
[10] Xuan L,Yidan X,Qi L,et al.Affine-transformation parameters regression for face alignment[C]∥IEEE Signal Processing Letters,2016:55-59.
[11] Gower J C.Generalized procrustes analysis[M].Vienna,Austria:Springer-Verlag,1975:33-51.
[12] Belhumeur P N,Jacobs D W,Kriegman D J,et al.Localizing parts of faces using a consensus of exemplars[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2011:545-552.
[13] Brandt V L,Lin Z,Bourdev L,et al.Interative facial feature localization[C]∥The 12th European Conference on Computer Vision,2012:679-692.
[14] Zhu X,Ramanan D.Face detection,pose estimation,and landmark localization in the wild[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2012:2879-2886.
[15] Shizhan Z,Cheng L,Chen C L,et al.Face alignment by coarse-to-fine shape searching[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2015:4998-5005.