梁洋洋 陳 宇 楊 健
(南京理工大學計算機科學與工程學院 江蘇 南京 210094)
?
基于深度自編碼器網絡的人臉特征點定位方法
梁洋洋陳宇楊健
(南京理工大學計算機科學與工程學院江蘇 南京 210094)
使用深度學習網絡技術的人臉特征點定位方法已經取得了比較突出的效果。然而,人臉圖像由于姿態、表情、光照、遮擋等變化而具有復雜多樣性,因此數目較多的人臉特征點(超過50個特征點)定位依然有很大的挑戰性。設計了三層級聯的自編碼器網絡,并通過由粗到精的方法對多數目的人臉特征點進行定位。第一層網絡以整張人臉圖像為輸入,直接估計人臉輪廓和部件位置,從而將特征點分成三部分(眼眉鼻,嘴巴和人臉輪廓)進行下一步定位;之后的兩層網絡分別對各部件特征點進行估計求精。在LFPW、HELEN數據庫上的實驗表明,該方法能夠提高人臉特征點定位的準確性和魯棒性。
人臉特征點定位深度學習自編碼器網絡逐步求精
人臉特征點定位在人臉識別、姿態估計、人臉跟蹤、人臉表情分析等大部分人臉感知任務中扮演著重要的角色。文獻[1] 中指出,錯誤的特征點定位會導致提取的人臉描述特征的嚴重變形,即使不精確的對齊也會帶來識別性能的快速下降。文獻[2]表明如果能夠獲得準確的人臉特征點位置,那么在人臉識別上簡單的特征就能到達領先的性能水平。由此可見,準確的定位是非常重要的前期準備步驟。人臉特征點定位的研究因此也得到了越來越多的關注和發展,然而,由于姿態、表情、光照、部分遮擋等因素導致人臉圖像的復雜多樣性,也給準確的定位帶來了巨大的挑戰。
在早期的一些方法中,主動形狀模型ASM(Active Shape Model)[3],主動表現模型AAM(Active Appearance Model)[4]在實驗室中建立的數據庫上具有了可靠的性能,在此基礎上,許多學者也提出了改進的方法[5-9]。然而,在真實環境應用中,在人臉外觀上的呈現出復雜多樣性時,這些方法通常會失效,主要原因為一個單一的線性模型很難刻畫人臉形狀所有非線性的變化。近年來,在自然環境下建立起來的數據庫變得非常流行,從而對人臉特征點定位方法提出了更多的挑戰。一些新的定位方法已在這些數據庫上取得了較好的成果。Piotr Dollar等人[10]提出級聯姿態回歸CPR(Cascaded Pose Regression)方法對初始形狀估計進行逐步的求精,每一個求精過程都由一個不同的回歸器實現,每個回歸器處理與前一個回歸器輸出相關的圖像度量,整個系統從訓練樣本中自動的學習。在此基礎上,Xavier P. B.等人[11]提出魯棒級聯姿態回歸RCPR(Robust Cascaded Regression),通過顯式表達是否存在遮擋,利用魯棒的形狀索引特征進行在遮擋環境下的人臉特征點定位。Cao等人[12]提出了一種高效準確的顯式形狀回歸模型。該方法設計了兩層增強回歸,利用形狀索引特征,使用基于相關的特征選擇方法直接學習出一個向量回歸函數來估計整個人臉形狀,并在訓練集中顯式地最小化定位誤差。Xiong等人[13]提出一種有監督的梯度下降方法SDM(Supervised Descent Method)解決復雜最小二乘問題,即從訓練數據中學習梯度下降的方向并建立相應的回歸模型,然后利用得到的模型來進行梯度方向估計,并應用于人臉對齊,取得了較好的效果。最近,深度自編碼器DAEs(Deep Auto-Encoders)、卷積神經網絡CNNs(Convolution Neural Networks)、受限波爾茲曼機RBMs(Restricted Boltzmann Machines)等深度網絡模型被廣泛應用于計算機視覺的各個領域[14],在特征點定位中也取得了突出效果。這主要得益于它強大的非線性擬合能力,能夠更好地學習到從人臉圖像到人臉形狀(特征點)的非線性映射關系。Wu等人[15]使用深度置信網絡DBNs(Deep Belief Networks)從人臉表情中捕獲人臉形狀變化特征,同時使用三元受限波爾茲曼機處理姿態變化。Luo等人[16]使用深度置信網絡進行人臉部件檢測,之后利用深度自動編碼器對每個部件進行訓練預測。Sun等人[17]使用三層深度卷積網絡DCNN(Deep Convolution Neural Networks)進行人臉特征點檢測,在第一階段,首先估計出所有特征點(5個)作為初始形狀,在之后的兩個階段中,對初始形狀的每一個特征點分別訓練深度網絡進行逐步求精。然而,該方法對初始形狀比較敏感,對每個特征點分別訓練深度網絡又不易擴展到特征點較多的情況。Zhang等人[18]提出由粗到精的自動編碼網絡CFAN(Coarse-to-Fine Auto-Encoder Networks)進行人臉特征點定位,在估計初始形狀之后,將所有特征點一起逐步求精。在以上深度模型基礎上,本文設計了三層級聯的自編碼器網絡,通過由粗到精的方法對數目較多的人臉特征點(超過50個)進行定位。第一層網絡以整張人臉圖像為輸入,并非直接估計所有特征點作為初始形狀,而是先估計出人臉輪廓和部件位置,從而將所有特征點劃分到若干部件;第二層針對不同部件分別訓練網絡對各個部件內特征點進行估計;第三層為每個部件訓練相應網絡并以部件為單位對其內所有特征點進行求精。實驗結果表明,這種方法能夠在定位多數目特征點的任務中提高估計的準確性和魯棒性。
在數目較多的人臉特征點定位任務中,如果使用一個單一的深度學習網絡對所有特征點進行估計,將導致網絡結構復雜和訓練過程困難,同時由于姿態、表情、光照等因素使得精確的定位更加困難。針對這一情況,本文設計了一個基于深度自編碼器網絡的人臉特征點定位方法,這一部分首先對設計的方法進行概述,然后分析自編碼器網絡的設計細節,最后給出實驗中的網絡設置參數。
1.1方法概述
本文設計了三層級聯的自編碼器網絡,并通過粗到精的方法對多數目的人臉特征點進行定位。如圖1所示,根據面部結構特征,我們將眉毛、眼睛和鼻子整體作為一個部件(包含31個特征點),嘴巴單獨作為一個部件(包含20個特征點),人臉輪廓作為一個部件(包含17個特征點),從而將所有特征點分成三部分。第一層深度網絡以整個人臉圖像作為輸入,訓練網絡直接估計出三個部件的邊框位置(邊框左上角和右下角點的坐標)作為輸出。通過邊框位置信息對人臉圖像進行剪裁,分別得到三個部件的圖像,作為第二層網絡的輸入,針對三種不同部件分別訓練第二層深度網絡對相應部件中的特征點做出初始的估計,得益于深度網絡對從圖像到特征點之間復雜的非線性映射關系的優良擬合能力,同時每個網絡僅對數目不多的特征點進行預測,使得第二層深度網絡的初始預測已經比較接近實地真值。鑒于人臉圖像在表情、姿態、光照等方面的較大變化,設計第三層深度網絡來刻畫描述這些變化,在當前特征點周圍提取的局部索引特征用于特征點定位是經常使用并且有效的方法[10-12],該層網絡也以各個部件局部索引特征作為輸入,分別預測當前特征點估計值與實地真值的偏差,以對特征點進一步求精,得到更加準確和魯棒的特征點坐標。整個方法公式表示如下:
S=S0+ΔS
(1)
其中,S表示最終人臉特征點(人臉形狀)估計值,S0表示第二層網絡對特征點的初始估計值,ΔS表示第三層網絡對上一層網絡特征點估計值與真實值的偏差估計值。
第一層估計各部件位置,將得到各個部件邊框左上角和右下角坐標,為便于顯示,圖中各部件位置用不同粗細的矩形框框出來,之后將各部件剪裁出來分別進行估計和求精,最后將所有部件特征點合并得到一個完整的人臉形狀。

圖1 方法概述
1.2深度自編碼器網絡
我們使用深度自編碼器網絡作為設計的三層級聯網絡的基本構件。給定一個由d維人臉(或人臉部件)圖像x∈Rd,Tg(x)∈Rp表示p維的目標輸出變量,各層的網絡學習出一個從圖像到目標值的映射函數F,如下所示:
F:x→T
(2)
一般來說,映射F是一個復雜的非線性函數,為了實現這一目標,k個單一的隱藏層自動編碼器被堆疊起來作為一個深度神經網絡來擬合這個映射函數。具體而言,各層網絡的任務可以看作最小化以下目標函數:

(3)
ai=fi(ai-1)=σ(Wiai-1+bi),i=1,2,…,k-1
(4)
fk(ak-1)=Wkak-1+bk
(5)
其中,F={f1,f2,…,fk},fi是深度網絡中第i層的映射函數,σ是sigmoid函數,ai是第i層的特征表示。自編碼器網絡中前k-1層神經元節點激活函數使用sigmoid函數來刻畫圖像特征與目標變量之間的非線性,然而,由于sigmoid函數的輸出范圍是[01],與目標變量范圍不一致,因此在網絡最后一層fk中神經元節點激活函數使用線性函數以得到目標輸出估計值。
(6)

自編碼器網絡在通過式(7)進行初始化后,網絡所有層參數按照式(6)進行微調,如此,自編碼器網絡的前幾層用來捕獲低層特征,如圖像中的紋理模式;較后面的幾層來刻畫包含紋理模式上下文信息的較高層的特征。網絡以圖像原始像素為輸入變量,以期望的回歸目標值作為輸出進行訓練,測試時,網絡的輸出值即為相應的預測值。
1.3實現細節
數據擴增:為了通過訓練得到一個魯棒的深度網絡,對每一個訓練樣本(按照數據集提供的人臉邊框提取的人臉圖像)進行隨機縮放和平移操作擴充樣本容量,這樣可以有效地防止深度網絡模型訓練過擬合,增強對自然環境下各種變化的魯棒性。
參數設置:實現中使用由三個非線性隱藏層和一個線性輸出層構成的深度自編碼器網絡模型來擬合非線性映射函數。調整輸入網絡的人臉(或人臉部件)圖像到固定大小(50×50像素),隱藏層神經元節點個數分別為取1600、900、300,在提取局部形狀索引特征時,我們在每個特征點周圍提取9×9的小塊,式(6)中的權重衰減項參數α用來控制樣本集均方差項和權重衰減項的相對重要性,實驗中取值為0.001。
為了評估所文中設計方法的性能,我們在常用人臉特征點定位數據庫上進行了多次實驗。這一部分首先介紹所使用的數據庫,之后給出實驗結果與分析。
2.1數據庫介紹
我們在LFPW[19]和HELEN[20]兩個數據庫上進行了多次實驗,這兩個數據庫中的圖片在姿態、光照、表情方面變化較大,并且存在一些遮擋,是近幾年提出的在自然環境條件下的人臉對齊數據庫,具有一定的挑戰性,廣泛應用于理論研究。LFPW數據庫中包含1132張訓練集圖片和300張測試圖片,由于該數據庫只提供了圖片鏈接并且有些鏈接已經失效,我們使用IBUG[21]提供的數據庫圖片,包含811張訓練集圖片和224張測試集圖片。HELEN數據庫為高分辨率圖片庫,由2000張訓練集圖片和330張測試集圖片構成。兩個數據庫中的人臉圖片均標注由300-W提供的68個人臉特征點。
2.2實驗結果與分析
實驗結果采用平均估計誤差和失效率兩個指標來度量所設計方法的性能,這兩個指標顯示了一個特征點定位算法的準確度和可靠性。估計誤差公式如下:
(8)
其中,(x,y)和(x′,y′)分別表示特征點真值坐標和估計坐標,d表示估計誤差標準化因子。如果估計誤差超過10%,則認為估計失效。兩眼中心距離常用來作為估計誤差標準化因子,然而,與正臉相比,側臉兩眼中心的距離較短,使用兩眼中心距離作為估計誤差標準化因子在人臉姿態變化較大時顯然是不合適的,這一點在文獻[22]中也被提出。因此,實驗中我們使用人臉邊框的水平方向上像素個數(邊框寬度)作為估計誤差標準化因子進行性能度量。
我們將文中設計的方法和主動表現模型(AAM)方法[4]和有監督梯度下降方法(SDM)[13]進行比較。AAM方法主要通過網絡資源提供的API實現[23],SDM方法發布的代碼只估計了49個特征點,為了統一比較,借鑒源代碼重新實現了估計68個特征點的版本。
表1和表2分別給出了在LFPW和HELEN數據庫上的平均估計誤差和失效率。與AAM和SDM方法相比,文中設計的方法在兩個數據庫上平均估計誤差最小,失效率最低(表中用粗體呈現),表明文中設計的方法在特征點定位的準確度和可靠性(魯棒性)上有相應提高。圖2給出了在LFPW(左三列)和HELEN(右三列)數據庫上結果對比。從上到下依次為:實地真值、AAM方法、SDM方法和本文設計的方法。從圖中可以看出,當人臉姿態或表情有較大變化時,鼻子和嘴巴處的特征點準確定位比較困難,然而,文中設計的方法在應對這種姿態或表情變化有一定的魯棒性。圖3和圖4分別給出了文中設計方法在LFPW和HELEN數據庫上的一些特征點定位結果,這些人臉圖片在姿態、表情、年齡、膚色都有變化,有的還存在一些遮擋,盡管如此,我們設計的方法依然能夠比較準確地定位。

表1 LFPW數據庫上不同方法比較結果

表2 HELEN數據庫上不同方法比較結果

圖2 不同數據庫和不同方法同方法的對比結果

圖3 LFPW數據庫上一些樣本的結果

圖4 HELEN數據庫上一些樣本的結果
本文在深度學習網絡基礎上,針對在數目較多的人臉特征點定位任務中,使用單一的網絡導致結構復雜、學習困難、定位不夠準確的情況,設計了一個三層級聯自編碼器深度學習網絡。將整個人臉特征點劃分在若干部件范圍內,從而對每個部件內特征點進行估計并求精,最后合并所有部件得到整個人臉圖像上的全部特征點位置。實驗表明該方法在自然環境下采集的人臉圖像數據庫LFPW和HELEN上取得比較準確的定位效果。
[1] Shan S G, Chang Y Z, Gao W. Curse of mis-alignment in face recognition: problem and a novel mis-alignment learning solution[C]//6th IEEE International Conference on Automatic Face and Gesture Recognition, Seoul, South Korea, 2004. Washington, DC: IEEE Computer Society, 2004:314-320.
[2] Chen D, Cao X D, Wen F, et al. Blessing of dimensionality: high-dimensional feature and its efficient compression for face verification[C]//26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Portland, OR, 2013. Washington, DC: IEEE Computer Society, 2013:3025-3032.
[3] Cootes T F, Taylor C J, Cooper D H, et al. Active shape models-their training and application [J]. Computer Vision and Image Understanding, 1995,61(1):38-59.
[4] Cootes T F, Edwards C J, Taylor C J, et al. Active appearance models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. Mach,2011,23(6):681-685.
[5] Matthews I, Baker S. Active appearance models revisited [J]. International Journal of Computer Vision, 2004,60(2):135-164.
[6] Milborrow S, Nicolls F. Locating facial features with an extended active shape model [C]//10th European Conference on Computer Vision (ECCV), Marseille, France, 2008. Berlin Heidelberg: Springer, 2008:504-513.
[7] Sauer P, Cootes T, Taylor C. Accurate regression procedures for active appearance models [C]//22nd British Machine Vision Conference (BMVC), University of Dundee, 2011. Norwich, UK: BMVA Press, 2011:1-11.
[8] Cootes T F, Ionita M C, Lindner C, et al. Robust and accurate shape model fitting using random forest regression voting [C]//12nd European Conference on Computer Vision (ECCV), Florence, Italy, 2012. Berlin Heidelberg: Springer, 2012:278-291.
[9] Zhao X, Shan S, Chai X, et al. Locality-constrained active appearance model[C]//Asian Conference on Computer Vision (ACCV), Daejeon, Korea, 2012. Berlin Heidelberg: Springer, 2013:636-647.
[10] Dollar P, Welinder P, Perona P. Cascaded Pose Regression[C]//23rd IEEE Conference on Computer Vision and Pattern Recognition (CVPR), San Francisco, 2010. Washington, DC: IEEE Computer Society, 2010:1078-1085.
[11] Burgos-Artizzu X P, Perona P, Dollar P. Robust face landmark estimation under occlusion[C]//IEEE International Conference on Computer Vision (ICCV), Sydney, 2013. Washington, DC: IEEE Computer Society, 2013:1513-1520.
[12] Cao X D, Wei Y C, Wen F, et al. Face alignment by explicit shape regression[J]. International Journal of Computer Vison. 2014,107(2):177-190.
[13] Xiong X H, De la Torre F.Supervised descent method and its application to face alignment[C]//26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Portland, OR,2013. Washington, DC: IEEE Computer Society, 2013:532-539.
[14] Bengio Y. Learning deep architecture for AI[J].Foundations and Trends in Machine Learning,2009,2(1):1-127.
[15] Wu Y, Wang Z, Ji Q. Facial feature tracking under varying facial expressions and face poses based on restricted boltzmann machines [C]//26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Portland, OR, 2013. Washington, DC: IEEE Computer Society, 2013:3452-3459.
[16] Luo P,Wang X, Tang X. Hierarchical face parsing via deep learning [C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Providence, Rhode Island, 2012. Washington, DC: IEEE Computer Society, 2012,157(10):2480-2487.
[17] Sun Y, Wang X G, Tang X O. Deep convolutional network cascade for facial point detection[C]//26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Portland, OR, 2013. Washington, DC: IEEE Computer Society, 2013:3476-3483.
[18] Zhang J, Shan S G, Kan M N, et al. Coarse-to-fine auto-encoder networks (CFAN) for real-time face alignment[C]//13rd European Conference on Computer Vision (ECCV), Zurich, Switzerland, 2014. Switzerland: Springer, 2014:1-16.
[19] Belhumeur P N, Jacobs D W, Kriegman D, et al. Localizing parts of faces using a consensus of examples[J].IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 2013, 35(12):2930-2940.
[20] Le V, Brandt J, Lin Z, et al. Interactive facial feature localization[C]//12nd European Conference on Computer Vision (ECCV), Florence, Italy, 2012. Berlin Heidelberg: Springer, 2012:679-692.
[21] Christos S, Georgios T, Stefanos Z, et al. 300 faces in-the-wild challenge: the first facial landmark localization challenge[C]//IEEE International Conference in Computer Vision Workshops (ICCVW), Sydney, 2013. Washington, DC: IEEE Computer Society, 2013:397-403.
[22] Zhu X, Ramanan D. Face detection, pose estimation, and landmark localization in the wild[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Providence, RI, USA, 2012. Washington, DC: IEEE Computer Society, 2012:2879-2886.
[23] Mikkel B Stegmann. http://www.imm.dtu.dk/~aam/.
FACIAL LANDMARK LOCALISATION APPROACH BASED ON DEEP AUTOENCODER NETWORKS
Liang YangyangChen YuYang Jian
(School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, Jiangsu, China)
Facial landmarks localisation methods using deep learning network technology have achieved prominent effect. However, the localisation of larger number of facial landmarks (more than 50 points) still have lots of challenges due to the complex diversities in face images caused by pose, expression, illumination and occlusion, etc. This paper designs a three-level cascaded autoencoder network, which are employed to locate a large number of facial landmarks in a coarse-to-fine manner. The first level of the network estimates facial contour and component positions directly by tacking the whole face image as input, which divides landmarks into three parts (eyes and nose, mouth, and facial contour) for the next localisation steps; the following two level of the network estimate and refine the landmarks of each part respectively. Experiments conducted on LFPW, HELEN databases show that the approach can improve the accuracy and robustness of facial landmark localisation.
Facial landmark localisationDeep learningAutoencoder networksCoarse-to-fine
2015-06-25。國家自然科學基金面上項目(61472187)。梁洋洋,碩士生,主研領域:人臉識別。陳宇,博士生。楊健,教授。
TP3
A
10.3969/j.issn.1000-386x.2016.09.033