任延富,劉奇聰
(1.四川大學視覺合成圖形圖像技術國防重點實驗室,成都 610065;2.四川大學計算機學院,成都 610065)
人臉檢測是人臉相關任務的最基本的步驟,在實際應用中,移動端對算法的實時性要求越來越高,人臉識別任務需要人臉檢測、人臉特征點檢測作為前提,然而人臉特征點檢測還與頭部姿態估計有密切的關系。所以我們利用人臉特征點和頭部姿態估計與人臉檢測的內在關系提出基于多任務的人臉檢測算法。
十多年前V-J真正的把人臉檢測算法從理論應用到了實際,利用Haar的人工特征的級聯結構和集成算法進行快速的人臉檢測。但是該人臉檢測算法由于采用的人工設計的特征,表達能力有限,所以對頭部姿態比較大的人臉檢出率非常低,并且對光照的變化也不是很魯棒,但是基本達到了實時的檢測速度。
在傳統方法中,聯合多任務的人臉檢測也有許多研究學者進行研究。他們發現人臉相關的任務很大程度上與人臉檢測相關,并且他們之間可以相輔相成。孫劍等進行人臉特征點檢測與人臉檢測的聯合任務的研究,實驗證明了利用人臉特征點特征來同時判斷人臉檢測結果可以有效的降低誤檢率和提高召回率。他們利用像素差值特征進行提取人臉關鍵點特征,進而進行人臉特征點和是否是人臉的判斷。像素差值特征表達能力弱,對于頭部姿態極端的人臉非常受限。
考慮到頭部姿態與人臉檢測的關系,朱翔宇等提出多視角人臉模型進行頭部姿態和人臉特征點檢測的人臉檢測算法,首次把三個任務結合到一個算法中,通過不同視角的模型進行不同頭部姿態的估計,同時檢測出對應視角的人臉特征點,進而來判斷是否是人臉。雖然把三個任務結合到一個框架中,但是測試速度非常慢,一張圖片需要幾秒才能完全得出結果,完全應用不到實際當中。
近幾年,卷積神經網絡在計算機視覺領域取得了非常大的進步。例如圖像分類和人臉識別任務。利用卷積神經網絡可以自動的提取訓練數據中的特征,相比于手工設計的特征表達更具有泛化性。但是使用卷積神經網絡會導致速度瓶頸問題,所以我們采用兩個策略,首先盡量使用淺層網絡進行提取特征,但是這樣會導致提取的特征泛化性弱,可能對訓練集樣本表達不完全,所以我們采用級聯結構從粗到細進行人臉檢測,淺層網絡把容易負樣本和正樣本進行粗略的選擇,把更加難判斷的負樣本讓后面較深的網絡進行判斷。
利用級聯結構在淺層網絡中可以快速地拒絕簡單的負樣本,而把困難負樣本和正樣本在更加深的網絡層去判斷,深的網絡特征表達能力更強,而淺層網絡檢測速度更快。在最終的ONet網絡中,輸出人臉關鍵點和頭部姿態。三個網絡都輸出邊框回歸,通過回歸人臉候選框可以更好地進行非極大值抑制算法,盡可能地保持召回率和減少誤檢的可能。
Conv表示卷積層,后面數字表示卷積核,并且卷積層全部采用步長為1。MP表示最大值池化層,后面數字表示池化層核。對于人臉分類任務采用交叉熵損失函數,其他任務均采用歐氏距離損失函數,并且它們的權重都設置為1。詳細網絡結構參考圖1。

圖1
測試階段通過圖像金字塔進行尺度不變轉換,對每個尺度進行PNet,把PNet得到的結果進行邊框回歸得到更準確的候選框并送入RNet的輸入,最后通過ONet網絡得到候選框的人臉特征點和人臉位置和頭部姿態。頭部姿態為三維信息,分別為俯仰角(Pitch)、旋轉角(Yaw)和偏轉角(Roll),詳細過程參考圖2。
訓練人臉檢測采用WIDER-FACE數據庫,人臉特征點數據利用CelebA數據庫,頭部姿態數據采用AFLW數據庫進行數據的取樣,評估添加多任務的方法對人臉檢測的提升。只有在ONet中才添加人臉特征點和頭部姿態數據,并且這兩個任務都采用回歸方式進行輸出。
在FDDB數據庫對人臉檢測結果進行評估。采用離散和連續 IoU(Intersection-over-Union)方式進行評估。

圖2

圖3

圖4
圖3和圖4分別表示離散ROC曲線和連續ROC曲線,通過兩個圖可知添加多任務可以增加人臉檢測的召回率,并且可以減少誤檢。

圖5
本文給出了級聯結構聯合多任務進行人臉檢測算法,把人臉特征點與頭部姿態與人臉檢測的內在關系聯系起來提升人臉檢測任務,同時可以得到相對準確的人臉特征點信息和三維的頭部姿態信息。該方法對于遮擋、光照和姿態等多種挑戰具有很好的魯棒性。并且相比于其他深度神經網絡人臉檢測方法有更快速度,完全可以應用到實際場景中。未來我們要討論其他的人臉任務與人臉檢測的關系來進一步提升人臉檢測的效果。
[1]P.Viola,M.J.Jones.Robust Real-time Face Detection,International Journal of Computer Vision,2004,57(2):137-154.
[2]D.Chen,S.Ren,Y.Wei,X.Cao,J.Sun,Joint Cascade Face Detection and Alignment,in:European Conference on Computer Vision(ECCV)2014,2014.
[3]X.Zhu,D.Ramanan,Face Detection,Pose Estimation,and Landmark Localization in the Wild,in:Computer Vision and Pattern Recognition(CVPR),2012 IEEE Conference on,IEEE,2012:2879-2886.
[4]V.Jain,E.Learned-Miller,FDDB:A Benchmark for Face Detection in Unconstrained Settings,Tech.Rep.,University of Massachusetts,Amherst(2010).
[5]A.Krizhevsky,I.Sutskever,G.E.Hinton.Imagenet Classification with Deep Convolution Neural Networks.in Advances in Neural Information Processing Systems,2012:1097-1105.
[6]Y.Sun,Y.Chen,X.Wang,X.Tang.Deep Learning Face Representation by Joint Identification-Verification.in Advances in Neural Information Processing Systems,2014:1988-1996.
[7]S.Yang,P.Luo,C.C.Loy,X.Tang.WIDER FACE:A Face Detection Benchmark.arXiv Preprint arXiv:1511.06523.
[8]Z.Liu,P.Luo,X.Wang,X.Tang.Deep Learning Face Attributes in the Wild.in IEEE International Conference on Computer Vision,2015:3730-3738.
[9]M.K Stinger,P.Wohlhart,P.M.Roth,H.Bischof.Annotated Facial Landmarks in the Wild:A Large-Scale,Real-World Database for Facial Land-Mark Localization.in IEEE Conference on Computer Vision and Pattern Recognition Workshops,2011:2144-2151.