






收稿日期:2023-04-22
DOI:10.19850/j.cnki.2096-4706.2023.21.020
摘" 要:人臉特征點的檢測和提取一直是計算機視覺領域研究的前沿課題和方向,同時在人機交互、身份識別、視頻會議、汽車安全駕駛等領域有著廣闊的應用前景。檢測和提取方法的有效性主要取決于人臉姿態、表情、面部橫紋特征,以及外部遮擋、光照條件等因素。國內外研究者一直致力于提升人臉特征點檢測和提取方法的高效性和魯棒性,各種方法層出不窮。文章從人臉特征點構成和布局入手,對國內外在該領域的研究工作進行歸納、分析和比較,并對較為突出的缺陷進行總結,最后對人臉特征點檢測和提取的發展方向進行展望。
關鍵詞:特征點;計算機視覺;光照補償;人工智能;深度學習
中圖分類號:TP391.4" 文獻標識碼:A" 文章編號:2096-4706(2023)21-0085-05
Overview of Facial Feature Point Extraction Methods
ZHAO Xiaogang, RUAN Jiashuai
(School of Information Engineering, Zhengzhou University of Industrial Technology, Zhengzhou" 451100, China)
Abstract: The detection and extraction of facial feature points has always been a cutting-edge topic and direction in the field of computer vision research, and has broad application prospects in fields such as human-computer interaction, identity recognition, video conferencing, and safe driving in automobiles. The effectiveness of detection and extraction methods mainly depends on factors such as facial posture, facial expressions, facial horizontal features, as well as external occlusion and lighting conditions. Domestic and foreign researchers have been committed to improving the efficiency and robustness of facial feature point detection and extraction methods, and various methods have emerged one after another. This paper starts with the composition and layout of facial feature points, summarizes, analyzes, and compares research work in this field at home and abroad, summarizes the prominent defects, and finally looks forward to the development direction of facial feature point detection and extraction.
Keywords: feature point; computer vision; light compensation; artificial intelligence; Deep Learning
0" 引" 言
近年來,人臉特征點檢測取得了巨大的進步,并且其應用領域也日趨廣泛和深入,為虛擬現實、人工智能、三維重建、面部識別等方面的發展提供了有力的支持和保障。
人臉特征點檢測和提取的目標是在規避相應干擾因素影響的前提下,盡可能完整、高效地提取目標人臉的面部特征點。算法的實現可簡要歸納為:對于圖像或視頻序列中的目標人臉面部特征點,利用二維向量[x,y]T表征面部單一特征點位置,所有n個特征點位置可記作s = [x1,y1,x2,y2,…,xn,yn]T,因此檢測特征點,也就是確定特征點的二維坐標。由于在檢測的過程中,受到多種因素的干擾,例如遮擋、光照條件、姿態、表情、圖像低分辨率等因素,人臉特征點的檢測方法一方面要提升對于真實人臉特征點的檢測精度,同時還要盡量規避干擾因素的影響。
傳統的方法主要有兩大類:基于特征點和基于模板匹配。基于特征點的人臉檢測根據其特征點數量可以分為單特征點檢測和組合特征點檢測[1]。單特征點檢測方法由一種類型的特征組成特征向量,該方法的優點是基于膚色模型,能夠應對顏色、光照等因素,但對于姿態、陰影、邊緣等復雜區域膚色特征的提取效果不佳。基于此,可將待檢區域的一定數量的特征點按照一定規則進行組合,組成特征點向量,在一定程度上解決了姿態、陰影、邊緣對于人臉檢測準確率的影響。典型的應用是Chakraborty等人[2]首先選擇適應的膚色模型,然后制定相應的特征向量構成規則,提取了更多的人臉特征點數量,在一定程度上提升了人臉檢測的效率,但缺點是特征點向量的構成規則與特征點的數量關系密切,隨著特征點數量的增大,制定規則的難度也隨之加大,進而造成實用性較差。
經過進一步的探索和研究,可將大量的特征點應用于形變模型的創建,即利用模板匹配進行人臉檢測。其主要原理是:利用人臉數據庫創建相應的模板,其次是構建能量函數設計匹配算法,能量函數值取決于模板與匹配對象的差異性大小。此領域,彈性模板[3]的應用較廣。但此方法的缺點也比較突出,主要表現在能量函數的權重系數很難確定。
目前主流的方法大致分為基于統計模型的人臉特征點檢測方法和基于深度學習的人臉特征點檢測方法。本文將從這兩類方法入手,重點介紹目前國內外研究者在該領域的研究成果,并作出歸納、分析和比較。
1" 基于統計模型的人臉特征點檢測方法
基于統計模型的方法通常需要建立大量的樣本庫,然后建立相應的形狀模型(Shape Model)和表觀模型(Appearance Model),并經過一定數量的圖像匹配,不斷優化算法,最終找到適應的模型參數。主動外觀模型(Active Appearance Model, AAM)[4]和局部約束模型(Loca Constrained l Model, LCM)[5]的相繼提出開啟了該領域的先河,后期對這兩大算法的優化主要從整體分析和局部分析進行。
1.1nbsp; 整體分析
AAM的主要思想是將N個基準點si = [x1,y1,x2,y2,…,xN,yn]訓練到每一個目標圖像,得到訓練形狀基準模型 ,其中 ,所以稱之為整體分析方法。算法優化的目標是經過不斷的訓練,進而找到最優的模型參數,使之與待檢測圖像的相似度最高。圖1為AAM算法優化過程。
AAM算法能夠有效組合目標的外觀信息和形狀信息,可以取得較好的圖像分割效果,但同時在實際應用中也存在著一些問題。例如AAM算法采用梯度下降法尋找最優解,那么初始值的選擇就會決定迭代的次數;AAM模型對于光照和姿態的變化比較敏感,使得匹配精度下降;由于AMM將紋理切分為三角網格后進行對齊和誤差最小化,并采用全局最優的方式尋解。找到的特征點為網格的頂點,梯度下降的對象是其相鄰的面片的紋理,相鄰的面片數多且對應在基礎形狀中像素數較多的頂點其精度相比較少的頂點精度要高,而位于臉部邊緣的頂點由于僅有一側有紋理信息,精度會較低,容易向臉內部塌縮。
為了有效解決初始值對迭代次數的影響,該領
域的科研工作者做了大量的努力和嘗試。COOTES等
人[4,5]提出的典型相關分析算法(Canonical Correlation Analysis, CCA),在一定程度上提升了線性回歸匹配的準確性,但精度受到嚴重限制。Saragih等人[6]提出利用Boosting方法構建非線性分類器來表征參數增量和外觀之間的映射關系,Williams等人[7]提出使用關聯向量機制(Relevance Vector Machine, RVM)進行匹配優化。Sauer等人[8]對線性回歸、Boosting方法、隨機森林回歸(Random Forest Regression, RFR)算法進行了對比,發現隨機森林回歸的性能使最優的。Matthews等人[9]提出的反向組合算法(Inverse Compositional Algorithm, ICA)將梯度下降算法和形狀模型(Shape Model)參數、外觀模型(Appearance Model)參數結合起來,明顯提高了梯度下降算法的匹配效率,但泛化性能欠佳。一些改進工作隨即展開,Alabort-i-Medina等人[10]提出了貝葉斯外觀模型(Bayesian Active Appearance Model, BAAM),在匹配的過程中只需考慮形狀模型(Shape Model)參數,對于一定的人臉圖像數據庫,該模型能夠有效地提升人臉特征點的檢測效率和準確度。
1.2" 局部分析
AAM算法及其相關優化算法都是從整體進行匹配,對于邊緣區域特征點容易出現誤檢或漏檢。為此,引入局部約束模型(Local Constrained Model, LCM)對候選匹配特征點鄰域內的塊進行建模,形成局部圖像塊,進而構建局部外觀模型,能夠有效提升檢測的普適性和算法的魯棒性,如圖2所示。關于局部約束模型的改進主要從構建可靠的局部模型和高效的匹配策略兩方面著手。
神經網絡(Neural Network)[11]、支持向量機(Support VECTOR Machine, SVM)[12]等與機器學習相關的方法被陸續引入到局部約束模型,但都是從分類和回歸兩個方面構建檢測器對特征點進行檢測。相對于分類的檢測器,回歸的檢測器能夠感知局部圖像塊與真實特征點之間的距離,所以計算機的效率和準確度會更高。由于局部檢測器以圖像灰度值為基礎,所以很容易受到光照條件、遮擋等因素的影響,因此Lowe等人[13]提出尺度不變特征轉換算法(Scale-invariant feature transform, SIFT),該算法是基于物體的一些局部外觀興趣點,與圖像的大小和旋轉無關,對于光線、噪聲的容忍度也相當高。方向梯度直方圖(Histogram of oriented gradient, HOG)[14]算法與SIFT算法有很多相似之處,主要不同在于HOG描述器是在一個網格密集的、大小統一的細胞單元上計算,同時還采用了局部對比度歸一化技術(overlapping local contrast normalization)。隨著光照條件的變化,圖像整體亮度也會隨距離的改變而單調改變,因此采用直方圖均衡、直方圖標定、局部二元模式(Local Binary Pattern, LBP)[15]來解決單調變化問題。Papageorgiou等人[16]提出了(Haar-like features)算法,極大地提高了計算的速度。
1.3" 對比與總結
整體分析方法的優勢在于線性建模的高效性,但在復雜的表情、橫紋、遮擋、邊緣等情況下,計算的復雜度極高,而且易出現誤檢和漏檢現象。局部分析方法以單獨特征點為鄰域構建矩形區域,能夠有效應對復雜的光照條件和遮擋情況,具有較強的魯棒性,但計算代價過高。
兩種分析方法都依賴于形狀和外觀模型,而模型的構建一直制約著基于統計模型的人臉特征點檢測方法。近年來,相關研究者一直致力于模型的高效構建和改良,但由于采集人臉數據時受到光照、表情、姿態等多重因素的影響,因此很難通過對樣本的訓練形成統一的形狀和外觀模型,使得基于統計模型的人臉特征點檢測方法的泛化性能較差。所以需要引入深度學習的方法,以提升算法的靈活性和適應性。
2" 基于深度學習的人臉特征點檢測方法
深度學習的應用領域非常廣泛,在數據挖掘、目標搜索、機器學習、自然語言處理等領域都取得了很多成果,其在人臉特征點檢測方面的應用主要涉及三類方法:基于卷積運算的神經網絡(CNN)、基于多層神經元的自編碼神經網絡和基于多任務神經網絡。
2.1" 基于卷積運算的神經網絡(CNN)
經過廣大科研工作者的不斷探索和努力,發現卷積神經網絡(Convolutional Neural Network, CNN)在人臉特征點檢測方面的性能尤其突出,對特征的提取主要通過卷積運算、權值共享、池化進行,如圖3所示。Sun等人[17]提出的深度卷積神經網絡(Deep Convolutional Neural Network, DCNN)方法,顛覆了傳統的基于統計模型的特征檢測方法,極大地提升了人臉特征點的定位精度,但該網絡只對眼中心、鼻尖、嘴角五個關鍵特征點進行了檢測,缺乏全局性。Zhang等人[18]提出了與DCNN結構類似的粗精自動編碼器網絡(Coarse-to-Fine Auto-Encoder Network, CFAN),通過4個自動編碼網絡,逐級進行非線性回歸,實現由粗到細的人臉特征點定位。為了解決人為標注特征點帶來的誤差,Trigeorgis等人[19]提出了非線性級聯回歸模型(Nonlinear Cascade Regression Model, NCRM),并引入遞歸神經網絡(Recursive Neural Network, RNN)對算法進行優化。
2.2" 基于多層神經元的自編碼神經網絡
自編碼神經網絡結構如圖4所示,最早Ackley等
人[20]在玻爾茲曼機(Restricted Boltzmann Machine, RBM)[21]上進行了首次嘗試,并對其表征學習能力進行了驗證。自編碼神經網絡對相關特征進行降維,能夠提升檢測效率,并且不損害其正確率。將其應用于人臉特征的檢測,最早是由Wu等人[22]提出的,具體流程是首先構造一個人臉形狀模型,然后利用RBM尋找人臉和偽人臉之間的關系模式,最后利用關系模式定位人臉特征點,但如果遮擋面部,此方法將無從適用。基于此,Luo等人[23]提出了基于深度學習的解析框架,該方法通過深度置信網絡(Deep Belief Network, DBN)[24]生產面部、區域、塊檢測層,通過自編碼神經網絡生成特征點分割層,利用貪心算法求出最優解。
2.3" 基于多任務神經網絡
由于面部表情、姿態等與人臉特征點具有共同的外觀特征,所以多任務卷積神經網絡(Multi-Task Cascaded Convolutional Neural Network, MTCNN)[25]將人臉特征點檢測與其進行聯合,使MTCNN不斷學習這些外觀特征,以提高檢測的正確率。MCTNN模型主要由候選網絡(Proposal Network, P-Net)、優化網絡(Refine Network, R-Net)、輸出網絡(Output Network, O-Net)三個子網絡組成。
候選網絡(P-Net):該網絡層從原始圖像獲得人臉候選區域,并進行回歸和校準,最后利用非極大值抑制(Non-Maximum Suppression, NMS)整合重合或相似的候選框。如圖5所示。
優化網絡(R-Net):相對于P-Net,該網絡層增加了全連接層,對經過P-Net處理過的區域進行優化,進一步去除偽人臉區域。如圖6所示。
輸出網絡(O-Net):該層在R-Net基礎上增加了卷積層,對候選區域進行進一步的優化處理,輸出左右眼角、鼻尖、左右嘴角5個關鍵特征點。如圖7所示。
針對三維人臉特征點檢測和視頻序列人臉特征點檢測,Zhu等人[26]和Liu等人[27]分別提出了三維形變模型(3D Morphable Model, 3DMM)和雙流變壓器網絡(Two-Stream Transformer Network),從空間和時間維度給出了具體的特征點檢測方法。
2.4" 對比與總結
深度學習方法引入到人臉特征點檢測的主要目的是為了有效規避姿態、表情、光照等因素的影響。從各種方法的檢測結果來看,深度學習方法有效提升了人臉特征點檢測的準度和精度。但深度學習需要對大量樣本進行訓練,同時,構建的模型較為復雜,包含較多的卷積層,計算復雜度較高。分別利用三類算法在CAS-PEAL人臉庫和WIDER FACE數據集對左右眼、鼻尖、左右嘴角五個關鍵特征點進行檢測,DCNN和MCTNN對五個關鍵特征點檢測的精度要優于CNN算法,MCTNN對邊緣區域特征點檢測的正確率明顯優于另外兩種方法。
3" 結" 論
本文從人臉特征點檢測的本質出發,結合該領域國內外的研究進程和現狀,對人臉特征點檢測的方法進行的歸納、分析和總結。難點和瓶頸主要在于模型的構建和怎樣規避表情、姿態以及遮擋等因素的影響,也為下一步的研究指明了方向。
參考文獻:
[1] 朱文佳,戚飛虎.快速人臉檢測與特征定位 [J].中國圖象圖形學報,2005,10(11):1454-1457.
[2] CHAKRABORTY D. An illumination invariant face detection based on human shape analysis and skin color information [J].Signal amp; Image Processing,2012,3(3):55-63.
[3] 李耀東,崔霞,肖柏華,等.自動人臉識別技術綜述 [J].計算機科學,2002,29(12):1-11.
[4] COOTES T F,EDWARDS G J,TAYLOR C J. Active Appearance Models [J].IEEE Transactions on Pattern Analysis amp; Machine Intelligence,2001,23(6):681-685.
[5] CRISTINACCE D,COOTES T F. Feature detection and tracking with constrained local models [C]//Proceedings of British Machine Vision Conference2006.Edinburgh:BMVA Press,2006:1-10.
[6] SARAGIH J,GOECKE R. A Nonlinear Discriminative Approach to AAM Fitting [C]//2007 IEEE 11th International Conference on Computer Vision.Rio de Janeir:IEEE,2007:1-8.
[7] WILLIAMS O,BLAKE A. Sparse Bayesian learning for efficient visual tracking [J].IEEE Transactions on Pattern Analysis amp; Machine Intelligence,2005,27(8):1292-1304.
[8] SAUER P,COOTES T,TAYLOR C J. Accurate Regression Procedures for Active Appearance Models [C]//Proceedings of British Machine Vision Conference.Dundee:BMVA Press,2011:1-11.
[9] MATTHEWS I,BAKER S. Active Appearance Models Revisited [J].International Journal of Computer Vision,2004,60(2):135-164.
[10] ALABORT-I-MEDINA J,ZAFEIRIOU S. Bayesian Active Appearance Models [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:3438-3445.
[11] BALTRUSAITIS T,ROBINSON P,MORENCY L P. Constrained Local Neural Fields for Robust Facial Landmark Detection in the Wild [C]//2013 IEEE International Conference on Computer Vision Workshops.Sydney:IEEE,2013:354-361.
[12] ASTHANA A,ZAFEIRIOU S,CHENG S Y,et al. Robust Discriminative Response Map Fitting with Constrained Local Models [C]//IEEE Conference on Computer Vision amp; Pattern Recogni-tion.Portland:IEEE,2013:3444-3451.
[13] LOWE D G. Object Recognition from Local Scale-Invariant Features [C]//Proceedings of the Seventh IEEE International Conference on Computer Vision.Kerkyra:IEEE1999,2:1150-1157.
[14] ZHU X X,RAMANAN D. Face detection, pose estimation, and landmark localization in the wild [C]//2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence:IEEE,2012:2879-2886.
[15] LIENHART R,MAYDT J. An extended set of Haar-like features for rapid object detection [C]//Proceedings. International Conference on Image Processing.New York:IEEE,2002:1-4.
[16] PAPAGEORGIOU C,POGGIO T. Trainable pedestrian detection [C]//Proceedings 1999 International Conference on Image Processing (Cat. 99CH36348).Kobe:IEEE,1999,4:35-39.
[17] SUN Y,WANG X G,TANG X O,et al. Deep learning face repre-sentation by joint identification-verification [J/OL].arXiv:1406.4773 [cs.CV].[2023-03-20].https://arxiv.org/abs/1406.4773.
[18] ZHANG J,SHAN S G,KAN M,et al. Coarse-to-Fine Auto-Encoder Networks (CFAN) for Real-Time Face Alignment [C]//European Conference on Computer Vision.Zurich:Springer,2014:1-16.
[19] TRIGEORGIS G,SNAPE P,NICOLAOU M A,et al. Mnemonic descent method: a recurrent process applied for end-to-end face alignment [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:4177-4187.
[20] ACKLEY D H,HINTON G E,SEJNOWSKI T J. A Learning Algorithm for Boltzmann Machines [J].Cognitive science,1985,9(1):147-169.
[21] SMOLENSKY P. Information processing in dynamical systems: Foundations of harmony theory [M]//Rumelhart D E.explorations in the microstructure of cognition.Cambridge,MA:MIT Press,1986:194-281.
[22] WU Y,WANG Z G,JI Q. Facial Feature Tracking under Varying Facial Expressions and Face Poses based on Restricted Boltzmann Machines [C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland:IEEE,2013:3452-3459.
[23] LUO P,WANG X G,TANG X O. Hierarchical face parsing via deep learning [C]//2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence:IEEE,2012:2480-2487.
[24] HINTON G E. Deep belief networks [J/OL].Scholarpedia,2009,4(5):5947[2023-03-20].http://www.scholarpedia.org/article/Deep_belief_networks.
[25] ZHANG Z P,LUO P,LOY C C,et al. Facial Landmark Detection by Deep Multi-task Learning [C]//European Conference on Computer Vision.Zurich:Springer,2014:94-108.
[26] ZHU X Y,LEI Z,LIU X M,et al. Face Alignment Across Large Poses: A 3D Solution [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:146-155.
[27] LIU H,LU J W,FENG J J,et al. Two-Stream Transformer Networks for Video-Based Face Alignment [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(11):2546-2554.
作者簡介:趙曉剛(1980.08—),男,漢族,河南舞
鋼人,教師,碩士,研究方向:特征點搜索、三維建模。