劉曉山 杜明輝 曾春艷 金連文
(華南理工大學電子與信息學院,廣東廣州510640)
人臉識別作為圖像分析和圖像理解的典型應用之一,已廣泛應用于信息安全、法律實施、視頻監控、智能卡、門禁系統等領域.人臉的特征表示與簡約是人臉識別系統的關鍵,要求提取的特征能夠很好地表示人臉,同時維數不能太高以便于計算機處理.早期的特征提取方法是基于人臉的幾何特征(如鼻子的寬度和長度、嘴巴的位置、兩眼的距離和下巴的形狀等)進行識別.模板匹配[1-2]已廣泛應用于人臉識別和檢測中.但這些方法受表情、姿態的影響非常明顯,提取的特征誤差比較大,或者不能較好地區分不同類別的特征,識別率比較低.主成分分析(PCA)和線性判決分析(LDA)是基于表象的人臉識別技術中最基本的降維方法[3],已廣泛應用于人臉識別系統中.人們在PCA和LDA基礎上提出了很多相關的改進算法[4-5],大大提高了識別率.局部二值模式(LBP)[6]、彈性約束圖匹配(EBGM)[7]、雙樹復小波變換(DTCWT)[8]、Contourlet變換[9]等人臉識別算法在人臉正面姿態光照不變的情況下具有較好的識別效果,但當姿態、光照或表情發生變化時,識別率明顯下降.在實際的人臉識別應用中,獲取的人臉圖像往往都存在光照、姿態和大小的變化,這些變化都會影響算法的識別效果.
文中在Lambertian光照模型[10]的基礎上,將人臉圖像看作是光照分量和反射分量的乘積,充分利用非下采樣Contourlet變換(NSCT)[11]的多尺度、多方向和平移不變特性,使用閾值去噪方法提取出人臉光照不變成分,然后求出所對應的偽Zernike矩特征向量,最后進行人臉識別.
根據Lambertian光照模型[10],人臉灰度圖像F可以表示成

式中,I(x,y)為光照亮度,R(x,y)為反射率.根據模型描述,R(x,y)被認為是人臉的光照不變成分.由于沒有一個確定的反射率模型來表示R,因此求解式(1)是一個病態問題.一個通用的假設就是I變化緩慢,而R變化劇烈.變化劇烈的R屬于圖像的高頻部分,類似于噪聲.因此可以利用圖像去噪的思想來獲得光照不變成分R.對于乘性噪聲,可以通過對數變換將其轉換成加性噪聲進行去噪.即

可以表示成

文中首先對圖像F'進行NSCT分解,然后在NSCT變換域對其高頻系數進行閾值收縮去噪濾除R',得到I',再利用式(3)可以得到光照不變成分R'的值.
NSCT[11]是在Contourlet變換基礎上發展而來的.Contourlet變換首先使用拉普拉斯金字塔(LP)對圖像進行多尺度分解檢測出奇異點,然后使用方向濾波器組(DFB)將分布在同方向上的奇異點合成為一個系數.由于在LP和DFB中都存在下采樣操作,這就造成Contourlet變換不具有平移不變性,在奇異點附近存在偽吉布斯現象.在NSCT中,由于采用的是非下采樣LP和非下采樣DFB,避免了偽吉布斯現象,不但具有良好的方向選擇性,而且還具有重要的平移不變性,非常適合自然圖像的紋理描述.圖1給出了NSCT的3層分解示意圖.

圖1 NSCT的3層分解示意圖Fig.1 Schematic diagram of three-layer decomposition of NSCT
文中使用NSCT對人臉圖像進行3層分解,每層(由粗到精)分解的方向數分別為4、4、8.分解后的系數可以表示成:{D0,C11,C12,C13,C14,C21,C22,C23,C24,C31,C32,…,C38},其中D0為分解后的低頻系數,Csk為第s層第k方向的高頻系數.由于NSCT采用了非下采樣LP和非下采樣DFB,所以分解后的系數跟原始圖像的大小相同.
根據文獻[12],閾值(Tsk)選擇公式為


J為NSCT的分解層數(文中取J=3),Lsk為第s層第k方向的子帶長度,λ為可調節的尺度參數,ˉCsk為子帶Csk系數的均值,M、N分別為子帶Csk的行數和列數為Csk模的中值.高頻系數軟閾值收縮量化公式為

經過軟閾值收縮去噪后,將低頻系數D0和量化后的高頻系數進行逆NSCT變換得到光照亮度I',最后利用式(3)可求出光照不變成分R'.
從式(4)、(6)和(8)可以知道,Tsk隨λ的增加而減小,濾除的噪聲也隨之減少,得到的光照不變成分損失較嚴重.經過實驗觀察,當λ大于0.02時得到的光照不變成分能量太小,無法用于下一步實驗,文中取λ=0.0005.圖2所示為Extended YaleB庫中編號為07的人在多個光照條件下的人臉圖像所對應的I'和R'.從圖2中可以看出,光照不變成分R'在4種不同的光照條件下變化不大,不受光照的影響.

圖2 原始人臉圖像及其光照不變成分和光照亮度成分Fig.2 Original face images and their illumination invariant components and illumination components
偽Zernike矩(PZM)[13]是圖像函數F(x,y)在正交多項式Vnm(x,y)上的投影.n階m重的PZM定義為


實值徑向多項式Pnm(r)定義為

對于一幅數字圖像,式(10)的積分用求和來代替,即


文中提出的基于NSCT和PZM的人臉識別算法步驟如下:
1)對人臉圖像F進行對數操作得到新的數據矩陣F';
2)對F'進行3層多方向NSCT分解得到分解系數{D0,Csk};
3)根據式(4)-(7)求出各個高頻子帶的閾值,再利用式(8)、(9)對高頻子帶進行軟閾值濾波操作,得到濾波后高頻系數
5)求出每幅人臉R'的PZM特征序列,作為人臉的分類特征,并使用LDA進行降維處理;
6)使用歐式距離的最近鄰分類器進行分類識別.
為驗證文中算法的有效性,分別使用Extended YaleB人臉庫[15]和CMU PIE人臉庫[16]進行識別測試.Extended YaleB人臉庫中共包含38人,每人含有在9種姿態、64種不同光照情況下的576幅圖像.將姿態編號為P00、P02、P03、P05和水平光照編號為A+000、A+005、A-005、A+020、A-020、A+070、A-070的共88幅圖像作為實驗數據.CMU PIE人臉庫包含68人的41638幅圖像,這些圖像分別處于不同的頭部姿勢、光照和表情.每人選取5個近似正面的姿態(C05、C07、C09、C27、C29)下光照編號為08、10、11和13的共20幅人臉圖像.實驗時采用手工裁剪的方法去掉圖像中的頭發和背景,僅保留人臉的面部區域,并縮放成100×100大小.同時為了比較算法的優越性,將文中算法同幾種常用的人臉識別算法(Eigenface、LBP、Contourlet、DTCWT)進行比較,其中LBP采用3×3分塊的均衡二值模式;Contourlet變換參數與文中算法的NSCT參數相同;DTCWT采用文獻[8]中的方法進行3層分解,提取高頻復系數的振幅作為特征向量,并采用LDA進行降維.每次實驗時訓練樣本都是隨機抽取的,為了保證實驗結果的穩定性,每次實驗都重復20次,取所有正確識別率的平均值作為最終的識別率.
在Extended YaleB人臉庫上進行實驗時,從編號為A+000的人臉圖像中任選3幅作為訓練集.將編號為A+005和A-005的圖像作為測試集1,編號為A+020和A-020的圖像作為測試集2,編號為A+070和A-070的圖像作為測試集3.表1給出了幾種算法在3個測試集上的識別率.從表1中可以看出,文中提出的人臉識別算法在所有測試集上的識別率均最高,并且在光照很不理想的測試集上的識別率顯著高于其它算法.同時,在使用LDA降維之前文中算法的分類特征維數為130,而DTCWT算法的特征為19764維,文中算法大大降低了特征的維數.

表1 幾種算法在Extended YaleB庫上的識別率Table 1 Recognition rates of several algorithms on Extended YaleB database
在CMU PIE人臉庫中隨機選取部分人臉作為訓練樣本,剩余人臉作為測試樣本.圖3給出了幾種算法在CMU PIE人臉庫上的識別性能曲線.從圖3可以看出,隨著訓練樣本數的增加,識別率穩步上升;與其它算法相比,文中算法的性能最優.圖4給出了幾種算法在CMU PIE人臉庫上的累積匹配特性(CMC).實驗中隨機選取2幅人臉圖像作為候選集.曲線描述排前n'位的累積匹配率,即正確識別結果在前n'個候選人中的比率.結果表明,與其它算法相比,文中算法能更好地應用于身份辨識.

圖3 幾種算法在CMU PIE庫上的識別性能Fig.3 Recognition performances of several algorithms on CMU PIE database

圖4 幾種算法在CMU PIE庫上的累積匹配特性曲線Fig.4 CMC curves of several algorithms on CMU PIE database
文中在Lambertian光照模型的基礎上提出了一種基于NSCT和偽Zernike矩的人臉識別算法.該算法利用了NSCT的多尺度、多方向特性和偽Zernike矩的旋轉、尺度不變性,提取出來的人臉特征能夠更好地表達人臉圖像,同時也大大降低了分類特征的維數.實驗結果表明:文中算法能夠去除人臉大部分的光照影響,提取出來的人臉特征對光照有非常強的魯棒性;并能改善由于手工裁剪人臉圖像帶來的人臉圖像尺度不同和姿態微變引起的識別率下降問題.今后將對不同光照類型對識別率的影響進行研究,進一步提高算法對光照變化的魯棒性.
[1]Miao J,Yin B C,Wang K Q,et al.A hierarchicalmultiscale and multiangle system for human face detection in a complex background using gravity-center template[J].Pattern Recognition,1999,32(7):1237-1248.
[2]馬麗紅,余英林,張宇.人臉特征提取及自動定位的研究[J].華南理工大學學報:自然科學版,2000,28(4):96-102.Ma Li-hong,Yu Ying-lin,Zhang Yu.A study on facial feature extraction and automatic location[J].Journal of South China University of Technology:Natural Science Edition,2000,28(4):96-102.
[3]Zhao W,Chellappa R,Phillips P J,et al.Face recognition:a literature survey[J].ACM Computing Surveys,2003,35(4):399-459.
[4]Xu Y,Zhang D,Yang J.A feature extraction method for use with bimodal biometrics[J].Pattern Recognition,2010,43(3):1106-1115.
[5]Eftekhari A,Forouzanfar M,Moghaddam H A,et al.Block-wise 2D kernel PCA/LDA for face recognition[J].Information Processing Letters,2010,110(17):761-766.
[6]Ahonen T,Hadid A,Pietikainen M.Face description with local binary patterns:application to face recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(12):2037-2041.
[7]Wiskott L,Fellous JM,Kruger N,et al.Face recognition by elastic bunch graph matching[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):775-779.
[8]Liu C C,Dai D Q.Face recognition using dual-tree complex wavelet features[J].IEEE Transactions on Image Processing,2009,18(11):2593-2599.
[9]Lajevardi SM,Hussain ZM.Contourlet structural similarity for facial expression recognition[C]∥Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing.Dallas:IEEE,2010:1118-1121.
[10]Shan SG,Gao W,Cao B,et al.Illumination normalization for robust face recognition against varying lighting conditions[C]∥Proceedings of IEEE International Workshop on Analysis and Modeling of Faces and Gestures.Washington:IEEE,2003:157-164.
[11]Cunha A L,Zhou JP,Do M N.The nonsubsampled Contourlet transform:theory,design,and applications[J].IEEE Transactions on Image Processing,2006,15(10):3089-3101.
[12]Huang Liangliang,Wang Hongzhi,Zhu Bo.Adaptive thresholds algorithm of image denoising based on nonsubsampled Contourlet transform[C]∥Proceedings of IEEE International Conference on Computer Science and Software Engineering.Wuhan:IEEE,2008:209-212.
[13]Mukundan R,Ramakrishnan K R.Moment functions in image analysis:theory and applications[M].Singapore:World Scientific Publishing Company,1998:57-62.
[14]Pang Y H,Teoh A B J,Ngo DC L.A discriminantpseudo Zernikemoments in face recognition[J].Journal of Research and Practice in Information Technology,2006,38(2):197-211.
[15]Georghiades A S,Belhumeur P N,Kriegman D J.From few tomany:illumination cone models for face recognition under variable lighting and pose[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(6):643-660.
[16]Sim T,Baker S,Bsat M.The CMU pose,illumination,and expression(PIE)database automatic face and gesture recognition[C]∥Proceedings of the Fifth IEEE International Conference on Automatic Face and Gesture Recognition.Washington:IEEE,2002:46-51.