摘 要:基于高維仿生信息學理論思想,提出了一種運用圖論中最小生成樹算法構筑訓練樣本點覆蓋的新算法。通過Gabor濾波變換,每個訓練圖像得到40個Gabor特征圖,對這些特征圖使用超香腸神經網絡模型(HSN模型)進行識別,最后以投票策略對Gabor特征圖判別結果作決策融合,以最多數為判別結果。對幾個典型的人臉圖像庫在每類單個訓練樣本這種極端情形下,研究了光照變化的人臉識別問題,實驗結果顯示了其合理性。
關鍵詞:Gabor小波; Gabor濾波; 決策融合; 高維仿生信息學; 光照; 最小生成樹
中圖分類號:TP319.4文獻標志碼:A
文章編號:1001-3695(2009)06-2379-04
doi:10.3969/j.issn.1001-3695.2009.06.115
Face recognition from single sample per class based on Gabor filtering
ZHUANG De-wena,b, ZHOU De-longa, WANG Xian-baoa
(a.College of Information Engineering, b.College of Science, Zhejiang University of Technology, Hangzhou 310032, China)
Abstract:
Based on high dimensional biomimetic information theory, this paper proposed a novel training samples covering algorithms using minimum spanning trees. By Gabor filtering, gained 40 Gabor sub-images, and then recognized these sub-images by HSN model. Made decision fusion by voting strategy for these 40 sub-images recognition result. Experiments performed on the YaleB_Extend and AR databases show the provided method can achieve a better performance than the PCA_NN when only using a single sample per class training with illumination variant faces recognition.
Key words:Gabor wavelet; Gabor filtering; decision fusion; high dimensional biomimetic information theory; illumination; minimum spanning trees
0 引言
人臉識別研究是圖像分析和理解中最成功的應用之一,它不但具有重要的理論意義,也具有廣泛的應用價值,如在安全監控、存取控制、人機智能交互等方面都有潛在的應用,并已開發出許多商業應用系統[1]。
研究者已提出了許多成功的人臉識別方法,粗略地可分為局部特征和整體特征方法。前者可通過基于模板匹配提取局部特征,如雙眼、鼻子、嘴巴,然后由SVM[2]或其他分類器加以判別,或者通過Gabor小波得到的圖匹配方法[3]以及利用滑動窗得到的DCT,運用HMM進行判別[4];后者有著名的基于K-L變換的特征臉方法[5]、基于線性判別的Fisher臉[6,7]方法以及核變換形式[8,9]。眾所周知,對于限定條件下的正面人臉識別可得到很高的準確率,但在更一般的條件下,即有光照、表情、姿勢及年齡變化情形下,識別率顯著下降,如何提高無約束條件下的人臉識別準確率仍是一個很具有挑戰性的研究問題[10]。
與傳統的模式識別不同,基于高維仿生信息學理論的仿生模式識別方法[11],借鑒人的認知理論,通過對同類樣本點的認識,而非不同類別的劃分來加以識別。在特征空間中選擇合理的復雜幾何體對每類樣本點進行最優覆蓋來實現對該類樣本的認識,并在人臉識別等領域得到許多新穎結果[12]。但當人臉識別訓練樣本集中每類樣本數很少,甚至在極端情形下每類只有一個樣本,普通的仿生模式識別并不能直接應用。本文研究了光照變化下,每類只有一個訓練樣本情形下的人臉識別問題。基于高維仿生信息學理論思想[13],通過Gabor變換,每個訓練圖像濾波得到40個Gabor特征圖,對這些特征圖運用圖論中的最小生成樹算法構筑新型的訓練樣本點覆蓋區,并使用超香腸神經網絡模型[14]進行識別,最后以投票策略對Gabor特征圖判別結果作決策融合,以最多數為判別結果。對幾個典型的人臉圖像庫的實驗結果顯示了其合理性。
1 圖像的Gabor濾波
Gabor小波在圖像處理中的邊緣檢測、特征提取、紋理分析和立體視差估計等方面有許多應用[15, 16]。Gabor函數能夠很好地同時在時域和頻域中兼顧對信號分析的分辨率要求。Gabor變換(濾波)具有局部性、方向選擇性、帶通性,因此能夠精確地提取圖像的局部特征,且具有一定的抗干擾能力。為了有效利用Gabor濾波這些優勢,本文選擇五種尺度下、八個方向Gabor濾波組成Gabor濾波組,用該Gabor濾波器組實現對輸入圖像的濾波,濾波后可以得到具有局部性、方向選擇型的40幅Gabor特征圖像。該部分內容包括Gabor小波選擇、濾波模板設計、濾波方法的實現以及計算復雜性分析。
1.1 Gabor小波
二維Gabor核函數形式定義如下[3,17]:
ψj(x)=(k2j/σ2)exp(-k2jx2/(2σ2))exp(ikjx)-exp(-σ2/2)(1)
其中:kj=(kjxkjy)=(kν cos φμkν sin φμ),kν=2-(ν+2)/2π,φμ=μπ/8,j=μ+8ν;ν=0,…,4表示Gabor核函數的五個尺度(頻率),μ=0,…,7表示Gabor核函數的八個方向(相位)。Gaussian函數的寬度σ/‖kj‖由參數σ和kj決定。exp(-σ2/2)用來消除直流分量,即使得∫ψj(x)d2x=0。可以看出,Gabor核函數族是自相似的,并由同一個母小波通過伸縮和旋轉產生。圖1顯示了Gabor核函數的三維形狀(σ=2π,μ=4,ν=1)。
1.2 Gabor濾波
對一幅灰度圖像I(x),在給定像素點x=(x,y),Gabor小波變換(濾波)可以表示為
Gj(x)=∫I(x′) ψj(x-x′)d2x′(2)
通過圖像Gabor小波變換,可以得到對應原圖像的Gabor小波系數矩陣描述。對應原圖像每個像素的Gabor小波復系數可以寫成Gj(x)=aj(x)exp(ij(x))。其中:aj(x)表示模,它隨像素點位置不同緩慢變化;j(x)表示相位,它以由核函數的空間頻率或波向量kj大致確定的速率旋轉。本文選擇某個固定尺度(頻率)的八個方向Gabor濾波器組成全方向濾波器組,用該尺度全方向濾波器組對一幅圖像進行Gabor濾波,那么可以得到八幅Gabor特征圖像(復系數矩陣Gj,j=1,…,8)。它們分別表示在某個尺度下,八個方向的圖像濾波信息。
1)Gabor模板
在實現Gabor小波變換(Gabor濾波)過程中,由于需要處理的輸入圖像為數字圖像,而Gabor核函數(式(1))和卷積濾波(式(2))都是在連續域中定義的,在進行Gabor小波變換前需要進行離散化處理。首先需要確定Gabor模板。從Gabor核函數的定義(式(1))中可以看出,由于Gauss窗函數的限制,Gabor核函數只在一個局部區域內非零,只需要對其局部進行離散抽樣即可,抽樣范圍的大小由Gauss窗的大小所確定。Gauss函數的3σ規則說明:對于正態隨機變量來說,它的值落在μ-3σ,μ+3σ內的概率為0.997 4,因此可以取3σ/kj作為抽樣半徑。這樣,可以將全部40個Gabor模板(濾波器)預先計算好并保存起來。
2)Gabor濾波實現
設計好Gabor模板后,就可以用Gabor模板進行圖像濾波。對圖像進行Gabor濾波可以采用兩種途徑來實現:a)在空域對圖像進行Gabor濾波,由式(2)可知,在空域中對圖像進行Gabor小波變換事實上就是用相應的Gabor核函數(Gabor模板)對圖像進行卷積運算;b)在頻域進行,主要原理是數字信號處理中的卷積定理,時域的卷積意味著相應的傅里葉變換的乘積。具體處理方法如下:首先對待處理圖像進行快速傅里葉變換(FFT)轉換到頻域表示;再將空域的Gabor模板進行快速傅里葉變換;然后將它們分別相乘得到頻域響應;最后進行快速傅里葉逆變換(IFFT)轉換回空域。在該方法中,為了加快處理速度可以先離線實現空域的Gabor模板快速傅里葉變換過程。
1.3 Gabor濾波計算復雜度分析
由于五尺度八方向Gabor變換共有40個濾波器,如果采用空域方法進行Gabor濾波,每個濾波器都要與輸入的圖像進行卷積,其計算量非常大??沼蚍椒ㄓ嬎銖碗s度直接依賴于模板的大小,如計算圖像中一個像素點濾波器響應的復雜度為O(M2)(M為模板的寬和高),因此對整幅圖像濾波的復雜度為O(M2N2)(N為圖像的寬和高)。在頻域方法中,二維FFT和IFFT的計算復雜度為O(N2 log N),因而,Gabor模板尺寸不再像在空域中一樣起決定性的作用,因為圖像必須先轉換到頻域然后再轉換為空域,而Gabor模板的FFT可以預先計算保存。綜合上述分析,當Gabor模板較大時對整幅圖像直接作卷積所需花費時間太長,在普通的PC上無法實現實時應用,因此進行空域濾波時,Gabor模板的尺寸應該盡量小,否則就采用頻域濾波方法來實現Gabor濾波。
2 最小生成樹仿生模式識別算法
仿生模式識別中的一個核心問題是尋找特征空間的最佳樣本點覆蓋,在具有樣本點空間分布的先驗知識下,如一維線性流形的超香腸覆蓋[14]、二維線性流形的PSI覆蓋等[12]。但對于單個人臉圖像的40個Gabor特征圖,其空間流形分布并不明確。為得到緊湊的Gabor特征圖的覆蓋,本文提出了新型的基于最小生成樹的覆蓋方法。
2.1 基于最小生成樹的樣本點覆蓋
設訓練樣本點集為S=x1,…,xm,xi∈Rd,i=1,…,m,每個樣本點屬于l個類別Z1,…,Zl中的一類。對每類樣本點Sj=xj1,…,xjm,j=1,…,l,jm為第j類的訓練樣本點數,以樣本點兩兩之間的歐氏距離作為權重,按圖論知識可構筑一個jm頂點的全連通圖;對于邊稠密的圖,采用Prim算法可得到相應的最小生成樹[18],有jm-1條連接頂點的邊。對有邊相連的兩頂點,構筑HSN覆蓋單元。
HSN覆蓋單元為連接兩個樣本點的一條線段與超球的拓撲乘積所構成,同類樣本覆蓋區由jm-1覆蓋單元組成。具體地,設點x∈Rd,點x到線段x1x2的最小距離ρ的平方定義為
ρ2(x,x1x2)=x-x12q(x,x1,x2)<0
x-x22q(x,x1,x2)>x1-x2
x-x12-q2(x,x1,x2)otherwise(3)
其中:q(x,x1,x2)=(x-x1)#8226;(x2-x1)/x2-x1,#8226;為兩點間的歐氏距離。
HSN第i覆蓋單元記為
Pji=x|ρ(x,x1x2)≤Th; i=1,…,jm-1(4)
其中Th為待定的閾值。其他類別的覆蓋方法類似。
2.2 識別算法
設待識別樣本點為x∈Rd,訓練樣本類別數為l,通過對樣本的訓練,即樣本點覆蓋,可得到l個覆蓋區域,分別記為P1,P2,…,Pl,每類覆蓋區:
Pj=Pj1∪…∪Pjjm-1;j∈{1,…,l}(5)
其中:Pji為類別j的第i覆蓋單元,則x離第j類覆蓋區的距離為
ρj=min{ρji,i=1,…, jm-1}(6)
同樣可計算出x離其他類別覆蓋區距離ρj(j=1,…,l)。若用于測試點位于不同類別的辨認,則可由下式給出所屬類別:
j=argmin1≤j≤l ρj(7)
若用于人臉圖像的識別,需要對每個Gabor特征圖所得判別結果進行最后決策融合。本文采用投票策略,以多數原則給出識別結果:
j*=majority 1≤ji≤l(j1,…,j40)(8)
其中:ji(i=1,…,40)為各個Gabor特征圖識別結果;majority(#8226;)取類別個數最多者。
3 人臉識別實驗
3.1 數據預處理
本文對兩個典型人臉庫進行實驗驗證,分別是YaleB_Extend [19,20] (加上YaleB,共38個對象)和AR[21]人臉庫,剪輯及縮放后的人臉庫示例如圖2和3所示。
由于僅研究每類只有一個訓練樣本情形下光照變化對人臉識別的影響,而不考慮姿勢的變化,本文僅選取YaleB_Extend中38個對象的正面人臉在不同光照角度下的圖像,以光照角度為0作為訓練樣本,如圖2(a)所示;以光照角度15°(25,50,70)作為測試集1(2,3,4),如圖2(b)~(e)所示。測試集1(2,3,4)樣本數分別為225(456,525,456),剪輯及縮放后的圖像大小為48×42。AR數據庫中有126個對象,每個對象有不同表情、光照及遮擋情形下的26張圖像,并按不同時間分為兩個階段。本文只選取第一階段中的50個對象作為實驗,以正常情形下的圖像作為訓練圖像,如圖3(a)所示;選取無遮擋情形下的3張光照變化圖像作為測試,如圖3(b)~(d)所示。剪輯及縮放后的灰度圖像大小為32×32。
3.2 實驗結果
對訓練集中的每類圖像作Gabor變換得到40特征圖。對每個特征圖,以矢量形式表示,根據仿生模式識別理論,作PCA變換,對n個樣本點,最多可由n-1維矢量表示(n<<d),即n-1個基矢量。將測試集中的各特征圖按對應的訓練集中的特征圖的PCA基矢量表示。對訓練集中每類對象的40個作PCA變換后的特征圖矢量,按前述的基于最小生成樹的覆蓋方法得到每類相應的覆蓋區,對每個測試圖像的40個Gabor特征圖矢量作投票判決。 為測試Gabor變換及仿生模式識別對光照變化情形下對人臉識別的有效性,本文以特征臉加最近鄰的識別方法作為基準,結果如圖4、5所示。
其中,PCA-NN為 PCA取95%的剩余方差,基于最近鄰分類器;Gabor-MST為Gabor變換后,基于最小生成樹覆蓋,按投票策略作決策融合。
圖6 和7分別為YaleB_Extend人臉庫和AR人臉庫的累計匹配得分。
3.3 結果分析
在YaleB_Extend人臉庫正面姿勢、不同光照角度下的人臉識別實驗中可看到,對set1和set2,基于PCA-NN的識別結果分別是94.22%和90.57%,Gabor-MST的正確識別率分別為99.56%和99.78%;對于set3和set4,PCA-NN只有18.67%和3.95%的正確識別率,Gabor-MST的正確識別率分別為62.86%和19.52%??紤]到只用每類一個樣本用于訓練這種極端情形,并且未使用Lambertian光照模型用于產生三維人臉模型,故識別率不能與文獻[20]相比。對于AR人臉庫中的光照變換下的人臉識別問題,文獻[22]并沒有討論,相比PCA-NN的正確識別率對于b、c、d只有18%、6%、2%,而Gabor-MST卻有94%、94%和88%的正確識別率??梢姡蒅abor變換可提取對光照變化相對魯棒的特征,通過基于最小生成樹的覆蓋方法,本文解決了每類只有一個訓練樣本情形下以往仿生模式識別方法無法解決的問題,另
外由累計匹配得分也可看出本文所給方法的有效性。
4 結束語
本文基于高維仿生信息學理論,研究了光照變化下,每類只有單個訓練樣本這種極端情形下的人臉識別問題;詳細討論了Gabor濾波及其實現等問題,基于圖論的最小生成樹算法得到新的樣本點覆蓋算法,結合仿生模式識別理論中的HSN模型,對人臉識別中有關光照變化對正確識別率的影響問題進行了研究。通過具體的實驗結果,證明了本文所提方法的有效性。對于有表情、遮擋及年齡變換等非特定情形下的人臉識別問題,如何結合高維仿生信息學理論提取有效特征及更有效識別方法,將是筆者進一步要考慮的問題。
致謝 謹在此對提供AR人臉庫的Martinez博士表示感謝,感謝王守覺院士的有益討論。
參考文獻:
[1]ZHAO W, CHELLAPPA R, PHILLIPS P J,et al. Face recognition: a literature survey, TR-4167[R]. Maryland:University of Maryland, 2000.
[2]HEISELE B, HO P, POGGIO T. Face recognition with support vector machines: global versus component-based approach[C]//Proc of the 8th International Conference on Computer Vision. 2001:688-694.
[3]WISKOTT L, FELLOUS J M, MALSBURG vonder C. Face recognition by elastic bunch graph matching[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 1997, 19(7):775-779.
[4]NEFIAN A, HAYES M. An embedded HMM-based approach for face detection and recognition[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Washington DC:IEEE Computer Society, 1999:3553-3556.
[5]TURK M, PENTLAND A. Eigenfaces for recognition[J]. Journal of Cognitive Neurosicence, 1991, 3(1):71-86.
[6]BELHUMEUR P N, HESPANHA J P, KRIEGMAN D J. Eigenfaces vs. Fisherfaces: recognition using class specific linear projection[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 1997, 19(7):711-720.
[7]MARTINEZ A M, KAK A C. PCA versus LDA[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2001, 23(2):228-233.
[8]YANG M H. Kernel eigenfaces vs. kernel fisherfaces:face recognition using kernel methods[C]//Proc of the 5th IEEE International Confe-rence on Automatic Face and Gesture Recognition. Washington DC:IEEE Computer Society,2002:215-220.
[9]劉青山,盧漢清,馬頌德. 綜述人臉識別中的子空間方法[J].自動化學報,2003,29(6):900-911.
[10]ZHOU Shao-hua, CHELLAPPA R, ZHAO Wei-yi. Unconstrained face recognition[M]. Berlin:Springer, 2005.
[11]王守覺. 仿生模式識別(拓撲模式識別)—— 一種模式識別新模型的理論與應用[J].電子學報, 2002, 30(10):1417-1420.
[12]王守覺,徐建,王憲保,等.基于仿生模式識別的多鏡頭人臉身份確認系統研究[J].電子學報,2003, 31(1):1-5.
[13]王守覺,王柏南. 人工神經網絡的多維空間幾何分析及其理論[J].電子學報, 2002, 30(1):1-4.
[14]CAO Wen-ning, PAN Xiao-xia, WANG Shou-jue. Continuous speech research based on two-weight neural network[C]//Proc of the 2nd International Symposium on Neural Networks. Berlin:Springer-Verlag, 2005:345-350.
[15]DAUGMAN J G. Uncertainty relation for resolution in space, spatial frequency, and orientation optimized two-dimensional visual corticallters[J]. Journal of Optical Society of America, 1985,2(7):1160-1168.
[16]DAUGMAN J. Complete discrete 2D Gabor transform by neural networks for image analysis and compression[J]. IEEE Trans on Acoustics, Speech, and Signal Processing, 1988, 36(7):1169-1179.
[17]LADES M, VORBRUGGEN J C, BUHMANN J, et al. Distortion invariant object recognition in the dynamic link architecture[J].IEEE Trans on Computers, 1993, 42(3):300-311.
[18]CORMEN T H, LEISERSON C E, RIVEST R L. Introduction to algorithms[M]. Cambridge:MIT Press,2002.
[19]GEORGHIADES A S, BELHUMEUR P N, KRIEGMAN D J. From few to many: illumination cone models for face recognition under variable lighting and pose[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2001, 23(6):643-660.
[20]LEE K C, HO J, KRIEGMAN D J. Acquiring linear subspaces for face recognition under variable lighting[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2005, 27(5):684-698.
[21]MARTINEZ A M, BENAVENTE R. The AR face database, CVC#24[R].1998.
[22]MARTINEZ A M. Recognizing imprecisely localized, partially occluded and expression variant faces from a single sample per class[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2002, 24(6):748-763.