摘 要:提出了一種通過提取力場收斂特征進行多姿態人耳識別的新方法。首先把人耳圖像轉換為力場圖像,通過計算力場的散度得到人耳收斂特征,然后使用零空間線性判別分析算法進一步提取特征并分類識別。實驗結果表明,力場收斂特征比最初基于力場變換的勢能阱特征更為穩定,而零空間線性判別分析方法也優于傳統的主元分析降維方法,更好地解決了小樣本問題,識別率得到進一步提高。該方法能夠有效識別多姿態人耳圖像。
關鍵詞:人耳識別; 力場變換; 散度; 收斂特征; 零空間線性判別分析
中圖分類號:TP391文獻標志碼:A
文章編號:1001-3695(2009)06-2370-04
doi:10.3969/j.issn.1001-3695.2009.06.112
Multi-pose ear recognition based on force field convergence feature
DONG Ji-yuan , MU Zhi-chun, WANG Yu
(School of Information Engineering, University of Science Technology Beijing, Beijing 100083, China)
Abstract:
This paper examined the feature extraction method based on force field transformation and developed a new approach for multi-pose ear recognition. Firstly transformed the initial gray ear image to force field and calculated the divergence of the force field to obtain the convergence feature of ear. Then employed the algorithm of 1-space based linear discriminant analysis (NLDA) to complement classification and recognition. The experimental results show that the proposed method is more robust and effective than the initial feature extraction method based on force field transformation, the potential well-based method and demonstrate effectiveness for multi-pose ear recognition.
Key words:ear recognition; force field transform; divergence; convergence feature; NLDA
由于人耳具有生理結構惟一性、不變性、無表情變化、色度穩定等特點,人耳識別技術被認為在身份鑒別、安檢、門禁等許多場合具有潛在的應用前景[1]。在學者提出的一些人耳識別方法中,由南安普頓大學的Hurley等人[2,3]提出的利用力場轉換描述和提取人耳特征的方法因為思路新穎、符合人耳的結構特點及良好的實驗效果,引起越來越多的關注。
力場轉換的思想是把力場、電磁場的矢量場理論用于人耳識別的特征提取,把人耳的二維灰度圖像看做一個能量場,像素對其他像素之間有力的作用符合引力定律,即大小正比于該像素的灰度值,反比于像素之間距離的平方。每一個像素所受的力是其他所有像素對其作用力的矢量和。如果在這個場中放置一些測試像素,這些像素會在力的作用下由能量高的地方向能量低的地方運動。Hurley認為測試像素運動軌跡的差異恰恰是每個人不同人耳溝回結構的反映,所形成的勢能通道和勢能阱可以用來描述和提取人耳的特征[2]。之后Hurley又引入了矢量場分析中散度和通量的概念,求取人耳力場的散度圖像,將其二值化作為人耳特征。實驗結果表明對于發生輕微俯仰傾斜等平面姿態變化的人耳,能夠依據二值圖像自動定位出人耳區域,在此基礎之上采用PCA進行識別,可大大提高識別率[3]。國內近年來也陸續出現基于力場轉換的人耳識別方法。文獻[4]直接采用力場轉換后的人耳圖像作為人耳特征,使用線性判別分析的方法分類取得了比PCA更好的識別效果。實驗表明,力場轉換能夠去除光照的影響,同一拍攝角度下的人耳識別率最高可達到98.5%[4]。文獻[5]則是延續了搜索勢能阱作為人耳特征的思路,實驗驗證了對于同一拍攝角度的人耳圖片,勢能阱可以作為人耳的特征描述,使用模糊C-均值聚類算法分類也取得了較好的識別效果[5]。
在實際應用場合中,同一拍攝角度的要求過于嚴格,尋找有效的多姿態的識別方法才是人耳識別的目的,同時也是人耳識別的難點。本文在分析了基于力場轉換的人耳特征提取方法的基礎上,介紹了一種基于人耳力場收斂特征和零空間線性判別分析算法來實現多姿態人耳識別的新方法。實驗表明對于發生深度旋轉的人耳,這種方法是有效的。
1 基于力場變換的人耳特征提取
1.1 基本思想[2,3]
灰度圖像中的每一個像素可看做能量的源,它對周圍像素的影響可用下式描述:
Ei=Pi/|r|(1)
其中:Ei表示第i個像素所產生的能量,它的大小與該像素的灰度值Pi成正比,與周圍像素和它之間的距離|r|成反比,即產生的是一個各向同性的圓形勢能場。這樣圖像中每一個像素都會受到其他像素的影響,是所有像素在該點產生的能量之和,即
E(rj)=∑M×Ni=1,i≠jEi(ri)=∑M×Ni=1,i≠jP(ri)/ri-rj(2)
其中:M和N分別是圖像像素的行數和列數;rj表示坐標原點指向像素j的向量;E(rj)表示像素j的能量,它是圖像中其他M×N-1個像素在該處產生的能量Ei之和。
這樣經過計算每一個像素位置的能量大小,就得到了一個與原來人耳圖像相對應的能量曲面。能量是一個標量,只有大小沒有方向。若在此曲面上放置一個測試像素,則由于能量的差異像素在每一點會受到力的作用,使其從能量高的地方向能量低的地方運動。力既有大小也有方向,是一個矢量,與能量的關系可表為
F(r)=-grad(E(r))=-E(r)(3)
由式(2)(3)可得式(4),即圖像中的像素之間具有相互吸引的作用力,吸引力的大小正比于灰度值的大小, 反比于像素之間距離的平方。任意位置所受力的大小則是其他所有像素對其作用力的矢量和。
F(rj)=∑M×Ni=1,i≠jP(ri)(ri-rj)/ri-rj3(4)
通過式(4)可將人耳圖像轉變為力場圖像。但是計算代價較大,每一個像素的受力需要計算其他M×N-1個像素與該像素之間的力的矢量和,可通過傅里葉變換與反變換和卷積定理將計算量從O(N2)降低到O(log N),提高計算速度[3]。
從式(4)可以看出,經過力場轉換后像素的灰度值是其周圍所有像素灰度值的加權和,權值的大小與像素之間的距離成反比,因而距離較近的像素起主要作用。當圖像的某一區域變化平緩時,像素周圍的灰度值接近,受力方向對稱、互相抵消,最終所受合力較小,因此力場轉換有濾除噪聲、平滑圖像的作用。另外,對于圖像的邊緣部分,周圍像素的灰度值變化較大,各個方向受力不能抵消,最終的合力就會較大,因此又具有銳化邊緣的作用。從圖1的(a)與(b)可以看出,經過力場轉換后人耳的邊緣信息得到加強。對于人耳來說豐富的溝回結構正是最重要的特征。 1.2 基于力場圖像的特征提取
最初提取的人耳特征是勢能通道和勢能阱[2,3]。在力場圖像周圍均勻放置一些測試像素,這些測試像素會在力的作用下不斷運動,形成的軌跡稱為場線(field line)。運動過程中,場線會在一些位置發生匯聚,形成所謂的勢能通道(potential channel),即至少有兩個以上的測試像素在力的作用下會運動至此,場線發生匯合;然后再沿著同樣的軌跡繼續運動;最后在某一位置測試像素所受之力為零時停止運動,這個位置稱為勢能阱(potential well)(圖1)。實驗表明每個人耳具有獨特的勢能阱位置,而且勢能阱位置不受分辨率大小的影響,對于測試像素的初始間隔沒有十分嚴格的限制,在較寬范圍內搜索的勢能阱位置也是相同的,具有較好的穩定性。
文獻[2]還給出了以下量化指標作為人耳特征來衡量勢能阱位置的差異。
anwd=∑Wi=1|wi|/max(|wi|)W(5)
wdir=∑Wi=1wi(6)
其中:wi表示由原點指向勢能阱位置的向量;W表示一幅圖像中勢能阱的個數;wdir表示所有勢能阱距原點的距離之和;anwd是對wdir歸一化之后求的平均值。
盡管這種人耳特征的提取方法大大降低了人耳特征描述的維數,但是存在一些問題。筆者在實驗中發現對于同一個人耳勢能阱的位置雖然是固定的,但是勢能阱的個數有時會不穩定,即同一人耳的多個樣本中,有的勢能阱沒有出現,發生了勢能阱丟失的現象,并且這種不穩定性不會因為調整測試像素分布間隔而得到避免。這樣按照式(5)(6)計算的特征就不會相同,從而給識別帶來困難。
為了進一步提取力場圖像的人耳特征,Huley等人引入了矢量場論中散度的概念[4]。散度的定義由式(7)給出:
divF(r)=limΔV→0(1/ΔV)∮ΔSF(r)dS(7)
其中:divF(r)表示力場散度,它等于若包圍這一點的閉合曲面ΔS所圍體積ΔV以任意方式縮向該點時, 該點通量∮ΔV F(r)dS與體積之比的極限。由此看出散度是空間點的函數,表征了向量場中源的密度,體現了通量源的分布特性。對于二維力場,其散度可由式(8)得到:
divF(rj)=#8226;F(rj)=Fx/x+Fy/y(8)
人耳收斂特征C(r) (convergence feature)定義為
C(r)=-div(F(r)/F(r))(9)
圖2中(a)是由式(9)得到的人耳收斂特征;(b)是力場場線特征;(c)是場線與散度圖像相加結果;(d)是二值化的力場散度圖像。從(c)可以看出收斂特征的峰和脊與勢能通道和勢能阱有著對應關系,而且收斂特征還包含了勢能通道所包圍的人耳內部的邊緣信息,體現了更豐富的人耳結構特征。收斂特征是對勢能通道和勢能阱更一般的數學描述。
按照式(10)對人耳收斂圖像進行閾值處理,可得到如圖2(d)所示的二值人耳圖像:
g(rj)=0if mean-std≤C(rj)≤mean+std
1else(10)
其中:g(rj)是經過閾值化處理之后圖像的灰度值; mean表示收斂圖像的均值;std表示收斂圖像的標準方差。圖3所示是四個人耳在提取收斂特征之后二值化的圖像,可以看出比起勢能通道,二值圖像能夠更完整地描述人耳內部的溝回信息,突出每個人的特征。
2 零空間線性判別分析
2.1 線性判別分析
線性判別分析(linear discriminant analysis,LDA)是以樣本的可分性為目標,尋找一組線性變換,使每類的類內離散度最小,并且使類間的離散度達到最大。經典的線性判別分析中使用的是Fisher準則函數。Fisher準則函數定義為
J(wopt)=argmaxwwTSbw/wTSww(11)
其中:Sb為類間離散度,其定義為
Sb=∑Ci=1(ui-u)(ui-u)T(12)
Sw為類內離散度,其定義為
Sw=∑Ci=1∑Nij=1(xij-ui)(xij-ui)T(13)
其中:C為類別數;Ni為Ci類的樣本數;u為所有樣本的均值;ui為Ci類樣本的均值;xij為Ci類中的第j個樣本。
因為Fisher準則函數是關于矩陣Sb和Sw的廣義Rayleigh商,根據廣義Rayleigh商的極值性質,在類內離散度矩陣Sw非奇異的情況下,wopt是滿足式(14)的解:
Sbwi=λiSwwi; i=1,2,…,m(14)
將二值人耳收斂圖像按像素排列成向量xij,投影到由w1,w2,…,wm張成的子空間中,得到的一組投影系數構成一個向量,即為人耳識別最終的特征向量。
根據類內離散度矩陣Sw的定義,顯然有Sw∈Rn。其中n為人耳圖像的像素點數,它的取值通常都在1萬以上,遠遠大于參與訓練的樣本數。因此類內離散度矩陣Sw總為奇異矩陣,無法直接利用廣義特征值方程來求解,即存在小樣本問題(small sample size problem)。一般解決的方法是先應用主元分析(principal component analysis,PCA )來降低樣本的維數,使其變為非奇異陣,但是這樣就舍棄了類內離散度矩陣Sw零空間的部分鑒別信息。根據Fisher準則函數式(11)可知,當wopt屬于人耳圖像向量的類內離散度矩陣Sw的零空間與類間離散度矩陣Sb的非零空間的交集時,wopt滿足要求。這正是零空間的線性判別分析(NLDA)算法[6]的出發點。
2.2 零空間的線性判別分析
零空間線性判別分析(NLDA)算法[6]的核心思想是不對圖像樣本做任何降維工作,而是根據Fisher準則來求解類內離散度矩陣Sw的零空間與類間離散度矩陣Sb的非零空間的交集。先求得類內離散度矩陣Sw的零空間,把類間離散度矩陣Sb變換至該空間后保留Sb的非零空間從而得到了最優解空間。
對于小樣本問題,由于樣本個數N遠遠小于圖像向量的維數n,導致類內離散度矩陣Sw的零空間的維數很高,類內離散度矩陣Sw的零空間不易直接求解。
根據總離散度矩陣St、類內離散度矩陣Sw和類間離散度矩陣Sb的定義,有St=Sw+Sb。又因它們都是對稱并且正定的,所以有φ⊥=⊥∩ψ⊥。其中:φ⊥為矩陣St的零空間;⊥為矩陣Sb的零空間;ψ⊥為矩陣Sw的零空間。由式(11)可知St的零空間φ⊥不是解空間,因此可以通過去掉總離散度St零空間的方法達到降低類內離散度矩陣Sw零空間維數的目的。因為在小樣本情況下,總離散度St的秩rank(St)=N-1,則類內離散度矩陣Sw∈RN-1,將樣本投影至總離散度矩陣St的非零空間之后,類內離散度矩陣Sw的零空間的維數就會降為C-1。這樣在不丟失任何鑒別信息的前提下,有效地避免了Sw的零空間不易直接求解的問題。
基于零空間的線性判別分析算法的步驟可歸結為
a)計算訓練樣本X總離散度St的非零空間φ,而
St=∑Ci=1∑Nij=1(xij-u)(xij-u)T=tTt
其中:t=span{(x11-u),(x12-u),NA1AD,(x1Ni-u),(x21-u),NA1AD,(xCNi-u)}。計算tTt的非零特征值所對應的特征向量Vt,則總離散度St的非零空間φ即為Vst=tVt。
b)分別計算Sb和Sw向St的非零空間φ的投影Sb′和Sw′, Sb′=VstTSbVst, Sw′=VstTSwVst。
c)計算Sw′的零空間ψ⊥′,ψ⊥′即為Sw′的零特征值所對應的特征向量Vsw⊥。
d)在Sw′的零空間ψ⊥′中求解最優的鑒別向量集,將Sb′向Sw′的零空間ψ⊥′投影,即Sb″=(Vsw⊥)TSb′ Vsw⊥, 計算Sb″ ⊥的特征方程Sb″ ⊥X=λX的前d個最大特征值所對應的特征向量Vsb,則Sw′的零空間ψ⊥′中的最優鑒別向量集為V=VstVsw⊥Vsb。
e)提取人耳圖像的特征向量Y,即Y=VX。
3 系統實現及實驗結果
3.1 人耳數據庫
所用的人耳圖像來自本實驗室拍攝的79人的人耳人臉多姿態數據庫。人耳正面即人臉正側面為0°,向左轉每間隔5°(0~30°)或15°(30°~60°)拍攝一張人臉側面圖片,每人共有九張圖片,分辨率是768×576。將圖中的人耳手工分割出來,經過濾波、直方圖均衡、幾何歸一化等預處理,就得到本文用于實驗的人耳圖片,如圖4所示,大小為100×60。
3.2 系統總體流程
首先把原始人耳灰度圖像處理為二值圖像,中間經過力場轉換、散度轉換、二值化處理等步驟,得到的圖像分為用于訓練的人耳圖像和用于測試的人耳圖像。應用零空間Fisher判別分析,對得到的訓練樣本集求取最佳變換空間,并求得在此空間中的人耳特征向量。將測試集中的人耳圖像通過最佳變換提取人耳特征,與訓練集的人耳特征向量進行比對,最接近的人耳特征就是最終識別的結果。總體流程如圖5所示。
3.3 實驗及結果
實驗1 先將原始人耳圖像轉換為力場圖像,搜索勢能阱。其中測試像素間隔設置為5個像素,其受力方向離散化為24鄰域周圍16個方向。如果兩個勢能阱的距離在5個像素之內,將這兩個勢能阱合并為一個,取兩者坐標的平均值作為最終勢能阱的坐標。按照式(5)(6)提取
2維人耳特征,使用最小歐氏距離分類器識別。選擇一幅作測試,其余八幅作訓練。表1是分別選擇左轉25°、30°和60°的人耳作為測試圖片的識別結果。由于勢能阱丟失的影響,誤判較多,最高識別率僅為75.3%。
表1 勢能阱特征識別結果
偏轉角度識別率/%
25°75.3
30°72.2
60°48.1
實驗2 先提取二值化的力場收斂特征,使用Fisher判別分析的方法來分類,其中用主元分析的方法來降維,解決判別分析的小樣本問題。仍然采用圖像庫中的一幅圖片作測試,其他圖片作訓練的方式。圖6為分別采用左轉25°、30°和60°人耳圖片作為測試的識別結果。其中,橫坐標為線性判別分析得到的投影空間的維數,縱坐標為識別率??梢钥闯觯S著特征空間維數的增加,識別率也在提高。除了左轉60°圖片識別率較低,為53.2%外,其他的識別率均較穩定。與基于勢能阱特征的識別方法相比,PCA +LDA方法的識別率有明顯提高。左轉25°識別率最高為92.4%,左轉30°識別率最高為80%,左轉60°識別率最高為53.2%。
實驗3 先提取二值化的力場收斂特征,使用基于零空間的Fisher判別分析方法來分類。仍然采用圖像庫中的一幅圖片作測試,其他圖片作訓練的方式。圖7為分別采用左轉25°、30°和60°人耳圖片作為測試的識別結果。與圖6對比,隨著維數增加,識別結果均得到進一步改善。識別率左轉25°最高識別率提高為94.9%,左轉30°識別率最高為83.5%,左轉60°識別率最高為是59.5%。
4 結束語
基于力場轉換的人耳識別方法把人耳灰度圖像看做一個能量場,應用力場中的引力定律將其轉換為力場圖像,以此為基礎來提取人耳特征。本文比較了利用像素運動搜索勢能阱特征和借助散度概念提取力場收斂特征的人耳識別方法。搜索勢能阱的過程就像是江河在高低起伏的群山之中由高到低地流動,終止于最低洼的區域一樣,它體現了耳廓表面起伏的溝回結構,但是實驗中存在勢能阱丟失問題,因此影響了識別結果。而力場收斂特征,通過求散度準確描述了勢能通道和勢能阱的形成過程,突出了人耳主要的邊緣信息特征。在此基礎上利用線性判別分析分類,取得了較好的實驗結果。為了解決線性判別分析的小樣本問題,本文采用基于NLDA方法,依據Fisher 準則,直接求得類內散度矩陣零空間和類間散度矩陣非零空間的交集,避免了使用PCA舍棄部分類內散度矩陣零空間有用鑒別信息的缺點。實驗結果表明,基于力場收斂特征描述的線性判別分析方法明顯優于勢能阱的方法,而NLDA算法比用傳統的PCA+LDA方法使識別率得到進一步的改善。因此提取人耳力場收斂特征并使用零空間判別分析來識別多姿態人耳圖像的方法是可行的。
從實驗結果也可看出,對于偏轉角度較大的情況,識別率不夠理想。如何解決多姿態人耳識別本質的非線性和線性判別技術線性假設的矛盾、尋找魯棒的人耳多姿態識別算法、提高識別率是今后的重要工作。另外,利用人耳人臉互補的生理位置,將人耳識別與人臉識別相結合實現生物特征融合識別,也是提高識別率對姿態變化魯棒性的有效途徑。
參考文獻:
[1]穆志純,徐正光,袁立,等.一種新的生物特征識別技術——人耳識別[C]//第四屆生物特征識別會議.北京:清華大學出版社,2003:286.
[2]HURLEY D J, NIXON M S, CARTER J N. Force field energy functions for image feature extraction[J]. Image and Vision Computing, 2002, 20(5-6):311-317.
[3]HURLEY D J, NIXON M S, CARTER J N. Force field feature extraction for ear biometrics[J].Computer Vision and Image Understanding,2005,98(3):491-512.
[4]朱海華,李雅娟,宋志堅.基于圖像力場轉換的耳廓圖像識別[J].自動化學報,2006,32(4):512-518.
[5]莫興俊.萬有引力在人耳圖像識別中的應用研究[D].重慶:重慶大學,2007.
[6]CHEN Li-fen, LIAO Hong-yuan, KO M T, et al. A new LDA-based face recognition system which can solve the small sample size problem [J]. Pattern Recognition, 2000, 33(10):1713-1726.