宋 輝,劉奉華
(沈陽工業大學 信息科學與工程學院,遼寧 沈陽 110870)
虹膜具有豐富的紋理特征,以及唯一性、穩定性、生物活性等特點,使其能夠在生物特征識別技術中應用;而由于虹膜識別技術安全性高、方便、防偽性好、非接觸等優點,使虹膜識別技術的應用越來越廣泛,比如銀行、機場、刑偵等。然而,在虹膜識別技術的應用過程中,也出現了許多影響虹膜系統識別正確率的問題,比如光源、采集設備、圖像處理算法等。針對這類問題所采用的方法有提高圖像采集質量[1]、采用更好的圖像處理算法[2]等等,但這些方法未能從源頭上解決問題,并且人力、物力和財力上消耗較大。
文中通過分析認為,導致虹膜識別率不理想,匹配算法不能很好地發揮識別性能的一個原因是采集的虹膜圖像本身不能滿足匹配識別的條件,所以,提高識別率的方法之一就是要把不滿足匹配識別條件的虹膜圖像篩選出來。
因此,文中提取虹膜圖像的灰度共生矩陣和LBP特征作為虹膜圖像的特征數據,將特征數據作為訓練集對采用的支持向量機[3]預分類器[4]進行訓練和測試,最后在匹配識別中應用分類器對虹膜圖像進行預分類,然后進行匹配識別。
在圖像分類中,要想得到較好的分類效果,必須首先對圖像進行紋理特征的提取。根據提取的紋理特征包含的特性信息,目前對特征的描述方法比較多,其中應用廣泛的是基于統計和基于結構的方法。針對文中提取的是虹膜圖像的紋理特征,采用基于統計的灰度共生矩陣和LBP兩種方法。
灰度共生矩陣定義為從某一灰度級為i的點到另一具有固定位置關系達到灰度級為j的概率。其表示方式為Pd(i,j)(i,j=0,1,…,L-1),其中L表示虹膜圖像的灰度等級,i,j表示像素點對的灰度等級,d表示兩個像素點的位置關系,θ表示灰度矩陣生成方向。其關系圖如圖1所示。

圖1 灰度共生矩陣的像素對
當確定兩個像素點的距離關系后,得到在這個距離關系d下的灰度共生矩陣。
(1)
其中,每一個元素代表在某一特定距離關系下某一灰度點對組合出現的次數,比如P(0,0),表示在關系d下,兩個像素點灰度等級分別為0和0時出現的次數。
灰度共生矩陣所表示的是灰度圖像在不同方向、相鄰間隔像素點間灰度等級的關系。通過它可以分析圖像在灰度上各不同灰度等級像素點的分布以及排列特征。為了更好地表示紋理特征,對灰度共生矩陣中的元素進行歸一化,也就是對矩陣內元素進行統計。將各個元素除以所有元素的和,得到以概率表示的歸一化數據矩陣,其中新矩陣各個元素值均小于1,由此得到歸一化共生矩陣。Haralick等分析得出14個可用于圖像紋理分析的特征參數。而Ulaby[5]等研究后發現其中只有4個特征參數是互相獨立的,而采用這4個特征參數能得到較好的分類精度,有利于減少復雜度。所以一般采用下面4個[6]最常用的特征來提取圖像紋理特征。
(1)二階矩(能量)。
二階矩表示灰度共生矩陣中各個元素值的平方和,反映圖像灰度分布狀況與紋理粗細程度。若灰度共生矩陣所有值都相等,則f1值小;若差別很大,則f1值大。f1大表示紋理粗能量大;f1小則紋理細,能量小。
(2)
(2)對比度。
對比度反映了圖像中不同紋理間的清晰度差別明顯程度和紋路的深淺程度[7]。對比度越大,其溝紋越深,清晰度越高;反之則越模糊。在灰度共生矩陣中離對角線遠的元素越多,對比度越大,公式如下:

(3)
(3)相關性。
相關性表示灰度共生矩陣中各個元素在各行各列方向上的相似程度[8]。當矩陣元素均值相等時,相關值大,相反則小。若圖像中存在水平方向上的紋理,那么水平方向矩陣的相關度要更大。

(4)
其中,u1,u2,σ1,σ2分別定義為:
(5)
(6)
(7)
(8)
(4)熵。
熵是圖像信息量的衡量,紋理也是圖像的信息,是圖像隨機性[9]的度量,當灰度共生矩陣中各元素隨機性最大、所有值幾乎相等,元素分散分布時,熵較大。它表示的是圖像紋理的復雜程度。
LBP(local binary pattern,局部二值模式)是一種描述圖像局部特性的算子,具有旋轉不變性和灰度不變性等優點。將其用于紋理特征提取的過程為:
初始的LBP算子首先建立一個3*3像素的窗口,把窗口中心像素灰度等級作為閾值,將與之相鄰的8個像素的灰度值一一與其進行比較,若周圍像素灰度值大于中心像素灰度值,則該像素點對應的位置被標記為1,否則為0。這樣,3*3鄰域內周圍的8個點就由原來的灰度等級表示轉化為以8位二進制數(通常轉換為十進制數即LBP碼,共256種)表示,那么該窗口中心點就用次8為二進制數表示,也就是LBP值,并用這個值來反映該區域的紋理信息,LBP原理如圖2所示。

圖2 LBP原理圖
通過二值圖,按順時針方向得到一個二進制串11111000,這樣中間點的像素灰度值通過二進制數轉化為一個十進制數來表示。注意這里的計算順序并沒有硬性規定,只是一個量化公式在整個處理過程中保持相同即可,計算公式如下:
(9)
其中,P,R分別表示鄰域中的像素點個數和鄰域半徑。
針對其他LBP模式存在的缺陷,采用均勻LBP模式即uniform LBP。均勻模式是在一個二進制序列中0到1交替變化的次數不超過2次,比如10100000變化次數為3,就不是均勻模式。在一個8位二進制串中,其均勻模式共有58種。因為研究者發現計算得到的數值中大部分都包括在其中,可以達到90%,所以將它們分為59類,58個均勻模式為一類,其他的所有值歸為第59類。通過該方法,可以把原來256維的直方圖降到59維。其計算公式為:
(10)
U(LBPP,R)=|S(gp-1-gc)-S(g0-gc)|+
(11)
SVM是一種泛化能力很強的學習機,也就是說其適應性很強,特別是對于小樣本空間具有獨特的優勢。SVM學習機中核函數以及核參數的選擇至關重要。實際應用中,核函數主要有:
(1)線性核函數。
(12)
(2)多項式核函數。
(13)
(3)徑向基核函數。
(14)
(4)Sigmoid核函數。
(15)
現在對于分類中核函數的選擇并沒有明確的說明與參考指導,因此文中采用應用最廣泛、分類效果不錯的徑向基核函數。SVM是二分類學習機,符合文中要求。而通過在訓練中不斷改變核參數的步長來選擇最優核參數。
協同訓練[10]的過程是,同時訓練兩個分類器,然后分別將兩個分類器分類結果中置信度高[11]的作為另一個分類器的訓練樣本,并不斷迭代,直到達到迭代次數或實驗要求[12]。實驗過程中,受協同訓練思想的啟發,首先對虹膜圖像進行識別匹配,并把正確匹配與未正確匹配的圖像作為SVM分類器的不同訓練樣本,從實驗中學習到兩類樣本分別具有的特性,即圖像分類的依據;然后將訓練完成的學習機應用到匹配識別過程中,對要進行匹配識別的虹膜圖像進行預分類,從而達到提高虹膜系統正確匹配識別率的目的。正確匹配識別率提高的過程如下所示:
(16)
(17)
其中,m為能正確匹配的虹膜圖像數,其在預分類前后基本不變;M為虹膜圖像總數;n為被預分類器篩選出的虹膜圖像數;k為因圖像質量不好而無法識別的圖像。由此可見,在總數不變,正確匹配圖像數不變,剔除掉不適合進行匹配的虹膜圖像后,正確匹配識別率η1<η2。
對虹膜圖像,在0°、45°、90°、135°四個方向上,像素間距設置為1,灰度等級壓縮為16級,提取灰度共生矩陣以及灰度共生矩陣的四個特征參數[13],結果如圖3和圖4所示。

(a) (b)
從圖4可以看出,在兩圖處于不同睜開程度下四個特征值差距明顯,作為圖像分類依據是可靠的。
利用均勻LBP模式[14]對虹膜圖像進行特征提取,結果如圖5所示。

圖4 灰度共生矩陣的四個特征值

圖5 LBP處理圖片前后
將利用灰度共生矩陣與LBP提取的虹膜特征數據作為訓練樣本,訓練SVM預分類器,并按照實驗步驟對中科院CASIA虹膜圖像進行匹配識別。
在虹膜圖像的匹配識別過程中,利用2D Gabor小波函數提取圖像的紋理特征[15],然后通過計算歐氏距離來完成匹配。2D Gabor小波函數如下:

(18)
(19)
在匹配識別過程中,所用虹膜圖像為中科院虹膜共享庫CASIA和本地虹膜圖庫,其中CASIA圖庫中每個人同一只眼睛的虹膜圖像有7張,分前后兩次采集,采集數分別為3張,4張。虹膜圖像的匹配采用歐氏距離判別。首先,對第一次采集的3張虹膜圖像提取的特征向量兩兩之間計算歐氏距離,并取歐氏距離的平均值作為識別匹配閾值DT,通過比較閾值DT與歐氏距離D的關系判斷虹膜圖像是否來自同一個人,若D小于DT則來自同一個人,反之不是。
第一次匹配識別選取CASIA圖庫中200人的2 100張虹膜圖像,其中900張用來選則分類閾值DT,其余1 100張用來匹配識別,正確匹配識別的有990張,未正確匹配的為110張,其中有7張無法進行匹配識別。第二次匹配識別中,首先將第一次匹配識別后的兩類圖像作為預分類器訓練的兩類不同樣本進行訓練;然后選取CASIA圖庫中另外200人的2 100張虹膜圖像,900張作為分類閾值DT選取,1 100張進行匹配識別,正確匹配的為1 050張,未正確匹配的為50張,其中9張無法進行匹配識別。第三次和第四次匹配識別中,對CASIA虹膜圖庫中隨機選取的300張虹膜圖像與本地虹膜信息數據庫進行匹配識別,其中第三次不加預分類器,正確識別匹配的為277張,未正確識別匹配的為23張,其中5張無法進行匹配;第四次加入預分類器后,正確匹配識別的為285張,未正確匹配識別的有15張,其中5張無法進行匹配識別。匹配識別結果如表1所示。

表1 匹配識別率
由表1可以看出,在經過預分類器對待匹配虹膜圖像進行預分類后,利用相同的虹膜匹配識別算法,虹膜系統的正確匹配識別率得到了明顯提高。
通過訓練預分類器,對不滿足識別匹配的虹膜圖像進行預分類,從而在采用相同圖像處理算法的情況下提高虹膜識別系統的正確識別率。同時在一些情況下也驗證了虹膜系統的正確識別率不高并非匹配識別算法不好所導致,可能是所識別的圖像不適合識別匹配。今后,還可以采用其他類型的分類器以及圖像特征提取方法來驗證文中方法的有效性。