張雪鋒,常振會,張俊杰,王超飛
(1.西安郵電大學 網絡空間安全學院,陜西 西安 710121; 2.西安郵電大學 通信與信息工程學院,陜西 西安 710121)
隨著互聯網與信息技術的快速發展,信息安全問題[1-3]日益凸顯,現已成為當前信息技術的重要研究方向之一。在眾多的信息安全技術中,身份識別作為保護信息系統安全和實現訪問控制的基礎,是當前信息安全領域的一個研究熱點,已被廣泛應用于機場安檢、在線支付和手機訪問控制等日常生活的各個方面[4-5]。傳統的身份識別方法分為兩類,一類是通過證件、鑰匙和身份證識別個人身份,另一類是通過密碼和個人身份識別碼(Personal Identification Number,PIN)識別,這兩類方法均存在諸如證件丟失、忘記密碼等缺點[6]。生物特征具有無需記憶、唯一性和長時間保持不變等特點,有效解決了傳統身份識別方法的缺點。如指紋普遍性高、易于采集和穩定性好,可應用于指紋打卡、手機指紋解鎖和門禁解鎖等識別系統中。虹膜穩定性高、獨特性強和不易更改,可應用于刑偵、機場安檢及銀行高端安全安保等場合。因此,近年來基于生物特征的識別技術得到了快速發展和廣泛應用。
單模態生物特征識別技術[7-10]依賴于單一的生物特征,存在特征的顯著性低、獲取難、處理誤差大和特征不可用等缺點,會影響識別精度。通過采集多種生物特征,可使識別過程具備更豐富的有效識別信息,從而提高識別性能,增強系統的安全性和可靠性[11]。多模態生物特征識別[12-13]是整合多種人體生物特征進行身份識別的技術,與單模態生物特征相比,其具有更加可靠的識別性能,而且使得對生物特征的偽造和復制變得更加困難,提高了系統的安全級別。另外,多模態生物特征識別具有更廣的適用性,有效避免了因先天或后天等原因造成不能充分利用生物特征進行識別的問題?;诤缒ず椭讣y特征的多模態生物識別系統[14]先采用頻率的方法對提取的指紋和虹膜特征進行融合,生成齊次的生物特征向量,再利用漢明距離對融合后的特征向量進行匹配。雖然該方法取得了良好的識別率,但是其并沒有關注到融合特征的高維性。Yik-Herng等[15]提出了一種多模態生物特征融合方法,通過使用索引優先哈希和整數值映射策略生成可撤銷生物模板,并在此基礎上采用加權特征級融合的方式對指紋和虹膜進行實驗。該方法能夠有效防范系統受到的潛在隱私攻擊,但是識別性能較差,比單一虹膜特征生物的識別率低?;谥讣y和掌紋特征融合的可撤銷模板保護算法[16]利用Gabor濾波器分別對預處理后的指紋圖像和掌紋圖像進行紋理特征提取,并將融合后的特征向量投影到用戶PIN碼生成的正交矩陣中,得到一個可撤銷的融合特征模板,提高了身份認證系統的識別率,但指紋和掌紋圖像的紋理特征非常相似,安全性問題仍需考慮。基于特征融合的可撤銷模板保護方法[17]將指紋與手指靜脈特征相結合,對融合后的特征向量進行隨機置亂和離散傅里葉變換(Discrete Fourier Transform,DFT)操作,通過部分Hadamard變換生成可撤銷的多模態生物特征模板,該方法滿足不可逆和可撤銷特性,具有較好的認證性能和安全性,但該方法僅采用隨機置亂和DFT運算進行特征提取,對信息的挖掘并不充分。Tajinder等[18]設計了一個指紋和虹膜的多生物特征級別融合系統用于身份驗證。該系統先采用Gabor濾波器提取指紋特征,利用加速穩健特征(Speed up Robust Feature,SURF)算法提取虹膜特征,然后通過鯨魚優化算法對提取的指紋和虹膜特征進行優化,最后通過人工神經網絡算法對數據進行訓練。雖然該系統具有較好的安全性和良好的識別率,但是沒有對生物特征模板進行可撤銷性分析?;贐io-hashing的指紋模板保護算法[19]首先提取指紋圖像特征,然后將提取后的特征向量在量化過程中變成特征矩陣,最后生成指紋模板。相較于上述的多模態生物識別系統,該方法在安全性和識別精度上略顯不足。
在多模態生物識別系統中,生物特征模板包含一個人的多種特征信息,其安全性至關重要。可撤銷生物模板保護是一種重要的模板保護方法[20],可以對生物特征數據進行不可逆變換,生成一個可撤銷的模板。一旦用戶模板被泄露,通過更改用戶密鑰可以創建與原始模板完全不同的新模板,即使犯罪分子獲得了原有的模板信息,也無法從中恢復用戶的原始特征,很大程度上提高了用戶生物特征信息的安全性。因此,擬提出一種基于指紋和虹膜特征融合的可撤銷特征模板保護方法。該方法采用t分布隨機近鄰嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)方法對生物特征進行串聯融合和降維處理,然后對融合后的多模態特征進行隨機索引置亂和小波變換等操作,進一步提取特征,從而增強模板的安全性和識別率。
基于指紋和虹膜特征融合的可撤銷特征模板保護方法主要分為注冊和認證兩個階段。在注冊階段,首先對指紋和虹膜圖像進行預處理,提取其特征。然后將提取的特征向量串聯融合,并采用t-SNE對融合后的特征向量進行降維處理,再進行隨機索引置亂、小波變換和DFT運算等操作。最后通過部分Hadamard變換生成可撤銷的生物特征模板。在認證階段,對指紋和虹膜圖像進行相同的操作和變換生成認證模板,計算兩個模板之間的相似度得分,得到最終的匹配結果。可撤銷特征模板保護方法具體過程如圖1所示。

圖1 可撤銷特征模板保護方法具體過程
1.1.1 指紋預處理和特征提取
進行指紋預處理和特征提取時,先采用直方圖均衡化和快速傅里葉變換對指紋圖像進行圖像增強,然后通過基于Gabor濾波的指紋特征提取方法對預處理后的指紋進行特征提取,具體步驟如下。
步驟1確定指紋圖像的參考點和感興趣區域(Region of Interest,ROI)。
步驟2根據選取的不同的參考點將ROI劃分為扇區。
步驟3應用Gabor濾波器在8個不同方向進行濾波。
步驟4計算濾波圖像中各個扇區的灰度值與均值的平均絕對偏差,定義特征向量或指碼。
為了避免指紋和虹膜特征融合時類型不兼容的問題,采用Bio-hashing算法[21]將提取的指紋特征實值轉換成二進制比特串。
1.1.2 虹膜預處理和特征提取
虹膜圖像中包含眼瞼、瞳孔和鏡面反射等對特征提取不利的部位信息。因此,在虹膜識別前預處理和特征提取主要包括3個部分:1)虹膜分割,在眼睛圖像中定位虹膜區域;2)虹膜歸一化,創建一個維度一致的虹膜區域;3)虹膜特征編碼,創建只包含虹膜最具有識別力的特征編碼。虹膜處理具體過程示意圖如圖2所示。

圖2 虹膜處理過程
特征編碼是從虹膜圖像中提取潛在的生物特征信息,并生成匹配的二值虹膜模板。通過一維Log-Gabor濾波器,將二維歸一化圖像分解為若干個一維信號,并將其與一維Gabor小波進行卷積,生成虹膜特征集。該一維Log-Gabor濾波器在對數尺度上服從高斯分布,用于在任何帶寬下產生零直流分量,其計算表達式為
(1)
式中:f為頻率變量;fo為中心頻率;α為濾波器的帶寬。該濾波器通過計算其中心頻率和頻率平面中心到歸一化半徑等徑向濾波分量構造特征,并對特征進行相位量化和編碼,從而生成二進制虹膜模板。
將提取的指紋特征向量與虹膜特征向量進行拼接,即串聯融合。假設融合后的特征向量為B,考慮到其維數較高,存在信息冗余,因此采用t-SNE方法對其進行降維處理,將降維后的融合特征向量記為B′。t-SNE方法的核心思想是保證在低維空間的數據分布與原始特征空間分布的相似性高[22]。與其他降維算法相比,t-SNE方法創建了一個縮小的特征空間,相似的樣本由附近的點建模,不相似的樣本由高概率的遠點建模,且t-SNE是少數可以同時考慮數據局部與全局關系的方法,其在高維空間中采用高斯核心函數定義了數據的局部和全局結構之間的軟邊界。此外,t-SNE方法可以根據數據的局部密度分別確定每個數據點的局部領域大小。
利用t-SNE方法降維處理,是先計算高維數據點之間的相似度,構建初始空間的條件概率分布。然后在投影空間構建低維條件概率分布,并最小化這兩個概率分布之間的差異。初始空間中的概率定義[23]為
(2)
其中,
(3)
式中:xi和xj分別為任意兩個原始高維數據點;xk為除了xi之外的任意原始高維數據點;m為設定的低維空間的維度;σi為以數據點xi為中心的正態分布的方差,由二分搜索法計算獲得。
在投影空間中,引入t分布,其概率表示為
(4)
式中:yi和yj分別為降維后的數據點,即投影點;yk和yl為除了yi和yj之外的任意投影點。
在獲得投影點yi后,利用長尾分布避免擁擠問題,使得pij和qij之間的差異變小。為了滿足pij=qij,對于高維空間中相距較近的點,低維空間中的距離需要稍小一點,而對于高維空間中相距較遠的點,低維空間中的距離需要更遠,這樣便使得距離較近的同一簇內的點聚合更緊密,距離較遠的不同簇之間的點更加疏遠。
為了應對t-SNE方法在大規模計算或數據中訓練慢的問題,引用主成分分析(Principal Component Analysis,PCA)代替t-SNE方法中的隨機初始化步驟,提高算法效率。同時,針對t-SNE方法的結果具有一定的隨機性,采用PCA初始化的方式進一步增強降維結果的魯棒性。
對降維后的特征向量B′分別進行隨機索引置亂、小波變換和DFT運算,進一步提高生成模板的安全性和不可逆性。
隨機索引置亂是先生成需要的隨機數,并對其進行隨機排序,得到一個亂序的索引。然后根據索引將降維后的特征向量B′重新排序,得到新的特征向量Z,擴充密鑰空間。將小波變換應用于該特征向量Z,選取合適的濾波器,獲得小波變換后的特征向量Z′,極大地減小或去除所提取的不同特征之間的相關性。與傳統的傅里葉變換相比,小波變換的優勢在于其頻率數據是局部化的,允許出現在相同位置和分辨率的特征進行匹配。當小波變換應用于二維虹膜區域時,每個分辨率對應的小波都是基函數的縮放版本。
隨機索引置亂后的特征向量Z只包含0和1,如果直接對其進行操作,可能會減少搜索空間,降低安全性,特別是在元素稀疏分布的情況下。為了解決這一問題,首先對特征向量Z進行Haar小波變換獲得特征向量Z′,然后再進行N1點DFT變換得到變換后的特征向量F,其中N1=2n。變換的具體過程為
F=Z′U
(5)
其中,
Z′=[D(0),D(1),…,D(N1-1)]T
式中,W=e-j2π/N1。
通過小波變換和DFT變換,使F不再是稀疏分布,且矩陣U是酉矩陣,酉矩陣的變換為不可逆變換。因此,經過DFT變換后的特征可以進一步提高生物特征模板的安全性和不可逆性。
Hadamard變換是一個非正弦的正交變換,由Walsh函數組成。Walsh函數的振幅只有+1或-1兩個值,因此Hadamard變換后是實數,且有部分性質與離散傅里葉變換類似,在圖像處理方面,可以降低算法的復雜度,節省計算時間。
Hadamard矩陣定義元素為±1,且行向量是成對正交的。當m是2的冪次時,遞歸構造N×N的Hadamard矩陣為
(6)
考慮到Hadamard矩陣是對稱且正交的,則有
(7)
式中,IN為N×N單位矩陣。

(8)


基于指紋和虹膜特征融合的可撤銷模板保護方法的匹配過程分為注冊和認證兩個階段。定義φR為注冊階段的存儲模板,φA為認證階段的查詢模板,φR和φA之間的距離表達式為
(9)
式中,‖·‖2表示2-范數。
存儲模板和查詢模板之間的歸一化匹配分數,即相似度分數的表達式為

(10)
相似度分數S(φR,φA)的范圍為[0,1],其值代表了存儲模板和查詢模板的相似程度,1表示最相似,0表示最不相似,數值越大,兩個模板的相似程度越高,反之亦然。
為了驗證基于指紋和虹膜特征融合的可撤銷模板保護方法的有效性,使用Matlab R2018b在CPU為Inter Core i5,處理器為2.11 GHz和內存為16 GB的開發環境下進行相關實驗。實驗使用的數據庫為公開的指紋數據庫FVC2002 DB1、FVC2002 DB2和中國科學院自動化研究所(Institute of Automation of the Chinese Academy of Sciences,CASIA)虹膜圖像數據庫CASIA Iris。在指紋數據庫中,由于部分指紋沒有中心點,圖像質量差,因此在兩個指紋數據庫中分別選取含有中心點的50個手指的指紋圖像,每個手指取兩幅指紋圖像。在CASIA Iris數據庫中,由于部分虹膜沒有或只有一張圖像,因此選取225個人的虹膜圖像,每個虹膜取兩幅圖像,分為5組樣本,第一組50個,第二組45個,第三組45個,第四組45個,第五組40個。將選取的指紋樣本分別與5組虹膜樣本組合,指紋圖像和虹膜圖像示例如圖3所示。
采用誤識率(False Accept Rate,FAR)、誤拒率(False Refuse Rate,FRR)、等錯誤率(Equal Error Rate,EER)和正確接受率(Gennine Accept Rate,GAR)作為性能指標。FAR是將兩個不同手指的生物特征數據誤認為來自同一個手指的概率。FRR是將同一手指的兩個生物特征數據誤認為來自兩個不同手指的概率,且FRR+GAR=1。EER是指在FAR和FRR相等情況下的錯誤率,ERR值越小,系統認證性能越好。這些性能指標的值可以從真匹配和假匹配實驗中獲得。
2.2.1 真假匹配分布分析
指紋和虹膜分別在用戶密鑰安全和泄露兩種情況下進行真假匹配實驗,結果分別如圖4和圖5所示。為了便于表述,將FVC2002 DB1數據庫、FVC2002 DB2數據庫和CASIA Iris數據庫分別簡稱為DB1、DB2和Iris,并將FVC2002 DB1+CASIA Iris數據庫和FVC2002 DB2+CASIA Iris數據庫分別簡稱為DB1+Iris和DB2+Iris。在真匹配實驗中,分別提取指紋和虹膜的第一幅圖像的特征向量進行融合,然后經過t-SNE降維及其他一系列變換進一步提取特征,最后通過部分Hadamard變換生成模板,作為存儲模板。在指紋和虹膜的第二幅圖像上進行類似上述的操作,將生成的模板作為查詢模板。在假匹配實驗中,將指紋和虹膜的第一幅圖像作為存儲模板,剩余指紋和虹膜的圖像作為查詢模板。將所提方法在用戶密鑰安全和泄漏情況下進行評估,密鑰安全意味著給每個用戶分配一個唯一的密鑰(不同的PIN碼),密鑰泄漏意味著使用由相同PIN碼生成的矩陣進行驗證。

圖5 用戶密鑰泄露時真假匹配分布
由圖4可以看出,當用戶秘鑰安全時,真匹配分數分布區域為(0.8,1),而假匹配分數分布區域為(0.2,0.4),兩個分數區域明顯不在同一范圍內,證明所提方法具有良好的認證性能。
由圖5可以看出,在用戶密鑰泄露的情況下,真匹配分數分布區域和假匹配分數分布區域仍然為(0.8,1)和(0.2,0.4),且兩個區域間隔很遠,沒有重疊,證明即使密鑰泄露,所提方法依然能夠準確地識別真假用戶。
當用戶密鑰泄漏時,指紋和虹膜特征融合后的EER曲線如圖6所示。觀察可知,誤識率和誤拒率在大部分情況下均為0值,說明所提方法將負樣本錯誤地分類為正樣本的比例,以及將正樣本錯誤地分類為負樣本的比例非常小。因此,所提方法具有較好的識別性。

圖6 用戶密鑰泄露時EER曲線
2.2.2 對比實驗
考慮到t-SNE降維方法具有一定的不穩定性,因此分別將50、45、45、45和40等5組樣本進行10次實驗,5組樣本在密鑰泄露時的EER如表1所示。

表1 用戶密鑰泄露時5組樣本的EER/%
可以看出,實驗多次得到的EER為0,但是由于t-SNE降維方法具有一定的不穩定性,所以部分EER不為0,5組實驗得到的DB1+Iris特征融合的EER均值為0.52%,DB2+Iris特征融合的EER均值為0.49%,這表明在密鑰泄露時所提方法具有較好的識別率。
為了進一步分析所提方法的識別性能,分別對比不同模板保護方法在秘鑰泄露時的EER,結果如表2所示,其中Finger vein和Palmprint分別表示指靜脈和掌紋數據庫。

表2 不同方法的EER/%
從表2中可以看出,在單模態生物特征模板保護方法中,文獻[8]和文獻[19]方法在DB1和DB2數據庫的EER值分別為2.00%、2.30%和2.84%、3.38%,文獻[15]在DB2數據庫的EER值為0.93%。在多模態生物特征模板保護方法中,文獻[14-17]方法的EER值分別為2.36%、0.80%、4.38%和1.27%。所提方法在單一生物特征數據庫DB1、DB2和虹膜數據庫的EER值分別為2.95%、3.03%和2.83%,而在多模態生物特征DB1、DB2與虹膜融合后的EER均值分別為0.52%和0.49%。與上述單一生物特征模板保護方法、多生物特征模板保護方法,以及所提方法在單一生物特征模板的EER值相比,所提方法在多生物特征融合后得到的EER值均小于其他EER值, EER的值越小,識別性能越好。因此,所提方法較其他模板保護方法具有明顯的優勢和更好的識別性能。
文獻[16]方法、文獻[17]方法、文獻[19]方法和所提方法在用戶密鑰泄露時的受試者工作特征(Receiver Operating Characteristic,ROC)曲線如圖7所示。ROC曲線越接近1,表明識別性能越好。

圖7 不同方法的ROC曲線
從圖7中可以看出,所提方法的ROC曲線更接近于坐標軸,說明該方法的識別性能優于其他特征模板保護方法。


圖8 兩種數據庫的假匹配和偽假匹配分布
由圖8可知,偽假匹配分布與秘鑰安全時的假匹配分布十分相似。因此,當用戶密鑰泄露或者模板被盜后,用戶可以通過更換密鑰或PIN碼生成新的轉換模板,滿足特征模板的可撤銷性。
對于可撤銷的生物特征模板保護系統,其安全標準是攻擊者能否從生成的融合后的模板中恢復原始生物特征信息。所提方法的生成模板首先采用不同的方法對指紋和虹膜圖像進行特征提取,將提取的指紋與虹膜紋理特征進行串聯融合,然后對融合后的特征向量進行t-SNE降維處理,有效地覆蓋了原始指紋和虹膜的特征信息。即使攻擊者知道指紋或虹膜的信息,也很難從中恢復出原始特征信息,且無法通過系統認證。其次,通過對融合后的向量進行隨機索引置亂、小波變換和DFT運算,將線性系統與非線性系統相結合,提高了模板的安全性,實現了模板的不可逆性。最后,再將模板與部分Hadamard變換結合,生成可撤銷生物特征模板,進一步提高了系統的安全性。實驗仿真結果表明,即使攻擊者獲得用戶密鑰,系統認證成功的概率也很低,證明了該方法生成的模板具有良好的安全性能。
基于指紋和虹膜特征融合的可撤銷模板保護方法先對指紋圖像和虹膜圖像進行特征提取,并將其串聯融合,采用t-SNE對融合后的特征向量進行降維處理。然后對降維后的特征向量進行隨機索引置亂、小波變換和DFT運算,擴大密鑰空間的同時,保證了其不可逆性。最后,將經過一系列變換的特征向量與部分Hadamard變換結合,生成可撤銷生物特征模板。實驗結果表明,所提方法比單一生物特征模板具有更好的安全性和識別能力,滿足模板的不可逆性和可撤銷性。