摘 要:生物識別技術常被用于網絡安全領域以認證和授權訪問為目的的身份識別過程中,用戶提供的生物特征數據由數據安全系統采用的協議進行處理和轉換,再與已提交和被認證的授權用戶生物特征數據進行比對。比對的結果決定是否授予和授予該用戶何等訪問權限。在信息安全領域,生物特征識別方式是一個成熟和有效的安全驗證機制,錯誤率低。近些年,網絡安全面臨著嚴峻形勢,各信息安全認證系統中預存儲的生物特征圖像面臨著被盜取并被入侵者濫用的風險。由此,該文提出一種不涉及修改存儲用戶生物特征圖像的安全加固的存儲系統,該系統將提交的生物特征圖像生成用于認證和訪問授權的無規律密碼。為確保生物特征提取的準確性,該研究還引入深度學習模型將生物特征圖像轉換成二進制字符串形式存儲。該研究通過實驗計算得出一階和二階錯誤概率。實驗結果表明,該文提出的加密系統不但實現可靠提取圖像中生物特征的功能,還能保證生成的二進制字符串的高安全性和識別準確度。
關鍵詞:面部圖像;深度學習模型;卷積神經網絡;特征提取;生物識別
中圖分類號:TP391 文獻標志碼:A 文章編號:2095-2945(2024)22-0005-05
Abstract: Biometric technology is often used in the process of identity identification for the purpose of authentication and authorized access in the field of network security, where the biometric data provided by users are processed and converted by the protocols adopted by the data security system, and then compared with the biometric data of submitted and authenticated authorized users. The result of the comparison determines how access is granted and granted to the user. In the field of information security, biometric identification is a mature and effective security verification mechanism with low error rate. In recent years, network security is facing a severe situation, and the biometric images pre-stored in various information security authentication systems are facing the risk of being stolen and abused by intruders. Therefore, this paper proposes a secure storage system which does not involve modifying and storing user biometric images, which generates irregular passwords for authentication and access authorization from the submitted biometric images. In order to ensure the accuracy of biometric extraction, this study also introduces a deep learning model to convert biometric images into binary strings for storage. In this study, the first-order and second-order error probabilities are calculated by experiments. The experimental results show that the encryption system proposed in this paper not only realizes the function of reliably extracting biometric features from the image, but also ensures the high security and recognition accuracy of the generated binary string.
Keywords: facial image; deep learning model; convolution neural network; feature extraction; biometric recognition
人臉識別技術作為主要的生物特征識別技術之一,被廣泛應用于各種身份識別和安全認證系統[1]。人臉識別系統基于比對機制確定申請者是否具有相應的權限,即檢驗申請者的人臉圖像的特征是否與已存儲的圖像信息庫中對應圖像的生物特征具有一致性[2-3]。比對一致性的驗證結果作為是否授予相應授權的依據。
人臉識別技術雖然是一種廣泛使用和成熟的技術,但也存在明顯缺點:作為基礎設施的人臉圖像數據的存儲并不安全,如果攻擊者竊取了存儲著人臉圖像的數據庫,也就獲得了訪問許多受保護資源的權限,合法用戶的身份被盜用。此外,攻擊者通過植入虛假的人臉數據實現對訪問權限的騙取。在全球網絡安全形勢異常嚴峻的今天,這種安全威脅普遍存在[4]。
本文提出的加密系統只存儲和處理使用深度學習模型形成的匿名二進制字符串(密碼、PIN碼、訪問密鑰)[1,5]。同時,為確保生成的二進制字符串形式的密鑰的可靠性和低錯誤率。本系統使用了卷積神經網絡生成二進制字符串的閾值方式確保密鑰存儲的安全性和可靠性[6-7]。實驗結果顯示,本系統的可靠性和低錯誤率得到了實驗的驗證,取得了優異的性能指標,具有在全行業推廣和加固既有數據庫系統的應用價值。
1 人臉圖像提取特征的方法
本系統通過提取二進制字符串采用以實現安全的臉部識別認證和訪問授權為目的的深度學習模型,低錯誤率確保了高可靠性。本方法的原理介紹如下。
1.1 特征矢量提取
根據Keras Facenet方法的臉部識別模型[8],若給定一張圖片,以X∈L表示,轉換為一組特征矢量x=φ(X)∈R,這一轉換也可以被表示為:L→R。為了進一步分類,使用圖像之間的距離,該距離定義為對應特征矢量之間的距離,這2個矢量x,y∈R之間的距離為它們差異的?2范數的平方,即
由此,兩圖像間的距離可表示為
。 (2)
索引d常被用于比對2張圖片,如果dL(X,Y)足夠小時,圖像X和Y被認為是同一圖像,并將這種關系表示為X≡Y;相反,如果dL(X,Y)足夠大時,圖像X和Y則被認為不是同一圖像,并將這種關系表示為 X≡/Y。
1.2 特征矢量變換
當需要從一個圖像Σ?{0,1}種生成一個二進制字符串Σ并返回一個實數矢量R。因此,一個特征矢量轉換器ψ:R→Σ被引入并被用于將從圖像檢索到的特征矢量轉換為長度為ns 的二進制字符串。這樣,如果將最終函數定義為深度學習模型ψ和特征轉換器 Φ的組合,即得到轉換公式:Φ?ψo?:L→Σ。由于深度學習模型和模糊n3d3g8nP9fQAxqF9rkjoQjbCoZN4KpiU2CGXumaH//8=提取器都需要相同的128位長度,可用N?nf=ns=128來表示嵌入大小。由此,特征矢量轉換器可用如下公式表示
ψ(x)=i(x>0N) , (3)
式中:i是逐元素應用的指示函數。這一公式能夠更好地詮釋了ψ的特點,但是在相同人臉和不同人臉之間的識別精度并不理想,有待提高。
1.3 精度指標
與實數向量類似,將二進制字符串之間的距離(二進制距離)定義為不匹配位置的比例,即
圖像之間的二進制距離δL和矢量特征的二進制距離δf分別對應它的二進制字符串之間的距離。因為不難將方程(4)擴展到實數矢量[0,1]N,所以此處略去了索引,不論是一個二進制字符串還是一個實數矢量,距離都可由方程(4)確定。
值得注意的一點,二進制距離取值范圍是[0,1]之間,其中0對應相同的二進制字符串,1對應2個完全不同的字符串。因此,可以定義一個“相似度”量,表示為σ,其可由1 減去二進制距離得出。σ的計算公式為
。 (5)
為了評估本文提出的基于大型數據集算法的準確度,需要定義數據集上的累積相似度。假設有一個包含圖像和標簽的數據集 ,若想在該數據集中測試函數ψ,則需要在該數據集中形成若干對的集合Ρ,然后將其分為相同人的圖像對集合 Psame= {(X,Y)∈P|X≡Y}和2個不同人的圖像對集合 Pdiff={(X,Y)∈P|X≡/Y}。然后,基于對這2個集合進行評估得出平均相似度用于檢驗效果,計算公式為
實現最大化same的同時,最大化差異same-diff。為了將這些規則封裝成一個單一的度量,Σscore矢量被引入,其計算公式為
, (7)
式中:η>1是一個參數,用于調節same-diff之差對same的敏感度,結合本文實驗的情況,η的建議值在[1,5]之間選取。
2 改進的特征矢量轉換器
2.1 閾值的選取
如圖1所示,當N=2時,如果數據按照圖1(a)所示分布,函數i(x>0N)能夠以高精度區分不同人臉圖像的所有簇,若將相同的函數應用于圖1(b)所示的像素數據集將無法區分任何對,哪怕所有的像素都位于相同的象限內。為了防止這個問題,可以將坐標軸移動到左下側象限邊界附近。
假設X是一個期望值為μ:= E[X]的隨機矢量,因此,將新的特征向量轉換器定義為
。 (8)
給定一組像素數據集 ,可得到一組特征矢量 并將期望值近似為這個集合的均值,
2.2 三元組損失學習
本研究采用三元組損失函數和孿生網絡學習編碼函數,即 ,三元組損失由以下公式定義
根據ReLU函數得出: 。
本研究提出的特征轉換器正是借鑒了這一方法訓練得出的。首先,確定所需的函數ψ:RN→ΣN返回一個離散輸出(即0或1),也可以在最后一層放置一個激活函數,這個激活函數會將Σ中的一個實數元素轉換成0或1,但是將任何指示函數作為激活函數可能會導致訓練失敗(不會定義梯度)。因此,可行的做法是通過在神經網絡的最后一層放置一個sigmoid函數來訓練一個函數ψ:RN→[0,1]N。
對于二進制字符串分類最常用的損失函數是二值交叉熵損失函數[9]。假設有一個數據集
并且每一個 ,對于模型 的而致損失的計算公式為
。(10)
從貝葉斯視角來看,函數p(x)的值代表矢量x被標記為1的置信度。這里,如果正確的標簽是y=1且模型輸出p(x)=0.2,那么這個訓練樣本的損失將是-log 0.2≈0.7;如果模型輸出p(x)=0.8,計算得出的損失將會大大降低,即-log0.8≈0.1。此時,二值距離δ(x,y)代表模型將矢量x,y分類為不同人臉圖像的矢量置信度。在理想情況下,當模型達到100%的準確率時,函數δ將會是
。 (11)
因此,借鑒二元交叉熵函數,本研究計算損失矢量對的函數如式(12)所示
。 (12)
本研究的三元組損失公式為
。(13)
函數Ψ通常返回一個矢量[0,1]N,而不是ΣN。對本研究的實驗和模型訓練結果觀察發現,模型返回的值要么非常接近0,要么非常接近1。可將“轉換”規則定義如下
2.3 模型結構
本研究的模型結構如圖2所示,這里引入了一個相對簡單的嵌入模型,該模型設置了一個長度為128位的隱藏層,用FaceScape數據集(大約16 940張圖片)中的80%進行學習訓練,用剩余的20%對模型準確性進行驗證[10]。
3 實驗結果
本研究使用FaceScape數據集對人臉識別模型進行驗證實驗,該數據集包含16 940張圖片,本研究的人臉識別模型采用了實值矢量,實驗結果表明本研究提出的人臉識別模型比Keras Facenet 模型具有更高的精度和可靠性,實驗結果見表1。
表1中的第一行對應于基于模糊提取器的轉換規則[11]。同一個人的成對圖片的平均相似度與2個不同人的成對圖片的平均相似度沒有顯著差異,差異約為6%。反過來,如果首先計算特征向量期望值μ,應用本研究改進的規則i(x>μ),盡管同一個人的圖片的平均相似度降低到了71.5%,此時得到的差異卻為23.5%,這里得到的結果明顯優于第一行數據結果。最后一行的數據顯示,在保持2個相似度之間相對的差異為28.5%的情況下,采用神經網絡對同一個人的一對圖片比對出的相似度高達98.4%。這種比對結果顯示出了本研究的方法具有高準確度。
4 結論
人工智能技術已被廣泛用于醫學圖像處理、數字取證、社會工程以及許多其他應用生物特征圖像的技術中。本研究考慮應用深度學習模型從生物特征面部圖像生成非個人數字特征。這一研究對于提高以人臉圖像作為生物特征識別和認證進而授權訪問的受保護信息系統資源的安全機制尤為重要。本研究將從生物特征面部圖像中提取的生物特征以二進制字符串形式存儲并顯示。對于同一個人的人臉圖片,這些二進制字符串應具有最大相似性;相反,對于不同人的人臉圖像,所映射的二進制字符串應呈現出最大的差異性。通過實驗結果對比發現,基于模糊提取器的閾值方案簡單生成的二進制字符串仍具有較大改進空間。本研究采用神經網絡技術,通過采用大樣本加以訓練以生成更精準的二進制字符串形式的數字化特征。實驗結果顯示,與之前的研究相比,本研究顯著提高了精度和性能。例如,采用基于模糊提取器方法[11],為一組相同的人臉圖像生成了90%相似的二進制字符串,然而,不同人的一組人臉照片生成的二進制字符串也大約有81.5%相似(見表1的第一行)。一個改進的閾值規則改善了不同人的字符串之間的區分,匹配特征達44.8%。然而,其也導致同一個人的匹配特征比例降低至76.5%(見表1的第二行)。本研究使用深度學習模型顯著改善了這一特性(見表1的第三行)。對于同一個人生成的一組人臉圖像,生成的二進制字符串的相似度達97.9%,而不同人之間的相似度百分比不降低至41.1%。值得注意的是,最重要的是這2個指標之間的差異σsame-σdiff>50%,這是目前業內取得的最好結果。將本研究所獲得的結果與模糊提取器相結合,成為生成可靠性高和加密強度高的密鑰(密鑰、PIN碼等)的有效方法,這也是本研究的顯著應用價值之一。在嚴峻的網絡安全形勢下,包括人臉圖像在內的數據存儲和使用存在著很多安全風險,這也為本研究成果的推廣和使用提供了較廣闊的加固信息安全系統的應用場景和技術舞臺。
參考文獻:
[1] 郝春亮,張妍婷,張雨桐,等.網絡安全標準助力人臉識別規范應用[J].信息技術與標準化,2023(7):82-84,90.
[2] 蔡敏.移動終端的人臉識別身份認證技術分析[J].科學技術創新,2019(9):66-67.
[3] 陳放,劉曉瑞,楊明業.基于活體檢測和身份認證的人臉識別安防系統[J].計算機應用,2020,40(12):3666-3672.
[4] 李艷紅.大數據背景下云存儲數據安全研究[J].網絡安全技術與應用,2022(9):70-71.
[5] 岳少博,王清河,王曉春,等.基于融合模糊聚類算法的云信息存儲加密仿真[J].計算機仿真,2020,37(3):449-452,469.
[6] 魏月納.基于特征融合的人臉識別算法研究與應用[D].無錫:江南大學,2016.
[7] 毛俊杰,劉鵬,李昌鋒.基于人臉識別和生物特征的學生身份安全認證系統[J].電子設計工程,2020,28(12):30-34.
[8] MIAKSHYN O P,ANUFRIIEV,BASHKOV Y. Face Recognition Technology Improving Using Convolutional Neural Networks[C]//2021 IEEE 3rd International Conference on Advanced Trends in Information Theory(ATIT),Kyiv,Ukraine,2021:116-120.
[9] 張俸璽,吳丞楚,張運澤,等.基于改進損失函數的實體類別平衡優化算法[J].廣西科學,2023,30(1):100-105.
[10] Introduction[EB/OL].https://facescape.nju.edu.cn.
[11] KVZNETSOV A, ZAKHAROV D, FRONTONIE K, et al. Deep Learning Based Fuzzy Extractor for Generating Strong Keys from Biometric Face Images[C]//2022 IEEE 9th International Conference on Problems of Infocommunications, Science and Technology(PIC S&T), Kharkiv, Ukraine,2022:421-426.
基金項目:廣東省教育廳特色創新(自科)基金項目(2022KTSCX157)
作者簡介:王東(1979-),男,碩士,高級工程師。研究方向為大數據和云計算技術。