




摘要:隨著人臉識別技術的迅速發(fā)展,基于深度學習的方法在該領域中愈發(fā)受到重視。文章基于 ResNet 模型,探討高校人臉識別庫的構建方法。研究內(nèi)容涵蓋數(shù)據(jù)收集、預處理、模型訓練、特征提取與識別等環(huán)節(jié)。研究結果表明,基于ResNet 的高校人臉識別庫在識別準確性和實用性方面表現(xiàn)優(yōu)異。該方法能夠顯著提高身份驗證效率,保障校園安全。
關鍵詞:人臉識別;高校人臉庫;特征提取;身份驗證
中圖分類號:TP18 文獻標識碼:A
文章編號:1009-3044(2025)05-0030-04 開放科學(資源服務) 標識碼(OSID) :
0 引言
0.1 背景
隨著現(xiàn)代社會對身份識別和安全管理需求的增加,人臉識別技術已成為一項重要的生物識別技術。在傳統(tǒng)的身份驗證和安防系統(tǒng)中,使用密碼、卡片等方式進行身份確認容易被復制或盜用,存在一定的安全隱患[1]。而人臉識別技術作為一種自然、方便且安全的身份驗證方式,逐漸受到重視。特別是在高校管理中,人臉識別在考勤、門禁管理及安防監(jiān)控等方面的需求日益突出。
人臉識別技術的發(fā)展經(jīng)歷了從傳統(tǒng)方法到深度學習的飛躍。在早期,人臉識別技術通過手動設計特征提取算法來實現(xiàn)。然而,這些傳統(tǒng)方法在復雜場景中表現(xiàn)不佳,尤其是在光照變化、姿態(tài)變化和表情變化的情況下,識別精度顯著下降。近年來,深度學習,尤其是卷積神經(jīng)網(wǎng)絡(CNN) 的引入,極大地提高了人臉識別技術的準確性[2]。通過端到端的訓練,CNN 能夠從大規(guī)模數(shù)據(jù)集中自動學習有效的圖像特征,減少了對人工干預的依賴。
He等[3]研究人員提出的 ResNet 網(wǎng)絡模型憑借其殘差學習(Residual Learning) 結構成為圖像識別領域的重要分支。與其他 CNN 模型相比,ResNet 通過引入跳躍連接(skip connections) [4],有效解決了深層網(wǎng)絡訓練時的梯度消失問題,使得網(wǎng)絡可以訓練得更深、更精確。因此,ResNet 在許多計算機視覺任務中表現(xiàn)優(yōu)越。
0.2 人臉識別技術在高校中的應用
高校作為一個相對封閉的社區(qū),對身份驗證和管理的需求尤為突出。傳統(tǒng)的考勤管理通常依賴于打卡或指紋識別等方式,不僅操作煩瑣,還容易被偽造。相比之下,人臉識別技術能夠提供一種無感知的身份驗證方式,大幅提高考勤管理的效率。同時,在校園重要出入口部署人臉識別系統(tǒng),可以有效增強校園的安全管理,及時識別潛在的安全威脅。
在這樣的背景下,基于深度學習的人臉識別系統(tǒng)尤其適合高校場景。通過高清攝像頭實時采集學生的面部數(shù)據(jù),進行特征提取與匹配,可以實現(xiàn)高效的身份驗證和安全監(jiān)控,為高校管理提供了便利和保障。
0.3 研究目標與意義
本研究的目標是基于 ResNet 構建一個適用于高校的人臉庫系統(tǒng)。通過詳細探討數(shù)據(jù)收集、預處理、模型訓練、特征提取與識別等環(huán)節(jié),本文旨在提供一個完整的技術方案,為高校管理中人臉識別技術的應用提供參考。這不僅能夠提升高校的管理效率,也為人臉識別技術在教育領域的進一步推廣奠定了基礎。
1 人臉識別模型的構建
在建立一個有效的人臉庫模型時,涉及的步驟從數(shù)據(jù)收集到模型訓練再到識別過程,包括以下幾個主要環(huán)節(jié):數(shù)據(jù)收集、數(shù)據(jù)預處理、人臉檢測與裁剪、特征提取、數(shù)據(jù)存儲與管理、模型訓練、模型評估與優(yōu)化等。
1.1 數(shù)據(jù)預處理
在數(shù)據(jù)采集之后,直接使用原始圖像進行人臉識別會受到諸多因素的影響,比如不同的光照、姿態(tài)和表情變化等[5]。因此,通過合理的數(shù)據(jù)預處理,可以提升模型的魯棒性,增強人臉特征的提取效果,從而提高整體識別的準確性。數(shù)據(jù)預處理的步驟包括圖像標準化、去噪處理、人臉檢測與裁剪以及數(shù)據(jù)增強等。
1.1.1 圖像標準化
圖像標準化主要包括統(tǒng)一圖像尺寸、灰度化處理和歸一化。卷積神經(jīng)網(wǎng)絡接收固定大小的輸入圖像可以避免形狀不匹配問題。灰度化處理將彩色圖像轉換為單通道灰度圖像,在保留關鍵特征的同時,簡化了模型結構并減少了計算量。歸一化能夠縮小像素值的范圍,使神經(jīng)網(wǎng)絡的梯度更新更穩(wěn)定,有助于提升模型表現(xiàn)并加快收斂速度。
1) 統(tǒng)一圖像尺寸。不同攝像頭采集的圖像可能具有不同的分辨率和尺寸。如果直接將這些不一致的圖像輸入神經(jīng)網(wǎng)絡中,可能會導致模型無法有效學習。因此,所有輸入 ResNet 模型的圖像必須經(jīng)過統(tǒng)一的尺寸處理。本研究將圖像調(diào)整為固定尺寸(224×224 像素) 。
2) 灰度化處理。在人臉識別任務中,彩色信息對特征提取的貢獻較小,主要依賴于圖像的形狀、輪廓和紋理等特征。為了簡化計算并減少不必要的信息,將彩色圖像轉換為灰度圖像不僅可以降低計算成本,還可以提高模型的效率[6]。灰度轉換公式為:
Gray = 0.299 × R + 0.587 × G + 0.114 × B (1)
式中:R、G、B 分別表示圖像的紅、綠、藍三個通道的像素值。加權系數(shù)(0.299, 0.587, 0.114) 來源于人眼對顏色敏感度的差異。綠色的權重最高,其次是紅色,而藍色的權重最低。
3) 圖像歸一化。通過歸一化,將像素值的取值范圍從[0,255] 縮小到[0,1]。歸一化可以消除不同圖像間亮度差異的影響,保證數(shù)據(jù)的一致性。這對于模型的收斂速度和識別精度都有重要的促進作用。
1.1.2 去噪處理
在圖像采集過程中,受限于環(huán)境的復雜性和硬件設備的局限性,采集到的圖像往往會帶有噪聲。噪聲的存在會干擾模型對人臉特征的提取,進而影響識別的準確率。因此,在預處理階段,去噪處理是一項不可忽視的操作。
本研究采用中值濾波對圖像進行去噪處理。中值濾波對椒鹽噪聲和隨機噪聲具有較強的抑制效果。它通過將像素值替換為鄰域像素的中位數(shù),能夠有效去除異常值(噪聲) ,而不影響整體圖像的邊緣細節(jié)。相比于均值濾波,中值濾波更能保護邊緣信息。由于中值濾波不依賴于直接求平均值,因此避免了邊緣模糊,使邊界清晰的人臉特征得以更好地保留。
1.1.3 人臉檢測與裁剪
在獲得清晰、無噪聲的圖像后,下一步是進行人臉檢測與裁剪。人臉檢測的目的是從整個圖像中準確定位人臉區(qū)域,并去除背景及其他無關信息,以確保模型僅關注人臉特征。這不僅可以提高后續(xù)處理的效率,還能顯著提升識別的準確性。
本研究采用 Haar 級聯(lián)分類器進行人臉檢測與裁剪。Haar 級聯(lián)分類器是一種基于 Haar 特征的高效人臉檢測方法,具有實時性強和準確率高的優(yōu)點。該算法首先通過計算圖像中多個 Haar 特征來評估潛在人臉區(qū)域。這些特征能夠有效捕捉人臉的輪廓和關鍵特征,如眼睛、鼻梁和嘴巴等。為提升計算效率,Haar 級聯(lián)分類器還利用了積分圖,使得特征的計算更加迅速。
經(jīng)過檢測后,識別出的人臉區(qū)域將被裁剪,形成獨立的人臉圖像。這些裁剪后的人臉圖像將作為輸入數(shù)據(jù),送入 ResNet 模型進行特征提取,為后續(xù)的人臉識別任務提供準確、有效的輸入。
1.1.4 數(shù)據(jù)增強
為了提高模型的泛化能力,避免過擬合,數(shù)據(jù)增強是一項在深度學習中廣泛應用的技術。它通過對原始圖像進行一系列變換,如旋轉、翻轉、縮放、裁剪等,生成更多樣化的訓練樣本,從而有效擴展訓練數(shù)據(jù)集。這樣,模型能夠在更廣泛的場景中學習和識別特征,提升其在未知數(shù)據(jù)上的表現(xiàn),增強模型的魯棒性和適應性。
旋轉:通過旋轉圖像不同的角度,模型可以學習到不同角度下的特征,幫助模型識別圖像在不同方向上的信息。
翻轉:通過水平或垂直翻轉圖像,模型能夠學習到對稱結構的特征。這對于處理人臉任務非常有幫助。
縮放:通過對圖像進行放大或縮小,模型能夠適應圖像大小的變化,識別不同尺度下的目標。
裁剪:從原圖中隨機裁剪不同區(qū)域,有助于提高模型對圖像中物體局部特征的敏感性,并增強對位置變化的適應能力。
平移:通過平移,模型可以學習到圖像中目標的位置信息,避免過于依賴特定位置的特征。
顏色抖動:通過隨機改變圖像的亮度、對比度、飽和度等,模型能夠適應不同的光照條件,使其在實際場景中更具魯棒性。
噪聲添加:在實際應用中,圖像質量可能會受到多種因素的影響,添加噪聲模擬這些干擾有助于提升模型的穩(wěn)定性。
1.2 模型訓練
模型訓練是構建高校人臉庫的核心步驟之一。在數(shù)據(jù)經(jīng)過充分的預處理之后,接下來就是訓練模型以提取圖像中的有效特征,并能夠對這些特征進行精確的分類。基于 ResNet 模型的訓練流程包括數(shù)據(jù)劃分、模型初始化、選擇損失函數(shù)、優(yōu)化算法的應用、訓練過程的監(jiān)控與調(diào)整以及模型的保存與評估。
1.2.1 數(shù)據(jù)劃分
將預處理后的數(shù)據(jù)集劃分為三部分:訓練集(Training Set) 、驗證集(Validation Set) 和測試集(TestSet) 。劃分比例為訓練集占 70%,驗證集占 15%,測試集占 15%。
1.2.2 模型初始化
ResNet50 在 ImageNet 等大型圖像分類數(shù)據(jù)集上表現(xiàn)出色。它能夠通過多層卷積和殘差連接有效地提取圖像中的高級特征,這些特征對于多種圖像任務(如分類、檢測、識別) 都具有很高的價值。本研究使用預訓練的 ResNet50 模型。通過遷移學習,可以將ResNet50 在 ImageNet 上學到的特征表示能力應用到人臉識別上,從而實現(xiàn)快速適應和高效學習。
1.2.3 預訓練模型的使用
將預訓練模型的最后一層分類器(fully connectedlayer) 移除,保留模型的前幾層用于特征提取。隨后,添加一個新的全連接層以完成特定類別的分類或特征提取任務。
1.2.4 損失函數(shù)
交叉熵損失是分類任務中常用的損失函數(shù)。對于每個輸入圖像,模型會預測出一個與人臉庫中每個身份對應的概率分布。交叉熵損失函數(shù)用于衡量預測分布與真實標簽之間的差異,進而優(yōu)化模型參數(shù)。交叉熵損失函數(shù)的公式為:
式中:y 為真實標簽,y?為模型的預測概率,N 為樣本數(shù)量。
1.2.5 優(yōu)化算法
Adam(Adaptive Moment Estimation) 優(yōu)化算法是一種自適應學習率的梯度下降算法,它結合了動量和RMSProp 的優(yōu)點,具有較快的收斂速度和較好的穩(wěn)定性。Adam 通過計算梯度的指數(shù)移動平均值和梯度平方的移動平均值來調(diào)整學習率,其公式如下:
1) 一階動量估計(均值) 。 Adam計算梯度的指數(shù)加權移動平均,作為梯度的一階動量估計:
mt = β1mt - 1 + (1 - β1 )gt (3)
式中:mt 為當前步長的動量估計,β1 為一階動量的衰減率。
2) 二階動量估計(方差) 。Adam計算梯度平方的指數(shù)加權移動平均,作為梯度的二階動量估計:
vt = β2 vt - 1 + (1 - β2 )gt 2 (4)
式中: vt 為當前步長的方差估計,β2 為二階動量的衰減率。
3) 偏差校正。由于動量初始時接近零,會引入偏差,Adam對一階和二階動量分別進行偏差校正:
式中:m?t 為校正后的一階動量估計, v?t 為校正后的二階動量估計。
4) 參數(shù)更新。根據(jù)校正后的動量和學習率更新參數(shù):
式中:θt 為當前的參數(shù)值,α 為全局學習率, ? 為小常數(shù),用于防止分母為零。
Adam 優(yōu)化算法通過動態(tài)調(diào)整學習率,能夠在訓練過程中更快地收斂,同時保持較好的穩(wěn)定性,是深度學習中廣泛使用的優(yōu)化方法之一。
1.2.6 訓練過程
一個訓練周期(epoch) 是指使用整個訓練集進行一次完整的前向傳播和反向傳播。在每個 epoch 中,使用訓練集對模型進行訓練,并在驗證集上評估模型性能。采用早停策略,即當在驗證集上觀察到的損失不再下降時停止訓練,從而避免過擬合問題。
1.2.7 保存模型
訓練完成后,將模型參數(shù)保存,以便后續(xù)的特征提取和識別過程中使用。同時,對不同訓練階段的模型進行版本控制,這有助于后續(xù)的性能比較與分析。
2 人臉識別系統(tǒng)架構
使用 ResNet 進行特征提取是建立高校人臉庫的核心步驟。以下是人臉庫的部署架構、識別過程及用戶接口的詳細描述。
2.1 人臉庫基本架構
2.1.1 數(shù)據(jù)采集層
采用手機端采集和照片上傳相結合的方式采集人臉信息,允許用戶或管理員手動上傳現(xiàn)有的圖像數(shù)據(jù),包括證件照片、生活照等。通過照片上傳,可以在短時間內(nèi)采集大量圖像數(shù)據(jù),有助于快速構建原始數(shù)據(jù)集。
2.1.2 數(shù)據(jù)預處理層
對采集到的圖像進行預處理,包括人臉檢測、裁剪和標準化處理。通過 Haar 級聯(lián)分類器識別圖像中的人臉區(qū)域,確保輸入模型中的數(shù)據(jù)質量。
2.1.3 特征提取層
經(jīng)過預處理的圖像將輸入 ResNet 模型進行特征提取,生成對應的人臉特征向量。這些特征向量用于表示人臉的深層次特征。
2.1.4 存儲層
所有提取到的特征向量將存儲在數(shù)據(jù)庫中,以便后續(xù)的識別和檢索使用。
2.1.5 應用層
提供人臉識別的相關服務接口,支持身份驗證、考勤管理和校園安防等功能。
2.1.6 用戶接口
通過 Web 或移動應用,師生可以方便地訪問人臉識別庫,進行人臉采集、身份驗證等操作。
3 特征提取與識別
經(jīng)過模型訓練后,模型可以從輸入的圖像中提取深層次的特征向量,用于表示人臉的唯一性。通過特征提取模型,將人臉圖像轉化為可用的向量表示,隨后使用這些向量進行身份驗證和識別。本研究通過捕捉圖像中的特征信息,生成一個2 048維長度的向量,用于后續(xù)的相似度計算。
在人臉庫建立后,識別過程通過比較輸入圖像的特征向量與庫中已存儲的向量來進行身份驗證或識別。該過程的核心在于相似度計算與分類決策。
本研究采用歐幾里得距離作為相似度計算方法,通過計算兩個人臉特征向量的歐幾里得距離,判斷兩者的相似度。距離越小,說明兩張臉越相似。歐幾里得距離的計算公式為:
式中:A 和B 分別表示兩個人臉的特征向量,n 是特征向量的維數(shù)。
4 人臉庫應用場景
人臉庫建立后可以支持多種應用場景,尤其是在高校環(huán)境中,以下是一些主要的應用場景。
4.1 門禁管理
高校的門禁管理系統(tǒng)利用人臉識別技術,能夠顯著提升校園安全性。通過在學校主要出入口設置人臉識別道閘,系統(tǒng)可以實現(xiàn)身份驗證,并對可疑人員進行警報提示。
4.2 安防監(jiān)控
基于人臉識別技術的安防監(jiān)控系統(tǒng)能夠提高校園的安全管理水平。通過分析監(jiān)控視頻流,系統(tǒng)能夠實時識別出可疑人員并及時做出反應。一旦識別出與數(shù)據(jù)庫中記錄的可疑人員相符,系統(tǒng)會立即發(fā)送警報,通知安保人員進行進一步處理。
4.3 考勤管理
在高校中,考勤是日常管理的重要組成部分。基于人臉識別技術,學生可以通過面部識別實現(xiàn)無感知自動考勤管理[7]。相比傳統(tǒng)的簽到方式,面部識別能夠快速完成考勤,減少學生排隊的時間。通過與教務系統(tǒng)等第三方系統(tǒng)對接,在每節(jié)課開始前,系統(tǒng)能夠自動識別進入教室的學生,并記錄其出勤狀態(tài),從而實現(xiàn)自動化的無感知考勤。
5 結論
基于 ResNet 的人臉識別庫的建立有效地提高了身份識別的準確性和效率。通過合理的數(shù)據(jù)收集、預處理、模型訓練和特征提取,可以為高校的管理提供有力支持。隨著技術的進一步發(fā)展,人臉識別技術在高校的應用將愈加廣泛,未來將成為校園管理中不可或缺的一部分。
參考文獻:
[1] 游春芝.基于人臉識別技術的門禁系統(tǒng)設計與開發(fā)[J].信息系統(tǒng)工程,2024(8):12-15.
[2] 劉航,孔維澤,牟卓晶,等.基于卷積神經(jīng)網(wǎng)絡的人臉識別[J]. 科學技術創(chuàng)新,2024(14):65-69.
[3] HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning forimage recognition[C]//2016 IEEE Conference on Computer Vi?sion and Pattern Recognition (CVPR).IEEE,2016:770-778.
[4] 王子辰,陳曉艷,王倩,等.基于殘差自注意力連接的深度電學層析成像方法[J].儀器儀表學報,2023,44(5):288-301.
[5] 李筱鶴. 非約束條件下人臉表情識別問題的研究[D].廣州: 華南理工大學,2018.
[6] 唐艷鳳,李宗明.基于卷積神經(jīng)網(wǎng)絡的人臉識別系統(tǒng)設計[J]. 機電技術,2022,45(1):30-32,37.
[7] 郭順超,龐成,韓旭日.基于人臉識別的課堂考勤管理系統(tǒng)設計與實現(xiàn)[J].無線互聯(lián)科技,2024,21(17):54-57.
【通聯(lián)編輯:唐一東】
基金項目:2024 年度廣西學校安全穩(wěn)定與應急工作研究課題(項目編號:GXAW2024C008);2022 年度廣西高校中青年教師科研基礎能力提升項目(項目編號:2022XXH0003)