

摘要:在控制科學與工程領域,局部遮擋人臉圖像識別因其在復雜場景中的應用需求而備受關注。本文提出一種基于深度學習的識別方法,詳細設計VGG算法與ResNet算法結合的RepVGG混合算法后,闡述了RepVGG的通道注意力機制和SoftPool池化改進的具體過程,實現了對局部遮擋人臉圖像的高效識別。此外,通過本文研究方法與傳統方法對比的仿真實驗,驗證了本文方法的優越性和魯棒性。
關鍵詞:局部遮擋人臉圖像識別;深度學習;卷積神經網絡
引言
局部遮擋的人臉圖像識別在身份驗證、監控和安全等領域中具有重要應用價值。由于遮擋會導致特征丟失和誤識別,傳統方法在處理這類復雜場景時表現欠佳。隨著深度學習技術的發展,通過卷積神經網絡(CNN)對圖像進行多層次特征提取,結合注意力機制與池化改進,能夠顯著提升對遮擋區域的識別精度[1]。因此,本文針對局部遮擋人臉圖像,提出了一種基于深度學習的識別方法。
1. 局部遮擋人臉圖像識別中的深度學習算法設計
1.1 VGG卷積神經網絡
在局部遮擋人臉圖像識別中,VGG卷積神經網絡能夠以逐層提取特征的方式,有效應對人臉圖像中的遮擋問題,準確識別出目標人物[2]。VGG卷積神經網絡結構主要由13層卷積層、5層池化層、3層全連接層組成。首先,輸入224×224×3的人臉圖像數據進行預處理后進入網絡。第一層卷積層對輸入圖像進行224×224×64的卷積操作,采用3×3的卷積核,步長為1,并在每次卷積后使用ReLU激活函數。這一過程確保了高維度特征的提取,也保留了原始圖像的空間分辨率。接下來的卷積層逐步提取更高層次的特征,在每一層卷積操作后都會應用最大池化(max pooling)操作,以減少數據維度,提高計算效率。經過2×2的池化核將112×112×128的特征圖降維為56×56×256,進一步提取出更具代表性的特征。在全連接層中,特征圖被展平后進入4096個神經元的全連接層,并由ReLU激活函數處理,最終將高維特征映射到1000維的輸出空間,使用Softmax函數完成分類。
1.2 ResNet卷積神經網絡
ResNet卷積神經網絡因其獨特的殘差結構,具備強大的特征提取與識別能力,尤其在處理局部遮擋問題時表現出色[3]。ResNet的核心思想是引入殘差單元解決深度網絡中的梯度消失問題。在ResNet結構中輸入特征維度為64-d,由兩個3×3的卷積層結合ReLU激活函數,來提取深度特征。卷積后,輸入的初始特征與卷積層輸出直接進行逐元素相加,形成輸出特征。這種“恒等映射”的設計,使得網絡在訓練過程中能夠更加高效地保留原始特征,避免梯度消失問題。而另一種ResNet結構則增加了1×1的卷積層,用于升維和降維,以256-d的高維度特征處理更復雜的輸入數據。在實際實現中,ResNet-50結構包含多個殘差單元,確保了網絡在處理局部遮擋人臉圖像時能夠準確提取到有效特征,并規避因遮擋帶來的信息丟失。
1.3 RepVGG局部有遮擋人臉識別混合算法設計
1.3.1 RepVGG技術原理
RepVGG作為一種全新的卷積神經網絡架構,融合了VGG和ResNet的優勢,在處理局部遮擋問題時展現出了卓越的性能。VGG卷積神經網絡雖然在簡單性和推理效率上具有優勢,但其缺乏深度信息的有效利用,導致對復雜圖像的特征提取能力有限。而ResNet引入殘差結構極大地緩解了梯度消失問題,但其網絡結構復雜,計算開銷較大。因此,結合兩者的優勢,本研究提出了高效且具有深度學習能力的RepVGG混合算法。RepVGG將卷積層和batch normalization(BN)層結合后形成了簡化的殘差結構。在訓練階段,RepVGG利用多個并行的卷積路徑(3×3、1×1卷積層)和BN層來增強模型的表達能力,并采用ReLU激活函數對輸出特征進行非線性變換。在推理階段,這些并行路徑經過參數融合策略后,轉換為一個等效的3×3卷積層,從而大大減少了計算開銷,提高了推理效率。
1.3.2 RepVGG通道注意力機制模型
引入通道注意力機制后,RepVGG模型顯著提升了對局部遮擋特征的捕捉能力,有效提高了模型的整體識別精度,特別是在處理復雜場景的人臉識別任務中表現尤為出色。RepVGG通道注意力機制由自適應地調整通道間的權重分配,強化了重要特征的表達,也抑制了無關或冗余的特征。
在具體實現中,輸入特征圖X的尺寸為C'、H'、W',首先由變換函數Ftr將其映射到尺寸為C、H、W的特征圖U。此處的變換函數Ftr為卷積操作公式為
(1)
式中,Wconv表示卷積核參數,*表示卷積運算。接下來,特征圖U由全局平均池化(global average pooling, GAP)函數Fsq壓縮為C×1×1的向量,計算公式為
(2)
式中,V為壓縮后的特征向量,i和j為特征圖的空間位置索引。此向量再經過兩個全連接層(fully connected layers),產生一個長度為C的權重向量Wch該過程可以表示為
(3)
式中,W1和W2分別為全連接層的權重矩陣,δ(·)為ReLU激活函數,σ(·)為Sigmoid激活函數。最后,注意力機制將Wch重新作用到特征圖U的每個通道上,得到增強后的特征圖S,即
(4)
式中,⊙表示逐通道的權重乘法操作。
1.3.3 SoftPool池化方法改進RepVGG
在局部遮擋人臉圖像識別中,為進一步提升RepVGG模型的特征提取和抗干擾能力,引入了SoftPool池化方法對傳統池化操作進行了優化和改進[4]。SoftPool池化方法能夠保留更多特征信息,同時抑制無關或噪聲特征,使得模型在處理復雜場景時更加魯棒[5]。圖1展示了ECA通道注意力模塊結合SoftPool池化方法的實現過程。在前向傳播過程中,特征圖a經過SoftPool池化,得到池化后的特征圖,公式表示為
(5)
式中,ai表示第i個位置的特征值,aj表示第j個位置的特征值,權重Wj根據Softmax函數計算,具體公式為
(6)
式中,R為特征圖的鄰域范圍,eaj為指數運算,旨在強調重要特征值并抑制無關特征。池化后的特征圖傳遞至ECA模塊,進一步計算通道注意力權重αi并將其與對應的特征值相乘,得到加權后的特征圖a,具體公式為
(7)
在反向傳播過程中,SoftPool池化方法對梯度的傳播進行了優化,避免了傳統池化方法中信息損失過大的問題[6]。SoftPool池化的梯度反向傳播公式為
(8)
式中,是特征圖ai對池化后特征圖的偏導數。R是鄰域范圍,表示特征圖a中的一個局部區域,即3×3的矩形區域。
2. 基于深度學習的局部遮擋人臉圖像識別
2.1 人臉圖像預處理
首先,利用高斯濾波器對輸入圖像進行去噪處理,有效去除圖像中的隨機噪聲,使得后續特征提取更加穩定[7]。其次,采用直方圖均衡化方法增強圖像對比度,使人臉特征更加突出。在處理遮擋問題時,采用了基于多尺度Retinex的圖像增強算法,該算法能夠在保留圖像細節的同時,增強局部特征,使得遮擋區域的信息更加明顯[8]。在實現過程中,本文選用的設備為NVIDIA A100 GPU,處理圖像分辨率為1080p,采用的高斯濾波器核大小為5×5,標準差設定為1.5。對于直方圖均衡化處理,采用自適應均衡化(CLAHE)方法,以避免過度增強帶來的偽影。多尺度Retinex算法中的尺度參數設置為15、80和250,達到對不同尺度的遮擋進行有效處理。經過上述預處理步驟,圖像質量明顯改善,特別是在人臉的細節特征上,預處理后的圖像為后續的深度學習識別提供了更高質量的輸入。
2.2 人臉圖像特征提取
預處理后的圖像將輸入到VGG中進行初步特征提取。此階段主要聚焦于提取圖像中邊緣和紋理信息等低層次特征[9]。經過一系列的3×3卷積核操作,初步捕捉圖像中的基礎結構,并應用ReLU激活函數,增強特征表達的非線性能力。此步驟確保圖像的基本信息在后續的深層處理過程中仍能得到有效保留。經過初步處理的特征圖會被傳遞至ResNet。ResNet的殘差模塊專注于更深層次特征的提取,使用跳躍連接的方式緩解梯度消失問題。該部分網絡的殘差結構保證了信息的順利傳遞和高效學習,特別是在存在遮擋的情況下,也能夠更好地挖掘出圖像中的有效特征。最后,特征圖進入RepVGG進行進一步處理。RepVGG根據其獨特的卷積路徑與SoftPool池化操作,對特征進行精細化處理。SoftPool池化則自適應地調整權重,重點保留對識別任務至關重要的特征,也能減少噪聲的干擾。與此同步,RepVGG的通道注意力機制也會計算各通道的重要性,并動態調整權重,從而進一步強化關鍵特征,確保處理局部遮擋人臉圖像時能夠提取到最具辨識度的特征[10]。
3. 仿真實驗與結果分析
3.1 實驗環境
為驗證基于深度學習的局部遮擋人臉圖像識別方法的有效性,本研究在高性能計算平臺上進行了仿真實驗。實驗環境選用NVIDIA A100 GPU服務器,該服務器配備了40GB的顯存,能夠高效處理大規模的圖像數據。操作系統為Ubuntu 20.04 LTS,深度學習框架使用了PyTorch 1.9.0,并結合CUDA 11.4加速訓練過程。實驗中使用的數據集為LFW(Labeled Faces in the Wild),該數據集包含多個場景下的人臉圖像,并以人工方式引入了佩戴口罩、眼鏡等局部遮擋。實驗還模擬真實應用中的復雜性,在數據集中增加了高斯噪聲和光照變化這類噪聲干擾,以測試模型在復雜環境中的魯棒性。
3.2 實驗步驟
實驗分為兩個主要階段:傳統局部遮擋人臉圖像識別方法與基于深度學習方法的對比實驗。
在第一階段,采用傳統的局部遮擋人臉識別方法進行實驗。該方法主要基于SIFT手工設計的特征提取器,結合支持向量機(SVM)作為分類器。對每張人臉圖像進行灰度化處理,然后使用SIFT特征提取算子提取圖像的關鍵點和描述子。接著,將提取的特征輸入SVM進行訓練和測試。為提高識別精度,實驗中使用了5折交叉驗證的方式,并在不同的遮擋比例下對模型進行測試。
在第二階段,采用本文提出的基于深度學習的局部遮擋人臉圖像識別方法。首先,對輸入圖像進行歸一化和數據增強進行預處理。然后,利用設計的深度學習模型進行特征提取和分類。在訓練過程中,使用Adam優化器,初始學習率設置為0.0001,每輪訓練均包括前向傳播、損失計算、反向傳播、參數更新。在總計100個訓練周期后,使用測試集對模型進行評估,并記錄準確率(ACC)。
3.3 仿真實驗結果分析
實驗結果展示了傳統識別方法與本文識別方法在不同訓練周期下的準確率變化情況。在訓練初期(10~30個epoch),傳統方法的準確率提升較為緩慢,主要由于其對局部遮擋的魯棒性不足,難以有效應對復雜遮擋場景;在后續的訓練過程中(40~100個epoch),深度學習方法的精度持續提升,并在80個epoch后逐漸趨于穩定,最終達到0.95的準確率,而傳統方法的最終準確率則停留在0.80左右。此結果表明,深度學習方法在處理局部遮擋人臉圖像時,能夠更加有效地提取關鍵特征,并且在面對復雜的噪聲和遮擋時,具有更強的魯棒性和泛化能力。
結語
本文通過設計結合VGG與ResNet的RepVGG的混合算法,提出了一種高效的局部遮擋人臉圖像識別方法。實驗結果表明,該方法在復雜場景下的識別準確率顯著優于傳統方法,并且具備較強的魯棒性與泛化能力。
參考文獻:
[1]王晨海,彭嬋娟.基于機器視覺的局部遮擋人臉圖像識別仿真[J].計算機仿真,2023,40(11):170-174.
[2]李煒.基于面部邊緣細節的局部遮擋人臉圖像識別[J].吉林大學學報(信息科學版),2023,41(4):732-738.
[3]林海馨.基于雙級生成對抗網絡的人臉去遮擋研究[D].西安:長安大學,2023.
[4]王一朵.基于PCA、LDA與SVM相結合的人臉圖像識別應用研究[D].蘭州:蘭州交通大學,2023.
[5]徐勝超.一種新的多姿態人臉圖像識別方法[J].計算機與數字工程,2023,51(2):468-471,478.
[6]孟宣彤,修楊,陳慧.基于深度學習的人臉美學質量評價方法研究[J].信息技術與信息化,2024(8):77-82.
[7]陳嘉茹,侯英勇,王樹臣,等.基于深度學習的雞臉識別與行為分析算法研究[J].數字農業與智能農機,2024(8):24-26.
[8]陳韓英,胡熔曦.深度學習技術在刑偵圖像處理中的應用研究[J].湖南警察學院學報,2024,36(4):75-84.
[9]王子銘,孫永俁,鄭智康,等.智能咽拭子采樣機器人系統的設計與開發[J].智能計算機與應用,2024,14(8):184-190.
[10]王東.基于神經網絡的人臉識別模型研究[J].科技創新與應用,2024,14(22):5-8,13.
作者簡介:井煜,碩士研究生,18629015260@163.com,研究方向:深度學習。
基金項目:中國高校產學研創新基金——數智融合視域下基于AIGC技術的MR交互技術研究與實踐(編號:2023KY025)。