










摘要:針對人臉遮擋產生面部結構信息丟失,從而導致人臉識別準確率降低的問題,提出了一種細粒度深度特征掩碼估計的遮擋人臉識別算法。首先,將人臉圖像輸入特征金字塔網絡中,從而得到多尺度深度語義特征;其次,將從特征金字塔網絡提取的特征經過空洞卷積處理后,與MobileNetV3網絡提取的精細淺層特征進行融合,并以像素級二值掩碼為標簽訓練網絡以獲得細粒度特征掩碼;進而,利用該深度特征掩碼與深層特征相乘,以抑制由遮擋產生的干擾特征,獲得更準確的人臉表征;最后,采用余弦損失和掩碼估計損失聯合訓練網絡,提高遮擋人臉識別算法的性能。在LFW數據集基礎上創建了口罩、圍巾和中心遮擋3種類型的人臉遮擋數據集,實驗結果表明:在不同的數據集上,所提算法與現有算法相比均具有更高的識別準確率,并在不同類型遮擋情況下均能獲得十分穩定的人臉識別結果;所提算法在數據集LFW和LFW口罩遮擋上的識別準確率分別達到了99.38%和98.42%,在數據集LFW圍巾遮擋和LFW中心遮擋上的識別準確率分別達到了98.72%和98.65%,均優于對比算法。
關鍵詞:人臉識別;細粒度;掩碼估計;遮擋;特征掩碼
中圖分類號:TP391 文獻標志碼:A
DOI:10.7652/xjtuxb202502017 文章編號:0253-987X(2025)02-0170-10
Occluded Face Recognition Algorithm Based on Fine-Grained Deep Feature Mask Estimation
WANG Fuping, WANG Dingsha, LI Ou, LIU Weihua, LIU Hongwei
(School of Communication and Information Engineering, Xi’an University of Posts amp; Telecommunications, Xi’an 710121, China)
Abstract:To solve the problem of accuracy decrease in facial recognition caused by the loss of facial structural information in the case of facial occlusion, an occluded face recognition algorithm based on fine-grained deep feature mask estimation was proposed. Firstly, the face image was fed into feature pyramid network (FPN) to obtain multi-scale deep semantic features. Next, the features extracted from the FPN were processed by the atrous convolution and fused with shallow features extracted using MobileNetV3; a pixel-wise binary mask was used as label to train the network to obtain the fine-grained deep feature mask; this deep feature mask was multiplied with the deep features to suppress the corrupted feature produced by occlusion and to obtain the better face representation. Finally, CosFace loss and mask estimation loss were jointly used to train the network to improve the performance of occluded face recognition algorithm. Three face occlusion datasets with mask, scarf, and center occlusion were created based on the LFW dataset, respectively. The experimental results show that on four different datasets, the proposed algorithm was more accurate than existing algorithms and obtained very stable face recognition results under different occlusion situations. The recognition accuracy on LFW and LFW-mask-occlusion datasets reached 99.38% and 98.42%, respectively and that on LFW-scarf-occlusion and LFW-center-occlusion datasets reached 98.72% and 98.65%, respectively, outperforming the algorithms compared.
Keywords:face recognition; fine-grained; mask estimation; occluded; feature mask
人臉識別技術在多個領域得到廣泛應用,如公安刑偵、公共安全、自動駕駛等[1-4]。同時,基于深度卷積神經網絡的人臉識別技術在非遮擋人臉識別方向取得十分顯著的效果。然而,在日常生活當中,人們常常會配戴墨鏡、帽子、圍巾、口罩等遮擋物,這些遮擋物導致了人臉圖像中的關鍵特征丟失,從而嚴重影響了人臉識別的準確性[5]。
目前,遮擋人臉識別方法主要分為兩大類:傳統的人臉識別和基于深度學習的人臉識別方法。以下兩類經典算法為傳統的人臉識別算法:Wright 等[6]較早提出了稀疏表示分類模型,并將其應用于人臉識別領域,該算法將人臉圖像表示為稀疏線性組合,并且能夠在識別過程中對噪聲表現出較強的魯棒性,但人臉圖像中的遮擋部分往往表現出不規則且隨機的特征,使得部分算法容易忽略圖像遮擋區域的誤差分布;Zhou 等[7]提出了馬爾可夫隨機場模型,這種方法可以有效地識別出遮擋區域,并將其排除在稀疏表示之外。
隨著人們對深度學習的不斷探索和研究,提出了基于深度學習的人臉識別方法,這些方法主要分為兩類:基于遮擋區域恢復和基于遮擋區域抑制的人臉識別方法[8]。
基于遮擋區域恢復的人臉識別方法是通過恢復被遮擋的人臉部分來提升人臉識別性能。此類方法的核心在于提出一種高質量的遮擋人臉圖像修復算法。Chen 等[9]提出了一種基于生成對抗網絡的遮擋人臉識別模型,該模型通過利用在無遮擋圖像上預訓練的生成對抗網絡,自動檢測遮擋區域,進而修復出該區域的人臉圖像像素,但由于生成對抗網絡生成的結果的不確定性,導致仍會出現錯誤識別。為了解決人臉遮擋識別準確率較低的問題,Zhao 等[10]提出了魯棒長短期記憶網絡自編碼模型,即使在野外遮擋情況下,仍然可以有效識別出人物身份,但該模型長短期記憶網絡計算復雜度高,并需要大量的數據集進行訓練。
基于遮擋區域抑制的人臉識別算法通過抑制遮擋區域的干擾特征,利用不含干擾區域的特征進行識別[8]。Song 等[11]提出了成對微分孿生網絡(pairwise differential siamese network, PDSN)。該網絡通過利用有干擾和無干擾人臉對特征之間的差異生成掩碼字典,利用該字典生成遮擋部分的特征丟棄掩碼,從而去除遮擋區域對人臉圖像特征的干擾。但是,由于需要訓練K2個掩碼生成模型,導致模型的計算量較大。Qiu 等[12]提出了一種基于端到端深度神經網絡的人臉識別方法(face recognition with occlusion masks, FROM),該方法利用解碼器從圖像金字塔特征中提取遮擋區域的掩碼信息,使其與深度卷積特征相乘以去除遮擋區域的干擾特征,從而獲得更高的準確率。但是,由于該模型預測出的特征掩碼均為矩形區域,使得在預測過程中無法準確識別出所有的掩碼特征,同時,難以適應任意形狀的隨機遮擋。Hao 等[13]提出了人臉特征修正網絡(face feature rectification network, FFR-Net),該網絡通過引入修正模塊,對提取的人臉特征進行處理,從而提高在有遮擋和無遮擋條件下人臉圖像的識別性能。
上述算法預測出的特征掩碼均為矩形或塊狀區域,無法準確描述遮擋邊界區域。針對上述問題,本文算法采用遮擋區域抑制的方法進行人臉識別,提出了細粒度深度特征掩碼估計的遮擋人臉識別算法。與此同時,本文所提出的算法在保證識別準確率高的前提下,降低了參數規模,并提高了運行速率。本文主要貢獻如下:
(1)提出了掩碼估計模塊(mask estimation module, MEM),通過對深層特征和淺層特征進行融合,并以像素級二值掩碼為監督,可以更準確地估計特征掩碼,從而進一步提高了遮擋人臉識別算法的識別準確率;
(2)采用了融合余弦損失(CosFace Loss)函數[14]與掩碼估計損失函數的聯合損失函數,其中掩碼估計損失函數通過遮擋區域的特征掩碼預測與真實分割圖之間相似性,保證提取更精確的特征掩碼,有助于提高遮擋人臉識別網絡的性能。
1 細粒度深度特征掩碼估計的遮擋人臉識別算法
為了解決遮擋人臉圖像識別精確度不高的問題,構建了一個細粒度深度特征掩碼估計的遮擋人臉識別算法。該算法通過特征提取模塊(feature extraction module,FEM)生成人臉圖像的多尺度深度語義特征,進而利用掩碼深層語義特征(mask deep semantic feature,MDSF)增強特征來生成深層特征xdeep。同時,將原圖輸入輕量級且性能高效的MobileNetV3 網絡,提取淺層特征xlow,并與深層特征xdeep進行融合,并以像素級二值掩碼為監督得到精確的掩碼xcls。最終,將其與FEM模塊中的深層特征x3相乘,從而抑制遮擋情況下產生的干擾特征。最后,利用得到的有效特征進行人臉識別。
1.1 特征提取模塊
特征提取模塊采用特征金字塔來進行多尺度的特征提取。該模塊采用自頂向下和橫向連接的結構,并以 LResnet50E-IR 作為主干網絡[15],分別得到融合深層和淺層的融合特征x1和深層特征x3。特征提取模塊能夠提取不同尺度下的深度特征,從而更好地適應不同尺寸目標的識別需求。
圖1為特征提取模塊原理。利用特征提取模塊處理隨機遮擋的人臉圖像后,可以從淺層到深層逐步提取特征,生成3種不同尺度的原始特征C1、C2、C3。進而,采用逐級向淺層融合的策略,得到3種尺度下的融合特征x3、x2、x1,融合特征的表達式如下
x3=Conv3×3(Conv1×1(C3))(1)
x2=Conv3×3(Conv1×1(C2)+Upsample(x3)) (2)
x1=Conv3×3(Conv1×1(C1)+Upsample(x2)) (3)
式中:Conv1×1為1×1卷積處理;Conv3×3為3×3卷積處理;Upsample為上采樣處理。
由于不同尺度特征的尺寸不同,為此采用最鄰近插值法對不同層特征進行上采樣,以保持相鄰層特征的尺寸一致,并通過 1×1 卷積調整通道數。這一流程展示了多層次的特征提取和融合過程,確保了最終人臉特征包含多尺度信息。
1.2 掩碼估計模塊
掩碼估計模塊由掩碼深層語義特征提取、MobileNetV3 網絡淺層特征提取和掩碼特征融合3部分組成。掩碼深度語義層包含4個不同膨脹率(R)的空洞卷積層和1個全局池化層。這些空洞卷積具體為R為1的1×1卷積、R為6的3×3卷積、R為12的3×3卷積、R為18的3×3卷積。空洞卷積通過增大感受野,可實現對大面積遮擋區域的掩碼估計。相較于傳統卷積而言,空洞卷積可以通過增大感受野來提高信息融合能力,有助于分割掩碼的同時保持區域邊緣細節。掩碼深層語義特征模塊原理如圖2所示,其中xconcat為拼接后得到的拼接特征,xConv為通過1×1卷積調整通道數后得到的中間特征。
為了減少網絡參數提高網絡推理效率,在掩碼深層語義特征和 MobileNetV3 網絡淺層特征提取過程中都使用了深度可分離卷積,其將傳統卷積分解為兩個單獨的卷積核:深度卷積和逐點卷積。深度卷積用于提取空間特征,而逐點卷積用于提取通道特征,這種方式可以顯著減少網絡的參數數量,還降低了計算復雜度。如圖3所示,掩碼估計模塊具體流程如下。
(1)將FEM模塊中的融合特征x1輸入掩碼深層語義特征提取模塊得到5個特征圖進行融合,并通過1×1卷積對其通道數進行調整得到中間特征xConv。然后,對xConv進行上采樣得到深層特征xdeep,使其與淺層特征xlow保持尺寸一致。
(2)將原圖輸入到 MobileNetV3 網絡中,提取原圖淺層特征xlow,并采用1×1卷積調整淺層特征xlow的通道數。然后,將深層特征xdeep和淺層特征xlow進行拼接得到融合特征xcat,進而通過兩次深度可分離卷積和 Sigmoid 函數得到特征掩碼xcls,其值在 0~1 之間,代表對應特征空間位置上人臉深度特征的遮擋概率或分割權重。此時,所得的深層細粒度特征掩碼代表了整張圖像的深層細粒度特征掩碼,再通過上采樣調整調整人臉特征xface的尺寸,使其與原始圖像保持一致。
1.3 損失函數
本文所提算法的損失函數是由余弦損失函數和掩碼估計損失函數組成的聯合損失函數,如下式所示
Ltotal=Lcos+λLseg(4)
式中:Lcos為評估人臉相似性的余弦損失函數;Lseg為評估遮擋區域分割精度的掩碼估計損失函數;λ為損失因子。經過實驗可知,當λ=1時識別精度最高,為此在本文所提算法中設置λ=1。
1.3.1 余弦損失函數
余弦損失函數是用于評估兩個向量之間余弦相似性的損失函數,以訓練網絡將相似樣本映射到嵌入空間的臨近位置[14],通常被用于監督學習任務,例如人臉識別、文本相似性匹配等。兩個向量的余弦損失函數值越高,則相似性越高。余弦損失函數如下式所示
lcos=-1M∑Mi=1ln[exp(s(cos(θyi,i)-m))/
(exp(s(cos(θyi,i)-m))+∑j≠yiexp(s(cos(θj,i))))](5)
式中:cos(θj,i)=wTjxi,θj是xi與wj之間的夾角;wj為類別j對應的權重向量,Wj=W*j‖W*j‖,wTj是權重向量wj的轉置,w*j是權重向量wj的共軛; xi=x*i‖x*i‖為本文所提算法的人臉有效特征向量,x*i是特征向量xi的共軛,其對應的標簽為yi;M為樣本數; s為縮放參數,控制余弦值的分布范圍;m是余弦間隔,用于增加類別之間的角度間隔。
1.3.2 掩碼估計損失函數
掩碼估計損失函數通過二進制交叉熵損失評估掩碼估計和真實掩碼的相似性。二進制交叉熵損失也被稱為對數損失或邏輯損失,是一種用于度量二元分類模型性能的損失函數。它測量了模型的二元分類輸出與實際標簽之間的差異,通常用于訓練和評估二元分類模型,其中每個樣本屬于兩個可能的類別之一(通常表示為類別 0 和類別 1)。
二進制交叉熵損失能夠有效地激勵模型輸出的概率分布接近真實標簽的分布,且在訓練中可以更快收斂,并在分割任務中得到掩碼估計結果。由于本文算法掩碼特征xcls的尺寸小于原始圖像,為了利用像素級二值掩碼監督模型,本文算法通過將掩碼特征xcls進行去卷積得到原始圖像大小的細粒度掩碼xseg,從而與原始遮擋標簽一起進行網絡訓練。掩碼估計損失函數表示如下
Lseg=-1N∑Ni=1[p(xi)lnq(xi)+
(1-p(xi))ln(1-q(xi))](6)
式中:N為樣本數;p(xi)表示真實標簽的概率分布,通常是0或1,表示樣本屬于類別0或類別1;q(xi)是網絡的預測值,通常是一個介于0和1之間的概率,表示樣本屬于類別1的概率。
2 實驗結果與分析
2.1 實驗設置
本文算法的實驗操作系統為 Ubuntu 20.04LTS,顯卡為英偉達 RTX 3090。以式(4)中的聯合損失作為損失函數,并使用隨機梯度下降法[16]作為優化算法。
網絡的訓練策略如下:初始學習率L設置為0.01,經過15輪訓練后,將L調整為0.001,繼續訓練10輪后,將L設置為0.0001,直至訓練結束。本文算法在以下所有實驗中均采用相同的實驗參數設置。
2.2 評價指標
本文算法采用以下2個指標對算法的性能進行評估:識別準確率(recognition accuracy,用符號Aacc表示)和正確接受比例(true accept rate, 用符號Atar表示),其計算公式如下
Aacc=TP+TNTP+TN+FP+FN(7)
Atar=TpTP+FN(8)
式中:Aacc為識別準確率,表示所有正確分類的人臉對圖像占全部測試人臉對圖像的比例;Atar為正確接受比例,表示對屬于同一人臉的圖片對進行多次識別時,網絡判斷正確的比例;TP表示正確地將同一人的兩張人臉圖像識別為同一人的個數;FP表示錯誤地將不同人的兩張圖像識別為同一人的個數;TN表示正確地將不同人的兩張人臉圖像識別為不同人的個數;FN表示錯誤地將同一個人的兩張人臉圖像識別為不同人的個數。
2.3 數據集
與文獻[11-12]相同,本文算法采用了CASIA-WebFace[17]數據集進行網絡訓練。該數據集包含了10575個不同身份的人物,總共收錄了494144張人臉圖像。為了增加數據集的多樣性,本文算法在CASIA-WebFace數據集中引入了一些常見的遮擋,以模擬生活中可能會遇到的情況。并將處理后的數據集命名為CASIA-WebFace-Occ,其中有遮擋和無遮擋圖像的比例為2∶1。部分樣本的示例如圖4所示。
為了充分驗證所提算法性能,分別在以下4類數據集上進行實驗。
(1)LFW數據集。LFW數據集[18]是開源的人臉數據集,數據采集過程不受限制。該數據集共包含5749個不同人物的圖像,總共收錄了13233張人臉圖像。這些圖像展示了同一人物在各種背景下的面孔。該數據集包含了6000對人臉圖像,其中3000對屬于匹配的同一身份的人臉圖像,另外3000對則是來自不同身份的人臉圖像。圖5展示了數據集中的部分圖像,第1~3列(圖5(a))為不同身份人臉對,第4~6列圖5(b)為相同身份人臉對。
(2)LFW口罩遮擋數據集。在日常生活中,口罩是最常見的遮擋物。本文算法在LFW數據集基礎上創建了一個模擬口罩遮擋的數據集,該數據集包含醫用外科口罩、N95口罩、KN95口罩以及各種不同顏色的布料口罩。圖6展示了數據集的部分樣本圖像。
(3)LFW圍巾遮擋數據集。佩戴圍巾在日常生活中也十分常見,為此,本文算法在LFW數據集上創建了一個模擬圍巾遮擋的數據集。圖7展示了LFW圍巾遮擋數據集的部分圖像。
(4)LFW中心遮擋數據集。由于人臉的五官大多集中在中心區域,這些特征對身份認證至關重要。因此,所提算法在人臉的中心區域添加隨機的遮擋物,從而利用LFW數據集創建了一個模擬中心遮擋的數據集。圖8展示了數據集的部分圖像。
2.4 消融實驗
為了驗證本文所提細粒度深度特征掩碼估計的遮擋人臉識別算法中不同模塊的有效性,采用本文5種算法在LFW數據集上進行了消融實驗[12],實驗結果如表1所示。
Baseline:該算法僅由主干網絡LResnet50E-IR組成,損失函數為余弦損失函數。
Baseline-FEM:該算法由主干網絡和特征提取模塊組成,使用特征提取模塊提取遮擋圖片的特征,經過全連接層后計算其損失,損失函數為余弦損失函數。
Baseline-MEM:該算法由主干網絡和掩碼估計模塊組成,將原圖直接輸入掩碼估計模塊,增強原圖特征并得到掩碼特征,并使用余弦損失函數作為損失函數。
Baseline-FEM-MEM:該算法由主干網絡、特征提取模塊以及掩碼估計模塊構成。將遮擋圖像輸入到網絡中,提取出有效的特征,并使用余弦損失函數作為損失函數。
本文BFMM算法:該算法由主干網絡、特征提取模塊和掩碼估計模塊組成,損失函數是由余弦損失函數和掩碼估計損失函數組成的聯合損失函數。
由表1可得,在LFW數據集上,引入特征提取模塊的Baseline-FEM算法顯著提升了人臉識別性能,相較于Baseline算法,識別準確率有所提高。然而,僅包含主干網絡和掩碼估計模塊的算法(Baseline-MEM)由于無法提取多尺度深度語義特征,并且缺乏掩碼估計損失函數的監督,從而無法生成準確的特征掩碼,導致識別準確率較低。Baseline-FEM-MEM算法相較于Baseline算法的識別準確率提升了0.24%,其主要原因是掩碼估計模塊將深層特征中的有效信息與淺層特征進行融合,生成了細粒度特征掩碼有效地降低了深層損壞特征對識別的干擾,從而增強了識別性能。
相較于Baseline-FEM-MEM算法,本文BFMM算法的識別準確率提高了0.06%。這說明引入掩碼估計損失函數能夠有效地激勵網絡輸出接近真實掩碼標簽,在訓練過程中促進網絡更快地收斂,并在分類任務中取得更出色的結果,從而提升了遮擋人臉識別算法的性能。
2.5 對比實驗
本文使用4類不同測試數據集對各種算法進行性能評估,分別為:LFW數據集、LFW口罩遮擋數據集、LFW圍巾遮擋數據集和LFW中心遮擋數據集。
2.5.1 LFW 數據集對比實驗
該部分對比實驗基于LFW數據集,對比結果如表2所示。
由表2中的結果可知,本文BFMM算法的識別準確率達到99.38%。相比與在大規模數據集上訓練獲得的Center Face算法、Baidu算法以及Deep Face算法而言,本文BFMM算法性能更好。Baseline在識別準確率上略優于Deep Face算法和VGG Face算法,這主要歸因于主干網絡的特征提取能力。由于本文BFMM算法采用隨機從數據集中選擇一定比例樣本進行遮擋的方式產生訓練集,其充分包含遮擋和非遮擋人臉樣本。這使得算法同時對遮擋和非遮擋情況下的人臉識別準確率高且性能穩定。因此,本文BFMM算法在無遮擋人臉的識別上也取得了較高的精度。
2.5.2 LFW口罩遮擋數據集對比實驗
該部分對比實驗基于LFW口罩遮擋數據集,對比結果如表3所示。
從表3中可以看出,在LFW口罩遮擋數據集上,本文BFMM算法能夠進行有效的識別,識別準確率達到98.42%,正確接受比例達到88.43%。而相比之下,SphereFace特征提取模塊結構簡單,特征表征能力有限,導致其識別準確率僅為96.12%,正確接受比例為52.10%。相比之下,FROM算法引入了掩碼預測約束,有效提升了人臉識別準確率,但由于該算法預測出來的掩碼特征為矩形區域,會導致無法識別具有曲線邊緣的部分口罩區域,導致無法精確提取口罩遮擋的掩碼特征,影響識別精度。同時,經典算法ArcFace和CosFace的識別準確率略低。相比于FFR-Net算法,本文BFMM算法的識別準確率提高了1.16%。這表明本文BFMM算法綜合性能上優于其他對比算法。
2.5.3 LFW圍巾遮擋數據集對比實驗
該部分對比實驗基于LFW圍巾遮擋數據集,對比結果如表4所示。
表4中的結果顯示,SphereFace算法識別準確率和正確接受比例均最低。與之相比,FFR-Net算法的識別準確率提升了1.16%,而正確接受比例最高。而ArcFace、CosFace和FROM算法的識別準確率進一步顯著提升,但其正確接受比例有所下降。相比之下,本文BFMM算法在LFW圍巾遮擋數據集上的識別準確率最高,達到了98.72%,正確接受比例達到了91.57%。結果表明,本文BFMM算法在圍巾遮擋情況下表現出了很好的性能,具有更高的識別準確率。
2.5.4 LFW中心遮擋數據集對比實驗
該部分對比實驗基于LFW中心遮擋數據集,對比結果如表5所示。
根據表5中的數據,在LFW中心遮擋數據集上,本文BFMM算法的識別準確率為98.65%,正確接受比例為84.00%。相比之下,SphereFace算法的識別準確率較低,為96.83%。本文BFMM算法相較于經典算法FROM,識別準確率提高了0.37%,正確接受比例提升了5.10%。相較于經典算法ArcFace、CosFace以及FFR-Net,識別準確率和正確接受比例都有所提升。這些結果表明本文BFMM算法在處理中心遮擋情況下表現出了較高的精度。雖然中心遮擋導致大量人臉細節信息的丟失,但本文BFMM算法通過特征抑制,有效避免了遮擋區域無效特征的干擾,同時有效利用了非遮擋區域的有限人臉特征,從而取得了更高性能。
2.6 不同遮擋比例對人臉識別性能的影響
為了評估不同遮擋面積對識別性能的影響,本文在LFW數據集的中心區域采用了隨機遮擋策略,分別設置遮擋面積占整張人臉圖像的比例為1%、5%、10%、15%、20%、30%、40%和50%,圖9展示了在不同遮擋比例下同一人物面部圖像的效果。由于遮擋比例超過50%的人臉圖像(如圖9(h)所示)幾乎不含有識別所需的有效人臉區域,因此對遮擋比例大于50%的人臉圖像不進行比較。圖10分別展示了這些遮擋比例對識別準確率和正確接受比例的影響。
如圖9所示,當遮擋面積超過40%時,人臉五官幾乎完全被遮擋,從而導致識別錯誤率顯著提升。圖10中的結果顯示,當遮擋面積超過總面積的40%時,識別準確率和正確接受比例急劇下降。因此,遮擋對人臉識別算法的影響是非線性的,且當遮擋比例達到一定程度時,算法難以提取有效的識別特征,從而降低了識別性能。
3 結 論
針對因人臉受到遮擋使得部分面部結構信息丟失,從而影響識別準確率的問題,本文提出了一種細粒度深度特征掩碼估計的遮擋人臉識別算法。本文的主要結論如下。
(1)本文算法利用特征金字塔網絡提取人臉圖像的多尺度深度語義特征,確保了最終人臉特征包含多尺度信息。
(2)利用掩碼深層語義特征處理獲得深層特征,并與MobileNetV3網絡所提取的淺層特征進行融合,進而以像素級二值掩碼為標簽訓練網絡以獲得細粒度特征掩碼。利用該深度特征掩碼與深層特征相乘,以抑制遮擋干擾特征,提高遮擋人臉識別的準確率。最后,采用余弦損失函數和掩碼估計損失函數聯合訓練網絡,從而提高了人臉識別算法對任意遮擋的魯棒性。同時,在識別準確率高的前提下,本文算法的參數規模更小,運行速率更高。
(3)盡管本文提出的細粒度深度特征掩碼估計算法在遮擋人臉識別中表現出較好的性能,但該算法仍存在一些局限性,特別是在識別非正面人臉遮擋或復雜遮擋情況時。首先,本文算法主要針對正面人臉設計,因而在非正面人臉的遮擋情況下,其性能可能會受到限制。非正面視角下的人臉特征與正面視角存在顯著差異,這可能導致生成的特征掩碼無法準確反映遮擋區域的實際形狀,從而影響識別效果。此外,盡管細粒度掩碼能夠提供更精細的遮擋邊界描述,但在處理復雜遮擋情況下,例如遮擋區域具有高度遮擋的細節或遮擋物的紋理與人臉特征高度相似時,當前算法仍可能表現不佳。這些復雜遮擋場景可能導致網絡難以充分學習并準確估計遮擋區域的細節,從而在實際應用中導致識別準確率降低。
(4)實驗結果表明,本文所提算法在不同類型遮擋情況下均獲得十分穩定的人臉識別結果。但是,仍難以識別部分非正面遮擋人臉。針對這個問題,下一步會繼續探索基于遮擋區域恢復的研究方法,提高非正面遮擋人臉圖像的識別準確率。
參考文獻:
[1]李明, 黨青霞. 融合Transformer和CNN的輕量級人臉識別算法 [J]. 計算機工程與應用, 2024, 60(14): 96-104.
LI Ming, DANG Qingxia. Lightweight face recognition algorithm combining transformer and CNN [J]. Computer Engineering and Applications, 2024, 60(14): 96-104.
[2]岳也, 溫瑞萍, 王川龍. 帶有特征信息卷積神經網絡的人臉識別算法 [J]. 工程數學學報, 2024, 41(3): 410-420.
YUE Ye, WEN Ruiping, WANG Chuanlong. Face recognition algorithm based on convolutional neural network with feature information [J]. Chinese Journal of Engineering Mathematics, 2024, 41(3): 410-420.
[3]余璀璨, 李慧斌. 基于深度學習的人臉識別方法綜述 [J]. 工程數學學報, 2021, 38(4): 451-469.
YU Cuican, LI Huibin. Deep learning based 2D face recognition: a survey [J]. Chinese Journal of Engineering Mathematics, 2021, 38(4): 451-469.
[4]TOMAR V, KUMAR N, SRIVASTAVA A R. Single sample face recognition using deep learning: a survey [J]. Artificial Intelligence Review, 2023, 56(1): 1063-1111.
[5]JEEVAN G, ZACHARIAS G C, NAIR M S, et al. An empirical study of the impact of masks on face recognition [J]. Pattern Recognition, 2022, 122: 108308.
[6]WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227.
[7]ZHOU Zihan, WAGNER A, MOBAHI H, et al. Face recognition with contiguous occlusion using Markov random fields [C]//2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ, USA: IEEE, 2009: 1050-1057.
[8]張錚, 蘆天亮, 曹金璇. 基于分割和多級掩膜學習的遮擋人臉識別方法 [J]. 計算機科學與探索, 2024, 18(7): 1814-1825.
ZHANG Zheng, LU Tianliang, CAO Jinxuan. Occluded face recognition based on segmentation and multi-stage mask learning [J]. Journal of Frontiers of Computer Science and Technology, 2024, 18(7): 1814-1825.
[9]CHEN Yuan, CHEN Weiche, WEI C P, et al. Occlusion-aware face inpainting via generative adversarial networks [C]//2017 IEEE International Conference on Image Processing (ICIP). Piscataway, NJ, USA: IEEE, 2017: 1202-1206.
[10]ZHAO Fang, FENG Jiashi, ZHAO Jian, et al. Robust LSTM-autoencoders for face de-occlusion in the wild [J]. IEEE Transactions on Image Processing, 2018, 27(2): 778-790.
[11]SONG Lingxue, GONG Dihong, LI Zhifeng, et al. Occlusion robust face recognition based on mask learning with pairwise differential Siamese network [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, NJ, USA: IEEE, 2019: 773-782.
[12]QIU Haibo, GONG Dihong, LI Zhifeng, et al. End2end occluded face recognition by masking corrupted features [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(10): 6939-6952.
[13]HAO Shaozhe, CHEN Chaofeng, CHEN Zhenfang, et al. A unified framework for masked and mask-free face recognition via feature rectification [C]//2022 IEEE International Conference on Image Processing (ICIP). Piscataway, NJ, USA: IEEE, 2022: 726-730.
[14]WANG Hao, WANG Yitong, ZHOU Zheng, et al. CosFace: large margin cosine loss for deep face recognition [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2018: 5265-5274.
[15]LIN T Y, DOLLR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2017: 936-944.
[16]史加榮, 王丹, 尚凡華, 等. 隨機梯度下降算法研究進展 [J]. 自動化學報, 2021, 47(9): 2103-2119.
SHI Jiarong, WANG Dan, SHANG Fanhua, et al. Research advances on stochastic gradient descent algorithms [J]. Acta Automatica Sinica, 2021, 47(9): 2103-2119.
[17]YI Dong, LEI Zhen, LIAO Shengcai, et al. Learning face representation from scratch [EB/OL]. (2014-11-28)[2024-08-01]. https://arxiv.org/abs/1411.7923.
[18]HUANG G B, MATTAR M, BERG T, et al. Labeled faces in the wild: a database for studying face recognition in unconstrained environments [C]//Workshop on Faces in ‘Real-Life’ Images: Detection, Alignment, and Recognition. Marseille, France: Inria, 2008: 617-624.
[19]LIU Weiyang, WEN Yandong, YU Zhiding, et al. SphereFace: deep hypersphere embedding for face recognition [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2017: 6738-6746.
[20]CHEN Sheng, LIU Yang, GAO Xiang, et al. MobileFaceNets: efficient CNNs for accurate real-time face verification on mobile devices [C]//Biometric Recognition. Cham: Springer International Publishing, 2018: 428-438.
[21]LIU Jingtuo, DENG Yafeng, BAI Tao, et al. Targeting ultimate accuracy: face recognition via deep embedding [EB/OL]. (2015-07-23)[2024-08-01]. https://arxiv.org/abs/1506.07310.
[22]WEN Yandong, ZHANG Kaipeng, LI Zhifeng, et al. A discriminative feature learning approach for deep face recognition [C]//Computer Vision-ECCV 2016. Cham: Springer International Publishing, 2016: 499-515.
[23]TAIGMAN Y, YANG Ming, RANZATO M, et al. DeepFace: closing the gap to human-level performance in face verification [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2014: 1701-1708.
[24]PARKHI O M, VEDALDI A, ZISSERMAN A. Deep face recognition [C]//BMVC 2015-Proceedings of the British Machine Vision Conference 2015. Swansea, UK: BMVA, 2015: 1-12.
[25]DENG Jiankang, GUO Jia, XUE Niannan, et al. ArcFace: additive angular margin loss for deep face recognition [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2019: 4685-4694.
[26]KIM M, JAIN A K, LIU Xiaoming. AdaFace: quality adaptive margin for face recognition [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2022: 18729-18738.
(編輯 劉楊 陶晴)