Hierarchical knowledge distillation decoupling network for low-resolution face recognition algorithm
Zhong Rui?, Song Yafeng, Zhou Xiaokang (SchoolofMathematicsamp;Computer Science,GannanNormal University,Ganzhou Jiangxi341ooo,China)
Abstract:Alargenumberoffacial detail features arelostinlow-resolutionface images,which makes therecognitionrateof manyclassical facerecognition models with goodperformancedecrease sharplyToaddressthisproblem,thispaperproposed ahierarchicalknowledgedistilationdecoupling(HKDD)network.Firstly,theconvolutionallayersoftheteachernetworkand thestudentnetworkperformed hierarchicalfeaturedistilltiontoenhancethestudentnetwork’sfeaturedescriptionabilityfor low-resolutionsamples.Thisdistilltionensuredthatthelow-resolutionfacefeatures extractedbytheintermediatelayersof the studentnetworkcloselyapproximatedthehigh-resolutionfacefeatures extractedbytheintermediatelayersof theteachernetwork,effectivelytransferingthepowerfulfeaturedescriptionabilityoftheteahernetwork’sintermediatelayerstothestudent network.Subsequently,the softmax layers of theteachernetwork andthe student network performed decoupling distlation, spliting thedistillaionlossattesofmaxlayerintotargetcassdistillationlossndon-targetclassdistillationlosedecoupling distilationcould playaguidingroleinthetrainingof student networksbyleveragingthesuppessdnon-targetdistillationloss,sothatthesudentnetworkcouldlearntheclasificationabilityofuniversalfacialfeaturesundertheguidanceof theteachernetwork,therebyensuringthatthestudentnetworkhasstrongclasificationabilityinunrestrictedscenes.Finally, byconducting validation experiments on several low-resolution face datasets,such as TinyFace and QMUL-SurvFace,the HKDD model demonstrates superior performance intermsof recognitionrateandreal-time performancecompared tootherrepresentativelow-resolutionfacerecognition models.Theexperimentalresultsconfirmtheefectivenessof HKDD in handling low-resolution face recognition tasks.
Keywords:low-resolutionfacerecognition;hierarchicalknowledgedistilationdecouplingnetwork;hierarchicalfeaturedis tillation;decoupling distillation;unrestricted scenes
0 引言
目前人臉識別技術已廣泛應用于門禁、考勤、支付以及安防監控等場景。然而在以上應用場景中很容易因為距離遠而采集到低分辨率人臉圖像,這類人臉圖像中丟失了大量面部細節特征,同時各種干擾因素(如:姿態偏轉、表情變化、光照變化和遮擋等)的疊加,使得所采集的人臉圖像與訓練集中的高分辨率人臉圖像間存在很大的分布差異。在這樣復雜的應用場景中,即使是采用目前先進的人臉識別算法也很難取得令人滿意的識別精度,因此在復雜的非限制性場景中對低分辨率人臉進行準確識別是一項極具挑戰性的任務。目前主要的解決方案可以分為統一特征空間映射法[1]、超分辨率重建法[2.3]和知識蒸餾法[4.5]三類,其中超分辨率重建法是將超分辨率重建與人臉識別兩個過程進行集成,能夠在一定程度上提升低分辨率人臉識別算法的識別率。但是圖像的超分辨率重建僅僅是在視覺感官層面對像素進行了復原,而面部識別更重要的是在特征層面上對特征進行復原,該類型算法很難顯著提升算法的識別率,且還需要耗費大量的計算資源,將導致算法的實時性不足[。統一特征投影法是將不同分辨率的人臉特征投影至同一個特征空間進行面部識別,采用該方式忽略了領域內部的結構差異性,也就是說,這種全局特征投影變換方法只關注于整體的特征差異,沒有關注局部的特征差異,該類型方法只能夠在一定程度上提高低分辨率人臉的識別率。
隨著深度網絡模型的不斷發展,知識蒸餾法是將深度網絡模型的優秀特征描述能力與知識蒸餾算法相結合,這樣一方面利用了深度網絡模型具有很強特征描述能力的優勢,使模型能夠有效提取出人臉面部中具有較好判別特性的特征。另一方面該類型方法能充分利用現有大量的數據集和高精度識別模型學習到有用的特征知識和表達能力,同時也能顯著減少模型訓練的工作量,使之具有較好的實時性。
受到深度知識蒸餾模型的啟發,本文提出了一種基于分層蒸餾解耦(hierarchical knowledge distillationdecoupling,HKDD)網絡的低分辨率人臉識別算法。本文主要工作如下:
a)為了提高學生網絡在低分辨率樣本中的特征描述能力,本文在教師網絡與學生網絡的卷積層之間進行分層特征蒸餾,使學生網絡各中間層所提取的低分辨率人臉特征能夠盡可能接近教師網絡中間層所提取的高分辨率人臉特征,從而將教師網絡各中間層強大的特征描述能力蒸餾到學生網絡,從而使學生網絡能夠從低分辨率人臉圖像中提取出具有較好判別特性的面部特征。
b)為了能有效提升學生網絡對疊加有多種干擾因素(光照變化、表情改變、姿態偏轉以及遮擋等)的人臉樣本的分類能力,在教師網絡與學生網絡的softmax層之間進行解耦蒸餾,把softmax層的蒸餾損失解耦為目標類蒸(targetclassdistil-lation,TCD)損失和非目標類蒸餾(non-targetclassdistillation,NCD)損失,使學生網絡在教師網絡指導下學習到通用性面部特征的分類能力,從而確保學生網絡能夠在各種干擾因素疊加的應用場景中具有較好的分類能力。
c)在多個低分辨率人臉數據集中進行了大量對比實驗,所提算法在含有光照變化、表情改變、姿態偏轉、遮擋等干擾因素存在的低分辨率應用場景中,具有領先的識別率和實時性。
1相關工作
基于知識蒸餾的低分辨率人臉識別方法能夠在提升算法識別率的同時,有效降低模型的復雜度,并且能夠取得較高的人臉識別率,具有很好的研究價值和實用價值。本文對現有基于知識蒸餾的低分辨率人臉識別方法進行了詳細分析,具體如下:
知識蒸餾是一種由教師網絡和學生網絡構成的網絡框架,使用具有高識別率的教師網絡對學生網絡進行指導訓練,讓學生網絡具備更強的跨域識別能力以及更好的實時性能。該類型方法是由Hinton等人[首次提出,其對知識蒸餾進行了系統的闡述,采用軟標簽和溫度系數來實現教師網絡對學生網絡的指導。文獻[8]首次將知識蒸餾應用于低分辨率人臉識別領域,該方法顯著提升了低分辨率人臉圖像的識別率。此后低分辨率人臉識別領域出現了許多基于知識蒸餾模型的識別方法。文獻[9]中基于遞歸知識蒸餾和角蒸餾的VarGFaceNet模型和文獻[10]中基于橋蒸餾的低分辨率人臉識別模型,是在網絡輸出層進行軟標簽蒸餾來實現對學生網絡的指導,然而僅從教師網絡的輸出層進行知識蒸餾,無法將教師網絡的特征描述能力遷移給學生網絡,所帶來的算法識別率提升非常有限。因此,研究者開始考慮從網絡中間層進行特征蒸餾,以進一步提高低分辨率人臉圖像的識別率。中間層特征蒸餾是指將教師網絡中間層的特征描述能力傳遞給學生網絡,使學生網絡具備與教師網絡類似的特征描述能力[\"]。首次使用中間層特征蒸餾是文獻[12]的FitNets模型,其核心思想是讓學生網絡的中間層特征盡可能接近教師網絡的中間層特征。文獻[13\~15]的模型都是在網絡中間層特征蒸餾的基礎上將教師網絡強大的特征描述能力遷移到學生網絡,從而提高學生網絡模型在低分辨率人臉圖像上的識別率。以上文獻僅僅從單方面使用輸出層蒸餾[16]或中間層特征蒸餾來提升學生網絡對跨域樣本的識別能力,然而在實際應用場景中所采集到的低分辨率人臉圖像中還存在多種干擾因素疊加,如:光照變化、表情改變、姿態偏轉以及遮擋等,將導致以上模型的識別率不容易取得令人滿意的識別精度。
針對以上問題,本文將從分層特征蒸餾和softmax層的解耦蒸餾兩方面來實現教師網絡對學生網絡的共同指導,將具有高識別率的經典人臉識別模型的特征描述能力與分類能力蒸餾至學生網絡,從而使學生網絡在低分辨率數據集中具有更高的識別率。
2分層蒸餾解耦網絡
本文所提的分層蒸餾解耦(hierarchicalknowledgedistil-lationdecoupling,HKDD)網絡的總體模型結構如圖1所示。該網絡模型分為教師網絡和學生網絡兩個網絡分支,其中學生網絡是用于識別低分辨率人臉樣本的目標網絡,在模型訓練時,將隸屬于同一類別的高分辨率和低分辨率的人臉圖像分別同步輸入至教師網絡和學生網絡。
為了提升學生網絡對于低分辨率樣本的特征描述能力,在學生網絡與教師網絡的各卷積層之間構建多個用于特征擬合的分層蒸餾損失函數,使學生網絡各中間層所提取的低分辨率人臉特征盡可能接近教師網絡相應層次所提取的高分辨率人臉特征。隨后將教師網絡和學生網絡的softmax層之間的蒸餾損失函數進行等價變換,解耦為目標類蒸餾損失和非目標類蒸餾損失,并根據教師網絡的分類損失設置相應的權重,使學生網絡的整體特征描述能力和分類性能得到進一步提升。
2.1 分層特征蒸餾
由于教師網絡是具有復雜網絡結構的深層網絡,這使得教師網絡具備很強的特征描述能力,能夠從樣本中準確提取出具有較好判別特性的面部特征。為了能夠將教師網絡的強大特征描述能力遷移至學生網絡,使學生網絡能夠在具備精簡網絡結構的同時,還具備與教師網絡類似的特征描述能力,本文受到文獻[10,15]的啟發。首先,在教師網絡和學生網絡之間構造分層特征蒸餾子網,在該子網中引入具有相同神經元數量的全連接網絡,利用該網絡可實現對學生網絡和教師網絡所提取的特征進行壓縮編碼,使教師網絡中間層所提取的特征維數與學生網絡所提取的特征維數保持一致,為后續的特征差異度量做好準備。隨后,為了讓學生網絡所提取的特征能夠與教師網絡所提取的特征盡可能相似,本文在分層特征蒸餾子網中構造了差異度量函數,利用教師網絡與學生網絡之間的特征差異作為監督信號來進一步優化學生網絡,使學生網絡中間層所提取的特征與教師網絡中間層所提取特征保持較高的相似性,從而使學生網絡的特征描述能力得到顯著增強。最后,由于教師網絡和學生網絡都是具有多層網絡結構的深度網絡,處于不同層次的卷積層能夠提取出具有不同抽象程度的面部特征,這些特征對于目標人臉的準確識別起到了重要的作用。因此為了實現教師網絡對學生網絡的全面指導,本文在教師網絡和學生網絡之間構造了多個分層特征蒸餾子網,通過這樣的方式,讓學生網絡的多個中間層所提取的特征盡可能與教師網絡中間層所提取的特征保持相似,最終達到顯著提升學生網絡特征表達 能力的目標。
具體的實現步驟如下:
a)使用具有高識別率的經典人臉識別網絡作為教師網絡,記為 fT(x;φ) ,其中 x 為輸入的高分辨率樣本, φ 為教師網絡的模型參數;使用具有精簡網絡結構的深度網絡作為學生網絡,記為 fs(z;θ) ,其中 z 為輸入的低分辨率樣本,θ為學生網絡模型的參數。模型在訓練時,將高分辨率人臉圖像輸入到教師網絡,同時使用下采樣和仿射變換等方法對該高分辨率人臉圖像進行下采樣和擴容處理,將處理后的低分辨率人臉圖像同步輸人至學生網絡。
b)為確保學生網絡中間層所提取的低分辨率人臉特征盡可能與教師網絡中間層所提取的高分辨率人臉特征相似,本文在各分層特征蒸餾子網中引入由全連接網絡構成的分層分類子網,并在該子網之間構建分層蒸餾損失函數 Ri 來實現分層特征蒸餾,從而達到提升學生網絡特征描述能力的目標。分層i的分層特征蒸餾子網的結構如圖2所示。
Ri 的具體定義如下所示。
其中: z′∈p(IG) 和 z∈IG 為隸屬于同一類別的低分辨率人臉圖像與高分辨率人臉圖像, IG 為高分辨率人臉數據集, p(IG) 為對IG 進行下采樣和仿射變換后的低分辨率人臉數據集; msi(???) 為學生網絡第 i 個分層分類子網; mTi(?) 為教師網絡第 i 個分層分類子網; φi 和 ηi 為學生網絡和教師網絡的第 i 分層分類子網的模型參數。
2.2 解耦知識蒸餾
由于softmax層處于網絡的最末端,相比較于中間特征提取層具有更為高層的語義信息,所以在該層進行知識蒸餾應能使學生網絡具有更高的性能上限,然而在許多實際實驗中發現,傳統知識蒸餾方法對學生網絡在低分辨率場景中分類性能的提升效果并不顯著[16]。為了解決該問題,把教師網絡和學生網絡softmax層的logits輸出分成兩部分(如圖3所示,見電子版),其中黃色部分為目標類別的分類概率 pt ,綠色部分為非目標類別的分類概率 ,利用等價變換將傳統的知識蒸餾損失解耦為目標類蒸餾損失和非目標類蒸餾損失。具體解耦過程如下:
其中:KD為經典的知識蒸餾損失函數; c 為類別數量; piT 為教師網絡中類別 i 的概率值,具體的定義為
其中: zi 為類別 i 的 logit 值; pis 的具體定義方法與 piT 一致。 ptT 為教師網絡中目標類別的概率值,具體定義為
式(2)中 pts 的具體定義方法與式(4)中的 ptT 一致。
教師網絡中所有非目標類概率和的定義為
與此同時,本文將教師網絡中單個非目標類的分類概率定義為
由式(3)(5)和(6)可以得出:
根據式(3)和(6的定義,并結合式(7),可將式(2)改寫為
由于 和
與類別 i 是不相關的,可以得到:
最后根據式(8)和(9),可以得到:
其中 為目標類蒸餾損失(TCD),其所體現的是目標類與非目標類的二分類分布,作用是使學生網絡在教師網絡的指導下,提高具有較大分類難度(包含光照變化、表情改變、姿態偏轉以及遮擋等干擾因素)的目標人臉樣本的分類準確率,記為:
為非目標類蒸餾損失(NCD),體現的是非目標類內部競爭的多分類分布,其作用是讓學生網絡在教師網絡指導下學習到高置信度樣本中通用性面部特征的分類能力,記為
。可將式(2)的解耦蒸餾損失函數改寫為
該式中的NCD權重與 ptT 相互耦合,當目標樣本易于分類時,將導致NCD權重降低,使得NCD在知識蒸餾中被弱化,為了提高NCD的權重,本文給TCD與NCD賦予獨立權重,使被抑制的NCD發揮出其在遷移通用性面部特征分類能力方面的作用。因此將式(11)進一步優化為
其中: α 和 β 為權重系數,該權重系數與數據集中樣本的分類難度緊密相關,后續將通過實驗來設置以上兩個參數值。
2.3 教師網絡的訓練
教師網絡是一個具有復雜網絡結構的深度網絡,使用高分辨率人臉數據集 IG 對其進行訓練,由此可以得出該網絡的分類損失函數為
C1(φ,IG)=L(fT(z;φ),y)
其中: 為輸人樣本的真實標簽值; L(?) 為交叉熵。
隨后對教師網絡和學生網絡各中間層網絡間的分層特征蒸餾子網進行優化訓練,從而得到教師網絡的各分層特征蒸餾子網的損失函數,具體如式(14)所示。
其中: σ 為教師網絡中所有分層特征蒸餾子網中待優化的參
數: ?L(???) 為交叉熵; n 為分層特征蒸餾子網的數量。
最后將教師網絡的分類損失函數與分層特征蒸餾子網損失函數進行融合,得到整個教師網絡的損失函數,具體如下:
LT=C1(φ,IG)+HT(σ,IG)
2.4 學生網絡的訓練
學生網絡是一個具有精簡網絡結構的深度網絡,通過教師網絡對學生網絡的指導訓練,使學生網絡具備在復雜應用場景(含有光照變化、表情改變、姿態偏轉以及遮擋等干擾因素)下對低分辨率樣本進行準確識別的能力,該網絡的損失函數由以下三部分構成:a)分類損失函數。使用該函數并結合使用低分辨率人臉樣本對學生網絡的主干網絡和分層特征蒸餾子網進行優化,使學生網絡的主體參數得到總體優化。b)分層蒸餾損失函數。利用該損失函數使學生網絡所提取的低分辨率特征盡可能接近教師網絡所提取的高分辨率特征,以進一步提升學生網絡對低分辨率樣本的特征描述能力。c)解耦蒸餾損失函數。根據數據集的分類置信度設置相應的解耦權重,使用該損失函數來提高學生網絡在識別具有較大分類難度(包含光照變化、表情改變、姿態偏轉以及遮擋等干擾因素)人臉樣本的分類準確率。具體訓練過程主要分為以下兩個階段:
階段1:網絡預訓練初步優化階段
將低分辨率數據集 IL 輸人至學生網絡對其進行訓練,由此可以得出學生網絡的分類損失函數為
C2(θ,IL)=L(fS(h;θ),y)
其中: ?L(???) 為交叉熵; h 為低分辨率樣本。
由于學生網絡各中間層網絡間連接了分層特征蒸餾子網,本文使用交叉熵對該子網進行訓練優化,具體如下:
其中: σ:μ 為學生網絡中所有分層特征蒸餾子網中待優化的參數: 為交叉熵; n 為分層特征蒸餾子網的數量。
階段2:分層蒸餾解耦網絡的性能優化提升階段
對高分辨數據集 I? 進行下采樣擴容操作,得到擴容后的低分辨率數據集 p(IG) ,將 IG 和 p(IG) 數據集中具有相同標簽的人臉樣本分別同步輸入至教師網絡和學生網絡(如圖1所示)。
首先,利用教師網絡和學生網絡之間的分層特征蒸餾子網進行分層特征蒸餾,根據式(1)(14)和(17)可得出學生網絡的分層蒸餾損失函數,具體如下:
其中: n 為分層特征蒸餾子網的數量。
隨后在教師網絡和學生網絡的softmax層進行解耦蒸餾,以提升學生網絡在識別具有較大分類難度人臉樣本的分類準確率。
最后將分類損失函數、分層蒸餾損失函數以及解耦蒸餾損失函數進行融合,得到學生網絡的總體損失函數,具體如下:
LS=C2(θ,p(IG))+LR+LDKD
3 實驗結果與分析
為了驗證所提算法的有效性,本文在多個數據集中對所提算法的識別率與實時性進行測試,并與目前具有代表性的低分辨率人臉識別算法進行綜合對比實驗分析。本文所使用的硬件平臺配置為:IntelXeonGold51182.30GHz CPU,兩塊QuadroP5000顯卡,32GB內存;開發工具為:PyCharm、PyTorch以及Anaconda。為了能夠更好地讓教師網絡和學生網絡收斂,實驗中使用CASIA-WebFace[17]數據集對教師網絡和學生網絡進行預訓練。該數據集中共有10575個類,合計有494414張人臉圖片,使用該數據集對模型進行預訓練能夠更好地讓模型適應人臉數據集中的人臉圖像。
3.1算法消融實驗
為了測試算法中各個功能模塊在識別低分辨率人臉樣本時的作用,本文使用LFW數據集[18來構建低分辨率人臉數據集。LFW數據集中共有5749個人臉類別,合計有13233張人臉圖像,數據集中的圖像采集于非限制性應用場景,存在光照變化、表情改變、姿態偏轉以及遮擋等干擾因素,圖像尺寸為250×250 像素。在構建低分辨率人臉數據集時,從LFW數據集中選取具有10張以上人臉樣本的158個類,使用MTCNN算法[9對LFW數據集圖像中人臉區域進行截取,并將所截取的人臉圖像進行下采樣,圖像尺寸歸一化為 30×30、25×25,20× 20,18×18,16×16 以及 14×14 像素六種分辨率。使用以上六種不同分辨率的人臉圖像來構造六種不同分辨率的低分辨率人臉數據集。本實驗使用以上所構造的低分辨數據集作為實驗數據集,圖4給出了低分辨率數據集的構建方法。本實驗使用ResNet34和 ResNet18 作為教師網絡和學生網絡的主干網絡。圖4第1行圖片為LFW數據集中的高分辨率人臉圖像,第2\~7行圖片為下采樣后所構造的六個低分辨率人臉數據集。
3.1.1分層特征蒸餾對識別率的影響分析
本實驗使用上文所構造的六種不同分辨率的低分辨率LFW數據集進行測試,將網絡中間層的分層特征蒸餾(hierar-chicalfeaturedistillation,HFD)與網絡末端的經典知識蒸(knowledgedistillation,KD)進行對比。在本實驗中將HFD模型的中間層分層數量設置為5,分析這兩種知識蒸餾方式對于學生網絡在識別低分辨率人臉圖像方面所起的作用,具體實驗結果如圖5所示。
由圖5可知,隨著圖像分辨率的不斷降低,HFD和KD方法的識別率都呈現逐步降低的趨勢,其中HFD方法的識別率總體高于KD方法。實驗結果說明對網絡中間層特征進行分層蒸餾能夠有效地將教師網絡各中間層強大的特征描述能力遷移到學生網絡,從而達到提高低分辨率人臉識別率的目標。
為了進一步驗證HFD網絡中不同層級分層特征蒸餾子網對低分辨率人臉識別率的影響,本文使用ResNet34和Res-Net18作為教師網絡和學生網絡的主干,并將分層特征蒸餾子網的數量均勻設置為3、5、7、9、11個。實驗中使用 20×20 像素的低分辨率LFW數據集對模型的識別率進行測試,具體的實驗結果如表1所示。
由表1可知,當分層特征蒸餾子網數量為5層的HFD網絡的識別率要高于其他數量的HFD,說明網絡中分層特征蒸餾子網的數量不是越多越好,其主要原因是:網絡的不同層次所提取的特征抽象程度不同,處于網絡較淺層次的特征中所包含的語義信息較少,處于網絡較深層次的特征中包含了更多的語義信息。若在分層特征蒸餾時引入過多的分層特征蒸餾子網,將使模型在進行分層特征蒸餾時,過多的淺層特征蒸餾將引入大量邊緣輪廓的淺層特征,這將降低學生網絡中間層特征所包含的語義信息,導致中間層特征在蒸餾過程中出現無法對齊的問題,從而導致模型得不到很好的優化,最終出現模型識別率下降的問題。
為了進一步探討HFD網絡中不同分層特征蒸餾子網數量與模型規模對學生網絡識別率的影響,本文將學生網絡固定為ResNet18,使用不同深度的ResNet作為教師網絡的主干。本實驗使用了ResNet34、ResNet50、ResNet56、ResNet101以及ResNet152作為教師網絡進行HFD算法識別率的對比實驗,具體實驗結果如圖6所示。
在圖6中,ResNet18表示的是沒有使用HFD方法對學生網絡進行訓練。圖中ResNet34(5層)表示的是教師網絡為ResNet34,其中引入了5個分層特征蒸餾子網對學生網絡進行訓練,其他類似。可以發現,使用HFD方法對學生網絡訓練后所取得的識別率都比ResNet18的識別率更高,進一步證明了HFD方法的有效性。當教師網絡為ResNet152時,學生網絡和教師網絡之間的規模存在較大懸殊,即使是增加了分層特征蒸餾子網的數量,學生網絡的識別率還是出現了一定幅度的降低,其主要原因是教師網絡規模越大,處于不同層次的面部特征的抽象程度差異也越大,導致教師網絡中間層特征與學生網絡中間層特征出現很大差異,使得在蒸餾過程中出現了特征強行擬合對齊的問題,導致學生網絡得不到很好的優化,學生網絡分類準確率出現一定程度的降低。當教師網絡為ResNet34時,教師網絡與學生網絡沒有規模鴻溝,中間層特征的抽象差異程度不大,學生網絡通過分層蒸餾損失函數能夠很好地模仿教師網絡中間層所提取的特征,從而顯著增強了學生網絡各中間層的特征描述能力。
3.1.2解耦蒸餾對識別率的影響分析
由于所構造的低分辨率LFW數據集中的人臉圖像存在光照變化、表情改變、姿態偏轉以及遮擋等干擾因素,為了能進一步提升所提算法的識別率,本實驗在教師網絡和學生網絡之間引入解耦蒸餾模塊(decouplingdistillation,DD),并通過對比實驗分析解耦蒸餾模塊在增強算法魯棒性和提升算法識別率方面的作用。為了測試解耦蒸餾損失函數中的權重參數對識別率的影響,本文使用 20×20 像素的低分辨率LFW數據集進行超參數的設置實驗,實驗采用控制變量法對這兩部分蒸餾損失的權重參數進行測試。首先將TCD的權重參數 α 固定為1,然后依次調整NCD的權重參數 β ,學生網絡識別率的具體實驗結果如表2所示。
由表2可知,當TCD權重參數 α 固定為1時,低分辨率人臉圖像的識別率最高的NCD權重參數 β 為8。這是由于NCD權重參數偏大更容易發揮出被抑制的非目標類蒸餾損失在分類層蒸餾中的作用,但如果NCD權重參數過大就會出現目標類損失被抑制的情況,使模型無法對低分辨率樣本進行準確識別。
當NCD權重參數 β 固定為8,逐步調整TCD的權重參數α 。學生網絡識別率的具體實驗結果如表3所示。
表3中的NCD權重參數 β 固定為8時,低分辨率人臉圖像的識別率最高的TCD權重參數 α 為1。這是由于TCD權重偏小能更好地發揮出被抑制的非目標類部分,但如果過小就會出現目標類部分被抑制的情況。根據上述實驗結果可知,輸出層解耦蒸餾的融合權重參數 α 和 β 分別為1和8時,HKDD網絡對低分辨率人臉圖像的識別率最高,在后續實驗中以該參數來設置解耦蒸餾模塊。
為了全面測試解耦蒸餾模塊在本文HKDD網絡中所起的作用,使用前面所構造的6個不同分辨率的低分辨率LFW數據集進行測試,教師網絡使用的是ResNet34網絡,學生網絡使用的是ResNet18網絡,實驗中對比測試如下算法的識別率。ResNet為僅使用ResNet18網絡對低分辨率人臉進行識別;ResNet+KD 為對學生網絡使用了網絡末端的經典知識蒸餾;ResNet+HFD 為對學生網絡使用了分層特征蒸餾;HKDD為本文所提的分層蒸餾解耦網絡。具體實驗結果如圖7所示。
從圖7可以看出,在六種低分辨率LFW數據集的實驗中,未使用知識蒸餾的ResNet網絡的識別率最低, ResNet+KD 網絡僅僅是在網絡末端對softmax層進行知識蒸餾,對網絡分類能力的提升非常有限;引入了分層特征蒸餾的 ResNet+HFD 網絡,則是在網絡中間層使用分層蒸餾損失函數來迫使學生網絡所提取的特征盡可能與教師網絡的特征保持相似,有效提升了學生網絡的特征表達能力,但是該網絡對于含有多種干擾因素疊加的低分辨率樣本的分類能力仍有不足。本文HKDD網絡的識別率最高,其主要原因是:該網絡將中間層的分層特征蒸餾和輸出層解耦蒸餾相結合形成了一個完整的端到端的網絡結構,使教師網絡實現了從中間特征提取層一直到網絡輸出層的全面蒸餾,特別是對學生網絡末端的解耦蒸餾。該蒸餾方法能充分發揮出原始蒸餾損失中被抑制的非目標類蒸餾損失對學生網絡的指導作用,從而使學生網絡在教師網絡指導下學習到通用性面部特征的分類能力,確保了學生網絡能夠在非限制性應用場景中具有較強的魯棒性和較高的分類精度。
3.2低分辨率人臉識別的綜合對比實驗
為了測試本文HKDD算法在低分辨率人臉圖像中的識別性能,首先本實驗使用3.1節中所構建的低分辨率LFW數據集對算法訓練與推理效率進行對比測試,并在多個不同像素的低分辨率LFW數據集中對算法的識別精度進行對比測試。隨后,本實驗還選取了TinyFace數據集[20以及QMUL-SurvFace數據集[21]來進一步測試算法的泛化能力。實驗中,將本文算法與近年來具有較好性能的低分辨率人臉識別算法進行綜合對比實驗,所對比的算法有: IKD[8] 、 BD[10] 、 FSKD[13] ) SCA[22] 、IRS[23] ,FT[24] 、MagFace[25] DSN[26] (204號 ,0L[27] 和 FFH[28] 。
3.2.1基于低分辨率LFW數據集的識別效率與精度對比實驗
本實驗選取了 25×25、20×20 以及 14×14 像素三個低分辨率LFW數據集作為測試數據集,使用 ResNet34 和ResNet18作為教師網絡和學生網絡的主干網絡。首先使用 20×20 像素的LFW低分辨率數據集對算法的訓練時長以及單張樣本的平均識別時長進行對比實驗。具體實驗結果如表4所示。
由表4可知,本文HKDD網絡的訓練與單張樣本平均識別時長都低于所對比的其他網絡。主要原因是在模型訓練過程中,實驗中所對比的方法需要使用大量的樣本對模型進行多輪的迭代優化,耗費了大量的時間。而本文網絡則是采用分層蒸餾方式,將教師網絡中各層次強大的特征描述能力遷移到學生網絡,從而實現了對學生網絡的分層指導訓練,使學生網絡無須使用大量樣本對模型進行訓練,就能夠達到對學生網絡優化的目標,極大地降低了本文網絡的訓練時長。同時HKDD網絡中解耦蒸餾部分是通過恒等變換得出,并未給模型帶來新的算法開銷,也確保了所提HKDD網絡在訓練過程中的高效性。在樣本識別過程中,由于HKDD框架中學生網絡使用的是具有精簡結構的深度網絡,所以HKDD在單張樣本平均識別時長實驗中具有較高的識別效率。
為了測試上述低分辨率人臉識別模型在不同分辨率下的識別率,本實驗使用 25×25、20×20 以及 14×14 像素的低分辨率LFW數據集對算法的平均識別率進行了對比實驗,具體實驗結果如表5所示。
從表5可以看出,在不同分辨率的實驗中,本文算法的識別率都要高于所對比的其他網絡,且當分辨率下降時,本文算法的識別率下降幅度都低于其他網絡模型。這是因為本實驗中所對比的網絡模型主要是通過對大量樣本學習來提升網絡對低分辨率圖像的分類能力,并沒有充分考慮如何利用教師網絡來進行指導訓練,采用這樣的方式將使得模型的收斂速度變慢,模型參數很難得到有效優化。而本文HKDD網絡是將中間層進行分層,然后通過逐層級蒸餾將教師網絡中不同抽象程度的特征描述能力遷移到學生網絡對應的層級中,使學生網絡各層級所提取的低分辨率人臉特征能夠更加接近教師網絡各層級所提取的特征。其次,HKDD網絡將教師網絡分類層的蒸餾損失解耦為目標類蒸餾損失和非目標類蒸餾損失,并為非目標類蒸餾損失設置了更高的權重,從而發揮了非目標類蒸餾損失對學生網絡的指導作用,使學生網絡能夠更充分地利用有限的訓練樣本學習到教師網絡強大的分類能力,從而使學生網絡能夠在不同分辨率的實驗中都能取得較高的人臉識別率。
3.2.2基于TinyFace數據集的識別效率與精度對比實驗
為了進一步測試HKDD網絡在多種低分辨率人臉數據集上的泛化能力,本實驗采用TinyFace數據集進行算法識別率的對比實驗,該數據集中共有169403張低分辨率人臉樣本,其分辨率為 20×16 像素,數據集中共有5139個類,數據集中的樣本存在姿態偏轉、光照變化、表情改變以及遮擋等干擾因素。圖8給出了該數據集中的部分樣本。
實驗中,將本文算法與目前性能較好的算法進行對比實驗,具體的算法有:IKD、BD、FSKD、DSN、OL和FFH,對比實驗結果如表6所示。
由表6可知,本實驗中所有算法的人臉識別率都偏低,其主要原因是該數據集中的樣本不僅分辨率低,同時樣本中還存在多種干擾因素的共同疊加(如:光照變化、姿態偏轉、表情改變以及遮擋等),使得現有低分辨率算法難以從樣本中提取出具有較好判別特性的面部特征。在本實驗中,本文HKDD網絡取得了最高的人臉識別率,以上實驗結果進一步證明了HKDD網絡通過各中間層的分層特征蒸餾,能夠顯著增強學生網絡各中間層的特征描述能力。同時,在分類層對蒸餾損失進行解耦,也有效增強了非目標類蒸餾損失函數對學生網絡的指導作用,使學生網絡在教師網絡指導下學習到通用性面部特征的分類能力,確保了學生網絡能夠在非限制性應用場景中具有較強的魯棒性和較高的分類精度。
為了測試本文算法在TinyFace數據集中的訓練效率與識別效率,本實驗使用表6的主流算法進行對比實驗,具體實驗結果如表7所示。
由表7可知,本文HKDD網絡在TinyFace數據集中依然具有較高的訓練與識別效率,其訓練時長與單張樣本的平均識別時長都低于所對比的其他網絡。進一步證明了分層蒸餾網絡能夠有效地將教師網絡中各層次強大的特征表達能力遷移到學生網絡,使學生網絡無須使用大量樣本對模型進行訓練,實現了對學生網絡高效優化的目標,極大地降低了學生網絡訓練的復雜度。在進行樣本識別時,由于學生網絡具有精簡的網絡結構,所以在使用學生網絡對低分辨率樣本進行識別時,具有較高的識別效率。
3.2.3基于QMUL-SurvFace數據集的識別率對比實驗
為了驗證本文所提的低分辨率人臉識別算法在安防監控場景下的實用性以及算法的泛化能力,使用QMUL-SurvFace數據集對算法識別率進行對比實驗。該數據集中含有15573個人,總共有463507張人臉圖像,這些圖像來源于監控攝像頭,所采集的人臉圖像分辨率低,且圖像中還包含多種復雜干擾因素(光照變化、姿態變化、表情以及遮擋等),這使得該數據集成為極具挑戰性的低分辨率人臉數據集。圖9給出了該數據集中部分樣本。
本實驗中,將本文算法與目前性能較好的算法進行對比實驗,具體的算法有IKD、BD、FSKD、DSN、OL和FFH,為了能更全面對算法的識別性能進行測試,本文采用 TAR(%)(a) FAR和mean accuracy( % 作為算法識別精度的評價指標,其中TAR表示的是正確接受率(trueacceptrate);FAR表示的是錯誤接受率(1acceptrate)。在進行人臉驗證時,TAR就是真正同一人的兩張圖片被算法識別為同一人的比率;FAR就是非同一人的兩張圖片被算法識別為同一人的比率。在進行實際人臉驗證時,若降低人臉驗證的相似度閾值,則會使TAR與FAR的值都同時上升,為了使算法的識別精度更有意義,需要在固定FAR值的情況下來綜合評估算法的TAR值,TAR @ FAR=0.1 表示 FAR=0.1 時,TAR的值。mean accuracy( (%) 為人臉識別的平均準確率。本實驗的具體實驗結果如表8所示。
由表8的結果可知,本文算法HKDD的正確接受率以及平均準確率均高于現有主流的低分辨率人臉識別算法,實驗結果進一步證明了本文算法一方面通過分層特征蒸餾提升了學生網絡的特征描述能力,使學生網絡在教師網絡的指導下,學習到了教師網絡強大的特征表達能力;另一方面通過解耦蒸餾的方式,將網絡最末端的softmax層解耦為目標類蒸餾損失和非目標類蒸餾損失,通過為非目標類蒸餾損失設置更高的權重,從而實現了提升學生網絡分類性能的目標。本實驗進一步證明了本文算法具有較強魯棒性,能夠在包含復雜干擾因素的視頻監控場景取得較高的準確率。
3.3算法效率分析
為了進一步分析本文算法的運行效率,從系統內存占用的角度對模型的運行效率進行詳細分析。本實驗所使用的硬件平臺配置為:IntelXeonGold51182.30GHzCPU,兩塊QuadroP5000顯卡,32GB內存。本實驗使用自主構造的低分辨率LFW數據集進行測試,實驗中教師網絡使用的是ResNet152,學生網絡使用的是 ResNet34 。圖10中的T-250表示輸入到教師網絡的樣本尺寸為 250×250 像素,S-64、S-32、S-16以及S-12表示輸入到學生網絡的測試樣本尺寸分別為: 64×64,32×32 、16×16 以及 12×12 像素。
由圖10可知,隨著樣本分辨率的降低,模型在內存中所占用的空間也隨之降低,相比較于教師網絡T-250,S-64、S-32、S-16以及S-12網絡的內存占用規模分別降低了95. 36% /97.64% 98.81% 以及 99.01% ,當低分辨率樣本的分辨率為12×12 像素時,學生網絡模型在進行樣本推理識別時的內存占用僅為 4.31MB 。學生網絡模型的識別率與單張樣本平均識別時長的實驗結果如表9所示。
由表9可知,當輸入的低分辨率測試樣本尺寸為 12×12 像素時,學生網絡的單張樣本平均時長相較于教師網絡降低了97.92% ,而學生網絡的識別率相比較于教師網絡僅僅降低11% ,具備了較高的識別率。實驗結果充分說明,教師網絡通過分層特征蒸餾子網和解耦蒸餾子網,能夠有效將教師網絡的強大特征描述能力和分類能力遷移到學生網絡,采用這種方式對學生網絡進行指導訓練,沒有增加學生網絡的模型規模,而學生網絡的參數量以及內存空間占用量得到顯著降低,使學生網絡具備了較強的實時性和較高的識別率。
4結束語
為了有效解決非限制性場景中低分辨率人臉識別率低的問題,本文提出了基于分層蒸餾解耦網絡的低分辨率人臉識別算法。該網絡通過中間層的分層特征蒸餾和輸出層的解耦蒸餾相結合的雙重蒸餾方式來指導學生網絡訓練,以更好地將教師網絡中強大的人臉特征描述能力和分類能力遷移到學生網絡中,從而提高學生網絡對低分辨率人臉樣本的識別率與訓練效率。通過大量的實驗結果表明,HKDD網絡在低分辨率人臉圖像中的識別率要優于現有的主流低分辨率識別模型。在算法的實現過程中,本文算法在對學生網絡進行分層特征蒸餾時,無須設置超參數,可以快速地實現將教師網絡的特征描述能力遷移至學生網絡。然而在網絡末端進行解耦蒸餾時,目標類蒸餾損失與非目標類蒸餾損失的權重設置仍然需要通過大量實驗來尋找最優值,無法根據樣本的分類困難度來自動設置相應的權重,這是本文后續研究所要重點解決的問題。
參考文獻:
[1]盧峰,周琳,蔡小輝.面向安防監控場景的低分辨率人臉識別算 法研究[J].計算機應用研究,2021,38(4):1230-1234.(Lu Feng,Zhou Lin,Cai Xiaohui.Research on low-resolution face recognitionalgorithm for security surveillance scene[J].ApplicationResearchofComputers,2021,38(4):1230-1234.)
[2]侯諭融,狄嵐,梁久禎.融合高斯金字塔特征的低分辨率人臉識 別[J].小型微型計算機系統,2021,42(10):2107-2115. (Hou Yurong,Di Lan,Liang Jiuzhen. Fusion of Gaussian image pyramid feature for low-resolution face recognition [J].Journal of ChineseComputerSystems,2021,42(10):2107-2115.)
[3]李晶,李健,陳海豐,等.基于關鍵區域遮擋與重建的人臉表情 識別[J].計算機工程,2024,50(5):241-249.(LiJing,Li Jian,Chen Haifeng,etal.Facial expressionrecognitionbased on key region masking and reconstruction[J]. Computer Engineering, 2024,50(5):241-249.)
[4]ZhangKangkai,GeShiming,ShiRuixin,etal.Low-resolutionobject recognition with cross-resolution relational contrastive distillation [J]. IEEE Trans on Circuits and System for Video Technology, 2024,34(4):2374-2384.
[5]張凱兵,鄭冬冬,景軍鋒.低分辨率人臉識別綜述[J].計算機 工程與應用,2019,55(22):14-24.(Zhang Kaibin,Zheng Dongdong,Jing Junfeng. Survey of low-resolution face recognition[J]. Computer Engineering and Applications,2019,55(22):14-24.)
[6]張慶輝,張媛,張夢雅.有遮擋人臉識別進展綜述[J].計算機 應用研究,2023,40(8):2250-2257,2273.(ZhangQinghui, Zhang Yuan, Zhang Mengya. Review of progress of face recognition with occlusion[J].Application Research of Computers,2023, 40(8):2250-2257,2273.)
[7]HintonG,Vinyals O,Dean J.Distilling the knowledge in a neural network [EB/OL](2015-03-09).https://arxiv.org/abs/1503. 02531.
[8]WangMengjiao,LiuRujie,HajimeN,etal.Improved knowledge distillationfor training fastlowresolution facerecognitionmodel[C]// Proc of International Conference on Computer Vision Workshops.Piscataway,NJ:IEEE Press,2019.
[9]Yan Mengjia,Zhao Mengao,Xu Zining,et al.VargFaceNet:an efficient variablegroup convolutional neural network for lightweight face recognition [C]//Proc of International Conference on Computer Vision Workshops.Piscataway,NJ:IEEE Press,2019.
[10]Ge Shiming,Zhao Shengwei,Li Chenyu,et al.Efficient low-resolution face recognitionvia bridge distillation[J].IEEE Trans on lmage Processing,2020,29:6898-6908.
[11]LiJunnan,SelvarajuRR,GotmareAD,etal.Align before fuse:vision and language representation learning with momentum distillation [C]//Proc of the 35th International Conference on Neural Information Processing Systems. 2021: 9694-9705.
[12]Romero A,Ballas N,Kahou SE,et al.FitNets:hints for thin deep nets[C]//Proc of International Conference on Learning Representations.Cham:Springer,2015.
[13]Shin S,Yu Y,Lee K.Enhancing low-resolution face recognition with feature similarity knowledge distillation[EB/OL].(2023-03-08) [2024-06-09].https://arxiv.org/abs/2303.04681.
[14]Ge Shiming,Zhao Shengwei,Li Chengyu,et al.Low-resolution face recognition in the wild via selectiveknowledge distilation[J].IEEE Trans on Image Processing,2019,28(4): 2051-2062.
[15]Yang Chuanguang,An Zhulin, Cai Linhang,et al. Hierarchical selfsupervised augmented knowledge distillation[C]//Proc of International Joint ConferencesonArtificial Intellgence.Cham:Springer, 2021:1217-1223.
[16]Zhao Borui,Cui Quan,SongRenjie,et al.Decoupled knowledge distillation[C]//Proc of Conference on ComputerVision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:11953-11962.
[17]Yi Dong,Lei Zhen,Liao Shengcai,et al.Learning face representation from scratch[EB/OL].(2014-11-29)[2024-06-20].https://arxiv.org/pdf/1411.7923.
[18]HuangGB,Mattar M,BergT,et al.Labeled faces inthe wild:a database for studying face recognition in unconstrained environments,inria-00321923[R].Amherst:University of Massachusets,2007.
[19]Zhang Kaipeng,Zhang Zanpeng,Li Zhifeng,et al. Joint face detection and alignment using multitask cascaded convolutional networks [J].IEEE Signal Processing Letters,2016,23(10):1499- 1503.
[20] Cheng Zhiyi,Zhu Xiatian,Gong Shaogang.Low-resolution face recognition[C]//Proc of the14th Asian Conference on Computer Vision.Piscataway,NJ:IEEE Press,2018:605-621.
[21]Cheng Zhiyi, Zhu Xiatian,Gong Shaogang. Surveillance face recognition challenge[EB/OL].(2018-04-25)[2024-06-20].https:// arxiv.org/pdf/1804.09691.
[22]DengJiankang,Guo Jia,Liu Tongliang,etal.Sub-center ArcFace: boosting face recognition by large-scale noisy Web faces[C]//Proc of European Conference on Computer Vision. Cham:Springer,2020: 741-757.
[23]Knoche M,Hormann S,Rigoll G. Image resolution susceptibility of face recognition models[EB/OL].(2021)[2024-03-10]. https:// arxiv.org/abs/2107.03769.
[24]Zhong Yaoyao,Deng Weihong.Face transformer for recognition[EB/ OL].(2021-07-08)[2024-03-10].https://arxiv.or/abs/2103.14803.
[25]Meng Qiang, Zhao Shichao, Huang Zhida,et al. MagFace: a universal representation for face recognition and quality assessment [C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE Press,2021:14225-14234.
[26]Lai SC,Lam K M.Deep siamese network for low-resolution face recognition[C]//Proc of Asia-Pacific Signal and InformationProcessing Association Annual Summit and Conference. Piscataway,NJ: IEEE Press, 2021:1444- 1449.
[27]KnocheM,Elkadeem M,Hormann S,et al.Octuplet loss:make face recognition robust to image resolution[C]//Proc of International Conference on Automatic Face and Gesture Recognition. Piscataway, NJ:IEEE Press,2023:1-8.
[28]Li Sisi,Liu Zhonghua,Wu Di,et al.Low-resolution face recognition based on feature-mapping face hallucination [J].Computers and Electrical Engineering,2022,101:1-15.