賀懷清,閆建青,惠康華
基于深度殘差網(wǎng)絡(luò)的輕量級(jí)人臉識(shí)別方法
賀懷清,閆建青*,惠康華
(中國(guó)民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300)( ? 通信作者電子郵箱2354478715@qq.com)
針對(duì)深度殘差網(wǎng)絡(luò)在小型移動(dòng)設(shè)備的人臉識(shí)別應(yīng)用中存在的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、時(shí)間開(kāi)銷(xiāo)大等問(wèn)題,提出一種基于深度殘差網(wǎng)絡(luò)的輕量級(jí)模型。首先對(duì)深度殘差網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行精簡(jiǎn)優(yōu)化,并結(jié)合知識(shí)轉(zhuǎn)移方法,從深度殘差網(wǎng)絡(luò)(教師網(wǎng)絡(luò))中重構(gòu)出輕量級(jí)殘差網(wǎng)絡(luò)(學(xué)生網(wǎng)絡(luò)),從而在保證精度的同時(shí),降低網(wǎng)絡(luò)的結(jié)構(gòu)復(fù)雜度;然后在學(xué)生網(wǎng)絡(luò)中通過(guò)分解標(biāo)準(zhǔn)卷積減少模型的參數(shù),從而降低特征提取網(wǎng)絡(luò)的時(shí)間復(fù)雜度。實(shí)驗(yàn)結(jié)果表明,在LFW、VGG-Face、AgeDB和CFP-FP等4個(gè)不同數(shù)據(jù)集上,所提模型在識(shí)別精度接近主流人臉識(shí)別方法的同時(shí),單張推理時(shí)間達(dá)到16 ms,速度提升了10%~20%。可見(jiàn),所提模型能夠在推理速度得到有效提升的同時(shí)識(shí)別精度基本不下降。
深度殘差網(wǎng)絡(luò);人臉識(shí)別;輕量級(jí);知識(shí)蒸餾;深度可分離卷積
人臉識(shí)別作為一種身份判別的技術(shù),具有非接觸、友好等特點(diǎn),被廣泛應(yīng)用于軍事、金融、公共安全和日常生活等領(lǐng)域。李東博等[1]針對(duì)主成分分析(Principal Component Analysis, PCA)算法提取的主成分向量含有較多非零元的問(wèn)題,提出一種重加權(quán)稀疏主成分分析算法,采用重加權(quán)方法對(duì)PCA進(jìn)行優(yōu)化。徐竟?jié)傻龋?]為提高人臉識(shí)別效率,提出了一種融合算法,吸收了PCA、線性判別分析法(Linear Discriminant Analysis, LDA)、支持向量機(jī)(Support Vector Machine, SVM)這3個(gè)算法的優(yōu)點(diǎn)。丁蓮靜等[3]針對(duì)非限制場(chǎng)景下人臉識(shí)別因多種因素影響導(dǎo)致識(shí)別率不高的問(wèn)題,提出一種加權(quán)信息熵和自適應(yīng)閾值環(huán)形局部二值模式算子相結(jié)合的方法。這些傳統(tǒng)的人臉識(shí)別算法采用降維思想或人工設(shè)計(jì)的特征和上述三類(lèi)算法之間的組合提取淺層特征,在單因素變化的人臉識(shí)別任務(wù)中取得了很好的效果。隨著深度學(xué)習(xí)的迅猛發(fā)展和大型人臉數(shù)據(jù)集的公開(kāi),出現(xiàn)很多基于卷積神經(jīng)網(wǎng)絡(luò)和Loss度量學(xué)習(xí)的人臉識(shí)別算法。Schroff等[4]提出FaceNet在大型私人數(shù)據(jù)集上使用GoogLeNet和triplet損失進(jìn)行訓(xùn)練,在LFW(Labeled Faces in the Wild)數(shù)據(jù)集上識(shí)別性能達(dá)到了99.63%。Parkhi等[5]提出VGG-Face (Visual Geometry Group Face),使用從互聯(lián)網(wǎng)收集整理分辨率高的數(shù)據(jù)集和triplet損失在VGGNet(Visual Geometry Group Network)上進(jìn)行訓(xùn)練,在LFW上識(shí)別性能達(dá)到98.65%。Hu等[6]基于對(duì)特征通道之間的依賴性提出SENet(Squeeze-and-Excitation Network),通過(guò)學(xué)習(xí)的方式自動(dòng)獲取每個(gè)特征通道的重要程度,然后根據(jù)重要程度提升有用的特征抑制用處不大的特征。Liu等[7]提出Sphereface,使用64層的ResNet(Residual neural Network)[8]和提出的角度空間損失函數(shù)(Angular Softmax, A-Softmax)學(xué)習(xí)帶角度間隔的人臉判別性特征,在LFW上識(shí)別精度達(dá)到99.42%。Wang等[9]為提高特征的判別力提出CosFace,通過(guò)歸一化特征和權(quán)重將Softmax損失轉(zhuǎn)化為余弦損失,進(jìn)一步加上余弦間隔后構(gòu)造出大間隔余弦損失函數(shù)(Large Margin Cosine Loss, LMCL),在LFW上識(shí)別率達(dá)到99.73%。Deng等[10]為獲得更具判別力的特征提出了ArcFace,加性角度間隔損失函數(shù)(Additive Angular Margin Loss, AAML)解決了Sphereface難以優(yōu)化的問(wèn)題,在LFW上識(shí)別性能達(dá)到了99.83%。從Sphereface到AAML都是基于Loss度量學(xué)習(xí)的人臉識(shí)別代表性算法,其共同思想是在正確分類(lèi)的前提下,最小化類(lèi)內(nèi)距離的同時(shí)實(shí)現(xiàn)類(lèi)間距離最大化,以此提高特征的判別性。
上述深度學(xué)習(xí)中ResNet算法在人臉識(shí)別領(lǐng)域識(shí)別精度非常高,但網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜和數(shù)據(jù)集龐大的特點(diǎn)使得它們只適合在有充足硬件資源的條件下進(jìn)行訓(xùn)練使用。與此同時(shí)出現(xiàn)了一批可以移植到移動(dòng)和嵌入式設(shè)備當(dāng)中的輕量級(jí)網(wǎng)絡(luò),如SENet、MobileNet[11]、ShuffleNet[12],雖然這些輕量級(jí)網(wǎng)絡(luò)的設(shè)計(jì)在實(shí)時(shí)性和精度上都滿足了實(shí)際使用,但因?yàn)樗鼈冚p量的設(shè)計(jì)導(dǎo)致提取的特征信息不足,不能實(shí)現(xiàn)與復(fù)雜網(wǎng)絡(luò)相同的性能。為了實(shí)現(xiàn)網(wǎng)絡(luò)的輕量化,不僅有上述的輕量級(jí)網(wǎng)絡(luò)出現(xiàn),也有從知識(shí)轉(zhuǎn)移角度讓網(wǎng)絡(luò)變簡(jiǎn)單的技術(shù)出現(xiàn)。Wang等[13]為知識(shí)轉(zhuǎn)移設(shè)計(jì)出一種教師加權(quán)策略,該策略具有從隱藏層丟失特征表示的能力,從而避免了教師的不正確監(jiān)督。Yan等[14]設(shè)計(jì)出一種遞歸知識(shí)蒸餾方法,通過(guò)使用上一個(gè)學(xué)生網(wǎng)絡(luò)來(lái)初始化下一個(gè)學(xué)生網(wǎng)絡(luò)。知識(shí)蒸餾從較大的深度神經(jīng)網(wǎng)絡(luò)中將知識(shí)蒸餾出來(lái)融入進(jìn)一個(gè)小神經(jīng)網(wǎng)絡(luò)。Ge等[15]提出一種選擇性的知識(shí)蒸餾方法,其中用于高分辨率人臉識(shí)別的教師網(wǎng)絡(luò)有選擇地將其信息豐富的面部特征轉(zhuǎn)移到學(xué)生網(wǎng)絡(luò)中,通過(guò)稀疏圖優(yōu)化實(shí)現(xiàn)低分辨率人臉識(shí)別。從知識(shí)轉(zhuǎn)移角度出發(fā)而設(shè)計(jì)的網(wǎng)絡(luò)有兩個(gè)好處:一是可以利用已經(jīng)訓(xùn)練好的教師模型進(jìn)行知識(shí)轉(zhuǎn)移;二是可以訓(xùn)練出在實(shí)際使用中更實(shí)時(shí)有效的學(xué)生網(wǎng)絡(luò)代替教師網(wǎng)絡(luò)完成工作。
為滿足小型設(shè)備的使用,本文提出一種遷移知識(shí)的輕量級(jí)網(wǎng)絡(luò)的方法DSLR(Depthwise Separable Light ResNet)。不同于之前的輕量級(jí)網(wǎng)絡(luò),通過(guò)學(xué)習(xí)恒等映射和殘差映射的策略,采用離線的知識(shí)蒸餾(Knowledge?Distillation, KD)[16]的思想訓(xùn)練網(wǎng)絡(luò)復(fù)雜、推理性能好的大型教師網(wǎng)絡(luò),然后利用教師網(wǎng)絡(luò)提取人臉圖像深層特征,轉(zhuǎn)移潛在知識(shí),使用加性角度間隔損失和KL散度(Kullback-Leibler Divergence, KLD)損失監(jiān)督訓(xùn)練輕量級(jí)學(xué)生網(wǎng)絡(luò),該網(wǎng)絡(luò)在精度基本不變的同時(shí),網(wǎng)絡(luò)結(jié)構(gòu)也大大簡(jiǎn)化。在此基礎(chǔ)上,利用MobileNet中提出的深度可分離卷積(Depthwise Separable Convolution,DSC)改變卷積操作的計(jì)算過(guò)程降低模型參數(shù)量,搭建一個(gè)輕量級(jí)人臉識(shí)別網(wǎng)絡(luò)。
人臉識(shí)別的目的在于通過(guò)提取的人臉面部特征進(jìn)行身份的驗(yàn)證或判別。針對(duì)復(fù)雜算法在移動(dòng)設(shè)備使用中資源消耗大的問(wèn)題,DSLR是在借鑒遷移學(xué)習(xí)的KD思想和損失度量學(xué)習(xí)的監(jiān)督下從復(fù)雜的ResNet中學(xué)習(xí)到的輕量化的人臉識(shí)別模型。DSLR模型主要包括三部分:第一,采用知識(shí)蒸餾技術(shù)、損失度量學(xué)習(xí)方法和保留深度殘差網(wǎng)絡(luò)設(shè)計(jì)的技巧,保證精度基本不變的基礎(chǔ)上從訓(xùn)練好的教師網(wǎng)絡(luò)中將隱藏的深層特征知識(shí)遷移到學(xué)生網(wǎng)絡(luò)DSLR,從而監(jiān)督DSLR的分類(lèi)器訓(xùn)練;第二,在此基礎(chǔ)上為提高網(wǎng)絡(luò)的實(shí)時(shí)性,使用深度可分離卷積分解卷積操作的方法,減少卷積操作計(jì)算量;第三,使用注意力模塊,解決因參數(shù)減少可能會(huì)造成精度下降的情況。以下將從算法流程、輕量級(jí)學(xué)生網(wǎng)絡(luò)和知識(shí)蒸餾三個(gè)方面展開(kāi)介紹DSLR模型。
人臉識(shí)別算法中識(shí)別效果好的網(wǎng)絡(luò),結(jié)構(gòu)一般較復(fù)雜,硬件資源需求越強(qiáng),訓(xùn)練時(shí)間越長(zhǎng)。主流的Sphereface、CosFace和ArcFace之中使用的卷積神經(jīng)網(wǎng)絡(luò)ResNet,網(wǎng)絡(luò)的層數(shù)從50、101到152不等,在硬件資源充分的人臉識(shí)別任務(wù)上都取得較好的效果。一方面ResNet由于解決了梯度消失、梯度爆炸和網(wǎng)絡(luò)性能退化等問(wèn)題被廣泛應(yīng)用于各個(gè)領(lǐng)域,另一方面恒等映射和殘差映射的策略進(jìn)一步地提升了網(wǎng)絡(luò)提取圖像特征的能力。但復(fù)雜的ResNet也有明顯的不足,網(wǎng)絡(luò)越深越復(fù)雜,參數(shù)規(guī)模龐大導(dǎo)致需要支撐它完成訓(xùn)練的硬件資源要求也很高。本文擬在ArcFace中改進(jìn)的ResNet基礎(chǔ)上構(gòu)建輕量級(jí)人臉殘差網(wǎng)絡(luò),保留恒等映射和殘差映射策略的同時(shí)簡(jiǎn)化網(wǎng)絡(luò)的結(jié)構(gòu)復(fù)雜度,解決資源缺乏下人臉識(shí)別的可部署問(wèn)題。DSLR模型采用基于集成學(xué)習(xí)的輕量級(jí)算法,具體算法步驟如下,其中算法步驟1、2、5與ArcFace中的人臉識(shí)別算法相同,接下來(lái)將重點(diǎn)介紹步驟3的學(xué)生網(wǎng)絡(luò)和步驟4的知識(shí)轉(zhuǎn)移。
步驟1 圖像預(yù)處理:人臉檢測(cè)、人臉對(duì)齊、裁剪;
步驟2 教師網(wǎng)絡(luò)預(yù)訓(xùn)練:訓(xùn)練集在ResNet50上使用加性角度間隔損失監(jiān)督進(jìn)行模型訓(xùn)練;
步驟3 學(xué)生網(wǎng)絡(luò)訓(xùn)練:訓(xùn)練集(與步驟2的相同)在DSLR網(wǎng)絡(luò)上使用加性角度間隔損失監(jiān)督進(jìn)行模型訓(xùn)練;
步驟4 知識(shí)轉(zhuǎn)移:教師和學(xué)生網(wǎng)絡(luò)最后一層的輸出通過(guò)高溫的軟化后,通過(guò)蒸餾損失進(jìn)行知識(shí)遷移;
步驟5 DSLR:在AAML和蒸餾損失的共同監(jiān)督下,學(xué)習(xí)出理想的DSLR網(wǎng)絡(luò)。
DSLR模型選擇ResNet的50層網(wǎng)絡(luò)作為知識(shí)蒸餾中的教師網(wǎng)絡(luò),抽取圖像中人臉面部的深層特征信息,完成特征的穩(wěn)健表示,這樣能彌補(bǔ)傳統(tǒng)算法中人工設(shè)計(jì)特征的缺陷,保證模型的精度和泛化能力。教師網(wǎng)絡(luò)對(duì)每個(gè)人臉通過(guò)24個(gè)殘差塊和全連接層輸出對(duì)其預(yù)測(cè)的512維特征,然后保存殘差網(wǎng)絡(luò)從人臉中抽取的深層次隱藏特征作為監(jiān)督機(jī)制,最后通過(guò)監(jiān)督機(jī)制轉(zhuǎn)移潛在的知識(shí)從而指導(dǎo)學(xué)生網(wǎng)絡(luò)的集成學(xué)習(xí),增加有效特征信息的捕捉,構(gòu)造出符合實(shí)時(shí)性和精度要求的輕量級(jí)模型。
輕量級(jí)人臉識(shí)別殘差網(wǎng)絡(luò)模型如圖1所示,在DSLR網(wǎng)絡(luò)結(jié)構(gòu)當(dāng)中,教師網(wǎng)絡(luò)對(duì)有光照、遮擋、姿態(tài)、表情和年齡等因素變化的非限制場(chǎng)景下人臉識(shí)別魯棒性非常好,都得益于網(wǎng)絡(luò)基本塊的合理設(shè)計(jì),在學(xué)生模型中通過(guò)研究這個(gè)基本塊的設(shè)計(jì)策略來(lái)構(gòu)建輕量化網(wǎng)絡(luò)結(jié)構(gòu)。學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)的層數(shù)分別為10和50,學(xué)生模型的深度約為教師模型的1/5,極大縮小網(wǎng)絡(luò)的規(guī)模,有助于速度的提升。為進(jìn)一步提升輕量型人臉識(shí)別網(wǎng)絡(luò)的推理速度,DSLR學(xué)生網(wǎng)絡(luò)使用深度可分離卷積替代標(biāo)準(zhǔn)卷積,極大減少卷積核的運(yùn)算量來(lái)提升特征提取的速度。與此同時(shí),為防止運(yùn)算量下降的同時(shí)會(huì)影響精度,故而使用即插即用的注意力模塊進(jìn)行重要特征的篩選保留。接下來(lái)從一張人臉圖像經(jīng)過(guò)DSLR學(xué)生網(wǎng)絡(luò)的處理流程進(jìn)行分析。
1) 人臉圖像的預(yù)處理。對(duì)人臉圖像進(jìn)行旋轉(zhuǎn),增強(qiáng)數(shù)據(jù)的變化,防止過(guò)擬合。
2) 人臉圖像的通道升維。為獲取豐富的特征信息,選擇3×112×112的三通道彩色圖像輸入DSLR,通過(guò)64個(gè)不同的卷積核提取從全局到細(xì)節(jié)的特征信息,輸出64張112×112的特征圖。
3) 人臉圖像的特征提取模塊。首先為了能設(shè)計(jì)出精度接近主流復(fù)雜算法的輕量級(jí)網(wǎng)絡(luò),選擇保留ResNet的恒等映射和殘差映射策略;其次為了保證模型的實(shí)時(shí)性,使用四個(gè)殘差模塊來(lái)實(shí)現(xiàn)提取特征,降低網(wǎng)絡(luò)的深度的同時(shí)有效減少了參數(shù);再次為進(jìn)一步提升速度,分解標(biāo)準(zhǔn)卷積為逐通道卷積和逐點(diǎn)卷積,有效降低提取特征的計(jì)算量;最后為了解決減少卷積計(jì)算可能存在重要特征信息丟失的問(wèn)題,選擇通道注意力模塊用來(lái)增強(qiáng)重要特征的通道,抑制次要特征的通道。DSLR學(xué)生網(wǎng)絡(luò)的各層詳細(xì)結(jié)構(gòu)如表1所示。

圖1 輕量級(jí)人臉殘差網(wǎng)絡(luò)模型

表1 輕量級(jí)人臉識(shí)別殘差網(wǎng)絡(luò)各層結(jié)構(gòu)
1.2.1學(xué)生網(wǎng)絡(luò)的兩種損失
人臉識(shí)別方向之前的研究主要集中在卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)和損失函數(shù)等方面。為了能讓神經(jīng)網(wǎng)絡(luò)訓(xùn)練出的參數(shù)更具有泛化性,出現(xiàn)了很多基于損失函數(shù)的改進(jìn)。目前的損失函數(shù)主要有Softmax、A-Softmax、LMCL和AAML等,Softmax只能保證分類(lèi)的正確性,并不能保證得到一個(gè)泛化性強(qiáng)的樣本度量空間。A-Softmax、LMCL和AAML在Softmax的基礎(chǔ)上發(fā)展而來(lái),但L-Softmax和A-Softmax比較難收斂和優(yōu)化,LMCL和AAML則克服了這些缺點(diǎn),在沒(méi)有Softmax的監(jiān)督下也容易實(shí)現(xiàn)收斂。相對(duì)LMCL而言,AAML是目前人臉識(shí)別中使用最多最廣泛的。如圖1所示,師生網(wǎng)絡(luò)均采用AAML作為度量學(xué)習(xí)的損失。師生之間則采用KL散度損失作為衡量師生之間概率分布的差異,差異越小損失越小。
如圖1所示,師生網(wǎng)絡(luò)均采用AAML作為度量學(xué)習(xí)的損失。師生之間則采用KL散度損失作為衡量師生之間概率分布的差異,差異越小損失越小。DSLR模型的學(xué)生損失如式(1)所示:

其中:權(quán)重和樣本特征都進(jìn)行了歸一化,為縮放因子,為加性角間隔,為特征和權(quán)重之間的角度。
師生之間的蒸餾損失D如式(2)所示:

其中:是等式右邊兩個(gè)變量的別名,并無(wú)實(shí)際含義,D是蒸餾(Distillation)的縮寫(xiě)。s和t分別是學(xué)生和教師之間最后一層的輸出,是溫度用來(lái)軟化s和t。教師模型通過(guò)匹配高溫下軟化的s和t能傳遞非常有用的知識(shí)用來(lái)訓(xùn)練學(xué)生模型。
DSLR模型的總損失total如式(3)所示:

1.2.2引入深度可分離卷積和擠壓激勵(lì)模塊
ResNet中的特征提取模塊由多個(gè)基礎(chǔ)塊構(gòu)建而成,這些基礎(chǔ)塊都是由標(biāo)準(zhǔn)卷積組成,要想提取豐富的深層次特征就不可避免要增加網(wǎng)絡(luò)深度和寬度,導(dǎo)致網(wǎng)絡(luò)的參數(shù)規(guī)模激增。這種現(xiàn)象出現(xiàn)的原因在于卷積方式,標(biāo)準(zhǔn)卷積同時(shí)考慮通道和區(qū)域,而深度可分離卷積是先考慮區(qū)域然后再考慮通道,實(shí)現(xiàn)了通道和區(qū)域的分離,減少了所需的參數(shù)。深度可分離卷積可以在減少參數(shù)的同時(shí)保證性能下降不會(huì)太多。因此采用深度可分離卷積來(lái)替代標(biāo)準(zhǔn)卷積。在特征提取網(wǎng)絡(luò)中使用DSC可以有效減少卷積參數(shù),在學(xué)生網(wǎng)絡(luò)中使用可以使其變得更輕量。
標(biāo)準(zhǔn)卷積和深度可分離卷積相比,就像是一個(gè)乘法操作拆分為兩個(gè)數(shù)的加法,在一定程度上降低了卷積操作時(shí)參與運(yùn)算的卷積核參數(shù)數(shù)量;但參數(shù)的下降可能存在將重要特征丟失的情況。SE(Squeeze-and-Excitation)注意力模塊通過(guò)建立通道之間的相互依賴關(guān)系,自適應(yīng)地學(xué)習(xí)調(diào)整通道的特征響應(yīng),把重要特征增強(qiáng),次要特征減弱,故而采用通道注意力SE模塊,這樣有利于卷積方式改變后重要特征的保留和選擇。
為了能將復(fù)雜的深度模型部署在資源受限的移動(dòng)和嵌入式設(shè)備中,模型壓縮和加速的技術(shù)逐漸發(fā)展起來(lái)。模型壓縮和加速的技巧主要有網(wǎng)絡(luò)剪枝[17]、量化[18]和知識(shí)蒸餾等。網(wǎng)絡(luò)剪枝方法對(duì)硬件和編程都不是很友好,而且迭代測(cè)試閾值耗時(shí)長(zhǎng)且計(jì)算量大;量化方法則實(shí)現(xiàn)難度比較大、準(zhǔn)確性不穩(wěn)定和通用性較差;相較之下,知識(shí)蒸餾采用遷移學(xué)習(xí)的思想,可以很好地訓(xùn)練小規(guī)模網(wǎng)絡(luò)且通用性比較好。一個(gè)知識(shí)蒸餾系統(tǒng)由知識(shí)、蒸餾算法和教師學(xué)生的網(wǎng)絡(luò)結(jié)構(gòu)三個(gè)關(guān)鍵部分組成。如圖1所示,教師模型選擇的是ResNet50,學(xué)生模型是本文設(shè)計(jì)的10層輕量級(jí)網(wǎng)絡(luò),知識(shí)是教師模型最后一層的輸出經(jīng)由AAML處理獲得的,屬于基于響應(yīng)的知識(shí)。本文選擇的蒸餾算法屬離線蒸餾,因此整個(gè)訓(xùn)練過(guò)程分為兩個(gè)階段:第一,在蒸餾開(kāi)始前大規(guī)模教師模型首先在訓(xùn)練集上進(jìn)行充分訓(xùn)練獲得理想結(jié)果;第二,教師模型被用于以向量或者中間特征的形式提取知識(shí),進(jìn)而用于監(jiān)督指導(dǎo)蒸餾過(guò)程中小規(guī)模學(xué)生模型的訓(xùn)練。在KD中,師生的網(wǎng)絡(luò)結(jié)構(gòu)是形成知識(shí)轉(zhuǎn)移的載體,即從教師到學(xué)生的知識(shí)獲取和蒸餾的質(zhì)量取決于如何設(shè)計(jì)教師學(xué)生網(wǎng)絡(luò)結(jié)構(gòu)。一般而言,學(xué)生網(wǎng)絡(luò)的設(shè)計(jì)是在以教師網(wǎng)絡(luò)為模板的基礎(chǔ)上進(jìn)行簡(jiǎn)化網(wǎng)絡(luò)、量化結(jié)構(gòu)、相同結(jié)構(gòu)選取等選擇。基于ResNet50結(jié)構(gòu)在人臉識(shí)別方向取得的成績(jī),選擇以ResNet50為模板,學(xué)生網(wǎng)絡(luò)學(xué)習(xí)教師網(wǎng)絡(luò)好的設(shè)計(jì)思想簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu)。學(xué)生網(wǎng)絡(luò)由教師網(wǎng)絡(luò)而衍生,通過(guò)合適的蒸餾算法可以有效使用教師網(wǎng)絡(luò)傳遞的隱藏知識(shí)進(jìn)行學(xué)習(xí),使自身網(wǎng)絡(luò)變得更輕量準(zhǔn)確。
本章師生模型均使用CASIA-WebFace(Institute of Automation,Chinese Academy of Sciences WebFace)[19]作為訓(xùn)練集,DSLR模型使用LFW(Labeled Faces in the Wild)數(shù)據(jù)集[20]、VGG-Face數(shù)據(jù)集、AgeDB(Age Database)數(shù)據(jù)集[21]和CFP-FP(Celebrities in Frontal Profile with Frontal-Profile)數(shù)據(jù)集[22]進(jìn)行實(shí)驗(yàn)來(lái)驗(yàn)證其合理性。首先是在訓(xùn)練集CASIA-WebFace上預(yù)訓(xùn)練教師網(wǎng)絡(luò);其次利用知識(shí)蒸餾方法和教師網(wǎng)絡(luò)監(jiān)督學(xué)生網(wǎng)絡(luò)的集成學(xué)習(xí),訓(xùn)練出符合實(shí)際需求的輕量級(jí)人臉識(shí)別殘差網(wǎng)絡(luò);再次使用深度可分離卷積替代標(biāo)準(zhǔn)卷積,驗(yàn)證卷積方式的改變能簡(jiǎn)化模型參數(shù)并提高識(shí)別速度;最后對(duì)近期主流的人臉識(shí)別算法與DSLR的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析。
本實(shí)驗(yàn)環(huán)境為Ubuntu18.04.5操作系統(tǒng),Intel Xeon Silver 4214處理器,內(nèi)存為32 GB,顯卡為Quadro RTX 5000,在 JetBrains PyCharm Communit Edition 2020.2.1上使用python 3.8.3和Pytorch1.6.0深度學(xué)習(xí)框架進(jìn)行算法模型訓(xùn)練和測(cè)試。
實(shí)驗(yàn)使用公開(kāi)數(shù)據(jù)集CASIA-WebFace(去除出現(xiàn)在測(cè)試集中的人臉圖像)作為訓(xùn)練集,數(shù)據(jù)集中的人臉圖像具有多姿態(tài)、光照條件不同、化妝和多角度等特點(diǎn),一共10 575個(gè)類(lèi)別,494 414幅人臉圖像。實(shí)驗(yàn)使用的測(cè)試數(shù)據(jù)集分別為L(zhǎng)FW、VGG-Face、AgeDB和CFP-FP這4個(gè)數(shù)據(jù)集。LFW數(shù)據(jù)集是在非限制條件下進(jìn)行采集的,包含不同背景、角度、面部表情,一共5 749個(gè)類(lèi)別,13 233幅世界知名人士的圖像;VGG-Face是一個(gè)大規(guī)模的人臉識(shí)別數(shù)據(jù)集,在姿勢(shì)、年齡、照明、種族和職業(yè)方面有很大差異,包含9 131幅人臉圖像;AgeDB數(shù)據(jù)集中最主要的是年齡變化差異,包含440人共12 240幅人臉圖像,實(shí)驗(yàn)使用AgeDB-30,包含300個(gè)正樣本對(duì)和300個(gè)負(fù)樣本對(duì);CFP-FP是姿態(tài)變化比較大的數(shù)據(jù)集,包含500個(gè)類(lèi)別,每個(gè)類(lèi)別分別有10個(gè)正臉和4個(gè)側(cè)臉。訓(xùn)練集和測(cè)試集使用相同的預(yù)處理方式。數(shù)據(jù)集圖像中的人臉都是經(jīng)過(guò)MTCNN(Multi-Task cascaded Convolutional Neural Network)[23]檢測(cè)并定位出5個(gè)關(guān)鍵點(diǎn):眼睛(2個(gè)眼球中心點(diǎn))、嘴巴(2個(gè)嘴角點(diǎn))和鼻子(1個(gè)鼻尖點(diǎn)),之后對(duì)檢測(cè)到的人臉進(jìn)行相似度轉(zhuǎn)換對(duì)齊后統(tǒng)一裁剪為112×112的大小,并對(duì)三通道的RGB彩色圖像像素進(jìn)行歸一化處理:像素減去127.5,然后除以128。
從CASIA-WebFace中選出處理后的453 580幅圖像作為訓(xùn)練集。整個(gè)模型的訓(xùn)練分成兩步:第一步預(yù)訓(xùn)練教師網(wǎng)絡(luò),在訓(xùn)練集上ResNet50進(jìn)行周期為50的訓(xùn)練,為提高分類(lèi)能力使用AAML損失進(jìn)行監(jiān)督訓(xùn)練;第二步訓(xùn)練學(xué)生網(wǎng)絡(luò),DSLR學(xué)生網(wǎng)絡(luò)一次學(xué)習(xí)和教師網(wǎng)絡(luò)操作相同,訓(xùn)練周期為18;集成學(xué)習(xí)時(shí)利用保存的教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)最后一層的輸出作為監(jiān)督機(jī)制,將其通過(guò)高溫軟化后送入蒸餾損失KLD中進(jìn)行知識(shí)的遷移,蒸餾損失和學(xué)生網(wǎng)絡(luò)的損失共同組成總損失。加性角度間隔損失的縮放因子設(shè)置為32,間隔設(shè)置為0.5。訓(xùn)練過(guò)程中使用了步進(jìn)學(xué)習(xí)率和權(quán)重衰減,模型的初始學(xué)習(xí)率設(shè)置為0.1,權(quán)重衰減系數(shù)設(shè)置為0.000 5,epoch設(shè)置為18,批量大小為128,并且在第4、6、11輪衰減0.1,模型動(dòng)量設(shè)置為0.9,迭代至63 700次時(shí)結(jié)束訓(xùn)練。訓(xùn)練過(guò)程中對(duì)圖像進(jìn)行了隨機(jī)旋轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)。
為了保證結(jié)果的公正性,訓(xùn)練集和測(cè)試集的預(yù)處理方式一致,參與對(duì)比的算法均使用處理后的CASIA-WebFace數(shù)據(jù)集作為訓(xùn)練集,使用相同處理的LFW和VGG-Face數(shù)據(jù)集作為測(cè)試集,測(cè)試方法均采用十折交叉驗(yàn)證法。
2.4.1師生網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果對(duì)比分析
師生網(wǎng)絡(luò)在LFW和VGG-Face兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2所示,ResNet系列101層的網(wǎng)絡(luò)比50層網(wǎng)絡(luò)精度略高,但識(shí)別速度和空間開(kāi)銷(xiāo)都比較大。目前ResNet系列的復(fù)雜網(wǎng)絡(luò)在人臉識(shí)別中取得較好的效果,針對(duì)本文選擇ResNet50而不選擇ResNet101作為教師網(wǎng)絡(luò),從訓(xùn)練時(shí)所需的硬件資源開(kāi)銷(xiāo)和測(cè)試時(shí)識(shí)別的時(shí)間開(kāi)銷(xiāo)兩方面進(jìn)行分析。神經(jīng)網(wǎng)絡(luò)的空間開(kāi)銷(xiāo)來(lái)源于每層網(wǎng)絡(luò)輸出的特征圖大小累加和所有帶參數(shù)層的權(quán)重?cái)?shù)量總和兩部分,時(shí)間開(kāi)銷(xiāo)來(lái)源于每一層參與運(yùn)算的參數(shù)量和輸入特征圖的大小。ResNet50與ResNet101相比,兩者結(jié)構(gòu)相似,但ResNet50的深度約為ResNet101的1/2左右。深度的減少雖然不會(huì)改變特征圖的輸入輸出尺寸,但是網(wǎng)絡(luò)層數(shù)的減少意味著相關(guān)參數(shù)和特征圖的數(shù)量也會(huì)減少,所以ResNet50的精度接近ResNet101的同時(shí),訓(xùn)練所需的空間開(kāi)銷(xiāo)減少和識(shí)別速度更快,更適合在中等資源下作為教師網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。

表2 在不同數(shù)據(jù)集上師生網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果
教師模型ResNet50和DSLR學(xué)生模型相比,DSLR模型在LFW和VGG-Face數(shù)據(jù)集上比ResNet50的識(shí)別精度分別低0.64個(gè)百分點(diǎn)和0.12個(gè)百分點(diǎn),但單張識(shí)別的速度提升了30.43%。精度接近但速度有明顯提升的原因如下:首先,DSLR模型的特征由4個(gè)激勵(lì)殘差塊來(lái)提取完成,ResNet50則由24個(gè)殘差塊來(lái)完成特征的提取;其次,為了讓DSLR能繼承教師網(wǎng)絡(luò)的精度,選擇學(xué)習(xí)教師網(wǎng)絡(luò)中恒等映射和殘差映射的策略來(lái)模仿教師網(wǎng)絡(luò)提取特征的過(guò)程;進(jìn)一步利用知識(shí)蒸餾技術(shù)從教師網(wǎng)絡(luò)將隱藏的深層特征信息進(jìn)行知識(shí)的轉(zhuǎn)移,使得學(xué)生網(wǎng)絡(luò)在參數(shù)規(guī)模比較小的情況下識(shí)別精度接近教師網(wǎng)絡(luò)。但學(xué)生網(wǎng)絡(luò)沒(méi)有辦法超越或者完全達(dá)到教師網(wǎng)絡(luò)的性能,因?yàn)镽esNet50教師網(wǎng)絡(luò)深度約為學(xué)生網(wǎng)絡(luò)的5倍,深度越深,提取的特征越抽象,特征表示也更充分,在識(shí)別效果上能夠更加穩(wěn)健可靠。最后,DSLR的結(jié)構(gòu)相比ResNet50更輕量,空間開(kāi)銷(xiāo)更小,參數(shù)更少,所以識(shí)別速度有較大提升,相比教師網(wǎng)絡(luò),更適合在需要實(shí)時(shí)進(jìn)行身份認(rèn)證的移動(dòng)和嵌入式設(shè)備中使用。
2.4.2多方法實(shí)驗(yàn)結(jié)果對(duì)比分析
目前主流的人臉識(shí)別算法有ArcFace中使用的ResNet系列、MobiFace[24]、HRNet(High-Resolution Network)[25]和GhostNet[26]等,與之相比,DSLR模型的識(shí)別準(zhǔn)確率接近大部分主流算法的識(shí)別準(zhǔn)確率,同時(shí)識(shí)別速度接近最快的輕量級(jí)網(wǎng)絡(luò)MobiFace。
MobiFace算法和DSLR算法在4個(gè)不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比如表3所示。DSLR模型在4個(gè)不同數(shù)據(jù)集上的識(shí)別速度比MobiFace略慢一些,但DSLR模型的識(shí)別精度比MobiFace高。DSLR模型在4個(gè)測(cè)試集上的識(shí)別精度都高于MobiFace,原因在于DSLR模型是采用知識(shí)蒸餾的技術(shù)轉(zhuǎn)移教師網(wǎng)絡(luò)中深層特征信息中的隱含知識(shí)訓(xùn)練出來(lái)的輕量級(jí)神經(jīng)網(wǎng)絡(luò);而MobiFace盡管識(shí)別速度更快,但其特征提取網(wǎng)絡(luò)簡(jiǎn)單,模型參數(shù)量少難以獲取到穩(wěn)健的人臉深層次特征表示,所以DSLR模型的效果才能比MobiFace好。以LFW和VGG-Face兩個(gè)數(shù)據(jù)集為例,DSLR模型和MobiFace模型在這兩個(gè)測(cè)試集上的測(cè)試精度變化趨勢(shì)如圖2所示,其中兩個(gè)模型在不同測(cè)試集上的前幾次測(cè)試結(jié)果也證明了MobiFace的網(wǎng)絡(luò)較為簡(jiǎn)單,提取特征信息相對(duì)DSLR模型要少很多。在面對(duì)像LFW測(cè)試集中每類(lèi)樣本只有幾張的情況下,提取信息更豐富的DSLR比MobiFace更具有泛化性,而且從圖2中可以看出DSLR模型訓(xùn)練至穩(wěn)定所需的時(shí)間比MobiFace少很多。DSLR模型在訓(xùn)練集上訓(xùn)練的損失變化如圖3所示,其中DSLR在訓(xùn)練集上訓(xùn)練損失變化趨勢(shì)證明了DSLR模型在KD和AAML損失的指導(dǎo)下是在不斷進(jìn)行學(xué)習(xí)優(yōu)化的,訓(xùn)練出的分類(lèi)器也是可靠的。

表3 不同數(shù)據(jù)集上的多方法實(shí)驗(yàn)結(jié)果對(duì)比

圖2 DSLR和MobiFace在不同測(cè)試集上的結(jié)果

圖3 DSLR在CASIA-WebFace上的訓(xùn)練損失
DSLR和HRNet在4個(gè)不同數(shù)據(jù)集上的識(shí)別結(jié)果和時(shí)間開(kāi)銷(xiāo)如表3所示。DSLR在LFW和VGG-Face測(cè)試集上的識(shí)別精度與HRNet基本相當(dāng),但識(shí)別速度比HRNet快20%。兩個(gè)算法識(shí)別精度相當(dāng)?shù)脑蛟谟冢珼SLR算法在特征提取上使用恒等映射策略,可以使得提取的特征信息不會(huì)丟失;而且還使用知識(shí)轉(zhuǎn)移的技術(shù)從識(shí)別效果好的教師網(wǎng)絡(luò)中學(xué)習(xí)潛在的特征表示。HRNet是一種用于人臉姿態(tài)識(shí)別的高分辨率網(wǎng)絡(luò),主要通過(guò)多次并行卷積執(zhí)行多尺度特征融合增強(qiáng)高分辨率表示來(lái)確保網(wǎng)絡(luò)隨時(shí)可以保持高分辨率特征。但在AgeDB和CFP-FP測(cè)試集上,DSLR的識(shí)別精度比HRNet略差,因?yàn)檫@兩個(gè)數(shù)據(jù)集的主要變化一個(gè)是年齡,一個(gè)是姿態(tài),HRNet隨時(shí)保持高分辨特征的特點(diǎn)使得對(duì)這兩種變化具有很好的學(xué)習(xí)能力。HRNet速度比較慢的原因在于兩個(gè)方面:一是網(wǎng)絡(luò)的并行卷積會(huì)反復(fù)進(jìn)行多尺度特征融合來(lái)保持高分辨率的特征,這個(gè)操作會(huì)增加很多時(shí)間上的開(kāi)銷(xiāo);二是網(wǎng)絡(luò)的深度比DSLR的要更深一點(diǎn),前向推理的時(shí)間也會(huì)增加。
DSLR和GhostNet在4個(gè)不同數(shù)據(jù)集上的識(shí)別結(jié)果和速度如表3所示。DSLR在LFW和VGG-Face測(cè)試集上的識(shí)別精度與GhostNet基本持平且識(shí)別速度也比GhostNet快11.11%左右。DSLR在這兩個(gè)測(cè)試集上的精度和GhostNet基本持平,因?yàn)镈SLR算法在特征提取上采用恒等映射減少信息丟失,同時(shí)使用知識(shí)蒸餾的方法從復(fù)雜的教師網(wǎng)絡(luò)中學(xué)習(xí)隱藏的特征表示,使得其識(shí)別效果可以與GhostNet相當(dāng)。GhostNet是一種使用Ghost模塊構(gòu)建的高效輕量級(jí)神經(jīng)網(wǎng)絡(luò),它的核心就是先用標(biāo)準(zhǔn)卷積生成通道數(shù)較少的特征圖,然后在此基礎(chǔ)上使用線性變換生成更多的影子特征圖,即用更少的參數(shù)生成更多的特征圖。但在AgeDB和CFP-FP測(cè)試集上,DSLR效果都比GhostNet好,因?yàn)檫@兩個(gè)數(shù)據(jù)集的變化相對(duì)單一,GhostNet由于參數(shù)太少無(wú)法充分針對(duì)單一變化進(jìn)行有效的學(xué)習(xí)。GhostNet速度稍慢最主要的原因在于輕量的GhostNet在深度上比DSLR更深。
2.4.3模塊替換的實(shí)驗(yàn)結(jié)果分析
為了驗(yàn)證深度可分離卷積替換標(biāo)準(zhǔn)卷積的有效性,分別在LFW和VGG-Face數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。如表4所示,在DSLR的模塊IR(Inception ResNet)中存在多個(gè)標(biāo)準(zhǔn)卷積層,分別做了三組實(shí)驗(yàn)來(lái)驗(yàn)證卷積替換:1)全部由標(biāo)準(zhǔn)卷積組成的IR模塊,IR;2)將IR模塊中的標(biāo)準(zhǔn)卷積全部替換為深度可分離卷積,IR+DSC;3)在2)的基礎(chǔ)上加上通道注意力SE模塊,IR+DSC+SE。1)和2)實(shí)驗(yàn)結(jié)果中,DSC替換標(biāo)準(zhǔn)卷積后速度有一定提升,但精度有所下降。速度能夠提升的原因是當(dāng)卷積核為3×3時(shí),深度可分離卷積的計(jì)算開(kāi)銷(xiāo)約為標(biāo)準(zhǔn)卷積的1/9,參數(shù)的減少有利于節(jié)省計(jì)算上的時(shí)間開(kāi)銷(xiāo)。加入DSC后精度發(fā)生下降,是因?yàn)镈SC的加入降低計(jì)算的開(kāi)銷(xiāo)同時(shí)不可避免會(huì)丟失一些重要特征的信息。2)和3)中加入SE注意力后速度沒(méi)有變慢而且解決了DSC替換后造成的精度下降。原因在于加入通道注意力模塊來(lái)解決精度下降問(wèn)題,通道注意力通過(guò)對(duì)重要特征通道施加一個(gè)重要系數(shù),使其在參與計(jì)算時(shí)處于優(yōu)先狀態(tài),避免了重要特征信息的丟失。

表4 深度可分離卷積加入DSLR后在不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比
本文在深度殘差網(wǎng)絡(luò)的基礎(chǔ)上提出一種輕量級(jí)人臉識(shí)別方法DSLR,解決了ResNet復(fù)雜網(wǎng)絡(luò)在移動(dòng)式設(shè)備中存在內(nèi)存消耗大和無(wú)法滿足實(shí)時(shí)性的問(wèn)題。通過(guò)實(shí)驗(yàn)表明,本文提出的DSLR相比MobiFace等輕量級(jí)網(wǎng)絡(luò)在速度接近的同時(shí)精度更高,適合在移動(dòng)式設(shè)備中部署使用。相較于主流方法的識(shí)別精度,本文仍有繼續(xù)提升的空間,這也是后續(xù)工作的方向。
[1] 李東博,黃鋁文. 重加權(quán)稀疏主成分分析算法及其在人臉識(shí)別中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用, 2020, 40(3):717-722.(LI D B, HUANG L W. Reweighted sparse principal component analysis algorithm and its application in face recognition[J]. Journal of Computer Applications, 2020, 40(3): 717-722.)
[2] 徐竟?jié)桑瑓亲骱辏鞄r,等. 融合PCA、LDA和SVM算法的人臉識(shí)別[J]. 計(jì)算機(jī)工程與應(yīng)用, 2019, 55(18):34-37.(XU J Z, WU Z H, XU Y, et al. Face recognition based on PCA, LDA and SVM algorithms[J]. Computer Engineering and Applications, 2019, 55(18): 34-37.)
[3] 丁蓮靜,劉光帥,李旭瑞,等. 加權(quán)信息熵與增強(qiáng)局部二值模式結(jié)合的人臉識(shí)別[J]. 計(jì)算機(jī)應(yīng)用, 2019, 39(8):2210-2216.(DING L J, LIU G S, LI X R, et al. Face recognition combining weighted information entropy with enhanced local binary pattern[J]. Journal of Computer Applications, 2019, 39(8): 2210-2216.)
[4] SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: a unified embedding for face recognition and clustering[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 815-823.
[5] PARKHI O M, VEDALDI A, ZISSERMAN A. Deep face recognition[C]// Proceedings of the 2015 British Machine Vision Conference. Durham: BMVA Press, 2015: No.41.
[6] HU J, SHEN L, SUN G, Squeeze-and-excitation networks[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7132-7141.
[7] LIU W Y, WEN Y D, YU Z D, et al. SphereFace: deep hypersphere embedding for face recognition[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6738-6746.
[8] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[9] WANG H, WANG Y T, ZHOU Z, et al. CosFace: large margin cosine loss for deep face recognition[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 5265-5274.
[10] DENG J K, GUO J, XUE N N, et al. ArcFace: additive angular margin loss for deep face recognition[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 4685-4694.
[11] HOWARD A G, ZHU M L, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. (2017-04-17) [2021-03-12].https://arxiv.org/pdf/1704.04861.pdf.
[12] ZHANG X Y, ZHOU X Y, LIN M X, et al. ShuffleNet: an extremely efficient convolutional neural network for mobile devices[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 6848-6856.
[13] WANG M J, LIU R J, ABE N, et al. Discover the effective strategy for face recognition model compression by improved knowledge distillation[C]// Proceedings of the 25th IEEE International Conference on Image Processing. Piscataway: IEEE, 2018: 2416-2420.
[14] YAN M J, ZHAO M G, XU Z N, et al. VarGFaceNet: an efficient variable group convolutional neural network for lightweight face recognition[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision Workshop. Piscataway: IEEE, 2019: 2647-2654.
[15] GE S M, ZHAO S W, LI C Y, et al. Low-resolution face recognition in the wild via selective knowledge distillation[J]. IEEE Transactions on Image Processing, 2019, 28(4): 2051-2062.
[16] HINTON G, VINYALS O, DEAN J. Distilling the knowledge in a neural network[EB/OL]. (2015-03-09) [2021-03-12].https://arxiv.org/pdf/1503.02531.pdf.
[17] HAN S, POOL J, TRAN J, et al. Learning both weights and connections for efficient neural networks[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2015: 1135-1143.
[18] WU J X, LENG C, WANG Y H, et al. Quantized convolutional neural networks for mobile devices[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016:4820-4828.
[19] YI D, LEI Z, LIAO S C, et al. Learning face representation from scratch[EB/OL]. (2014-11-28) [2021-03-12].https://arxiv.org/pdf/1411.7923.pdf.
[20] HUANG G B, RAMESH M, BERG T, et al. Labeled faces in the wild: a database for studying face recognition in unconstrained environments[EB/OL]. [2021-03-12].http://vis-www.cs.umass.edu/papers/lfw.pdf.
[21] MOSCHOGLOU S, PAPAIOANNOU A, SAGONAS C, et al. AgeDB: the first manually collected, in-the-wild age database[C]// Proceeding of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE, 2017: 1997-2005.
[22] SENGUPTA S, CHEN J C, CASTILLO C, et al. Frontal to profile face verification in the wild[C]// Proceeding of the 2016 IEEE Winter Conference on Applications of Computer Vision. Piscataway: IEEE, 2016: 1-9.
[23] ZHOU E J, CAO Z M, SUN J. GridFace: face rectification via learning local homography transformations[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11220. Cham: Springer, 2018: 3-20.
[24] DUONG C N, QUACH K G, JALATA I, et al. MobiFace: a lightweight deep learning face recognition on mobile devices[C]// Proceedings of the IEEE 10th International Conference on Biometrics Theory, Applications and Systems. Piscataway: IEEE, 2019: 1-6.
[25] SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 5686-5696.
[26] HAN K, WANG Y H, TIAN Q, et al. GhostNet: more features from cheap operations[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 1577-1586.
HE Huaiqing, born in 1969, Ph. D., professor. Her research interests include graphics, image and visual analysis.
YAN Jianqing, born in 1998, M. S. candidate. His research interests include image processing.
HUI Kanghua, born in 1982, Ph. D., associate professor. His research interests include image processing.
Lightweight face recognition method based on deep residual network
HE Huaiqing, YAN Jianqing*, HUI Kanghua
(,,300300,)
As deep residual network has problems such as complex network structure and high time cost in face recognition applications of small mobile devices, a lightweight model based on deep residual network was proposed. Firstly, by simplifying and optimizing the structure of the deep residual network and combining the knowledge transfer method, a lightweight residual network (student network) was reconstructed from the deep residual network (teacher network), which reduced the network structural complexity while ensuring accuracy. Then, in the student network, the parameters of the model were reduced by decomposing standard convolution, thereby reducing the time complexity of the feature extraction network. Experimental results show that on four different datasets such as LFW (Labeled Faces in the Wild), VGG-Face (Visual Geometry Group Face), AgeDB (Age Database) and CFP-FP (Celebrities in Frontal Profile with Frontal-Profile), with the recognition accuracy close to the mainstream face recognition methods, the proposed model has the time of reasoning reaches 16 ms every image, and the speed is increased by 10% to 20%. Therefore, the proposed model can have the speed of reasoning effectively improved with the recognition accuracy basically not reduced.
deep residual network; face recognition; lightweight; Knowledge Distillation (KD); Depthwise Separable Convolution (DSC)
This work is partially supported by National Key Research and Development Program of China (2020YFB1600101), Scientific Research Program of Tianjin Municipal Education Commission (2020KJ024).
1001-9081(2022)07-2030-07
10.11772/j.issn.1001-9081.2021050880
2021?05?27;
2021?09?03;
2021?09?15。
國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2020YFB1600101);天津市教委科研計(jì)劃項(xiàng)目(2020KJ024)。
TP391.41
A
賀懷清(1969—),女,吉林白山人,教授,博士,CCF會(huì)員,主要研究方向:圖形、圖像、可視化分析; 閆建青(1998—),男,山西忻州人,碩士研究生,主要研究方向:圖像處理; 惠康華(1982—),男,江蘇連云港人,副教授,博士,主要研究方向:圖像處理。