王懷斌 王海濤 高凌飛 張魯洋 王海龍



摘 要:無約束場景下,低質量的人臉圖像不僅浪費計算資源而且降低系統識別率。針對此問題,提出一種基于人臉識別的人臉質量評估方法對人臉圖像進行預評估。以人臉識別系統特征提取網絡為基礎網絡在COX數據集上進行微調,并使用微調后網絡對COX數據集進行質量分數標定。最后,結合基礎網絡及質量預測網絡并以相應損失函數在標定數據上進行回歸學習以獲取質量評估模型。實驗結果表明,該方法能夠有效區分不同質量的人臉圖像并提升人臉識別系統性能。
關鍵詞:人臉質量評估;質量標定;人臉圖像;人臉識別
Abstract:In unconstrained scenarios, low quality face images not only waste computing resources but also reduce the recognition rate of the system. To solve this problem, a face quality assessment method based on face recognition is proposed to pre-evaluate face images. The feature extraction network in the face recognition system is used as the basic network and the COX dataset is fine-tuned. Then the COX dataset is annotated with the quality score by the fine-tuned network. Finally, the basic network and the quality prediction network are combined and the corresponding loss function is used to conduct regression learning on the labeled data to obtain the quality evaluation model. Experimental results show that this method can effectively distinguish different quality face images and improve the performance of face recognition system.
Key words:face quality assessment; quality calibration; face image; face recognition
目前人臉識別系統已廣泛的應用在生產生活當中,其準確率和可靠性越來越高。但是,在監控等一些無約束的場景下,人臉識別系統往往需要處理一些無效的低質量人臉圖像。這勢必浪費部分計算資源對這些檢測到的無效人臉圖像進行人臉識別系統相關處理。特別是當人臉底庫較大時,這一過程耗費計算資源較多。因此,通過對人臉識別系統的輸入圖像進行預先的評估審查,有利于提升人臉識別系統的計算效率。
截至目前,對人臉圖像的質量評估已有諸多研究,根據技術發展可主要分為基于深度學習的和非深度學習的,其中基于深度學習的FQA算法主要在2015年后開始出現并于最近占據主導地位[1]。傳統的非深度學習方法主要通過多因素融合和全局學習的方法進行質量評估。例如,Nasrollahi等人根據姿態、亮度、分辨率等分別進行質量評分,最后進行加權融合獲得整體質量分數[2]。Liao等人使用Gabor濾波器的量值作為特征值,通過訓練支持向量機(SVM)來預測質量標簽[3]。基于深度學習的FQA論文主要發表于2019年和2020年[1]。這些研究類似于使用全局學習的非深度學習方法,不同的是特征提取器往往是復雜的深度網絡,例如文獻[4]、[5]和[11]依次使用AlexNet、GoogleNet以及SqueezeNet作為主干網絡。
上述研究使得人臉圖像質量的評估誤差逐步降低,但是這些方法均關注于將質量評估效果與人類視覺評估相關。不同于這些工作,基于人臉識別的質量評估方法致力于質量評估服務于人臉識別系統,進而提升其運行效率。一般而言,基于人類視覺的質量評分與人臉識別效果正相關,但對部分人臉不能適用。因此,設計了一種可嵌入并適應不同人臉識別系統的質量評估方法用以提升人臉識別系統性能。
1 結合人臉識別的質量分數標定方法
質量評估模塊基于有監督的學習方法在COX數據集上進行訓練,需要訓練所需圖像的質量標簽作為監督信號。而COX數據集是為評估人臉識別而收集的數據集,只有所屬身份的類別信息[6]。因此,首先進行質量分數標定以獲取與人臉識別系統性能相關的質量分數。
2 質量評估網絡
2.1 網絡架構及基礎特征提取網絡
質量評估網絡基于人臉識別系統中特征提取網絡實現,圖3為質量評估網路架構及訓練/測試示意圖。如圖所示,提出的質量評估網絡主要分為兩部分,即基礎特征提取網絡和質量回歸預測兩部分。具體而言,在實驗部分所使用的人臉識別系統使用特征提取網絡為ResNet-101[7],因此所有涉及特征提取的網絡均使用此網絡實現并保證模型參數相同,即質量標定、人臉識別系統以及質量評估網絡中的特征提取模型為同一模型。
3 實驗與分析
3.1 實驗設置
實驗在ubuntu16.04環境下基于python語言和tensorflow框架實現。主要硬件配置包括2.4 GHz CPU和64 GB RAM,在此基礎上使用了2塊英偉達1080TI加速訓練。對第一階段基礎特征提取網絡的微調遵循文獻[8]的設置。對第二階段的質量預測網絡的主要超參數配置為:優化方法使用Adam,學習率為0.0001,batchsize為512;損失函數參數設置為:γ=1.6,μ=0.5。
3.2 人臉圖像質量評估實驗
真實監控環境下低質量人臉圖像的產生原因主要是運動模糊、對焦模糊以及姿態變化。使用基準圖像模擬生成不同程度的運動、對焦模糊導致的低質量圖像,另外選取一組姿態變化較大的監控視頻人臉序列進行質量評估。圖4展示了不同質量人臉圖像的相關數值結果,其中包括待評估圖像與基準圖像距離、標定分數、文獻[9,10]中方法評估值以及所述質量評估方法評估值。
由圖4中數值結果可知,質量預測網絡在除標定分數較高或較低外的圖像上產生的質量分數基本與標定分數相一致。另外,對比同一個人的不同質量圖像可知,低質量的圖像具有更低的分數,反之,高質量圖像質量分數相對較高。對比最新的文獻[9]、[10]中方法,質量預測網絡預測值具有更高的區分度。例如在運動模糊導致的低質量圖像的評估中,質量預測網絡預測值在質量最優和最差的圖像上的分布區間更大,質量區分度更高(文獻[9]:0.61-0.49;文獻[10]:0.61-0.43;質量預測網絡:0.73-0.37)。
為進一步說明提出的質量預測網絡具有更優的性能,在COX數據集測試集(122709張人臉圖像)上進行了質量分數統計,圖5為標定分數、文獻[9,10]以及質量預測網絡預測的質量分數分布直方圖。由圖示可知,標定分數在(0,1)區間內近似呈以期望值為0.5的正態分布。三種質量評估方法中,相比標定分數的分布,文獻[10]獲得的質量分數整體較低,文獻[9]獲取的質量分數整體較高但更為集中,而所述質量評估方法獲取的質量分數的分布更為接近標定分數的分布。因此,從質量分數分布來看,相較對比方法,質量預測網絡對人臉質量的評估分布更為合理,預測的質量分數與人臉識別系統相關度更高。
3.3 質量評估對人臉識別系統的性能影響
鑒于提出的質量評估方法目的在于提升人臉識別系統的性能,因此評估了加入質量預測網絡后對人臉識別系統的性能影響。質量評估模塊的負面影響主要在于部分可被人臉識別系統正確識別的人臉圖像被錯誤的拒絕,因此引入FNMR(False non-match rate)指標進行衡量,FNMR指標即被質量評估模塊拒絕的樣本中可被正確識別的樣本占被拒絕樣本的比率。圖6為質量模塊在不同拒絕率下的FNMR,從標定分數及三種方法的曲線變化可以看出,隨拒絕率的升高,FNMR逐步增加。對比其他方法,所述質量評估方法更接近標定分數下的變化趨勢,且在幾乎全部拒絕率下質量評估方法的FNMR值均小于最新的文獻[9,10]中方法。
4 結 論
提出了一種基于人臉識別的監控視頻中人臉圖像質量評估方法。不同于其他質量評估方法,提出的評估方法旨在與人臉識別系統具有較高的相關度,能夠對人臉識別系統的輸入圖像進行預評估,進而提升人臉識別系統效率。基于此目的,首先使用人臉識別系統在訓練集進行微調后獲得基礎特征提取模型,然后以此模型對訓練數據集進行標定,構建新的用于質量評估的數據集,最后通過使用精心設計的回歸網絡及損失函數在此數據集上進行回歸訓練獲取質量預測模型。實驗結果表明,基于人臉識別的質量評估方法能夠準確的評估人臉圖像并有助于提升通用人臉識別系統性能。
參考文獻
[1] SCHLETT T, RATHGEB C, HENNIGER O, et al. Face image quality assessment: a literature survey[J]. arXiv preprint arXiv:2009.01103, 2020.
[2] NASROLLAHI K, MOESLUND T. B. Extracting a good quality frontal face image from a low-resolution video sequence[J]// IEEE Trans. on Circuits and Systems for Video Technology (TCSVT), 2011.
[3] LIAO P, LIN H, ZENG P, et al. Facial image quality assessment based on support vector machines[C]// International Conference on Biomedical Engineering & Biotechnology. IEEE Computer Society, 2012.
[4] ROSE J, BOURLAI T. Deep learning based estimation of facial attributes on challenging mobile phone face datasets[C]// ASONAM '19: International Conference on Advances in Social Networks Analysis and Mining,2019.
[5] YANG F, SHAO X, ZHANG L, et al. DFQA: deep face image quality assessment[M]// Image and Graphics. 2019.
[6] HUANG Z, SHAN S, WANG R, et al. A benchmark and comparative study of video-based face recognition on COX face database[J]. IEEE Transactions on Image Processing, 2015, 24(12):5967-5981.
[7] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016.
[8] DENG J, GUO J, XUE N ,et al. Arcface: additive angular margin loss for deep face recognition[C]// 2019 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). IEEE, 2019.
[9] HERNANDEZ-ORTEGA J, GALBALLY J, FIERREZ J, et al. FaceQnet: quality assessment for face recognition based on deep learning[C]// 2019 International Conference on Biometrics (ICB). IEEE, 2020.
[10]HERNANDEZ-ORTEGA J, GALBALLY J, FIERREZ J, et al. Biometric quality: review and application to face recognition with faceQnet[J]. arXiv preprint arXiv:2006.03298, 2020.
[11]ROSE J, BOURLAI T. On designing a forensic toolkit for rapid detection of factors that impact face recognition performance when processing large scale face datasets[M]// Securing Social Identity in Mobile Platforms. Berlin:Springer, 2020.