彭 悅, 楊紅雨, 劉艷麗
(四川大學計算機學院, 成都 610065)
人臉圖像識別是最廣泛使用的生物特征識別方法之一[1],這是因為它具有很高的公眾接受度,且在非配合狀態下仍可進行采集匹配[2],不僅在門禁、交通、考勤、支付和社交媒體等日常社會生活場景廣泛使用,在安防、流控、刑偵等公共安全領域也具有重要地位.
近年來,隨著深度學習在計算機視覺領域的廣泛應用,其在人臉相關任務上已取得卓越性能.得益于網絡結構和損失函數等方面的調整創新,最新的深度學習方法在主流人臉數據集上可取得99%以上的精度[3].人臉識別領域的研究重心逐漸由識別模型轉移到對人臉數據本身的分析上來.
人臉圖像是對人臉的采樣,其采樣質量是影響人臉識別系統性能的重要因素,在采樣條件受控情況下,當前的人臉識別系統能夠實現高精度性能.然而在非配合、不受限、采集環境差和圖像采集人員技術水平差等情況下,人臉在多個維度上呈現出豐富、劇烈的變化,這會導致識別精度的顯著降低.這些變化因素包括圖像獲取條件(例如照明,背景,模糊和低分辨率),以及人臉因素(例如姿勢,遮擋,化妝,配飾和表情),這些變化因素會導致識別性能顯著下降.不同圖像退化方式對人臉識別的影響程度不同,研究其差異,對指導提高人臉識別系統性能和相關領域研究具有積極意義.
隨著人臉圖像相關領域的蓬勃發展,關于人臉質量和識別置信度的研究逐漸成為新的熱門領域,論文數量展現出逐年增多的趨勢[4],同時可以觀察到,深度學習技術正逐步取代傳統手工算法,成為本領域的主流方法,在各分支均取得了不錯進展.
最新的國內外研究成果包括,文獻[5]利用隨機輟學技術獲得人臉隨機嵌入,根據圖像隨機嵌入魯棒性評價人臉質量;文獻[6]結合人類視覺特性,設計4種梯度卷積模板,結合人臉特征點,提取特征點附近的人臉梯度信息,使用回歸方法預測質量分數;文獻[7,8]根據ICAO標準選擇標準人臉圖像,通過計算與標準人臉圖像的距離,預測人臉圖像質量,批量生成帶有質量標簽的人臉數據集,在預訓練人臉識別模型上進行遷移學習計算質量得分;文獻[9]提出了一種基于排名的學習方法,他們使用基于排名損失的多項式核和訓練權重定義了一個線性質量評估方程;文獻[10]創建了 FIIQD,一個“人臉圖像照明質量數據庫”,具有 224 個人,733 張圖像,200 種不同的照明模式及其質量分數,然后使用該數據訓練基于 ResNet-50[11]的模型以估計照明質量;文獻[12]將圖像灰度、色彩、構圖等全局特征與剪裁后的人臉特征進行融合,預測帶有人臉圖像的美學得分;文獻[13]對人臉圖像損失類型進行識別并利用回歸獲得質量分數.
本文提出一種新的人臉圖像質量評價算法,通過網絡模型模擬人臉圖像退化過程中出現的特征偏移,根據特征偏移量和圖像信息量之間的相關性,完成人臉質量分數自動評價.使用遺傳算法對構成模型的網絡單元進行篩選,用更小網絡規模實現同等性能.
本文貢獻可概括如下:將特征偏移概念引入人臉圖像質量評價,通過微調人臉識別網絡權重,模擬圖像退化形成的特征偏移,利用其與人臉質量的相關性,提出基于特征偏移的人臉質量評價算法框架.
采用遺傳算法自動篩選關鍵特征,實現網絡規模壓縮和計算復雜度簡化.使用本文提出的質量評價算法研究高斯模糊、運動模糊、高斯噪聲、椒鹽噪聲等多種常見類型圖像退化對人臉識別的影響差異.
在當前主流人臉識別方法中,通常使用二維或三維人臉進行特征提取,通過特征比對和閾值設置完成識別或驗證任務.人臉圖像,是對原始人臉的采樣,采樣過程必然伴隨一定誤差和特征損失,誤差和特征損失來源包括且不限于:維度損失,離散化損失,光照不均,光照不足,表情造成的面部扭曲,化妝,佩戴裝飾品,面部遮擋,圖像采集設備造成的模糊和噪聲等.
如圖1所示,假設每張人臉映射到特征空間里的唯一一點,代表其獨一無二的身份特征,那么上述原因造成的誤差和特征損失反映到特征空間里,即為不同程度的特征點偏移[14].類似地,如果對人臉圖像重采樣,將導致信息進一步丟失,特征點發生二次偏移.為方便讀者理解特征偏移概念,對其做出如下定義:
S(I)=d(F(I′),F(I))
(1)
其中,I為人臉圖像;I′為重采樣(退化)人臉圖像;F為特征提取函數(此處即為用于人臉特征提取的神經網絡),特征偏移即為退化人臉特征與原人臉特征之間的距離.

圖1 人臉采樣與特征偏移示意圖Fig.1 Face sampling and feature variation
文獻[15]從“數據不確定性”角度出發,認為單張人臉圖像提取的特征服從高斯分布,均值代表最接近特征真值的點,方差代表人臉圖像質量,方差越小,類內緊湊型和類間可分性越好.同理,在本文語境中,特征點偏移類似上述方差的概念,圖像質量越高,包含信息量越大,偏移幅度越小;圖像質量越差,包含信息量越小,偏移幅度越大.受此思想啟發,對特征提取網絡進行權重微調,可模仿采樣過程中圖像退化造成的誤差和特征丟失,從而導致特征點偏移.為敘述簡潔,后文我們將微調后的網絡稱作“特征偏移網絡”.
如果人臉圖像質量差,即特征信息損失多,那么輸入特征偏移網絡后,造成的特征偏移大(因為圖像包含有價值的人臉信息少),即稱之具有低質量;反之,如果圖像采樣質量高,特征信息損失少,那么輸入特征偏移網絡后,造成的特征偏移小(因為圖像包含有價值的人臉信息多),即稱之具有高質量.
對特征提取網絡隨機進行多次權重微調,可形成特征偏移網絡集群.利用特征偏移網絡集群(包含m個特征偏移網絡),可得到m個偏移特征.使用統計學度量方法計算集群網絡造成的平均特征偏移,即可代表圖像質量,并與人臉識別表現高度相關.
特征偏移網絡及網絡集群.將預訓練的人臉識別卷積神經網絡去掉分類層,作為無偏移的特征提取網絡,本文使用預訓練的ResNet-18[11]模型作為無偏移特征網絡,其結構如圖2所示.然后隨機生成N個特征選取模板,使用模板屏蔽最后一個全連接層部分權重,即可生成N個特征偏移網絡,從而模擬人臉圖像退化過程中部分特征信息的丟失,N個特征偏移網絡共同構成集群卷積網絡,集群卷積網絡結構如圖3所示.

圖2 ResNet-18網絡結構Fig.2 ResNet-18 network structure

圖3 集群卷積網絡結構Fig.3 Structure of cluster convolutional

(2)
將特征偏移進行歸一化操作,得到取值區間為0~1的人臉圖像質量分數.計算公式如下:
(3)
其中,P(I)代表圖像I的質量分數; σ為sigmoid函數;fi為集群網絡中第i個特征偏移網絡提取的特征向量.負號體現特征偏移與人臉質量的負相關關系.
最終提取的特征向量中,不同特征對完成識別任務的貢獻率不同.舉例說明,臉型、瞳距等特征比皮膚紋理對于身份識別有更大貢獻.因此應篩選對識別任務影響更大的關鍵特征,通過影響這些關鍵特征,可提升采樣質量評估效率.
本文使用遺傳算法對特征偏移網絡進行篩選.選取偏移量盡可能大的子網,使質量評估更為高效.每個特征偏移子網,均由一個獨特的特征偏移模板生成,子網與模板是一一對應的(圖3),因此對特征偏移模板的篩選,即為對特征偏移網絡的篩選,我們使用特征偏移模板作為染色體編碼對象.每個模板都是由一系列0和1的布爾值變量組成的m*n矩陣(m為倒數第二層維度,n為最后一層維度),可將其展開為m*n維向量,作為遺傳算法的染色體單元,如圖4.初代染色體為滿足二項分布的隨機值,二項分布的概率取值為0.5,通過遺傳算法篩選迭代,最終得到目標個體.

圖4 遺傳算法染色體編碼Fig.4 Genetic algorithm chromosome coding
從VGGFace2數據集中隨機選取100張人臉形成迷你子集,用于遺傳算法篩選特征.為篩選關鍵特征的優化目標為:
(4)
式中Fx(Ii)為特征偏移網絡輸出的特征;F(Ii)為無偏移特征,優化目標為找到特征偏移量最大的Fx函數,即特征偏移網絡,這里為全面體現正負偏移量,求差后取2范數.
適應度函數設計為
(5)
分子為待計算個體(網絡)形成的特征偏移量,求和號的100代表迷你集的100個人臉樣本.分母為當前代次表現最好的網絡,即特征偏移最大的網絡的偏移量,因此取max.x取值范圍0~100,代表當前代次100個個體(網絡),每個個體(這里指特征偏移網絡)的適應度,就是它的特征偏移量與當前代次最大特征偏移量的比值,取值范圍是0%~100%,以此作為個體(特征偏移網絡)的生存適應度.然后按照適應度執行遺傳算法,淘汰不良個體.
本文選取了幾種常見圖像退化方式進行模擬,以研究圖像退化對人臉識別的影響.主要研究對象分為高斯模糊、運動模糊、高斯噪聲、椒鹽噪聲四種單獨類型退化方式和高斯模糊加高斯噪聲、高斯模糊加椒鹽噪聲、運動模糊加高斯噪聲、運動模糊加椒鹽噪聲四種疊加退化方式.每種退化方式分為20個層級,退化程度由輕到重逐步加深.例如將高斯模糊的高斯核尺寸逐級加大,逐級提高高斯噪聲的噪聲添加比例,具體設置將在第4.4節介紹.將上述8種退化方式各20個層級分別應用于LFW數據處理,生成160個模擬圖像退化的實驗數據集.
本節介紹了實驗設置和結果,在主流數據集上,與最新的方法進行了對比實驗,對結果進行了定性和定量分析,并補充了對算法一致性的說明.
LFW數據集主要測試人臉識別的準確率,該數據庫從中隨機選擇了6000對人臉組成了人臉辨識圖片對,其中3000對屬于同一個人2張人臉照片,3000對屬于不同的人每人1張人臉照片.測試過程LFW給出一對照片,詢問測試中的系統兩張照片是不是同一個人,系統給出“是”或“否”的答案.通過6000對人臉測試結果的系統答案與真實答案的比值可以得到人臉識別準確率. 這個集合被廣泛應用于評價 face verification算法的性能.
VGGFace2[16]是一個大規模人臉識別數據集,該數據集是從谷歌中下載的,包含不同姿態、年齡、光照和背景的人臉圖片,其中約有59.7%的男性.除了身份信息之外,數據集還包括人臉框,5個關鍵點、以及估計的年齡和姿態.共包含331萬圖片,9131個ID,平均每個ID圖片個數為362.6.這個數據集有以下幾個特點:(1) 人物ID數量大,且每個ID包含的圖片個數也較多; (2) 覆蓋大范圍的姿態、年齡和種族; (3) 噪聲數據少.實驗圖像均使用Retinaface[17]進行預處理.
為研究不同圖像損失類型對人臉識別的影響,我們使用高斯模糊、運動模糊、高斯噪聲、椒鹽噪聲4種常見圖像損失方式和“高斯模糊加高斯噪聲”、“運動模糊加高斯噪聲”、“高斯模糊加椒鹽噪聲”、“運動模糊加椒鹽噪聲”4種交叉損失方式,每種方式從弱到強分為20個層級,對LFW數據集進行模擬退化處理,作為數據擴充輔助研究.因為每種圖像退化方式對圖像質量的影響曲線不同,為使曲線上各點分布均勻,退化參數為手動設置并經過反復測試調整,具體數值如下:
高斯模糊: 高斯核尺寸第一級設置為3*3,之后邊長逐級加4.
運動模糊: 運動方向為隨機方向,模糊卷積核為正方形,尺寸設置為[2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32].
高斯噪聲: 高斯噪聲是符合高斯分布的加性噪聲,為不影響圖像整體亮度,噪聲均值設置為0,方差為未做歸一化處理的像素值方差,取值區間為[0~2552],本實驗第一級設置為3,之后每級加3.
椒鹽噪聲: 噪聲添加比例為[0.0005, 0.0010, 0.0020, 0.0040, 0.0080, 0.012, 0.016, 0.020, 0.028, 0.036, 0.044, 0.052, 0.060, 0.068, 0.078, 0.088, 0.098, 0.108, 0.118, 0.128].
模型使用無監督算法,不需要進行單獨訓練,構成集群卷積網絡的每個單元網絡只需加載預訓練的模型參數,并使用特征偏移模板對網絡進行參數重構.對于集群網絡中的單元網絡個數N,根據我們的經驗取N=10可以較好平衡精度和性能.具有類似網絡結構的方法[5]推薦子網個數為100,相比之下,本文通過遺傳算法篩選特征后N取10即可較好地平衡精度和性能,進一步精簡了網絡結構.
在特征篩選部分,遺傳算法篩選出10個個體,即10個特征偏移網絡,最終形成目標集群網絡.這些個體使用布爾值,按照p=50%的篩選率隨機初始化100個個體,持續300個代次,交叉組合率80%,變異率2%,代次篩選率10%.
為了橫向比較本文方法,實驗引入來自計算機視覺社區的三個基線方法:Brisque[18],Niqe[19]Piqe[20],均為無參考圖像質量評價.另外引入兩個學術界最新的人臉質量評價方法FaceQnet[7],Best-Rowden[21,22],均采用預訓練模型參與實驗.
本文選取了幾種常見圖像退化方式進行模擬,以研究圖像退化對人臉識別的影響.主要研究對象分為高斯模糊、運動模糊、高斯噪聲、椒鹽噪聲四種單獨類型退化方式和高斯模糊加高斯噪聲、高斯模糊加椒鹽噪聲、運動模糊加高斯噪聲、運動模糊加椒鹽噪聲四種疊加退化方式.每種退化方式分為20個層級,退化程度由輕到重逐步加深.例如將高斯模糊的高斯核尺寸逐級加大,逐級提高高斯噪聲的噪聲添加比例,具體設置將在第4.4節介紹.將上述8種退化方式各20個層級分別應用于LFW數據處理,生成160個模擬圖像退化的實驗數據集.
為了評估算法性能,我們遵循[23]的方法,使用錯誤率與拒絕曲線.曲線橫軸為拒絕掉低質量人臉圖像的比率,縱軸為剩余人臉圖像的錯誤識別率.理想的情況是,當拒絕一部分質量最低的人臉圖像后,人臉識別系統在剩余圖像上的錯誤識別率應降低,并且隨著拒絕率的不斷提升,剩余圖像的錯誤識別率不斷降低.具體的,我們使用FNMR錯誤非匹配率,EER等錯誤率兩項指標評價算法性能,因為這些錯誤率在國際標準中被指定用于生物特征驗證評估[24].
在研究圖像退化對人臉識別影響的問題上,我們使用等質量分數識別率曲線和識別率直方圖進行分析.對經過圖像退化處理的數據集,使用本文中的人臉圖像質量算法逐張人臉圖像計算質量分數,并求得數據集平均得分,同時使用resnet18預訓練模型加arcface損失函數,測試每個數據集的驗證精確率.
為直觀展示算法有效性,我們在LFW和VGGFace2兩個當前主流人臉圖像數據集上進行了質量分數預測.繪制總體分數分布圖(圖5),并列出最壞和最好的人臉(圖6).在兩個數據集上都可以觀察到,得分最高的人臉幾乎都具有“無遮擋,光照均勻,五官清晰,姿態端正”等共同特征;得分最低的人臉均具有“佩戴物遮擋,頭發、手部遮擋,表情夸張,姿態不端”其中一個或多個影響身份識別的問題.

圖5 LFW數據集質量分數分布(a); VGGFace2數據集質量分數分布(b)

圖6 LFW數據集得分最高的20張(a)、最低的20張(b)人臉;

圖7 LFW數據集錯誤率與拒絕曲線(a,b);VGGFace2數據集錯誤率與拒絕曲線(c,d)
LFW數據集分數分布普遍高于VGGAFace2數據集,且分布范圍更廣,這是合乎預期的,因為VGGFace2數據包含更多無約束照片,人物呈現大量年齡、表情、姿態、光照變化,且背景更加復雜,對身份識別具有更大挑戰.
對三個基線方法和兩個學術界最新方法進行了定量實驗,為公平比較算法性能,采用4.4節介紹的錯誤率拒絕曲線,如圖7.使用所有參與實驗的方法,對數據集全部人臉預測質量得分,然后按照一定比率拒絕得分最低的部分人臉,計算剩余人臉的識別錯誤率,逐漸提高拒絕率,重復此過程,最終繪制完整曲線.

圖8 4種圖像退化-質量分數曲線
可以觀察到,本文方法在兩個數據集上均表現出了較好性能.通過拒絕低質量人臉圖像,實現了識別精度的提升,錯誤率進一步下降,FNMR、EER兩個指標均證明了算法有效性.且隨著拒絕率逐步提升,錯誤率可以穩步下降,體現了算法具有良好穩定性.絕大多數情況下,本文方法的曲線位于對比方法的曲線下方.
為進一步驗證算法穩定性,我們通過手工圖像退化進行補充驗證,如圖8.使用高斯模糊,運動模糊,椒鹽噪聲三種常見圖像退化方式,對人臉圖像進行手工退化操作,并使用我們的方法計算人臉圖像質量.可以觀察到,隨著退化程度加深,同幅圖像四種退化方式的分數均表現出連續下降,同樣證明了圖像質量分數與可識別率之間的高度相關性.
從識別率質量分數曲線(如圖9)觀察到,隨著圖像退化程度逐漸加深,數據集平均質量分數下降,且在平均質量分數相同情況下,不同圖像退化類型的識別率體現出差異性,具體地,在單一退化方式中,對識別率影響程度由小到大依次為:高斯噪聲,高斯模糊,運動模糊,椒鹽噪聲.注意到橙綠兩條曲線在后半段出現交替,但考慮到此時圖像質量已經嚴重破壞,沒有考察價值,并不影響上述結論.在椒鹽噪聲最后幾個退化級別上出現了質量分數異常(綠色曲線),具體表現為:隨著圖像退化級別加深,質量分數不再降低,反而有小幅提高.這可

圖9 驗證率-質量分數曲線Fig.9 Verification rate-quality score curve
能是因為椒鹽噪聲具有較大隨機性,本文算法正是利用隨機特征偏移工作的.當隨機噪聲增大到一定成程度時,算法誤把部分噪聲當作有效信息處理,造成了算法波動.雖不影響總體結論,但有待進一步研究改進.
圖9中,每條曲線代表一種圖像退化方式,包含20個退化級別的驗證率-平均質量分數構成的20個數據點.可以觀察到不同退化方式對圖像質量的影響是不同的.
質量分數直方圖如圖10所示,橫坐標為20個圖像退化級別,1級退化程度最輕,20級退化程度最重.從圖10可知,“模糊+噪聲”兩種退化類型疊加的方式比單一模糊或單一噪聲的退化類型對識別率影響更大.在2種模糊類型和2種噪聲類型形成的4個交叉組合實驗中,均證明了這一規律.雖然4種退化類型對識別率的影響程度不一,但疊加方式強于單一方式的規律始終沒變,這在圖像退化程度較淺的前幾個層級數據中尤其明顯.這是因為,此時人臉圖像質量和識別率較高,圖像退化對于人臉身份信息的損失收益大.在退化等級大于10以后,由于圖像質量嚴重受損,驗證率已接近50%的極限,圖像退化對圖像質量的影響已非常有限,上述規律變得不明顯,甚至出現反常,此類現象屬于極端情況,沒有考察價值,不影響整體結論.

圖10 驗證率直方圖
針對低質量人臉圖像阻礙識別系統性能提升的問題,本文提出了一種無參考的人臉圖像質量評價方法.分析闡述了利用特征偏移與圖像信息量的相關性進行質量分數計算的思想.提出了一種集群卷積網絡模型,用于人臉圖像質量分數自動預測.使用遺傳算法對網絡模型進一步優化,在保持同等性能前提下大幅壓縮了模型復雜度.通過在主流人臉數據集上進行的實驗,定性和定量分析證明了算法具有優越性,通過篩選數據庫中低質量得分的人臉圖像,可以進一步提升現有人臉識別系統的性能,且識別率提升表現出良好穩定性.模擬了幾類常見圖像退化方式,對原始人臉數據庫進行數據擴充,并使用本文提出的質量評價算法為工具進行實驗,研究評估了不同類型圖像損失對人臉識別的影響,為指導今后人臉質量相關研究得出了有益結論.