穆大強,李 騰
(安徽大學電氣工程與自動化學院,安徽 合肥 230601)
近年來,人臉識別系統被廣泛應用在各種場合,例如上班打卡考勤、小區門禁等。然而,在傳統的人臉識別系統中存在著較大的安全隱患。主要是因為其不能識別攝像頭獲取到的人臉區域圖像究竟是來自真實的人臉還是攻擊類型的人臉(如人臉照片攻擊、人臉視頻攻擊、人臉合成攻擊等)。因此如何阻止這種惡意身份欺騙是人臉識別過程中一項關鍵的技術。
為了解決上述人臉欺騙的問題,人臉反欺騙技術應運而生。與傳統的人臉識別系統相比,加入人臉反欺騙的系統更具安全性。回顧現有的人臉反欺騙手段可分為3類:①基于手工特征的人臉反欺騙方法,該方法是人臉反欺騙早期常用的手段。其主要使用到的手工特征有:HOG[1-2],LBP[3-5],DoG[6-7],SIFT[8]和SURF[9]等,再利用支持向量機(support vector machine,SVM)進行分類[10-11]。②基于卷積神經網絡(convolutional neural network,CNN)的人臉反欺騙方法,該方法中CNN被用作特征提取器[11],再使用SVM進行分類。③基于深度信息的人臉反欺騙方法,其主要通過提取人臉的深度信息[12-13]來進行分類。
上述方法中多為使用單一面部特征進行決策,因此獲得的模型魯棒性有待提高。為了盡可能提升人臉反欺騙模型的魯棒性,本文提出融合多種模態人臉活性特征的方法。即通過融合不同顏色空間(HSV與YCbCr)與時序上人臉活性特征來提升模型的魯棒性。為了驗證多模態融合方法的有效性,本文利用REPLAY_ATTACK和CASIA-FASD 2個基準數據集來測試模型的性能。與先前的工作相比較,該方法具有以下創新與貢獻:
(1) 設計了一種新穎的多輸入CNN結構,融合多種模態上的人臉特征,以提升人臉反欺騙模型的魯棒性。
(2) 從基于人臉圖像的多色彩空間以及用于面部反欺騙的時序信息中自動學習最佳特征表示。
(3) 在2個基準數據集上實現了最先進的性能。
從提取不同模態上人臉特征為出發點,展開了多模態融合的人臉反欺騙方法的探索,通過提取多種模態上人臉特征并融合以提升人臉反欺騙的魯棒性。包括:不同顏色空間(YCbCr與HSV)上完整人臉與局部人臉patch制作、時序圖制作、不同模態上特征提取與融合和多級水平特征聯合的決策網絡構建。最后,通過大量實驗證明該方法的有效性。
在HSV與YCbCr顏色空間上制作了2種不同的人臉圖像:完整的人臉圖像和局部人臉patch圖像。使用局部人臉的patch圖像的原因如下:
(1) 為了增加CNN學習訓練樣本的數量和解決訓練過程中可能出現的過擬合現象,對于所有可用的人臉反欺騙數據集,僅有限數量的樣本可用于訓練。例如,CASIA-FASD僅采集20個人的真假面孔,每個人有12個短視頻。即使可以從每個視頻中提取數百張面孔,由于跨幀的高度相似性,在CNN學習時,模型容易出現過擬合現象。
(2) 當使用全臉圖像作為輸入時,傳統的CNN由于臉部圖像分辨率的變化而需要調整臉部的大小,由于縮放比例的變化可導致判別信息的減少。相反,使用局部人臉patch圖像可以保持面部圖像的原始分辨率,從而保留判別能力。
(3) 假設欺騙特有的區分性信息在空間上存在于整個面部區域中,則patch級別的輸入可以強制CNN發現此類信息,從而更有效地學習到人臉中有鑒別力特征。
對于完整人臉圖像的獲取。
(1) 利用人臉檢測器MTCNN[14]獲取到視頻中RGB顏色空間上的人臉圖像,同時,可以得到5個人臉關鍵點,利用這5個關鍵點對人臉進一步地校正,以降低人臉姿態的影響。可利用仿射變換將檢測到的人眼關鍵點旋轉至同一水平位置,使得2個眼睛中心點到兩嘴角中心點的距離是24個像素,且2個眼中心點的Y軸坐標是24像素,將人臉區域大小縮放至128×128。校正前后的人臉區域圖像對比如圖1所示。

圖1 校正前后人臉對比Fig. 1 Face comparison before and after alignment
(2) 通過調用opencv工具將RGB顏色空間轉換到HSV與YCbCr顏色空間上。
對于局部人臉的patch圖像獲取,一種簡單而有效的方式為將得到的完整人臉圖像進行隨機的裁剪,得到2組數量為10,大小分別為72×72和56×56的人臉patch圖像,如圖2所示。

圖2 不同顏色空間上的完整人臉圖像與patch圖像Fig. 2 Complete face image and patch image in different color spaces
1.1.2 時序圖數據制作
利用視頻序列中圖像幀間時間信息的策略。首先將3幅不同時間位置的彩色圖像轉換成3幅灰度圖像,然后將灰度圖像作為一個整體疊加得到時序圖,并將時序圖輸入到CNN中學習人臉特征。圖3為3幅灰度圖像疊加的示例(也可采用多幅圖片進行疊加,此處以3幅圖片為代表說明該方法)。

圖3 時序圖制作過程Fig. 3 Temporal images production process
網絡設計分為融合網絡和決策網絡2部分,融合網絡用于提取各模態上的特征,并進行融合得到深度特征。最后將深度特征輸入到決策網絡中進行最終的預判。
1.2.1 融合網絡設計
融合網絡的設計是根據特征圖可視化的效果所設計,其包含5個卷積層,一個最大池化層,而且每個卷積層后均跟著BatchNorm層與Relu層。圖4描述了融合過程。

圖4 多模態特征融合過程Fig. 4 Multi-modal feature fusion process
為了展示融合網絡的細節,表1介紹了融合網絡的參數設置。
由表1可知,第4層卷積核的大小為1×1,之所以使用1×1的卷積核,主要考慮以下3個作用:
(1) 將特征圖的數量進一步地擴展到144。
(2) 使用1×1的卷積層替換到全連接層,可不限制輸入圖片大小的尺寸,使網絡更靈活。
(3) 實現跨通道的交互和信息整合,提高網絡的表達能力。

表1 融合網絡細節展示Table 1 Fusion network details display
其他4個卷積層使用3×3卷積核。這是由于較小的濾波器會揭示輸入圖像的更多詳細信息,因此使用3×3代替較大的卷積核。在前2層中,使用了內核大小為3×3的64個過濾器,這是最低的。對于第3層,過濾器的數量增加了一倍,達到128個。此外,ReLU封裝在每個級別,以加快網絡訓練速度,且提高了其性能以實現更快的收斂。
1.2.2 決策網絡設計
決策網絡的設計用于對輸入深度特征圖做出最終的判斷。其借鑒了inception結構的思想,包含了3種不同水平的特征,即高水平、中水平和低水平特征,通過聯合3種不同水平的特征進行決策。之所以要融合不同水平的特征,是因為人臉反欺騙是一種特殊的細粒度圖像識別任務,網絡應該更多地關注圖像的細節。3個級別的特征融合可以提供更詳細的特征,從而提高模型性能。具體網絡結構設計見表2。

表2 決策網絡細節展示Table 2 Decision network details
在表2中,將Lobal Average Pooling 1之后Conv-3之前的特征稱為低水平特征,將Lobal Average Pooling 2之后Conv-5之前的特征稱為中水平特征,將Lobal Average Pooling 3之后FC之前的特征稱為高水平特征,聯合這3種不同水平的特征經過全連接FC得到一個二維的特征向量,最后經過Softmax函數得到分類概率。圖5展示了利用決策網絡進行分類的過程。

圖5 融合不同水平特征的決策網絡Fig. 5 Decision network combining different levels of features
在整個決策網絡的設計中,對原有的殘差網絡進行了改進。殘差結構是被HE等[15]提出用來解決深度網絡在訓練時出現梯度爆炸、梯度彌散等問題。殘差網絡對模型的準確有了大幅度的提高,其殘差模塊設計如圖6所示,主要利用恒等映射連接來解決深度網絡中出現的梯度消失的問題。

圖6 殘差網絡改進對比Fig. 6 Comparison of residual network improvement
為保證評估的公平性與客觀性,本文使用人臉反欺騙方法中最常用的2個評價指標(ERR與HTER)進行評測,在2個基準數據集上(REPLAY_ATTACK與CASIA-FASD)對所提出的模型進行了驗證。
REPLAY_ATTAC數據集:其包含50個采集對象,共有1 300個活體與假體視頻。對于數據集中的每個采集對象,均在2種光照條件下錄視頻。每個對象在2種環境下收集了4個活體視頻序列。假體序列則是在固定支持攻擊(攻擊設備設置在固定支架上)和手持條件(攻擊設備由操作員持有)下捕獲的。攻擊類型分為打印攻擊、移動攻擊和高清晰度攻擊3種,所有視頻集被劃分為訓練集(15個采集對象),開發集(15個采集對象)和測試集(20個采集對象)。
CASIA-FASD數據集:包含600個視頻,共50個采集對象,每個采集對象采集了12個視頻(3個真實視頻和9個欺騙視頻)。每個主題包含3種不同的欺騙攻擊:視頻攻擊、扭曲照片攻擊和剪切照片攻擊。該數據集中訓練集包括20個采集對象和測試集包括30個采集對象。
以下介紹2個評價指標的具體定義:
ERR:是分類錯誤的樣本數占樣本總數的比例。對樣例集D,分類錯誤率為

其中,統計分類器預測出的結果與真實結果不相同的個數,然后除以總的樣例集D的個數。
HTER:是衡量人臉活體檢測性能的重要指標,其計算式為

其中,FRR為錯誤拒絕率,是把真實面孔分類為假面孔;FAR為錯誤接受率,是把假面孔分類為真實面孔。
實驗軟硬件環境、損失函數及模型訓練設置如下:
軟硬件設置:Mxnet框架;CPU為E5-2620 V3;內存64 G;GPU為GTX TITAN X (12 G)。
損失函數:損失函數采用的是softmax loss,其表達式為

其中,Wj為網絡最后一個全連接層的權重W的第j列;b為偏置項。
模型訓練設置:在訓練網絡時,使用隨機梯度下降的方式(stochastic gradient descent,SGD)去更新網絡中每層的權重。在本次訓練中,由于數據量較大,所以在設置初始學習率時選擇為0.1,并且每20個epoch降低50%的學習率。經過6次學習率降低后,網絡達到最優化。
對于不同的顏色空間上提取的人臉活性特征,在人臉反欺騙模型的性能上有著較為顯著的差異。RGB是用于傳感,表示和顯示彩色圖像的最常用的色彩空間。但是,由于3種顏色成分(紅色、綠色和藍色)之間的高度相關性以及亮度和色度信息的不完美分離,其在圖像分析中的應用受到了很大的限制。還需考慮除RGB外的另外HSV和YCbCr 2個顏色空間上人臉活性信息。
首先在CASIA-FASD數據集上進行實驗,將該數據集中的訓練集作為訓練樣本,并在測試集進行性能測試,統計測試集錯誤率。表3記錄了3種顏色空間上進行人臉反欺騙的實驗結果。從表3中可看出,當實驗使用單一的顏色空間特征進行人臉反欺騙時,HSV與YCbCr顏色空間的模型性能要優于RGB顏色空間。最后實驗進一步地融合HSV與YCbCr顏色空間特征以提升模型的性能,結果顯示融合后的特征更具有鑒別力。

表3 不同顏色空間上人臉活體檢測錯誤率對比(%)Table 3 Comparison of error rate of face liveness detection in different color spaces (%)
此外其他顏色空間也被用來進行人臉活體檢測,并嘗試融合更多顏色空間進行人臉反欺騙,實驗結果見表4。由表4可知,在Lab顏色空間上提取人臉特征進行人臉反欺騙時,其錯誤率為5.47%;當融合RGB,HSV和YCbCr 3種顏色空間時,錯誤率雖有下降,但模型速度下降明顯,若在不考慮檢測速度的前提下,可通過融合更多顏色空間上的特征來提升模型的精度。

表4 其他顏色空間與多顏色空間融合對比試驗Table 4 Contrast test of fusion between other color spaces and multi-color spaces
表5為在數據集CASIA-FASD上執行融合時序特征的實驗結果。為融合時序特征時,模型的錯誤率從1.79%降低到1.76%,表明模型的性能得到了進一步提升。其次,時序特征也可單獨用于人臉反欺騙,其錯誤率為5.23%,遠超YCbCr和HSV顏色空間上的實驗錯誤率。導致此結果的原因:可能是由于數據集中前后幀間的相似性較高,所以堆疊過后的時序圖沒有包含豐富的動態特征,以至于實驗結果顯得差強人意。但是,通過比較表3,時序特征要比在RGB顏色空間上的特征更具有鑒別力,因此,本文決定融合時序特征以進一步優化模型的性能。

表5 時序特征實驗(%)Table 5 Time series characteristic experiment (%)
在決策網絡中融合了高、中、低3種水平特征進行預判,主要是由于人臉反欺騙是一種特殊的細粒度圖像識別任務,所以網絡應較多地注重圖像的細節。聯合3個級別的特征可以提供更詳細的人臉信息,從而提高模型性能。為了證明這一點,本文進行了不同水平特征融合實驗(表6)。由表6可知,在聯合3種水平特征后模型性能達到最優化。

表6 不同水平特征融合對比實驗(%)Table 6 Contrast test of feature fusion at different levels (%)
REPLAY_ATTACK也是一個具有挑戰性的人臉反欺騙數據庫,該方法同樣在其上進行性能測試。除了測試錯誤率之外,另外一個重要評判指標HTER也被測試記錄。
表7為近年來具有代表性的人臉反欺騙方法及其錯誤率。表8展示了各個方法的半錯誤率,與之相比,本文所提出的多模融合的方法取得了非常具有競爭力的結果。

表7 在錯誤率上的對比(%)Table 7 Comparison of error rates (%)

表8 半錯誤率對比(%)Table 8 Comparison of half error rate (%)
為了深入了解多模融合人臉反欺騙方法的泛化能力,本文進行了跨數據庫的評估。在此實驗中,利用一個數據庫對網絡進行訓練,然后在另一個數據庫上進行了測試。實驗結果見表9。

表9 跨數據庫實驗結果及方法對比(%)Table 9 Cross-database experiment results and method comparison (%)
在REPLAY_ATTACK數據集上優化的模型略微優于基于CASIA-FASD數據集上優化的模型。其原因可能是,與REPLAY_ATTACK數據庫相比,CASIA-FASD數據集在收集的數據中包含更多的變化(如,成像質量和相機與人臉之間的接近度)。因此,針對重放攻擊數據庫優化的模型在新的環境條件下表現略顯遜色。不過可以通過聯合2個數據庫的訓練集進行訓練網絡,以使模型擁有更好的泛化能力。
本文提出了一種基于多輸入CNN的新型人臉反欺騙技術。CNN被用于從時序圖和2個顏色空間中學習區分性的多個深度特征,以防止面部欺騙。由于這些類型的特征彼此互補,因此進一步提出了一種將所有模態特征融合在一起以提高性能的策略。在2個最具挑戰性的面部反欺騙基準數據庫中評估了該方法,實驗結果證明,該方法優于先前的面部防欺騙技術。另外,由2個數據庫間評估表明,本文所提出的方法具有良好的泛化能力。