












摘要:針對現存的跨場景人臉活體檢測模型泛化性能差、類間重疊等問題,提出了一種基于條件對抗域泛化的人臉活體檢測方法。首先,該方法使用嵌入注意力機制的U-Net和ResNet-18編碼器提取多個源域的特征,然后將提取的特征送入輔助分類器,并將特征編碼器的輸出和分類器預測的結果通過多線性映射的方法進行融合,再輸入到域判別器中進行對抗訓練,以實現特征和類層面對齊多個源域。其次,為了減少預測不準確的難遷移樣本對域泛化造成的影響,采用了熵函數來控制樣本的優先級,以提高域泛化的性能。此外,通過添加人臉深度圖以進一步抓取活體與假體的區別特征,通過非對稱三元組損失約束作為輔助監督,進一步提高類內緊湊性和類間區分性。在公開活體檢測數據集上的對比實驗驗證了所提方法的有效性。
關鍵詞:人臉活體檢測;域泛化;多線性映射;熵函數
中圖分類號:TP391.41文獻標志碼:A
文章編號:1001-3695(2022)08-052-2538-07
doi:10.19734/j.issn.1001-3695.2021.12.0685
Face anti-spoofing method based on conditional adversarial domain generalization
Cai Tijian,Chen Fuchun,Liu Wenxin
(School of Information Engineering,East China Jiaotong University,Nanchang 330013,China)
Abstract:Aiming at the problems of poor generalization performance and overlapping between classes of existing cross scene face anti-spoofing detection models,this paper proposed a face anti-spoofing method based on conditional adversarial domain generalization.Firstly,the method used U-Net embedded with attention mechanism and ResNet-18 encoder to extract features from multiple source domains,then sent the extracted features to auxiliary classifier,and combined the output of the feature encoder with the prediction results of the classifier by the method of multilinear mapping,and then input into the domain discriminator for adversarial training to achieve feature and class-level alignment of multiple source domains.Secondly,in order to reduce the impact of difficult to transfer samples with inaccurate prediction on domain generalization,this paper used entropy function to control the priority of samples to improve the performance of domain generalization.In addition,by adding a face depth map to further capture the distinguishing features of the real and attack face,and using asymmetric triplet loss constraint as auxiliary supervision to further improve the intra-class compactness and inter-class discrimination.Comparative experiments on public live detection datasets verify the effectiveness of the proposed method.
Key words:face anti-spoofing;domain generalization;multi-linear mapping;entropy function
0引言
人臉識別技術被廣泛應用于生物識別領域,例如訪問控制、智能手機解鎖、刷臉支付等。然而,人臉呈現攻擊[1,2](如打印攻擊、視頻重放攻擊和3D面具攻擊等)對人臉識別系統的安全性構成了極大的威脅。為了解決這個問題,大量的人臉活體檢測方法被提出,可大致將其分為基于傳統機器學習的方法和基于深度學習的方法。
基于機器學習的方法更加注重紋理特征的設計和圖像、視頻中內在屬性的利用,采用多特征融合和其他生物特征作為輔助信息,提高了算法的穩定性和魯棒性。隨著深度學習的發展,采用神經網絡提取的特征相比于傳統機器學習判別性更強。Yu等人[3]提出的中心差分卷積網絡能夠很好地提取偽圖像的特征,且不易受光照影響;吳啟群等人[4]將人臉在不同顏色空間分量上的梯度特征進行加權融合,引入BSIF紋理特征與CNN的卷積特征來提高活體檢測的魯棒性;Wang等人[5]提出了一種新的深度監督體系結構,使用殘差空間梯度模塊捕獲區分性細節,并通過時空傳播模塊對單目幀序列中的時空信息進行編碼。雖然上述方法在單一的數據庫上進行訓練和測試時的準確率很高,但是在跨數據庫測試時的結果并不是很好,如圖1所示,跨數據集測試的可視化效果明顯較差,主要是由于圖像紋理特征、顏色差異以及攻擊類型的多樣性等導致了訓練集和測試集數據分布不同。隨著域自適應、域泛化方法的提出,受生成對抗網絡(generative adversarial networks,GAN)[6]啟發,對抗域自適應、對抗域泛化被廣泛用于人臉圖像的檢測與識別任務中。文獻[7]將條件對抗域自適應方法用于人臉表情遷移學習,并通過嵌入注意力機制的模型來改進深度學習網絡對人臉表情圖像的特征提取;文獻[8]采用了一種多對抗的深度域泛化人臉活體檢測算法,將學習被多個源域共享的特征空間和雙重的三元組損失約束相結合,提高了特征空間的可判別性;文獻[9]提出了一種單邊對抗域泛化人臉反欺詐算法,使得域共享空間中的真實人臉分布緊湊,而欺詐人臉域間分散,域內緊湊;李策等人[10]提出了一種基于超復數小波生成對抗網絡的人臉活體檢測算法,運用生成對抗網絡來調整訓練數據和測試數據之間的特征分布,使得源數據的訓練模型可以適應目標域數據;Wang等人[11]針對跨域人臉呈現攻擊檢測提出了一種特征解耦方法,通過特征解耦模塊得到PAD相關特征,利用來自不同域中解耦得到的特征進一步學習和解耦,得到與域無關的特征;此外,為了解決域信息不可知的混合數據問題,Chen等人[12]提出了一種混合域活體檢測方法,該方法無須域標簽,通過高鑒別域特征實現子域劃分,并通過元學習進行模型優化。這些方法有效地提高了跨數據庫測試的泛化性能,但僅僅是在特征上對齊了多個源域的數據分布,而忽略了類別層面的對齊,使得數據分布匹配不夠充分。
不同于上述方法,本文提出的條件對抗域泛化方法借助分類預測中具有的類別判別信息作為條件變量來輔助進行對抗域泛化,通過這種條件機制,可以在特征和類層面同時對齊多個源域的分布,相比于現存的域泛化人臉活體檢測方法在數據分布上匹配得更好;通過對抗訓練的方式,可以弱化特征提取器對域特定特征的提取,從而減小跨域測試時數據分布的差異。在OULU、CASIA、MSU、replay-attack和NUAA等公開數據集上的實驗驗證了本文方法在提高模型的泛化性能上優于已有的方法。
1本文方法
本文提出方法的模型如圖2所示,整個框架分為特征提取模塊、域對抗訓練模塊以及輔助監督模塊和分類模塊。其中,特征提取模塊的輸入是多個源域的人臉圖像,經過Attention-UNet和ResNet-18[13]進行編碼,并將ResNet-18的輸出與分類器輸出結合起來一起輸入域鑒別器。對抗訓練的實質是一個博弈過程,對于特征提取器,希望能混淆域鑒別器,使其判別不出樣本所屬的域,從而使網絡參數朝著混淆域判別器的方向優化,驅使網絡提取更多與域無關的特征,減少源域之間的分布不匹配;相反,域判別器希望可以判別出樣本來源的域。本文添加了類別信息作為條件來約束對抗訓練,可以使源域中的樣本根據類別進行分布對齊,實現多個源域的數據分布在特征和類層面的充分匹配。為了減少分類預測不準確的難遷移樣本在域對抗訓練階段的不利影響,本文采用了熵來區分樣本優先級,控制域鑒別器被混淆的程度。輔助監督模塊包括非對稱三元組損失約束以及深度損失約束,其作用是提高類內的緊湊性和類間的區分性以及提取更多可判別的特征。分類模塊的作用是對輸入的真假人臉圖像進行二分類,在測試時將目標域人臉圖像輸入模型得到判別結果。
1.1特征提取模塊
首先使用Attention-UNet來提取輸入圖像的特征,然后送入ResNet-18網絡中進行編碼。Attention-UNet是U-Net非常重要的改進版本之一,能夠抑制輸入圖像中的不相關區域,同時突出特定局部區域的顯著特征。本文中使用SE-ResNet-50[14]作為預訓練的模型,并將它的layer0~layer4層作為Attention-UNet的編碼器部分,對輸入的圖像進行下采樣,在Attention-UNet的解碼器部分,在上采樣過程中添加了空間注意力機制來提取更多的域共享特征和有助于分類的人臉區域特征,然后采用雙線性插值法將每次上采樣后的特征圖變換為相同的尺寸,將變化后的特征圖在通道方向上拼接起來作為ResNet-18網絡的輸入。本文只采用了ResNet-18的layer2~layer4層作為特征編碼網絡的結構,其后是一個自適應平均池化層和一個具有512個節點的全連接層。
1.2域對抗訓練模塊
如圖2所示,假設有N個源域,分別定義為X=X1,X2,…,XN,域標簽定義為Y=Y1,Y2,…,YN,每個域都包含兩種類別的樣本,即真實人臉和虛假人臉。如果只對齊多個源域的特征分布不能保證分布的足夠匹配,也不能利用分類預測中包含的類別語義信息來分別對齊真實人臉和虛假人臉的分布。條件生成對抗網絡(CGAN)[15]的最新研究證實通過添加條件來關聯生成器和判別器可以使不同的分布匹配得更好。受CGAN啟發,本文把特征提取器的輸出與分類器輸出結合起來作為域判別器的輸入,通過同時對齊特征和類分布來充分地對齊不同源域的數據分布。條件對抗域泛化網絡的訓練是一個如下所示的極大極小的優化問題:
h=(G(x),g)(1)
minDmaxGLAda(G,D)=-Ex,y~X,Y∑Nn=11[n=y]log2D(h)(2)
其中:x表示輸入的圖像;G表示特征提取器;G(x)表示特征提取器輸出;g表示分類器輸出;h表示G(x)和g的聯合變量;D表示域判別器,D以h作為輸入;Y表示域標簽;LAda表示對抗訓練的損失;1表示指示函數。在優化過程中,G與D將進行迭代式的對抗訓練。G的優化目標是最大化對抗訓練的損失, D的優化目標是最小化對抗訓練的損失。此外,本文在特征提取模塊和域判別器之間添加了梯度反轉層(gradient reversal layer,GRL),在反向傳播時,特征提取部分的參數更新會朝著域鑒別器參數更新的反方向進行,通過這種方式可以同時優化特征提取器和域判別器,減小類似于GAN訓練的復雜度。
1.2.1多線性映射
為了更好地將G(x)和分類預測g結合起來,本文采用多線性映射的方法來連接向量G(x)和g,且T(h)=G(x)g。其中T表示多線性映射圖,分別使用dG(x)和dg代表向量G(x)和g的維度;表示向量外積。多線性映射后的維度為dG(x)×dg,當向量的維度過高時,經過映射后很容易導致網絡參數的爆炸。本文采用文獻[16,17]中提出的隨機策略來解決參數爆炸的問題,并定義:
T⊙(G(x),g)=1d(RG(x)G(x))⊙Rgg(3)
其中:T⊙表示維度為dlt;lt;dG(x)×dg的隨機多線性映射圖;⊙表示元素積;RG(x)∈Euclid Math TwoRApd×dG(x)和Rg∈Euclid Math TwoRApd×dg表示隨機矩陣,在訓練過程中被隨機采樣一次且被固定;d表示被隨機采樣的維度。最終的條件機制如下:
T(h)=T(G(x),g)if dG(x)×dg≤dt
T⊙(G(x),g)otherwise(4)
其中:dt表示特征提取器的輸出維度。
1.2.2熵函數
將分類信息作為條件變量傳遞給域判別器時,在對抗訓練的過程中樣本的負遷移會影響模型泛化性能的提高,本文采用信息熵H(g)=-∑Cc=1gclog gc來衡量分類預測的不確定性,其中,C表示類別總數,gc表示輸入的樣本在分類器中預測為c類的概率,熵感知權重ω(H(g))=1+e-H(g)被用來對樣本進行重新加權,當分類器預測的不確定性越大時,權重ω值越小,從而在對抗訓練時域判別器被混淆程度越小。加入熵調整后,模型對抗訓練的最終優化目標如下:
minDmaxGLAda(G,D)=-Ex,y~X,Yω(H(g))∑Nn=11[n=y]log2D(x)(5)
1.3輔助監督模塊
為了使模型提取到更多可判別的人臉區域特征,本文添加了人臉深度損失以及非對稱的三元組損失。
人臉深度圖作為一種場景不變的監督信息被用來輔助模型的訓練來提取更多的差異線索圖。本文采用人臉對齊網絡PRNet[18]來分別估計多個公開數據集中真實人臉的深度。如圖3,依次是CASIA、OULU、MSU和replay-attack四個數據集的真實人臉和欺詐人臉。由于攻擊人臉是一個平面,所以它的深度圖像素值為0,其估計的深度圖為一張全黑的圖;而真實人臉的嘴巴、鼻子和額頭之間有一定的深度,所以其深度圖像素值不為0。深度信息的損失如下:
LDep(x,Dep)=|Dep(E(x))-I(x)|(6)
其中:Dep是深度估計器;I(x)是由PRNet估計的真值圖;E(x)是圖2中所示的Attention-UNet的輸出。
由于假臉攻擊類型的多樣性,例如打印攻擊、照片攻擊、視頻重放攻擊等,其特征分布差異較真實人臉大,所以很難為它們尋找更加緊湊的特征空間。如圖4,本文設計了一種非對稱的三元組損失約束模型訓練,使用了batch-all[19]的負樣本挖掘策略,使不同域攻擊人臉的分布更加分散,而真實人臉的分布更加緊湊,由此可形成更好的分類邊界。其中,圓形、正方形、三角形代表來自不同域的攻擊樣本,而叉號代表來自不同域的真實人臉,帶黑色邊框標記的樣本表示錨。
假設有N個源域,真實的人臉和攻擊人臉被視做N+1個類別。來自N 源域的攻擊人臉被視做N個不同的類別,而所有的真實人臉被視為同一個類。通過最小化非對稱三元組損失約束,真實人臉和欺詐人臉的分類邊界更加清晰,N+1類的非對稱三元組損失定義如下:
minGLtrip(G)=
∑xaixpixni(‖f(xai)-f(xpi)‖22-‖f(xai)-f(xni)‖22+α)(7)
其中:xai與xpi是相同類,而xai和xni是不同類;α是閾值。
1.4分類模塊
如圖2所示,為了保證特征提取器提取的是本系統需要的區別特征,例如活體與假體的區別特征,而不是其他特征,例如不同個體的人臉區別特征,本文添加了一個有監督的分類器,以特征提取器的輸出作為輸入,分類器由具有512和2個節點的全連接層構成。在網絡訓練時,將分類層權重進行初始化并采用交叉熵損失進行優化,將分類損失定義為LCls。
1.5總體損失
綜上所述,總體的優化目標如下所示。
LDG=λ1LCls+λ2LAda+λ3LDep+λ4Ltrip(8)
其中:λ1~λ4表示超參數;LCls、LAda、LDep、Ltrip分別表示分類損失、對抗訓練損失、人臉深度損失和非對稱三元組損失。本文采用端到端的方式來訓練模型,使其生成更加泛化的域共享特征空間,使模型可以更好地泛化到目標域。
2實驗
2.1數據集和評估
1)數據集本文采用了CASIA-FASD[20]、OULU-NPU[21]、MSU-MFSD[22]和replay-attack[23]、NUAA[24]五個公開的數據集。
CASIA-FASD數據集包含兩種視頻的短片(avi 格式大約10 s)。真實和欺詐視頻共有50位對象,短片采用低、正常、高三種分辨率設備采集,包含七種不同的攻擊場景和三種不同的攻擊類型,偽造方式為平面照片、眼部被切割的打印照片和視頻回放。
OULU-NPU數據集采集設備包含六種手機機型,采集環境包含三種光照環境和背景。偽造人臉方式為打印照片和視頻回放。
MSU-MFSD數據集共有55個實驗對象的440個視頻(平均12 s)。通過MacBook Air 13自帶攝像頭和Google Nexus 5手機攝像頭采集,攻擊方法有打印照片攻擊、平板電腦回放攻擊、移動手機回放攻擊三種。
replay-attack數據集包含1 300個剪輯視頻,視頻內容包含了50個人在不同光照場景中的人臉。包含打印照片和視頻回放兩種攻擊類型,視頻回放的設備又包括低分辨率移動設備和1 024 768分辨率的平板電腦。
NUAA數據集中的12 614張圖像是15個活體使用幾種不同的廉價攝像頭在三個不同地點、不同光線下拍攝的,圖像大小都是640×480。其中真實人臉樣本數為5 105(訓練集1 743,測試集3 362),其余7 509個樣本(訓練集1 748,測試集5 761)是使用打印照片的方式進行攻擊的。
2)評估實驗的評價指標可以用來衡量一個算法的優劣程度,本文采用半錯誤率(half total error rate,HTER)和曲線下的面積(area under curve,AUC)作為評價指標,其計算公式如下:
FAR=FPTN+FP,FRR=FNTP+FN(9)
HTER=FAR+FRR2(10)
其中:FAR表示錯誤接受率;FRR表示錯誤拒絕率;TP、FP、TN和FN分別表示真正例、假正例、真負例和假負例。
2.2實現細節
本文實驗的硬件環境為NVDIA GeForce RTX 2080Ti顯卡,編程語言為Python 3.7,框架為PyTorch。模型的輸入采用人臉檢測和對齊算法MTCNN[25]進行預處理,將所有的RGB人臉圖像裁剪為256×256×3,然后隨機裁剪為128×128×3。在訓練時,從四個公開數據集中隨機選擇三個作為源域(訓練集),剩下的一個為目標域(測試集),并從源域的每個視頻中隨機選擇一幀圖像來訓練模型,Batch大小為60,在測試時從目標域的每個視頻中隨機選擇兩幀圖像進行測試。模型優化器為隨機梯度下降(stochastic gradient descent,SGD),動量參數設置為0.9,權值衰減設為5E-4,初始學習率為0.001,每訓練100輪后變為原來的0.1倍。
2.3對比實驗
為了驗證本文方法的有效性,在OULU、MSU、replay-attack、CASIA、NUAA數據集上進行了跨數據庫測試實驗,數據集依次簡記為O、M、I、C、N,用Oamp;Mamp;ItoC表示使用O、M和I數據集進行訓練,使用C數據集進行測試,實驗結果如表1~3所示。
表1表明,相比于MS LBP[26]、binary CNN[27]、IDA[22]、color texture[28]、LBP-TOP[29]、Auxiliary[30]等算法,本文方法精度最高,錯誤率最低。雖然上述方法在單一數據庫上訓練和測試的精度很高,但是在跨數據庫測試時精度下降,主要原因是這些方法沒有對齊來自不同域的特征分布,沒有提取不同域之間相同的模式,削弱模型對于過擬合到特定域特征的提取,從而減小不同數據庫特征的差異。
本文同MMD-AAE[31]、MADDG[8]、SSDG-M[9]、DR-MDNet[11]、NAS-FAS[32]、DRDG[33]、RFMeta[34]、D2AM[12]、Self-DA[35]、ANRL[36]、FGHV[37]、SDFANet[38]、HWTGAN[10]等域泛化人臉活體檢測算法進行了比較,結果如表2和3所示。表2是在NUAA、MSU、CASIA、replay-attack數據集上的跨域測試結果,表3是在OULU、MSU、CASIA、replay-attack數據集上的結果。從表中可以看出,本文效果超過了MMD-AAE、MADDG、SSDG-M、HWTGAN等對抗域泛化方法以及RFMeta、D2AM、self-DA、ANRL等元學習方法。例如,與表2中的HWTGAN相比,本文HTER平均下降了10%,AUC高出6.9%,雖然HWTGAN將超復數小波的細節子帶圖和卷積網絡結合,學習到了圖像多個方向的細節紋理特征,并采用對抗訓練的方式學習域不變特征,提高了模型的泛化性能,但是,其只在特征層面對齊了多個源域的分布,沒有借助分類預測中的類別語義信息,將源域中的樣本按照類別進行分布對齊,并且忽略了難遷移樣本對域泛化的影響,數據分布匹配不夠充分;雖然ANRL算法考慮到困難樣本對域泛化的不利影響,并采用自適應特征歸一化的方法,對于不同的樣本自適應學習樣本權重來減輕困難樣本對域泛化的影響,但是本文比ANLR算法AUC平均提升了3.6%,HTER下降5.9%,說明本文采用信息熵來衡量分類預測的不確定性,并對樣本進行重新加權來控制域鑒別器被混淆的程度,可以更有效地減輕難遷移樣本對域泛化的影響。雖然SDFANet通過設計多粒度的特征對齊網絡來分別對齊局部和全局區域特征,并取得了不錯的效果,但本文通過在上采樣時將注意力機制嵌入U-Net以提取多尺度的差異線索,添加類別的多模態信息作為條件,在特征和類層面同時對齊了多個源域的分布,提高了跨場景活體檢測模型的泛化能力,在Oamp;Camp;ItoM以及Oamp;Mamp;ItoC任務中的效果優于SDFANet。
2.4消融實驗
本文通過消融實驗來驗證依次去掉Attention-UNet中的注意力機制、域判別器、非對稱三元組損失約束、人臉深度損失約束以及不添加類別信息作為條件和不采用熵函數約束對模型泛化性能的影響,消融實驗的結果如表4、圖5和6所示。
表4是各個組件對模型泛化性能的影響評估,表中*表示去掉,att*、triplet*、ad*、norm*、depth*、mul+entr*分別表示去掉注意力、非對稱三元組損失約束、域鑒別器、特征正則化、人臉深度損失、多線性映射+熵函數約束。圖5是去掉各個組件后以CASIA為目標域測試時的特征空間t-SNE[39]可視化效果,標簽0代表攻擊樣本,1表示真實樣本(見電子版)。圖6是在OULU和replay-attack數據集上測試時的ROC曲線圖,實線是加入所有模塊后的效果。從表4和圖5、6可以看出,當去掉任何一個模塊后,模型的測試精度都會下降,這表明所有模塊都有利于泛化性能的提高。相比于其他模塊,去掉非對稱三元組損失約束和域鑒別器之后對結果的影響更大。例如,當以CASIA和replay-attack作為目標域測試時去掉域判別器,將導致HTER分別上升9.9%和10.3%,去掉非對稱三元組損失約束后,HTER分別上升14.0%和11.5%,說明添加域判別器可以促進網絡抽取更多的泛化特征,通過添加非對稱三元組損失作為輔助監督可以獲得更好的分類邊界;如果不添加類別信息以及熵函數約束來訓練模型,HTER將分別上升6.7%和6.0%,AUC分別下降5.8%和4.4%,原因是本文采用多線性映射的方法將特征提取器提取的特征和分類器的判別信息進行融合作為域鑒別器的輸入來進行對抗訓練,在類層面對齊了多個源域的分布,使得源域的數據分布匹配得更好,同時采用熵來控制樣本優先級進一步減少了難遷移樣本對域對抗訓練的負面影響。此外,受光照、相機分辨率等因素的影響,導致同一數據集和不同數據集中人臉圖像的特征范數差異很大,阻礙了特征學習以及模型泛化性能的提升,因此,本文對特征提取器的輸出進行L2正則化來限制所有的特征共享相同的歐氏范數。從表4可以看出,加入L2正則化后,平均HTER下降5.3%,AUC提升4.3%,說明特征正則化可以提高模型的泛化能力。
2.5限制源域
本文通過限制源域的數量來進一步評估提出方法的泛化性能(例如只有兩個源域參與訓練)。由于MSU和replay-attack數據集之間存在顯著差異,本文選擇這兩個數據集作為源域。剩下的OULU和CASIA分別作為測試時的目標域。從表5可以看出,本文方法比MS_LBP、IDA、CT[28]、LBP-TOP、MADDG、SSDG-M等效果更好,說明將特征與類別信息融合起來作為域判別器的輸入進行對抗訓練的方法可以更好地匹配多個源域的分布;將表1~3與表5的數據對比來看,當采用三個源域來訓練模型時比只用兩個源域訓練的效果更好,主要是因為攻擊樣本的多樣性導致了不同數據集之間分布差異較大,只進行兩個源域的分布匹配提取不到更多的域共享特征;此外,表1中其他幾種活體檢測的對比算法,由于沒有采用對抗域泛化的思想,即使是在多個源域上訓練其泛化能力也不是很理想。
2.6特征可視化
類激活圖(class activation map,CAM)用于可視化深度學習的特征,通過強響應定位圖像的關鍵部分,為深度學習的可解釋性提供方法。CAM以熱力圖的形式展示圖像局部響應的強弱信息,對應更強的位置,具有更好的特征識別能力,本文采用Grad-CAM[40]來提供所提出方法的CAM可視化。如圖7所示,是在Oamp;Mamp;ItoC、Iamp;Camp;MtoO、Oamp;Camp;ItoM三種跨數據庫測試任務下本文方法的Grad-CAM可視化。其中,第1、3、5行分別是CASIA、OULU和MSU數據集中真實的人臉;第2、4、6行分別是這三個數據集中的打印照片以及視頻重放攻擊人臉。結果表明,本文方法更加注重提取面部區域(如眼睛和鼻子、嘴巴)的特征,而不是特定領域的背景、光照等,因此更有可能泛化到未知目標域,對于攻擊人臉,本文方法可以根據攻擊類型關注不同區域,例如裁剪攻擊的眼部區域。
如圖8所示,是以OULU、CASIA和replay-attack作為源域,MSU作為目標域訓練模型時的t-SNE特征可視化圖,依次代表第5~60個epoch的可視化結果。其中,domain1~domain3分別代表OULU、CASIA和replay-attack三個數據集。隨著訓練輪數的增加,模型在非對稱三元組損失的約束下,不同域中正樣本的分布更加緊湊,而攻擊樣本分布更加分散,可以使分類邊界更清晰,同時,對于每種類別的樣本均是域不可分的。
3結束語
本文提出了一種基于條件對抗域泛化的人臉活體檢測方法。該方法將特征提取器的輸出特征和分類預測的結果通過多線性映射的方法結合起來作為條件輸入到域判別器,通過對抗訓練來提取多個源域的共性特征,同時分別對齊源域中正負樣本的分布,使得分布匹配更充分,提高跨數據庫測試時模型的泛化性能。其次,設計了一種非對稱的三元組損失以及人臉深度損失作為額外的輔助監督來進一步提高模型的分類精度。該方法在五個公開數據集上的實驗結果優于當前的一些最新的研究成果。然而,本方法中的非對稱三元組是在一個批數據中挖掘所有有效的三元組,難樣本挖掘受到了批大小的限制,當前比較新的技術是采用跨批存儲器(cross-batch memory,XBM)機制[41],該技術允許在多個批數據中挖掘有效的三元組,有期望進一步提高系統性能。
參考文獻:
[1]Liu Siqi,Yuen P,Zhang Ping,et al.3D mask face anti-spoofing with remote photoplethysmography[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:85-100.
[2]Liu Siqi,Lan Xiangyuan,Yuen P.Remote photoplethysmography correspondence feature for 3D mask face presentation attack detection[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:558-573.
[3]Yu Zitong,Zhao Chenxu,Wang Zezheng,et al.Searching central difference convolutional networks for face anti-spoofing[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:5295-5305.
[4]吳啟群,宋曉寧.聯合多通道特征與最小二乘決策的人臉反欺詐方法[J].計算機應用研究,2020,37(9):2847-2850.(Wu Qiqun,Song Xiaoning.Joint multi-channel features with minimal second-square decision-making face anti-fraud method[J].Application Research of Computers,2020,37(9):2847-2850.)
[5]Wang Zezheng,Yu Zitong,Zhao Chenxu,et al.Deep spatial gradient and temporal depth learning for face anti-spoofing[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:5042-5051.
[6]Goodfellow I J,Pouget-Abadie J,Mirza M,et al.Generative adversarial nets[J]//Proc of the 27th International Conference on Neural Information Processing Systems.New York:ACM Press,2014:2672-2680.
[7]賴陽文.嵌入注意力機制模型的人臉表情條件對抗遷移學習方法[D].廣州:廣東工業大學,2020.(Lai Yangwen.Conditional adversarial domain adaptation with attention mechanism for cross-domain facial expression recognition[D].Guangzhou:Guangdong University of Technology,2020.)
[8]Shao Rui,Lan Xiangyuan,Li Jiawei,et al.Multi-adversarial discriminative deep domain generalization for face presentation attack detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:10023-10031.
[9]Jia Yunpei,Zhang Jie,Shan Shiguang,et al.Single-side domain gene-ralization for face anti-spoofing[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:8484-8493.
[10]李策,李蘭,宣樹星,等.采用超復數小波生成對抗網絡的活體人臉檢測算法[J].西安交通大學學報,2021,55(5):113-122.(Li Ce,Li Lan,Xuan Shuxing,et al.Face Anti-spoofing algorithm using generative adversarial networks with hypercomplex wavelet[J].Journal of Xi’an Jiaotong University,2021,55(5):113-122.)
[11]Wang Guoqing,Han Hu,Shan Shiguang,et al.Cross-domain face presentation attack detection via multi-domain disentangled representation learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:6678-6687.
[12]Chen Zhihong,Yao Taiping,Sheng Kekai,et al.Generalizable representation learning for mixture domain face anti-spoofing[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2021:1132-1139.
[13]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.
[14]Hu Jie,Shen Li,Sun Gang.Squeeze-and-excitation networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:7132-7141.
[15]Mehdi M,Simon O.Conditional generative adversarial nets[EB/OL].(2014).https://arxiv.org/abs/ 14111784.
[16]Rahimi A,Recht B.Random features for large-scale kernel machines[C]//Proc of the 20th International Conference on Neural Information Processing Systems.2007:1177-1184.
[17]Kar P,Karnick H.Random feature maps for dot product kernels[C]//Proc of the 15th International Conference on Artificial Intelligence and Statistics.2012:583-591.
[18]Feng Yao,Wu Fan,Shao Xiaohu,et al.Joint 3D face reconstruction and dense alignment with position map regression network[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:534-551.
[19]Shrivastava A,Gupta A,Girshick R.Training region-based object detectors with online hard example mining[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:761-769.
[20]Zhang Zhiwei,Yan Junjie,Liu Sifei,et al.A face antispoofing database with diverse attacks[C]//Proc of the 5th IAPR International Confe-rence on Biometrics.Piscataway,NJ:IEEE Press,2012:26-31.
[21]Boulkenafet Z,Komulainen J,Li Lei,et al.OULU-NPU:a mobile face presentation attack database with real-world variations[C]//Proc of the 12th IEEE International Conference on Automatic Face amp; Gesture Recognition.Piscataway,NJ:IEEE Press,2017:612-618.
[22]Wen Di,Han Hu,Jain A K.Face spoof detection with image distortion analysis[J].IEEE Trans on Information Forensics and Security,2015,10(4):746-761.
[23]Chingovska I,Anjos A,Marcel S.On the effectiveness of local binary patterns in face anti-spoofing[C]//Proc of International Conference of Biometrics Special Interest Group.Piscataway,NJ:IEEE Press,2012:1-7.
[24]Tan Xiaoyang,Li Yi,Liu Jun,et al.Face liveness detection from a single image with sparse low rank bilinear discriminative model[C]//Proc of European Conference on Computer Vision.Cham:Springer,2010:504-517.
[25]Zhang Kaipeng,Zhang Zhanpeng,Li Zhifeng,et al.Joint face detection and alignment using multitask cascaded convolutional networks[J].IEEE Signal Processing Letters,2016,23(10):1499-1503.
[26]Mtt J,Hadid A,Pietikinen Ma.Face spoofing detection from single images using micro-texture analysis[C]//Proc of International Joint Conference on Biometrics.Piscataway,NJ:IEEE Press,2011:1-7.
[27]Yang Jianwei,Lei Zhen,Li Stan Z.Learn convolutional neural network for face anti-spoofing[EB/OL].(2014).https://arxiv.org/abs/14085601.
[28]Boulkenafet Z,Komulainen J,Hadid A.Face spoofing detection using colour texture analysis[J].IEEE Trans on Information Forensics and Security,2016,11(8):1818-1830.
[29]De Freitas P T,Komulainen J,Anjos A,et al.Face liveness detection using dynamic texture[J].EURASIP Journal on Image and Video Processing,2014,2014(1):1-15.
[30]Liu Yaojie,Jourabloo A,Liu Xiaoming.Learning deep models for face anti-spoofing:binary or auxiliary supervision[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:389-398.
[31]Li Haoliang,Pan Sinno Jialin,Wang Shiqi,et al.Domain generalization with adversarial feature learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:5400-5409.
[32]Yu Zitong,Wan Jun,Qin Yunxiao,et al.NAS-FAS:static-dynamic central difference network search for face anti-spoofing[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2021,43(9):3005-3023.
[33]Liu Shubao,Zhang Keyue,Yao Taiping,et al.Dual reweighting domain generalization for face presentation attack detection[EB/OL].(2021).https://arxiv.org/abs/2106.16128.
[34]Shao Rui,Lan Xiangyuan,Yuen Pongc.Regularized fine-grained meta face anti-spoofing[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto:CA:AAAI Press,2020:11974-11981.
[35]Wang Jingjing,Zhang Jingyi,Bian Ying,et al.Self-domain adaptation for face anti-spoofing[EB/OL].(2021).https://arxiv.org/abs/2012.12129.
[36]Liu Shubao,Zhang Keyue,Yao Taiping,et al.Adaptive normalized representation learning for generalizable face anti-spoofing[C]//Proc of the 29th ACM International Conference on Multimedia.New York:ACM Press,2021:1469-1477.
[37]Liu Shice,Lu Shitao,Xu Hongyi,et al.Feature generation and hypothesis verification for reliable face anti-spoofing[EB/OL].(2021).https://arxiv.org/abs/211214894.
[38]Zhou Lifang,Luo Jun,Gao Xinbo,et al.Selective domain-invariant feature alignment network for face anti-spoofing[J].IEEE Trans on Information Forensics and Security,2021,16:5352-5365.
[39]Van Der Maaten L,Hinton G.Visualizing data using t-SNE[J/OL].Journal of Machine Learning Research,2008,9(11).(2008-11-08)[2021-12-07].https://www.jmlr.orgpapers/olume9/andermaaten08a/andermaaten08a.pdf?bclid=IwA.
[40]Selvaraju R R,Cogswell M,Das A,et al.Grad-CAM:visual explanations from deep networks via gradient-based localization[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:618-626.
[41]Wang Xun,Zhang Haozhi,Huang Weilin,et al.Cross-batch memory for embedding learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:6388-6397.
收稿日期:2021-12-10;修回日期:2022-02-09基金項目:國家自然科學基金資助項目(62166018);江西省重點研發計劃資助項目(20203BBE53029);江西省高等學校教學改革重點研究課題(JXJG-20-5-6)
作者簡介:蔡體健(1968-),女,湖南長沙人,副教授,主要研究方向為計算機視覺、深度學習、稀疏表示等;塵福春(1994-),女,山東菏澤人,碩士研究生,主要研究方向為深度學習、圖像處理(1577392893@qq.com);劉文鑫(1997-),男,江西萍鄉人,碩士研究生,主要研究方向為深度學習、機器學習、圖像處理等.