999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于空洞單流ViT網(wǎng)絡(luò)的靈活模態(tài)人臉呈現(xiàn)攻擊檢測(cè)方法

2024-05-24 01:48:02肖立軒封筠高宇豪賀晶晶
關(guān)鍵詞:模態(tài)特征融合

肖立軒 封筠 高宇豪 賀晶晶

摘 要:

靈活模態(tài)人臉呈現(xiàn)攻擊檢測(cè)突破傳統(tǒng)多模態(tài)方法對(duì)于模型訓(xùn)練與部署的模態(tài)一致性限制,可將統(tǒng)一模型按需靈活部署到多樣模態(tài)的現(xiàn)實(shí)場(chǎng)景,但仍存在模型性能有待提升、計(jì)算資源需求高的問題。為此,提出一種以視覺 Transformer(ViT)結(jié)構(gòu)為基礎(chǔ)的單流靈活模態(tài)人臉呈現(xiàn)攻擊檢測(cè)網(wǎng)絡(luò)。提出空洞塊嵌入模塊以減少運(yùn)算冗余,降低輸入向量維度;為區(qū)分不同模態(tài)特征,設(shè)計(jì)模態(tài)編碼標(biāo)記;采用非補(bǔ)齊策略處理模態(tài)缺失問題。在公開多模態(tài)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法在域內(nèi)和跨域評(píng)估中分別獲得2.69%和33.81%的最佳平均ACER值,相較于現(xiàn)有的三種方法,具有更優(yōu)的域內(nèi)和域外泛化性能,在不同子協(xié)議上的性能表現(xiàn)較為均衡,且其模型計(jì)算量與參數(shù)量均遠(yuǎn)低于多流方法,更加適合模態(tài)缺失場(chǎng)景下的靈活、高效部署。

關(guān)鍵詞:人臉呈現(xiàn)攻擊檢測(cè);靈活模態(tài);多模態(tài);視覺Transformer

中圖分類號(hào):TP391.41??? 文獻(xiàn)標(biāo)志碼:A???? 文章編號(hào):1001-3695(2024)03-041-0916-07doi: 10.19734/j.issn.1001-3695.2023.07.0319

Flexible modal face presentation attack detection based onatrous single stream vision Transformer network

Xiao Lixuan, Feng Jun, Gao Yuhao, He Jingjing

(School of Information Science & Technology, Shijiazhuang Tiedao University, Shijiazhuang 050043, China)

Abstract:

Flexible modal face presentation attack detection can break through the limitations of traditional multi-modal methods on modal consistency in model training and deployment, and it can deploy the unified model flexibly to real scenarios of multiple modals on demand. However, there are still issues with improved model performance and high demand for computing resources. Therefore, this paper proposed a single stream flexible modal face presentation attack detection network based on vision Transformer. Furthermore, this paper proposed the atrous patch embedding module to address the operational redundancy problem and reduce the input vector dimension, designed the modal encoding token to distinguish different modal features, and adopted a non-padding strategy to solve the modal absence problem essentially. The experimental results on publicly available multi-modal datasets show that this method can obtain the best ACER averages of 2.69% and 33.81% in the intra-domain and cross-domain evaluations, respectively, and has excellent in-domain and out-of-domain generalization performance, and ba-lances performance across different sub-protocols compared to the existing three methods. It significantly reduces the quantities of calculations and parameters compared with multi-stream methods, and is more suitable for flexible and efficient deployment in modal absence scenarios.

Key words:face presentation attack detection; flexible modal; multi-modal; vision Transformer

0 引言

近年來,人臉識(shí)別系統(tǒng)因其強(qiáng)特異性、易采集、高效低成本等特點(diǎn)被廣泛應(yīng)用于智能安防、公安刑偵、電子商務(wù)及金融服務(wù)等領(lǐng)域。相較于對(duì)抗攻擊和合成攻擊,人臉識(shí)別系統(tǒng)更容易受到呈現(xiàn)攻擊的威脅,常見的人臉呈現(xiàn)攻擊方式主要有照片、視頻回放和人臉面具。人臉呈現(xiàn)攻擊檢測(cè)(face presentation attack detection,fPAD)技術(shù)[1]對(duì)于保障人臉識(shí)別系統(tǒng)穩(wěn)健運(yùn)行至關(guān)重要,是構(gòu)建安全可信的人臉身份認(rèn)證智能化產(chǎn)品的堅(jiān)實(shí)支撐。

目前,fPAD技術(shù)的研究重點(diǎn)是從如何提高算法泛化性、魯棒性和精準(zhǔn)度等方面著手,尤其隨著深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺領(lǐng)域的快速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)模型被應(yīng)用于fPAD任務(wù)。基于元學(xué)習(xí)的方法[2]和基于對(duì)抗遷移學(xué)習(xí)[3,4]的方法旨在提高算法對(duì)未知目標(biāo)域的泛化性,基于零/小樣本的方法[5,6]和基于異常檢測(cè)的方法[7]旨在提高算法面對(duì)未知攻擊方式時(shí)的魯棒性。基于輔助監(jiān)督信號(hào)的方法[8]、基于特征融合的方法[9,10]和基于多模態(tài)的方法[11]則是以提高算法精準(zhǔn)度為目標(biāo)。多模態(tài)方法利用不同模態(tài)數(shù)據(jù)(如可見光、深度圖和紅外圖像)訓(xùn)練模型,融合各模態(tài)特征,提取語義更完備的活體強(qiáng)相關(guān)特征,以實(shí)現(xiàn)真實(shí)人臉與假體攻擊的精準(zhǔn)判別。通常多模態(tài)任務(wù)需要根據(jù)不同部署場(chǎng)景分別設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)并訓(xùn)練模型,這導(dǎo)致所得到的多模態(tài)模型效率低,并且受部署場(chǎng)景限制高、靈活性差。為解決該問題,衍生出靈活模態(tài)fPAD方法。靈活模態(tài)任務(wù)是指使用多個(gè)模態(tài)數(shù)據(jù)訓(xùn)練出一個(gè)統(tǒng)一的模型,可以根據(jù)現(xiàn)實(shí)需要將模型靈活地部署到模態(tài)子集場(chǎng)景上。如圖1所示,傳統(tǒng)的單模態(tài)與多模態(tài)任務(wù)須在訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)滿足獨(dú)立同分布的條件下,根據(jù)現(xiàn)實(shí)部署場(chǎng)景所具備的采集設(shè)備,設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)并利用相應(yīng)模態(tài)的訓(xùn)練數(shù)據(jù)獲得模型;而靈活模態(tài)方法僅需訓(xùn)練得到統(tǒng)一模型,故可以突破部署場(chǎng)景限制,大大提高模型的靈活性,具有重要的實(shí)踐意義。由于不同部署場(chǎng)景的圖像采集設(shè)備不盡相同,所以導(dǎo)致統(tǒng)一模型輸入存在模態(tài)缺失問題。同時(shí),現(xiàn)有靈活模態(tài)網(wǎng)絡(luò)通常采用多流結(jié)構(gòu),即為每個(gè)模態(tài)數(shù)據(jù)分配單獨(dú)分支以提取特征,從而造成模型復(fù)雜冗余、計(jì)算資源消耗過高的問題。

為此,本文提出一種單流靈活模態(tài)網(wǎng)絡(luò)(single stream flexi-ble modal network,S2FMN),以視覺 Transformer(vision Transformer,ViT)結(jié)構(gòu)為基礎(chǔ),設(shè)計(jì)模態(tài)編碼信息對(duì)不同模態(tài)數(shù)據(jù)進(jìn)行標(biāo)記,為降低模型輸入向量維度,提出空洞塊嵌入模塊(atrous patch embedding module, APEM)處理輸入模態(tài)圖像,同時(shí)采用非補(bǔ)齊策略解決缺失模態(tài)問題,可減少模型計(jì)算量,提升模型效率。在靈活模態(tài)測(cè)評(píng)協(xié)議上,實(shí)驗(yàn)對(duì)比多流網(wǎng)絡(luò)與單流網(wǎng)絡(luò)性能,以驗(yàn)證所提S2FMN方法解決靈活模態(tài)任務(wù)的有效性與運(yùn)算高效性。同時(shí),S2FMN方法訓(xùn)練得到的模型解決了多模態(tài)與單模態(tài)模型無法部署到模態(tài)設(shè)備缺失場(chǎng)景上的問題,可實(shí)現(xiàn)靈活應(yīng)用。

1 相關(guān)工作

1.1 多模態(tài)人臉呈現(xiàn)攻擊檢測(cè)

多模態(tài)方法可以突破數(shù)據(jù)源層面的限制,在原有可見光數(shù)據(jù)上增加深度、紅外及近紅外數(shù)據(jù),通過融合多個(gè)模態(tài)的特征,進(jìn)而彌補(bǔ)單模態(tài)方法對(duì)特定攻擊的局限性,可有效應(yīng)對(duì)復(fù)雜多變的呈現(xiàn)攻擊,提高活體檢測(cè)的準(zhǔn)確率。Zhang等人[12]構(gòu)建了大規(guī)模多模態(tài)活體檢測(cè)CASIA-SURF數(shù)據(jù)集,并提供了一種多模態(tài)數(shù)據(jù)融合的基準(zhǔn)方法。Liu等人[13]針對(duì)種族偏見問題,發(fā)布了跨種族多模態(tài)人臉反欺詐CeFA數(shù)據(jù)集。George等人[14]提出了包含多通道圖片的人臉呈現(xiàn)攻擊WMCA數(shù)據(jù)集,并通過實(shí)驗(yàn)驗(yàn)證了僅使用可見光信息進(jìn)行活體檢測(cè),遠(yuǎn)遠(yuǎn)遜色于使用多模態(tài)數(shù)據(jù)的結(jié)果。隨著大型多模態(tài)數(shù)據(jù)集的發(fā)布,多模態(tài)方法逐漸成為 fPAD領(lǐng)域的研究熱點(diǎn)。

Parkin等人[15]提出一種三流融合網(wǎng)絡(luò),利用殘差模塊實(shí)現(xiàn)多尺度特征融合。Yu等人[16]將中心差分卷積網(wǎng)絡(luò)[17]擴(kuò)展到多模態(tài)版本,旨在捕獲可見光、深度和紅外三種模態(tài)間的內(nèi)在聯(lián)系。Wang等人[18]提出一個(gè)跨模態(tài)交互模塊,在特征提取階段實(shí)現(xiàn)模態(tài)交互。利用關(guān)系嵌入模塊,通過將全局特征嵌入到細(xì)粒度的局部信息,以增強(qiáng)特征描述符的豐富度。George等人[19]提出一種基于可見光與深度信息的跨模態(tài)focal損失函數(shù),利用單個(gè)信道的置信度函數(shù)來調(diào)制每個(gè)信道的損失貢獻(xiàn)。Li等人[20]利用自監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)生成的輔助信息,減少可見光和紅外圖像間的特征空間距離。朱大力等人[21]將圖像的局部區(qū)域塊作為網(wǎng)絡(luò)輸入,提取可見光、深度和紅外三個(gè)模態(tài)的高層語義特征,并在訓(xùn)練過程中加入多模態(tài)特征隨機(jī)擦除操作,以防止過擬合,提升模型魯棒性。雖然多模態(tài)數(shù)據(jù)在面對(duì)復(fù)雜的攻擊方式時(shí)展現(xiàn)出了不錯(cuò)的性能,但是在推理部署場(chǎng)景缺少某個(gè)或某些模態(tài)輸入數(shù)據(jù)時(shí),則要被迫放棄已有的多模態(tài)模型,需要根據(jù)真實(shí)場(chǎng)景可獲得的模態(tài)數(shù)據(jù)重新構(gòu)建網(wǎng)絡(luò)及訓(xùn)練模型,致使多模態(tài) fPAD模型靈活性差、冗余低效。

1.2 靈活模態(tài)人臉呈現(xiàn)攻擊檢測(cè)

靈活模態(tài)任務(wù)旨在解決多模態(tài)fPAD訓(xùn)練模型冗余、部署場(chǎng)景受限制的問題,利用多模態(tài)數(shù)據(jù)訓(xùn)練出一個(gè)能靈活部署在多樣模態(tài)場(chǎng)景中的統(tǒng)一模型,目前研究尚處于起步階段。Yu等人[22]首次提出靈活模態(tài)測(cè)評(píng)協(xié)議,并在該協(xié)議上采用多流ViT模型,結(jié)合不同的特征融合方法開展實(shí)驗(yàn)研究。Liu等人[23]提出一種新的模態(tài)未知視覺 Transformer(modality-agnostic vision Transformer,MA-ViT)框架,在多模態(tài)訓(xùn)練數(shù)據(jù)的幫助下,消除模態(tài)相關(guān)信息,補(bǔ)充活體相關(guān)特征,改善單模態(tài)fPAD方法的性能。值得注意的是,Liu等人[23]所采用的靈活模態(tài)測(cè)評(píng)協(xié)議是在可見光、深度圖和紅外圖三個(gè)模態(tài)進(jìn)行訓(xùn)練,測(cè)試時(shí)僅使用其中一個(gè)模態(tài)數(shù)據(jù),與Yu等人[22]采用的協(xié)議并不相同。本文研究是按照文獻(xiàn)[22]提出的靈活模態(tài)測(cè)評(píng)協(xié)議開展實(shí)驗(yàn)的,與其工作不同之處在于,文中方法以單流ViT為基礎(chǔ),采用前期融合方式,利用自注意力機(jī)制實(shí)現(xiàn)多模態(tài)特征交互融合。此外,將使用類標(biāo)記(class token)從模態(tài)信息中學(xué)習(xí)與活體強(qiáng)相關(guān)的信息用于分類,并針對(duì)缺失模態(tài)問題設(shè)計(jì)非補(bǔ)齊策略。

2 本文方法

2.1 S2FMN網(wǎng)絡(luò)整體結(jié)構(gòu)

為解決多模態(tài)模型靈活性差和多流模型計(jì)算資源需求高、模型冗余的問題。本文提出單流靈活模態(tài)S2FMN網(wǎng)絡(luò)模型,如圖2所示。針對(duì)模態(tài)缺失測(cè)試場(chǎng)景提出零補(bǔ)齊和非補(bǔ)齊策略,設(shè)計(jì)模態(tài)編碼信息用于標(biāo)記各個(gè)模態(tài)數(shù)據(jù),便于區(qū)分模型,保證模型在多種測(cè)試場(chǎng)景上平穩(wěn)運(yùn)行,提高模型的靈活性。不同于多流網(wǎng)絡(luò)模型,S2FMN不再為每個(gè)模態(tài)圖像分配單獨(dú)的分支,而是將多模態(tài)圖像作為統(tǒng)一輸入,經(jīng)由同一特征提取模塊(feature extraction module,F(xiàn)EM)提取融合特征,其核心在于利用自注意力機(jī)制捕捉模態(tài)間的相關(guān)性,更好地提取融合特征,避免模型冗余。所提出的APEM模塊采用空洞下采樣方法降低輸入向量維度,解決模型占用計(jì)算資源過高的問題。

S2FMN整體框架主要由圖像處理模塊(image processing module,IPM)、特征提取模塊和分類頭(classification head,CH)三部分組成。圖2中,rgb為可見光圖像,depth為深度圖像,ir為紅外圖像。Xipat表示模態(tài)i的圖像,i∈{rgb,depth,ir}。Xpos表示位置編碼信息,Xmod表示模態(tài)編碼信息,Xcls表示class token。S2FMN網(wǎng)絡(luò)借鑒ViT 結(jié)構(gòu),與ViT[24]網(wǎng)絡(luò)區(qū)別在于,S2FMN網(wǎng)絡(luò)提出的APEM模塊代替原來的圖像塊嵌入(patch embedding,PE)模塊,并引入模態(tài)編碼來區(qū)分多模態(tài)特征。利用FEM提取多模態(tài)融合特征。經(jīng)CH將融合特征映射為概率值,對(duì)呈現(xiàn)攻擊與活體樣本進(jìn)行判別。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置

在PyTorch深度學(xué)習(xí)框架上進(jìn)行實(shí)驗(yàn),主要硬件配置為Intel Xeon Gold 6133 CPU 和NVIDIA Tesla V100。

3.1.1 數(shù)據(jù)集

文中在SURF、CeFA和WMCA這三個(gè)公開多模態(tài)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。

SURF[12]:包含1 000名受試者的21 000個(gè)視頻。數(shù)據(jù)集包含可見光圖像、深度圖像和紅外圖像三種模態(tài)數(shù)據(jù),每名受試者有1個(gè)真實(shí)人臉視頻和6個(gè)假臉視頻。使用Intel RealSense SR300相機(jī)同時(shí)捕獲可見光、深度和紅外數(shù)據(jù)。

CeFA[13]:包含可見光圖像、深度圖像以及紅外圖像。數(shù)據(jù)集采自美洲、東亞、中亞的1 500名受試者的2D攻擊樣本。另外包含采集自107名受試者的3D攻擊樣本共5 538個(gè),其中99名受試者在6種光照條件下的面具攻擊樣本5 364個(gè),8名受試者在4種光照條件下的胡子或者眼鏡攻擊樣本192個(gè)。針對(duì)3D攻擊的樣本全部以視頻形式存儲(chǔ)。

WMCA[14]:包含72名受試者的1 679個(gè)視頻。數(shù)據(jù)集包括4種模態(tài)數(shù)據(jù),即可見光 、深度圖、紅外圖和熱成像,包含多種不同類型的攻擊(打印、屏顯、眼鏡、假頭、硬面具、軟硅膠面具和紙面具)。

3.1.2 靈活模態(tài)測(cè)評(píng)協(xié)議

靈活模態(tài)測(cè)評(píng)協(xié)議[22]在表1中列出,包含4個(gè)子協(xié)議,涵蓋數(shù)據(jù)集內(nèi)(域內(nèi))和跨數(shù)據(jù)集(跨域)評(píng)估,其中R、D和I分別表示可見光、深度和紅外圖像。各子協(xié)議均在SURF&CeFA數(shù)據(jù)集上使用R&D&I三個(gè)模態(tài)數(shù)據(jù)進(jìn)行模型訓(xùn)練。

域內(nèi)評(píng)估是在SURF&CeFA上開展實(shí)驗(yàn),以測(cè)試模型在同一領(lǐng)域內(nèi)的性能,而跨域評(píng)估是在WMCA數(shù)據(jù)集上進(jìn)行,以測(cè)試模型在不同領(lǐng)域內(nèi)的泛化能力。

3.1.3 評(píng)價(jià)指標(biāo)

評(píng)價(jià)指標(biāo)選用平均分類錯(cuò)誤率(average classification error rate,ACER),其為假體人臉分類錯(cuò)誤率(attack presentation classification error rate,APCER)與活體人臉分類錯(cuò)誤率(bonafide presentation classification error rate,BPCER)的平均。APCER表示將攻擊的假體人臉錯(cuò)分為真實(shí)人臉的比率。BPCER表示將真實(shí)人臉錯(cuò)誤地判斷為假體攻擊的比率。顯然,ACER指標(biāo)值越小越好。計(jì)算公式為

其中:TP表示正確判定為活體人臉的數(shù)量;TN表示正確判定為非活體人臉的數(shù)量;FP表示實(shí)際的非活體人臉判定為活體人臉的數(shù)量;FN表示實(shí)際的活體人臉判定為非活體的人臉數(shù)量。

3.2 對(duì)比實(shí)驗(yàn)

為驗(yàn)證S2FMN方法在靈活模態(tài)任務(wù)上的有效性,依據(jù)表1給出的靈活模態(tài)測(cè)評(píng)協(xié)議進(jìn)行域內(nèi)和跨域?qū)嶒?yàn),并與現(xiàn)有文獻(xiàn)方法進(jìn)行對(duì)比。

3.2.1 域內(nèi)評(píng)估

在SURF&CeFA數(shù)據(jù)集上進(jìn)行域內(nèi)評(píng)估實(shí)驗(yàn),將S2FMN方法與兩種多流結(jié)構(gòu)及一種簡(jiǎn)單拼接單流進(jìn)行對(duì)比,結(jié)果如表2所示。所對(duì)比的三種方法均是基于ViT網(wǎng)絡(luò)構(gòu)建的,多流結(jié)構(gòu)中的ViT_Concat與ViT_CA方法的特征提取器相同,即均將每個(gè)模態(tài)數(shù)據(jù)經(jīng)由Transformer編碼器提取特征,ViT_Concat方法是采用拼接操作實(shí)現(xiàn)三個(gè)模態(tài)數(shù)據(jù)的融合,ViT_CA方法則是由交叉注意力機(jī)制 (cross-attention,CA)模塊實(shí)現(xiàn)特征級(jí)融合,相較于拼接融合方法更為復(fù)雜。對(duì)比的單流網(wǎng)絡(luò)結(jié)構(gòu)是將三個(gè)模態(tài)數(shù)據(jù)簡(jiǎn)單拼接后送入Transformer 編碼器提取融合特征。

表2的實(shí)驗(yàn)結(jié)果表明,S2FMN方法在四個(gè)子協(xié)議上的域內(nèi)性能均表現(xiàn)最佳,尤其是在子協(xié)議2與4上ACER值僅為0.99%、0.64%,其在四個(gè)子協(xié)議上ACER均值達(dá)到2.69%,較取得均值次優(yōu)結(jié)果的對(duì)比單流ViT網(wǎng)絡(luò)要低1.87個(gè)百分點(diǎn),且由ACER標(biāo)準(zhǔn)差可知,S2FMN方法在四個(gè)子協(xié)議上的性能表現(xiàn)較為均衡。同時(shí)可以看出,相較于多流網(wǎng)絡(luò),單流網(wǎng)絡(luò)在靈活模態(tài)任務(wù)上更加有效,驗(yàn)證了自注意力機(jī)制可計(jì)算全局相關(guān)性的特點(diǎn),有助于多模態(tài)特征交互融合。

3.2.2 跨域評(píng)估

為驗(yàn)證模型面對(duì)未知域的魯棒性,文中在WMCA數(shù)據(jù)集上開展跨域評(píng)估,實(shí)驗(yàn)結(jié)果如表3所示。S2FMN方法在協(xié)議1和3上性能最佳,ACER值分別為37.57%和30.20%;而在子協(xié)議2和4上,ViT_Concat方法表現(xiàn)最佳,ACER值分別為30.37%和29.51%。S2FMN方法在4個(gè)子協(xié)議上ACER均值達(dá)到33.81%,相較于對(duì)比單流ViT網(wǎng)絡(luò)要低6.40個(gè)百分點(diǎn),取得平均最佳性能。同時(shí),S2FMN方法的ACER標(biāo)準(zhǔn)差僅為3.13%,相較于其他三種對(duì)比方法,均衡性表現(xiàn)最佳。值得一提的是,S2FMN方法相較于對(duì)比單流ViT網(wǎng)絡(luò)在四個(gè)子協(xié)議上的性能均有所提升,ACER值分別下降了3.40、1.21、12.05與8.95個(gè)百分點(diǎn)。

3.2.3 跨任務(wù)對(duì)比

為驗(yàn)證S2FMN方法在子協(xié)議上的性能,本文在WMCA數(shù)據(jù)集上進(jìn)行統(tǒng)一訓(xùn)練,在四個(gè)子協(xié)議上進(jìn)行測(cè)試,并與傳統(tǒng)單模態(tài)和多模態(tài)方法進(jìn)行跨任務(wù)對(duì)比,實(shí)驗(yàn)結(jié)果如表4所示。S2FMN在僅有可見光模態(tài)時(shí)相較于單模態(tài)方法表現(xiàn)最佳,ACER值為5.42%。當(dāng)僅用可見光和紅外模態(tài)進(jìn)行測(cè)試時(shí),S2FMN方法取得次優(yōu)結(jié)果。雖然其在僅有可見光與深度圖模態(tài)場(chǎng)景和三個(gè)模態(tài)齊備場(chǎng)景的性能略遜于MA-ViT[23]和ViT+ConvA+M2A2E[11]方法,但靈活模態(tài)任務(wù)相較傳統(tǒng)單模態(tài)與多模態(tài)任務(wù)難度更大,對(duì)模型面對(duì)未知場(chǎng)景的泛化性和魯棒性要求更高。所以,盡管本文方法與傳統(tǒng)單模態(tài)和多模態(tài)方法相比不全面占優(yōu),但也是具有較強(qiáng)競(jìng)爭(zhēng)力的。

3.3 消融實(shí)驗(yàn)

從補(bǔ)齊策略與模態(tài)編碼兩個(gè)方面在SURF&CeFA數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)對(duì)比,以考察兩者對(duì)S2FMN方法的影響。

3.3.1 補(bǔ)齊策略的影響

靈活模態(tài)任務(wù)在測(cè)試階段需要面對(duì)模態(tài)缺失的問題。ViT_Concat與ViT_CA方法面對(duì)模態(tài)缺失問題時(shí),均采用零補(bǔ)齊策略,即利用零矩陣作為缺失的模態(tài)數(shù)據(jù)輸入網(wǎng)絡(luò)。本文采用非補(bǔ)齊策略來解決模態(tài)缺失問題,即對(duì)缺失模態(tài)數(shù)據(jù)不采用已知數(shù)據(jù)進(jìn)行補(bǔ)齊。下面探究零補(bǔ)齊與非補(bǔ)齊策略對(duì)S2FMN模型性能的影響。在4個(gè)子協(xié)議上的域內(nèi)與跨域評(píng)估實(shí)驗(yàn)結(jié)果如表5所示。

其中域內(nèi)評(píng)估結(jié)果表明,在子協(xié)議1、2和3上非補(bǔ)齊策略的ACER指標(biāo)值低于零補(bǔ)齊策略,分別下降了2.32、1.91與0.17個(gè)百分點(diǎn),雖然在子協(xié)議4上零補(bǔ)齊策略ACER值稍低于非補(bǔ)齊策略0.08個(gè)百分點(diǎn),但非補(bǔ)齊策略的ACER均值要好于零補(bǔ)齊策略1.08個(gè)百分點(diǎn),且非補(bǔ)齊策略的ACER標(biāo)準(zhǔn)差亦更低。同時(shí)跨域評(píng)估實(shí)驗(yàn)結(jié)果表明,在四個(gè)子協(xié)議上非補(bǔ)齊策略的ACER值均低于零補(bǔ)齊策略,分別下降了2.07、4.18、17.52與4.98個(gè)百分點(diǎn),從ACER均值與標(biāo)準(zhǔn)差來看,均是非補(bǔ)齊策略更佳,非補(bǔ)齊策略的ACER均值要好于零補(bǔ)齊策略7.19個(gè)百分點(diǎn)。

綜合來看,對(duì)于S2FMN方法,在解決模態(tài)缺失問題時(shí),更適宜采用非補(bǔ)齊策略,其域內(nèi)與跨域泛化性能均優(yōu)于零補(bǔ)齊策略,且在不同子協(xié)議上的ACER表現(xiàn)更加均衡、波動(dòng)更小。

3.3.2 模態(tài)編碼的影響

S2FMN方法采取前期融合策略,若將三種模態(tài)數(shù)據(jù)拼接后直接送入FEM模塊中進(jìn)行多模態(tài)特征的交互融合,則模型無法對(duì)各模態(tài)數(shù)據(jù)進(jìn)行區(qū)分。為此,設(shè)計(jì)模態(tài)標(biāo)記(即模態(tài)編碼信息Xmod)以令模型更好地區(qū)分各個(gè)模態(tài)數(shù)據(jù)。為探究模態(tài)標(biāo)記的有效性,文中分別在SURF&CeFA和WMCA數(shù)據(jù)集上開展域內(nèi)和跨域消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖7所示。

在域內(nèi)評(píng)估結(jié)果中,有模態(tài)編碼的實(shí)驗(yàn)在子協(xié)議1、2和4上的ACER值優(yōu)于無模態(tài)編碼,盡管在子協(xié)議3上無模態(tài)編碼的ACER值要優(yōu)于有模態(tài)編碼0.41個(gè)百分點(diǎn),但有模態(tài)編碼的ACER均值為2.78%,整體要優(yōu)于無模態(tài)編碼0.24個(gè)百分點(diǎn)。在跨域評(píng)估中,有模態(tài)編碼的ACER值在四個(gè)子協(xié)議上均優(yōu)于無模態(tài)編碼,該指標(biāo)值分別下降了11.61、9.15、16.15與0.84個(gè)百分點(diǎn)。

整體而言,在域內(nèi)測(cè)試時(shí),添加模態(tài)編碼信息更有助于提高模型的準(zhǔn)確率,在跨域測(cè)試時(shí)添加模態(tài)編碼后的模型泛化性能更好。

3.4 效率分析

在靈活模態(tài)任務(wù)中,模型的效率對(duì)實(shí)際應(yīng)用也是至關(guān)重要的。表6展示了多流ViT_Concat網(wǎng)絡(luò)、簡(jiǎn)單拼接單流ViT網(wǎng)絡(luò)和S2FMN的計(jì)算量(FLOPs)與參數(shù)量(Param)。其中,多流網(wǎng)絡(luò)模型ViT_Concat的FLOPs高達(dá)199.92 G,且Param為96.83 M,這加大了模型的部署難度。而采用零補(bǔ)齊策略的簡(jiǎn)單拼接單流網(wǎng)絡(luò)ViT模型的Param相較于ViT_Concat減少11.21 M,F(xiàn)LOPs減少149.5 G。同時(shí)發(fā)現(xiàn),S2FMN方法不論采取零補(bǔ)齊或非補(bǔ)齊策略,在四個(gè)子協(xié)議上的FLOPs均低于對(duì)比的兩種方法,采用零補(bǔ)齊策略的S2FMN模型FLOPs約為ViT_Concat方法的十分之一。另外,S2FMN方法采取零補(bǔ)齊、非補(bǔ)齊策略時(shí)的Param盡管同為85.62 M,但在四個(gè)子協(xié)議上采取非補(bǔ)齊策略時(shí)的FLOPs有所不同,均不超過零補(bǔ)齊策略,尤其是在子協(xié)議1上,非補(bǔ)齊策略時(shí)的FLOPs僅約為零補(bǔ)齊策略的三分之一。可見,針對(duì)缺失模態(tài)所采取的策略對(duì)模型效率有較大的影響。

值得注意的是,S2FMN方法在采取非補(bǔ)齊策略時(shí),其在四個(gè)子協(xié)議上的FLOPs僅為ViT_Concat的3.51%、6.98%、6.98%與10.45%,Param為ViT_Concat的88.42%。由此可見,S2FMN方法不僅在評(píng)價(jià)性能ACER指標(biāo)上相較于現(xiàn)有方法競(jìng)爭(zhēng)力較強(qiáng),而且其低計(jì)算復(fù)雜度的模型在實(shí)際應(yīng)用部署上也具有一定優(yōu)勢(shì)。

3.5 可視化分析

本文在SURF&CeFA數(shù)據(jù)集上,從特征融合和模型決策角度出發(fā)進(jìn)行特征可視化分析。

t-分布式隨機(jī)鄰居嵌入(t-distributed stochastic neighbor embedding,t-SNE)是一種無監(jiān)督的非線性技術(shù),主要用于數(shù)據(jù)探索和可視化高維數(shù)據(jù)。t-SNE嘗試保留原始高維數(shù)據(jù)之間的相對(duì)距離關(guān)系,并在低維空間中利用概率分布來表示數(shù)據(jù)之間的相似性關(guān)系,可以將高維數(shù)據(jù)映射到一個(gè)低維空間(通常是2D或3D)以便于可視化。本文采用t-SNE將FEM模塊的輸出特征圖降維,分別從2D和3D角度將融合特征和各模態(tài)特征分布進(jìn)行可視化分析,如圖8所示,其中RDI表示融合特征分布,R、D和I分別表示可見光、深度圖和紅外模態(tài)特征分布。由圖8可見,S2FMN模型能充分聚合各模態(tài)特征,融合后的特征RDI對(duì)各模態(tài)特征均有強(qiáng)表征性。

同時(shí),本文按靈活模態(tài)協(xié)議將不同測(cè)試場(chǎng)景上S2FMN模型的決策邊界進(jìn)行可視化。如圖9所示,living和spoofing分別表示活體與假體樣本。由圖9可見,當(dāng)子協(xié)議1僅有可見光模態(tài)時(shí),存在少量樣本易混淆;隨著子協(xié)議2、3分別增加了深度和紅外模態(tài)后,決策邊界逐漸分明,僅有個(gè)別離群點(diǎn);當(dāng)子協(xié)議4同時(shí)具備三種模態(tài)時(shí),模型可以精準(zhǔn)地對(duì)活體與假體樣本進(jìn)行區(qū)分。

4 結(jié)束語

靈活模態(tài)任務(wù)旨在提高模型性能的同時(shí)增加模型的靈活性和高效性,以克服傳統(tǒng)多模態(tài)任務(wù)在部署場(chǎng)景缺失部分模態(tài)數(shù)據(jù)時(shí)需要重新訓(xùn)練模型的局限性。文中提出一種基于空洞單流ViT的靈活模態(tài) fPAD方法,在對(duì)輸入模態(tài)數(shù)據(jù)進(jìn)行空洞塊嵌入處理的基礎(chǔ)上,利用自注意力機(jī)制實(shí)現(xiàn)模態(tài)數(shù)據(jù)的交互融合,在模態(tài)缺失時(shí)采用非補(bǔ)齊策略。經(jīng)大量實(shí)驗(yàn)表明,S2FMN方法可在保證模型準(zhǔn)確性的同時(shí),降低模型的計(jì)算量與參數(shù)量,確保了模型實(shí)際應(yīng)用的靈活性與高效性。鑒于現(xiàn)有方法在不同子協(xié)議上的性能表現(xiàn)存在一定的差異,未來靈活模態(tài)任務(wù)的研究可探索如何簡(jiǎn)單高效地解決模態(tài)偏向性問題,以進(jìn)一步提高模型跨域評(píng)估性能。

參考文獻(xiàn):

[1]Yu Zitong,Qin Yunxiao,Li Xiaobai,et al. Deep learning for face anti-spoofing: a survey [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2023,45(5): 5609-5631.

[2]Wang Jingjing,Zhang Jingyi,Bian Ying,et al. Self-domain adaptation for face anti-spoofing [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2021: 2746-2754.

[3]Hamblin J,Nikhal K,Riggan B S. Understanding cross domain pre-sentation attack detection for visible face recognition [C]// Proc of the 16th IEEE International Conference on Automatic Face and Gesture Recognition. Piscataway,NJ: IEEE Press,2021: 1-8.

[4]孫文赟,金忠,趙海濤,等. 基于深度特征增廣的跨域小樣本人臉欺詐檢測(cè)算法 [J]. 計(jì)算機(jī)科學(xué),2021,48(2): 330-336. (Sun Wenyun,Jin Zhong,Zhao Haitao,et al. Cross-domain few-shot face spoofing detection method based on deep feature augmentation [J]. Computer Science,2021,48(2): 330-336.)

[5]Pérez-Cabo D,Jiménez-Cabello D,Costa-PazoA,et al. Learning to learn face-PAD: a lifelong learning approach [C]// Proc of IEEE International Joint Conference on Biometrics. Piscataway,NJ: IEEE Press,2020: 1-9.

[6]Quan Ruijie,Wu Yu,Yu Xin,et al. Progressive transfer learning for face anti-spoofing [J]. IEEE Trans on Image Processing,2021,30: 3946-3955.

[7]Baweja Y,Oza P,Perera P,et al. Anomaly detection-based unknown face presentation attack detection [C]// Proc of IEEE International Joint Conference on Biometrics. Piscataway,NJ: IEEE Press,2020: 1-9.

[8]Wang Zezheng,Yu Zitong,Zhao Chenxu,et al. Deep spatial gradient and temporal depth learning for face anti-spoofing [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 5042-5051.

[9]孫銳,馮惠東,孫琦景,等. 紋理和深度特征增強(qiáng)的雙流人臉呈現(xiàn)攻擊檢測(cè)方法 [J]. 模式識(shí)別與人工智能,2023,36(3): 242-251.( Sun Rui,F(xiàn)eng Huidong,Sun Qijing,et al. Texture and depth feature enhancement based two-stream face presentation attack detection method [J]. Pattern Recognition and Artificial Intelligence,2023,36(3): 242-251. )

[10]甘俊英,翟懿奎,項(xiàng)俐,等. 面向活體人臉檢測(cè)的時(shí)空紋理特征級(jí)聯(lián)方法[J]. 模式識(shí)別與人工智能,2019,32(2): 117-123.( Gan Junying,Zhao Yikui,Xiang Li,et al. Spatial-temporal texture cascaded feature method for face liveness detection [J]. Pattern Recognition and Artificial Intelligence,2019,32(2): 117-123.

[11]Yu Zitong,Cai Rizhao,Cui Yawen,et al. Rethinking vision Transformer and masked autoencoder in multimodal face anti-spoofing [EB/OL]. (2023-03-11). https://arxiv. org/abs/2302. 05744.

[12]Zhang Shifeng,Wang Xiaobo,Liu Ajian,et al. A dataset and benchmark for large-scale multi-modal face anti-spoofing [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 919-928.

[13]Liu Ajian,Tan Zichang,Wan Jun,et al. CASIA-SURF CeFA: a benchmark for multi-modal cross-ethnicity face anti-spoofing [C]// Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway,NJ: IEEE Press,2021: 1179-1187.

[14]George A,Mostaani Z,Geissenbuhler D,et al. Biometric face presentation attack detection with multi-channel convolutional neural network [J]. IEEE Trans on Information Forensics and Security,2019,15: 42-55.

[15]Parkin A,Grinchuk O. Recognizing multi-modal face spoofing with face recognition networks [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway,NJ: IEEE Press,2019: 1617-1623.

[16]Yu Zitong,Qin Yunxiao,Li Xiaobai,et al. Multi-modal face anti-spoofing based on central difference networks [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway,NJ: IEEE Press,2020: 650-651.

[17]Yu Zitong,Zhao Chenxu,Wang Zezheng,et al. Searching central difference convolutional networks for face anti-spoofing [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 5295-5305.

[18]Wang Zi,Li Chenglong,Zheng Aihua,et al. Interact,embed,and enlarge: boosting modality-specific representations for multi-modal person re-identification [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2022: 2633-2641.

[19]George A,Marcel S. Cross modal focal loss for RGBD face anti-spoofing [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 7882-7891.

[20]Li Diangang,Wei Xing,Hong Xiaopeng,et al. Infrared-visible cross-modal person re-identification with an X modality [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2020: 4610-4617.

[21]朱大力,朱樺,陳志寰. 基于多模態(tài)融合的活體檢測(cè)研究 [J]. 武漢理工大學(xué)學(xué)報(bào):信息與管理工程版,2021,43(3): 264-286. (Zhu Dali,Zhu Hua,Chen Zhihua. Face anti-spoofing based on multimodal fusion [J]. Journal of Wuhan University of Technology:Information & Management Engineering,2021,43(3): 264-286.

[22]Yu Zitong,Liu Ajian,Zhao Chenxu,et al. Flexible-modal face anti-spoofing: a benchmark [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2023: 6345-6350.

[23]Liu Ajian,Liang Yanyan. MA-ViT:modality-agnostic vision Transformers for face anti-spoofing [C]// Proc of the 31st International Joint Conference on Artificial Intelligence. San Francisco: Morgan Kaufmann,2022: 1180-1186.

[24]Dosovitskiy A,Beyer L,Kolesnikov A,et al. An image is worth 16×16 words: Transformers for image recognition at scale [EB/OL]. (2021-06-03). https://arxiv. org/abs/2010. 11929.

[25]Yu F,Koltun V. Multi-scalecontext aggregation by dilated convolutions [EB/OL]. (2015-11-23). https://arxiv. org/abs/1511. 07122.

[26]Liu Ajian,Tan Zichang,Wan Jun,et al. Face anti-spoofing via adversarial cross-modality translation [J]. IEEE Trans on Information Forensics and Security,2021,16: 2759-2772.

[27]George A,Marcel S. Deep pixel-wise binary supervision for face pre-sentation attack detection [C]//Proc of International Conference on Biometrics. Piscataway,NJ: IEEE Press,2019: 1-8.

[28]Liu Ajian,Zhao Chenxu,Yu Zitong,et al. Contrastive context-aware learning for 3D high-fidelity mask face presentation attack detection [J]. IEEE Trans on Information Forensics and Security,2022,17: 2497-2507.

猜你喜歡
模態(tài)特征融合
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
主站蜘蛛池模板: 精品综合久久久久久97| 久久中文字幕不卡一二区| 久热re国产手机在线观看| 国产亚洲精品自在久久不卡 | 国产亚洲第一页| 国产精品成| 亚洲欧美日韩动漫| 午夜啪啪网| 国产乱子伦一区二区=| 伊人激情久久综合中文字幕| 亚洲欧洲日本在线| 中文字幕欧美日韩高清| 国产黄色免费看| 免费AV在线播放观看18禁强制| 欧美精品一区在线看| 亚洲性视频网站| 福利在线不卡一区| 青青草欧美| 国产精品美人久久久久久AV| 欧美在线网| 亚洲国产精品VA在线看黑人| 国产精品hd在线播放| 亚洲欧洲日韩综合色天使| 久久综合丝袜长腿丝袜| 亚洲日韩精品无码专区| 高清不卡一区二区三区香蕉| 免费在线观看av| 真实国产精品vr专区| 一区二区三区国产精品视频| 国产精品福利尤物youwu| 国产高清毛片| 日韩精品成人在线| 亚洲无码高清免费视频亚洲| 青青操视频免费观看| 九九视频免费在线观看| 国产午夜精品一区二区三区软件| 尤物精品国产福利网站| 老色鬼久久亚洲AV综合| 在线无码av一区二区三区| 18禁黄无遮挡网站| 国产欧美视频综合二区| 免费观看精品视频999| 欧美在线中文字幕| 欧美日韩国产系列在线观看| 国产污视频在线观看| 2022国产无码在线| 国模粉嫩小泬视频在线观看| 欧美精品成人一区二区视频一| 狠狠亚洲婷婷综合色香| 国产精品观看视频免费完整版| 999国内精品久久免费视频| 日韩在线播放欧美字幕| 国产成人精品在线1区| 一本综合久久| 亚洲AV成人一区国产精品| 国产一线在线| 久青草国产高清在线视频| 在线观看亚洲成人| 成年女人18毛片毛片免费| 亚洲全网成人资源在线观看| 国产91导航| 在线免费看片a| 国产乱子伦视频三区| 亚洲国产亚洲综合在线尤物| 精品国产99久久| 成人福利在线视频| 55夜色66夜色国产精品视频| 国产精品极品美女自在线看免费一区二区| 久久黄色一级视频| 亚洲一区黄色| 五月激情婷婷综合| 国产91小视频在线观看| 欧美a√在线| 91视频区| 亚洲欧美人成人让影院| 亚洲一区二区成人| 午夜天堂视频| 五月天丁香婷婷综合久久| 国产日韩丝袜一二三区| 免费一看一级毛片| 中文纯内无码H| 国产女人综合久久精品视|