陳北京 王 鵬 喻樂延 舒華忠
(1南京信息工程大學(xué)計算機(jī)學(xué)院, 南京 210044)
(2南京信息工程大學(xué)雷丁學(xué)院, 南京 210044)
(3東南大學(xué)影像科學(xué)與技術(shù)實驗室, 南京 210096)
隨著基于生成式對抗網(wǎng)絡(luò)(GAN)的人臉生成技術(shù)的出現(xiàn)與發(fā)展,許多人臉處理工具被相繼提出,使得人臉身份認(rèn)證技術(shù)變得不再安全[1].人臉偽造檢測也成為數(shù)字圖像盲取證領(lǐng)域的熱點研究方向之一[2-3].近年來,人們提出了許多檢測方法[4-12]來識別惡意的GAN生成人臉.這些方法大致可以分為2類:基于內(nèi)在統(tǒng)計特征的方法[4-7]和基于深度學(xué)習(xí)的方法[8-12].前者利用自然圖像和GAN生成圖像之間某一類型屬性的不一致進(jìn)行辨別,如人臉屬性[4-5]、全局對稱性[6]和顏色信息[7]等.然而,由于這些基于內(nèi)在統(tǒng)計特征的方法大都以手工方式提取特征,其檢測性能受到限制.而基于深度學(xué)習(xí)的方法則通過網(wǎng)絡(luò)自動學(xué)習(xí)來提取所需的特征,通常比前者更有效.Liu等[8]通過結(jié)合Gram矩陣和ResNet網(wǎng)絡(luò)來提取全局紋理特征以提高檢測網(wǎng)絡(luò)的魯棒性.He等[9]利用淺卷積神經(jīng)網(wǎng)絡(luò)提取多個顏色空間的色度分量來提高檢測網(wǎng)絡(luò)的魯棒性. Chen等[10]進(jìn)一步研究發(fā)現(xiàn),亮度分量和色度分量對GAN生成人臉檢測網(wǎng)絡(luò)的魯棒性都起著重要作用,并且在YCbCr、RGB、HSV和Lab四種顏色空間中,使用YCbCr顏色空間和RGB顏色空間更有利于提高網(wǎng)絡(luò)對不同后處理圖像的檢測性能,因此采用雙流網(wǎng)絡(luò)從YCbCr顏色空間和RGB顏色空間提取特征來檢測GAN生成人臉.Chen等[11]提出結(jié)合全局特征和局部特征來檢測GAN生成人臉,并取得了較好的泛化性.
上述生成人臉檢測算法的提出均基于整張人臉都是生成的,即均為全局GAN生成人臉檢測算法.但在一些實際情況中,只有小部分甚至極小部分的區(qū)域是生成的,且隨機(jī)出現(xiàn)在人臉中的某個位置,導(dǎo)致特征更難提取和分辨.以上全局GAN生成人臉檢測方法在局部GAN生成人臉檢測任務(wù)中可能效果受限.為此,Chen等[12]首次針對局部GAN生成人臉檢測任務(wù)開展了研究,利用空洞卷積技術(shù)和特征金字塔改進(jìn)Xception網(wǎng)絡(luò)以用于檢測,并取得了較好的檢測效果.然而,在實際場景中,生成的人臉常常伴隨著一些后處理操作,如JPEG壓縮、噪聲和模糊等.而該工作在檢測經(jīng)過后處理的人臉圖像時,檢測性能大大降低.
本文提出了一種注意力融合雙流特征的局部GAN生成人臉檢測算法.利用GAN生成圖像的偽影痕跡在RGB和YCbCr顏色空間中更穩(wěn)定的特性,設(shè)計了一個雙流網(wǎng)絡(luò)從這2種顏色空間中提取魯棒特征,并采用注意力特征融合模塊融合雙顏色空間特征,以增強(qiáng)關(guān)鍵特征信息,獲得更魯棒的特征表示.同時,設(shè)計多層次特征融合決策以有效提升網(wǎng)絡(luò)對局部生成區(qū)域特征的提取能力和辨別能力.實驗表明,本文算法針對多種后處理操作的魯棒性優(yōu)于現(xiàn)有算法.
本文提出的注意力融合雙流特征算法總體架構(gòu)如圖1所示.首先,采用雙流網(wǎng)絡(luò)從RGB和YCbCr顏色空間中提取特征,并利用注意力特征融合模塊在淺、中、深3個網(wǎng)絡(luò)層上自適應(yīng)地融合2個顏色空間特征;然后將融合后的淺、中、深層特征圖分別經(jīng)過全局平均池化和全連接層映射得到3個具有判別信息的特征向量;最后,將它們相加融合得到最終的特征向量來進(jìn)行分類決策.

圖1 注意力融合雙流特征算法總體架構(gòu)圖
Chen等[10]比較了YCbCr、RGB、HSV和Lab四種顏色空間對不同后處理人臉圖像檢測性能的影響,發(fā)現(xiàn)使用YCbCr顏色空間和RGB顏色空間取得了更好的性能,尤其對于JPEG壓縮,使用YCbCr顏色空間時檢測性能最佳,并且這2種顏色空間對不同的后處理操作有不一樣的影響.因此,本文同時從YCbCr和RGB顏色空間中提取魯棒特征.
YCbCr顏色空間已經(jīng)廣泛應(yīng)用于圖像和視頻壓縮標(biāo)準(zhǔn),如JPEG壓縮和MPEG壓縮等.YCbCr顏色空間和RGB顏色空間之間的轉(zhuǎn)換關(guān)系如下:
(1)
式中,Y、Cb和Cr分別為YCbCr顏色空間中的亮度分量、藍(lán)色色度分量和紅色色度分量;R、G和B分別為RGB顏色空間中的紅色色度分量、綠色色度分量和藍(lán)色色度分量.待檢測RGB人臉圖像通過式(1)可轉(zhuǎn)換得到Y(jié)CbCr顏色空間圖像,隨后將2種不同顏色空間的待檢測人臉圖像分別輸入到對應(yīng)的RGB流和YCbCr流特征提取網(wǎng)絡(luò).
Xception[13]是卷積神經(jīng)網(wǎng)絡(luò)Inception-V3[14]的改進(jìn)版.文獻(xiàn)[13]認(rèn)為通道之間的相關(guān)性和空間之間的相關(guān)性需要分開處理,因此將Inception-V3中的普通卷積改為深度可分離卷積.不同于普通卷積,深度可分離卷積將卷積操作分成2步:① 在輸入特征的每個通道上,分別使用空間卷積進(jìn)行卷積操作;② 使用1×1卷積將上一步得到的特征在通道上進(jìn)行加權(quán)組合.深度可分離卷積的這種操作方式不僅可以降低網(wǎng)絡(luò)的參數(shù)數(shù)量,同時也可以減少運(yùn)算量.文獻(xiàn)[1]和文獻(xiàn)[15]分別在GAN生成人臉檢測任務(wù)和偽造人臉視頻檢測任務(wù)中對一些經(jīng)典網(wǎng)絡(luò)的檢測性能進(jìn)行了對比,發(fā)現(xiàn)Xception網(wǎng)絡(luò)均展現(xiàn)了最好的性能.因此,本文采用Xception作為2個分支的特征提取網(wǎng)絡(luò).
Xception特征提取網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示,可分為輸入流、中間流、輸出流3個部分.其中輸入流為特征提取網(wǎng)絡(luò)中的淺層網(wǎng)絡(luò),中間流為中層網(wǎng)絡(luò),輸出流為深層網(wǎng)絡(luò).由于后續(xù)多層次特征融合決策的設(shè)計,本文省去了輸出流中的全局平均池化層和全連接層.

圖2 Xception特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖
特征融合是指將多個特征組合成一個比其中任一輸入特征更具鑒別性的新特征.在圖像取證任務(wù)中,融合2種或更多類型的特征可以有效提高網(wǎng)絡(luò)的檢測精度和魯棒性[16].如前所述,YCbCr顏色空間和RGB顏色空間在抵抗不同后處理操作的影響上各有優(yōu)勢[10].顯然,融合2種顏色空間的特征可以獲得更好的檢測效果.此外,由于局部GAN生成人臉中的生成區(qū)域較小,偽影痕跡難以捕獲,有必要引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)更重要的特征.因此,本文引入包含通道注意力和空間注意力的注意力特征融合模塊[17],通過2種注意力機(jī)制來增強(qiáng)RGB流和YCbCr流特征,再將增強(qiáng)后的特征相加融合.
注意力特征融合模塊的結(jié)構(gòu)如圖3所示,主要由通道注意力模塊和空間注意力模塊組成.通道注意力模塊和空間注意力模塊的結(jié)構(gòu)分別如圖4和圖5所示.在通道注意力模塊中,首先根據(jù)尺寸為H×W×C的輸入特征構(gòu)造尺寸為1×1×C的通道加權(quán)向量,然后將輸入特征與通道加權(quán)向量相乘得到尺寸為H×W×C的輸出特征,目的是使網(wǎng)絡(luò)更關(guān)注含有重要信息的特征通道.在空間注意力模塊中,首先根據(jù)尺寸為H×W×C的輸入特征構(gòu)造尺寸為H×W×1的空間加權(quán)矩陣,然后將輸入特征與加權(quán)矩陣相乘得到尺寸為H×W×C的輸出特征,目的是使網(wǎng)絡(luò)更關(guān)注含有重要信息的位置.

圖3 注意力特征融合模塊結(jié)構(gòu)

圖4 通道注意力模塊結(jié)構(gòu)

圖5 空間注意力模塊結(jié)構(gòu)
如圖3所示,在注意力特征融合模塊中,首先將尺寸均為H1×W1×C的RGB顏色空間特征FR和YCbCr顏色空間特征FY分別用2個注意力模塊進(jìn)行增強(qiáng).然后將相同類型的注意力增強(qiáng)特征相加后進(jìn)行卷積操作,得到通道注意力增強(qiáng)特征Fc和空間注意力增強(qiáng)特征Fs,其計算公式如下:
Fc=C(Ac(FR)+Ac(FY))
(2)
Fs=C(As(FR)+As(FY))
(3)
式中,C(·)為步長為1的3×3卷積操作;Ac(·)和As(·)分別為通道注意力模塊和空間注意力模塊中的操作.最后,將通道注意力增強(qiáng)特征Fc和空間注意力增強(qiáng)特征Fs相加后進(jìn)行卷積操作,得到尺寸為H2×W2×C的融合特征F, 即
F=C(Fc+Fs)
(4)
由于局部GAN生成人臉中的生成區(qū)域通常較小,這些局部生成區(qū)域經(jīng)過包含多個卷積層的深度網(wǎng)絡(luò)傳播后,在最終輸出的特征圖中可能會縮小至一個點,甚至完全消失,從而導(dǎo)致最終的特征向量無法進(jìn)行有效的分類決策.因此,本文采用多層次特征融合決策,首先利用注意力特征融合模塊分別在特征提取網(wǎng)絡(luò)的淺、中、深3個網(wǎng)絡(luò)層上融合RGB顏色空間和YCbCr顏色空間特征,得到尺寸依次為12×12×728、12×12×728和4×4×2 048的淺層特征圖、中層特征圖和深層特征圖;然后分別將這3個特征圖經(jīng)過全局平均池化和全連接層映射得到3個具有判別信息的特征向量,多層次特征融合決策中的全連接層均含有2個神經(jīng)元;最后將3個特征向量相加融合,得到最終的特征向量并進(jìn)行Softmax分類決策.
整個網(wǎng)絡(luò)的損失函數(shù)采用交叉熵函數(shù)表達(dá),即
(5)
式中,L為交叉熵函數(shù);i為第i個樣本;yi為真實標(biāo)簽;pi為預(yù)測結(jié)果對應(yīng)標(biāo)簽的概率.
本文使用FFHQ數(shù)據(jù)集[18]和LGGF數(shù)據(jù)集[12]作為實驗數(shù)據(jù)集.其中,FFHQ數(shù)據(jù)集為真實人臉圖像數(shù)據(jù)庫,包含7×104幅不同年齡、種族、性別的高質(zhì)量自然人臉圖像.LGGF數(shù)據(jù)集是Chen等[12]在FFHQ數(shù)據(jù)集基礎(chǔ)上創(chuàng)建的局部GAN生成人臉數(shù)據(jù)集,LGGF數(shù)據(jù)集制作流程如圖6所示.圖中,局部生成區(qū)域?qū)?yīng)于二值圖Mask中的白色區(qū)域,包括規(guī)則矩形和不規(guī)則形狀2種類型,每種類型均考慮了0.5%、1.5%、2.5%、3.5%、4.5%、5.5%六種不同的整張圖像生成區(qū)域比例,且每種比例的二值圖Mask數(shù)量均為7×104幅.首先,將FFHQ數(shù)據(jù)集中所有圖像分辨率調(diào)整為256×256像素,并將調(diào)整后的FFHQ數(shù)據(jù)集與這2種類型的6種不同比例的二值圖Mask組合,得到12種含有待生成區(qū)域的人臉圖像數(shù)據(jù)集.然后使用Zheng等[19]提出的多元修復(fù)算法修復(fù)這12種含有待生成區(qū)域的人臉圖像數(shù)據(jù)集,得到的LGGF數(shù)據(jù)集共有8.4×105幅圖像,圖像分辨率為256×256像素.本文從LGGF數(shù)據(jù)集中選取圖像,根據(jù)圖像中的生成區(qū)域是否規(guī)則將選取的圖像分為規(guī)則子集和不規(guī)則子集,每個子集均有7×104幅圖像,并分別與調(diào)整分辨率后的FFHQ數(shù)據(jù)集組合成FFHQ+規(guī)則子集和FFHQ+不規(guī)則子集2個數(shù)據(jù)集用于實驗.

圖6 LGGF數(shù)據(jù)集制作流程
實驗中,本文采用和文獻(xiàn)[12]同樣的數(shù)據(jù)集劃分方式,將上述2個數(shù)據(jù)集分別按5∶1∶4的比例分為訓(xùn)練集、驗證集和測試集,且訓(xùn)練集、驗證集和測試集中6種生成區(qū)域比例的圖像數(shù)量相等.其中,驗證集用于調(diào)整模型訓(xùn)練過程中設(shè)置的超參數(shù),如學(xué)習(xí)率、批處理大小等.此外,為了測試本文算法的魯棒性,分別對2個測試集進(jìn)行5種常見的后處理操作,包括JPEG壓縮(壓縮質(zhì)量因子為90、85、80),中值濾波(卷積核大小為3×3、5×5、7×7),椒鹽噪聲(噪聲比為0.6%、0.8%、1.0%),高斯濾波(卷積核大小為3×3、5×5、7×7),雙邊濾波(卷積核大小固定為3×3,sigma參數(shù)分別為(25,25)、(50,50)、(75,75)).
所有實驗均在PyTorch框架上進(jìn)行,并在11 GB GeForce GTX1080Ti、3.2 GHz i7-6900K CPU、64 GB RAM的環(huán)境下訓(xùn)練模型.在訓(xùn)練階段使用Adam優(yōu)化算法[20],并采用學(xué)習(xí)率固定為1.0×10-4的學(xué)習(xí)率策略.本文使用二分類任務(wù)中常用的標(biāo)準(zhǔn)度量準(zhǔn)確率作為算法性能的評價指標(biāo).
為了驗證所提出的雙流特征提取、注意力特征融合和多層次特征融合決策這3個改進(jìn)方法的有效性,本節(jié)對5種不同算法的消融實驗結(jié)果進(jìn)行了對比:① 僅將RGB圖像輸入Xception網(wǎng)絡(luò)進(jìn)行分類的RGB算法;② 將RGB圖像轉(zhuǎn)換到Y(jié)CbCr顏色空間后輸入Xception網(wǎng)絡(luò)進(jìn)行分類的YCbCr算法;③ 首先將雙流特征提取網(wǎng)絡(luò)最終的輸出特征相加融合,然后利用融合后的特征進(jìn)行決策的RGB+YCbCr算法;④ 首先利用注意力特征融合模塊(M1)融合雙流特征提取網(wǎng)絡(luò)的最終輸出特征,然后利用融合后的特征進(jìn)行決策的RGB+YCbCr+M1算法;⑤ 首先在雙流特征提取網(wǎng)絡(luò)的淺、中、深3個網(wǎng)絡(luò)層上,分別利用M1融合雙流特征,然后利用多層次特征融合決策(M2)的RGB+YCbCr+M1+M2算法.5種不同算法在FFHQ+規(guī)則子集和FFHQ+不規(guī)則子集上的消融實驗結(jié)果分別如圖7和圖8所示.從圖中可知,RGB顏色空間和YCbCr顏色空間對不同后處理操作有著不同的影響.因此,RGB+YCbCr算法同時使用這2種顏色空間作為輸入是有意義的.相較于將特征簡單地相加融合,RGB+YCbCr+M1算法利用注意力特征融合模塊獲得了更好的檢測性能,且RGB+YCbCr+M1+M2算法利用多層次特征融合決策有效提高了網(wǎng)絡(luò)的檢測性能.在FFHQ+規(guī)則子集上,相較于最初的RGB算法,本文算法RGB+YCbCr+M1+M2在JPEG壓縮、中值濾波、椒鹽噪聲、高斯濾波和雙邊濾波上的平均檢測準(zhǔn)確率分別提高了3.98%、4.37%、1.32%、7.48%和3.87%.在FFHQ+不規(guī)則子集上,相較于最初的RGB算法,本文算法RGB+YCbCr+M1+M2在上述5種后處理上的平均檢測準(zhǔn)確率分別提高了3.24%、1.57%、4.25%、4.16%和2.77%.消融實驗準(zhǔn)確率結(jié)果不但充分驗證了雙流特征提取、注意力特征融合和多層次特征融合決策單個改進(jìn)方法的有效性,而且證明了這3個方法融合后可以獲得最佳的檢測效果.

(a) JPEG壓縮

(b) 中值濾波

(c) 椒鹽噪聲

圖7 在FFHQ+規(guī)則子集上的消融實驗結(jié)果
為了評估本文算法的有效性,將提出算法與文獻(xiàn)[8,10,12-13,21]中的現(xiàn)有算法進(jìn)行對比.其中,文獻(xiàn)[21]算法采用的是Efficientnet_b0版本,由于該版本適用的分辨率為224×224像素,因此,將該算法的輸入圖像分辨率調(diào)整為對應(yīng)大小.本文算法在未經(jīng)后處理的FFHQ+規(guī)則子集和FFHQ+不規(guī)則子集上與其他算法的準(zhǔn)確率對比結(jié)果如表1所示.從表中可以看出,在檢測未經(jīng)后處理的圖像時,所有算法都表現(xiàn)良好,并且本文提出的算法優(yōu)于其他算法.本文算法在FFHQ+規(guī)則子集和FFHQ+不規(guī)則子集上的準(zhǔn)確率分別比次優(yōu)算法提高了0.06%和0.2%.

(a) JPEG壓縮

(b) 中值濾波

(c) 椒鹽噪聲

表1 本文算法與其他算法的準(zhǔn)確率對比 %
本文算法在經(jīng)不同后處理操作的FFHQ+規(guī)則子集和FFHQ+不規(guī)則子集上與其他算法的魯棒性能比較分別如圖9和圖10所示.從圖中可以看出,各算法的檢測準(zhǔn)確率都隨著后處理操作強(qiáng)度的加強(qiáng)而降低.由于本文算法采用了RGB 和YCbCr兩種顏色空間,同時利用注意力特征融合模塊對雙流特征進(jìn)行了增強(qiáng)融合,并利用多層次特征融合決策提高了網(wǎng)絡(luò)對局部生成區(qū)域特征的提取和辨別能力,因此本文算法的檢測性能總體上優(yōu)于相關(guān)對比算法.尤其是針對JPEG壓縮和雙邊濾波后處理,在FFHQ+規(guī)則子集和FFHQ+不規(guī)則子集上,本文算法在3種強(qiáng)度的JPEG壓縮和雙邊濾波上的檢測性能均為最優(yōu).在FFHQ+規(guī)則子集上與次優(yōu)算法相比,該算法在3種強(qiáng)度的JPEG壓縮和雙邊濾波上的平均準(zhǔn)確率分別提高了1.88%和2.64%.在FFHQ+不規(guī)則子集上與次優(yōu)算法相比,該算法在3種強(qiáng)度的JPEG壓縮和雙邊濾波上的平均準(zhǔn)確率分別提高了2.85%和1.60%.

(a) JPEG壓縮

(b) 中值濾波

(c) 椒鹽噪聲

(a) JPEG壓縮

(b) 中值濾波

(c) 椒鹽噪聲
1) 針對局部GAN生成人臉檢測算法魯棒性不足的問題,采用雙流網(wǎng)絡(luò)從RGB和YCbCr兩種顏色空間中提取魯棒特征,通過引入注意力特征融合模塊在不同網(wǎng)絡(luò)層融合雙流特征以獲得更魯棒的特征,并設(shè)計了多層次特征融合決策提高網(wǎng)絡(luò)對局部生成區(qū)域特征的提取和辨別能力.
2) 在FFHQ+規(guī)則子集和FFHQ+不規(guī)則子集上進(jìn)行消融實驗.結(jié)果表明,同時采用RGB顏色空間和YCbCr顏色空間,引入注意力特征融合模塊以及設(shè)計多層次特征融合決策均有助于提升本文局部GAN生成人臉圖像檢測算法的魯棒性.
3) 性能測試實驗結(jié)果表明,本文算法的魯棒性總體上優(yōu)于現(xiàn)有算法,尤其是針對JPEG壓縮和雙邊濾波這2種后處理操作,本文算法的檢測性能均為最優(yōu).在FFHQ+規(guī)則子集上,與次優(yōu)算法相比,本文算法在3種強(qiáng)度的JPEG壓縮和雙邊濾波上的平均準(zhǔn)確率分別提高了1.88%和2.64%.在FFHQ+不規(guī)則子集上,與次優(yōu)算法相比,本文算法在3種強(qiáng)度的JPEG壓縮和雙邊濾波上的平均準(zhǔn)確率分別提高了2.85%和1.60%.