999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于頻域信息的深度偽造檢測算法

2022-12-12 10:47:58蒲文博
成都信息工程大學學報 2022年5期
關鍵詞:檢測信息方法

蒲文博 胡 靖

(成都信息工程大學計算機學院,四川 成都 610225)

0 引言

深度偽造(Deepfake)是最近廣泛流行的人臉圖像竄改技術。與其他使用傳統圖像處理手段的人臉竄改技術不同,該方法使用深度神經網絡合成指定目標人臉圖像并對原視頻或圖像進行換臉操作。具體步驟為:(1)Deepfake使用自編碼器(autoencoders)或生成對抗網絡(GAN)合成目標人臉圖像,該圖像會保留原人臉的非身份信息,例如原人臉的動作表情、人臉位置、環境光照等;(2)通過傳統的圖像處理手段例如仿射變換替換原視頻或圖像中的人臉。由Deepfake技術得到的換臉視頻能模仿原視頻人物的行為動作。然而,人臉信息是身份認證的關鍵信息,在現如今的公民網絡生活中已經扮演了舉足輕重的角色,Deepfake技術生成的換臉視頻對于公民的個人隱私甚至社會安全構成了嚴重的威脅。

為應對Deepfake技術造成的安全威脅,大量針對Deepfake換臉視頻的檢測算法便由此提出。這些算法的檢測基本思路為:由于Deepfake技術仍然使用了傳統的圖像處理技術,將合成人臉變換到原視頻人臉位置,這種變換會在圖像的空間域上產生不一致性(例如合成人臉與原人臉周圍環境的不一致),從而成為檢測視頻或圖像是否為偽造的重要依據?,F存的Deepfake檢測方法大多便是使用傳統的卷積神經網絡(CNN)來提取圖像空間域的不連續信息。然而隨著Deepfake技術的迭代,空間域中的不連續信息變得難以捕獲,傳統的Deepfake檢測方法的精度受到很大影響。

鑒于Deepfake技術的特殊合成方式,會在合成人臉與周圍像素間產生不連續的特征,這種邊緣的不連續特征往往在頻域中屬于高頻信息。盡管隨著Deepfake技術的迭代,這種邊緣不連續特征在空間域上難以分別,但卻可以在頻域中被神經網絡更有效地提取出來。本文通過對Deepfake視頻幀進行離散余弦變換(DCT),將視頻映射到頻域中,使用殘差卷積網絡提取偽造幀的頻域特征,以提升模型對空間域不連續信息的捕捉能力。此外,引入了雙向LSTM模塊提取Deepfake視頻的幀間時序信息,以提升模型對幀間不連續信息的提取能力。在此基礎上,提出了一種專門針對Deepfake視頻的數據增強方法Xray-blur。該方法通過對人臉周圍像素進行高斯模糊,提高模型對圖像不連續信息的捕捉難度,以此生成難度較高的訓練樣本,針對性地訓練模型對于不連續區域特征的提取能力。實驗表明,該數據增強方法能有效提升模型的性能。

1 相關工作

為了應對Deepfake技術的威脅,科研工作者提出眾多用于檢測Deepfake換臉視頻和圖像的方法,這些方法以深度學習方法為主。Rossler等[1]首次提出使用XceptionNet[2]進行Deepfake檢測,但這種直接使用現存的CNN網絡的方法由于其未對Deepfake數據進行針對性優化而效果欠佳。Afchar等[3]設計了更專注于圖像的介觀特性的CNN網絡:Meso4和MesoInception4。Li等[4]提出了一種名為FWA的網絡,首次提出通過檢測圖像中人臉與其周圍區域的不一致性來判斷該圖像是否為換臉圖像。在此基礎上,Li隨后提出了DSP-FWA網絡,通過引入空間金字塔池化(SPP)[5],來解決檢測過程遇到的圖像輸入尺寸不同的問題。而后,Nguyen等[6]提出了Capsule-Forensics網絡,其使用基于 VGG19[7]的膠囊結構網絡(CapsuleNet)[8]檢測換臉圖像。最近,Luo等[9]提出了一種能捕捉圖像高頻噪聲的檢測網絡來提升模型面對不同換臉數據的泛化能力。近期也有部分工作將檢測重點放到圖像或視頻中的生物學特征上:例如Li等[10]提出通過估計視頻中人的眨眼頻率來判斷其是否為換臉視頻;Javier等[11]設計了一種能通過rPPG技術估計人的心率的網絡來判斷視頻是否由Deepfake技術合成。此外,近期提出的方法也更加重視視頻幀間信息的提取,這些方法能通過檢測視頻幀間的不連續信息而判斷視頻是否為Deepfake視頻。例如,Güera等[12]提出了一種包含CNN和長短期記憶(LSTM)[13]的兩階段檢測網絡,以捕獲幀之間的不一致信息;韓語晨等[14]提出一種基于Inception[15]模塊的3D卷積的網絡,該網絡則是通過3D卷積的方式來提取幀間時序信息,從而檢測換臉視頻。

2 提出的方法

本文提出方法的流程如圖1所示。對于一個輸入視頻,首先使用Dlib[16]的人臉檢測庫(Dlib face detector)逐幀提取出視頻中的人臉圖像,隨后通過DCT變換將人臉圖像幀轉換到頻域;之后每幀的頻域信息被送入頻域學習殘差CNN中,提取高維頻域特征圖;這些特征圖接著被送入雙向LSTM網絡中,以提取幀間的時序信息;得出的特征圖融合了頻域信息特征和時序信息特征,通過網絡的全連接層進行逐幀判斷。

2.1 頻域學習殘差卷積網絡

2.1.1 圖像頻域轉換

受JPEG壓縮算法的啟發,本文提出了將RGB圖像轉換為頻域圖像的方法。JPEG壓縮算法通過對原始圖像劃分為的矩陣,再將每個矩陣中的圖像通過余弦變換(DCT)轉換為頻域信息進行保存,這種存儲方式相比傳統方式有效節省了存儲空間。圖像頻域轉換流程如圖2所示。具體步驟為:(1)人臉提取。對于輸入的RGB視頻幀,首先使用Dlib人臉檢測庫提取人臉圖像,提取的人臉圖像隨后會由RGB色彩空間轉換到YCbCr色彩空間。(2)DCT轉換。Y、Cb、Cr 3個通道的圖像會以8×8的矩陣塊進行DCT變換,分別形成3個二維DCT系數矩陣。該8×8的矩陣塊對應圖2中2×2的同色方塊。8×8矩陣中保存了來自不同頻域分量的DCT系數。位于高頻分量的系數存放于矩陣右下角,而低頻系數存放于矩陣左上角。(3)DCT矩陣變維。將各個8×8的矩陣塊中相同分量的DCT系數組合到同一通道中。例如,每個同色2×2方塊的左上角小塊會組合到一個通道里。這個組合過程會按照原相對位置進行,以保證相對位置的統一。這樣組合會形成通道數為8×8=64的三維DCT立方。DCT立方中每個通道中保存了位于同一頻域分量的DCT系數。由于人臉圖像由Y、Cb、Cr 3個通道構成,因此每個通道都會形成一個DCT立方矩陣。(4)DCT矩陣連接。將每個通道形成的DCT立方體做連接操作,最終形成8×8×3=192個通道的三維張量。(5)歸一化。這個張量在經過歸一化后作為網絡的最終輸入。設輸入的RGB圖像大小為H×W×C,H、W為圖像的高和寬,C為圖像的通道數且C=3,則該圖像經過轉換到頻域后得到的張量大小為H/8×W/8×64×C。

2.1.2 頻域學習的CNN

由于最終輸入張量依然保持三維,該三維張量相比于傳統輸入的RGB圖像,其本質上只是通道數的不同。因此只需要調整CNN網絡的第一層卷積層的輸入通道數,便可以使其處理頻域信息。本文使用簡單修改ResNet-50[17]作為頻域學習的CNN。具體修改如下:(1)由于ResNet-50的第一層卷積層和隨后的一層最大池化層的步長為2,為了不損失頻域信息,故將這兩層移除。(2)將第二層的卷積層通道數設置為和頻域張量相同的通道數,即192,使網絡能接收頻域三維張量。(3)移除原ResNet-50的最后一層全連接層,其輸出的特征圖直接輸入到下層LSTM中。這樣的修改能使原CNN模型的結構變化最小,從而快速移植到各種CNN模型中。如圖3所示,虛線框為原Resnet-50中被修改的部分。輸入的圖像經過DCT轉換到頻域后會跳過原ResNet-50的第一層中的7×7卷積和3×3最大池化層(Max Pool)直接輸入到1×1卷積層中,該層的輸入通道設為192,即與頻域張量通道數相等,其他部分保持不變即可。

2.2 雙向LSTM

由于多數Deepfake算法在合成換臉視頻時未考慮幀間信息,從而導致合成的換臉視頻在時域中會有一定的不連續現象,例如幀間的異常抖動。和空間域的不連續信息相同,捕獲幀間不連續信息也能提升模型對換臉視頻的檢測能力。本文方法使用雙向LSTM提取幀間不連續信息。如圖4所示,相比傳統的單向LSTM,雙向LSTM使用了兩層LSTM網絡能處理正向和反向傳播兩個路徑。這種設計使得雙向LSTM不但能考慮視頻幀的歷史信息,也能考慮視頻幀的預測信息,有助于模型更好地提取幀間的不連續信息,從而做到更準確的判斷。

在提取到圖像幀的高維頻域特征圖后,特征圖首先被展平成一維特征向量,隨后所有幀的特征向量會被堆棧成一個二維特征圖,該特征圖會經過采用256個神經元的雙向LSTM模塊對幀間的時序信息進行提取。經過雙向LSTM提取后,得到每幀的特征向量,特征向量會被隨即傳入一個共享的全連接層中,該全連接層則用于輸出模型對每幀是否偽造的最終判斷。

2.3 數據增強Xray-blur

鑒于主要的Deepfake檢測方法以合成人臉與周圍區域的不連續性信息作為檢測的關鍵信息。因此如果有一種數據增強方法能針對區域進行模糊,降低此處不連續特征,以困難樣本訓練該模型,便能提升模型對該不連續區域的提取能力。由該觀點出發,本文便提出了一種針對Deepfake的視頻數據增強的方法Xray-blur,該方法能對合成人臉的周圍邊界區域進行模糊處理。受Face X-ray[18]中將合成人臉的鄰域以光圈的形式暴露的啟發,本文將與光圈像素對應的原圖像像素進行高斯模糊處理。Face X-ray光圈生成過程如圖5所示。首先,給定一個輸入的Deepfake人臉圖像,使用Dlib檢測人臉的68個特征點,如圖5(a)所示。將這些特征點連接形成的凸包做白色填充,形成一個初始mask,如圖5(b)所示。再經過5×5高斯核模糊運算形成最終mask,記為M,如圖5(c)所示。最后通過下列運算即可得到圖5(d)的Face X-ray光圈圖像。

通過上述方法生成好Xray光圈后,將Xray光圈區域對應的原圖像區域進行高斯模糊處理,該模糊處理過程使用了5×5的高斯核。原圖和經過Xray-blur增強的圖像都會作為模型的訓練集進行訓練。圖6為Xray-blur細節展示:

從圖6可以明顯看出,增強的合成人臉周圍有顯著的模糊效果,這種模糊效果會減弱合成人臉與周圍像素的不連續信息,使得Deepfake檢測模型難以提取該圖像幀的不連續信息。因此,在訓練中加入這些復雜樣本,將會進一步增強模型對不連續信息的提取能力。

3 實驗及結果

3.1 實驗設置

3.1.1 數據集和數據準備

本文將測試提出的方法在公開數據集Celeb-DF[19]和FaceForensics++[1]上的檢測性能。

Celeb-DF(v2)是最近提出的具有挑戰性的大規模數據集,用于評估換臉檢測方法。其包含590個真實視頻和5639個換臉視頻。換臉視頻由59位不同性別、年齡和種族的名人的公開可用的YouTube視頻生成。

FaceForensics++包含從 YouTube抓取的1000個真實視頻和使用4種換臉算法生成的4000個換臉視頻,每個算法生成的換臉視頻數量為1000。本文使用Deepfake算法合成的版本,故該數據為平衡數據集。除此以外,FaceForensics++包含了3個視頻質量從高到底的3個版本,分為稱為:raw、c23、c40。

數據準備工作如下:首先,使用Dlib庫中的人臉檢測器對數據集的每個視頻中的每一幀中進行人臉檢測并提取;然后將提取的人臉調整為64×64像素,并使用ImageNet的均值和標準差對人臉圖像進行歸一化。實驗中的輸入視頻的幀長設置為300,如果某個視頻少于300幀,則重復其最后一幀以達到300幀。此外,將生成的每個視頻幀再采用Xray-blur增強作為新增數據,與原視頻數據一起訓練模型。

對于訓練集和測試集的劃分,本文遵循各數據集原有劃分方式。其中Celeb-DF訓練集包含了890個真實視頻和5639個換臉視頻;測試集包含了178個真實視頻和340個換臉視頻;FaceForensics++中訓練集分布包含360個真實視頻和換臉視頻;測試集和驗證集分別包含70個真實視頻和換臉視頻。

3.1.2 對比方法

實驗比較了6種Deepfake檢測方法:

(1)DSP-FWA[4]:在FWA的基礎上加入了空間金子塔池化(SPP)以應對不同輸入尺寸換臉圖像。

(2)Meso4[3]:Meso4通過捕獲深換臉圖像的介觀特征以判斷圖像是否為Deepfake合成。

(3)MesoInception4[3]:MesoInception4為在Meso4基礎上結合Inception[15]模塊改進網絡。

(4)Xception[1]:Xception使用常用的卷積神經網絡XceptionNet提取Deepfake圖像的空間域信息

(5)Capsule[6]:Capsule以VGG19為基礎,基于膠囊網絡結構檢測換臉視頻幀。

(6)Inception3D[14]:Inception3D通過3D卷積網絡同時提取偽造視頻的空間信息和時序信息,以判斷換臉視頻是否偽造。

3.1.3 評價指標

實驗中使用準確率ACC(Accuracy)和ROC曲線下面積(AUC)作為評價指標,ACC和AUC計算方式分別為:

其中,TP為正例預測正確的個數,FP為負例預測錯誤的個數,TN為負例預測正確的個數,FN為正例預測錯誤的個數。

其中,posNum為正樣本數,negNum為負樣本數,則分母表示為正負樣本總的組合數。predpos表示模型對正樣的預測結果,predneg為模型對負樣本的預測結果,分子則表示是正樣本大于負樣本的組合數。AUC的含義為分別隨機從數據集中抽取一個樣本,正樣本的預測值大于負樣本的概率。

3.1.4 參數設置及實驗環境

實驗在使用NVIDIA Tesla P100 GPU的服務器中完成,本文方法使用PyTorch實現。訓練迭代20次,批處理大小為16。訓練時,使用Adam優化器,并使用交叉熵作為損失函數,學習率設置為1×10-4。此外,為了保證對比實驗的公平,其他對比方法使用盡可能相同的設置。

3.2 實驗結果

3.2.1 公開數據集上的對比

實驗對比了不同方法在兩個公開數據集Celeb-DF和FaceForensics++上的ACC和AUC性能。從表1中可以得出,本文方法優于其他方法:本文方法在ACC上達到了0.96,AUC上達到了0.95。Celeb-DF作為一個不平衡的數據集,其中換臉視頻與真實視頻比例為7∶1。方法Meso4,由于其只使用了傳統的卷積網絡提取空間域信息,而未考慮幀間信息,因此在面對不平衡數據時會存在偏向預測,導致AUC結果不理想。而Inception3D利用3D卷積網絡,提取幀間不連續特征,表現效果較好。但由于其使用3D卷積而致使網絡參數較大,加之其仍使用傳統RBG圖像作為輸入,空間域不連續信息未能被有效提取,因此其性能仍弱于本文方法。本文所提方法利用頻域學習CNN和雙向LSTM,在不平衡數據集上仍然取得了較好的結果。這是由于其能將圖像轉換為頻域信息而放大不連續細節。且得益于其雙向LSTM,模型能捕捉Deepfake視頻中的幀間不連續抖動,從而進行更準確的判斷。

表1 在公開數據集上的性能對比

與在Celeb-DF上相同,本文方法在FaceForensics++上仍取得了優越的性能,其中ACC達到了0.95,AUC達到了0.94。本文方法相比于Inception3D,ACC領先了5%,AUC領先了3%。實驗充分展示了頻域學習和時序學習在Deepfake檢測中扮演的重要角色。

3.2.2 消融實驗

為了研究本文模型各個模塊的作用,在Celeb-DF數據集上進行消融實驗。具體步驟如下:(1)為了驗證Xray-blur增強方法帶給模型的性能提升,實驗去除了Xray-blur增強的數據,僅使用原數據進行訓練,記為“-Xb”;(2)為了考察將圖像轉換為頻域信息從而對模型帶來的提升,使用傳統的ResNet-50代替頻域學習的CNN,記為“-Xb,-DCT”;(3)為了驗證雙向LSTM模塊和幀間不連續信息在深度換臉檢測中的重要作用,實驗在“-Xb,-DCT”基礎上移除了雙向LSTM,只使用Res-Net-50檢測深度偽造視頻幀,記為“-XB,-DCT,-Bi”。

表2是各方法的檢測結果。對比本文方法和“-Xb”可以得出,Xray-blur增強方法帶來了2%的ACC和1%的AUC提升。Xray-blur增強方法從數據集入手,模糊對檢測的關鍵信息,即合成人臉及其周圍的邊界不一致信息。通過增強數據訓練的模型在面對正常數據時能更有效地提取這些信息,從而針對性地提升模型對偽造圖像的判斷能力。模型“-Xb,-DCT”取得了0.91的ACC和0.92的AUC。相比“-Xb”,ACC下降了3%,AUC下降了2%。實驗表明,經過頻域轉換后,模型性能有了顯著提升。這種提升和Deepfake檢測的注意目標相關,空間的不一致信息通過頻域的轉換而進行了放大,模型能更好地提取該信息。模型“-XB,-DCT,-Bi”取得了0.75的 ACC 和0.68的 AUC。相較于“-Xb,-DCT”,雙向LSTM的加入使得模型提高了0.16的ACC和0.24的AUC,模型性能提升顯著,展示了幀間信息在換臉檢測任務中的至關重要的作用。雙向LSTM通過前后的幀間信息傳播,強化了幀間信息的提取。

表2 消融實驗檢測結果

3.2.3 低質量視頻魯棒性分析

Deepfake檢測算法需要對不同質量的視頻具有良好的檢測效果,以應對現實應用場景。尤其是Deepfake視頻在網絡上傳播會受壓縮算法的影響,使其質量明顯下降。這種視頻會對模型的檢測性能有著顯著的影響。為驗證所提模型在不同視頻質量下的魯棒性,本節測試了模型在FaceForensics++的c40數據集的性能。數據集c40使用了H.264編碼器對原始視頻進行低質量壓縮,以模擬網絡中視頻的真實壓縮情況。本文方法和其他方法在c40上的測試結果見表3。對比表1中FaceForensics++c23的結果,本文方法在視頻檢測任務中ACC性能下降了3%,AUC性能下降了2%,但遠高于其他模型在c40上的測試性能。該實驗充分證明了本文方法面對低壓縮率視頻時表現出良好的魯棒性。

表3 在FaceForensics++上的面對低質量視頻c40的測試結果

此外,為了展示低質量視頻對模型檢測能力的影響,本文方法、Capsule、MesoInception4以及 Xception分別在c23和c40上的預測結果見圖7。圖7中紅色框為換臉視頻幀,綠色框為真實視頻幀。預測結果大于0.5則模型判斷為換臉圖像,小于0.5則模型判斷為真實圖像。從圖7可以得出,相較于對c23的預測結果,對比模型對c40換臉視頻幀的預測概率有一定下降;在對c40真實視頻幀預測中出現了錯誤判別(紅色)。相較于其他方法,本文方法做到了正確預測的同時,其輸出概率更準確。

4 結束語

提出了一種基于視頻幀頻域信息的Deepfake檢測方法,該方法能夠更好地捕獲Deepfake合成中產生的不連續信息。此外,該方法通過引入雙向LSTM以提取Deepfake視頻的幀間信息,進一步提升模型對Deepfake視頻的檢測能力。針對深度換臉視頻的合成特點,提出了Xray-blur數據增強方法,其能模糊合成人臉與周圍邊界區域,使得模型在增強數據訓練下能更好捕捉不連續區域。相比于基于傳統的卷積網絡的檢測方法,本方法在公開數據集上取得了優秀的檢測效果,且擁有良好的應對低質量視頻的能力。本文的方法仍有些不足,例如,模型雖然能捕獲頻域信息,但缺乏對關鍵頻域信息的注意能力,后續研究會考慮將通道注意力模塊引入模型中,使模型能在眾多頻域中選擇有效的信息進行Deepfake檢測。

猜你喜歡
檢測信息方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 久久永久视频| 中文字幕久久亚洲一区 | 国产91麻豆免费观看| 国产永久在线观看| 国产亚洲精品97在线观看| 欧美日韩成人在线观看| 欧美成人精品在线| 日韩美毛片| 国产精品短篇二区| 丝袜久久剧情精品国产| 人妻中文字幕无码久久一区| a级毛片免费播放| 亚洲国产黄色| 日韩午夜片| 欧美一区二区三区不卡免费| 欧美日韩另类国产| 久久这里只有精品23| 国产午夜在线观看视频| 亚洲爱婷婷色69堂| 色综合成人| 人妻无码一区二区视频| 久久成人18免费| 国产成人高清在线精品| 色综合色国产热无码一| 国产成人精品高清不卡在线| 国产成人综合亚洲欧美在| 熟妇丰满人妻| a色毛片免费视频| 五月婷婷欧美| 亚洲欧美天堂网| 日本国产精品一区久久久| 国产91无码福利在线| 亚洲精品国产日韩无码AV永久免费网 | 欧美国产综合视频| 538精品在线观看| 欧美人人干| 大香网伊人久久综合网2020| 亚洲狼网站狼狼鲁亚洲下载| 国产精品自在在线午夜区app| 人妻无码中文字幕一区二区三区| 中文字幕永久在线看| 国产欧美高清| 久久黄色毛片| 尤物精品视频一区二区三区| 国产剧情一区二区| 日韩第九页| 精品视频在线一区| 国产精品一区在线麻豆| 欧美日本在线一区二区三区| 五月天综合婷婷| 国产18在线播放| 久久综合九色综合97婷婷| 2048国产精品原创综合在线| 中文字幕久久波多野结衣| 日韩天堂视频| 欧美一区福利| 伊人久久精品亚洲午夜| 婷婷激情五月网| 久久夜色精品| 日韩福利在线观看| 国产本道久久一区二区三区| 亚洲色图欧美在线| 97视频精品全国在线观看| 国产成人高清精品免费5388| 亚洲国产精品无码久久一线| 国产美女精品一区二区| 亚洲色成人www在线观看| 青青草a国产免费观看| 国产免费久久精品44| 波多野结衣一区二区三视频| 色国产视频| 台湾AV国片精品女同性| 天天综合网色| 免费国产好深啊好涨好硬视频| 亚洲精品自在线拍| 青草娱乐极品免费视频| 精品国产自| 制服无码网站| 国产美女91呻吟求| 91视频日本| 亚洲午夜天堂| 国产va欧美va在线观看|