王昊冉,楊敏敏,王澤源,白 亮,于天元,郭延明
(1.國防科技大學 系統工程學院,湖南 長沙 410073;2.佳木斯大學 信息電子技術學院,黑龍江 佳木斯 156100)
隨著深度學習技術特別是對抗生成網絡(GAN)技術的不斷發展以及互聯網及個人計算機的普及,偽造視頻的濫用也在隨之增長[1]。大量包含虛假政治人物信息的深度偽造視頻在社交媒體上傳播引發廣泛關注[2]。準確鑒別深度偽造視頻,防止其產生惡劣社會影響成為輿論安全領域一個重要的課題,鑒于此,國內外均采取一定的措施。2017年,《新一代人工智能發展規劃》經國務院頒布,該規劃繪制了我國人工智能發展的宏偉藍圖[3]。2018年,美國國會官方定義了“深度偽造”概念,并于當月通過了《禁止惡意深度偽造法令》[4]。2019年,美國國際戰略研究中心(CSIS)針對深度偽造技術政策發布簡報。2020年,美國國防高級研究計劃局(DARPA)為“欺騙逆向工程”項目發布了一份招標文件,該項目旨在對信息欺騙攻擊的工具鏈進行逆向工程。
深度偽造檢測算法高度依賴大型可靠的數據集,相關數據集的提出也為多種檢測模型提供了測試基線,促進了該方向的快速發展。2018年,首個深度偽造視頻數據集Deepfake-TIMIT被提出[5],該數據集包含基于faceswap-GAN方法生成的共640段視頻。隨后,R?ssler 等人[6]使用Deepfakes、Face2Face、FaceSwap和NeuralTextextures四種深度偽造方法創建FaceForensics++數據集。Li等人基于公開明星視頻數據源創建更具實際應用場景、更加真假難辨的Celeb-DF數據集[7]。以上數據集的發展為后續偽造視頻檢測提供了良好的數據支撐,并使得不同的檢測算法具有科學一致的可比性。
在具體的檢測算法方面,北京大學與微軟亞洲研究院合作提出了一種基于偽造人臉圖像邊緣不一致性檢測的算法Face X-ray[8],使得模型僅使用較少的訓練數據即可達到領先的檢測效果。但上述方法對人工設計的特征較為依賴,泛化性能較差,當偽造視頻針對上述特征進行重點篡改時即會導致模型失效。而后更多的深度偽造視頻檢測算法開始基于CNN對偽造視頻進行檢測。通常這類方法首先使用MTCNN[9]等算法首先對數據集中的人臉區域進行提取,而后將其作為二分類問題對神經網絡進行有監督訓練[10-12]。Afchar等人基于CNN提出MesoNet[13]將卷積層替換為Inception模塊使用卷積神經網絡提取圖像特征進而進行分類。Bonettini等人結合性能更好、表達能力更強的EfficientNet[14-15]提出一種基于集成學習和注意力機制的檢測算法。同時關注到卷積神經網絡僅關注視頻中的幀數據而忽略了視頻數據格式中重要的時間特性,時空不一致性檢驗也變成深度偽造檢測領域中一個重要研究方向[16]。在跨數據集檢測方面Qian等將離散余弦變換(DCT)應用于頻域特征轉換,進而在提取特征的基礎上使用SVM方法進行分類,在低分辨率偽造視頻中表現出了巨大的進展[17]。Luo等人提出一種基于高頻信號特征的檢測模型,并創新性地將圖像高頻信號和正常信號相關聯,在跨數據集測試中表現出了特別的泛化性能[18]。傳統的有監督學習模式往往受限于數據集中的數據偏置,只能針對于數據集中有限的偽造生成方法進行檢測,Chen等提出一種自監督訓練范式,使得模型不僅能辨真假,還可以分辨偽造類型及區域,在多個基線數據集上達到了較好的效果[14]。Bonettini等綜合使用模型集成方法和視覺注意力機制,將多個卷積神經網絡檢測模型進行集成,在DFDC數據集上取得了目前最優的檢測效果。相較于傳統的卷積神經網絡,Transformer架構更能捕捉全局視覺信息,模型可解釋性有了較大提升。但模型十分復雜,訓練難度較大,模型對于未知方法偽造的視頻檢測魯棒性較差。
基于此,本文模型在未使用模型集成、知識蒸餾等復雜模型方法的基礎上,達到了與目前最優檢測效果相當的檢測水平。消融實驗還證明了本文采用的多種數據增強方式的有效性,Transformer架構所具備的良好可解釋性,以及全局局部融合機制對于模型檢測速度及精度的提升作用。特別地,對模型關注區域的可視化可以發現,模型針對于人臉輪廓、五官區域注意力分數較高,證明了模型良好的可解釋性。
數據增強是指在不額外增加訓練數據的條件下,通過使用多種數據增強方法對原有數據集進行豐富和擴展,從而顯著提升訓練模型泛化能力的一種常用方法。對于人臉圖像而言,不同的拍攝時間、地點、光照強度以及圖像對比度都會使得圖像呈現出較大的差異,因此數據增強方法的運用對于提升檢測模型的泛化能力至關重要[3]。
在模型訓練過程中,結合人臉的視覺特性以及偽造視頻特點,采用圖像旋轉、水平翻轉、邊緣拓展、隨機裁剪、尺寸縮放、色彩抖動、3D映射及仿射變換等數據增強手段。
首先獲取待增強的深度偽造視頻數據,對深度偽造視頻數據中每一幀都進行放縮,進而得到候選臉部窗口。再根據R-net網絡對候選臉部窗口進行過濾,得到校準篩選后的人臉候選框以除去大量的非人臉框,能進一步篩選關鍵信息。利用人臉候選框對深度偽造視頻數據進行篩選,得到篩選后的視頻數據。再對篩選后的視頻數據進行圖像幾何空間變換和圖像隨機裁剪,裁剪時可只截取部分器官,從而幫助模型關注與人臉局部細節增強模型的泛化能力和檢測精度,得到鏡像式增強后的視頻數據。
增強后的視頻數據:
其中,wkhk表示裁剪后圖像的面積,IxIy表示翻轉后的視頻數據中的圖像的面積大小,(w,h)表示圖像拼接點,(xk,yk)表示截取圖像的位置。
再通過使用torchvision中的ColorJitter函數完成色彩抖動,對圖像的亮度(brightness)、對比度(contrast)、飽和度 (saturation)以及色度(hue)進行調整,使得訓練數據更加多樣化。算法還采用高斯模糊以一定比率對原始圖像進行模糊化操作,從而輔助模型捕捉低分辨率條件下的偽造視頻特征。模糊操作后的增強圖像相較于原始圖像出現明顯模糊。
同時,人類視覺認知機制相較于計算機視覺一個顯著優勢即人眼的三維認知模式,因此將視頻中平面圖像轉化為立體圖像,從而多視圖多視角的觀察圖像不失為一種仿生數據增強方式[19]。常見三維圖像增強方式如圖1所示。

圖1 3D圖像增強流程圖
對模糊后的視頻數據進行3D映射增強,得到映射增強后的視頻數據,在數據增強模塊中采用比較正交投影將偽裝視頻數據中二維輪廓點與三位模型面進行正交投影(無圖)以提高偽裝視頻數據檢測模型的檢測精度和泛化能力,得到二維輪廓點在三維物體平面上的投影點,其投射點為:
其中,R,t,s為姿態參數,其中R∈R3×3為旋轉矩陣,t∈R2×2為二維平移向量,s為攝像機焦距與虛擬攝像機與物體的平均距離之比,s∈R+,v表示二維輪廓點的坐標。所述映射方式(比較正交投影)為:
Econ[v(s)]}ds
(3)
其中,Etotal[v(s)]為總映射量,Eini[v(s)]為初始輪廓映射量,Eimage[v(s)]為圖像上輪廓的映射量,Econ[v(s)]為方差相關項。
采用凸包邊緣演化的思想,使用連續曲線表達邊緣,定義映射公式,根據映射公式對所述影點進行映射,得到增強后的偽裝視頻數據:

最終可得增強后效果如圖2所示。
深度偽造視頻常通過對面部數據進行篡改從而達到換臉效果,因此在檢測任務中可采用人臉檢測技術對人臉相關區域進行摳取,從而精簡模型的訓練數據,加速模型收斂。人臉檢測包含多種成熟算法,本實驗采用使用較為廣泛的多任務級聯卷積神經網絡MTCNN算法對視頻中的人臉區域圖像進行檢測,從而得到原始視頻中的逐幀人臉圖像數據作為模型訓練輸入。
MTCNN算法是一種較為典型的面部檢測算法,較好地權衡了檢測速度和精度,較為適用于本次大規模數據集人臉圖像的處理。該算法在實現過程中主要包含第一階段利用圖像金字塔結構將視頻中的每一幀進行放縮,進而輸入P-Net獲取候選臉部窗口和邊界框回歸向量。第二階段使用R-net對第一階段計算得到的候選窗口進行過濾得到校準篩選后的人臉候選框,進而在第三階段輸入O-Net對識別結果進行進一步核驗,最終得到人臉檢測結果[9],其具體算法實現過程如圖3所示。

圖3 MTCNN算法運行流水線[9]
而后將MTCNN算法應用部署在數據集的處理中,將視頻輸入人臉檢測算法模型中得到逐幀提取后的面部區域如圖4所示。

圖4 MTCNN對數據集處理后效果示意圖
1.3.1 基于EfficientNet的特征抽取方法
卷積神經網絡因其獨特的視覺仿生結構和極佳的圖像識別效果,是計算機視覺領域最為重要和基礎的算法數學模型。在實驗過程中,綜合考量模型學習能力及計算效率,實驗擬首先基于EfficientNet架構提取深度偽造視頻圖像特征,進而進行后續操作。
實踐表明,卷積神經網絡在提取圖像特征、進行圖像分類以及模型可解釋性方面有其獨特的優勢。在深度學習算法尚未流行之前,分類任務大多使用人工設計的特征,但這些方法具有明顯的人工設計痕跡,需要加入大量的先驗知識,泛化效果不佳。而卷積神經網絡則使用多個卷積層和池化層使用多個卷積核對目標圖像進行學習和特征抓取,且反向傳播調整參數的過程可以確保模型學到具有任務區分性的特征表示。
隨著訓練圖像分辨率的不斷提升和分類任務的不斷復雜化,更深層次、更大卷積核的大型卷積神經網絡不斷涌現。但模型復雜化的同時也導致了模型參數量和計算復雜度的急劇上升,主流卷積神經網絡模型準確率隨模型參數量變化情況如圖5所示。

圖5 模型識別準確率隨模型參數量對比圖[14]
在本實驗中,由于訓練數據量龐大且偽造視頻特征抽象層次較高,采用EfficientNet進行特征抽取。EfficientNet是由Tan等提出一種復合擴展模型[14],通過綜合考量訓練數據圖像分辨率、網絡深度及網絡寬度,使得模型能夠在提升識別準確率的同時盡可能降低參數量及復雜度,該型網絡也因其效率性被稱為EfficientNet。
本文中提出的模型參數復合擴展[14]公式如下:
(5)
經試驗分析得,通過復合擴展后的模型在特征抽取效果、識別準確度以及計算效率方面表現更加優異,其相較于基線模型復合擴展后效果如圖6所示。

圖6 類激活熱力圖[14]
由于數據集總數據量大,而且算力及儲存空間有限,實驗中采用EfficientNet中的基線模型EfficientNet-B0作為特征提取的骨干網絡。
且在本次實驗中,由于深度偽造檢測任務從本質上來說仍是針對特定目標進行分類的下游任務,因此模型在實際部署時采用經在ImageNet等大型數據集上進行預訓練后的模型進行微調,而非從頭開始對模型進行訓練。
1.3.2 基于Transformer架構的圖像分類模型
本文基于Transformer模型提出一種融合EfficientNet網絡提取特征的深度偽造檢測方法,該模型一方面可以在不使用模型集成、知識蒸餾等復雜方法的基礎上達到較好的檢測效果,另一方面,相較于傳統的純卷積神經網絡達到了更優的泛化能力,并在模型可解釋性上取得良好的效果。
自注意力是一種捕捉序列中不同位置相關性的計算機制,因其代替循環神經網絡在自然語言處理、機器翻譯等領域取得巨大突破而廣泛應用。因此從本質上來講,注意力機制就是一系列注意力分配系數,即關注權重系數。注意力機制分為自注意力機制以及多頭注意力機制。以上過程可以被數學描述為:
Attention=f(g(x),x)
(6)
其中g(x)表示針對于關注區域的注意力分數,x代表輸入圖像數據,最終輸出f(g(x),x)為最終加權后結果。針對于自注意力機制而言,可表示為:
Q,K,V=Linear(x)
(7)
(8)
其計算過程可形式化為圖7所示過程。
其中多頭注意力(Multi-head Attention)可以使得模型能融合多個表示空間內的信息,從而增強模型的學習表達能力。其計算過程可表示為
MultiHead(Q,K,V)=Concat(head1,…,headh)WO
(9)
(10)
其中映射矩陣的參數為WQi∈Rdmodel×dk,WKi∈Rdmodel×dk,WVi∈Rdmodel×dv,WO∈Rhdv×dmodel,h表示多頭注意力中的頭數。
綜上所述,自注意力機制通過捕捉全局的信息來獲得更大的感受野和上下文信息,是一種能讓模型對重要信息重點關注并充分學習吸收的技術。
Transformer模型不同于傳統的卷積神經網絡(CNN)以及循環神經網絡(RNN),是一種完全基于注意力機制的神經網絡模型,更善于捕捉長距離的序列依賴特征[21]。其中,Transformer架構主體由多頭注意力模塊和前饋網絡模塊((Feed-Forward Networks,FFN))組成,主要包含了兩個線性層及一個ReLU激活層。可表示為:
(11)
其中,為防止模型出現梯度消失或爆炸,模塊中還加入了殘差連接機制[22]LayerNorm(x+Sublayer(x))。而后多個上述模塊組合即可得到最終的Transformer模型。但僅能應用于CIFAR這樣的小圖像數據集中,且此模型收斂速度慢,訓練難度高。其中計算復雜度隨序列長度變化復雜度如表1所示。

表1 復雜度對比
后續解決方案一類是基于卷積神經網絡提取特征,而后結合Transformer架構,取得了相較于傳統的卷積神經網絡模型更優、更具解釋性的結果[23]。另一類模型則直接延續Transformer最原始的思路,直接將圖像切分為圖像塊,進而降低圖像拉平后的序列長度,使得模型能夠很好地應用于計算機視覺領域[21]。但第二類應用方法[24]對硬件計算資源和數據需求較高,需要在大型數據集上使用GPU計算集群訓練數周時間,只能應用在大型研究機構或公司中,本文限于計算資源和時間主要采用第一類方法,即融合卷積神經網絡和Transformer架構的模型結構。
1.3.3 融合EfficientNet與Transformer架構的深度偽造檢測算法
綜合考慮模型性能、算力資源及時間限制,模型采用預訓練后的EfficientNet-B0作為圖像特征提取器。然后將提取得到的特征即7×7的像素塊經過線性層映射為特征向量,而后輸入Vision Transformer中進行運算,最終得到CLS token[25]輸入到線性分類器中進行二分類。模型架構示意圖如圖8所示。

圖8 檢測模型架構圖
其中模型輸入數據為經過MTCNN算法識別后的人臉圖像,作為下游檢測任務,實驗中選用經過預訓練后的EfficientNet-B0模型,后續訓練過程主要訓練Transformer部分,并對卷積神經網絡部分進行微調。其中視頻數據集中還存在部分視頻包含多個人臉圖像,模型采取“一票否決”的推斷策略,即若其中一人檢測其為偽造圖像,則判定該視頻為偽造后視頻,其推斷示意圖如圖9所示。

圖9 模型推斷策略示意圖
在實驗中發現,單純基于小像素塊的方法,相當一部分偽造圖像整體輪廓即表現出明顯的不一致性。尤其是針對于Faceswap方法偽造的視頻圖像,往往整個臉部區域與其他區域呈現出明顯區別。因此,同時將模型的全局信息及局部信息同時融入模型進行學習成為模型的一個重要研究方向。
本文在上述模型的基礎上提出一種Global-local交互的融合注意力模型,將輸入圖像經過卷積神經網絡后分成兩個分支,一個分支為Global-branch,提取到64×64大小的特征圖;另一個分支為Local-branch,提取到7×7大小的特征圖,而后將兩個特征圖經過線性映射后輸入Transformer模型中,最后再融合計算注意力。模型詳細結構如圖10所示。

圖10 基于Global-local交互的融合注意力模型
2.1.1 實驗環境配置
由于深度偽造視頻數據集數據量較大,總數據量達520 GB,在使用MTCNN檢測算法提取后總數據量達2 TB,因此本文中實驗主要基于并行科技公司提供的云計算環境,其中共包含8塊32 GB顯存的NVIDIA Tesla V100顯卡及4 TB存儲空間,基本能滿足實驗需求。
本文采用Facebook公司在科學計算包Torch下進行改進的輕量化框架Pytorch框架進行實驗,這種框架主體基于PyThon,相比其他語言更加簡單透明,也擁有簡單的建模過程,同時其在設計上支持自動的反向傳播梯度計算,使得網絡的設計與編程過程大大簡化。與 Google 公司的大型框架TensorFlow相比,PyTorch更加輕量易部署,具有一定的優勢。本文模型代碼基于PyTorch編寫,使用VSCode平臺進行組織和編輯。
2.1.2 實驗數據
考慮到結果可比較性以及數據集代表性,實驗主要使用DFDC (Deepfake Detection Challenge)、Celeb-DF及FaceForensics++三個數據集,其中DFDC數據量最大、FF++包含方法最豐富,Celeb-DF偽造視覺效果最好。因此本文采用這三個數據集進行實驗使用MTCNN對數據集中人臉圖像進行提取,進而在模型訓練過程中使用數據增強手段對人臉圖像進行增強。進而,后續實驗在對數據集中面部相關區域進行抽取后,使用數據增強技術對抽取得到人臉圖像數據進行增強,進而開展后續檢測模型的訓練和鑒別。
2.1.3 相關參數設置
模型采用均方根傳遞(Root Mean Square Prop,RMSProp)優化方法[26]對模型參數進行更新。RMSProp優化器是隨機梯度下降方法的一種變體,通過計算模型梯度,進而對模型參數進行動態更新。該優化器針對梯度震動較大的項減小其更新速度,對于震動幅度較小的項加速其下降速度,是一種有效且使用的深度神經網絡優化算法,其更新策略如下:
(12)
gi=momentum×gi+(1-momentum)i
(13)
(14)
wi=wi+Δi
(15)

同時,學習率(learning rate)是神經網絡訓練中重要的超參數之一,在本文的模型訓練過程中選用動態學習率根據模型訓練的輪數動態調整其學習率大小。結合模型特點和收斂情況,本文選用指數學習率模式。
模型針對于深度偽造檢測中的二分類問題設置損失函數為交叉熵損失,并使用PyTorch中的BCEWithLogitsLoss函數進行計算。其計算公式為:
loss=p·y·logσ(x)+(1-y)·log(1-σ(x))
(16)
其中σ表示在模型輸出的基礎上增加Sigmoid層進行平滑化,p表示正樣例的權重。在本實驗中,由于偽造樣本和真實樣本的數量并不完全對等,在實際代碼實現時設置p為正負樣本數量之比,從而確保模型對于偽造圖像檢測的召回率。
最終,本文首先使用三維人臉數據增強算法及人臉檢測方法對DFDC、FF++及Celeb-DF三個數據集進行預處理。然后使用EfficientNet作為骨干特征提取網絡,融合Transformer架構融合作為最終檢測模型。而后使用PyTorch對上述過程編程實現,將損失函數設置為BCEWithLogitsLoss,使用RMSProp優化器對模型參數進行優化。
最終可得模型在DFDC數據集上的測試結果如表2所示。

表2 DFDC數據集測試結果對比
模型在FaceForensics++數據集上的測試結果如表3所示。

表3 FaceForensics++(c23)數據集測試結果對比(%)
模型在Celeb-DF數據集上的測試結果如表4所示。

表4 Celeb-DF數據集測試結果對比(%)
根據上述結果對比可得,模型在檢測任務上取得了較好的效果。其中,在DFDC數據集上表現效果相較于基于模型集成和EfficientNet-B7的方法表現仍有差距。其原因可能是因為所引用論文中模型運用了大模型或多個模型集成,其檢測結果往往在大規模計算集群上計算數周才能得到。而本文中僅使用4塊GPU并行運算三天左右,所得出的結果可能尚有一定的優化空間。
值得注意的是,由于DFDC中提到的兩個大模型并未在FaceForensics++及Celeb-DF數據集上做測試。因此本文與其他已發表成果進行了對比,可以明顯發現模型取得了較好的檢測效果。但是在NeuralTextures及Celeb-DF上測試準確率仍低于80%,仍有一定的改進空間。在觀看兩個數據集中視頻發現,其對應視頻偽造痕跡較少,看起來真假難分,邊緣不一致性十分不明顯,給模型檢測帶來了一定的難度。
2.2.1 模型消融實驗
為檢驗本文所提出方法對于增強模型泛化能力,提升模型檢測效果及模型可解釋性所起到的作用,實驗過程中還對數據增強方法、Transformer架構及融合注意力機制對于深度偽造檢測效果展開了消融實驗。實驗證實,三種方法都能在一定程度上提升模型的泛化能力、提升模型檢測精度,證明了方法的有效性。
2.2.2 融合Transformer架構對于檢測效果的影響
深度偽造檢測中的可解釋性問題一直是模型致力于解決的問題。Afchar等曾在提出MesoNet檢測方法[30]時對卷積神經網絡中的激活關注區域進行可視化,可得效果如圖11所示。

圖11 卷積神經網絡關注區域激活圖[31]
其中,雖能觀察到其關注區域在人臉相關區域,但是細節特征并不明顯,無法有效解釋模型判斷所依據的區域和偽造類型。而上一節中基于Transformer架構的注意力可視化則可明顯發現模型對于關鍵器官、人臉邊緣的關注度,證明了Transformer架構相較于傳統模型的良好可解釋性。
另一方面,根據上一小節中與Face X-ray[8]的對比不難發現,即使不使用數據增強,模型仍具有較強的泛化能力,說明了模型相較于傳統的檢測模型表現出的較強泛化能力。
而后還針對Transformer架構中的不同注意力頭,使用注意力可視化方法[29]對單個圖片的激活熱力圖進行評估分析,可得可視化效果如圖12所示。

圖12 模型注意力區域可視化
由上圖12可觀察到,模型不同注意力頭對人臉的不同區域的激活有所側重。人臉主體特征、邊緣輪廓以及眼口鼻等關鍵器官是檢測推斷的重要依據,可以根據不同人臉圖像的注意力可視化圖分析對應圖像的偽造類型和區域,展示了模型一定程度的可解釋性。
2.2.3 數據增強方法對于檢測效果的影響
數據增強的主要目的即針對于有限樣本提出一種擴展方法,使得模型不僅僅局限于數據集中的圖片類型、顏色分布以及其他偏置,還具有較好的泛化能力,使得模型能夠較好地遷移到其他數據集。
本文主要采用三種方法進行對比,第一種本文(w/o)是僅進行Resize和Normalization的數據處理方式,第二種本文(w)是使用圖像旋轉、亮度變化、隨機裁剪等操作的增強方式,第三種是在第二種的基礎上增加3D投射的增強方式。由于時間限制,數據增強方式對于模型的效果僅在FaceForensics++四個數據集上分別進行訓練,進而在DFDC及Celeb-DF兩個數據集上進行評估,其消融實驗結果如表5所示。

表5 數據增強效果對比
由表5可得,數據增強對于提升模型的泛化能力起到了顯著的作用,相較于無數據增強,后兩種數據增強方式均大幅提升了在未觀測數據集上的檢測效果。其中使用3D投影方式進行增強的方式相較于傳統的數據增強在一定程度上有所提升,但在部分測試任務上表現并不出色,可能是由于該數據增強方式過于泛化,致使模型學到過多噪聲特征。下一步擬為該數據增強方式增加正則化限制,防止其添加過多噪聲。
2.2.4 全局局部融合機制對于檢測效果的影響
根據上文中實驗結果分析不難發現,全局局部融合機制能夠取得相較于基礎模型更優的檢測效果。且在相同訓練任務中可以發現,融合機制能使得模型更加快速地收斂并取得更優的檢測效果,訓練過程如圖13所示。

圖13 全局局部融合機制對于檢測效果影響
本文基本完成了基于三維人臉數據深度偽造增強方法以及增強的深度偽造檢測方法。融合Vision Transformer模型和EfficientNet特征,采用多GPU并行化訓練模型,綜合集成MTCNN人臉檢測方法及EfficientNet特征提取方法,使得模型計算效率顯著提升,較好地權衡了檢測準確率及速度,便于實際部署應用,使得模型在不需要知識蒸餾及模型集成的基礎上能達到較好的檢測效果,且加入注意力頭的可視化,進一步提升了模型的可解釋性。對數據增強技術進行融合運用,創新性地將3D人臉圖像映射應用于模型中,較好地提升了模型的泛化能力。提出一種基于local-global機制的融合注意力方法,使得模型既能捕捉局部細節信息,又能學習人臉全局特征,進一步提升了模型的學習能力。在未來中可以采用自監督學習等更加有效的學習方式對深度偽造視頻特征進行學習,從而學到偽造視頻相較于真實視頻更本質更泛化的圖像特征。另一方面,可以對擬保護的人物如重要政治人物、軍事目標等視頻采用主動防御技術對視頻進行保護,防止主流視頻偽造手段的篡改,提升偽造視頻的門檻及鑒別度,達到主動保護的目的。同時,模型的輕量化也在成為一個重要的研究方向[31]。