999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度偽造與檢測技術綜述*

2021-03-06 09:29:06李旭嶸紀守領吳春明劉振廣鄧水光孔祥維
軟件學報 2021年2期
關鍵詞:深度特征檢測

李旭嶸 ,紀守領 ,吳春明,3 ,劉振廣 ,鄧水光 ,程 鵬 ,楊 珉,孔祥維

1(浙江大學 計算機科學與技術學院,浙江 杭州 310007)

2(阿里巴巴,浙江 杭州 311121)

3(之江實驗室,浙江 杭州 310000)

4(浙江工商大學 計算機與信息工程學院,浙江 杭州 310018)5(浙江大學 控制科學與工程學院,浙江 杭州 310007)

6(復旦大學 計算機科學技術學院,上海 201203)

7(浙江大學 管理學院,浙江 杭州 310007)

近年來,以Deepfakes[1]為代表的換臉技術開始在網絡興起.此類技術可將視頻中的人臉替換成目標人物,從而制作出目標人物做特定動作的假視頻.隨著深度學習技術的發展,自動編碼器、生成對抗網絡等技術逐漸被應用到深度偽造中.由于Deepfakes 技術只需要少量的人臉照片便可以實現視頻換臉,一些惡意用戶利用互聯網上可獲取的數據,生成眾多的假視頻并應用在灰色地帶,如將色情電影的女主角替換成女明星,給政客、公司高管等有影響力的人偽造一些視頻內容,從而達到誤導輿論、贏得選取、操縱股價等目的.這些虛假視頻內容極其逼真,在制作的同時往往伴隨著音頻的篡改,使得互聯網用戶幾乎無法鑒別.如果這些深度偽造的內容作為新聞素材被制作傳播,這會損害新聞機構的聲譽和公眾對媒體的信心.更深層次的,當遇到案件偵查和事故取證時,如果缺乏對Deepfakes 類虛假影像資料的鑒別,將對司法體系產生巨大的挑戰.盡管深度偽造技術有其積極的一面,如“復活”一些去世的人進行影視創作,以及Zao APP[2]提供大眾換臉娛樂服務等,但是目前負面影響遠遠大于正面,擁有鑒別此類深度偽造視頻的能力變得尤為重要.

為了盡量減少深度偽造技術帶來的影響,消除虛假視頻的傳播,學術界和工業界開始探索不同的深度偽造檢測技術.相繼有學者構造數據集,展開對Deepfakes 檢測的多角度研究.臉書公司也聯合微軟一起舉辦全球Deepfakes 檢測競賽[3]以推動檢測技術的發展.然而這些Deepfakes 檢測工作各有側重,存在眾多局限性.針對本領域的綜述工作還比較缺乏,只有針對早期圖像篡改工作的一些總結[4,5],亟需對現有工作進行系統的整理和科學的總結、歸類,以促進該領域的研究.

本文第1 節介紹深度偽造的各種相關技術.第2 節列舉出當下深度偽造研究的數據集.第3 節對現有的深度偽造檢測技術進行系統的總結和歸類.第4 節討論深度偽造生成和檢測技術的雙面對抗性.第5 節總結面臨的挑戰和未來可行的研究方向.最后,第6 節對全文的工作進行總結.

1 深度偽造生成技術

現有的深度偽造圖像主要是指臉部的篡改,而臉部篡改偽造主要分為兩大類:一類是換臉偽造,通過交換兩張圖像的人臉達到人身份修改的目的,其技術從傳統的3D 重建方法發展到現在以生成對抗網絡為基礎的深度偽造;另一類是臉部表情屬性偽造,遷移指定表情等動作到目標圖像而不修改目標人臉標志,達到偽造表情或者特定動作目的,其技術也從基于3D 的圖形學方法演變到最新的深度學習方法.此外,制作深度偽造素材時通常還包含了語音的偽造,使得欺騙效果更佳.本節將對這些偽造生成技術進行概述,其中重點關注深度偽造技術,并總結了一些開源的生成工具.

1.1 換臉偽造技術

1.1.1 基于圖形學的偽造

在過去10 多年里,基于圖形學的人臉篡改技術一直被研究者所關注,Zollhofer 等人[6]綜述了當前比較主流的3D 模型重建追蹤等技術.FaceSwap[7]是基于圖形學的換臉方法,首先獲取人臉關鍵點,然后通過3D 模型對獲取到的人臉關鍵點位置進行渲染,不斷縮小目標形狀和關鍵點定位間的差異,最后將渲染模型的圖像進行混合,并利用色彩校正技術獲取最終的圖像.Kevin 等人[8]提出了在視頻里自動換臉的3D 方法,不需要大量的手動操作和硬件采集,只需要一個單相機視頻,通過用3D 多線性模型追蹤視頻中的人臉,并用相應的3D 形狀將源人臉仿射到目標人臉.Pablo 等人[9]用類似的3D 方法來替換目標視頻中演員的人臉,而保留原始的表情.Pablo等人[10]還設計了一個系統,通過高質量的3D 人臉捕捉技術,改變人臉從而匹配嘴巴的動作.Nirkin 等人[11]用分割的思路促進換臉,通過網絡分割出來的人臉估計3D 人臉形狀,最后融合源和目標這兩個對齊的3D 人臉形狀.

1.1.2 基于學習的偽造

盡管基于圖形學的臉部篡改方法研究了多年,但是時間開銷大、門檻高、成本大,使得這項技術很難普及.隨著深度學習技術的飛速發展,研究者們開始關注深度學習在人臉篡改上的應用[12].Deepfakes[1]是網絡上較早開源的基于深度學習的換臉項目,如圖1 所示,訓練兩個自動編碼器,兩個編碼器共享權重參數,使得兩個解碼器學會重建人臉的能力.訓練結束后,在換臉階段,交換兩個解碼器,從而使得換臉效果達成.這只需要具備原人物和目標人物的人臉圖片即可訓練,大大降低了使用門檻.但是也需要一定的訓練技巧,否則生成器的生成質量無法保障.鑒于此,研究者們開始關注GAN[13]技術的融合,Faceswap-GAN[14]就是增加了GAN 技術的Deepfakes,引入判別器的對抗損失函數,在生成的時候判別生成圖像和原圖的相似度,使得生成的圖像質量有大幅度提高,另外引入了感知損失函數增加眼珠的轉動效果.GAN 技術的加入使得換臉更加逼真自然,也一定程度增加了深度偽造技術的流行度.

Fig.1 Framework for Deepfakes generation[1]圖1 Depefakes 生成框架[1]

Korshunova 等人[15]將換臉問題視為風格遷移問題,訓練一個卷積神經網絡,從非結構化的圖片中學習這種外觀,并設計內容損失和風格損失函數來保障生成高質量真實度的人臉圖像.這些人臉轉換還是依賴于大量的源和目標人物的人臉圖片訓練,泛化性不強.Yuval 等人[16]基于GAN 技術提出了一個主體無關的人臉替換和重建方法,通過引入特定域感知損失、重建損失和對抗損失,可以應用于成對的人臉,不需要在大量人臉上訓練.除換臉外,GAN 技術還被廣泛用于生產虛擬的人臉和篡改人臉屬性.如StarGAN[17]、Stackgan[18]、PGAN[19]等一系列GAN 技術可以生成虛假的人臉,Grigory 等人[20]利用conditional-GAN[21]技術改變人的年齡,Rui 等人[22]利用GAN 生成不同的人臉視角而保持全局的結構和局部細節.GAN 技術的發展使得人臉的生成和屬性篡改都越來越真實,這也給人臉偽造的濫用留下了空間.

1.2 表情偽造技術

表情偽造是指不改變人臉的屬性,遷移其他人臉圖像的表情到目標人臉,從而達到目標人物做指定表情的目的.Thies 等人[23]基于一個消費級的RGB-D 相機,重建、追蹤源和目標演員的3D 模型并最后融合,從而進行實時的表情遷移.另外,Thies 等人[24]提出了Face2Face,通過利用3D 重建技術和圖像渲染技術,能夠在商業視頻流中進行人臉移動表情的修改.Head on[25]通過修改視角和姿態獨立的紋理實現視頻級的渲染方法,從而實現完整的人重建方法,包括表情眼睛、頭部移動等.Kim 等人[26]利用含有時空架構的生成網絡將合成的渲染圖轉換成真實圖,并能遷移頭部表情等動作.盡管現有的圖形學方法可以較好地合成或重建圖像,但是嚴重依賴于高質量的3D 內容.Thies 等人[27]提出了延遲神經渲染的框架,與渲染網絡一起優化神經紋理而生成合成的圖像,此方法可以在不完美的3D 內容上操作.Suwajanakorn 等人[28]利用循環神經網絡建立語音到嘴型動作的映射,可以匹配輸入的語音合成嘴型指定紋理動作.此外,還有針對人物特寫鏡頭中的圖像合成[29,30]、基于2D 仿射的源演員表情匹配[31]、基于網絡編碼空間的屬性修改的表情遷移[32]等相繼被研究者提出,不同場景的表情偽造技術日益成熟.

1.3 語音偽造技術

語音偽造也叫做語音版 Deepfakes,利用 AI 技術合成虛假語音.通常有文本到語音合成(text-to-speech synthesis,簡稱TTS)和語音轉換(voice conversion)兩種形式:文本到語音合成主要完成指定文本的語音信息輸出,而語音轉換是指轉換人的音色到目標音色.這些語音的合成不僅可以欺騙人的聽覺,還可以欺騙一些自動語音認證系統.早期的語音合成主要依賴隱馬爾科夫模型和高斯混合模型,而隨著深度學習技術的發展,語音合成和轉化技術的質量有了大幅度提高.來自谷歌的Oord 等人提出了WaveNet[33],這是第一個端到端的語音合成器,一種基于音頻生成模型,能夠產生于人相似的音頻.相似的文本到語音合成系統有 Deep voice[34]和Tacotron[35],均在原始語音材料上訓練,速度比WaveNet 更快.隨后,百度對Deep voice 進行了擴展,提出了Deep voice2[36],通過使用低維度可訓練的說話者編碼來增強文本到語音的轉換,使得單個模型能生成不同的聲音.Ping 等人提出的Deep voice3[37]進一步改進了之前的Deep voice 系列,Deep voice3 是一個基于注意力機制的全卷積TTS 系統,通過設計字符到頻譜圖的結構,能夠實現完全并行的計算,在不降低合成性能的情況下,速度更加快.Santiago 等人[38]則利用GAN 技術對語音的噪音進行過濾,提高了生成語音的質量.Chris 等人[39]提出了無監督音頻合成模型,能夠從小規模語音庫中學習生成可理解的詞匯.語音合成技術愈發成熟,且與視頻中的換臉偽造往往同時出現,使得鑒別的難度更大.

1.4 開源工具與商業軟件

隨著對深度偽造生成技術的深入研究,網絡上逐漸出現了眾多開源軟件和商業應用.已有文獻[40]做了部分總結,但是不夠全面.本文對其進行擴充和比較,結果見表1,主要分為人臉偽造和語音偽造.其中,人臉偽造主要分為兩類:一類是以Faceswap 為代表的在GitHub 網站上開源的偽造項目,此類項目均是對原始項目進行改進,或在新的深度學習框架下實現;另一類是商業化的APP,如Zao[1]、FakeAPP[41]、FaceApp[42]等提供換臉、修改表情或者人類屬性等功能.網上開源軟件需要使用者對深度學習相關知識比較熟悉,需要使用者擁有一定數量的人物圖像并在GPU 上進行訓練,訓練的穩定結果取決于使用者的專業水平.而商業化軟件的使用門檻很低,只需使用者上傳一張圖像就可以實現偽造目的.其中,FakeAPP 需要用戶安裝在有GPU 的電腦上使用.總的來說,開源軟件使用復雜,適合專業人士,并對生成效果進行改造;而商業軟件適合大部分普通非專業用戶,但是生成效果也取決于開發軟件的公司或組織.語音合成偽造已逐漸成熟,被大多數云服務廠商開發為接口服務向大眾開發,這里選取有代表性的軟件展示.這些軟件的流行和傳播使得深度偽造變得更加低門檻、大眾化,也進一步加劇了惡意用戶帶來的負面影響.

Table 1 Summary of Deepfakes tools表1 深度偽造工具匯總

2 深度偽造數據集

隨著深度偽造的泛濫,研究人員開始了針對這些偽造視頻、圖像和語音的研究,逐漸有新的數據集被開源以促進此領域的研究.數據集的質量和規模對深度偽造領域的研究尤為重要,學術界和工業界均開源了部分數據集以促進該領域的研究.本節將逐一介紹這些數據集(見表2).

Table 2 Open source dataset of the Deepfake表2 深度偽造開源數據集

Table 2 Open source dataset of the Deepfake (Continued)表2 深度偽造開源數據集(續)

2.1 深度偽造視頻數據集

· UADFV:此數據集素材取自YouTube,分別有49 個真實視頻和49 個合成視頻,合成視頻由FakeAPP[41]生成,每個視頻的平均長度是大約11s.然而,作為早期深度偽造研究的數據集之一,視頻分辨率較低、生成質量差,有較明顯的換臉痕跡,數量規模過于少,篡改類型比較單一.

· FaceForensics(FF):早期的大規模深度偽造數據集之一,素材來源于Youtube8M[62],選取該數據集中標簽為人臉、新聞播報員、新聞聯播的視頻以及YouTube 上有類似標簽的視頻共1 004 個,所有選取的視頻分辨率大于480p.除此之外,作者用人臉檢測器抽取視頻中的人臉序列,確保所選視頻連續300 幀中含有人臉,并手動過濾掉人臉遮擋過多的視頻以確保視頻質量.最后,采用Face2Face 的換表情的方法構造1 004 個假視頻.此數據集視頻規模大、源視頻人臉質量高,但是篡改痕跡明顯,篡改方式單一.

· FaceForensics++(FF++):目前較大規模、種類最多的深度偽造數據集之一.素材與FaceForensics 相似,取自YouTube 的1 000 個視頻.在篩選素材的過程中,同樣用人臉檢測器進行檢測,確保連續幀含有人臉,并手動過濾掉人臉遮擋過多的視頻以確保視頻質量.在這個數據集中,作者共采用4 種類型的人臉篡改來制作假視頻.

? Deepfakes:采用基于自動編碼器的Deepfakes 方法實現,訓練一對一的生成模型,可以實現一對一的換臉.

? Face2Face:采用Face2Face 方法實現.

? FaceSwap:采用FaceSwap 方法實現,基于3D 圖像的方法.

? Neural Textures:利用延遲神經渲染網絡優化紋理的方法實現.

其中,Deepfakes 與FaceSwap 屬于換臉偽造,Face2Face 與Neural Textures 屬于換表情偽造.4 種類型均在1 000 個原始視頻上生成對應的1 000 個假視頻,并對真假視頻均做了H.264 codec 壓縮方式中的C0、C23、C40 這3 種壓縮水平的壓縮.另外,數據集中還提供了對應人臉篡改位置的mask.然而這些篡改的質量不是很高,人眼能明顯觀察出篡改痕跡,修改的輪廓很明顯;同時,在合成的假視頻中還存在人臉閃爍現象.

· Deepfake-TIMIT:由Faceswap-GAN 方法生成,是第一個GAN 版本的Deepfakes 數據集.源數據是在VidTIMIT 中選取的32 個人(16 對相似的人)兩兩相互替換組成的視頻,每個人有10 個動作視頻,生成的假視頻有高清(128×128)和低清(64×64)兩個版本,共有640 段假視頻.生成質量比FaceForensics++要好,但是視頻分辨率不高,在臉部邊界處有少量痕跡.

· Mesonet data:早期深度偽造研究數據集,數據量較小,由YouTube 渠道搜集的網絡愛好者制作的偽造視頻與圖像.

· Celeb-DF:針對UADFV、FaceForensics++、Deepfake-TIMIT 等數據集的一些缺陷,如圖片分辨率不高、合成的視頻質量差、篡改痕跡粗糙、視頻人臉閃爍感過多等缺陷,對Deepfakes 生成方法進行改進,增大生成圖像的大小,并在訓練階段增加色調亮度、對比度等,以減小篡改區域與周邊區域的不一致性.此外,使用更加精準的人臉關鍵點定位信息減輕人臉閃爍現象.數據集由從YouTube 渠道下載的408個原始視頻和生成的795 假視頻組成,視頻的平均長度是13s,幀率是30.

· DeepfakeDetection(DFD):為了填充深度偽造數據的多樣性,谷歌公司征集28 個演員拍攝了363 個原始視頻,并將這些視頻截取成一個個場景不同的片段,最后對這些片段進行相互換臉,生成3 068 個假視頻.同樣,此數據集也提供了H.264 codec 壓縮方式中的C0,C23,C40 這3 種壓縮水平的壓縮版本.

· DFDC preview Dataset:為了推進深度偽造領域的研究,Facebook 舉辦了 The Deepfake Detection Challenge,在比賽前夕公開了預賽數據集,由5 214 個視頻組成,真假比例1:0.28,原始視頻均由66 個演員拍攝而成,假視頻有兩種篡改方式,大量的替換在相似人臉之間進行,如皮膚顏色、頭發、眼睛等.每個視頻均是15s 左右的小片段.

· DFDC:The Deepfake Detection Challenge 的正式數據集,共有119 196 個視頻,真假視頻比例約為1:5.原始視頻均由演員拍攝,視頻長度約為10s.視頻分辨率跨度很大,視頻場景涵蓋了多種復雜場景,如黑人黑背景、側臉、走動、強光、多人等.

· DeeperForensics-1.0:為了應對深度偽造研究數據量少的問題,南洋理工大學和商湯科技推出了大規模深度偽造數據集.研究人員從26 個國家收集了100 名演員的面部數據,演員在9 種燈光條件下轉頭做各種表情,并使用FaceForensics++中的1 000 個原始視頻作為目標視頻,其中,100 個演員的臉中的每一個都被交換為10 個目標.他們故意以35 種不同的方式扭曲每個視頻,以模擬現實情況,從而最終數據集包含50 000 個未修改的視頻和10 000 個修改的視頻.

以上深度偽造數據集的示例如圖2 所示.

Fig.2 Exmaples of Deepfakes datasets圖2 深度偽造數據集示例

2.2 深度偽造語音數據集

· ASVspoof 2015 database

為了應對語音合成欺騙的攻擊威脅,2015 年舉辦了第1 屆自動說話人認證競賽.該競賽上開放了第一個大規模偽造語音數據集,以期發現多樣的防御應對策略.數據集由10 種不同的語音合成和語音轉換欺騙算法生成,包含原始的和欺騙的語音數據.原始語音是由106 個人(45 男與61 女)說話記錄構成,這些記錄沒有噪音影響.其中,訓練集由3 750 個原始話語片段和12 625 個欺騙話語片段組成,驗證集由3 497 個原始話語片段和49 875個欺騙話語片段組成,測試集由9 404 個原始話語片段和184 000 個欺騙話語片段組成.

· ASVspoof 2019 database

2019 年,自動說話人認證競賽包含了所有語音欺騙類型的攻擊,如語音合成、語音轉換、語音重放等.將攻擊分類為兩種場景:第1 種場景是邏輯訪問,即直接將欺騙攻擊的語音注入到自動說話人認證系統,這些語音由最新的語音合成和語音轉換技術生成;另一種是物理訪問場景,語音數據由麥克風等設備捕捉到,再經一些專業設備重放.這些語音數據由107 個人(46 男與61 女)說話組成,其中,訓練集、驗證集、和測試集分別由20,10,48個人的語音數據構成.測試集中的攻擊類型與訓練驗證集中均不相同.

3 深度偽造檢測技術

隨著深度偽造技術的發展,互聯網上充斥著大量包含偽造人臉和語音的虛假視頻,Deepfakes 類技術的濫用帶來巨大的負面影響,如損壞他人名譽、偽造證據、傳播謠言,影響政客形象干涉選舉等.這也吸引了一批研究者對深度偽造檢測技術的重視.本節將綜述現有的一些代表性檢測工作,其中,前5 小節重點介紹研究較多的深度偽造視頻檢測,第6 小節概述偽造語音的檢測工作,并在第7 小節對這些工作進行總結.

3.1 基于傳統圖像取證的方法

傳統的圖像取證初始主要是基于傳統的信號處理方法,大多數依賴于特定篡改的證據,利用圖像的頻域特征和統計特征進行區分,如局部噪音分析、圖像質量評估、設備指紋、光照等,解決復制-移動[63]、拼接[64]、移除這些圖像篡改問題.而深度偽造視頻本質也是一系列偽造合成的圖片合成,因此可以將此類方法應用到深度偽造檢測.Lukas 等人[65]提出了數字圖像的相機設備指紋光響應不均勻性(PRNU),Chierchia 等人[66]進一步利用光響應不均勻性檢測小的篡改圖像.Jessica 等人[67]通過組裝噪聲分量模型提出了數字圖像的隱寫特征,隨后,噪聲特征被廣泛運用在圖像取證領域.此外,還存在諸多基于信號處理的取證方法,如利用JPEG 壓縮分析篡改痕跡[68]、向JPEG 壓縮的圖像中添加噪聲提升檢測性能[69,70]、利用局部噪音方差分析拼接痕跡[71]、利用色彩過濾矩陣(color filter array,簡稱CFA)模型[72]進行篡改定位等.然而隨著人工智能技術的發展,基于卷積神經網絡的深度學習技術在諸多任務上均超過了傳統方法,取證方法逐漸融合了機器學習方法特別是深度學習技術.此類方法檢測成功率高,不依賴特定類型的篡改痕跡,比傳統的信號處理方法魯棒性更好.Cozzolino 等人[73]設計了一個孿生網絡,在來自不同相機的圖像塊上訓練來提取圖片的噪音指紋,從而實現檢測.Zhou 等人[74]提出了基于雙流的Faster R-CNN 網絡,其中,RGB 流主要從RGB 圖像中輸入提取特征,從而發現強烈對比差異與不自然的篡改痕跡;而噪音流利用噪聲特征發現篡改區域與源區域的噪聲不一致性.最后,融合兩條流的特征進行學習兩個模態空間的信息.利用深度學習技術提取關鍵取證特征的工作也被不斷探究[75].Liu 等人[76]提出一個新的深度融合網絡通過追蹤邊界來定位篡改區域.Minyoung 等人[77]通過訓練照片所包含的相機EXIF 源數據指紋信息來區分圖片是否被拼接.Xiaodong 等人[78]根據全局與局部塊的特征不一致性學習一個半-全局網絡實現拼接定位.Cozzolino 等人[79]提出使用卷積神經網絡來學習基于殘差的特征,此類特征可以有效提升取證檢測和定位的性能.Chen 等人[80]則利用神經網絡學習自然模糊和人為模糊帶來的光直方圖不一致性.Zhou 等人[81]將隱寫噪聲特征和卷積網絡學習邊界特征結合,提出了一個雙流神經網絡的方法.具體是用一個臉分類流訓練一個GoogleNet[82]檢測篡改的人工痕跡,利用捕捉的局部噪音特征和拍照特征訓練一個基于塊的三元組(triplet)網絡,用這兩條流的得分,綜合判斷是否圖像被篡改.這是因為基于同一張圖像的隱藏特征是相似的,距離小;不同圖像的塊之間的隱藏特征距離大,用三元組訓練出塊的距離編碼后,用一個SVM 分類得到概率分數.

盡管基于取證的技術很成熟,但是在應對新的深度偽造視頻時仍存在很多短板,因為此類偽造視頻通常會被不同的后處理,如不同的壓縮方式、不同的壓縮率、不同的放縮合成.針對圖片級的取證技術更多關注局部的異常特征,仍然應對乏力,很容易被繞過,并不能直接應用到日益升級的深度偽造視頻檢測上.

3.2 基于生理信號特征的方法

生成的偽造視頻往往忽略人的真實生理特征,無法做到在整體上與真人一致,因此,基于生理信號的特征不斷被研究者挖掘.Yang 等人[83]認為Deepfakes 創造的是分離的合成臉區域,這樣在計算3D 頭部姿態評估的時候就會引入錯誤.因為Deepfakes 是交換中心臉區域的臉,臉外圍關鍵點的位置仍保持不變,中心和外圍位置的關鍵點坐標不匹配,會導致3D 頭部姿態評估的不一致,故用中心區域的關鍵點計算一個頭方向向量,整個臉計算的頭方向向量,衡量這兩個向量之間的差異.針對視頻計算所有幀的頭部姿態差異,最后訓練一個支持向量機(SVM)分類器來學習這種差異.Yang 等人[84]同時發現,GAN 網絡生成的假人臉在關鍵點位置分布上與真實人臉不盡相同,盡管生成的假人臉在臉部細節上與真人相似,但是自然性和連貫性還是與真人有很大的不同之處,通過將關鍵點歸一化的位置坐標作為特征喂入SVM 分類器進行學習.Li 等人[85]發現,正常人的眨眼頻率和時間都有一定的范圍,而Deepfakes 偽造視頻的人基本沒有眨眼現象,或者頻率跟正常視頻有較大差別,這可能是偽造視頻在生成時沒有豐富多樣的眨眼素材導致的.因此,作者將CNN 和循環神經網絡聯合一起,設計了長期循環卷積網絡來識別視頻中的狀態是否閉眼,從而最終判斷是否是偽造的假視頻.Ciftci 等人[86]從臉部抽取3 塊區域來測量光電容積脈搏波信號,并將信號轉換為一致性和連貫性特征,最后使用SVM 對特征進行二分類.類似的,Fernandes 等人[87]利用心率生物信號來區分偽造視頻,先通過血流造成的臉部皮膚顏色變化、前額的平均光密度、歐拉影像變化等3 種方法來提取心率,然后采用神經常微分方程模型訓練,最后測試Deepfakes 視頻時,主要依據正常視頻與異常視頻的心率分布不同.

基于生理信號特征的檢測方法大部分利用深度偽造技術的局限性,但是隨著生成技術的改進,如眨眼數據、頭部轉動、眼球轉動等的加入,使得此類方法失效.此外基于脈搏、心率等生物信號的方法會因為偽造視頻的壓縮等處理而準確度大大降低.

3.3 基于圖像篡改痕跡的方法

深度偽造圖像受限于早期深度網絡的生成技術,在生成的人臉在細節上存在很多不足.因此,有研究者對此展開了探索.Li 等人[88]認為Deepfakes 算法生成的圖像分辨率有限,之后需要被轉換到匹配替換的臉,這使得Deepfakes 的視頻中留下更多可以辨別的人工痕跡,這個可以被深度神經網絡有效地捕捉.作者人工構造了大量的負樣本,如將要替換的人臉進行高斯模糊、旋轉等操作后放縮到源位置,這個扭曲的人臉人工痕跡就保存了,最后使用Resnet50[89]網絡區分這些偽造視頻或圖像.同標記視覺人工痕跡篡改視頻類似,Matern 等人[49]利用真假臉的不一致性來區分,如:

(1) 全局不一致性:新的人臉的生成,圖像的數據點插值是隨機的,并不是很有意義,這會導致的全局眼睛的左、右顏色不一致,鼻子的左、右色彩等.

(2) 光照不一致性:篡改區域和正常區域對光照的反射不一樣,如眼睛區域,Deepfakes 生成的視頻大多丟失這個眼睛反射細節.

(3) 幾何位置不一致:細節位置缺失,如牙齒,只有一些白色斑點,這個細節沒有建模.通過對這些特定區域(牙齒、眼睛等)提取的特征向量訓練多層感知機進行分類.

盡管基于篡改痕跡的方法在一些數據集上表現良好的檢測能力,但是這些數據集大多是早期的生成器生成的,隨著生成技術的提升,高分辨率和更多細節處理的偽造圖像不斷出現,同時容易受到一些對抗措施的影響,如加噪、壓縮、放縮,會使得這類方法的檢測能力大大減弱.

3.4 基于GAN圖像特征的方法

由于當前的深度偽造視頻大部分借助了GAN[13]技術,因此研究GAN 生成技術的特點也成為了檢測偽造圖像的方法之一.研究[90,91]發現:GAN 生成技術改變了圖像的像素和色度空間統計特征,通過對特征共生矩陣的學習來區分生成圖像的差異.Xuan 等人[92]使用圖像預處理,如濾波、噪音等預處理方法破壞GAN 圖像低級別的生成缺陷,迫使模型學習高級別的固有的線索.Scott 等人[93]發現:GAN 生成器的中間值通常通過歸一化來限制輸出,這一定程度上也會限制飽和像素的頻率.此外,生成器在多通道使用的權重與真實相機的光敏感度有很大不同,通過對這兩個指標進行量化提取分類特征.也有相關研究嘗試用GAN 指紋[94,95]來區分偽造,不同的GAN 生成的圖片在中間分類層具有唯一的特征,可以作為GAN 生成器的辨別指紋.

Wang 等人[96]提出了FakeSpotter,利用神經元監控的方法來進行分類,原理如圖3 所示.使用神經元覆蓋的方法觀察真假圖像經過人臉識別器中的神經元激活變化情況,用SVM 去學習神經元激活的差異,而假臉在神經元覆蓋的行為上表示相似.

Fig.3 Using neuron coverage method to track fake face features[96]圖3 利用神經元覆蓋方法追蹤假臉特征[96]

此類基于GAN 特征的方法會依賴GAN 的結構,使得特征分類器在已有的生成器行為上過擬合,而無法處理未知的生成器,泛化能力很差.研究不同GAN 結構生成偽造圖像的共同特點,依然是一個研究難題.

3.5 基于數據驅動的方法

新的偽造生成算法和數據量的規模都在不斷增加,使得研究者開始關注用基于數據驅動的方式來學習這些Deepfakes.基于數據驅動的學習方法主要分為兩大類:一類是圖片級,將視頻處理成幀,設計不同的網絡結構,對幀進行判別,實現幀級的識別,最終對視頻的幀進行綜合決策;另一類視頻級,利用循環神經網絡學習幀序列的時序特征對一個視頻進行整體判斷.

3.5.1 基于圖片級學習的方法

Afchar 等人[54]設計了多個小的卷積模塊來捕捉篡改圖像的微觀特征,Rossler 等人[51]利用Xception[97]架構對視頻的全幀和人臉分別訓練.結果顯示,基于人臉訓練的模型效果遠遠好于全幀模型.同時,實驗結果顯示:在面對高度壓縮的圖片時,模型的訓練難度會上升且檢測率會下降.其中,利用人臉關鍵點信息提升性能的結論也被Songsri-in 等人[98]實驗證實.Nguyen 等人[99]設計了膠囊網絡來判別造假的圖片或視頻,通過抽取人臉,用VGG-19[100]提取特征編碼,然后輸入膠囊網絡進行分類.Mo 等人[101]增加高通濾波和背景作為CNN 輸入,對檢測結果有提升.Durall 等人[102]通過離散傅里葉變換提取特征學習,顯示了很好的效果.Ding 等人[103]利用遷移學習,使用Resnet18 進行調優;同時對于這些部署的關鍵系統,對每個預測提供一個不確定水平,如每個神經網層絡輸出值差異.現有的神經網絡能夠快速地過擬合特定的篡改痕跡,學習到的features 有高度的區分性,但是缺乏遷移性.Cozzolino 等人[104]設計了一個新的基于自動編碼器的神經網絡結構,能夠學習在不同的擾動域下的編碼能力,只需要在一個數據集上訓練,在另一個數據集上獲取小規模進行調優,就能達到很好的效果.在此基礎上,Nguyen 等人[105]設計了Y 型解碼器,在分類的同時融入分割和重建損失,通過分割輔助分類效果.此外,一些針對現有神經網絡結構的修改也被研究:Hsu 等人[106,107]采用對比損失尋找不同生成器生成的圖像的特征,后面再連接一個分類器進行分類;Dang 等人[108]設計了特定的CGFace 網路,專門檢測計算機生成的人臉;Bayar 等人[109]設計了受限制的卷積層學習特定的篡改特征;Stehouwer 等人[110]通過在主干網絡增加注意力機制來聚焦篡改區域;Rahmouni 等人[111]加入了計算統計數據的全局池化層.Li 等人[112]則設計了基于圖片塊的雙流網路框架,如圖4 所示,一條流學習人臉塊的微觀特征,另一條流學習人臉和背景區域的差異性.通過多任務學習,能夠較好地提升模型的泛化能力.

Fig.4 Multi-task forgery classification framework based on image patches[112]圖4 基于圖像塊的多任務偽造分類框架[112]

基于圖片級的學習方法是現有研究較多的方向之一,借助深度學習強大的學習能力和日益大幅增長的數據集,學習篡改圖片的特點可行且高效.此類方法不僅可以判斷單幀圖像的真偽,還可以利用組合策略檢測視頻幀,應用范圍較廣,但是也存在很多局限性,學習到的模型大多數依賴相同的數據分布,在面對未知篡改類型時很乏力[113,114];同時,對高度壓縮的視頻幀檢測能力會大幅下降.此外,如果視頻中的篡改人臉非常少,這對基于圖片級方法的綜合決策策略提出了挑戰.

3.5.2 基于視頻級學習的方法

Agarwal 等人[115]發現:作為個體,他們有不一致的面部表情和移動,通過追蹤面部和頭部移動然后抽取特定動作集合的存在和強度,臉部肌肉的移動可以編碼成動作單元,再利用皮爾森系數對特征之間的相關性進行擴充,最后在擴充后的特征集合上建立一個新的單分類SVM 來區分各類造假視頻.然而實驗結果顯示:雖然AUC達到0.9 以上,但是召回普遍不高,實用性較差.

Amerini 等人[116]探索幀間光流的不同,采用VGG16 學習光流的差異并進行分類,因為光流是連續幀間的運動差異計算的,自然拍攝和偽造的視頻之間的運動差異很大.

Guera 等人[117]考慮用循環神經網絡處理深度偽造的序列數據,因為多個相機視角,光照條件的不同,不同的視頻壓縮率使得生成器很難產生實際真實的在不同條件下的臉,這個會導致交換的臉在剩下的場景下看起來不一致.此外,因為生成器沒辦法意識到皮膚或者其他場景信息,所以新臉和剩下幀之間的融合性差,不同幀場景間的光源會引起大多數臉部閃爍現象,這個可以被時序網絡較好地捕捉到.

整體框架如圖5 所示,分為兩階段分析器,一個CNN 抽取幀內feature,輸入一個測試序列,CNN 獲取一個每一幀的特征集合,然后將這些多個連續的幀特征集串聯傳輸到LSTM 分析,并產生一個概率估計.

相似地,Sabir 等人[118]采用雙向時序網絡和人臉對齊結合的方法學習偽造序列,結果顯示,基于關鍵點的人臉對齊與Bidrectional-recurrent-denset 對視頻的篡改檢測最佳.

基于視頻級的學習方法可以學習到視頻的時序特征,如前后幀的不一致、人臉區域的不穩定等一些篡改視頻均會出現的缺陷,泛化性較好;同時,也能檢測到視頻中的少量篡改.但是基于時序特征的檢測依然對視頻的預處理很敏感,如視頻壓縮、背景光線的變化等,也無法判斷單幀的真偽.

Fig.5 Frame sequences are learned by recurrent neural networks and convolutional neural networks圖5 循環神經網絡和卷積神經網絡學習幀序列

3.6 深度偽造語音檢測

隨著合成偽造語音技術的發展,對偽造語音的檢測工作也在興起.尤其是2019 年自動說話人語音認證競賽(ASVspoof2019)的舉辦,產出了一些針對性的語音欺騙工作.初始偽造語音檢測主要是傳統的信號處理方法,研究者嘗試對不同低水平的頻譜特征進行建模,如Todisco 等人[119]提出的常量Q倒譜系數(constant-Qcepstral coefficients,簡稱CQCC)、Wu 等人提出的歸一化的余弦相位和修改的群延遲[120,121],在一些音頻處理技術上有效,但是在ASVspoof2019 數據集上泛化性很差.有研究[122]針對ASVspoof2019 數據集進行了數十種聲學特征分析,結果顯示,這些聲學特征均不能在未知類型欺騙攻擊有很好的泛化性.隨后,基于深度學習的檢測方法逐漸被研究者所關注.Zeinal 等人[123]利用CQT 特征[124]和功率譜圖特征進行學習,并分別使用網絡混合、VGG 與light CNN、VGG 與Sincnet 應對物理訪問和邏輯訪問場景的攻擊.目前,語音欺騙系統檢測的最大問題是泛化能力,Alejandro 等人[125]提出了基于光卷積門的循環神經網絡來同時抽取幀級的淺層特征和序列依賴的深層特征,檢測率在ASVspoof2019 數據集上顯示有很大提升.Chen 等人[126]通過隨機掩去相鄰的頻率頻道、加入背景噪音和混合噪聲提高檢測系統的泛化性.

偽造語音的檢測從傳統信號處理方法發展到深度學習方法,在應對語音欺騙領域取得了一定的成果,但是現有方法還是依賴特定攻擊類型,對未知類型攻擊檢測的泛化性提升還有很大的空間.

3.7 檢測技術總結

前述研究工作在提出的同時,大多在開源數據集上進行了評測,本文將主流的深度偽造檢測算法在公開數據集上的檢測表現總結見表3.所有數據均由論文的實驗整理而得,大多數是深度偽造視頻檢測的工作.其中,主要評估指標有準確率(Acc)、ROC 曲線面積(AUC)、等錯誤率(EER);Raw、HQ、LQ 分別代表原生態、高清和低清;DF/F2F/FS/NT 分別是FF+中4 種篡改類型的縮寫.

Table 3 Performance evaluation of representative methods on major test sets表3 代表性方法在主要測試集上的性能評估

Table 3 Performance evaluation of representative methods on major test sets (Continued)表3 代表性方法在主要測試集上的性能評估(續)

此外,如前文所述,深度偽造視頻檢測歸納為5 大類的檢測算法適用于不同的場景,也在不斷的推進發展中,但是都存在一定的局限性,各有優劣,總結見表4.

Table 4 Advantages and disadvantages of various detection methods are summarized表4 各類檢測方法優劣總結

4 深度偽造的對抗性研究

4.1 深度偽造生成的對抗性

基于深度偽造生成的人臉能夠修改人的身份屬性,還可以操控人臉做不同的表情,這使得依賴人臉識別的應用存在著重大威脅.而針對人臉識別的對抗性攻擊一直層出不窮.Goswami 等人[128]研究發現:對人臉圖片的遮擋和加噪等操作,能夠一定程度欺騙人臉檢測器VGGface[129]和Openface[130].文獻[131,132]利用查詢優化的方式對人臉圖片進行加噪,以此來繞過人臉識別引擎.Song 等人[133]使用注意力機制和生成對抗網絡生成指定語義信息的假人臉,使得人臉識別器誤判.Majumdar 等人[134]研究發現:對人臉部分區域的修改和變形,可以讓人臉識別器有很高的誤識率.人臉識別系統的脆弱性,使得基于深度偽造的Deepfakes 類技術更容易攻擊成功.Korshunov 等人[52,135]測試了基于VGGnet[100]和FaceNet[136]的人臉檢測器的安全性,通過輸入生成的Deepfakes視頻,發現這兩類人臉檢測器分別有85.62%和95.00%的錯誤接受率,說明人臉檢測器分辨不出深度偽造人臉和源人臉.

4.2 深度偽造檢測的對抗性

深度偽造檢測算法大部分均采用了神經網絡技術,而神經網絡本身存在著對抗樣本攻擊[137-139].對抗樣本攻擊是一種對模型輸入進行擾動,從而使模型產生誤判的技術.這使得深度偽造技術在生成的時候可以隱藏自身的一些特征從而繞過檢測,因此對檢測算法進行對抗性評估也十分必要.Wang 等人[140]研究發現:不同的GAN生成的偽造圖像都留下特定的指紋特征,雖然依賴于指紋特征訓練的檢測器泛化能力不好,但是對訓練數據進行預處理,如增加JPEG 壓縮、模糊等操作,大大提高模型的泛化性能,同時在檢測時對圖片進行后處理,可以增加模型的魯棒性.但是Neves 等人[141]設計了一個自動編碼器能夠將合成的偽造圖像移除指紋等信息,讓現有的偽造檢測系統失效.Brockschmidt 等人[113]對深度偽造檢測器(Xception[51]、Mesonet[54])進行了對抗性評估,作者采用6 個偽造數據集對檢測器的可靠性進行探測,結果顯示:在同分布的數據集上,檢測器均能達到非常高的檢測率;但是在未知篡改類型數據集上,只有特征重合程度高的數據集之間遷移性較好,否則檢測效果非常差.Marra 等人[142]則模擬了篡改圖片在社交網絡的場景中的檢測,結果顯示,現有的檢測器在現實網絡對抗環境下(未知壓縮和未知類型等)表現很差.Zhang 等人[143]尋找GAN的共有痕跡,提高檢測器的魯棒性.現有的檢測器對數據依賴強,泛化性不夠,Du 等人[144]利用局部性感知的自動編碼器實現造檢測,使得模型聚焦篡改區域,通用性更強.Huang 等人[145]則借鑒了對抗樣本的思想,對這些基于神經網絡的檢測器進行對抗性攻擊,設計了單個對抗攻擊和通用對抗攻擊兩種方式,使得檢測器的篡改分類和定位失效.盡管現在已經存在眾多的檢測器,在一些數據集上表現很好,但是攻擊者依然可以完善生成方法,隱藏一些標志性特征從而繞過檢測器,這是一個長期的攻防博弈過程.

5 總結與展望

5.1 技術風險

深度偽造技術的發展給社會帶來了巨大的負面影響,從社會國家領導人到普通的互聯網公民,都有被此類技術侵害的可能性[146].對深度偽造技術帶來的技術風險如下.

(1) 輿論負面影響:如色情電影的制作、政治家的謠言傳播,會嚴重損害個人名譽.

(2) 對人臉認證的影響:目前大多依賴活體檢測來識別視頻攻擊,如果在沒有活體檢測的應用場景以及活體功能失效的場景,如端劫持,對換臉的人與本人的識別面臨挑戰.

(3) 對視頻人臉識別系統的影響:通過追蹤視頻人臉并識別的技術面對挑戰,換臉的視頻與真人的視頻分辨不出來.

(4) 影響司法體系:由于缺乏完全可靠的鑒別深度偽造數據的能力,法院需要重新審視圖片或者視頻證據的效力.

(5) 影響經濟活動:名人的假視頻能讓股市瞬間暴跌.

而這些風險后面還隱藏著國家治安穩定、倫理道德、經濟發展、信任危機等更深層次的社會問題,亟需研究更有效的應對措施.

5.2 研究難點

從深度偽造技術誕生至今,有不少的研究工作展開對偽造圖像或視頻進行檢測,但是依然沒有完美的解決方案[40],在檢測領域依然存在著諸多研究難點問題.

(1) 壓縮方式的不同、壓縮率的不同:視頻不同于圖片,在上傳到網站時會做不同的壓縮方式處理;同樣,視頻在線下制作時也可以做不同的后處理裁剪壓縮,這會使得很多篡改特征模糊甚至消失.制作者甚至可以對視頻中的部分幀進行壓縮處理,人為地增加檢測難度.此外,不同的壓縮方式和壓縮率下的數據分布也有很大不同,這也意味著基于學習的方法會很容易在已有的訓練集上過擬合.現有的檢測方法還無法有效地檢測未知壓縮的視頻,大多是在訓練集中擴充壓縮的數據,增加模型的決策邊界以此來應對壓縮[51].此類方法本質還是基于同分布壓縮的假設.

(2) 視頻分辨率的不同:互聯網上的視頻質量和大小各異,不同的視頻有著不同的分辨率,人臉大小跨度從幾百像素到百萬像素級別.如果統一放縮到指定大小處理,會喪失部分特征,在一定程度上影響著檢測器的特征提取,這就需要檢測算法從根本上考慮不同尺度特征的融合.

(3) 篡改算法未知:生成算法層出不窮,不同的生成算法篡改的側重點不同,所具有的特征也不盡相同.基于學習的方法雖然能快速捕捉到訓練集中的人臉篡改特征,但是大多是擬合已有的生成器特征,對未知的篡改類型不魯棒.現有的應對方法大多是將新的生成算法數據集加入到訓練集[51,112],以此來提高跨生成算法之間的檢測率.如何設計魯棒性強、泛化性能高的檢測算法,依然是難點.

(4) 一些復雜的對抗場景:真實網絡世界中的視頻遠遠比公開數據集的復雜度要高的多,而且存在較強的對抗性.一些在實驗數據上表現很好的模型,在面對真實網絡偽造數據集時可能束手無策.如多人臉的視頻如何無誤地檢測、針對只有部分幀部分區域篡改的視頻如何區分、視頻里過強或過暗的光線對人臉檢測的影響如何評估等,人臉生成偽造者在制作的同時也會考慮加入這些對抗性場景,以此來降低檢測效果,這些復雜場景對偽造檢測算法帶來巨大的挑戰.

5.3 未來研究方向

雖然針對偽造圖像或語音的檢測已經取得了一部分研究成果,但目前該領域的研究依然存在諸多關鍵問題尚待解決.同時,一些新的生成技術的發展成熟,會讓此類深度偽造的鑒別工作越來越困難.針對以上的難點和問題,我們可以考慮從多角度多層次來探索深度偽造檢測未來可行的方向.

(1) 研究泛化性好的檢測算法:已有的檢測方法容易依賴特定的數據集和生成算法,泛化能力很弱.這往往是由于訓練數據的單一同分布所致.僅僅粗暴地對數據直接學習并不能滿足多樣的偽造類型,需要探索盡可能多的深度偽造類型,尋找其中的共性特征,如生成器的指紋[94,95]、不同偽造數據中人臉與嘴唇一致性差異等.通過對共性特征的學習,使得檢測模型能夠適用于更多的深度偽造類型.

(2) 研究魯棒性強的檢測算法:論文中展現的檢測算法大多在單一的場景下測試,而現實世界中常常面對壓縮、噪音等復雜情況,使得檢測算法不魯棒.可以在訓練階段和測試階段對數據進行壓縮、放縮等預處理,探索不同預處理對檢測算法魯棒性的影響.同時,還可以將對抗樣本技術應用到檢測模型的魯棒性提升上,探索檢測模型在對抗樣本攻擊下的缺陷,進而可以利用對抗環境下生產的對抗樣本對模型進行對抗訓練以增加模型的魯棒性.此外,已有的數據集大多數都為單人臉的真偽鑒別,檢測模型缺乏應對視頻中多人臉的復雜場景.如何在保證準確率的同時對視頻中多人臉的篡改進行判斷,是一個具有挑戰性的課題.

(3) 研究主動防御算法:現有的檢測算法總是依賴已發現的深度偽造類型,對未知類型的偽造數據檢測很被動,這使得檢測算法總是落后于生成技術.可以從兩個角度進行主動防御:第1 種思路是利用對抗樣本技術對上傳到互聯網上的媒體數據注入對抗噪音,如注入對抗人臉檢測的噪音,使得人臉檢測技術在預處理人臉數據時檢測錯位或失敗,從而使得依賴人臉檢測技術的深度偽造換臉技術不再精準,導致換臉異?;蚴?第2 種思路是控制視頻傳播的源頭,對互聯網上的視頻進行溯源,研究視頻網站上的視頻追蹤技術,如Hasan 等人[147]嘗試用區塊鏈技術對互聯網上的視頻進行追蹤.

(4) 研究深度偽造圖像和偽造語音的融合檢測技術:現有針對深度偽造的檢測技術基本只關注了一個單一的偽造領域,而偽造的多媒體數據通過圖像和語音結合能達到更逼真的效果.因此,對偽造數據進行圖像語音多模態的檢測是一個有意義的方向.如,Facebook 舉辦的深度偽造檢測競賽[58]已經增加了同時篡改音頻和圖像的數據類型.這種偽造類型將會越來越普遍,帶來的負面影響也會更大.針對此類偽造的檢測研究也給單模態(圖像或語音)偽造的檢測提供了思路.

(5) 建立研究性社區:現有的研究資源沒有得到很好地共享,缺乏如全球研究者認可維護的研究性網站.對現有的研究數據集共享,需要建立統一的社區,集中現有零散的數據資源,讓研究者們能更好地利用已有的資源和成果.現有網站[56]在開源部分數據集,但是力度不夠,需要集成大規模數據集并公開現有最好的評估指標,定期舉辦學術研討會和比賽,增加研究者們對深度偽造檢測領域的關注度.

(6) 進行司法立法:深度偽造的檢測僅僅依靠技術手段可能不能完美地解決問題,因為生成與檢測是一個永恒博弈的過程,僅依靠一門檢測技術來杜絕深度偽造現象不太現實,需要社會建立完整的法律體系,對惡意制作或傳播的互聯網用戶進行一定的懲戒.如美國加州[148]已經立法,禁止制作政治人物的偽造視頻,同時也明確規定了制作色情偽造人物視頻屬于違法行為.中國的互聯網信息辦公室也發行了《網絡信息內容生態治理規定》[149],其中明確規定,網絡信息內容服務使用者、內容生產者和內容服務平臺不得利用深度學習、虛擬現實等新技術新應用從事法律、行政法規禁止的活動.盡管已出臺了相關法律抑制深度偽造的濫用,但是此類法律還不健全,如何區分偽造視頻是屬于娛樂和惡性傳播等在法律邊界游走的現象,還需要相關部門建立更加完整細致的法律體系.

(7) 培訓新聞工作者:法律和技術檢測能一定程度增加惡意偽造傳播的代價,但是給社會帶來的負面影響無法挽回,這需要在視頻傳播的源頭進行控制,如一些社交媒體,特別是主流媒體承擔著大量的視頻圖像的傳播任務,需要對這些新聞工作者進行專業培訓,培養鑒別一些假視頻的能力,從源頭減少偽造視頻的傳播,降低負面影響.同時,對本身制作視頻的新聞工作者,要明確在視頻上打上是否偽造的標簽,以減少新聞媒體的誤導能力.

6 結束語

隨著深度學習技術的發展,深度偽造技術會不斷完善,生成更加逼真難以鑒別的視頻和語音數據.這對深度偽造的檢測提出了巨大的挑戰.盡管已存在有一些針對深度偽造檢測的工作,但是都依賴特定的數據集或者場景,依然存在許多關鍵的科學問題尚待解決.為了理清現有研究的進展,明確未來研究方向,本文從生成技術、研究數據集、主流檢測方法進行總結,回顧了大量極具影響力的研究成果,并對相關研究進行了科學的分類、總結和分析.同時,本文指出了深度偽造檢測領域當前面臨的挑戰,探討了未來可行的研究方向,旨在為推動深度偽造檢測領域的進一步發展和應用提供指導和參考.

猜你喜歡
深度特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
主站蜘蛛池模板: 午夜福利在线观看入口| 在线a网站| 色综合久久综合网| 国产精品va免费视频| 精品色综合| 天堂va亚洲va欧美va国产| 免费看黄片一区二区三区| 国产打屁股免费区网站| 91在线日韩在线播放| 国产精品免费p区| 国产菊爆视频在线观看| 色综合久久无码网| 久久久久青草大香线综合精品| 又大又硬又爽免费视频| 成年人免费国产视频| a级毛片视频免费观看| 青青草国产精品久久久久| 欧美一区二区人人喊爽| 在线毛片网站| 欧美一区二区三区欧美日韩亚洲 | 免费看一级毛片波多结衣| 欧美日本在线播放| 大学生久久香蕉国产线观看| AV天堂资源福利在线观看| 高清欧美性猛交XXXX黑人猛交| 精品久久高清| 重口调教一区二区视频| 亚洲人成日本在线观看| 亚洲欧美日韩中文字幕在线一区| 国产精品深爱在线| 熟女成人国产精品视频| 欧美激情首页| 中国一级特黄视频| 91探花在线观看国产最新| 欧美在线天堂| 亚洲日韩精品伊甸| 四虎精品国产AV二区| 欧美另类精品一区二区三区| AV无码一区二区三区四区| 色婷婷狠狠干| 国产精品999在线| 无码福利日韩神码福利片| 欧美在线视频a| 综合色天天| 国产精品白浆在线播放| 91精品国产福利| 亚洲av无码牛牛影视在线二区| 中美日韩在线网免费毛片视频| 精品久久久无码专区中文字幕| 亚洲美女视频一区| 国产小视频在线高清播放| 国产成人久久综合777777麻豆| 亚洲一级毛片在线观播放| a级高清毛片| 欧美国产精品拍自| 精品视频福利| 三上悠亚在线精品二区| 国产欧美日韩综合一区在线播放| 欧美日韩动态图| 久久人体视频| a级毛片免费在线观看| 国产毛片片精品天天看视频| jizz亚洲高清在线观看| 无码国内精品人妻少妇蜜桃视频| 8090成人午夜精品| 日本午夜视频在线观看| 精品福利国产| 美女被操黄色视频网站| 国产精品伦视频观看免费| 国产视频一二三区| 亚洲首页在线观看| 国产精品尤物在线| 92精品国产自产在线观看| 91精品网站| 92精品国产自产在线观看| 国产免费福利网站| 色妞www精品视频一级下载| 国产亚洲精品91| 少妇精品久久久一区二区三区| 91在线精品麻豆欧美在线| 久久频这里精品99香蕉久网址| 亚洲乱码精品久久久久..|