999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

視頻深度偽造檢測技術及應用

2023-02-23 04:55:06孫煒晨田青羅曼劉健
警察技術 2023年1期
關鍵詞:深度檢測方法

孫煒晨 田青 羅曼 劉健

1. 公安部第一研究所 2. 多維身份識別與可信認證技術國家工程研究中心 3. 螞蟻集團

一、背景

近年來,隨著人工智能技術的快速發展,越來越多的人從工作、學習、生活等多個方面感受到科技的發展給人們帶來的便利。作為引領第四次科技革命的核心技術之一,人工智能在推動經濟發展、滿足人民群眾對物質文化的需求上帶來了重大且深遠的影響。

2022年冬奧會期間,全球首個AI手語合成主播“小聰”用流暢的手語解說了谷愛凌在中國女子雪上項目奪得首金后激動人心的瞬間,有效幫助了聽障人士便捷、高效地接收資訊信息,更好地享受人工智能技術發展帶來的便利。2021年9月2日,第八批在韓中國人民志愿軍烈士遺骸回國。人民日報微信公眾號發布了利用深度合成技術將老照片中志愿軍的黑白面孔逼真還原的短視頻,讓大家一睹革命先烈的風采。這些成功案例的背后,深度合成技術的發展起到了至關重要的作用。深度合成作為一種人工智能內容合成技術,隨著技術成熟度的不斷提高,在影視制作、廣告營銷、社交娛樂等領域應用推廣開來,越來越多的互聯網企業、平臺、機構開始利用深度合成技術面向公眾提供產品和服務,根據其本身的性質可以分為三類。第一類是具有積極作用的應用,比如深度合成技術用于電影、教育媒體和數字通信、游戲和娛樂、醫療保健以及各種商業領域等。第二類是比較中性的深度合成應用,主要是娛樂方面的深度合成產品。第三類屬于惡意的深度合成應用,也稱為深度偽造(Deepfake),這一類深度偽造被用于某種特殊的目的,往往會給國家安全、社會治理帶來嚴峻的威脅和挑戰,如利用深度偽造技術抹黑政治人物、利用深度偽造技術合成色情視頻等。本文將從視頻深度偽造攻防對抗的機理出發,通過對當前視頻深度偽造及檢測技術進行整理和歸納,并對各類模型方法的優劣勢進行分析,探索未來技術潛在的發展方向,促進視頻深度偽造檢測領域的發展。

二、視頻深度偽造攻防對抗

深度偽造技術就是近些年來出現的一種利用人工智能、深度學習等新技術控制音視頻、圖像或文本內容,產生誤導效果的一種深度合成技術,尤其在圖像和視頻領域應用最為普遍,其合成的偽造圖像和視頻可以模仿目標的面部表情、動作、語音、語調等信息,起到足以“以假亂真”的效果。

深度偽造攻擊主要是通過生成對抗網絡(GAN)模型實現的,因此,對抗深度偽造攻擊的手段可以從模型學習角度出發,即依賴完備的訓練數據、魯棒的人工智能模型等。目前,學術界和工業界均已對深度偽造檢測開展了大量研究和探索,并取得了一定的成效,主要分為基于視頻圖像本身成像特征分析的方法和基于數據驅動的深度學習方法兩類。基于視頻圖像本身成像特征分析的方法通過分析視頻圖像中的光照不連續性、陰影不連續性或幾何位置不一致等圖像的物理特征,分析視頻圖像成像設備傳感器噪聲差異性和色差差異性特征,利用人的眨眼頻率、脈搏、心率、血流等生理信號特征來辨別視頻圖像的真偽。基于數據驅動的檢測方法是通過在大量真實和虛假視頻圖像數據上訓練深度學習模型,使深度學習模型學習到能夠有效區分真假視頻圖像的特征表示,在深度偽造檢測方面取得了一定的成果,但現有的深度偽造檢測模型只針對特定的深度偽造攻擊類型有效,對未知類型的深度偽造攻擊檢測的泛化性亟待提高。

新型深度偽造方法的層出不窮,加上深度偽造檢測模型適應性的局限等,深度偽造檢測技術面臨“強對抗性”,需要持續更新和迭代優化。類似于博弈的過程,深度偽造和檢測在不斷學習攻防過程中會自我進化,規避上一代的對抗技術。

三、視頻深度偽造技術發展歷程

(一)視頻深度偽造技術分類

深度偽造技術中最廣為人知的一種應用形式就是AI換臉,是指用另一個人臉來替換一張圖片或視頻中的一個人臉,合成新的圖片或視頻。如圖1所示,AI換臉把源圖片(Source Image)中的人臉替換到目標圖片(Target Image),形成換臉圖片(Swapped Image)。

從視覺圖像的角度,人臉深度偽造的生成技術一般可劃分為四大類:換臉(Replacement)、活化(Animation)、編輯(Editing)、合成(Synthesis)。接下來將展開介紹這四類生成技術的具體做法。

換臉Replacement,也叫Face Swap,是公眾最熟知也最常見的一種深度偽造技術。如圖2所示,它是指將源人臉圖像Xs的身份內容轉移或者替換到目標人臉圖像Xt上,使得篡改后的圖像具備源身份Xs。這里在篡改人臉身份時的操作又可以細分為轉移Transfer和交換Swap兩種。前者是將Xs的人臉區域直接覆蓋到Xt的面部;而后者則是僅僅將Xs的ID特征替換給Xt,但是Xt原有的面部表情等會被保留[1]。

活化Animation,也叫表情重演(Facial Reenactment),如圖3所示,它是指使用源人臉圖像Xs中的行為、動作或表情來驅動目標人臉圖像Xt,使得Xt的行為和Xs一樣,包括各種表情、眼部嘴巴的動作以及整個頭部的位姿等[2,3]。

編輯Editing,如圖4所示,是指添加、更改或刪除目標人臉圖像Xt的一些人臉屬性,比如,更換目標對象的發型、眼鏡、年齡、顏值、膚色和種族等屬性[4]。

合成Synthesis,如圖5所示,是指在沒有任何目標身份作為參考基礎的情況下,憑空創建虛擬的角色,如直接用GAN或者其它生成模型生成人臉,沒有明確的目標[5]。

(二)視頻深度偽造生成模型介紹

目前,雖然深度偽造技術都能夠生成虛假和篡改的人臉圖像,但是換臉和活化才是最大的安全隱患,因為這兩種偽造技術能夠控制人臉的身份和動作,從而進行更定向的攻擊和詐騙。本部分將簡單介紹一下換臉和活化常見的生成流程,如圖6所示,大致分為四步:

(1)人臉圖像物料準備(Identity Ready):一般需要提取準備好源人臉圖像Xs作為驅動,目標人臉圖像Xt作為被篡改對象;

(2)預處理階段(Preprocessing):進行人臉檢測、對齊和截取,并提取一些中間態的特征備用,如關鍵點、輪廓邊界、3DMM參數和UV圖等;

(3)模型生成和篡改(Generation):基于源圖像Xs所提供的身份或動作等驅動信號,使用CNN或GAN深度模型來對目標圖像Xt進行篡改并生成一張新的假臉圖像Xg” ;

(4)后處理階段(Postprocessing):將生成的假臉Xg” 通過圖像融合技術貼回到目標圖像的背景區域,有時還會引入超分辨率和圖像和諧化等技術來改善造假痕跡,最終得到完整的Deepfake假臉Xg。

目前深度偽造所使用的生成網絡通常使用5種基礎神經網絡的變種或組合構建得來:編碼解碼網絡(Encoder-Decoder,ED)、卷積神經網絡(Convolutional Neural Network,CNN)、生成對抗網絡(Generative Adversarial Networks,GAN)、圖像風格轉換網絡(Style Transfer GAN)、遞歸神經網絡(Recurrent Neural Network,RNN)。

1. 編碼解碼網絡(Encoder-Decoder,ED)[6]

該網絡至少包含一個編碼器En和一個解碼器De,連接編碼器和解碼器的中間層較窄,基本架構如圖7所示。Deepfake技術通常會使用多個編碼器或解碼器,并通過操縱編碼e來影響輸出。編碼解碼網絡的優點在于結構簡單,適用范圍廣,并且可以通過多層堆疊的方式提升模型的表示能力。但由于多層堆疊時,按照逐層貪婪訓練的方式,模型訓練缺少全局優化,導致模型的性能受限。

2. 卷積神經網絡(Convolutional Neural Network, CNN)

與全連接網絡不同的是,CNN卷積網絡擅長學習數據中局部的結構模式并組合得到高層次的表征,因此其在處理圖像方面效率更高。如圖8所示,通過卷積、池化和上采樣層,可以靈活地組合和構建用于圖像處理的編解碼。但由于結構的局限性,對視頻、語音、自然語言處理的能力不足,而且模型訓練需要大量有標注的樣本,模型性能與訓練樣本的數量、質量、多樣性、標簽顆粒度、標簽準確性等正相關,訓練難度較大。

3. 生成對抗網絡(Generative Adversarial Networks,GAN)

4. 圖像風格轉換網絡(Style Transfer GAN)

Pix2Pix[8]和 CycleGAN[9]是 兩 種 流 行的圖像風 格 轉 換 網絡,其網絡架構如圖10、圖11所示,使用的都是GAN基本原理。Pix2Pix使用的是一種監督式、成對式的訓練方式,巧妙地利用了對抗生成網絡框架解決圖像風格轉換這類問題。其提升版本Pix2PixHD可用來生成具有更好保真度的高分辨率圖像,但訓練需要大量的成對圖片,對數據有嚴苛要求。

5. 遞歸神經網絡(Recurrent Neural Network,RNN)

RNN是一種可以處理序列和可變長度數據的神經網絡,其基本架構如圖12所示。RNN具有能夠處理任意長度的輸入,且具有模型參數規模不隨輸入長度增加的優點,但計算速度慢、難以獲取很久以前的信息等缺點限制了RNN模型的應用。隨后出現的RNN升級版長期短期記憶(LSTM)和門遞歸單元(GRU)模型在一定程度上緩解了RNN的缺點。在Deepfake制作中,RNN通常用于處理音頻、視頻。

(三)視頻深度偽造技術應用及存在的威脅

近年來,隨著Deepfake生成技術的不斷成熟,也有越來越多的換臉工具被開源出來,例如FaceSwap、DeepFaceLab、FaceSwap-GAN等[10,11],甚至還出現了不少指導Deepfake生成的社區和平臺。即使是一些沒有技術背景的人們,在教學視頻的指導下,也能夠生成一些Deepfake篡改過的照片或者視頻。這也導致了Deepfake生成技術被廣泛應用到各行各業,其性質好壞不一。

Deepfake技術的出現,在推動娛樂與文化交流產業的新興發展方面起到了積極的作用。

(1)電影制作:電影制作中創建虛擬角色、視頻渲染、聲音模擬;

壓力是一把雙刃劍,它既能摧毀意志,也能激發斗志。作為一名校長,在學校實際管理中總會遇到許多壓力,比如安全壓力、升學壓力等等。如何處理好這些壓力,讓它在學校發展中起到作用?我認為,在壓力面前要提前籌謀,尋找科學穩妥的方式才能化壓力為動力。

(2)人物復活:“復活”歷史人物或已逝的親朋好友,實現“面對面”溝通,創造一種新型的交流方式;

(3)數字人主播:全數字化控制的新聞主播和購物導播,實現了一種現代科技化的信息傳播方式。

Deepfake生成技術更多的是一些消極應用,常被用于誤導輿論、擾亂社會秩序,甚至可能會威脅人臉識別系統、干預政府選舉和顛覆國家政權等,已成為當前最先進的新型網絡攻擊形式。

(1)色情制作:2017年網絡和平臺上顯著出現,2019年Deeptrace公司調研估計換臉視頻96%是色情;

(2)虛假新聞:發布或歪曲知名政客的言論,愚弄公眾等;

(3)金融詐騙:利用合成的語音和刷臉視頻進行金融詐騙;

(4)影像篡改:將個人面孔交換到電影明星身體插入影視剪輯中,侵犯版權;

(5)司法干擾:篡改罪犯照片干擾司法取證,移除CT或MRI醫療影像中證據進行保險欺詐。

Deepfake大多數都是因其有害應用而聞名,面對Deepfake所帶來的巨大威脅,不少國家制定了政策法規來防止Deepfake技術的濫用。Deepfake是一種可以將目標人的面部圖像疊加到源人的視頻上,以創建目標人做或說源人的事情的視頻的技術。美國在《2018年惡意偽造禁令法案》中規范了兩類主體即制作深度偽造內容引發犯罪和侵權行為的個人,及明知內容為深度偽造還繼續分發的平臺。歐盟也在2019年4月發布了《人工智能道德準則》,并將隱私和數據管理作為可信賴人工智能需要滿足的七個要素之一。

四、視頻深度偽造檢測技術發展歷程

Deepfake的快速發展和應用,給個人隱私數據、社會穩定和國家安全等造成了潛在威脅,針對深度偽造內容的檢測和防御現已成為世界各國政府、企業組織乃至個人所關注的熱點問題之一。

(一)深度偽造檢測技術的主要方法和手段

大多數圖像檢測方法不能直接用于視頻檢測,因為視頻壓縮后幀數據會嚴重退化[12]。視頻具有在幀組之間變化的時間特性,對于僅為檢測靜態圖像設計的方法具有挑戰性。使用跨視頻幀的時間模式的檢測方法主要基于深度遞歸網絡模型來檢測Deepfake視頻,如圖13所示,Fake Video Detection的檢測方法可大致分為兩類:采用幀間時序特征的方法和探索幀內視覺偽影的方法[13]。

1. 幀間時序特征的方法

幀間時序特征是利用視頻流的時空特征來檢測深度偽造,視頻操作是在逐幀的基礎上執行的,可以認為由面部操作產生的低級偽影會進一步表現為跨幀不一致的時間偽影。

(1)循環卷積模型(RCN)

基于卷積網絡DenseNet和門控循環單位的集成,以利用幀之間的時間差異。如圖14所示,檢測過程分兩步,第一步預處理步驟包括檢測、裁剪和對齊視頻中一系列幀上的人臉區域,第二步通過結合卷積神經網絡(CNN)和循環神經網絡(RNN)來區分真假面部圖像[14]。

(2)時間感知管線

此方法強調深層視頻包含幀內不一致(Intra-Frame Inconsistencies)和幀之間的時間不一致(Temporal Inconsistencies),使用CNN和長短期記憶(LSTM)來檢測Deepfake視頻。如圖15所示,CNN用于提取幀級特征,并將其饋入LSTM以創建時間序列描述符,最后使用一個全連接網絡根據序列描述符計算屬于真假幀序列的概率[15]。

采用幀間時序特征的方法有效利用了視頻流中的時序信息,提取篡改幀圖像在特征空間中的異常信息,提升了深偽檢測領域的整體性能,但模型復雜度高、計算開銷大、模型訓練難收斂等缺點也影響了這類方法的應用和推廣。

2. 幀內視覺偽影的方法

視覺偽影是由于缺乏整體一致性,入射照明的錯誤或不精確估計或底層幾何結構的不精確估計而引起。視頻的偽影檢測通常是將視頻分解為幀并探索單個幀內的視覺偽影以獲得判別特征,再將這些特征分配到深層或淺層分類器中以區分真假視頻。目前有些Deepfake檢測方法基于眼睛、牙齒和面部輪廓的視覺特征來檢測偽影,進而判斷人臉視頻的真偽[16]。

基本原理是通過搜索特定類型的偽影,人眼對偽影或許不易察覺,但機器學習和取證分析法容易檢測。常見的圖像空間域的幾種偽影類型[17]如圖16所示:

(1)融合(Blending):生成的內容重新融合到圖像幀時會產生一些偽影,檢測方法比如邊界檢測、質量度量、頻率分析。

(2)環境(Environment):偽造的臉部內容和圖像幀的剩余部分可能是不協調的,比如面部變形過程中的殘差、光照、保真度變化。

(3)取證(Forensics):分析模型在偽造品中留下的細微特征和樣式,比如GAN會留下獨特的指紋可能用于識別生成器、分析相機的獨特傳感器噪聲(PRNU)識別粘貼的內容、尋找視頻中幀序列的殘差、尋找缺陷并預測和監測臉部特征點(如頭部姿勢往往不一致)。

(4)生理(Physiology):基于生成的內容缺少生理信號的假設,比如監測心率識別偽造的面部、監測皮膚下血容量(脈搏)、監測不規則的眨眼模式,相反也有利用脈搏信號構建Deepfake模型。

(5)同步(Synchronization):不一致也是一個揭示因子,比如可以把語音和嘴巴的輪廓特征點相關聯檢測視頻配音攻擊、檢測嘴型和語音因素的不一致。

針對上述偽影特征,可以使用不同類型的分類器(即深層或淺層)進行檢測:

(1)深分類器(Deep Classifiers):Deepfake視頻通常以有限的分辨率創建,需要仿射人臉變形方法(縮放、旋轉、剪切)以匹配原始視頻的配置(比如分辨率)。由于扭曲的面部區域和周圍環境的分辨率不一致,此過程留下了CNN模型可檢測到偽影特征,如VGG16、ResNet50、ResNet101和ResNet152等[18]。

(2)淺分類器(Shallow Classifiers):由于Deepfake 在人臉生成流程中存在缺陷,部分方法通過觀察3D頭部姿勢之間的差異(包括頭部方向和位置)來檢測視頻真偽,該方法基于中央面部區域的68個面部關鍵點進行估算,檢查3D頭部姿勢,提取的特征被饋送到機器學習的SVM淺層分類器中以獲得檢測結果。此外還可以使用隨機森林(Random Forest,RF)、多層感知機(MLP)等淺層分類器[19]。

采用視覺偽影檢測方法,充分利用了深度偽造往往通過逐幀的方式對面部的特定區域進行篡改的特點,將深偽檢測問題轉化為視覺偽影檢測問題。但這種方法難以捕捉視頻幀間時間的不一致性,且對全圖合成的檢測效果不佳,應用層面仍有局限性。

3. 數字水印技術

除了以上被動采用深度學習方法發掘合成視頻中細微紋理差異來檢測視頻真偽的措施以外,數字水印技術(Digital Watermarking)作為一種主動防御的手段,也可在避免合成技術的濫用中發揮關鍵作用。

和視覺可見的明水印不同,數字水印通過在媒體作品如音頻、視頻、圖像、文本中嵌入不可見的信息,從而實現信息隱藏、版權認證、追蹤溯源、真實性驗證等作用。空域LSB方法是最簡單的嵌入數字水印的方法,任何一幅圖片都具備一定的容噪性,這表現在像素數據的最低有效位(Least Significant Bit,LSB)對人眼的視覺影響很小,該方法的數字水印信息就隱藏在圖像每一個像素的最低位或次低位,實現其不可見性。還有頻域水印的方法,如圖17所示,先通過傅里葉變換或者小波變換將圖像變換到頻域,并在頻域對圖像添加水印信息,再通過逆變換將圖像轉換為空間域。相對于空域手段,頻域手段所添加的數字水印隱匿性更強,抗攻擊性更高。目前這類方法仍處于探索階段,未來有望與前兩類方法結合使用,從主動和被動兩個層面提高深偽檢測的性能和適用性,能夠在應用領域快速擴展。

(二)深度偽造預防與緩解

Deepfake為社會帶來改變的同時,隨著深度合成(偽造)視頻技術門檻降低,黑灰產通過一些手段靠此來牟取不正當利益,例如不法分子用換臉軟件生成當紅女明星的色情視頻并出售;合成知名企業家的視頻,進行網絡詐騙等。這些“雜音”也為合成技術的發展蒙上了陰影。

針對上面這種現象,從政府到企業,都在采取不同措施來解決Deepfake合成技術的反面問題。2022年,國家互聯網信息辦公室發布《互聯網信息服務深度合成管理規定(征求意見稿)》,規定深度合成服務提供者對使用其服務所制作的深度合成信息內容,應當通過有效技術措施在信息內容中添加不影響用戶使用的標識,依法保存日志信息,使發布、傳播的深度合成信息內容可被自身識別、追溯。谷歌也將Deepfake加入到了Colab的禁止項目列表當中,以避免Deepfake技術的濫用。此外,學術界也進行大量研究,例如采用深度學習的方式,利用CNN卷積網絡來檢測合成視頻中的偽影線索和不一致性,以辨別視頻真偽。從國家層面的立法保護,到企業層面的防御政策,再到學術界的檢測技術研究,通過多方聯防聯控能夠在一定程度上防范Deepfake所帶來的社會危害。

此外,未來的Deepfake生成技術會越來越實用和有效,實時深度偽造也會越來越逼真,我們需要提前做好預防[20,21]:

(1)考慮攻擊對手的下一步,而不只是當前攻擊的弱點:評估這些攻擊的理論極限,比如找出生成模型延遲的邊界以檢測實時攻擊、確定GAN的限制以設計適當的策略。

(2)探索當前Deepfake檢測器的弱點和局限性:通過識別和了解潛在的安全漏洞,才能制定出更強大的真偽檢測方案。

五、結語

深度合成內容模糊了真實世界和虛擬世界的邊界,讓人們重新審視“眼見為實”的認識論權威。目前,深度偽造鑒別需求逐漸增加且難度顯著提升。一方面通過技術手段對抗層出不窮的偽造方法,另一方面深度偽造治理監管機制亟需建立和完善。隨著《網絡音視頻信息服務管理規定》《網絡信息內容生態治理規定》《中華人民共和國民法典》《互聯網信息服務算法推薦管理規定》《互聯網信息服務深度合成管理規定》相繼出臺,有效規范了深度合成技術合法應用,促進深度合成技術健康、持續發展。

猜你喜歡
深度檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
深度理解一元一次方程
深度觀察
深度觀察
深度觀察
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 91精品视频网站| 极品国产一区二区三区| 亚洲天堂777| 亚洲天堂.com| 国产欧美另类| 国产免费人成视频网| 亚洲视频影院| 久久婷婷五月综合97色| 亚洲品质国产精品无码| 视频二区中文无码| 在线亚洲小视频| 成人精品亚洲| 日韩午夜福利在线观看| 在线观看91香蕉国产免费| 丰满少妇αⅴ无码区| 亚洲日韩Av中文字幕无码| 亚洲an第二区国产精品| 91九色国产在线| 午夜免费视频网站| 欧美va亚洲va香蕉在线| 日本黄网在线观看| 日本久久网站| 美女扒开下面流白浆在线试听 | 波多野结衣一区二区三视频| 欧美色综合网站| 日韩在线2020专区| 日韩欧美国产精品| 国产91精品最新在线播放| 国产AV无码专区亚洲精品网站| 国产成人AV综合久久| 91亚洲免费视频| 国产美女无遮挡免费视频| 国产性生交xxxxx免费| 国产97视频在线观看| 国产一区二区三区精品欧美日韩| 久久无码免费束人妻| 国产精品女同一区三区五区| 欧美日韩一区二区三区四区在线观看 | 国产永久在线视频| 国产视频入口| 精品福利国产| 欧美天堂久久| 人妻中文久热无码丝袜| 成人永久免费A∨一级在线播放| 91探花国产综合在线精品| 67194在线午夜亚洲| 国产精品第页| 亚洲最新地址| 欧美福利在线| 成人亚洲天堂| 国产免费网址| 91亚洲精选| 大陆精大陆国产国语精品1024| 久久免费视频播放| 亚洲无码高清免费视频亚洲| 欧美午夜精品| 一区二区三区高清视频国产女人| 精品亚洲欧美中文字幕在线看| 日韩国产精品无码一区二区三区| 亚洲乱强伦| 国产专区综合另类日韩一区| 深夜福利视频一区二区| 国产69精品久久| 欧美一级99在线观看国产| 日本色综合网| 日韩无码视频网站| 国产69囗曝护士吞精在线视频| 91在线免费公开视频| 欧美日韩理论| 97免费在线观看视频| 日韩午夜伦| 91综合色区亚洲熟妇p| 欧美成人精品一级在线观看| www.狠狠| 色婷婷成人| 亚洲第一香蕉视频| 国产成人在线小视频| 99视频精品全国免费品| 亚洲区视频在线观看| 欧美精品成人| 日本人妻丰满熟妇区| 日本不卡免费高清视频|