



關(guān)鍵詞:視頻幀插值;數(shù)字視頻取證;被動(dòng)取證;真實(shí)性鑒別
中圖分類號(hào):TP309 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-8395(2023)04-0438-10
doi:10. 3969 / j. issn. 1001-8395. 2023. 04. 002
1 研究背景
受惠于智能手機(jī)等便攜式視頻采集設(shè)備的普及和便利的移動(dòng)互聯(lián)網(wǎng)等,數(shù)字視頻已成為人們?nèi)粘I钪袀鬟f和獲取信息的重要載體. 同時(shí),AdobePremier、愛(ài)剪輯等視頻編輯軟件的發(fā)展,使得數(shù)字視頻編輯越來(lái)越容易. 尤其是近幾年使用生成對(duì)抗網(wǎng)絡(luò)(GAN)的深度偽造和基于深度修復(fù)的Deep Nude等造假技術(shù),合成的虛假視頻達(dá)到了前所未有的、足以“以假亂真”的程度. 如果這些惡意篡改的虛假視頻在主流社交媒體中廣泛傳播,例如普京和特朗普等政治人物在社交媒體中涌現(xiàn)的虛假視頻,不僅損害數(shù)字視頻“眼見為實(shí)”的可信性,而且可能誤導(dǎo)社會(huì)輿論,嚴(yán)重影響公共信任秩序,甚至危害國(guó)家安全和社會(huì)穩(wěn)定. 實(shí)際上,幾乎在每一次的重大事件中,社交媒體中都會(huì)出現(xiàn)誤導(dǎo)性視頻和照片,尤其是在人工智能時(shí)代出現(xiàn)的深度偽造視頻. 深度偽造的視頻,已經(jīng)成為人工智能時(shí)代不可回避的網(wǎng)絡(luò)空間安全問(wèn)題. 因此,迫切需要發(fā)展相應(yīng)的取證技術(shù),對(duì)傳播的數(shù)字視頻進(jìn)行識(shí)別和取證.
為了防范和打擊深度視頻內(nèi)容偽造的惡意使用,需要“法防”和“技防”并舉. 為此,我國(guó)頒布了《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》等法律法規(guī),以防范深度視頻偽造等可能帶來(lái)的政治和社會(huì)風(fēng)險(xiǎn). 同時(shí),為了有效地辨識(shí)深度視頻偽造等虛假信息并提供有說(shuō)服力的證據(jù),迫切需要發(fā)展數(shù)字媒體取證技術(shù). 近些年涌現(xiàn)的深度視頻篡改,不再采取簡(jiǎn)單地搜索空間或時(shí)間上的相似片去填充待篡改視頻幀的傳統(tǒng)方法,而通過(guò)數(shù)據(jù)驅(qū)動(dòng)方式,學(xué)習(xí)視頻數(shù)據(jù)集的潛在規(guī)律或潛在特征分布,從而合成待篡改視頻幀. 這種方式嚴(yán)重削弱甚至完全克服了傳統(tǒng)視頻篡改所遺留的取證痕跡,在很大程度上弱化了現(xiàn)有被動(dòng)取證方法的性能,甚至使之失效. 因此,針對(duì)深度視頻篡改的被動(dòng)取證更加具有挑戰(zhàn)性,也是現(xiàn)階段視頻被動(dòng)取證亟待解決的新問(wèn)題[1-2].
視頻幀插值利用運(yùn)動(dòng)估計(jì)/ 補(bǔ)償策略或深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)視頻幀率上轉(zhuǎn)(FRUC),包括傳統(tǒng)的運(yùn)動(dòng)補(bǔ)償幀插值(MCFI)和深度視頻幀插值(DVFI),其中,人工智能時(shí)代衍生的深度視頻幀插值獲得了越來(lái)越多的關(guān)注. 它最開始應(yīng)用于影視節(jié)目的制作,生成慢運(yùn)動(dòng)效果和視頻預(yù)測(cè)的外插幀,提升視頻的幀率. 然而,它也可以被用于更改視頻原始語(yǔ)義或者屬性等惡意用途. 例如,在社交媒體網(wǎng)站中,偽造者可能會(huì)通過(guò)拼接不同設(shè)備捕捉的不同幀率/ 碼率的視頻,采用視頻幀插值技術(shù)或軟件,比如FFMPEG 和愛(ài)剪輯等,提升幀率,以吸引用戶的關(guān)注和訪問(wèn). 當(dāng)這些虛假高幀率的視頻充斥在視頻共享網(wǎng)絡(luò)時(shí),既浪費(fèi)存儲(chǔ)空間,也誤導(dǎo)用戶在線觀看從而浪費(fèi)流量. 此外,這些視頻也可能來(lái)源于視頻監(jiān)控,偽造者可能利用視頻幀插值技術(shù)消除連續(xù)幀刪除或不同時(shí)段捕捉的視頻拼接后的畫面跳躍感,使得視頻內(nèi)容不再真實(shí)反映客觀事實(shí),給案件偵破和司法取證造成負(fù)面影響. 由于FRUC 能消除幀間篡改引起的跳躍效應(yīng),可用作反取證手段使得基于光流連續(xù)性的視頻幀間篡改取證工具失效. 因此,迫切需要發(fā)展針對(duì)視頻幀插值,尤其是深度視頻幀插值的被動(dòng)檢測(cè)技術(shù).
本文針對(duì)視頻幀插值篡改檢測(cè)技術(shù)展開綜述,從視頻幀插值固有的原理特性和視頻幀插值技術(shù)手段遺留痕跡的角度,分析和總結(jié)現(xiàn)有的視頻幀插值篡改手段和檢測(cè)取證方法,并且對(duì)未來(lái)本領(lǐng)域的發(fā)展進(jìn)行展望.
2視頻幀插值技術(shù)及其痕跡分析
本節(jié)從視頻幀插值的插值原理和采用的合成技術(shù)2 個(gè)角度出發(fā),分析傳統(tǒng)視頻幀插值和深度視頻幀插值技術(shù)可能遺留的取證線索,其技術(shù)細(xì)節(jié)和遺留痕跡總結(jié)如表1 所示.
2. 1 視頻幀插值原理和痕跡分析 視頻幀插值的基本原理是在連續(xù)兩幀間生成n 個(gè)插值幀(n≥1).假設(shè)F(x,y,t)= RM × N × T 為待插值的原始視頻序列,其中x、y 和t 分別表示空間橫、縱坐標(biāo)和時(shí)間索引[16],x∈[1,2,…,M],y∈[1,2,…,N],t∈[1,2,…,T],那么Fi(x,y,t + i)(0 < i < 1)表示在(t,t +1)間的t + i 位置插入的合成幀. 圖1 是i = 1 /8 的幀插值示例,其中,實(shí)線框?yàn)椋?個(gè)連續(xù)的原始視頻幀,虛線框?yàn)楹铣傻牟逯祹?/p>
根據(jù)運(yùn)動(dòng)估計(jì)方式,現(xiàn)有的視頻幀插值技術(shù)一般采用2 種形式:迭代插值和矢量平均插值. 迭代插值采用隱式運(yùn)動(dòng)估計(jì)的視頻幀插值方法,每次合成的視頻幀通常都需要參考相鄰的幀(可能是原始視頻幀也可能是已經(jīng)產(chǎn)生的插值幀),再循環(huán)迭代log2 n 產(chǎn)生,如圖1(a)所示,為了在2 個(gè)連續(xù)視頻幀間合成7 個(gè)視頻幀,循環(huán)迭代了3 次視頻幀插值技術(shù),分別對(duì)應(yīng)第1 次、第2 次和第3 次插值,合成了1 個(gè)、2 個(gè)和4 個(gè)視頻幀. 矢量平均插值基于顯式運(yùn)動(dòng)估計(jì),由于建模了運(yùn)動(dòng)對(duì)象間的運(yùn)動(dòng)軌跡,通常假設(shè)對(duì)象的運(yùn)動(dòng)為線性運(yùn)動(dòng)且將兩幀之間運(yùn)動(dòng)強(qiáng)度沿運(yùn)動(dòng)方向平分為n 份,依據(jù)平分的運(yùn)動(dòng)矢量一次插值7 個(gè)視頻幀,如圖1(b).
采用迭代生成的插值幀,利用相鄰幀合成插值幀,通常會(huì)在2 個(gè)連續(xù)的原始幀之間形成以連續(xù)插值幀的中間幀為中心、左右對(duì)稱的周期性痕跡模式,如圖1(c)所示. 采用運(yùn)動(dòng)矢量平均對(duì)齊插值,其合成的插值幀的運(yùn)動(dòng)軌跡出現(xiàn)逐幀線性對(duì)稱且呈現(xiàn)一致的平均瞬時(shí)加速度. 從而,視頻幀插值特有的合成原理特性所遺留的周期性模式和平均瞬時(shí)加速度為視頻幀插值的篡改檢測(cè)提供了取證痕跡,也催生了部分取證方法. 他們利用周期性模糊度量[1718]和子軌跡平均瞬時(shí)加速度[1921]實(shí)現(xiàn)了待檢視頻是否屬于虛假高幀率視頻的檢測(cè).
2. 2 傳統(tǒng)視頻幀插值技術(shù)和痕跡分析 視頻幀插值方法按照采用的技術(shù),可以分為簡(jiǎn)單幀插值、MCFI 和DVFI 3 類. 其中,前2 種統(tǒng)稱為傳統(tǒng)視頻幀插值技術(shù). 簡(jiǎn)單幀插值就是幀重復(fù)和幀平均,前者插值的幀由前一幀直接復(fù)制獲得;后者生成的插值幀為插值點(diǎn)前后兩幀求平均后取整獲得. 由于簡(jiǎn)單幀插值不考慮視頻中運(yùn)動(dòng)對(duì)象的運(yùn)動(dòng)模式,對(duì)于非平穩(wěn)視頻合成的高幀率視頻通常產(chǎn)生閃爍、卡頓和疊影現(xiàn)象.
為了改進(jìn)高幀率視頻的可視質(zhì)量,基于運(yùn)動(dòng)補(bǔ)償?shù)膸逯导夹g(shù)被引入. 它根據(jù)相鄰參考幀,采用各種運(yùn)動(dòng)假設(shè)和運(yùn)動(dòng)估計(jì)策略以及像素合成方案,結(jié)合顏色和紋理細(xì)節(jié)做后處理,合成出逼真的視頻插值幀. 它通常包括運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償插值2 個(gè)主要步驟. 前者用于估計(jì)運(yùn)動(dòng)對(duì)象在相鄰幀間的空間位移,后者利用估計(jì)出的對(duì)象運(yùn)動(dòng)合成插值幀.因此,MCFI 技術(shù)的視覺(jué)效果主要由這2 個(gè)步驟采用的策略決定. 雖然它考慮了對(duì)象的運(yùn)動(dòng),克服了簡(jiǎn)單幀插值遺留的取證痕跡,但是,在實(shí)際的運(yùn)動(dòng)估計(jì)過(guò)程中,由于視頻幀中存在的遮擋問(wèn)題和剛性運(yùn)動(dòng)對(duì)象的假設(shè)以及短時(shí)間內(nèi)的運(yùn)動(dòng)對(duì)稱性假設(shè),從而導(dǎo)致不準(zhǔn)確運(yùn)動(dòng)矢量的估計(jì). 雖然運(yùn)動(dòng)補(bǔ)償插值步驟盡可能的緩解不準(zhǔn)確運(yùn)動(dòng)矢量估計(jì)造成的影響,但是,依然在高紋理區(qū)域和運(yùn)動(dòng)對(duì)象區(qū)域產(chǎn)生明顯的模糊效應(yīng)[16].
2. 3 深度視頻幀插值技術(shù)和痕跡分析 深度視頻幀插值技術(shù)不同于傳統(tǒng)視頻幀插值技術(shù),它通過(guò)視頻數(shù)據(jù)驅(qū)動(dòng),利用復(fù)雜的網(wǎng)絡(luò)模型與非線性激活函數(shù),在提取樣本高維特征的同時(shí),不斷去除與目標(biāo)特征無(wú)關(guān)的信息,根據(jù)前、后視頻幀推理運(yùn)動(dòng)矢量,在兩者間插入的視頻幀中合成運(yùn)動(dòng)對(duì)象,填充由對(duì)象運(yùn)動(dòng)導(dǎo)致的孔洞區(qū)域. 它通過(guò)學(xué)習(xí)真實(shí)視頻對(duì)象的運(yùn)動(dòng)行為或特征模式分布,能夠減弱傳統(tǒng)幀插值視頻遺留的痕跡. 現(xiàn)有的深度視頻幀插值技術(shù)根據(jù)運(yùn)動(dòng)推理和像素合成方式可分為4 種:卷積神經(jīng)網(wǎng)絡(luò)(convolutional neuralnetworks,CNN)直接預(yù)測(cè)、基于相位的幀插值、基于卷積核的幀插值和基于光流的幀插值. 具體實(shí)現(xiàn)細(xì)節(jié)和可能遺留的痕跡分析如下:
1)CNN 直接預(yù)測(cè)[3]. 這類方法訓(xùn)練編碼器解碼器網(wǎng)絡(luò)模型[3]直接預(yù)測(cè)中間插值幀. 它通常從視頻幀的空域角度建模,逐幀合成插值幀,所以不能有效建模時(shí)域的對(duì)象變化. 由于不能有效推理運(yùn)動(dòng)變化產(chǎn)生的紋理差異,會(huì)在運(yùn)動(dòng)對(duì)象區(qū)域產(chǎn)生偽影現(xiàn)象.
2)基于相位的幀插值[4]. 僅有解碼器,利用像素局部有限的相位差空間捕捉運(yùn)動(dòng)信息,在多尺度金字塔下操作相位信息合成插值幀. 它的運(yùn)動(dòng)推理假設(shè)來(lái)源于在相位信息中高頻內(nèi)容、中頻內(nèi)容和低頻內(nèi)容具有一致的運(yùn)動(dòng),雖然解決了2 個(gè)差分時(shí)間步中相位值具有可比性,但是這類模型沒(méi)有編碼層,直接依靠帶通濾波的相位信息合成修復(fù)幀. 同時(shí),相位帶通濾波本質(zhì)上就遺失了相位一定的高頻信息,這就必然在插值幀中的運(yùn)動(dòng)對(duì)象和對(duì)象邊緣產(chǎn)生細(xì)微的模糊現(xiàn)象,甚至還可能會(huì)出現(xiàn)鏡像環(huán)和顏色偏差效應(yīng).
3)基于卷積核的幀插值[5-7]. 這類方法主要采用深度全卷積網(wǎng)絡(luò),估計(jì)所有像素的自適應(yīng)卷積核(二維的或2 個(gè)一維的),要求其所有系數(shù)非負(fù)且和為1,其中卷積核模式有規(guī)則卷積核[5-6]和不規(guī)則卷積核[7]. 它能有效地捕捉運(yùn)動(dòng)和重采樣信息,同時(shí)完成運(yùn)動(dòng)估計(jì)和像素合成. 這類方法的取證痕跡必須從其所設(shè)計(jì)的卷積核角度考慮:對(duì)于背景區(qū)域,由于沒(méi)有運(yùn)動(dòng),卷積核中心點(diǎn)值為1,其他區(qū)域值為0;對(duì)于運(yùn)動(dòng)區(qū)域,根據(jù)運(yùn)動(dòng)程度的不同,卷積核的非零值主要在運(yùn)動(dòng)方向或?qū)ο筮吔绶较蛏锨揖哂胁煌暮讼禂?shù),其他區(qū)域?yàn)椋埃?這就與常用的高斯濾波器或均值濾波器具有類似結(jié)構(gòu),可以推斷在運(yùn)動(dòng)對(duì)象邊緣區(qū)域必然存在細(xì)微的模糊現(xiàn)象. 同時(shí),其設(shè)計(jì)的損失函數(shù)過(guò)程中,強(qiáng)制假設(shè)局部區(qū)域的卷積核變化緩慢,而在實(shí)際情況中,對(duì)象與背景的過(guò)渡區(qū)域卷積核具有較大的變化,這與假設(shè)并不相符,也就導(dǎo)致該區(qū)域存在模糊效應(yīng).
4)基于光流的幀插值[8-15]. 這類方法主要包含光流預(yù)測(cè)和warp 層,有些還考慮遮擋區(qū)域自適應(yīng)融合組成. 不同的深度視頻幀插值方法在這3 個(gè)部分存在差異. 例如光流預(yù)測(cè)采用單向光流估計(jì)[8]、單雙向光流預(yù)測(cè)[11]和增強(qiáng)的變形可分離卷積[13]等;warp 層采用直接warp 操作[8]、自適應(yīng)warp 層[10]以及根據(jù)構(gòu)建的光流有選擇的進(jìn)行warp變形[14]等;進(jìn)行遮擋處理時(shí)涵蓋的信息———上下文信息[14]、景深信息[10]和異常運(yùn)動(dòng)圖[12]等;損失函數(shù)一般考慮像素間的損失,感知損失和時(shí)域一致性損失,此外還有顏色損失[10]和循環(huán)一致性損失[9]等. 它的可視效果主要依賴光流的估計(jì)精度,而光流精度的不確定性容易導(dǎo)致輸入幀沒(méi)有很好的對(duì)齊,不可避免的產(chǎn)生模糊效應(yīng). 其次,插值幀的對(duì)象運(yùn)動(dòng)一般都是假設(shè)為線性運(yùn)動(dòng),但是該假設(shè)對(duì)于非剛性對(duì)象并不成立,也就必然導(dǎo)致光流對(duì)齊的不一致性. 最后,雖然遮擋掩模自適應(yīng)融合能一定程度的緩解遮擋和不精確光流引起的效應(yīng),但是,它從前、后幀和初始插值幀中通過(guò)度量選取合適的像素或片時(shí),可能由于選取的差異性導(dǎo)致最終輸出區(qū)域紋理的不連續(xù)性或邊界的不一致性.
此外,這4 類深度視頻幀插值方法中都存在雙線性上采樣層和帶權(quán)平均操作,這些操作有助于高分辨率和高質(zhì)量視頻的合成,也必然在插值幀中遺留下細(xì)微的奇異信號(hào). 因此,深度視頻幀插值雖然采用精度更高的光流和深度學(xué)習(xí)網(wǎng)絡(luò),合成出“以假亂真”的修復(fù)幀,依然遺留下該帶權(quán)平均操作的微弱痕跡.
3 視頻幀插值檢測(cè)技術(shù)
依據(jù)取證技術(shù)手段,現(xiàn)有的視頻幀插值檢測(cè)技術(shù)可以大致分為兩大類:第一類是基于手工提取特征的篡改檢測(cè)技術(shù),這類檢測(cè)技術(shù)主要從遺留痕跡角度有針對(duì)性地設(shè)計(jì)取證特征,普遍采用“遺留痕跡挖掘+ 取證特征設(shè)計(jì)+ 支持向量機(jī)”的框架實(shí)現(xiàn)虛假高幀率視頻或插值幀的真假判別;第二類利用以卷積神經(jīng)網(wǎng)絡(luò)CNN 為代表的深度學(xué)習(xí),自主學(xué)習(xí)潛在的特征表征,設(shè)計(jì)前置處理層和空時(shí)域特征學(xué)習(xí)實(shí)現(xiàn)視頻幀插值的篡改檢測(cè). 到目前為止,視頻幀插值檢測(cè)技術(shù)在國(guó)內(nèi)、外團(tuán)隊(duì)研究成果如表2 所示.
3. 1 基于手工提取特征的視頻幀插值篡改檢測(cè)技術(shù) 這類檢測(cè)技術(shù)依據(jù)提取的篡改痕跡而專門設(shè)計(jì)的取證手段,主要針對(duì)傳統(tǒng)的視頻幀插值技術(shù).根據(jù)針對(duì)的視頻幀插值技術(shù),這類篡改檢測(cè)技術(shù)可以劃分為基于簡(jiǎn)單幀插值的篡改檢測(cè)技術(shù)和基于運(yùn)動(dòng)補(bǔ)償?shù)囊曨l幀插值的篡改檢測(cè)技術(shù)[16].
3. 1. 1 基于簡(jiǎn)單幀插值的篡改檢測(cè)技術(shù) 由于簡(jiǎn)單插值手段不考慮幀內(nèi)對(duì)象的運(yùn)動(dòng)軌跡,插值幀與前一幀具有較高的相似度. 這類檢測(cè)技術(shù)主要從這個(gè)角度展開研究. Farid 團(tuán)隊(duì)[22]首先提出運(yùn)動(dòng)自適應(yīng)算法檢測(cè)交織和去交織視頻中簡(jiǎn)單插值手段,但是僅僅只在自建的一個(gè)視頻中進(jìn)行了測(cè)試. 隨后,通過(guò)分析商業(yè)軟件ImTOO、AVS video converter 和Any video converter 合成的虛假高幀率視頻,中山大學(xué)的Bian 等[24]發(fā)現(xiàn),這些合成的高幀率視頻的插值幀與前一幀間的結(jié)構(gòu)相似度存在異常高的奇異值,并在頻率域中存在峰值,推斷出虛假高幀率視頻的原始幀率. 該算法在未壓縮和壓縮格式的視頻上都獲得了99% 的檢測(cè)精度. 基于文獻(xiàn)[24]的發(fā)現(xiàn),林晶等[37]從光流的角度檢測(cè)幀復(fù)制的篡改. 作者首先采用傳統(tǒng)的光流計(jì)算方法逐幀計(jì)算光流強(qiáng)度,并計(jì)算相鄰幀之間光流強(qiáng)度差值,再利用傅里葉變化,轉(zhuǎn)入到頻域分析峰值與平均值之間的比例閾值判斷當(dāng)前待檢測(cè)視頻是否為虛假高幀率視頻.雖然這類檢測(cè)方法對(duì)壓縮視頻具有一定的魯棒性和較高的檢測(cè)精度,但是,這類方法不能推斷插值幀的位置和所采用的幀插值方法類型.
3. 1. 2 基于運(yùn)動(dòng)補(bǔ)償?shù)囊曨l幀插值(MCFI)的篡改檢測(cè)技術(shù) MCFI 技術(shù)合成的虛假高幀率視頻因?yàn)榭紤]運(yùn)動(dòng)對(duì)象的運(yùn)動(dòng)軌跡,保持了視頻的時(shí)域連貫性,具有較好的視覺(jué)效果. 因此,不存在顯著的幀間相似度引起的異常峰值,從而使得文獻(xiàn)[22,24,34]提出的檢測(cè)技術(shù)無(wú)效. 因此,此類篡改操作吸引更多的學(xué)者深入探究,挖掘底層痕跡,提出了一些有針對(duì)性的取證方案.
Bestagini 團(tuán)隊(duì)[23]首創(chuàng)地提出基于MCFI 篡改虛假高幀率視頻的原始幀率估計(jì)方法. 該方法首先利用任意形式的MCFI 技術(shù)逐幀合成一個(gè)與待測(cè)視頻同幀率的新的虛假高幀率視頻,再計(jì)算待測(cè)視頻與新的虛假高幀率視頻間的像素差值均方誤差,轉(zhuǎn)化為一維信號(hào),再轉(zhuǎn)入到頻域,根據(jù)峰值判定出原始幀率. 采用與Bestagini 類似的方案,夏明等[25]利用峰值信噪比從頻域估計(jì)原始幀率. 隨后,Yao 團(tuán)隊(duì)[18]針對(duì)MCFI 方法在運(yùn)動(dòng)對(duì)象邊界遺留不連續(xù)或過(guò)平滑痕跡,使用邊界算法計(jì)算逐幀邊界強(qiáng)度,再引入卡夫曼自適應(yīng)運(yùn)動(dòng)平均算法構(gòu)造自適應(yīng)閾值曲線,從而根據(jù)幀邊界強(qiáng)度的不連續(xù)性區(qū)分插值幀和原始幀. 依據(jù)相同的遺留痕跡位置,文獻(xiàn)[17]
從視頻幀的運(yùn)動(dòng)對(duì)象紋理異常角度提出幀級(jí)平均紋理變化曲線,根據(jù)頻域的周期性估計(jì)待測(cè)虛假視頻的原始幀率. 這些方法都是直接根據(jù)視頻幀空域遺留的可視痕跡. 但是,一旦針對(duì)的MCFI 技術(shù)通過(guò)后處理修復(fù)運(yùn)動(dòng)區(qū)域的不連續(xù)邊界和紋理細(xì)節(jié),這些方法因無(wú)法有效選取合適的閾值而導(dǎo)致估計(jì)出的原始幀率出現(xiàn)嚴(yán)重偏差. 李然團(tuán)隊(duì)[28-29]從噪聲角度考慮. 他們首先發(fā)現(xiàn)噪聲異常主要來(lái)源于插值幀合成過(guò)程中的平均操作;隨后,他們分別提取模式噪聲或高斯白噪聲,利用小波和傅里葉變化,提取噪聲變化的周期性,從而檢測(cè)MCFI 篡改. 該方法對(duì)于原始視頻具有滿意的性能,但是,未討論壓縮狀態(tài)下的檢測(cè)性能. 此外,李然等設(shè)計(jì)出的算法閾值為固定值,來(lái)源于所依賴的訓(xùn)練視頻,當(dāng)測(cè)試視頻與訓(xùn)練視頻不匹配時(shí),將出現(xiàn)性能的明顯下降,也不適合實(shí)際的取證環(huán)境. Jung 團(tuán)隊(duì)[19]和Ding 團(tuán)隊(duì)[20-21]都發(fā)現(xiàn)從虛假高幀率視頻提取的運(yùn)動(dòng)矢量和光流強(qiáng)度上都存在不連續(xù)性,通過(guò)對(duì)運(yùn)動(dòng)矢量和光流建模,利用周期性和Markov 特征分別檢測(cè)出虛假視頻.
最近,我們針對(duì)視頻插幀,分別分析其遺留的微弱可視效應(yīng),例如模糊和邊緣紋理變化強(qiáng)度的周期性以及殘差信號(hào)等,提出了相應(yīng)的取證算法. 尤其是,提出的一種基于殘差信號(hào)的幀插值操作類型識(shí)別取證方法[27]. 通過(guò)實(shí)驗(yàn)觀察發(fā)現(xiàn),不同類型的幀插值方法所遺留的殘差信號(hào)存在一定的差異,為此對(duì)殘差信號(hào)進(jìn)行理論建模,從而將幀插值方法的識(shí)別問(wèn)題轉(zhuǎn)化為區(qū)分不同的殘差信號(hào)的問(wèn)題. 顯然,該算法對(duì)于同時(shí)經(jīng)歷了幀插值和高效壓縮的視頻,能夠揭示幀插值操作的具體類型,包括幀平均、幀重復(fù)、運(yùn)動(dòng)補(bǔ)償幀差值和多種公開的幀插值軟件工具等,實(shí)現(xiàn)視頻被動(dòng)取證更深層次的目標(biāo). 此外,該團(tuán)隊(duì)還發(fā)現(xiàn),篡改幀的運(yùn)動(dòng)區(qū)域呈現(xiàn)高殘差能量[26],由此,設(shè)計(jì)一個(gè)效應(yīng)指示器揭露效應(yīng)區(qū)域與高殘差能量間的相關(guān)性,再利用高階切比雪夫矩絕對(duì)值的均值捕捉時(shí)域的不連續(xù)性,通過(guò)滑動(dòng)窗口動(dòng)態(tài)地識(shí)別插值幀. 該方法能有效地抵抗噪聲、模糊和壓縮的干擾,具有較強(qiáng)的魯棒性. 隨后,蔣興浩團(tuán)隊(duì)[36]系統(tǒng)闡述了MCFI 技術(shù)檢測(cè)領(lǐng)域的現(xiàn)狀,從幀插值方法和篡改檢測(cè)方法的算法框架以及檢測(cè)結(jié)果等方面對(duì)比現(xiàn)有的檢測(cè)技術(shù). 但是,對(duì)于深度視頻幀插值的研究現(xiàn)狀和基于深度學(xué)習(xí)的篡改取證方法未作研究. 近期,Zhao 團(tuán)隊(duì)[33]從反取證和慢運(yùn)動(dòng)效果角度分別利用全局和局部聯(lián)合特征以及幀差周期痕跡的自相關(guān)系數(shù)和Markov 特征[34]檢測(cè)插值幀視頻,彌補(bǔ)了基于光流的視頻刪幀取證的缺陷.
3. 2 基于深度學(xué)習(xí)的視頻幀插值篡改檢測(cè)技術(shù) 依據(jù)深度學(xué)習(xí)較強(qiáng)的學(xué)習(xí)能力,以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為代表的深度學(xué)習(xí)也被引入到視頻被動(dòng)取證領(lǐng)域,自主學(xué)習(xí)潛在的特征表征,出現(xiàn)了一些基于深度學(xué)習(xí)的視頻幀插值篡改檢測(cè)技術(shù)的代表性工作. 其中,Ding 團(tuán)隊(duì)[31-32]通過(guò)實(shí)驗(yàn)觀察發(fā)現(xiàn)視頻幀插值在空時(shí)邊界和遮擋區(qū)域存在明顯的效應(yīng)現(xiàn)象,提出將這些痕跡植入已有的隱寫分析網(wǎng)絡(luò)模型傳遞先驗(yàn)知識(shí)、檢測(cè)插值幀位置并識(shí)別所采用的運(yùn)動(dòng)補(bǔ)償幀插值方法. 隨后,Lee 團(tuán)隊(duì)[30]利用CNN 學(xué)習(xí)空時(shí)特征實(shí)現(xiàn)最近鄰插值、雙線性插值和運(yùn)動(dòng)補(bǔ)償插值3 種方式的檢測(cè). 近期,Zhao 團(tuán)隊(duì)[35]從AVC到HEVC 轉(zhuǎn)碼異常角度檢測(cè)視頻幀插值,他們認(rèn)為在視頻轉(zhuǎn)碼過(guò)程中并不是所有的視頻幀都發(fā)生了轉(zhuǎn)碼過(guò)程,對(duì)于采用視頻幀插值插入的合成幀并沒(méi)有轉(zhuǎn)碼過(guò)程. 通過(guò)分析AVC 到HEVC 轉(zhuǎn)碼和HEVC編碼在解碼視頻幀間的差異,預(yù)測(cè)單元的劃分和位置信息構(gòu)成幀級(jí)預(yù)測(cè)單元圖來(lái)捕獲局部效應(yīng),最后將解碼幀和預(yù)測(cè)單元圖作為輸入,使用包含卷積模塊和自適應(yīng)融合模塊的雙通路網(wǎng)絡(luò)提取自學(xué)習(xí)特征,完成轉(zhuǎn)碼幀的檢測(cè)和定位,也間接地檢測(cè)視頻幀插值技術(shù)合成的插值幀.
近年來(lái),深度視頻幀插值技術(shù)利用深度學(xué)習(xí)的優(yōu)勢(shì),結(jié)合空時(shí)一致性約束、雙向光流估計(jì)和幀間/幀內(nèi)上下文信息等,預(yù)測(cè)未知的視頻幀. 此類方法通過(guò)學(xué)習(xí)真實(shí)視頻對(duì)象的運(yùn)動(dòng)行為或特征模式分布,能夠減弱MCFI 技術(shù)遺留的痕跡. 顯然,這將在很大程度上使得現(xiàn)有的取證方法/ 工具的檢測(cè)性能明顯下降甚至失效,從而使其應(yīng)用范圍受到很大的局限. 鑒于此,Ding 等[32]提出了一種基于雙流融合網(wǎng)絡(luò)模型的深度視頻幀插值取證方法. 它包括干擾預(yù)處理模塊、痕跡增強(qiáng)模塊和特征提取、融合模塊3個(gè)部分. 其中,干擾預(yù)處理模塊主要解決P 幀中的異常和波動(dòng)問(wèn)題;痕跡增強(qiáng)分別采用時(shí)間窗口的中值濾波差值和運(yùn)動(dòng)矢量推理差值實(shí)現(xiàn);特征提取采用ResNet-50 作為骨干網(wǎng)絡(luò),使用膨脹卷積替換原有卷積獲得特征圖的提取;特征融合采用帶權(quán)關(guān)注融合的機(jī)制實(shí)現(xiàn),最終得到視頻的真假判別. 雖然該方法獲得85. 16% 的平均識(shí)別率,但是該方法不能有效的區(qū)分告警是正確檢測(cè)報(bào)警還是對(duì)自然媒體形成的虛警,也受雙壓效應(yīng)的影響.
3. 3 算法優(yōu)缺點(diǎn)對(duì)比 視頻幀插值篡改檢測(cè)技術(shù)的原始幀率估計(jì)、插值幀定位和篡改方式識(shí)別的優(yōu)缺點(diǎn)分析如表3 所示. 總體來(lái)說(shuō),每種視頻幀插值篡改檢測(cè)技術(shù)采用不同的取證特征,具有不同的優(yōu)勢(shì). 在視頻幀插值篡改檢測(cè)領(lǐng)域,未來(lái)還需要深入研究深度視頻幀插值技術(shù),朝著多域特征融合的方向發(fā)展,以實(shí)現(xiàn)多任務(wù)取證和通用取證,從而提升檢測(cè)技術(shù)的泛化性和檢測(cè)精度.
4 存在的挑戰(zhàn)和未來(lái)的研究展望
現(xiàn)階段,視頻幀插值的被動(dòng)取證研究主要集中在傳統(tǒng)視頻幀插值領(lǐng)域. 深度視頻幀插值擺脫了傳統(tǒng)視頻幀插值對(duì)于領(lǐng)域知識(shí)的依賴,采用端到端的訓(xùn)練模式,通過(guò)數(shù)據(jù)驅(qū)動(dòng),有效地緩解和掩蓋了傳統(tǒng)視頻幀插值可能遺留的痕跡. 針對(duì)深度視頻幀插值,研究切實(shí)有效的檢測(cè)手段,是視頻幀插值取證領(lǐng)域的未來(lái)研究方向,值得深入研究:
1)深度視頻幀插值的溯源分析. 深度視頻幀插值技術(shù)是當(dāng)前最紅火的技術(shù),合成的視頻看上去“可怕的真實(shí)”. 因此,惡意篡改者會(huì)盡可能借助先進(jìn)的技術(shù)手段進(jìn)行虛假高幀率視頻的合成,改變視頻原始屬性,掩蓋操作痕跡. 目前,深度視頻幀插值的被動(dòng)取證研究雖然得到一些關(guān)注,但無(wú)法給出可靠且有說(shuō)服力的視頻內(nèi)容偽造識(shí)別取證結(jié)果,而溯源取證技術(shù)能夠提供更加可靠且有說(shuō)服力的偽造識(shí)別取證結(jié)果. 因此,開展深度視頻幀插值的溯源分析是一個(gè)亟待解決的新方向.
2)開放環(huán)境下的深度視頻幀插值被動(dòng)取證.深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,不斷涌現(xiàn)“以假亂真”程度更高的視頻幀插值網(wǎng)絡(luò)模型,致使遺留的篡改痕跡更加細(xì)微. 尤其是取證工作通常滯后于篡改手段,使得針對(duì)此類新型篡改手段的取證很可能面臨開放集環(huán)境,導(dǎo)致取證分析者難以估計(jì)待測(cè)視頻的篡改方式. 如果針對(duì)深度視頻修復(fù)的被動(dòng)取證能進(jìn)一步區(qū)分各種深度視頻修復(fù)方法,尤其是在開放集環(huán)境下,將滿足更深層次的取證要求.
5 結(jié)論
視頻幀插值根據(jù)2 個(gè)連續(xù)視頻幀合成中間幀,實(shí)現(xiàn)高幀率視頻的合成. 本文重點(diǎn)圍繞利用深度學(xué)習(xí)技術(shù)優(yōu)異的特征表征能力衍生的深度視頻幀插值,分析其幀合成的機(jī)理特點(diǎn)和網(wǎng)絡(luò)模型,深入挖掘其特有的細(xì)微痕跡以及對(duì)檢測(cè)的指導(dǎo)意義. 從視頻幀插值技術(shù)的分類、篡改痕跡和特征設(shè)計(jì)3 個(gè)角度歸納和總結(jié)了視頻幀插值篡改檢測(cè)技術(shù)領(lǐng)域的研究進(jìn)展. 最后,對(duì)未來(lái)針對(duì)深度視頻幀插值篡改檢測(cè)技術(shù)的發(fā)展趨勢(shì)進(jìn)行了探討. 可以預(yù)計(jì),在深度視頻幀插值的取證領(lǐng)域,溯源分析和開放環(huán)境下的檢測(cè)將是未來(lái)的研究熱點(diǎn).