基于深度學(xué)習(xí)的圖像隱寫(xiě)分析綜述*

2021-03-06 09:29:14陳君夫付章杰張衛(wèi)明孫星明

軟件學(xué)報(bào) 2021年2期

陳君夫 ,付章杰,2 ,張衛(wèi)明 ,程旭 ,孫星明

1(南京信息工程大學(xué) 計(jì)算機(jī)與軟件學(xué)院,江蘇南京 210044)

2(鵬城實(shí)驗(yàn)室,廣東深圳 518055)

3(中國(guó)科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,安徽合肥 230026)

多媒體技術(shù)的普及與應(yīng)用,一方面給社會(huì)帶來(lái)了不少便利,另一方面也帶來(lái)了許多風(fēng)險(xiǎn),如信息泄露、惡意篡改、隱私竊取等.人們?cè)絹?lái)越注重多媒體傳播過(guò)程中的信息安全和隱私保護(hù)問(wèn)題.現(xiàn)有的通信安全保障主要分為加密和信息隱藏:加密主要對(duì)秘密信息本身進(jìn)行操作,但經(jīng)過(guò)特殊處理后的明文更加容易受到第三方的懷疑;而信息隱藏則隱藏秘密數(shù)據(jù)的存在性,使秘密數(shù)據(jù)在不引起第三方的懷疑下進(jìn)行隱蔽通信[1].因此,信息隱藏這種具有偽裝特性的通信安全保障受到了越來(lái)越多的關(guān)注[2].在囚徒模型中,可以很好地闡述隱寫(xiě)術(shù)中各方的角色:Alice 和Bob 是監(jiān)獄中不同牢房的犯人,他們之間的通信需要在獄警Eve 的監(jiān)視下完成;同時(shí),Eve 能夠看見(jiàn)他們的通信內(nèi)容.為了降低獄警Eve 防范心的同時(shí)完成通信,隱寫(xiě)術(shù)孕育而生.Alice 將想要傳達(dá)的秘密信息進(jìn)行隱寫(xiě)操作隱藏在載體當(dāng)中,Bob 則需要將含密載體中的秘密信息進(jìn)行提取,獄警Eve 時(shí)刻監(jiān)視Alice 和Bob 的通信,一旦發(fā)現(xiàn)任何可疑信息就斷絕雙方通信[3].隱寫(xiě)術(shù)是一門關(guān)于信息隱藏的科學(xué),所謂信息隱藏指的是不讓除預(yù)期的接受者之外的任何人知曉信息的傳遞事件.隱寫(xiě)術(shù)的英文叫做Steganography[2],來(lái)源于特里特米烏斯的講述密碼學(xué)與隱寫(xiě)術(shù)的著作《Stegano-graphia》,該書(shū)名起源于希臘語(yǔ),意為“隱秘書(shū)寫(xiě)”[4],如圖1 所示為圖像隱寫(xiě)的一般過(guò)程.

隨著信息隱藏技術(shù)的不斷推廣,隱寫(xiě)術(shù)逐漸成為一把雙刃劍,在其為人們的通信安全提供保障的同時(shí),不法分子利用其獲取個(gè)人利益或應(yīng)用于恐怖襲擊.2001 年,美國(guó)的主流媒體CNN 就刊登過(guò)一則利用隱寫(xiě)術(shù)進(jìn)行隱秘通信從而犯罪的新聞.在2007 年哥倫比亞毒梟以及2011 年全能神邪教等案件中都出現(xiàn)了隱寫(xiě)術(shù)的影子.由此可見(jiàn),非法和惡意使用隱寫(xiě)術(shù)已經(jīng)造成了非常巨大的社會(huì)危害,所以隱寫(xiě)分析研究油然而生.這對(duì)于打擊恐怖分子的恐怖行動(dòng)、維護(hù)社會(huì)安定和保障國(guó)家信息安全具有十分重要的意義.但是隱寫(xiě)分析本身非常依賴人工設(shè)計(jì)的濾波核,并且對(duì)于圖像本身的紋理屬性與細(xì)節(jié)屬性沒(méi)有一個(gè)較好的統(tǒng)籌概念,根據(jù)不同的圖庫(kù)可能會(huì)有不同的濾波核的設(shè)計(jì).如何減少甚至避免人為設(shè)計(jì)成為了一個(gè)難題.

深度學(xué)習(xí)自2006 年Hinton 提出的受限玻爾茲曼機(jī)(restricted Boltzmann machine,簡(jiǎn)稱RBM)[5]之后,就成為了機(jī)器學(xué)習(xí)中不可或缺的新興技術(shù),通過(guò)模擬人腦神經(jīng)元,可以自動(dòng)學(xué)習(xí)數(shù)據(jù)各個(gè)層次的抽象特征,從而更好地反映數(shù)據(jù)的本質(zhì)特性.現(xiàn)如今,深度學(xué)習(xí)已經(jīng)成為圖像處理和計(jì)算機(jī)視覺(jué)(computer vision,簡(jiǎn)稱CV)領(lǐng)域中的主要工具.其中比較熱門的研究網(wǎng)絡(luò)熱點(diǎn)——卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,簡(jiǎn)稱CNN)[6]、深度置信網(wǎng)絡(luò)(deep belief network,簡(jiǎn)稱 DBN)[7]、層疊自動(dòng)編碼機(jī)(stacked auto-encoder,簡(jiǎn)稱 SAE)[8]、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,簡(jiǎn)稱RNN)[9]等各種網(wǎng)絡(luò)在深度學(xué)習(xí)的各個(gè)領(lǐng)域中不斷涌現(xiàn).雖然U-Net[10],ResNet[11],DenseNet[12]同屬于卷積神經(jīng)網(wǎng)絡(luò),但不同的網(wǎng)絡(luò)結(jié)構(gòu)會(huì)產(chǎn)生截然不同的效果和應(yīng)用[13].在2014 年,Goodfellow提出的生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,簡(jiǎn)稱GAN)[14]通過(guò)構(gòu)建判別器與生成器的對(duì)抗博弈環(huán)境,最終達(dá)到兩者的納什平衡[15],不僅為深度學(xué)習(xí)開(kāi)啟了新的篇章,也給隱寫(xiě)術(shù)與深度學(xué)習(xí)網(wǎng)絡(luò)的結(jié)合提供了機(jī)遇.GAN 網(wǎng)絡(luò)由于其紛繁復(fù)雜的變形網(wǎng)絡(luò)[16-18]和獨(dú)有的創(chuàng)造力,被眾多國(guó)內(nèi)外學(xué)者應(yīng)用于隱寫(xiě)術(shù).傳統(tǒng)隱寫(xiě)術(shù)和隱寫(xiě)分析的發(fā)展也因?yàn)樯疃葘W(xué)習(xí)的出現(xiàn)與發(fā)展到達(dá)了新的高度.

本文在深入隱寫(xiě)分析模型的基礎(chǔ)上,首先將現(xiàn)有的隱寫(xiě)分析模型按照其針對(duì)隱寫(xiě)操作類型分為專用型隱寫(xiě)分析模型與通用型隱寫(xiě)分析模型,如圖2 中隱寫(xiě)分析模型分類所示.由于專用型隱寫(xiě)分析模型僅針對(duì)特定的隱寫(xiě)算法且對(duì)于不匹配的或者未知的隱寫(xiě)算法檢測(cè)效果較差,隨著各式各類的自適應(yīng)隱寫(xiě)算法的不斷涌現(xiàn),專用型隱寫(xiě)分析模型顯得力不從心,也逐漸退出歷史舞臺(tái),通用型隱寫(xiě)分析模型也逐漸成為主流隱寫(xiě)分析模型.接著,本文將通用型隱寫(xiě)分析模型按照其采用的技術(shù)基礎(chǔ)分為傳統(tǒng)隱寫(xiě)分析模型與基于深度學(xué)習(xí)的隱寫(xiě)分析模型:傳統(tǒng)隱寫(xiě)分析模型需要一定的先驗(yàn)知識(shí)和根據(jù)數(shù)據(jù)而設(shè)定的濾波核;基于深度學(xué)習(xí)的隱寫(xiě)分析方法利用網(wǎng)絡(luò)強(qiáng)大的表征學(xué)習(xí)能力自主提取圖像異常特征,大大減少了人為參與,且取得了顯著的檢測(cè)效果.將現(xiàn)有的基于深度學(xué)習(xí)的隱寫(xiě)分析模型按照不同的預(yù)處理層訓(xùn)練方式分為以下兩個(gè)大類:(1) 半學(xué)習(xí)隱寫(xiě)分析模型;(2) 全學(xué)習(xí)隱寫(xiě)分析模型,并在此基礎(chǔ)上根據(jù)不同的網(wǎng)絡(luò)架構(gòu)模式將上述兩個(gè)模型再細(xì)分為基于深度網(wǎng)架構(gòu)與基于寬度網(wǎng)絡(luò)架構(gòu)兩個(gè)分支.然后討論對(duì)抗樣本的出現(xiàn)為信息隱藏提供的新思路與方法,將對(duì)抗樣本與隱寫(xiě)方法結(jié)合的對(duì)抗隱寫(xiě)方法分為在隱寫(xiě)前對(duì)載體進(jìn)行操作與在隱寫(xiě)過(guò)程中內(nèi)容進(jìn)行操作,分析了基于隱寫(xiě)分析的對(duì)抗樣本的檢測(cè)方法.最后,本文總結(jié)目前基于深度學(xué)習(xí)隱寫(xiě)分析模型存在的問(wèn)題并展望未來(lái)的發(fā)展方向.

Fig.2 Steganalsis model classification圖2 隱寫(xiě)分析模型分類

本文第1 節(jié)介紹信息隱藏領(lǐng)域的相關(guān)知識(shí),并將基于深度學(xué)習(xí)的隱寫(xiě)分析按照預(yù)處理層的差異分為半學(xué)習(xí)隱寫(xiě)分析與全學(xué)習(xí)隱寫(xiě)分析.第2 節(jié)、第3 節(jié)對(duì)基于深度的半學(xué)習(xí)隱寫(xiě)分析與全學(xué)習(xí)隱寫(xiě)分析進(jìn)行詳細(xì)介紹并對(duì)比.第4 節(jié)對(duì)于基于深度學(xué)習(xí)的隱寫(xiě)分析進(jìn)行對(duì)比與總結(jié).第5 節(jié)介紹對(duì)抗樣本和基于隱寫(xiě)分析的對(duì)抗樣本檢測(cè).第6 節(jié)對(duì)于基于深度學(xué)習(xí)的隱寫(xiě)分析網(wǎng)絡(luò)進(jìn)行總結(jié)與未來(lái)展望.

1 相關(guān)知識(shí)

1.1 隱寫(xiě)術(shù)

隱寫(xiě)術(shù)是在盡可能不破壞圖像本身各種性質(zhì)的情況下,在多媒體載體中嵌入秘密信息的技術(shù).隱寫(xiě)術(shù)最重要的特點(diǎn)是不可檢測(cè)性,其目的是使通信雙方能夠進(jìn)行隱蔽通信,而不被其他用戶察覺(jué)通信痕跡.圖像隱寫(xiě)是隱寫(xiě)術(shù)中的一個(gè)重要分支,由于數(shù)字圖像具有信息冗余度大的特性,因此在其中隱藏秘密信息時(shí)難以被肉眼察覺(jué),是一個(gè)理想的秘密信息載體.LSB(least significant bit)[19]作為早期的隱寫(xiě)方法,是一種基于圖片最低有效位修改并儲(chǔ)存信息的隱寫(xiě)方法.利用人眼對(duì)于色彩差異的不敏感性,將秘密信息通過(guò)一定的嵌入方法放入圖片的最低有效位,從而將我們所需要隱藏的信息通過(guò)一定方法放入圖片的最低有效位上.除此以外,LSB 還有一種變化形式LSB 匹配(LSB matching,簡(jiǎn)稱LSBM)[20].二者之間的差距在于:LSB 對(duì)于最低有效位進(jìn)行的是替換操作;LSBM 采用的則是隨機(jī)±1 原則,采用三元伴隨式矩陣編碼(syndrome-trellis codes,簡(jiǎn)稱STC)[21]嵌入秘密信息.應(yīng)用LSB 算法的圖像格式需為位圖形式,即圖像不能經(jīng)過(guò)壓縮,所以LSB 算法多應(yīng)用于png,bmp 等空域圖像中.圖3 是LSB 類隱寫(xiě)流程圖,可以看到,載體圖像Lena(戴帽子的女人)在隱寫(xiě)前后并不存在明顯的差距.

Fig.3 LSB steganography process圖3 LSB 隱寫(xiě)過(guò)程

無(wú)論是LSB 還是LSBM,都是比較簡(jiǎn)單的隱寫(xiě)方法,都是一種非自適應(yīng)的隱寫(xiě)算法.非自適應(yīng)隱寫(xiě)術(shù)的思想是:對(duì)載體圖像中像素內(nèi)容修改地越少,隱寫(xiě)算法抗隱寫(xiě)分析能力就越強(qiáng).非自適應(yīng)隱寫(xiě)術(shù)通常與糾錯(cuò)編碼(隱寫(xiě)碼)相結(jié)合來(lái)實(shí)現(xiàn)具體的嵌入過(guò)程,常見(jiàn)的隱寫(xiě)碼有矩陣編碼[22]、濕紙碼(wet paper code,簡(jiǎn)稱WPC)[23]、BCH碼(Bose Chaudhuri Hocquenghem)[24]等.非自適應(yīng)隱寫(xiě)術(shù)對(duì)載體圖像整體進(jìn)行修改而不考慮單獨(dú)像素間的關(guān)聯(lián)性;自適應(yīng)隱寫(xiě)術(shù)則考慮載體圖像的自身屬性,例如圖片內(nèi)容的紋理信息、邊緣信息,根據(jù)圖像紋理復(fù)雜區(qū)域難于檢測(cè)的特點(diǎn),有選擇地將秘密信息嵌入到載體紋理復(fù)雜或者邊緣豐富的區(qū)域,提高了載密圖像的抗隱寫(xiě)分析檢測(cè)能力[19].常見(jiàn)的自適應(yīng)隱寫(xiě)算法有HUGO[25]、WOW[26]、UNIWARD[27]、HILL[28]等,各類自適應(yīng)隱寫(xiě)算法都與STC[21]編碼方法結(jié)合,差異在于失真函數(shù)的不同.圖4 是自適應(yīng)隱寫(xiě)術(shù)的操作流程.

Fig.4 Adaptive steganography process圖4 自適應(yīng)隱寫(xiě)過(guò)程

不僅在空域上存在隱寫(xiě)算法,在頻域即JPEG 域上的隱寫(xiě)方法也很多,其中較早且具有代表性的是Jsteg[29]、F5[22]、J-UNIWARD[30]、UED[31]、UERD[32].根據(jù)圖像經(jīng)過(guò)離散余弦變換之后得到63 個(gè)AC 系數(shù)和1 個(gè)DC 系數(shù),由于DCT 分塊后得到的結(jié)構(gòu)信息存儲(chǔ)在DC 系數(shù)中,所以對(duì)于中頻的AC 系數(shù)的修改并不會(huì)引起結(jié)構(gòu)上可見(jiàn)的變化,這樣修改AC 系數(shù)既可以達(dá)到隱寫(xiě)的目的,也不會(huì)對(duì)圖像結(jié)構(gòu)造成太大的破壞,保證了隱寫(xiě)的隱蔽性.

隨著生成對(duì)抗網(wǎng)絡(luò)的出現(xiàn),國(guó)內(nèi)外研究學(xué)者們將信息隱藏和生成對(duì)抗網(wǎng)絡(luò)相結(jié)合,利用生成對(duì)抗網(wǎng)絡(luò)對(duì)于復(fù)雜圖像的學(xué)習(xí)能力,學(xué)習(xí)不同像素之間的結(jié)構(gòu)關(guān)系,從而生成一些更適合隱寫(xiě)或者更符合隱寫(xiě)特點(diǎn)的載體圖像.2016 年,Volkhonskiy[33]提出了SGAN 的隱寫(xiě)模型,結(jié)合已有的DCGAN 網(wǎng)絡(luò)生成更加符合隱寫(xiě)規(guī)則的載體圖像.2018 年,ASDL-GAN[34]和UT-6HPF-GAN[35]相繼被提出,將對(duì)抗網(wǎng)絡(luò)應(yīng)用在修改概率圖的生成上.不僅如此,由于生成對(duì)抗網(wǎng)絡(luò)需要一個(gè)‘對(duì)手’共同進(jìn)步,通常將基于深度學(xué)習(xí)的隱寫(xiě)分析模型作為生成對(duì)抗網(wǎng)絡(luò)中的對(duì)立方,這樣兩個(gè)模型可以在對(duì)抗學(xué)習(xí)中共同進(jìn)步.這種新型的隱寫(xiě)方法不僅減少了人為參與,還可以有效提升隱寫(xiě)安全性.但是仍然存在一些問(wèn)題,例如網(wǎng)絡(luò)架構(gòu)不穩(wěn)定、GAN 網(wǎng)絡(luò)的不可逆性導(dǎo)致隱寫(xiě)內(nèi)容無(wú)法準(zhǔn)確提取等.

1.2 隱寫(xiě)分析

隱寫(xiě)方法的多樣性與安全性,推動(dòng)了隱寫(xiě)分析的發(fā)展.隱寫(xiě)分析是檢測(cè)隱寫(xiě)術(shù)的一種手段,根據(jù)隱寫(xiě)分析的發(fā)展趨勢(shì),我們可以將其分為3 個(gè)不同的階段.

· 第1 個(gè)階段:判斷載密圖像(stego)中是否隱藏秘密信息,即判斷數(shù)字圖像是載體圖像(cover)還是載密圖像.這是現(xiàn)在大多數(shù)隱寫(xiě)分析模型最重要的步驟,也被稱為盲隱寫(xiě)分析.

· 第2 個(gè)階段:判斷載密圖像中秘密信息的容量和秘密信息隱藏的位置等(多為紋理復(fù)雜處或者圖像邊緣處).

· 第3 個(gè)階段:從載密圖像中提取秘密信息,這個(gè)階段需要具體了解隱寫(xiě)方法、隱寫(xiě)位置、隱寫(xiě)容量等各種信息[36].

3 個(gè)階段呈現(xiàn)出一種遞進(jìn)的關(guān)系,只有前一層做了充足的準(zhǔn)備,才可以在最后提出載密圖像中的秘密信息.

針對(duì)于早期的非自適應(yīng)與糾錯(cuò)碼結(jié)合的隱寫(xiě)算法,隱寫(xiě)分析器可以通過(guò)簡(jiǎn)單的統(tǒng)計(jì)分析和直方圖分布來(lái)有效檢測(cè)圖片.針對(duì)LSB 和LSBM 這兩種空域隱寫(xiě)算法,修改最低有效位會(huì)在一定程度上破壞相鄰像素之間的關(guān)聯(lián)性.根據(jù)這一特性,存在相應(yīng)的專用型隱寫(xiě)分析模型[37,38].專用型隱寫(xiě)分析是指隱寫(xiě)分析一方在已知隱寫(xiě)具體算法的情況下所設(shè)計(jì)的特用的隱寫(xiě)分析模型,數(shù)字圖像在嵌入秘密信息后,載體圖像的某種統(tǒng)計(jì)特性特征會(huì)發(fā)生相應(yīng)的改變.通用隱寫(xiě)分析在未知載體圖像和隱寫(xiě)算法的基礎(chǔ)上,檢測(cè)圖像是否含有秘密信息.相對(duì)于通用型隱寫(xiě)分析,專用型隱寫(xiě)分析的準(zhǔn)確率更高但具局限性.

2000 年,Westfeld 等人[39]最早提出了針對(duì)LSB 隱寫(xiě)的統(tǒng)計(jì)檢驗(yàn)法,之后,研究者們相繼提出了RS 分析法、DIH 分析法、WS 分析法,提高了嵌入率的估計(jì)精度.2005 年,Andrew 設(shè)定了特征直方公式(HCF),這是第一個(gè)專用灰度圖LSB 的隱寫(xiě)分析[37].2008 年,Liu 等人[40]采用圖像最低兩位平面的相關(guān)性作為特征檢測(cè)LSBM 隱寫(xiě),該方法考慮到了LSBM 隱寫(xiě)對(duì)圖像低位平面造成的影響.Tan[41]提出了一種基于B 樣條函數(shù)的專用分析方法.除此之外,研究人員還提出了針對(duì)BPCS、PVD 等隱寫(xiě)方式的專用隱寫(xiě)分析方法.Bohme[42]將對(duì)于LSB 專用隱寫(xiě)分析的方法遷移到頻域圖像上,提出了一種針對(duì)于Jsteg 的專用隱寫(xiě)分析算法.2014 年,Xia[43]等人通過(guò)分析相鄰像素之間的關(guān)聯(lián)性,設(shè)計(jì)出針對(duì)于LSBM 隱寫(xiě)算法的專用隱寫(xiě)分析器.隨著自適應(yīng)隱寫(xiě)算法的出現(xiàn),各類隱寫(xiě)算法的抗隱寫(xiě)分析能力逐漸增強(qiáng),這對(duì)隱寫(xiě)分析的要求也越來(lái)越高.2011 年,Gul 等人和Luo 等人分別提出了針對(duì)于HUGO 的專用隱寫(xiě)分析模型[44,45].2014 年,Tang 等人[46]提出了針對(duì)于WOW 這種自適應(yīng)隱寫(xiě)的隱寫(xiě)分析策略,并且這種策略可以根據(jù)不同的隱寫(xiě)算法應(yīng)用于空域和頻域.

隨著隱寫(xiě)算法的逐漸增強(qiáng)以及各式各樣隱寫(xiě)算法的不斷涌現(xiàn),通用型隱寫(xiě)分析模型逐漸壯大,特征的維數(shù)從低維開(kāi)始慢慢發(fā)展到上萬(wàn)維.在空域上,從686 維的SPAM[47]發(fā)展到34 671 維的SRM[48];而在頻域上,也從8 000 維的DCTR[49]發(fā)展到12 600 維的PHARM[50].富模型Rich Model[51]中的分類器采用機(jī)器學(xué)習(xí)領(lǐng)域中比較常用的分類器[52],例如支持向量機(jī)[53]、集成分類器[54]、FLD[55]等.傳統(tǒng)的隱寫(xiě)分析步驟包括特征提取、特征增強(qiáng)、二分類決策模型訓(xùn)練這3 個(gè)部分.傳統(tǒng)的隱寫(xiě)分析模型有SPAM[47]、SRM[48]、DCTR[49]、PHARM[50]和GFR[56],這些都基于人工計(jì)算的特征提取方式.空域隱寫(xiě)分析通過(guò)分析數(shù)字圖像的統(tǒng)計(jì)特性,來(lái)檢測(cè)圖像是否嵌入秘密信息;而頻域隱寫(xiě)分析由于不同的DCT 與量化矩陣,則需要分析DCT 系數(shù)關(guān)系而進(jìn)行判別.SRM 通過(guò)建立不同的子模型,首先對(duì)訓(xùn)練樣本中的圖片空域特征信息進(jìn)行提取并計(jì)算殘差;然后對(duì)得到的殘差信息進(jìn)行截?cái)嗯c量化,計(jì)算相應(yīng)的共生矩陣;最后再利用機(jī)器學(xué)習(xí)的方式訓(xùn)練分類器.但隱寫(xiě)分析研究并不僅分析圖像中是否隱寫(xiě)內(nèi)容,并且分析出可能的隱寫(xiě)方法、隱寫(xiě)修改的區(qū)域,最后,通過(guò)推測(cè)隱寫(xiě)方法和隱寫(xiě)位置截取秘密信息.

自適應(yīng)隱寫(xiě)算法根據(jù)圖片最小失真函數(shù),結(jié)合STC[21]使用進(jìn)行隱寫(xiě).這使得隱藏的秘密信息越來(lái)越難以發(fā)現(xiàn),所以圖像中秘密信息的有效特征越來(lái)越難以獲取,原有的隱寫(xiě)分析特征一般是由專業(yè)的研究人員依賴自己的先驗(yàn)經(jīng)驗(yàn)和不斷啟發(fā)式嘗試計(jì)算得出.隱寫(xiě)分析的特征提取和機(jī)器學(xué)習(xí)二分類訓(xùn)練是分開(kāi)的,前者通過(guò)手工設(shè)計(jì),后者通過(guò)機(jī)器學(xué)習(xí)方法完成,兩步操作無(wú)法同時(shí)進(jìn)行優(yōu)化,很難達(dá)到一個(gè)異構(gòu)平衡狀態(tài).

在傳統(tǒng)隱寫(xiě)分析的發(fā)展過(guò)程中,正是因?yàn)樯鲜鰡?wèn)題的存在,再加上深度學(xué)習(xí)蓬勃發(fā)展,所以國(guó)內(nèi)外的學(xué)者將隱寫(xiě)分析和深度學(xué)習(xí)結(jié)合起來(lái).這樣既可以不用專業(yè)研究人員手工設(shè)計(jì)特征提取方式,又可以利用深度學(xué)習(xí)端到端的學(xué)習(xí)過(guò)程,使得特征提取和判別器可以同時(shí)訓(xùn)練.依賴深度學(xué)習(xí)可以模擬人腦學(xué)習(xí)復(fù)雜的結(jié)構(gòu)信息,從而提取出數(shù)字圖像中的特征信息.

1.3 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

隱寫(xiě)術(shù)和隱寫(xiě)分析所采用的數(shù)據(jù)集多為BOWS2(https://photogallery.sc.egov.usda.gov/)和BOSSbase-v1.01(ttp://agents.fel.cvut.cz/stegodata/),兩款數(shù)據(jù)集都是512×512 的一萬(wàn)張灰度圖,數(shù)據(jù)集中包含生活、景點(diǎn)、建筑等多種類型圖片.BOSSbase1.01 是Fridrich 團(tuán)隊(duì)2011 年所創(chuàng)建的用于隱寫(xiě)分析競(jìng)賽的專用數(shù)據(jù)集,采用7 種不同類型的數(shù)碼相機(jī)拍攝得到的圖像用于隱寫(xiě)和隱寫(xiě)分析,可以防止單個(gè)數(shù)碼相機(jī)拍攝出現(xiàn)相機(jī)指紋,使判別器學(xué)習(xí)出現(xiàn)偏差.Pevny 和Fridrich 為了舉辦HUGO 隱寫(xiě)分析競(jìng)賽,專門構(gòu)建了BOSSbase0.92(http://agents.fel.cvut.cz/boss/index.php?mode=VIEW&tmpl=materials/)圖像庫(kù),包含10 000 張未經(jīng)任何壓縮處理的512×512 像素的圖片.表1 是BOSSbase 內(nèi)不同數(shù)碼相機(jī)的拍攝圖片序號(hào).

Table 1 Source of BOSSbase image datasets表1 BOSSbase 圖像數(shù)據(jù)拍攝來(lái)源

BOWS2 數(shù)據(jù)集始創(chuàng)于2008 年用于水印競(jìng)賽,由于其特征分布于內(nèi)容與BOSS 數(shù)據(jù)集相似,自2017 年后,被信息隱藏領(lǐng)域廣泛地使用,當(dāng)作BOSS 數(shù)據(jù)集的補(bǔ)充.UCID(uncompressed colour image database,http://vision.doc.ntu.ac.uk/)是一種彩色圖片數(shù)據(jù)集,數(shù)據(jù)內(nèi)的圖片已經(jīng)標(biāo)好了預(yù)設(shè)的正確選框.由于圖片的處理過(guò)程中沒(méi)有采取任何壓縮方式,圖像中的各種信息都得以有效的保存.UCID 是一種通用型基準(zhǔn)數(shù)據(jù)集,并且還可以應(yīng)用在測(cè)試圖像壓縮能力和色彩質(zhì)量等方面.除此之外,還有一種NRCS(NRCS photo gallery,https://photogallery.sc.egov.usda.gov/)的圖像數(shù)據(jù)集.表2 是這幾類數(shù)據(jù)集各項(xiàng)信息的對(duì)比展示,其中的SIPI(USC-SIPI image database,http://sipi.usc.edu/database/)中有一張著名的圖像:Lena,即圖3 中的示例圖.

Table 2 Comparison of different datasets表2 各類數(shù)據(jù)庫(kù)對(duì)比

不同的數(shù)據(jù)集之間存在一定的相似性,較為常用的數(shù)據(jù)集是BOSSbase[57]和BOWS2[58],這兩類數(shù)據(jù)集不僅屬性相似,圖片的內(nèi)容也存在一定的相似性,所以在隱寫(xiě)分析模型需要對(duì)數(shù)據(jù)集進(jìn)行增強(qiáng)操作時(shí),通常混用兩個(gè)數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)訓(xùn)練.圖5 是BOSSbase 幾張示例圖.

通常,比較隱寫(xiě)分析網(wǎng)絡(luò)的檢測(cè)效果,采用誤檢率Err或準(zhǔn)確率Acc作為模型效果的衡量標(biāo)準(zhǔn).隱寫(xiě)分析的目標(biāo)是從數(shù)字圖像中檢測(cè)載密圖像,因此將載密圖像作為陽(yáng)性類,載體圖像作為陰性類.假設(shè)載體圖像和載密圖像的數(shù)量分別為C和S,其中被正確分類的載體圖像與載密圖像的樣本數(shù)為N和P,在評(píng)價(jià)隱寫(xiě)分析模型時(shí),通常會(huì)用到如下幾種指標(biāo):

其中,P+N為被隱寫(xiě)分析判別正確的樣本總數(shù),C+S為所有參與測(cè)試的樣本總數(shù),并且滿足Err與Acc之和為1.

PFA代表虛警率(false alarm ratio),即代表載體圖像被誤判成載密圖像的比率.

PMD代表漏檢率(missed detection ratio),即代表載密圖像被誤判成載體圖像的比率.

PE代表最小平均錯(cuò)誤率(minimum average decision error ratio),即在虛警率發(fā)生變化時(shí),兩類錯(cuò)誤平均值的最小值.

MD5 代表當(dāng)PFA為5%情況下的誤檢率.

FA50 代表當(dāng)PMD為50%情況下的虛警率.

公式(6)、公式(7)為在ALASKA 隱寫(xiě)分析挑戰(zhàn)賽[59]中的評(píng)判標(biāo)準(zhǔn).

Fig.5 Part of pictures in BOSSbase datasets圖5 BOSSbase 數(shù)據(jù)集中部分圖片

2 半學(xué)習(xí)隱寫(xiě)分析

在眾多紛繁的深度學(xué)習(xí)模型中,卷積神經(jīng)網(wǎng)絡(luò)由于其特有的網(wǎng)絡(luò)屬性,可以精確地對(duì)數(shù)字圖像進(jìn)行操作,是最具有代表性的一種深度學(xué)習(xí)網(wǎng)絡(luò).通過(guò)卷積計(jì)算的方式,可以獲取圖像中細(xì)致的圖像信息,與傳統(tǒng)特征提取異曲同工.不僅如此,由于不同層的網(wǎng)絡(luò)參數(shù)是可以訓(xùn)練的,深度學(xué)習(xí)還可以通過(guò)大量的數(shù)據(jù)學(xué)習(xí)一種捕捉細(xì)致特征的手段.不同的網(wǎng)絡(luò)層具有不同的效果,例如傳統(tǒng)的量化和截?cái)?在作用上可以用正則化層和激活函數(shù)來(lái)替代,激活函數(shù)Sigmoid[60]、TanH[61]、ReLU[62]等都是在深度學(xué)習(xí)隱寫(xiě)分析中所常用的.在訓(xùn)練二分類模型上,傳統(tǒng)隱寫(xiě)分析與基于深度學(xué)習(xí)的隱寫(xiě)分析的差距并不大,依賴的都是機(jī)器學(xué)習(xí)的方式,都是訓(xùn)練一個(gè)分類器,最后輸出二分類結(jié)果.

在本節(jié)中,半學(xué)習(xí)是指在隱寫(xiě)分析網(wǎng)絡(luò)利用固定濾波核作為獨(dú)立的一個(gè)預(yù)處理層,并且內(nèi)部的權(quán)重參數(shù)不參與反向傳播,其他的網(wǎng)絡(luò)層則是依賴深度學(xué)習(xí)方法去優(yōu)化.在本節(jié)中,按照網(wǎng)絡(luò)的架構(gòu)分為深度網(wǎng)絡(luò)模型與寬度網(wǎng)絡(luò)模型.

2.1 基于深度網(wǎng)絡(luò)的半學(xué)習(xí)隱寫(xiě)分析模型

2015 年,Qian 等人[63]提出了一種新的網(wǎng)絡(luò),稱為GNCNN(Gaussian-Neuron CNN),圖6 是GNCNN 網(wǎng)絡(luò)與傳統(tǒng)隱寫(xiě)分析之間的對(duì)比圖.

Fig.6 Traditional steganalysis and GNCNN structure圖6 GNCNN 與傳統(tǒng)隱寫(xiě)分析結(jié)構(gòu)

該網(wǎng)絡(luò)結(jié)構(gòu)包括一個(gè)預(yù)處理層、5 個(gè)卷積層和3 個(gè)全連接層,預(yù)處理層將卷積層中的卷積核替換成固定的高通濾波核,獲取數(shù)字圖像的高維殘差信息,輔助網(wǎng)絡(luò)進(jìn)行學(xué)習(xí).這樣不僅僅加快了隱寫(xiě)分析網(wǎng)絡(luò)的訓(xùn)練,而且將不必要的圖像內(nèi)容信息移除,減少了圖像低維信息干擾.在實(shí)驗(yàn)過(guò)程中,加入了固定的高通濾波核的GNCNN網(wǎng)絡(luò)在訓(xùn)練速度和訓(xùn)練結(jié)果上都會(huì)優(yōu)于使用在預(yù)處理層中隨機(jī)初始化卷積核的網(wǎng)絡(luò).由于經(jīng)過(guò)高通濾波器后得到的信息多為高頻殘差信息,最大池化容易丟失高頻殘差圖像信息,導(dǎo)致網(wǎng)絡(luò)難以擬合,所以在GNCNN 中,使用平均池化操作來(lái)減少殘差信息的丟失.Qian 根據(jù)隱寫(xiě)噪聲的特點(diǎn)提出了高斯激活函數(shù),替代卷積層中的ReLU 激活函數(shù).如下是GNCNN 中所采用高斯激活函數(shù).

其中,σ是用來(lái)衡量函數(shù)曲線寬度的參數(shù).該公式可以將數(shù)值較小的輸入轉(zhuǎn)換成一個(gè)正數(shù),并且這種激活函數(shù)也是第一次在深度網(wǎng)絡(luò)中應(yīng)用,故該網(wǎng)絡(luò)也因此命名為GNCNN 或是QianNet 隱寫(xiě)分析模型.

對(duì)不同嵌入率下的空域自適應(yīng)隱寫(xiě)算法,GNCNN 的表現(xiàn)見(jiàn)表3.

Table 3 Comparison of experimental results under different steganography algorithms of traditional steganalysis and GNCNN表3 GNCNN 與傳統(tǒng)隱寫(xiě)分析在不同隱寫(xiě)算法下實(shí)驗(yàn)結(jié)果對(duì)比

從表3 的實(shí)驗(yàn)結(jié)果中可以看出,GNCNN 的檢測(cè)效果較優(yōu)于SPAM 較弱于SRM.在各類的隱寫(xiě)算法上都滿足這樣一個(gè)條件:隨著嵌入率(bit per pixel,簡(jiǎn)稱BPP)的提升,即隱寫(xiě)容量的增加、載密圖像中嵌入的秘密信息增加,隱寫(xiě)分析的準(zhǔn)確率就會(huì)越高.BOSSbase 是由10 000 張經(jīng)過(guò)裁減的灰度圖所組成的專用數(shù)據(jù)集;表3 中最下一行的ImageNet[64]數(shù)據(jù)集則是由互聯(lián)網(wǎng)中大量彩圖組成,在彩圖隱寫(xiě)分析上,GNCNN 已經(jīng)與SRM 的檢測(cè)效果非常接近.在BOSSbase 數(shù)據(jù)集上,通過(guò)大量數(shù)據(jù)測(cè)試發(fā)現(xiàn):GNCNN 僅僅比SRM 的檢測(cè)正確率低3%～5%;而對(duì)于彩圖這種通道數(shù)較多的數(shù)據(jù)集而言,GNCNN 與SRM 的隱寫(xiě)檢測(cè)水平相近.這是因?yàn)橄鄬?duì)于灰度圖的隱寫(xiě),彩圖不同通道間具有關(guān)聯(lián)性且包含的信息更多,因此彩圖隱寫(xiě)也更容易被檢測(cè),對(duì)于網(wǎng)絡(luò)自學(xué)習(xí)的參數(shù)權(quán)重要求較低.相對(duì)于其他基于深度學(xué)習(xí)的隱寫(xiě)分析而言,GNCNN 由于網(wǎng)絡(luò)模型較為簡(jiǎn)單,在隱寫(xiě)分析的準(zhǔn)確率上存在局限性.

2016 年,Xu 等人提出了Xu-Net[65]網(wǎng)絡(luò).Xu-Net 在網(wǎng)絡(luò)框架上仍然沿用了GNCNN 的網(wǎng)絡(luò)架構(gòu)特點(diǎn),例如依舊采用全局池化操作,減少殘差圖像信息的丟失.同樣在網(wǎng)絡(luò)前端添加了一個(gè)固定的高通濾波層,即KV 核作為預(yù)處理層,如下所示.

公式(9)表示的濾波核是從SRM[48]的30 個(gè)高通濾波核中挑選出來(lái)的,在區(qū)分高維特征即紋理復(fù)雜度時(shí)具有較好的效果.高通濾波器是一種中心對(duì)稱的結(jié)構(gòu),這樣可以有效地提取出像素點(diǎn)與周圍像素之間的信息差距,使得隱寫(xiě)分析模型可以有效地獲取像素之間的共生矩陣,重新排列得到信噪特征,從而幫助隱寫(xiě)分析模型更好地檢測(cè),各類不同的濾波核在處理相同的數(shù)字圖像時(shí)會(huì)有不同的效果.

從表4 的測(cè)試結(jié)果中可以看出:Xu-Net 與SRM 在相同的隱寫(xiě)方法下具有相似的檢測(cè)效果,甚至超過(guò)傳統(tǒng)的SRM 方法,并且遠(yuǎn)遠(yuǎn)超過(guò)了同樣是基于深度學(xué)習(xí)的GNCNN[63]的檢測(cè)效果.Xu-Net 的提出與實(shí)驗(yàn)結(jié)果,正式宣告基于深度學(xué)習(xí)的隱寫(xiě)分析模型已經(jīng)可以與傳統(tǒng)隱寫(xiě)分析模型進(jìn)行較量.

Table 4 Comparison of detection accuracy of Xu-Net and SRM on S-UNIWARD and HILL表4 Xu-Net 與SRM 在S-UNIWARD 與HILL 下準(zhǔn)確率對(duì)比

Xu-Net 網(wǎng)絡(luò)根據(jù)經(jīng)過(guò)預(yù)處理層的殘差高頻噪聲信號(hào)具有關(guān)于0 對(duì)稱且與符號(hào)無(wú)關(guān)的特性,在第1 個(gè)卷積層采用添加ABS(absolute layer)層來(lái)收斂特征圖的范圍,從原來(lái)無(wú)意義的正負(fù)區(qū)間縮小到正向區(qū)間.添加BN 層(batch normalization layer)進(jìn)行批處理,使得訓(xùn)練數(shù)據(jù)符合正態(tài)分布.這樣可以提升訓(xùn)練時(shí)的收斂速度,也可以避免訓(xùn)練時(shí)出現(xiàn)梯度彌散或梯度爆炸現(xiàn)象,導(dǎo)致訓(xùn)練結(jié)果陷入局部最小值.最后采用1×1 的卷積核將特征信息集聚,并且防止模型存在過(guò)擬合的情況.

2017 年,Xu[66]在原有Xu-Net 基礎(chǔ)上提出了一種基于JPEG 域的隱寫(xiě)分析網(wǎng)絡(luò),并命名為Xu-Net-JPEG,采用20 層的全卷積網(wǎng)絡(luò)證明了深度學(xué)習(xí)網(wǎng)絡(luò)可以在復(fù)雜領(lǐng)域擊敗基于特征的隱寫(xiě)分析方法,同時(shí)也證明了深度網(wǎng)絡(luò)比寬度網(wǎng)絡(luò)更容易提取隱寫(xiě)噪聲.這種網(wǎng)絡(luò)結(jié)構(gòu)依賴固定的DCT 內(nèi)核和特征圖組的閾值設(shè)定,為了防止過(guò)深的卷積層會(huì)使網(wǎng)絡(luò)在訓(xùn)練時(shí)出現(xiàn)梯度彌散或者梯度爆炸的情況,在網(wǎng)絡(luò)中采用與ResNet 相同的跳接結(jié)構(gòu),這在后續(xù)的SRNet[67]中也有相應(yīng)的考慮.同年,Chen 等人[68]也在Xu-Net 的基礎(chǔ)上提出一種帶有JPEG 相位感知的頻域隱寫(xiě)分析網(wǎng)絡(luò)VNet 與PNet(VNet 結(jié)構(gòu)較小且精度相對(duì)于PNet 相差較小).VNet 不僅沿用了Xu-Net 中的預(yù)處理層,還在其基礎(chǔ)上額外添加了3 個(gè)濾波核作為固定的預(yù)處理層,分別為點(diǎn)高通濾波核(point high-pass filter)、二維水平Gabor 濾波核和二維垂直Gabor 濾波核,用以學(xué)習(xí)一些具有方向特性的隱寫(xiě)噪聲,其中,點(diǎn)高通濾波核在預(yù)處理層中起到“催化劑”的作用.PNet 與VNet 借鑒了DCTR 等頻域隱寫(xiě)分析的先驗(yàn)知識(shí),在網(wǎng)絡(luò)框架中還添加了JPEG 相位感知模塊,用以學(xué)習(xí)頻域的信噪比信息,從而提升隱寫(xiě)檢測(cè)精度.

這是因?yàn)镴PEG 編碼會(huì)將8×8 的像素分塊作為基礎(chǔ)操作單元,各個(gè)不同的JPEG 塊內(nèi)與塊間的系數(shù)都具有較強(qiáng)的關(guān)聯(lián)性,這種特性被稱為相位特性.相位感知對(duì)JPEG 圖像對(duì)應(yīng)位置的點(diǎn)進(jìn)行統(tǒng)計(jì)與合并,這樣可以較好地描述塊間相關(guān)性與相位特性的變化,從而提升頻域隱寫(xiě)分析模型的準(zhǔn)確性.在文獻(xiàn)[50-51,56]中,都可以見(jiàn)到相同的操作.

從圖7 的左半部分可以看出:每一個(gè)特征圖在經(jīng)過(guò)該模塊都會(huì)被下采樣為64 張代表不同DCT 系數(shù)的統(tǒng)計(jì)特征圖(一張圖代表一個(gè)相位),這也是VNet 或是PNet 適用于頻域隱寫(xiě)分析的重要原因.VNet 經(jīng)過(guò)相位分離模塊后會(huì)將得到的特征圖繼續(xù)放入一個(gè)線性網(wǎng)絡(luò)中進(jìn)行訓(xùn)練(PNet 則會(huì)放入64 個(gè)并行子網(wǎng)絡(luò)中進(jìn)行訓(xùn)練),最后輸入全連接層并輸出判別結(jié)果.

Fig.7 Phase split module圖7 相位分離模塊

2018 年,Yedroudj 等人[69]提出了一個(gè)采用Alex-Net[70]理念的網(wǎng)絡(luò),并命名為Yedroudj-Net.該網(wǎng)絡(luò)沿用了傳統(tǒng)的SRM 中的所有高通濾波核,并且所有濾波核的權(quán)重不參與網(wǎng)絡(luò)訓(xùn)練過(guò)程中的反向傳播.Yedroudj-Net 在網(wǎng)絡(luò)結(jié)構(gòu)上與Xu-Net 和Ye-Net[71]存在不少相似處,預(yù)處理層采用與Ye-Net 相同的30 個(gè)濾波核,但不同的是Ye-Net 的預(yù)處理層參與訓(xùn)練過(guò)程.Yedroudj-Net 在除去預(yù)處理層的其他網(wǎng)絡(luò)架構(gòu)上與Xu-Net 極為相似,都采取了絕對(duì)值層與批正則化層.Yedroudj-Net 還使用了 Ye-Net 模型提出的截?cái)嗉せ詈瘮?shù)(truncation activation function,簡(jiǎn)稱TLU),并且在最后的判別網(wǎng)絡(luò)部分采用了3 層全連接層.Yedroudj-Net 與SRM,Xu-Net 和Ye-Net的誤檢率對(duì)比見(jiàn)表5.

Table 5 Comparison of detection error of Yedroudj-Net and other steganalysis models表5 Yedroudj-Net 與其他隱寫(xiě)模型的誤檢率對(duì)比

Yedroudj-Net 在Xu-Net 與Ye-Net 的基礎(chǔ)上,降低了7 個(gè)百分點(diǎn)的誤檢率.這是因?yàn)樵摼W(wǎng)絡(luò)在Xu-Net 模型基礎(chǔ)上延用了SRM 中的30 個(gè)濾波核作為圖像的預(yù)處理層和Ye-Net 中的截?cái)嗉せ詈瘮?shù),但網(wǎng)絡(luò)最后的3 層全連接層會(huì)使得網(wǎng)絡(luò)的收斂速度變慢,且易受到對(duì)抗樣本的攻擊.在Yedroudj-Net 網(wǎng)絡(luò)的基礎(chǔ)上,Deng 等人在2019年[72]首次將全局協(xié)方差池化[73]引入基于深度學(xué)習(xí)的隱寫(xiě)分析領(lǐng)域,并且為了加速該網(wǎng)絡(luò)的擬合速度,在訓(xùn)練過(guò)程中采用了迭代計(jì)算平方根的方法幫助網(wǎng)絡(luò)加速擬合,取得了優(yōu)異的效果.

2.2 基于寬網(wǎng)絡(luò)的半學(xué)習(xí)隱寫(xiě)分析模型

2017 年,Zeng 等人[74]首次提出一種基于深度學(xué)習(xí)的頻域圖像隱寫(xiě)分析模型(后稱Zeng’s model).Zeng’s model 首先采用25 個(gè)固定的DCT 基礎(chǔ)塊作為預(yù)處理層,對(duì)頻域圖像進(jìn)行處理;經(jīng)過(guò)預(yù)處理層后,得到一個(gè)25 層的特征圖,再放入與DCTR 取值相同的量化截?cái)嘀祵?然后,將這些經(jīng)過(guò)截?cái)嗯c量化操作的25 通道的信噪比信息放入與Xu-Net 結(jié)構(gòu)相似的子網(wǎng)絡(luò)中分別運(yùn)算;最后,將25 個(gè)不同子網(wǎng)絡(luò)提取的長(zhǎng)度為125 的一維信息進(jìn)行級(jí)聯(lián),放入全連接層中進(jìn)行判別.

從表6 的Zeng’s model 與其他隱寫(xiě)分析模型對(duì)比的實(shí)驗(yàn)結(jié)果可以看出:Zeng’s model 在檢測(cè)的精確率上略優(yōu)于DCTR 且略劣于PHARM;雖然Xu-Net 模型在較低嵌入率(bit per non-zero AC DCT coefficient,簡(jiǎn)稱bpnzac)下的效果并不是很好,但也證明了基于深度學(xué)習(xí)的隱寫(xiě)分析模型不再是針對(duì)單獨(dú)某個(gè)域具有檢測(cè)能力.Zeng’s model 的出現(xiàn),也標(biāo)志了在深度學(xué)習(xí)所擁有的強(qiáng)大算力在頻域隱寫(xiě)分析這一領(lǐng)域嶄露頭角,也為后來(lái)的頻域隱寫(xiě)分析模型打下了基礎(chǔ).

Table 6 Comparison of detection error of Zeng’s model and other steganalysis models表6 Zeng’s model 與其他隱寫(xiě)分析模型的誤檢率對(duì)比

2018 年,Zeng[75]又在Zeng’s model 的基礎(chǔ)上提出一種將JPEG 域轉(zhuǎn)化成為空域圖像后,再進(jìn)行隱寫(xiě)檢測(cè)的模型,考慮到太寬的網(wǎng)絡(luò)不僅難以訓(xùn)練,而且會(huì)使得網(wǎng)絡(luò)獲取太多的冗余信息,減少原有Zeng’s model 上子模塊的數(shù)量.實(shí)驗(yàn)結(jié)果表明[75]:在網(wǎng)絡(luò)收斂速度與精確率,都相對(duì)于Zeng’s model 有了較為顯著的提升.

2018 年,Li 等人[76]提出一種名為ReST-Net 的結(jié)構(gòu),該網(wǎng)絡(luò)在Xu-Net 模型的基礎(chǔ)之上融合寬度網(wǎng)絡(luò)思想,采用Inception[77]結(jié)構(gòu).ReST-Net 希望通過(guò)3 個(gè)子模型的并行,可以獲取更多的經(jīng)過(guò)預(yù)處理的圖像信息.在不同的子模型中采用Sigmoid、ReLU、TanH 這3 類函數(shù)不同組合方式的應(yīng)用,以獲取具有不同結(jié)構(gòu)的載密圖像信息,從而從多方面獲取隱寫(xiě)痕跡.ReST-Net 的3 種子網(wǎng)絡(luò)采用不同的濾波器:Subnet#1 選用16 個(gè)不同參數(shù)組合大小為6×6 的Gabor 濾波核作為預(yù)處理層;Subnet#2 選用16 種不同的SRM 濾波核作為一種線性的預(yù)處理方式;Subnet#3 則先采用SRM 濾波核進(jìn)行線性處理,再將得到的預(yù)處理信息投入到經(jīng)過(guò)不同角度旋轉(zhuǎn)過(guò)的SRM 濾波核內(nèi)進(jìn)行非線性處理,最后輸出14 個(gè)非線性特征圖.

如表7 的實(shí)驗(yàn)結(jié)果所示,不僅ReST-Net 本身,ReST-Net 的3 個(gè)子網(wǎng)絡(luò)在檢測(cè)準(zhǔn)確率上相較于Xu-Net 都存在明顯的提升.

Table 7 Comparison of accuracy of Xu-Net and ReST-Net with subnets表7 ReST-Net 及其子網(wǎng)絡(luò)與Xu-Net 準(zhǔn)確率對(duì)比

在ReST-Net 中,Li 認(rèn)為,不同Subnet 之間的組合也會(huì)對(duì)隱寫(xiě)分析的準(zhǔn)確率產(chǎn)生不一樣的影響.ReST-Net 采取如下6 種不同的模型組合方式.

1)僅采用一個(gè)子網(wǎng)絡(luò)共同使用Gabor、SRM 線性和SRM 非線性濾波核(將3 個(gè)子網(wǎng)絡(luò)融合成1 個(gè)).

2)與方式1)類似,采用單子網(wǎng)絡(luò)結(jié)構(gòu),不同的是不采用Gabor 濾波器.

3)采用ReST-Net 中Subnet#1 與Subnet#2 的組合.

4)采用ReST-Net 中Subnet#1 與Subnet#3 的組合.

5)采用ReST-Net 中Subnet#2 與Subnet#3 的組合.

6)采用4 個(gè)并行子網(wǎng)絡(luò),將原本的Subnet#1 拆分成兩個(gè)子網(wǎng)絡(luò),與Subnet#2 和Subnet#3 共同使用.

在表8 的消融實(shí)驗(yàn)中,X 代表未經(jīng)過(guò)修改的ReST-Net 模型,訓(xùn)練集所采用的隱寫(xiě)算法都是S-UNIWARD.針對(duì)于第1 種方案,雖然網(wǎng)絡(luò)總體的層數(shù)并沒(méi)有減少,但僅使用一個(gè)子網(wǎng)絡(luò)時(shí),這種串連結(jié)構(gòu)在檢測(cè)準(zhǔn)確率上不如并聯(lián)結(jié)構(gòu).除此以外,上述結(jié)果表明,并聯(lián)網(wǎng)絡(luò)數(shù)量越多檢測(cè)效果越好.當(dāng)子網(wǎng)絡(luò)的數(shù)量從3 個(gè)增到4 個(gè)時(shí),檢測(cè)準(zhǔn)確率的增長(zhǎng)并不明顯,但會(huì)消耗大量的服務(wù)器算力資源并且使得網(wǎng)絡(luò)的收斂速度更慢.ReST-Net 考慮到這個(gè)原因,并且權(quán)衡其中的利弊,最后僅使用3 個(gè)子網(wǎng)絡(luò).

Table 8 Detection accuracies of six cases of subnets are used (%)表8 6 類子網(wǎng)絡(luò)組合的檢測(cè)準(zhǔn)確率(%)

2.3 半學(xué)習(xí)模型小結(jié)

上述的方法都是半學(xué)習(xí)隱寫(xiě)分析模型,將SRM 的濾波核或者固定的處理方式放入網(wǎng)絡(luò)的預(yù)處理層中對(duì)圖像進(jìn)行處理,固定其中濾波核內(nèi)的權(quán)重參數(shù),充分融合SRM 這類非深度學(xué)習(xí)隱寫(xiě)分析的特點(diǎn),再依賴深度學(xué)習(xí)強(qiáng)有力的擬合能力進(jìn)行訓(xùn)練[63,65,66,68,69,72,76,78],在發(fā)展中逐漸超越了傳統(tǒng)隱寫(xiě)分析模型的檢測(cè)能力.

在空域上,其他研究者根據(jù)深度學(xué)習(xí)的網(wǎng)絡(luò)不斷改進(jìn),對(duì)于隱寫(xiě)分析的網(wǎng)絡(luò)做出相應(yīng)的改變.Qian[79]提出了對(duì)于模型采用深度學(xué)習(xí)增強(qiáng)方式進(jìn)行遷移學(xué)習(xí),對(duì)于原始圖像的信號(hào)做信號(hào)增強(qiáng)等操作,并把網(wǎng)絡(luò)架構(gòu)和現(xiàn)實(shí)應(yīng)用相結(jié)合.Qian 等人[80]提出了由于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練存在單一性和隨機(jī)性很難讓網(wǎng)絡(luò)學(xué)習(xí)到圖像的全局信息,通過(guò)遷移學(xué)習(xí)方法,利用傳統(tǒng)隱寫(xiě)分析方法與特征分析來(lái)增強(qiáng)隱寫(xiě)分析模型對(duì)于全局統(tǒng)計(jì)信息的學(xué)習(xí)能力.但是遷移學(xué)習(xí)也會(huì)導(dǎo)致許多的效果受到限制,不僅如此,由于載體圖像與載密圖像之間的差異較小,如果是0.1bit/pixel 甚至更低的遷入率,就容易導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)難以收斂的問(wèn)題.這是因?yàn)橥ㄟ^(guò)特征提取步驟得到的像素間差異和共生矩陣結(jié)構(gòu)相似太大.為了解決這樣的問(wèn)題,Qian 提出了另外一種遷移學(xué)習(xí)方法,讓隱寫(xiě)分析網(wǎng)絡(luò)從高嵌入率的樣本集中學(xué)習(xí)到如何區(qū)分載體圖像與載密圖像之間的差異,然后將已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)遷移到低嵌入率的樣本空間中.這樣可以有效地減少訓(xùn)練成本與時(shí)間,提高隱寫(xiě)分析模型的檢測(cè)效果.在頻域上,Chen 也在PNet 中提出了遷移想法,但在UED 隱寫(xiě)算法上訓(xùn)練的模型遷移到J-UNIWARD 隱寫(xiě)算法的圖像上會(huì)出現(xiàn)過(guò)擬合的現(xiàn)象,且在測(cè)試效果遠(yuǎn)低于傳統(tǒng)頻域隱寫(xiě)分析的檢測(cè)效果.

3 全學(xué)習(xí)隱寫(xiě)分析

在本節(jié)中將介紹全學(xué)習(xí)隱寫(xiě)分析模型,全學(xué)習(xí)網(wǎng)絡(luò)是指在訓(xùn)練過(guò)程中,預(yù)處理層中的參數(shù)會(huì)隨著網(wǎng)絡(luò)反向傳播一起更新.在本節(jié)中,按照網(wǎng)絡(luò)的架構(gòu)分為深度網(wǎng)絡(luò)模型與寬度網(wǎng)絡(luò)模型.

3.1 基于深度網(wǎng)絡(luò)的全學(xué)習(xí)隱寫(xiě)分析模型

2014 年,Tan 等人[81]首次將隱寫(xiě)分析與深度學(xué)習(xí)相結(jié)合,激發(fā)了基于深度學(xué)習(xí)的隱寫(xiě)分析新浪潮,并且給這種網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)稱為TanNet.該網(wǎng)絡(luò)結(jié)構(gòu)一共只有4 層網(wǎng)絡(luò),分別由3 層卷積層和一層全連接層組合而成.Tan 提出了3 種不同的方案,用以證明將深度學(xué)習(xí)與隱寫(xiě)分析相結(jié)合方法的可行性與有效性.

1)隨機(jī)初始化第1 層卷積核.因?yàn)镾RM 有各種各樣不同濾波核的存在,Tan 認(rèn)為,通過(guò)這種隨機(jī)初始化的卷積核會(huì)存在比人工設(shè)計(jì)的卷積核效果更好的可能.

2)使用濾波核初始化第1 層卷積核(濾波核乘以隨意初始化的卷積核).

3)使用濾波核作為初始化第1 層卷積和以及使用棧式卷積自動(dòng)編碼器與訓(xùn)練每個(gè)卷積層.

在BOSSBase 數(shù)據(jù)集下,使用HUGO 自適應(yīng)隱寫(xiě)算法對(duì)上述3 種模型進(jìn)行負(fù)載為0.4bit/pixel 的比較實(shí)驗(yàn).評(píng)價(jià)一個(gè)隱寫(xiě)分析器是否有效,需要在大量的數(shù)據(jù)集上測(cè)試得出最后的評(píng)價(jià)指標(biāo).

表9 是TanNet[61]和SPAM、SRM 在傳統(tǒng)數(shù)據(jù)集上的測(cè)試結(jié)果.

Table 9 Comparison detection error of different proposals in TanNet表9 TanNet 不同方案誤檢率對(duì)比

從表9 的實(shí)驗(yàn)結(jié)果可以得出:第3 方案的方法是最好的,相較于SPAM 這種特征維數(shù)較少的傳統(tǒng)隱寫(xiě)分析方案,在誤檢率上提升了9%.3 種不同的方案得到3 組不同的數(shù)據(jù),說(shuō)明網(wǎng)絡(luò)架構(gòu)本身和隱寫(xiě)分析的效果并沒(méi)有太大的關(guān)系.濾波核的初始化可以提升檢測(cè)的成功率,但是相較于比較強(qiáng)力的SRM 而言還是有所不及.這僅僅是深度學(xué)習(xí)與隱寫(xiě)分析的初步結(jié)合,是簡(jiǎn)單的結(jié)合與嘗試,不僅證明了深度學(xué)習(xí)這項(xiàng)技術(shù)是可以應(yīng)用在隱寫(xiě)分析上的,而且給予了未來(lái)深度學(xué)習(xí)有望超過(guò)SRM 的一個(gè)觀念,但是在網(wǎng)絡(luò)架構(gòu)上,比較簡(jiǎn)單依賴卷積層與全連接層的結(jié)構(gòu).

2017 年,Ye 等人[71]提出了Ye-Net 網(wǎng)絡(luò),直接將傳統(tǒng)的SRM 中的特征提取中濾波核與深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)合,利用SRM 的30 個(gè)高通濾波核共同工作,然后得到了一張通道數(shù)為30 的殘差疊加圖像.將其放入隱寫(xiě)分析網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,讓網(wǎng)絡(luò)可以有效地學(xué)習(xí)到更多特征信息的殘差信息,讓網(wǎng)絡(luò)自己學(xué)習(xí)矩陣的構(gòu)建模式與構(gòu)建大小,利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)代替SRM 中的計(jì)算殘差圖像和提取共生矩陣的方法.

不僅在計(jì)算殘差時(shí)添加了各式各樣的濾波核,而且相較于之前Xu-Net 中的網(wǎng)絡(luò)使用了混合激活函數(shù),還提出了一種新型的截?cái)?truncated linear unit,簡(jiǎn)稱TLU)激活函數(shù),用以模仿SRM 中的截?cái)嗖僮?TLU 函數(shù)具有更好地適應(yīng)隱寫(xiě)噪聲的分布、收斂速度快等特點(diǎn),這樣使得經(jīng)過(guò)卷積后的特征圖具有更好的區(qū)分性.因?yàn)樵赮e-Net網(wǎng)絡(luò)中沒(méi)有添加絕對(duì)值層,所以需要采用截?cái)郥LU 激活函數(shù),更好地方便函數(shù)收斂.這是因?yàn)殡[寫(xiě)算法采用的三元STC 編碼嵌入,得到的噪聲殘差圖像會(huì)存在±1 和0 的三元取值圖,利用TLU 函數(shù)可以讓網(wǎng)絡(luò)無(wú)論在+1 還是-1 的時(shí)候都可以有效地學(xué)習(xí)到數(shù)據(jù)進(jìn)行梯度下降加速損失函數(shù)的收斂,更好地找到一個(gè)全局最小值點(diǎn):

公式(10)是TLU 函數(shù)的具體公式,T作為截?cái)鄶?shù)值,將絕對(duì)值大于T的數(shù)值賦值為T,用來(lái)限制整個(gè)激活函數(shù)的數(shù)值情況,防止數(shù)值間差異太大.表10 就T的具體數(shù)值進(jìn)行討論.

Table 10 Comparison of experimental detection error of TLU and ReLU activation functions on Ye-Net表10 在Ye-Net 上TLU 與ReLU 激活函數(shù)的實(shí)驗(yàn)誤檢率結(jié)果對(duì)比

通過(guò)在3 類傳統(tǒng)隱寫(xiě)方法上的大量隱寫(xiě)檢測(cè)實(shí)驗(yàn)對(duì)比可以看出:TLU 激活函數(shù)與ReLU 激活函數(shù)在T=∞時(shí),誤檢率是相近的.值得注意的是:當(dāng)T=∞時(shí),TLU 激活函數(shù)的表現(xiàn)形式就是一個(gè)線性函數(shù)了.TLU 激活函數(shù)中T的數(shù)值經(jīng)過(guò)實(shí)驗(yàn)被證明:在T=3 或者T=7 時(shí)網(wǎng)絡(luò)的檢測(cè)效果最好.

Ye-Net 首次在隱寫(xiě)分析網(wǎng)絡(luò)的訓(xùn)練過(guò)程中添加了通道選擇感知,并且通過(guò)大量實(shí)驗(yàn)也證明這種方法存在一定的優(yōu)勢(shì),可以幫助隱寫(xiě)分析網(wǎng)絡(luò)更好地收斂和更好地實(shí)驗(yàn)檢測(cè)效果.將選擇通道與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,能夠提升對(duì)自適應(yīng)隱寫(xiě)算法的準(zhǔn)確率,在紋理復(fù)雜處和細(xì)節(jié)處檢測(cè)效果更好.

此外,Ye-Net 還驗(yàn)證了數(shù)據(jù)集對(duì)于深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練會(huì)產(chǎn)生巨大的影響,大規(guī)模的實(shí)驗(yàn)樣本可以提升網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性.在WOW[26]、S-UNIWARD[27]、HILL[28]這種基于空域的隱寫(xiě)算法的測(cè)試上,Ye-Net 及其對(duì)應(yīng)的網(wǎng)絡(luò)架構(gòu)檢測(cè)能力都以明顯的優(yōu)勢(shì)超越了SRM 和maxSRMd2[78].此時(shí)是基于深度學(xué)習(xí)的隱寫(xiě)分析技術(shù)第一次超越傳統(tǒng)的隱寫(xiě)分析技術(shù),這也是基于深度學(xué)習(xí)的隱寫(xiě)技術(shù)發(fā)展史上的里程碑.在訓(xùn)練網(wǎng)絡(luò)的過(guò)程中,Ye-Net采用的梯度下降方法時(shí)并不是批次梯度下降(batch gradient descent,簡(jiǎn)稱BGD)[82],而是采用AdaDelta[83]作為梯度下降的優(yōu)化器.

在文獻(xiàn)[71]中,Ye 等人認(rèn)為:在深度學(xué)習(xí)的隱寫(xiě)分析模型訓(xùn)練中,訓(xùn)練集的大小對(duì)于訓(xùn)練的結(jié)果會(huì)有一定的影響.訓(xùn)練集的大小和訓(xùn)練結(jié)果的關(guān)系見(jiàn)表11.

Table 11 Detection error comparison of Ye-Net,SRM and MaxSRMd2 under data enhancement表11 Ye-Net、SRM 和MaxSRMd2 在數(shù)據(jù)增強(qiáng)下的誤檢率對(duì)比

隨著訓(xùn)練集數(shù)據(jù)量的增大,Ye-Net 誤檢率也會(huì)逐漸變小.針對(duì)于基于深度學(xué)習(xí)的隱寫(xiě)檢測(cè),可以利用例如旋轉(zhuǎn)、翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)的辦法來(lái)增加訓(xùn)練集的數(shù)據(jù)量.但是根據(jù)橫向?qū)Ρ瓤梢钥闯?數(shù)據(jù)增強(qiáng)對(duì)與傳統(tǒng)的隱寫(xiě)分析的準(zhǔn)確率沒(méi)有明顯影響.

從表12 的實(shí)驗(yàn)結(jié)果中可以看出:加了TLU 激活函數(shù)的誤檢率結(jié)果更低,在不同的空域隱寫(xiě)算法內(nèi),都至少降低了3 個(gè)百分點(diǎn).這對(duì)于傳統(tǒng)的隱寫(xiě)分析是具有改革效果的,但是相較于其他隱寫(xiě)分析模型而言,Ye-Net 模型的架構(gòu)較為簡(jiǎn)單相較于Xu-Net 模型所做到的檢測(cè)效果的提升并不明顯.在實(shí)際訓(xùn)練過(guò)程中,Ye-Net 由于其預(yù)處理層的學(xué)習(xí)操作,會(huì)使得網(wǎng)絡(luò)本身出現(xiàn)更加難以收斂、復(fù)現(xiàn)效果差等問(wèn)題.

Table 12 Comparison of Ye-Net and other models’detection error on different steganographic algorithms表12 Ye-Net 等模型在不同隱寫(xiě)算法上的誤檢率對(duì)比

2018 年,Boroumand 等人[67]提出了一個(gè)48 層基于深度學(xué)習(xí)的隱寫(xiě)分析器——SRNet,該網(wǎng)絡(luò)利用了殘差網(wǎng)絡(luò)模擬傳統(tǒng)SRM 在篩選特征的過(guò)程.SRNet 不僅可以應(yīng)用于空域,在JPEG 域上也有不錯(cuò)的效果.SRNet 的成功,也證明了深度學(xué)習(xí)網(wǎng)絡(luò)并不需要的過(guò)多的先驗(yàn)知識(shí).Jessica 作為傳統(tǒng)隱寫(xiě)分析領(lǐng)航者的一員,認(rèn)為深度學(xué)習(xí)具備強(qiáng)大的學(xué)習(xí)能力,如果單純依賴傳統(tǒng)的隱寫(xiě)分析的濾波核勢(shì)必會(huì)對(duì)于網(wǎng)絡(luò)最后收斂結(jié)果存在一定的限制,影響了深度學(xué)習(xí)的擬合能力.所以Jessica 提高了網(wǎng)絡(luò)結(jié)構(gòu)的層數(shù),采用殘差結(jié)構(gòu)方式解決網(wǎng)絡(luò)層數(shù)較高時(shí)出現(xiàn)的在反向傳播過(guò)程中的梯度爆炸與梯度彌散情況,幫助網(wǎng)絡(luò)在訓(xùn)練過(guò)程中更容易收斂到一個(gè)全局最優(yōu)解或者全局較優(yōu)解.但正是因?yàn)檫@種全靠網(wǎng)絡(luò)依賴方向傳播的擬合方式,導(dǎo)致SRNet 模型在訓(xùn)練過(guò)程中所需要耗費(fèi)的時(shí)間也更長(zhǎng),更容易在訓(xùn)練過(guò)程中出現(xiàn)損失不動(dòng)點(diǎn)情況.

從圖8 的SRNet 網(wǎng)絡(luò)結(jié)構(gòu)圖中可以觀察到:SRNet 的前7 層不使用下采樣層(pooling),能有效避免降低隱寫(xiě)信號(hào)的能量;同時(shí)使用殘差結(jié)構(gòu),有利于網(wǎng)絡(luò)學(xué)習(xí)到相應(yīng)的“隱寫(xiě)噪聲殘差”特征圖和原本依賴計(jì)算而產(chǎn)生的共生矩陣.其中,整體網(wǎng)絡(luò)結(jié)構(gòu)(圖8)的前兩層采用的是Type1 單元層,即線性網(wǎng)絡(luò)結(jié)構(gòu),依賴的是深度學(xué)習(xí)本身的擬合能力,從而做到提取圖像中的細(xì)節(jié)部分增強(qiáng);Type2 單元層采用了殘差塊的理念,將圖像數(shù)據(jù)跳躍連接防止訓(xùn)練過(guò)程中的梯度問(wèn)題;Type3 和Type4 分別與Type2 和Type1 在結(jié)構(gòu)上相似.其中,

· BN 代表Batch Normalization[84],代表批歸一化操作將數(shù)據(jù)歸一化幫助訓(xùn)練.

· 平均池化(average pooling,簡(jiǎn)稱AP)和全局平均池化(global average pooling,簡(jiǎn)稱GAP)操作不僅可以縮小計(jì)算圖并減少運(yùn)算量,還可以防止采用最大值池化產(chǎn)生的殘差信息丟失問(wèn)題.

· GAP 操作將得到的數(shù)據(jù)放入全連接層(fully conneted,簡(jiǎn)稱FC)幫助網(wǎng)絡(luò)的訓(xùn)練.

Fig.8 Network structure diagram of SRNet圖8 SRNet 的網(wǎng)絡(luò)結(jié)構(gòu)圖

SRNet 通過(guò)設(shè)計(jì)多種不同的實(shí)驗(yàn)方案,將SRNet 針對(duì)空域隱寫(xiě)術(shù)和傳統(tǒng)隱寫(xiě)分析比較,SRNet 已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了maxSRM 的結(jié)果.

在表13 和表14 中SRNet 在空域和頻域的測(cè)試結(jié)果可以看出:SRNet 與maxSRM 在各類空域隱寫(xiě)算法上的檢測(cè)效果相比,SRNet 已經(jīng)遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的隱寫(xiě)檢測(cè)方法.SRNet 不僅采納了不少其他先驅(qū)者的想法和工作,也利用遷移學(xué)習(xí)來(lái)證明訓(xùn)練的效果具有泛型能力,得出SRNet 不僅僅在空域上有效,在JPEG 域上也有不俗的效果.其中,QF 代表品質(zhì)系數(shù),系數(shù)越高代表圖片的質(zhì)量越高細(xì)節(jié)更豐富,損失的信息越少.通過(guò)實(shí)驗(yàn)的結(jié)果對(duì)比,SRNet 的隱寫(xiě)檢測(cè)錯(cuò)誤率遠(yuǎn)遠(yuǎn)低于當(dāng)時(shí)的網(wǎng)絡(luò)模型,具有絕對(duì)的隱寫(xiě)分析的優(yōu)勢(shì).SRNet 是不同于GNCNN,Xu-Net 這類空域的隱寫(xiě)分析模型:首先,SRNet 依賴殘差網(wǎng)絡(luò)本身對(duì)于信息的跳躍利用比較高的原因,實(shí)現(xiàn)了既可以在空域上分析隱寫(xiě),也可以在頻域上做到有效地檢測(cè);其次,SRNet 在預(yù)處理層上是不同于其他的基于深度學(xué)習(xí)的隱寫(xiě)分析網(wǎng)絡(luò),其他的隱寫(xiě)分析模型是將傳統(tǒng)的隱寫(xiě)分析研究的濾波核放入網(wǎng)絡(luò)的第1 層作為預(yù)處理層,而SRNet 則純粹依賴深度學(xué)習(xí)的擬合能力.

再做不同隱寫(xiě)分析網(wǎng)絡(luò)訓(xùn)練時(shí)間對(duì)照實(shí)驗(yàn),可以發(fā)現(xiàn):在SRNet 訓(xùn)練網(wǎng)絡(luò)中添加一層HPF 作為高通濾波層,也是具有很不錯(cuò)的效果,可以加速其網(wǎng)絡(luò)的收斂性.適當(dāng)?shù)靥砑訋讓痈咄V波,可以有效地加快網(wǎng)絡(luò)的訓(xùn)練速度.SRNet 主要依賴網(wǎng)絡(luò)本身的學(xué)習(xí)能力,將特征提取、特征增強(qiáng)、二分類訓(xùn)練這些難題都交給網(wǎng)絡(luò)本身去訓(xùn)練.但是隨之而來(lái)的問(wèn)題也讓人不得不重視,那就是網(wǎng)絡(luò)本身訓(xùn)練時(shí)間的問(wèn)題.Jessica 所提出的SRNet 的訓(xùn)練輪數(shù)(eopchs)也將超過(guò)600 輪,這個(gè)輪數(shù)可以通過(guò)添加高通濾波核來(lái)加快收斂.但是隨著高通濾波核個(gè)數(shù)的添加,就又會(huì)導(dǎo)致一系列的問(wèn)題,就是網(wǎng)絡(luò)學(xué)習(xí)到參數(shù)不夠,讓網(wǎng)絡(luò)變得不那么優(yōu)秀.SRNet 通過(guò)避免啟發(fā)式的元素,限制了網(wǎng)絡(luò)本身的靈活性.

Table 13 Comparison of detection error results between SRNet and traditional steganalysis model maxSRM表13 SRNet 與傳統(tǒng)隱寫(xiě)分析模型maxSRM 的誤檢率結(jié)果對(duì)比

Table 14 Detection error result of SRNet on frequency domain表14 SRNet 在頻域上的誤檢率結(jié)果

3.2 基于寬度網(wǎng)絡(luò)的全學(xué)習(xí)隱寫(xiě)分析模型

2019 年,Zhu 等人[85]提出了Zhu-Net 網(wǎng)絡(luò).Zhu-Net 相對(duì)于之前的隱寫(xiě)分析網(wǎng)絡(luò)做出了較大的改進(jìn),首次在預(yù)處理層提出改進(jìn)的3×3 的濾波核,在預(yù)處理使用25 個(gè)3×3 濾波核與5 個(gè)5×5 濾波核組合代替原有30 個(gè)5×5的濾波核,這樣預(yù)處理層的參數(shù)減少,從而更容易擬合模型.

在預(yù)處理層的初始化上,Zhu-Net 采用了與Ye-Net 相似的方法,利用SRM 中手工設(shè)計(jì)的濾波核對(duì)預(yù)處理層進(jìn)行初始化操作,但僅保留其中最為有效的5 個(gè)濾波核,其他的濾波核都用3×3 的卷積核代替,并且這些權(quán)重也隨著網(wǎng)絡(luò)傳播過(guò)程中而不斷更新的.針對(duì)于權(quán)重問(wèn)題,Zhu 進(jìn)行了對(duì)照實(shí)驗(yàn),得出結(jié)果:在訓(xùn)練過(guò)程中,隨著Epoch輪數(shù)的增加,可優(yōu)化的預(yù)處理層在整體的二元交叉熵?fù)p失上數(shù)值更小,并且這種數(shù)值上的差異會(huì)不斷增加.表15是Zhu-Net 在不同權(quán)重優(yōu)化方案上的誤檢率.

Table 15 Detection error results of Zhu-Net different preprocessing layer processing schemes表15 Zhu-Net 不同預(yù)處理層處理方案的誤檢率結(jié)果

從表15 中的誤檢率結(jié)果可以看出:Zhu-Net 對(duì)預(yù)處理層中的濾波核權(quán)重采取優(yōu)化策略,有助于整體網(wǎng)絡(luò)的學(xué)習(xí),幫助網(wǎng)絡(luò)收斂.這種收斂效果會(huì)隨著算法完善性與嵌入的降低變得更加明顯.Zhu 為了使得網(wǎng)絡(luò)對(duì)于信噪比信息更加敏感,學(xué)習(xí)到更加有效的信息,所以網(wǎng)絡(luò)中都僅采用ReLU 作為每一層的激活函數(shù),并將空間金字塔池化[86]引進(jìn)隱寫(xiě)分析,代替全連接層前的全局平均池化操作.2017 年,Baluja[87]將空間金字塔池化引入隱寫(xiě)領(lǐng)域,憑借自編碼網(wǎng)絡(luò)結(jié)構(gòu)完成將彩圖藏入彩圖的任務(wù),開(kāi)啟了以圖藏圖的新型隱寫(xiě)模式.

不僅如此,Zhu-Net 不同于其他基于深度學(xué)習(xí)的隱寫(xiě)分析模型的架構(gòu)模式,采取了與 Inception[77]和Xception[88]相似的架構(gòu)模式,使用兩種不同的深度分離卷積模塊,獲取空域殘差特征與通道殘差特征信息.

從表16 中Zhu-Net 與Yedroudj-Net 和SRNet 的誤檢率對(duì)比可以看出:Zhu-Net 憑借其優(yōu)異的檢測(cè)準(zhǔn)確率,無(wú)論在半學(xué)習(xí)模型還是全學(xué)習(xí)模型,都取得了最先進(jìn)的水準(zhǔn).Zhu-Net 相對(duì)于其他網(wǎng)絡(luò)也有巨大的不同.

1)預(yù)處理層精細(xì)化,利用3×3 濾波核代替原有的5×5 濾波核,從而減少參數(shù)數(shù)量,加速收斂速度.

2)采用深度可分離網(wǎng)絡(luò),對(duì)于預(yù)處理層中得到的信息再次精細(xì)化.

3)利用空間金字塔池化代替全局平均池化,使得進(jìn)入全連接層網(wǎng)絡(luò)的信息更具有代表性.

Table 16 Comparison of detection error between Yedroudj-Net,SRNet and Zhu-Net表16 Yedroudj-Net、SRNet 和Zhu-Net 誤檢率對(duì)比

以上全學(xué)習(xí)模型是依賴深度學(xué)習(xí)本身的學(xué)習(xí)來(lái)完成的[67,71,81,85].關(guān)于預(yù)處理層的初始化方式也有不同,其中,TanNet 采用隨機(jī)初始化,SRNet 采用Heinitializer 初始化與訓(xùn)練層權(quán)重,Ye-Net 與Zhu-Net 采用人工設(shè)計(jì)的方式初始化權(quán)重.SRNet 由于其龐大的參數(shù)量,收斂速度緩慢,收斂時(shí)間相對(duì)于Zhu-Net 要多消耗一倍時(shí)間.

3.3 全學(xué)習(xí)模型小結(jié)

上述的方法都是全學(xué)習(xí)隱寫(xiě)分析模型,不使用傳統(tǒng)隱寫(xiě)分析中的濾波核作為預(yù)處理層,并在網(wǎng)絡(luò)訓(xùn)練過(guò)程中對(duì)預(yù)處理層中的權(quán)重進(jìn)行更新,利用深度學(xué)習(xí)的強(qiáng)有力的擬合能力進(jìn)行訓(xùn)練[67,71,81,85,89].

全學(xué)習(xí)模型相對(duì)于傳統(tǒng)隱寫(xiě)分析與半學(xué)習(xí)模型具有更高的檢測(cè)精度,但是所需要的訓(xùn)練時(shí)間更長(zhǎng),也更容易出現(xiàn)過(guò)擬合的情況.在全學(xué)習(xí)模型的檢測(cè)過(guò)程中,我們發(fā)現(xiàn)訓(xùn)練好的網(wǎng)絡(luò)具有數(shù)據(jù)集特異性,如果測(cè)試集與訓(xùn)練集之間不是同一類型圖片,那么測(cè)試效果就會(huì)降低許多.所以在文獻(xiàn)[67,71,85]中,都采用了混合數(shù)據(jù)集與數(shù)據(jù)增強(qiáng)的手段來(lái)防止網(wǎng)絡(luò)出現(xiàn)過(guò)擬合.

相對(duì)于依賴手工設(shè)計(jì)的傳統(tǒng)隱寫(xiě)分析而言,基于深度學(xué)習(xí)的隱寫(xiě)分析網(wǎng)絡(luò)利用深度學(xué)習(xí)本身強(qiáng)大的學(xué)習(xí)能力,從紛繁復(fù)雜的像素信息中選擇最為重要的殘差信息.這個(gè)網(wǎng)絡(luò)優(yōu)化的過(guò)程是通過(guò)損失函數(shù)和梯度反向傳播來(lái)實(shí)現(xiàn)的,相較于傳統(tǒng)隱寫(xiě)分析不同的是:無(wú)論是特征提取還是特征增強(qiáng)的過(guò)程,都是建立在網(wǎng)絡(luò)層結(jié)構(gòu)來(lái)輔助實(shí)現(xiàn)的;由于網(wǎng)絡(luò)結(jié)構(gòu)和初始化參數(shù)等問(wèn)題,基于深度學(xué)習(xí)的隱寫(xiě)分析器具有不確定性和可復(fù)現(xiàn)性較差的特點(diǎn),相同的環(huán)境下,在不同時(shí)間段的訓(xùn)練可能產(chǎn)生不同的結(jié)果.

4 隱寫(xiě)分析總結(jié)

從圖9 中隱寫(xiě)分析發(fā)展歷程可以看出:從2014 年TanNet 的提出后,隱寫(xiě)分析也逐漸變成信息安全的熱點(diǎn)研究方向.本文根據(jù)預(yù)處理層是否參與訓(xùn)練,將基于深度學(xué)習(xí)的隱寫(xiě)分析分為半學(xué)習(xí)模型與全學(xué)習(xí)模型.全學(xué)習(xí)模型[67,71,81,85]相對(duì)于半學(xué)習(xí)模型在訓(xùn)練中更難以收斂,這是因?yàn)榘雽W(xué)習(xí)模型可以通過(guò)第1 層的預(yù)處理獲得有效的殘差信息.首先,這種預(yù)處理在一定程度上抑制了圖像內(nèi)容,縮小了動(dòng)態(tài)范圍;然后增加了弱stego 信號(hào)(如果存在)與圖像信號(hào)之間的信噪比,從而幫助網(wǎng)絡(luò)更有效地獲取殘差信息[90].但全學(xué)習(xí)模型在檢測(cè)精度上略優(yōu)于半學(xué)習(xí)模型,這依賴于深度學(xué)習(xí)本身強(qiáng)大的學(xué)習(xí)能力.

Fig.9 Map of the development of mainstream steganalysis models圖9 主流隱寫(xiě)分析模型發(fā)展圖

半學(xué)習(xí)隱寫(xiě)分析模型都將傳統(tǒng)隱寫(xiě)分析中的濾波核作為深度學(xué)習(xí)網(wǎng)絡(luò)的預(yù)處理層,固定濾波核的參數(shù).與深度學(xué)習(xí)的網(wǎng)絡(luò)層參數(shù)不同,卷積核權(quán)重不受反向傳播所影響[63,65,66,68,69,76,91].這種結(jié)構(gòu)將傳統(tǒng)隱寫(xiě)分析中SRM或DCTR 的濾波核與深度學(xué)習(xí)網(wǎng)絡(luò)相結(jié)合,故稱為半學(xué)習(xí)隱寫(xiě)分析模型.半學(xué)習(xí)隱寫(xiě)分析模型相較于全學(xué)習(xí)模型,所需要的擬合時(shí)間更短,并且也擁有不俗的精度.故在應(yīng)用層面,半學(xué)習(xí)隱寫(xiě)分析模型更具有參考意義與研究?jī)r(jià)值.

在表17 中,TanNet 在這幾類空域隱寫(xiě)分析模型中,模型層數(shù)最少但是參數(shù)量最大.這是因?yàn)樵谌B接層中采用了過(guò)多的隱藏神經(jīng)元,使得網(wǎng)絡(luò)收斂速度慢且不容易收斂.在我們的設(shè)備上無(wú)法完成訓(xùn)練,故測(cè)試時(shí)間尚且為空.眾多模型中,Xu-Net 參數(shù)最少且收斂時(shí)間較短,這得益于半學(xué)習(xí)模式與較少的網(wǎng)絡(luò)層,但檢測(cè)效果卻不夠優(yōu)秀.雖然GNCNN 網(wǎng)絡(luò)擁有最短的收斂時(shí)間,但是模型效果卻不如SRM.Yedroudj-Net,Zhu-Net,SRNet 這三者的參數(shù)量依次遞增,預(yù)期擬合時(shí)間也逐漸增長(zhǎng).其中,Zhu-Net 對(duì)于參數(shù)的擬合速度最快,達(dá)到了331.7 萬(wàn)/小時(shí).雖然SRNet 擁有更多的參數(shù)量,但誤檢率卻高于Zhu-Net 模型.這意味著在隱寫(xiě)分析領(lǐng)域,盲目地添加網(wǎng)絡(luò)層數(shù)與參數(shù)量,并不可以提升網(wǎng)絡(luò)的擬合效果.由于Yedroudj-Net 固定了預(yù)處理層中的權(quán)重,擬合速度更快,但會(huì)造成檢測(cè)精度上的損失.但是,在復(fù)現(xiàn)上述3 個(gè)模型的過(guò)程中,我們發(fā)現(xiàn)SRNet 擁有其他兩個(gè)模型所不具備的特點(diǎn):具有一定的跨數(shù)據(jù)集遷移能力,并且對(duì)于對(duì)抗樣本具有一定的抗攻擊能力.

Table 17 Comparison of parameters,fitting time and test time of different steganographic networks表17 不同隱寫(xiě)網(wǎng)絡(luò)的參數(shù)、擬合時(shí)間、測(cè)試時(shí)間對(duì)比

基于深度學(xué)習(xí)的隱寫(xiě)分析網(wǎng)絡(luò)與其他的圖像分類模型存在差異:(1) 隱寫(xiě)分析模型所觀察的圖像更加細(xì)致,注重的并不是圖像輪廓信息而是高頻信息特征,從而提取有效的毗連信息構(gòu)建關(guān)系模型;(2) 隱寫(xiě)分析需要統(tǒng)計(jì)全局像素間的差異信息,而不僅僅是考慮局部像素間的差異,判別條件具有統(tǒng)籌性和全局性的特點(diǎn).

深度學(xué)習(xí)的訓(xùn)練對(duì)于數(shù)據(jù)集的也具有一定要求,其中,文獻(xiàn)[67,71,81]都采用了增大數(shù)據(jù)量與數(shù)據(jù)增強(qiáng)的手段幫助網(wǎng)絡(luò)收斂.不能盲目擴(kuò)大數(shù)據(jù)集,要考慮網(wǎng)絡(luò)可能出現(xiàn)難以擬合的情況.如何實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),需要根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)選擇.我們?cè)谶M(jìn)行對(duì)比隱寫(xiě)分析實(shí)驗(yàn)的過(guò)程中發(fā)現(xiàn):不同訓(xùn)練集的模型,在進(jìn)行跨數(shù)據(jù)集檢驗(yàn)時(shí)會(huì)出現(xiàn)較大的誤差.

在表18 中,本文對(duì)各類模型的特點(diǎn)進(jìn)行了總結(jié),表中誤檢率計(jì)算方式為Err公式(1).對(duì)于空域隱寫(xiě)分析模型,采用BPP=0.4 的S-UNIWARD 隱寫(xiě)算法;頻域隱寫(xiě)分析模型采用質(zhì)量因子95 且bpnzac=0.4 的J-UNIWARD隱寫(xiě)算法.全學(xué)習(xí)模型的預(yù)處理層權(quán)重都是可以更新的,這使得網(wǎng)絡(luò)擬合所需要的時(shí)間更長(zhǎng).而半學(xué)習(xí)模型在濾波核數(shù)量上不及其他網(wǎng)絡(luò),且預(yù)處理層的參數(shù)固定,所以在擬合速度上更具優(yōu)勢(shì).SRNet 依賴深度學(xué)習(xí)本身的學(xué)習(xí)能力和遷移學(xué)習(xí)、數(shù)據(jù)增強(qiáng)等訓(xùn)練技巧,取得了較好的檢測(cè)效果,但是網(wǎng)絡(luò)的訓(xùn)練時(shí)間和訓(xùn)練輪數(shù)都遠(yuǎn)超其他網(wǎng)絡(luò).ReST-Net 與Zhu-Net 在網(wǎng)絡(luò)結(jié)構(gòu)上相較于其他隱寫(xiě)分析差異較大,首次將多個(gè)子模型采用并聯(lián)的方式結(jié)合.傳統(tǒng)隱寫(xiě)分析中的濾波核,不僅在設(shè)計(jì)上依賴研究人員的先驗(yàn)知識(shí),還會(huì)使其存在一定的“知識(shí)”偏差,需要研究人員的不斷嘗試探索.而半學(xué)習(xí)模型和全學(xué)習(xí)模型都建立在深度學(xué)習(xí)的強(qiáng)大算力上,所以基于深度學(xué)習(xí)的隱寫(xiě)分析模型在檢測(cè)率上逐漸取得優(yōu)勢(shì).在上述各類隱寫(xiě)分析網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,SRNet 在訓(xùn)練過(guò)程所需要的收斂時(shí)間更多,其他采用傳統(tǒng)濾波核初始化的網(wǎng)絡(luò)收斂時(shí)間更短.隱寫(xiě)分析網(wǎng)絡(luò)中,超參數(shù)對(duì)Cover 與Stego 間信噪比信息的學(xué)習(xí)效果影響網(wǎng)絡(luò)收斂,例如BN 層的參數(shù)初始化、網(wǎng)絡(luò)權(quán)重的初始化方式等[92].BN 層對(duì)于隱寫(xiě)分析乃至計(jì)算機(jī)視覺(jué)都有非常巨大的影響,Zeng 在文獻(xiàn)[74]中通過(guò)消融實(shí)驗(yàn)發(fā)現(xiàn),缺失BN 層的網(wǎng)絡(luò)難以訓(xùn)練甚至無(wú)法正確判別數(shù)字圖像.Chen 在文獻(xiàn)[68]中對(duì)BN 層的作用進(jìn)行了論述,提出BN 層對(duì)于深度學(xué)習(xí)本身的重要性,并且提出了一種對(duì)于BN 層處理的訓(xùn)練方式.

Table 18 Comparison of different steganalysis network based on deep learning表18 不同基于深度學(xué)習(xí)隱寫(xiě)網(wǎng)絡(luò)的對(duì)比

在激活函數(shù)方面,GNCNN 采用獨(dú)有的高斯激活函數(shù),Zhu-Net 與Ye-Net 采用截?cái)嗉せ詈瘮?shù),其他隱寫(xiě)分析模型中激活函數(shù)大致相同.在文獻(xiàn)[93]中,Pibre 認(rèn)為:池化層是一種低通濾波操作,如果池化操作與預(yù)處理層距離相隔層數(shù)太近,會(huì)對(duì)預(yù)處理層得到的高通濾波信息造成不可恢復(fù)的損壞.所以在文獻(xiàn)[67,71,81]中,預(yù)處理層和池化操作都距離較遠(yuǎn),保障得到的高通殘差信息不被損壞[94].

以上方法大多都是空域的隱寫(xiě)分析方法,也有不少針對(duì)于JPEG 域的隱寫(xiě)分析模型.由于經(jīng)過(guò)JPEG 壓縮過(guò)后會(huì)發(fā)生圖像損失丟失一部分信息,但相應(yīng)的圖像大小卻會(huì)縮小很多,因此在現(xiàn)如今的社交通信中,大多會(huì)采用JPEG 壓縮來(lái)提升通信速度.因?yàn)轭l域上的隱寫(xiě)會(huì)將圖片轉(zhuǎn)化成8×8 的小塊(JPEG phase),然后在系數(shù)中進(jìn)行修改,所以早期的JPEG 圖像隱寫(xiě)分析通常從JPEG 的處理方式來(lái)著手,利用DCT 系數(shù)來(lái)計(jì)算殘差和提取特征.2016 年,張等人[95]提出一種最低有效位特征拓展方法,通過(guò)構(gòu)造高階共生矩陣的方式輔助判別.后來(lái)的JPEG 圖像隱寫(xiě)分析則根據(jù)解壓縮過(guò)程中放大信號(hào)和分塊相位的特點(diǎn).Chen[68]于2017 年將深度學(xué)習(xí)應(yīng)用在JPEG[69]域圖像隱寫(xiě)分析,通過(guò)分析JPEG 壓縮的各種操作,例如采樣、分塊、DCT 變換、ZigZag 掃描、量化等操作,并且采用了不同的卷積核,更有效地幫助網(wǎng)絡(luò)獲取空域和頻域的像素信息和隱寫(xiě)噪聲.相似的基于深度學(xué)習(xí)應(yīng)用在JPEG 域上的隱寫(xiě)分析算法還有文獻(xiàn)[96-98],但相較于之前的其他模型,都會(huì)顯得不太“智能”,因?yàn)樾枰芯咳藛T借鑒先驗(yàn)知識(shí)設(shè)計(jì)專用的殘差特征矩陣,抑或是DCT 變化系數(shù)與量化矩陣等.就未來(lái)針對(duì)JPEG 域的深度隱寫(xiě)分析提出如下方案:(1) 用更加有效的過(guò)濾器去替代DCT,或是采用一些帶有先驗(yàn)知識(shí)的公式;(2) 減少池化層的使用或是用卷積層代替池化,以防止信噪信息的丟失,能有平均池化就不用最大池化;(3) 不斷嘗試各種網(wǎng)絡(luò)結(jié)構(gòu)的應(yīng)用與優(yōu)化.該網(wǎng)絡(luò)也將殘差結(jié)構(gòu)[11]引入,這樣可以有效地緩解梯度彌散問(wèn)題[66].

總而言之,無(wú)論是空域還是頻域的隱寫(xiě)分析,都是為了抑制圖像內(nèi)容,同時(shí)獲取隱寫(xiě)噪聲信息.那如何將基于深度學(xué)習(xí)的隱寫(xiě)分析本身的特點(diǎn)與傳統(tǒng)隱寫(xiě)分析的特點(diǎn)結(jié)合起來(lái),兩種技術(shù)不斷交融、共同發(fā)展,就成為一個(gè)問(wèn)題.傳統(tǒng)隱寫(xiě)分析模型可以通過(guò)設(shè)計(jì)新的濾波核提升其檢測(cè)效果,但是基于深度學(xué)習(xí)的隱寫(xiě)分析模型會(huì)因?yàn)樯疃染W(wǎng)絡(luò)訓(xùn)練而受到對(duì)抗樣本的攻擊,導(dǎo)致檢測(cè)準(zhǔn)確率直線下降.在實(shí)驗(yàn)數(shù)據(jù)遷移測(cè)試中,我們發(fā)現(xiàn):全學(xué)習(xí)隱寫(xiě)分析具備更強(qiáng)大的數(shù)據(jù)遷移能力與泛化能力,不同域的隱寫(xiě)分析模型也具有一定的遷移能力.

5 隱寫(xiě)分析檢測(cè)對(duì)抗樣本

隨著深度學(xué)習(xí)的快速發(fā)展與進(jìn)步,深度學(xué)習(xí)也被應(yīng)用在許多條件嚴(yán)格的環(huán)境下.然而,深度學(xué)習(xí)對(duì)于通過(guò)一系列“精心”設(shè)計(jì)的輸入樣本,它的結(jié)果就可能是脆弱的、錯(cuò)誤的,這種樣本也被稱為對(duì)抗樣本.對(duì)抗樣本對(duì)人類是很容易分辨的,但卻能在測(cè)試或部署階段,很容易地糊弄深度神經(jīng)網(wǎng)絡(luò).當(dāng)應(yīng)用深度神經(jīng)網(wǎng)絡(luò)到對(duì)安全有嚴(yán)格要求的環(huán)境中時(shí),處理對(duì)抗樣本造成的脆弱性變成已成了一個(gè)重要的任務(wù).

5.1 對(duì)抗樣本

對(duì)抗樣本是深度學(xué)習(xí)中非常有趣的一個(gè)現(xiàn)象.攻擊者希望添加一個(gè)不被人類察覺(jué)的擾動(dòng),讓訓(xùn)練好的深度學(xué)習(xí)網(wǎng)絡(luò)將攻擊過(guò)后的圖片錯(cuò)誤分類.這是因?yàn)榕袆e網(wǎng)絡(luò)的工作依賴卷積層獲取的大量圖像參數(shù),而深度學(xué)習(xí)模型的輸入和輸出大多是線性的,微小的擾動(dòng)經(jīng)過(guò)網(wǎng)絡(luò)層的強(qiáng)化,就會(huì)使網(wǎng)絡(luò)的判別產(chǎn)生偏差.

在圖10 中,首先將左側(cè)大熊貓的圖片設(shè)為x,訓(xùn)練好的判別網(wǎng)絡(luò)給予的置信度為57.7%;通過(guò)添加一層置信度為8.2%的線蟲(chóng)噪聲圖擾動(dòng),最后將得到的兩個(gè)圖片疊加,通過(guò)判別網(wǎng)絡(luò)得到一個(gè)置信度為99.3%的長(zhǎng)臂猿結(jié)果.中間的噪聲圖通過(guò)判別網(wǎng)絡(luò)進(jìn)行梯度計(jì)算得出:

在公式(11)中,sign(·)表示計(jì)算出梯度的方向,sign(·)函數(shù)內(nèi)的則是損失函數(shù)的梯度.ε在圖10 中代表超參數(shù)且數(shù)值為0.07,用來(lái)保證圖片質(zhì)量,防止圖片添加對(duì)抗噪聲之后質(zhì)量受到影響.從噪聲擾動(dòng)與添加擾動(dòng)后的熊貓圖可知,深度學(xué)習(xí)網(wǎng)絡(luò)中學(xué)到的知識(shí)與預(yù)期效果存在一些偏差.

Fig.10 Processing of adding adversarial examples圖10 對(duì)抗樣本的添加過(guò)程

給原有圖像添加相應(yīng)網(wǎng)絡(luò)梯度噪聲的生成對(duì)抗樣本的方法被稱為快速梯度法(fast gradient sign method,簡(jiǎn)稱FGSM)[99],它是一種基于梯度的攻擊方法.后來(lái),在此基礎(chǔ)上不斷改進(jìn),出現(xiàn)了迭代梯度法(iterative gradient sign method,簡(jiǎn)稱IGSM)[89].通過(guò)迭代的方式不斷修改擾動(dòng),直到可以改變網(wǎng)絡(luò)的判別結(jié)果.這種方法添加的擾動(dòng)更小,但會(huì)消耗更多的計(jì)算時(shí)間.基于優(yōu)化的攻擊方法(Carlini &Wagner method,簡(jiǎn)稱C&W)[100]可以分為有目標(biāo)攻擊和無(wú)目標(biāo)攻擊,損失函數(shù)中的距離控制可以分為一范式距離、二范式距離和無(wú)窮范式距離.其中,二范式距離加上無(wú)目標(biāo)攻擊的效果最好,并且可以作為一種黑盒攻擊的方式.單像素攻擊(one pixel attack)[101]與上述的攻擊表現(xiàn)形式不一致,只會(huì)修改原圖中的一個(gè)像素點(diǎn),但改動(dòng)的數(shù)值較大,容易被人眼觀察.

5.2 對(duì)抗隱寫(xiě)

對(duì)抗樣本及其變種的出現(xiàn),使深度學(xué)習(xí)的安全受到了極大的挑戰(zhàn).隱寫(xiě)術(shù)與隱寫(xiě)分析不可避免地受到影響,對(duì)抗隱寫(xiě)應(yīng)運(yùn)而生.國(guó)內(nèi)外學(xué)者認(rèn)為:對(duì)抗樣本可以干擾隱寫(xiě)分析網(wǎng)絡(luò)判別,可以在秘密信息嵌入前[102]和秘密信息嵌入過(guò)程中[103-105]添加對(duì)抗樣本.2018 年,Ma 等人[103]提出了AEN 模型,將對(duì)抗樣本與傳統(tǒng)隱寫(xiě)結(jié)合起來(lái),在隱寫(xiě)的過(guò)程中添加對(duì)抗樣本.該模型有效地提升了傳統(tǒng)空域隱寫(xiě)的安全性,提高了載密圖像抵抗基于深度學(xué)習(xí)的隱寫(xiě)分析的能力.Zhang 等人[102]利用生成式對(duì)抗網(wǎng)絡(luò)生成一種“增強(qiáng)”載體,用以抵抗基于深度學(xué)習(xí)的隱寫(xiě)分析.“增強(qiáng)”載體經(jīng)過(guò)隱寫(xiě)術(shù)之后仍然攜帶對(duì)抗樣本的效果,但是這些擾動(dòng)的添加會(huì)使圖像更容易受到其他隱寫(xiě)分析模型的檢測(cè).2019 年,Li 等人[104]提出了對(duì)抗嵌入的方法ADV-EMB:首先,將圖片像素隨機(jī)分為普通像素和可修改像素;然后,在失真損失函數(shù)的基礎(chǔ)上,對(duì)每個(gè)像素進(jìn)行有效的權(quán)重修改,在隱寫(xiě)過(guò)程中,將對(duì)抗樣本融入;最后,使目標(biāo)隱寫(xiě)分析模型誤判.Pevny 等人[105]在ASO[106]與ADV-EMB 的基礎(chǔ)上,將所有的基于深度學(xué)習(xí)的隱寫(xiě)分析模型組成一個(gè)集合,利用對(duì)抗訓(xùn)練的思想與迭代方式建立一個(gè)自適應(yīng)隱寫(xiě)的損失函數(shù),使Xu-Net 的檢測(cè)準(zhǔn)確率下降了13 個(gè)百分點(diǎn).

目前,對(duì)抗樣本在隱寫(xiě)術(shù)中的應(yīng)用較少,未來(lái)將會(huì)出現(xiàn)不同的對(duì)抗樣本與不同的隱寫(xiě)術(shù)相結(jié)合的方法,可以利用SRM 與SPAM 這類傳統(tǒng)隱寫(xiě)分析模型檢測(cè)對(duì)抗樣本.

5.3 基于隱寫(xiě)分析的對(duì)抗樣本檢測(cè)

2018 年,Pascal[107]認(rèn)為對(duì)抗樣本與隱寫(xiě)內(nèi)容存在相似之處并將它們進(jìn)行對(duì)比,提出將傳統(tǒng)隱寫(xiě)分析模型應(yīng)用于對(duì)抗樣本檢測(cè).

表19 中,主要不同在于目標(biāo)圖來(lái)源:用于深度學(xué)習(xí)判別網(wǎng)絡(luò)的圖片都是真實(shí)的自然圖像,而用于隱寫(xiě)分析的載密圖片添加了攻擊擾動(dòng).兩種算法的攻擊目標(biāo)相同,都針對(duì)圖像本身獨(dú)立的像素進(jìn)行攻擊;攻擊的方式不同,對(duì)抗樣本采用修改方式使得圖像越過(guò)決策邊界,而隱寫(xiě)分析則將秘密信息嵌入到載體圖像.對(duì)抗樣本根據(jù)反向梯度傳播計(jì)算得出,可以認(rèn)為對(duì)抗樣本是一種帶方向的隱寫(xiě)內(nèi)容,但修改內(nèi)容對(duì)網(wǎng)絡(luò)的判別存在影響.在基于卷積神經(jīng)網(wǎng)絡(luò)的判別模型中,一方面對(duì)抗樣本的存在使網(wǎng)絡(luò)判別不夠準(zhǔn)確;另一方面,將對(duì)抗樣本加入訓(xùn)練過(guò)程進(jìn)行“投毒”訓(xùn)練,可以使判別網(wǎng)絡(luò)更加穩(wěn)定、更具有魯棒性和遷移能力.根據(jù)表中的對(duì)比可知:對(duì)抗樣本的添加,會(huì)破壞像素間的相關(guān)性.故可以借鑒傳統(tǒng)隱寫(xiě)分析的檢測(cè)理念,通過(guò)共生矩陣分析像素之間的相關(guān)性.傳統(tǒng)隱寫(xiě)分析模型會(huì)將帶有對(duì)抗樣本的載體圖像判定為載密圖像,這使得經(jīng)過(guò)加密的載密圖像更容易被判別.因此,可以使用傳統(tǒng)隱寫(xiě)分析方法判別一張圖片中是否添加對(duì)抗樣本.

Table 19 Similarities and differences between deep learning and steganalysis表19 深度學(xué)習(xí)與隱寫(xiě)分析的異同

Liu 等人[108]提出將傳統(tǒng)的隱寫(xiě)分析方法應(yīng)用在對(duì)抗樣的檢測(cè)中,利用傳統(tǒng)的SPAM 和SRM 來(lái)檢測(cè)圖像是否添加對(duì)抗樣本.不僅如此,文獻(xiàn)[108]分析了對(duì)抗樣本的特征屬性,提出了增強(qiáng)型的SPAM 和SRM 方法.參考傳統(tǒng)隱寫(xiě)術(shù)通過(guò)最小失真函數(shù)得到嵌入概率圖的理念,Liu 通過(guò)模擬N分類問(wèn)題中L種對(duì)抗樣本的添加方法:假設(shè)判別器是N分類判別器,首先隨機(jī)選擇其中L個(gè)分類,然后生成L張不同的修改概率圖,將得到的修改概率圖轉(zhuǎn)換成一個(gè)二值化矩陣,最后計(jì)算L張圖像像素點(diǎn)的平均值,得到一張平均化的修改概率圖.在之后的研究中,可以利用注意力機(jī)制幫助網(wǎng)絡(luò)訓(xùn)練,提高檢測(cè)精度.

5.4 隱寫(xiě)分析檢測(cè)對(duì)抗樣本小結(jié)

對(duì)抗樣本的存在,為深度學(xué)習(xí)的發(fā)展敲響了警鐘.一味地追求網(wǎng)絡(luò)層數(shù)的疊加,會(huì)使得模型的擬合能力增強(qiáng)的同時(shí),也會(huì)操作決策邊界的精細(xì)化,對(duì)抗樣本也就越有效.如何在保證網(wǎng)絡(luò)精度不受到損失的情況,如何提升網(wǎng)絡(luò)本身的魯棒性.

對(duì)抗樣本由于網(wǎng)絡(luò)的變化而具有多樣性,所以對(duì)抗樣本的檢測(cè)存在以下困難:(1) 對(duì)抗樣本的修改更加細(xì)微,需要更強(qiáng)大的殘差計(jì)算方法放大像素間的差異;(2) 對(duì)抗樣本的位置根據(jù)目標(biāo)網(wǎng)絡(luò)的模型參數(shù)確定,因此修改位置變化很大.為解決上述的兩個(gè)問(wèn)題,需要研究對(duì)抗樣本的產(chǎn)生機(jī)理,從而優(yōu)化判別器的網(wǎng)絡(luò)結(jié)構(gòu),提高檢測(cè)對(duì)抗樣本的能力.

對(duì)抗樣本可以視為一種帶方向的隱寫(xiě)內(nèi)容,這使得載體圖像在SRM 與SPAM 這類不依賴深度學(xué)習(xí)網(wǎng)絡(luò)的隱寫(xiě)分析模型更容易被檢測(cè)出來(lái).因此,可以利用基于深度學(xué)習(xí)的隱寫(xiě)分析模型與傳統(tǒng)隱寫(xiě)分析建立多角度投票機(jī)制來(lái)檢測(cè)對(duì)抗樣本.

6 總結(jié)與展望

6.1 總結(jié)

本文從基于深度學(xué)習(xí)的隱寫(xiě)分析模型這個(gè)方面對(duì)近期的圖像隱寫(xiě)分析模型進(jìn)行了總結(jié)與歸納.深度學(xué)習(xí)網(wǎng)絡(luò)與隱寫(xiě)分析方法結(jié)合,可以在訓(xùn)練過(guò)程中不僅自動(dòng)學(xué)習(xí)圖像的信噪比信息,還可以在一定程度上完成結(jié)構(gòu)信息的統(tǒng)計(jì).因此,將深度學(xué)習(xí)與信息隱藏領(lǐng)域相結(jié)合,不僅增強(qiáng)了隱寫(xiě)分析方法的檢測(cè)能力,還提升了隱寫(xiě)分析方法魯棒性.隱寫(xiě)分析模型判斷依據(jù)是圖片的信噪比信息,基于深度學(xué)習(xí)的隱寫(xiě)分析模型極易出現(xiàn)過(guò)擬合現(xiàn)象,對(duì)抗樣本的出現(xiàn),使得基于深度學(xué)習(xí)隱寫(xiě)分析模型不得不防止網(wǎng)絡(luò)出現(xiàn)的過(guò)擬合問(wèn)題.隨著基于深度學(xué)習(xí)的隱寫(xiě)分析模型快速發(fā)展,神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力使隱寫(xiě)分析模型的判別能力不斷增強(qiáng),但是基于深度學(xué)習(xí)的隱寫(xiě)分析模型存在著這樣幾個(gè)問(wèn)題.

1)擬合速度慢.例如,Zhu-Net 需要至少8 個(gè)小時(shí)的訓(xùn)練時(shí)間,而SRNet 需要至少22 個(gè)小時(shí)的訓(xùn)練時(shí)間,如果訓(xùn)練一個(gè)經(jīng)過(guò)數(shù)據(jù)增強(qiáng)的訓(xùn)練集,通常在GPU 上訓(xùn)練1 周以上才最后收斂.其中,全學(xué)習(xí)隱寫(xiě)分析模型所需要的時(shí)間更長(zhǎng)且不容易收斂,極易受到局部最小值的干擾.

2)遷移能力弱.由于隱寫(xiě)算法的不斷進(jìn)化、自適應(yīng)隱寫(xiě)算法與基于深度學(xué)習(xí)的隱寫(xiě)算法的出現(xiàn),隱寫(xiě)分析網(wǎng)絡(luò)不得不學(xué)習(xí)更加精細(xì)化的信噪比信息,這也導(dǎo)致了模型跨數(shù)據(jù)集檢測(cè)能力弱.不同的數(shù)據(jù)集之間采用相同的算法,也會(huì)因?yàn)椴煌南鄼C(jī)指紋或是不同光照因素甚至拍攝角度等問(wèn)題,導(dǎo)致模型遷移能力較差檢測(cè)效果弱的問(wèn)題.

3)預(yù)處理層依賴強(qiáng).經(jīng)過(guò)實(shí)驗(yàn)測(cè)試,基于深度學(xué)習(xí)的半學(xué)習(xí)隱寫(xiě)分析模型十分依賴預(yù)處理層操作,如果預(yù)處理操作不符合網(wǎng)絡(luò)擬合條件或是不能提取有效的信噪比信息,那網(wǎng)絡(luò)模型會(huì)在不動(dòng)點(diǎn)上停留很久.但現(xiàn)有的全學(xué)習(xí)模型除了SRNet 外都采用傳統(tǒng)的隱寫(xiě)分析高通濾波核作為預(yù)處理層的初始化方式,所以現(xiàn)有基于深度學(xué)習(xí)的隱寫(xiě)分析模型并不是一個(gè)端到端的學(xué)習(xí)模式.

4)參數(shù)要求苛刻.在實(shí)驗(yàn)過(guò)程中我們發(fā)現(xiàn):不同的損失函數(shù)與不同的學(xué)習(xí)率,甚至BN 層中的超參數(shù)對(duì)于網(wǎng)絡(luò)的訓(xùn)練都有著巨大的影響,有些參數(shù)不僅在最后的檢測(cè)精度上產(chǎn)生改變,甚至直接影響網(wǎng)絡(luò)的收斂時(shí)間甚至是否收斂.

在文獻(xiàn)[59,90,109,110]中發(fā)現(xiàn):基于深度學(xué)習(xí)的隱寫(xiě)方法為了保證能夠有效地抵抗隱寫(xiě)分析模型的檢測(cè),通過(guò)在隱寫(xiě)模型訓(xùn)練中加入隱寫(xiě)分析網(wǎng)絡(luò)進(jìn)行對(duì)抗訓(xùn)練,提升隱寫(xiě)模型的抗檢測(cè)能力.隨著深度學(xué)習(xí)的應(yīng)用越來(lái)越普及,深度學(xué)習(xí)的安全性也愈發(fā)重要.所以,建立一個(gè)安全、有效的深度學(xué)習(xí)網(wǎng)絡(luò),使其增強(qiáng)抵抗對(duì)抗樣本的能力也變得重要.對(duì)抗樣本的出現(xiàn),對(duì)于深度學(xué)習(xí)的應(yīng)用來(lái)說(shuō)是一項(xiàng)巨大的挑戰(zhàn),基于深度學(xué)習(xí)的隱寫(xiě)分析研究可以有效檢測(cè)圖像中的對(duì)抗樣本.在未來(lái)的研究過(guò)程中,不斷提高隱寫(xiě)分析模型的檢測(cè)精度,從而保證深度學(xué)習(xí)技術(shù)在應(yīng)用中的安全問(wèn)題.近年來(lái),研究真彩色圖像的隱寫(xiě)分析也逐漸走進(jìn)人們的視野里,如何檢測(cè)不同大小的JPEG 圖像,也有了不少的研究[59,106,110,111].

6.2 展望

基于深度學(xué)習(xí)的隱寫(xiě)分析研究方興未艾,但是仍然存在一些問(wèn)題有待改進(jìn).在未來(lái)的研究過(guò)程中,可以針對(duì)這幾個(gè)方面對(duì)基于深度學(xué)習(xí)的隱寫(xiě)分析進(jìn)行研究.

1)實(shí)現(xiàn)完全端到端的學(xué)習(xí)模式.基于深度學(xué)習(xí)的隱寫(xiě)分析技術(shù)并不是端對(duì)端的學(xué)習(xí)模式,這是因?yàn)殡[寫(xiě)分析模型具有一定的特殊性,所以各類的模型訓(xùn)練還需要一定的人工干預(yù)措施.可以在全學(xué)習(xí)隱寫(xiě)分析模型的基礎(chǔ)上,依賴深度學(xué)習(xí)本身強(qiáng)大的計(jì)算能力,支持實(shí)現(xiàn)端到端的學(xué)習(xí)模式.

2)提升網(wǎng)絡(luò)擬合速度.基于深度學(xué)習(xí)的隱寫(xiě)分析模型都是依賴深度學(xué)習(xí)網(wǎng)絡(luò)本身大量的參數(shù)來(lái)幫助獲取特征,所以研究有效的處理方式和更具有方向性的圖像處理方法,可以幫助網(wǎng)絡(luò)擬合.但是基于深度學(xué)習(xí)的隱寫(xiě)分析網(wǎng)絡(luò)由于有大量的網(wǎng)絡(luò)參數(shù),在訓(xùn)練網(wǎng)絡(luò)的過(guò)程中存在不確定性,并且非常依賴網(wǎng)絡(luò)參數(shù)的訓(xùn)練,網(wǎng)絡(luò)本身訓(xùn)練的輪數(shù)也相對(duì)比較久.所以,如何對(duì)網(wǎng)絡(luò)架構(gòu)進(jìn)行蒸餾,提升網(wǎng)絡(luò)擬合速度,也成了亟待解決的問(wèn)題.

3)小規(guī)模數(shù)據(jù)學(xué)習(xí).由于深度學(xué)習(xí)的訓(xùn)練效果和訓(xùn)練數(shù)據(jù)集規(guī)模息息相關(guān),一個(gè)優(yōu)秀的訓(xùn)練網(wǎng)絡(luò)都建立在大量的數(shù)據(jù)集上.但增加訓(xùn)練集數(shù)量又會(huì)導(dǎo)致網(wǎng)絡(luò)擬合時(shí)間呈幾何倍數(shù)增張,所以如何在小規(guī)模數(shù)據(jù)集訓(xùn)練的基礎(chǔ)上避免過(guò)擬合現(xiàn)象的出現(xiàn),就成為了一個(gè)問(wèn)題.該問(wèn)題可以通過(guò)以下幾種方法解決:(1) 實(shí)現(xiàn)零樣本或少樣本學(xué)習(xí);(2) 使用不同數(shù)據(jù)集之間跨領(lǐng)域自適應(yīng)的遷移學(xué)習(xí)模型;(3) 收集更多的圖片數(shù)據(jù)集,完成數(shù)據(jù)集的有效擴(kuò)充.

4)多模型融合.目前,GAN 網(wǎng)絡(luò)僅在隱寫(xiě)方面有較多的應(yīng)用.可以利用GAN 網(wǎng)絡(luò)獨(dú)有的創(chuàng)造性,將其應(yīng)用于隱寫(xiě)分析檢測(cè)模型中.在檢測(cè)載密圖像之前,生成輔助檢測(cè)的隱寫(xiě)位置圖,利用注意力機(jī)制幫助隱寫(xiě)分析檢測(cè)載密圖像,加速隱寫(xiě)分析網(wǎng)絡(luò)的收斂.