文/雷樸承
隨著深度學習技術在近幾年的迅速發(fā)展,在信息隱藏領域,很多研究是利用深度網(wǎng)絡來進行隱寫分析(Steganalysis),而專門利用深度學習來幫助信息隱藏(Steganography)的研究相對較少,因此,本文提出了將深度學習與信息隱藏相結合的模型,在一定程度上推動了該領域的發(fā)展。
要衡量一個現(xiàn)代信息隱藏方案的質量如何,經(jīng)常從三個性能指標來進行評價——即容量、透明性和魯棒性。
在單位時間或者一幅作品中能夠實際嵌入的隱藏消息數(shù),對圖片而言,即為一幅圖中的隱藏信息比特數(shù);對音頻而言,即為單位時間內(nèi)能夠嵌入的隱藏信息比特數(shù)。
所嵌入信息不被探測到的程度,也稱不可感知性。對于一個多媒體媒介,嵌入秘密信息必然會改變其原有信號特征,因此隱藏方案不應導致原媒體質量的明顯下降,不會對載體的正常使用產(chǎn)生影響。

圖1:音頻信息隱藏的深度網(wǎng)絡結構
隱寫載體抵抗不同種類信號處理攻擊的能力,是數(shù)字水印比較注重的特征,高魯棒性的隱藏方案應使得原有媒介在經(jīng)過一定程度的信號處理或攻擊后,仍能重建隱藏信息。
這三個指標往往是相互對立的,沒有一種方案能夠完全將三者都做好,因為透明性需要隱藏的信息量較少,不能對原有載體改動過大,與容量指標是矛盾的;而高魯棒性的算法往往修改了圖像的重要部分以抵御攻擊,因此對圖像的改動較大,降低了方案的透明性。
由于載體媒介的形式與圖像不同,因此整個深度網(wǎng)絡相比之前的結構需要重新設計,但其背后的原理是一致的,網(wǎng)絡模型的結構如圖1。
原始音頻Ao首先經(jīng)過頻域變換,此處可靈活地選取不同種類的方案來進行,例如DCT、DWT、SVD 等,亦或是它們的組合,變換完成后即進入編碼層網(wǎng)絡,此處進行秘密信息的嵌入,以及頻域的反變換,完成后即可得到編碼完成的音頻Ae;然后進入解碼層網(wǎng)絡,由此處進行隱藏信息的重建,得到Mr。
與先前圖像隱寫的網(wǎng)絡結構類似,這里不同層的網(wǎng)絡依然可以受到損失函數(shù)的影響,來達到訓練效果。
本文在已有的多媒體隱寫實現(xiàn)之上,結合深度學習提出了兩種具有可行性的圖片、音頻深度網(wǎng)絡隱寫模型。本文提出的模型在現(xiàn)有的隱寫領域研究相對較少,而隨著深度學習技術的發(fā)展,它仍可以繼續(xù)完善,在版權保護、保密通信領域都具有一定的發(fā)展和應用潛力。