栗風永 張新鵬 余 江
?
結合集成比例訓練的彩色JPEG圖像隱寫分析
栗風永*張新鵬 余 江
(上海大學通信與信息工程學院 上海 200072)
該文提出一種YCbCr顏色空間的彩色JPEG圖像隱寫分析方法。該方法中的特征包括通道內特征和通道間特征,首先從Y通道提取Markov特征,擴展DCT特征以及共生矩陣特征構成通道內特征集合,通道內特征可以有效捕捉到Y通道內DCT系數之間的相關性;然后對Y通道進行下采樣,從采樣平面與CbCr平面相互之間的差分平面上提取特征構成通道間特征集合,通道間特征可以捕捉到兩兩通道之間的相關性。由于通道內特征和通道間特征在分類性能上有著較大差別,在分類階段由通道內特征和通道間特征分別訓練子分類器,通過調整兩類子分類器的比例,使用多數投票方式來合成集成判決結果,最終獲得最佳的檢測性能。實驗結果表明,該方法不僅適合小嵌入率的彩色JPEG圖像,而且在性能上優于已有的JPEG圖像隱寫分析方法。
彩色JPEG圖像;隱寫分析;校準;集成分類器;比例調整
數字隱寫(Steganography)是在不對多媒體信號產生過分影響的前提下,將額外的秘密信息嵌入到數字媒體中,以實現隱蔽通信。與此相對應,隱寫分析技術(Steganalysis)也有了較快發展,該技術根據載體的視覺和統計特性判斷其中是否含有額外的隱蔽信息。
JPEG是互聯網上最常用的圖像格式,該格式一般采用YCbCr顏色空間,其中Y是亮度通道,Cb和Cr是兩個色度通道。JPEG壓縮過程首先將R, G, B顏色空間轉換到YCbCr顏色空間,然后對Y, Cb, Cr 3個通道分別進行DCT并量化。為了減少數據量,對Cb, Cr通道分別進行下采樣使其為Y通道尺寸的一半;由于人的肉眼對Y通道更敏感,因此對Cb, Cr通道進行下采樣使得肉眼察覺不到圖像質量的變化。存儲過程中,彩色JPEG圖像保留了Y, Cb, Cr 3個通道的信息,而灰度JPEG圖像只保留Y通道的信息。

以上特征雖然都具有良好的性能,但大都是基于灰度JPEG圖像的隱寫分析方法,由于互聯網上的圖像大部分是彩色JPEG圖像,因此針對彩色JPEG圖像的隱寫分析更有實際意義。當前,彩色JPEG圖像隱寫主要是通過修改Y, Cb, Cr 3個通道的DCT系數來隱藏信息,這樣針對灰度JPEG圖像的隱寫方法都可以擴展到彩色JPEG圖像隱寫,比如Jsteg, nsF5, MBS, EMD等算法。由于彩色JPEG圖像有3個通道,對任意一個通道的DCT系數進行修改都會使3個通道之間的相關性也隨之發生變化,這就為隱寫分析提供了線索。文獻[16]給出了彩色圖像YCbCr顏色空間DCT系數的統計分布模型,計算載體圖像和含密圖像DCT系數統計分布之間的差異,并以此對圖像進行分類。文獻[17]針對隱寫所導致的圖像DCT系數分布,空域像素值平坦性以及顏色空間一致性的改變,從系數分布模型背離程度、空域相關性以及不同顏色分量的相關性3個方面提出10維的彩色JPEG圖像隱寫分析特征。文獻[18]基于彩色JPEG圖像中任意兩個通道間梯度方向隨機序列以及顏色梯度與隨機序列振蕩特性的變化提出4維的彩色JPEG圖像的盲隱寫特征。雖然上述的隱寫分析方法針對彩色JPEG圖像,但只能在秘密信息嵌入率較高時才具有良好的檢測性能,在嵌入率較低的情況下檢測性能會大幅下降。
本文提出一種新的基于YCbCr顏色空間的彩色JPEG圖像隱寫分析方法,其分析特征包括通道內特征和通道間特征兩部分。從Y通道提取Markov特征,擴展DCT特征以及共生矩陣特征構成通道內特征集合,該部分特征可以有效捕捉Y通道內DCT系數之間的相關性。通過研究彩色圖像原始采樣模型并對Y通道進行采樣,從采樣平面和Cb, Cr通道相互之間的差分平面上提取特征作為通道間特征集合,這些特征可以很好地獲取各個通道之間的相關性。由于通道內特征和通道間特征在分類性能上有著較大差別,在訓練階段由通道內特征和通道間特征各自訓練子分類器,通過調整兩類子分類器的比例找到最佳集成分類性能。本文同時對校準方法進行擴展,通過多次剪切校準,使特征對圖像的改變更加靈敏。實驗結果表明,本文方法不僅適合低嵌入率的彩色JPEG圖像,在檢測性能上也優于針對灰度JPEG圖像的隱寫分析方法。
通常,彩色圖像的亮度通道或者灰度圖像的DCT系數中的交流分量(AC系數)近似服從廣義高斯分布[19]。對彩色JPEG圖像,隱寫者可以在任意通道內嵌入信息,為了全面分析彩色JPEG圖像,本文在通道內和通道間分別提取特征。通道內特征主要在Y通道提取特征,而通道間特征則首先根據彩色JPEG圖像的原始采樣模型對Y通道進行下采樣獲取與Cb, Cr尺寸相同的采樣平面,然后分別提取采樣平面,Cb平面,Cr平面兩兩之間差分平面的特征構成通道間特征集合,最后將通道內和通道間特征合并構成彩色JPEG圖像隱寫分析特征。





最后將81維的平均特征與193維擴展DCT特征合并構成了274維的PEV特征。




降維后每個DCT模式對最終形成25維特征。表1給出了所選擇的DCT模式對,共生矩陣特征空間共計250維。
本文只在Y通道提取通道內特征,因為Y通道內含有更多的非零DCT系數,隱寫之后的變化更大,提取的特征對隱寫算法更敏感,而CbCr通道內非零系數較少,若在其內提取特征不僅大大增加了通道內特征的維數,還會降低整體特征的性能。最終提取的通道內特征集合為848維。
表1共生矩陣所選擇的模式對

相對偏移量8×8塊中選擇的模式位置(u, v)維數 Du = 0, Dv = 1, Dm = 0, Dn = 0(0,1), (0,2), (1,0), (1,1), (2,0)125 Du = 1, Dv = -1,Dm = 0, Dn= 0(0,1), (0,2), (1,1)75 Du = 2, Dv = -1, Dm = 0, Dn = 0(0,1)25 Du = -1, Dv = 2, Dm = 0, Dn = 0(2,0)25
通常彩色圖像的R, G, B 3個通道之間存在著較強的相關性[15]。從RGB色彩空間轉換到YCbCr色彩空間之后,Y, Cb, Cr 3個通道之間依然存在著較弱的相關性。由于JPEG壓縮過程中對CbCr通道進行了下采樣,如果對Y通道進行相同方式的下采樣,得到的采樣平面與CbCr通道同樣存在著弱的相關性。通過求采樣平面與Cb平面,Cr平面之間的差分平面并在差分平面上提取特征,可以有效捕捉通道間的相關性。
(1)對Y通道進行逆DCT變換



(3)對采樣平面重新進行DCT變換

(4)按照式(8)計算Cb平面,Cr平面以及采樣平面相互之間的差分平面

(5)對每個差分平面分別提取包含Markov特征,PEV特征以及共生矩陣特征在內的共計848維特征,所有差分平面特征求平均得到848維通道間特征集合。




最終的彩色JPEG圖像的通用隱寫分析特征由848維的通道內特征集合和848維的通道間特征集合,以及它們各自的校準特征組成,特征總維數為3392維。
由于CbCr通道中非零DCT個數比Y通道要少很多,隱寫之后的CbCr通道中非零DCT系數改變的數量也很少,系數之間的相關性變化較小,使得通道間的特征不如通道內特征有效。基于此,本文在分類階段引入集成分類器,分別利用通道內特征和通道間特征訓練出兩類子分類器,由于兩類子分類器的準確率各不相同,通過不斷調整可以找到一個最佳比例使得最終的檢測性能達到最優。
Kodovsky等人[11]提出集成FLD分類器,該分類器由多個FLD子分類器構成。從特征空間中隨機抽取一部分特征進行訓練,得到一個子分類器,通過該子分類器對測試樣本做出分類。對一個給定的測試樣本,集合各個子分類器的判斷,通過多數投票(majority voting)形成最終判決。


由于通道間特征與通道內特征在檢測準確率上有較大差異,將兩者的判決結果通過多數投票方式進行綜合時,若兩者所占的比例不同,則判決準確率也不同。當固定子分類器總數時,通過調整1和2可以找到一個最佳值=1/(1+2),使得眾數投票判決結果()的準確率在該嵌入率下最高。
對于給定的隱寫方法,在每一種嵌入率下都可以找到一個最佳比例使得誤檢率在該嵌入率下最低。表2給出了4種隱寫方法JSteg[1], nsF5 (no-shrin- king F5)[4], MBS (Model Based Steganography)[5], EMD(Exploiting Modification Direction)[6]在不同嵌入率下的最佳比例。由于不同的隱寫方法導致提取的隱寫分析特征的性能各不相同,最佳比例會隨著兩類子分類器判決準確率的變化而變化,換句話說,r的最佳值受不同的嵌入方法影響。而對同一種隱寫方法,不同嵌入率時的r值變化不大。
表 2不同嵌入率下的最佳子分類器比例

算法嵌入率(bpac)最佳比例r JSteg0.020.69 0.030.68 0.040.66 0.050.66 nsF50.050.74 0.100.70 0.150.67 0.200.65 MBS0.010.75 0.020.75 0.030.74 0.040.73 0.050.71 EMD(n=498)0.020.63 EMD(n=220)0.040.61 EMD(n=135)0.060.58 EMD(n=95)0.080.57 EMD(n=72)0.100.56
本文的實驗圖像庫由從NRCS圖像庫[20]選取的3000幅彩色JPEG圖像組成,包括人物、風景、動物以及建筑等,圖像尺寸通過中心剪切至1024′1024,所有圖像都以75的質量因子進行壓縮。
為了驗證本文彩色隱寫分析方法的性能,隱寫圖像選擇最近比較流行且性能較好的JSteg[1], nsF5[4], MBS[5], EMD[6]4種隱寫方法生成。分別用上述4種隱寫方法對3000幅原始載體圖像進行隱寫,實驗圖像庫共計(1+4+4+5+5)′3000 = 57000幅圖像。在分類前,將載體圖像和對應的隱寫圖像混合并隨機分為相等的兩部分,一部分用于訓練,一部分用于測試。實驗采用如式(12)的最小平均誤檢率E來衡量分類的準確性。

其中FA為虛警概率,即將載體圖像判為隱寫圖像的概率,MD為漏檢概率,即將隱寫圖像判為載體圖像的概率。

對于彩色JPEG圖像,傳統的隱寫分析方法只對Y通道提取特征,如果嵌入者隨機在任意一個通道嵌入秘密信息,則特征可能不能有效提取。本文方法同時提取通道內和通道間特征,因而對任意通道的嵌入都能有效檢測。圖1給出了4種隱寫方法。(1)Y通道嵌入,(2)CbCr通道嵌入,(3)3個通道全部嵌入,(4)3個通道全部嵌入且使用比例訓練4種情況下的平均誤檢率。前3種情況分別抽取3392維特征使用集成分類器進行訓練,但不使用比例訓練的方法,第4種情況在提取3392維特征后使用比例訓練的方法進行集成分類測試。從圖中可以看出,僅對CbCr通道嵌入時的平均誤檢率相對較高,這是因為CbCr通道在非零DCT個數以及尺寸上都小于Y通道。由于3個通道全部嵌入而不使用比例訓練的情況只是將3個通道的特征簡單合并,在檢測性能上與僅在Y通道嵌入的情況相比并沒有很大提升,通過比例訓練則可以使平均誤檢率比僅在Y通道嵌入時降低2%-4%,比3個通道特征簡單混合訓練要降低1%-3%。
為了對比文獻[8]中的原始校準方法與擴展校準方法的性能,我們使用兩種校準方法分別提取3392維特征,并利用比例訓練的方法對4種隱寫算法進行檢測。表3中給出了兩種校準下本文方法與其它流行分析方法的性能對比,包括文獻[12]方法,文獻[9]方法,文獻[10]方法以及文獻[11]方法,其中文獻[12,9,11]方法在訓練過程中使用SVM分類器,而文獻[11]方法在訓練過程中使用集成分類器。為了便于比較,隱寫時在Y, Cb, Cr 3個通道同時嵌入秘密信息,并應用以上分析方法對3個通道分別提取特征并進行合并,將合并特征作為實驗對比的隱寫分析特征,最后得到文獻[12]的特征為648維,文獻[9]的特征為1644維,文獻[10]的特征為1944維,文獻[11]的特征為23550維。從表中可以看出,使用擴展校準方法提取的特征在整體檢測性能上比原始校準提取的特征好,雖然提高的比率只在0.5%以內,但對所有方法都有一定程度的提高,說明擴展校準方法比原始校準更具優勢;另外,通過實驗也注意到,擴展校準過程所耗費的時間比原始校準要長。綜合表中各種隱寫分析特征,本文提出的隱寫分析特征在性能上優于以上其它特征。

圖1 4種隱寫方法在4種嵌入方式下的最小平均誤檢率PE

表3 各隱寫分析方法在4種JPEG隱寫算法下的最小平均誤檢率PE
本文提出一種基于YCbCr顏色空間的彩色JPEG圖像隱寫分析方法。該方法在通道內和通道間分別提取特征,通道內特征只在Y通道提取,而通道間特征則在各通道間的差分平面上提取。在分類訓練階段引入集成FLD分類器,由通道內和通道間兩部分特征分別訓練出兩類子分類器,通過調整兩類子分類器的比例對眾數投票結果產生擾動,從而達到最佳性能。通過幾種隱寫方法的檢測對比,證明本文提出的分析方法能夠對彩色JPEG圖像進行有效檢測,并且在低嵌入率下的性能優于當前流行的幾種特征分析方法。
[1] Upham D. Steganographic algorithm JSteg [OL]. http://zooid.org/~paul/crypto/jsteg, 2002.
[2] Provos N. Defending against statistical steganalysis[C]. Proceedings of 10th USENIX Security Symposium, Washington, DC, August, 13-17, 2001: 323-335.
[3] Westfeld A. High capacity despite better steganalysis (F5-A steganographic algorithm)[C]. Proceedings of 4th International Workshop Information Hiding, New York, 2001: 289-302.
[4] Kodovsky J, Fridrich J, and Pevny T. Statistically undetectable JPEG steganography: dead ends, challenges, and opportunities[C]. Proceedings of 9th ACM Multimedia & Security Workshop, Dallas, TX, 2007: 3-14.
[5] Sallee P. Model-based methods for steganography and steganalysis[J]., 2005, 5(1): 167-190.
[6] ZhangX Pand Wang S Z. Efficient steganographic embedding by exploiting modification direction[J]., 2006, 10(11): 781-783.
[7] Solanki K, Sarkar A, and Manjunath B S. YASS: Yet Another Steganographic Scheme that resists blind steganalysis[J]., 2007, 4567: 11-13.
[8] Fridrich J. Feature-based steganalysis for JPEG images and its implications for future design of steganographic schemes [J]., 2004, 3200: 67-81.
[9] Pevny T and Fridrich J. Merging Markov and DCT feature for multi-class JPEG steganalysis[C]. Proceedings of SPIE, Electronic Imaging, Security, Steganography, and Watermarking of Multimedia Contents IX, San Jose, CA, 2007: 1-13.
[10] Shi Y Q, Chen C, and Chen W. A Markov process based approach to effective attacking JPEG steganography[J]., 2007, 4437: 249-264.
[11] Kodovsky J, Fridrich J, and Holub V. Ensemble classifier for steganalysis of digital media[J]., 2012, 7(2): 432-444.
[12] Liu Q. Steganalysis of DCT-embedding based adaptive steganography and YASS[C]. Proceedings of 13th ACM Multimedia & Security Workshop, New York, 2011: 77-86.
[13] Liu Q, Sung A, and Qiao M. Neighboring joint density-based JPEG steganalysis[J]., 2011, DOI:10.1145/1899412. 1899420.
[14] Kodovsky J and Fridrich J. Steganalysis of JPEG images using rich models[C]. Proceedings of SPIE, Electronic Imaging, Media Watermarking, Security, and Forensics of Multimedia XIV, San Francisco, 2012: DOI: 10.1117/ 12.907495.
[15] Kodovsky J and Fridrich J. Rich models for steganalysis of digital images[J]., 2012, 7(3): 868-882.
[16] 何軍輝, 黃繼武. 彩色JPEG圖像的隱寫分析[J]. 電子學報, 2005, 33(12A): 2543-2548.
He J H and Huang J W. Steganalysis for color JPEG images [J]., 2005, 33(12A): 2543-2548.
[17] 孫文颙, 劉婷婷, 張新鵬, 等.彩色圖像通用隱寫分析的多類統計特征[J]. 中國圖象圖形學報, 2008, 13(10): 1914-1917.
Sun W Y, Liu T T, Zhang X P,.. Statistical features for universal steganalysis on color images[J]., 2008, 13(10): 1914-1917.
[18] 綦科, 張大方, 謝冬青.基于顏色梯度特性的彩色圖像隱寫分析[J]. 通信學報, 2011, 32(1): 27-36.
Qi K, Zhang D F, and Xie D Q. Reliable steganalysis of color images based on color gradient sequence[J]., 2011, 32(1): 27-36.
[19] Mohand Said A. Wavelet modeling using finite mixtures of generalized Gaussian distribution: application to texture discrimination and retrieval[J]., 2012, 21(4): 1452-1464.
[20] NRCS Image Database[OL]. http://photogallery. nrcs.usda. gov/. 2010.
栗風永: 男,1983年生,博士生,研究方向為多媒體信息安全、數字取證.
張新鵬: 男,1975年生,博士,教授,博士生導師,研究方向為多媒體信息安全、數字取證、加密域信號處理、數字水印.
余 江: 男,1981年生,博士生,研究方向為多媒體信息安全、加密域信號處理.
Steganalysis for Color JPEG Images Based on Ensemble Proportion Training
Li Feng-yong Zhang Xin-peng Yu Jiang
(,,200072,)
A new steganalytic scheme of color JPEG images is proposed based on YCbCr color space. The features of the proposed scheme include intra-channel features and inter-channel features. The intra-channel features are formed by Markov features, extended DCT features and co-occurrence matrices features and capture effectively the dependency among DCT coefficients in Y channel. The inter-channel features are extracted in difference planes between channels, which can effectively capture the dependency between channels. In the classification process, the intra-channel and inter-channel features are respectively used to train sub-classifiers. By adjusting the proportion of two kinds of sub-classifier, the optimal decisions are synthesized by using majority voting. Experimental results show that proposed scheme is applicable to low embedding color JPEG images and the performance outperforms some state-of-the-art feature sets.
Color JPEG image; Steganalysis; Calibration; Ensemble classifier; Proportion adjusting
TP391
A
1009-5896(2014)01-0114-07
10.3724/SP.J.1146.2013.00443
2013-04-07收到,2013-08-12改回
國家自然科學基金(61073190, 61071187, 61103181),上海市浦江人才計劃(13PJ1403200)和上海高校特聘教授(東方學者)專項資助課題
栗風永 fyli@shu.edu.cn