王 欣, 黎 鑫, 胡 磊
(1.蚌埠汽車士官學校 運輸指揮系,安徽 蚌埠 233011;2.蚌埠汽車士官學校 干部輪訓大隊,安徽 蚌埠 233011)
一種針對JPEG圖像的通用隱寫分析算法
王 欣1, 黎 鑫1, 胡 磊2
(1.蚌埠汽車士官學校 運輸指揮系,安徽 蚌埠 233011;2.蚌埠汽車士官學校 干部輪訓大隊,安徽 蚌埠 233011)
提出了一種針對JPEG圖像的通用隱寫分析算法。該算法提取了15個具有良好分類特性的特征參數,輸入構建的LS-SVM分類器,以達到檢測載密圖像的目的。實驗結果表明,該算法的檢測正確率較高,檢測速度快,能夠實現針對各類JPEG載密圖像的有效檢測。
隱寫分析;DCT系數;特征參數;JPEG圖像
近幾年來,隨著信息隱藏技術[1]的迅速發展,越來越多的人開始關注隱寫分析技術[2]的研究。隱寫分析的目的是檢測數字載體中秘密信息的存在性,一方面,它可以促進信息隱寫技術安全性的提高,推動信息隱寫技術的實用化;另一方面,有助于發現不法分子的秘密通信,預防恐怖事件的發生,維護國家和社會公共安全。目前,各國學者都致力于研究具有通用檢測性能的隱寫分析算法,能夠針對某一類或幾種隱寫算法進行檢測,但是通用隱寫分析算法存在提取特征難、檢測正確率低、實時檢測效果差等弊端。
文中在對原始圖像和載密圖像的DCT系數進行統計分析的基礎上,提出了一種針對JPEG圖像的通用隱寫分析算法。該算法提取15個具有一定區分能力的特征參數組成特征向量,作為LS-SVM分類器的輸入,通過自學習的訓練過程得到檢測載密圖像的分類器,以達到檢測載密圖像的目的。
JPEG是網絡和日常生活中使用最為普遍的圖像格式,以JPEG圖像為載體的信息隱寫算法(例如:Jsteg[3]、Outgess[4]、MB[5]、F3~F5[6]等)大多選擇將秘密信息嵌入到量化后的DCT系數中,來達到信息隱藏和提取秘密信息的目的。因此,JPEG圖像中DCT量化系數(以下簡稱DCT系數)的統計分布問題一直為眾多學者所關注,也是各類通用隱寫分析算法提取特征參數的研究重點。
文中基于Fridrich的載體圖像預測理論,首先對解壓縮后的載密圖像進行4×4的剪裁,再按壓縮時的量化表進行量化,構造出一幅統計特性與原始圖像相近的參考圖像(即預測圖像)[7],通過比較待測圖像及其預測圖像在DCT系數上的統計差異,提取15個具有一定區分能力的特征參數,其中一階特征參數7個,二階特征參數8個,用于檢驗待測圖像是否含有秘密信息。

1.1.1 一階統計特征參數
DCT系數的直方圖是最簡單的一階統計特征參數,但是其運算復雜、統計量大,一般很少直接使用。為了得到運算簡單、分類性能良好的特征參數,文中主要針對直方圖中重要的DCT系數進行分析研究,并從中提取了以下7個一階統計特征參數,它們分別是:5 個獨立直方圖參數 ΔH-2、ΔH-1、ΔH0、ΔH1、ΔH2、1個局部直方圖參數ΔH和1個差分直方圖參數ΔHC。
1.1.1.1 獨立直方圖參數
令Hdl(J1)表示待測圖像J1中l位置上值等于d的低頻系數的個數,則Hdl(J2)表示預測圖像 J2中相應的特征量,構建出以下5個統計特征參數:

其中,‖·‖表示其中包含的所有元素的絕對值之和。由于 d 值集中在 0 附近,所以取 d∈{-2,-1,0,1,2}。
1.1.1.2 局部直方圖參數
令 Hdl(J1)、Hdl(J2)分別表示待測圖像和預測圖像中 l位置上值等于d的低頻系數的個數,根據下式計算:

可以得到局部直方圖參數ΔH。由于d的絕對值越大,其對應的低頻系數出現的次數就越少,因此式(2)中僅針對-7≤d≤7范圍內的低頻系數的個數進行統計。
1.1.1.3 差分直方圖參數
生態破壞、氣候異常、環境污染是壓在我國環境頭上的“三座大山”。尤其是近年來的霧霾天氣增多,使環境受到很大污染。碭山縣機動車輛和磚窯廠較多,尾氣、煙霧、灰塵等影響生物進行光合作用,對酥梨的成長不利。寒潮帶來的低溫、大風、霜凍等氣象災害也會導致綠色酥梨產業損失嚴重。在酥梨的生長過程中,果農對農藥使用的習慣一時不易改變,酥梨的農藥殘留還時有發生,這是綠色酥梨生產的大忌。
令Hd表示DCT系數值d的出現次數 (DCT系數直方圖中 d對應的柱條高度),取 H-5~H5共 11個值,以 H0為中心,向兩邊將每相鄰的兩個Hd做差分,并進行歸一化。如式(3)所示:

定義差分直方圖參數如下:

1.1.2 二階統計特征參數
現有的一些隱寫算法在嵌入秘密信息后,可以保持載體圖像的一階統計特性不變,這使得一階統計特征參數可能無法檢測出使用該類型算法的載密圖像。針對這種情況,本文提取了DCT分塊特性參數ΔBDCT、DCT塊間相關性參數ΔV、以及引入共生矩陣 G(s,t)得到的 ΔS00、ΔS01、ΔS02、ΔS11、ΔS22和ΔS12共8個二階統計特征參數。
1.1.2.1 DCT分塊特性參數
DCT分塊特性參數是判斷JPEG圖像是否隱藏有信息的一個重要特征量。大多數的JPEG圖像隱寫算法都是將原始圖像分為8×8的小塊后,以塊為單位進行秘密信息的嵌入,由于嵌入位置的不均勻,會引起DCT塊間的邊界產生不連續性,且嵌入信息越多不連續性越大。用BDCT表示DCT塊間的邊界不連續性的測度,計算公式如下:

分別從待測圖像和預測圖像中提取出 BDCT(J1)和 BDCT(J2),則DCT分塊特性參數為:

1.1.2.2 差分直方圖參數
令H(d)表示DCT系數值d的出現次數(DCT系數直方圖中 d對應的柱條高度),取 H(-5)~H(5)共 11個值,以H(0)為中心,向兩邊將每相鄰的兩個做差分,并進行歸一化。如式(7)所表示:

得到了DCT系數的差分直方圖分布頻率h(d)(-5≤d≤5,其中d≠0)。當以某種隱寫算法嵌入秘密信息時,會改變h(d)的分布特性,并且隨著嵌入信息比例的增大,改變的程度越嚴重。基于這點,定義差分直方圖參數如下:

1.1.2.3 共生矩陣參數
由于每個DCT塊主對角線左上方區域的系數值較大,常被選用于嵌入秘密信息,因此本文選取每個塊中l=0,1,…,14上的DCT系數作為重要的研究對象,并引入共生矩陣G(s,t)來描述相鄰DCT塊的系數值對(s,t)的概率分布情況,定義如下:

由于DCT系數值大多集中在0附近,所以取s,t∈{-2,-1,…,2},可以得到5×5的共生矩陣。載體圖像的共生矩陣示意圖以(s,t)=(0,0)為中心具有近似的對稱性,但是秘密信息的嵌入改變了共生矩陣的這種特性,秘密信息的嵌入比例越大,改變的程度也越大,而且隨著隱寫算法的不同,改變這種特性的方式也不同。
因此,讓 Gs,t(J1)、Gs,t(J2)分別表示待檢測圖像裁剪前后J1、J2的 G(s,t),令 ΔGs,t=Gs,t(J1)-Gs,t(J2), 就 得 到 了 下 面 的 6個共生矩陣參數:

最小二乘支持向量機(LeastSquaresSupportVectorMachine,LS-SVM)[8]由于在解決小樣本、非線性及高維模式識別問題中表現出許多特有的優勢,已經被廣泛應用于構建隱寫分析算法的檢測器之中。這不僅大大降低了計算的復雜度,而且在實際應用中可以保持較高的分類準確度。因此,文中選用LS-SVM來構建算法中的分類器。
分類器的目的就是判斷待測圖像中是否含有秘密信息,即檢測識別載體圖像或載密圖像。實現的原理框圖如圖1所示,分為訓練過程和檢測過程兩個部分。

圖1 分類器原理框圖Fig.1 Schematic diagram of the classifier
輸入選擇的訓練樣本,設定LS-SVM的參數,經過機器的自學習過程,就可以訓練得到能夠檢測載密圖像的LSSVM分類器。需要說明的是,分類器中參數r的σ2設定,訓練樣本中載體圖像與載密圖像比例的選取,訓練樣本中載密圖像的類型和信息嵌入比例等,都將直接影響到分類器的檢測性能。關于這些參數的優化選取,文中也做了大量的相關實驗,由于篇幅所限,這里僅在實驗部分直接使用最后的結論。
本文算法的實質就是對每幅待測圖像進行統計分析,提取上述的15個特征參數,以特征向量的形式輸入到訓練好的LS-SVM分類器中,實現針對JPEG圖像的檢測。
實驗所用的測試圖像庫包含原始圖像庫和載密圖像庫兩部分。原始圖像庫由300幅原始數碼照片統一處理成大小為512×512、質量因子為75的灰度JPEG圖像構建而成。然后,以每幅圖像所能嵌入的最大數據長度為衡量標準,采用Jsteg、Outgess、MB、F5 4種較為常見的JPEG圖像信息隱寫算法,分別嵌入最大數據長度10%,20%……100%比例的秘密信息,得到載密圖像庫。
根據大量的實驗數據,當選取徑向基函數(RBF)作為分類器的核函數,設定訓練樣本與測試樣本的比例為4:1,且訓練樣本中載密圖像的信息嵌入比例為40%時,得到的LSSVM分類器檢測性能相對最好。因此,文中按照上述參數構建LS-SVM分類器,每次實驗選取300張原始圖像和某一算法(Jsteg、Outgess、MB 或 F5)在某種嵌入比例下(例如 20%)的載密圖像300張,研究4種隱寫算法在不同嵌入比例下的檢測性能。為測試算法的穩定性,設定參數γ=1:1:10、σ=1:1:10,運行得到不同參數組合下的100組實驗數據,根據以下公式:

計算出每組實驗得到的檢測正確率,將所有的檢測正確率的數值相加并除以100,就得到了平均檢測正確率,平均每次運算時間為1.78 s。實驗結果如表1所示。

表1 針對不同隱寫方法在不同嵌入率下的平均檢測正確率(%)Tab.1 The average detection rate of three steganography with different embedding rates(%)
從表1中可以看出:該算法對原始圖像的檢測率較高;對于每一種特定的隱寫方法,隨著信息嵌入比例的增大,平均檢測正確率也都會增大;而當信息嵌入率大于40%時,針對4種隱寫算法的平均檢測正確率均可達到90%以上。由此可見,文中提出的算法具有較高的檢測率,能夠有效實現對載體圖像和各種JPEG載密圖像的正確檢測。
實驗結果表明,算法中提取的15個特征參數具有良好的分類特性,構建的LS-SVM分類器運算速度快,計算復雜度低,針對各類JPEG圖像隱寫算法具有較高的檢測正確率,能夠達到通用檢測的目的,在實時檢測中具有重要的應用價值。然而,圖像信息隱寫分析是多學科交叉融合的技術,目前還有很多理論和實際技術問題需要完善和解決。如何在全局范圍內對核函數的選取、最優參數的設定進行優化,提高算法中LS-SVM分類器的正確率,將是下一步研究工作的重點。
[1]Petitcolas F A P,Anderson R J,Kuhn M G.Information hiding-a survey[J].Proceedings of IEEE,1999,87(7):1062-1078.
[2]Provos N,Honeyman P.Detecting steganographic content on the internet[C]//In Proceedings of Network and Distributed System Security Symposium,San Diego,CA,2002.
[3]Hsc C T,Wu J L.Hidden digital watermarks in images[C]//IEEE Trans.on Image Processing,1999:58-68.
[4]Provos N.Defending against statistical steganalysis[C]//In 10th USENIX Security Symposium,Washington DC.,2001.
[5]Cachin C.An information-theoretic model for steganography[C]//In Proceedings of 2nd International Workshop on Information Hiding,Berlin:Springer-Verlag,1998(1525):306-318.
[6]Westfeld A.F5-A steganography algorithm:high capacity despite better steganalysis[J].Lecture Notes in Computer Science,2001(2137):289-302.
[7]Fridrich J,Goljan M,Hogea D.Steganalysis of JPEG images:breaking the F5 algorithm[C]//In:Lecture Notes in Computer Science2578,Berlin:Springer-Verlag,2002:310-323.
[8]Suykens J A K,Gestel T V,Brahanter J D,et al.Least squares support vector machines[M].River Edge World Scientific,2002:71-148.
A blind steganalysis algorithm for JPEG images
WANG Xin1, LI Xin1, HU Lei2
(1.Dept.of Transportation Command,Automobile N.C.O Academy of PLA,Bengbu233011,China;2.Cadre Rotational Training Brigade,Automobile N.C.O Academy of PLA,Bengbu233011,China)
A blind steganalysis algorithm for JPEG images was proposed.The algorithm calculates a total of 15 characteristic parameters from each JPEG image, and using LS-SVM classifier to classify cover and stego images, which can apply to blind steganalysis.The experiments results show that,the algorithm has good performance in both detection rate and computation speed,and it is also reliable to steganalysis for all kinds of JPEG images steganography.
steganalysis; DCT coefficients; characteristic parameters; JPEG image
TP309.7
A
1674-6236(2012)05-0129-03
2012-01-12稿件編號:201201052
王 欣(1985—),男,安徽蚌埠人,碩士,助教。研究方向:通信與信息系統。