王媛媛 劉金嶺
(1.淮陰工學院計算機工程學院 淮安 223003)(2.江蘇省物聯網移動互聯技術工程實驗室 淮安 223003)
?
基于標記屬性的多網頁信息隱藏算法
王媛媛1,2劉金嶺1,2
(1.淮陰工學院計算機工程學院淮安223003)(2.江蘇省物聯網移動互聯技術工程實驗室淮安223003)
摘要針對現有的網頁信息隱藏算法,相關文獻已經提出了一些檢測算法。為了提高網頁隱藏信息的容量以及抗檢測能力,論文提出了基于標記屬性的多網頁嵌入規則,將隱秘信息加密后嵌入一組關聯的網頁中,隱秘信息與網頁緊密結合,有較好的隱蔽性和抗檢測能力,隱藏的信息量也有較大提高,該算法可以為網頁隱秘通信提供參考。
關鍵詞信息隱藏; 多網頁; 標記
Information Hiding Algorithm Based on Information of Multi Webpage Tag Attributes
WANG Yuanyuan1,2LIU Jinling1,2
(1. Faculty of Computer Engineering, Huaiyin Institute of Technology, Huai’an223003)
(2. Jiangsu Province Networking and Mobile Internet Technology Engineering Laboratory, Huai’an223003)
AbstractAccording to the existing information hiding algorithm webpage, literature has proposed some detection algorithm. In order to improve the capacity of hidden information and anti detection ability, a multi page embedding rule is proposed based on markup attribute. The secret information is encrypted into a group of related webpage, the secret information combined with webpage has good concealment and anti detection ability, the amount of information hiding has improved greatly. The algorithm can provide a reference for webpage covert communication.
Key Wordsinformation hiding, multi webpage, tags
Class NumberTP183
1引言
信息隱藏是信息安全研究方向中的一類技術,可以將秘密信息嵌入到普通的信息載體中,使第三方無法區別正常載體和攜帶隱秘信息的載體。信息隱藏主要包括兩類技術:隱寫術(用于隱秘通信)和數字水印(用于數字媒體的版權保護)[1]。目前已存在很多對文本、圖像、音視頻以及數據庫進行信息隱藏的研究,在當今的網絡時代,針對網頁相關的信息隱藏技術愈顯重要。網頁信息隱藏是將網頁作為隱秘信息的載體[2],從而提高網頁的安全性,同時可以保護軟件知識產權。
國內外針對網頁信息隱藏方法的研究主要從網頁標記入手,歸納為以下常用的方法: 1) 嵌入不可見字符。例如Invisible Secret、WbStego和Stegano水印軟件,該方法使網頁文件變大,諸如網頁減肥軟件可以去除這些不可見字符[3],水印的隱蔽性較差。 2) 基于HTML語法的容錯性,改變網頁標記及其屬性值的大小寫,例如Infrihide水印軟件;基于重復標記的網頁信息隱藏[4]。這些方法對網頁源碼做了明顯的改變,通過查看源碼極易暴露隱藏的信息。 3) 通過改變標記的屬性順序嵌入秘密信息[5],該方法需要使用數據庫記錄屬性的順序。 4) 基于CSS類選擇符的網頁水印方法[6],該方法對網頁容量有要求。 5) 基于標記和數據融合以及標記字典的網頁水印算法[7],該方法需要創建并保存標記字典。上述方法仍有各自的局限性,如容量較小的單網頁水印嵌入,隱蔽性以及魯棒性需要進一步提高。本文提出了一種基于網頁標記的關鍵屬性的多網頁信息隱藏方法。實驗結果顯示,該方法有效地結合了Web頁面的內容和隱藏信息,隱蔽性較好,多網頁隱藏方式提高了隱藏的信息量,有較強的抗檢測和抗過濾能力。
2算法原理
2.1基本定義
網頁文件使用HTML語法結構,由若干網頁元素構成,網頁元素一般有開始標記、元素內容和結束標記三部分。
定義1:以〈body〉標記作為初始遍歷對象,網頁中的標記及其屬性稱作一個對象Oi,i為標記在網頁中的順序,Oi由標記、屬性及屬性值組成。
定義2:待嵌入的隱藏信息定義為S。
2.2混沌映射
Tent映射和Logistic映射是兩個常用的混沌系統,將兩者結合組成雙混沌系統生成混沌序列,代替傳統散列算法中的固定參數,并生成散列摘要,密鑰空間較大[8],本文使用文獻[8]的方法生成長度為n的混沌序列,用于加密待隱藏信息。
2.3信息嵌入規則及原理
網頁對象Oi一般有以下特點:標記中有屬性、類或id的定義,例如:
該標記定義了一個按鈕及其屬性和樣式,其中標記、屬性的大小寫,屬性值的單雙引號區別可以忽略。
一般,標記可以設置id、name或類以便被樣式表、JavaScript或jQuery訪問。可以將水印信息嵌入到未定義id和name的標記中,所有未定義id和name的標記記為lj(j∈1,2,…,k),k為滿足條件的標記總數。由于采用多網頁嵌入策略,因此即便在一個載體網頁中未定義id和name的標記較少導致隱藏容量較小,也可以通過增加載體網頁數量的方法實現。本文將隱藏信息以定義標記id的形式嵌入,為了便于提取隱藏信息,將嵌入隱藏信息的標記id屬性值設為單引號。
隱藏信息嵌入之前,首先進行網頁預處理:掃描載體網頁,將已有屬性值的單引號重置為雙引號,提取網頁中所有未定義id和name屬性的標記到一個集合序列中。
3隱藏信息嵌入及提取算法
3.1多網頁信息隱藏算法流程
輸入:載體網頁Pi,待隱藏的信息S;
Step1:將待嵌入的隱藏信息(文本或圖像)二值化轉換為二進制序列S;選定初值x0作為秘鑰,使用文獻[8]提出的基于雙混沌動態參數的單向散列算法生成長度為n的混沌序列{x1,x2,…,xn},同樣將其二值化為二進制序列X。將待嵌入的隱藏信息二進制序列S與X異或得出加密后的二進制水印序列Q,即Q=S⊕X。
Step2:選定首個載體網頁P1,根據待嵌入隱藏信息Q確定載體網頁的個數n。
Step3:從網頁的〈body〉標記處開始掃描網頁P1,得到m個站內鏈接(去除站外鏈接),一般鏈接標記可以通過src或href屬性獲取,站內鏈接不包含“http://”,可以通過這一特點選定站內鏈接。
Step4:使用Rnd隨機選取n-1個鏈接標記,從而確定需要嵌入隱藏信息的n-1個網頁,即{P1,P2,…,Pn}為待嵌入信息的n個網頁。
Step5:將加密后的二進制水印序列Q分為n等分,即{Q1,Q2,…,Qn}。
Step6:將待隱藏的序列{Q1,Q2,…,Qn}分別嵌入到{P1,P2,…,Pn}這n個網頁。以網頁P1為例:掃描網頁P1,取出未定義id和name的標記lj,則增加標記的id屬性值,將Q1中的二值信息分別作為lj的id屬性值添加,并將添加的id值的前后分別插入約定的一個字符及符號“_”(用以區別網頁中以定義的id值),直到將Q1中所有信息嵌入網頁P1。反復執行Step6將{Q1,Q2,…,Qn}分別嵌入到載體網頁{P1,P2,…,Pn}。
在{P1,P2,…,Pn}中每個網頁的〈head〉〈/head〉之間使用jQuery標記標識待隱藏信息與載體網頁的對應關系,例如:
〈script type="text/javascript"〉
$(document).ready(function(){
//P與Q的對應關系
})
〈/script〉

3.2多網頁信息提取算法流程
輸出:隱藏信息S。

Step3:使用秘鑰x0解密{Q1,Q2,…,Qn},得到初始隱藏信息S。
4實驗與結果分析
下面通過實驗驗證文本提出算法的有效性以及性能分析,分別從隱蔽性、隱蔽容量以及抗篡改和攻擊的能力。
4.1算法的隱蔽性
在VS2012平臺實現本文提出的網頁信息隱藏方法,使用批量網頁進行測試,結果顯示嵌入了隱藏信息并沒有改變網頁的顯示效果,在網頁中嵌入隱藏信息前后對比如圖1所示,信息隱藏前后HTML源碼對比如圖2所示。本算法嵌入的隱藏信息內容與網頁本身結合,頁面瀏覽效果視覺上沒有差距,算法的隱蔽性較好。

圖1 嵌入隱藏信息前后網頁顯示效果對比

圖2 嵌入隱藏信息前后網頁HTML源碼對比
4.2算法的隱蔽容量
由于本算法采用多網頁信息隱藏策略,因此可以在網頁中嵌入大量隱秘信息。例如,將大小為459KB的秘密水印信息嵌入到同一站點的一組網頁后,網頁文件的大小改變不大,如表1所示。

表1 嵌入隱藏信息后網頁文件大小
4.3抗篡改能力
一般網頁在網絡傳輸過程中,其內容不會被修改。若有意篡改了網頁標記的內容,也可以提取部分隱藏信息,并不影響隱藏信息的讀取。網頁中標記及內容被篡改60%后,提取嵌入的隱藏信息如圖3所示。

圖3原始嵌入信息以及篡改后提取的隱藏信息
表2給出了目前已經提出的幾種在網頁中嵌入隱藏信息方法的性能比較。從表中可以看出,不可見字符以及標記大小寫方法的抗檢測能力較弱;屬性對順序方法需要原始數據庫支持;重復標記屬性和CSS類選擇符引入法抗檢測能力較強,但是網頁較小時,單個嵌入的隱藏信息量有限。本文提出的方法將隱藏信息加密后,采用一定的策略嵌入到同一站點的多個網頁中,隱藏信息與網頁內容緊密結合,隱蔽性較好,同時也提高了抗檢測和過濾的能力,嵌入和提取隱藏信息的算法簡單,易于實現。

表2 幾種常用算法性能比較
5結語
網絡是目前信息傳遞的主要方式,網頁的信息
安全日益重要,本文從頁面的基本結構出發,提出了基于標記屬性的多網頁標記算法。實驗結果顯示,該算法將隱秘信息與網頁內容相結合,與已提出的算法相比,具有更好的隱蔽性,隱藏信息容量更大,抗檢測能力更強。
參 考 文 獻
[1] Petitcolas, F. A. P. Anderson, R. J. Kuhn, M. G. Information hiding-a survey[J]. Proceedings of the IEEE,1999,87(7):1062-1078.
[2] Moulin, P, O’Sullivan, J. A. Information theoretic analysis of information hiding[J]. IEEE Transactions on Information Theory,2003,49(3):563-593.
[3] 眭新光,羅慧.一種新的基于超文本的信息隱藏方法[J].計算機工程,2005,31(12):136-137,153.
GUI Xinguang, LUO Hui. A new method of hiding information based on Hypertext[J]. Computer Engineering,2005,31(12):136-137,153.
[4] 李建國,馬小虎,沈曉峰.一種基于重復標記屬性的多網頁信息隱藏方法[J].計算機應用與軟件,2009,26(8):62-63,85.
LI Jianguo, MA Xiaohu, SHEN Xiaofeng. A Novel scheme of multiple webpages information hiding based on repeating tag attributes[J]. Computer Applications and Software,2009,26(8):62-63,85.
[5] Crinna John. Hiding binary data in HTML documents[EB/OL]. http://www.codeproject.com/csharp/steganodotnet13.asp,May,2008.
[6] 黃華軍,王保衛,孫星明.基于CSS類選擇符重復引入的網頁信息隱藏算法[J].計算機研究與發展,2009,46(Z1):138-142.
HUANG Huajun, WANG Baowei, SUN Xingming. An Algorithm of Webpage Information Hiding Based on Repeated Importing of the CSS Class Selectors[J]. Journal of Computer Research and Development,2009,46(z1):138-142.
[7] 任俊玲,車蕾.標記和數據相融合的網頁信息隱藏算法[J].北京信息科技大學學報,2012,27(4):43-46.
REN Junling, CHE Lei. A webpage information hiding algorithm based on integration of tags and data[J]. Journal of Beijing Information Science and Technology University,2012,27(4):43-46.
[8] 劉宴兵,呂淑品,唐浩坤.基于雙混沌動態參數的單向散列算法[J].計算機應用,2010,30(9):2398-2400.
LIU Yanbing, LV Shupin, TANG Haokun. One-way hash algorithm based on chaotic coupled dynamic parameters[J]. Computer Application,2010,30(9):2398-2400.
[9] 黃華軍,譚駿珊,孫星明.基于高階統計的網頁隱秘信息檢測研究[J].電子與信息學報,2010,32(5):1136-1140.
HUANG Huajun, TAN Junshan, SUN Xingming. On Steganalysis of Information in Tags of a Webpage Based on Higher-order Statistics[J]. Journal of Electronics & Information Technology,2010,32(5):1136-1140.
[10] 任俊玲,王承權.基于標記字典的網頁信息隱藏算法[J].山東大學學報(理學版),2012,47(11):40-44.
REN Junling, CHE Lei. A w ebpage information hiding algorithm based on tag dictionary[J]. Journal of Shandong University(SCIENCE EDITION),2012,47(11):40-44.
[11] 張曉彥,張曉明.一種基于表格屬性的網頁信息隱藏算法[J].北京石油化工學院學報,2009,17(1):43-47.
ZHANG Xiaoyan, ZHANG Xiaoming. An Algorithm of Webpage Information Hiding Based on the Property of Table[J]. Journal of Beijing Institute of Petrochemical Technology,2009,17(1):43-47.
中圖分類號TP183
DOI:10.3969/j.issn.1672-9722.2016.01.001
作者簡介:王媛媛,女,碩士,講師,研究方向:信息安全、人工神經網絡、計算機應用。劉金嶺,男,教授,碩士生導師,研究方向:文本識別,數據庫、數據倉庫及數據挖掘。
基金項目:國家青年科學基金項目(編號:61402192)資助。
收稿日期:2015年7月9日,修回日期:2015年8月23日