基于不可見字符替換的信息隱藏方法研究

2016-05-09 07:19:14崔光明張以文朱二周

計算機應用與軟件 2016年4期

崔光明洪星袁翔張以文朱二周

基于不可見字符替換的信息隱藏方法研究

崔光明洪星袁翔張以文朱二周*

(安徽大學計算機科學與技術學院安徽合肥 230601)

當前,大多數信息都以文本文檔的方式進行存儲與傳輸,這種文本文檔存儲與傳輸的普遍性使得基于文本文檔的信息隱藏方法具有重要的研究價值。然而當前流行的基于文本的信息隱藏方案具有魯棒性較差、語義雜亂無章且肉眼輕易就可以分辨、嵌入率低等問題。為解決以上問題，利用ASCII碼中的不可見字符的獨特性，提出針對于英文文本的信息隱藏算法，該算法是通過對英文文本中的空格進行處理來達到隱藏效果。實驗表明，所提出的信息隱藏方案是可行、可靠、安全以及高效的。

信息隱藏信息提取 ASCII碼文本信息隱藏

0 引言

信息隱藏技術[1]是信息安全領域的重要內容，是指在設計和確定模塊時，使得一個模塊包含特定的信息，但對于其他不需要這些信息的模塊來說是不可訪問的。該技術主要通過將被隱藏信息嵌入到已知載體的方式來達到保密通信和版權保護的目的。根據載體可以將該技術分為基于圖像的信息隱藏[2]、基于視頻的信息隱藏[3]、基于音頻的信息隱藏[4]以及基于文本的信息隱藏[5]。當前，大多數信息都以文本文檔的方式進行存儲與傳輸的，這種文本文檔存儲與傳輸的普遍性使得基于文本文檔的信息隱藏方法具有重要的研究價值。鑒于此，本文主要研究基于文本的信息隱藏技術。

根據待隱藏信息嵌入方式不同的分類方式，可以將基于文本的信息隱藏分為基于排版、基于語法和基于語義的信息隱藏三類。基于排版(編碼或結構)的信息隱藏技術是通過修改文本中字符間距、行間距、字體格式等方式來改變文本的細微特征，進而達到肉眼無法區別的目的。但是這類隱藏算法的缺陷是魯棒性較差，即在文檔重新排版的情況下，隱藏的信息將不復存在。基于語法的信息隱藏技術是利用自然語言的語法結構來生成隱寫文檔，常見的基于語法的隱藏算法有基于句子模板的隱寫術、基于文本樣式的語言隱寫術和基于MARKOV CHAIN的隱寫算法等。這類隱藏算法的缺陷是產生的隱寫文本雖然符合語法結構，但是其語義雜亂無章且肉眼輕易就可以分辨；基于語義的信息隱藏技術多數是利用同義詞的替換來隱藏目標信息，常見的算法有基于等價規則替換的隱寫術，基于同義句子替換、基于同義詞替換[6]、基于機器翻譯的隱寫術[7，8]等。這種方法的缺陷是嵌入率不高，只有在滿足了替換規則的地方才能隱藏信息。

為解決以上問題，本文提出一種魯棒性高、穩定性好、兼顧語義和語法完整性、嵌入率高的信息隱藏方案。具體為利用文本文檔的空格不易察覺的特性，再結合ASCII碼中的不可見字符，在某些特定環境下與空格無異的特點，實現信息的隱藏、檢測與分離功能。

1 背景介紹

1.1 信息隱藏應用領域

信息隱藏具有很廣泛的應用，根據參考文獻[9]可以總結如下幾點：

1.1.1 版權保護

版權保護是信息隱藏的一個主要應用方向。隨著數字化產品的不斷涌現，版權保護問題逐步成為關注的焦點，隨之而來，數字水印技術應運而生。數字水印技術主要利用將版權信息嵌入到數字作品中的方法，解決數字產品的版權保護問題。基于文檔的信息隱藏又是信息隱藏領域的核心，再加上文檔的冗余較少以及易編輯的特點，導致文檔的版權保護的形式更加嚴峻。本文提出的方案，則可以應用于該方向，以解決英文文檔的版權保護問題。

1.1.2 數據保密

數據保密是指對傳輸或者儲存中的數據進行保護，使其不被非授權的用戶截獲或盜用。隨著經濟的全球化，不僅政治、軍事領域需要數據保密，商業、金融領域和個人都需要。信息隱藏可以使得傳輸或存儲中的信息消失于無形中，使得非授權用戶很難知道信息的存在，更不用說破解和獲取，因此信息隱藏能很好地應用于數據保密中。

1.1.3 數據的不可抵賴性

不可抵賴性又稱為不可否認性，是指在交易各方在交易完成時要保證不可否認。是通過對在交易系統中傳遞的信息嵌入表示各方特征的水印，來保證交易各方都不能抵賴自己曾做出的行為，也不能否認曾收到對方的信息。

1.1.4 防偽

隨著商品經濟的快速發展，種類繁多的商品源源不斷地進入市場，隨之而來的是各種假冒偽劣產品越來越多。防偽技術是一種用于識別真偽并防止假冒、仿照行為的技術手段，而信息隱藏技術用于防偽是指在數字票據中的水印經過打印后仍然存在，可以通過重新掃描成數字形式來提取水印，以證實票據的真實性。

1.1.5 數據的完整性

數據完整性是指數據的精確性和可靠性，是指傳輸和存儲的數據沒有被篡改。通常通過把脆弱水印嵌入到數據中，并用來檢測水印是否遭到破壞來發現數據是否被篡改，即識別數據的完整性。

1.2 ASCII字符分析

1.2.1 ASCII碼概述

ASCII是基于拉丁字母的一套電腦編碼體系，主要用于顯示現代英語和其他西歐語言，它是現今最通用的單字節編碼系統，等價于國際標準ISO/IEC 646。ASCII碼使用7位或8位二進制數組合來表示128或者256種可能的字符，標準ASCII也稱為基礎ASCII，7位二進制來表示所有大小寫字母，數字0到9，標點符號以及在美式英語中使用的特殊的控制字符。本文將采用的ASCII碼中部分不可見字符如表1所示(表中只取后四位)。

表1 ASCII碼中部分不可見字符

1.2.2 不可見字符分析

根據文獻[10]中附錄提供的ASCII表以及分析，可得知：在標準ASCII中，ASCII碼值為0～31及127(共33個)是控制字符或通信專用字符(其余為可顯示字符)，如控制符：LF(換行)、CR(回車)、FF(換頁)、DEL(刪除)、BS(退格)、BEL(響鈴)等；通信專用字符：SOH(文頭)、EOT(文尾)、ACK(確認)等；ASCII值為8、9、10 和13 分別轉換為退格、制表、換行和回車字符。它們并沒有特定的圖形顯示，但會依不同的應用程序，而對文本顯示有不同的影響。

1.2.3 實驗字符分析

通信專用字符SOH(文頭)，即編碼為x001的字符。由于這些字符在不同類型的文本有著不同的顯示效果，經過多次試驗發現，該字符在文本文檔中顯示和空格字符相差無幾，故選用該字符，作為隱藏信息時的替換字符。

2 算法描述

在實驗設計中，信息的隱藏和提取是關鍵。本章的前一部分是信息的隱藏階段，利用提前準備的載體文檔和需要嵌入的信息為輸入，然后通過隱寫算法將載體與信息合成載密文檔。后一部分則是將前一部分合成的載密文檔作為輸入，利用提取算法實現信息的分離，最終達到秘密信息安全傳輸的目的。具體過程如圖1所示。

圖1 秘密信息傳輸圖

2.1 隱藏過程

隱藏過程中采用的是將載體文本作為輸入，再利用程序中的提示輸入作為待隱藏的信息，然后，實現信息的隱藏。實現過程則是首先利用程序打開載體文檔并成功獲取待隱藏信息，逐個分析載體文檔內容。對于滿足特定位置的字節，即不僅滿足該位置是空格，而且滿足約束函數f，然后，根據待隱藏信息的比特信息選擇寫入的是空格還是SOH。即若當前比特是“0”時，寫入空格，為“1”時，則寫入SOH，直到待隱藏信息寫入完畢。最后，將載體文檔中的剩余部分拷貝到載密文檔中，此時隱藏階段結束。具體的隱藏算法如下：

Input：載體文檔以及待隱藏信息。Output：載密文檔。

1) 將待隱藏信息轉換為“0”和“1”的比特序列，為了保證能夠隱藏漢字，則可以根據Unicode 編碼，獲得待隱藏信息的Unicode編碼Sj；

2) 從載體文檔中獲取每個單詞Wi；

3) 寫入單詞Wi，根據約束函數f，確定隱藏位置，若Sj為“0”，則寫入空格，為“1”，則寫入SOH字符，對于不滿足約束f的位置寫入空格；

4) 重復2)和3)，直到Sj為空；

5) 將載體文檔中剩余的單詞W，寫入到目標文檔中。

2.2 提取過程

隱藏信息的提取過程，是以載密文檔作為輸入，實現隱藏信息的分離。實現過程則是首先打開載密文檔并成功獲取載密信息，逐個分析載密文檔內容，根據滿足條件的位置，即該位置既滿足是空格或SOH，也滿足約束函數f。然后，根據該位置的具體ASCII字符，決定隱藏的是“0”還是“1”，接著將該隱藏的比特信息拼接到目標串中。最后，將目標串轉換成“GB2312碼”對應的漢字，結果即為所求。具體提取算法如下：

Input:載密文檔。 Output:隱藏的信息。

1) 從目標文檔中讀取每個字節；

2) 判斷當前位置是否是空格或SOH，是進入3)，否則結束本次判斷，處理下一字節；

3) 判斷是否滿足規則f，如滿足，根據該位置字符是否是空格或SOH，若是空格，則在Unicode編碼串S后連接0，若是SOH，則S后連接1；否則結束本次判斷處理下一字節；

4) 判斷是否文檔結束；

5) 利用Unicode編碼串，確定輸出隱藏的信息。

2.3 隱藏前后效果對比

在算法實現階段，隱藏過程中采用的是將Word、文本文檔等作為載體文檔進行輸入；輸出是帶有隱寫信息的文本文檔；提取過程中則是將載密文檔作為輸入，直接顯示隱藏信息。除了一些文檔類型自帶的格式區別外，信息隱寫階段帶入的差別幾乎可以忽略，具體效果可以參考圖2和圖3所示。

At daybreak the for a few minute the gloom and opp

圖2 信息隱藏前文檔截圖

At daybreak the slipped away fo change that wou by this prolonge

圖3 信息隱藏后文檔截圖

3 性能分析

3.1 實驗環境配置

本文的實驗是在Intel i3 3420 CPU(3.4 GHz)、4 GB DDR3 1333 RAM、32位Windows 7、Microsoft Word 2010及文本文檔等軟硬件配置環境下實現的。實驗將從魯棒性、安全性、穩定性以及效率等幾個方面來評測本文提出的信息隱藏方案的性能。

3.2 魯棒性

本實驗方案是采用了基于編碼結構的信息隱藏技術，但本實驗的魯棒性卻很好，即對文檔進行字體大小改變或者字體樣式改變，均不影響隱寫信息的成功檢測。效果如圖4和圖5所示。

圖4 格式改變前圖5 格式改變后

改變格式前后信息提取結果對照如圖6和圖7所示。

圖6 格式改變前信息提取圖圖7 格式改變后信息提取圖

在參考文獻[11]中提出的基于字體的隱藏方案中，改變文檔字體，隱藏的信息將不復存在，魯棒性較低，但本文提出的方案卻不受影響。

3.3 安全性

文檔的細微改變，肉眼無法分辨，達到了傳輸的安全性。在本文提出的算法中，針對隱藏信息后的文檔，可以格式改變，傳統的攻擊方法對本算法基本無效。本文中采用的是將空格字符替換措施，則在文檔中增加空格可能會導致算法失效。但是，在改進的算法中，可以采用若某一處空格不唯一，但只是空格的重復組合，只取一個；若其中含有替換的字符，則不計該處空格的個數，只計算一個隱藏字符。這樣一來，在文章中增加空格，也就無法破壞隱藏信息的完整性，達到了更高的安全性。

基于改進算法以及參考文獻[11]，本文將針對傳輸過程中的不同攻擊進行分析得到安全性如表2所示。

表2 不同攻擊下安全性分析表

3.4 嵌入能力(Ex)

假設一篇文章共有W個字符，本實驗中采用的隱藏函數為比例函數f=5x，即每間隔五個字符嵌入1比特信息，故現可嵌入的比特數Wf=W/5，現設需要嵌入S比特的信息，由于本實驗采用的是“1”嵌入，“0”不變，故設修改了其中C個字符。

定義1 嵌入率(E)：

E=S/Wf

(1)

定義2 嵌入效率(ES)：

ES= C/Wf

(2)

定義3 嵌入能力(EX)：

假設需要嵌入的信息中“0”和“1”平均分布，則ES=E/2，當S中“1”所占的比例為L時，則ES=E/L，即需要改變的字符所占的比例。但一個好的嵌入方式，應該需要較高的嵌入率，還要有較高的嵌入效率，故采用嵌入能力(EX)定義為：

EX= ES×E = SC/Wf2

(3)

即當SC乘積較大時，整體的嵌入能力較高。此時當嵌入信息中“0”和“1”均勻分布時，嵌入能力EX= 2C2/Wf2= 0.5S2/Wf2，當嵌入信息S中“1”所占比例為L時，EX= C2/(Wf2L)=LS2/Wf2，易知當L比值較大時，嵌入能力較大。當W為800時,即Wf=160，則E、ES、EX與L、S的關系，如表3所示。

表3 嵌入率、嵌入效率、嵌入能力比較

由表3可知，嵌入能力Ex正比于嵌入信息的長度S和S中“1”的比例L。

當文檔中共含有M個單詞，則存在的空格個數可以認為有M個。在此試驗中，利用的規則函數f(x)=5×x，即表示可利用的空格個數為M/5，所以，文檔的嵌入率大約為20%。如果采用空格全部利用，則嵌入率可以達到近100%，而在參考文獻[11]中提及的算法嵌入率分析為：行移編碼中采用保持一行不動，即每嵌入1比特信息需要兩行，并假設每行有20個單詞，則嵌入率為(M/40)/M=1/40=2.5%，如果采取保持兩行不動，則嵌入率更低；在字體信息隱藏方案中，英文文檔下的字隱藏方案，每個單詞都可以進行嵌入信息，理論上可以達到100%，但是卻存在魯棒性較低的問題；在句子隱藏方案中，假設平均每個句子包含10個單詞，則嵌入率約為10%。所以，本文提出的方案嵌入率是可觀的。

3.5 穩定性(St)

假設在某個文檔大小確定的情況下，總共實驗次數為N，其中成功的試驗次數為n，則易知成功率為：

St=n/N

(4)

基于式 (4)，再結合不同大小的載體文檔，本方案的具體穩定性分析如表4所示。

表4 實驗穩定性分析

由表4可知，在多次重復試驗，并且在不同大小的載體文檔環境下，該實驗的成功率均超過90%，達到了很好的成功率，即達到了較高的穩定性。

3.6 效率分析

在實驗過程中，由于采用的是人工輸入，包括載體文檔和待隱藏信息，人為輸入時間不可控制，故該處的時間統計均不包括輸入階段。在信息隱藏階段，假定載體文檔的大小為m，待隱藏信息的大小為n，此時算法中，利用的是逐個分析載體文檔和待隱藏信息，然后寫入到載密文檔中，所以，時間復雜度可以定義為O(m+16×n)。故整體的時間開銷與m和n有關，具體實驗數據可以參考表5所示。在信息提取階段，根據載密文檔的規模，方可以確定時間復雜度，由隱藏階段的寫入的信息大小可得為(m+16×n)，所以時間復雜度為O(m+16×n)，可得時間開銷與m和n有關，然后進行實驗。具體實驗結果參考表6所示。

表5 信息隱藏階段時間開銷分析 (毫秒)

表6 信息提取階段時間開銷分析(毫秒)

4 結語

本文針對當前流行的基于文本的信息隱藏方案具有魯棒性較差、語義雜亂無章且肉眼輕易就可以分辨、嵌入率低等問題。本文利用ASCII碼中的不可見字符的獨特性提出了針對英文文本的信息隱藏算法。算法是通過對英文文本中的空格進行處理來達到隱藏效果。實驗表明，本文提出的信息隱藏方案是可行、可靠、安全以及高效的。

[1] Bennett K. Linguistic Steganography: Survey,Analysis,and Robustness Concerns for Hiding Information in Text[R].CERIAS Technical Report 2004-13:Purdue University,2004.

[2] 張廣斌,岳云天,張傳富.基于Hilbert的快速濕紙碼自適應隱寫算法[J].計算機工程,2013,39(7):161-164.

[3] Udit Budhia,Deepa Kundur,Takis Zourntos. Digital video steganalysis exploiting statistical visibility in the temporal domain[J].IEEE Transactions on Information Forensics and Security,2006,1(4):502-516.

[4] 柏玉保,柏森,劉程浩.基于小波和倒譜域的數字音頻水印算法[J].計算機應用與軟件,2012,29(3):163-167,182.

[5] 付東來,陳夠喜,楊秋翔.基于XML 文檔切片的隱秘通信[J].計算機應用與軟件,2011,28( 9):106-108,122.

[6] Yuling Liu,Xingming Sun,Can Gan,et al. An efficient linguistic steganography for Chinese text[C]//U.S.A: the Proceedings of 2007 IEEE International Conference on Multimedia and Expo. 2007:2094-2097.

[7] Brian Chen,Gregory W.Wornell. Quantization index modulation: A class of provably good methods for digital watermarking and information embedding[J].IEEE Transactions on Information Theory,2011,47(4):1423-1443.

[8] Ehsan Nezhadarya,Z Jane Wang,Rabab Kreidieh Ward. Robust Image Watermarking Based on Multiscale Gradient Direction Quantization[J].IEEE Transactions on Information Forensics and Security,2011,6(4):1200-1213.

[9] 陳至立.語言隱寫術的分析與設計研究[D].合肥:中國科學與技術大學,2008.

[10] 鄭立華，冀榮華.C++程序設計與應用[M].北京：清華大學出版社,2011.

[11] 曹衛兵,戴冠中,夏煜,等.基于文本的信息隱藏技術[J].計算機應用研究,2003,25(10):39-41.

RESEARCH ON INFORMATION HIDING BASED ON INVISIBLE CHARACTERS REPLACEMENT

Cui Guangming Hong Xing Yuan Xiang Zhang Yiwen Zhu Erzhou*

(SchoolofComputerScienceandTechnology,AnhuiUniversity,Hefei230601,Anhui,China)

At present,most of the information are stored and transmitted through the plan-text,the universal storage and communication of such text documents pose an important value on studying the text document-based information hiding approaches. However,current prevailing text-based information hiding schemes are facing many problems,such as poor robustness,semantic untidy,low embedding rate and easily being penetrated by unaided eyes. In order to solve these problems,this paper puts forward an information hiding algorithm for English text by using the distinctiveness of invisible characters in ASCII codes. The algorithm reaches the hiding effect by processing the spaces in English texts. Experiments show that the hiding algorithm proposed in the paper is feasible,reliable,safe and efficient.

Information hiding Information extraction ASCII code Text information hiding

2014-08-10。國家自然科學基金項目(61300169)；安徽大學國家級大學生創新項目(201310357187,J10118520164)。崔光明，本科生，主研領域：信息安全。洪星，本科生。袁翔，本科生。張以文，副教授。朱二周，講師。

TP309

10.3969/j.issn.1000-386x.2016.04.065

基于不可見字符替換的信息隱藏方法研究

0 引 言

1 背景介紹

2 算法描述

3 性能分析

4 結 語

0 引言

4 結語