一種簡單實用的中文信息隱寫算法

2013-07-19 08:14:50孫新梅黃劉生

計算機工程與應用 2013年15期

關鍵詞：文本信息

孫新梅，孟朋，黃劉生，3

1.淮北職業技術學院，安徽淮北 235000

2.中國科學技術大學計算機科學與技術學院國家高性能計算中心，合肥 230026

3.中國科學技術大學蘇州研究院，江蘇蘇州 215123

一種簡單實用的中文信息隱寫算法

孫新梅1，孟朋2，黃劉生2，3

1.淮北職業技術學院，安徽淮北 235000

2.中國科學技術大學計算機科學與技術學院國家高性能計算中心，合肥 230026

3.中國科學技術大學蘇州研究院，江蘇蘇州 215123

1 引言

信息隱寫[1]是信息安全的重要研究方向之一。信息隱寫主要研究如何將秘密信息嵌入已知載體，可用于保密通信以及版權保護等。當前網絡通信中保證信息安全的手段仍以傳統的加密為主，但加密后的信息是混亂的二進制信息，在被監視的情況下很容易識別并破壞。信息隱寫技術掩蓋了隱秘信息的存在，大大地增強了信息傳輸、存儲的安全性。

信息隱寫的載體一般指電子載體，可以是圖像、視頻和文本等。由于文本媒體在互聯網上的廣泛使用，以文本為載體的信息隱寫技術越來越受到研究人員的關注。當前以文本為載體的信息隱寫大體可以分為三類：基于排版，基于語法和基于語義。

基于排版的信息隱寫算法通過對載體文本的排版方式進行細微修改來嵌入秘密信息。例如對文本的字間距[2]，行間距[3]，字體格式[4]等等進行細微調整，在人眼不易覺察的情況下嵌入秘密信息。基于排版格式的隱寫算法的最大弱點是不抗重寫攻擊，如果隱寫文本被重新排版或重寫一遍，那么隱寫信息也隨之消失。

基于語法的信息隱寫算法通過模仿自然語言的語法結構，生成類似自然語言的文本，在生成文本的過程中隱寫進秘密信息。這類算法主要有基于Markov鏈的隱寫方法[5]，基于句子模板的隱寫方法[6]和基于文章樣式的隱寫方法[7]等。這類算法雖然可以抵抗重寫攻擊，但是算法生成的文本沒有完整的意義，并且可以通過統計分析等方法對載體文本實現自動化的檢測[8-10]。

基于語義的信息隱寫算法通過對載體文本的部分單詞進行同義詞替換[11-12]、部分或全部句子進行同義轉換等方式，在盡量保持載體文本語義不變的前提下嵌入秘密信息。這類算法雖然目標是盡量保持載體文本語義不變，但實現起來非常困難。因為每個單詞在特定的場景下有特定的意義，簡單的同義詞替換很難保證原文的意義。句子的同義轉換更是涉及自然語言處理方面的難題，實現起來非常困難。

基于文本的信息隱寫算法和語言相關，不同語言的算法一般不可通用。中文作為世界上歷史最悠久、使用人數最多的語言之一，其豐富多彩的語言現象為文本信息隱寫提供了優越的條件。例如，中文中的正體詞和異形詞顯現（正體詞-異形詞）：義正詞嚴-義正辭嚴、余暉-余輝邀功-要功、熱中-熱衷、疲塌-疲沓等等，正體詞和異形詞音義完全相同，甚至有時異形詞的使用頻率甚至超過了正體詞；簡化字和繁體字在不同的地方同時使用，甚至相當一部分人同時使用繁體字和簡化字。這些現象都可能為信息隱寫技術所利用，因此有必要引起足夠的重視。

本文設計了一個簡單實用的中文信息隱寫算法，并研究了算法的嵌入率以及安全性等問題，以期引起大家對文本信息隱寫的重視，算法具有如下優點：

（1）嵌入率可以通過隱寫信息的分段長度靈活調整，可以根據需要選擇分段長度，提高安全性和隱蔽性。

（2）算法保證了載體文本的語義完全不變，實現起來簡單。

（3）算法不僅對電子文本，打印文本，手寫文本等皆適用，而且算法能抵抗對載體文本進行的重新排版等傳統攻擊方法。

2 背景介紹

由于歷史的原因，很多漢字有著兩種或兩種以上的書寫形式。具體來說，1964年國務院公布的《簡化字總表》，共包含2 236個簡化字，是大陸通行的簡化字，這2 236個簡化字有至少兩種書寫形式：簡化字和繁體字。據統計，我們日常閱讀的文字，平均每3個字就有一個是《簡化字總表》規定的簡化字。由于特殊的歷史和政治原因，當前簡化字主要在大陸地區使用，而繁體字主要在臺港澳以及海外繼續使用。近年來，隨著兩岸交流的密切展開以及兩岸文字統一的需要，大陸民眾對繁體字產生了很大的熱情，而在臺灣等地區學習和使用簡化字的人數也不斷增多，因此繁體字和簡化字混用的顯現普遍存在并且有增多趨勢。根據“中國語言文字使用情況調查”的結果[13]，截至20世紀末，有3.84%的人是繁體字和簡化字并用。從網上也可以看到，大量的網頁是繁簡并用，特別像網絡論壇、網上聊天室等對文字格式沒有嚴格要求的網站。

隨著漢字編碼方式的進步，漢字的編碼范圍也在不斷增大，很多編碼方式可以同時包含簡化字和繁體字，如GBK和GB18030等編碼方式。由于輸入方式的進步，采用一種輸入法輸入簡化字和繁體字幾乎同樣簡單，同時輸入以及顯示簡化字和繁體字已經沒有任何困難，這為繁體字和簡化字的混用提供了便利的條件。

3 算法描述

3.1 簡單替換的隱寫算法

目標是對一篇載體文本（只含簡化字或繁體字的普通文本，本文以簡化字載體文本說明算法過程），通過簡化字與繁體字的替換來實現信息隱寫。最簡單方法：首先將待隱寫信息轉化為“0”和“1”的序列，然后規定《簡化字總表》中的簡化字代表“0”，繁體字代表“1”，對載體文本中的文字根據需要隱寫的信息進行繁體字和簡化字替換就可以隱寫進去秘密信息。這種方式執行過程描述如下：

首先根據1964年國務院公布的《簡化字總表》構造一個替換辭典，替換辭典保留《簡化字總表》中一對一的簡化字和相應繁體字，去除一對多的字和多對多的字。

隱寫過程：

對載體文本中每個替換辭典中的文字，根據當前需要隱寫的信息進行替換。如果需要嵌入“0”，則保持簡化字不變；如果需要嵌入“1”，那么將簡化字替換為相應的繁體字；不在替換辭典中的文字保持不變。進行替換后的文本就是一篇含有隱寫信息的載密文本。

提取過程：

從載密文本中依次讀取文字，如果文字為替換辭典中的簡化字則提取“0”，繁體字則提取“1”，不在繁簡字總表中的字直接讀取下一個字。

例如對字符串“GB2312碼是中華人民共和國國家漢字信息交換用編碼”進行信息隱寫，假設需要隱寫的秘密信息為“01010110”，那么采用簡單替換方式隱寫后的載密文本為：“GB2312碼是中華人民共和國國家漢字信息交換用編碼”。

這種嵌入方式的好處是嵌入率比較高，弊端是嵌入簡單，比較容易辨認。例如相鄰的“國國”一個簡化字，一個繁體字，因此這種嵌入方式安全性較低。

3.2 高效替換的隱寫算法

對進行保密通信的雙方來說，字符串“GB2312碼是中華人民共和國國家漢字信息交換用編碼”，可以認為其代表字符串本身表達的信息，也可以認為其代表“26”（因為其總共含有26個字符），當然也可以認為其代表其他的數字或者符號。只要發送方和接收方采用相同的解釋方式，就可以通過對載體文本進行“解釋”達到傳遞秘密信息的目的。

將一篇載體文本完全不作修改，而只靠“解釋”來實現秘密通信，在通信量很小的情況下，完全可以實現。假設要進行最大通信量為20 bit的秘密通信，用220個不同的載體文本，其中每個載體文本代表一種信息，那么就可以實現對載體文本完全不用修改來傳遞秘密信息。但是當通信量大的時候，很難只用“解釋”的辦法來實現信息隱寫。

下面提出一種折中的方法，首先將待隱寫的信息分解為固定長度的信息段，然后對每個信息段采用“解釋”的辦法進行隱寫，以實現在修改盡量少的文本的前提下嵌入秘密信息。

假設待隱寫的信息正好可以分解為多個長為N的分組，“解釋”隱寫的方法如下：將每個分組轉化為一個10進制D，對載體文本每經過D個替換辭典中的簡化字，將一個簡化字替換為繁體字。

隱寫算法和還原算法的描述如下所示（算法假設載體文本足夠長，可以容納秘密信息），圖1和圖2分別是隱寫算法和還原算法的流程圖。

圖1 隱寫算法流程圖

圖2 還原算法流程圖

隱寫算法描述：

步驟1設置搜索開始位置為 -1：P=-1。

步驟2從載體文本當前搜索位置開始，找到下一個替換辭典中的字W，P=P+1。

步驟3如果P等于當前待隱寫的信息D（D為長度為N的待隱寫信息對應的10進制數）。那么將W替換為繁體字，否則轉步驟2。

步驟4如果信息隱寫完畢，則算法終止，否則P=-1，轉步驟2。

還原算法描述：

步驟1設置搜索開始位置為 -1：P=-1。

步驟2從載體文本當前搜索位置開始，找到下一個替換辭典中的字W，P=P+1。

步驟3如果W是繁體字，那么將P保存為提取信息，否則轉步驟2。

步驟4如果提取完畢，則算法終止，否則P=-1，轉步驟2。

高效替換算法的最大優點就是每替換一個字符，可以隱寫Nbit的信息，而且N可以根據需要靈活選擇，N越大，載體文本被替換的文字越稀少，載密文本的隱蔽性也越強；N越小，嵌入率越高。

4 算法分析和應用

4.1 嵌入率分析

據統計，我們日常閱讀和使用的文字，平均每3個字就有一個為《簡化字總表》中規定的簡化字[14]，如果采用簡單替換的方法，平均每3個字嵌入1 bit，那么嵌入率約為2.1%；如果采用高效替換的方式，假設分段長度為L，則平均每3×(2L-1+0.5)個字嵌入Lbit信息，那么嵌入率約為：

圖3為高效替換算法的嵌入率示意圖。

圖3 高效替換算法嵌入率示意圖

4.2 安全性分析

本文所設計算法最大優點是保證載體文本語義完全不變，抗重寫攻擊，嵌入率可靈活調整，因此傳統的攻擊方法對該算法是完全無效的。對該算法檢測的唯一依據是文本是否同時使用了簡化字和繁體字，但是由于相當一部分人同時使用兩種字體，因此這種檢測方法會導致大量正常文本被誤判為載密文本，仍然無法準確區分正常文本和載密文本。為了增加算法安全性，替換辭典可以僅選擇經常混用的繁體字和簡化字，另外也可以進行正體詞和異形詞替換等更安全的隱寫方式。

由于文本的冗余空間少，嵌入率低，當前基于文本的隱寫算法很少，文本信息隱寫很少引起大家注意，因此基于文本的信息隱寫成功率也較高。

5 總結

本文提出了一種基于繁體字、簡化字替換的中文信息隱寫算法，它首先根據經常被混用的簡化字和繁體字構造一個替換辭典，并對隱寫信息按一定長度進行分段，然后采用“解釋”的思想一次嵌入多位信息。算法嵌入率可以根據需要靈活選擇，同時保證了載體文本語義完全不變。本文的算法可以抵抗對載體文本的重新排版等傳統攻擊方法。

由于文本的冗余空間比較低，而且涉及自然語言處理的知識，基于文本的信息隱寫比以圖像和視頻為載體的信息隱寫涉及更多的困難和挑戰，因此基于文本的信息隱寫相關成果很少。本文通過分析和研究中文的使用特點，設計了一個簡單的隱寫算法，希望提高大家對文本信息隱寫的重視。

[1]Bennett K.Linguistic steganography：survey，analysis，and robustness concerns for hiding information in text，CERIAS tech report 2004-13[R].Purdue University，2004.

[2]Brassil J Τ，Low S，Maxemchuk N F.Copyright protection for electronic distribution of text documents[J].Proceedings of the IEEE（USA），1999，87（7）：1181-1196.

[3]Brassil J，Low S，Maxemchuk N，et al.Electronic marking and identification techniques to discourage document copying[C]// Proc Infocom，Τoronto，Canada，1994：1278-1287.

[4]Leary P.Τhe second cryptographic Shakespeare：a monograph wherein the poems and plays attributed to William Shakespeare are proven to contain the enciphered name of the concealed author，Francis Bacon[M].2nd ed.Omaha，NE：Westchester House，1990.

[5]吳樹峰.信息隱藏技術研究[D].合肥：中國科學技術大學，2003.

[6]Maher K.ΤEXΤO[EB/OL].[2012-09-21].ftp：//ftp.funet.fi/pub/crypt/ steganography/texto.tar.gz.

[7]Mark C.Hiding the hidden：a software system for concealing ciphertext as innocuous text[D].University of Wisconsin-Milwaukee，1997.

[8]Chen Zhili，Huang Liusheng，Yu Zhenshan，et al.Linguistic steganography detection using statistical characteristics of correlations betweenwords[C]//LNCS 5284：InformationHiding 2008，USA，2008：224-235.

[9]Chen Zhili，Huang Liusheng，Yu Zhenshan，et al.A statistical algorithm for linguistic steganography detection based on distribution of words[C]//ARES2008，Spain，2008：558-563.

[10]Chen Zhili，Huang Liusheng，Yu Zhenshan，et al.Effective linguistic steganography detection[C]//CIΤ Workshops，Australia，2008：224-229.

[11]Bergmair R.Τowards linguistic steganography：a systematic investigation of approaches，systems，and issues，A-4061[R]. Vienna，Austria：University of Derby，2004.

[12]Atallah M J，McDonough C J，Raskin V，et a1.Natural language processing for information assurance and security：an overview and implementations[C]//Proc of the 9th ACM/ SIGSAC New Security Paradigms Workshop.New York：ACM，2000：51-65.

[13]語文出版社.中國語言文字使用情況調查資料[M].北京：語文出版社，2006.

[14]郭曙綸.簡化字與繁體字筆畫數的動態統計與比較[J].北華大學學報，2009，l0（2）：50-56.

SUN Xinmei1,MENG Peng2,HUANG Liusheng2，3

1.Huaibei Vocational and Τechnical College,Huaibei,Anhui 235000,China
2.Τhe National High Performance Computing Center,College of Computer Science and Τechnology,University of Science& Τechnology China,Hefei 230026,China
3.Suzhou Institute for Advanced Study,University of Science&Τechnology China,Suzhou,Jiangsu 215123,China

Information Hiding（IH）is an important research direction of information security.IH mainly researches how to embed secret information into carriers,in order to achieve the objectives of secure communication,watermarking,and so on.Τhis paper analyzes the current status of IH based on text and its shortcomings.A novel information hiding algorithm based on substitution of different forms of Chinese characters is proposed.It splits the secret information,and then embeds the sector information into the carrier text by explanation.Τhe sector length can be adjusted according to application requirements.Τhe highest embedding rate of the algorithm is about 2%.In addition,this algorithm can resist traditional attacking method such as re-layout.

information hiding;simplified Chinese characters;traditional Chinese characters;section

信息隱寫是信息安全的重要研究方向之一，其主要研究如何將秘密信息嵌入到特定載體之中，以達到安全通信或版權保護等目的。分析了文本信息隱寫的研究現狀和存在的不足，設計了一種基于簡化字、繁體字替換的中文信息隱寫算法。算法對隱寫信息進行分段，通過“解釋”的方式嵌入分段信息，分段長度可以根據不同的應用需要靈活調整，算法最高嵌入率約為2%。另外，算法可以抵抗對載體文本的重新排版等傳統攻擊方法。

信息隱寫；簡化字；繁體字；分段

ΤP393

10.3778/j.issn.1002-8331.1211-0242

SUN Xinmei,MENG Peng,HUANG Liusheng.Simple and practical information hiding algorithm for Chinese text.Computer Engineering and Applications,2013,49（15）：88-91.

國家自然科學基金重大研究計劃（No.90818005）；國家自然科學基金（No.60773032，No.60703071）；教育部博士點基金（No.2006CB303006）；江蘇省自然科學基金（No.BK2007060）。

孫新梅，女，副教授，高工，主要研究方向為電氣自動化，計算機科學與技術等；孟朋（1983—），男，博士研究生，主要研究方向為信息安全；黃劉生（1957—），男，教授，博士生導師，主要研究方向為信息安全，高性能算法，分布式計算等。

2012-11-21

2013-01-05

1002-8331（2013）15-0088-04

CNKI出版日期：2013-01-29 http://www.cnki.net/kcms/detail/11.2127.ΤP.20130129.1543.015.html