陳 翔
(長沙師范學校教育技術中心,湖南 長沙 410100)
用于文本認證的脆弱水印研究綜述*
陳 翔
(長沙師范學校教育技術中心,湖南 長沙 410100)
用于文本認證的數字水印技術是數字水印核心技術之一.首先總結了當前用于認證的文本水印技術的分類、基本特征以及文本認證系統模型,然后分析了脆弱文本水印的算法和研究現狀,最后指出用于文本認證的數字水印技術未來發展的方向.
數字水印;文本認證;脆弱文本水印;篡改檢測
隨著信息技術的飛速發展,數字文本信息在計算機與網絡技術中的應用達到前所未有的深度.具有特殊含義的數字文本信息,如果遭到惡意攻擊,很可能造成不良的社會影響或較大經濟損失.然而,傳統密碼學理論的加解密系統在解決數字文本信息安全問題中受到質疑.因此,對數字文本內容的真實性、完整性實施有效認證已成為一個嚴峻的現實問題.數字水印就是在這樣的背景下提出,開始在數字作品的保護、票據防偽、內容認證、拷貝控制等方面發揮著重要作用[1].用于文本認證水印是在不影響數字文本原始信息質量的前提下將與媒體內容提要相關或不相關的標志信息作為水印直接嵌入數字文本內容中,當數字文本內容需要認證時,根據提取的水印信息來判斷其是否真實完整[2,3].
本文首先對用于文本認證系統的分類及基本特征進行了敘述,然后對文本認證系統模型進行了分析,在此基礎上,對脆弱水印技術的發展情況進行了討論.最后展望了用于文本水印認證技術未來的發展方向.
用于文本認證的數字水印的分類按其性質可分為魯棒文本水印和脆弱/半脆弱文本水印,魯棒水印用于數字文本的版權保護;脆弱/半脆弱水印用于數字文本的內容認證[4,5].根據文本認證目的也可以分為非惡意篡改和惡意篡改.而文本認證系統的主要目的是實現對惡意篡改的檢測,因此可以把現有的文本認證系統主要分為如下二類∶(1)完全級認證.注重數字文本數據的整體性,水印隨載體作品形式或內容改變而改變,它是基于用戶的需要,用于判斷其獲得的數字作品的完整性,包括作品的來源是否合法有效以及內容是否被篡改等,通常采用脆弱水印來實現[6].(2)選擇級認證.注重保護數字文本內容傳遞的信息,而不是數字文本內容的具體表示形式[7].檢測時被認可接受的改動,通常使用半脆弱水印技術實現.這類水印能夠容忍一定程度的信號處理失真,又具備較強的敏感性,能夠判斷載體產品是否被惡意篡改和篡改的程度,并進行定位.
脆弱文本水印也具有數字水印的一些通用特性,例如不可感知性、水印的安全性、一定程度的魯棒性.同時也具有以下一些特殊的基本特征.
(1)檢測篡改.可靠地檢測篡改是脆弱性水印基本功能之一,最理想的算法是能夠計算修改的位置和破壞量,甚至能夠分析篡改的類型,并且對被篡改的內容進行有效恢復;(2)盲檢測性.水印提取不需要原始載體數字文本.在一些特定應用或特殊場合中,并無可利用的原始數字文本,嵌入后的數字文本提取水印時正好不需要原始文本;(3)脆弱性.用于數字文本的內容篡改鑒別時,需要滿足在一定魯棒性下的脆弱,在一些特殊場合中,水印能抵抗非惡意篡改,并且能檢測出惡意篡改;(4)隱蔽性.脆弱文本水印也屬于不可見水印,嵌入水印后的數字文本,人眼無法感知;(5)安全性.如果密鑰未知,即使水印算法已知,作品中的水印不可能被檢測出,即便部分密鑰被篡改者得知也不可能在保持完好水印作品的前提下成功去除水印.
用于文本認證的脆弱水印,其主要認證模型如圖1和圖2所示,其中普通文本就是我們需要嵌入水印和需要保護的文本,并且文本僅限于文本文檔,即不包含視頻、圖像、聲音的數字文檔.文本特征則主要指文本的內部特征,或者其它外延特征.特征與密鑰的結合通常需要加密運算,所以,結合的通常方法為密鑰與文本特征的邏輯運算.

圖1 脆弱文本水印嵌入與檢測模型
基于二值圖像的文本脆弱水印通常有三個代表算法[8,9].Zhao和 Koch提出設“1”表示黑像素,“0”表示白像素,P(b)為8×8圖像塊 b中黑像素的比例,即 P(b)=N(b)/64,等式中N(b)是黑像素的個數.該算法可以調整它的魯棒性,可以抵抗通常的圖象處理引起的破壞.但是它嵌入容量小,視覺隱蔽性差.當圖像塊中黑像素所占百分比太高或是太低時,該塊就無法嵌入信息.Lu提出在變換域嵌入水印時,先將二值圖像經模糊預處理轉換為灰度圖像,然后對灰度圖像進行DCT變換,通過修改灰度圖像的DC系數來嵌入水印.該算法對局部噪聲具有一定的魯棒性,但提取水印時需原始圖像,應用受到限制.Min Wu提出水印的嵌入和提取是根據在每塊圖像塊中的黑像素個數的奇偶性來確定,若黑像素數為某個數的奇數倍,則認為嵌入了1,若為偶數倍,則認為嵌入了0.該算法基于人眼的視覺模型,置亂操作提高嵌入容量,算法視覺隱蔽性好,實現盲檢測,魯棒性差.
該算法源于信息隱藏技術.Bender[10,11]提出了對文本中特定的單詞進行同義詞替換的方法.將一組同義詞編為不同的隱藏代碼,在文本中根據水印信息將原有的詞匯進行的同義詞替換,使得這些同義詞對應的隱藏編碼與水印信息匹配,實現文本水印的嵌入.水印容量與文本中同義詞詞組出現的頻率一致.該方法也同樣適用于中文.這種方法魯棒性較好,不依賴于特定的文本格式.但是,這種該方法要求原始文本不可任意,而且在提取和檢測水印時需要同義詞替換表作為參考.
該算法的思想是基于人眼視覺誤差范圍內微調文本的格式來嵌入水印.Brassil和Maxemchuk等人提出三種方法∶行(字)間距編碼、特征編碼[12,13].孫星明等人又把這一算法應用到 WORD文本中[14-16],并擴展其它特征編碼.在此基礎上有人提出了基于正弦波的字間平均間距文本數字水印算法、基于云模型的文本數字水印算法、基于字符間距寬度序列編碼的文本數字水印算法.這類算法由于完全依賴于文本格式,抗攻擊性不強,魯棒性較差.但是,這類算法不修改水印文本的內容,復制后的文檔依然能檢測水印.
HTML網頁也是一種文本,但它有著與普通文本文件不同的特點,可以利用這些特點嵌入文本水印.WbStego、Steganos等軟件將水印信息加密后再嵌入[17-19],每個字節的“0”和“1”分別用0x20和0x09表示,然后將這樣的8個字節嵌入到HTML文件中每一行的行尾,而且嵌入文件的名稱、大小、屬性等.這種方法不會給用戶帶來任何視覺上的影響,但與此同時,惡意攻擊者可以直接用文本編輯器打開網頁查找與修改信息,水印的抗攻擊性能很弱.RTF格式是一類ASCII碼形式的文件,鄒昕光[20]等人提出RTF格式的文本中嵌入一些控制字段,使得在文本閱讀器中不顯示嵌入的控制字段,但RTF格式進行另存或拷貝時,嵌入的字段不被丟失.嵌入文本的水印,可以對文本進行數據完整性校驗.
用于文本認證的脆弱水印技術作為數字水印技術的核心技術之一,目前尚有許多問題有待進一步深入地研究,未來的文本認證水印技術在如下幾個方面需要深入地展開∶
(1)脆弱文本水印信息的理論問題.對水印信息與人的眼生理特性之間的精確數學關系還未能找出合適的方法.在水印嵌入與數據加密的合成技術中,數據安全與水印容量的關系的復雜度未進行規范,這也是一個有待研究的問題.只有水印信息加密復雜度達到一定程度,才能在提取后進行有說服力的版權辨別.
(2)脆弱文本數字水印標準化技術的研究問題.現在脆弱文本數字水印的研究缺乏一個統一的檢測標準,難以做一個客觀的比較.以致對于抗攻擊能力等性能不能做定量分析和比較,從而使理論與實際應用有相當程度的脫節.所以,尋找一套脆弱文本數字水印的定量評價標準將會有效地加速理論向實際應用的轉化.
(3)脆弱文本數字水印新思路的研究問題.現在水印信息主要在視覺敏感部位和冗余位置上加載,如果要突破的話,還是得發掘新的思路,促使脆弱文本數字水印技術走向更高層次的發展階段.
[1]Huang D,Yan H.Interword distance changes represented by sine waves for watermarking text images[J].IEEE Transactions on Circuits and Systems for Video Technology,2001,11(12):1237-1245.
[2]Wong P W,Memon N.Secret and public key image watermarking sekemes for image authentication and ownership veriflcation[J].IEEE Transaction on Image Processing,2001,10(10):1593 -1601.
[3]Kim Y W,Moon K A,Oh I S.A text watermarking algorithm based on word classification and inter- word[A].Proceedings of the Seventh International Conference on Document Analysis and Recognition(ICDR)[C].Edinburgh:IEEE,2003.
[4]Brassil J T,Low S,Maxemchuk N F,et al.Electronic marking and identification techniques to discourage document copying[J].IEEE Journal on Selected Areas in Communications,1995,13(8):1495-1504.
[5] Bender W.Techniques for data hiding[J].IBM System Journal,1996,35(3):3 -4.
[6]楊義先,鈕心忻.多媒體信息偽裝綜論[J].通信學報,2002,23(5):32-38.
[7]陳明奇,鈕心忻,楊義先.數字水印的研究進展和應用[J].通信學報,2001,22(5):71 -79.
[8]胡嵐,尤新剛.現有的超文本(HTML)信息隱藏技術分析[J].全國第三屆信息隱藏學術研討會,2001,(3):62-67.
[9]趙東寧,張勇,李德毅.基于云模型的文本數字水印技術[J].計算機應用,2003,12(6):100-102.
[10]黃華,齊春,李俊,等.一種新的文本數字水印標記策略和檢測方法[J].西安交通大學學報,2002,36(2):165 -168.
[11]Cox I J,Linnartz J.Some general methods for tampering with watermarking[J].IEEE Journal on Special Areas in Communications,1998,16(4):587 -593.
[12]陳帆,朱大勇,許毅.基于混沌和圖像內容的脆弱水印方案[J].計算機應用,2005,25(9):51 -54.
[13]楊蕊,普杰信.一種基于分塊DCT的盲灰度水印算法[J].計算機應用研究,2005,7(7):165 -167.
[14]胡晶晶,孫星明.基于單詞間字符統計特征的文本數字水印[J].計算機工程,2005,31(23):116 -118.
[15]唐承亮,向華政.基于文字RGB顏色變化的脆弱型文本數字水印技術[J].計算機工程與應用,2005,36(7):6 -8.
[16]劉豪,孫星明.基于字體顏色文本數字水印算法[J].計算機工程,2005,31(15):129 -131.
[17]Wong P W,Memon N.Secret and public key image watermarking schemes for image authentication and ownership verification[J].IEEE Transactions on Image Processing,2001,10(10):1593-1601.
[18]Fridrich J.Security of fragile authentication watermarks with localization[A].Proceedings of the SPIE,Security and Watermarking of Multimedia Contents IV[C].San Jose:SPIE,2002.
[19] Lee J,Won C S.A watermarking sequence using parities of error control coding for image authentication and correction[J].IEEE Transactions on Consumer Electronics,2000,46(2):313 -317.
[20]鄒昕光,孫圣和.基于RTF格式的文本脆弱水印算法[J].計算機工程,2007,33(4):131 -133.
(責任編校:晴川)
TP391
A
1008-4681(2011)05-0035-02
2011-07-02;
2011-07-22
湖南省教育廳科學研究項目(批準號∶09C123);長沙師范科研基金(批準號∶KYYB201007)資助項目.
陳翔(1980-),男,湖南 長沙 人,長沙師范學校教育技術中心實驗師,碩士.研究方向∶信息與網絡安全.