王海彬+傅濤

摘要:本文旨在針對(duì)抗打印掃描紙質(zhì)文檔信息隱藏和檢測開展研究,重點(diǎn)討論了文本信息保真技術(shù),二次圖像校正技術(shù)和基于字符歐拉數(shù)和格式調(diào)整相結(jié)合的文本信息隱藏技術(shù),為實(shí)現(xiàn)對(duì)紙介質(zhì)文件泄密溯源提供了基礎(chǔ)。
關(guān)鍵詞:紙介質(zhì)文件;溯源;信息隱藏;盲檢測
中圖分類號(hào):TP393.08 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.3969/j.issn.1003-6970.2016.03.014
0引言
隨著數(shù)字化技術(shù)的迅猛發(fā)展,目前許多行業(yè)和個(gè)人普遍都使用電子文檔處理資料和保存信息,并且常常通過打印、復(fù)印等途徑將電子文檔中的內(nèi)容顯現(xiàn)在紙張上,以供閱讀和傳播。但是,對(duì)于涉及密性信息(如合同、財(cái)務(wù)等重要文檔)的企事業(yè)單位,很多重要信息或者機(jī)密信息很可能通過這些紙質(zhì)文檔而泄漏出去。因此,需要采取一些安全保密措施來防止通過打印、復(fù)印等操作而生成的紙質(zhì)文檔所造成的文檔信息泄密。然而,隨著各單位的業(yè)務(wù)量逐漸增加,單位規(guī)模的不斷擴(kuò)大以及人員數(shù)目的日益增加,各種管理的成本和難度都隨著增大,管理員很難及時(shí)掌握單位內(nèi)部的文檔打印情況,這在一定程度上給安全保密措施帶來了挑戰(zhàn),增加了重要文檔信息泄密的可能。并且,對(duì)于打印后的紙質(zhì)文檔及其復(fù)印件,往往由于缺乏文檔溯源追蹤信息,而導(dǎo)致無法確定文檔打印的源頭和對(duì)打印內(nèi)容進(jìn)行審計(jì),造成紙質(zhì)文檔的隨意打印、有意或無意的非法傳播,進(jìn)一步加大了文檔打印管控的難度。因此,研究電子文檔的打印過程管理和控制、文檔溯源追蹤和內(nèi)容審計(jì)是一個(gè)重要的且具有挑戰(zhàn)的課題。
本文旨在針對(duì)抗打印掃描紙質(zhì)文檔信息隱藏和檢測技術(shù)開展研究,實(shí)現(xiàn)電子文檔在打印時(shí)能夠嵌入不可見密級(jí)標(biāo)志、收發(fā)文單位等編碼信息的信息隱藏技術(shù)以及紙質(zhì)文件隱藏信息提取系統(tǒng),實(shí)現(xiàn)對(duì)紙介質(zhì)文件泄密溯源。
1當(dāng)前研究現(xiàn)狀
近年來,除了針對(duì)圖片、音視頻的數(shù)字水印技術(shù)得到很快的發(fā)展之外,國內(nèi)外對(duì)于電子文檔在打印時(shí)嵌入隱藏信息的水印技術(shù)研究、紙質(zhì)文檔隱藏信息抗掃描打印等攻擊的魯棒性研究以及相應(yīng)的提取方法研究已經(jīng)取得了一些成果。目前常見的紙質(zhì)文本信息隱藏方法分為以下兩種:
1.1基于文本格式的信息隱藏方法
基于文本格式的信息隱藏方法是早期數(shù)字水印的研究方法,嵌入的水印信息都在空間域中,典型的算法有行間距編碼、字間距編碼和特征編碼。這類算法的基本思想就是在不改變文本內(nèi)容的前提下,對(duì)文檔格式做輕微的調(diào)整,以此來嵌入水印信息,如在行間距編碼中,上移某行,隱藏“1”;下移某行,隱藏“0”。這類算法的最大弱點(diǎn)就是隱藏的信息與載體內(nèi)容無關(guān),只與載體的格式相關(guān),嵌入的水印信息很難抵抗如格式調(diào)整,刪除文本段落等攻擊。近些年來興起的水印嵌入方法,嵌入的水印信息也大都在空間域,也有一些水印是嵌入在變換域中的。典型的算法有根據(jù)文本內(nèi)容做同義詞替換、根據(jù)自然語言特征對(duì)特定的句式做變換,以此來嵌入水印信息。這類算法的優(yōu)點(diǎn)是隱藏信息與文本內(nèi)容緊密關(guān)聯(lián),水印的安全性較好。如Bmssil等人提出了基于文本格式微調(diào)的方法進(jìn)行水印的嵌入。該算法利用文本文件的特點(diǎn),通過調(diào)整文本格式,如字符間距、文本行間距進(jìn)行水印的嵌入,視覺效果良好,且有一定的魯棒性。基于文本文檔的數(shù)字水印實(shí)現(xiàn)簡單,但缺點(diǎn)是由于不同格式的文本的格式不統(tǒng)一,因此對(duì)不同格式的文檔需要采用不同的嵌入方式。另外,由于文檔是以原格式存在,且為可編輯的,因此水印容易受到攻擊。該算法雖視覺效果良好,但無法抵抗文本格式變化的攻擊,且基于行移的文本水印算法信息量少,無法滿足對(duì)泄密者身份的追蹤。
1.2基于文本圖像的信息隱藏方法
該方法是通過在文本圖像中添加數(shù)字水印來實(shí)現(xiàn)的。在文檔打印時(shí),需要首先將待打印文檔轉(zhuǎn)化為文本圖像格式,然后在文本圖像中完成數(shù)字水印的嵌入。在該算法中,所有文檔在數(shù)字水印嵌入之前需要具有相同的格式,即數(shù)字水印嵌入在相同格式的文檔存在,因此,在數(shù)字水印嵌入前有時(shí)必須做文檔格式轉(zhuǎn)換,增加了復(fù)雜度。基于文本圖像數(shù)字水印的算法按照變換域可以分為以下兩種:
1)空間域方法:該類算法包括LSB水印算法、Patchwork算法和文檔格式微調(diào)法。格式微調(diào)法主要是通過調(diào)整文本字符的某些幾何特征,如字符的筆畫、質(zhì)心等實(shí)現(xiàn)水印的嵌入。代表性的研究成果包括:卞文法等人通過將打印掃描過程對(duì)文本圖像的影響等同于一個(gè)卷積過程,經(jīng)計(jì)算得到文本圖像在打印掃描俞后的不變量,通過對(duì)該不變量進(jìn)行調(diào)整完成數(shù)字水印的嵌入,該算法水印容量較大,視覺效果良好;李剛等針對(duì)二值文檔印刷圖像提出了基于文字區(qū)域嵌入水印的方法,將文字分割成若干個(gè)區(qū)域,并以區(qū)域中的0/1比率作為特征量來決定水印的數(shù)值。將信息直接疊加到圖像的空間域上的算法叫空間域數(shù)字水印算法。LSB水印算法是將信息嵌入到隨機(jī)選擇的圖像點(diǎn)中最不重要的像素位(LSB:Least Significant Bits)上,這可保證嵌入的水印是不可見的。但是由于使用了圖像不重要的像素位,算法的魯棒性差,水印信息很容易被濾波、圖像量化、幾何變形的操作破壞。另外一個(gè)常用方法是Patchwork算法,它的基本原理是在不影響圖像主觀質(zhì)量的前提下,通過改變圖像的統(tǒng)計(jì)特性來實(shí)現(xiàn)水印的嵌入。首先將圖像分成兩個(gè)子集,其中一個(gè)子集的亮度增加,另一個(gè)子集的亮度減少同樣的量,這個(gè)量以不可感知性為標(biāo)準(zhǔn),整個(gè)圖像的平均灰度值保持不變,在這個(gè)調(diào)整的過程中完成水印的嵌入。適當(dāng)?shù)卣{(diào)整參數(shù),Patchwork方法對(duì)JPEG壓縮、濾波以及圖像裁剪有一定的抵抗力,但該方法嵌入的信息量有限。
2)頻率域方法:基于DCT、DWT變換文本水印算法。該類算法主要是通過對(duì)文本圖像進(jìn)行變換后對(duì)變換域中各分量的系數(shù)進(jìn)行調(diào)整完成水印的嵌入。該類算法具有視覺效果好,魯棒性強(qiáng)的優(yōu)點(diǎn)。研究成果如:宋玉杰等針對(duì)彩色圖像采用CIELab色彩空間,通過在圖像的DCT系數(shù)上線性運(yùn)算實(shí)現(xiàn)水印嵌入,并指出通過多次重復(fù)實(shí)驗(yàn)該算法嵌入的水印可以用來判斷是經(jīng)過一輪印刷掃描(正版)還是兩輪印刷掃描(盜版);張靜等研究了傅立葉變換的旋轉(zhuǎn)、縮放、剪切等特點(diǎn),較早開展了脆弱水印的研究,并在傅立葉變換系數(shù)的log-polar map或log-log map中嵌入水印來抵抗打印掃描攻擊。T.Mizumoto等提出了一種基于小波變換的私有水印和公開水印算法。將圖像和待嵌入的水印信息分別做小波分解,根據(jù)視覺特性進(jìn)行數(shù)據(jù)融合,此方法在提取水印時(shí)需要原始圖像。
2研究內(nèi)容
本文將研究基于文本圖像和文本格式相結(jié)合的紙質(zhì)文檔信息隱藏和提取算法,主要包括以下方面:
2.1文本信息保真技術(shù)
文本圖像在打印掃描過程中受打印機(jī)和掃描儀的分辨率影響,包含多次不均勻的采樣和量化操作,可能存在的信息丟失。如何保證文本圖像的信息量,尤其是水印信息,是本文需要解決的技術(shù)難點(diǎn)之一。
針對(duì)不同格式電子文檔和不同分辨率打印機(jī)和掃描儀,本項(xiàng)目擬采用基于文本圖像和文本格式相結(jié)合的紙質(zhì)文檔信息隱藏方法。該方法在文檔打印前首先將電子文檔轉(zhuǎn)換成文本圖像或統(tǒng)一格式的文檔,如jpg圖像,pdf文檔等,然后進(jìn)行信息隱藏,從而解決不同格式電子文檔的兼容性問題。
2.2二次圖像校正技術(shù)
打印掃描過程中,即文本圖像由數(shù)字文本圖像經(jīng)過模擬文本圖像再次轉(zhuǎn)變?yōu)閿?shù)字文本圖像的過程中可能會(huì)受到的幾何攻擊或者污損折疊等人為攻擊。因此如何對(duì)再次掃描成數(shù)字信號(hào)的文本圖像進(jìn)行各種預(yù)處理和校正,是實(shí)現(xiàn)紙介質(zhì)文件準(zhǔn)確溯源的重要基礎(chǔ)。
2.3基于字符歐拉數(shù)和格式調(diào)整相結(jié)合的文本
信息隱藏技術(shù)
針對(duì)傳統(tǒng)基于文本格式的信息隱藏信息量少且魯棒性弱問題,本文擬采用基于字符歐拉數(shù)和格式調(diào)整相結(jié)合的文本信息隱藏算法,該算法基于文本圖像的字符分割,但不同于傳統(tǒng)空間域文本水印算法依賴于文本的格式,該算法通過調(diào)整單個(gè)字符的特征量,即歐拉數(shù)進(jìn)行水印的嵌入,并結(jié)合字移、行移等文本格式信息隱藏算法,可有效抵抗格式變換的攻擊,具有更強(qiáng)的魯棒性和隱藏信息容量,可有效抵抗文本的打印掃描攻擊。
3技術(shù)路線
本文擬采取基于文本圖像和文本格式相結(jié)合的紙質(zhì)文檔信息隱藏和提取方法。具體技術(shù)路線如下:
3.1格式轉(zhuǎn)換
為了提高信息隱藏算法對(duì)不同格式電子文檔的兼容性,本項(xiàng)目首先考慮將文本文檔轉(zhuǎn)換成文本圖像,具體技術(shù)路線為:通過特定的打印攔截技術(shù)攔截操作系統(tǒng)的打印任務(wù),將系統(tǒng)打印的文檔轉(zhuǎn)換成文本圖像,并保存到系統(tǒng)的指定目錄下,然后調(diào)用水印算法模塊進(jìn)行水印的嵌入。
該部分生效后,可在系統(tǒng)的打印機(jī)列表中構(gòu)造一個(gè)新的打印機(jī)。從操作系統(tǒng)來看,該打印機(jī)為一臺(tái)真實(shí)打印機(jī)。事實(shí)上,該打印的實(shí)際功能是完成文件到圖片的轉(zhuǎn)換,當(dāng)啟用正常的打印任務(wù)時(shí),虛擬打印機(jī)會(huì)根據(jù)用戶設(shè)置的打印參數(shù)把要打印的文件打印成文檔圖像,輸出到指定的目錄。
3.2隱藏信息嵌入
為保證隱藏信息的魯棒性和容量,本文擬采用基于字符歐拉數(shù)和文本格式調(diào)整相結(jié)合的信息隱藏方法。陳海生等人提出的歐拉數(shù)信息隱藏是把圖像區(qū)域中孔數(shù)作為描述子,且這種描述子不受伸長、旋轉(zhuǎn)變換的影響,較其他圖像的特征或描述具有一定的穩(wěn)定性。基于字符歐拉數(shù)的文本水印算法是通過字符歐拉數(shù)的奇偶量化來完成水印嵌入的,通過翻轉(zhuǎn)字符某個(gè)連通區(qū)域的部分像素點(diǎn)來調(diào)整字符歐拉數(shù)的奇偶。具體技術(shù)路線為:
1)對(duì)二值文本圖像進(jìn)行圖像的預(yù)處理,處理后仍得到二值文本圖像。
2)對(duì)處理后的二值文本圖像進(jìn)行字符的拆分。拆分包括先對(duì)行進(jìn)行切分,后對(duì)每行進(jìn)行字符拆分,最后獲得每個(gè)字符的坐標(biāo)。
3)計(jì)算字符的歐拉數(shù)根據(jù)水印信息進(jìn)行水印的嵌入。該水印嵌入算法是通過對(duì)字符歐拉數(shù)的奇偶量化實(shí)現(xiàn)的。其量化規(guī)則如下:
其中,E代表字符x的歐拉數(shù);i代表嵌入到字符x中的水印信息,其取值為0或1。歐拉數(shù)的定義是物體個(gè)數(shù)和孔數(shù)之差。在一幅圖像中孔數(shù)為H,物體連接部分?jǐn)?shù)位a則歐拉數(shù)定義為:E=C-H。歐拉數(shù)是基于圖像幾何特征的區(qū)域描繪子,且歐拉數(shù)不受伸長或旋轉(zhuǎn)變換的影響,因此可認(rèn)為字符的歐拉數(shù)不受打印掃描的影響,魯棒性較高。
4)在不改變文本內(nèi)容的前提下,根據(jù)分割后字符的間距和行距,對(duì)文檔格式做輕微的調(diào)整,以此來嵌入水印信息,如在行間距編碼中,上移某行,隱藏“1”;下移某行,隱藏“0”。以提高隱藏信息的容量。
3.3隱藏信息的提取
對(duì)掃描得到的文檔圖像進(jìn)行二值化,在二值圖像上進(jìn)行去噪、傾斜校正,然后進(jìn)行行分割并在圖像行中分割出單個(gè)字符,并通過字符距和行間距的變化來判斷隱藏信息的存在。在此基礎(chǔ)上,根據(jù)隱藏信息嵌入規(guī)則,逐個(gè)提取出隱藏的每一位二進(jìn)制信息并組合成最終的提取信息。
4小結(jié)
本文旨在針對(duì)抗打印掃描紙質(zhì)文檔信息隱藏和檢測開展研究,首先分析了近年來國內(nèi)外對(duì)于電子文檔在打印時(shí)嵌入隱藏信息的水印技術(shù)研究、紙質(zhì)文檔隱藏信息抗掃描打印等攻擊的魯棒性研究以及相應(yīng)的提取方法研究已經(jīng)取得了一些成果。在此基礎(chǔ)上,重點(diǎn)討論了文本信息保真技術(shù),二次圖像校正技術(shù),提出了基于字符歐拉數(shù)和格式調(diào)整相結(jié)合的文本信息隱藏技術(shù),為實(shí)現(xiàn)對(duì)紙介質(zhì)文件泄密溯源提供了基礎(chǔ)。