喬新軍 蘭州女子中專,甘肅省 730020
數字水印在文檔圖像中的應用研究
喬新軍 蘭州女子中專,甘肅省 730020
在分析二值圖像文檔水印技術研究動態的基礎上,通過對漢字特點的分析,發現橫、豎筆畫頻繁交匯出現-拐點。基于此,提出一種新的應用于漢字文本圖像的簡便水印方法:在漢字筆畫橫豎交叉的拐點處加入水印,并利用MatLab進行仿真實驗,討論和分析了這一算法較傳統的完全基于格式的文本數字水印的優點。
數字水印;文檔圖像;拐點;筆畫
隨著計算機、打印機和掃描儀等設備的應用和普及,書刊、雜志和報紙的網上發行和其他一些專用文檔的網上傳輸已成為現實并繼續高速發展。數字圖書館和檔案館以電子形式保存了大量受版權保護的文章、雜志、書籍以及其他資料如商業文件、電子檔案、法律證據、傳真文檔、證書等。所有這些數字資料很多以二值圖像形式出現。二值圖像以其占用空間小、符合人類閱讀習慣等特點在網絡出版業、企業、法庭案館等領域得到廣泛應用。與其他形式的多媒體信息一樣,其版權保護也是一個非常重要的問題。
本文結合漢字結構特點,針對二值文本圖像設計了一種新的漢字文本水印算法。在對數字水印技術包括起源、定義、分類及魯棒水印和脆弱水印在應用中用于版權保護和內容認證存在的基本問題,對文本圖像的概念、分類、框架以及評價準則進行研究的基礎上;提出了一種在二值漢字文本圖像中嵌入信息的水印算法,算法根據漢字結構特點,即使用頻率最多的橫、豎在漢字中廣泛匯交出現的拐點,嵌入水印信息,構成水印化文本圖像。
1.1 漢字的結構特點
每種文字在結構上都有其獨特之處,如阿拉伯文中有較多的“點”、英文有明顯的質心等,漢字同樣也有自己顯著的特征。
由于漢字是一種頗具特色的文字,其結構獨特、字體多樣。因此,中文文本比西文文本可插入標記的可辨認空間大,實施文本水印有更大的優勢。研究中文文本的數字水印,應在西文文本的基礎上,結合中文文本的特點進行研究。
我國漢字是象形字,是一種圖,是由“原始圖畫→不規則圖形線條→ 橫、豎、撇、捺、折五種規范的筆畫”演化而來。

圖1 漢字的重復性很大
我國1980年頒布了的《信息交換用漢字編碼字符集-基本集》中包括常用簡體中文漢字6763個(其中一級漢字3775個,二級漢字3008個),約占漢字累計使用頻度的99.99%,即在日常生活和工作中所使用或遇到的漢字出現在該字符集中,如圖1所示。
筆畫是漢字最小的結構單位,筆畫的書寫形狀叫做筆形。通行的分類方法是把漢字的筆形分為“橫、豎、撇、捺、折”五個大類,這種分類方法將“提”歸入“橫”,“豎鉤”歸入“豎(丨)”,“點”歸入“捺”等。中國文字改革委員會和武漢大學計算機科學系合作對《辭海》(1979年版)所收正體字(11834字)的筆形進行統計,如表1。

表1 漢字筆畫使用頻率統計
可知其中出現次數最多的是“橫”和“豎”兩畫,使用頻率最高的是“橫”(包括“提”),占30.30%;“豎”、“撇”和“折”的使用頻率大體接近:“豎”占19.30%的頻率、“撇”占15.74%的頻率、“折”占17.95%的頻率;頻率最低的筆畫是“捺”,它和“點”共占16.64%的頻率。
五筆編碼正是依據漢字的這些特點形成的,如圖2五筆字根表。
由圖2可知,“橫”、“豎”兩畫往往相互交匯形成十字交叉結構(特別是130個成字字根),如圖3。
據統計,這種十字交叉結構大量存在于漢字文檔中,見表2。
1.2 基于漢字筆畫的水印技術
基于漢字筆畫的水印技術主要是針對漢字文本變換成圖像格式而提出的一種水印化方法。漢字的基本筆畫包括橫、豎、撇、捺、折及標點符號等,這些是組成漢字的基本筆畫。在對漢字的修改中,考慮漢字中的橫、豎、撇、捺、折的基本特征,對最普遍的筆畫撇、捺、點等進行修改,修改選取在黑色像素區域的45°或135°方向,由于人眼對這些方向的視覺不太敏感,故選擇一些漢字文本像素上的特征變化來嵌入水印信息。
對于二值圖像而言,隱藏信息的一個關鍵問題如何找到合適的嵌入位置,同時不影響圖像的視覺效果。根據漢字在結構和筆畫特點,提出一種新的漢字文檔圖像數字水印算法:基于漢字拐點的水印算法,該算法以漢字橫、豎畫交叉點旁的四個相鄰拐點為水印嵌入位置,實現對漢字文檔圖像加入水印,并對其的魯棒性進行了測試和分析。

表2 隨機抽取的6幅二值漢字圖像中“十”字結構的數量
1.3 嵌入水印的預處理
本文使用的文檔圖像是二值圖像。獲取原始的文檔圖像是本文算法的第一步。通常采用光學的辦法(CCD攝像機,光學掃描儀等),得到的圖像是字符的像素描述。像素描述的重要參數是分辨率,分辨率包括空間(二維平面)分辨率和灰度分辨率,前者反映了像素描述在空間上的精細程度,而后者則反映了像素描述在灰度(色彩)空間的精細程度。由于空間分辨率的高低對字符質量影響較大,因此要認真選擇。一般掃描后得到的文本圖像不適合直接提取信息,之前需要進行一些預處理。預處理的主要包括去除椒鹽噪聲、傾斜校正、二值化等。
1.4 基于漢字拐點的水印算法
我們稱位于“十”結構交匯點四個拐角的內部點為拐點,如圖4所示。由圖2可知,其中以Ⅲ象限拐點居多。

圖4 不同位置的拐點
設橫畫和豎畫交叉點在Matlab像素坐標系下的坐標為(r,c),則以下4種十字交叉結構的拐點坐標分別(r-1,c+1)、(r-1,c-1)、(r+1.c+1)和(r+1,c-1)。

圖2 五筆字根表

圖3 橫和豎畫交匯成“十“字結構
這樣我們就利用漢字文檔圖像中的拐點對JPEG壓縮具有強魯棒性的特點,把一幅二值文檔圖像的所有Ⅲ象限拐點作為水印空間,根據二值圖像失真度標準DRDM改變部分拐點的像素值,達到嵌入水印信息的目的。
1.5 仿真結果分析
通常情況下,傳輸過程對文本的攻擊與圖像受到的攻擊不同,圖像可能遭受JPEG壓縮、平滑、濾波等攻擊,而文本攻擊則可能有輕微的文字移動,標點符號修改,不影響文本語義的痕跡污染等方面。對上述各種可能的情況進行模擬實驗,并通過提取水印和相關性度量。發現嵌入水印后,文本圖像的視覺質量略有下降,但難以察覺,只有當文件放大后, 如“于”字, 才能發現其中的微小差別,一般情況下,文件非法盜用者不可能發現整篇文本的水印所在處,說明水印算法具有可行性。
通過MatLab仿真實驗分析和驗證拐點對JPEG壓縮的魯棒性,仿真實驗的分析結果表明該水印算法對JPEG壓縮、高斯噪音攻擊和椒鹽噪音攻擊具有較好的魯棒性。但這種二值漢字文本水印方案也存在許多需要進一步改進的地方。首先這種水印方案主要針對印刷體的漢字文本圖像,其次對不同字體和不同字號的漢字需要分別使用不同的模板來確定特征點或筆畫的端點,第三還不能完全實現水印信息的盲檢測。
二值圖像占用空間少、符合人類閱讀習慣等特點決定了二值圖像無論是在過去、現在還是將來都將會在相關領域得到廣泛應用,因此,在二值圖像中嵌入水印信息是一個具有挑戰性的研究領域,針對二值文檔圖像的數字水印研究具有重要的應用價值和理論意義。
可以預見期刊的網絡發行將會是一個主要趨勢。期刊的網絡發行大大提高了生產和流通速度,降低了出版成本,發行的范圍更廣,覆蓋面更寬。隨著互聯網的發展,政府文件的分發將逐漸轉向網絡,還有政府上網工程中將有更多的文件出現在網上,一旦出現惡意篡改,而無法證明真偽,后果是無法設想的。對于電子商務中的一些經濟合同文本等也存在著這些問題。因此,研究數字文本的保護方法對互聯網時代的政府工作和電子商務具有重要作用。
[1]王麗娜,張煥國.信息隱藏技術與應用.湖北:武漢大學出版社,2003,25-32
[2]尹浩,林闖,邱鋒,等.數字水印技術綜述[J].計算機研究與發展,2005,42(7):1093-109
[3]張勇,等數字水印技術及發展.南京:南京解放軍理工大學學報,2003:4(3)
[4]Su J K, Hartung F, Girod B.Digital watermarking of text, image and video documents.Computer and Graphics, 1998;22:687?695
[5]劉瑞禎,譚鐵牛.數字圖像水印研究綜述.通信學報,2000,21(8):46-52
[6]孫圣和,陸哲明,牛夏牧.數字水印技術及應用[M].北京:科學出版社, 2004
[7] Brassil J T, Low S, Maxemchuk N F.Copyright proceeding for the electronic distribution of text document.Proceedings of IEEE, 1999;11(12):1181-1196
[8]李剛,楊杰.一種基于二值印刷圖像的數字水印方案.上海交通大學學報,2005 ,39(4):570-573
10.3969/j.issn.1001-8972.2011.23.044
喬新軍,1980年5月生,男,漢,甘肅榆中人,碩士,研究方向:數字水印。