打印文件鑒別打印機型的文字圖像模糊識別

2008-01-01 00:00:00王寧韓國強顧國生

計算機應用研究 2008年3期

摘要：探索了一種以打印件鑒別打印機型的文字圖像計算機模糊識別方法。該方法收集標準常用字號和字體，以及常用打印機打印的文字，掃描采集，用改進的直方圖波形分析法處理圖像，提取文字的筆畫總面積和筆畫輪廓總周長等特征指標；再選定一種機型為參照，對各種機型相同字上述指標測量值及其幾種組合的計算值，形成相對差值指標序列，建立信息數據庫。在此基礎上，建立對應指標的統計均值波動區間的值域表，并確定各指標的權重和建立權重系數矩陣。判斷未知機型時，先按照前述方法任測100個常用字，利用OCR漢字識別模塊和前述指標，自動辨識文字，進入模糊識別過程。根據相應檢測字在值域表區間出現的概率，建立模糊關系矩陣。通過兩個矩陣乘積的模糊變換產生判別矩陣。以最大隸屬性確定打印機類型。按照數學模型，設計并實現打印機智能鑒別程序。應用實例測試，結果顯示判別準確，符合設計預期。

關鍵詞：打印機；鑒別；文字圖像；模糊識別

中圖分類號：TP391．41文獻標志碼：A

文章編號：1001－3695(2008)03－0953－04

0引言

隨著現代辦公自動化的發展，打印機的使用已十分普及，與打印件有關的司法案件也越來越多。在案件偵查中，許多情況需要快速判斷打印機的類型。因此，一種快速判斷打印機類型的方法，尤其是計算機應用軟件顯得十分迫切。它將為這類案件的偵查工作提供重要線索，應用前景廣闊。而這類方法至今未見報道。甚至這方面的研究資料也很缺乏。

不過，由于各種打印機的工作原理和打印用字庫不盡相同，打印字跡應存在差異。同時，打印機工作時會受紙張、墨粉等條件影響產生不同程度擾動。因此，不同打印機打印的文字總有微小的差別。經試驗，通過測量和分析不同打印機的打印文字的差異來判斷打印機類型是可能的。但是，各種打印文件字跡之間，可觀察和測量的差別細微，加上打印機的種類繁多，字體和字號有多種，需要收集和處理的數據十分龐雜，工作量很大。而目前從事這方面工作的人力有限，一時難以解決。這也是至今這方面研究資料少的重要原因之一。

本文希望探索利用打印件字跡鑒別打印機型的方法。為了在盡可能減少工作量的條件下充分利用有效信息，尋求上述的可行性方法，采用常用的字體和字號判斷常用的打印機型，以便為擴大研究范圍作準備。方法如下：

收集標準漢字常用字號和字體，選擇中文簡體字常用3 500字和最常用1 000字，分別以各常用打印機打印，掃描采集并抽取字筆畫總面積和筆畫輪廓總周長等特征值，建立單字信息數據庫。在以上述指標測量值及其幾種組合的計算值，選擇某一機型為參考，其他機型與參考機型相對差值形成指標序列。在此基礎上，統計建立各指標的均值對應波動區間的值域表，并統計各單項指標正確判斷文字信息的概率，以確定各指標的權重，借此建立權重系數矩陣。在檢測未知機型時，先利用OCR漢字識別系統任測100個常用字，自動辨識文字，進入模糊識別程序[1]。按照前述方法，根據被檢字在值域表相應區間出現的概率建立模糊關系矩陣。通過兩個矩陣乘積的模糊變換產生判別矩陣，以最大隸屬性確定打印機類型[2]。按照整個模糊綜合判別的數學模型，設計并實現打印機智能鑒別程序。最后進行實例應用測試，確定判斷概率[3]。

1圖像處理和數值計算方法

1．1文字圖像采集及處理基本方法

1．1．1文字圖像采集

采用光學分辨率在1 200 dpi以上高檔或專業掃描儀采集圖像。掃描分辨率等參數配置應一致。通過對不同字體字號文字的實驗，確定1 000 ppi分辨率，反射模式和默認參數值是較理想的條件。

1．1．2OCR文字自動識別技術

應用OCR技術將圖像自動識別成文字，以提高文字建庫和判別的自動化、智能化程度。該模塊借鑒清華、漢王等OCR識別方法。

1．1．3文字圖像預處理

應用改進的直方圖波形分析法對文字圖像二值化[4]，應選擇的特征指標有文字筆畫周長、面積。與標準漢字筆畫總面積和筆畫輪廓總周長成對比較無顯著差異法確認字體字號。

1．2建立標準漢字單字信息數據庫

1．2．1建立常用標準漢字字域面積單字信息數據庫

以某一打印機為標準參照，打印常用3 500字和最常用1 000標準漢字，宋體、仿宋體、楷體、黑體、隸書和華文新魏，一至六號字打印件，測量計算最大長寬域和面積。采用OCR文字識別模塊，以便用于確定檢測字的字號及字體。同時建立單字信息分類數據庫。

1．2．2建立常用標準漢字筆畫總面積和筆畫輪廓總周長單字信息數據庫

1）文字圖像特征提取與測量[5，6]

文字圖像的處理與識別，最真實的信息應該是文字圖像的像素。所以，采用測量文字筆畫及其邊界像素作為指標設置基礎。測量筆畫及其邊界像素，圖像的提取是關鍵。圖像特征的提取采用較為成熟的固定坐標、確認四周最遠界點、逐行掃描、筆畫邊界標記、界內外分別計算像素的方法[1]，以保證結果的可靠性。

2）建立上述標準漢字筆畫總面積單字信息分類數據庫

3）建立上述標準漢字筆畫輪廓總周長單字信息分類數據庫

1．3建立各種打印機打印漢字單字信息專用數據庫

1．3．1建立常用漢字筆畫總面積和筆畫輪廓總周長的單字信息數據庫

1）掃描各種打印機打印各字體字號漢字

以常用3 500字和最常用1 000字的標準漢字為對象，字體分別為常用的宋體、仿宋體、楷體、黑體、隸書和華文新魏，字號為一至六號。采用OCR文字識別模塊，用于檢測字的識別。同時建立單字信息分類數據庫。

2）測量計算各字筆畫總面積和筆畫輪廓總周長

仍然采用測量筆畫及其邊界像素作為指標設置基礎。測量筆畫及其邊界像素，圖像的提取是關鍵。圖像特征的提取，采用較為成熟的固定坐標、確認四周最遠界點、逐行掃描、筆畫邊界標記、界內外分別計算像素的方法。

3）分別建立各字筆畫總面積單字信息數據庫

4）分別建立各字筆畫輪廓總周長單字信息數據庫

1．3．2建立筆畫總面積和筆畫輪廓總周長及其相關各種指標單字信息數據庫

1）指標設置及計算方法

考慮到不同的打印機工作原理不盡相同，安裝的字庫也有所差異，不同打印機在打印過程中，產生不同的綜合擾動，同樣字體字號的字，形態會出現微小的變化，字筆畫的總面積會有差異，字筆畫輪廓的總周長也會有相應的差異。這兩種差異可以分別作為文字的測量指標。

c1：字筆畫總面積

c2：字筆畫輪廓的總周長

周長與面積之比及其它們的差值之比也分別可以作為基本指標的另兩個有效的計算指標。

c3：周長/面積，即c3=c2/c1

c4：1-周長/面積，即c4=1-c2/c1

因此，每一個字的測量計算指標，可以設置為四個基本指標ci(i=1，2，3，4 ) 。

2）分別建立筆畫總面積和筆畫輪廓總周長的相關各種指標數據庫

1．3．3建立指標的相對差均值百分比序列

上述四個基本指標在數據庫的信息可以用于同一個字相同字體字號的不同打印機之間的比較，以分辨打印機的類型，卻不能用于不同字不同字體字號之間的比較。因為，不同字的筆畫及形態結構不同，缺乏可比性。只有把現有指標改造成與筆畫形態和多少無關的指標，不同筆畫之間才可以比較。于是，選擇其中一個打印機型號為參照，將上述指標ci改造成不同打印機上述指標與參照打印機指標之間的相對差值，便可以達到這一目的。但是，這樣計算出的數字往往很小，不便于記錄，更不便用于其他更多的計算。所以，采用它的百分比形式更方便。

按照這些設想，先將每一個字的所有打印機型號的上述基本指標設為cij，選擇其中一個打印機型號為參照機型，它的各指標記為c0j ，其余打印機與參照打印機的相對差均值百分比則為

ēij=(1-cij/c0j)×100% （ i=1，2，3，4;j=1，2，3，…，n）(1)

按同樣的方法，計算其一至六號的宋體、仿宋體、楷體、黑體、隸書和華文新魏各1 000常用字的均數ēij、標準差s及其區間(ēij±s) 。重新排列ēij成n項正均值的升序列：

ēi1， ēi2， …， ēij（ i =1，2，3，4;j =1，2，3，…，n）

1．3．4設計機型—相對指標區間表

按重新排列成n項正均值的升序列ēij設計n種型號打印機的四個指標的區間(ēij±s)的值域表，即機型—相對指標值域表(表1)。

1．3．5相對指標權重

1）權重系數

對字庫的1 000個字體字號不同型號打印機打印的常用漢字，分別計算單獨用指標e1、e2、e3、e4，能準確測出所有打印機型號概率1 000字的平均值，經歸一化后用Ai（i=1，2，3，4）表示。因為Ai顯示了各指標的重要程度，所以也可稱為權重系數。此權重系數表如表2所示。

1．4鑒別打印機型的模糊關系矩陣

1．4．1計算檢測打印文字在各打印機型區間出現的概率

在已確定字體字號的被檢打印文件中任意選100個常用漢字，測量并計算其四項相對指標ei值，在已知打印機相對指標各區間出現的概率為Rij （ i =1，2，3，4;j=1，2，3，…，n）。

1．4．2建立被檢打印機相對指標區間概率表

只選擇不全為0并且ej的四項之和的值最大的前四種機型，可命名為機h1，機h2，機h3，機h4，制成概率表(表3)。

1．4．3建立被檢打印機相對指標模糊關系矩陣

根據表3中被檢打印機相對指標在相應四個區間集中出現的概率Rij ，建立用于模糊綜合評判的4×4模糊關系矩陣

R=R11R12R13R14

R21R22R23R24

R31R32R33R34

R41R42R43R44(3)

1．5模糊綜合評判的計算[7~9]

1）隸屬函數

設指標的集合E=｛ei｝(i=1，2，3，4)， a為E上的模糊集合，其隸屬函數為Sa (ei) 是測量打

印機型號相對指標的隸屬函數。在實際應用上，由各相對單獨指標正確判別相應打印機型號的概率函數。構成相應指標的權重系數，可用權重系數矩陣A(式(3))的形式表示。

2）隸屬矩陣

設打印機型號的集合H=｛hj｝(j=1，2，3，4 )，b為H上的模糊集合，其隸屬函數Sb (hj)是被判別打印機型號的隸屬函數。為被判別打印件字跡測量的相對指標，在已知打印機型號相對各指標區間出現概率的函數，可以組成隸屬矩陣:

B=(B1B2B3B4)(4)

3）模糊變換

模糊綜合評判的計算方法是將E上的模糊集合的隸屬函數Sa (ei)，通過模糊關系R進行一次模糊變換，變換為H上的模糊集合的隸屬函數Sb (hj)，可由下式計算：

2打印機智能鑒別軟件設計

2．1打印機智能鑒別軟件設計思路

打印機鑒別過程程序化是盡量把繁瑣費時的操作過程變成計算機的計算過程，從而達到快速和自動化操作的目的。打印文字掃描及圖像處理因機型、字體、字號種類繁多，操作復雜，可采用組件形式，重用一些功能模塊，將各個過程集成，既能實現所需的功能和目的，又增強了軟件及各個模塊的可重用性、可移植性和易維護性。一些需要用到概念識別和判斷的過程采用模糊數學計算和綜合判別，是一種合理而有效的方法。

整個軟件基于.NET平臺，以C++為主開發語言，后臺數據庫采用MS SQL進行組件式開發，以提高功能模塊性能，增強各功能模塊間的集成穩定性和安全性。

2．2智能鑒別的數學模型選擇

本文采用最大隸屬性原則進行文字打印機信息的模糊綜合判別。首先用模糊統計方法確定隸屬函數和相對指標的權重；再分別建立各指標隸屬函數矩陣及相對指標權重系數矩陣，兩矩陣模糊變換；最后根據最大隸屬性原則對被測文字對象進行模糊綜合判別，從而獲取文字及打印機信息[10]。

2．3打印機智能鑒別軟件結構框圖[11]

按照上述設計思路和數學模型，并結合軟件工程和人工智能推理機制，設計出打印機智能鑒別軟件結構框圖(圖1)。

3應用實例測試

軟件基本模塊設計與實現完成后，將以惠普、佳能、愛普生、聯想、方正等十幾種常用打印機（激光打印機為主，噴墨打印機為輔）的文字打印樣本在圖像數字化、預處理、特征提取，模糊綜合判別等功能方面進行測試。驗證軟件體系結構及各功能模塊的性能，檢驗圖像特征提取算法和模糊綜合判別算法的效果并加以改進。

結果，判別被檢測打印機機型為機h3。判別準確，符合設計預期。

4結束語

1)本文探索了一種以常用字打印件鑒別打印機型的文字圖像計算機模糊識別的方法。其理論明確、過程簡要、操作方便、快速準確，是一種有效可行的方法。雖然，本研究由于工作量的原因范圍局限于打印機，但該方法可擴展到傳真機、復印機等領域，應用前景廣闊。

2)建立模糊綜合判別數學模型，設計并實現打印機智能鑒別軟件是解決打印機準確鑒定的關鍵。其中權重矩陣和模糊關系矩陣都來自實測統計值，可靠性較高，這為判斷的準確性奠定了基礎。應用實例測試，結果顯示判斷準確，既驗證了所建

立數學模型的有效性，又檢驗了打印機智能鑒別技術的可行性。

3)在打印機智能鑒別中，最關鍵的兩個指標——漢字筆畫的總面積和筆畫輪廓的總周長對不同打印件的微小差別十分敏感。為了使微小差別不在計算過程中被掩蓋，又利用這兩個指標衍生出兩個相對指標，使其中微小差別更明晰。兩個指標的測量中應用改進的直方圖波形分析法，將文字圖像二值化，使測量和判別大大簡化，突出關鍵。圖像特征的提取采用較為成熟的固定坐標、確認四周最遠界點、逐行掃描、筆畫邊界標記、界內外分別計算像素的方法，以保證結果的可靠性。

4)檢測文件掃描的漢字識別過程應用了OCR識別方法，實現漢字自動識別，使識別快速進入下一程序，既加速了文字圖像自動識別的進程，又簡化了局部程序設計。

參考文獻：

[1]楊淑瑩.圖像模式識別VC++技術實現[M].北京：清華大學出社版，2005：214－240.

[2]THEODORIDIS S.模式識別[M].李晶皎，等譯.2版.北京：電子工業出版社，2004：324－338.

[3]DUDA R O.模式分類[M].李宏東，等譯. 2版.北京：機械工業出版社，2005：425－426.

[4]陸宗騏，金登男.Visual C++.NET圖像處理編程[M].北京：清華大學出版社，2006：215－221.

[5]陳書海，傅錄祥.實用數字圖像處理[M].北京：科學出版社，2005：234－254.

[6]BENI C， LIU X M. A least biased fuzzy clustering method[J].IEEE Trans on Pattern Analysis and Machine Intelligence， 1992，16(9):954－960.

[7]SETNES M， BABUSKA R. Fuzzy relation classifier trained by fuzzy cluster[J]. IEEE Trans on Systems， Man and CyberneticsPart B:Cybernetics，1999，29(5):619－625.

[8]KAYMAK U， SETNES M. Fuzzy clustering with volume prototypes and adaptive cluster merging[J]. IEEE Trans on Fuzzy Systems，2002，10(6):705－712.

[9]GYSTAFSON D E， KESSEL W C. Fuzzy clustering with a fuzzy covariance matrix[C]//Proc of IEEE Conference on Decision and Control. San Diego， California:[s.n.]， 1979:761－766.

[10]宮改云，高新波，伍忠東.基于劃分模糊度的聚類有效性函數[J].模式識別與人工智能，2004，17(4)：412－416.

[11]盧春閣，張講社.一類基于模糊聚類和模糊推理的穩健分類器[J]. 模式識別與人工智能，2004，17(1)：60－65.

“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”

計算機應用研究2008年3期

計算機應用研究的其它文章: 綜合ＭＰＥＧ－７中紋理和顏色特征的圖像檢索方法; 視頻中遮擋情況下目標的跟蹤; 輪廓波消噪中消噪效果與噪聲強度的關系; 一種新的圖像圓環點坐標求解方法; 旋轉、縮放、位移不變的小波域圖像水印算法; 基于最大特征點對互信息的圖像配準