摘要:探索了一種以打印件鑒別打印機型的文字圖像計算機模糊識別方法。該方法收集標(biāo)準(zhǔn)常用字號和字體,以及常用打印機打印的文字,掃描采集,用改進的直方圖波形分析法處理圖像,提取文字的筆畫總面積和筆畫輪廓總周長等特征指標(biāo);再選定一種機型為參照,對各種機型相同字上述指標(biāo)測量值及其幾種組合的計算值,形成相對差值指標(biāo)序列,建立信息數(shù)據(jù)庫。在此基礎(chǔ)上,建立對應(yīng)指標(biāo)的統(tǒng)計均值波動區(qū)間的值域表,并確定各指標(biāo)的權(quán)重和建立權(quán)重系數(shù)矩陣。判斷未知機型時,先按照前述方法任測100個常用字,利用OCR漢字識別模塊和前述指標(biāo),自動辨識文字,進入模糊識別過程。根據(jù)相應(yīng)檢測字在值域表區(qū)間出現(xiàn)的概率,建立模糊關(guān)系矩陣。通過兩個矩陣乘積的模糊變換產(chǎn)生判別矩陣。以最大隸屬性確定打印機類型。按照數(shù)學(xué)模型,設(shè)計并實現(xiàn)打印機智能鑒別程序。應(yīng)用實例測試,結(jié)果顯示判別準(zhǔn)確,符合設(shè)計預(yù)期。
關(guān)鍵詞:打印機; 鑒別; 文字圖像; 模糊識別
中圖分類號:TP391.41文獻標(biāo)志碼:A
文章編號:1001-3695(2008)03-0953-04
0引言
隨著現(xiàn)代辦公自動化的發(fā)展,打印機的使用已十分普及,與打印件有關(guān)的司法案件也越來越多。在案件偵查中,許多情況需要快速判斷打印機的類型。因此,一種快速判斷打印機類型的方法,尤其是計算機應(yīng)用軟件顯得十分迫切。它將為這類案件的偵查工作提供重要線索,應(yīng)用前景廣闊。而這類方法至今未見報道。甚至這方面的研究資料也很缺乏。
不過,由于各種打印機的工作原理和打印用字庫不盡相同,打印字跡應(yīng)存在差異。同時,打印機工作時會受紙張、墨粉等條件影響產(chǎn)生不同程度擾動。因此,不同打印機打印的文字總有微小的差別。經(jīng)試驗,通過測量和分析不同打印機的打印文字的差異來判斷打印機類型是可能的。但是,各種打印文件字跡之間,可觀察和測量的差別細(xì)微,加上打印機的種類繁多,字體和字號有多種,需要收集和處理的數(shù)據(jù)十分龐雜,工作量很大。而目前從事這方面工作的人力有限,一時難以解決。這也是至今這方面研究資料少的重要原因之一。
本文希望探索利用打印件字跡鑒別打印機型的方法。為了在盡可能減少工作量的條件下充分利用有效信息,尋求上述的可行性方法,采用常用的字體和字號判斷常用的打印機型,以便為擴大研究范圍作準(zhǔn)備。方法如下:
收集標(biāo)準(zhǔn)漢字常用字號和字體,選擇中文簡體字常用3 500字和最常用1 000字,分別以各常用打印機打印,掃描采集并抽取字筆畫總面積和筆畫輪廓總周長等特征值,建立單字信息數(shù)據(jù)庫。在以上述指標(biāo)測量值及其幾種組合的計算值,選擇某一機型為參考,其他機型與參考機型相對差值形成指標(biāo)序列。在此基礎(chǔ)上,統(tǒng)計建立各指標(biāo)的均值對應(yīng)波動區(qū)間的值域表,并統(tǒng)計各單項指標(biāo)正確判斷文字信息的概率,以確定各指標(biāo)的權(quán)重,借此建立權(quán)重系數(shù)矩陣。在檢測未知機型時,先利用OCR漢字識別系統(tǒng)任測100個常用字,自動辨識文字,進入模糊識別程序[1]。按照前述方法,根據(jù)被檢字在值域表相應(yīng)區(qū)間出現(xiàn)的概率建立模糊關(guān)系矩陣。通過兩個矩陣乘積的模糊變換產(chǎn)生判別矩陣,以最大隸屬性確定打印機類型[2]。按照整個模糊綜合判別的數(shù)學(xué)模型,設(shè)計并實現(xiàn)打印機智能鑒別程序。最后進行實例應(yīng)用測試,確定判斷概率[3]。
1圖像處理和數(shù)值計算方法
1.1文字圖像采集及處理基本方法
1.1.1文字圖像采集
采用光學(xué)分辨率在1 200 dpi以上高檔或?qū)I(yè)掃描儀采集圖像。掃描分辨率等參數(shù)配置應(yīng)一致。通過對不同字體字號文字的實驗,確定1 000 ppi分辨率,反射模式和默認(rèn)參數(shù)值是較理想的條件。
1.1.2OCR文字自動識別技術(shù)
應(yīng)用OCR技術(shù)將圖像自動識別成文字,以提高文字建庫和判別的自動化、智能化程度。該模塊借鑒清華、漢王等OCR識別方法。
1.1.3文字圖像預(yù)處理
應(yīng)用改進的直方圖波形分析法對文字圖像二值化[4],應(yīng)選擇的特征指標(biāo)有文字筆畫周長、面積。與標(biāo)準(zhǔn)漢字筆畫總面積和筆畫輪廓總周長成對比較無顯著差異法確認(rèn)字體字號。
1.2建立標(biāo)準(zhǔn)漢字單字信息數(shù)據(jù)庫
1.2.1建立常用標(biāo)準(zhǔn)漢字字域面積單字信息數(shù)據(jù)庫
以某一打印機為標(biāo)準(zhǔn)參照,打印常用3 500字和最常用1 000標(biāo)準(zhǔn)漢字,宋體、仿宋體、楷體、黑體、隸書和華文新魏,一至六號字打印件,測量計算最大長寬域和面積。采用OCR文字識別模塊,以便用于確定檢測字的字號及字體。同時建立單字信息分類數(shù)據(jù)庫。
1.2.2建立常用標(biāo)準(zhǔn)漢字筆畫總面積和筆畫輪廓總周長單字信息數(shù)據(jù)庫
1)文字圖像特征提取與測量[5,6]
文字圖像的處理與識別,最真實的信息應(yīng)該是文字圖像的像素。所以,采用測量文字筆畫及其邊界像素作為指標(biāo)設(shè)置基礎(chǔ)。測量筆畫及其邊界像素,圖像的提取是關(guān)鍵。圖像特征的提取采用較為成熟的固定坐標(biāo)、確認(rèn)四周最遠(yuǎn)界點、逐行掃描、筆畫邊界標(biāo)記、界內(nèi)外分別計算像素的方法[1],以保證結(jié)果的可靠性。
2)建立上述標(biāo)準(zhǔn)漢字筆畫總面積單字信息分類數(shù)據(jù)庫
3)建立上述標(biāo)準(zhǔn)漢字筆畫輪廓總周長單字信息分類數(shù)據(jù)庫
1.3建立各種打印機打印漢字單字信息專用數(shù)據(jù)庫
1.3.1建立常用漢字筆畫總面積和筆畫輪廓總周長的單字信息數(shù)據(jù)庫
1)掃描各種打印機打印各字體字號漢字
以常用3 500字和最常用1 000字的標(biāo)準(zhǔn)漢字為對象,字體分別為常用的宋體、仿宋體、楷體、黑體、隸書和華文新魏,字號為一至六號。采用OCR文字識別模塊,用于檢測字的識別。同時建立單字信息分類數(shù)據(jù)庫。
2)測量計算各字筆畫總面積和筆畫輪廓總周長
仍然采用測量筆畫及其邊界像素作為指標(biāo)設(shè)置基礎(chǔ)。測量筆畫及其邊界像素,圖像的提取是關(guān)鍵。圖像特征的提取,采用較為成熟的固定坐標(biāo)、確認(rèn)四周最遠(yuǎn)界點、逐行掃描、筆畫邊界標(biāo)記、界內(nèi)外分別計算像素的方法。
3)分別建立各字筆畫總面積單字信息數(shù)據(jù)庫
4)分別建立各字筆畫輪廓總周長單字信息數(shù)據(jù)庫
1.3.2建立筆畫總面積和筆畫輪廓總周長及其相關(guān)各種指標(biāo)單字信息數(shù)據(jù)庫
1)指標(biāo)設(shè)置及計算方法
考慮到不同的打印機工作原理不盡相同,安裝的字庫也有所差異,不同打印機在打印過程中,產(chǎn)生不同的綜合擾動,同樣字體字號的字,形態(tài)會出現(xiàn)微小的變化,字筆畫的總面積會有差異,字筆畫輪廓的總周長也會有相應(yīng)的差異。這兩種差異可以分別作為文字的測量指標(biāo)。
c1: 字筆畫總面積
c2: 字筆畫輪廓的總周長
周長與面積之比及其它們的差值之比也分別可以作為基本指標(biāo)的另兩個有效的計算指標(biāo)。
c3:周長/面積,即c3=c2/c1
c4:1-周長/面積,即c4=1-c2/c1
因此,每一個字的測量計算指標(biāo),可以設(shè)置為四個基本指標(biāo)ci(i=1,2,3,4 ) 。
2)分別建立筆畫總面積和筆畫輪廓總周長的相關(guān)各種指標(biāo)數(shù)據(jù)庫
1.3.3建立指標(biāo)的相對差均值百分比序列
上述四個基本指標(biāo)在數(shù)據(jù)庫的信息可以用于同一個字相同字體字號的不同打印機之間的比較,以分辨打印機的類型,卻不能用于不同字不同字體字號之間的比較。因為,不同字的筆畫及形態(tài)結(jié)構(gòu)不同,缺乏可比性。只有把現(xiàn)有指標(biāo)改造成與筆畫形態(tài)和多少無關(guān)的指標(biāo),不同筆畫之間才可以比較。于是,選擇其中一個打印機型號為參照,將上述指標(biāo)ci改造成不同打印機上述指標(biāo)與參照打印機指標(biāo)之間的相對差值,便可以達(dá)到這一目的。但是,這樣計算出的數(shù)字往往很小,不便于記錄,更不便用于其他更多的計算。所以,采用它的百分比形式更方便。
按照這些設(shè)想,先將每一個字的所有打印機型號的上述基本指標(biāo)設(shè)為cij,選擇其中一個打印機型號為參照機型,它的各指標(biāo)記為c0j ,其余打印機與參照打印機的相對差均值百分比則為
ēij=(1-cij/c0j)×100% ( i=1,2,3,4;j=1,2,3,…,n)(1)
按同樣的方法,計算其一至六號的宋體、仿宋體、楷體、黑體、隸書和華文新魏各1 000常用字的均數(shù)ēij、標(biāo)準(zhǔn)差s及其區(qū)間(ēij±s) 。重新排列ēij成n項正均值的升序列:
ēi1, ēi2, …, ēij( i =1,2,3,4;j =1,2,3,…,n)
1.3.4設(shè)計機型—相對指標(biāo)區(qū)間表
按重新排列成n項正均值的升序列ēij設(shè)計n種型號打印機的四個指標(biāo)的區(qū)間(ēij±s)的值域表,即機型—相對指標(biāo)值域表(表1)。
1.3.5相對指標(biāo)權(quán)重
1)權(quán)重系數(shù)
對字庫的1 000個字體字號不同型號打印機打印的常用漢字,分別計算單獨用指標(biāo)e1、e2、e3、e4,能準(zhǔn)確測出所有打印機型號概率1 000字的平均值, 經(jīng)歸一化后用Ai(i=1,2,3,4)表示。因為Ai顯示了各指標(biāo)的重要程度,所以也可稱為權(quán)重系數(shù)。此權(quán)重系數(shù)表如表2所示。
1.4鑒別打印機型的模糊關(guān)系矩陣
1.4.1計算檢測打印文字在各打印機型區(qū)間出現(xiàn)的概率
在已確定字體字號的被檢打印文件中任意選100個常用漢字,測量并計算其四項相對指標(biāo)ei值,在已知打印機相對指標(biāo)各區(qū)間出現(xiàn)的概率為Rij ( i =1,2,3,4;j=1,2,3,…,n)。
1.4.2建立被檢打印機相對指標(biāo)區(qū)間概率表
只選擇不全為0并且ej的四項之和的值最大的前四種機型,可命名為機h1,機h2,機h3,機h4,制成概率表(表3)。
1.4.3建立被檢打印機相對指標(biāo)模糊關(guān)系矩陣
根據(jù)表3中被檢打印機相對指標(biāo)在相應(yīng)四個區(qū)間集中出現(xiàn)的概率Rij ,建立用于模糊綜合評判的4×4模糊關(guān)系矩陣
R=R11R12R13R14
R21R22R23R24
R31R32R33R34
R41R42R43R44(3)
1.5模糊綜合評判的計算[7~9]
1)隸屬函數(shù)
設(shè)指標(biāo)的集合E={ei}(i=1,2,3,4), a為E上的模糊集合,其隸屬函數(shù)為Sa (ei) 是測量打
印機型號相對指標(biāo)的隸屬函數(shù)。在實際應(yīng)用上,由各相對單獨指標(biāo)正確判別相應(yīng)打印機型號的概率函數(shù)。構(gòu)成相應(yīng)指標(biāo)的權(quán)重系數(shù),可用權(quán)重系數(shù)矩陣A(式(3))的形式表示。
2)隸屬矩陣
設(shè)打印機型號的集合H={hj}(j=1,2,3,4 ),b為H上的模糊集合,其隸屬函數(shù)Sb (hj)是被判別打印機型號的隸屬函數(shù)。為被判別打印件字跡測量的相對指標(biāo),在已知打印機型號相對各指標(biāo)區(qū)間出現(xiàn)概率的函數(shù),可以組成隸屬矩陣:
B=(B1B2B3B4)(4)
3)模糊變換
模糊綜合評判的計算方法是將E上的模糊集合的隸屬函數(shù)Sa (ei),通過模糊關(guān)系R進行一次模糊變換,變換為H上的模糊集合的隸屬函數(shù)Sb (hj),可由下式計算:
2打印機智能鑒別軟件設(shè)計
2.1打印機智能鑒別軟件設(shè)計思路
打印機鑒別過程程序化是盡量把繁瑣費時的操作過程變成計算機的計算過程,從而達(dá)到快速和自動化操作的目的。打印文字掃描及圖像處理因機型、字體、字號種類繁多,操作復(fù)雜,可采用組件形式,重用一些功能模塊,將各個過程集成,既能實現(xiàn)所需的功能和目的,又增強了軟件及各個模塊的可重用性、可移植性和易維護性。一些需要用到概念識別和判斷的過程采用模糊數(shù)學(xué)計算和綜合判別,是一種合理而有效的方法。
整個軟件基于.NET平臺,以C++為主開發(fā)語言,后臺數(shù)據(jù)庫采用MS SQL進行組件式開發(fā),以提高功能模塊性能,增強各功能模塊間的集成穩(wěn)定性和安全性。
2.2智能鑒別的數(shù)學(xué)模型選擇
本文采用最大隸屬性原則進行文字打印機信息的模糊綜合判別。首先用模糊統(tǒng)計方法確定隸屬函數(shù)和相對指標(biāo)的權(quán)重;再分別建立各指標(biāo)隸屬函數(shù)矩陣及相對指標(biāo)權(quán)重系數(shù)矩陣,兩矩陣模糊變換;最后根據(jù)最大隸屬性原則對被測文字對象進行模糊綜合判別,從而獲取文字及打印機信息[10]。
2.3打印機智能鑒別軟件結(jié)構(gòu)框圖[11]
按照上述設(shè)計思路和數(shù)學(xué)模型,并結(jié)合軟件工程和人工智能推理機制,設(shè)計出打印機智能鑒別軟件結(jié)構(gòu)框圖(圖1)。
3應(yīng)用實例測試
軟件基本模塊設(shè)計與實現(xiàn)完成后,將以惠普、佳能、愛普生、聯(lián)想、方正等十幾種常用打印機(激光打印機為主,噴墨打印機為輔)的文字打印樣本在圖像數(shù)字化、預(yù)處理、特征提取,模糊綜合判別等功能方面進行測試。驗證軟件體系結(jié)構(gòu)及各功能模塊的性能,檢驗圖像特征提取算法和模糊綜合判別算法的效果并加以改進。
結(jié)果,判別被檢測打印機機型為機h3。判別準(zhǔn)確,符合設(shè)計預(yù)期。
4結(jié)束語
1)本文探索了一種以常用字打印件鑒別打印機型的文字圖像計算機模糊識別的方法。其理論明確、過程簡要、操作方便、快速準(zhǔn)確,是一種有效可行的方法。雖然,本研究由于工作量的原因范圍局限于打印機,但該方法可擴展到傳真機、復(fù)印機等領(lǐng)域,應(yīng)用前景廣闊。
2)建立模糊綜合判別數(shù)學(xué)模型,設(shè)計并實現(xiàn)打印機智能鑒別軟件是解決打印機準(zhǔn)確鑒定的關(guān)鍵。其中權(quán)重矩陣和模糊關(guān)系矩陣都來自實測統(tǒng)計值,可靠性較高,這為判斷的準(zhǔn)確性奠定了基礎(chǔ)。應(yīng)用實例測試,結(jié)果顯示判斷準(zhǔn)確,既驗證了所建
立數(shù)學(xué)模型的有效性,又檢驗了打印機智能鑒別技術(shù)的可行性。
3)在打印機智能鑒別中,最關(guān)鍵的兩個指標(biāo)——漢字筆畫的總面積和筆畫輪廓的總周長對不同打印件的微小差別十分敏感。為了使微小差別不在計算過程中被掩蓋,又利用這兩個指標(biāo)衍生出兩個相對指標(biāo),使其中微小差別更明晰。兩個指標(biāo)的測量中應(yīng)用改進的直方圖波形分析法,將文字圖像二值化,使測量和判別大大簡化,突出關(guān)鍵。圖像特征的提取采用較為成熟的固定坐標(biāo)、確認(rèn)四周最遠(yuǎn)界點、逐行掃描、筆畫邊界標(biāo)記、界內(nèi)外分別計算像素的方法,以保證結(jié)果的可靠性。
4)檢測文件掃描的漢字識別過程應(yīng)用了OCR識別方法,實現(xiàn)漢字自動識別,使識別快速進入下一程序,既加速了文字圖像自動識別的進程,又簡化了局部程序設(shè)計。
參考文獻:
[1]楊淑瑩.圖像模式識別VC++技術(shù)實現(xiàn)[M].北京:清華大學(xué)出社版,2005:214-240.
[2]THEODORIDIS S.模式識別[M].李晶皎,等譯.2版.北京:電子工業(yè)出版社,2004:324-338.
[3]DUDA R O.模式分類[M].李宏東,等譯. 2版.北京:機械工業(yè)出版社,2005:425-426.
[4]陸宗騏,金登男.Visual C++.NET圖像處理編程[M].北京:清華大學(xué)出版社,2006:215-221.
[5]陳書海,傅錄祥.實用數(shù)字圖像處理[M].北京:科學(xué)出版社,2005:234-254.
[6]BENI C, LIU X M. A least biased fuzzy clustering method[J].IEEE Trans on Pattern Analysis and Machine Intelligence, 1992,16(9):954-960.
[7]SETNES M, BABUSKA R. Fuzzy relation classifier trained by fuzzy cluster[J]. IEEE Trans on Systems, Man and CyberneticsPart B:Cybernetics,1999,29(5):619-625.
[8]KAYMAK U, SETNES M. Fuzzy clustering with volume prototypes and adaptive cluster merging[J]. IEEE Trans on Fuzzy Systems,2002,10(6):705-712.
[9]GYSTAFSON D E, KESSEL W C. Fuzzy clustering with a fuzzy covariance matrix[C]//Proc of IEEE Conference on Decision and Control. San Diego, California:[s.n.], 1979:761-766.
[10]宮改云,高新波,伍忠東.基于劃分模糊度的聚類有效性函數(shù)[J].模式識別與人工智能,2004,17(4):412-416.
[11]盧春閣,張講社.一類基于模糊聚類和模糊推理的穩(wěn)健分類器[J]. 模式識別與人工智能,2004,17(1):60-65.
“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”