摘 要:通過實際案例的激光打印機打印文字,鑒別打印機型和打印機墨粉類型,分析打印文字圖像或墨料(粉)FTIR圖形單一鑒別與聯合鑒別結果之間的誤差率,評估兩種鑒別方式的可靠性差異。方式一,用打印文字圖像字域及其等方格分區的筆畫比面積相關法模糊鑒別打印機型;方式二,用墨料傅里葉變換紅外光譜(FTIR)圖形吸收峰波數及其一二階導數和自卷積相關法模糊鑒別打印機墨料種類。相對上述兩種方式,計算出相關系數的距離,進行誤差率的模糊綜合分析。結果表明,單一鑒別方式與聯合鑒別方式的誤差率有顯著差別。
關鍵詞:打印機; 文字圖像; 墨料; 相關系數; 模糊鑒別; 誤差分析
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2008)08-2390-03
Error analysis of printer fuzzy identification based on correlative
specific area of character image black-powder FTIR graphics
WANG Ning1, 2, HAN Guo-qiang1
(1.School of Computer Science Engineering, South China University of Technology, Guangzhou 510641, China;2. Guangzhou Public Security Bureau, Guangzhou 510030, China)
Abstract:This paper analyzed the error of two methods of printer fuzzy identification by a case of laser printer identification. By error analysis of single method and united method, it evaluated the reliability of two methods about printer identification. The first method, got the type of printer by fuzzy evaluation of correlative specific area of character image. The second method, idantified the printer by the similar FTIR spectrum graphics of black-powder of laser printer based on the wavenumbers, the first derivative, the second derivative and the self-deconvolution of FTIR spectrum graphics. With the calculation of correlation of above two methods, the error was analyzed by fuzzy synthetic evaluation about them. The result showed that the difference was obvious between single method and united method.
Key words:printer; character image; black-powder; correlation coefficient; fuzzy identification; error analysis
隨著辦公數字化的普及,越來越多的司法案件涉及到打印文件(字)來源的快速鑒別,即通過打印文件來鑒別打印機型和墨料類型。研究中,分別用文字圖像相關比面積法和墨料傅里葉變換紅外光譜(FTIR)圖形模糊判別法鑒別打印機的類型。在具體應用中,后者常為前者的輔助鑒別手段,視為佐證,大多不作為主要依據。實際上,將兩種方法的鑒別結果均作為主要依據看待更合理,即同時使用兩種方法進行聯合鑒別。這樣可以大大提高打印機鑒別的可靠性和準確性。但是,聯合鑒別較耗時,是否必要,要視其能在多大程度上提高可靠性。本文將通過實際激光打印機鑒別的案例,分析單一鑒別方式與聯合鑒別方式結果間的差錯率,給出評價,并提出打印機鑒別的合理方案。一案例涉及常用10種激光打印機及其打印墨粉,具體型號如表1、2所示。
1 基于文字圖像相關比面積法模糊鑒別打印機型
1.1 文字圖像特征提取
1) 文字來源
一宗司法案件涉及的10種常用激光打印機的打印文件。選擇最常用的1 000個漢字,以宋體、仿宋、楷體、黑體四種字體和四號、五號、六號三種字號,分別用上述10種打印機打印,作為標準參照。
表1 10種常用激光打印機編號打印機編號打印機B1方正文景A230B6利盟E120B2富士施樂3117B7佳能LBP2900B3惠普CLJ5500dnB8三星ML2010B4聯想LJ2000B9兄弟2040B5愛普生6200LB10柯美1400W表2 10種激光打印機的墨粉編號打印機編號打印機D1方正文景A230D6利盟E120D2富士施樂3117D7佳能LBP2900D3惠普CLJ5500dnD8三星ML2010D4聯想LJ2000D9兄弟2040D5愛普生6200LD10柯美1400W2)文字圖像采集及處理
1)采用光學分辨率在1 200 dpi以上的高檔或專業掃描儀采集文字圖像。掃描分辨率等參數應一致。通過對不同字體字號的實驗,確定1 000 ppi分辨率,反射模式和默認參數值是較理想的條件。
2)應用改進的最大類間方差法對文字圖像二值化[1,2]。
3)先行分割,再字分割,從打印文件中隨機選取常用字100個。將每個字以3×3網格模式分成9個等面積方塊分區(圖1) [3]。
3)特征指標設定
設字域面積為σ0,字筆畫總面積為s0 ,筆畫總周長為l0 ,分區面積為σi,各分區筆畫面積為si。
1)整字比面積 筆畫總面積像素與字域面積像素之比。
λ0=s0/σ0(1)
2)分區比面積 分區筆畫面積像素與分區面積像素之比。
σi=σ0/9(2)
λi=si/σi(i=1,2,…,9)(3)
c) 去周長筆畫相對面積
γ=(s0-l0)/s0(4)
待鑒別文字指標與標準文字相同。
4)計算待鑒別字與標準字指標間的相關系數
設標準字的指標為x,待鑒別字的指標為y,以r表示標準字與待鑒別字間的相關系數。相關系數計算公式為
r=|∑(x-x)(y-y)|/∑(x-x)2(y-y)2(5)
1.2 激光打印機機型鑒別
1.2.1 指標相關系數分布
隨機在待鑒別打印文件中選取100個字,按式(5)計算待鑒別字與10種打印機打印的相同字基本指標的相關系數。設f1為整字比面積100個字的相關系數;f2為去周長筆畫相對面積100個字的相關系數;f3為分區比面積的相關系數100個字的平均值(式(6))。
f3=∑rn/100; n=1,2,…,100(6)
計算出各指標的相關系數在各打印機型間的分布見表3。
1.2.2 模糊綜合鑒別
1)特征指標隸屬函數及權重系數矩陣
設特征指標隸屬函數為μA (aj)。設三個特征指標的權重系數分別為A1、A2、A3,它們根據理論設計要求和統計學知識,經反復實驗確定。其中:A1為0.125; A2為0.057;A3為0.818,則權重系數矩陣如式(7)所示[4]。
A=(A1,A2,A3)=(0.125,0.057,0.818)(7)
2)待鑒別字隸屬函數及判別矩陣
設隸屬函數為μB ( bk),隸屬矩陣為B,則
B=(B1,B2,…,B10)(8)
3)隸屬關系函數及矩陣
表3 各指標相關系數在10種激光打印機型間的分布表編號f1f2f3編號f1f2f3B10.4680.4050.412B60.6920.7850.704B20.4760.4280.399B70.3970.4240.463B30.5350.6130.577B80.4950.5060.520B40.1470.2290.193B90.9270.8940.961B50.3190.3740.421B100.6720.7150.683待鑒別字隸屬函數μB(bk)與指標隸屬函數μA(aj)之間模糊關系的隸屬函數為R (aj,bk),矩陣R根據表3建立[5,6]。
4) 模糊綜合評判計算
μB(bk)=sup(μA(aj)∧R(aj,bk)); j=1,2,3;k=1,2,…,10(9)
用矩陣計算
B=A R=(0.125 0.057 0.818)
0.4680.4760.5350.1470.3190.6920.3970.4950.9270.672
0.4050.4280.6130.2290.3740.7850.4240.5060.8940.715
0.4120.3990.5770.1930.4210.7040.4630.5200.9610.683=
(0.412 0.399 0.577 0.193 0.421 0.704 0.463 0.520 0.818 0.683)(10)
5)判別
B0=max(B1B2B3B4B5B6B7B8B9B10)=B9=0.818(11)
結果,待鑒別打印機被判斷為兄弟2040激光打印機,與案件最終結果一致。統計用這種方法的結果,與案件最終結果一致率為96.07%。
2 基于墨粉FTIR圖形相似法模糊鑒別打印機型
2.1 墨粉FTIR圖形的采集
1)以傅里葉變換紅外光譜儀對待鑒別墨粉樣品掃描,獲取墨粉的紅外吸收光譜,并進行一階、二階導數和自卷積處理[7]。
2)以同樣方法采集10種激光打印機墨粉的FTIR圖形,并進行一階、二階導數和自卷積處理。
2.2 待鑒別墨粉與標準墨粉的相關系數計算
2.2.1 基本指標設定
基本指標為FTIR光譜及其一階、二階導數和自卷積的特征吸收峰值。計算吸收峰波數的相關系數時,必須輸入相互對應的吸收峰波數值,波數值相差很大時,可認為吸收峰不對應。這種情況下視對方值為0。根據FTIR技術的判斷界限,大多不超過12。故FTIR吸收峰波數h對應區間為
|h-h|<12(12)
2.2.2 待鑒別墨粉與標準墨粉相關系數分布
Ci表示FTIR常規光譜、一階、二階導數光譜及自卷積波數值四個指標。即C1為常規光譜波數;C2為一階導數;C3為二階導數;C4為自卷積,待鑒別墨粉與10種激光打印機墨粉Gj各指標的相關系數分布如表4[8,9]所示。
表4待鑒別墨粉基本指標相關系數在10種激光打印墨粉Gj中的分布表指標G1G2G3G4G5G6G7G8G9G10C10.3860.8250.0930.7920.3740.6940.1910.7830.9740.501C20.4150.7710.1890.6810.2870.5270.2070.6760.9350.497C30.4720.7340.2040.7160.3160.6230.3160.7140.8130.546C40.4030.7260.1670.6940.3480.7020.2340.6950.8960.4742.3 墨粉類型的模糊綜合分析
2.3.1 指標隸屬函數及權重系數矩陣
指標的隸屬函數為μC(ci),FTIR常規、一階、二階導數和自卷積光譜的權重,以統計學中的差異顯著性級別確定。四個指標的權重系數分別為0.951、0.039、0.005、0.005,權重系數矩陣C以下式表示。
C=(C1 C2 C3 C4)=(0.951 0.039 0.005 0.005)(13)
2.3.2 待鑒別墨粉隸屬函數及隸屬矩陣
待鑒別墨粉隸屬函數為μG(gj), 判別隸屬矩陣為G。
G=(G1,G2,…,G10)(14)
2.3.3 模糊關系函數及模糊關系矩陣
R(ci,gj)為待鑒別墨粉隸屬函數μG(gj)與指標的隸屬函數μC(ci)的模糊關系函數。其矩陣根據表4建立[10,11]。
2.3.4 模糊綜合分析
μG(gj)=sup(μc(ci)∧R(ci,gj))
i=1,2,3,4; j=1,2,…,10(15)
實例計算如下
G=C R=(0.951 0.039 0.005 0.005)
0.3860.8250.0930.7920.3740.6940.1910.7830.9740.501
0.4150.7710.1890.6810.2870.5270.2070.6760.9350.497
0.4720.7340.2040.7160.3160.6230.3160.7140.8130.546
0.4030.7260.1670.6940.3480.7020.2340.6950.8960.474(16)
G0=max(G1 G2 G3 G4 G5 G6 G7 G8 G9 G10)=G9=0.951(17)
結果,待鑒別墨粉被判斷為兄弟2040激光打印機墨粉,與案件最終結果一致。統計用這種方法的結果,與案件最終結果一致率為98.13%。
3 文字圖像相關比面積法與墨料FTIR圖形相似法聯合鑒別的可靠性分析3.1 指標設置
以B0為文字圖像相關比面積法鑒別打印機型的最大相似度。差錯可用距離di =1-B0表示。WB代表文字圖像相關比面積法鑒別打印機型差錯的權重,表示鑒別時可能出錯誤的概率。現有打印機10臺,鑒別時可能出差錯的權重WB為 0.1 。同樣,以G0為墨料FTIR圖形最大相似度。差錯可用距離dj =1-G0表示。WG代表墨料FTIR圖形相似法鑒別打印機差錯的權重。墨料也有10種,故FTIR圖形差距權重WG為0.1 。 而聯合鑒別同時使用兩種鑒別方式,則權重WBG 為兩者權重的乘積, 即0.01。
3.2 差錯率在鑒別方式間的分布
用B表示文字圖像相關比面積法鑒別打印機型,用G表示FTIR圖形相似法鑒別墨料類型,BG表示上述兩種方式聯合鑒別打印機型和墨料類型。如果兩種鑒別方式任何交叉組合作用的差錯率,都可以表示成R
Rij=didj=(1-B)(1-G)(18)
則didj分布如表5所示。
表5 各差錯率在鑒別方式M間假設的分布BGBGWBd1d1d1d2d1d3WGd2d1d2d2d2d3WBGd3d1d3d2d3d3由于單獨進行一種鑒別時,另一種鑒別沒有實施,其鑒別結果應為0 :
Rij=(1-B0)(1-G0)(B=B0,G=G0)
1-B0(B=B0,G=0)
1-G0(G=G0,B=0)
1(B=0,G=0)
i=1,2,3; j=1,2,3(19)
其中:B0=0.960 7,G0=0.981 3。因此,表5應寫成為表6的形式。
表6 差錯率在鑒別方式M間的實際分布BGBGWB1 - B011 - B0WG11 - G01 - G0WBG1 - B01 - G0(1 - B0)( 1 - G0)3.3 建立隸屬函數及其矩陣
指標(差錯概率)隸屬函數為μW(wi),權重矩陣為W。
W=(W1W2W3)=(WBWGWBG)=(0.10.10.01)(20)
鑒別方式隸屬函數為μM(mj),其矩陣為M。
M=(M1 M2 M3)(21)
鑒別方式隸屬函數μM(mj)與差錯指標概率μW(wi)的模糊關系函數為 R(wi,mj ),其矩陣R可由式(22)表示。
R=1-B011-B0
11-G01-G0
1-B01-G0(1-B0)(1-G0)(22)
3.4 誤差模糊綜合分析
誤差模糊綜合分析的計算方法,是選擇差錯最小的鑒別方式[4,5,12],可由式(23)得到。
μM(mj)inf(μW(wi)∧R(wi,mj)); i=1,2,3; j=1,2,3(23)
用實測值代入矩陣計算如下:
M=W R=(0.1 0.1 0.01)0.039 310.039 3
10.018 70.018 7
0.039 30.018 70.0007 3=
(0.01 0.01 0.000 73)(24)
M0=min(M1 M2 M3)=min(0.01 0.01 0.000 73)=
M3=0.000 73(25)
其中:可計算出各自誤差范圍,見式(26)~(28)。
0.01≤M1≤0.039 3(26)
0.01≤M2≤0.018 7(27)
0.0007 3≤M3≤0.01(28)
由上可知,單一使用文字圖像相關比面積法鑒別打印機型,誤差率在0.01~0.039 3;單一使用墨料FTIR圖形相似法鑒別墨料類型,誤差率在0.01~0.018 7;而同時使用兩者聯合鑒別,誤差率在0.000 73~0.01。單一使用某一種鑒別方式的誤差率與聯合鑒別的誤差率差別明顯。前兩者誤差率為后者的13倍多。
4 結束語
單一使用某一種鑒別方式,其誤差率與同時使用兩者聯合鑒別的誤差率差別明顯。建議聯合使用文字圖像相關比面積法和墨料FTIR圖形模糊鑒別法鑒別打印機型,以提高打印機鑒別的可靠性和準確性。
參考文獻:
[1]陳書海,傅錄祥.實用數字圖像處理[M].北京:科學出版社,2005:220-280.
[2]陸宗騏,金登男.Visual C++.NET圖像處理編程[M].北京:清華大學出版社,2006:215-227.
[3]ZHU Yong, TAN Tie-niu,WANG Yun-hong.Font recognition based on global texture analysis[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2001,23(10):1192-1200.
[4]胡寶清.模糊理論基礎[M].武漢:武漢大學出版社, 2004: 198-218.
[5]李士勇.工程模糊數學及應用[M].哈爾濱:哈爾濱工業大學出版社, 2004:25-136.
[6]WANG H W, MA G F, WANG Z C. The study of fuzzy identification theory and its practical applications[J]. Journal of System Simulation, 2000, 12(3):87-90.
[7]吳瑾光.近代傅里葉變換紅外光譜技術及應用[M].北京:科學技術文獻出版社,1994:3-131.
[8]CHEN S M. Similarity measure between vague sets and between elements[J]. IEEE Trans on Systems, Man and Cybernetics, 1997, 27(1):153-158.
[9]CHEN S M,YEH M S, HISIAO P Y. A comparison of similarity measures of fuzzy values[J]. Fuzzy Sets and Systems, 1995, 72(1):79-80.
[10]劉華文.模糊模式識別的基礎——相似度量[J].模式識別與人工智能,2004,17(2):141-145.
[11]李云,吳中福,葉春曉,等.基于擴張矩陣的模糊特征選擇算法[J].模式識別與人工智能, 2004, 17(4):417-423.
[12]PAPPS C P, KARACAPILIDIS N I. A comparative assessment of measures of similarity of fuzzy values[J]. Fuzzy Sets andSystems, 1993, 56(2):171-174.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文