摘要:在筆跡鑒別中為了便于獲取特征字符的細微特征,基于線性矩和小波變換提出了提取特征字符紋理特征的方法。小波變換能有效地提取字符的結構特征,而矩能夠很好地對其進行描述。在該方法中,一幅特征字圖像可以用一個含有52個元素的特征矢量表示,然后通過訓練多個神經網絡,并應用神經網絡集成的方法將其結果合成,對特征空間進行正確分類。分別在特征字和候選人數變化的情況下進行實驗,實驗結果顯示識別準確率較同類算法平均提高百分之五。
關鍵詞:筆跡鑒別;神經網絡集成;小波變換;矩
中圖分類號:TP391.41文獻標志碼:A
文章編號:1001-3695(2008)03-0741-03
0引言
筆跡鑒別在銀行業務、電子商務、案件偵破等方面都有廣泛的應用。它的主要原理是對檢驗筆跡與多個嫌疑人的參考筆跡進行比較, 找出書寫風格最相似者判定為檢驗筆跡的書寫人。計算機筆跡鑒別一般分為在線和離線兩種。對于計算機筆跡鑒別而言,筆跡特征的分析和提取是至關重要的。常用的、比較穩定的、鑒別能力強的特征主要是字形、字位傾斜、筆劃方向、筆劃和部首搭配。在筆跡鑒別問題中,這些特征都可以用字符圖像的紋理特性來表示,如以字符作為基元,筆跡的布局排版是一種紋理特征;以筆劃作為基元,則筆劃密度和排列關系是紋理特征;以像素作為基元,則筆劃方向也是一種紋理特征。當前有幾種常用的筆跡紋理特征提取方法:簡化的Winger分布方法能反映特征字的紋理特征[1];Gabor變換能反映出布局排版的紋理特征[2];小波分析具有獨特的時頻域多分辨特性,一些研究成果表明小波分析是一種有效的筆跡紋理分析方法[3]。雖然這些方法在文獻中報導了很高的鑒別率,但還存在一些不足的地方,如特征向量的維數太大、沒有結合字符圖像的統計特征,特征的鑒別能力受到限制。
本文首先基于線性矩和小波變換提取了特征字的紋理特征, 其基本思想主要來源于兩個事實:a)特征字圖像的主要特征分布在水平、垂直、左對角和右對角四個方向;b)字符圖像的矩特征能很好地體現筆跡的形狀特征。線性矩方法是平移、伸縮不變的,同時小波變換是信息保持的,且可大大減少計算量和存儲量。在識別階段,首先用不同的訓練集分別對結構相似的前向網絡進行訓練,接著采用神經網絡集成的方法對結果進行合成,即對特征空間進行分類,然后將集成的結果作為系統的輸出。
1基于矩和小波變換的特征提取
由于筆跡的布局排版、筆劃密度、方向和排列關系是表征書寫個性的重要元素,小波變換能給出信號完全而穩定的表示,得到不同尺度下信號的形式。從特征提取的角度來分析,其變換后的信號包含了信號的主要特征,如大致形狀、變化位置及幅度等。本文從不同側面——特征字圖像的水平、垂直投影曲線、邊緣圖像的線性矩曲線和灰度圖像的小波變換提取圖像的不同特征,它們分別反映了特征字的不同特性。
1.1投影特征
假設參考字區域的大小為M×N,f(m,n)為其中任意一點(m<M,n<N)。以向水平方向投影為例,投影后的一維圖像為fx(n)=Mm=1f(m,n);同理,向垂直方向投影后的一維圖像為fy(n)=Nn=1f(m,n)。然后對其進行一維小波變換得到各個尺度上的信號,如圖1(a)所示。對較小的字符圖像,適宜在尺度j=1時的信號上取特征,從C1中抽樣出N/2(N為總的離散點)個點作為特征,在D1上計算平均值、標準方差、能量和平均殘差,并將其作為高頻數據的特征參數。如圖1(b)所示。
定義如下四個統計變量:
平均值:m=(1/N)Nk=1f(k)(1)
能量:e=(1/N)Nk=1f 2(k)(2)
標準方差:s=(1/N)Nk=1[f(k)-m]2(3)
平均殘差:a=(1/N)Nk=1|f(k)-m|(4)
因此,當特征字圖像的區域為32×32,則投影特征矢量I1為36維。
1.2基于邊緣圖像的線性矩特征定義
字符圖像邊緣是特征圖像中相對穩定的信息,它受外界條件的影響相對較小。提取圖像邊緣,得到二值邊緣圖像后,計算圖像的線性矩特征,而且線性矩是平移、伸縮不變的[4]。二值圖像的線性矩描述如下,一幅含有字符的二值圖像表述為
f(m,n)=0(m,n)∈字符
1(m,n)字符(5)
在圖像上的初始參考點C0=(m0,n0),定義如下:
m0=min(m:n,使得f(m,n)=1,n=0,1,…,N-1;m=0,1,…,M-1)
n0=min(n:m,使得f(m,n)=1,m=0,1,…,N-1;n=0,1,…,M-1)(6)
以圖像上行矩向量Mrow為例,說明行、列上矩向量Mrow和Mcol的定義。設Mrow矩向量的元素個數為countrow,第k個元素記為Mrow[k](countrow<N,第k個矩元素的行掃描線是圖像的第「N/countrow×k行,「表示取數據的上確界)。在掃描線上,有黑線段Bk,l和白線段Wk,l。其中:Bk,l表示物體的一個分段;Wk,l表示背景的一個分段,記1≤l≤countrowk。其中countrowk為第k個元素的掃描線上黑線段的數目,同時記Lk,l為Bk,l的長度,Ck,l為Bk,l的中心點,有
Mrow[k]=countrowkl=1(Ck,l-C0)×Lk,l(7)
可以看到,矩向量的大小與黑線段的數目、長度、位置間隔成正比關系。定義線性矩為
lmrow[k]=Mrow[k]/countrowk=1Mrow[k](8)
同時,可以計算線性矩的平均值、標準方差、能量和平均殘差,并將其作為線性矩曲線的特征參數。
1.3基于小波變換和線性矩的特征提取
由于小波變換在低頻率處有較高的空間分辨率,同時在高空間頻率處也有較高的空間分辨率,即要求變換的時-頻窗口是根據信號的變化而自適應調節的。
式中Hj和Gj為低通和高通濾波器[3]。
人眼對字符的鑒別在很大程度上是基于字符結構的,即依賴于字符的筆畫特征,如橫向、豎向和斜向的筆畫。由此,為提取圖像四個方向上的邊緣,對字符圖像作小波分解。本文中特征字的圖像較小(32×32),特征不宜在太大的尺度上提取,因為大尺度意味著大的數據壓縮量,會造成不同圖像間平滑分量的區分錯誤。如圖2中,用Mallat算法對字符圖像進行二維小波分解,得到一個低頻圖像Adjf和三個高頻圖像(D1jf,D2jf,D3jf)。其中:Adjf是圖像在尺度2j上的輪廓;D1jf是橫向筆畫;D2jf是豎向筆畫;D3jf是斜向筆畫。三個高頻圖像提取圖像特征的方法描述如下:
a)對于反映橫向筆畫特征的D1jf,先提取橫向線性矩特征矢量,然后按上述方法計算四個統計量作為特征。
b)對反映豎向筆畫特征的D2jf,先提取豎向線性矩特征矢量,然后按上述方法計算四個統計量作為特征。
c)對反映斜向筆畫特征的D3jf,分別按45°和135°提取斜向線性矩特征矢量,再按上述方法提取統計特征。
因此,得到二維小波變換后的特征矢量I2為16維。總之,將I1,I2兩類特征矢量歸一化后共52維(36+16)作為特征空間的特征矢量,用于基于特征字圖像的筆跡鑒別問題。
2基于神經網絡集成的分類器設計
目前被廣泛接受的神經網絡集成的定義為:神經網絡集成是用有限個神經網絡對同一個問題進行學習,集成在某輸入示例下的輸出由構成集成的各神經網絡在該示例下的輸出共同決定[7]。在神經網絡集成中有兩個關鍵的問題,即如何生成集成中的個體網絡;如何結合多個神經網絡的輸出。由于神經網絡集成方法不僅易于使用,而且還能夠以很小的計算代價顯著地提高學習系統的泛化能力[6]。在本文中采用神經網絡集成的方法用于特征分類。具體的步驟為并行生成三個前向神經網絡作為分類器,應用改進的BP算法[5]作為該三層前向網絡的訓練算法,系統的結構如圖3(a)所示;對于每個神經網絡的結構如圖3(b)所示。三個網絡的結構均為52×4×2的前向網絡。在訓練階段:a)將初始樣本集隨機分成三個集合,即S1、S2和S3,|Si|=0.35N,i=1,2,3;N為總的樣本數。b)使用Bagging方法[4]訓練三個網絡。 其中S1訓練網絡NN1,S2訓練NN2,S3訓練NN3。這種從訓練集中重復地抽取訓練樣本,以增加神經網絡集成的差異度,提高泛化能力。c)依據各網絡的輸出應用投票的方法輸出集成的結果,作為總的評價。
3實驗結果和分析
基于上面提出的神經網絡集成方法進行了基于特征字圖像的書寫人識別實驗。實驗樣本是從10 個人書寫的筆跡文本中挑選出來的重復頻率較高的特征字作為筆跡鑒別的特征字,對每個特征字選擇六個樣本組成實驗樣本。假定待鑒定筆跡的書寫人為兩個候選人,則從10個實驗樣本中隨機抽取兩人;然后將他們的同一個特征字樣本圖像隨機分成三組,每組中每人的筆跡圖像有兩幅;用其中任意一組圖像重復進行訓練,訓練樣本數為4;用剩余兩組測試,測試樣本數為8。其中第1組訓練,第2、3組測試為A組;第2組訓練,第1、3組測試為B組;第3組訓練,第1、2組測試為C組。識別時,依據三個神經網絡的輸出應用投票的方法判定特征最相似的書寫人。
在筆跡鑒別中,僅用一個字的信息判斷書寫人是很不可靠的。為了檢驗多個特征字組合的鑒別效果,在只有一個候選人的情況下,進行了結合多個特征字的筆跡鑒別實驗。當只有一個候選人時,表1第三列給出了分別結合5 個和10 個特征字的書寫人識別的正確率,它們是對不同特征字鑒別結果的平均值。可見特征字增多時鑒別正確率有顯著提高。結合多個特征字時,假定鑒定對象為2、3和4個候選人,實驗結果如表1的第4~6所示。識別的正確率是相似的,說明當候選人增加時本方法是可行的。將本文設計的神經網絡集成分類器方法與單個神經網絡[4]、最近鄰分類器方法[1]作了比較實驗,每種方法實驗20次,實驗結果如表1所示。從表中可以看出,使用神經網絡集成技術,多數情況下可取得比單個神經網絡和最近鄰分類器更好或接近的結果。
4結束語
本文基于線性矩和小波變換提取了特征字圖像的投影特征與傾斜方向紋理特征。采用神經網絡集成的方法設計了分類器,對結果采用組合預測的方法,在特征字和候選人數變化的情況下分別進行了實驗;同時與單個神經網絡和最近鄰分類器的實驗結果進行了比較,實驗結果表明該方法可有效地提高筆跡鑒別的正確率。在實際應用中,筆跡專家除了分析特征字、特征筆畫及運筆等來獲取細微特征外,還要考慮書寫人的整體風格。下一步將研究基于整體風格的筆跡鑒別以及如何將整體特征和局部特征有效地結合,以進一步提高筆跡鑒別的準確性和可靠性。
參考文獻:
[1]劉成林,劉迎建,戴汝為.簡化的Wigner分布及其在筆跡鑒別中的應用[J]]. 計算機學報,1997,20(11):10181023.
[2]朱勇,譚鐵牛. 基于筆跡的身份鑒別[J]. 自動化學報,2001,27(2):229234.
[3]CHEN G Y,BUI T D.Contourbased handwritten recognition using multiwavelet and neural networks [J].Pattern Recognition,2003,36(7):1597 1604.
[4]沈會良,李志能.基于矩和小波變換的數字、字母字符識別研究[J]. 中國圖象圖形學報,2000,5A(3):249-252.
[5]ABID S,FNAIECH F,NAJIM M.A fast feedforward training algorithm using a modified form of the standard backpropagation algorithm [J].IEEE Trans on Neural Networks,2001,12(2):424-430.
[6]LIU Y,YAO X,HIGUCHI T.Evolutionary ensembles with negative correlation learning[J].IEEE Trans on Evolutionary Computation,2000,4(4) :380-387.
[7]ZHOU Z,WU J,TANG W.Ensembling neural networks:many could be better than all[J].Artificial Intelligence,2002,137(12):239-263.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”