高學,溫文歡,金連文
(華南理工大學電子與信息學院,廣東廣州510640)
經過多年研究,盡管已經取得了大量進展,手寫漢字識別,特別是無約束的手寫漢字識別仍然是文字識別領域最困難的問題之一[1].2010年,中國模式識別會議(CCPR2010)組織的手寫漢字識別比賽結果表明[2],針對GB2312-80一級字符集的脫機手寫漢字識別,最好的系統僅可以達到89.89%的首候選識別率.手寫漢字識別的困難主要表現在大量相似漢字的存在、以及不規則的書寫變形等.一些相似漢字間的差別極其細微,例如,“干”和“于”、“大”和“太”等,由于無約束手寫漢字中的書寫變形的影響,將會導致這些相似字難以正確識別.同時,CCPR2010的測試結果也顯示,目前系統已經可以達到98.64%的10候選正確識別率.因此,如何改善相似漢字的識別性能是提高無約束手寫漢字識別系統性能的關鍵問題之一.本文針對手寫漢字的特征提取問題,提出了一種用于相似字識別的特征優化方法.
根據漢字筆畫的方向屬性,人們提出了許多有效的漢字特征提取方法[3-10].本文首先介紹手寫漢字識別中常用的幾種典型特征提取方法,進而提出一種特征優化的解決思路.彈性網格特征是手寫漢字識別中的常用特征之一.Jin等[3]提出了一種方向分解彈性網格特征提取方法,通過彈性網格技術將漢字圖像劃分為子網格,在每個子網格中,通過求均值,得到子網格的特征值.Gabor特征是另一種常用的手寫漢字特征[4].利用二維Gabor濾波器,Huo等[5]提出了一種用于大類別手寫漢字識別的Gabor特征提取方法.通過將具有L個方向的二維Gabor濾波器組與漢字圖像分別做卷積,得到像素點的L維Gabor特征值.然后根據漢字圖像的均勻網格劃分,取每個子網格中心點的特征值構成漢字特征向量.梯度特征是目前手寫漢字識別中最廣泛使用的特征之一[4,9].它最初由Liu等[6]提出并應用于手寫數字的識別,后來在手寫漢字識別中也取得了較好效果[7,10],該方法利用Sobel算子得到像素點的水平和垂直梯度,并通過梯度向量分解得到像素點的L維梯度編碼.聯機手寫漢字識別中常用的方向特征[8],也采用了類似的筆畫分解過程.為了提取手寫漢字的梯度特征或者方向特征,通常利用彈性網格或均勻網格劃分將漢字圖像劃分為一些子區域,在每個子區域中通過加權求和運算,例如求均值[7]或者高斯模糊化[8-10]等得到子區域的特征值.然而,這些基于區域劃分的特征提取方法,所提取特征無法有效地利用嵌入在子區域內的區分信息,特別是對于差別細微的相似漢字.為了彌補這種不足,一個簡單的解決方法是,提高子區域劃分的分辨率,提取更高維的漢字特征.極端情況下,可以將每個像素看作一個子區域.然而,這種方法將會導致所提取的特征向量維數過高,例如,對于常規64×64大小的漢字圖像采用8方向的分解方法,將得到64×64× 8=32 768維的特征向量.由于目前的手寫漢字識別系統中[9-10],特征向量一般會采用LDA(linear discriminant analysis)變換進行特征降維,原始特征向量維數過高將導致LDA算法中的散度矩陣為奇異的.另外,這種方法也會導致LDA變換矩陣的存儲量過大而不實用.
受二維線性區分分析(two-dimensional LDA,2DLDA)變換[12-13]在人臉識別中成功應用的啟發,本文將漢字特征提取過程和特征降維結合起來,提出了一種基于2DLDA變換的特征優化方法,并用于手寫相似漢字的識別.文獻[14]給出了一些初步的實驗結果.本文結合手寫漢字的梯度特征提取過程,對基于2DLDA變換的手寫漢字特征優化方法進行了分析和識別實驗.
LDA變換[11,15]是手寫漢字識別中廣泛使用的一種特征降維變換方法,它通過尋找一個最優的線性變換矩陣,將模式向量從高維空間投影到低維空間,以使模式類間散度最大化和類內散度最小化.由于在優化過程中引入了模式類間的區分信息,經過LDA變換后的特征向量不僅可以具有較低的維數,而且識別性能也會得到明顯改善.2DLDA變換算法[13,16-17]可以看作是LDA變換針對二維模式矩陣的降維變換的擴展.在2DLDA變換中,進行降維變換的輸入模式不再是一維的向量,而是二維的模式矩陣.2DLDA變換通過尋找最優的行向和列向的線性變換矩陣,從而實現模式矩陣的降維變換.由于2DLDA變換中的類間和類內散度矩陣具有較低的維數,算法的時間復雜度可以大大降低,因而在高維模式的壓縮變換中具有明顯的優勢.

以使模式類間散度最大化和類內散度最小化.式中: Y為變換后的低維模式矩陣,變換后的矩陣行和列數分別為d1、d2(d1<m,d2<n).
2DLDA中變換矩陣的優化問題包括列向變換矩陣Z的優化和行向變換矩陣U的優化.設、分別為考慮列向變換矩陣Z時的類內散度矩陣和類間散度矩陣,類似于LDA算法中的Fisher優化準則,變換矩陣Z的優化準則可以定義為

同理,行向變換矩陣U的優化準則可以定義為

式中:

可以證明[9]:最優變換矩陣Z和U*分別由矩陣的d1和d2個最大特征值對應的特征向量構成.特征向量的計算則可以通過特征值分解方法來實現.然而,由于在求解最優變換矩陣的過程中,行向和列向變換矩陣是相互依賴的,難以實現Z和U的同時優化.Ye等[16]給出了一種迭代優化方法,即先固定U,并根據式(2)~(4)求解Z,然后再固定Z,根據式(5)~(7)求解U.經過一定的迭代次數,得到最優的變換矩陣Z*和 U*.Noushath等[13]給出了另一種簡單有效的方法,即先固定U為單位矩陣,并根據式(2)~(4)求解最優變換矩陣Z*,反之亦然.Noushath的方法可以看作是迭代優化方法當迭代次數為0時的一個特例.Yang等[17]則采用先固定U為單位矩陣,并根據式(2)~(4)求解最優變換矩陣Z*,然后再利用得到的Z*,根據(5)~(7)求解U*.文獻[17]的方法可以看作是迭代優化方法當迭代次數為1時的一個特例.
梯度特征是手寫漢字識別中最常用特征之一,其有效性已經得到了廣泛的驗證[4,7,9].本節將基于梯度特征描述我們的特征優化方法,手寫漢字識別中的其他常用特征,例如Gabor特征等,其優化方法可以采用類似的過程.
如果將特征提取與降維變換看作一個整體,典型的手寫漢字特征提取過程可以分解為:1)特征屬性計算;2)網格劃分與特征向量構建;3)LDA特征變換.特征屬性計算主要根據手寫漢字的筆畫結構特點,在每個像素點計算描述漢字筆畫形狀及其變化信息的特征屬性值,并形成特征屬性矩陣.設輸入漢字圖像為f(i,j),i=1,…,p;j=1,…,q,像素點(i,j)的特征屬性值為aij,則有特征屬性矩陣A為

不同的手寫漢字特征提取方法,特征屬性值的計算過程不同.對于梯度特征,則首先利用3×3的Sobel算子(如圖1)計算漢字圖像每個像素點的水平和垂直方向的梯度值,然后取L個等間隔(間隔為2π/L)的方向,并分別將每個像素點的梯度向量分解到最相近的2個方向,如圖1所示.因此,每個像素點(i,j)可以得到L維的特征屬性值(矢量)aij.在大多數的手寫漢字識別系統中[4,7,9],8方向的梯度特征通常能夠獲得最好的漢字識別率,本文實驗測試中也將采用這種參數設置.

圖1 Sobel算子和梯度向量分解Fig.1 Sobel operators and gradient vector decomposition
網格劃分與特征向量構建則首先根據漢字圖像的筆畫像素分布,將圖像劃分為D×D個子網格(子區域),如圖2所示.當采用均勻網格劃分時,漢字圖像通常會進行非線性歸一化的預處理,以適應手寫漢字的書寫變形.然后,根據漢字圖像的網格劃分,對每個子網格內像素點的特征屬性值進行求均值或者高斯模糊化等加權求和運算,得到該子網格的L維特征值,組合得到手寫漢字的特征向量 .由于彈性網格可以線性歸一化為統一大小,為表述簡便并不失一般性,本文假設漢字圖像采用均勻網格劃分.如果將特征屬性矩陣A按每個網格內像素點的屬性值為一行重新排列后的新屬性矩陣為M,則:

式中:μkl為屬性值重新排列后,漢字圖像的第k個子網格的第l個像素點的屬性值;(ik,jk)為第k個子網格區域的中心坐標,r×r為子網格區域大小;s,t分別為子網格區域的第l個像素點在該子網格內的行列坐標,l=l(s,t)=s×r+t.

圖2 漢字圖像的網格劃分Fig.2 Grid partition of Chinese character images
梯度特征向量v則可以表示為

式中:g(s,t)為子網格區域的梯度特征提取中的加權系數,g1和g2分別對應求均值與高斯模糊化運算,κ,σ為常量.
設W為基于特征向量v的LDA變換矩陣,則經過LDA變換的梯度特征y可以表示為

從式(15)可以看出,經過LDA變換的梯度特征向量y的計算過程具有類似2DLDA變換的形式(如式(1)).二者的區別在于:在傳統的梯度特征提取過程中,行方向的變換矩陣Q則采用如式(12)、(13)的經驗參數設置,因而難以獲得最有效的漢字區分特征.需要說明的是,在實際的高斯模糊化運算中,式(14)的作用域可能會超出子網格區域.在這種情況下,根據式(14)的作用域大小,通過將漢字圖像劃分為部分重疊的子網格,則這種高斯模糊化運算同樣可以涵蓋在式(11)所表述的框架中.
鑒于 2DLDA變換在人臉識別中的成功應用[12-13,15],本文提出利用2DLDA變換進行手寫漢字特征的優化,即利用2DLDA算法通過對樣本區分信息的學習,最大化類間散度和最小化類內散度,如式(2)、(5),分別實現列向和行向變換矩陣W、Q的優化,避免了式(13)、(14)中的經驗參數設置,從而可以有效地發現訓練樣本中的區分信息,提高手寫漢字特征的識別性能.另外,利用2DLDA變換進行特征優化,變換矩陣Q的列數可以不再限定為1.本文中將根據實驗結果來確定變換后特征矩陣的最佳列數(即行向降維后的維數).
本文實驗中分別采用Noushath的方法[13]和Ye的迭代優化方法[16]進行了測試.在迭代過程中,變換后模式矩陣的行和列數分別取D×D、r×r,在最終的特征變換中,則分別取d1和d2個最大特征值對應的特征向量構成最優變換矩陣Z*和U*,實現特征降維.需要說明的是,傳統的LDA變換中,由于類間散度矩陣的秩最大為C-1,僅存在最多C-1個非零特征值對應的特征向量,變換后的特征向量維數最大只能取C-1.對于2DLDA變換,變換后的模式矩陣的行和列維數最大可能超過C-1.以列向變換為例,其類間散度矩陣如式(3).不失一般性,設U取單位矩陣.令和分別為m×n維矩陣的第j列向量.則:


因此,經過2DLDA變換后的模式矩陣的行數上限為n(C-1).
在梯度特征的優化實驗中,文中采用了均勻網格劃分方法.為了適應手寫漢字的書寫變形,在屬性矩陣計算和特征優化之前,手寫漢字圖像采用基于線間隔的非線性形狀歸一化方法[18],將漢字圖像歸一化為64×64,然后均勻劃分為8×8=64個子網格,并計算每個像素點的8方向梯度特征屬性值.
為了驗證本文提出的手寫漢字特征優化方法的識別性能,我們利用 863手寫體漢字樣本字庫HCL2000中的樣本進行了漢字識別實驗.HCL2000[19]是由北京郵電大學發布的一套脫機手寫漢字識別樣本庫,手寫漢字掃描分辨率為300DPI,并被線性歸一化為64×64的二值圖象.實驗中,從中隨機選擇了200套漢字樣本,其中100套作為訓練樣本,100套作為測試樣本.
本文從國標GB2312-80一級字庫中選取15組易于混淆的相似漢字集作為測試對象,其中每組包含10個相似漢字,由另外單獨訓練的分類器給出的10個候選字構成.圖3給出了一些相似漢字樣本.實驗中,對15組相似漢字集分別進行識別測試,分類器則采用最小歐氏距離分類器.

圖3 實驗中的相似漢字樣本Fig.3 Some samples of the selected similar Chinese character sets in experiments
第1個實驗測試了2種不同2DLDA變換矩陣求解方法,對優化后的手寫漢字梯度特征識別性能的影響.實驗結果如圖4所示.

圖4 不同2DLDA變換矩陣求解方法的識別結果Fig.4 Recognition results with the different ways of computation of 2DLDA transformation matrices
從圖4(a)、(b)中可以看出,不同的行向壓縮維數下,識別率相對穩定,且行向壓縮維數d2為1時,識別率相對較高.表明經過優化的手寫漢字梯度特征,每個子網格取1個特征分量時,已經能夠獲得較好的區分能力.而隨著列向壓縮維數的增加,識別率將會顯著提高.當識別率增加到一定程度,再增加列向壓縮維數,并不能改善漢字特征的區分能力.從圖4(c)可以看出,變換矩陣求解中不進行迭代優化,經過優化后的梯度特征,其識別性能具有一定的優勢.因此,以下實驗中,變換矩陣求解中不再進行迭代優化,且行向壓縮維數d2取1.
第2個實驗對比了在相同特征壓縮維數下,本文方法優化后的梯度特征與傳統梯度特征的識別性能.在傳統梯度特征提取中,采用了以下3種策略: 1)利用彈性網格技術將漢字圖像劃分為子網格,在每個子網格中求梯度屬性的均值,構成梯度特征向量(記為M1);2)將漢字圖像劃分為均勻網格,并在每個子網格中求梯度屬性的均值,構成梯度特征向量(記為M2);3)將漢字圖像劃分為均勻網格,并在每個子網格中利用高斯模糊化運算,構建梯度特征向量(記為M3).在上述特征提取中,均采用8×8的網格劃分.當采用均勻網格時,首先采用基于線間隔的非線性歸一化方法[17]將漢字圖像歸一化為64 ×64.在高斯模糊化運算中,波長等參數則采用文獻[8]中推薦的設置.在傳統梯度特征提取中,特征向量均利用LDA變換進行特征降維.圖5為幾組不同相似字的行向變換中,最大特征值對應的歸一化后特征向量的值(僅給出了前16個分量).從圖5可以看出,對于不同的相似字組,其最大特征值對應的特征向量具有明顯的差別,表明其區分信息的位置各不相同.對于同組相似字,特征向量各分量的值不同,表明不同位置的像素點對區分信息的貢獻也有差別.

圖5 不同相似字的行向變換中,最大特征值對應的歸一化后特征向量的值(前16個分量)Fig.5 Normalized eigenvectors corresponding to the largest eigenvalue in row vector transformation for several different sets of similar characters (The first 16 elements)
識別性能的實驗結果如圖6和表1所示.圖6(a)可以看出,對于不同的相似漢字集,在特征壓縮到相同維數的情況下,經過本文方法優化后的梯度特征,其識別性能均高于經過LDA變換后的3種典型梯度特征.對于本文方法,則為固定行向壓縮維數為1時,不同列向壓縮維數的識別率.

圖6 相同壓縮維數下不同梯度特征的識別結果比較Fig.6 Recognition results comparison of different gradient features with the equal reduced dimensions

表1 不同梯度特征的最好識別結果Table 1 The best recognition rate obtained with different gradient features
圖6(b)可以看出,相對傳統方法,本文方法的識別率具有明顯的提高.在表1中,我們總結了3種典型梯度特征提取方法和本文方法所獲得的最好識別率.可以看出,相對于具有最好性能的傳統梯度特征提取方法 M3,手寫漢字識別錯誤率可以降低48.86%(優化后的特征維數為1×23)和36.39% (優化后的特征維數取),識別率得到明顯改進.實驗結果表明,本文提出的特征優化方法可以有效地發現訓練樣本中的區分信息,驗證了本文方法的有效性.
本文介紹了一種基于2DLDA的手寫漢字特征優化方法,并用于相似漢字識別.通過將特征提取與降維變換結合起來,并設計統一的線性區分分析優化準則,實現特征的優化.實驗結果表明:
1)相對于傳統的特征提取和LDA變換,基于2DLDA的優化方法可以有效地發現相似漢字間的區分信息,改善識別性能;
2)經過優化的特征,其識別性能要優于傳統通過經驗參數設置所提取的特征.相似手寫漢字識別是進一步提高無約束手寫漢字識別系統性能的關鍵問題之一,所提出的方法可以用于改善相似字的識別性能.另外,所提出的方法也可以應用于其他常用手寫漢字特征,例如Gabor特征等優化過程中.
[1]LIU C L,FUJISAWA H.Classification and learning methods for character recognition:advances and remaining problems[M]//MARINAI S,FUJISAWA H.Machine Learning in Document Analysis and Recognition.Berlin:Springer -Verlag,2008:139-161.
[2]LIU C L,YIN F,WANG D H,et al.Chinese handwriting recognition contest 2010[C]//Proc of 2010 Chinese Conference on Pattern Recognition.Beijing,China,2010:1-5.
[3]JIN L W,WEI G.Handwritten Chinese character recognition with directional decomposition cellular features[J].Journal of Circuits,System,and Computers,1998,8(4): 517-524.
[4]DING K,LIU Z B,JIN L W,et al.A comparative study of Gabor feature and gradient feature for handwritten Chinese character recognition[C]//Proc of 2007 Int Conf on Wavelet Analysis and Pattern Recognition.Beijing,China,2007:1182-1186.
[5]HUO Q,GE Y,FENG Z D.High performance Chinese OCR based on Gabor features,discriminative feature extraction and model training[C]//Proc of IEEE Int Conf Acoustics,Speech,and Signal Processing.Salt Lake City,2001: 1517-1520.
[6]LIU C L,NAKASHIMA K,SAKO H.et al.Handwritten digit recognition:investigation of normalization and feature extraction techniques[J].Pattern Recognition,2004,37 (2):265-279.
[7]LIU H,DING X.Handwritten character recognition using gradient feature and quadratic classifier with multiple discrimination schemes[C]//Proc of 8th Int Conf on Document Analysis and Recognition.Seoul,2005:19-23.
[8]BAI Z L,HUO Q.A study on the use of 8-directional features for online handwritten Chinese character recognition[C]//Proc of 8th Int Conf on Document Analysis and Recognition.Seoul,2005:262-266.
[9]LIU C L.Normalization-cooperated gradient feature extraction for handwritten character recognition[J].IEEE Trans Pattern Analysis and Machine Intelligence,2007.29(8): 1465-1469.
[10]LONG T,JIN L W.Building compact MQDF classifier for large character set recognition by subspace distribution sharing[J].Pattern Recognition,2008,41(9):2916-2925.
[11]FISHER R A.The use of multiple measurements in taxonomic problems[J].Annals of Eugenics,1936,7:179-188.
[12]MING L,YUAN B.2D-LDA:a statistical linear discriminant analysis for image matrix[J].Pattern Recognition Letters,2005,26(5):527-532.
[13]NOUSHATH S,HEMANTHA K G,SHIVAKUMARA P. (2D)2LDA:an efficient approach for face recognition[J].Pattern Recognition,2006,39(7):1396-1400.
[14]GAO X,WEN W H,JIN L W.A new feature optimization method based on two-directional 2DLDA for handwritten Chinese character recognition[C]//Proc of the 11th Int Conf Document Analysis and Recognition.Beijing,China,2011:232-236.
[15]RAO C R.The utilization of multiple measurements in problems of biological classification[J].J Royal Statistical Soc.B:Methodological,1948,10:159-203.
[16]YE J,JANARDAN R,LI Q.Two-dimensional linear discriminant analysis[C]//Proc of the 8th Annual Conf on Neural Information Processing Systems.Victoria,British Columbia,Canada,2004:1569-1576.
[17]YANG J,ZHANG D,YONG X,et al.Two-dimensional discriminant transform for face recognition[J].Pattern Recognition,2005,38(7):1125-1129.
[18]LEE S W,PARK J S.Nonlinear shape normalization methods for the recognition of large set handwritten character[J].Pattern Recognition,1994,27(7):895-902.
[19]ZHANG H,GUO J,CHEN G,et al.HCL2000—a largescale handwritten Chinese character database for handwritten character recognition[C]//Proc of The 10th Int Conf Document Analysis and Recognition.Barcelona,Spain,2009:286-290.