羅 毅, 李 鶯, 王 鍇, 李 斌
(1.四川理工學院 自動化與電子信息學院,四川 自貢 643000;2.四川理工學院 計算機學院,四川 自貢 643000)
字符識別是模式識別技術的一個重要研究方向,屬于圖像模式識別的范疇。目前,隨著計算技術的不斷發展,越來越多的信息都要實現數字化存儲與處理,尤其是海量的、具有重要價值的文字信息都要利用現有的技術手段實現數字化存儲,才能夠不斷的傳承下去,同時隨著節能環保理念的不斷的深入人心和推進,也要求各種文檔要由紙質向電子文檔轉變,這些過程中都不可避免的要利用到字符識別技術,尤其是字符的結構復雜,相似字符眾多的中文字符的識別,本文的研究的對象就是中文字符的識別問題。
中文字符識別的一個難題就是對于復雜結構的漢字的特征的提取,由于漢字的結構復雜,字體眾多,如何選擇合適的特征映射來描述一個漢字能夠直接決定最終漢字識別的結果,目前常用的特征提取方法有統計特征提取、結構(句法)特征提取[1-2]和基于神經網絡的方法[3]。統計特征方法由于是對字符圖像的每一個點進行統計形成一定的統計特征,所以也就決定了它對于圖像中的噪聲不敏感,但是對字符的細節區分性較差;結構特征提取的方法能夠對形近漢字較好的區分,但是對字符圖像的噪聲非常敏感,影響識別結果;近年來新興的人工神經網絡理論具有一定的并行處理和自學習能力,但是在學習過程中容易陷入局部最小值,也就是泛化能力非常差的情況,所以上述的字符特征提取方法都存在一些急需解決的問題。筆者在研究現有的中文字符特征提取方法基礎上,提出了一種基于Gabor變換的特征提取方法,利用Gabor變換對圖像的紋理方向敏感性獲取漢字筆畫方向特征,實驗結果表明這種特征提取方法能夠較好的獲取中文字符的特征,對識別系統具有較好的支持作用。
Gabor變換是Gabor在1946年的論文”Theory of communication”中提出的以一個高斯函數為平移窗口做短時傅立葉變換的方法,作為時-頻域分析的工具后人命名為Gabor變換[4-5]。Gabor變換就是通過信號進行加窗函數Fourier變換來實現將非平穩的信號分解成一系列的短時間內平穩的信號組合,定義如下:

式中的ga(t)是用于對信號進行窗口操作的窗口函數,一般選用高斯函數,因為高斯函數和其傅立葉變換都是高斯函數的形式,也就能夠實現時域和頻域的局部化分析。常數b確定窗函數的中心位置,a的大小決定窗函數的寬度。a選較小的數值,也就是高斯函數的方差很大,其窗口也就越窄,在時間域的劃分就越細致,時域分辨率也就越高,但頻域的分辨率就會降低。如果a的值越大,則其窗口也就越寬,時域分辨率低,而頻域分辨率高。
將Gabor變換應用到圖像的特征提取就是設計相應的Gabor濾波器對需要提取特征的圖像進行濾波處理,這是因為由上面的(1)式可以看出Gabor變換就是利用一定的Gabor核函數與信號進行時域的卷積運算,也就是頻域的相乘,所以利用一個Gabor濾波器對圖像進行濾波操作就能夠計算相應的Gabor特征向量[6]。
2D-Gabor濾波器是一種方向濾波器,對于圖像中的方向紋理具有很好的檢測效果,本文中采用二維高斯變換調制的一個復正弦波作為Gabor核函數,其形式如下所示。

對Gabor核函數的傅立葉變換,如式(4)。

式中 σu=πσx/2,σv=πσy/2,σx和 σy是 gabor核函數在兩個空間維度x、y方向上的標準差,決定著窗函數的窗口寬度,也就是對圖像的觀察尺度,尺度越大,頻域中局部分辨率也就越低,反之越高;θ是窗口函數的方向角,一般取0~180°,對不同方向的紋理特征進行觀察。
首先,將獲取的灰度字體圖像進行二值化處理。利用一定的閾值分割的算法確定灰度閾值T,對圖像中的每一個像素點進行灰度值判決,大于閾值T的設置為255,反之,小于閾值T的設置為0,從而實現字符圖像分黑白二值化處理。
其次,對二值化處理得到的字符圖像進行歸一化處理。歸一化處理是為了對字符圖像的尺寸進行統一,使得提取的特征能有相同的維數。一般采用雙線性插值的方式進行縮放,實現歸一化。
對一幅輸入的圖像提取Gabor特征就是對圖像使用以(0,0)為中心的Gabor濾波器進行濾波,濾波響應即為輸入圖像的 Gabor特征。 如果 Gabor濾波器的時域表示為 g(x,y,σx,σy,f,θ),圖像的表示為 I(x,y),那么圖像的 Gabor特征也就可以表示為圖像和Gabor濾波器的卷積,即:

Gabor濾波響應其實是一個復數,包含了實、虛兩部分,實部偏重于圖像的內部紋理特征,虛部重點突出圖像的邊緣信息。文中的漢字識別以G(x,y)的幅值做為特征,選取 σx=σy=2,f=4,0°、45°、90°、135°4 個方向對字符圖像進行特征提取,下面是“社”、“會”兩字的2個方向的Gabor變換示意。

圖1 Gabor特征示意Fig.1 Example of gabor feature
根據上圖可以發現0°的Gabor特征是獲取字體的豎直方向的筆畫,45°是獲取筆畫中和“丿”近似方向的筆畫,90°是獲取橫向的筆畫,135°獲取的是漢字的 “”近似方向的筆畫特征。對于16×16大小的字符圖像,獲取了256維的4個方向的一共4組Gabor特征做為字符識別分類器的輸入,實現字符的識別。
本文為了對比利用Gabor濾波器獲取的字符特征與傳統的統計結構特征與結構特征對字符識別系統識別率的影響,選取了100個常用漢字的3種字體(宋體、黑體、楷體)作為樣本,其中80個漢字的不同字體作為分類器的訓練樣本,20個漢字作為測試集,分別利用Gabor濾波的方式和黑像素統計特征以及對字符的不同方向貫穿交點次數特征作為分類器的輸入,得到各自的識別率,各自的識別結果如表1所示。

表1 不同特征提取方法的識別率Tab.1 Recognition rate based on dfferent
實驗結果表明在同樣的分類器條件下,Gabor特征提取方式具有更高的識別率。
根據人類的視覺特征,結合中文字符中筆畫具有不同的方向特征,本文提出了一種基于Gabor濾波器的漢字特征提取方法,與傳統的漢字特征提取方法相比具有較高的識別率。當然,如果Gabor核函數選擇得更佳,效果會更好。
[1]趙繼印,鄭蕊蕊,吳寶春,等.脫機手寫體漢字識別綜述[J].電子學報,2010(2):405-415.
ZHAO Ji-yin,ZHENG Rui-rui,WU Bao-chu,et al.A review of off-line handwritten chinese character recognition[J].Acta Electronica Sinica,2010(2):405-415.
[2]涂巖愷,陳慶虎,黃亮.手寫漢字識別的偽二維彈性網格方法[J].華中科技大學學報:自然科學版,2010,38(11):37-40.
TU Yan-kai,CHEN Qing-hu,HUANG Liang.Pseudo twodimension elastic mesh method for recognizing Chinese characters written by hand[J].J.Huazhong Univ.of Sci.&Tech:Natural Science Edition,2010,38(11):37-40.
[3]居琰,汪同慶,彭建,等.特征融合用于手寫體漢字識別研究[J].電子科技大學學報,2007,31(3):229-233.
JU Yan,WANG Tong-qing,PENG Jian,et al.Research onhandwritten chinese characterrecognition using feature fusion andmodular RBF classifier[J].Journal of UEST of China,2007,31(3):229-233.
[4]冉啟文.小波變換與分數傅立葉變換理論及應用[M].哈爾濱:哈爾濱工業出版社,2001.
[5]王林.基于Gabor變換的木材表面缺陷識別方法的研究[D].哈爾濱:東北林業大學,2010.
[6]康俊芳.基于Gabor變換的圖像特征提取方法研究[D].昆明:云南大學,2010.