陳 輝
摘要 本文對車牌識別中的字符的結構特征提取方法和統計特征提取方法做了概述,并對二者進行了比較,分析其二者各自的利弊。
關鍵詞 車牌識別;字符;提取
中圖分類號 U491文獻標識碼 A文章編號 1674-6708(2009)05-0035-02
0引言
字符識別的特征提取主要有結構特征提取方法和統計特征提取方法兩種方法。車牌字符,包括漢字、英文和數字,有其特殊的結構特征,如筆畫、拓撲點、結構突變點等等,這些結構特征可區別性強、穩定性好,可以作為特征用來進行分類。這種以字符圖像的自身結構作為提取特征,與設定好的模板進行相關計算,得到與字符相似度最大的模板,從而判斷其所屬的類別,稱為結構特征提取方法。另外一種方法是統計特征提取方法,這種方法,需要對整個字符圖像進行變換,在大量訓練集樣本中估計統計特征的分類情況、設定分類器,然后根據識別器的分類曲面進行分類判別。
1字符的結構特征提取方法
結構特征提取方法的基本思想是把字符圖像分割簡化為若干基元,如筆畫、拓撲點、結構突變點等,與模板對比,觀察必要的基元是否存在,不可以有的基元是否出現,從而判斷所屬的類別。在字符識別的早期,這種方法得到了廣泛的應用,如何得到以基元表示的結構信息是結構特征提取方法的重點。目前為止,主要有根據骨架、輪廓和筆畫得到結構基元的方法。在這里面,最常使用的是將字符細化得到骨架作為結構基元。
中軸變換(medial axis transform,MAT)是一種用來確定物體骨架的細化技術,中軸變換具有邊界B的區域R的MAT是這樣確定的。對每個R中的點P,我們在B中搜尋與它最近的點,如果對P能找到多于一個這樣的點(即有2個或以上的B中的點與P同時最近),就可認為P屬于R的中線或骨架,或者說P是1個骨架點。理論上講,每個骨架點保持了其與邊界距離最小的性質,所以如果用以每個骨架點為中心的圓的集合,就可以恢復出原始的區域來。具體就是以每個骨架點為圓心,以前述最小距離為半徑作圓周。它們的包絡就構成了區域的邊界,填充圓周就得到區域。或者以每個骨架點為圓心,以所有小于和等于最小距離的長度為半徑作圓,這些圓的并集就覆蓋了整個區域。

圖1是一些區域和它們的用歐氏距離算出的骨架。由圖(a)和圖(b)可知,對較細長的物體其骨架常能提供較多的形狀信息,而對較粗短的物體則骨架提供的信息較少。注意,有時用骨架表示區域受噪聲的影響較大,例如比較圖(c)和圖(d),其中圖(d)中的區域與圖(c)中區域只有一點兒差別(可認為由噪聲產生),但兩者的骨架相差很大。

基于骨架的結構特征提取方法,在保持字符特征的基礎上,大大簡化了字符的表達,減少了字符的信息量,但它也有自身的缺點,它過多的依賴于圖像的細化質量。當圖像中有墨點或粘連的框線時細化常常會產生拓撲結構上的變化。
輪廓可以反映字符圖像的結構,提取方法簡單,結果確定,是一種較好的數據信息源。輪廓提取的方法,是在提取字符骨架的基礎上掏空內部點,我們首先按從上往下,從左往右的順序找到其第一個黑點,也就是0點,然后找其點的各方位的點,每個點都與0點相比較,如果所有值都相等,那么這個點就為此圖的內部點,就去掉此點信息,將此點的值設為1,然后重新尋找新的內部點,如果不是所有的都相等,那么直接尋找下一個點信息。輪廓相對于骨架,帶入了更精確的位置,也節省了細化的運算量,但它易受到筆畫寬度和斷線的影響。并且預先設定的規則中有很多涉及位置參數,適于質量較好的圖像。
另外,字符的局部筆畫特征是很重要的標志性特征。可用于區分“由”與“田”,“于” 和“干”的局部差異。
結構特征提取方法的缺點在于難以擺脫字體變形及噪聲的影響。字體變形對結構的影響幾乎無規律可循,因而容易造成規則庫的片面性。即使能夠得到較為全面的規則庫,也存在規則的靈活應用問題,這些問題嚴重影響系統性能。因此,僅靠模板的機械性匹配句法和規則的推理方法是遠遠不夠的。
2字符的統計特征提取方法
統計特征提取方法是通過選取同一類字符中相對穩定的分類性能好的共有統計特征作為特征向量,包括字符的位置特征、筆畫特征、水平投影直方圖和垂直方向投影直方圖特征、矩特征等等。字符經過頻域變換或其它變換后得到統計特征,然后在大量訓練集樣本中估計統計特征的分類情況,設定分類器,最后根據識別器的分類曲面進行分類判別。大量字符的統計特征經過提取和分類后形成關于字符原型知識,構成識別字符的模板信息,存儲在識別系統中。在識別時首先提取相同的統計特征,然后與識別系統存儲的字符原型知識匹配比較,根據比較結果確定字符的最終分類。
統計特征包括全局特征和局部特征。全局特征包括字符歐拉數特征、外圍輪廓特征、方向鏈碼、周邊面積等,局部特征包括網格特征、線段梯度、線段方向長度、筆畫密度等。全局特征對平移和旋轉具有不變性,對局部變化不敏感,抗干擾能力強,但容易忽視某些重要的局部信息無法正確區分相似字,計算代價也較大;局部特征區分相似字的能力較強,但是無法適應不同的書寫風格。
3結構方法和統計方法的比較
結構方法和統計方法各有利弊,結構方法的優點是對細節的變化比較敏感,能夠較好的分辨出結構上的細微的差別,在區分字形相近,結構上有細微差別的字符時,通常會比較有效。缺點是魯棒性較差,對噪聲比較敏感,容易受到干擾,而且由于對字符結構特征的描述要占用大量的存儲資源,因此,算法在實現上相對復雜、識別速度也比較慢。統計方法的優點是對噪聲不敏感,有較好的魯棒性和穩定性,缺點是對細節上的細微差別反映不靈敏,不能很好地區分字與字之間的一些細節上的差異,無法對字符進行細分類。在實際的應用中,我們應該結合結構方法和特征方法的優點,特征提取在保證系統識別的穩定性和準確率的同時,也要兼顧好系統的識別速度和處理時間,處理好速度和識別率之間矛盾。