謝蘭軍 劉健


摘 要:字符切分的任務是把整個字符串圖像中的每個字符切割出來,使其成為單個數字的圖像。字符切分是數字字符識別中的關鍵步驟之一。在圖像預處理后,由于小數點粘連造成字符粘連,無法正確切分字符。針對小數點造成的粘連情況,考慮小面積剔除法將小數點去除,保證字符切分正常。小面積剔除法首先將圖像中各個部分加以統計得到其面積,然后根據面積的不同確定閾值將小數點與數字字符區分開來,剔除小數點。經過處理之后的圖像再進行預處理,使用直線投影切分法將字符切分提取出來。實驗表明該方法效果良好。
關鍵詞:字符切分 圖像預處理 小數點 小面積剔除
中圖分類號:G64 文獻標識碼:A 文章編號:1672-3791(2015)05(b)-0222-02
Abstract:The purpose of character segmentation is to cut out entire character string and turn it into a single digital image.Character segmentation is one of the key steps in the digital character recognition.After preprocessing,due to adhesions caused by a decimal point, character segmentation cannot be done correctly.In order to solve the problem of adhesions by decimal, proposing a method by excluding small areas to remove the decimal point.First,we get the statistical area of the various parts of the image,and then determine the threshold to distinguish the decimal from numeric characters,finally exclude the decimal point.After that,we preprocess the image,use linear projection segmentation to pick out the character.The experiment indiclrte that the method works well.
Keywords:Character segmentation;Preprocess;Decimal;Exclude small areas
字符切分主要是指把整個待識別字符串圖像中的單個字符都切割提取出來,讓它成為單個數字圖像以便識別。字符切分準確與否,直接影響著提取到正確的數字特征的成功率,而且識別的正確性也就大大降低了。在字符切分的過程中存在著很多不同的因素,影響著字符的切分,如數字字符大小的不同、數字字符字體的多樣性、數字字符的傾斜以及圖像預處理結果的清晰程度,都影響著數字字符的切分。
根據黑點數統計進行投影的直線切分方法是一種比較直觀和簡單的方法,其基本思路為:先對圖像進行垂直投影,然后再根據其對應的投影曲線,選取曲線中大波谷作為切分區域。在一般情況下,字符串中的字符間隙都是沒有筆畫部分,經過垂直投影后在間隙處出現大波谷的部分,根據大波谷來判斷進行切分是可以正確切分這些沒有粘連和重疊區域的數字串,對于有粘連和重疊區域的數字字符串就無法正確切分了。所以對于印刷體的數字串或者字符間距較大的數字串、書寫工整的數字串的切分這種切分,方法都適用。
該文主要研究小數點造成數字字符粘連情況下的直線切分法實現字符切分,采用小面積剔除方法將小數點剔除來解決小數點造成的字符粘連問題,保證字符能順利切分。
1 直線切分方法
該文使用直線切分方法對數字字符進行切分。直線切分方法是一種相對比較傳統的數字字符切分方法,它對簡單的二維目標切分非常有效。切分過程中的主要難點在于判斷是否有數字字符粘連或者斷裂,以及粘連,斷裂的數字的處理。
統計圖像在水平和豎直方向上的投影,是很常用的一種簡單實用方法。它的基本思想是統計出圖像在水平投影和豎直投影,然后再分析投影統計值的變化,來具體分析出含有七段式數字顯示儀表中的數字字符的位置。這種方法處理的圖像主要是二值圖像。將經過灰度處理、二值化、膨脹、腐蝕和平滑后的圖像用來切分,經過這些預處理后的圖像如圖1。
由式(1)和式(2)可以得出,水平方向上的投影是圖像A列數的一個函數。其中第行對應的投影值,是這一行中黑色像素點的個數。豎直方向上的投影,是圖像A行數的一個函數。其中第j列對應的投影值,是這一列中黑色像素點的個數。
使用公式(1)和(2)對待切分數字字符圖像進行投影統計,得到圖像的水平和豎直投影如圖2和3。
由圖像的豎直投影可知數字與數字之間存在空白,那么沿著這些空白將數字字符切分,同時依據水平方向投影截去圖像上下的空白,得到數字字符切分結果如圖4。
2 粘連字符切分
但是,預處理后的圖像在使用投影法切分字符的時候,發現會出現字符粘連的在一起。在圖像膨脹處理的時候,為了消除七段碼之間的間隙、孔洞,但同時將小數點也采取了膨脹處理,導致小數點與前后兩個數字字符粘連在一起,如圖5。這樣的字符粘連在一起使得字符切分的時候前面兩個字符沒有切分開來,如圖6,這樣就會造成字符無法識別。
字符切分直接影響字符識別的正確率,如圖6這種類型情況就必須將小數點影響解決才能正確切分字符。那么就得在預處理中圖像膨脹前將小數點去掉。
此時考慮單個字符與小數點的區別,發現小數點所占面積遠小于字符所占面積,如圖7。
由圖7可以看出,小數點的面積在七段碼數字中面積最小,采取剔除小面積區域方法將小數點刪除,解決字符粘連的問題,再進行膨脹就不會出現字符粘連情況。字符切分情況如圖8。
3 結語
結合直線切分方法,利用水平投影與豎直投影,解決了包含小數點時造成字符粘連的問題,將數字字符從圖像中提取出來,為后續作字符識別提供保障。小面積剔除法去除小數點,解決粘連問題效果良好。
參考文獻
[1] 張春伶.圖像分割算法綜述與探索[J].科技創新與應用,2012(10):55-56.
[2] 丁可.數字圖像處理技術研究與發展方向[J].經濟研究導刊,2013(18):246-247.
[3] 張淑娟.基于邊緣檢測的圖像處理軟件的開發及優化[J].電子測試,2013(24):3-4.
[4] 郭亮勇,王國海.聯機手寫字符識別技術研究與實現[J].軟件導刊,2013(5):145-146.