摘 要:采用特征識別的方法,提取數(shù)字的區(qū)域像素、水平過線、垂直過線三大方面的17個特征值對印刷體數(shù)字進(jìn)行識別。利用MATLAB進(jìn)行仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該識別方法簡單,識別率高,速度快,抗干擾性強(qiáng),對于不同字體、字形、字號的印刷體數(shù)字,能夠快速準(zhǔn)確識別,具有廣泛的用途。
關(guān)鍵詞:特征提取;印刷體數(shù)字識別;模式識別
中圖分類號:TP391.43文獻(xiàn)標(biāo)識碼:A
1 概 述
光學(xué)字符識別(OCR)技術(shù)在通過了幾十年的發(fā)展以后,已經(jīng)日益成熟。作為字符識別的一個分支,印刷體數(shù)字識別廣泛應(yīng)用于多個領(lǐng)域,具有重要的實(shí)用價值。與文字識別相比,數(shù)字識別只需要識別10個數(shù)字,其識別難度相對較小。現(xiàn)有的數(shù)字識別方法大致分為兩類:基于結(jié)構(gòu)特征的方法[1-3]和基于統(tǒng)計(jì)特征的方法[4]。
使用統(tǒng)計(jì)特征的分類易于訓(xùn)練,且在給定的訓(xùn)練集上能得到較高的識別率,然而在訓(xùn)練集之外無法保證識別效果。使用結(jié)構(gòu)特征的方法利用字符的固定結(jié)構(gòu)提取特征,在識別過程中有效地結(jié)合結(jié)構(gòu)信息,與基于統(tǒng)計(jì)特征的方法相比具有更強(qiáng)的適應(yīng)性。
實(shí)際應(yīng)用中,通常采用多特征抽取的方法來實(shí)現(xiàn)印刷體數(shù)字的快速識別。文獻(xiàn)[1]通過數(shù)字的閉合特征進(jìn)行識別,文獻(xiàn)[2]進(jìn)一步引入了數(shù)字的寬高比以提高識別速度,文獻(xiàn)[3]則采用模型匹配的方法通過13個結(jié)構(gòu)特征進(jìn)行識別。對于固定字體的印刷體數(shù)字序列,通過調(diào)整識別參數(shù),以上方法均能夠獲得較好的識別效果;然而對于不同字體混合的印刷體數(shù)字序列,以上方法的識別率會有不同程度的降低。
為了提高混合字體的印刷體數(shù)字的準(zhǔn)確率,我們提出了一種改進(jìn)的基于特征模板的識別方法,能對不同字體、字形、字號的印刷體數(shù)字進(jìn)行快速準(zhǔn)確的識別,包括以下步驟:
1)預(yù)處理,將數(shù)字圖像序列二值化,進(jìn)行字符分割;
2)歸一化,統(tǒng)一字符大小以實(shí)現(xiàn)尺寸歸一化,細(xì)化字符線條以實(shí)現(xiàn)線條歸一化;
3)特征提取,提取待識別數(shù)字圖像各特征的數(shù)值;
4)數(shù)字識別,將待識別的圖像各特征與模板的各特征值進(jìn)行比對,輸出識別結(jié)果。
在首次數(shù)字識別前,需要對樣本數(shù)字圖像進(jìn)行特征提取,將各數(shù)字的識別特征存入文件作為模板特征值信息,在后續(xù)的識別過程中直接從文件讀入,無需重復(fù)學(xué)習(xí)。另外,將數(shù)字特征值保存在文件中,在需要的時候能夠使用新的樣本數(shù)字的特征值進(jìn)行更新,具備良好的擴(kuò)展性。
2 預(yù)處理
2.1 二值化
二值化的主要目的是為了對圖像進(jìn)行色彩分離,從而便于進(jìn)行圖像分割和特征提取。我們采用全局二值化方法,根據(jù)閾值對圖像進(jìn)行二值化。當(dāng)閾值為T時,全局二值化在圖像的二維空間內(nèi)表示為:
s(i,j)=0,s(i,j)≤T1,s(i,j)>T
為了有效適應(yīng)不同的字符灰度值,閾值設(shè)為圖像所有像素灰度值平均值的一半。
2.2 字符分割
輸入圖像中一般會含有多個數(shù)字,識別的時候只能根據(jù)單個字符的特征來進(jìn)行判斷,因此需要字符分割。字符分割將數(shù)字區(qū)域圖像分割為單個數(shù)字的小圖像,以便進(jìn)行特征提取和識別。我們采用水平投影法進(jìn)行圖像分割。
計(jì)算技術(shù)與自動化2011年9月
第30卷第3期陳愛斌等:基于多特征的印刷體數(shù)字識別
采用投影法進(jìn)行定位和分割的優(yōu)點(diǎn)是簡單快捷。由水平投影可以得到該行數(shù)字的列坐標(biāo)最小值、最大值和列分割點(diǎn),從而可以確定每個數(shù)字的左右邊界。
水平投影對存放投影值的數(shù)組p進(jìn)行掃描檢測,其數(shù)字邊界確定公式為: