張婷,王卓英
?
手寫體數(shù)字計(jì)算機(jī)識(shí)別系統(tǒng)的應(yīng)用研究
張婷,王卓英
摘 要:以手寫體數(shù)字識(shí)別系統(tǒng)的基本處理流程為主線,在圖像模式識(shí)別理論的基礎(chǔ)上提出了一種基于圖像處理、提取數(shù)字幾何結(jié)構(gòu)特征,由構(gòu)建的幾何特征向量通過可變形模板匹配算法對(duì)手寫體數(shù)字進(jìn)行識(shí)別,最后,利用VC++6.0編程軟件對(duì)本識(shí)別算法進(jìn)行實(shí)現(xiàn)。
關(guān)鍵詞:手寫體數(shù)字識(shí)別系統(tǒng);模式識(shí)別;圖像處理;數(shù)字幾何特征;模板匹配
數(shù)字是我們?nèi)粘I钪羞M(jìn)行信息交流不可缺少的重要工具之一,實(shí)現(xiàn)計(jì)算機(jī)的手寫體數(shù)字識(shí)別是加快社會(huì)信息化進(jìn)程的關(guān)鍵所在。手寫體數(shù)字識(shí)別[1](Handwritten Numeral Recognition)是光學(xué)字符識(shí)別技術(shù)(Optical Character Recognition,簡(jiǎn)稱OCR)的一個(gè)分支,它研究的是:如何利用計(jì)算機(jī)自動(dòng)辨認(rèn)手寫在紙上的阿拉伯?dāng)?shù)字。本文提出了一種基于圖像處理技術(shù)提取字符結(jié)構(gòu)特征的識(shí)別算法,闡述了圖像預(yù)處理、特征提取、分類識(shí)別等主要部分。
利用計(jì)算機(jī)自動(dòng)識(shí)別字符的技術(shù)是模式識(shí)別[2-3]應(yīng)用的一個(gè)重要領(lǐng)域。OCR[4-5]是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上的字符,通過檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過程,即針對(duì)字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點(diǎn)陣的圖像文件,并通過識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進(jìn)一步編輯加工的技術(shù)。通常OCR識(shí)別方法有:統(tǒng)計(jì)特征字符識(shí)別技術(shù)、結(jié)構(gòu)字符識(shí)別技術(shù)和基于人工神經(jīng)網(wǎng)絡(luò)的識(shí)別技術(shù)。統(tǒng)計(jì)特征字符識(shí)別技術(shù)一般選取同一類字符中共有的、相對(duì)穩(wěn)定的且分類性能好的統(tǒng)計(jì)特征作為特征向量。結(jié)構(gòu)字符識(shí)別技術(shù)首先要提取字符的結(jié)構(gòu),所有的這些提取出的結(jié)構(gòu)按照某種順序排列起來就構(gòu)成了字符的特征。基于人工神經(jīng)網(wǎng)絡(luò)的識(shí)別技術(shù)目的技術(shù)通過人腦功能和結(jié)構(gòu)的模擬來實(shí)現(xiàn)字符的高效識(shí)別。
本文采用的是結(jié)構(gòu)字符識(shí)別技術(shù),依據(jù)輸入的圖像,動(dòng)態(tài)確定結(jié)構(gòu)特征的選取。結(jié)構(gòu)特征通常包括圈、端點(diǎn)、交叉點(diǎn)、筆畫、輪廓等,其主要優(yōu)點(diǎn)是能描述字符的結(jié)構(gòu),在識(shí)別過程中能有效地結(jié)合幾何結(jié)構(gòu)的知識(shí),以便得到可靠性較高的識(shí)別結(jié)果。
圖像處理(Image Processing),用計(jì)算機(jī)對(duì)圖像進(jìn)行分析,以達(dá)到所需結(jié)果的技術(shù),又稱影像處理。圖像處理一般指數(shù)字圖像處理。數(shù)字圖像處理[6](Digital Image Processing)又稱為計(jì)算機(jī)圖像處理,它是指將圖像信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)并利用計(jì)算機(jī)對(duì)其進(jìn)行處理的過程。進(jìn)行數(shù)字圖像處理所需要的設(shè)備包括攝像機(jī)、數(shù)字圖像采集器(包括同步控制器、模數(shù)轉(zhuǎn)換器及幀存儲(chǔ)器)、圖像處理計(jì)算機(jī)和圖像顯示終端。主要的處理任務(wù),通過圖像處理軟件來完成。數(shù)字圖像處理包括圖像的空間域處理、頻域處理、復(fù)原處理、壓縮處理、形態(tài)學(xué)處理及分割處理等等。
3.1 系統(tǒng)識(shí)別流程
系統(tǒng)識(shí)別流程如圖1所示:

圖1 系統(tǒng)識(shí)別流程圖
它包含圖像輸入、預(yù)處理、特征提取、特征分類及字符識(shí)別等幾個(gè)部分。在輸入階段,用戶將通過CCD攝像頭采集到的二維32位真彩色圖像字符信息加以保存;預(yù)處理階段是系統(tǒng)識(shí)別的基礎(chǔ),樣本在采集時(shí)會(huì)含有各種噪聲的干擾,不能直接用于識(shí)別,因此在對(duì)樣本進(jìn)行識(shí)別前,必須對(duì)其進(jìn)行預(yù)處理;特征提取階段需要對(duì)包含大量信息的預(yù)處理后字符進(jìn)行特征提取和壓縮,獲得代表字符分類的具體特征以及區(qū)分其它字符的目的;最后是通過在特征樣本庫中進(jìn)行特征分類處理獲取待識(shí)別字符所屬類別,完成字符的識(shí)別。3.2 數(shù)字圖像預(yù)處理
基于圖像技術(shù)的手寫體數(shù)字識(shí)別系統(tǒng)中,如果想得到較好的圖像識(shí)別效果,那么在獲得手寫體數(shù)字圖像之后,必須要對(duì)這個(gè)圖像進(jìn)行預(yù)處理[6-7],即通常我們所說的圖像預(yù)處理。預(yù)處理的主要目的是去除字符圖像中的噪聲、壓縮冗余信息,得到規(guī)范化的點(diǎn)陣,為識(shí)別做好準(zhǔn)備。數(shù)字圖像預(yù)處理是后面特征提取、特征分類以及數(shù)字識(shí)別過程的基礎(chǔ),因此,它是一個(gè)非常關(guān)鍵的過程。本文圖像預(yù)處理流程如圖2所示:

圖2 預(yù)處理流程圖
包括圖像灰度化、二值化、平滑去噪、字符分割、傾斜校正、細(xì)化和歸一化等處理過程。
手寫體數(shù)字圖像主要是通過掃描儀或攝像機(jī)等工具對(duì)紙張上的數(shù)字進(jìn)行數(shù)據(jù)采集成為計(jì)算機(jī)中的一幅圖像。所謂灰度處理就是將色彩復(fù)雜的256色的位圖轉(zhuǎn)化成為每個(gè)像素的R、G、B分量都相等的便于計(jì)算機(jī)處理的只包含亮度信息而不包含色彩信息的圖像。所謂二值化就是通過設(shè)定的閾值,把灰度圖像變?yōu)閮H用兩個(gè)灰度級(jí)表示的黑白圖像,二值化的目的就是去除原始數(shù)字圖像中嚴(yán)重影響程序處理速度的、不需要的灰度信息。本文采用動(dòng)態(tài)閾值的方法,將整個(gè)圖像呈現(xiàn)出明顯的黑白效果,如圖3所示:二

圖3 圖像二值化效果
值化處理后的字符圖像通常在背景中有黑色孤立點(diǎn)噪聲或在字符中有白色孤立點(diǎn),這些噪聲會(huì)干擾字符的識(shí)別過程,改變圖像輪廓,影響特征提取精度以及干擾分類識(shí)別,因此在識(shí)別前必須采用相應(yīng)算法將其去除。平滑去噪主要的工作就是選擇平滑模板,選擇模板的質(zhì)量是平滑去噪的關(guān)鍵,其算法思路是通過一點(diǎn)和這點(diǎn)周圍的幾點(diǎn)做平均運(yùn)算,獲取變化很快的點(diǎn)加以去除,達(dá)到濾掉噪聲的目的,本文采用中值濾波對(duì)圖像進(jìn)行平滑去噪,如圖4所示:

圖4 圖像平滑去噪效果
系統(tǒng)識(shí)別時(shí)只能根據(jù)每個(gè)數(shù)字特征單獨(dú)進(jìn)行判別,因此需要對(duì)圖像進(jìn)行字符分割,把圖像中的字符獨(dú)立分割出來。由于人們?cè)跁鴮懙倪^程中一般都是按照行進(jìn)行(垂直方向不一定對(duì)齊),因此本文采用基于垂直投影的直線字符分割方法。
在實(shí)際識(shí)別過程中,由于掃描或拍攝角度的不確定性、光學(xué)失真及機(jī)械偏差等原因,使得獲得的手寫體字符圖像會(huì)存在一定角度的傾斜,為避免影響后續(xù)的工作,必須在字符識(shí)別前對(duì)去進(jìn)行傾斜校正處理。本文采用傾斜圖像自動(dòng)校正的方法,通過一條基準(zhǔn)線對(duì)圖像計(jì)算傾斜度,得到傾斜度后,對(duì)圖像進(jìn)行度數(shù)校正。
同時(shí)由于書寫時(shí)所采用的筆不同,手寫體字符在筆畫寬度上存在一定的非特征差異,為消除這些影響因素,采用細(xì)化算法可以去除字符筆畫寬度的差異,減少圖像的冗余信息量,保留描述字符幾何及拓?fù)湫再|(zhì)的骨架特征,提高識(shí)別精度。本文采用像素領(lǐng)域分析的細(xì)化算法[8],如圖5所示:

圖5 圖像細(xì)化效果
圖像的歸一化是預(yù)處理中非常重要的一環(huán),由于原始圖像在大小方面存在很大的差異,必須進(jìn)行歸一化處理,使其具有相同的大小,即將原來不相同的字符統(tǒng)一到同一高度和寬度,這樣有利于減少網(wǎng)絡(luò)訓(xùn)練的時(shí)間,提高識(shí)別的準(zhǔn)確率。根據(jù)單個(gè)字符最佳寬高比1:1,本文采用線性歸一化的方法歸一化為40×40大小的圖像。
3.3 結(jié)構(gòu)特征提取
手寫體數(shù)字圖像預(yù)處理后,下一步工作是提取手寫體數(shù)字的特征。由于手寫數(shù)字時(shí)往往帶有不規(guī)范性,不同的數(shù)字間的相似度都會(huì)降低識(shí)別率,有效的保持圖像信息是主要目標(biāo)。特征提取是通過變換的方法,把模式空間的高維特征變成模式空間的低維特征,提取數(shù)字圖像中的相關(guān)拓?fù)浣Y(jié)構(gòu)、數(shù)字的筆劃分布情況等特征信息。數(shù)字圖像主要包括端點(diǎn)、分點(diǎn)、拐點(diǎn)、交叉點(diǎn)(三叉點(diǎn)和四叉點(diǎn))、直線、弧圓等結(jié)構(gòu)特征[9],且手寫體數(shù)字圖像的位置和端點(diǎn)的數(shù)量比較穩(wěn)定,基元特征不會(huì)因?yàn)闀鴮懙牟煌l(fā)生太大的變化,如圖6所示:

圖6 圖像上檢測(cè)到的特殊點(diǎn)示意圖
本系統(tǒng)在特征判決時(shí)采用一票否定的思路,即只要一個(gè)條件不滿足就給予否定。如特征提取時(shí)出現(xiàn)了圓則要否定數(shù)字“1”,因?yàn)椤?”無論如何也不可能出現(xiàn)圓。又如特征提取時(shí)出現(xiàn)了四叉點(diǎn)則否定數(shù)字“7”,因?yàn)樵凇?”的書寫過程中不可能出現(xiàn)四叉點(diǎn)。由于拓?fù)浣Y(jié)構(gòu)特征排除的是確定的數(shù)字,因此否定數(shù)字的正確性較高,同時(shí)大大提高了系統(tǒng)的識(shí)別率。
3.4 數(shù)字識(shí)別算法
手寫體數(shù)字識(shí)別技術(shù)中模板匹配算法的本質(zhì)是將待分類的樣本與模板庫中的每個(gè)模板進(jìn)行比較,通過一定的準(zhǔn)則判斷待分類樣本與每個(gè)模板的相似程度,相似度最大的類別即為待分類樣本所屬類別。在系統(tǒng)識(shí)別前,首先制作模板樣本庫。然后將待識(shí)別預(yù)處理后的手寫體樣本與模板樣本采用基于結(jié)構(gòu)特征的可變形模板匹配算法進(jìn)行數(shù)字識(shí)別(可變形模板抗干擾能力強(qiáng),可根據(jù)外界字符影響而改變自身形狀,從而提高系統(tǒng)的識(shí)別率)。本文采用基于提取的手寫數(shù)字特征向量間的最小距離判別準(zhǔn)則[10]來對(duì)手寫數(shù)字進(jìn)行分類。3.5系統(tǒng)實(shí)現(xiàn)和結(jié)果分析
系統(tǒng)硬件由PC機(jī)和CCD攝像頭組成,考慮到軟件系統(tǒng)的應(yīng)用領(lǐng)域及推廣性基于WindowsXP平臺(tái),編程軟件采用VC++完成設(shè)計(jì)構(gòu)造,采用到的系統(tǒng)函數(shù)如表1所示:

表1 系統(tǒng)函數(shù)列表
系統(tǒng)識(shí)別界面如圖7所示:

圖7 識(shí)別界面圖
本算法的實(shí)驗(yàn)樣本集為0-9(共10個(gè)數(shù)字),訓(xùn)練樣本為300個(gè),待識(shí)別樣本200個(gè),實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)如表2所示:

表2 實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)表
實(shí)驗(yàn)結(jié)果表明,本算法耗時(shí)短且識(shí)別率較高。
手寫體字符識(shí)別技術(shù)在人們?nèi)粘I钪斜粡V泛應(yīng)用,主要目的就是通過計(jì)算機(jī)從紙張上獲得手寫體字符信息并加以識(shí)別。本文提出基于手寫體數(shù)字字符結(jié)構(gòu)特征的可變模板匹配算法,以最小距離向量作為分類識(shí)別的依據(jù),設(shè)計(jì)規(guī)模小效率高的模板庫,有效的實(shí)現(xiàn)了手寫體數(shù)字的識(shí)別。
參考文獻(xiàn)
[1] 張曉.手寫數(shù)字識(shí)別的前景與難點(diǎn)[J].計(jì)算機(jī)工程與應(yīng)用,2013(10) :7.
[2] 嚴(yán)紅平,潘春洪.模式識(shí)別簡(jiǎn)述[J].自動(dòng)化博覽,2006(02):22-26.
[3] 范會(huì)敏,王浩.模式識(shí)別方法概述[J].電子設(shè)計(jì)工程,2012(10):48-51.
[4] 岳曉峰,焦圣喜,韓立強(qiáng).模式識(shí)別中的光字符識(shí)別技術(shù)及其應(yīng)用綜述[J].河北工業(yè)科技,2006(09):312-316.
[5] 彭偉.基于OCR識(shí)別信息的語音合成在WEB上的實(shí)現(xiàn)[D].武漢:湖北工業(yè)大學(xué),2007,5.
[6] 陳府庭.字符圖像識(shí)別技術(shù)及應(yīng)用研究[D].廣州:廣東工業(yè)大學(xué),2012,06.
[7] 沈茜. 手寫體識(shí)別識(shí)別系統(tǒng)的研究[J]. 內(nèi)江科技. 2008(04):128-129
[8] Lam.L, W.Lee.S, Suen C.Y. Thinning Methodologies-A Comprehensive Survey[D]. IEEE Transaction on Pattern Analysis and Machine Intelligence.1992,14(9):879.
[9] 盧海霞,楊耀權(quán),蘇杰. 基于圖像處理的手寫體數(shù)字識(shí)別[D]. 儀器儀表與分析監(jiān)測(cè). 2005(03):13-15.
[10] 張婷.基于圖像識(shí)別技術(shù)的光學(xué)標(biāo)記閱讀機(jī)的研究與應(yīng)用[D]. 合肥:安徽大學(xué),2007,05.
Research and Application of Handwritten Numeral Recognition System
Zhang Ting, Wang Zhuoying
(Department of Communication Engineering, STIEI, Shanghai 201411, China)
Abstract:This paper proposes a structure feature of numeral geometry based on image process and extraction on the basis of image pattern recognition theory, regarding the basic process of handwritten digital recognition system as the main line. It uses the match algorithm of deformable template to do handwritten numeral recognition by the constructed vectors of geometry feature. Finally, it uses VC++6.0 to implement the recognition algorithm.
Key words:Handwritten Numeral Recognition System; Pattern Recognition; Image Processing; Digital Geometry Feature; Template Matching
收稿日期:(2015.05.13)
作者簡(jiǎn)介:張 婷(1980-),女,九江人,上海電子信息職業(yè)技術(shù)學(xué)院,通信系,講師,碩士,研究方向:通信技術(shù),上海,201411王卓英(1976-),女,上海人,上海電子信息職業(yè)技術(shù)學(xué)院,通信系,講師,碩士,研究方向:通信技術(shù),上海,201411
基金項(xiàng)目:2014年上海教育委員會(huì)高校中青年教師國(guó)內(nèi)訪學(xué)進(jìn)修計(jì)劃。
文章編號(hào):1007-757X(2016)01-0019-03
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)志碼:A