李霄霄
【摘 要】本文介紹了漢字OCR的原理、并對字符識別作了解釋與研究,提出一種基于OCR識別的文字識別方法,在對文字信息、圖像顯示以及校正過程提出了自己的算法,對文字結構及讀寫方法進行了分析。試驗表明該方法具有很快的計算速率,透過試驗可以使差錯率控制在很低。
【關鍵詞】OCR;文字處理;字符識別
Research and Implementation of Character Recognition Based on OCR
【Abstract】This paper introduces the principle of OCR in Chinese characters, and explains and studies the character recognition. It proposes a text recognition method based on OCR recognition. It puts forward its own algorithm for text information, image display and calibration process. And reading and writing methods were analyzed. Experiments show that the method has a very fast calculation rate, through the test can make the error rate is very low.
【Key words】OCR; Word processing; Character recognition
0 引言
印刷體漢字識別系統由三部分組成:輸入設備、漢字識別模塊和計算機硬件及軟件。漢字識別是主要部分,主要步驟為預處理、提取特征、匹配特征和后處理。本文預處理包括二值化、平滑去噪和文本行字切分。通過光電掃描儀,CCD器件等工具將漢字圖像處理成二維圖像信號,以圖片形式顯現,再經預處理,特征的提取與匹配及后處理實現漢字識別。
OCR(Optitcal Character Raeder)是光學字符閱讀機,是一種自動讀入文字(手寫體或印刷體)的計算機。本文是基于OCR來做的一種字符識別的研究,極大降低了字符識別的錯誤率,提高了準確度。
1 原理與識別方法
漢字OCR是通過光電輸入設備使文字內容轉化成二維點陣信息,再用規定的識別法將其轉換成漢字。這一套轉換工作稱作漢字識別系統。
1.1 漢字識別系統的組成及各模塊的功能
漢字識別系統包括漢字圖形輸入設備、預處理儀器、識別儀器和后處理儀器。
漢字圖形輸入設備作用是完成文字原稿的輸入,是通過光電輸入設備,經一定的閥值控制,將原文字轉換成為二維點陣圖形。
預處理由文稿頁成分析與理解、字符的分割、歸一化和去干擾組成。通過分析與理解對原文字整版面進行數據分割,分割成圖像塊、文字塊等,理解和標注其屬性及連接關系,準確分割文字塊,最終分割成單個漢字圖像,再通過大小及位置的歸一化,進行算法識別。識別前還要對漢字圖像去干擾。
后處理是有效運用詞組和上下文聯系對識別的漢字圖像進行糾錯。后期處理器還要完成文稿的輸出。
1.2 漢字識別方法
識別器質量越高,識別系統的性能越好。識別漢字主要有統計模式識別和結構模式識別。統計模式識別:提取待識別文本的一組特征值,按照統計函數進行數值分析,這是有一定準則的,根據分析所得結果確定漢字。此識別對單個漢字的辨認率高,但是對不同字體,尤其是手寫文稿的識別,效果不太好。結構模式識別:對漢字的結構特征及組字的特定規律進行有效提取,然后對漢字進行識別。結構識別是把漢字結構當作精簡的集合,即基元。固漢字識別是將漢字分開成多個基元的歸總。結構模式適用與書體規整,結構清晰的印刷體文稿漢字。中國漢字量很大,但漢字是圖片字符,含有豐富的結構信息,所以比較統計模式,結構識別使用更廣。
1.3 手寫體漢字單字識別
手寫體漢字單字識別主要解決手工輸入漢字的問題。雖然手工輸入方法種類很多,但都必須學習并記憶漢字拼法(結構碼),記憶量不確定,且容易忘記。若將手寫體識別技術運行到實際中,輸入漢字將不成問題,因為不需要在最初進行一系列培訓和記憶,漢字的輸入就如同平時手寫一般,簡單便捷。
2 字符特征提取系統圖像預處理
在字符識別前有一項重要步驟:字符圖像的預處理。其主要功能是消除字符圖像中的噪聲,對字符圖像斷線、粘連現象進行修正;運用各種歸一化方法,讓變換后圖像更穩定,以便于分辨。
2.1 字符圖像去噪
字符圖像的噪聲可分為兩類:白色背景下的黑點噪聲和黑色背景中的白色噪聲。對字符的粘連現象,在進行特征提取時應選取對內部結構不敏感的特征,如“外圍輪廓特征”;對字符的斷線現象,特征提取的時應選取對筆劃結構不敏感的特征,如“模版匹配”;離散的黑象素噪聲主要對英文字符歸一化后造成一定偏移,導致識別失敗,可在歸一化過程中予以消除。
2.2 字符圖像歸一化
對字符圖像提取特征前需進行歸一化處理,有大小歸一化、位置歸一化和筆劃粗細歸一化。實際中一般只采用大小和位置歸一化。
3 字符特征提取
字符識別中常用特征有穿越特征、外圍特征、網格特征等。
3.1 穿越特征
穿越特征從水平和豎直兩方面計算結構特征,先計算水平方向:將32行圖像平分為8個區域,每個區域包括四行像素。逐一計算每行中從白像素到黑像素的變化次數,統計8個區域中各行變化次數的總和即可得到前8維特征,再根據前8維特征利用公式計算,將結果作為第9至16維特征,得到水平方向的前16維特征。在豎直方向統計計算得后16維特征,最終構成32維穿越特征。endprint
3.2 外圍特征
外圍特征在漢字識別中常作為粗分類特征,反映字符輪廓特征。
它的提取過程為:第一將64*64的圖像從四個方位等分成八份,從圖像四面分別向對面掃描,假設從左向右逐一等分的八塊區域,每個區域包括八行像素,計算各行左邊框與最初字符筆劃遇到的部位所圈成的空白區域的面積,每個結果和該塊全部面積的比值當作前八圍外圍特征。同上從其他方面都提取八維特征,最終得到32圍特征。
3.3 網格特征
網格特征是基于二值圖像,將64*64的圖像平均分成64個方塊,每塊大小為8*8,分開計算每個方塊的黑象素個數,用向量作為64維的網格特征。
4 特征提取系統分類器設計
本文采用模板匹配法,先提取樣本的n維特征,再提取待識別字符的n維特征,對照產生結論。算法采用歐氏距離。即經過計算待識別字符的特征向量與模板庫中提取的特征向量之間的歐氏距離,取模板中與計算出的歐氏距離最小的作匹配,將匹配字符輸出。
5 實驗結果分析
5.1 實驗環境
該算法基于Matlab仿真實現。實驗過程中使用字母、單詞、文檔三種,其中有宋體、仿宋等形式。在特征與分類器的交叉試驗及特征加權系數試驗中使用字母樣本,經樣本整理,掃描文檔,然后運用自動收集單詞的程序將文檔中的單詞保存為BMP圖片形式得到,文件名設置為單詞內容的數字,這有助于在系統性能測試中測識別率。文檔樣本是利用掃描儀掃描英文文檔所得,分辨率為300dp。
5.2 實驗現象
matlab仿真實驗能夠準確的讀取BMP圖片中的數字及字母信息。分析可知當輸入手寫體或正常字體的數字或字母時,該算法都能準確識別出字體內容,具有較高的精確度,且算法解讀時間短,比較快捷,適合推廣和應用。
6 結論
因為現代有大量的文件和圖像讀取操作,對字符的識別主要需考慮它的計算速度和對資源的節省,盡可能使執行更快速便捷。本文采用的方法不是對文件讀取,而是在內存數組中進行的;在定位數組時采取間接尋址方法,相比查找比較等方法,對計算效率有極大提高。另外在顯示圖像方面,也采取了一些策略,例如當顯示上一屏圖像時,將下一屏的圖像計算出并放到內存中,所以顯示圖像更迅速。總而與之,本文算法能滿足基本的圖片中文檔信息的讀取并實現信息方式的轉換。
【參考文獻】
[1]錢揖麗,鄭家恒.漢語語料詞性標注自動校對方法的研究[J].中文信息學報,2004,(2):30-35.[2].
[2]駱衛華,羅振聲,宮小瑾.中文文本自動校對技術的研究[J].計算機研究與發展,2004,(1):244-249.
[3]趙燁,王明磊,李新友.OCR在大數據量文檔系統中的應用[J].計算機應用, 2000,20(增):336-338.
[4]Alessandro Vinciarelli. A Surveyon Off- line Cursive Word Recognition[J].Pattern Recognition.2002,(35):1433-1446.
[5]荊濤,王仲.光學字符識別技術與展望[J].計算機工程.2003, 29(2):1- 2.
[責任編輯:張濤]endprint