999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于OCR的字符識別的研究與實現

2017-10-09 21:48:08李霄霄
科技視界 2017年14期

李霄霄

【摘 要】本文介紹了漢字OCR的原理、并對字符識別作了解釋與研究,提出一種基于OCR識別的文字識別方法,在對文字信息、圖像顯示以及校正過程提出了自己的算法,對文字結構及讀寫方法進行了分析。試驗表明該方法具有很快的計算速率,透過試驗可以使差錯率控制在很低。

【關鍵詞】OCR;文字處理;字符識別

Research and Implementation of Character Recognition Based on OCR

【Abstract】This paper introduces the principle of OCR in Chinese characters, and explains and studies the character recognition. It proposes a text recognition method based on OCR recognition. It puts forward its own algorithm for text information, image display and calibration process. And reading and writing methods were analyzed. Experiments show that the method has a very fast calculation rate, through the test can make the error rate is very low.

【Key words】OCR; Word processing; Character recognition

0 引言

印刷體漢字識別系統由三部分組成:輸入設備、漢字識別模塊和計算機硬件及軟件。漢字識別是主要部分,主要步驟為預處理、提取特征、匹配特征和后處理。本文預處理包括二值化、平滑去噪和文本行字切分。通過光電掃描儀,CCD器件等工具將漢字圖像處理成二維圖像信號,以圖片形式顯現,再經預處理,特征的提取與匹配及后處理實現漢字識別。

OCR(Optitcal Character Raeder)是光學字符閱讀機,是一種自動讀入文字(手寫體或印刷體)的計算機。本文是基于OCR來做的一種字符識別的研究,極大降低了字符識別的錯誤率,提高了準確度。

1 原理與識別方法

漢字OCR是通過光電輸入設備使文字內容轉化成二維點陣信息,再用規定的識別法將其轉換成漢字。這一套轉換工作稱作漢字識別系統。

1.1 漢字識別系統的組成及各模塊的功能

漢字識別系統包括漢字圖形輸入設備、預處理儀器、識別儀器和后處理儀器。

漢字圖形輸入設備作用是完成文字原稿的輸入,是通過光電輸入設備,經一定的閥值控制,將原文字轉換成為二維點陣圖形。

預處理由文稿頁成分析與理解、字符的分割、歸一化和去干擾組成。通過分析與理解對原文字整版面進行數據分割,分割成圖像塊、文字塊等,理解和標注其屬性及連接關系,準確分割文字塊,最終分割成單個漢字圖像,再通過大小及位置的歸一化,進行算法識別。識別前還要對漢字圖像去干擾。

后處理是有效運用詞組和上下文聯系對識別的漢字圖像進行糾錯。后期處理器還要完成文稿的輸出。

1.2 漢字識別方法

識別器質量越高,識別系統的性能越好。識別漢字主要有統計模式識別和結構模式識別。統計模式識別:提取待識別文本的一組特征值,按照統計函數進行數值分析,這是有一定準則的,根據分析所得結果確定漢字。此識別對單個漢字的辨認率高,但是對不同字體,尤其是手寫文稿的識別,效果不太好。結構模式識別:對漢字的結構特征及組字的特定規律進行有效提取,然后對漢字進行識別。結構識別是把漢字結構當作精簡的集合,即基元。固漢字識別是將漢字分開成多個基元的歸總。結構模式適用與書體規整,結構清晰的印刷體文稿漢字。中國漢字量很大,但漢字是圖片字符,含有豐富的結構信息,所以比較統計模式,結構識別使用更廣。

1.3 手寫體漢字單字識別

手寫體漢字單字識別主要解決手工輸入漢字的問題。雖然手工輸入方法種類很多,但都必須學習并記憶漢字拼法(結構碼),記憶量不確定,且容易忘記。若將手寫體識別技術運行到實際中,輸入漢字將不成問題,因為不需要在最初進行一系列培訓和記憶,漢字的輸入就如同平時手寫一般,簡單便捷。

2 字符特征提取系統圖像預處理

在字符識別前有一項重要步驟:字符圖像的預處理。其主要功能是消除字符圖像中的噪聲,對字符圖像斷線、粘連現象進行修正;運用各種歸一化方法,讓變換后圖像更穩定,以便于分辨。

2.1 字符圖像去噪

字符圖像的噪聲可分為兩類:白色背景下的黑點噪聲和黑色背景中的白色噪聲。對字符的粘連現象,在進行特征提取時應選取對內部結構不敏感的特征,如“外圍輪廓特征”;對字符的斷線現象,特征提取的時應選取對筆劃結構不敏感的特征,如“模版匹配”;離散的黑象素噪聲主要對英文字符歸一化后造成一定偏移,導致識別失敗,可在歸一化過程中予以消除。

2.2 字符圖像歸一化

對字符圖像提取特征前需進行歸一化處理,有大小歸一化、位置歸一化和筆劃粗細歸一化。實際中一般只采用大小和位置歸一化。

3 字符特征提取

字符識別中常用特征有穿越特征、外圍特征、網格特征等。

3.1 穿越特征

穿越特征從水平和豎直兩方面計算結構特征,先計算水平方向:將32行圖像平分為8個區域,每個區域包括四行像素。逐一計算每行中從白像素到黑像素的變化次數,統計8個區域中各行變化次數的總和即可得到前8維特征,再根據前8維特征利用公式計算,將結果作為第9至16維特征,得到水平方向的前16維特征。在豎直方向統計計算得后16維特征,最終構成32維穿越特征。endprint

3.2 外圍特征

外圍特征在漢字識別中常作為粗分類特征,反映字符輪廓特征。

它的提取過程為:第一將64*64的圖像從四個方位等分成八份,從圖像四面分別向對面掃描,假設從左向右逐一等分的八塊區域,每個區域包括八行像素,計算各行左邊框與最初字符筆劃遇到的部位所圈成的空白區域的面積,每個結果和該塊全部面積的比值當作前八圍外圍特征。同上從其他方面都提取八維特征,最終得到32圍特征。

3.3 網格特征

網格特征是基于二值圖像,將64*64的圖像平均分成64個方塊,每塊大小為8*8,分開計算每個方塊的黑象素個數,用向量作為64維的網格特征。

4 特征提取系統分類器設計

本文采用模板匹配法,先提取樣本的n維特征,再提取待識別字符的n維特征,對照產生結論。算法采用歐氏距離。即經過計算待識別字符的特征向量與模板庫中提取的特征向量之間的歐氏距離,取模板中與計算出的歐氏距離最小的作匹配,將匹配字符輸出。

5 實驗結果分析

5.1 實驗環境

該算法基于Matlab仿真實現。實驗過程中使用字母、單詞、文檔三種,其中有宋體、仿宋等形式。在特征與分類器的交叉試驗及特征加權系數試驗中使用字母樣本,經樣本整理,掃描文檔,然后運用自動收集單詞的程序將文檔中的單詞保存為BMP圖片形式得到,文件名設置為單詞內容的數字,這有助于在系統性能測試中測識別率。文檔樣本是利用掃描儀掃描英文文檔所得,分辨率為300dp。

5.2 實驗現象

matlab仿真實驗能夠準確的讀取BMP圖片中的數字及字母信息。分析可知當輸入手寫體或正常字體的數字或字母時,該算法都能準確識別出字體內容,具有較高的精確度,且算法解讀時間短,比較快捷,適合推廣和應用。

6 結論

因為現代有大量的文件和圖像讀取操作,對字符的識別主要需考慮它的計算速度和對資源的節省,盡可能使執行更快速便捷。本文采用的方法不是對文件讀取,而是在內存數組中進行的;在定位數組時采取間接尋址方法,相比查找比較等方法,對計算效率有極大提高。另外在顯示圖像方面,也采取了一些策略,例如當顯示上一屏圖像時,將下一屏的圖像計算出并放到內存中,所以顯示圖像更迅速。總而與之,本文算法能滿足基本的圖片中文檔信息的讀取并實現信息方式的轉換。

【參考文獻】

[1]錢揖麗,鄭家恒.漢語語料詞性標注自動校對方法的研究[J].中文信息學報,2004,(2):30-35.[2].

[2]駱衛華,羅振聲,宮小瑾.中文文本自動校對技術的研究[J].計算機研究與發展,2004,(1):244-249.

[3]趙燁,王明磊,李新友.OCR在大數據量文檔系統中的應用[J].計算機應用, 2000,20(增):336-338.

[4]Alessandro Vinciarelli. A Surveyon Off- line Cursive Word Recognition[J].Pattern Recognition.2002,(35):1433-1446.

[5]荊濤,王仲.光學字符識別技術與展望[J].計算機工程.2003, 29(2):1- 2.

[責任編輯:張濤]endprint

主站蜘蛛池模板: 日韩免费无码人妻系列| 五月激情综合网| 亚洲第一av网站| 精品一区二区三区水蜜桃| 在线亚洲小视频| 国产精品久久国产精麻豆99网站| 一本色道久久88综合日韩精品| 57pao国产成视频免费播放| 国产精品太粉嫩高中在线观看| 成年看免费观看视频拍拍| 亚洲综合亚洲国产尤物| 大乳丰满人妻中文字幕日本| 毛片免费在线视频| 国内精品久久久久久久久久影视| a级毛片一区二区免费视频| 久久久久亚洲AV成人网站软件| 日韩欧美视频第一区在线观看| 亚洲欧洲综合| 免费国产高清精品一区在线| 色婷婷电影网| 国内精品小视频在线| 国产欧美日韩va另类在线播放| 欧美成人一级| 欧美色视频网站| 欧美啪啪一区| 精品国产黑色丝袜高跟鞋 | AV老司机AV天堂| 欧美日本一区二区三区免费| 无码专区国产精品第一页| 美女无遮挡拍拍拍免费视频| 91精品日韩人妻无码久久| 911亚洲精品| 国产精品偷伦视频免费观看国产 | 成人午夜视频免费看欧美| 在线观看国产精美视频| 色国产视频| 国产美女主播一级成人毛片| 毛片基地视频| 亚洲熟女偷拍| 天天综合天天综合| 黄色不卡视频| 日本免费一级视频| 色综合天天综合中文网| 中日韩一区二区三区中文免费视频| 国产色爱av资源综合区| 亚洲美女视频一区| 中文字幕日韩丝袜一区| 69视频国产| 亚洲人成人无码www| 亚洲精品中文字幕无乱码| 国产日产欧美精品| 亚洲视频在线青青| 粗大猛烈进出高潮视频无码| 亚洲男人天堂久久| 国产三级毛片| 亚洲人在线| 亚洲一区二区精品无码久久久| 亚洲色图欧美一区| 欧美a在线看| 日本在线亚洲| 中文字幕亚洲电影| 亚洲第一区在线| 野花国产精品入口| 国外欧美一区另类中文字幕| 蜜芽一区二区国产精品| 国产香蕉在线视频| 亚洲色精品国产一区二区三区| 国产成+人+综合+亚洲欧美| 日韩二区三区| 亚洲a级在线观看| 亚洲AV无码不卡无码| 精品视频在线一区| 69av免费视频| 国产91透明丝袜美腿在线| 亚洲欧洲美色一区二区三区| 伊人久久大香线蕉aⅴ色| 成人在线亚洲| 成人免费一级片| 无码精油按摩潮喷在线播放 | 久久香蕉国产线看观看精品蕉| 久久毛片网| 国产精品免费福利久久播放|