999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文字筆畫結構的文本圖像校正處理

2014-06-20 21:19:40曾凡鋒付亞南
無線互聯科技 2014年2期

曾凡鋒 付亞南

摘 要:針對文本圖像拍攝質量低下,而導致OCR系統識別率不穩定的問題,本文提出了一種基于文字筆畫結構的文本圖像校正算法,主要是在圖像的預處理中對待處理像素點進行基于文字筆畫結構的特征分析,實現目標和背景像素的校正,再結合局部二值化算法進行處理,分析其噪音分布特點采用鄰域去噪進一步優化處理結果。實驗表明,本文算法能夠很好的適用于處理質量低下的文本圖像,處理效果從視覺圖像和識別率上都能滿足應用需求。

關鍵詞:文字筆畫結構;特征分析;鄰域去噪;低質文本圖像

A text image correction algorithms base on the structure of text strokes

ZENG Fan-feng1 FU Ya-nan

(College of Information Engineering,North China University of Technology,Beijing 100144,China)

Abstract:Given the facts that OCR system recognition is unstable because of the low quality text image, this paper put forward a text image correction algorithms base on the structure of text strokes. The algorithm is mainly to analysis the characteristics of the processing pixel based on the text strokes structure, in order to correct the goals pixel and background pixel. Then, combined with local binary processing algorithm for processing, and using neighborhood de-noising method to further optimized image de-noising , The experimental results show that the method can be applied to deal with poor quality text images, and the visual effects and image recognition rate can meet the application.

Key words:structure of text strokes;analysis the characteristics;neighborhood de-noising;poor quality text images

文字是人類用來記錄語言的符號,是信息的載體,是人們用來交流和表達思想的工具。紙質媒介是記錄文字的傳統介質,然而隨著信息技術的快速發展,人們逐漸利用計算機、網絡、通訊等信息處理技術存放與處理文字。OCR(Optical Character Recognition)識別技術就是將紙質上的打印字符轉化成計算機文字最常見的方法。OCR系統一般包括圖像獲取、預處理、特征抽取、識別分類、后處理以及識別結果6個模塊。由于紙質本身、拍攝設備、拍攝環境等各種因素的影響,使獲取的圖像質量低下,不能直接用于識別。預處理即對圖像的存在的問題進行校正處理,是OCR識別的關鍵步驟,校正內容主要包括灰度化、增強、二值化、去噪、傾斜校正等,其中增強[1]、二值化[2]、去噪[3]的作用是提高圖像質量,改善圖像清晰度,將目標和背景分離開,也是本文算法要研究的內容。每種校正方法從基本作用和現有處理方法總結如下:增強是將目標點和背景點差異拉大,凸顯目標點,抑制非關注的特征,使之改善圖像質量,豐富信息量,從作用域可分為空間域增強和頻率域增強,其中空間域增強又包括線性增強、分段線性增強、非線性增強;頻率域[4]增強包括低通濾波、高通濾波和同臺濾波。圖像二值化是使目標和背景差異達到最大,產生非黑即白的二色圖像,現有的二值化算法非常多見,從處理范圍上主要分全局二值化處理和局部二值化算法處理,相結合的二值化算法處理。全局二值化算法有大津算法[5]、梯度算法、最優閾值法等,這類方法是為處理區域選取一個閾值,然后進行處理,優點是處理速度快,缺點對圖像質量要求比較高,對噪音敏感,不適用于處理光照不均文本圖像;局部二值化算法主要有Niblack算法[6]、Sauvola算法[7]、White算法、模糊聚類算法等,該類算法[8]主要是針對待處理像素點,結合其較小鄰域內像素值求得閾值,對待處理像素點進行校正,算法優點抗敏性強,對圖像質量要求不高,缺點處理速度較全局處理慢,且容易產生偽影和斷筆的現象。圖像去噪是糾正圖像中被誤判為目標點的背景點,進一步提高圖像質量,目前常用的方法[9]

主要有均值濾波、中值濾波、小波去噪等。

本文算法以提高OCR識別率為目標,以提高圖像質量,以便很好的分離目標點和背景點為算法思路,通過圖像增強(像素校正)、二值化、去噪這三個具體的步驟實現。

1 Niblack算法與Sauvola算法分析比較

由于文本圖像拍攝質量低下是一種很常見而且不可避免的問題,本文選用局部二值化處理,以提高算法的使用性。

Niblack方法的基本思想是根據局部像素點的均值和標準偏差來決定中心像素點的閾值,其局部閾值由以下公式求得:

其中,m(x,y)和σ(x,y)分別表示一個以(x,y)為中心的局部窗口尺寸為r×r的各像素點的平均灰度值和標準偏差,k為調整系數,一般取-0.2。

Sauvola方法實際上是對Niblack方法的一個改進,它引入參數r來降低Niblack方法中對參數k的依賴,具體的閾值計算公式如下:

其中,R是常數,一般取128,k為調整系數,一般取0.5。

從公式(1)和(2)可知,圖像f(x,y)在坐標(x,y)處像素點的閾值由以(x,y)為中心的局部窗口內像素點的均值m(x,y)和標準偏差σ(x,y)決定。因此,該方法對光照不均勻或者背景復雜的文檔圖像具有比較好的處理效果。但它同時也具有局限性,主要表現如下:第一,運算速度和窗口尺寸的大小有關,這使得和全局閾值法相比時,其運算速度較慢;第二,處理一些退化的文本圖像時會產生一定的噪聲,容易產生斷筆和偽影現象。本算法中選用公式2進行二值化處理,針對該類算法斷筆和偽影的現象本文采用二值化前后利用增強加以彌補,利用去噪進一步完善。

2 文字筆畫結構分析

宋體是一種通行的印刷體,一般用于正文部分,但由于人們為了追求視覺效果,給人煥然一新的感覺,“黑體”“華文楷體”“華文隸書”等多種字體也會出現在印刷版面上,這些字體之間存在著一定的差異,但總體結構[10]還是滿足“橫豎撇捺”的筆畫構成,如圖1所示。

對于白紙黑字的文本文檔,以文字的“橫”筆畫為例(圖2),分析筆畫附近像素點分布,當光照分布均勻時,筆畫區域的垂直上方“Part1”和垂直下方“Part2”像素值均大于筆畫區域內的像素值,而筆畫區域內的像素值相等。由于光照不均的影響可能會照成背景點和目標點像素值十分接近,筆畫區域內的像素值存在一定的差異,但文字筆畫區域之外一定垂直區域范圍內平均灰度還是滿足小于文字筆畫區域內平均像素值。

3 基于文字筆畫結構的文本圖像校正算法

3.1 算法流程

基于對拍攝圖像的質量分析,以及現有二值化算法的適用范圍和文字筆畫結構的分析,提出本文算法的基本思路:首先對于采集圖像進行灰度化,然后利用采點法計算筆畫的平均高度,對于待處理點進行基于文字筆畫結構的校正,在利用Sauvola算法將目標和背景分離開,分析文本圖像噪音特點,采用鄰域去噪法進一步校正誤判像素點。

3.2 統計筆畫的平均高度

因為對于印刷文字筆畫的高度并不是占一個像素點,統計筆畫的平均高度能更準確的確定每一個待處理像素點校正時需要探測的范圍,這樣可使算法的自適用性更強。步驟如下:

Step1 隨機采集一個目標點f(x,y),如果 ( 為常數,一般取128,以此來判斷該點為文字筆畫像素,以減少誤差)則進行Step2,否則繼續采點。

Step2在目標點的垂直方向分別向上和向下各探測 個像素,如果滿足(3)或(4)

其中

則認為筆畫高度h[j]=n2-n1+1(j?=0&&j?N,N為設置最大采點個數);否則進行Step3進行水平檢測。

Step3 在在目標點的垂直方向分別向左和向右各探測n個像素,如果滿足(5)或(6)

其中

則認為筆畫高度h[j]=n2-n1+1(j?=0&&j?N,N為設置最大采點個數);否則進行Step1采集新的目標點。

Step4 如果j=N,則令筆畫的平均高度

3.3 基于文字筆畫結構的校正

基于上文對文字筆畫結構的分析,提出筆畫區域相關定義

定義1 以圖像坐標方向為正方向,對于一個待研究像素點,如果在以其為中心的360度范圍內 ( )滿足

則該點為筆畫區域內的像素點。

定義2 文字中某一筆畫區域最大長度方向,即為該筆畫延伸方向。

針對文字筆畫方向不確定性,因此選擇以 為角度增量進行探測所研究的像素點是否為筆畫區域內像素點。光照不均現象也是拍攝文本圖像常有的現象,該現象可能使得文字和背景的像素值十分的接近,這樣一來單純的分析一個像素點并不能達到滿意的效果,所以需要考慮待處理像素點某一鄰域內的像素分布。為了避免像素點的重復處理,本算法對已處理的像素點進行標記處理。設min為遍歷區域內像素最小值,max為遍歷區域內像素最大值。具體處理步驟如下:

Step1 為圖像的每個像素點進行標記,初始標記為0,表示未處理。

Step2針對待處理圖像,利用從左到右,從下到上的方向,選擇待處理像素點,若標記為1表示已處理,跳過,選取下一個像素點。

Step3 對于待處理像素點以Δθ為角度增量,利用公式1判斷該點是否為筆畫像素,若是,將該點置為min,同時標記該點為1,繼續進行step2,

Step4 若否,對其鄰域的點按照step2進行檢測,如果鄰域內出現筆畫像素點個數不小于2,則將該點置為min,若否,該點置為同時為max,為該點做標記1。

對于中文文檔本算法取Δθ=900,考慮到部分中文文字筆畫比較緊湊,如果選擇的鄰域過大可能造成筆畫的粘連,因此在Step4中選擇四鄰域,圖4(a)為未校正直接二值化和去噪效果圖,(b)為通過本文方法校正后再二值化和去噪的效果圖。可以看到明顯的減少了文字筆畫的丟失。

3.4 去噪處理

考慮到Sauvola算法后噪點分布多為字間和字內椒鹽噪點,各噪點間孤立存在,本文選用四鄰域內去噪。對于二值化后坐標為(x,y)灰度值為f(x,y)的像素點,當f(x,y)=0時,如果以其為中心的四鄰域內統計灰度值等于0的點的個數count1和灰度值等于255點的個數count2,若count1≥count2,則判斷該點為目標點,否則認為該點為噪點,令f(x,y)=255。該方法簡捷有效,處理效果比較見圖5(a)和(b).

4 算法測試及分析

本算法測試硬件環境:操作系統Windows XP,Inter(R)Core 2 Duo CPU,內存2G;軟件環境:VC++6.0;實現方法:C++;測試對象:500萬像素文本圖像。對于本算法的有效性最終分別從視覺效果圖,時效性和識別率三方面進行分析。

⑴視覺效果圖,見圖9

對于光照不均的文本圖像(a)如果直接采用全局處理(全局大津算法)效果見圖(b),大量的背景點被誤判成目標點,形成陰影區。圖(c)為采用8*8分塊對圖像進行分塊處理,由于光照不均的問題,當局部分塊內背景點像素值變化較大時,形成局部分塊陰影區。圖(d)為一種Niblack和模糊算法相結合的處理方法,并不能避免偽影的出現且處理速度較慢(見表1),并不適用。本文算法處理效果圖見圖(e),在斷筆和偽影的問題上有明顯的改進。

⑵采用隨機采樣法(樣張為亮背景和暗目標點)進行測試,采樣數為20。樣本測試結果平均值與全局大津算法,分塊大津算法和Niblack與模糊算法相結合四種方法平均值進行比較,見表1。

表1 算法平均識別率和平均耗時

方法 識別率(%) 平均耗時(毫秒)

本文算法 95.5 1748

全局大津算法 84.2 344

分塊大津 86.9 1160

Niblack +FCM 96 34281

從識別率上看,本文算法對測試樣張的平均識別率在95.5%,能過滿足一般應用的需求,處理速度之所以不是最優,原因本文算法統計了校正、二值化、去噪整個處理過程的時間。全局大津算法和分塊大津算法盡管顯示的平均識別率達到84.2%和86.9%,但由于陰影的存在,會丟失部分文字。Niblack和模糊算法相結合的算法,經過去噪后平均識別率達到96%,但處理速度較慢,不適合應用于圖像的實時處理。

5 結束語

考慮到采集文本圖像質量低下(即背景和文字像素點接近難以區分)的問題的普遍存在,本文充分分析文字的筆畫結構,以及文字筆畫附近像素點的分布規律,提出了本文算法。圖像校正處理其實就是提高圖像的質量,主要用途除了利用OCR識別系統將文字存儲介質由紙質轉化成電子文檔,還有就是直接用于人們的閱讀,目前市場上已經有很多此類產品,像盲人輔助閱讀器。本文算法的實驗結果表明:從視覺效果上和識別效果上,該算法都能滿足一般用戶的需求。目前存在的問題就是處理速度不是最優,因此還需要進一步改進。

[參考文獻]

[1]YU Jing,LI Da-Peng,Liao Qing-Min.Color constancy-based visibility enhancement of color images in low-light conditions.Acta Automatica Sinica,2011,37(8):923-931.

[2]YUAN Lu,LI Ren-fa,An improved Binarization for Character Image.Microcomputer Information,2012,25(3),140-142.

[3]ZENG Fan-feng,GAO Yan-yun,FU Xiao-ling.Application of denosing algorithm based on document image[J].Computer Engineering and Design,2012,2001-2005.

[4]YIN Li-min,LIU Yan-ying,GU Rei, LEI Kai. A controllable his togram equalization arithmetic[J].Microcomputer Information, 2005(26),147-149.

[5]N.Otsu.A threshold selection method from gray-level histograms[J].IEEE Transactions on Systems,1979,9(1):62-66.

[6]W.Niblack.An Introduction to Digital Image Processing[M]. Denmark:StrandbergPublishing Company,1985.

[7]J.Sauvola and M.Pietikainen.Adaptive document image Binarization[J].Pattern Recognization,2000,vol.33:225-236.

[8]童立靖,張艷,占國亮,等.幾種文本圖像二值化方法的對比和分析[J]. 北方工業大學學報,2011,23(1):25-33.

[9]謝鳳英.數字圖像處理[M].北京:電子工業出版社,2008.125-129.

[10]石蒙蒙,李少滋,曹冬林,陳淑媛.基于結構化局部邊緣模式的文檔圖像分類[J].廈門大學學報,2013,52(3):349-355.

主站蜘蛛池模板: 91精品人妻一区二区| 亚洲丝袜第一页| 久久中文无码精品| 日韩欧美中文在线| 91精品视频播放| 亚洲中文字幕av无码区| 亚洲天堂在线视频| 91精品国产自产91精品资源| 国产成人a毛片在线| 免费女人18毛片a级毛片视频| 亚洲精品在线影院| 亚洲色欲色欲www在线观看| 午夜视频免费一区二区在线看| 久久一级电影| 日韩成人午夜| 亚洲视频一区| 午夜视频日本| 性欧美久久| 2020久久国产综合精品swag| 国产真实乱了在线播放| 久久人与动人物A级毛片| 久精品色妇丰满人妻| 免费又黄又爽又猛大片午夜| 国产成人1024精品| 日韩精品一区二区深田咏美| 在线日韩日本国产亚洲| 日本欧美精品| 色综合综合网| 日韩欧美国产中文| 二级毛片免费观看全程| 亚洲日本中文综合在线| av天堂最新版在线| 性视频久久| 欧美成人综合在线| 91精品国产情侣高潮露脸| 好久久免费视频高清| 少妇极品熟妇人妻专区视频| 亚洲视频免| 亚洲热线99精品视频| 人妻无码中文字幕第一区| 2048国产精品原创综合在线| 午夜视频免费一区二区在线看| 成人福利在线看| 久久伊人色| 国产午夜无码专区喷水| 国产拍在线| 国产精品成人免费视频99| 亚洲a免费| 国产欧美日韩视频怡春院| 色欲国产一区二区日韩欧美| 2021国产精品自拍| 亚洲国产精品VA在线看黑人| 免费看a毛片| 天天激情综合| 午夜久久影院| 欧美日韩中文国产va另类| 亚洲IV视频免费在线光看| 精品91在线| 99精品视频九九精品| 99re经典视频在线| 欧美在线观看不卡| 国产99热| 午夜国产精品视频| 强奷白丝美女在线观看| 亚洲综合激情另类专区| 欧美一级黄色影院| 麻豆精品久久久久久久99蜜桃| 国产激爽大片高清在线观看| 国内精品九九久久久精品| 91亚洲视频下载| 国产免费羞羞视频| 成色7777精品在线| 日韩免费无码人妻系列| 国产国产人在线成免费视频狼人色| 爱色欧美亚洲综合图区| 999在线免费视频| 18禁黄无遮挡网站| 色老头综合网| 成年女人18毛片毛片免费| 一区二区自拍| 国产三级国产精品国产普男人| 国产成人三级|