999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進(jìn)的EM算法在分塊灰度圖像二值化中的應(yīng)用

2011-08-17 09:37:26王紅霞程艷芬
關(guān)鍵詞:背景文本

王紅霞 程艷芬

(武漢理工大學(xué)計算機(jī)學(xué)院 武漢 430063)

0 引 言

文本圖像的識別是模式識別領(lǐng)域的一個重要應(yīng)用分支,而在整個OCR(optical character recognition)領(lǐng)域中,最為困難的就是脫機(jī)自由手寫字符的識別.

一幅通過掃描得到的手寫體文本圖像,無論是彩色圖像還是灰度圖像,各像素因為顏色深淺不一,于是在取值范圍內(nèi)會取不同的值.例如一個彩色圖像中某個像素(R,G,B),其R,G,B 的取值范圍均在(0,255)之間,這種情況給文本圖像的處理帶來了很大的困難.因為文本圖像的處理只需要知道哪是文字,哪是背景,以及文字是什么,不需要知道它們對應(yīng)像素點顏色上的差異.只有通過對這種文本圖像實施二值化后,系統(tǒng)根據(jù)像素的灰度值相應(yīng)地處理成黑、白兩種顏色,圖像中各像素點的值由0~255灰度值轉(zhuǎn)化為0,1兩個值中的一個,圖像信息于是由灰度轉(zhuǎn)化為黑白,其信息量大大減少,從而使得文本的特征更集中,便于圖像處理[1].本文以脫機(jī)手寫體阿拉伯字符的識別研究為背景,將改進(jìn)后的EM算法應(yīng)用在分塊的脫機(jī)阿拉伯手寫體文本圖像識別的預(yù)處理過程中,實驗結(jié)果表明效果良好.

1 手寫體文本圖像的二值化

預(yù)處理是文字識別的第一步,在實際識別系統(tǒng)中是一個很重要的階段,該階段與特征抽取階段也是緊密相連的.良好的預(yù)處理可以有效地保持圖像信息,二值化后的文本圖像內(nèi)僅含黑、白二色的信息,在它們之間不存在其他的灰度變化,從而更清楚地反映文本圖像中字符的本質(zhì)特征,使得后續(xù)階段提取的特征能夠更好的代表要識別的模式[2].

由于脫機(jī)手寫體文本圖像的識別只需要處理圖像中的字型信息,對顏色等信息不作處理,所以對掃描得到的文本圖像要進(jìn)行二值化(Binarization)處理,以去掉冗余的信息.和灰度化相似,圖像的二值化也有很多成熟的技術(shù),但卻沒有一種方法能對任何目標(biāo)對象都普遍適用,必須根據(jù)具體的處理對象而定.

二值化的方法根據(jù)其運算的范圍不同,可分為全局閾值法和局部比較法.全局閾值法根據(jù)文本圖像的直方圖或灰度的空間分布確定一閾值,并根據(jù)此閾值實現(xiàn)灰度文本圖像到二值化文本圖像的轉(zhuǎn)化.全局的閾值選取是根據(jù)整幅圖像確定一個閾值,對輸入圖像的量化噪聲或不均勻光照等情況抵抗能力差,應(yīng)用受到極大的限制.局部閾值選取方法是將圖像劃分為若干子圖像,根據(jù)每個子圖像確定相應(yīng)的閾值,這種方法通過定義考察點的鄰域,并由鄰域計算模板來實現(xiàn)考察點灰度與鄰域的比較,較全局方法有更廣泛的應(yīng)用.其中比較典型的方法有Kamel-Zhao算法和Ber nsen算法.但局部比較法也存在缺點和問題,如實現(xiàn)偽影(ghost)等現(xiàn)象(即在背景區(qū)域受噪聲干擾得到筆劃結(jié)果).全局閾值選取方法對噪音比較敏感,因此應(yīng)用中一般采用局部閾值選取方法.但是這二者并無本質(zhì)的不同[3].

設(shè)文本圖像中像素點(x,y)的灰度值為f (x,y),f(x,y)的取值范圍是0~255,閾值采用下式確定λ=(f(x,y)max+f(x,y)min)/3,且使

其中為表達(dá)方便,255的值一般用“1”值表示[4].

從式(1)可以看出,上述確定閾值方法一個明顯的弊端是,單純地以2個點的灰度值:f (x,y)max,f (x,y)min作為代表來求整個圖像的閾值過于片面,于是提出將期望值最大法(expectation-maxi mization,EM)算法[5-6]的思想用在灰度圖像的二值化中,可以有效地避免這種以偏概全導(dǎo)致的誤差.

2 用改進(jìn)的EM算法實現(xiàn)分塊灰度圖像的二值化

文本圖像二值化的關(guān)鍵是要找到合適的閾值T來區(qū)分目標(biāo)和背景.閾值判定法利用了圖像中所要提取的目標(biāo)物(即前景)與其背景在灰度特性上的差異,把圖像視為具有不同灰度級的兩個區(qū)域的組合,通過選取閾值,將目標(biāo)區(qū)域從背景中分離出來.所以閾值T的選擇是關(guān)鍵,選得好,可以很好地將圖像中的文字和背景分離開;選的不好,可能會造成待識別文字信息的丟失,導(dǎo)致誤識率增高.

如圖1所示,其中圖a)顯示的是一幅待識別的阿拉伯手寫體文本圖像,圖b)是圖像中一個塊的直方圖,從直方圖可以看出,圖像的前景(即文本)和背景的像素點形成了2個類,Background Peak和Text Peak分別是背景和目標(biāo)的"峰",t h是這2個類的“谷”.由此,灰度圖像二值化對EM算法來說就是一種比較特殊的情形,那就是類的數(shù)目2是已知的:代表背景的類(用0表示)和代表目標(biāo)的類(用1表示).

圖1 文本圖像二值化

其具體算法如下.

1)數(shù)據(jù)準(zhǔn)備 對于一個寬為W,高為H的文本圖像I(x,y),0<x<W,0<y<H,用一維數(shù)組D[W×H]來表示,并且0≤D[i]<255,0<i<W×H.

2)初始化 給兩個類的期望賦初值為E[1],E[2].可以隨機(jī)賦值,但是初值的好壞對收不收斂以及收斂的速度都有很大的影響.初始值的選取也會影響算法的穩(wěn)定性,如果初始值選取的比較好,算法相對穩(wěn)定.于是設(shè)Dmin,Dmax和Dave分別是數(shù)組D的最小值、最大值和平均值,并且取

3)對數(shù)組D 中的每個元素D[i]計算和E[1],E[2]的距離為

其中:k=1,2;和E[1],E[2]哪個值近就歸為哪一類,由此得到兩個一維數(shù)組D1,D2,同時統(tǒng)計出D1,D22數(shù)組的大小L1,L2.

4)ε=|Error[1]-Error[0]|,若ε符合精度要求,轉(zhuǎn)第6步,否則Error[0]=Err or[1].

5)重新計算類0和類1的期望E[1],E[2]:

釋放數(shù)組D1,D2,轉(zhuǎn)第三步(俗稱重新洗牌).

6)如此圖像中的所有像素點分到D1,D2兩類中,然后將D1中像素點的灰度值全都置為0,D2中像素點的灰度值全都置為1.這樣就實現(xiàn)了圖像的二值化.

3 實驗結(jié)果

圖2為文本灰度圖像,圖3是其直方圖,可以看出直方圖處于整個灰度值的低端范圍,這說明圖像整體偏暗.先用文中式(1)所描述的方法,得到閾值th=(0+122)/3≈40.7,二值化的結(jié)果如圖4所示,可以看出效果不是很好,圖像周圍應(yīng)是白色的地方被二值化到黑色.以圖2中圈出來的像素點(591,36)為例,從圖中看出該點應(yīng)歸為“背景”類,也就是白色,現(xiàn)在已知它的灰度值28,按照上面計算出來的閾值40.7來劃分,該點的灰度值小于40.7,被劃分到“目標(biāo)”類中,于是變成了黑色.這是因為整個圖像光線不均勻,導(dǎo)致中間偏亮,四周偏暗,由此可以得出,一個全局的固定閾值不適用于二值化類似圖2這樣的整張圖像.

圖2 一幅待識別的灰度圖像

圖3 直方圖

如果使用上面闡述的分塊EM算法,對圖像每塊中的閾值動態(tài)聚類,就能有效地解決這個問題.

還是針對圖2中的文本灰度圖像,對輸入的該圖像I,先分塊,在每塊上使用改進(jìn)后的EM算法,經(jīng)過幾次循環(huán),反復(fù)修正E[1],E[2],將圖像I中所有像素正確聚類到黑、白二個類,二值化結(jié)果如圖5所示,這個結(jié)果顯然好得多.

圖4 采用式1確定閾值二值化的結(jié)果

圖5 EM算法二值化的結(jié)果

4 結(jié)束語

手寫體的文本識別一直是一個非常活躍的研究領(lǐng)域文中采用改進(jìn)的EM算法對分塊的阿拉伯手寫體文本圖像進(jìn)行了二值化處理,實驗效果良好,但是在實際應(yīng)用中,對文本圖像分塊上不能一概而論.例如,若掃描過程中由于光線分布不均得特別厲害,則分塊數(shù)勢必要增加才能很好地將背景和文本分離,但是增加圖像分塊的同時也加大了計算量,降低了識別系統(tǒng)的效率,這二者之間的平衡還需要通過實驗來獲得一個較佳的終值.

[1]章毓晉.圖像處理和分析[M].北京:清華大學(xué)出版社,2001.

[2]Lorigo L M,Govindaraju V.Offline arabic hand writing recognition:a survey,pattern analysis and machine intelligence[J].IEEE Transactions,2006,28(5):712-724.

[3]莊 軍,李弼程,陳 剛.一種有效的文本圖像二值化方法[J].微計算機(jī)信息,2005,21(8):56-57.

[4]楊 玲.脫機(jī)手寫體漢字識別研究[D].成都:西華大學(xué)數(shù)學(xué)與計算機(jī)學(xué)院,2008.

[5]Al-Shaher A A,Hancock E R.Learning mixtures of point distribution models with the EM algorith m.pattern recognition[J].Pattern Recognition,2003,(36):2805-2818.

[6]Xu L,Jordan M I.On conver gence properties of the em algorithm for Gaussian mixtures.Neural Computation[J].Neural Co mputation,1996(8):129-151.

猜你喜歡
背景文本
“新四化”背景下汽車NVH的發(fā)展趨勢
《論持久戰(zhàn)》的寫作背景
黑洞背景知識
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
晚清外語翻譯人才培養(yǎng)的背景
背景鏈接
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 亚洲无码四虎黄色网站| 国产成人精品一区二区| 日韩毛片免费视频| 亚洲第一黄色网址| 午夜免费视频网站| swag国产精品| 色视频国产| 国产欧美日韩综合在线第一| 亚洲成肉网| 国产亚洲视频播放9000| 99热最新在线| 波多野结衣在线一区二区| 99久久精品免费看国产电影| 久久不卡国产精品无码| 97久久免费视频| 色噜噜中文网| 免费国产小视频在线观看| 国产精品9| 欧美日本中文| 国产精品久久久精品三级| 欧美五月婷婷| 亚洲国产精品日韩专区AV| 色综合天天娱乐综合网| 日韩国产精品无码一区二区三区 | 五月婷婷综合在线视频| av免费在线观看美女叉开腿| 色天天综合久久久久综合片| 日本91在线| 啪啪永久免费av| 国产精品视频观看裸模| 久久午夜夜伦鲁鲁片无码免费| 91久久精品日日躁夜夜躁欧美| 国产精品妖精视频| 日韩亚洲高清一区二区| 国产午夜人做人免费视频中文| 国产av一码二码三码无码| 日韩无码视频专区| 国产人人乐人人爱| 国产精品护士| 中文字幕人妻无码系列第三区| 99ri精品视频在线观看播放| 久热re国产手机在线观看| 免费A级毛片无码免费视频| 91福利在线观看视频| 国产福利一区视频| 免费无遮挡AV| 亚洲男人的天堂久久香蕉网| 国产免费好大好硬视频| 91美女视频在线| 国产午夜精品一区二区三| 亚洲AV无码不卡无码| 中文精品久久久久国产网址| 亚洲精品va| 97超爽成人免费视频在线播放| 日韩精品成人在线| 老司机精品一区在线视频| 91蜜芽尤物福利在线观看| 久久77777| 成人在线观看一区| 国产男女免费视频| 国产理论最新国产精品视频| 国产一区二区免费播放| 成人夜夜嗨| 网久久综合| 色老头综合网| 91伊人国产| 国产成人精品一区二区三区| www亚洲天堂| 欧美另类精品一区二区三区| 成人在线天堂| 91年精品国产福利线观看久久 | 欧美国产菊爆免费观看| 欧美精品1区2区| 亚洲色图综合在线| 亚洲大尺码专区影院| 国产精品无码制服丝袜| 国产精品美女在线| 亚洲第一极品精品无码| 日韩精品无码不卡无码| 国产精品分类视频分类一区| 激情综合网激情综合| 欧美中出一区二区|