999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于梯度差的文檔圖像文本行檢測(cè)算法

2011-07-25 00:34:00王希常
關(guān)鍵詞:文本區(qū)域檢測(cè)

王 丹,王希常,楊 俠

(山東師范大學(xué) 信息科學(xué)與工程學(xué)院,山東 濟(jì)南 250014)

目前大多數(shù)文檔圖像的信息以數(shù)字化形式存在,并以文檔形式存儲(chǔ)在數(shù)據(jù)庫中。文檔圖像處理是辦公自動(dòng)化的一個(gè)重要組成部分,在辦公自動(dòng)化、數(shù)字圖書館、圖像視頻檢索等領(lǐng)域得到越來越廣泛的應(yīng)用[1]。其內(nèi)容主要包括掃描輸入、預(yù)處理、布局分析、字符識(shí)別等步驟,其中,文本行檢測(cè)是進(jìn)行布局分析、檢索以及字符識(shí)別的重要組成部分。目前主要采用三種方法來進(jìn)行文本定位:基于區(qū)域的方法、基于邊緣的方法和基于紋理的方法[1]。基于區(qū)域的方法利用連通區(qū)域進(jìn)行投影分析來獲取文本區(qū)域,投影特性法[2]主要是對(duì)文檔圖像在指定方向上進(jìn)行投影測(cè)試,根據(jù)投影的分布特征,在得到的結(jié)果中選取最佳的投影結(jié)果,以完成文本行的檢測(cè)。但由于傳統(tǒng)投影方法需要對(duì)整個(gè)圖像進(jìn)行指定方向上的投影,其計(jì)算量和復(fù)雜度都較高[3]。基于邊緣的方法利用了圖像中的文本與背景之間有較高對(duì)比度這一特性來進(jìn)行定位。Chen Datong等人[4]利用Canny算法提取圖像邊緣,并用形態(tài)學(xué)膨脹的方法將邊緣連接成塊,再利用基線定位完成文本行檢測(cè),但時(shí)間復(fù)雜度較高,當(dāng)背景邊緣較為復(fù)雜時(shí),這類算法處理起來較為困難。基于紋理的方法利用文本具有的較強(qiáng)的紋理特征來區(qū)分背景,Mao Wenge等人[5]利用小波變換檢測(cè)圖像紋理,再通過圖像的紋理分析定位出文本。該方法通常具有較高的魯棒性,但計(jì)算量大,復(fù)雜度較高,且文本定位不是很精確。

本文在總結(jié)上述算法特點(diǎn)的基礎(chǔ)上,提出了一種基于梯度差的文本行檢測(cè)算法,該算法利用了文檔圖像文本行特征,在水平方向上進(jìn)行梯度差計(jì)算,然后進(jìn)行文本行區(qū)域的合并和非文本區(qū)域的過濾,減少了文字粗細(xì)和圖像分辨率的干擾,提高了檢測(cè)的速度和精度。

1 文本行特點(diǎn)分析

文檔圖像文本行的特殊性主要表現(xiàn)在以下幾個(gè)方面:

(1)大部分的文字邊緣均突出,可以利用邊緣信息進(jìn)行文本檢測(cè),尤其是中文在水平和垂直方向上邊緣均比較突出。邊緣與梯度之間存在很大的關(guān)聯(lián),梯度的方向在數(shù)學(xué)中表示為某函數(shù)變化率最大的方向,在文檔圖像中梯度往往反映了圖像邊緣清晰度[6],對(duì)于梯度較大的區(qū)域可表示為可能的文本區(qū)域。

(2)對(duì)于印刷體文檔圖像中的文本,同一行中文字的字符間距相同,間距與字符之間滿足一定的比例關(guān)系,如字符間距大于字符寬度的1/5而小于字符寬度的兩倍。在進(jìn)行文本區(qū)擴(kuò)展不同的字符區(qū)域使之成為一個(gè)有效的文本塊時(shí),非文本區(qū)域往往不具備該特征。對(duì)于手寫體文檔圖像,字符間距不同,比印刷體文檔圖像復(fù)雜,但可以利用文本區(qū)域擴(kuò)展特征進(jìn)行文本行檢測(cè)。

(3)文本行具有直線特征,有很強(qiáng)的方向性,可根據(jù)該特征進(jìn)行文本行標(biāo)記與定位,此外該特征還可用于傾斜校正和版面分析等。

文本梯度的信息不同于非文本區(qū)域的梯度,主要是由于一般文字和背景之間有很高的對(duì)比度。由于正負(fù)梯度值之差在文字區(qū)域較大,因此,本文利用梯度差方法進(jìn)行文本行檢測(cè)。

2 文本行檢測(cè)算法

文本行檢測(cè)算法沒有進(jìn)行文檔圖像的預(yù)處理過程,一定程度上減少了檢測(cè)時(shí)間,如果輸入的圖像為真彩圖像,首先進(jìn)行灰度轉(zhuǎn)化[7],這比單獨(dú)對(duì)彩色圖像的每個(gè)通道進(jìn)行處理效率要高。

2.1 最大梯度差計(jì)算

字符圖像往往具有較強(qiáng)的邊緣信息,在字符邊緣地帶,相鄰像素的灰度值變化劇烈,對(duì)應(yīng)梯度幅度值較大。此外,文字行區(qū)域具有直線特點(diǎn)。因此,本文根據(jù)字符圖像的特殊性,采用水平梯度差進(jìn)行文本行區(qū)域的合并。其算法如下:

①對(duì)輸入的文檔圖像I(x,y),利用濾波掩模[-1 0 1]進(jìn)行卷積運(yùn)算,得到梯度圖像G,計(jì)算公式如下:

其中,I(x,y)為文檔圖像中的像素值。

②在一個(gè)大小為1×w的局部窗口內(nèi)找出最大和最小梯度,二者的差值即為最大梯度差MGD。計(jì)算公式如下:

③根據(jù)梯度圖像的像素平均值計(jì)算梯度圖像的閾值T:

其中count為梯度圖像中大于平均梯度像素值的統(tǒng)計(jì)個(gè)數(shù),m×n為梯度圖像G的大小。

④在局部窗口w中通過比較MGD(x,y)和自適應(yīng)閾值T的大小,得到二值化后的最大梯度差圖像BMGD,其中的每個(gè)像素值按照以下方法進(jìn)行分類:

2.2 文本行塊標(biāo)記

通常情況下,文檔圖像中的字符會(huì)存在字符高低不平的情況,為獲取較為規(guī)則的文本行塊,需進(jìn)行消除字符階躍的跳變。本文利用非文本過濾的基本思想,判斷一個(gè)可能的文本區(qū)像素點(diǎn)兩邊是否滿足非文本過濾的要求。主要方法是設(shè)定局部窗口,然后沿水平方向滑動(dòng),判斷窗口內(nèi)的像素是否全部為黑色像素(像素值為0),若滿足,則停止計(jì)算,認(rèn)為該區(qū)域?yàn)槲谋拘袇^(qū)域,否則將窗口的像素值置為1。通過文本行定位可有效地消除字符間高低不平的情況,根據(jù)實(shí)際應(yīng)用的需要,可再次進(jìn)行非文本區(qū)域過濾操作,圖1所示為輸入的英文手寫體文檔圖像,圖2所示為文本行經(jīng)過非文本區(qū)域過濾后得到的文本行檢測(cè)效果。

3 實(shí)驗(yàn)結(jié)果及分析

選擇若干幅尺寸相同但字體不一的純文字文檔圖像進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)環(huán)境為Windows XP操作系統(tǒng),Pentium(R)1.7 G CPU,512 MB內(nèi)存,用Matlab7.0仿真實(shí)現(xiàn)了文檔圖像的文本行檢測(cè)。

經(jīng)實(shí)驗(yàn)得到的閾值為77.5,為方便起見,本文選取80作為梯度圖像的文本行檢測(cè)閾值。在不同的局部窗口下對(duì)圖1進(jìn)行文本行檢測(cè),結(jié)果如圖3所示。當(dāng)局部窗口 w取 13時(shí),行內(nèi)會(huì)存在斷點(diǎn);當(dāng) w取 19時(shí),看到行與行之間會(huì)有融合,二者效果都不理想;在w取得15時(shí),效果較好。

將本文算法和投影檢測(cè)算法[8]分別作用于印刷體文檔圖像中的某一圖像(如圖4所示),圖5所示為利用水平梯度差得到的文本行檢測(cè)效果,圖6所示為利用投影算法得到的文本行檢測(cè)效果。

采用本文算法、投影檢測(cè)算法分別對(duì)10、20、30幅圖像分別進(jìn)行實(shí)驗(yàn),結(jié)果如表1所示。

表1 本文算法與投影算法的平均檢測(cè)時(shí)間對(duì)比

通過實(shí)驗(yàn)結(jié)果可以看出,在進(jìn)行文本行檢測(cè)時(shí),對(duì)于行間距較小的文檔圖像,利用投影算法進(jìn)行文本行檢測(cè)時(shí),行間距較小的文本行之間可能會(huì)發(fā)生融合,這樣檢測(cè)的正確率就會(huì)下降。本文算法通過最大梯度差和文本行標(biāo)記算法可有效完成文本行的檢測(cè),且檢測(cè)的平均時(shí)間短,因此具有較好的魯棒性。

使用本算法對(duì)傾斜的文檔圖像(如圖7所示)進(jìn)行文本行檢測(cè),圖8所示為文本行檢測(cè)的結(jié)果。從圖8可以看出,對(duì)傾斜的文檔圖像進(jìn)行文本行檢測(cè)時(shí),會(huì)造成文本行融合現(xiàn)象,從而降低了檢測(cè)正確率,這是本文算法的不足之處,需要進(jìn)一步改進(jìn),以提高對(duì)傾斜文檔圖像的文本行檢測(cè)正確率。

本文分析了文檔圖像的文本行特點(diǎn),提出了一種基于梯度差的文檔圖像文本行檢測(cè)算法,該算法計(jì)算簡(jiǎn)單、復(fù)雜度低。實(shí)驗(yàn)結(jié)果表明,該算法可以對(duì)印刷體以及手寫體文檔圖像進(jìn)行快速的文本行檢測(cè)。本文算法也存在著不足,即在處理傾斜的文檔圖像時(shí)效果不佳,有待進(jìn)一步改進(jìn)。文本行檢測(cè)算法可以為進(jìn)一步進(jìn)行文檔圖像的版面分析,深入進(jìn)行文檔圖像檢索、圖文分割等奠定良好的基礎(chǔ)。

[1]晉瑾,平西建,張濤.圖像中的文本定位技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2007,24(6):8-11.

[2]范玉鳳.基于投影自適應(yīng)算法的中文版面分析方法研究[J].光盤技術(shù),2009(1):19-20.

[3]吳濤,賀漢根.一種快速的文本傾斜檢測(cè)方法[J].計(jì)算機(jī)工程與應(yīng)用,2002:113-115.

[4]Chen Datong,SHEARER K,BOURLARD H.Text enhancement with asymmetric filter for video OCR[C].International Conference on Image Analysis and Processing,2001:192-197.

[5]Mao Wenge,Chung Fulai,LANM K,et al.Hybrid chinese/English text detection in images and vedio frames[C].International Conference on Pattern Recognition,2002:1015-1018.

[6]張弘.數(shù)字圖像處理[M].北京:機(jī)械工業(yè)出版社,2007:115-118.

[7]JAE H K,TAE T P,YANG H C,et al.Photo-text segmentation in complex color document[C].The 5th Japan-Korean Joint Symposium on Imaging Materials and Technologies,Kyoto, Japan,2004:44-47.

[8]Gao Feng,Zheng Nanning,Song Yonghong.Document images retrieval based on multiple features combination[C].IEEE ICDAR,2007.

猜你喜歡
文本區(qū)域檢測(cè)
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
關(guān)于四色猜想
分區(qū)域
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
基于嚴(yán)重區(qū)域的多PCC點(diǎn)暫降頻次估計(jì)
主站蜘蛛池模板: 国产爽爽视频| 免费xxxxx在线观看网站| 在线观看亚洲人成网站| 99这里精品| 国产探花在线视频| 无码人中文字幕| 精品综合久久久久久97超人| 亚洲综合片| 日本精品影院| 久久99精品久久久久久不卡| 无码人中文字幕| 国产在线欧美| 欲色天天综合网| 手机精品视频在线观看免费| 精品欧美一区二区三区久久久| 国产精品久久久久久久久kt| 91免费在线看| 天天摸夜夜操| 国产精品毛片在线直播完整版| 精品国产欧美精品v| 国产欧美日韩资源在线观看| 蜜臀av性久久久久蜜臀aⅴ麻豆| 成人日韩视频| 一级做a爰片久久免费| 人与鲁专区| 国产乱视频网站| 亚洲第一区在线| 色婷婷在线播放| 亚洲精品制服丝袜二区| 亚洲欧洲天堂色AV| 91在线视频福利| 欧洲高清无码在线| 伊人AV天堂| 九色在线视频导航91| 国产亚洲第一页| 欧美日韩成人| 四虎免费视频网站| 国产91精品最新在线播放| 漂亮人妻被中出中文字幕久久| 麻豆国产原创视频在线播放| 无码福利视频| 天天躁日日躁狠狠躁中文字幕| 亚洲精品天堂在线观看| 欧美精品影院| 亚洲啪啪网| 亚洲欧美极品| 国产精品自在线拍国产电影| 国产一级毛片yw| 亚洲天堂网视频| 又爽又大又黄a级毛片在线视频| 成人亚洲视频| 亚洲视频一区| 正在播放久久| 亚洲高清国产拍精品26u| 免费人成又黄又爽的视频网站| 久久精品视频亚洲| 中字无码av在线电影| 色欲国产一区二区日韩欧美| 久久这里只有精品2| 精久久久久无码区中文字幕| 日韩高清成人| 97超碰精品成人国产| 毛片视频网址| 99精品伊人久久久大香线蕉| 国产成人喷潮在线观看| 亚洲最大综合网| 欧美黄网站免费观看| 伊在人亞洲香蕉精品區| 国产成人精品2021欧美日韩| 宅男噜噜噜66国产在线观看| 999国产精品永久免费视频精品久久 | 99国产精品一区二区| 超薄丝袜足j国产在线视频| 欧美一级高清免费a| 国产微拍一区二区三区四区| 欧美日韩综合网| 人妻丰满熟妇αv无码| 亚洲国产天堂久久综合226114 | 午夜精品久久久久久久无码软件| 国产导航在线| 亚洲欧美成人在线视频| 久久久久亚洲AV成人人电影软件|