999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于漢字連通分量的印刷圖像版面分割方法

2015-04-11 14:05:30付蘆靜錢軍浩鐘云飛
計算機工程與應用 2015年5期
關鍵詞:文本檢測

付蘆靜,錢軍浩,鐘云飛

1 引言

文字具有較強的指示性同時也包含重要的語意信息,如書刊封面文字、報紙文字、產品包裝上的文字等等,這些文字對于包裝產品消費者以及書刊、報紙閱讀者具有重要價值,如果存在文字印刷質量缺陷,將對書刊、報紙以及包裝產品帶來不可估量的損失。然而,傳統印刷質量檢測以色差作為最主要的檢測標準,并沒有單獨對文字印刷質量進行檢測。而在印刷生產過程中,文字經常出現筆畫殘缺、白點、斷筆、邊緣不清等缺陷,而色差標準并不能檢測出這些缺陷。因此,通過版面分割提取印刷圖像中的文字并對文字進行印刷缺陷檢測,對于提高和完善文字印刷質量檢測以及實現印刷質量在線檢測具有理論意義和實用價值。

文字定位方法可以分為基于紋理和基于區域兩大類。基于紋理[1-3]的方法將圖像中的文字視為一種特殊的紋理,利用Gabor濾波器、Adaboost分類器和小波等紋理分析工具實現文字定位,它受噪聲的干擾波動小,具有較好的魯棒性。但是算法所需的定位時間長,對于大字符和文本較少的區域定位精度不高。基于區域的方法又可以分為基于連通域[4-6]和基于邊緣[7]兩種。基于連通域的方法是假設文字在同一區域內的顏色和亮度相似,且與背景顏色差較大,通過分析、提取文字的連通分量實現文本定位,算法的定位精度優于紋理方法。但是連通域方法容易將單個字符分割成多個連通分量,尤其是中文字符需要根據連通分量的排列屬性合并文本區域,增加了算法的復雜度。同時基于邊緣的方法易受噪聲干擾,當背景與文本之間的對比度較低時很難實現文本定位。Chen等[8-9]提出一個知識型文本行提取系統,實現了在文本/圖形的復合文檔圖像中提取文字。利用多層分割技術,將文檔圖像劃分成不同的層,使同類對象處于相同層中,再運用以知識為基礎的文本行提取方法在各層中獲取文本行特性,根據文本行的幾何和統計特性編碼知識庫實現文本行提取。閔華清等[10]和孫巧榆等[11]根據文本在圖像中局部區域具有的顯著性特點,構建一個視覺顯著性模型,并提出一個融合該模型與邊緣信息的文本檢測方法,但該方法只能對已確定候選文本區域的文本圖像進行檢測。Jung等[12]針對邊緣、角點、紋理等方法不能魯棒的在視頻圖像中定位文本,提出利用筆畫算子濾波器對文本區域進行定位。通過筆畫算子濾波器去除候選文本中具有較強邊緣的非文本區域,提高了文本定位算法的魯棒性。目前,所提出的大部分文字定位算法對文本的多樣性都具有一定的魯棒性,但都是在對文本大小、字體、顏色等特性在不同程度上進行限定和假設取得的,仍沒有一個文本定位算法能夠不受文本的大小、排列方式、字體、顏色等變化影響。

根據漢字字符特征及其連通分量屬性,提出一種基于漢字連通分量的彩色印刷圖像版面分割方法。針對單個漢字存在多個連通分量特點,根據漢字結構特征和連通分量屬性,合并和重建單個漢字連通分量,提高單個漢字連通分量的完整性,克服連通分量文字分割方法不能準確分割和提取漢字缺點,提高了不同字體、字號、顏色漢字的分割準確率。

2 漢字連通分量

2.1 連通分量屬性

在連通域文字分割方法中,主要根據文字連通分量特性篩選、去除非文字連通分量。因此,連通分量的相關特征屬性分析和判斷成為算法的關鍵。在各顏色層的圖像中,如果相鄰兩個像素的灰度值相同則它們便是連通的。根據八鄰域連通原則對連通分量進行分析,利用連通分量所有邊緣點最小外接矩形作為其邊界,文字連通分量標記圖如圖1所示。

圖1 連通分量矩形標記圖

在每個連通分量中,它都具有一些基本特征和組合特征,連通分量的特征屬性[13]如表1所示。

表1 CCi特征屬性

在CCi特征屬性中,一些非字符CCi是不具備以上屬性的,可以依此對連通分量進行篩選。在CCi基本特征中,CCi像素數、面積屬性可以用來篩選太小或太大的非字符連通分量。而CCi占空比和長寬比表明字符不可能占有整個連通分量外接矩形區域,依此判斷連通分量是否為字符。另外,如果輸入圖像出現傾斜偏移,由于傾斜會導致CCi屬性發生變化,因此需要對圖像進行校正處理。

2.2 連通分量規則

根據文字連通分量的特性,單個漢字字符可能包含一個或多個連通分量,而英文字符(除i,j外)和數字則都是一個完整的連通分量,如圖1中所示。而在單個漢字包含的連通分量中,有些連通分量只是字符的一部分,其特性與非字符相似,容易將其作為非字符濾除,影響文字分割。同時,連通分量過多會造成文字提取不完整,且影響分割速度和精度。因此,根據漢字結構特性及其使用頻率,對漢字連通分量進行合并重建,重建規則如表2所示。

表2 漢字連通分量合并重建規則

漢字連通分量合并的基本思想是通過判斷相鄰兩個連通分量外接矩形是否發生重疊,再根據重疊面積的大小并結合外接矩形的長寬比例和矩形中心距離合并連通分量。overlap,detax,detay,rateWi,rateHi意義如下:

根據以上漢字連通分量重建規則,漢字連通分量重建結果如圖2所示。

圖2 連通分量重建后標記圖

3 版面分割

印刷圖像版面分割過程如圖3所示。利用金字塔變換逆半調算法對圖像進行預處理,去除圖像噪聲和半色調網點噪聲干擾。通過顏色采樣得到初步顏色聚類中心,對顏色中心采用有限起始點均值偏移算法進行顏色分割,然后按八鄰域連通原則標記像素得到連通分量,根據漢字結構特征和連通分量屬性,分析、篩選、重建漢字連通分量。最后分析連通分量連接關系,確定文字排列方向,實現文字分割和提取。

3.1 逆半調預處理

圖像在獲取、傳輸過程中,會受到各種干擾產生噪聲。同時由于印刷圖像是由網點組成的半色調圖像,不能對其直接處理,需要進行逆半調預處理,將其恢復成連續調圖像。金字塔變換結合中值濾波的逆半調算法對半色調網點噪聲具有很強的魯棒性,利用金字塔變換實現細節圖像和近似圖像分離,能夠在去除網點噪聲的同時最大程度保留圖像邊緣細節信息。金字塔變換逆半調算法[14]如圖4所示。

圖3 文字分割方法示意圖

圖4 逆半調算法示意圖

算法不會使近似圖像受到同等程度濾波處理而使得圖像模糊和邊緣損失,能夠最大程度地還原圖像,同時去除網點噪聲。

3.2 均值偏移顏色分割

根據彩色印刷圖像在色彩空間的特征維數,利用均值偏移(mean shift)方法反復迭代搜索特征空間中樣本點最密集區域[15],實現圖像顏色分割。為了減少圖像顏色數量和保證被選取顏色為物體內部像素顏色,同時加快mean shift的收斂速度,對圖像實施局部梯度最小顏色采樣。利用水平方向和垂直方向Sobel算子檢測彩色圖像邊緣強度,根據局部邊緣強度值確定候選顏色,形成初步顏色聚類中心。以候選顏色中心作為mean shift起點,采用不同的帶寬核函數循環迭代,直到最終收斂[16]。

Mean shift的概率密度函數可以表示為:

其中,和表示色彩和空域窗口帶寬系數,C為歸一化常數。本文選擇高斯核函數作為mean shift的核函數,同時在帶寬矩陣計算中,選擇自適應帶寬計算方法[17]確定均值偏移的帶寬。

3.3 漢字連通分量重建

顏色分割后,在各顏色層二值圖像中,根據八鄰域連通原則標記像素點形成連通分量,以外接矩形作為連通分量的邊界。利用連通分量的屬性特征,對所有連通分量進行分析、篩選,去除明顯的非字符連通分量。在保留下來的連通分量中,計算與其相鄰外接矩形邊框的重疊值,根據表2漢字連通分量重建規則對連通分量進行合并,進一步減少連通分量數目和提升文字連通分量完整性,加快文字分割速度。

3.4 文字排列方向判定

漢字連通分量重建后,根據連通分量位置關系,判斷每個區域連通分量與相鄰其他連通分量的連接關系,計算連通分量在水平和垂直方向上的總疊加值,并依據疊加值確定連通分量的排列屬性。連通分量位置關系判斷式[13]如下:

如果HBD<0|VBD<0,則CCi在水平或垂直方向存在重疊。如果相鄰連通分量存在重疊,則連接相鄰兩個連通分量。而部分連通分量既在水平方向上有重疊,在垂直方向也有重疊。為了確定文字排列方向,根據式(11)對文字排列方向進行分析判斷:

取T0=2.0,LinkLogcal=1表示文字為水平排列,LinkLogcal=2表示文字為垂直排列。

4 實驗及結果分析

為了檢驗本方法的性能,選擇彩色印刷圖像集和ICDAR2003數據集對算法進行測試,彩色印刷圖像集為自選圖像,包含各種書刊封面和藥品包裝圖像。

4.1 均值偏移帶寬選擇

在均值偏移顏色分割中,需要確定兩個帶寬參數hs和hr。如果帶寬參數過小,則圖像分割效果不明顯,而如果參數過大,則會出現過分割現象,出現背景顏色覆蓋細小文字部分。不同帶寬參數的實驗結果如表3所示。

表3 均值偏移實驗結果

從實驗結果可以知道,文字定位時間在很大程度上取決于帶寬的大小。因為彩色印刷圖像的色彩十分豐富,如果選擇小帶寬,分割后顏色數量多,而文字定位需要在各顏色層中篩選、定位文字連通分量,導致算法時間消耗大。而如果帶寬過大,雖然加快了文字定位速度,但會出現過分割現象,導致細小文字區域丟失,文字定位不完整。因此,在綜合算法時間和定位精度后,取hs=32,hr=48。

4.2 判定文字區域

根據3.4節的文字連通分量連接判定規則,連接相鄰CCi確定文字排列方向,實驗結果如圖5所示。

圖5 文字CCi連接圖

根據判定規則,在CCi的連接中,任何一個有效的CCi連接必須是雙向的,即相鄰的兩個CCi必須出現在對方的CCi連接中,所有的單向CCi連接都是無效連接,依次得到CCi排列方向,實現文字定位分割。

4.3 算法性能評價

在本文算法性能評價中,選擇在文本塊級別上進行,因為分割后的文本并不用于識別。采用這樣評價方法對算法具有更大的寬容度,它允許算法檢測到部分的文本行,這對于文本檢測而言是可以接受的。評價指標[3,11]如下所示:

其中,R為召回率,P為精確度,f為整體性能指標,MDR為漏檢率。ADB表示文檔真實文本塊,TDB表示檢測到文本塊,FDB表示檢測錯誤文本塊,MDB表示不完整檢測文本塊。表4為彩色印刷圖像集對算法評價結果,表5為利用ICDAR2003數據集與文獻[3,11]對比評價結果。

表4 不同類型印刷圖像算法性能評價結果%

表5 ICDAR2003數據集性能對比%

從表4結果可以知道,經過漢字連通分量重建后,文字定位效果得到明顯提升。同時對比中文和英文圖像的文字定位結果發現,算法盡管在一定程度上彌補了漢字存在多個連通分量情況,但定位準確率仍然不及英文,需進一步提升漢字連通分量的完整性。另外,在算法性能方面,根據ICDAR 2003數據集測試結果與近年典型算法對比可知,算法在文字定位上的基本性能都基本接近,只是算法所需定位時間較長。部分文字定位效果實驗圖像如圖6所示。

圖6 實驗圖像

通過實驗圖像可以看出,算法實現圖像中大部分文字定位分割,克服了圖像中文字在字號、排列方向、字體和顏色上差異,保證了文字定位準確性。但是,算法依然存在一定的缺陷,如文字定位的速度很大程度上依賴于圖像色彩數量,如果圖像色彩豐富則所需時間較長,實時性不強。同時,算法易造成單獨文字、字距較大以及細小文字丟失,因為判定CCi連接時,字距較大和單獨文字作為無效連接去除,而細小文字容易在顏色分割時丟失,如圖6(a)、(b)中所示。

5 結論

本文提出一種基于漢字連通分量的彩色印刷圖像版面分割方法,通過對漢字連通分量進行重建實現在復雜印刷圖像中準確提取和分割文字,為印刷圖像質量在線檢測中文字印刷質量檢測奠定基礎,使印刷質量評價更加接近人眼視覺特性。由于本文只選擇了使用頻率較高的漢字結構進行連通分量合并,因此算法對于一些特殊字體、藝術字等字體不能實現很好的文字定位,同時算法的時間復雜度較高,還難以用于實時檢測,下一步應擴大漢字連通分量重建范圍,優化和完善算法性能。

[1]Yan J Q,Li J,Gao X B.Chinese text location under complex background using Gaborfilterand SVM[J].Neurocomputing,2011,74:2998-3008.

[2]Lee J J,Lee P H,Lee S W,et al.AdaBoost for text detection in natural scene[C]//Proceedings of the 11th International Conference on Document Analysis and Recognition,Beijing,China,2011:429-434.

[3]Shivakumara P,Phan T Q,Tan C L.A Laplacian approach to multi-oriented text detection in video[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(2):412-419.

[4]姚金良,翁璐斌,王小華.一種基于連通分量的文本區域定位方法[J].模式識別與人工智能,2012,25(2):325-331.

[5]Yi C,Tian Y L.Text string detection from natural scenes by structure-based partition and grouping[J].IEEE Transactions on Image Processing,2011,20(9):2594-2605.

[6]Papavassiliou V,Stafylakis T,Katsouros V,et al.Handwritten documentimage segmentation into textlines and words[J].Pattern Recognition,2010,43:369-377.

[7]Zhang X,Sun F C.Pulse coupled neural network edgebased algorithm for image text locating[J].Tsinghua Science and Technology,2011,16(1):22-30.

[8]Chen Y L,Hong Z W,Chuang C H.A knowledge-based system for extracting text-lines from mixed and overlapping text/graphics compound document images[J].Expert Systems with Applications,2012,39:494-507.

[9]Chen Y L,Wu B F.A multi-plane approach for text segmentation of complex document images[J].Pattern Recognition,2009,42:1419-1444.

[10]閔華清,鄭華強,羅榮華.自然場景圖像中基于視覺顯著性的文本區域檢測[J].華南理工大學學報:自然科學版,2012,40(8):39-45.

[11]Sun Q Y,Lu Y.Text location in scene images using visual attention model[J].International Journal of Pattern Recognition and Artificial Intelligence,2012,26(4):1-19.

[12]Jung C,Liu Q F,Kim J.A stroke filter and its application to text localization[J].Pattern Recognition Letters,2009,30:114-122.

[13]Nikolaou N,Badekas E,Papamarkos N,et al.Text localization in color documents[C]//International Conference on Computer Vision Theory and Applications,Setúbal,Portugal,2006:181-188.

[14]Kong Y P,Zeng P,Wu Z L,et al.Inverse halftoning viamedian interpolating pyramid[C]//8th International Conference on Signal Processing,Beijing,China,2006,2:16-20.

[15]周芳芳,樊曉平,葉榛.均值漂移算法的研究與應用[J].控制與決策,2007,22(8):841-847.

[16]湯楊,潘志庚,湯敏,等.基于分級mean shift的圖像分割算法[J].計算機研究與發展,2009,46(9):1421-1431.

[17]Comaniciu D,Ramesh V,Meer P.The variable bandwidth mean shift and data-driven scale selection[C]//Proceedings of the 8th IEEE International Conference on Computer Vision,Vancouver,Canada,2001:438-445.

猜你喜歡
文本檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
小波變換在PCB缺陷檢測中的應用
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 青草视频久久| 久久久久无码精品国产免费| 亚洲无码久久久久| 日韩在线网址| 色偷偷男人的天堂亚洲av| 亚洲 欧美 偷自乱 图片| 午夜精品区| 国产精品自在线拍国产电影 | 国产91在线|日本| 激情六月丁香婷婷| 亚洲AV电影不卡在线观看| 久久99国产乱子伦精品免| 亚洲青涩在线| 国产97区一区二区三区无码| 青青操视频在线| 69免费在线视频| 亚洲福利网址| 免费三A级毛片视频| 国内自拍久第一页| 真人高潮娇喘嗯啊在线观看| 1024你懂的国产精品| 国产成人高清精品免费软件| 高清亚洲欧美在线看| 亚洲欧美日韩另类在线一| 青草午夜精品视频在线观看| 亚洲最大综合网| 91免费国产高清观看| 国产成人久视频免费| 欧美一级专区免费大片| 91视频日本| 99尹人香蕉国产免费天天拍| 国产自产视频一区二区三区| 欧美成人A视频| 99国产精品一区二区| 在线国产91| 九九九国产| 91av国产在线| 久久综合九九亚洲一区| 另类专区亚洲| 91久久大香线蕉| 啪啪永久免费av| 狼友av永久网站免费观看| 欧美在线精品怡红院| 亚洲人成网7777777国产| 激情六月丁香婷婷| 欧美视频在线第一页| 免费av一区二区三区在线| 亚洲天堂视频网站| 国产裸舞福利在线视频合集| 国产精品妖精视频| 国产精品55夜色66夜色| 成人国产精品网站在线看 | 大香伊人久久| 精品国产一区二区三区在线观看| 国产精品极品美女自在线看免费一区二区 | 国产亚洲视频中文字幕视频 | 欧美国产菊爆免费观看| 国产精品无码久久久久AV| 国产9191精品免费观看| 日本妇乱子伦视频| 日本黄色a视频| 国产剧情国内精品原创| 黑色丝袜高跟国产在线91| 免费观看男人免费桶女人视频| 中文字幕久久亚洲一区| 亚洲永久色| 亚洲黄色高清| 国产成人a毛片在线| 日本影院一区| 无码精油按摩潮喷在线播放| 丁香婷婷在线视频| 福利视频一区| 国产精品无码在线看| 91色老久久精品偷偷蜜臀| 欧美午夜网| 天堂在线www网亚洲| 日韩国产欧美精品在线| 免费一极毛片| 国产小视频网站| a在线亚洲男人的天堂试看| 欧美午夜小视频| 精品久久国产综合精麻豆|