999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于Radon變換的文檔圖像傾斜校正改進算法

2016-07-29 12:08:57李志明
物聯網技術 2016年7期

李志明

摘 要:通過光學字符識別技術可將紙質文檔內容快速轉換為可編輯電子文檔,該技術識別的準確率與掃描文檔圖像質量的好壞緊密相關。對紙質文檔掃描或拍照時不可避免的會產生文檔圖像傾斜的現象,為了保證光學字符識別技術識別的準確度,對文檔圖像進行傾斜校正是非常有必要的。文中針對傳統文檔圖像傾斜校正算法對文檔圖像中存在圖片區域干擾時校正精度低的問題,提出了一種基于Radon變換的改進算法。該算法首先將預處理后的文檔圖像進行分塊,并利用Radon變換計算各子塊圖像的傾斜角所對應的Radon曲線;其次,結合文本行子塊與圖片子塊的Radon曲線的周期性差異,再利用傅里葉變換求功率譜密度將圖片子塊檢測出來并排除;最后,利用Radon對已排除圖片區域干擾的文檔圖像進行傾斜角檢測并校正。實驗結果表明,該改進算法能將傾斜文檔圖像中的絕大多數圖片干擾排除,從而使傾斜校正精度得到提高。

關鍵詞:文檔圖像處理;傾斜校正;傅里葉變換;Radon變換

中圖分類號:TP391 文獻標識碼:A 文章編號:2095-1302(2016)07-00-04

0 引 言

文檔圖像處理通過光學字符識別技術(Optical Character Recognition,OCR)對文檔圖像進行相應處理,以達到對文檔圖像中的文字、圖片和圖表等信息進行分析和識別的目的。然而,在利用數碼相機或掃描儀等圖像獲取設備將紙質文檔轉換為數字圖像的過程中,因掃描設備機械缺陷或人為因素不可避免的會使文檔圖像發生傾斜。為提高OCR技術識別的準確率,對傾斜的文檔圖像進行校正很有必要。由于文檔圖像版面結構的復雜性,建立一種通用的傾斜文檔圖像校正算法非常困難。如何高效、準確地檢測出文檔圖像的傾斜角是成功實現傾斜校正的關鍵。當前,科研人員已開發了多種不同的文檔傾斜校正算法,包括基于Hough變換的校正算法[1-3]、基于Fourier變換的校正法[4]、基于特征點最小距離擬合的文檔圖像傾斜檢測[5]、基于交叉關聯校正算法[6]、基于投影的文檔圖像傾斜校正方法[7]以及k-最近鄰簇校正法[8,9]等。其中,Hough變換校正算法的思想是將圖像空間變換到參數空間,使得圖像空間中的直線被映射到參數空間的一點,而圖像空間中的一點則對應參數空間的一條正弦曲線;圖像空間中的任意兩點所對應的正弦曲線在參數空間中相交于一點,通過上述兩點所在直線的點對應的正弦曲線在參數空間中都相交于該交點。利用上述特性可將圖像空間中直線檢測問題轉換為求參數空間中局部最大值的問題。基于Fourier變換的校正算法利用文檔頁面傾斜角與Fourier空間密度最大值的對應特性實現檢測計算,由于對文檔圖像中的全部像素進行計算,運算量非常大,因此目前使用較少。交叉關聯算法是基于等距離豎直(水平)平行線上像素點相關性設計的,該算法先以平行線上像素點來建立相關矩陣,然后對相關矩陣在豎直方向上進行投影,投影圖的全局最大值與文檔圖像的傾斜角對應;由于相關矩陣的計算量非常大,且要確定全局最大值,某些情況下還需回溯計算相關矩陣和投影,進一步增加了計算量。k-最近鄰簇校正法通過計算所有連通區域的中心點的k個最近鄰確定出每對近鄰點的矢量方向,并統計生成直方圖,直方圖的峰值就對應于整個文檔圖像的傾角。通過實驗分析發現,利用以上算法對純文本行圖像進行處理時,算法檢測精度較高,當文檔中存在圖片區域時,圖片區域的干擾導致算法精度降低。此外,從算法設計原理可以看出,上述算法都存在計算量大的問題。

針對傳統傾斜文檔圖像校正算法處理包含圖片區域的文檔圖像時檢測精度低的問題,提出了一種基于Radon變換的改進算法,并通過實驗驗證了該算法對圖片區域干擾的排除效果以及算法檢測精度。

1 算法原理

1.1 基于Radon變換的傳統校正算法

Radon變換利用投影積分的思想,沿著某條特定直線求積分,并將積分值投影到Radon變換平面上,該積分結果又被稱為Radon曲線,由該直線與圖像坐標系原點的距離和傾斜角共同確定,Radon變換示意圖如圖1所示。文檔圖像沿θ方向的Radon曲線可表示為:

其中,f(x,y)為初始文檔圖像,g(s,θ)為Radon曲線。

基于Radon變換原理實現傾斜文檔校正的一般思路如下:

(1)圖像預處理:通過圖像二值化、邊緣檢測等手段提取同一行文本的邊框;

(2)傾斜角檢測:對步驟(1)中的結果進行Radon變換,求出文檔圖像對應的傾斜角;

(3)傾斜校正:將原始文檔旋轉相應角度,完成傾斜校正。然而,同其它傾斜校正算法類似,此算法對文檔中包含大量純文本行時檢測精度較高,當文檔圖像中存在圖片區域時,Radon曲線將由文本行和圖片區域像素點積分累積獲得;當圖片區域所占像素點較多時,會導致Radon曲線峰值所對應的投影角度較大地偏離文檔圖像的真實傾斜角,從而導致校正算法失效。因此,開發一種對文檔圖像中的圖片區域干擾免疫效果更強的檢測算法很有必要。

1.2 改進算法

將文檔的先驗知識與Radon變換檢測算法相結合,從Radon變換出發,結合文檔圖像內容特征對傳統的Radon變換校正算法進行改進,以提高算法的精度。對包含圖片區域的傾斜文檔圖像進行分析:

對純文本行區域而言,每行文字的大小和間距是確定的,故沿著垂直于文字行的方向來看,文本區域呈現周期性特征;對圖片區域而言,通常圖片中各像素點的信息分布不具有周期性,是隨機的。根據文本行區域的周期特征和圖片區域的隨機特征,可利用數字信號處理技術將圖片區域識別出來并排除,再利用Radon變換對消除圖片干擾的文檔圖像進行檢測和校正[10,11]。算法具體實現步驟如下:

(1)圖像預處理

因受外界因素的干擾,獲取的文檔圖像中通常包含噪聲,故在對傾斜文檔圖像進行處理前需要對其進行預處理,包括圖像平滑、二值化及邊緣檢測等步驟。圖像平滑可消除圖像采集過程中的高頻噪聲,主要有鄰域平均法、中值濾波法和選擇式掩膜平滑法等。二值化圖像可反映圖像的整體和局部特征,選擇合適的閾值方能將文檔圖像較好地轉化為二值圖像。常用的二值化方法有全局閾值法、自適應閾值法和局部自適應閾值法等。邊緣檢測的實質是提取圖像中對象與背景的交界線,可采用差分、梯度、拉普拉斯算子及高通濾波等方法對圖像進行邊緣檢測,常用的檢測算子有梯度算子、拉普拉斯算子、Sobel算子和Canny算子[12]等。

(2)圖像分塊

結合被處理文檔圖像中文本行區域和圖片區域的分布特征,將被處理文檔圖像分成M×N個子塊,如8×8。圖像分塊時應確保絕大多數圖片區域為單獨子塊,以確保后續算法能將這些僅包含圖片區域的子塊盡可能地排除。

(3)計算各子塊傾斜角所對應的Radon曲線

利用Radon變換分別對所有子塊圖像進行處理,求出各子塊圖像的傾斜角及其對應的Radon曲線。若子塊圖像為純文本行,其傾斜角對應的Radon變換投影方向正交于文本行方向,Radon曲線呈周期性分布;若子塊為圖片區域,對應的Radon曲線將是非周期的;若子塊為空白區域,對應的Radon曲線為一條直線。

(4)排除圖片區域子塊

從上文分析可知,純文本行子塊所對應的Radon曲線是周期信號,圖片子塊所對應的Radon曲線是隨機變換的。因此,可將純文本行子塊和圖片子塊的識別問題轉換為周期信號和非周期信號處理的問題。從數字信號處理角度入手,對周期信號進行傅里葉變換求其功率譜密度(周期-功率),可提取出信號周期[13,14]。利用此原理,對所有子塊圖像對應的Radon曲線進行傅里葉變換求其功率譜密度,周期-功率曲線中的最大峰值對應的橫坐標即為信號周期。利用統計學分析手段,對所有子塊的“周期值”進行分析,獲得文本行子塊的周期,從而達到識別文本行子塊和圖片子塊的目的。在此基礎上,將識別出的圖片子塊所有像素點置零,以消除圖片區域對檢測算法的干擾。特別地,部分子塊同時包含文本行區域和圖片區域,此時若文本行區域占比較大,則該子塊將會保留,若圖片區域占比較大則會被排除。通過上述方法可將文檔中的絕大多數圖片區域排除,僅剩余的少許圖片邊界將不會對后續檢測結果產生明顯干擾。

(5)子塊圖像合并與補零

排除圖片子塊干擾后,將所有子塊圖像按照分割序號重新合并。此外,因子塊圖像劃分時部分外圍空白邊界區域被截斷舍去,需將合并后的子塊外圍所對應的截斷區域進行補零,確保合并圖像與原始文檔圖像大小相同。

(6)傾斜校正

利用Radon變換對合并圖像進行處理,求出其對應的傾斜角,并對其進行旋轉校正。圖2所示為改進算法的流程示意圖。

2 實驗結果與分析

選取一幀沒有傾斜且包含圖片的文檔圖像,并旋轉不同角度得到傾斜圖像,利用這些傾斜文檔圖像對提出的算法進行驗證。驗證實驗基于Matlab 2009a平臺展開,計算機配置為主頻3.1 GHz的Intel雙核CPU、4 GB RAM。圖3所示為傾斜15度的樣本圖像及其預處理結果。圖3(a)~(d)分別為傾斜文檔圖像、二值化圖像、邊緣檢測結果以及劃分子塊結果。其中,圖像二值化閾值計算采用最大類間方差法,邊緣檢測采用canny算子。為確保盡可能多的圖片區域被消除,將該文檔圖像劃分為64個子塊。

圖4所示為四種不同特征子塊區域,其功率譜密度如圖5所示。圖4(a)代表空白子塊,其功率譜密度曲線如圖5(a)所示,為一條直線;圖4(b)所示為純文本行子塊,故所對應的Radon曲線是周期信號,圖5(b)所示的功率譜密度曲線中最大峰值的橫坐標即為該信號周期;圖4(c)所示為圖片子塊,與之對應的Radon變換曲線是非周期信號,其功率譜密度曲線如圖5(c)所示,可以看出,圖片子塊的Radon曲線功率譜密度中不存在周期特征峰;圖4(d)所示子塊同時包含文本行區域和圖片區域,因圖片邊界方向與文本行同向,故從圖5(d)所示的功率譜密度曲線中仍能準確求出信號周期。因此,可采用上述手段將所有子塊中的圖片子塊找出并排除。

圖6(a)所示為排除圖片子塊干擾后將所有子塊合并的結果,可以看出,文檔中的絕大多數圖片區域已被排除,部分圖片因其邊界與文本行同向而不能被徹底排除,但是不會對后續檢測結果產生明顯干擾。圖6(b)所示為傾斜校正后的文檔圖像。

此外,為進一步驗證提出算法的檢測精度,將提出的算法與Hough變換算法及傳統Radon變換算法進行比較,其結果如表1所列。從表1可以看出,因文檔中存在圖片干擾,Hough變換算法和傳統Radon變換算法的檢測誤差遠大于提出的算法。提出算法的最大絕對誤差為0.07°,最小絕對誤差為0.01°,多組測試結果對應的標準誤差為0.024°。實驗證明,提出的算法能較好地排除文檔圖像中的圖片干擾,算法檢測精度較高。此外,提出的算法因兩次進行Radon變換計算,運算量相對于傳統Radon變換算法翻倍,這在一定程度上增加了時間成本。

3 結 語

文中提出了一種基于Radon變換的文檔圖像傾斜校正改進算法,利用圖像分塊和傅里葉變換求功率譜密度等手段,可將文檔中的圖片區域干擾盡可能地排除。實驗結果表明,該算法對文檔圖像中的圖片區域干擾免疫能力強,檢測精度高,為文檔圖像后續階段的處理奠定了良好的基礎。

參考文獻

[1]周冠瑋,平西建,程娟.基于改進Hough變換的文本圖像傾斜校正方法[J].計算機應用,2007,27(7):1813-1816.

[2] Nandini N,Srikanta M K,Kumar G H.Estimation of skew angle inbinary document images using hough transform[Z].World Academy of Science,Engineering and Technology,2008.

[3] Chandan Singh,Nitin Bhatia,Amandeep Raur.Hough transform based fast skew detection and accurate skew correction methods[J]. Pattern Recognition,2008,41:3528-3546.

[4]蔣海波.掃描圖像的傾斜校正、分割與壓縮[D].濟南:山東大學,2012.

[5]吳一全,謝靜.基于特征點最小距離擬合的文檔圖像傾斜檢測[J].光學技術,2009,35(1):152-155.

[6]吳飛飛.文本圖像傾斜校正算法的研究與應用[D].北京:北方工業大學,2014.

[7]張順利,李衛斌,吉軍.基于投影的文檔圖像傾斜校正方法[J].計算機工程與應用,2010(3):166-168.

[8] L.J. Tong,Y.Zhang,H.Q. Zhao.A Warped Document Image Mosaicing Method Based on Registration and TRS Transform[C].2011 IEEE/ACIS 10th International Conference on Computer and Information Science (ICIS) ,2011.

[9] KUMAR V,BANSAL A.Sparse document image coding for restoration[C].12th International Conference on Document Analysis and Recognition (ICDAR),2013.

[10] Gaofeng Meng,Chunhong Pan,Nanning Zheng,et al.Skew estimation of document images using bagging[J].IEEE Transactions on Image Processing,2010,19(7):1837-1846.

[11] L.G. Miao,Y.J. Yue.Automatic document image mosaicing algorithm with hand-held camera[C].2011 2nd International Conference on Intelligent Control and Information Processing (ICICIP),2011.

[12]馬歌.基于Canny算子和Radon變換的證件圖像傾斜校正[J].中國新技術新產品,2014(15):14-15.

[13] Manjunath Aradhya V N,Hemantha Kumar G,Shivakumara P.Skew Detection Technique for Binary Document Images based on Hough Transform[J].international journal of information technology,2007(3).

[14] Doermann D,Liang Jian,Li Huiping.Progress in camera-based document image analysis[C].Proc of the 7thInter-national Conference on Document Analysis and Recognition ,2003.

主站蜘蛛池模板: 久久久久亚洲AV成人网站软件| 免费毛片在线| 99尹人香蕉国产免费天天拍| 少妇精品久久久一区二区三区| 国产精品人莉莉成在线播放| 亚洲中文字幕av无码区| 亚洲天堂在线视频| 亚洲无码免费黄色网址| 在线国产91| 国产成熟女人性满足视频| 孕妇高潮太爽了在线观看免费| 成人第一页| 国产成人精品一区二区不卡| 高潮爽到爆的喷水女主播视频| 成人免费一级片| 性做久久久久久久免费看| 午夜国产理论| 亚洲中文字幕日产无码2021| 亚洲成人在线网| 制服丝袜亚洲| 尤物在线观看乱码| 国产玖玖玖精品视频| 97精品伊人久久大香线蕉| 91九色国产porny| 欧美三級片黃色三級片黃色1| 欧美成人a∨视频免费观看| 18禁黄无遮挡免费动漫网站| 波多野结衣国产精品| 亚洲日本一本dvd高清| 免费国产高清视频| 日韩无码精品人妻| 国产精品极品美女自在线网站| 亚洲熟女中文字幕男人总站| 日韩AV手机在线观看蜜芽| 欧美一区二区三区不卡免费| 夜夜操狠狠操| 亚洲国产亚综合在线区| a毛片免费在线观看| vvvv98国产成人综合青青| 亚洲国产精品人久久电影| 国产91视频免费观看| 人妻丰满熟妇AV无码区| 青青草久久伊人| 久久精品无码专区免费| 亚洲欧洲国产成人综合不卡| 国产精品私拍在线爆乳| 成人福利视频网| 91蜜芽尤物福利在线观看| 亚洲综合精品香蕉久久网| 天天综合色天天综合网| 亚洲AⅤ无码日韩AV无码网站| 精品人妻AV区| 99这里精品| 日本色综合网| 欧美精品影院| 亚洲人成网7777777国产| 亚洲精选高清无码| 在线视频精品一区| 手机精品视频在线观看免费| 亚洲婷婷在线视频| 手机永久AV在线播放| 欧美另类精品一区二区三区| 精品欧美一区二区三区在线| 国产麻豆91网在线看| 久久99精品国产麻豆宅宅| 欧美一级在线| 黄色网址免费在线| 67194在线午夜亚洲| 久久久噜噜噜| 国产91精品久久| 理论片一区| 亚洲精品天堂自在久久77| 伊在人亞洲香蕉精品區| 国产精品亚洲综合久久小说| 久久久久青草线综合超碰| 亚洲欧美色中文字幕| 久久超级碰| 久久青草精品一区二区三区| 91视频日本| 99热最新网址| 亚州AV秘 一区二区三区| 青青青国产视频|