孫日明,梁波
(大連交通大學 理學院,遼寧 大連 116028)*
一種高精度文本圖像傾斜檢測方法
孫日明,梁波
(大連交通大學 理學院,遼寧 大連 116028)*
為了降低浮點運算導致的舍入誤差,提高初始傾斜角度的檢測精度,在基于能量頻譜圖檢測方法的基礎上引入了一個空域的基于平行線覆蓋的快速收斂方法.新方法結合了頻域和空域的信息,不僅提高了檢測精度,同時保持了基于能量頻譜圖檢測方法對污損噪聲圖像的魯棒性.
傾斜檢測;周期性紋理;傅立葉變換;能量頻譜圖
隨著數字化生活的到來,自動文本處理已經廣泛應用于各類辦公系統,比如圖書館、銀行、郵局、印刷廠等等.在掃描這些文檔過程中,傾斜會不可避免地出現在掃描的文本圖像中.傾斜檢測和校正成了自動識別這些文本圖像必不可少的預處理過程.作為一個重要的研究方向,在近幾十年里得到了廣泛的關注,所處理的圖像也從原來的文本圖像擴展到票據圖像,織物圖像等.常見的傾斜檢測方法可分為六大類,投影分析法[1]、KNN聚類方法[2]、基于 Hough 變換法[3]、交叉相關統計法[4]、邊界框法[5]和基于傅立葉變換[6]的方法.
在絕大多數情況下,文字是文本圖像的主體內容.基于文字在文本圖像中的排列方式,使得大部分的傾斜檢測方法都是基于文字所形成的文本線結構.這些方法通過不斷地迭代來檢測文本線的方向,從而獲取文本圖像的傾斜角度.由于這些檢測方法是通過迭代的方式來獲取傾斜角度,因此它們共同的缺點是迭代步長越小、檢測結果越精確、運行時間越長.雖然很多方法已經通過用特征點[7]代替圖像點極大的降低了計算復雜度,但是這些方法的計算量還是很驚人的.不同于傳統的基于文本線的檢測方法,Chou等人[10]提出了一種基于平行線的分段覆蓋的傾斜檢測方法.該方法通過統計不同方向平行線覆蓋后的空白區域,來找出最多空白區域的所對應的平行線方向,從而得到文本圖像的傾斜角.Prasenjit Dey和S.Noushath[11]通過置信度測量魯棒了這個算法,同時它引入的快速收斂方式進一步減少了運行的時間.
由于文字在文本圖像中特有的或行或列的排列方式(HFT或VFT),使得文本圖像可以看成是具有周期性紋理的圖像.傅立葉變換是檢測周期性的有用工具,通過分析傅立葉變換后的能量頻譜圖可以檢測出文本圖像由文本線結構特征所引發的周期性[8].我們在文獻[9]中提出了兩種不需要迭代的基于能量頻譜圖的傾斜檢測方法,最大值檢測方法和最小二乘方法.最大值檢測方法通過找尋最大的峰值點來確定主紋理方向,從而確定傾斜角.該方法具有很強的抗噪性,但是它受到舍入誤差的影響較大.最小二乘法雖然可以通過多個峰值點來擬合主紋理方向,但是多點擬合降低了抗噪能力,對污損圖像的魯棒性較差.新方法在最大值檢測方法的基礎上,引入了文獻[11]的收斂方法來提高原方法[9]的檢測精度.當最大值檢測方法能夠快速的得到一個初始檢測角度,可以縮減收斂方法[11]的檢測區間,使得新方法在不顯著影響檢測速度的情況下提高原方法的檢測精度.
文字是文本圖像的主體內容,文字在文本圖像的排列方式使得文本圖像可以看作是具有周期性紋理的圖像.基于傅里葉變換后的能量頻譜圖的傾斜檢測方法在不需要迭代的情況下快速地得到了文本圖像的傾斜角度.由于圖像是定義在離散點上的函數,在計算傾斜角度的時候受到舍入誤差的影響比較大,尤其對于傾斜角度較小的情況.新方法引入了文獻[11]的收斂方法,在不顯著增加運行時間的情況下快速收斂到具有高精度的文本圖像傾斜角.
文本排列方式的確定有助于縮小傾斜角度的檢測范圍,這里我們提出了一個簡單有效的判別文本線是水平排列(HFT)還是垂直排列(VFT)的方法.由圖1可以看出,能量頻譜圖中峰值點所確定的直線總是垂直于文本圖像的文本線方向.

圖1 圖像及其能量頻譜圖
由于被掃描的文本并不會被故意擺歪,因此傾斜角的范圍應該在[-45°,45°].如果是水平排列(HFT)的紋理,那么峰值點會出現在[45°,135°];如果是垂直排列(VFT)的紋理,那么峰值點會出現在[0°,45°]或[135°,180°].在能量頻譜圖中,峰值點總是對稱的,因此只考慮上半圖像就可以通過峰值點的位置判別文字在文本圖像中的排列方式,見圖2.

圖2 判別文本線排列的示意圖
文字是文本圖像的重要內容,因此在絕大多數的文本圖像中,都會存在一定數量的文本線.在預處理過程中,最優的圖像子塊可以通過能量頻譜圖中峰值點的大小被確定出來,見前期工作[9].在這樣的圖像子塊中,文本線結構占據主要成份,因此會在能量頻譜圖中出現對應于文本線結構的最大峰值點.最大值檢測方法就是找到對應于文本線的峰值點.最大峰值點的檢測方法可以表示為:

這里,z(i,j)表示能量頻譜圖中(i,j)點的能量值,(i*,j*)表示所求的最大峰值點,(icenter,jcenter)為圖像中心點.由于最大值檢測方法找尋的是最大的峰值點,即使圖像被噪聲或其他因素造成污損,也不會影響對主紋理的周期性的檢測.因此,最大值檢測方法的最大優點是具有對污損噪聲圖像的魯棒性,見圖3.值得注意的是,峰值點的選擇應盡量避免離圖像中心過近.這是由于圖像是離散點上的函數,如果所選取的峰值點過于接近圖像中心,會導致很大的舍入誤差.

圖3 最大值檢測方法對污損噪聲圖像的校正結果
為了保持對污損噪聲圖像的魯棒性同時盡量減少舍入誤差帶來的影響,新方法引入了一個快速收斂方法來精確最大值檢測方法得到的初始傾斜角.雖然引入的收斂方法也是個迭代過程,但是由于初始值和精確值差別不是很大,因此需要迭代的區間很小,且每次迭代只需統計白點的個數,因此收斂速度是很快的.該收斂方法的迭代過程類似牛頓二分法,首先以初始角度θinitial為中心確定三個方向,然后通過計算函數BlankArea()[11]的值逐步地縮減區間,最后收斂到高精度的傾斜角度.具體方法如下:
(1)設置初始步長step=3;
(2)設置初始角度θ*=θinitial;
(3)循環step>0.1;

在上面的迭代中,函數BlankArea()統計的是平行線覆蓋空域的文本圖像后空白點的個數.在每一次的迭代中,找出三個方向{θinitial,θinitial+step,θinitial-step}中空白點個數最多所對應的角度θ*.然后以新的角度θ*為中心的重新定義三個方向(步長為原來的一半),以此類推,直至收斂到符合精度要求的傾斜角度或超過給定的迭代次數.
通過對大量的文本圖像實驗比較了新方法與其它基于能量頻譜圖檢測方法的檢測結果.實驗圖像分為兩類,第一類是文本占主要成分的文本圖像,第二類是圖像占主要成分的文本圖像,詳見文獻[9].當這兩類文本圖像都被旋轉5°后,分別比較了最大值檢測方法、最小二乘法、加權最小二乘法和加入收斂后的檢測結果.從附表可以看出,引入收斂方法后,能夠對于第二類文本圖像能夠起到很好的修正作用,對于文本線為主體內容的第一類文本圖像在絕大多數情況下也能夠起到提高精度的作用.

附表 基于能量頻譜圖檢測方法的實驗比較結果
在不計運行時間的情況下,基于文本線結構的聚類方法[12]能夠檢測出高精度的傾斜角度.從圖4可以看出新方法和文獻[12]的方法都能得到準確的檢測結果.區別于聚類方法[12],新方法幾乎只需要一個快速傅立葉變換的時間.同時基于統計的方法[13]對于文本為主體內容的圖像能夠取得較高精度的檢測結果,由圖5可以看出,新方法可以取得更高的檢測精度.新方法不僅對于漢字為文本的文本圖像具有高的檢測精度,對于其他語種的文本圖像也能夠得到較高的檢測精度.圖6給出了果魯穆奇語的文本圖像的傾斜檢測結果,新方法和文獻[14]的方法都能夠得到令人滿意的校正結果.這里,圖4~6中的傾斜文本圖像分別來源于文獻[12-14].

圖4 新方法與聚類方法[12]的比較結果(新方法檢測的傾斜角度是2.549 3)

圖5 新方法與聚類方法[13]的比較結果(新方法檢測的傾斜角度是12.765 9)

圖6 新方法與方法[14]對果魯穆奇語的文本圖像的比較結果(新方法檢測的傾斜角度是4.731 9)
本文提出了一個高精度的快速傾斜檢測方法.新方法采用最大值檢測方法在不需要迭代的情況下得到了初始的傾斜角度,在不顯著增加計算量的情況下引入了一個快速基于平行線覆蓋的收斂方法.結合了空域和頻域的信息,使得新方法不僅保持了對污損噪聲圖像的魯棒性同時降低了由于舍入誤差造成的影響.
[1]SHUTAO LI,QINGHUA SHEN,JUN SUN.Skew detection using wavelet decomposition and projection profile analysis[J].Pattern Recognition Letters,2007,28(5):555-562.
[2]CHIHHONG KAO,DON H S.Skew detection of document images using line structural information[C].Third International Conference on Information Technology and Applications,2005,1:704-709.
[3]CHANDANSINGH,NITINBHATIA,AMANDEEP KAUR.Hough transform based fast skew detection and accurate skew correction methods[J].Pattern Recognition,2008,41(12):3528-3546.
[4]HONG YAN.Skew correction of document images using interline cross-correlation[J].CVGIP:Graph.Models Image Process,1993,55(6):538-543.
[5]AMIN A,WU S.Robust skew detection in mixed text/graphics documents[C].Eighth International Conference on Document Analysis and Recognition,2005:247-251.
[6]喬德江,陳鴻昶.基于粒子群優化的文本圖像傾斜檢測[J].通信技術,2009,42(7):266-268.
[7]YANG CAO,SHUHUA WANG,HENG LI.Skew detection and correction in document images based on straightline fitting[J].Pattern Recognition Letters,2003,24(12):1871-1879.
[8]SU ZHIXUN,WEN ZHIJIE,QIAO WANSHUN,et al.Automatic Identification of The Fabric Structure Based on Fourier Transform[J].Journal of Information and computational science,2006,3(3):527-534.
[9]RIMING SUN,ZHIXUN SU,ZHIJIE WEN.A Skew Detection Method Based on Periodic Texture[J].Journal of Information and Computational Science,2010,7(4):915-924.
[10]CHIENHSING CHOU,SHIHYU CHU,FU CHANG.Estimation of skew angles for scanned documents based on piecewise covering by parallelograms[J].Pattern Recognition,2007,40(2):443-455.
[11]PRASENJIT DEY,S NOUSHATH.A robust skew detection method for scanned document images[J].Pattern Recognition,2010,43(3):937-948.
[12]CAO Y,WANG S,LI H.Skew detection and correction in document images based on straight- line fitting[J].Pattern Recognition Letters,2003,24(12):1871-1879.
[13]CHEN Y K,WANG J F.Skew detection and reconstruction based on maximization of variance of transitioncounts[J].Pattern Recognition,2000,33(2):195-208.
[14]LOVELEEN KAUR,MANDEV SINGH.Comparison of skew detection and correction techniques by applying on Gurmukhi Script[J].International Journal of Engineering Research & Technology,2012,1(5):1-5.
A High Accuracy Skew Detection Method for Document Images
SUN Ri-ming, LIANG Bo
(School of Mathematics and Physics,Dalian Jiaotong University,Dalian 116028,China)
A high accuracy skew detection method based on periodic texture is presented by introducing an effective converging method.Combining the information of frequency domain and spatial domain,the proposed method not only remarkably improves the accuracy of detected skew angle but also continues the robustness of original method for noised and contaminated images.
skew detection;periodic texture;fourier transform;power spectrum
A
10.13291/j.cnki.djdxac.2014.03.025
1673-9590(2014)03-0106-05
2013-05-15
國家自然科學基金資助項目(11201045)
孫日明(1978-),女,講師,博士,主要從事傾斜檢測及圖形圖像壓縮的研究
E-mail:sunriming@djtu.edu.cn.
·研究簡報·