曾凡鋒, 段漾波
(北方工業大學計算機學院,北京 100144)
一種基于頁眉線的扭曲文檔圖像快速校正方法
曾凡鋒, 段漾波
(北方工業大學計算機學院,北京 100144)
在對文檔圖像進行光學字符識別時,由于書籍扭曲的存在,識別率會降低。對于含有頁眉頁腳線的扭曲文檔圖像,提出一種快速校正方法。首先分別檢測并定位圖像中的頁眉線,保存頁眉線的坐標信息。根據等比算法計算頁眉線上各點在校正時所需向上或向下移動的距離,然后以此距離為參數掃描圖像,計算頁眉頁腳線之間的各個目標像素校正所需移動的距離,同時進行像素點的移動重構圖像,最終得到校正的圖像。實驗結果表明,該方法校正效果明顯,對于包含頁眉頁腳線的扭曲文檔圖像有較好的校正效果,校正后OCR識別率大幅度提高。
計算機應用;扭曲文檔;頁眉頁腳線;等比距離;圖像校正
在進行文檔圖像的光學字符識別(optical character recognition,OCR)時,由于紙質文檔自身幾何形變和拍攝角度,或者由于積厚文檔導致的扭曲[1],其識別率會因圖像的扭曲而降低,為提高識別率,需要對扭曲的文檔圖像進行校正[2]。目前,扭曲文檔圖像的校正方法,大多是基于文本行的校正,其主要特點是以每行文字為單元進行校正,校正精度較高,但是由于要對每一行文字單獨進行處理,甚至在基于連通域搜索文字的方法中也要對每一個字進行單獨處理,因此耗時長,校正效率較低。還有一部分是基于模型重建的校正方法,如文獻[3]提出一種度量重建的扭曲文檔校正方法,文獻[4]提出一種基于魚眼模型的映射校正圖像方法。在眾多的扭曲文檔圖像中,有很多是采集于書本文檔,而目前在大多數書本文檔中,都存在頁眉頁腳線,扭曲圖像中的頁眉頁腳線是可以反應圖像的扭曲程度的,因此將頁眉頁腳線作為校正參數。
通過以上分析,在對包含頁眉頁腳線的扭曲文檔圖像進行校正時,可以利用頁眉線作為計算參數對圖像進行全局校正,而不需要對每一行文字進行單獨處理。本文基于此思路提出了一種利用頁眉線作為計算參數的扭曲文檔圖像的快速校正方法。該方法可以根據頁眉線計算出在頁眉線之下的文檔內容校正所需的參數,進而對圖像進行整體校正。對于同時含有頁腳線,或者只包含頁腳線的文檔圖像,也可以頁腳線作為計算參數來校正,方法與利用頁眉線的方法類似,即從頁腳線向上掃描即可。該方法校正后識別率有明顯提升,校正效率較其他方法有很大改進。
在采集圖像的過程中,由于相機位置以及書本厚度,都可能使獲得的圖像發生扭曲。圖1所示為4幅內容不同且帶有頁眉頁腳線的扭曲文檔圖像。
在文本文檔圖像扭曲的情況下,識別率將會大大降低;在嚴重扭曲的情況下甚至無法識別[2]。文獻[5]和[6]提出一種基于連通域的提取文檔圖像中復選框組件的方法,該方法是針對于每一行文字進行校正的。在包含有頁眉頁腳線的扭曲文檔圖像中,根據頁眉或頁腳線的扭曲特征可以計算出校正文檔所需要的參數,這樣做能很大程度地提高校正速度,即不用對每一行文字做單獨處理。同時本文提出的方法只針對于包含頁眉頁腳線的文檔進行研究,對于文檔中介于頁眉頁腳線之間包含有其他線條(如表格線)的情況,需要做特定的圖像變換算法來檢測圖像中存在的線條,再用類似本文的校正算法校正圖像即可;本文對此類情況不做特殊討論。
對于含有頁眉線的扭曲文檔圖像,扭曲校正的第一步是檢測出頁眉線并保存其坐標;然后校正頁眉線,并計算出頁眉線上每個橫坐標的目標像素校正所需的參數,其參數就是將每個目標像素校正到正確位置所需移動的距離;利用這些參數就可以校正頁眉線之下的文檔內容。本文就此提出一種基于頁眉線校正參數的校正方法,算法實現均采用C++編程語言,解決方案流程圖如圖2所示。

圖1 頁眉頁腳線扭曲文檔示意圖

圖2 本文解決方案流程圖
2.1圖像預處理
由于原始圖像大多數為真彩圖像,在本文所提出的方法中,需要對原始圖像進行預處理,其內容包括灰度化、二值化、去噪3個步驟。由于頁眉線比較細,容易受到噪聲干擾,所以在進行灰度化和二值化后需要進行去噪處理。將真彩圖像灰度化是將具有R、G、B分量的真彩色圖像轉換為灰度圖像。轉換規則采用下式:

灰度化處理后需將圖像進行二值化轉換,使圖像只包括背景色和前景色。傳統的二值化方法較多,如雙峰法、大津法(OTSU)、Sauvola算法[7]等。由于在光照均勻的情況下大津法可以很好地處理本文的研究圖像,得到效果較好的二值圖像[8],因此本文在研究中選用大津法進行處理。
由于文檔扭曲,在扭曲邊緣可能會產生光照不均的情況,這會影響校正算法[9]。本文圖像采集均在光照均勻的條件下進行,因此無需考慮光照等因素的影響,并選取簡單的鄰域去噪算法去噪,其對后續的處理不會造成影響。預處理后的圖像如圖3所示。

圖3 預處理圖像
2.2檢測頁眉線
校正的第一步是檢測出頁眉線的位置,在圖像處理中,Hough變換被用來檢測線條[10],但是對于本文來說,校正扭曲圖像對效率要求很高,因此如果采取Hough變換進行線條檢測勢必會降低效率[11]。而本文的研究對象均為含有頁眉線的文檔圖像,即頁眉線是已存在的,如圖4所示。因此,所需要做的工作就是檢測出頁眉線的位置,并保存其位置信息。經以上分析,本文采取一種快速的檢測頁眉線方法,即掃描檢測。

圖4 8-鄰域像素圖
本算法步驟如下:
步驟 1. 從圖像最上部的中間位置開始向下掃描,若掃描到兩個連續的黑色像素點,認為是頁眉線上的點,用C++編程語言設置一個vector,保存該位置信息。
步驟2. 以步驟1中的位置為起點,分別向左、右掃描,每向左或向右掃描一個點,就以當前點為基準在縱向方分別向上、下掃描 10個像素單位,若檢測到連續的兩個黑色像素點,就保存為當前頁眉線上的點。
步驟3. 重復步驟1及步驟2,直至頁面左右邊緣,即完成頁眉線檢測。
步驟4. 找出vector中值最大的元素,即為頁眉線中最高的點,并保存該點信息。
2.3計算頁眉線校正參數
扭曲校正的核心思想就是把扭曲的文字行中的文字移動到等高的位置。檢測出頁眉線后,可以先將頁眉線校正,即將頁眉線拉成水平,而將頁眉線拉平相比于拉平文字行要簡單的多。
本文實現頁眉線拉平的方法,是采用位移參數校正文檔內容。首先是要拉平頁眉線,并計算展平頁眉線所需的參數。其步驟如下:
步驟 1. 在保存的頁眉線信息中,計算出頁眉線各橫坐標上的點與最高點的高度差,并保存到一個數組中。
步驟2. 根據步驟1數組中保存的高度差,將頁眉線上的每個點在縱向上均提升到最高的位置,完成頁眉線的拉平。
原始頁眉線如圖5所示,拉平后的效果如圖6所示。

圖5 原始頁眉圖

圖6 拉平后的頁眉圖
2.4校正圖像
對于頁眉線之下的文檔內容校正計算,其參數可以沿用校正頁眉線時計算得到的參數。對于頁眉線之下的目標像素,校正的目的就是要使其移動到正確的位置,所需要移動的距離可以根據校正頁眉線時計算出的高度差數組來計算如圖7所示。具體校正所需要移動的距離可通過式(2)計算得到。

圖7 算法原理圖

式(2)中,Y是頁眉線最高點到當前點水平坐標的距離,y1是當前目標像素點到其所在縱向上頁眉的距離,Δh為當前點所對應的頁眉點校正到水平位置需要移動的距離。H即為當前點校正到正確位置所需要移動的距離。算法步驟如下:
步驟1. 從頁眉開始縱向掃描圖像,遇到目標像素首先根據式(2)計算目標像素所需要移動的距離。
步驟2. 將目標像素按步驟1中計算出來的距離移動到正確的位置。
步驟3. 重復步驟1及步驟2直至遍歷完圖像上位于頁眉線之下的目標像素點,隨著所有目標像素點移動結束,圖像的重構完成。最終獲得校正后的圖像,如圖8所示。

圖8 校正圖
從圖8可以看出,在文檔內容包含線條的情況下,內容中的線條校正效果和頁眉線的校正效果并不完全一致,這是由于校正首先從頁眉線開始,頁眉線之下的文檔內容校正需要用式(2)來計算校正參數,所以在校正精度上會產生差別。但是這種差別并不會對文檔的整體校正效果和OCR識別率有負面影響。
3.1測試環境
本文算法均在VS2005開發環境下采用C++語言實現。實驗環境為:Inter(R) Core(TM) 2 Duo CPU E7400 @2.80 GHz;內存2 GB;操作系統為Windows 7。實驗樣張取自16開普通中文書本,共100張,對其不同扭曲程度進行測試。拍攝攝像頭為500萬像素。使用漢王OCR文字識別軟件進行文字識別。
圖像的獲取均在光照均勻的環境下進行,本文校正方法忽略光照強度的干擾。圖像數據為:24位真彩圖像,大小為1609×2469像素。本文算法主要針對橫排的文檔圖像進行研究,圖像版面的特征包含頁眉頁腳線,對于文檔圖像的其他內容不做限定,如可以包含圖形(如線條)、圖像以及表格線等非文字元素,對這些文檔圖像進行有效的扭曲校正。
3.2校正效果對比
圖9為文獻[5]方法校正結果,圖10為本文方法校正結果。可以看出,對于復雜版面的文檔圖像,文獻[5]的校正效果明顯較差,不但沒有達到校正的目的,而且有的文字行已經損失,識別率大大降低。而本文算法進行校正的效果明顯,且對文檔內容是不敏感的,不管頁眉線以下的內容是什么均可以很好地校正,因此提升了識別率。如文獻[12]、[13]中所提出的校正算法相比于本文算法都有明顯不足。在實驗中,采用本文方法進行測試的樣張中,只有3張的校正效果不很理想,其余的樣張在校正后不論是可識別字符數還是識別率都有大幅度提升。表1是本文方法對圖1中4張測試圖的校正實驗結果統計。

圖9 文獻[5]校正效果圖

圖10 本文校正效果圖

表1 本文算法實驗結果比較分析
由于本文方法只需要對文檔進行頁眉線的檢測,所以相對于其他校正方法在時間效率上有很明顯的改進,可達100毫秒級。在校正精確度和校正后識別率以及可識別字符數上也都有明顯優勢。本文所提出的校正方法只針對于文檔中包含頁眉線的文檔圖像,所以在進行測試時,只進行有頁眉線的紙質文檔圖像的采集和測試。其中所測試的樣張中平均識別率可以達到96%以上,而可識別字符數也明顯高出其他方法。同時本文方法有較強的魯棒性,對于不同的復雜版面均有較好的校正效果。
本文針對含有頁眉線的扭曲文檔圖像進行研究,提出基于頁眉線的校正方法。首先通過校正頁眉線找出校正參數;然后對于目標像素點計算校正參數,并進行校正。該方法能在150 ms內校正1609×2469像素的圖像,而且校正效果良好,其校正后的OCR識別率可以達到95%以上。本文提出的方法在本實驗室開發的智能閱讀機上進行了應用,在無需人工干涉的情況下已能實現復雜版面扭曲文檔圖像的快速校正,校正后的平均實時識別率能達到96%,可滿足工程上的要求。因此,本文提出的方法可以推廣到實時文字圖像識別系統中進行應用。
[1] 向世明, 趙國英, 陳睿, 等. 積厚文檔掃描圖像校正[J].計算機輔助設計與圖形學學報, 2005, 17(1): 42-48.
[2] Ghods A R, Mozaffari S, Ahmadpanahi F. Document image dewarping using kinect depth sensor [C]//Iranian Conference on Electrical Engineering (ICEE). Iranian, 2013: 1-6.
[3] Meng G F, Pan C H, Xiang S M, et al. Metric rectification of curved document images [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 4(34): 707-722.
[4] 楊玲, 成運. 應用經緯映射的魚眼圖像校正設計方法[J]. 工程圖學學報, 2010, 31(6): 19-22.
[5] 宋麗麗, 吳亞東, 孫波. 改進的文檔圖像扭曲校正方法[J]. 計算機工程, 2011, 37(1): 204-206.
[6] Liu H, Ding R W. Restoring Chinese warped document images based on text boundary lines [C]//International Conference on Systems, Man and Cybernetics (ICSMC). San Antonio, Texas, USA, 2009: 571-576.
[7] 張偉業, 趙群飛. 讀書機器人的版面分析及文字圖像預處理算法[J]. 微型電腦應用, 2011, 27(1): 58-61.
[8] Nafchi H Z, Moghaddam R F, Cheriet M. Application of phase-based features and denoising in postprocessing and binarization of historical document images [C]// Document Analysis and Recognition (ICDAR), 2013 12th International Conference on. Washington, DC: [s. n.], 2013: 220-224.
[9] Meng G F, Xiang S M, Zheng N N, et al. Nonparametric illumination correction for scanned document images via convex hulls [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(7): 1730-1743.
[10] 都文鵬, 王敏. 基于圖像邊緣直線特征的尾隨目標識別[J]. 華中科技大學學報, 2013, 41(增刊I): 160-162.
[11] 付蘆靜, 錢軍浩, 鐘云飛. 基于漢字聯通分量的印刷圖像版面分割方法[J/OL]. [2013-07-31]. 計算機工程與應用, 2013, 19(3): 4. http://www.cnki.net/kems/detail/ 11.2127.TP.20130731.1817.001.html.
[12] Ghods A R, Mozaffari S, Ahmadpanahi F. Document image dewarping using kinect depth sensor [C]//21stIranian Conference, Electrical Engineering (ICEE). Iranian, 2013: 1-6.
[13] Tong L J, Zhang G L, Peng Q Y, et al. Warped document image mosaicing method based on inflection point detection and registration [C]//International Conference on Multimedia Information Networking and Security (ICMINES). Nanjing, China, 2012: 306-310.
A Correcting Method Based on Header and Footer Line for Warped Documnet Images
Zeng Fanfeng,Duan Yangbo
(College of Computer, North China University of Technology, Beijing 100144, China)
The recognition rate of OCR (optical character recognition) is low because of the warped document images. For those warped document images with header and footer lines, a fast method is proposed to increase the rate of OCR in this paper. Firstly, the location of the header line is detected and restored in the document image. Then the distance of the line moving upward or downward is calculated based on geometric algorithm. After that, the image is scanned using the distance as parameters and the distance that every target pixel needs to remove is calculated. At the same time, allpixelare removed in order to restructure the image and then a well corrected image is obtained. Experiments demonstrated that this correcting method was efficient. The OCR rate of warped document image with header line could be significantly improved.
computer application; warped document; header and footer line; geometric distance; image correct
TP 391
10.11996/JG.j.2095-302X.2016010079
A
2095-302X(2016)01-0079-05
2015-07-03;定稿日期:2015-10-15
國家自然科學基金項目(61371142)
曾凡鋒(1966–),男,江西吉安人,副研究員,碩士。主要研究方向為圖像處理、智能識別、系統辨識。E-mail:zengfanfeng@sina.com