一種基于頁(yè)眉線的扭曲文檔圖像快速校正方法

2016-11-30 02:07:50曾凡鋒段漾波

圖學(xué)學(xué)報(bào) 2016年1期

關(guān)鍵詞：方法

曾凡鋒，段漾波

(北方工業(yè)大學(xué)計(jì)算機(jī)學(xué)院，北京 100144)

一種基于頁(yè)眉線的扭曲文檔圖像快速校正方法

曾凡鋒，段漾波

(北方工業(yè)大學(xué)計(jì)算機(jī)學(xué)院，北京 100144)

在對(duì)文檔圖像進(jìn)行光學(xué)字符識(shí)別時(shí)，由于書籍扭曲的存在，識(shí)別率會(huì)降低。對(duì)于含有頁(yè)眉頁(yè)腳線的扭曲文檔圖像，提出一種快速校正方法。首先分別檢測(cè)并定位圖像中的頁(yè)眉線，保存頁(yè)眉線的坐標(biāo)信息。根據(jù)等比算法計(jì)算頁(yè)眉線上各點(diǎn)在校正時(shí)所需向上或向下移動(dòng)的距離，然后以此距離為參數(shù)掃描圖像，計(jì)算頁(yè)眉頁(yè)腳線之間的各個(gè)目標(biāo)像素校正所需移動(dòng)的距離，同時(shí)進(jìn)行像素點(diǎn)的移動(dòng)重構(gòu)圖像，最終得到校正的圖像。實(shí)驗(yàn)結(jié)果表明，該方法校正效果明顯，對(duì)于包含頁(yè)眉頁(yè)腳線的扭曲文檔圖像有較好的校正效果，校正后OCR識(shí)別率大幅度提高。

計(jì)算機(jī)應(yīng)用；扭曲文檔；頁(yè)眉頁(yè)腳線；等比距離；圖像校正

在進(jìn)行文檔圖像的光學(xué)字符識(shí)別(optical character recognition，OCR)時(shí)，由于紙質(zhì)文檔自身幾何形變和拍攝角度，或者由于積厚文檔導(dǎo)致的扭曲[1]，其識(shí)別率會(huì)因圖像的扭曲而降低，為提高識(shí)別率，需要對(duì)扭曲的文檔圖像進(jìn)行校正[2]。目前，扭曲文檔圖像的校正方法，大多是基于文本行的校正，其主要特點(diǎn)是以每行文字為單元進(jìn)行校正，校正精度較高，但是由于要對(duì)每一行文字單獨(dú)進(jìn)行處理，甚至在基于連通域搜索文字的方法中也要對(duì)每一個(gè)字進(jìn)行單獨(dú)處理，因此耗時(shí)長(zhǎng)，校正效率較低。還有一部分是基于模型重建的校正方法，如文獻(xiàn)[3]提出一種度量重建的扭曲文檔校正方法，文獻(xiàn)[4]提出一種基于魚眼模型的映射校正圖像方法。在眾多的扭曲文檔圖像中，有很多是采集于書本文檔，而目前在大多數(shù)書本文檔中，都存在頁(yè)眉頁(yè)腳線，扭曲圖像中的頁(yè)眉頁(yè)腳線是可以反應(yīng)圖像的扭曲程度的，因此將頁(yè)眉頁(yè)腳線作為校正參數(shù)。

通過以上分析，在對(duì)包含頁(yè)眉頁(yè)腳線的扭曲文檔圖像進(jìn)行校正時(shí)，可以利用頁(yè)眉線作為計(jì)算參數(shù)對(duì)圖像進(jìn)行全局校正，而不需要對(duì)每一行文字進(jìn)行單獨(dú)處理。本文基于此思路提出了一種利用頁(yè)眉線作為計(jì)算參數(shù)的扭曲文檔圖像的快速校正方法。該方法可以根據(jù)頁(yè)眉線計(jì)算出在頁(yè)眉線之下的文檔內(nèi)容校正所需的參數(shù)，進(jìn)而對(duì)圖像進(jìn)行整體校正。對(duì)于同時(shí)含有頁(yè)腳線，或者只包含頁(yè)腳線的文檔圖像，也可以頁(yè)腳線作為計(jì)算參數(shù)來校正，方法與利用頁(yè)眉線的方法類似，即從頁(yè)腳線向上掃描即可。該方法校正后識(shí)別率有明顯提升，校正效率較其他方法有很大改進(jìn)。

1　頁(yè)眉頁(yè)腳線扭曲文檔圖像特征及校正分析

在采集圖像的過程中，由于相機(jī)位置以及書本厚度，都可能使獲得的圖像發(fā)生扭曲。圖1所示為4幅內(nèi)容不同且?guī)в许?yè)眉頁(yè)腳線的扭曲文檔圖像。

在文本文檔圖像扭曲的情況下，識(shí)別率將會(huì)大大降低；在嚴(yán)重扭曲的情況下甚至無(wú)法識(shí)別[2]。文獻(xiàn)[5]和[6]提出一種基于連通域的提取文檔圖像中復(fù)選框組件的方法，該方法是針對(duì)于每一行文字進(jìn)行校正的。在包含有頁(yè)眉頁(yè)腳線的扭曲文檔圖像中，根據(jù)頁(yè)眉或頁(yè)腳線的扭曲特征可以計(jì)算出校正文檔所需要的參數(shù)，這樣做能很大程度地提高校正速度，即不用對(duì)每一行文字做單獨(dú)處理。同時(shí)本文提出的方法只針對(duì)于包含頁(yè)眉頁(yè)腳線的文檔進(jìn)行研究，對(duì)于文檔中介于頁(yè)眉頁(yè)腳線之間包含有其他線條(如表格線)的情況，需要做特定的圖像變換算法來檢測(cè)圖像中存在的線條，再用類似本文的校正算法校正圖像即可；本文對(duì)此類情況不做特殊討論。

2　基于頁(yè)眉線扭曲校正算法

對(duì)于含有頁(yè)眉線的扭曲文檔圖像，扭曲校正的第一步是檢測(cè)出頁(yè)眉線并保存其坐標(biāo)；然后校正頁(yè)眉線，并計(jì)算出頁(yè)眉線上每個(gè)橫坐標(biāo)的目標(biāo)像素校正所需的參數(shù)，其參數(shù)就是將每個(gè)目標(biāo)像素校正到正確位置所需移動(dòng)的距離；利用這些參數(shù)就可以校正頁(yè)眉線之下的文檔內(nèi)容。本文就此提出一種基于頁(yè)眉線校正參數(shù)的校正方法，算法實(shí)現(xiàn)均采用C++編程語(yǔ)言，解決方案流程圖如圖2所示。

圖1　頁(yè)眉頁(yè)腳線扭曲文檔示意圖

圖2　本文解決方案流程圖

2.1圖像預(yù)處理

由于原始圖像大多數(shù)為真彩圖像，在本文所提出的方法中，需要對(duì)原始圖像進(jìn)行預(yù)處理，其內(nèi)容包括灰度化、二值化、去噪3個(gè)步驟。由于頁(yè)眉線比較細(xì)，容易受到噪聲干擾，所以在進(jìn)行灰度化和二值化后需要進(jìn)行去噪處理。將真彩圖像灰度化是將具有R、G、B分量的真彩色圖像轉(zhuǎn)換為灰度圖像。轉(zhuǎn)換規(guī)則采用下式：

灰度化處理后需將圖像進(jìn)行二值化轉(zhuǎn)換，使圖像只包括背景色和前景色。傳統(tǒng)的二值化方法較多，如雙峰法、大津法(OTSU)、Sauvola算法[7]等。由于在光照均勻的情況下大津法可以很好地處理本文的研究圖像，得到效果較好的二值圖像[8]，因此本文在研究中選用大津法進(jìn)行處理。

由于文檔扭曲，在扭曲邊緣可能會(huì)產(chǎn)生光照不均的情況，這會(huì)影響校正算法[9]。本文圖像采集均在光照均勻的條件下進(jìn)行，因此無(wú)需考慮光照等因素的影響，并選取簡(jiǎn)單的鄰域去噪算法去噪，其對(duì)后續(xù)的處理不會(huì)造成影響。預(yù)處理后的圖像如圖3所示。

圖3　預(yù)處理圖像

2.2檢測(cè)頁(yè)眉線

校正的第一步是檢測(cè)出頁(yè)眉線的位置，在圖像處理中，Hough變換被用來檢測(cè)線條[10]，但是對(duì)于本文來說，校正扭曲圖像對(duì)效率要求很高，因此如果采取Hough變換進(jìn)行線條檢測(cè)勢(shì)必會(huì)降低效率[11]。而本文的研究對(duì)象均為含有頁(yè)眉線的文檔圖像，即頁(yè)眉線是已存在的，如圖4所示。因此，所需要做的工作就是檢測(cè)出頁(yè)眉線的位置，并保存其位置信息。經(jīng)以上分析，本文采取一種快速的檢測(cè)頁(yè)眉線方法，即掃描檢測(cè)。

圖4　8-鄰域像素圖

本算法步驟如下：

步驟 1. 從圖像最上部的中間位置開始向下掃描，若掃描到兩個(gè)連續(xù)的黑色像素點(diǎn)，認(rèn)為是頁(yè)眉線上的點(diǎn)，用C++編程語(yǔ)言設(shè)置一個(gè)vector，保存該位置信息。

步驟2. 以步驟1中的位置為起點(diǎn)，分別向左、右掃描，每向左或向右掃描一個(gè)點(diǎn)，就以當(dāng)前點(diǎn)為基準(zhǔn)在縱向方分別向上、下掃描 10個(gè)像素單位，若檢測(cè)到連續(xù)的兩個(gè)黑色像素點(diǎn)，就保存為當(dāng)前頁(yè)眉線上的點(diǎn)。

步驟3. 重復(fù)步驟1及步驟2，直至頁(yè)面左右邊緣，即完成頁(yè)眉線檢測(cè)。

步驟4. 找出vector中值最大的元素，即為頁(yè)眉線中最高的點(diǎn)，并保存該點(diǎn)信息。

2.3計(jì)算頁(yè)眉線校正參數(shù)

扭曲校正的核心思想就是把扭曲的文字行中的文字移動(dòng)到等高的位置。檢測(cè)出頁(yè)眉線后，可以先將頁(yè)眉線校正，即將頁(yè)眉線拉成水平，而將頁(yè)眉線拉平相比于拉平文字行要簡(jiǎn)單的多。

本文實(shí)現(xiàn)頁(yè)眉線拉平的方法，是采用位移參數(shù)校正文檔內(nèi)容。首先是要拉平頁(yè)眉線，并計(jì)算展平頁(yè)眉線所需的參數(shù)。其步驟如下：

步驟 1. 在保存的頁(yè)眉線信息中，計(jì)算出頁(yè)眉線各橫坐標(biāo)上的點(diǎn)與最高點(diǎn)的高度差，并保存到一個(gè)數(shù)組中。

步驟2. 根據(jù)步驟1數(shù)組中保存的高度差，將頁(yè)眉線上的每個(gè)點(diǎn)在縱向上均提升到最高的位置，完成頁(yè)眉線的拉平。

原始頁(yè)眉線如圖5所示，拉平后的效果如圖6所示。

圖5　原始頁(yè)眉圖

圖6　拉平后的頁(yè)眉圖

2.4校正圖像

對(duì)于頁(yè)眉線之下的文檔內(nèi)容校正計(jì)算，其參數(shù)可以沿用校正頁(yè)眉線時(shí)計(jì)算得到的參數(shù)。對(duì)于頁(yè)眉線之下的目標(biāo)像素，校正的目的就是要使其移動(dòng)到正確的位置，所需要移動(dòng)的距離可以根據(jù)校正頁(yè)眉線時(shí)計(jì)算出的高度差數(shù)組來計(jì)算如圖7所示。具體校正所需要移動(dòng)的距離可通過式(2)計(jì)算得到。

圖7　算法原理圖

式(2)中，Y是頁(yè)眉線最高點(diǎn)到當(dāng)前點(diǎn)水平坐標(biāo)的距離，y1是當(dāng)前目標(biāo)像素點(diǎn)到其所在縱向上頁(yè)眉的距離，Δh為當(dāng)前點(diǎn)所對(duì)應(yīng)的頁(yè)眉點(diǎn)校正到水平位置需要移動(dòng)的距離。H即為當(dāng)前點(diǎn)校正到正確位置所需要移動(dòng)的距離。算法步驟如下：

步驟1. 從頁(yè)眉開始縱向掃描圖像，遇到目標(biāo)像素首先根據(jù)式(2)計(jì)算目標(biāo)像素所需要移動(dòng)的距離。

步驟2. 將目標(biāo)像素按步驟1中計(jì)算出來的距離移動(dòng)到正確的位置。

步驟3. 重復(fù)步驟1及步驟2直至遍歷完圖像上位于頁(yè)眉線之下的目標(biāo)像素點(diǎn)，隨著所有目標(biāo)像素點(diǎn)移動(dòng)結(jié)束，圖像的重構(gòu)完成。最終獲得校正后的圖像，如圖8所示。

圖8　校正圖

從圖8可以看出，在文檔內(nèi)容包含線條的情況下，內(nèi)容中的線條校正效果和頁(yè)眉線的校正效果并不完全一致，這是由于校正首先從頁(yè)眉線開始，頁(yè)眉線之下的文檔內(nèi)容校正需要用式(2)來計(jì)算校正參數(shù)，所以在校正精度上會(huì)產(chǎn)生差別。但是這種差別并不會(huì)對(duì)文檔的整體校正效果和OCR識(shí)別率有負(fù)面影響。

3　方法測(cè)試及實(shí)驗(yàn)結(jié)果分析

3.1測(cè)試環(huán)境

本文算法均在VS2005開發(fā)環(huán)境下采用C++語(yǔ)言實(shí)現(xiàn)。實(shí)驗(yàn)環(huán)境為：Inter(R) Core(TM) 2 Duo CPU E7400 @2.80 GHz；內(nèi)存2 GB；操作系統(tǒng)為Windows 7。實(shí)驗(yàn)樣張取自16開普通中文書本，共100張，對(duì)其不同扭曲程度進(jìn)行測(cè)試。拍攝攝像頭為500萬(wàn)像素。使用漢王OCR文字識(shí)別軟件進(jìn)行文字識(shí)別。

圖像的獲取均在光照均勻的環(huán)境下進(jìn)行，本文校正方法忽略光照強(qiáng)度的干擾。圖像數(shù)據(jù)為：24位真彩圖像，大小為1609×2469像素。本文算法主要針對(duì)橫排的文檔圖像進(jìn)行研究，圖像版面的特征包含頁(yè)眉頁(yè)腳線，對(duì)于文檔圖像的其他內(nèi)容不做限定，如可以包含圖形(如線條)、圖像以及表格線等非文字元素，對(duì)這些文檔圖像進(jìn)行有效的扭曲校正。

3.2校正效果對(duì)比

圖9為文獻(xiàn)[5]方法校正結(jié)果，圖10為本文方法校正結(jié)果。可以看出，對(duì)于復(fù)雜版面的文檔圖像，文獻(xiàn)[5]的校正效果明顯較差，不但沒有達(dá)到校正的目的，而且有的文字行已經(jīng)損失，識(shí)別率大大降低。而本文算法進(jìn)行校正的效果明顯，且對(duì)文檔內(nèi)容是不敏感的，不管頁(yè)眉線以下的內(nèi)容是什么均可以很好地校正，因此提升了識(shí)別率。如文獻(xiàn)[12]、[13]中所提出的校正算法相比于本文算法都有明顯不足。在實(shí)驗(yàn)中，采用本文方法進(jìn)行測(cè)試的樣張中，只有3張的校正效果不很理想，其余的樣張?jiān)谛Ｕ蟛徽撌强勺R(shí)別字符數(shù)還是識(shí)別率都有大幅度提升。表1是本文方法對(duì)圖1中4張測(cè)試圖的校正實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)。

圖9　文獻(xiàn)[5]校正效果圖　

圖10　本文校正效果圖

表1　本文算法實(shí)驗(yàn)結(jié)果比較分析

由于本文方法只需要對(duì)文檔進(jìn)行頁(yè)眉線的檢測(cè)，所以相對(duì)于其他校正方法在時(shí)間效率上有很明顯的改進(jìn)，可達(dá)100毫秒級(jí)。在校正精確度和校正后識(shí)別率以及可識(shí)別字符數(shù)上也都有明顯優(yōu)勢(shì)。本文所提出的校正方法只針對(duì)于文檔中包含頁(yè)眉線的文檔圖像，所以在進(jìn)行測(cè)試時(shí)，只進(jìn)行有頁(yè)眉線的紙質(zhì)文檔圖像的采集和測(cè)試。其中所測(cè)試的樣張中平均識(shí)別率可以達(dá)到96%以上，而可識(shí)別字符數(shù)也明顯高出其他方法。同時(shí)本文方法有較強(qiáng)的魯棒性，對(duì)于不同的復(fù)雜版面均有較好的校正效果。

4　結(jié) 束語(yǔ)

本文針對(duì)含有頁(yè)眉線的扭曲文檔圖像進(jìn)行研究，提出基于頁(yè)眉線的校正方法。首先通過校正頁(yè)眉線找出校正參數(shù)；然后對(duì)于目標(biāo)像素點(diǎn)計(jì)算校正參數(shù)，并進(jìn)行校正。該方法能在150 ms內(nèi)校正1609×2469像素的圖像，而且校正效果良好，其校正后的OCR識(shí)別率可以達(dá)到95%以上。本文提出的方法在本實(shí)驗(yàn)室開發(fā)的智能閱讀機(jī)上進(jìn)行了應(yīng)用，在無(wú)需人工干涉的情況下已能實(shí)現(xiàn)復(fù)雜版面扭曲文檔圖像的快速校正，校正后的平均實(shí)時(shí)識(shí)別率能達(dá)到96%，可滿足工程上的要求。因此，本文提出的方法可以推廣到實(shí)時(shí)文字圖像識(shí)別系統(tǒng)中進(jìn)行應(yīng)用。

[1] 向世明, 趙國(guó)英, 陳睿, 等. 積厚文檔掃描圖像校正[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2005, 17(1): 42-48.

[2] Ghods A R, Mozaffari S, Ahmadpanahi F. Document image dewarping using kinect depth sensor [C]//Iranian Conference on Electrical Engineering (ICEE). Iranian, 2013: 1-6.

[3] Meng G F, Pan C H, Xiang S M, et al. Metric rectification of curved document images [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 4(34): 707-722.

[4] 楊玲, 成運(yùn). 應(yīng)用經(jīng)緯映射的魚眼圖像校正設(shè)計(jì)方法[J]. 工程圖學(xué)學(xué)報(bào), 2010, 31(6): 19-22.

[5] 宋麗麗, 吳亞東, 孫波. 改進(jìn)的文檔圖像扭曲校正方法[J]. 計(jì)算機(jī)工程, 2011, 37(1): 204-206.

[6] Liu H, Ding R W. Restoring Chinese warped document images based on text boundary lines [C]//International Conference on Systems, Man and Cybernetics (ICSMC). San Antonio, Texas, USA, 2009: 571-576.

[7] 張偉業(yè), 趙群飛. 讀書機(jī)器人的版面分析及文字圖像預(yù)處理算法[J]. 微型電腦應(yīng)用, 2011, 27(1): 58-61.

[8] Nafchi H Z, Moghaddam R F, Cheriet M. Application of phase-based features and denoising in postprocessing and binarization of historical document images [C]// Document Analysis and Recognition (ICDAR), 2013 12th International Conference on. Washington, DC: [s. n.], 2013: 220-224.

[9] Meng G F, Xiang S M, Zheng N N, et al. Nonparametric illumination correction for scanned document images via convex hulls [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(7): 1730-1743.

[10] 都文鵬, 王敏. 基于圖像邊緣直線特征的尾隨目標(biāo)識(shí)別[J]. 華中科技大學(xué)學(xué)報(bào), 2013, 41(增刊I): 160-162.

[11] 付蘆靜, 錢軍浩, 鐘云飛. 基于漢字聯(lián)通分量的印刷圖像版面分割方法[J/OL]. [2013-07-31]. 計(jì)算機(jī)工程與應(yīng)用, 2013, 19(3): 4. http://www.cnki.net/kems/detail/ 11.2127.TP.20130731.1817.001.html.

[12] Ghods A R, Mozaffari S, Ahmadpanahi F. Document image dewarping using kinect depth sensor [C]//21stIranian Conference, Electrical Engineering (ICEE). Iranian, 2013: 1-6.

[13] Tong L J, Zhang G L, Peng Q Y, et al. Warped document image mosaicing method based on inflection point detection and registration [C]//International Conference on Multimedia Information Networking and Security (ICMINES). Nanjing, China, 2012: 306-310.

A Correcting Method Based on Header and Footer Line for Warped Documnet Images

Zeng Fanfeng,Duan Yangbo

(College of Computer, North China University of Technology, Beijing 100144, China)

The recognition rate of OCR (optical character recognition) is low because of the warped document images. For those warped document images with header and footer lines, a fast method is proposed to increase the rate of OCR in this paper. Firstly, the location of the header line is detected and restored in the document image. Then the distance of the line moving upward or downward is calculated based on geometric algorithm. After that, the image is scanned using the distance as parameters and the distance that every target pixel needs to remove is calculated. At the same time, allpixelare removed in order to restructure the image and then a well corrected image is obtained. Experiments demonstrated that this correcting method was efficient. The OCR rate of warped document image with header line could be significantly improved.

computer application; warped document; header and footer line; geometric distance; image correct

TP 391

10.11996/JG.j.2095-302X.2016010079

2095-302X(2016)01-0079-05

2015-07-03；定稿日期：2015-10-15

國(guó)家自然科學(xué)基金項(xiàng)目(61371142)

曾凡鋒(1966–)，男，江西吉安人，副研究員，碩士。主要研究方向?yàn)閳D像處理、智能識(shí)別、系統(tǒng)辨識(shí)。E-mail：zengfanfeng@sina.com

一種基于頁(yè)眉線的扭曲文檔圖像快速校正方法

1 頁(yè)眉頁(yè)腳線扭曲文檔圖像特征及校正分析

2 基于頁(yè)眉線扭曲校正算法

3 方法測(cè)試及實(shí)驗(yàn)結(jié)果分析

4 結(jié) 束 語(yǔ)

1　頁(yè)眉頁(yè)腳線扭曲文檔圖像特征及校正分析

2　基于頁(yè)眉線扭曲校正算法

3　方法測(cè)試及實(shí)驗(yàn)結(jié)果分析

4　結(jié) 束語(yǔ)