摘要:針對照相機對裝訂書籍拍照時由于書面彎曲產生文檔圖像變形的問題,利用從圖像中提取的文檔邊緣作為特征信息,通過參數控制自動實現文檔圖像的矯正。與以往研究成果相比,本方法無須人工標記及特殊設備,具有一定的優越性。實驗結果能夠有效地對變形文檔圖像進行矯正。
關鍵詞:文檔圖像; 變形; 矯正; 三維重構; 曲面參數化
中圖分類號:TP391.41文獻標志碼:A
文章編號:1001-3695(2007)07-0315-03
0引言
文檔數字化通常均由掃描儀獲得。然而,隨著數字照相機高性能、低價位的發展趨勢,其在文檔分析中的應用成為一個研究熱點。較之傳統的掃描儀,數字照相機體積小、重量輕、攜帶方便,并且可以很容易地結合到其他數字產品中去;它們受到的環境約束小,可以對厚重的書籍、大幅報紙、脆弱的歷史文檔甚至是背景環境中的文字拍照。因此,基于數字照相機的文檔分析是一項非常有意義的研究工作[1]。
然而,將照相機作為數字化輸入設備有很多問題需要解決,如文檔表面變形、分辨率過低、光照不均、背景復雜等。其中由書籍表面彎曲造成的圖像變形是非常重要的問題。這種變形的后果是圖像中文字行由直線變成曲線,文字圖像存在擠壓和扭曲,大大降低了光字符識別(OCR)率,并且給進
一步的文檔結構分析和理解造成困難。因此必須通過圖像矯正的方法對彎曲變形的文檔進行恢復。
1現有矯正方法概述
針對文檔圖像變形問題,國內外研究人員已經取得了一些成果和方法。從特征信息提取的來源和方式上,大致可分為三類:①利用特殊設備從文檔圖像中提取深度信息,如利用投影儀作結構光源設計出3D形狀采集系統,獲得文檔的深度圖像[2,3]。這類方法矯正精度較高,但計算成本大,需要昂貴的攝影設備并需要精確標定,適用于圖書館珍貴書籍的數字化保存。②從文檔圖像內容中獲得變形特征,如通過跟蹤圖像中彎曲文本線得到文檔表面變形的信息,再利用其恢復文檔表面3D形狀對圖像進行矯正[4,5] 。該方法中,文本線的跟蹤較易出現交叉、斷行等現象,且對文檔內容的依賴較強,不適應圖像、表格較多時的情況。③稱為基于邊緣的矯正方法[6]。它從圖像中的文檔邊緣提取3D深度信息,再利用曲面參數化方法實現整張文檔圖像的矯正。這種方法曾實現了彎曲變形的印刷藝術品圖像的矯正,其特征提取簡單且與文檔內容無關,實驗得到的矯正效果較好,是數字照相機文檔分析領域中值得關注和研究的一類方法。
當前研究中,基于邊緣的矯正方法還需要較多的人工輔助。一般需要人為地在文檔(或書頁)邊緣上標出一系列在真實的3D邊緣曲線上等弧長分布的點(在本文中稱為等距控制點),進而從二維文檔圖像中獲得三維深度信息。當矯正書頁較多時這種方法的效率會比較低。
本文將提出一種自動矯正的方法,希望在參數控制下,只需對文檔拍照,通過算法的實現自動輸出矯正圖像。由于投影成像使信息產生失真,直接從二維圖像上找不到標志變形程度的信息,必須通過三維重構實現。
2文檔圖像邊緣的三維重構
三維重構的目的在于找到三維書頁邊緣上等距控制點與其在圖像上位置的對應關系。圖1是一張典型的由照相機拍攝到的文檔圖像。可以明顯看到文字行變成曲線,且圖像中的文字均存在扭曲。
前述的對印刷藝術品圖像的矯正方法[6],是借助一張黑白方格交錯形成的棋盤紙完成的。棋盤紙緊貼在變形的藝術品下面,使之產生一致的變形。拍照后,借助于黑白格的引導,便可以從藝術品圖像中的邊緣線上找到等距控制點,它們在圖像中的位置分布體現了文檔3D表面的深度變化,是圖像矯正所依據的特征信息。該方法使用的棋盤紙需要進行人工制作,其控制點事實上是人為標出的。
本文將重構出圖像中文檔邊緣的三維形狀,通過計算可以自動求出等距控制點與其在圖像中位置的對應關系。3D曲線到其2D圖像之間的轉換關系可以通過幾何成像的理論求得[5]。將相機看作透鏡系統,此時的成像可看作透視投影變換,如圖2所示。
3實驗及結果比較
根據上述介紹的基于3D邊緣重構的文檔圖像自動矯正算法,完成了曲面文檔的矯正實驗。首先對彎曲的書面文檔拍照,如圖1所示。圖1中,h=31 cm,H=1 704,相機到書面的近似深度為s(0)≈60 cm。
以書頁的中縫為左邊緣線對圖像進行處理。跟蹤邊緣時,首先對圖像進行二值化,然后運用8鄰域跟蹤的方法,并通過5像素的平滑處理去掉邊緣曲線的噪聲。經過邊緣曲線的三維重構后,實驗得到圖1頁面的上邊緣3D形狀及其上的等距控制點位置如圖5所示。各條邊緣線的等距控制點圍成的區域即為需要矯正的區域。最終,經NCS參數化及插值映射之后,自動矯正后得到的頁面圖像如圖6(a)所示。
為進行比較,筆者還實現了文獻[6]中的手動標點法的實驗結果,如圖6(b)所示。自動矯正實驗的開發平臺為Visual C++.NET,一張2 272×1 704書頁展開照片的處理時間接近半分鐘(CPU:Intel 1.4 GHz),而手動法實驗需要10 min以上。若待處理書頁數量較多,矯正效率將有大幅度提高。
下面通過幾種方式對自動矯正和手動矯正方法的矯正精度進行評價。把圖1方框中的部分放大,并與矯正以后圖6(a)(b)的相應區域作對比,如圖7所示。圖7中的2 cm×2 cm的細線是為了方便觀察在拍照前畫上的。通過對原圖像和矯正圖像的比較可以發現,自動矯正方法效果明顯,且與手動矯正方法的效果相當。在接近書面中縫的區域,原圖文字的變形非常大,而在矯正圖像中,文字寬度和大小均勻,不再存在擠壓和扭曲;此外,文本線也由曲線變為直線。
為了對OCR的提高進行比較,用TH.OCR.9.0軟件分別處理原圖和自動法、手動法矯正圖,結果如表1所示。
可以看到,矯正后的圖像識別率有了很大提高,但自動法和手動法相比還有一點差距。為進一步定量評價矯正結果,最后用計算角點矯正誤差的方法對結果進行分析比較。將一張黑白棋盤紙置于書面上,并使之緊貼書面產生相同變形。拍照后,分別按照文獻[6]中手動方法和本文所述自動矯正方法對圖像進行矯正。實驗結果如圖8所示。
通過對表格中數據的分析可以看到,經過自動矯正和手動矯正的圖像與原圖像相比,σW和σH顯著減小。自動法的σW和σH比手動法略大,這與建立模型時的條件限制、圖像邊緣噪聲以及數據計算誤差等因素均有關。數據表明自動法矯正效果接近手動法,因此能夠在保證較好的矯正精度的基礎上提高矯正效率,是一種行之有效的實用性方法。
4結束語
本文提出了一種通過邊緣3D重構提取文檔圖像特征信息,對彎曲的書面文檔圖像自動進行矯正的方法。該方法可以在無須人工輔助獲取信息情況下完成書面文檔矯正工作,實現了對彎曲書面文檔數字照片的具備一定精度的快速圖像恢復。該方法的矯正精度及算法魯棒性尚未達到最優,今后可作進一步研究。
參考文獻:
[1]DOERMANN D,LIANG Jian,LI Huiping.Progress in camera-based document image analysis[C]//Proc of the 7th Intemational Confe-rence on Document Analysis and Recognition.Edinburgh, Scotland:[s.n.],2003:606-616.
[2]BROWN M S,SEALES W B.Beyond 2d images:effective 3d imaging for library materials[C]//Proc of the 5th ACM Conference on Digital Libraries.Denver, Colorado:[s.n.],2000:27-36.
[3]BROWN M S, SEALES W B. The digital atheneum:new approaches for preserving, restoring and analyzing damaged manuscripts[C]//Proc of the 1st ACM/IEEE-CS Joint Conference on Digital Libraries.Roanoke, Virginia, USA:[s.n.],2001:437-443.
[4]ZHANG Zheng,TAN C L.Correcting document image warping based on regression of curved text lines[C]//Proc of the 7th Intemational Conference on Document Analysis and Recognition.Edinburgh, Scotland:[s.n.],2003:589-593.
[5]CAO H, DING X, LIU C. A cylindrical surface model to rectify the bound document image[C]//Proc of the 9th IEEE International Conference on Computer Vision.Nice, France:[s.n.],2003:228-233.
[6]TSOI Y C,BROWN M S.Geometric and shading correction for images of printed materials:a unified approach using boundary[C]//Proc of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington, DC:[s.n.],2004:240-246.
[7]AGAM G,WU Changhua. Structural rectification of non-planar document images:Application to graphics recognition[C]//Proc of the 4th International Workshop on Graphics Recognition Algorithms and Application.London:Springer-Verlag,2001:289-298.
[8]LEES W,KIM E S,TANG Y Y. Nonlinear shape restoration of distorted images with coons transformation[C]//Proc of the 7th International Conference on Document Analysis and Recognition.Washington DC:IEEE Computer Society,1995:235-238.
[9]PILU M. Undong paper cur1 distortion using applicable surfaces[C]//Proc of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington, DC:IEEE Computer Society,2001:67-72.
[10]KANUNGO T, HARALICK R, PHILIPS I. Global and local document degradation models[C]//Proc of the 2nd International Confe-rence on Document Analysis and Recognition.Tsukuba, Japan:[s.n.],1993:730-734.
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”