王澤強 陳義明



摘要:本文提出利用形態學函數進行特征強化的數據預處理方法,結合一階段目標檢測器YOLOv3進行表格檢測。實驗證明,在利用特征強化的方法后,本文的F1-Score的相對提升達到1%,優于二階段的Faster R-CNN方法。考慮到本文的方法在模型訓練和推斷中無須引入額外的計算量,因此本文的方法具有較強的推廣性。
關鍵詞:表格檢測;圖像處理;深度學習
中圖分類號: TP18? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)03-0014-03
Abstract: In this paper, a data preprocessing method using morphological functions for feature enhancement was proposed, and a table detection was carried out by combining the YOLOv3 model of the one-stage target detector.Experiments show that the relative improvement of F1-SCORE in this paper reaches 1% after using the method of feature enhancement, and it is better than the two-stage Faster R-CNN method.Considering that the method in this paper does not need to introduce additional computation in model training and inference, the method in this paper has strong generalization.
Key words: table detection;image processing;deep learning
大量數據表格出現在紙質文檔中,從中提取出表格數據具有十分重要的意義。手工提取的方法耗時費力。一種更高效的方法是將表格文檔掃描為圖片,開發軟件程序從圖片中自動提取表格數據,將其電子化。從圖片中提取表格數據分為表格檢測和表格解析識別兩步,本文主要研究表格檢測的問題。
表格檢測的一種典型方法是使用以OpenCV為代表的數字圖像處理工具,通過反復的膨脹、腐蝕等操作,消除圖片中的文字、圖片等信息,提取出表格的輪廓,從而檢測出表格的位置[1]。這種方法對有線表檢測非常有效,但由于沒有封閉邊框,無線表的檢測精度較低。
另一種比較典型的方法是手工提取表格特征,使用機器學習分類模型檢測表格。Anh提出一個混合方法,先對文檔圖片進行分類,劃分文字與非文字區域,然后基于這種劃分尋找表格的候選區域[2]。Kasar提出了一種通過識別列和行分隔符來定位表的方法。該系統采用掃描法,從輸入圖像中檢測水平和垂直線。從每組水平和垂直線中,提取26個低級特征并將其傳遞給支持向量機(SVM)學習分類模型,完成表格檢測任務[3]。這種方法的主要問題在于沒有表格邊框線的情況下會失效。Jahan等使用字間距和行高的局部閾值來定位和提取文檔圖像中的表區域[4]。此方法的主要限制是它檢測表區域以及周圍的文本區域,它必須其他文本作為參照而不能僅用于一個單獨表的提取。這些常規表格分析技術通常以文件的布局分析為基礎,大多數都無法泛化,因為它們依賴于手工構建的特征,對布局變化不具備魯棒性。
因此,本文嘗試利用深度學習中強大的特征提取和泛化能力設計一種基于深度學習和形態學函數的表格檢測方法。論文的第二節詳細描述了模型和方法,第三節包括實驗數據描述、實驗方案和結果分析,最后是本文的結論。
1 方法
1.1 模型架構
本文利用YOLOv3[5]網絡作為表格檢測的核心網絡是YOLO (You Only Look Once)系列目標檢測算法中的第三版[6-8],相比之前的算法,精度和速度方面有著顯著的提升。模型的整體結構概圖如圖1所示。
其中模型的基本單元稱為Darknetconv2d_BN_Leaky組件,由卷積(convolution,conv)、批歸一化(batch normalization,BN)和弱化線性整流單元(Leaky Relu)組成。利用DBL組件構成了YOLOv3的特征提取的骨干網絡DarkNet53。通過輸出不同尺度上的特征圖(Feature Map)對不同尺度的目標進行檢測,我們可以很直觀地認識到在小尺度的特征圖上進行大目標的檢測,在大尺度的特征圖上進行小目標的檢測。
其中YOLOv3的改進部分在于邊框回歸方式(Bounding Box Prediction,BBox)的改進。YOLOv3借鑒了Faster R-CNN[9]中區域提議網絡(Region Proposal Network,RPN)采用的錨框(anchor)機制,但是這種anchor機制采用線性回歸帶來一定的不穩定性,因為邊框回歸的偏移量(offset)可以偏移到任意位置。因此YOLOv3直接預測相對位置,預測出邊框回歸中心點對于網格左上角的相對坐標。
1.2 形態學函數
本文利用形態學函數對數據進行預處理,在表格圖片中表格邊框特征作為檢測時的重要特征形態不明顯,特別是在復雜表格結構中,周圍存在大量干擾因素。因此本文利用數字圖像處理中的形態學函數進行處理,具體有如下幾種操作。
腐蝕(Erosion)操作:腐蝕是一種消除邊界點,使邊界向內部收縮的過程。可以用來消除小且無意義的物體。例如當用3x3的結構元素,掃描圖像的每一個像素,用結構元素與其覆蓋的二值圖像做“與”操作 如果都為1,結果圖像的該像素為1。否則為0 ,最終使得使二值圖像減小一圈用公式表示為:
膨脹(Dilation)操作:膨脹是將與物體接觸的所有背景點合并到該物體中,使邊界向外部擴張的過程。可以用來填補物體中的空洞。例如當用3x3的結構元素,掃描圖像的每一個像素,用結構元素與其覆蓋的二值圖像做“或”操作。如果都為0,結果圖像的該像素為0,否則為1,最終使二值圖像擴大一圈。膨脹可以看作是腐蝕的對偶運算。
通過上述幾種操作能夠充分的去除文字雜訊,具體效果見圖2,通過反復的開閉運算最大限度地突出表格特征,弱化文字特征。
1.3 模型與形態學函數的結合
在模型訓練時,利用基礎的圖像增廣操作如翻轉、拉伸。在模型推斷過程中,利用形態學函數進行數據預處理,獲得特征強化后的表格圖片,使得模型能夠更加聚焦于特征,從而獲得更好的實驗結果。
2 實驗
2.1 表格檢測
為了驗證本文方案的有效性,我們設置兩個標準:檢測準確率,檢測召回率。檢測準確率使用通常二元分類的綜合F值來衡量。用m張包含不少于一張表格的文檔圖片作為正例,不含表格的n張文檔圖片作為負例。假設正例中[m1]個被正確檢測,[m2]個被錯誤檢測,即真陽性數[TP=m1],假陰性數[FN=m2],而負例中有[n1]個被錯誤地識別為正例,[n2]個被正確地檢測,即假陽性數[FP=n1],真陰性數[TN=n2],則準確率、召回率和F1綜合分值分別定義如下:
檢測結果如表1:
實驗結果證明,在沒有形態學特征增強的情況下YOLOv3的表現稍遜于Faster R-CNN模型,而通過形態學函數處理強化表格特征后YOLOv3模型的性能較Faster R-CNN更好,考慮到YOLOv3作為一種一階段的檢測模型相較于二階段的檢測模型而言,運行的速度更快。因此本文提供的方法更能夠在實際的生產環境中使用。
3 結論
在表格檢測任務中,傳統的表格檢測方法比如提取特征再利用SVM等分類器進行表格檢測的方法,準確性不高并且面對不同的問題域,通常不夠魯棒。因此本文設計一種基于形態學函數的數據預處理方法并結合深度學習進行表格檢測。實驗證明,本文方法效果較好,能夠廣泛地應用到發票、單據等類似表格的任務中。
綜上所述,在較好地完成表格檢測這一任務后,我們希望能夠借助表格檢測的基礎進行表格的結構化識別和分類,這將會是我們未來的發展與思考方向。
參考文獻:
[1] C. e Silva, “Learning rich Hidden Markov Models in document analysis: Table location,” in Document Analysis and Recognition, 2009. ICDAR09. 10th International Conference on. IEEE, 2009:843–847.
[2] T. T. Anh, N. In-Seop, and K. Soo-Hyung, “A hybrid method for table detection from document image,” in Pattern Recognition (ACPR), 2015 3rd IAPR Asian Conference on. IEEE, 2015:131-135.
[3] T. Kasar, P. Barlas, S. Adam, C. Chatelain, and T. Paquet, “Learning to detect tables in scanned document images using line information,” in Document Analysis and Recognition (ICDAR), 2013 12th International Conference on. IEEE, 2013:1185-1189.
[4] M. A. Jahan and R. G. Ragel, “Locating tables in scanned documents for reconstructing and republishing,” in Information and Automation for Sustainability (ICIAfS), 2014 7th International Conference on. IEEE, 2014:1-6.
[5] Redmon J , Farhadi A . YOLOv3: An Incremental Improvement[J]. 2018.
[6] Redmon J , Divvala S , Girshick R , et al. You Only Look Once: Unified, Real-Time Object Detection[J]. 2015.
[7] Redmon J , Farhadi A . YOLO9000: Better, Faster, Stronger[J]. 2017:6517-6525.
[8] Bochkovskiy A , Wang C Y , Liao H Y M . YOLOv4: Optimal Speed and Accuracy of Object Detection[J]. 2020.
[9] Ren S , He K , Girshick R , et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149.
【通聯編輯:唐一東】