張宇童,李啟元,劉樹衎,2
1.中國人民解放軍海軍工程大學 電子工程學院,武漢 430033
2.東南大學 計算機科學與工程學院,南京 211102
表格作為數字文檔頁面的主要組成部分,具有半結構化的特性和復雜多樣的版式。然而,在數字文檔圖像中,表格所蘊含的信息難以被直接使用。為了實現表格的智能處理,獲取和利用表格內的數據信息,需要進行表格檢測與結構識別。
表格檢測與結構識別是表格分析領域的關鍵問題。表格檢測是指在各式各樣的版面中準確找到表格所處的區域;結構識別是指在已確定的表格區域上,定位表格的行、列及單元格的空間坐標和邏輯坐標。
由于早期表格使用頻率不高,結構較為單一,簡單的規則可以滿足表格區域的檢測和結構信息的提取。文獻[1-3]依托手工制定的規則來分析表格。隨著計算機技術的飛速發展,電子文檔的使用已非常廣泛[4],表格的使用頻率不斷提高,樣式也越來越豐富。僅僅依靠規則的方法已經無法滿足現有表格的處理需求,于是基于機器學習[5]的方法被提出。文獻[6]提出使用支持向量機(support vector machine,SVM)[7-8]結合規則來判別表格區域,實現表格區域的檢測。文獻[9]使用多個分類器進行融合以達到對表格區域的檢測。
圖形處理器(graphics processing unit,GPU)[10]的改進帶來了計算能力的提升,依靠大規模數據集的深度學習技術也迎來了發展,這也使得表格研究領域的關注度越來越高。
通過大量的文獻調研,對表格分析領域的發展狀況進行總結,具體研究工作可分為以下幾個方面:
(1)介紹了表格檢測任務的發展現狀,并對所述方法進行分類介紹,總結其優點和局限性,注明相應方法所使用的實驗數據集。
(2)介紹了表格結構識別任務的發展現狀,并對所述方法進行分類介紹,總結其優點和局限性,注明相應方法所使用的實驗數據集。
(3)對目前表格分析領域的部分公開數據集進行整理和解釋,總結各類數據集的來源、規模和數據類型,便于后續研究人員的了解和使用。
(4)介紹了幾種表格分析領域的評價指標,并針對特定的下游任務給予相應的評價標準,同時展示了文中提及的各種表格檢測及結構識別方法的實驗結果。對實驗結果進行整理和分類,展示了各類模型的效果。
(5)展望了表格分析領域的未來研究方向,針對表格結構識別任務和表單元格間關系探究提出了幾點建議。
對表格進行信息抽取的第一步是識別文檔圖像中的表格邊界,各種深度學習方法已被應用于表格檢測任務,本章對文檔圖像中的表格檢測方法進行了整理。通過相關文獻調研,Hao等人[11]提出了采用深度學習方法解決表格檢測任務,除了使用卷積神經網絡提取圖像特征外,還借助PDF元數據,應用了一些啟發式方法。該方法使用了PDF文檔的部分結構信息,并非僅僅依賴文檔圖像,因此未對此方法進行效果分析。
1.1.1 Faster R-CNN
Gilani等人[12]采用深度學習方法在圖像上檢測表格。將圖像變換作為預處理步驟,然后進行表格檢測。在圖像變換部分,將二值圖像作為輸入,在其上分別對圖像的三通道應用歐氏距離變換(Euclidean distance transform)[13-14]、線性距離變換(linear distance transform)和最大距離變換(max distance transform)。后來,Gilani等人使用了一種基于區域的物體檢測模型,稱為Faster R-CNN[15-16]。其區域候選網絡(region proposal network,RPN)[17]提供了候選邊框提取的功能,該網絡的主干基于ZFNet[18]。他們的檢測模型在UNLV[19]數據集上取得最優結果。Schreiber等人[20]利用深度學習技術對文檔圖像進行處理,提出了基于Faster R-CNN結構的端到端系統DeepDeSRT。該系統不僅可以檢測表格區域,還可以識別表格的結構。將模型在Pascal VOC[21]數據集上進行預訓練,并分別使用ZFNet和VGG-16[22]兩種不同的骨干網絡,對模型效果進行測試。文獻[23]設計了一系列圖像處理步驟,包括染色與距離變換,通過染色使得文本區域與非文本區域劃分更加明顯,通過距離變換使得背景特征與目標前景特征區分開。結合Faster R-CNN框架,同時考慮圖像的前景和背景兩類特征,以提升表格區域檢測的效果。
隨著GPU內存的增加,大規模數據集的應用成為可能。Li等人[24]在此基礎上提出了大規模表格數據集TableBank,其中包含41.7萬標記的表格及其各自的文檔圖像,并通過使用傳統的Faster R-CNN模型來完成表格檢測任務,以證明該數據集的有效性。同時,他們還將該數據集中原始的XML信息轉化為HTML序列文件,以提供該數據集的結構識別功能。
Sun等人[25]提出結合Faster R-CNN,進一步提升角點定位法的檢測效果。他們將角點定義為圍繞表格頂點繪制的大小為80×80的正方形。通過使用Faster RCNN模型檢測角點,結合大量啟發式規則進一步篩選角點,過濾不準確的角點后保留剩余角點。作者認為,大多數情況下,表格邊界不準確主要是由于表格左右邊界檢測不準確。因此他們僅限于對檢測到表的左右邊界進行篩選,通過獲取表格邊界和相應角點之間的平均值來移動表格的水平點。相較于傳統的Faster R-CNN框架,將改進的角點定位法與之結合,進一步提升了邊界框檢測的性能,并在ICDAR 2017 POD[26]數據集上進行評估,最終結果表明該方法顯著提升了表格檢測任務的精度。
1.1.2 Mask R-CNN
隨著各種檢測框架的提出和改進,表格檢測任務的效果顯著提升。He等人[27]提出了Mask R-CNN模型,擴展自原有的Faster R-CNN,是一個概念上簡單、靈活和通用的對象實例分割框架。該方法能夠高效地檢測圖像中的對象,同時為每個對象生成高質量的分割掩碼。這種方法通過添加一個用于預測目標掩碼的分支來擴展檢測框架,并使之更快,可與現有的邊界檢測分支并行。
Prasad等人[28]發表了CascadeTabNet,這是一種端到端的表格檢測和結構識別方法。作者利用Cascade Mask R-CNN[29]與HRNet[30]的混合作為基礎網絡,結合文獻[12]中使用的RPN結構,進行候選框的提取。同時提出了兩步數據增強策略,首先對原始圖像進行文本區域的膨脹變換,其次對膨脹區域進行“涂黑”變換,即將圖像的文本區域進行灰度的強化,使其與空白區域的區別更加明顯。他們提出的端到端模型CascadeTabNet能夠在ICDAR2013[31]、ICDAR2019[32]和TableBank[24]數據集上取得最佳結果。Zheng等人[33]發表了一個文檔圖像中表格檢測和結構識別的框架GTE(global table extractor)。GTE是一種基于視覺的通用方法,可以使用多種目標檢測算法,通過將原始文檔圖像提供給多個目標檢測器,并行檢測表格和單元格,借助額外的懲罰損失和已檢測到的單元格邊界來進一步細化目標檢測器的檢測結果。
1.1.3 YOLO
YOLO(you only look once)[34-36]作為一種典型的單階段目標檢測框架,將提取候選區域與檢測合二為一,高效地檢測圖像中的各種目標。Huang等人[37]首先將YOLOv3模型應用于表格檢測任務中。在訓練過程中使用了錨框優化策略,將原始標注邊框進行聚類,以獲取最適合該任務的錨框尺寸。同時提出了兩種后處理步驟:一是對檢測區域中的空白區域進行刪除,以提升區域檢測的精度;二是制定部分規則對圖像頁面中的頁眉、頁腳、分割線等影響因素進行消除,以減少假陽樣本,避免對檢測效果產生不利影響。
圖神經網絡(graph neural network,GNN)[38-40]作為新型結構,在表格分析領域已受到越來越多的關注。Riba等人[41]在發票文檔上使用圖神經網絡進行表格檢測。作者認為,由于發票圖像上可用信息有限,圖神經網絡依靠其特有的特征提取方式,可以更好地對圖像中的特征進行聚合,更適合解決有限信息下的表格區域檢測任務。同時,發布了公開數據集RVL-CDIP的標注子集。
文獻[42]拓展了圖神經網絡的應用,將表行檢測與信息提取相結合,解決了表檢測問題。通過行檢測方法,表中任何單詞都可以清晰地劃分到其所屬行。在對所有單詞進行分類后,表格區域可以被有效地檢測到,相較于發票中的文本區域,表格行劃分更加清晰。作者聲稱他們的方法具有良好的魯棒性,不僅可以在發票文檔上實現表格檢測,同時也可應用于PDF等其他類型的文檔中。
生成對抗網絡(generative adversarial network,GAN)[43]是一種包含兩個網絡的深度神經網絡結構,將內部兩個網絡相互對立,因而稱為“對抗”。由生成器網絡生成新的實例,通過判別器網絡去評估實例的真實性,目前該網絡已被應用于表格分析領域。文獻[44]提出一種基于GAN的特征生成器,確保生成網絡無法察覺出全框線表和部分框線表間的差異,并嘗試在這兩種情況下以相同策略提取特征。將基于GAN的特征生成器與Mask R-CNN或U-net[45]等語義分割模塊相結合,進行文檔圖像中表格區域的檢測,并在ICDAR 2017 POD[26]數據集上進行了評估。文獻[46]采用基于條件GAN和CNN的架構來檢測表格。Wang等人[47]提出了pix2pixHD結構,利用條件GAN的生成器以及多尺度判別器,加入改進的對抗損失,在原始圖像基礎上獲得高分辨率圖像。通過CNN進行特征抽取,實現圖像內表格區域的精準檢測。
在文獻[20]提出的DeepDeSRT框架基礎上,Siddiquie等人[48]在2018年提出將原始框架包含的Faster R-CNN模型中的傳統卷積替換為可變卷積網絡(deformable convolutional network,DCN)[49-50]來進行表格檢測。由于文檔中表格有多樣的版式和尺寸,可變形卷積的性能超過了傳統卷積。他們提出的Decnt模型在ICDAR 2013[31]、ICDAR 2017 POD[26]、UNLV[19]和Marmot[51]數據集上進行評估并取得了最佳效果。Agarwal等人[52]提出CDeCNet模型來檢測文檔圖像中的表格邊界。該模型表明不需要添加額外的前/后處理技術也可以獲得優異的表格檢測效果。這項工作基于一種Mask R-CNN的復合主干網結構(兩個ResNeXt101[53])。在復合主干中,作者用可變卷積代替傳統卷積,以解決檢測具有任意版式的表問題。通過將可變形復合主干和CascadeMask R-CNN相結合,在表格檢測任務中取得了性能的提升。
表1總結了部分基于深度學習的表格檢測方法的優點和局限性。

表1 表格檢測方法的優點和局限性Table 1 Advantages and limitations of table detection methods
在檢測到表格區域的基礎上,可以進行表格的行列及單元格識別。本章總結了近期應用于表格結構識別任務的各種方法,并根據神經網絡的結構對這些方法進行了分類。
鑒于目標檢測算法[54]的不斷改進和所取得的良好效果,研究人員開始嘗試將目標檢測算法應用于表格結構識別任務。Hashmi等人[55]通過檢測表中的行和列來實現表結構識別。通過將Mask R-CNN與錨框優化(anchor optimization)[56]策略結合,提升行和列的檢測精度,并在TabStructDB[57]和ICDAR2013[31]數據集上進行了評估,結果表明錨框優化策略顯著提升了表格結構識別任務的效果。
除了檢測表格行列來進行表格結構識別外,Raja等人[58]引入了一種回歸單元格邊界的表格結構識別方法。作者使用Mask R-CNN框架和在MSCOCO數據集[59]上預先訓練的ResNet-101主干網,并將擴張卷積(dilated convolutions)[60]應用于RPN結構中,隨后使用圖卷積網絡(graph convolutional network,GCN)[61]進行行列關系預測,但由于表格中的空白單元格缺乏相應的特征信息,導致該檢測框架難以進行處理和分析。而文獻[62]提出了一種基于Mask R-CNN的邊界檢測框架
LGPMA(local and global pyramid mask alignment),分別檢測表格的局部邊界和全局邊界,并對結果進行對齊和融合。隨后加入單元格匹配、空白格搜索、空白格合并三個后處理步驟,很好地解決了空白單元格難以檢測的問題。
模型CascadeTabNet中介紹了一種直接定位表格中單元格邊界的方法,將表格圖像直接輸入Cascade Mask R-CNN結構中,獲取單元格掩碼的預測結果,并將表格分類為有邊界或無邊界。隨后對有線表和無線表分別進行后處理,以檢索最終的單元格邊界,實現表格結構識別的目標。
文獻[33]提出的系統GTE是一個端到端框架,它不僅可以檢測表格區域,還可以識別文檔圖像中表格的結構。與文獻[28]中CascadeTabNet模型的設計方法類似,GTE中也提出將表格分為有線表和無線表兩類,分別使用兩種不同的單元格檢測網絡。首先將帶有表格掩碼的完整文檔圖像輸入到分類網絡,其次根據預測的類別,圖像被輸入到相應的單元格檢測網絡,最后返回單元格邊界檢索的預測結果。
Long等人[63]并未使用傳統的目標檢測框架,而是選擇了CenterNet[64]檢測網絡,以各目標框的中心點為基礎,回歸得到相鄰單元框的公共頂點位置,從而得到邊界框尺寸和位置信息,通過連接得到表格的結構信息。但這種基于CenterNet的檢測方法在無框線表格的結構預測上存在不足,因為其依賴于使用邊界框中心點去推測相鄰邊界框的公共頂點,然而無框線表格的公共頂點難以準確定義,無法衡量預測結果的有效性。
在上述基于目標檢測的方法中,文檔圖像中的表格結構識別問題都是用分割技術處理的。2019年,Qasim等人[65]首次利用GNN進行表格識別。該模型由深度卷積神經網絡和圖神經網絡組成,前者用于提取圖像特征,后者用于提升各頂點之間的關聯性。這種基于GNN方法的提出,拓展了表格結構識別任務的解決方式,為后續的結構識別方法提供了新思路。Chi等人[66]提出了一種基于GNN的表格結構識別結構GraphTSR。該結構從PDF文件中獲取表單元格的邊界框和內容,以單元格為頂點,單元格間關系為邊進行無向圖的構建,借助GNN進行邊分類預測,判斷任意兩個單元格屬于垂直或水平關系,以此獲得表格的結構信息,實現結構識別目標。同時發布了一個大規模表格結構識別數據集SciTSR。
文獻[67]借助GCN結構對單元格相對位置關系(包括水平和垂直關系)進行預測。借鑒多模態融合的思路,將圖像、位置和文本三類特征進行融合,極大提升了單元格間相對位置關系的預測效果,同時提出了一個中文的金融表格數據集FinTab。
文獻[68]提出了TGRNet模型,利用CNN提取表格的行、列及原始圖像的特征圖并進行融合,實現表內單元格的空間坐標預測;結合空間坐標的預測結果,對齊并提取相應的圖像特征進行融合,使用圖卷積網絡對表中單元格特征聚合,從而預測單元格的邏輯坐標。
到目前為止,已經介紹了CNN和GNN在表格結構識別任務中的實現方法。Khan等人[69]嘗試使用循環神經網絡(recurrent neural network,RNN)[70-72]的變種門控循環單元(gated recurrent units,GRU)[73]來提取表格的結構。CNN的感受野不足以在一步中捕獲完整的行和列信息,因此采用RNN可以有效地彌補這一缺陷。在對比了兩種改進的RNN模型,即長短時記憶網絡(long short-term memory network,LSTM)[74]和GRU后,GRU顯示出了更大的優勢。因此作者選擇使用一對雙向GRU,一個GRU用于行檢測,而另一個用于列檢測,并在ICDAR 2013[31]數據集上進行了評估,其實驗結果超過了文獻[20]提出的基于Faster R-CNN的DeepDeSRT模型。同時還表明了基于GRU的序列模型不僅可以改善結構識別問題,還可以用于表中的信息提取。
與傳統卷積相比,可變卷積與擴張卷積擁有更加廣闊、靈活的感受野,可以更好地適用于版式復雜多樣的表格,因此可以將上述兩類卷積應用于文檔圖像中的表格結構識別任務。
2.4.1 可變卷積
文獻[57]提出了DeepTabStR模型,該模型是對文獻[48]中提出的Decnt模型的改進。由于表格布局存在多樣性,而作為滑動窗口運行的傳統卷積并不是最佳選擇。DCN允許網絡通過考慮對象的當前位置來調整感受野。因此,可變卷積更適合于完成表格結構識別任務。相較于原始的Decnt模型,該文提出的DeepTabStR模型將主干網和ROI(region of interest)中的傳統卷積均替換為可變卷積。同時還發布了一個公共的基于圖像的表格識別數據集TabStructDB。該數據集基于ICDAR 2017 POD[26]數據集,在原有基礎上添加了結構信息注釋,使得該數據集可以適用于表格結構識別任務。
2.4.2 擴張卷積
Tensmeyer等人[75]提出了一種名為SPLERGE的表格結構識別方法。該方法由兩個獨立的深度學習模型組成:第一個模型用于預測輸入圖像的實際網格結構,將圖像特征提取部分的卷積層替換為擴張卷積,充分提取目標特征,對表格圖像進行劃分;第二個模型將原始輸入圖像與第一個模型輸出的預測結構相結合,用于判別已劃分的網格結構是否可以進一步合并為新的網格,解決表格中存在跨多行和多列單元格的問題。通過在ICDAR 2013[31]數據集上進行評估,SPLERGE方法實現了最佳結果,顯著提升了表格結構識別任務的準確率。
表2展示了各類方法的優點及其局限性。

表2 表格結構識別方法的優點及局限性Table 2 Advantages and limitations of table structure recognition methods
本文對當前表格分析領域的常見數據集進行總結。
ICDAR 2013數據集由2013年國際文檔分析與識別會議(ICDAR)組織的比賽發布。該數據集具有用于表格檢測和表結構識別的注釋。數據集由PDF文件組成,共有238張圖像,其中128張包含表格。
ICDAR 2017 POD數據集用于2017年ICDAR中的頁面目標檢測競賽,主要用于評估表格檢測任務。該數據集比“ICDAR 2013”規模更大。它由2 417幅圖像組成,包括表格、公式等,其中訓練集1 600幅圖像(731幅含表格區域),測試集817幅圖像(350幅含表格區域)。
ICDAR 2019數據集在“ICDAR 2019”表格檢測和識別競賽中提出。數據集包含兩部分:現代數據集和歷史數據集。現代數據集包含來自科學論文、表格和財務文件的樣本。歷史數據集包括手寫的會計分類賬、火車時刻表等。在現代數據集中,訓練集600張,測試集240張。在歷史數據集,訓練集600張,測試集199張。數據集包含了表格邊界和單元格區域注釋的信息。
“WTW”數據集由Long等人在文獻[63]中提出,包含10 970張訓練數據和3 611張測試數據,涵蓋了自然場景下的各種類型表格,如表單、發票等。數據集中包含表單元格邊界和邏輯位置注釋。
“Marmot”數據集由北京大學提出,該數據集由1970年至2011年的中英文會議論文組成,共有2 000幅圖像。由于數據集具有多樣性和非常復雜的頁面布局,對于訓練網絡非常有用。在數據集中,正負樣本比例大約為1∶1。該數據集包含表格邊界的注釋,主要用于訓練表格檢測任務。
2019年初,Li等人發布了“TableBank”,這是一個由41.7萬張帶有表格信息的標記圖像組成的數據集。該數據集數據來源是在線爬取可用的.docx格式文檔和從arXiv數據庫收集的LaTeX文檔。數據集中包含表格區域標注及表格結構的HTML標注序列,可用于表格檢測和結構識別任務。
“SciTSR”數據集由Chi等人[66]發布。該數據集由15 000個PDF格式的表格及其注釋組成。數據集是通過從arXiv中抓取LaTeX源文件構建的,大約25%的數據集由跨多行或多列的復雜表組成。該數據集具有表單元格空間位置信息、邏輯位置信息及單元格內容注釋。
“PubTabNet”是Zhong等人[76]發布的數據集,是目前最大的公開數據集,包含超過56.8萬個圖像,每個單元格中都有相應的表和內容結構信息。該數據集是通過從PubMed Central開放存取子集(PMCOA)收集科學文章創建的,可在表格結構提取或表格識別任務中獨立訓練深度神經網絡的完整參數。
Nassar等人[77]將“FinTabNet”數據集應用于結構識別,該數據集由S&P500家公司的公開利潤報表和IBM公司的注釋組成,其中包含89 646個頁面,112 887個表格,91 596個用于訓練,10 656個用于測試,10 635個用于驗證。該數據集包含表格邊界框和單元格邊界框注釋,可以用于表格檢測及結構識別任務。
TNCR數據集由Abdallah等人[78]發布,是一個從開放訪問網站收集的具有不同圖像質量的表格數據集。“TNCR”包含9 428個帶標簽的表格,約6 621幅圖像。該數據集可用于電子文檔圖像中的表格檢測任務,并可將其分為5類,包括全框線表、跨行列單元格表、無框線表、半框線表、半框線且跨行列單元格表。
表格數據集的詳細信息如表3所示。表3中提及的數據集均已開源,相應的下載地址已上傳至GitHub,具體鏈接為https://github.com/xb012/Table-Datasets。

表3 公開表格數據集信息Table 3 Information of public table datasets
本章首先介紹一些常用的評價指標,并分別列舉在表格檢測和結構識別任務中的評估方法。其次,對上文提到的各類表格檢測與結構識別方法進行結果對比。
(1)準確率(precision,P)
準確率定義為屬于真實區域的預測區域的百分比,公式如下:

其中,TP表示預測區域與真實區域交集的面積,FP表示未與真實區域有交集的預測區域面積。
(2)召回率(recall,R)
召回率為預測區域中存在的真實區域的百分比,公式如下:

其中,TP表示預測區域與真實區域交集的面積,FN表示未被預測的真實區域的面積。
(3)F1分數(F1 score)
F1分數是通過準確率和召回率的調和平均值來計算的,具體公式如下:

其中,P表示準確率,R表示召回率。
(4)交并比(intersection of union,IoU)
IoU是目標檢測中最常用的指標,通過將目標的形狀屬性(如寬度、高度、位置)編碼成歸一化度量來衡量預測框與目標框之間的相似度,因此具有尺度不變性[79]。其定義如下:

其中,AOR表示預測區域與真實區域交集的面積,AUR表示預測區域與真實區域并集的面積。
表格檢測問題的本質是定位文檔圖像中的表格區域,回歸表格區域的邊界框坐標。圖1展示了表格區域檢測準確性的判定標準,其中綠色實線框表示真實區域,紅色虛線框表示預測區域。

圖1 表格檢測標準示意圖Fig.1 Sketch map of table detection results
表4展示了表格檢測任務中各類方法的具體表現,以實驗所用數據集和IoU閾值兩方面對實驗結果進行分類展示,以準確率、召回率及F1分數作為任務的評價指標。可以看出,隨著思路方法的不斷拓展,表格檢測任務的實驗結果也越來越好。在UNLV數據集上,其準確率由78.6%提升至91.4%(IoU=0.5);在ICDAR 2013數據集上,準確率由2018年的94.5%提升至了100%(IoU=0.5),分析原因,可能是由于數據規模較小,樣本分布較為簡單;在ICDAR 2017 POD數據集上,準確率由96.5%提升至97.8%(IoU=0.6),由94.6%提升至97.5%(IoU=0.8)。
表格結構識別任務是為了理清表格內行列及單元格的位置信息,采用準確率、召回率和F1分數對識別結果進行評估。圖2分別展示了表格結構中行、列和單元格的檢測標準,其中綠色實線框表示真實區域,紅色虛線框表示預測區域。

圖2 表格結構識別示意圖Fig.2 Sketch map of table structure recognition
表5展示了表格結構識別任務中各類方法的實驗結果。依據實驗數據集和相應的IoU閾值對結果進行分類,以準確率、召回率及F1分數作為任務的評價指標。隨著深度學習技術的不斷發展,表格結構識別任務的實驗結果也在逐步提高。在ICDAR 2013數據集上,結構識別的準確率已經高達97.5%。在ICDAR 2019數據集上,相應的F1分數也有了十分顯著的提升,在2021年已達到了80.8%(IoU=0.6)和51.1%(IoU=0.7)。相較于其他數據集,各模型在該數據集上表現略差是由于該數據集包含現代與歷史兩種表格數據,且歷史表格數據結構極為復雜,存在大量的行列信息,因此現有模型的效果并不理想,未來還有較大的提升空間。在SciTSR數據集上,其準確率已由2020年的92.7%提升至98.2%,提高了5.5個百分點。

表5 表格結構識別方法的實驗結果Table 5 Results of table structure recognition methods
通過介紹當前表格分析領域的發展現狀,結合表格檢測與結構識別任務中模型的路徑方法及實驗效果,給出幾點具有研究意義的發展方向。
(1)表格結構識別任務的改進建議
由于表格檢測任務已實現極高的準確率,這里僅針對表格結構識別任務提出幾點改進建議。借助于深度學習技術衍生出了很多方法,包括基于目標檢測的方法、基于GNN的方法、基于RNN的方法等,并在上述方法中已取得了較為顯著的成效。當前表格結構識別模型應該注重幾點改進:①為有線表與無線表制定統一的特征提取方式。當前很多方法針對表格框線類型的不同,設計多處理分支提取表格特征,這無疑會導致模型參數量的增加。設計統一的特征提取方式,最大可能減輕框線差異帶來的影響,將有助于模型的輕量化,降低模型的復雜性。②減少或去除圖像的預處理步驟,降低額外的工作量。當前結構識別方法大多要求對圖像進行預處理步驟,如圖像增強、圖像二值化等,這將導致實驗過程的繁雜,無法實現端到端系統的設計思想。在網絡設計時應考慮能夠直接適應原始圖像的需求,減少或去除預處理步驟。③提升模型的泛化能力。表格類數據包括科學論文表格、發票、收據、表單等多種類型,當前模型僅能夠針對某一類表格進行處理,模型的泛化性不足。后續進行模型設計時應綜合考慮各類數據特性,設計泛化能力強、魯棒性高的通用模型。
(2)探究表單元格間關系的建議
當前表格分析領域重點針對表格結構識別任務,研究表格行列及單元格分布情況,對于表內單元格的內在關聯鮮有研究。表格由單元格組成,單元格之間并非只有空間關系,還隱含著內容上聯系。每個表格內的單元格都可以劃分為標題格與內容格兩類,而這兩類單元格間存在著隸屬關系,即內容格的內容受到相應標題格的影響,標題格對其所控制的單元格內容起到決定性作用。因此探究表單元格內部聯系將有以下幾點優勢:①提升表格理解任務的效果。當前表格理解任務主要依據表單元格內的文本進行,通過文本編碼,借助自然語言處理工具實現表格內容理解。在理清表格內單元格間關系后,可以將這類關系顯式地加入表格理解任務,為表格問答等應用提供有力支持。②解決表格圖像數據的存儲與利用問題。通過表格檢測和結構識別任務,可以將表格的整體結構理清,但僅僅有行列關系只能將表格按原始格式進行存儲。借助于單元格內在關聯的抽取任務,可以將表格內單元格按照鍵值對的結構進行存儲,這將對后續數據的取用、表格的智能填寫等打下堅實基礎。
本文從表格研究領域的表格檢測和結構識別任務出發,按照基于目標檢測的方法、基于GNN的方法、基于DCN的方法等對上述任務的實現原理進行介紹,同時對上述方法進行路徑方法和局限性分析。其次給出目前表格領域常用的表格數據集,并對數據集來源、規模、適用范圍和數據類型進行了詳細分析。同時列舉了幾類表格任務的評價指標,并對上文提及的表格檢測和結構識別方法按實驗數據集進行分類對比和展示。最后針對當前領域的發展現狀對未來發展方向進行了展望。