孔令軍 包云超 王茜雯 李華康
摘要:信息時代的高速發展導致數據的大量產生與頻繁傳輸,單單依靠人力很難處理這些數據。依托于人工智能的興起與發展,數據的利用變得更加高效。表格作為一種特殊的數據形式,逐漸引起了廣泛關注。概述了表格識別技術的發展,介紹了傳統的表格識別技術及其缺點;介紹了基于深度學習技術的表格檢測、表格結構識別、端對端檢測與識別以及字符識別,重點闡述了表格檢測與結構識別算法;給出表格數據的數據集以及在其上的最新指標,展望了表格檢測識別技術的發展前景。
關鍵詞:人工智能;深度學習;表格檢測;表格結構識別;光學字符識別
中圖分類號:TP391.4文獻標志碼:A文章編號:1008-1739(2021)02-65-9

0引言
表格是一種特殊的信息表達方式,是人們為了讓數據的組織形式更加標準和結構化而使用的一種數據類型。表格的特點是信息高度精煉集中[1],方便信息的檢索和比較。表格識別的目的是獲取圖像中的表格并訪問其數據,是文檔分析與識別領域的一個重要分支。
日常生活中,人們對于表格數據的處理方式一般是:人工使用展示表格的工具打開表格,然后進行信息處理。基于人工處理表格的方式,產生了諸多問題:①因為表格數量眾多,類型繁多復雜,人工對數據進行更新的過程中,可能會在不同的表格中寫入相同的內容,或者有些單元格里的內容沒有得到更新。一旦產生錯誤,使用人力查找錯誤的時間非常有限。因此人工處理表格數據往往會造成表格內容錯誤、信息不一致等問題,這種錯誤和不一致可能會有損公司聲譽,甚至帶來經濟損失。②由于人工提取表格信息是一個繁瑣而耗時的過程,為此需要投入大量人員同時進行這項工作,產生了額外費用。③在一些特殊的行業如金融業和制造業,表格往往是以非結構化的數字文件如可移植文檔格式(PDF)公開的,人工難以對這些文件進行提取和處理。
因此,如何高效地從文檔或圖像中找到表格區域,同時有效地提取表格中的結構信息和數據內容,成為了一個亟待解決的問題。Hu等人[2]將表格識別分為2個主要任務:表格檢測和結構識別。表格檢測是指定位表格載體中的表格區域,以避免識別過程中非表格區域的干擾;表格識別是指對表格進行結構識別獲得其行列、層次等邏輯結構,再對單元格里的內容進行光學字符識別(Optical Character Recognition,OCR),最終將完整的表格信息寫入可編輯文件中。通過提取表格框架,定位表格單元格,最后利用OCR技術實現表格文檔內容的識別,不僅提高了工作效率,而且極大地降低了信息錄入的錯誤率。
1表格檢測與識別技術的發展
國內的OCR技術研究開始于19世紀70年代末[3],隨著科學技術的快速發展,OCR技術得到了長足的進步。表格檢測與識別技術的研究滯后于OCR技術的研究,得益于識別技術的進步,該技術逐漸被研究者重視。
早期的表格檢測與識別研究主要是基于啟發式規則的方法,即指定一組規則來進行決策,以便識別出滿足特定條件的表格。Chandran等人[4]以水平和垂直方向為線索,設計了一個以樹的形式表示表格結構的系統。Kieninger等人[5]提出的T-Recs系統使用自底向上的方法對文檔圖像進行連通分支分析,再按照定義的規則進行合并,得到邏輯文本塊。Zanibbi等人[6]將表格識別過程定義為觀察、轉換和推理的過程,如圖1所示。Yildiz等人[7]提出的pdf2table是一種在PDF文件中只利用文本元素在文件中的絕對位置來提取表格信息的方法。在近期的研究中,Koci等人[8]將頁面中的布局區域表示為圖的形式,使用遺傳算法從中將表格作為一個子圖識別出來。然而,基于啟發式規則的表格識別方法設計起來較為復雜,在各種場景的表格識別中難以獲得較高的準確度,而且魯棒性相對較差。

近年來,國內外研究者對表格識別問題進行了大量研究,嘗試引入Faster R-CNN[9]、YOLOv3[10]、全卷積神經網絡(Fully Convolutional Networks,FCN)[11]、圖卷積神經網絡(Graph Convolutional Network,GCN)及可變形卷積(Deformable Convolution)[12]等深度學習方法和網絡。表格識別也逐漸演變成了多個子研究領域,包括表格檢測、表格結構識別、端對端的表格檢測與結構識別等。
2基于深度學習的表格檢測
表格是一種非結構化的物體,因此基于深度學習的物體檢測技術可以應用到表格檢測任務上。現階段,大多數研究者使用目標檢測方法進行表格檢測。
目前主流目標檢測算法大致分為以Faster R-CNN為代表的基于候選區域的算法和以YOLO為代表的基于回歸的算法兩類,前者的檢測過程可分為2步:由RPN(Region Proposal Network)生成若干個候選框,再通過后續網絡對候選框進行精確回歸;后者則直接回歸目標的類別概率和坐標位置,這樣做會損失精度,但比前者有更快的速度。
在表格檢測任務上,Gilani等人[13]和Sun等人[14]使用并改進Faster R-CNN網絡,取得了不錯的效果。前者對在大型數據集ImageNet上訓練好的Faster R-CNN模型進行微調。針對表格圖像與自然圖像之間差距大的問題,提出了一種將表格圖像變換為類似自然圖像的圖像變換算法。該變換算法將輸入圖片轉換為二值圖像,再對圖像的藍、綠、紅通道分別計算歐氏距離變換、線性距離變換和最大距離變換。進行圖像變換的表格檢測流程如圖2所示[13],輸入圖像經過骨干網提取特征,其輸出特征圖輸入用于生成含有表格區域的區域建議網絡,最后網絡判斷輸入區域是否含有表格對象。經過此方法微調后的模型不受表格結構和布局變化的影響,并且可以對任何數據集進行微調。

后者引入了角點的概念:表格4個頂點周圍的部分區域稱為角點,角點除位置不同外,大小形狀相同,屬于同一個表格的角點組成一個角組。基于Faster R-CNN網絡,將角點定位結合到表格檢測中。加入角點定位的表格檢測流程如圖3所示[14],骨干網絡VGG-16[15]從文檔圖像中提取特征圖,RPN和Faster R-CNN實現表格檢測和角點定位,通過坐標匹配的方式對角進行分組,并通過分組和先驗規則過濾掉不可靠的角點。針對大多數少線表沒有豎直線卻存在水平線的特點,使用可靠的角點組對檢測出來的表格橫坐標進行校準,得到精準的表格區域。但角點屬于小對象,擁有較高的漏檢率,而且角點尺寸采用固定值,不利于表格邊界的細化,可以設置自適應的角點尺寸解決這一問題。

圖像中的目標可以在任意位置,以任意尺寸出現。傳統的卷積網絡存在一個固定的感受野,不能根據目標的幾何變化做出改變,神經網絡中的池化層同樣存在這個問題。為了解決這一問題,Dai等人[12]提出了可變形卷積神經網絡以及可變形ROI池化,3*3可變形卷積如圖4所示。可變形卷積可以根據其輸入改變感受野,當目標在進行幾何變換時,能作出適應性的改變。對于二維卷積,定義為感受野區域,對于輸出特征圖y的任意位置0,傳統卷積的計算為:

在文檔頁面中,表格對象擁有較高的類內方差和較低的類間方差,很難對任意布局的表格進行檢測。Siddiqui等人[16]在Faster R-CNN以及FPN(Feature Pyramid Networks)[17]上應用可變形卷積技術完成表格檢測任務。分別將Faster R-CNN骨干網ResNet-101[18]中的res5a_branch2b, res5b_branch2b和res5c_ branch2b三層以及FPN骨干網ResNet-101中的res3b3_branch2b和res4b22_branch2b兩層傳統卷積層變為可變形的卷積層,并分別將ROI池化用可變形ROI池化代替。經過變換后的網絡如圖5所示[16],使用在ImageNet上訓練好的預訓練模型進行遷移學習。

與上述做法不同,Huang等人[19]使用基于回歸的目標檢測模型YOLOv3進行表格檢測。考慮到文檔中表格對象和自然對象之間存在巨大差異,對YOLOv3引入了一些自適應調整,包括一種錨框優化策略和2種后處理方法。針對錨框的優化,使用k-means聚類來尋找更適合表格而不是自然對象的錨框,使訓練模型更容易找到表格的確切位置。后處理方法其一是消除預測區域的空白,即擦除預測區域4個方向上的空白,該方法能提高查準率和查全率。后處理方法其二是過濾有噪聲的頁面對象,即將一些被識別為假陽性樣本的頁眉、頁腳和分隔線對象過濾掉。該方法大大提高了計算精度。
3基于深度學習的表格結構識別
目前,研究者大多使用目標檢測、圖像分割和圖神經網絡等深度學習方法進行表格結構識別。由于表格的特殊結構,因此既可以將行列作為目標檢測的對象,也可以將行之間和列之間的分隔符作為目標檢測的對象。同樣,這些對象也可以用圖像分割方法進行分割。


為了避免基于FCN的表格結構識別方法[20]嚴重依賴后處理的缺點,Siddiqui等人[21]將表格結構中的行、列識別視為目標檢測問題,其中文檔可被視為場景,行、列可被視為對象,并分別在Faster R-CNN、R-FCN[22]和FPN上使用可變形卷積技術搭建模型。加入可變形卷積的模型如圖7所示[21]。3種模型都使用在ImageNet上進行過預訓練的ResNet-101進行特征提取,其中分別將Faster R-CNN、R-FCN網絡的頂部3層卷積層轉換為可變形卷積層,對于FPN則額外轉換了第4層,以進一步提高提取特征的質量。還將變換后的Faster R-CNN的ROI池化層轉換為可變形ROI池化層。

Tensmeyer等人[23]提出了表格結構識別的深度學習模型SPLERGE,由分割模型和合并模型2個模型組成,分割模型又分為行分割模型和列分割模型。SPLERGE模型的表格結構識別流程如圖8所示。表格中單元格和單元格分隔符都包含大量空白區域,因此僅僅使用局部信息通常難以識別表格單元格邊界。為了解決這一問題,分別在分割模型和合并模型中使用投影池化和網格池化,使局部特性在整個圖像中傳播。分割模型以裁剪好的只包含表格區域的任意×大小的圖像作為輸入,進行多尺度特征提取,通過投影池化操作,即在特征圖上按行或列求取均值,最后以行分隔符和列分隔符的形式在整個圖像上生成表格的網格結構,即產生2個表示每行(列)像素屬于行(列)分隔符區域的概率的一維信號:∈[0,1]和∈[0,1]。合并模型將分割模型的預測結果和原圖作為輸入,判斷單元格在上下左右4個方向是否需要合并。其中網格池化是對每個預測單元格區域取均值。

使用FCN網絡進行表格結構識別受到感受野的限制,難以關注單元格下一個和前一個行列元素的信息,Khan等人[24]提出了使用循環卷積網絡進行表格結構識別的方法。整個識別過程分為3個部分:預處理、行列分隔符分割和后處理。預處理步驟將原始表格圖像轉換為更簡單的形式以使表格的布局和結構更明顯,具體操作包括去除非文本前景對象,自適應二值化,三次膨脹變換和歸一化。行列分隔符分割模型以預處理結果為輸入,分別使用2個分割網絡實現表格行列分隔符分割。在網絡的選擇上,通過實驗發現,相比較于LSTM[25],使用GRU可以取得更好的效果。對于列分隔符分割模型,模型以×大小的圖像作為輸入,經過2層雙向GRU網絡后輸出同樣大小的特征圖。GRU會關注當前列的左側和右側的所有列的信息,以及當前列中包含的正在計算的像素值的信息。特征圖經過一個全連接層,最后通過softmax層將每一列分類為列或列分隔符。行分隔符分割模型執行類似的操作。其中列分隔符分割模型如圖9所示[24]。后處理部分對行列分隔符分割模型生成的分割空間進行解析,得到最終的行列預測結果。

近年來,越來越多的研究者將深度學習技術應用到圖數據領域。Qasim等人[26]將表格結構識別問題描述為一個與圖神經網絡兼容的圖問題,利用圖神經網絡解決這一問題。將每一個單詞區域作為一個頂點,并將真值定義為使用矩陣描述的3個圖,3個矩陣分別是:單元格、行和列共享矩陣。如果2個頂點共享一行,即2個單詞區域屬于同一行,則這些頂點視為彼此相鄰(單元格和列也是如此)。基于上述定義,將模型分為4個部分:特征提取、信息交互、隨機采樣和分類。在特征提取部分,輸入圖像經過自設計的淺層卷積神經網絡生成視覺特征。在其輸出端,經過OCR得到的頂點位置通過聚集操作映射到特征圖上,將視覺特征與位置特征結合形成聚集特征。收集所有頂點特征后,將其輸入到信息交互部分進行特征的交互融合,得到每個頂點的結構特征。在這一部分嘗試修改了Wang等人[27]和作者之前[28]提出的圖卷積神經網絡,并且把應用了常規卷積的全連接稠密網絡作為基線模型以進行性能比較,其流程如圖10所示[26]。在訓練階段,模型會在隨機采樣部分隨機對頂點對采樣,在分類部分使用DenseNet[29]分別對頂點對進行是否同行、同列、同單元格的結構關系分類。在測試階段,則對圖中每一個頂點對進行3種分類,得到最終的測試結果。

4端對端的表格識別
表格識別任務往往被分為2個單獨的任務來解決,首先進行表格檢測,定位出圖像中的表格區域,再對分割出的表格進行結構檢測,最終獲取完整的表格結構信息。單一的模型很難解決實際問題,端對端的表格識別系統同樣重要。
為了克服傳統的基于啟發式規則進行表格識別方法復雜且泛化能力低的缺點,Schreiber等人[30]提出了一個以數據為驅動的端到端表格識別系統DeepDeSRT。該系統由2個獨立的部分組成,分別用于表格檢測和結構識別。在表格檢測部分,選擇Faster R-CNN模型進行微調。在表格結構識別任務上,使用圖像分割模型分割表格行、列和單元格目標。調整了FCN網絡,添加2個額外的跳過連接,合并pool2和pool1層的特性,形成了FCN2s網絡。
在同時解決表格檢測和結構識別任務上,Paliwal等人[31]提出了一種基于FCN的端對端圖像語義分割模型TableNet。基本思想是利用表格檢測和表格結構識別這2個任務之間的相互依賴關系來分割表格和列區域。在FCN的編碼器部分,使用在ImageNet上預訓練的VGG-19模型進行提取特征。解碼器部分將編碼器的輸出分為2個分支分別進行上采樣,同時將下采樣過程中對應大小的特征圖拼接到上采樣對應層的特征圖中,最后特征圖恢復到原圖大小得到表格區域和列區域的分割圖,其模型如圖11所示[31]。通過定制規則的方法獲取表格的行結構,結合表格區域分割和列區域分割,得到完整的表格結構信息。在實驗中,嘗試給模型輸入空間信息和數據類型信息。具體做法是用tesseract OCR[32]進行處理,得到圖像中的所有字塊。再通過正則表達式處理這些單詞,確定其數據類型,為每種數據類型賦予一種獨特的顏色。

同樣使用圖像分割技術,不同的是Prasad等人[33]利用實例分割技術完成表格識別任務,為此提出了一個基于深度學習的端對端卷積神經網絡模型CascadeTabNet,模型如圖12[33]所示。通過一次推理,此模型實現在像素級別上識別圖像中的每個表格實例和單元格實例。為了實現高精度的實例分割,選擇組合Cascade RCNN[34]和HRNet[35]作為網絡的主體。模型先預測輸入圖像的表格分割,并分類為有邊界表和無邊界表。如果是無邊界表,則進入模型的下一部分進行單元格實例分割。如果是有邊界表,則使用傳統方法識別單元格。為了增加訓練數據的數量,作者使用兩種數據增強方法:膨脹變換和模糊變換。

5字符識別
經過表格檢測與結構識別,提取出了表格的物理結構,表格數據處理的下一步是對單元格內的字符進行字符識別,這一部分一般使用常規的OCR技術。字符識別模型一般分為2個主要部分:特征提取和序列轉化。特征提取大部分使用卷積神經網絡,如VGG,ResNet,DenseNet等。序列轉化最常用的2種方法是CTC[36]和基于注意力機制的序列到序列(Sequence-toSequence,Seq2Seq)模型。
5.1通用字符識別
Convolutional Recurrent Neural Network(CRNN)模型[37]是最經典的字符識別模型,可以識別較長的文本序列。其結構是由CNN、RNN和CTC模塊級聯而成,如圖13CRNN模型[37]所示。RNN部分使用BiLSTM序列模型,與CNN部分共同完成特征提取功能。RNN部分可以學習字符的上下文信息,以提高識別的準確。預測過程中,前端使用標準的CNN網絡提取文本圖像的特征,利用BiLSTM將特征向量進行融合以提取字符序列的上下文特征,得到每列特征的概率分布,最后通過CTC序列轉化層進行預測得到文本序列。

RARE[38]是針對彎曲文本而設計的文字識別模型,能較好地識別透視和彎曲的圖像文本。由空間變形網絡(SpatialTransformer Network,STN)和序列識別網絡(Sequence Recognition Network,SRN)組成,其結構如圖14所示[38]。圖像先經過空間變換網絡,再將矯正后的圖像送入字符識別網絡。空間變換網絡包含定位網絡、網格生成器、采樣器。可以根據輸入圖像特征動態的產生空間變換網格,采樣器通過網格核函數從原始圖像中采樣獲得矩形文本圖像。RARE中支持一種稱為TPS(thin-plate splines)的空間變換,從而能夠比較準確地識別透視變換過的文本、以及彎曲的文本。

5.2手寫體字符識別
有些表格單元格內包含手寫體字符,加大了表格內容識別的難度。針對手寫體字符識別,近年來很多研究取得了不錯的成果。針對序列手寫字符識別問題,比較有效的方法是應用深度學習方法中的RNN模型,特別是LSTM和BiLSTM等模型,由于對序列數據有很好的建模能力,因此更適合于解決包含時序先后順序信息的文字行識別問題。
基于CRNN的模型[39]可以在手寫字符識別任務上取得很好的效果,一種基于CRNN手寫識別的網絡如圖15所示[39]。
Messina等人[40]首次將MDLSTM-RNN[41]應用到手寫漢字文本行識別,字符識別的準確率為83.5%。Wu等人[44]在MDLSTM-RNN的基礎上做了改進,將4個方向的LSTM輸出結果從原來的相加改成拼接,形成新的網絡稱為SMDLSTM-RNN,如圖16所示[42],字符識別率進一步提升。

6表格識別數據集和性能比較
6.1表格識別數據集
常用的表格識別數據集如表1所示。

Marmot:該數據集由中英文兩部分組成。中文頁面來自方正阿帕比圖書館中120多本不同學科領域的電子書,而英文頁面則來自Citeseer網站。該數據集源于PDF,存儲了所有文檔布局的樹形結構,其中葉是字符、圖像和路徑,根是整個頁面。內部節點包括文本行、段落、表格等。
UW3和UNLV:UW3數據集來自1 600頁傾斜校正的英文文檔,其中120頁至少包含一個標記的表區域。UNLV數據集從2 889頁掃描的文檔圖像收集得到,其中427幅圖像包括表格。
ICDAR 2013:該數據集共包含了150個表格,包括27個歐盟摘錄中的75個表格、40個美國政府摘錄中的75個表格,即總共包含67個PDF文檔的共238個英文頁面。
ICDAR 2019:此數據集是用于ICDAR 2019年表格檢測和識別比賽的數據集。既包含歷史文檔表格又包含現代文檔表格。
PubTabNet:該數據集包含56.8萬張表格數據的圖像,這些圖像用表格對應的HTML標簽形式進行了注釋。
SciTSR:該數據集是一個綜合性的數據集,由15 000個PDF格式的表格圖像及標簽文件組成。數據集分出12 000張圖像用于訓練,3 000張用于測試。TableBank:該數據集是基于圖像的表格檢測和結構識別數據集。收集了Word和Latex文檔中的表格圖像。提供HTML格式的表格標注文件。
6.2性能比較
表格結構識別與檢測性能(只針對F1值)比較如表2和表3所示。

從表2和3中可以看出,ICDAR 2013數據集是表格識別最受歡迎的數據集,幾乎所有研究者都在此數據集上進行評估。Prasad等人[33]在此數據集的表格檢測任務中取得了沒有人能超越的效果,F1值達到了100%。在此數據集的表格結構識別任務上Tensmeyer等人[25]取得了最好的效果,F1值達到了95.26%。在ICDAR 2017表格檢測任務上Huang等人[19]取得了最好的效果,F1值都在97%以上。ICDAR 2019表格結構識別任務是目前最富有挑戰的任務。
7結束語
Faster R-CNN,YOLO等目標檢測算法、FCN圖像分割算法、循環神經網絡、圖神經網絡等網絡及其級聯,以及可變形卷積等是表格識別領域最主要的應用技術。隨著人們的關注,表格識別的方法也變得更加豐富。工業界和學術界越來越多地投入到更加復雜的端對端表格識別任務中,并提出了一系列有效解決方案。手寫字符識別是目前表格內容識別的難點,計算機視覺和自然語言處理的交叉研究得到廣泛關注。隨著深度學習的發展,相信會有更多的技術應用到表格識別任務上來,從而將更好的效果反饋到生活中。
參考文獻
[1]鄭冶楓,劉長松,丁曉青,等.基于有向單連通鏈的表格框線檢測算法[J].軟件學報,2002(4):790-796.
[2] HU J,KASHI R S,LOPRESTI D,et al.Evaluating the Performance of Table Processing Algorithms[J]. International Journal on Document Analysis & Recognition,2002,4(3): 140-153.
[3]丁曉青.漢字識別研究的回顧[J].電子學報,2002,30(9): 1364-1368.
[4] CHANDRAN S,KASTURI R. Structural Recognition of Tabulated Data[C]//2nd International Conference on Document Analysis & Recognition. Tsukuba Science City:IEEE, 1993:516-519.
[5] KIENINGER T, DENGEL A.The T-Recs Table Recognition and AnalysisSystem[J]. Lecture Notes in Computerence, 1999,1655:255-269.
[6] ZANIBBI R,BLOSTEIN D,CORDY J R.A Survey of Table Recognition: Models, Observations, Transformations, and Inferences[J]. International Journal on Document Analysis & Recognition,2003,7(1):1-16.
[7] YILDIZ B, KAISER K, MIKSCH S. pdf2table: A Method to Extract Table Information from PDF Files[C]// Indian International Conference on Artificial Intelligence. Pune: DBLP, 2005:1773-1785.
[8] KOCI E,THIELE M , ROMERO O,et al. A Genetic-Based Search for Adaptive Table Recognition in Spreadsheets[C]// International Conference on Document Analysis and Recognition (ICDAR). Sydney:ICDAR, 2019:1274-1279.
[9] REN S,HE K,GIRSHICK R,et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(6):1137-1149.
[10] REDMON J,FARHADI A.YOLOv3: An Incremental Improvement[J]. arXiv e-prints,2018:1804.02767.
[11] SHELHAMER E,LONG J,DARRELL T. Fully Convolutional Networks for Semantic Segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(4): 640-651.
[12] DAI J,QI H, XIONG Y,et al. Deformable Convolutional Networks[C]//2017 IEEE International Conference On Computer Vision.Venice:IEEE,2017:764-773.
[13] GILANI A, QASIM S R,MALIK I,et al. Table Detection Using Deep Learning[C]// 2014 14th IAPR International Conference on Document Analysis and Recognition.Kyoto: IEEE, 2017:771-776.
[14] SUN N,ZHU Y,HU X.Faster R-CNN Based Table Detection Combining Corner Locating[C]//2019 International Conference on Document Analysis and Recognition(ICDAR).Sydney:IEEE, 2019:1314-1319.
[15] SIMONYAN K,ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
[16] SIDDIQUI S A,Malik M I,Agne S,et al. DeCNT: Deep Deformable CNN for Table Detection[J].IEEE Access, 2018:1-1.
[17] LIN T Y, DOLLáR, P,GIRSHICK R,et al. Feature Pyramid Networks for Object Detection[J]. IEEE Trans. Pattern Anal. Mach Intell.,2014,36(8):1532-1545.
[18] ANON. IEEE Conference on Computer Vision And Pattern Recognition(cvpr 2020)[J].智能系統學報,2019,14(6):1137.
[19] HUANG Y,YAN Q,LI Y, et al.A YOLO-Based Table Detection Method[C]//2019 International Conference on Document Analysis and Recognition (ICDAR). Sydney :IEEE ,2020:813-818.
[20] SIDDIQUI S A,KHAN P I, DENGEL A,et al.Rethinking Semantic Segmentation for Table Structure Recognition in Documents[C]//2019 International Conference on Document Analysis and Recognition (ICDAR).Sydney :IEEE 2019: 1397-1402.
[21] SIDDIQUI S A,FATEH I A,RIZVI S T R,et al.DeepTabStR: Deep Learning Based Table Structure Recognition[C]// 2019 International Conference on Document Analysis and Recognition (ICDAR)., Sydney :IEEE, 2020: 1403-1409.
[22] DAI J,LI Y,HE K,et al. R-FCN:Object Detection via Region-based Fully Convolutional Networks[J]. arXiv preprint arXiv:1605.06409, 2016.
[23] TENSMEYER C,MORARIU V I,PRICE B,et al.Deep Splitting and Merging for Table Structure Decomposition[C]// 2019 International Conference on Document Analysis and Recognition (ICDAR). Sydney :IEEE, 2019:114-121.
[24] KHAN S A,KHALID S M D,SHAHZAD M A,et al. Table Structure Extraction with Bi-Directional Gated Recurrent Unit Networks[C]//2019 International Conference on Document Analysis and Recognition (ICDAR). Sydney: IEEE, 2019:1366-1371.
[25] SUNDERMEYER M,RALF S,NEY H. LSTM Neural Networks for Language Modeling[C]// 13rd Annual Conference of the International Speech Communication Association. Portland, 2012:194-197.
[26] QASIM S R,MAHMOOD H,SHAFAIT F.Rethinking Table Recognition using Graph Neural Networks[C]//2019 International Conference on Document Analysis and Recognition (ICDAR). Sydney :IEEE, 2019:142-147.
[27] WANG Y,SUN Y,LIU Z,et al. Dynamic Graph CNN for Learning on Point Clouds[J].ACM Transactions on Graphics,2019,38(5):1-12.
[28] QASIM S R,KIESELER J,IIYAMA Y,et al. Learning Representations of Irregular Particle-detector Geometry With Distance-weighted Graph Networks[J]. The European Physical Journal C, 79(7), 1-11.
[29] HUANG G,LIU Z,LAURENS V D M,et al.Densely Connected Convolutional Networks[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu :IEEE,2017:4700-4707.
[30] SCHREIBER S,AGNE S,WOLF I,et al. DeepDeSRT: Deep Learning for Detection and Structure Recognition of Tables in Document Images[C]//2017 14th IAPR International Conference on Document Analysis and Recognition(ICDAR). Kyoto :IEEE, 2017:1162-1167.
[31] PALIWAL S S,VISHWANATH D, Rahul R,et al.TableNet: Deep Learning Model for End-to-end Table Detection and Tabular Data Extraction from Scanned Document Images[C]// International Conference on Document Analysis and Recognition (ICDAR). Sydney :IEEE, 2019:128-133.
[32] SMITH R.An Overview of the Tesseract OCR Engine[C]// Document Analysis and Recognition, 2007. ICDAR 2007. Ninth International Conference on Document Analysis and Recognition(ICDAR 2007). Parana:IEEE, 2007(2): 629-633.
[33] PRASAD D,GADPAL A,KAPADNI K,et al.CascadeTabNet: An Approach for End to End Table Detection and Structure Recognition From Image-Based Documents[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops Seattle:IEEE, 2020:2439-2447.
[34] CAI Z,VASCONCELOS N.Cascade R-CNN: Delving Into High Quality Object Detection[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City :IEEE, 2018:6154-6162.
[35] SUN K,XIAO B,LIU D,et al.Deep High-Resolution Representation Learning for Human Pose Estimation[J]. IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach:IEEE, 2019:5686-5696.
[36] GRAVES A.Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks[C]// International Conference on Machine Learning. New York:IEEE 2006:993-1000.
[37] SHI B,BAI X,YAO C.An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2016,39(11): 2298-2304.
[38] SHI B,Wang X, Lyu P,et al.Robust Scene Text Recognition with Automatic Rectification[C]// IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas:IEEE, 2016:4168-4176.
[39] NISA H,THOM J A,CIESIELSKI V,et al. A Deep Learning Approach to Handwritten Text Recognition in the Presence of Struck-out Text[C]//2019 International Conference on Image and Vision Computing New Zealand (IVCNZ). Dunedin: IEEE,2019:1-6.
[40] MESSINA R, LOURADOUR J. Segmentation-free Handwritten Chinese TextRecognition with LSTM-RNN[C] // 2015 13th International Conference on Document Analysis and Recognition (ICDAR). Tunis :IEEE, 2015:171-175.
[41] GRAVES A,JüRGEN S. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks[C]// International Conference on Neural Information. Vancouver:IEEE, 2009:545-552.
[42] WU Y C,YIN F,CHEN Z,et al. Handwritten Chinese Text Recognition Using Separable Multi-Dimensional Recurrent Neural Network[C]//2017 14th IAPR International Conference on Document Analysis and Recognition(ICDAR). Kyoto :IEEE,2017(1):79-84.