摘要:由于文檔圖像的布局復雜、目標對象尺寸分布不均勻,現有的檢測算法很少考慮多模態信息和全局依賴關系,提出了基于視覺和文本的多模態文檔圖像目標檢測方法。首先探索多模態特征的融合策略,為利用文本特征,將圖像中文本序列信息轉換為二維表征,在文本特征和視覺特征初次融合之后,將其輸入到骨干網絡提取多尺度特征,并在提取過程中多次融入文本特征實現多模態特征的深度融合;為保證小物體和大物體的檢測精度,設計了一個金字塔網絡,該網絡的橫向連接將上采樣的特征圖與自下而上生成的特征圖在通道上連接,實現高層語義信息和低層特征信息的傳播。在大型公開數據集PubLayNet上的實驗結果表明,該方法的檢測精度為95.86%,與其他檢測方法相比有更高的準確率。該方法不僅實現了多模態特征的深度融合,還豐富了融合的多模態特征信息,具有良好的檢測性能。
關鍵詞:多模態;文檔圖像;目標檢測;深度學習
中圖分類號:TP391.41文獻標志碼:A
文章編號:1001-3695(2023)05-043-1559-06
0引言
隨著計算機技術的快速發展,網絡上大量的信息以電子文檔的形式進行傳播,文檔成為了一種重要的信息傳播載體,在人們的生活中發揮著重要的作用。文檔圖像目標檢測在識別文檔圖像的信息中起著至關重要的作用,目標檢測的準確度對于數字化系統的整體成效影響很大,如光學字符識別(OCR)[1]準確性及其提取信息的有用性等。
文檔圖像目標檢測又稱為頁面分割或布局分析,旨在將文檔圖像自動識別為獨立結構和邏輯單元,如文本、表格和圖形。對于不同的目標區域有著不同的處理策略,由于文檔圖像組件的復雜性和多樣性,這項工作具有挑戰性。自動識別文檔的整體結構具有顯著的商業價值和學術價值,國內外有很多研究學者提出了各種用于文檔圖像檢測或分割的方法[2~21]。
文檔圖像的目標檢測方法可以分為傳統方法和深度學習方法。傳統方法[11~13]對于手工繪制的特征依賴程度高,相關的程序算法復雜,并且難以識別出復雜布局。與傳統方法相比,深度學習的方法具有更強的表征提取和學習能力,更適用于文檔圖像的目標檢測任務。為將文檔圖像布局分析任務應用于移動端和云服務端,Oliveira等人[2]提出了一種利用卷積神經網絡的快速一維文檔檢測模型,該模型具有更快的執行時間和更緊湊的數據使用量,并顯著提高了整體性能。Li等人[3]提出了一種跨域文檔圖像目標檢測模型,并且設計了三個特征對齊模塊用于解決區域偏移的問題。文獻[4]提出了一種基于自適應平滑算法的模型,利用K-均值聚類分析得到合適的閾值,進而實現對文檔界面的分割,最后通過識別器區分文本與非文本區域。文獻[5]提出了一種采用多特征融合的模型,通過融合來自不同卷積核的特征,并將其輸入串并行空間金字塔中實現對特征的進一步優化。為了精確地檢測文檔圖像中的表格,Agarwal等人[10]提出了利用雙主干的深度網絡模型,同時在骨干網絡中加入可變形卷積,并在較高的IoU閾值下獲得較高的檢測結果。以上方法雖然表現出了良好的性能,但是在處理文檔圖像的特征時局限于視覺特征,忽略了文檔圖像中豐富的文本特征,造成信息的浪費。
因此,多模態的方法被應用到文檔圖像相關的任務[16~19]中。Soto等人[16]將文檔圖像中的上下文信息融入到FasterR-CNN[22]中,以提升網絡檢測文檔目標區域的性能;Yang等人[17]通過創建文本嵌入圖的方法利用文本特征,并將其融入端對端的多模態全卷積網絡中以提升文檔圖像的分割精度;Zhang等人[18]提出了一種基于雙流的多模態網絡,融合視覺特征、文本特征和組件關系,并在文檔的布局分析中表現出良好的性能。2021年,國際文檔分析與識別會議(ICDAR)組織了科學文獻解析(SLP)比賽任務A,其中,入圍的方案絕大多數是基于多模態的方法,證明了多模態方法的有效性。相比于基于視覺的方法,多模態的方法能夠實現視覺信息和文本信息的充分利用,有著很大的發展空間和應用前景。但是現有的多模態方法在多模態特征融合方式未實現特征之間的深度融合,以及在后續的處理中沒有進一步豐富融合的多模態特征表征信息。針對上述問題,本文提出了基于視覺和文本的多模態文檔圖像目標檢測方法。為實現不同模態特征的深度融合,本文利用卷積神經網絡(如ResNet[23])將不同的模態空間映射到共享語義子空間,從而融合不同模態的特征,并保留豐富的特征信息;為保證小物體和大物體的檢測精度,增強網絡的多模態表征能力,設計了一個金字塔網絡,該網絡將不同尺度的特征在通道上進行連接,使低層特征信息中融入高層的語義信息進行多模態信息的傳遞;為了進一步豐富多模態融合特征的信息,特征金字塔網絡(FPN)[24]被引入到該網絡。此外,在處理文本信息的過程中,優化了PubLayNet[25]數據集的適配,包括插入半結構元素和擴展groundtruth注釋,并構建出了層級關系數據集。
1本文算法
1.1網絡結構
本節詳細介紹所提基于視覺和文本的多模態文檔圖像目標檢測網絡結構。該網絡以FasterR-CNN[22]為基礎,融入了視覺特征和文本特征,旨在利用不同模態之間的補充信息,并將ResNet-101[23]作為骨干網絡用于實現多模態特征的深度融合和保留更多的特征表征信息。深度融合的多模態特征在經過特征增強模塊后,不同尺度的特征信息得到傳遞,使得高層特征信息融入到低層特征中,特征表征得到進一步的增強,從而提升了網絡模型的檢測精度及魯棒性。
該網絡的結構如圖1所示,由文本特征提取模塊、特征融合模塊、特征增強模塊、特征金字塔網絡和區域生成網絡(RPN)五個模塊組成。其中,文本特征提取模塊主要由四個不同的卷積層和正則化層組成,是進行文本特征提取操作的基本組件;特征融合模塊以ResNet網絡為主,通過其強大的特征表示能力實現多模態特征的深度融合,并保留豐富的特征信息,從而使兩者的信息得到充分利用;特征增強模塊主要由卷積層和上采樣層組成,外觀上與特征金字塔網絡相似,主要實現不同尺度特征的表征信息在通道上傳遞,使得低層特征也包含豐富的語義信息;FPN將相鄰層的特征圖變換為相同的尺寸,然后對它們執行元素級別加法操作(對應位置元素相加),目的是為了將高層特征中的強語義信息傳遞到低層特征中,實現低層次高分辨率信息和高層次強語義信息的結合,從而提升檢測性能;RPN主要由卷積層、中間層、分類層和回歸層組成,其本質是基于滑動窗口和錨框機制在特征圖上對目標區域進行分類和回歸,并產生一系列的候選區域。
1.3特征融合模塊
由于卷積神經網絡具有良好的特征提取能力和學習能力,本文采用ResNet作為骨干網絡提取特征,并利用其將不同模態空間映射到共享語義子空間中,從而深度融合多模態特征。
來自不同模態的特征表征在確定不同的目標時具有重要作用,視覺信息可以容易地識別較大的目標區域,文本信息對于區分視覺上相似的區域具有重要意義[18]。為充分利用不同模態的補充信息,實現多模態特征的融合就顯得十分重要。目前大多數模型[17,18]在通道上疊加多模態特征,以此來實現不同模態信息的融合,但是不同模態特征的占比往往對模型性能起著至關重要的作用。不同于以上的融合策略,本文提出了將文本特征和視覺特征相加,然后將融合后的多模態特征輸入骨干網絡提取多尺度特征,并在提取的過程中多次融入文本特征,以豐富特征信息并實現多模態特征的深度融合。如圖2所示,首先從文檔圖像中提取視覺特征V2,然后將文本特征A2與之融合得到多模態特征C2;將C2輸入到骨干網絡中得到特征V3,并與文本特征A3融合得到C3,通過加入文本特征可以使特征圖保留更多的信息。依此類推,C4與C5的產生與之相似。特征Ci的產生定義如下:
通過將文本特征融入低層和高層的特征中,使得特征圖中的信息更加豐富。卷積神經網絡可以將不同的模態空間映射到共享語義子空間中,從而融合不同模態的特征。視覺信息包含較高層次的特征表征,文本信息包含較低層次的特征表征,通過融合兩者的補充信息,使得融合后的特征信息比之前單一模態的更加豐富。
1.4特征增強模塊
研究表明,特征金字塔結構可以實現不同尺度特征信息的傳遞,進而豐富特征信息。因此本文設計了特征增強模塊,外觀上與特征金字塔網絡相似。
如圖3所示,特征增強模塊的構造包含自下而上的路徑、自上而下的路徑和橫向連接。橫向連接將上采樣的特征圖與自下而上生成的相同大小的特征圖在通道上連接,實現高層語義信息和低層特征信息的傳播,進而增強特征表征。該過程從C5開始,通過自頂向下和橫向連接策略逐步整合層次特征。F5由C5直接產生。F4的產生首先需要F5經過1×1卷積層,使其通道維度降低到原來的一半并與C4的通道維度保持一致,之后對其進行上采樣使之寬高變為原來的兩倍。然后,將上采樣后的特征與C4在通道維度上連接,再經過3×3的卷積層降低其通道維度,使連接后的特征圖的通道維度與C4的相同,經過以上操作之后就得到了F4。F3和F2的產生過程也與之相似。Fi的生成過程被定義為
其中:concat表示通道維度連接操作;U是上采樣函數;conv1和conv2表示不同的卷積層,卷積核大小分別為1×1和3×3。因此,融合后的多模態特征通過橫向連接將上采樣的特征和自上而下路徑的特征在通道上疊加而得到了豐富,使得高層的語義信息融入低層特征信息。通過特征增強模塊,一組特征表征Fi被產生;在得到特征Fi后,將其輸入特征金字塔網絡中進行下一步的操作。
2實驗結果與分析
2.1數據集
PubLayNet[25]是一個包含超過36萬張文檔圖像的大型公開數據集,其標注信息包括邊界框標注和多邊形分割標注。該數據集被用于2021年國際文檔分析與識別會議科學文獻解析比賽任務A(ICDAR-SLP-TASKA),標注文件遵循MSCOCO對象檢測任務的JSON格式。此數據集包含研究論文和文章的圖片以及頁面上各種元素的注釋,其包含五個類別,分別是text、title、list、table和figure。數據集的類別分布如表1所示。
2.2評價指標及實驗環境參數
本文實驗使用平均精度(AP)、均值平均精度(mAP)和召回率(recall)作為文檔圖像目標檢測任務的評價標準。AP、mAP和recall的值越高,算法的性能越好。
本文實驗在NVIDIATITANXp服務器上搭建PyTorch框架下進行,CUDA版本為10.2。PubLayNet[25]數據集的訓練周期為6,初始學習率為0.001,動量為0.9,權重衰減為0.0001,其他對比方法的相關參數配置與之相同。此外,本文方法中FPN和RPN的參數配置與原文獻一致。
2.3對比實驗結果與分析
為了證明本文提出的網絡模型的有效性和合理性,使用上述評價標準,將其與當前主流的檢測方法進行比較,包括目前主流的目標檢測算法FasterR-CNN[22]、MaskR-CNN[27]和ATSS[28],也包括用于文檔圖像檢測相關的方法CDeCNet[10]、VSR[18]、DiT[29]和LayoutLMv3[30]。其中,FasterR-CNN[22]和MaskR-CNN[27]是基于R-CNN的兩階段檢測網絡;ATSS[28]是一階段的檢測網絡;CDeCNet[10]是專門用于文檔圖像表格檢測的網絡;VSR[18]是融合了視覺特征、文本特征和組件關系的多模態網絡;DiT[29]是基于Transformer的自監督預訓練的文檔檢測網絡;LayoutLMv3[30]是融合視覺和文本的Transformer多模態網絡。VSR中使用ResNeXt-101[31]作為特征提取的骨干網絡,為保證公平,除DiT[29]和LayoutLMv3[30]以Transformer作為骨干網絡外,其他方法和本文方法均使用ResNeXt-101[31]作為骨干網絡。此外,本文方法通過加入特征融合模塊和特征增強模塊分別實現多模態特征的深度融合和傳遞不同級別特征信息進而豐富特征表征,從而提升網絡模型在文檔圖像數據集上的檢測性能。在相同的參數配置和訓練周期的條件下,不同網絡模型在PubLayNet[25]數據集上的檢測結果如表2所示,其中,VSR[18]的實驗結果為其文獻所示,其未提供相應的recall數據。由表2可知,本文方法有著優異的性能,在大多數類別上的表現優于其他檢測方法,并且mAP和recall均達到最高值95.86%和96.91%,這是由于文本信息對于提升文檔圖像的檢測精度起著重要作用。本文的多模態特征融合策略實現了不同模態信息之間的深度融合,以及本文設計的金字塔網絡使低層特征信息中融入高層的語義信息進行多模態信息的傳遞,保證了小物體和大物體檢測精度。FasterR-CNN[22]、MaskR-CNN[27]和ATSS[28]在PubLayNet[25]數據集上的mAP都超過90%,同時recall也超過92%,本文方法在mAP和recall比它們高了大約3.26%和3.55%,說明僅依賴于視覺特征對于提升文檔圖像的檢測性能是有限的。此外,在類別list、table和figure上,本文方法是高于其他方法的,其中在table上的AP值超過用于檢測文檔表格的CDeCNet[10],比其提高了1.76%,同時也比VSR[18]高出了1.06%,這是由于本文方法加入了文本特征使得table區域保留了更加豐富的特征信息,并且利用ResNeXt[31]實現多模態特征的深度融合以及金字塔網絡實現高層語義信息在通道上傳遞到低層特征。在text和title上,VSR[18]高于本文方法,這是由于VSR[18]中不僅使用了組件關系,而且在創建文本嵌入圖時使用了字符級別和行級別的文本信息,不同級別的文本信息對于不同的類別有著不同的功效[18]。本文方法在沒有融入組件關系的條件下,多數類別的AP值和mAP超過VSR,說明了多模態深度特征融合策略的有效性及通過金字塔網絡對融合多模態特征處理的合理性。DiT[29]和LayoutLMv3[30]在PubLayNet[25]數據集上的mAP分別達到94.92%和95.07%,recall分別達到96.20%和96.40%,高于FasterR-CNN[22]、MaskR-CNN[27]、ATSS[28]和CDeCNet[10],這表明基于Transformer的網絡在文檔圖像目標檢測任務中有著良好的性能,本文方法與它們相比在mAP上分別提高了0.94%和0.79%,并且在絕大多數類別上本文方法是高于它們的,這說明多模態網絡與基于Transformer的文檔檢測網絡相比,其性能更好,實現了多模態特征的深度融合,并對融合后的多模態特征進行特征表征增強,使得特征信息更加豐富,進而提升網絡的檢測性能。
本文方法96.2289.8695.7198.4699.0595.8696.91圖4給出了本文方法與其他方法在PubLayNet[25]數據集上四組檢測結果的示意圖。第一列為標注了groundtruth(GT)的樣圖,第二列為本文方法的檢測結果,第三列為FasterR-CNN[22]的檢測結果,第四列為CDeCNet[10]的檢測結果。為了便于觀測檢測結果,在檢測框的內部進行了顏色填充,其中淡綠色表示text區域,粉紅色表示title區域,橘黃色表示list區域,灰色表示table區域,淡藍色表示figure區域(見電子版)。
從圖4(a3)(a4)中可以看出,FasterR-CNN[22]雖然識別出了title類別,但同時也將其識別為text類別,造成了誤檢;CDeCNet[10]將title類別錯誤識別為text類別,并且在figure區域檢測不精確,使其檢測精度下降。相比于兩者,從圖4(a2)中可以得出,本文方法可以準確識別出每個目標區域,這是因為本文方法加入了文本特征,其能夠區分相似的目標區域。此外在圖4(d3)和(d4)中,FasterR-CNN[22]不精確的text檢測框覆蓋了多個目標區域,CDeCNet[10]在text和figure上的檢測框也不準確,造成它們檢測精度的降低。對比圖4(b2)(b4),CDeCNet[10]在識別list時丟失一部分目標區域,而本文方法卻能夠精準地檢測出list區域,這是因為基于視覺的方法在提取特征時容易丟失其前方的數字或小黑點的特征,在加入文本特征后,這一區域的特征能夠被增強。在圖4(c3)(c4)中,FasterR-CNN[22]在figure上的檢測區域不精確,而CDeCNet[10]雖然識別出了figure,但同時也將其錯誤地檢測為list和text;而在圖4(c2)中,本文方法能夠準確地識別目標區域,這是因為本文不僅實現多模態特征的融合,而且通過金字塔網絡實現高層語義信息在通道上傳遞到低層特征中,進而提升目標區域的檢測精度。
2.4消融實驗
在PubLayNet[25]數據集上的消融實驗結果如表3所示,記錄的是基線網絡FasterR-CNN[22]在加入不同模塊后的實驗結果。網絡訓練步長的設定需要平衡訓練時間和檢測精度,同時,學習率的設定與優化器以及數據和任務有關,合理地設定學習率可以使模型較快地收斂至最優點。因此,綜合考慮,本文將消融實驗中模型的訓練步長設為90k,初始學習率設為0.0025。從表3的實驗結果可以得出,不加入任何優化策略的網絡性能是最低的,mAP和recall分別為89.20%和92.22%,與加了特征融合模塊和特征增強模塊后的網絡相比,分別低了大約3%和2.29%;在加入特征融合模塊之后,網絡模型的mAP從89.20%提高到92.03%,recall從92.22%提升到94.51%。從實驗結果上看,list類別的AP值比基線網絡提升了5.39%,figure類別的AP值提高了5.93%。這證明文本信息在提高網絡檢測精準度方面起到了重要作用,同時進一步證明了多模態特征融合策略的有效性,通過融合不同模態特征可以充分利用不同模態之間的補充信息。文本特征能夠增強較小區域的特征,比如list前面的數字或小黑點在視覺特征提取的過程中容易被丟失,而在加入文本特征之后,該區域的特征信息得到了進一步的豐富。當在基線網絡中加入特征增強模塊后,該網絡模型的mAP和recall分別提升到了89.49%和92.73%,相比于基線網絡有較小的提升,這是由于基線網絡中只包含視覺特征,使得特征增強模塊無法生成更加豐富的特征表征。在基線網絡中加入特征融合模塊和特征增強模塊后,該網絡模型的mAP提高到92.22%,相比于基線網絡提高了3%左右。實驗結果證明在融合多模態特征后,特征表征得到了進一步的豐富,融合的多模態特征在進入特征增強模塊后,通過在通道上連接不同級別的特征實現了不同級別特征信息的傳遞,使得低層特征包含了高層的語義信息。
3結束語
針對文檔圖像中組件的復雜多樣造成其布局分析難的問題,本文提出了一種基于視覺和文本的多模態檢測網絡,利用骨干網絡強大的特征提取能力和特征表示能力實現多模態特征的深度融合,從而充分利用不同模態之間的補充信息。融合后的多模態特征進入特征增強模塊,使得不同級別的特征信息在通道維度上傳遞,使低層的特征信息中包含高層的語義信息,從而增強多模態特征表征。實驗結果表明,本文方法優于目前主流的方法,能夠進一步豐富網絡中的特征表征,加入文本特征能增強較小區域的特征,從而提升文檔圖像目標檢測的準確性,減小誤差、縮減檢測時間。未來研究中,可以將XML文件中的層級信息融入到網絡以進一步提升網絡的整體性能。
參考文獻:
[1]白翔,楊明錕,石葆光,等.基于深度學習的場景文字檢測與識別[J].中國科學:信息科學,2018,48(5):531-544.(BaiXiang,YangMingkun,ShiBaoguang,etal.Deeplearningforscenetextdetectionandrecognition[J].ScientiaSinica:InformationSciences,2018,48(5):531-544.)
[2]OliveiraDAB,VianaMP.FastCNN-baseddocumentlayoutanalysis[C]//ProcofIEEEInternationalConferenceonComputerVision.WashingtonDC:IEEEComputerSociety,2017:1173-1180.
[3]LiKai,WigingtonC,TensmeyerC,etal.Cross-domaindocumentobjectdetection:benchmarksuiteandmethod[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2020:12912-12921.
[4]陳園園,王維蘭,劉華明,等.基于自適應游程平滑算法的藏文文檔圖像版面分割與描述[J].激光與光電子學進展,2021,58(14):164-171.(ChenYuanyuan,WangWeilan,LiuHuaming,etal.LayoutsegmentationanddescriptionofTibetandocumentimagesbasedonadaptiverunlengthsmoothingalgorithm[J].Laseramp;OptoelectronicsProgress,2021,58(14):164-171.)
[5]應自爐,趙毅鴻,宣晨,等.多特征融合的文檔圖像版面分析[J].中國圖象圖形學報,2020,25(2):311-320.(YingZilu,ZhaoYihong,XuanChen,etal.Layoutanalysisofdocumentimagesbasedonmultifeaturefusion[J].JournalofImageandGraphics,2020,25(2):311-320.)
[6]姚佳.基于深度學習的復雜文檔版面分割算法研究[D].北京:北京交通大學,2021.(YaoJia.Complexdocumentlayoutsegmentationbasedondeeplearning[D].Beijing:BeijingJiaotongUniversity,2021.)
[7]XuCanhui,ShiCao,BiHengyue,etal.Apageobjectdetectionme-thodbasedonmaskR-CNN[J].IEEEAccess,2021,9:143448-143457.
[8]XuYiheng,LiMinghao,CuiLei,etal.LayoutLM:pre-trainingoftextandlayoutfordocumentimageunderstanding[C]//Procofthe26thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryamp;DataMining.NewYork:ACMPress,2020:1192-1200.
[9]XuCanhui,ShiCao,ChenYinong.End-to-enddilatedconvolutionnetworkfordocumentimagesemanticsegmentation[J].JournalofCentralSouthUniversity,2021,28(6):1765-1774.
[10]AgarwalM,MondalA,JawaharCV.CDeC-Net:compositedeformablecascadenetworkfortabledetectionindocumentimages[C]//Procofthe25thInternationalConferenceonPatternRecognition.Piscataway,NJ:IEEEPress,2021:9491-9498.
[11]AminA,ShiuR.Pagesegmentationandclassificationutilizingbottom-upapproach[J].InternationalJournalofImageandGraphics,2001,1(2):345-361.
[12]HaJ,HaralickRM,PhillipsIT.RecursiveX-Ycutusingboundingboxesofconnectedcomponents[C]//Procofthe3rdInternationalConferenceonDocumentAnalysisandRecognition.WashingtonDC:IEEEComputerSociety,1995:952-955.
[13]ShilmanM,LiangP,ViolaP.Learningnongenerativegrammaticalmodelsfordocumentanalysis[C]//Procofthe10thIEEEInternationalConferenceonComputerVision.Piscataway,NJ:IEEEPress,2005,2:962-969.
[14]XuYiheng,LyuTengchao,CuiLei,etal.LayoutXLM:multimodalpre-trainingformultilingualvisually-richdocumentunderstanding[EB/OL].(2021-09-09).http://doi.org/10.48550/arxiv.2104.08836.
[15]Garncarek,PowalskiR,StanisawekT,etal.LAMBERT:layout-awarelanguagemodelingforinformationextraction[C]//Procofthe16thInternationalConferenceonDocumentAnalysisandRecognition.Cham:Springer,2021:532-547.
[16]SotoC,YooS.Visualdetectionwithcontextfordocumentlayoutana-lysis[C]//ProcofConferenceonEmpiricalMethodsinNaturalLanguageProcessingandthe9thInternationalJointConferenceonNaturalLanguageProcessing.Stroudsburg,PA:AssociationforComputationalLinguistics,2019:3464-3470.
[17]YangXiao,YumerE,AsenteP,etal.Learningtoextractsemanticstructurefromdocumentsusingmultimodalfullyconvolutionalneuralnetworks[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.WashingtonDC:IEEEComputerSociety,2017:5315-5324.
[18]ZhangPeng,LiCan,QiaoLiang,etal.VSR:aunifiedframeworkfordocumentlayoutanalysiscombiningvision,semanticsandrelations[C]//Procofthe16thInternationalConferenceonDocumentAnalysisandRecognition.Cham:Springer,2021:115-130.
[19]BarmanR,EhrmannM,ClematideS,etal.Combiningvisualandtextualfeaturesforsemanticsegmentationofhistoricalnewspapers[EB/OL].(2020-12-14).http://doi.org/10.46298/jdmdh.6107.
[20]ShiCao,XuCanhui,BiHengyue,etal.Lateralfeatureenhancementnetworkforpageobjectdetection[J].IEEETransonInstrumentationandMeasurement,2022,71:5020310.
[21]BiHengyue,XuCanhui,ShiCao,etal.SRRV:anoveldocumentobjectdetectorbasedonspatial-relatedrelation[J/OL].IEEETransonMultimedia.(2022).https://doi.org/10.1109/TMM.2022.3165717.
[22]RenShaoqing,HeKaiming,GirshickR,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[J].IEEETransonPatternAnalysisandMachineIntelligence,2017,39(6):1137-1149.
[23]HeKaiming,ZhangXiangyu,RenShaoqing,etal.Deepresiduallear-ningforimagerecognition[C]//ProcofIEEEConferenceonCompu-terVisionandPatternRecognition.WashingtonDC:IEEEComputerSociety,2016:770-778.
[24]LinTY,DollárP,GirshickR,etal.Featurepyramidnetworksforobjectdetection[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.WashingtonDC:IEEEComputerSociety,2017:2117-2125.
[25]ZhongXu,TangJianbin,YepesAJ.PubLayNet:largestdataseteverfordocumentlayoutanalysis[C]//ProcofInternationalConferenceonDocumentAnalysisandRecognition.Piscataway,NJ:IEEEPress,2019:1015-1022.
[26]ReimersN,GurevychI.Sentence-BERT:sentenceembeddingsusingsiameseBERT-networks[EB/OL].(2019-08-27).http://doi.org/10.48550/arxiv.1908.10084.
[27]HeKaiming,GkioxariG,DollárP,etal.MaskR-CNN[J].IEEETransonPatternAnalysisandMachineIntelligence,2018,42(2):386-397.
[28]ZhangShifeng,ChiCheng,YaoYongqiang,etal.Bridgingthegapbetweenanchor-basedandanchor-freedetectionviaadaptivetrainingsampleselection[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2020:9759-9768.
[29]LiJunlong,XuYiheng,LyuTengchao,etal.DiT:self-supervisedpre-trainingfordocumentimagetransformer[C]//Procofthe30thACMInternationalConferenceonMultimedia.NewYork:ACMPress,2022:3530-3539.
[30]HuangYupan,LyuTengchao,CuiLei,etal.LayoutLMv3:pre-trainingfordocumentAIwithunifiedtextandimagemasking[EB/OL].(2022-07-19).http://doi.org/10.48550/arxiv.2204.08387.
[31]XieSaining,GirshickR,DollárP,etal.Aggregatedresidualtransformationsfordeepneuralnetworks[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.WashingtonDC:IEEEComputerSociety,2017:1492-1500.