連哲,殷雁君,云飛,智敏
(內蒙古師范大學計算機科學技術學院,內蒙古 呼和浩特 010022)
文字作為人類語言的書面形式,是人類獲取信息和傳遞信息的重要載體。在自然場景中拍攝的以文字為內容的圖像,被稱為自然場景文本圖像或場景文本圖像,在自然場景中出現的大量文字信息對于描述和理解場景內容具有積極作用。自然場景文本檢測作為場景內容分析的基礎研究,旨在定位輸入圖像中文本內容的位置,廣泛地應用于圖像搜索[1]、機器翻譯[2]、機器人導航[3]、多媒體檢索[4]、工業自動化[5]等場景理解任務。本文立足于深度學習背景下的自然場景文本檢測技術,梳理概括目前文本檢測的主流方法,著重闡述和討論目前主流方法存在的優缺點及仿真實驗結果和環境設置。
近年來,隨著深度學習技術的發展,基于深度學習的場景文本檢測方法逐漸成為主流。基于深度學習的自然場景文本檢測方法大致可以分為基于檢測框的文本檢測方法、基于分割的文本檢測方法、基于檢測框和分割的混合文本檢測方法和其他文本檢測方法。
基于檢測框的文本檢測方法主要通過檢測包圍框對自然圖像中文本所在區域進行限定。文獻[6]提出的目標檢測模型(Faster R-CNN)在目標檢測領域取得了很好的結果,繼而給文本檢測領域帶來了巨大的突破。基于檢測框的文本檢測方法根據檢測框粒度的不同,分為基于文本區域建議的方法和基于文本組件建議的方法。
1.1.1 基于文本區域建議的文本檢測方法
受到目標檢測算法的啟發,許多研究人員將基于深度學習模型的目標檢測方法用到文本檢測中,通過選擇性搜索算法[7]生成多個文本候選區域,通過篩選文本候選框并微調候選框位置以及大小,將候選區域分為文本區域和非文本區域。
文獻[8]提出一種基于文本傾斜角信息的旋轉區域建議網絡(RRPN),其中旋轉感興趣區域(RRoI)池化層為文本區域分類器設計特征圖提供了一個任意方向的方案,解決了文本檢測中檢測區域具有旋轉角度的問題。RRPN 候選框方向是通過旋轉角度參數控制,對旋轉候選框的邊框進行回歸,增強了對于傾斜文本的檢測效果,但是RRPN 不能檢測彎曲文本,且RRoI 通過最大池化方式將旋轉區域轉換為固定大小區域,存在RoI 與提取特征之間未對準的問題。為解決該問題,文獻[9]提出一種使用點代替錨的無錨區域建議網絡(AF-RPN)來代替Faster R-CNN 中傳統的區域建議網絡(RPN),擺脫了傳統復雜的候選框設計,在水平和多方向的文本檢測任務中均有很高的召回率,然而使用點代替錨會出現檢測框未完全圍住文本區域的情況。
針對長文本和任意方向文本的問題,研究人員也進行了大量研究。文獻[10]提出旋轉敏感回歸探測器(RRD),調整了單步多框目標檢測器(SSD)[11]的錨定比,以適應非規則形狀的寬高比變化,主要解決了有方向的檢測框回歸問題。通常地,圖像文本檢測方法中文本分類和邊界矩形框(BBox)坐標回歸兩個任務共享同一特征,采用同一特征解決兩個不同任務,在一定程度上會導致系統性能下降。RRD 是用兩個不同設計的網絡分支來分別提取用于文本分類和BBox 坐標回歸的任務特征,不僅減少了旋轉敏感特征對分類的影響,同時也減少了旋轉不變特征對回歸的影響,從而對長文本的檢測更加準確,但是對于字符間距較大的文本行存在無法檢測整個邊界且不能處理彎曲文本的問題。文獻[12]同樣基于SSD 模型提出TextBoxes++網絡以檢測任意方向的文本區域,通過四邊形或傾斜的矩形框來表示圖片中的文本區域,將卷積核大小由3×3 改為3×5的長卷積核來更好地提取文本特征信息,TextBoxes++網絡結構復雜,需要長時間對模型進行訓練,且因低層特征表達能力較弱,對小尺度文本檢測的準確率低。
1.1.2 基于文本組件建議的文本檢測方法
當前基于文本區域建議的文本檢測方法大多是由目標檢測算法改進而來,但是目標檢測中所檢測的目標一般是較大的物體。在文本檢測時,因為自然場景中文本、尺寸和寬高比不同,而且存在文本行彎曲的情況,所以候選框的尺寸大小很難完全接近文本,并且對候選框位置進行微調的方法同樣很難達到預期結果。
基于文本組件建議的方法是將文本區域看作很多個連續文本組件,其中文本組件是字符或文本的一部分。文本組件建議的方法通過檢測文本組件區域,將文本組件連接成文本區域,實現文本檢測任務。
文獻[13]提出的DeepText 首次將目標檢測算法成功應用于自然場景文本檢測,基于GoogleNet 中Inception 模塊的理念設計Inception RPN,通過并行使用不同尺度的卷積核和池化操作來提取多尺度的特征信息,以該方式生成的候選框能捕捉文本區域的形狀、紋理、上下文等特征,但是DeepText 主要針對英文文本進行訓練和設計,且網絡性能在很大程度上依賴于大規模訓練數據集,如果訓練數據集不充分或不具代表性,則可能導致模型的泛化能力不佳。
文獻[14]提出連接文本建議網絡(CTPN),采用垂直錨檢測水平方向文本,并且網絡中加入了雙向長短期記憶(LSTM)網絡[15]來學習文字序列特征,有利于獲得檢測框和置信度,但是CTPN 加入了LSTM 后,在訓練階段容易導致梯度爆炸,并且沒有很好地對多方向文本進行處理。為此,文獻[16]在特定環境下改進了SSD 算法,提出SegLink 多方向文本檢測方法,檢測含有單詞或文本行的局部區域,將局部區域連接組成完整的文本檢測框,實驗結果表明該方法可以檢測多方向和任意長度的文本,但是存在單詞或文本行閾值α和β需要人工設置的缺陷,且無法檢測間隔很遠或形變的文本。
從多方向文本檢測的角度出發,文獻[17]提出深度關系推理圖(DRRG)網絡,該網絡基于卷積神經網絡(CNN)的文本組件建議網絡預測文本組件的幾何屬性,利用局部圖建立不同文本組件之間的連接,并最終采用圖卷積網絡進行文本組件深度關系推理,實現文本組件聚合。DRRG 網絡拋棄了錨的思想,無需預先考慮文本框的大小,使用了新的文本組件連接方式,真正實現了對任意形狀文本的預測,但是該網絡檢測結果過度依賴文本組件建議網絡所建議的單個詞檢測框。
基于檢測框的文本檢測方法的機制、適用場景、優勢和局限性如表1 所示,實驗條件和檢測結果對比如表2 所示。

表1 基于檢測框的文本檢測方法的機制、適用場景、優勢和局限性Table 1 Mechanisms,applicable scenarios,advantages,and limitations of text detection methods based on detection boxes

表2 基于檢測框的文本檢測方法的仿真實驗結果Table 2 Simulation experimental results of text detection methods based on detection boxes
該方法主要借鑒了經典的語義分割算法的思路,例如全卷積網絡(FCN)、FPN[18]和全卷積實例感知(FCIS)[19]等。基于分割的自然場景文本檢測方法利用深度卷積和上采樣進行特征提取和多級特征融合,通過對圖像中每個像素分類來判斷每個像素點是否屬于文本區域,達到精準文本區域分割的目的。
文獻[20]提出端到端的高效和準確的場景文本(EAST)檢測網絡,該網絡利用FCN 和NMS[21]舍棄了中間不必要的步驟,有效減少了檢測時間,可以預測任何形狀的矩形,但是該網絡的局限性在于檢測器處理文本實例的大小和網絡的感受野成正比,限制了網絡預測長文本的能力,同時該網絡在一定程度上對垂直文本實例存在預測遺漏或預測準確率不高的問題。文獻[22]是在EAST 網絡的基礎上提出一種基于實例分割的自然場景文本檢測算法(PixelLink),與EAST 網絡技術的差異在于:EAST網絡基于檢測框回歸和圖像分割,而PixelLink 只使用圖像分割。因為文本檢測需要更為精確的定位,只采用圖像分割不能準確地定位距離較近的文本實例,所以PixelLink 還采用了Link 的思想,不僅預測像素是否為文本,并且預測文本的像素之間是否可以進行連接組成一個文本框。然而,PixelLink 網絡在針對不同數據集進行預測時需要調整Pixel 和Link 兩個閾值,并且設置的后處理方法有所不同,使模型檢測過程較為復雜。
后處理是基于分割的文本檢測方法的關鍵階段,但是后處理階段一般很耗時。文獻[23]基于可微二值化(DB)后處理機制提出DBNet。傳統的基于語義分割算法后處理通過一個固定的閾值對特征圖進行二值化操作,而DBNet 添加了一個可學習的閾值映射,通過圖片特征學習像素閾值,這樣便無須計算二值化圖,減少了時間消耗,提高了網絡性能。但是,DBNet 網絡只關注預測文本區域的準確性,無視其他非文本區域類別的差異,導致學習到的特征較為分散。
DBNet 一經提出便引起眾多研究人員的關注,并在其基礎上進行改進,以實現更好的檢測性能。文獻[24]引入殘差校正分支(RCB)使得輕量級網絡更準確地定位文本區域的位置,設計一種基于FPN的雙分支注意力特征融合(TB-AFF)模塊結合局部注意力和全局注意力,提高文本特征信息表示能力。由于引入了兩個模塊,因此模型復雜度提高,訓練時間有所增加。TB-AFF 模塊結構如圖1 所示,其中,C4與C5表示網絡后兩層輸出,X表示合成特征,L(X)表示三維注意力權重,通過兩層深度可分離卷積得到,g(X)表示一維注意力權重,通過一層全局平均池化與兩層深度可分離卷積得到,X'表示合成權重,P5表示最終輸出特征。

圖1 TB-AFF 模塊結構Fig.1 Structure of TB-AFF module
文獻[25]引入多尺度池化(MP)模塊,通過不同高寬比窗口的空間池化操作來獲取場景文本圖片中不同層次的上下文信息,利用雙向特征融合(BiFF)結構改善網絡的信息傳播路徑。由于池化窗口為正方形,因此無法很好地適應彎曲文本。MP 模塊結構如圖2 所示,其中,ConvBN 與ReLU 表示標準的卷積+歸一化+激活函數操作,4 個不同的AvgPool 表示不同池化核的平均池化,Concat 表示級聯。

圖2 MP 模塊結構Fig.2 Structure of MP module
文獻[26]在骨干網絡中嵌入注意力機制,增強特征提取能力,引入深度多尺度特征融合(DMFF)模塊充分挖掘并有效融合文本實例在不同尺度上的特征信息。由于特征提取過程中的信息丟失,因此DMFF 模塊在文本實例與背景具有較強相似性時表現出較差的檢測性能。DMFF 模塊結構如圖3 所示,其中,P2、P3、P4、P5分別表示骨干網絡提取的4 層特征,f表示將4 層特征融合后的特征,F表示經過增強的用于最終檢測任務的特征。

圖3 DMFF 模塊結構Fig.3 Structure of DMFF module
LIAO等[27]對DBNet 進行改進,提出DBNet++網絡模型,設計自適應尺度融合(ASF)模塊,將一個空間注意力模塊集成到一個階段性的注意力模塊中,階段注意力模塊學習不同尺度特征圖的權重,空間注意力模塊學習跨空間維度的注意力,從而實現尺度魯棒的特征融合。雖然DBNet++在多個基準測試上取得了最高精度,但還是很難處理文本中的文本的情況。
目前,研究人員提出可以對任意形狀的文本圖片進行文本檢測的方法,但通常算法運行時間較長。基于算法運行時間和效率的考量,文獻[28]提出一種高效準確的任意形狀文本檢測器(PAN),由特征金字塔增強模塊(FPEM)和特征融合模塊(FFM)構成,其中,FPEM 用于引入多級信息來指導分割,FFM 將不同深度的FPEM 特征融入最終分割特征,可學習的后處理方法應用在像素聚合(PA)模塊,通過預測相似性向量對文本像素進行準確融合。實驗結果表明,PAN 提升了文本檢測效率,對長文本和密集文本檢測效果較好,但是PAN 使用輕量級CNN 進行特征提取,導致所提取的特征感受野較小且表達能力較弱。
文獻[29]使用自適應通道注意力(ACA)機制,通過局部跨通道交互獲得更具代表性的文本特征,利用FPEM 融合低層和高層信息進一步增強不同尺度的特征,提出一種加權感知損失(WAL),通過調整文本實例的權重來增強魯棒性。實驗結果表明,該方法可對任意形狀的文本實現檢測,但是在復雜背景下容易將背景圖案檢測為文本。
分離相鄰文本實例是一項很難的挑戰。文獻[30]提出一個二維漸進核,可滿足自然場景中各種四邊形文本和曲面文本檢測任務的要求,設計定向池化模塊,采用不同方向的集合來獲取更多的文本信息,并設計基于分水嶺算法的后處理方法。該方法能夠魯棒地檢測出文本尺度變化較大的文本,但是在處理一些針對稀有訓練數據的文本嵌入時存在困難。
基于分割的文本檢測方法的機制、適用場景、優勢和局限性如表3 所示,實驗條件和檢測結果對比如表4 所示。

表3 基于分割的文本檢測方法的機制、適用場景、優勢和局限性Table 3 Mechanisms,applicable scenarios,advantages,and limitations of segmentation-based text detection methods

表4 基于分割的文本檢測方法的仿真實驗結果Table 4 Simulation experimental results of segmentation-based text detection methods
基于分割的文本檢測方法適合不規則文本的檢測,但對小文本區域的特征響應信號弱。基于檢測框的方法能夠彌補小文本捕獲的缺陷,但是容易產生文本密集區域的錨點匹配困難的問題。針對上述問題,研究人員提出兩者混合的文本檢測方法。
文獻[31]提出融合文本分割網絡(FTSN),該網絡在提取特征過程中結合了多級特征,是FPN 和FCIS 的組合。在FTSN 中,位置敏感模塊用于提取文本分類特征和邊框回歸特征。文本分類特征主要包括像素屬于文本還是非文本的特征以及屬于檢測框K2 塊不同區域的特征。邊框回歸特征包含文本K2塊不同區域的坐標位置特征。FTSN 模型利用語義分割和區域建議的文本檢測的優點,同時進行檢測和分割文本實例。然而,FTSN 模型生成四邊形矩形框表示文本區域,在檢測不規則文本時效果欠佳。文獻[32]以FTSN 網絡為基礎提出IncepText網絡,實質是將GoogleNet 網絡中Inception 結構融入FTSN 網絡。通過Inception 結構中設計的多個不同尺度卷積核來達到檢測不同大小和高寬比文本的目的,同時使用可變形的RoI池化來代替RoI池化。因為引入了可變形的卷積核以及在池化操作中加入了方向參數,所以感受野能夠對不規則的興趣區域進行自適應,使得對不規則文本特征有很好的提取效果,提高了文本檢測的性能,但是網絡模塊較多,訓練時間較長。
文獻[33]提出監督金字塔上下文網絡(SPCNet),該網絡采用文本上下文模塊(TCM)提取全局上下文語義信息,對文本建議網絡提取的文本矩形框進行再評分,以有效抑制文本建議網絡生成的文本區域矩形框中存有背景區域的假陽性(FP)現象。同樣地,通過抑制FP 現象提高性能的有ContourNet 網絡[34],利用Adaptive-RPN 模塊來提升建議質量,并且在分割階段利用再評分機制來抑制FP,降低最終檢測結果中出現的誤檢率。該方法在對比實驗中并沒有和SPCNet 這類基于Mask R-CNN的Two-stage 方法進行比較,但是在抑制假陽性階段會產生較大計算量,影響訓練速度。
多分支處理能獲得較好的檢測結果。文獻[35]提出基于Faster R-CNN 模型的改進深度場景文本檢測(DSTD)模型。該模型使用雙分支對文本進行檢測:第一分支是對文本進行像素分割預測,即區分自然場景圖像中的文本像素與非文本像素,并且使用組件模塊將文本像素點連接生成候選框;第二分支對字符候選框進行檢測,輸出一組用于候選的字符。最終兩個分支所獲得的輸出結果進行融合,通過保留字符區域的候選框得到最終的檢測結果。但是,DSTD網絡使用雙分支結構導致網絡結構復雜,訓練成本較高。文獻[36]提出多方向場景文本(MOST)網絡。該網絡主要由文本/非文本分類分支、定位分支、位置敏感圖預測分支構成。文本/非文本分類分支以像素級的方式區分文本和非文本區域。定位分支首先構建粗略的文本建議框,隨后文本建議框經過文本特征對齊與文本/非文本分類分支生成的特征圖進行融合,對粗略文本建議框進行細化。位置敏感圖預測分支主要用于生成四通道的位置敏感圖,并且將其與細化后文本建議框輸入位置感知非極大值抑制(PANMS)模塊,以融合所有網絡預測得到的正檢測框,最終得到文本實例區域。與標準NMS 相比,PANMS 能夠花費更少的時間,產生更多的準確結果,但由于三分支并行處理,因此計算量較大。
文獻[37]提出基于動態卷積的文本檢測器(Dtext),該方法采用全卷積單階段(FCOS)策略,可以動態地從多個特征中為每個文本實例生成獨立的文本實例感知卷積參數,克服了固定卷積核集不能適應所有分辨率的問題,同時防止了由于實例的多尺度而導致的信息丟失,但是對于銳化字體和實例中的形狀處理效果并不好。
基于檢測框和分割的混合文本檢測方法的機制、適用場景、優勢和局限性如表5 所示,實驗條件和檢測結果對比如表6 所示。

表5 基于檢測框和分割的混合文本檢測方法的機制、適用場景、優勢和局限性Table 5 Mechanisms,applicable scenarios,advantages,and limitations of hybrid text detection methods based on detection boxes and segmentation

表6 基于檢測框和分割的混合文本檢測方法的仿真實驗結果Table 6 Simulation experimental results of hybrid text detection methods based on detection boxes and segmentation
現有字符級別的用于文本檢測的樣本庫較少,且人工標注成本高,而基于深度學習的文本檢測方法的性能在一定程度上取決于訓練樣本集的規模。針對目前字符級注釋的文本數據集少的問題,文獻[38]提出一種弱監督的訓練框架(WordSup),構建字符檢測器獲得字符對應的輸出坐標,利用文本結構分析部分獲得詞坐標,在弱監督訓練模塊中利用字符檢測模型自動依據詞坐標生成字符中心點掩碼以更新詞模型,但是WordSup 文本表示框是在矩形錨中形成的,容易受到攝像機視角變化引起的角色透視變形的影響,此外,還受主干結構的性能限制,即受錨數量和大小的限制。文獻[39]提出一種基于弱監督框架的字符區域注意力文本(CRAFT)檢測方法。該方法基于圖形分割思想,但是與圖形分割不同的是不進行圖像的像素級分類,并且進行了回歸處理,而且該方法基于字符區域得分和字符親和力得分將字符連接成文本,其中,字符區域得分表示該像素是字符中心點的概率,字符親和力得分表示該像素點是相鄰字符中間空白區域中心的概率,根據這兩個得分圖將字符連接成文本,但是CRAFT 使用字符級邊框生成字符區域得分和字符親和力得分作為標簽,對單詞重疊區域檢測能力較差。
文獻[40]提出用于任意形狀文本檢測的自適應邊界建議網絡(TextBPN),可以對任意形狀文本區域生成標準的邊界而且不需進行后處理操作。該網絡采用多層空洞卷積構建分類圖、距離場、方向場和粗略的邊界建議,并且由圖卷積網絡和循環神經網絡構成編碼-解碼器,通過迭代方式使邊界框逐漸貼合文本區域。然而,TextBPN 模型較為復雜,雖然去除了后處理操作,但是訓練參數多,訓練時間長。
一般的文本檢測方法是基于像素級或者文本組件的方法,而以上方法會對噪聲較為敏感,且依賴于復雜的后處理機制。對此,文獻[41]提出漸進輪廓回歸(PCR)網絡,該網絡首先構建水平文本候選框,在水平框上均勻選擇N個點并將這N個點的位置和語義信息進行聚合產生旋轉文本框,在旋轉文本框上均勻選擇N個點并逐漸將文本邊界框回歸為任意形狀,實驗結果表明該網絡對任意形狀文本的檢測效率較高,但是最終檢測結果受選擇點數的影響較大。
針對多尺度文本檢測問題,文獻[42]提出門控多尺度輸入特征(GMIF)融合方法,該方法從縮小的輸入圖像中以全局文本特征生成模塊(GTFGB)生成局部特征,通過多路徑模塊(MPB)增加骨干網絡感受野,隨后通過門控循環單元將這些低分辨率局部特征轉換為高分辨率的全局特征,能夠檢測所有較小文本實例的淺層骨干網架構,減輕了為文本實例選擇最佳Mask 所需的后處理負擔,但是后處理開銷較大。
針對文本特征不清晰問題,文獻[43]提出多尺度殘差正交通道注意力網絡(MS-ROCANet),該方法首先使用細節感知特征金字塔模塊(DAFM)捕獲更詳細的信息,然后使用殘差正交注意力模塊(ROAM)和殘差信道注意力模塊(RCAB)組成的共享復合關注頭(SCAH)在多尺度層次上增強文本特征區域,最后使用關鍵的全局上下文提取模塊(GCM)捕獲全局上下文信息,在得到分類圖后使用NMS 得到最終檢測文本框,由于模塊較多,因此訓練時間較長。
其他文本檢測方法的機制、適用場景、優勢和局限性如表7 所示,實驗條件和檢測結果對比如表8所示。

表7 其他文本檢測方法的機制、適用場景、優勢和局限性Table 7 Mechanisms,applicable scenarios,advantages,and limitations of other text detection methods

表8 其他文本檢測方法的仿真實驗結果Table 8 Simulation ecperimental results of other text detection methods
1.5.1 實用性分析
基于檢測框的文本檢測方法通常首先生成多個候選框,通過對候選框打分得到包含整個文本區域的候選框;然后通過邊框回歸方法,校正候選框使其擬合文本實例區域,但是使用該方法后候選框尺寸很難完全接近彎曲文本,導致多數目標檢測算法在處理不規則文本時難以得到較好的效果,其中,基于文本組件建議的文本檢測方法將檢測文本區域劃分為若干連續的文本組件,每個組件為文本區域的一部分,使用區域建議網絡檢測文本組件區域;最后將文本組件連接為文本檢測區域,達到檢測文本的目的。
基于檢測框的文本檢測方法在訓練過程中對于候選框的預處理會導致檢測速度較慢,為了使候選框能夠更加貼合文本區域,基于分割的自然場景文本檢測方法通過語義分割算法,采用深度卷積網絡進行特征提取,通過雙線性插值上采樣方式融合語義特征,通過特定的后處理算法預測自然場景圖像中每個像素是否為文本區域。由于獲得了像素級別的標簽預測,因此該類方法對任意形狀文本檢測表現出良好的魯棒性,成了文本檢測的主流方法。此外,該類方法的性能高度依賴于主干網絡的特征處理方式,且通常需要復雜的后處理方法以增強像素點之間的關聯性。大部分基于分割的方法對于文字重疊部分檢測效果較差。
基于檢測框和分割的混合文本檢測方法結合了檢測框和分割技術,旨在兼顧準確性和魯棒性。該類方法的主要思想是使用檢測框來粗略地定位文本區域。首先生成多個候選框進行篩選和去重,保留可能包含文本的框;然后使用語義分割方法對候選框進行像素級分割,從而得到精細的文本邊界,將兩類方法融合得到的分割結果進行后處理;最后得到文本檢測區域。此類方法采用多分支結構,計算量較大,通常模型較為復雜。
其他文本檢測方法針對特定問題提出解決方案。例如:通過弱監督解決了字符級注釋的文本數據集少的問題;通過字符區域得分和字符親和力精細定位小文本;通過多層空洞卷積與圖卷積推理去除后處理過程;通過殘差正交注意力增強不清晰文本。這些方法針對特定數據集能夠取得很好的檢測結果,但是泛化能力較弱。
表9 總結了上述自然場景文本檢測方法的特性差異及適用場景。

表9 文本檢測方法的特性差異及適用場景Table 9 Differences in characteristics and applicable scenarios of text detection methods
1.5.2 輕量化分析
基于檢測框的文本檢測方法通常使用簡單而緊湊 的主干 網絡結 構,例 如MobileNet[44]、EfficientNet[45]等,降低網絡的復雜性和參數量,同時共享卷積特征,減少計算開銷。但是,這類輕量化措施過于簡易,僅能略微減少推理時間。
基于分割的文本檢測方法輕量化效果較好。為了降低計算復雜度和內存消耗,基于分割的方法通常采用較小的感受野減少每個像素的計算量。后處理的輕量化策略對提高運行速度效果顯著。例如:NMS 只對一組檢測框排序和遍歷,極大降低了計算復雜度;DB 將二值化過程納入可訓練的分割網絡,有效提升推理速度。
基于檢測框和分割的混合文本檢測方法和其他文本檢測方法實現輕量化的方式多樣。例如:CRAFT 基于密集預測的Anchor-Free 檢測方法,使用通道剪枝和結構剪枝的組合策略,以減少網絡的參數和計算量;WordSup 引入字級別監督減少標注成本和模型復雜度,采用弱監督訓練策略減少了模型訓練的計算負擔和時間成本;文獻[46]通過知識蒸餾,最小化教師網絡和學生網絡的預測結果之間的差異,使學生網絡學習到更豐富的信息,提高檢測性能。
目前,常用的文本檢測數據集有很多,其中文檔分析與識別國際會議(ICDAR)比賽中使用的數據集較為典型。文本檢測數據集隨著文本檢測要求的發展而發展,一開始線性文本數據集較多,后來漸漸出現了彎曲的文本數據集,目前出現了失真的文本數據集,即測試網絡模型基于弱監督情況下的性能。本文整理了實驗中常用的自然場景文本檢測數據集,如表10 所示。

表10 常用的自然場景文本檢測數據集Table 10 Common datasets for natural scene text detection
目前,關于文本檢測性能評價指標主要有準確率(P)、召回率(R)和F1 值(F1)。在通常情況下,召回率是指所有實際為正例的樣本中被正確地預測為正例的樣本數所占的比例,計算公式如式(1)所示。準確率是指預測為正例的樣本中實際為正例的樣本數所占的比例,計算公式如式(2)所示。F1 值是基于準確率和召回率的調和均值,計算公式如式(3)所示。
其中:NTruePositives表示被正確地預測為正例的樣本數量;NGroundTruth表示數據集中實際為正例的樣本數量;NRetrievedItems表示數據集中檢索到的與NTruePositives相關的樣本數量。
目前,自然場景文本檢測研究雖然取得了一定的進展,但是仍有一些問題需要解決和思考:
1)在自然場景圖像文本分割時,因自然場景圖像分辨率較高,在進行卷積時參數量和計算量較大,而且卷積核的感受野有限,很難捕捉到更多的上下文信息。針對上述問題,目前主流的解決方法是空洞卷積與注意力機制相結合的方法,其中,使用空洞卷積來加大感受野[58],使用注意力機制來構建時間、空間或時空兩個維度的關系,快速捕獲長距離依賴,從而獲得更大的感受野。代表性的注意力機制有壓縮和激 勵網絡(SENet)[59]、卷積塊 注意力模塊(CBAM)[60]、選擇性內核網絡(SKNet)[61]、高效通道注意力網絡(ECA-Net)[62]等。谷歌在2017 年提出基于自注意力機制的模型(Transformer)[63],通過直接獲取全局信息來避免感受野受限問題。目前,很多基于CNN 的文本檢測任務將CNN 替換為Transformer 來提取圖形文字特征,效果均有所改善。例如,文獻[64]提出的用于語義分割的Transformer(SETR)網絡將語義分割看作是序列到序列的預測任務來提供代替視角,雖然SETR 是針對目標檢測提出的模型,但是也為自然場景文本檢測提供了可以借鑒的思路。目前,眾多的研究人員采用將注意力機制引入語義分割模型中增強語義信息的提取且得到了不錯的效果。因此,將注意力機制應用到基于分割的文本檢測領域有著廣闊的前景。
2)任意形狀文本檢測較為困難。針對上述問題,研究人員進行了很多嘗試,提出了TextBPN、DRRG 等模型。以上模型借鑒了基于圖像語義分割任務的圖模型(Graph-FCN)[65]。Graph-FCN 模型將圖卷積引入語義分割任務,將圖像語義分割中的像素分類問題轉換為圖節點分類問題,并且相關研究已證明通過圖卷積的關系推理可以更好地檢測任意形狀的文本實例。但是,如何通過圖片語義特征來構建節點圖關系輔助自然場景文本檢測任務仍是一個值得深入研究的課題。
3)字符級和像素級標注的公開數據集很少,且人工標記的方法耗時耗力。針對數據集規模較小的問題,通常使用數據增強的方法進行數據集擴容,但是會導致模型泛化能力較弱。弱監督學習和半監督學習在一定程度上解決了數據集少的問題。研究人員通過生成對抗網絡(GAN)[66]和去噪擴散概率模型(DDPM)[67]生成的偽標簽實現樣本的多樣性生成,以滿足基于深度學習的文本分割模型對數據集規模的需求。文獻[68-72]展示了近年來基于生成對抗網絡和去噪擴散概率模型應用到語義分割和目標檢測任務中所取得的成果。可見,已有越來越多的研究人員開始關注基于生成對抗網絡和去噪擴散概率模型的文本分割技術的研究。
4)在復雜自然場景下的文本檢測。由于公開數據集通常選擇拍攝角度較好的圖像,因此在此基礎上多數文本檢測模型都展現出良好的檢測性能,但是自然場景中往往存在許多干擾因素,例如強烈的光照、遮擋等,對這類復雜場景文本:基于檢測框的文本檢測模型多數預先設置候選框,文本表現形式受限,檢測時效果不佳;基于分割的文本檢測方法將文本區域視為像素級別的分割任務,能夠更準確地捕捉到文本的形狀和邊界。但是,由于復雜場景中文本的遮擋、重疊、模糊和小尺寸等情況,因此仍然存在誤分割和漏分割現象,基于檢測框和分割的混合文本檢測方法在復雜場景中文本分割邊界可能比較模糊或不規則,這會提高對邊界處理算法的要求。目前,較普遍的解決措施是在模型訓練階段穿插環境較為復雜的樣本,提高模型對復雜環境中文本檢測的能力。因此,后續可以采用數據增強等技術來擴充數據集,從而進一步增強模型對不同環境的適應能力。
自然場景文本檢測是計算機視覺領域的研究熱點,越來越多的研究人員在國際計算機視覺大會、歐洲計算機視覺國際會議、IEEE 國際計算機視覺與模式識別會議、國際文檔分析與識別國際會議等重要的國際性會議上展示了該領域最新的研究成果。本文對自然場景文本檢測的相關研究進行闡述,對自然場景文本檢測技術進行分類介紹和分析對比,歸納目前主流技術在主要公開數據集上的測試性能和實驗條件,并對文本檢測未來的發展趨勢進行分析展望,指出未來可引入更強大的特征表示、增強學習和領域自適應等方法,提高算法魯棒性和通用性。