基于質心感知的自然場景文字檢測技術

2022-04-25 07:33:28張高明

科技與創新 2022年8期

張高明

（上海電力大學電子與信息工程學院，上海 201306）

近年來，圖像文字檢測在自動駕駛、圖像分割[2]、商品識別等領域被廣泛應用，伴隨著大數據的支持及深度學習的發展，自然場景文字檢測引起了計算機視覺界的廣泛關注。文字檢測的任務是定位圖像中的文字區域，印刷文檔中的文字往往排列整齊、背景簡單，文字與非文字區域存在明顯差異。由于現實場景中圖像中的文本大多排列樣式多樣，且具有形狀不規則、背景干擾較大等特點，均使得在該場景中進行文字檢測面臨著巨大的挑戰。

隨著深度學習技術的興起和不斷發展，神經網絡也開始應用于自然場景文字檢測之中。若設計多個相關性較強的任務進行多任務學習[3]，如TextSnake[4]、PSENet[5]等，在主任務確定的條件下，在網絡結構中額外增加與主任務相關性較高的輔助任務，可顯著提高模型效果。

為此，本文提出在自然場景文字檢測網絡中增加質心預測分支，與網絡中文本分類分支結合，通過增大靠近文字實例中心處的分類概率值，減小遠離中心處的分類概率值，提升模型性能。

1 自然場景文字檢測網絡

1.1 場景文字質心預測

經實驗發現，即使用anchor free 方法可對多個不同尺寸特征圖進行預測，但效果仍不如anchor based方法，主要原因是神經網絡的分類任務只考慮當前位置屬于文字的概率，許多遠離目標質心位置處的文字分類概率較高，而受限于感受野的影響，距離文字中心較遠位置處得到的回歸結果往往準確度較低。因此若簡單將分類結果高于閾值區域對應的回歸結果保留，將可能導致在后續非極大值抑制過程中保留錯誤回歸結果，丟棄正確回歸結果，對模型準確率造成極大影響，如CTPN[6]、RRPN[7]等，因此，借鑒FCOS[8]的想法，本文在分類網絡中增設文字質心預測，判斷每個像素點屬于文字區域質心的概率。像素點越靠近文字區域的質心，則對應位置處的值越接近1，相反則越接近0。

與FCOS 通過邊框內每個位置與其對應xmin、xmax、ymin、ymax關系得到質心預測目標值不同，考慮到自然場景文字檢測任務的對象往往具有多種形式（水平、傾斜、彎曲），直接使用矩形邊框對中心的計算方法不能保證中心點始終在文字實例中心。為此，本文根據自然場景中的文字形式設置了新的質心預測目標值計算方法，如圖1 所示。

給定文字區域內某像素坐標（xi，yi），分別計算其與該文字實例x軸最值（xmin，yi）、（xmax，yi）的距離li、ri，和垂直方向與上下邊界（xi，）、（xi，）距離ti、bi，即可計算該位置質心得分wi，wi的計算方式如下：

wi的取值范圍為0～1，與文本分類相似，表示每個像素點位于質心的概率。在測試階段將分類與質心結果逐像素相乘，得到最終分類結果。

1.2 目標函數

模型輸出包含分類與回歸2 個部分。其中分類任務部分同時得到文本、非文本分類和質心、非質心分類2 個結果，考慮到樣本中正例遠小于負例，為應對類別不均衡的分類問題，2 個分類任務均采用Focal Loss[9]作為損失函數，定義如下：

回歸任務部分采用ⅠOU 損失作為損失函數，如圖2 所示，ⅠOU 損失定義如下：

圖2 ⅠOU 損失計算示意圖

式（1）中：Gi為實際文本位置；Pi為預測的文本位置。

因此，模型總的損失函數為L=Lcls1+Lcls2+Lreg。

1.3 評估指標

本文采用自然場景文字檢測問題中常用指標（精確率、召回率、F-score）對方法的有效性進行評估。

精確率表示預測為文字的區域內實際為文字區域的比例，召回率表示實際為文字的區域同時也被預測為文字區域的比例，公式如下：

式（2）（3）中：Gi為實際為文字的區域；Di為預測為文字的區域。

根據精確率與召回率反映檢測模型的綜合性能，F-score 的定義如下：

2 實驗結果分析

為驗證本文提出的質心預測分支網絡有效性，分別訓練無質心預測分支和包含質心預測分支的網絡，進行消融實驗。使用SynthText 對網絡進行預訓練，然后在TotalText 數據集中進行相同輪數的微調和推理，比較不同網絡效果。實驗使用的編程環境為Python3.6.4 和Pytorch 1.1.0，在Ubuntu16.04 操作系統中利用一張顯存為12 GB 的GTX TⅠTAN X 顯卡進行模型訓練和測試，CUDA 版本為11.0。

通過隨機旋轉（旋轉范圍為[-5°，＋5°]）、抖動（對圖像加入輕微噪聲）、翻轉（50%概率對圖像左右翻轉）對圖像進行數據增強，并將圖像分辨率修改為512×512。將常用的ResNet50-FPN 作為基礎網絡，設置batch 數量為12，每個文字實例的長邊使用K=10個插值進行表示，并采用帶動量的隨機梯度下降為優化器，動量為0.9。首先設置學習率為0.000 1，使用人工合成數據集SynthText 對網絡進行80 萬次預訓練，再將學習率修改為0.001，分別在TotalText 數據集中進行微調和測試[10]。測試結果如表1 所示。

表1 TotalText 數據集結果對比

本文方法在TotalText 數據集上進行測試，在其他條件保持一致的情況下，比較神經網絡包含和不包含質心預測分支時的效果情況。由表1 可知，網絡模型中增添質心預測分支后，模型效果得到了顯著提升，其中精確率的提升尤其明顯。

3 結論

本文提出一種質心檢測網絡分支，用于在自然場景文字檢測場景中提升模型效果。在FCOS 的質心計算基礎上，修改質心的計算方法，使其更適用于自然場景文字檢測問題，提高了模型的準確度。經過數據對比，本文提出的方法在TotalText 等包含任意形狀文字實例的數據集中均取得了較好的實驗效果，驗證了方法的可行性和有效性。