付明輝
(北方工業大學城市道路交通智能控制技術北京市重點實驗室,北京,100144)
圖1 為本文提出方法的總體框架.本文將主干網絡MobileNetV3 進行適當地修改,提高了網絡提取特征的能力。其次,采用更加高效的分割頭。分割頭主要包括殘差增強型的FPN 模塊和自適應特征融合模塊。如圖1 所示,對于FPN 結構來說,越深層的特征意味著更多的通道數,但是各層特征進行融合時都是自頂向下傳播,所以頂層特征為了勢必會減少更多的通道數,最高層的特征往往會丟失更多的信息,所以為了保留更多的上下文信息,在FPN 中加入殘差增強模塊,保留更多的深層特征.最后利用自適應特征融合模塊對各層特征進行自適應融合,得到最終的分割特征.利用特征F 對概率圖(P)和閾值圖(T)進行預測,根據可微二值化模塊(DB[3])將概率圖和閾值圖結合得到二值圖(B′),自適應預測每個位置的閾值。最后通過邊界框形成從近似二值圖中獲得文本的檢測框。

圖1 總體網絡結構圖
MobileNetV3 的主要組成模塊包括深度可分離卷積和SE 模塊,本文將MobileNetV3 里SE 模塊[4]替換為更加輕量級的SA 模塊。SE 模塊是一個通過壓縮和激發的方式尋找圖像通道之間的相互依賴關系,并自適應的重新校準通道特性響應,從而提高任務的準確率。但是對于自然場景文本檢測任務來說,輸入圖像的大小為640×640,很難用SE模塊估計通道特征響應,精度提高有限。同時帶來了巨大的參數量。
在FPN 結構中,M5 層屬于深層特征具有很多的通道信息,但是在自頂向下的融合過程中,由于減少了特征通道必然會導致上下文信息的丟失。圖像的上下文語義信息對于分割網絡有著至關重要的作用,殘差增強模塊(Residual Feature Augmentation),通過向原始分支注入不同的空間上下文信息,利用空間上下文信息減少M5 在向下傳播過程中通道的信息損失,提高金字塔的特征的性能。
本次實驗中,首先在尺度為S 的C5 上使用比率不變自適應池化,分別產生0.1×S、0.2×S、0.3×S 大小的上下文特征,然后通過1×1 卷積將三個尺度大小的特征圖的通道數變為256。最后通過雙線性插值上采樣成尺度S,如圖2(a)通過自適應空間融合ASFF 模塊自適應組合這些上下文信息。由ASFF 生成M6以后,M6 就具有多尺度的上下文信息,通過與M5 求和為特征金字塔注入多尺度上下文信息,自頂向下與底層特征相融合。

圖2
其網絡結構圖2 所示,ASFF 僅由兩個卷積層組成,參數量相對也比較少。采用數據驅動的方式對不同層次的特征進行融合,通過網絡學習空間過濾沖突信息的方法來抑制不一致性,可以提高特征尺度的不變性。在FPN 的殘差特征增強模塊中也用到了ASFF,其如下所示:

其中yi,j表示通道中輸出特征映射的第(i,j)個向量,是由網絡自適應學習的四個不同層次的特征映射到總的特征圖F 的空間重要性權重矩陣,并且有對不同層次的特征圖生成不同的空間權重圖,最后通過加權融合生成分割網絡用來預測閾值圖和概率圖的特征圖F。
根據分割網絡生成的概率圖P∈RH×W,其中H 和W 分別表示輸入圖像的高度和寬度,要將概率圖轉化為二值圖P∈RH×W,二值化函數是至關重要的,標準二值化函數如公式(2)所示,值為1 的像素被認為是有效的文本區域。

其中,t 為設定的閾值,(i,j)表示圖中的坐標點。
式(2)為標準二值化函數,是不可微的,所以不能隨著分割網絡而優化。為了解決二值化函數不可微的問題,本文使用公式(6)進行二值化:

其中B′是近似二值圖,T 是從網絡中學習的自適應閾值圖,K 是放大系數,在訓練過程中,K 的作用就是在反向傳播中放大傳播的梯度,這對于大多數的錯誤預測區域的改善是比較友好的,有利于產生更顯著的預測。本文設置K=50,該近似二值化函數與標準二值化函數相似,且具有可微性,可以在訓練期間隨分割網絡進行優化。可微二值化可以自適應設定閾值T,這樣的方法不僅能夠很好地區分前景和背景,而且可以分離出連接緊密的文本實例。
可微分的后處理方式,必須生成概率圖與閾值圖對應的標簽,輸入圖像內的文本區域可以看做一個多邊形,并用一組線段描述為:

其中,n為頂點個數,k為放大倍數,對于不同類型的文本圖像頂點個數會不一樣,彎曲文本的一般設置為16 個定點,其余為4 個定點。然后使用Vatti 裁剪算法,將G收縮偏移量D后變成Gs,偏移量D的計算方式如下:

其中,r為收縮系數.閾值圖標簽的生成過程與概率圖相似,將G擴展偏移量D后變成Gd,Gs與Gd之間的區域為文本區域的邊界,通過計算到G中最接近的線段的距離來生成閾值圖的標簽。
損失函數由概率圖的損失Ls、閾值圖的損失Lt以及二值圖的損失Lb三部分組成,具體如下所示:

根據對應損失的數量級,α和β分別設定為1 和10。
本文對概率圖損失函數和二值圖損失函數應用二元交叉熵損失(BCE)。并且為了克服正負樣本不平衡的問題,在BCE 中采用了hard negative mining 采樣方法。

其中Sl為采樣集,正負樣本的比例為1:3。
Lt為擴展多邊形Gd內側預測值與標簽值之間的L1距離之和,具體如下:

其中Rd為拓展多邊形Gd內像素的一組索引,y*是閾值圖的標簽。
本文采用Adam 優化器訓練模型,并采用余弦學習率衰減作為學習率調度,初始學習率為0.001,訓練批次大小為8。本文的文本檢測模型在Synth Text 數據集進行預訓練,然后在ICDAR2015 和Total-Text 數據集上進行微調。對訓練數據采用在(-10°,10°)范圍內隨機旋轉角度、隨機裁剪和翻轉的方式進行數據增強,所有的圖片都重新調整為640×640。實驗的設備使用兩臺GTX2080 在linux 系統下進行實驗。
本文在多方向文本數據集ICDAR2015 和曲線文本數據集Total-Text 上進行了測試,主要考慮3 個性能參數:準確率(P)、召回率(R)以及綜合評價指標(F),評估該模型的檢測性能。
ICDAR2015 數據集是一個包含多方向的文本數據集。從表1 可以看出,與速度最快的EAST 算發相比,本文提出的基于輕量級骨干網絡的檢測模型,在速度上比之快上大約4.5 倍,并且在性能上也比之高7.6%。雖然本文提出的方法不能達到最優的效果,但是在速度上有著其他算法難以企及的優勢。其原因在于引入了DB 模塊,將復雜的后處理加入到網絡的訓練過程中,降低了模型的開銷。

表1 ICDAR2015上的檢測結果
本文的檢測模型在Total-Text 模型上的表現也具有競爭力。在模型的檢測精度(P)上相比于PSENet 要高1.2%,最明顯的優勢還是速度比其它算法更快,比之快了15倍左右。

表2 Total-Text上的檢測結果
本文提出的基于輕量級網絡MobileNetV3 的文本檢測模型,模型中為了提高對模型對特征使用效率,在FPN 結構中加入殘差增強模塊和特征自適應模塊,并且引入能夠參與網絡訓練的可微二值化模塊。整個模型既保證了特征提取的質量,同時因為本身屬于輕量級網絡,在速度和精度方面達到了很好的平衡,殘差增強模塊中使用了特征增強模塊,且本身給模型的帶來的開銷幾乎為零,可微二值化模塊顯著的提高了文本檢測的性能。整個模型在數據集上的表現可以與其余的一些先進方法相媲美,但是自然文本檢測領域還有很多的挑戰,未來對于彎曲文本的檢測還需要想辦法提高。