郭 闖,邱曉暉
(南京郵電大學 通信與信息工程學院,江蘇 南京 210003)
自然場景中包含豐富的文本信息,這些信息在工業自動化、智能圖像檢索、機器人導航、無人汽車等眾多領域有著重要的意義,因而高效準確的文本檢測方法成為計算機視覺領域備受關注的研究內容。但是自然場景中的文本在尺度、方向、光照、字體、顏色等方面嚴重影響了文本檢測的準確率。所以自然場景文本檢測被認為是在文本分析領域中最有價值的挑戰之一,受到了廣泛的關注[1-3]。盡管前人在文本檢測和文本識別的工作中取得了不錯的進展,但是由于文本模式的差異和背景的高度復雜性,文本識別仍然是一個巨大的挑戰。
現在一般將場景文本閱讀分為文本檢測和文本識別兩部分,分別作為兩個獨立的任務進行研究處理[4-5]。在文本檢測中,通常使用卷積神經網絡從場景圖像中[6-8]提取特征,然后使用不同的解碼器對區域進行解碼[9]。文本檢測作為文本識別的前提,在整個文本信息提取和理解過程中起著重要的作用。文本檢測的核心是設計文本與背景的特征區分,傳統基于深度學習的算法大致分為三類,第一類是直接從訓練數據中學習有效的特征[10-12],第二類是根據像素連通域分類學習[13-14],第三類是特征融合進行學習[15-16]。雖然這些方法很優秀,但是在某些特定的場景下,對于感受野不都長的文本檢測,效果不是很好。為解決感受野不足的問題,文中選取目前檢測效果較為優秀的EAST算法作為基礎算法,改進網絡結構,增大感受野,從而改進文本檢測算法的性能。
EAST不同于傳統的文本檢測方法[10]和一些基于深度學習的文本檢測方法,它的貢獻在于提出了端到端的文本定位方法,消除了中間多個stage,直接預測文本行。EAST只有兩個階段。該算法使用全卷積網絡(FCN)模型[17]直接生成單詞或文本行級別預測,剔除冗余和慢速中間步驟。生成的文本預測(可以是旋轉的矩形或四邊形)被送到非最大抑制算法(NMS)[18]中以產生最終結果。根據標準基準的定性和定量實驗,與現有的方法相比,該算法顯著增強了性能,同時運行速度更快。
EAST網絡可以分解為三個部分(如圖1所示):特征提取、特征合并和輸出層。


圖1 算法流程
特征合并:
(1)
(2)

輸出層:包含若干個conv1×1操作,以將32個通道的特征圖投影到一個通道的分數特征圖Fs和一個多通道幾何特征圖Fg。
幾何形狀圖可以是RBOX或QUAD中的任意一種,如表1所示。

表1 輸出幾何設計
其中,RBOX的幾何形狀由4個通道的水平邊界框(AABB)R和一個通道的旋轉角度θ表示;AABB4個通道分別表示像素位置到矩形的頂部,右側,底部,左側邊界的4個距離;QUAD使用8個數字來表示從矩形的四個頂點到像素位置的坐標偏移,由于每個距離偏移量都包含兩個數字(Δxi;Δyi),因此幾何形狀輸出包含8個通道。損失函數公式為Loss:
L=Ls+Lgλg
(3)
其中,Ls和Lg分別表示該像素是否存在文字(score map)以及IoU和角度(genmetry map)的損失,λg表示兩個損失之間的重要性。原文的實驗中將λg設置為1。
目前的方法中,多數在訓練圖像通過均衡采樣和hard negative mining以解決目標的不均衡分布問題,這樣做可能會提高網絡性能。然而,使用這種技術不可避免地引入一個階段和更多參數來調整pipeline,這與EAST算法的設計初衷相矛盾。為了簡化訓練過程,文中使用類平衡交叉熵(用于解決類別不平衡,β=反例樣本數量/總樣本數量),公式如下:
(4)

(5)
Lg幾何圖損失又分為兩部分,一部分為IoU損失,一部分為旋轉角度損失:
(6)
(7)

Lg=LAABB+λθLθ
(8)
在卷積神經網絡中,感受野的定義是卷積神經網絡中的每一層輸出的特征圖上的像素點在輸出圖上映射的區域大小。EAST算法可以處理的文本實例的最大大小與網絡的感受野成正比。這限制了網絡預測長文本區域的能力,例如跨越圖像的文本行。文本具有很強的連續字符,其中連續的上下文信息對于做出可靠決策很重要。在CPTN算法中,把一個完整的文本框拆分成多個小文本框集合,通過BLSTM[19]對過去或未來的信息進行學習和預測。因為一個小文本框,對于它的預測,文中不僅與其左邊的小文本框有關系,而且還與其右邊的小文本框有關系。當參考這個框的左邊和右邊的小框的信息后,再做預測就會大大提高準確率。所以,可以根據CPTN[20]的思想,在EAST算法中加入BLSTM網絡,理論上可以擴大算法本身的感受野。
文中算法的主要步驟如下:
(1)在特征提取層抽出不同的特征。
(2)將抽出的特征層從后向前做上采樣,然后進行特征融合。
(3)在特征融合之后加入BLSTM網絡。
(4)將步驟(3)后的結果輸入到輸出層,最終輸出一個score map和8個坐標的信息。
使用resnet-50網絡模型作為預訓練模型,使用ADAM優化器對網絡進行端到端訓練。為了加快學習速度,從圖像中均勻采樣512×512大小的特征圖,經過旋轉、平移等處理后,以每個batch size等于16開始訓練。ADAM的學習率從1e-3開始,每10 000批次衰減十分之一,訓練次數到模型較優為止。
使用的數據集是ICDAR2013和ICDAR2015數據集,以ICDAR2015為例,它是ICDAR 2015魯棒性比賽的挑戰4,該挑戰通常面向自然場景的文本定位。該數據集包括1 000幅訓練圖片和500張測試圖片。這些圖片是不考慮位置任意拍攝的,其中的場景文本可以是任意方向的。它的檢測難點在于它的文字旋轉性。
將文中算法與其他算法在ICDAR2015數據集上進行比較,結果如表2所示。

表2 文中算法與其他算法的比較
從表2中可以看出,在準確率和召回率方面,相較于原論文的結果都有一定的提高。
該算法在EAST的基礎上引入了BLSTM網絡,改善了網絡感受野。和經典EAST算法相比,準確率和召回率均有提高,和其他優秀算法相比,綜合性能均有提高。