燕 天
(1.軌道交通工程信息化國家重點實驗室(中鐵一院),陜西 西安 710043;2.中國鐵建BIM工程實驗室(中鐵一院),陜西 西安 710043)
對自然場景中具有不規則形狀、尺寸和排列方式的復雜文本進行檢測和識別,是實現機器人場景理解、自動駕駛、視覺翻譯等任務的基礎。近年來,國內外學者針對自然場景圖像中的文本檢測識別問題進行了深入研究。文獻[1]對自底向上和自頂向下的自然場景文本檢測方法,以及基于圖像分割和注意力機制的自然場景文本識別方法進行了分析和總結。文獻[2]利用傳統的方向梯度直方圖提取圖像特征,然后使用滑動窗口、隨機森林算法和預定義的詞典圖模型對矩形文本區域進行檢測識別,該方法實時性好,但沒有利用圖像的深層特征,因此魯棒性不足。文獻[3]基于Faster RCNN模型求出圖像中的所有文本區域,然后通過卷積循環神經網絡(convolutional recurrent neural network,CRNN)進行文本識別,該方法利用了圖像的深層特征,魯棒性較好,但只能對固定長度的水平文本區域進行檢測識別。文獻[4]基于語義分割、仿射變換和CRNN模型,提出了快速文本定位方法(fast oriented text spotting,FOTS),該方法可對自然場景中的傾斜文本區域進行檢測識別,但對長文本的識別準確率較低。文獻[5—7]基于實例分割思想,提出了基于掩碼的文本定位方法Mask TextSpotter,該方法可對自然場景圖像中任意形狀、長度的文本進行檢測識別,但結構復雜、實時性較差。本文針對基于CRNN或實例分割的自然場景文本檢測識別方法結構復雜、實時性差、魯棒性低的問題,提出基于改進Faster RCNN和高斯混合模型的自然場景文本快速檢測識別方法。
針對自然場景中傾斜文本的檢測識別問題,文獻[4]提出了基于語義分割、仿射變換和CRNN模型的FOTS方法。該方法首先通過全卷積網絡(fully connection network,FCN)對自然場景圖像進行語義分割,獲得每個文本區域的邊框和轉角,然后通過仿射變換將所有文本區域轉化為水平方向,最后使用CRNN模型進行時序連接分類,求出每個文本區域內的字符序列。該方法的流程如圖1所示。
針對任意形狀自然場景文本的檢測識別問題,文獻[5]提出了基于實例分割的Mask TextSpotter方法。該方法首先使用Fast RCNN模型求出所有文本區域的矩形外包圍框,完成對密集文本區域的劃分;然后在每個文本區域的矩形外包圍框內使用Mask RCNN模型進行文本的語義分割和單字符的實例分割,完成對任意形狀文本區域的檢測和識別。該方法的流程如圖2所示。

圖1 基于FOTS的自然場景文本檢測識別方法Fig.1 Natural scene text detection and recognition method based on FOTS

圖2 基于Mask TextSpotter的自然場景文本檢測識別方法Fig.2 Natural scene text detection and recognition method based on Mask TextSpotter
文獻[4]方法可對自然場景圖像中傾斜的文本區域進行檢測識別,但這種基于CRNN的方法在提取文本區域的序列特征時,無法保留遠距離的文本特征,因此對長文本的識別準確率較低。文獻[5]方法可以對自然場景圖像中任意形狀的文本進行檢測識別,該方法不需要提取文本區域的序列特征,因此對長文本的識別較為魯棒,但需要通過掩碼分支進行逐像素分類,導致結構復雜、實時性較差。綜上所述,如果能使用結構簡單的Faster RCNN模型,將文獻[5]方法的逐像素分類替換為單字符檢測識別,再通過單字符聚類生成候選的多邊形文本框,最后進行邊框篩選,就能快速實現對任意形狀文本區域的檢測識別。
本文提出了基于改進Faster RCNN和高斯混合模型的自然場景文本快速檢測識別方法。該方法首先使用改進的Faster RCNN模型求出圖像中所有單字符的邊框、類別、特征向量及文本區域數量,然后通過高斯混合模型對單字符進行聚類并構造出候選的多邊形文本框;最后根據重定義的置信度公式,使用非極大值抑制算法(none-maximum suppression,NMS)篩選出適當的文本區域邊框,并輸出邊框內的字符標簽序列,從而快速實現對任意形狀文本區域的檢測識別。該方法總體框架如圖3所示。

圖3 基于改進Faster RCNN和高斯混合模型的自然場景文本檢測識別方法Fig.3 Natural scene text detection and recognition method based on improved Faster RCNN and GMM
本文使用改進的Faster RCNN模型(如圖4所示)進行單字符檢測識別。其中支路1(實線)為Faster RCNN原有支路,用于求出所有單字符的矩形邊框和類別;支路2和支路3(虛線)為新增支路,支路2用于輸出統一維度的單字符特征向量,支路3用于輸出圖中文本區域的總數K。圖5顯示了通過改進的Faster RCNN模型輸出的單字符邊框、類別及文本區域數量。
基于改進Faster RCNN模型的單字符檢測識別流程如下:
1) 將包含背景、52種大小寫英文字母和10種阿拉伯數字的自然場景圖像(共63個類別標簽)輸入VGG-16網絡的特征提取模塊,獲得512通道的全局特征圖;
2) 在支路1,首先使用RPN模塊求出候選的單字符文本框,然后對每個候選的單字符文本框使用311個1×1×512的卷積核,分別生成63個分類通道和248個回歸通道的特征圖,最后使用ROI Align模塊將候選單字符特征圖的尺寸池化為7×7,并通過全連接網絡(FC)和NMS篩選算法,求出適當的單字符邊框及類別標簽;
3) 在支路2,首先根據感受野的對應關系,從全局特征圖中提取出所有單字符的512通道特征圖,再使用1個1×1×512的卷積核將所有單字符特征圖的通道數量調整為1,實現多通道特征融合,然后通過ROI Align模塊將每個單字符特征圖的尺寸池化為7×7,最后使用Reshape模塊將每個單字符特征圖轉化為49維的單字符特征向量;
4) 在支路3,首先使用1個1×1×512的卷積核將全局特征圖的通道數量調整為1,實現多通道特征融合,然后使用空間金字塔池化模塊(spatial pyramid pooling,SPP)將全局特征圖轉化為21維的全局特征向量,最后使用全連接網絡求出圖中文本區域的總數K。

圖4 改進的Faster RCNN模型Fig.4 Improved Faster RCNN model

圖5 單字符檢測識別結果Fig.5 Character detection and recognition result
本文使用高斯混合模型對單字符進行聚類。聚類樣本是改進的Faster RCNN模型輸出的所有單字符特征向量,類別總數為Faster RCNN模型輸出的文本區域數量K。高斯混合模型需要求解的參數包括:各文本區域的先驗概率πi、高斯分布均值μi和協方差矩陣Ci。

(1)
(2)
(3)
(4)

(5)
高斯混合聚類算法的流程:
1) 隨機初始化各文本區域的高斯分布均值及協方差矩陣,并將各文本區域的初始先驗概率設置為1/K;
2) 使用參數更新公式對各文本區域的參數進行迭代優化,若某次迭代后所有參數的變化率均小于1%,則停止迭代;
3) 根據最大后驗概率準則,確定每個樣本所屬的文本區域,完成對單字符的高斯混合聚類。
本文使用基于字符中心線的算法生成候選的多邊形文本框,算法流程:
1) 首先根據高斯混合聚類結果,使用各文本區域內所有單字符邊框的中心點擬合出該文本區域的單字符中心線函數,然后計算出每個單字符中心點的法線方向,并將法線長度設置為文本區域內單字符邊框對角線的平均長度;
2) 將單字符中心線兩端的法線沿中心線的切線方向,向外移動0.5個法線長度,然后連接所有法線端點,即可獲得多邊形文本框。
圖6(a)顯示了單字符邊框和單字符中心線,圖6(b)顯示了單字符中心線、單字符法線(箭線)及生成的候選多邊形文本框。

圖6 多邊形文本區域邊框生成過程Fig.6 Steps for generating polygon text bounding boxes
文本區域i重定義的置信度Ci公式為
(6)
式(6)中,Ii表示文本區域i的預測框與真值框的交并比,計算公式為
(7)
式(6)中的Pi表示文本區域i中所有單字符分類概率的乘積,計算公式為
Pi=ΠjP[i][j]。
(8)
(9)
3.1.2.Reconfiguration of dynamics model of manipulator
(10)
本文通過多任務損失函數進行端到端訓練,損失函數L的計算公式為
L=LRPN+α1LCLS+
α2LREG+α3LK+α4LLev,
(11)
式(11)中,LRPN、LCLS、LREG與原始的Faster RCNN模型相同,分別為RPN損失、單字符分類損失和單字符回歸損失;LK為預測的文本區域數量損失;LLev為預測的文本區域標簽序列與真值標簽序列的萊文斯坦距離損失;α1、α2、α3、α4為多任務損失函數的權重,本文均設定為1。
LK的計算公式為
LK=(K-KGT)2,
(12)
式(12)中,K為預測的文本區域數量,KGT為真實的文本區域數量。
LLev的計算公式為
(13)
為評估本文方法的性能,并與其他常用的自然場景文本圖像檢測識別方法進行對比,本文選擇了水平文本公共數據集ICDAR2013、傾斜文本公共數據集ICDAR2015和彎曲文本公共數據集Total-Text作為訓練集和測試集。
ICDAR2013數據集是2013年文檔分析與識別國際會議魯棒性閱讀挑戰賽中使用的數據集,該數據集標注了所有單字符和文本區域的標簽及矩形邊框,共包含229張訓練圖片和233張測試圖片,所有圖片中只包含水平文本。
ICDAR2015數據集是2015年文檔分析與識別國際會議魯棒性閱讀挑戰賽中使用的數據集,該數據集標注了文本區域的標簽及四邊形邊框,共包含1 000張訓練圖片和500張測試圖片,圖片中包含水平文本和傾斜文本。
Total-Text數據集是2017年文檔分析與識別國際會議提出的綜合場景數據集,該數據集標注了文本區域的標簽及多邊形邊框,共包含1 255張訓練圖片和300張測試圖片,圖片中包含水平文本、傾斜文本和彎曲文本。
在訓練階段,本文方法首先對ICDAR2015和Total-Text訓練集中的圖片進行了單字符標注,并剔除了非英文、非數字的圖片。然后使用ICDAR2013、ICDAR2015和Total-Text訓練集中的圖片,按mini-batch方式進行訓練,其中輸入圖片、RPN模塊、單字符檢測識別模塊的batch-size分別設置為256、256、512,RPN階段和單字符檢測識別階段的正負樣本比例均設置為1∶3。本文使用隨機梯度下降法(stochastic gradient descent,SGD)進行參數優化,動量設置為0.9,權重衰減設置為0.001,共進行3×104次迭代,初始學習率為0.01,在進行2×104次迭代后,學習率調整為0.001。本文采用的深度學習框架為PyTorch1,使用1個NVIDIA GeForce RTX 3080顯卡進行訓練和推理。
為表明本文方法在自然場景文本檢測識別任務中的魯棒性和實時性,在ICDAR2013、ICDAR2015和Total Text數據集上進行了對比實驗。表1展示了不同數據集中,各種文本檢測方法的查準率P、查全率R、查準率與查全率的調和平均值F以及平均幀速FPS。表2中FS、FW、FG、FFull、FNone分別代表使用ICDAR2013和ICDAR2015測試集提供的強詞典、弱詞典、通用詞典、Total Text測試詞典、無詞典輔助時,各種文字識別方法查準率和查全率的調和平均值及平均幀速FPS。

表1 各種文本檢測方法的對比實驗結果Tab.1 Contrast experimental results of various text detection methods

表2 各種文本識別方法的對比實驗結果Tab.2 Contrast experimental results of various text recognition methods
在ICDAR2013、ICDAR2015及Total Text數據集上的實驗結果表明:本文方法與最快的文本檢測方法相比速度提高了23%,與最快的文本識別方法相比速度提高了67%;在文本檢測任務中,本文方法可以取得最佳的查準率和F值,查全率與最佳方法相比只下降了約2%;而在文本識別任務中,本文方法可以取得最佳的F值。從而證明了本文方法在自然場景文本檢測識別任務中的魯棒性和實時性。
為表明先計算文本區域數量再進行聚類,以及重定義置信度公式的重要性,本文使用ICDAR2013、ICDAR2015和Total Text測試集中的圖片進行了文本識別消融實驗,結果如表3所示。其中FS、FW、FG、FFull、FNone的定義與表2相同。Ours(a)代表在單字符聚類前不計算文本區域數量,但使用重定義的置信度公式;Ours(b)代表在單字符聚類前先計算文本區域數量,但僅使用Faster RCNN原定義的置信度公式;Ours代表在單字符聚類前先計算文本區域數量,且使用重定義的置信度公式。

表3 消融實驗結果Tab.3 Ablation experimental results
實驗結果表明,在ICDAR2013數據集上,通過求解圖像中的文本區域數量能夠提高4.7%~9.1%的F值,使用重定義的置信度公式能夠提高3.1%~8.5%的F值;在ICDAR2015數據集上,通過求解圖像中的文本區域數量能夠提高6.1%~8.5%的F值,使用重定義的置信度公式能夠提高4.5%~5.4%的F值;在Total-Text數據集上,通過求解圖像中的文本區域數量能夠提高8.6%~11.1%的F值,使用重定義的置信度公式能夠提高4.2%~5.7%的F值。上述結果表明,聚類前先求解出文本區域數量并使用重定義的置信度公式,能夠顯著提高文本識別效果。
本文方法在ICDAR2013、ICDAR2015和Total Text數據集的部分實驗結果,分別如圖7—圖9所示。

圖7 ICDAR2013數據集實驗結果Fig.7 Experimentalresults on ICDAR2013 dataset

圖8 ICDAR2015數據集實驗結果Fig.8 Experimental results on ICDAR2015 dataset

圖9 Total Text數據集實驗結果Fig.9 Experimentalresults on Total-Text dataset
本文提出基于改進Faster RCNN和高斯混合模型的自然場景文本圖像快速檢測識別方法。該方法首先使用改進的Faster RCNN模型求出自然場景圖像中所有單字符的特征向量及文本區域數量,然后通過高斯混合模型生成候選的多邊形文本框,最后使用重定義的置信度公式和NMS算法篩選出適當的文本區域邊框并輸出邊框內的字符標簽序列。在公共數據集的實驗結果表明,本文方法通過先計算文本區域數量再聚類,并使用重定義的置信度計算公式,顯著提高了文本識別效果,與當前的常用方法相比,本文方法在自然場景文本檢測識別任務中具有更好的魯棒性和實時性。