于之靖 王嘉偉 鄭建文 陶永奎 諸葛晶昌
1(中國民航大學電子信息與自動化學院 天津 300300)2(中國民航大學航空工程學院 天津 300300)
近年來,旅客出行次數日益增多,民航業(yè)的發(fā)展較為迅速,這對民航安全問題帶來了新的挑戰(zhàn)。機場標記牌作為引導飛機起降滑行的信息指示牌,對于維持機場秩序、保障飛機起降安全具有重要意義。傳統(tǒng)檢查標記牌合格性的方法是人工巡檢,此方法不僅效率低而且會造成誤檢漏檢。而人工智能作為近年來國家大力發(fā)展的新興技術產業(yè)之一,已經在城市、醫(yī)療、交通、安全等多個領域產生了積極的影響。如何讓AI為民航賦能,建設安全、友好、高效的“智慧機場”還是一個亟待解決的問題。
自然場景下的文字是一種非常常見的視覺對象,在路標、牌照以及產品包裝等地方經常出現。正確識別自然場景下的文字不僅可以幫助人們更好地感知周圍環(huán)境,而且可以輔助人們在面對突發(fā)情況時做出正確的決策。
不同于發(fā)展較為成熟的OCR[1],自然場景下的文字檢測由于面對著光照、遮擋、傾斜等諸多因素的影響,算法的魯棒性還面臨著諸多的挑戰(zhàn)。 而近些年,基于深度學習的物體檢測算法發(fā)展較為迅速,現在的卷積神經網絡已經具有很好的表達能力,但網絡遷移泛化能力不強。對于在訓練中出現過的樣本,網絡可以較好地學習,但針對真實場景中未曾出現的樣本,網絡性能就會大幅下降。而真實場景下的文字通常會受光照、遮擋、角度的影響,如何處理訓練集和測試集之間數據分布的差異具有重要意義。
鑒于此,嘗試從模型結構角度出發(fā),通過引入域不變性的IN/BN,來讓網絡學習到更本質的特征,并對特征做更精細的定位,從而提升模型的性能。
文字檢測問題是物體檢測問題的一個重要分支,近些年很多研究人員提出的方法從物體檢測發(fā)展而來。針對于通用物體檢測,其檢測方法大致可以分為兩類:一種是多階段的檢測方法,如R-CNN[2-4]系列。R-CNN[2]把檢測問題當成分類問題來看待,先通過選擇性搜索算法得到大量的候選框,然后通過CNN提取每個候選框的特征,對于每個框的特征再用SVM進行分類。Fast RCNN[3]共享整個卷及網絡并通過ROI Pooling輸出特定維度特征。而Faster RCNN[4]提出了RPN網絡來代替選擇性搜索算法,從而極大地減少了測試時間。通常來說,這樣的多階段的檢測方法召回率更高、性能更好,但是參數量和計算量也更大。另一種是單階段的檢測方法,如YOLO[6]、SSD[5]等。最初的YOLO直接在整張圖像的不同地方上輸出回歸框來代替RPN,這極大地減少了測試時間。而SSD在不同尺度的特征上輸出不同長寬比的default box,這使得SSD在不增加測試時間的同時提升了模型性能。這樣的單階段的檢測方法速度更快、實時性更高,但是精度比多階段模型略差。特別是對于密集、尺度變化大的文字來說往往效果更加不好。
此外,PVANet[7]利用更好的基礎網絡結構提取到更加精細的特征,從而提升了模型性能。而DetNet[8]從網絡結構的角度出發(fā),通過設計一個更適合檢測任務的基礎網絡,提取到了更加合理的特征。
文字檢測算法主要分為經典算法和深度學習算法兩類。MSER[9](Maximally Stable Extremal Region)是區(qū)域檢測中影響最大的算法,該算法通過不斷調整二值化閾值檢測穩(wěn)定極值區(qū)域;SWT[10](Stroke Width Transform)利用Canny算子對圖像進行邊緣檢測,得到的每個文字邊緣像素點的梯度。如果兩個像素點梯度方向相反并且歐氏距離小于一定閾值則被認定為文字邊緣;Textbox++[11]改變了SSD的default box比例以及卷積核的尺寸,以提取更加合適的文字特征;STN[12](Spatial Transformer Networks)設計了一個空間變換模塊解決了扭曲文字定位與識別問題。
域不變性是指在某個場景下訓練得到的模型在不同場景下依舊具有良好的魯棒性。目前,針對文字檢測任務的研究較少,研究者們更多關注圖像分類任務。其算法主要分為三類:半監(jiān)督、遷移學習、GAN。Naoto Inoue等[13]提出了一種基于半監(jiān)督的域不變性算法,通過利用GAN生成的數據和偽標注數據做多次遷移學習,使得模型具有更好的域不變性;R Volpi等[14]以對抗學習的方式讓模型學習到更加魯棒的特征;C Barto等[15]通過遷移學習的方式探討了用虛擬數據訓練模型的可能性。
以上的這些方法更多地從優(yōu)化方法的角度提升模型的域不變性,卻較少關注模型結構本身。因此,針對跨模態(tài)標記牌文字檢測問題,研究嘗試設計具有域不變性的網絡結構和更優(yōu)質的卷積特征,在不增加計算量的前提下提升算法的魯棒性。
本文提出的模型是一個端對端可訓練的文字檢測器,通過重新調整DW卷積,為基礎結構引入域不變性的IN,讓網絡學習到域不變性的特征,從而提升基礎網絡的泛化能力。
整個文字檢測網絡如圖1所示。網絡結構由三個部分組成:基礎網絡IBDW,區(qū)域提出網絡RPN,Fast RCNN邊框回歸器。

圖1 網絡結構
Instance Normalization:該模塊最初應用于風格遷移,ulyanov等[16]提出用Instance Normalization(IN)替換Batch Normalization(BN),這樣在通過GAN進行風格遷移后時可以阻止實例特定的均值和協(xié)方差簡化學習的過程,最大程度保留每張圖片獨特的紋理細節(jié)。其中BN數學公式如下:
(1)
(2)
(3)
相較于BN,IN單獨計算每個樣本所有像素點的均值和方差,并做歸一化。其數學公式如下:
(4)
(5)
(6)
研究發(fā)現在神經網絡訓練優(yōu)化過程中,特別是訓練樣本類內距分布較大時,網絡總會隱式地學習一種風格遷移能力。如果從模型結構角度出發(fā),用IN替換掉部分BN,則可以直接賦予模型泛化能力,保留更多底層紋理細節(jié),提升模型在真實場景下的表現。
基礎網絡:研究提出的基礎結構IBDW如圖2所示。這樣的設計一方面為模型引入域不變性能力。另一方面,適度的增加IN可以更好地保存成分信息。通過引入IBDW模塊,讓網絡學習到更加本質特征,在不增加模型參數的前提下,提升模型性能。

圖2 IBDW模塊
區(qū)域提出網絡:區(qū)域提出網絡RPN在IBDW提取到的特征上為Fast RCNN生成文本建議框。本文設置不同大小、不同長寬比的先驗框。通過這樣的方式,RPN可以處理不同大小、不同長寬比的文字。ROI Align用來提取區(qū)域特征。相比于ROI Pooling,ROI Align可以得到更加精細的位置信息。
邊框回歸器:Fast R-CNN包括一個分類任務和一個回歸任務。這一部分的主要功能是為檢測提供更精確的回歸框。RPN網絡輸出的文本建議框經過ROI Align得到7×7的特征圖,該特征圖作為輸入經過Fast R-CNN最終得到精細的回歸框。
為了說明IN模塊如何提升模型泛化能力,這里通過計算不同域特征不同通道的特征分布進行分析。假設特征單通道服從高斯分布,均值為μ,方差為σ2,則不同域A、B間單通道的KL散度為:
D(FA‖FB)=KL(FA‖FB)-KL(FB‖FA)
(7)
(8)
若D(FiA‖FiB)表示第i通道的KL散度,則每層神經網絡的平均KL散度表示為:
(9)
式中:C是該層的通道數。式(9)提供了不同域之間特征分布的距離度量方法。
由于MNIST和SVHN數據集均是由不同分布的數字構成,因此研究采用SVHN-MNIST構建不同域特征。研究分別抽取兩個數據集部分相同字符,然后統(tǒng)計了11個ReLU層的特征散度。統(tǒng)計結果如圖3所示。

圖3 特征分布
從圖3可以看出,在IN-MobileNet中由外觀差異引起的特征散度明顯減少,這種現象一直持續(xù)到未添加IN的深層。這也說明在深層特征中外觀差異對特征提取的影響較小。
在這一部分,實驗在公開數據集上對比了不同方法的實驗性能,并用標準的評價指標進行評測。
為了驗證算法在不同場景下的魯棒性,實驗分別在ICDAR2013數據集和ICDAR2015數據集的訓練集和測試集上做模型訓練和性能測試,對比模型在不同數據集上的性能表現,從而驗證提出的IN模塊在數據分布不一致時對于模型性能的影響。另外實驗通過CCD相機采集了100張助航燈光標記牌圖像,以觀察模型在目標場景下的表現。
研究采用了標準的文字檢測評價標準:準確率(P),召回率(R)和F值(F)。它們的數學表達如下:
(10)
(11)
(12)
式中:TP代表真正率,FP代表假正率,FN代表假負率。對于文字檢測,如果檢測框與ground truth交并比大于閾值(一般設置0.5)并且得分也大于相應閾值則被視為正例。F值是準確率和召回率的調和平均值。
為了加速網絡收斂,實驗預先在SynthText預訓練并在真實數據集上做遷移學習。優(yōu)化方法采用隨機梯度下降,動量設置為0.9,Batch Size為16。訓練前重新調整圖像大小,設置最長邊800,長寬比與原圖保持一致,并在調整后的圖像上做了隨機裁剪(裁剪比率0.7~1.0)和隨機偏轉(-15°~15°)。在預訓練階段,采用10-3學習率訓練迭代10萬次,然后分別用10-4和10-5的學習率訓練迭代5萬次。
為了驗證IN對于不同基礎網絡不產生模型偏好,實驗一將IN引入不同模型,并在ICDAR2013數據集上訓練、測試,實驗結果見表1。

表1 IN在不同基礎網絡的性能對比
為了研究IN對于模型泛化性能影響,實驗二、三分別在ICDAR2013和ICDAR2015數據集上訓練和測試,實驗結果見表2、表3。

表2 IN在ICDAR2013數據集訓練,ICDAR2013和2015測試集測試的性能對比

表3 IN在ICDAR2015數據集訓練,ICDAR2013和2015測試集測試的性能對比
在目標場景下可視化效果如圖4所示。

(a) 添加IN檢測效果

(b) 未添加IN檢測效果圖4 可視化效果圖
實驗結果表明,針對于不同場景、不同時刻、不同光照強度的測試環(huán)境,重新設計的網絡結構可以有效得使得模型更關注于目標本身,降低由外觀差異而引起的特征散度,提升模型在不同測試環(huán)境下的魯棒性和泛化能力。與其他方法不同,研究通過重新設計網絡結構直接賦予網絡域不變性的能力,使得模型可以在較強的外界干擾條件下學習到更加魯棒的特征,從而提升算法性能。
研究提出了一個具有域不變性的文字檢測模型,通過引入IN使得模型可以提取到更魯棒的特征。實驗結果表明,重新設計的網絡結構降低了由外界干擾引起的特征散度,提升了算法在不同域間的泛化能力,針對于不同場景下標記牌文字表現出更穩(wěn)定的檢測性能,為機場秩序維護、飛機起降安全等提供了保障。但同樣需要注意的是,提出的結構只能在一定程度減弱數據分布差異帶來的影響。如何讓網絡在提取到更魯棒特征的同時讓特征分布更貼近于目標場景、在有限的數據集上提升模型的泛化能力是下一步的工作重點。