劉建云 李海山 李 恒
(武漢數字工程研究所 武漢 430000)
場景文本檢測在深度學習領域可被視為計算機視覺中物體檢測任務的特定物體檢測,也就是說將文本作為一種特定的物體來檢測?;谏疃葘W習的文本檢測方法按照網絡輸出的數據分為基于邊框回歸的方法和基于語義分割的方法?;谶吙蚧貧w的文本檢測方法,如 CTPN[1]、SegLink[2]等,其檢測效果嚴重依賴于錨框或者錨點的選擇,導致模型中超參數的數量增加,降低了模型的泛化能力。而 PSENet[3]、DBNet[4]等網絡采用語義分割的方法根據圖片生成二值圖,然后根據二值圖生成文本框,因而檢測結果更加魯棒。為了提高檢測算法對于自然場景圖像中任意形狀文本的魯棒性和檢測精度,本文提出了一個以ResNet[5]為基礎網絡,同時利用特征金字塔(Feature Pyramid Networks,FPN[6])進行特征融合,最后利用雙通道殘差網絡進行語義分割的檢測算法。該方法不僅保證了深度學習模型的精度和推理速度,同時通過語義分割網絡提高網絡模型的泛化能力。
本文提出的語義分割網絡如圖1所示,一共分為上下兩個通道,通道中的網絡進行殘差連接,故而命名為雙通道殘差。網絡的特征輸入為經過特征融合網絡得到的特征圖,輸出為通道數為1的概率圖,其表示的是每個像素點處于文本區域的概率。由于通道2的網絡層數小于通道1,因而通道2相當于是通道1殘差連接,加上圖1中的1、2、3這三個殘差連接,整個語義分割網絡中共有4個殘差連接。由于輸出概率圖的分辨率大于輸入特征圖,因此通道1和通道2進行的都是上采樣操作,本文采用反卷積[7]實現上采樣。通道1和通道2的最后一層都是對輸入圖像每個像素點的分類結果,這兩層進行逐像素相加后得到網絡的最后一層。
圖1 基于雙通道殘差的語義分割網絡
本文的文本檢測算法流程如圖2所示,從輸入圖片到輸出圖片一共經過;是個階段,其中前三階段為網絡處理部分,第四個階段為后處理部分,目的是從二值圖中生成文本區域。本文設計整個檢測網絡分為三個部分,分別為backbone、neck和head。backbone部分采用ResNet作為整個網絡的網絡骨架,用以提取圖像中的語義信息。neck部分采用FPN進行特征融合,特征融合之后對得到的特征圖進行concat操作,然后連接注意力層[8],使得分割結構更加魯棒。head部分采用2.1小節提出的雙通道殘差語義分割網絡,對輸入圖像中的每個像素點進行預測,輸出每個點處于文本區域的概率值。
圖2 算法流程
網絡的損失函數層一共有三個,分別是通道1最后輸出的概率圖1和通道2最后輸出的概率圖2,以及網絡最后輸出的概率圖3。其中,由于通道1的深度更深,所以得到特征圖的語義信息更強,因而使用交叉熵損失函數,以此來保證每個點分類的準確性,而通道2更短,因而使用IOU Loss來保證文本的召回率。最后概率圖3同樣使用IOU Loss,以此來提高整體網絡對于檢測結果召回率。
本文選擇的實驗數據集為ICDAR2015。該數據集一共包含1500張圖片,按照2:1的比例分為訓練集和測試集,每張圖片的大小都為1280×720像素。該數據集中的圖像都是通過可穿戴設備隨意采集的,圖像中的文本大小、文本行方向等都具有隨機性,這些因素增加了其文本檢測的難度。
實驗基于Pytorch,利用ICDAR2015開源數據集對本文提出的方法進行了性能評估。實驗中的硬件平臺配置如表1所示。
表1 實驗環境
在實驗中,我們將訓練的batch size設為6,初始學習率設為0.001,優化器選擇Adam,一共迭代1200個epoch。圖3為模型在測試集的準確率和召回率的變化曲線,圖中的橫坐標表示迭代次數,縱坐標為百分比,可以看到隨著迭代次數的增加,網絡的精度也在逐漸提升。當迭代次數過少時,深度學習模型的精度會比較差,反之,模型可能會出現過擬合,使得在訓練集的精度上升而測試集的準確率下降,因此,在我們的研究中每訓練完一個ep?och,就將此時得到的模型權重與之前迭代得到的最高精度的模型權重進行對比,如果此時的模型權重測試結果更優,則將權重保存下來,同時將其更新為當前的最優結果。最終,本文提出的場景文本檢測算法在ICDAR2015數據集中取得了88.99%的準確率和80.16%的召回率。圖4顯示了測試集中的部分檢測結果。
圖3 測試集準確率和召回率變化曲線
圖4 部分檢測結果
表2是目前主流的文本檢測方法與本文方法的對比結果,本文的baseline算法為DB-ResNet-18[8],它發表在AAAI2020,是當時場景文本檢測的最佳算法。本文的檢測網絡與DB-ResNet-18都是采用resnet18+特征金字塔的網絡結構進行特征提取和融合。本文所提出算法的準確率、召回率、F-mea?sure相比于DB-ResNet-18分別提升了2.19%、1.66%、2.05%,這表明本文所提出的基于雙通道殘差的語義分割網絡對于分割精度的提升是有效的。同時可以看到本文提出的方法相比于SegLink[2],PixelLink[9],EAST[10]等多方向文本檢測網絡有所提升,與FTSN[11]等目前檢測效果優異的網絡相比性能接近。
表2 ICDAR2015檢測結果對比
為了提高場景文本檢測的精度和模型的泛化能力,本文將基于雙通道殘差的語義分割網絡應用在場景文本檢測算法中。特別地,我們利用ResNet作為基礎網絡進行特征提取,同時利用FPN對提取的特征進行融合,最后送到語義分割網絡中。與基于邊框回歸的檢測算法相比,檢測網絡的泛化能力得到增強,同時提高了模型的推理速度。最終的實驗結果證明,本文提出的網絡是行之有效的。其在ICDAR2015的測試集的準確率達到88.99%,召回率達到80.16%。在未來,我們可以進一步優化分割網絡的結構以提高深度學習模型準確性。