彭棟,支世堯,李盛達,楊鵬
摘? 要: 基于深度學習的檢測方法在文本形狀較規則的情況下,已經取得較好的檢測結果,但對于傾斜以及彎曲的文本行仍有改進空間。文章在漸進式尺度擴展網絡PSENet的基礎上,通過使用Res2Net模塊提取多尺度特征,并結合全局卷積網絡GCN進行特征融合,來對原有模型進行改進。根據在SCUT-CTW1500和Total-Text數據集的實驗結果對比,證明改進的算法有效可行。
關鍵詞: 文本檢測; 語義分割; 多尺度; 全局卷積
中圖分類號:TP389.1? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2022)06-89-04
Improved PSENet natural scene text detection method
Peng Dong, Zhi Shiyao, Li Shengda, Yang Peng
(School of Information Engineering,Nanjing Audit University, Nanjing, Jiangsu 211815, China)
Abstract: The detection method based on deep learning has achieved good results in the case of regular text shape, but there is still an improved space for tilting and curved text. Based on the progressive scale expansion network PSENet, the original model is improved by using the Res2Net module to extract multi-scale features and combined with the global convolution network GCN. According to the comparison of experimental results in SCUT-CTW1500 and Total-Text data sets, the effectiveness of the improved algorithm is proved.
Key words: text detection; semantic segmentation; multi-scale; global convolution
0 引言
近年來,隨著互聯網的發展和手機的普及,人們逐漸習慣于從生活場景中獲取圖片并進行分享。文字作為信息傳遞的重要載體,如何從自然場景的圖片中準確地提取出文字信息變得越來越重要。深度學習的興起,尤其是卷積神經網絡在計算機視覺領域的廣泛應用為自然場景下的文本識別帶來了發展契機。
對圖片中的文本進行識別前,需要預先進行文本檢測以提取出文本所在的區域。高性能的文本檢測系統可以極大地剔除干擾信息,為文本識別奠定良好的基礎[1]。目前,基于深度學習的文本檢測方法在文字行形狀較規則的場景中已經獲得較好的性能,但由于目標檢測網絡感受野的限制,以及文本目標表達方式的單一,對于文本形狀不規則的場景,檢測性能仍有提升的空間。
本文在PSENet[2]網絡的基礎上,結合Res2Net[3]模塊和GCN[4]網絡對其進行改進,并在標準文字數據集上進行實驗結果分析以驗證網絡的可行性。
1 文本檢測網絡PSENet
PSENet以殘差網絡(ResNet)和特征金字塔網絡(FPN)作為主干網絡,可將底層紋理信息與高層語義信息相結合[5-7]。其實現流程如下。
⑴ 提取ResNet50的第二、三、四以及五階段的特征圖,并通過FPN側向連接和自頂向下的結構,得到四個256通道的特征圖[P2],[P3],[P4],[P5]。
⑵ 將特征圖([P2],[P3],[P4],[P5])通過函數[C]進一步融合,得到1024通道的特征圖[F],融合公式為:
[F=CP2,P3,P4,P5]
[=P2||Up*2(P3)||Up*4(P4)||Up*8(P5)]? ⑴
其中,[Up*2]、[Up*4]、[Up*8]分別代表2倍、4倍、8倍方式的上采樣,[||]代表連接操作。
⑶ 特征圖[F]作為輸入,傳遞到3[×]3的卷積-BN-ReLU層中,得到256通道的特征圖;該特征圖再通過n個1[×]1的卷積層并上采樣處理后,利用sigmoid函數生成n個圖像分割的輸出結果:[S1]到[Sn]。
⑷ 每個[Si]是具有不同比例的分割掩碼,從具有最小比例的分割結果[S1]開始,通過漸進式尺度擴展算法,將文本實例的內核逐步擴充到[Sn]中的最大形狀;在多個內核擴展的過程中,如果出現像素沖突的問題,則根據先到先服務的原則對沖突像素進行分配。
PSENet是一種基于分割的文本檢測方法,通過對輸入圖像進行像素級別的檢測,可有效地處理傾斜或者彎曲文本的檢測問題,對于文本行距離較近的稠密場景也有較好的檢測性能。但該網絡模型仍存在小文本區域遺漏、類文字圖案誤判等問題,具有進一步優化的空間。
2 改進的PSENet
2.1 Res2Net模塊
Res2Net前向傳播的具體過程[8,9]如圖1所示。
⑴ 輸入特征圖經過n通道1[×]1的卷積層后,將其劃分為s個w通道且空間大小相同的子集,并用[xi]進行表示,其中,[i∈1,2,…,s],[ n=s×w]。
⑵ 考慮到減少參數與特征復用的因素,忽略[x1]的卷積層,其余的特征圖子集[xi]都有相對應的w通道3[×]3卷積層[Ki(?)]。令[Ki(?)]的輸出為[yi],將[xi]與[yi-1]相加后作為輸入,傳遞到[Ki(?)]中處理,即
[yi=xi? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?i=1Kixi? ? ? ? ? ? ? ? ? ? ? ? ? ? ?i=2Kixi+yi-1? ? ? ? ? ? ? ?2<i≤s]? ⑵
⑶ 經過層內分組與類殘差連接的處理后,[y1,y2,…,ys]中含有局部和全局信息,為了對不同尺度的信息進一步融合,將其并聯拼接后輸入到n通道1[×]1的卷積層。
Res2Net模塊所采取的分組-合并策略,通過調控特征圖被分成的組數s,在不顯著增加計算量與內存消耗的前提下,使得單個的殘差塊可以更高效地提取特征信息,在細粒度的級別上增強網絡的多尺度表達能力,獲取不同尺寸的感受野。
2.2 全局卷積網絡GCN
GCN模型在使用ResNet作為特征提取網絡、FCN作為語義分割框架的基礎上,通過添加GCN和BR模塊,可同時解決分割任務中的分類與定位問題。在圖2的GCN模塊中,并沒有直接使用更大的卷積核,而是結合Inception V3[10]的思想,將其替換為k×1+1×k和1×k+k×1的卷積組合。在減少卷積核參數的同時,通過調節k值來控制非對稱卷積核的大小,實現全局卷積。為了進一步優化物體邊界的定位,GCN網絡給出了圖3所示的BR模塊,通過殘差連接的形式,學習輸入與輸出間的誤差,并進行邊界修正。
GCN網絡在與ResNet各階段的特征圖形成遠程連接的同時,其內部的類殘差結構也形成較多的短程連接,極大地簡化了訓練學習的過程,增強了信息前后向傳播的能力。
2.3 改進的網絡模型
如圖4所示,本文在PSENet原有網絡模型的基礎上,進行改進以提高文本檢測性能。針對特征提取網絡,在ResNet50的網絡結構中集成Res2Net模塊,通過調整尺度維數s的取值,擴展多尺度特征表達潛力。同時,在特征融合網絡中,穿插GCN與BR模塊,在全卷積結構的基礎上盡可能地使用大卷積核,達到分類與定位問題的平衡點。對于各階段的特征圖,依次利用反卷積進行上采樣處理,用高分辨率的特征圖改善低分辨率的特征圖,得到精調特征圖F。最后結合漸進式尺度擴展算法,逐步生成文本檢測結果。
3 實驗與結果分析
3.1 實驗環境與評估指標
本文在配置NVIDIA GeForce GTX 1070顯卡的Ubuntu18.04.1系統下,選用PyTorch 1.2.0框架對模型進行實現。為評估改進后算法的效果,使用SCUT-CTW1500[11]和Total-Text[12]數據集進行訓練與測試。SCUT-CTW1500數據集包含1500張圖像,其中訓練圖像1000張,測試圖像500張。該數據集的圖像不僅類型多樣,而且文本形狀不規則,具有一定的挑戰性。其注釋文件中,在行級別基礎上,通過14個點所形成的封閉多邊形對文本進行標記。而Total-Text是當前檢測領域較為常用的彎曲文本行數據集,其訓練集含有1255張圖像,測試集含有300張圖像,并基于單詞級別進行標注。
為評判本文所改進模型的好壞,采取文字檢測任務中常用的精確率(Precision)、召回率(Recall)以及F1分數(F1-Score)作為評估指標[13]。令TP代表真陽例(True Positive,預測為正樣本的正樣本),FP代表假陽例(FalsePositive,預測為正樣本的負樣本),FN代表假陰例(FalseNegative,預測為負樣本的正樣本),則:
[Precision=TPTP+FP]? ⑶
[Recall=TPTP+FN]? ⑷
[F1Score=2*Precision*RecallPrecision+Recall]? ⑸
3.2 實驗結果分析
本文在實驗過程中,不使用額外數據集進行預訓練,并嚴格控制其他變量,均在ResNet50+FPN作為主干網絡的基礎上進行改進。訓練次數共計600次,初始學習率為0.01,并在次數迭代至200以及400次時,學習率動態地衰減,以使網絡更好地收斂到最優解。同時,為了加快收斂速度,用mini-batch梯度下降法,并將batch size統一設置為4。
在上述實驗環境下,針對SCUT-CTW1500和Total-Text數據集進行消融實驗,重新訓練模型,并在測試集上評估模型性能。將原始的PSENet以及其他文本檢測算法與本文改進后的模型效果進行比較,結果如下:
根據表1與表2中的實驗數據,本文模型在SCUT-CTW1500和Total-Text數據集上的各項評估指標相較于原PSENet網絡皆有所提升。為更直觀地體現模型的可行性,對測試圖像生成效果對比圖,具體如圖5所示。對于圖5中的小文本區域,由于Res2Net模塊可提取多尺度的特征,使小區域也可以單獨檢測。另外,在GCN網絡中邊界精修模塊的影響下,文本行粘結問題也得到一定的緩解。
4 總結
文字作為信息的重要載體,如何從圖片中準確地提取出文字信息是眾多科研學者重點關注的問題。而文本檢測作為文字識別技術的前提,高性能的檢測系統對識別效果起到促進作用。本文針對自然場景下的文本檢測問題,在PSENet網絡的基礎上,結合Res2Net模塊與GCN網絡對其進行優化,以進一步提高文本檢測能力。通過在SCUT-CTW1500和Total-Text數據集上的訓練與測試,相較于原始的PSENet網絡,本文模型在性能上有所提升,具有一定的有效性。但實驗仍有優化的空間,后續可從優化損失函數以及簡化后處理操作等方面進行改進。
參考文獻(References):
[1] 梁柏榮.基于深度卷積神經網絡的不規則形狀文字行檢測方法研究[D].廈門大學,2019
[2] Wang W, Xie E, Li X, et al. Shape Robust Text Detection with Progressive Scale? Expansion Network[J]. arXiv preprint arXiv:1903.12473,2019
[3] Shang-Hua Gao, Ming-Ming Cheng, Kai Zhao, Xin-Yu Zhang,Ming-Hsuan Yang, Philip Torr. Res2Net:A New Multi-scaleBackbone Architecture.arXiv:1904.01169
[4] Peng, Chao, et al. Large kernel matters-improve semantic segmentation by global convolutional network. Computer Vision and Pattern Recognition (CVPR),2017.7:4353-4361
[5] 施漪涵,仝明磊.基于PSENet的自然場景文字檢測網絡改進[J].上海電力大學學報,2021,37(1):73-77
[6] 趙龍,李飛,王偉峰.基于PSENet和CRNN的身份證識別[J].現代計算機,2020(34):78-82
[7] 王光軍.基于神經網絡的自然場景中的字符識別算法的研究與實現[D].電子科技大學,2020
[8] 張芮.基于Res2Net的多任務網絡及應用注意力機制的自動作曲[D].吉林大學,2020
[9] 劉一群.基于Res2Net的重識別方法[D].吉林大學,2020
[10] Christian Szegedy et al. Rethinking the Inception Architecture for Computer Vision[J]. CoRR, 2015, abs/1512.00567
[11] Yuliang L, Lianwen J, Shuaitao Z, et al. Detecting curve text in the wild: New dataset and new solution[J]. arXiv preprint arXiv:1712.02170,2017
[12] Ch'ng C K, Chan C S. Total-Text: A comprehensive dataset for scene text detection and recognition[C]. In:201714th IAPR International Conference on Document Analysis and Recognition,2017.1:935-942
[13] 付明輝.基于深度學習的自然場景文字檢測算法研究[D].北方工業大學,2021