999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進PSENet的自然場景文本檢測方法

2022-06-21 19:15:59彭棟,支世堯,李盛達,楊鵬
計算機時代 2022年6期

彭棟,支世堯,李盛達,楊鵬

摘? 要: 基于深度學習的檢測方法在文本形狀較規則的情況下,已經取得較好的檢測結果,但對于傾斜以及彎曲的文本行仍有改進空間。文章在漸進式尺度擴展網絡PSENet的基礎上,通過使用Res2Net模塊提取多尺度特征,并結合全局卷積網絡GCN進行特征融合,來對原有模型進行改進。根據在SCUT-CTW1500和Total-Text數據集的實驗結果對比,證明改進的算法有效可行。

關鍵詞: 文本檢測; 語義分割; 多尺度; 全局卷積

中圖分類號:TP389.1? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2022)06-89-04

Improved PSENet natural scene text detection method

Peng Dong, Zhi Shiyao, Li Shengda, Yang Peng

(School of Information Engineering,Nanjing Audit University, Nanjing, Jiangsu 211815, China)

Abstract: The detection method based on deep learning has achieved good results in the case of regular text shape, but there is still an improved space for tilting and curved text. Based on the progressive scale expansion network PSENet, the original model is improved by using the Res2Net module to extract multi-scale features and combined with the global convolution network GCN. According to the comparison of experimental results in SCUT-CTW1500 and Total-Text data sets, the effectiveness of the improved algorithm is proved.

Key words: text detection; semantic segmentation; multi-scale; global convolution

0 引言

近年來,隨著互聯網的發展和手機的普及,人們逐漸習慣于從生活場景中獲取圖片并進行分享。文字作為信息傳遞的重要載體,如何從自然場景的圖片中準確地提取出文字信息變得越來越重要。深度學習的興起,尤其是卷積神經網絡在計算機視覺領域的廣泛應用為自然場景下的文本識別帶來了發展契機。

對圖片中的文本進行識別前,需要預先進行文本檢測以提取出文本所在的區域。高性能的文本檢測系統可以極大地剔除干擾信息,為文本識別奠定良好的基礎[1]。目前,基于深度學習的文本檢測方法在文字行形狀較規則的場景中已經獲得較好的性能,但由于目標檢測網絡感受野的限制,以及文本目標表達方式的單一,對于文本形狀不規則的場景,檢測性能仍有提升的空間。

本文在PSENet[2]網絡的基礎上,結合Res2Net[3]模塊和GCN[4]網絡對其進行改進,并在標準文字數據集上進行實驗結果分析以驗證網絡的可行性。

1 文本檢測網絡PSENet

PSENet以殘差網絡(ResNet)和特征金字塔網絡(FPN)作為主干網絡,可將底層紋理信息與高層語義信息相結合[5-7]。其實現流程如下。

⑴ 提取ResNet50的第二、三、四以及五階段的特征圖,并通過FPN側向連接和自頂向下的結構,得到四個256通道的特征圖[P2],[P3],[P4],[P5]。

⑵ 將特征圖([P2],[P3],[P4],[P5])通過函數[C]進一步融合,得到1024通道的特征圖[F],融合公式為:

[F=CP2,P3,P4,P5]

[=P2||Up*2(P3)||Up*4(P4)||Up*8(P5)]? ⑴

其中,[Up*2]、[Up*4]、[Up*8]分別代表2倍、4倍、8倍方式的上采樣,[||]代表連接操作。

⑶ 特征圖[F]作為輸入,傳遞到3[×]3的卷積-BN-ReLU層中,得到256通道的特征圖;該特征圖再通過n個1[×]1的卷積層并上采樣處理后,利用sigmoid函數生成n個圖像分割的輸出結果:[S1]到[Sn]。

⑷ 每個[Si]是具有不同比例的分割掩碼,從具有最小比例的分割結果[S1]開始,通過漸進式尺度擴展算法,將文本實例的內核逐步擴充到[Sn]中的最大形狀;在多個內核擴展的過程中,如果出現像素沖突的問題,則根據先到先服務的原則對沖突像素進行分配。

PSENet是一種基于分割的文本檢測方法,通過對輸入圖像進行像素級別的檢測,可有效地處理傾斜或者彎曲文本的檢測問題,對于文本行距離較近的稠密場景也有較好的檢測性能。但該網絡模型仍存在小文本區域遺漏、類文字圖案誤判等問題,具有進一步優化的空間。

2 改進的PSENet

2.1 Res2Net模塊

Res2Net前向傳播的具體過程[8,9]如圖1所示。

⑴ 輸入特征圖經過n通道1[×]1的卷積層后,將其劃分為s個w通道且空間大小相同的子集,并用[xi]進行表示,其中,[i∈1,2,…,s],[ n=s×w]。

⑵ 考慮到減少參數與特征復用的因素,忽略[x1]的卷積層,其余的特征圖子集[xi]都有相對應的w通道3[×]3卷積層[Ki(?)]。令[Ki(?)]的輸出為[yi],將[xi]與[yi-1]相加后作為輸入,傳遞到[Ki(?)]中處理,即

[yi=xi? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?i=1Kixi? ? ? ? ? ? ? ? ? ? ? ? ? ? ?i=2Kixi+yi-1? ? ? ? ? ? ? ?2<i≤s]? ⑵

⑶ 經過層內分組與類殘差連接的處理后,[y1,y2,…,ys]中含有局部和全局信息,為了對不同尺度的信息進一步融合,將其并聯拼接后輸入到n通道1[×]1的卷積層。

Res2Net模塊所采取的分組-合并策略,通過調控特征圖被分成的組數s,在不顯著增加計算量與內存消耗的前提下,使得單個的殘差塊可以更高效地提取特征信息,在細粒度的級別上增強網絡的多尺度表達能力,獲取不同尺寸的感受野。

2.2 全局卷積網絡GCN

GCN模型在使用ResNet作為特征提取網絡、FCN作為語義分割框架的基礎上,通過添加GCN和BR模塊,可同時解決分割任務中的分類與定位問題。在圖2的GCN模塊中,并沒有直接使用更大的卷積核,而是結合Inception V3[10]的思想,將其替換為k×1+1×k和1×k+k×1的卷積組合。在減少卷積核參數的同時,通過調節k值來控制非對稱卷積核的大小,實現全局卷積。為了進一步優化物體邊界的定位,GCN網絡給出了圖3所示的BR模塊,通過殘差連接的形式,學習輸入與輸出間的誤差,并進行邊界修正。

GCN網絡在與ResNet各階段的特征圖形成遠程連接的同時,其內部的類殘差結構也形成較多的短程連接,極大地簡化了訓練學習的過程,增強了信息前后向傳播的能力。

2.3 改進的網絡模型

如圖4所示,本文在PSENet原有網絡模型的基礎上,進行改進以提高文本檢測性能。針對特征提取網絡,在ResNet50的網絡結構中集成Res2Net模塊,通過調整尺度維數s的取值,擴展多尺度特征表達潛力。同時,在特征融合網絡中,穿插GCN與BR模塊,在全卷積結構的基礎上盡可能地使用大卷積核,達到分類與定位問題的平衡點。對于各階段的特征圖,依次利用反卷積進行上采樣處理,用高分辨率的特征圖改善低分辨率的特征圖,得到精調特征圖F。最后結合漸進式尺度擴展算法,逐步生成文本檢測結果。

3 實驗與結果分析

3.1 實驗環境與評估指標

本文在配置NVIDIA GeForce GTX 1070顯卡的Ubuntu18.04.1系統下,選用PyTorch 1.2.0框架對模型進行實現。為評估改進后算法的效果,使用SCUT-CTW1500[11]和Total-Text[12]數據集進行訓練與測試。SCUT-CTW1500數據集包含1500張圖像,其中訓練圖像1000張,測試圖像500張。該數據集的圖像不僅類型多樣,而且文本形狀不規則,具有一定的挑戰性。其注釋文件中,在行級別基礎上,通過14個點所形成的封閉多邊形對文本進行標記。而Total-Text是當前檢測領域較為常用的彎曲文本行數據集,其訓練集含有1255張圖像,測試集含有300張圖像,并基于單詞級別進行標注。

為評判本文所改進模型的好壞,采取文字檢測任務中常用的精確率(Precision)、召回率(Recall)以及F1分數(F1-Score)作為評估指標[13]。令TP代表真陽例(True Positive,預測為正樣本的正樣本),FP代表假陽例(FalsePositive,預測為正樣本的負樣本),FN代表假陰例(FalseNegative,預測為負樣本的正樣本),則:

[Precision=TPTP+FP]? ⑶

[Recall=TPTP+FN]? ⑷

[F1Score=2*Precision*RecallPrecision+Recall]? ⑸

3.2 實驗結果分析

本文在實驗過程中,不使用額外數據集進行預訓練,并嚴格控制其他變量,均在ResNet50+FPN作為主干網絡的基礎上進行改進。訓練次數共計600次,初始學習率為0.01,并在次數迭代至200以及400次時,學習率動態地衰減,以使網絡更好地收斂到最優解。同時,為了加快收斂速度,用mini-batch梯度下降法,并將batch size統一設置為4。

在上述實驗環境下,針對SCUT-CTW1500和Total-Text數據集進行消融實驗,重新訓練模型,并在測試集上評估模型性能。將原始的PSENet以及其他文本檢測算法與本文改進后的模型效果進行比較,結果如下:

根據表1與表2中的實驗數據,本文模型在SCUT-CTW1500和Total-Text數據集上的各項評估指標相較于原PSENet網絡皆有所提升。為更直觀地體現模型的可行性,對測試圖像生成效果對比圖,具體如圖5所示。對于圖5中的小文本區域,由于Res2Net模塊可提取多尺度的特征,使小區域也可以單獨檢測。另外,在GCN網絡中邊界精修模塊的影響下,文本行粘結問題也得到一定的緩解。

4 總結

文字作為信息的重要載體,如何從圖片中準確地提取出文字信息是眾多科研學者重點關注的問題。而文本檢測作為文字識別技術的前提,高性能的檢測系統對識別效果起到促進作用。本文針對自然場景下的文本檢測問題,在PSENet網絡的基礎上,結合Res2Net模塊與GCN網絡對其進行優化,以進一步提高文本檢測能力。通過在SCUT-CTW1500和Total-Text數據集上的訓練與測試,相較于原始的PSENet網絡,本文模型在性能上有所提升,具有一定的有效性。但實驗仍有優化的空間,后續可從優化損失函數以及簡化后處理操作等方面進行改進。

參考文獻(References):

[1] 梁柏榮.基于深度卷積神經網絡的不規則形狀文字行檢測方法研究[D].廈門大學,2019

[2] Wang W, Xie E, Li X, et al. Shape Robust Text Detection with Progressive Scale? Expansion Network[J]. arXiv preprint arXiv:1903.12473,2019

[3] Shang-Hua Gao, Ming-Ming Cheng, Kai Zhao, Xin-Yu Zhang,Ming-Hsuan Yang, Philip Torr. Res2Net:A New Multi-scaleBackbone Architecture.arXiv:1904.01169

[4] Peng, Chao, et al. Large kernel matters-improve semantic segmentation by global convolutional network. Computer Vision and Pattern Recognition (CVPR),2017.7:4353-4361

[5] 施漪涵,仝明磊.基于PSENet的自然場景文字檢測網絡改進[J].上海電力大學學報,2021,37(1):73-77

[6] 趙龍,李飛,王偉峰.基于PSENet和CRNN的身份證識別[J].現代計算機,2020(34):78-82

[7] 王光軍.基于神經網絡的自然場景中的字符識別算法的研究與實現[D].電子科技大學,2020

[8] 張芮.基于Res2Net的多任務網絡及應用注意力機制的自動作曲[D].吉林大學,2020

[9] 劉一群.基于Res2Net的重識別方法[D].吉林大學,2020

[10] Christian Szegedy et al. Rethinking the Inception Architecture for Computer Vision[J]. CoRR, 2015, abs/1512.00567

[11] Yuliang L, Lianwen J, Shuaitao Z, et al. Detecting curve text in the wild: New dataset and new solution[J]. arXiv preprint arXiv:1712.02170,2017

[12] Ch'ng C K, Chan C S. Total-Text: A comprehensive dataset for scene text detection and recognition[C]. In:201714th IAPR International Conference on Document Analysis and Recognition,2017.1:935-942

[13] 付明輝.基于深度學習的自然場景文字檢測算法研究[D].北方工業大學,2021

主站蜘蛛池模板: 亚洲天堂777| 国产欧美精品午夜在线播放| 91成人在线免费观看| 99热国产在线精品99| 国产精品手机在线观看你懂的 | 日韩A级毛片一区二区三区| 无码精油按摩潮喷在线播放| 日本国产精品一区久久久| 国产欧美视频综合二区| 亚洲AV无码久久精品色欲| 中文字幕 91| 欧洲精品视频在线观看| 久久中文字幕av不卡一区二区| 免费观看成人久久网免费观看| 五月婷婷丁香综合| 国产乱人伦AV在线A| 国产高颜值露脸在线观看| 欧洲日本亚洲中文字幕| 国产欧美精品专区一区二区| 久久精品无码一区二区国产区| 亚国产欧美在线人成| 国产91高跟丝袜| 91网红精品在线观看| 无码精品国产dvd在线观看9久| 亚洲欧美在线精品一区二区| 在线看AV天堂| 香蕉久人久人青草青草| 69综合网| 女人18毛片久久| 国产一级在线观看www色| 91麻豆久久久| 99久久国产自偷自偷免费一区| 国产成人av一区二区三区| 拍国产真实乱人偷精品| 免费人欧美成又黄又爽的视频| 成年人免费国产视频| 日韩欧美中文字幕在线精品| 欧美国产日产一区二区| 91视频国产高清| 凹凸国产熟女精品视频| 色妞www精品视频一级下载| 99久久精品久久久久久婷婷| 99久久精品美女高潮喷水| 欧美区在线播放| 青青久视频| 中文字幕无码av专区久久| 国产精品免费电影| 欧美在线观看不卡| 一级毛片免费高清视频| 国产va欧美va在线观看| 在线看国产精品| 欧美日韩在线亚洲国产人| 日韩精品毛片| 欧美中文字幕在线播放| 天天做天天爱夜夜爽毛片毛片| 国产精品内射视频| 久草视频一区| 国产精品无码一二三视频| 国产激情无码一区二区APP| 欧美第一页在线| 亚洲全网成人资源在线观看| 91精品国产无线乱码在线| 亚洲精品第一页不卡| 蜜桃视频一区二区三区| 成人福利在线视频| 日本一本正道综合久久dvd| 亚洲一区毛片| 69av在线| 99久久人妻精品免费二区| 国产成人精品18| P尤物久久99国产综合精品| 国产亚洲视频播放9000| 婷婷激情亚洲| 亚洲一区二区成人| 都市激情亚洲综合久久| 国产亚洲第一页| 一区二区三区高清视频国产女人| 成人国产精品2021| 亚洲精品少妇熟女| 国产一区二区免费播放| 国产精品欧美日本韩免费一区二区三区不卡 | 精品国产91爱|