999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進PSENet的自然場景文本檢測方法

2022-06-21 19:15:59彭棟,支世堯,李盛達,楊鵬
計算機時代 2022年6期

彭棟,支世堯,李盛達,楊鵬

摘? 要: 基于深度學習的檢測方法在文本形狀較規則的情況下,已經取得較好的檢測結果,但對于傾斜以及彎曲的文本行仍有改進空間。文章在漸進式尺度擴展網絡PSENet的基礎上,通過使用Res2Net模塊提取多尺度特征,并結合全局卷積網絡GCN進行特征融合,來對原有模型進行改進。根據在SCUT-CTW1500和Total-Text數據集的實驗結果對比,證明改進的算法有效可行。

關鍵詞: 文本檢測; 語義分割; 多尺度; 全局卷積

中圖分類號:TP389.1? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2022)06-89-04

Improved PSENet natural scene text detection method

Peng Dong, Zhi Shiyao, Li Shengda, Yang Peng

(School of Information Engineering,Nanjing Audit University, Nanjing, Jiangsu 211815, China)

Abstract: The detection method based on deep learning has achieved good results in the case of regular text shape, but there is still an improved space for tilting and curved text. Based on the progressive scale expansion network PSENet, the original model is improved by using the Res2Net module to extract multi-scale features and combined with the global convolution network GCN. According to the comparison of experimental results in SCUT-CTW1500 and Total-Text data sets, the effectiveness of the improved algorithm is proved.

Key words: text detection; semantic segmentation; multi-scale; global convolution

0 引言

近年來,隨著互聯網的發展和手機的普及,人們逐漸習慣于從生活場景中獲取圖片并進行分享。文字作為信息傳遞的重要載體,如何從自然場景的圖片中準確地提取出文字信息變得越來越重要。深度學習的興起,尤其是卷積神經網絡在計算機視覺領域的廣泛應用為自然場景下的文本識別帶來了發展契機。

對圖片中的文本進行識別前,需要預先進行文本檢測以提取出文本所在的區域。高性能的文本檢測系統可以極大地剔除干擾信息,為文本識別奠定良好的基礎[1]。目前,基于深度學習的文本檢測方法在文字行形狀較規則的場景中已經獲得較好的性能,但由于目標檢測網絡感受野的限制,以及文本目標表達方式的單一,對于文本形狀不規則的場景,檢測性能仍有提升的空間。

本文在PSENet[2]網絡的基礎上,結合Res2Net[3]模塊和GCN[4]網絡對其進行改進,并在標準文字數據集上進行實驗結果分析以驗證網絡的可行性。

1 文本檢測網絡PSENet

PSENet以殘差網絡(ResNet)和特征金字塔網絡(FPN)作為主干網絡,可將底層紋理信息與高層語義信息相結合[5-7]。其實現流程如下。

⑴ 提取ResNet50的第二、三、四以及五階段的特征圖,并通過FPN側向連接和自頂向下的結構,得到四個256通道的特征圖[P2],[P3],[P4],[P5]。

⑵ 將特征圖([P2],[P3],[P4],[P5])通過函數[C]進一步融合,得到1024通道的特征圖[F],融合公式為:

[F=CP2,P3,P4,P5]

[=P2||Up*2(P3)||Up*4(P4)||Up*8(P5)]? ⑴

其中,[Up*2]、[Up*4]、[Up*8]分別代表2倍、4倍、8倍方式的上采樣,[||]代表連接操作。

⑶ 特征圖[F]作為輸入,傳遞到3[×]3的卷積-BN-ReLU層中,得到256通道的特征圖;該特征圖再通過n個1[×]1的卷積層并上采樣處理后,利用sigmoid函數生成n個圖像分割的輸出結果:[S1]到[Sn]。

⑷ 每個[Si]是具有不同比例的分割掩碼,從具有最小比例的分割結果[S1]開始,通過漸進式尺度擴展算法,將文本實例的內核逐步擴充到[Sn]中的最大形狀;在多個內核擴展的過程中,如果出現像素沖突的問題,則根據先到先服務的原則對沖突像素進行分配。

PSENet是一種基于分割的文本檢測方法,通過對輸入圖像進行像素級別的檢測,可有效地處理傾斜或者彎曲文本的檢測問題,對于文本行距離較近的稠密場景也有較好的檢測性能。但該網絡模型仍存在小文本區域遺漏、類文字圖案誤判等問題,具有進一步優化的空間。

2 改進的PSENet

2.1 Res2Net模塊

Res2Net前向傳播的具體過程[8,9]如圖1所示。

⑴ 輸入特征圖經過n通道1[×]1的卷積層后,將其劃分為s個w通道且空間大小相同的子集,并用[xi]進行表示,其中,[i∈1,2,…,s],[ n=s×w]。

⑵ 考慮到減少參數與特征復用的因素,忽略[x1]的卷積層,其余的特征圖子集[xi]都有相對應的w通道3[×]3卷積層[Ki(?)]。令[Ki(?)]的輸出為[yi],將[xi]與[yi-1]相加后作為輸入,傳遞到[Ki(?)]中處理,即

[yi=xi? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?i=1Kixi? ? ? ? ? ? ? ? ? ? ? ? ? ? ?i=2Kixi+yi-1? ? ? ? ? ? ? ?2<i≤s]? ⑵

⑶ 經過層內分組與類殘差連接的處理后,[y1,y2,…,ys]中含有局部和全局信息,為了對不同尺度的信息進一步融合,將其并聯拼接后輸入到n通道1[×]1的卷積層。

Res2Net模塊所采取的分組-合并策略,通過調控特征圖被分成的組數s,在不顯著增加計算量與內存消耗的前提下,使得單個的殘差塊可以更高效地提取特征信息,在細粒度的級別上增強網絡的多尺度表達能力,獲取不同尺寸的感受野。

2.2 全局卷積網絡GCN

GCN模型在使用ResNet作為特征提取網絡、FCN作為語義分割框架的基礎上,通過添加GCN和BR模塊,可同時解決分割任務中的分類與定位問題。在圖2的GCN模塊中,并沒有直接使用更大的卷積核,而是結合Inception V3[10]的思想,將其替換為k×1+1×k和1×k+k×1的卷積組合。在減少卷積核參數的同時,通過調節k值來控制非對稱卷積核的大小,實現全局卷積。為了進一步優化物體邊界的定位,GCN網絡給出了圖3所示的BR模塊,通過殘差連接的形式,學習輸入與輸出間的誤差,并進行邊界修正。

GCN網絡在與ResNet各階段的特征圖形成遠程連接的同時,其內部的類殘差結構也形成較多的短程連接,極大地簡化了訓練學習的過程,增強了信息前后向傳播的能力。

2.3 改進的網絡模型

如圖4所示,本文在PSENet原有網絡模型的基礎上,進行改進以提高文本檢測性能。針對特征提取網絡,在ResNet50的網絡結構中集成Res2Net模塊,通過調整尺度維數s的取值,擴展多尺度特征表達潛力。同時,在特征融合網絡中,穿插GCN與BR模塊,在全卷積結構的基礎上盡可能地使用大卷積核,達到分類與定位問題的平衡點。對于各階段的特征圖,依次利用反卷積進行上采樣處理,用高分辨率的特征圖改善低分辨率的特征圖,得到精調特征圖F。最后結合漸進式尺度擴展算法,逐步生成文本檢測結果。

3 實驗與結果分析

3.1 實驗環境與評估指標

本文在配置NVIDIA GeForce GTX 1070顯卡的Ubuntu18.04.1系統下,選用PyTorch 1.2.0框架對模型進行實現。為評估改進后算法的效果,使用SCUT-CTW1500[11]和Total-Text[12]數據集進行訓練與測試。SCUT-CTW1500數據集包含1500張圖像,其中訓練圖像1000張,測試圖像500張。該數據集的圖像不僅類型多樣,而且文本形狀不規則,具有一定的挑戰性。其注釋文件中,在行級別基礎上,通過14個點所形成的封閉多邊形對文本進行標記。而Total-Text是當前檢測領域較為常用的彎曲文本行數據集,其訓練集含有1255張圖像,測試集含有300張圖像,并基于單詞級別進行標注。

為評判本文所改進模型的好壞,采取文字檢測任務中常用的精確率(Precision)、召回率(Recall)以及F1分數(F1-Score)作為評估指標[13]。令TP代表真陽例(True Positive,預測為正樣本的正樣本),FP代表假陽例(FalsePositive,預測為正樣本的負樣本),FN代表假陰例(FalseNegative,預測為負樣本的正樣本),則:

[Precision=TPTP+FP]? ⑶

[Recall=TPTP+FN]? ⑷

[F1Score=2*Precision*RecallPrecision+Recall]? ⑸

3.2 實驗結果分析

本文在實驗過程中,不使用額外數據集進行預訓練,并嚴格控制其他變量,均在ResNet50+FPN作為主干網絡的基礎上進行改進。訓練次數共計600次,初始學習率為0.01,并在次數迭代至200以及400次時,學習率動態地衰減,以使網絡更好地收斂到最優解。同時,為了加快收斂速度,用mini-batch梯度下降法,并將batch size統一設置為4。

在上述實驗環境下,針對SCUT-CTW1500和Total-Text數據集進行消融實驗,重新訓練模型,并在測試集上評估模型性能。將原始的PSENet以及其他文本檢測算法與本文改進后的模型效果進行比較,結果如下:

根據表1與表2中的實驗數據,本文模型在SCUT-CTW1500和Total-Text數據集上的各項評估指標相較于原PSENet網絡皆有所提升。為更直觀地體現模型的可行性,對測試圖像生成效果對比圖,具體如圖5所示。對于圖5中的小文本區域,由于Res2Net模塊可提取多尺度的特征,使小區域也可以單獨檢測。另外,在GCN網絡中邊界精修模塊的影響下,文本行粘結問題也得到一定的緩解。

4 總結

文字作為信息的重要載體,如何從圖片中準確地提取出文字信息是眾多科研學者重點關注的問題。而文本檢測作為文字識別技術的前提,高性能的檢測系統對識別效果起到促進作用。本文針對自然場景下的文本檢測問題,在PSENet網絡的基礎上,結合Res2Net模塊與GCN網絡對其進行優化,以進一步提高文本檢測能力。通過在SCUT-CTW1500和Total-Text數據集上的訓練與測試,相較于原始的PSENet網絡,本文模型在性能上有所提升,具有一定的有效性。但實驗仍有優化的空間,后續可從優化損失函數以及簡化后處理操作等方面進行改進。

參考文獻(References):

[1] 梁柏榮.基于深度卷積神經網絡的不規則形狀文字行檢測方法研究[D].廈門大學,2019

[2] Wang W, Xie E, Li X, et al. Shape Robust Text Detection with Progressive Scale? Expansion Network[J]. arXiv preprint arXiv:1903.12473,2019

[3] Shang-Hua Gao, Ming-Ming Cheng, Kai Zhao, Xin-Yu Zhang,Ming-Hsuan Yang, Philip Torr. Res2Net:A New Multi-scaleBackbone Architecture.arXiv:1904.01169

[4] Peng, Chao, et al. Large kernel matters-improve semantic segmentation by global convolutional network. Computer Vision and Pattern Recognition (CVPR),2017.7:4353-4361

[5] 施漪涵,仝明磊.基于PSENet的自然場景文字檢測網絡改進[J].上海電力大學學報,2021,37(1):73-77

[6] 趙龍,李飛,王偉峰.基于PSENet和CRNN的身份證識別[J].現代計算機,2020(34):78-82

[7] 王光軍.基于神經網絡的自然場景中的字符識別算法的研究與實現[D].電子科技大學,2020

[8] 張芮.基于Res2Net的多任務網絡及應用注意力機制的自動作曲[D].吉林大學,2020

[9] 劉一群.基于Res2Net的重識別方法[D].吉林大學,2020

[10] Christian Szegedy et al. Rethinking the Inception Architecture for Computer Vision[J]. CoRR, 2015, abs/1512.00567

[11] Yuliang L, Lianwen J, Shuaitao Z, et al. Detecting curve text in the wild: New dataset and new solution[J]. arXiv preprint arXiv:1712.02170,2017

[12] Ch'ng C K, Chan C S. Total-Text: A comprehensive dataset for scene text detection and recognition[C]. In:201714th IAPR International Conference on Document Analysis and Recognition,2017.1:935-942

[13] 付明輝.基于深度學習的自然場景文字檢測算法研究[D].北方工業大學,2021

主站蜘蛛池模板: 97免费在线观看视频| 天天摸夜夜操| 性欧美在线| 久久精品中文字幕免费| 欧美69视频在线| 亚洲αv毛片| 国产成人调教在线视频| 久久精品无码中文字幕| 成人日韩欧美| 99热这里只有精品国产99| 日韩毛片免费| 夜夜爽免费视频| 亚洲综合第一区| 谁有在线观看日韩亚洲最新视频| 一级不卡毛片| 精品久久久久久中文字幕女| 97在线免费| 思思99思思久久最新精品| 国产精品自在线拍国产电影 | 尤物亚洲最大AV无码网站| 另类重口100页在线播放| 精品国产免费观看一区| 无码视频国产精品一区二区| 久久久久久久久久国产精品| 亚洲国产精品无码AV| 综合色天天| 日韩av在线直播| 91无码人妻精品一区二区蜜桃| 91精品国产自产在线老师啪l| 欧美高清国产| 自拍亚洲欧美精品| 国产精品一区在线麻豆| 美女国内精品自产拍在线播放| 中国一级特黄视频| 日本手机在线视频| 97av视频在线观看| 久久亚洲中文字幕精品一区| 亚洲无码久久久久| 欧洲成人免费视频| 色婷婷成人网| 毛片免费高清免费| 亚洲精品无码AV电影在线播放| 伊人久久综在合线亚洲2019| jizz亚洲高清在线观看| 婷婷六月激情综合一区| 波多野结衣第一页| 71pao成人国产永久免费视频| 国产精品污污在线观看网站| 国产美女丝袜高潮| 欧美日韩资源| 制服丝袜一区| 欧美性精品不卡在线观看| 乱人伦视频中文字幕在线| 婷婷六月天激情| 亚洲一区二区三区中文字幕5566| 日韩欧美色综合| 激情综合网址| 午夜视频免费试看| 国产精品熟女亚洲AV麻豆| 欧美高清三区| 欧美成人第一页| 女人18毛片水真多国产| 免费人成黄页在线观看国产| 永久免费精品视频| 国产亚洲欧美日本一二三本道| 国产精品久久久久久久伊一| 九九热精品视频在线| 日韩无码精品人妻| 亚洲区视频在线观看| 久久久成年黄色视频| 台湾AV国片精品女同性| 亚洲首页在线观看| 亚洲中文字幕23页在线| 国产精品成人第一区| 国产男人的天堂| 国产毛片不卡| 欧美午夜在线播放| 亚洲欧美日韩成人高清在线一区| 亚洲另类第一页| 国产成人亚洲精品无码电影| 国产一区二区丝袜高跟鞋| 91精品小视频|