999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于質心感知的自然場景文字檢測技術

2022-04-25 07:33:28張高明
科技與創新 2022年8期
關鍵詞:分類文本區域

張高明

(上海電力大學電子與信息工程學院,上海 201306)

近年來,圖像文字檢測在自動駕駛、圖像分割[2]、商品識別等領域被廣泛應用,伴隨著大數據的支持及深度學習的發展,自然場景文字檢測引起了計算機視覺界的廣泛關注。文字檢測的任務是定位圖像中的文字區域,印刷文檔中的文字往往排列整齊、背景簡單,文字與非文字區域存在明顯差異。由于現實場景中圖像中的文本大多排列樣式多樣,且具有形狀不規則、背景干擾較大等特點,均使得在該場景中進行文字檢測面臨著巨大的挑戰。

隨著深度學習技術的興起和不斷發展,神經網絡也開始應用于自然場景文字檢測之中。若設計多個相關性較強的任務進行多任務學習[3],如TextSnake[4]、PSENet[5]等,在主任務確定的條件下,在網絡結構中額外增加與主任務相關性較高的輔助任務,可顯著提高模型效果。

為此,本文提出在自然場景文字檢測網絡中增加質心預測分支,與網絡中文本分類分支結合,通過增大靠近文字實例中心處的分類概率值,減小遠離中心處的分類概率值,提升模型性能。

1 自然場景文字檢測網絡

1.1 場景文字質心預測

經實驗發現,即使用anchor free 方法可對多個不同尺寸特征圖進行預測,但效果仍不如anchor based方法,主要原因是神經網絡的分類任務只考慮當前位置屬于文字的概率,許多遠離目標質心位置處的文字分類概率較高,而受限于感受野的影響,距離文字中心較遠位置處得到的回歸結果往往準確度較低。因此若簡單將分類結果高于閾值區域對應的回歸結果保留,將可能導致在后續非極大值抑制過程中保留錯誤回歸結果,丟棄正確回歸結果,對模型準確率造成極大影響,如CTPN[6]、RRPN[7]等,因此,借鑒FCOS[8]的想法,本文在分類網絡中增設文字質心預測,判斷每個像素點屬于文字區域質心的概率。像素點越靠近文字區域的質心,則對應位置處的值越接近1,相反則越接近0。

與FCOS 通過邊框內每個位置與其對應xmin、xmax、ymin、ymax關系得到質心預測目標值不同,考慮到自然場景文字檢測任務的對象往往具有多種形式(水平、傾斜、彎曲),直接使用矩形邊框對中心的計算方法不能保證中心點始終在文字實例中心。為此,本文根據自然場景中的文字形式設置了新的質心預測目標值計算方法,如圖1 所示。

給定文字區域內某像素坐標(xi,yi),分別計算其與該文字實例x軸最值(xmin,yi)、(xmax,yi)的距 離li、ri,和垂 直 方向 與上 下邊 界(xi,) 、(xi,) 距離ti、bi,即可計算該位置質心得分wi,wi的計算方式如下:

wi的取值范圍為0~1,與文本分類相似,表示每個像素點位于質心的概率。在測試階段將分類與質心結果逐像素相乘,得到最終分類結果。

1.2 目標函數

模型輸出包含分類與回歸2 個部分。其中分類任務部分同時得到文本、非文本分類和質心、非質心分類2 個結果,考慮到樣本中正例遠小于負例,為應對類別不均衡的分類問題,2 個分類任務均采用Focal Loss[9]作為損失函數,定義如下:

回歸任務部分采用ⅠOU 損失作為損失函數,如圖2 所示,ⅠOU 損失定義如下:

圖2 ⅠOU 損失計算示意圖

式(1)中:Gi為實際文本位置;Pi為預測的文本位置。

因此,模型總的損失函數為L=Lcls1+Lcls2+Lreg。

1.3 評估指標

本文采用自然場景文字檢測問題中常用指標(精確率、召回率、F-score)對方法的有效性進行評估。

精確率表示預測為文字的區域內實際為文字區域的比例,召回率表示實際為文字的區域同時也被預測為文字區域的比例,公式如下:

式(2)(3)中:Gi為實際為文字的區域;Di為預測為文字的區域。

根據精確率與召回率反映檢測模型的綜合性能,F-score 的定義如下:

2 實驗結果分析

為驗證本文提出的質心預測分支網絡有效性,分別訓練無質心預測分支和包含質心預測分支的網絡,進行消融實驗。使用SynthText 對網絡進行預訓練,然后在TotalText 數據集中進行相同輪數的微調和推理,比較不同網絡效果。實驗使用的編程環境為Python3.6.4 和Pytorch 1.1.0,在Ubuntu16.04 操作系統中利用一張顯存為12 GB 的GTX TⅠTAN X 顯卡進行模型訓練和測試,CUDA 版本為11.0。

通過隨機旋轉(旋轉范圍為[-5°,+5°])、抖動(對圖像加入輕微噪聲)、翻轉(50%概率對圖像左右翻轉)對圖像進行數據增強,并將圖像分辨率修改為512×512。將常用的ResNet50-FPN 作為基礎網絡,設置batch 數量為12,每個文字實例的長邊使用K=10個插值進行表示,并采用帶動量的隨機梯度下降為優化器,動量為0.9。首先設置學習率為0.000 1,使用人工合成數據集SynthText 對網絡進行80 萬次預訓練,再將學習率修改為0.001,分別在TotalText 數據集中進行微調和測試[10]。測試結果如表1 所示。

表1 TotalText 數據集結果對比

本文方法在TotalText 數據集上進行測試,在其他條件保持一致的情況下,比較神經網絡包含和不包含質心預測分支時的效果情況。由表1 可知,網絡模型中增添質心預測分支后,模型效果得到了顯著提升,其中精確率的提升尤其明顯。

3 結論

本文提出一種質心檢測網絡分支,用于在自然場景文字檢測場景中提升模型效果。在FCOS 的質心計算基礎上,修改質心的計算方法,使其更適用于自然場景文字檢測問題,提高了模型的準確度。經過數據對比,本文提出的方法在TotalText 等包含任意形狀文字實例的數據集中均取得了較好的實驗效果,驗證了方法的可行性和有效性。

猜你喜歡
分類文本區域
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
關于四色猜想
分區域
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 色综合国产| 国产精品性| 国产伦精品一区二区三区视频优播 | 国产中文一区a级毛片视频| 国产精品短篇二区| 青青青视频91在线 | 91久久夜色精品国产网站| 久久综合成人| 亚洲色图欧美| 亚洲AV一二三区无码AV蜜桃| 四虎精品免费久久| 国产欧美中文字幕| 精品少妇人妻一区二区| 国产精品视频第一专区| 一区二区三区国产精品视频| 免费看美女自慰的网站| 99ri精品视频在线观看播放| 国产一二三区在线| 欧美h在线观看| 欧美激情二区三区| 久久国产av麻豆| 少妇极品熟妇人妻专区视频| 色综合色国产热无码一| 丰满人妻久久中文字幕| 天天躁日日躁狠狠躁中文字幕| 久久精品国产在热久久2019| 99999久久久久久亚洲| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产精品视频白浆免费视频| 精品一区二区无码av| 澳门av无码| 呦女精品网站| 久久久噜噜噜久久中文字幕色伊伊 | 日本午夜影院| 日韩一二三区视频精品| 国产高潮流白浆视频| 波多野结衣一区二区三区四区视频 | 玖玖精品视频在线观看| 啪啪免费视频一区二区| 国产一二视频| 国内精自视频品线一二区| 伊人久久综在合线亚洲91| 国产亚洲精品资源在线26u| 大学生久久香蕉国产线观看| 麻豆a级片| 九色视频在线免费观看| 亚洲综合精品第一页| 91色综合综合热五月激情| 第九色区aⅴ天堂久久香| 婷婷激情亚洲| 啦啦啦网站在线观看a毛片| 人妻精品久久久无码区色视| 2024av在线无码中文最新| 99国产精品免费观看视频| 国产办公室秘书无码精品| 高清无码一本到东京热| 久久永久视频| 全部毛片免费看| 亚洲福利一区二区三区| 51国产偷自视频区视频手机观看| 美女被狂躁www在线观看| 国产欧美在线观看精品一区污| 国产人人射| 国产精品制服| 好吊色妇女免费视频免费| 国产精品成人久久| 色天天综合久久久久综合片| 国产本道久久一区二区三区| 在线a视频免费观看| 久久国产亚洲欧美日韩精品| 99久久精品国产麻豆婷婷| 亚洲欧美不卡中文字幕| 国产精品丝袜视频| 日韩av高清无码一区二区三区| 色噜噜久久| 免费高清毛片| 亚洲色图狠狠干| 男女男免费视频网站国产| 一级做a爰片久久免费| 国产久操视频| 亚洲成年人网| AV网站中文|