999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多分支特征融合的自然場景文本檢測算法

2024-02-21 03:47:42張庭瑞方承志徐國欽陳睿霖
計算機技術與發(fā)展 2024年2期
關鍵詞:特征文本檢測

張庭瑞,方承志,徐國欽,陳睿霖

(南京郵電大學 電子與光學工程學院、柔性電子(未來技術)學院,江蘇 南京 210023)

0 引 言

文本作為一種非常重要的信息載體,其所包含的語義信息十分豐富且準確,這些信息是人類生產(chǎn)生活中不可或缺的。隨著計算機視覺技術的迅猛發(fā)展,自然場景文本檢測技術廣泛應用于自動駕駛[1]、智能監(jiān)控[2]、文字識別[3]等領域。

現(xiàn)階段,根據(jù)文本的特征和檢測方法的不同,文本檢測可以分為基于傳統(tǒng)方法的文本檢測和基于深度學習的文本檢測。傳統(tǒng)的文本檢測方法(如SWT[4],MSER[5])通常使用紋理、邊緣、極值區(qū)域等一些特征來檢測自然場景中的文本區(qū)域。雖然這些方法易于理解,但是依賴于人工設計特征并且需要進行大量的計算和參數(shù)調(diào)整,在處理復雜的場景文本圖像時可能會出現(xiàn)誤檢和漏檢等問題。而基于深度學習的文本檢測方法可以通過學習大量的數(shù)據(jù),準確檢測和定位各種復雜場景下的文本,并且具有更高的自適應性。因此,越來越多的基于深度學習的方法被提出用于文本檢測。

基于深度學習的文本檢測方法大致分為基于回歸的方法和基于分割的方法。基于回歸的方法是對目標文本區(qū)域進行坐標回歸,可以通過設定錨框(anchor[6])的方式(如RRPN[7],TextBoxes++[8])回歸文本邊界框,或者直接預測(如ABCNet[9],MSR[10])文本的邊界框坐標。這類方法對于具有規(guī)則形狀的文本檢測效果較好,但是對不規(guī)則形狀的文本檢測效果并不理想。基于分割的方法(如PixelLink[11],PSENet[12])從像素角度出發(fā),對圖像中的每一個像素點進行分類,判斷該像素點是否屬于文本目標,再通過后處理方法回歸文本行邊界框。雖然這類方法對不規(guī)則文本有較好的檢測效果,但是整體流程較為繁瑣,需要復雜的后處理過程,在文本檢測時往往開銷很大。而Zhou等人提出了基于回歸和分割的混合檢測算法─EAST[13],有效地解決了復雜的后處理問題,省去了很多不必要的中間步驟,實現(xiàn)了端到端的訓練和優(yōu)化,是一種高效而準確的文本檢測算法。但是由于EAST[13]算法存在感受野受限的問題,對于較小的文本以及長文本的檢測效果并不理想。雖然AdvancedEAST等算法[14-18]對EAST[13]算法進行了優(yōu)化,改善了對于長文本的檢測,但是仍存在部分漏檢情況,而且對密集文本的檢測效果較差。

針對這一問題,該文基于EAST[13]算法進行改進,提出一種基于多分支特征融合的自然場景文本檢測算法。由于自然場景中的文本大多是呈矩形形狀,該文對RFB-s[19]加以改進,使其卷積核適應于文本的特殊形狀。將改進的RFB-s[19]模塊作為淺層特征的增強模塊,增強淺層特征的語義信息,有效提高對于細小文本的檢測精確度。針對文本以及文本筆畫多方向性,對CCA[20]模塊進行改進,增加斜向交叉路徑,使其適應于多向的長文本形狀。經(jīng)過由兩個改進的CCA[20]模塊循環(huán)組合成的RCCAM[20]模塊,使得特征圖中的每個像素能夠以非常有效的方式獲取全圖像的上下文信息,增大特征圖的感受野,提高對長文本的檢測能力。最后在訓練過程中加入Dice loss可以有效地解決正負樣本中的類不平衡問題。把EIoU[21]作為幾何損失函數(shù),在IoU的基礎上進一步考慮了中心點損失、寬損失和長損失,使得目標框和錨框在寬度和高度的差異上最小化,從而使模型收斂的更快并產(chǎn)生更好的定位結果。

1 EAST算法介紹

EAST算法是一種用于場景文本檢測的端到端的深度學習算法,它省去了不必要的中間步驟,直接高效而準確地預測文本區(qū)域。

EAST算法的網(wǎng)絡結構分為特征提取層、特征融合層和輸出層三個部分。特征提取層采用VGG16網(wǎng)絡作為骨干網(wǎng)絡,分別提取四個卷積層后的特征圖(大小為輸入圖像的1/4,1/8,1/16和1/32)來實現(xiàn)對不同尺度文本行的檢測。

特征合并層采用U-net[22]方法進行逐層合并,首先將后一層的特征圖上采樣兩倍,接著將上采樣后的特征圖與前一層特征圖進行通道上的合并。通過一個卷積核大小為1×1的卷積操作來減少通道數(shù)降低計算量,再通過卷積核大小為3×3的卷積來進行進一步的局部信息融合。重復上述操作直至生成最終特征圖。

輸出層通過卷積核大小為1×1的卷積輸出一個1通道的置信度得分圖和一個多通道的幾何特征圖。其中幾何特征圖包括4個通道的邊界框特征圖和1個通道的旋轉(zhuǎn)角度特征圖。

2 文中算法

2.1 整體網(wǎng)絡結構

為了提升對小文本檢測的準確性,改善長文本檢測的不完整性,該文提出一種基于多分支特征融合的自然場景文本檢測方法,其網(wǎng)絡結構如圖1所示。

圖1 改進的EAST網(wǎng)絡結構

該方法采用VGG16網(wǎng)絡作為特征提取的主干網(wǎng)絡,利用ImageNet數(shù)據(jù)集上預訓練的卷積網(wǎng)絡參數(shù)進行初始化。為了保留更多細節(jié),減少模型計算量,高效產(chǎn)生密集預測結果,該方法移除最后一階stage,提取前三個卷積層后的特征圖f1,f2,f3(大小為輸入圖像的1/16,1/8,1/4)作為特征輸入。特征融合部分分為三條分支,一條針對小文本檢測不準問題對淺層特征圖f3進行特征增強,引入并改進RFB-s模塊來擴大淺層感受野,給予淺層特征足夠的語義信息,提高對小文本檢測的準確度。一條為FPN[23]特征金字塔分支,這條分支通過對主干網(wǎng)絡中不同卷積層后的特征圖進行上采樣,然后進行通道上的合并,得到多尺度特征融合后的特征。還有一條分支針對長文本檢測的不完整問題,引入并改進RCCAM模塊,有效擴大了感受野,增強對長文本的檢測效果。最后結合三條分支,實現(xiàn)對不同尺度文本的有效檢測。

2.2 淺層特征增強模塊

RFB-s以Inception網(wǎng)絡為基礎,增加了不同膨脹率的膨脹卷積,在確保在不降低圖像分辨率的情況下增大感受野,提取多尺度特征,使卷積神經(jīng)網(wǎng)絡能夠更有效地學習特征。RFB-s模塊相較于RFB模塊具有卷積核較小、參數(shù)量少的優(yōu)勢,適合應用于淺層小文本的檢測。

淺層網(wǎng)絡特征圖的分辨率高,能夠有效地表征文本的細節(jié)信息。但是由于淺層網(wǎng)絡的感受野較小,缺乏一定的特征語義信息,在對細小文本進行檢測時容易出現(xiàn)誤檢、漏檢問題。所以,該算法在網(wǎng)絡的特征融合部分針對小文本檢測單獨設計一條支路。相比于常規(guī)的目標檢測,文本目標通常為長條形、具有較大的長寬比。針對這一現(xiàn)象,該文在RFB-s的基礎上進行改進,采用1×3和3×1的卷積替代3×3的卷積,不僅減少了參數(shù)和一定的計算量,而且適用于文本目標的特殊形狀。將改進的RFB-s模塊(圖2所示)作為淺層特征增強模塊,以此來擴大淺層網(wǎng)絡的感受野,增強其對上下文信息的捕獲能力,提高對小文本檢測的準確率。

圖2 改進的RFB-s網(wǎng)絡結構

2.3 循環(huán)十字交叉注意力模塊

若想對長文本進行有效的檢測,則需通過不斷地加深卷積神經(jīng)網(wǎng)絡層來擴大感受野。但是此種做法會使網(wǎng)絡變得復雜,增大網(wǎng)絡的參數(shù)量和計算量,而且仍不能捕獲全局信息,感受野仍受到一定的限制。

Huang等人提出Criss-Cross Attention(CCA)機制,通過建模像素之間的長距離關系來獲得更加豐富的上下文信息。CCA收集每個像素點所在行列的信息。通過串行連接使用兩個循環(huán)CCA得到循環(huán)十字交叉注意力模塊(Recurrent Criss-Cross Attention,RCCA)(見圖3),這時每個像素點可以有效地捕獲完整圖像上的信息。

圖3 RCCAM模塊

自然場景中的長文本往往占據(jù)較大的長寬比。若是采用一般的方形卷積核則會引入一些不必要的干擾信息。而CCA模塊專注于像素點所在行列上的文本信息,更適合于長文本的檢測。針對自然場景中的文本以及文本筆畫多方向性,該文在CCA模塊的基礎上,增添了斜向交叉路徑,使得每個像素點在捕捉豎直和水平方向文本信息的同時還捕捉了斜交叉方向上的文本信息,增強了對長文本檢測的敏感性。通過循環(huán)兩次改進的CCA模塊得到改進的RCCAM模塊(見圖4)。

圖4 改進的RCCAM模塊

針對長文本檢測效果不佳的問題,引入改進的循環(huán)十字交叉注意力模塊進行改善,過程如圖5所示。

圖5 流程圖

將圖像輸入特征提取部分的卷積神經(jīng)網(wǎng)絡層得到特征圖f1,大小為原圖像的1/16。該文的RCCAM模塊由兩個改進的CCA模塊串聯(lián)組成。特征圖f1(通道數(shù)為C)經(jīng)過1×1的卷積層,得到兩個通道數(shù)小于C的特征映射Q和K,接著經(jīng)過Affinity操作生成特征圖A,Affinity的具體公式如式1:

(1)

其中,Qu表示在特征圖Q上任意位置u取的一個通道向量,Ωu表示在特征圖K上取的與u所在相同行列及斜交叉路徑上的向量集合,第i個元素就是Ωi,u,di,u表示Qu和Ωi,u的關聯(lián)度。將di,u輸入softmax層進行歸一化處理得到特征圖A。特征圖f1經(jīng)過另一個1×1的卷積層,生成通道數(shù)等于C的特征映射V。同樣的,對于V上的任一位置u,可得到一個特征向量Vu和向量集合Φu,將此集合與特征圖A進行Aggregation聚合操作(見式2),然后再加上原始輸入特征圖f1,輸出f1'。

(2)

2.4 改進損失函數(shù)

在自然場景下的文字所占的比例過小,而復雜背景所占的比例較大。為了更好地緩解這種正負樣本占比不均衡的情況,該文在網(wǎng)絡訓練時采用Dice Loss 函數(shù)來代替類平衡交叉熵損失函數(shù)。公式如式3:

(3)

為了準確定位矩形回歸邊界框,提升文本檢測的精度,該文在原IoU(見式4)損失函數(shù)的基礎上進行優(yōu)化,采用EIoU損失函數(shù),改進后的損失函數(shù)對預測框和真實框的位置更為敏感。EIoU在IoU的基礎上,還考慮了中心點損失、寬損失和長損失,具體公式如式5:

(4)

(5)

其中,IoU為交并比,反映預測框與真實框的重疊情況,ρ2(,)為歐氏距離的平方,b和bgt分別為預測框和真實框的中心點坐標,c為覆蓋預測框和真實框的最小外接框的對角線長度,w和wgt為預測框和真實框的寬,h和hgt為預測框和真實框的高,Cw和Ch是覆蓋兩個框的最小外接框的寬度和高度。EIoU有效提升了檢測精度,使得預測框與真實框在包含、重疊或不相交的情況下,通過反向傳播使網(wǎng)絡訓練收斂的快速且準確。

3 實驗結果分析

3.1 實驗環(huán)境

實驗是在Python3.8下基于pytorch深度學習框架實現(xiàn),采用Adam優(yōu)化器,初始學習率設置為1e-3。訓練集batchsize為24,硬件配置GPU為RTX3090,顯存為24 GB。

3.2 數(shù)據(jù)集與評價指標

實驗采用的數(shù)據(jù)集為ICDAR2015和MSRA-TD500。ICDAR2015中共有1 500張圖片,包含1 000張訓練圖片和500張測試圖片。MSRA-TD500共有500張多種類和多國語言的圖片,其中包含300張訓練圖片和200張測試圖片。采用準確率(Precision)、召回率(Recall)和F值(F-score)作為評價指標。

3.3 實驗結果

為了評估該算法的性能,將其與原EAST算法和其他算法在ICDAR2015和MSRA-TD500上進行比較,得到的結果如表1、表2所示。

表1 ICDAR2015數(shù)據(jù)集檢測結果對比 %

表2 MSRA-TD500數(shù)據(jù)集檢測結果對比 %

由表1、表2可以看出,該算法在ICDAR2015數(shù)據(jù)集上相較于原EAST算法在準確率、召回率、F值上分別提升3.70百分點、7.07百分點、5.53百分點,在MSRA-TD500數(shù)據(jù)集上相較于原EAST算法在準確率、召回率、F值上分別提升2.12百分點、5.82百分點、4.48百分點,對比其他的算法也有一定的提升,驗證了算法的有效性。

將原EAST算法與文中算法的檢測結果進行對比,如圖6所示。

圖6 算法對比

由對比圖(a)和(b)可以看出,原EAST算法對于細小的文本檢測效果并不是很好,出現(xiàn)了漏檢的現(xiàn)象。而文中算法對淺層的網(wǎng)絡特征進行語義增強,豐富其上下文信息,對含有相關中英文小文本信息的檢測效果較好。由圖(c)和(d)看出,文中算法改善了長文本的檢測效果,對于傳單標語等要求長而細的文本,利用其優(yōu)勢性可以快速而準確地檢測出來,并且不會出現(xiàn)檢測框斷裂、漏檢等情況。

4 結束語

在EAST算法的基礎上進行改進,提出一種基于多分支特征融合的自然場景文本檢測算法。引入并改進RFB-s作為淺層特征增強模塊,給予淺層特征足夠的語義信息,改善了小文本檢測存在的漏檢、誤檢問題。引入并改進循環(huán)十字交叉注意力模塊,使得特征圖上的每個點能夠有效捕獲全局上下文信息,提高對長文本的檢測能力。優(yōu)化了損失函數(shù),緩解了正負樣本比例失衡問題,提高了對邊界框定位的準確度。實驗證明,該算法有效提升了對小文本和長文本的檢測能力。此外,該算法僅針對旋轉(zhuǎn)的矩形文本檢測效果理想,在后續(xù)工作中將對彎曲文本的檢測進行研究。

猜你喜歡
特征文本檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产自在线拍| 国产精品99一区不卡| 亚洲成人手机在线| 国产精品无码AV片在线观看播放| 91外围女在线观看| 亚洲精品视频网| 国产第二十一页| 亚洲黄色成人| 大陆精大陆国产国语精品1024| 国产欧美精品专区一区二区| 无码aⅴ精品一区二区三区| 国产尤物jk自慰制服喷水| 亚洲欧美日本国产综合在线 | 高h视频在线| 免费va国产在线观看| 国产在线第二页| 欧美午夜视频在线| 中国特黄美女一级视频| 成人综合网址| www欧美在线观看| 欧美日韩综合网| 亚洲人成网站在线观看播放不卡| 久久精品国产精品国产一区| a毛片免费看| 国产免费怡红院视频| 色婷婷天天综合在线| 久综合日韩| 九九热视频精品在线| 一本久道热中字伊人| 亚洲一区黄色| 国产成人综合亚洲欧洲色就色| 欧美午夜性视频| 成人av手机在线观看| 91免费精品国偷自产在线在线| 亚洲人成色在线观看| 幺女国产一级毛片| 制服丝袜 91视频| 国产SUV精品一区二区| 成年人国产网站| 国产精品30p| 亚洲清纯自偷自拍另类专区| 日韩精品成人网页视频在线| 久久久久无码精品| 伊人查蕉在线观看国产精品| 亚洲Va中文字幕久久一区| 久久久久青草大香线综合精品| 亚洲二区视频| 高潮爽到爆的喷水女主播视频 | 亚洲女人在线| 国产在线观看91精品亚瑟| 精品视频一区二区观看| 久久福利片| 国产麻豆另类AV| 国产人成网线在线播放va| a天堂视频在线| 在线日韩日本国产亚洲| 免费午夜无码18禁无码影院| 欧美曰批视频免费播放免费| 91啪在线| 中文字幕资源站| 97亚洲色综久久精品| 精品成人一区二区| 老司机久久精品视频| 色婷婷丁香| 亚洲中文字幕无码mv| 激情网址在线观看| h视频在线观看网站| 国产精品lululu在线观看| 曰AV在线无码| 亚洲va欧美va国产综合下载| 欧美一级99在线观看国产| 色视频久久| 992Tv视频国产精品| 午夜啪啪网| 999福利激情视频| 一本一道波多野结衣av黑人在线| 香蕉在线视频网站| 热这里只有精品国产热门精品| 免费AV在线播放观看18禁强制| 久久99精品久久久大学生| 这里只有精品在线| 91久久偷偷做嫩草影院免费看|