999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于殘差網(wǎng)絡(luò)及筆畫寬度變換的場景文本檢測

2023-02-05 11:30:58方承志倪夢媛
關(guān)鍵詞:文本檢測

方承志,倪夢媛,唐 亮

(南京郵電大學(xué) 電子與光學(xué)工程學(xué)院、微電子學(xué)院,江蘇 南京 210023)

0 引 言

自然場景中的文本檢測在智能交通系統(tǒng)[1]、自動化設(shè)計(jì)[2]、人工智能[3]、可穿戴便攜式視覺系統(tǒng)[4]等多個(gè)領(lǐng)域都有著重要作用。

傳統(tǒng)的文本檢測方法主要是使用人工設(shè)計(jì)和傳統(tǒng)分類器,如SWT(Stroke Width Transform,筆畫寬度變換)[5]和MSER(Maximally Stable Extremal Regions,最大穩(wěn)定極值區(qū)域)[6],這些算法主要通過檢測邊緣或提取圖像極端區(qū)域來檢測字符,然后基于自定義規(guī)則或訓(xùn)練的分類器將提取的組件組合成文本區(qū)域。但這類方法在涉及連接字符、分割筆畫字符或者不均勻照明時(shí)會表現(xiàn)不佳,無法適用于復(fù)雜場景中的文本檢測。

基于深度學(xué)習(xí)的文本檢測方法讓計(jì)算機(jī)自動學(xué)習(xí)數(shù)據(jù)的有效特征表示。主要分為基于分割和基于回歸兩類。基于回歸的文本檢測方法是將文本視為一種檢測目標(biāo),利用深度學(xué)習(xí)框架對目標(biāo)定位坐標(biāo)進(jìn)行回歸。這種方法根據(jù)是否預(yù)設(shè)錨框可以分為間接回歸和直接回歸。間接回歸法(如Textboxes[7]、Textboxes++[8]等)采用長矩形錨框,DeepText[9]等利用k-means聚類的方法產(chǎn)生錨框,然后利用錨框回歸相對候選框偏移的文本框坐標(biāo),其缺點(diǎn)是中間過程冗長,且需要大量錨框覆蓋檢測物體,而其中只有一小部分錨框?yàn)檎龢颖荆菀桩a(chǎn)生正負(fù)樣本失衡。直接回歸法則舍棄錨框,直接將特征圖通過網(wǎng)絡(luò)框架檢測出文本行的坐標(biāo)。例如EAST[10]算法,僅包含F(xiàn)CN(Full Convolutional Network,全卷積網(wǎng)絡(luò))[11]和NMS(Non-Maximum Suppression,非極大值抑制)兩步,但受感受野的限制,對長文本檢測效果不好。Advanced EAST等算法[12-14]通過改變回歸目標(biāo)來改善長文本的檢測,但標(biāo)簽生成過程復(fù)雜,且對密集文本檢測效果變差。因此,需要更有效的方法來解決此問題。

該文在EAST[10]算法的基礎(chǔ)上進(jìn)行改進(jìn),提出了一種基于殘差網(wǎng)絡(luò)及筆畫寬度變換的文本檢測算法,不僅提高了算法的準(zhǔn)確度,還有效改善了對長文本的檢測效果。首先,在特征提取階段引入殘差結(jié)構(gòu)[15],增加網(wǎng)絡(luò)深度并提升學(xué)習(xí)精度,同時(shí)避免產(chǎn)生梯度消失問題。其次,采用DIoU(Distance Intersection over Union,距離交并比)[16]計(jì)算幾何損失函數(shù),在原IoU(Intersection over Union,交并比)損失[17]的基礎(chǔ)上加上預(yù)測框與真實(shí)框的中心點(diǎn)之間的距離作為懲罰項(xiàng),使得檢測效果更好。最后,增加了SWT階段來解決長文本首尾丟失問題,將網(wǎng)絡(luò)生成的文本框向首尾兩側(cè)按一定規(guī)則擴(kuò)大,并進(jìn)行筆畫寬度變換[5],根據(jù)條件判斷并補(bǔ)全長文本檢測框。

1 EAST算法分析

EAST算法[10]是一種端到端的文本檢測算法,能夠直接預(yù)測圖像中任意方向的文本或文本行,消除不必要的中間步驟,其過程簡化為兩個(gè)階段:FCN階段和NMS階段。

其網(wǎng)絡(luò)結(jié)構(gòu)分為特征提取層、特征融合層和輸出層三部分。實(shí)驗(yàn)中特征提取層將VGG16作為網(wǎng)絡(luò)結(jié)構(gòu)的骨干,通過四個(gè)卷積塊獲取不同尺度的特征圖,以實(shí)現(xiàn)對不同尺度文本行的檢測。在特征融合層,逐層將后一層的特征圖通過上采樣后與前一層特征圖進(jìn)行局部信息融合,將最終結(jié)果輸出到輸出層。輸出層輸出置信度信息和幾何位置信息。對于傾斜矩形文本框Q(x,y,w,h,θ),輸出的位置信息為像素點(diǎn)到四個(gè)邊的距離以及矩形文本框的旋轉(zhuǎn)角度。損失函數(shù)由分類損失和幾何損失兩部分組成。分類損失采用類平衡交叉熵?fù)p失[18]以平衡正負(fù)樣本;幾何損失的計(jì)算采用對尺度不敏感的損失,即IoU損失[17]。

NMS階段采用局部感知NMS算法[10]。在假設(shè)來自附近像素的幾何圖形傾向于高度相關(guān)的情況下,提出逐行合并幾何圖形,并且在合并同一行中的幾何圖形時(shí),迭代合并當(dāng)前遇到的幾何圖形與最后一個(gè)合并圖形。這種方法合并的文本框坐標(biāo)是通過兩個(gè)給定檢測框的坐標(biāo)按得分進(jìn)行加權(quán)平均獲得的,采取這種方法可以將所有框的坐標(biāo)信息都加以利用,而不像常規(guī)NMS一樣直接棄掉得分低的框,也許會丟失信息。

但EAST算法對長文本的檢測效果較差,這主要是由感受野不夠大導(dǎo)致的[10]。其特征提取網(wǎng)絡(luò)層數(shù)為16層,經(jīng)過5次池化,stage4輸出的特征圖感受野大小為212×212,而感受野內(nèi)特征點(diǎn)的有效性類高斯分布由中心向邊緣遞減,因此有效感受野的范圍更小,導(dǎo)致該算法對長文本,尤其是貫穿圖片的長文本檢測效果不好,容易出現(xiàn)文本的首尾部分丟失的情況。

此外,損失函數(shù)所采取的IoU損失,僅通過交并比計(jì)算損失,缺少對準(zhǔn)確位置問題的區(qū)分和調(diào)整,一定程度上影響了預(yù)測的準(zhǔn)確度。同樣的問題也出現(xiàn)在許多其他直接回歸文本框的算法中。

要通過深度學(xué)習(xí)的方法改善長文本檢測的效果,一種思路是改變回歸目標(biāo),但往往會帶來其他問題,例如回歸像素點(diǎn)到文本框邊界的距離,對小文本的檢測效果并不好,尤其是在檢測密集文本時(shí)容易產(chǎn)生邊界錯(cuò)亂。且目前常用的數(shù)據(jù)集并沒有可以直接使用的標(biāo)注,因此這種方法還需要復(fù)雜的標(biāo)簽生成過程。另一種思路是增加網(wǎng)絡(luò)深度以及池化次數(shù)來擴(kuò)大感受野,但更深層所提取的特征圖會損失更多的小尺度信息,對小文本的檢測效果將會變差。且由于深度神經(jīng)網(wǎng)絡(luò)是通過損失函數(shù)梯度的反向傳播來指導(dǎo)權(quán)值的更新優(yōu)化,單純增加網(wǎng)絡(luò)深度,梯度逐層累乘,容易出現(xiàn)梯度消失現(xiàn)象,淺層參數(shù)無法更新,網(wǎng)絡(luò)難以收斂。此外神經(jīng)網(wǎng)絡(luò)并不是越深越好,當(dāng)超過一定層數(shù)時(shí),要繼續(xù)提高精度所需要的網(wǎng)絡(luò)層數(shù)呈指數(shù)級增長,所帶來的參數(shù)量和計(jì)算量的挑戰(zhàn)都十分巨大。因此,該文考慮將深度學(xué)習(xí)與傳統(tǒng)算法相結(jié)合,更為簡單快捷地改善長文本檢測。

2 基于殘差網(wǎng)絡(luò)及SWT的文本檢測

2.1 算法流程

為了提升模型精度,改善對長文本的檢測效果,該文提出了一種基于殘差網(wǎng)絡(luò)及SWT的自然場景文本檢測算法。主要從三個(gè)方面對EAST算法進(jìn)行改進(jìn)。一是增加特征提取層的網(wǎng)絡(luò)深度,為了防止網(wǎng)絡(luò)退化和梯度消失,引入了殘差結(jié)構(gòu)。二是在損失函數(shù)中增加一個(gè)懲罰項(xiàng),提高預(yù)測框回歸的準(zhǔn)確度。三是在NMS階段后,增加一步SWT階段,通過局部性的筆畫寬度變換,依據(jù)設(shè)定的條件,補(bǔ)全缺失的長文本檢測框。

算法流程如圖1所示。

圖1 基于殘差網(wǎng)絡(luò)及SWT的文本檢測算法流程

首先,將圖像送入殘差網(wǎng)絡(luò),通過四個(gè)stage提取不同尺度的特征圖,每個(gè)stage都包含若干殘差塊;然后,通過對特征圖上采樣和通道拼接逐層進(jìn)行特征融合,得到融合后的特征圖h4;再經(jīng)過一個(gè)卷積層輸出得分圖及預(yù)測文本框的位置信息;之后,使用位置感知的NMS,獲取得分高的預(yù)測文本框;最后,將預(yù)測文本框送入SWT階段,檢查文本框兩側(cè)是否存在未檢測到的字符,若存在,則將其補(bǔ)全。

2.2 殘差網(wǎng)絡(luò)結(jié)構(gòu)

該文考慮增加網(wǎng)絡(luò)層數(shù)來提取更深層次的網(wǎng)絡(luò)信息,提高學(xué)習(xí)的準(zhǔn)確度,同時(shí)還能增大感受野。但隨著網(wǎng)絡(luò)加深,容易出現(xiàn)網(wǎng)絡(luò)退化的問題,這是由于在反向傳播的過程中,梯度逐漸消失,無法對前面的網(wǎng)絡(luò)層權(quán)重進(jìn)行有效的調(diào)整。為了解決這一問題,引入了殘差網(wǎng)絡(luò)結(jié)構(gòu)[15](見圖2)。

圖2 殘差結(jié)構(gòu)

假設(shè)某段網(wǎng)絡(luò)的輸入為x,期望輸出為H(x)。在殘差網(wǎng)絡(luò)結(jié)構(gòu)中,通過捷徑連接直接將輸入x傳到輸出作為初始結(jié)果,網(wǎng)絡(luò)學(xué)習(xí)的將是輸入和輸出的差值,即殘差F(x)=H(x)-x,訓(xùn)練的目的是使殘差結(jié)果逼近于0,相比于訓(xùn)練一個(gè)等價(jià)映射,這樣訓(xùn)練的難度要大大降低。

在原網(wǎng)絡(luò)的基礎(chǔ)上引入殘差網(wǎng)絡(luò)結(jié)構(gòu)。每個(gè)stage主要包含兩種模塊,Conv Block和Identity Block[15],如圖3所示,其中包含若干卷積層、BN(Batch Normalization,批歸一化)層和ReLU(Rectified Linear Unit,修正線性單元)激活函數(shù)層。Conv Block輸入和輸出的維度不同,捷徑連接處用1×1的卷積層降維,它的作用是改變網(wǎng)絡(luò)的維度。而Identity Block輸入和輸出維度相同,直接將輸入加到最后的輸出上,它的作用是加深網(wǎng)絡(luò)的深度。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖3 殘差模塊結(jié)構(gòu)

輸入圖像在特征提取層首先通過7×7的卷積和池化,然后通過4個(gè)stage獲取不同尺度的特征圖f4、f3、f2、f1,尺寸分別為原圖的1/4、1/8、1/16、1/32,通道數(shù)分別為64、128、256、512。而后在特征融合層,底層特征圖h1經(jīng)過上采樣將尺寸放大一倍,然后與上一層特征圖f2進(jìn)行通道拼接,再經(jīng)過1×1卷積核減少通道數(shù),經(jīng)3×3卷積核將特征信息融合得到特征圖h2。重復(fù)上述操作,逐層進(jìn)行特征融合,得到尺寸為原圖1/4的特征圖h4。特征融合層滿足:

(1)

(2)

其中,gi為特征融合基,hi為融合特征圖,[·;·]表示二者通道拼接,通道數(shù)增加。

圖4 改進(jìn)的殘差網(wǎng)絡(luò)結(jié)構(gòu)

融合后的特征圖h4經(jīng)32核3×3的卷積層送入輸出層。在輸出層分別經(jīng)過1×1的卷積核,輸出1維得分圖score map、4維頂點(diǎn)偏移信息和1維旋轉(zhuǎn)角度信息。

利用殘差結(jié)構(gòu)來增加網(wǎng)絡(luò)的深度,擴(kuò)大感受野,可以有效提高網(wǎng)絡(luò)性能。改進(jìn)后的特征提取網(wǎng)絡(luò)層數(shù)增加到49層,同時(shí)感受野增加到427×427。此外,殘差網(wǎng)絡(luò)采用1×1和3×3的卷積核來組合成模塊結(jié)構(gòu),與僅使用3×3卷積核的VGG網(wǎng)絡(luò)相比,大幅減少了計(jì)算量和參數(shù)量,不僅準(zhǔn)確度大大提高,而且計(jì)算效率也有所提升。

2.3 改進(jìn)型損失函數(shù)

原算法所采用的IoU損失[17]計(jì)算的是預(yù)測文本框和真實(shí)文本框的交集與并集之比。該算法對尺度不敏感,即不受目標(biāo)物體尺度大小的影響,但是這種算法無法指示出預(yù)測框與真實(shí)文本框的重疊方式的差異。如圖5所示,圖(a)和圖(b),其預(yù)測框與真實(shí)框都不相交,無論與真實(shí)框的距離遠(yuǎn)近,二者的IoU都為0,此時(shí)的IoU損失在訓(xùn)練中無法回傳梯度進(jìn)行更新,但顯然圖(a)的預(yù)測框比圖(b)更接近真實(shí)文本框;圖(c)和圖(d)預(yù)測框都與真實(shí)框相交,雖然重疊方式不同,但I(xiàn)oU相同,二者在訓(xùn)練過程中無法通過IoU損失進(jìn)行區(qū)分,但顯然圖(c)預(yù)測框的中心點(diǎn)與真實(shí)文本框更接近,預(yù)測的效果也比圖(d)更好。

通過以上例子不難發(fā)現(xiàn),在預(yù)測框與真實(shí)框IoU相同的情況下,兩者中心點(diǎn)間的距離越小,預(yù)測結(jié)果越接近真實(shí)值,檢測效果越好。因此,采用DIoU Loss來計(jì)算損失函數(shù),即在IoU Loss的基礎(chǔ)上,將預(yù)測框與真實(shí)框中心點(diǎn)間的距離作為懲罰項(xiàng)引入損失函數(shù)計(jì)算中,用以區(qū)分與真實(shí)框不同重疊方式的預(yù)測框。改進(jìn)后的損失函數(shù)Loss由分類損失Ls和幾何損失Lg組成,滿足下式:

圖5 預(yù)測框與文本框IoU效果示意圖

Loss=Ls+λgLg

(3)

其中,λg為幾何損失權(quán)重。分類損失Ls采用類平衡交叉熵?fù)p失平衡正負(fù)樣本,滿足下式:

Ls=-βYgtlogY-(1-β)(1-Ygt)log(1-Y)

(4)

幾何損失Lg由邊界框位置損失LQ和旋轉(zhuǎn)角度損失Lθ組成,LQ采用DIoU計(jì)算損失,滿足下式:

Lg=LQ+λθLθ

(5)

(6)

Lθ=1-cos(θ-θgt)

(7)

其中,λg為損失權(quán)重,Y為預(yù)測得分,Ygt為真值,β為正負(fù)樣本的平衡因子;R為預(yù)測的文本框,Rgt為真實(shí)文本框,d(c,cgt)為預(yù)測框中心點(diǎn)c與真實(shí)框中心點(diǎn)cgt間的歐氏距離;λθ、λd分別是旋轉(zhuǎn)角度損失和懲罰項(xiàng)的權(quán)重;p為能夠同時(shí)覆蓋檢測框和真實(shí)框的最小矩形的對角線長度,在此起歸一化的作用,使損失適用于不同大小的文本檢測。

相比于IoU Loss,DIoU Loss同樣具有尺度不變性,且在檢測框與真實(shí)框不重疊時(shí),后者可以為邊界框提供移動方向。對于重疊的框,DIoU通過懲罰項(xiàng)優(yōu)化檢測框與真實(shí)框之間的距離,能夠分辨不同的重疊方式。

2.4 筆畫寬度變換(SWT)階段

對于長文本的檢測,原EAST算法的弊端在于感受野受限,盡管通過增加網(wǎng)絡(luò)深度、空洞卷積[19]等方法可以擴(kuò)大感受野,但在圖片較大時(shí),仍不足以獲得較好的檢測效果。且一味增加網(wǎng)絡(luò)深度,淺層特征的學(xué)習(xí)能力會下降,從而影響檢測效果。一些算法[12-14]通過改變回歸目標(biāo)來避免感受野受限的問題,但往往需要復(fù)雜的標(biāo)簽生成過程和后處理過程,且在文本密集的情況下容易邊界錯(cuò)亂。因此,該文考慮增加一個(gè)SWT階段,通過傳統(tǒng)的筆畫寬度判定預(yù)測文本框兩側(cè)是否存在漏檢的文本,從而對長文本進(jìn)行補(bǔ)全。

筆畫寬度變換(SWT)[5]利用筆畫寬度,即平行字符邊緣的點(diǎn)對之間的距離,進(jìn)行文本和非文本的區(qū)分。筆畫寬度是文字所獨(dú)有的特征,一般的自然場景文本圖像中的字符的筆畫寬度值通常比較穩(wěn)定,非字符的筆畫寬度值一般變化較大,因此,可以利用筆畫寬度值對一些非文本區(qū)域進(jìn)行剔除。SWT算法首先利用Canny算子獲得邊緣圖像,對每個(gè)邊緣像素點(diǎn)沿梯度方向搜索組成像素點(diǎn)對;然后將路徑上的像素賦值為所組成的點(diǎn)對之間的距離,即為筆畫寬度。具體算法流程如算法1所示。

算法1:筆畫寬度變換算法。

輸入:圖片S。

輸出:筆畫寬度圖S'。

Step1:設(shè)S'每一個(gè)像素點(diǎn)的筆畫寬度初始值設(shè)置為無窮大;利用Canny算子對圖片S進(jìn)行邊緣檢測,取得邊緣圖像,并獲取邊緣像素點(diǎn)的梯度方向。

Step2:設(shè)p是邊緣圖像一個(gè)邊緣上的像素點(diǎn),根據(jù)其梯度方向dp沿著路徑r=p+n*dp(n≥0)查找對應(yīng)邊緣上的一個(gè)像素點(diǎn)q,其梯度方向?yàn)閐q。

Step4:重復(fù)Step2、Step3,直至標(biāo)記該圖像上所有沒被廢棄掉的路徑上像素的筆畫寬度值。若有像素點(diǎn)被多次賦值,則保留最小值。

Step5:矯正拐點(diǎn),計(jì)算每一條路徑上的所有像素的筆畫寬度的中值,若該路徑上像素點(diǎn)的筆畫寬度值大于中值,則對該像素點(diǎn)賦值為該路徑上筆畫寬度的中值。

Step6:由于存在亮底暗字背景和暗底亮字背景兩種情況,從梯度相反方向重復(fù)Step2至Step5進(jìn)行二次搜索。

Step7:若8鄰域內(nèi)像素與中心像素的筆畫寬度之比在[1/3,3]內(nèi),則聚合成連通域。計(jì)算每個(gè)有效連通域的筆畫寬度的均值和方差,濾除方差大于閾值varth的連通域。

該文提出的SWT階段需要將預(yù)測框向首尾兩側(cè)擴(kuò)展一定的寬度,分別對預(yù)測框內(nèi)和擴(kuò)展區(qū)域進(jìn)行SWT,獲得區(qū)域內(nèi)的筆畫寬度信息,而后按照給定的條件判斷擴(kuò)展區(qū)域內(nèi)是否存在漏檢字符。這樣可以有效摒除復(fù)雜環(huán)境的干擾,克服SWT本身魯棒性差的缺點(diǎn)。

自然場景中的文本形狀較為規(guī)則,在預(yù)測框具有良好包裹性的情況下,預(yù)測框的高度大致就是一個(gè)字符的寬度,考慮到字符間可能存在間隙,該文將擴(kuò)展區(qū)域的寬度設(shè)定為預(yù)測框高的1.5倍。對于前述網(wǎng)絡(luò)所得的預(yù)測文本框R(x,y,w,h,θ),其中心點(diǎn)坐標(biāo)為(x,y),寬度為w,高度為h,旋轉(zhuǎn)角度為θ。將文本框向首尾兩側(cè)各擴(kuò)展1.5h,則兩側(cè)擴(kuò)展區(qū)域分別為Re1(x-(w+1.5h)cosθ/2,y+(w+1.5h)sinθ/2,1.5h,h)、Re2(x+(w+1.5h)cosθ/2,y-(w+1.5h)sinθ/2, 1.5h,h),如圖6陰影部分所示。

圖6 文本框擴(kuò)展區(qū)域示意圖

分別對預(yù)測文本框R和擴(kuò)展區(qū)域Re1和Re2做SWT,獲取三個(gè)區(qū)域內(nèi)的筆畫寬度特征信息。若擴(kuò)展區(qū)域內(nèi)不存在與R相似的筆畫特征信息,則保持原預(yù)測結(jié)果;否則認(rèn)為存在漏檢的文本內(nèi)容,并根據(jù)漏檢字符的坐標(biāo)形成新的文本框左右邊界。而后再次擴(kuò)展,重復(fù)以上過程,直至沒有新的漏檢字符出現(xiàn),從而解決長文本兩側(cè)不全的問題。具體算法流程如算法2所示。

算法2:SWT階段算法。

輸入:預(yù)測文本框R。

輸出:補(bǔ)全的預(yù)測文本框R*。

Step1:對預(yù)測框R進(jìn)行SWT,獲得筆畫寬度圖,形成連通域,并濾除方差大于閾值varth的連通域,計(jì)算整個(gè)預(yù)測框內(nèi)有效文本區(qū)域的筆畫寬度均值meanpr令R*=R。

Step2:將R*向首尾兩側(cè)各擴(kuò)展1.5h,獲得擴(kuò)展區(qū)域Re1和Re2,若擴(kuò)展區(qū)域與其他預(yù)測框相交則相交區(qū)域置零。

Step3:分別對擴(kuò)展區(qū)域Re1和Re2進(jìn)行SWT,濾除方差大于閾值varth的連通域,計(jì)算每個(gè)連通域的筆畫寬度均值mean。

Step4:若存在連通域,其1/3≤mean/meanpr≤3,則判斷該連通域?yàn)樽址?/p>

Step5:若字符屬于區(qū)域Re1,則將連通域內(nèi)橫坐標(biāo)最小的像素點(diǎn)所在的垂直于上下邊界的線作為新的預(yù)測框左側(cè)邊界;同理,若字符屬于區(qū)域Re2,則根據(jù)橫坐標(biāo)最大的像素點(diǎn)確定新的右側(cè)邊界,得到新的文本框R*。

Step6:重復(fù)Step2至Step5,直至沒有新的字符出現(xiàn)。

3 實(shí)驗(yàn)結(jié)果分析

3.1 數(shù)據(jù)集及預(yù)處理

本次實(shí)驗(yàn)采用ICDAR2015和MSRA-TD500數(shù)據(jù)集。

ICDAR2015是目前文本檢測算法中常用的數(shù)據(jù)集,包含500張測試圖像和1 000張訓(xùn)練圖像,所有的圖像尺寸均為720×1 280。該數(shù)據(jù)集圖像從谷歌街景中搜集,標(biāo)注為單詞級別的四個(gè)頂點(diǎn)的坐標(biāo),文字呈多方向排布,模糊遮擋較多,對算法魯棒性要求高。MSRA-TD500數(shù)據(jù)集包含200張測試圖像和300張訓(xùn)練圖像,分辨率在1 296×864到1 920×1 280之間。該數(shù)據(jù)集包含中英文,大部分文本都在引導(dǎo)牌上,標(biāo)注以行為單位,而不是單詞,每張圖片都完全標(biāo)注,對于長文本的檢測有較高的參考價(jià)值。

由于數(shù)據(jù)集較小,先通過數(shù)據(jù)增強(qiáng)擴(kuò)充數(shù)據(jù)集,對圖像進(jìn)行裁剪、移位、亮度增強(qiáng)、對比度增強(qiáng)、水平翻轉(zhuǎn)和隨機(jī)方向旋轉(zhuǎn),將ICDAR2015擴(kuò)充到7 000張,將MSRA-TD500擴(kuò)充到5 000張。

3.2 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

實(shí)驗(yàn)是在Python3.7下基于keras深度學(xué)習(xí)框架編寫,采用自適應(yīng)矩估計(jì)(Adaptive Moment Estimation,Adam)優(yōu)化器[20]優(yōu)化模型,學(xué)習(xí)率設(shè)置為3e-4,衰減系數(shù)為1e-4,輸入圖像尺寸為512×512,每次迭代的輸入圖像個(gè)數(shù)為4。

3.3 評價(jià)指標(biāo)

實(shí)驗(yàn)采用標(biāo)準(zhǔn)的自然場景文本檢測評估指標(biāo),即:準(zhǔn)確率(P)、召回率(R)、F值(F),計(jì)算公式分別為:

(8)

(9)

(10)

其中,TP表示檢測正確的文本框數(shù)量;D表示模型檢測出的文本框數(shù)量;G表示真實(shí)的文本框數(shù)量。若檢測結(jié)果與真實(shí)文本框之間的交并比大于閾值(閾值取0.5),則認(rèn)為該檢測結(jié)果是正確的。F值是準(zhǔn)確率和召回率的調(diào)和平均數(shù),用以綜合評估模型的性能。

3.4 結(jié)果分析

文中算法與EAST算法的檢測結(jié)果如圖7所示。原圖為MSRA-TD500中的一張圖片,EAST算法的檢測結(jié)果如圖(a)所示,對于長文本“中關(guān)村廣場購物中心”以及“ZHONGGUANCUN”,其檢測框不能完全覆蓋文本內(nèi)容,遺漏較多文本信息;通過改進(jìn)后的網(wǎng)絡(luò)而未經(jīng)過SWT階段預(yù)測所得的文本框如圖(b)所示,相比于EAST算法已經(jīng)有了較大的改進(jìn),其文本框覆蓋文本內(nèi)容更加完整,但對于其中較長的文本首尾的“中”和“心”字仍然未能完全檢測到,這是由于改進(jìn)后的網(wǎng)絡(luò)雖然將感受野擴(kuò)大到427×427,但仍不足以應(yīng)對更大尺寸的文本信息;經(jīng)過SWT階段后所得檢測結(jié)果如圖(c)所示,檢測框完整檢測到了所有的文本信息,補(bǔ)全了長文本缺失的首尾部分。

圖7 文中算法檢測結(jié)果

表1為文中算法與EAST算法以及其他同期算法在ICDAR2015測試集上進(jìn)行的實(shí)驗(yàn)結(jié)果對比。

表1 ICDAR2015數(shù)據(jù)集上算法評估結(jié)果

從表1中可以看出,文中算法相比于EAST算法,準(zhǔn)確率、召回率、F值分別提高了4.5百分點(diǎn)、3.1百分點(diǎn)、3.7百分點(diǎn)。且與其他基于回歸的檢測算法相比,文中算法的檢測效果也更好。這是由于引入的殘差結(jié)構(gòu)加深了網(wǎng)絡(luò)的深度,使得網(wǎng)絡(luò)的學(xué)習(xí)能力更強(qiáng),且融合了與真實(shí)文本框中心點(diǎn)間距離的損失函數(shù)能夠更好地校準(zhǔn)預(yù)測文本框的位置。

為了驗(yàn)證文中算法在長文本檢測方面的優(yōu)勢,進(jìn)一步在MSRA-TD500數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。表2為文中算法與其他算法的檢測結(jié)果對比。

表2 MSRA-TD500數(shù)據(jù)集上算法評估結(jié)果

從表2中可以看出,與EAST算法相比,文中算法在準(zhǔn)確率、召回率、F值上分別提高了2.3百分點(diǎn)、6.4百分點(diǎn)、4.9百分點(diǎn),與同期其他算法相比各項(xiàng)指標(biāo)也都具有較大優(yōu)勢。由于MSRA-TD500數(shù)據(jù)集以文本行為標(biāo)注,且包含較多長文本,進(jìn)一步驗(yàn)證了文中算法的有效性,尤其是SWT階段能夠有效地補(bǔ)全漏檢的長文本字符,改善長文本的檢測效果。

4 結(jié)束語

該文提出了一種基于殘差網(wǎng)絡(luò)及筆畫寬度變換的自然場景文本檢測算法。在特征融合階段,增加網(wǎng)絡(luò)層數(shù)以提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,同時(shí)擴(kuò)大感受野,提高對大尺度文本的檢測能力,并且利用殘差結(jié)構(gòu)解決梯度消失問題。而后,將預(yù)測文本框與真實(shí)文本框中心點(diǎn)間的距離作為懲罰項(xiàng)加入損失函數(shù),解決了傳統(tǒng)IoU損失在預(yù)測框與文本框不相交時(shí)梯度無法回傳的問題,并在相交的情況下也能有效區(qū)分重疊方式。最后,增加了SWT階段,對預(yù)測文本框進(jìn)行擴(kuò)展,依據(jù)筆畫寬度等條件補(bǔ)全缺失的長文本信息。該算法在ICDAR2015和MSRA-TD500數(shù)據(jù)集上進(jìn)行測試,都取得了不錯(cuò)的效果,相比于EAST算法,檢測結(jié)果都有所提升,驗(yàn)證了算法的有效性。此外,該算法主要針對的是矩形傾斜文本,在后續(xù)的研究工作中,將考慮SWT階段在任意形狀四邊形文本或曲形文本檢測中的應(yīng)用。

猜你喜歡
文本檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
小波變換在PCB缺陷檢測中的應(yīng)用
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 亚洲精品第1页| 国产激情影院| 久久久久九九精品影院| 欧美成人二区| 天堂久久久久久中文字幕| 狠狠色丁香婷婷| 99在线观看国产| 午夜精品一区二区蜜桃| 成年女人18毛片毛片免费| 久久精品国产免费观看频道| 嫩草国产在线| 91九色国产porny| 美女一级毛片无遮挡内谢| 2021精品国产自在现线看| 国产在线观看第二页| 人妻一本久道久久综合久久鬼色| 国产欧美日韩另类精彩视频| 2021天堂在线亚洲精品专区| 成人午夜免费视频| 久草青青在线视频| 免费在线国产一区二区三区精品| 免费全部高H视频无码无遮掩| 国产黄色爱视频| 久久久成年黄色视频| 国产大片喷水在线在线视频| 亚洲综合九九| 亚洲欧美日本国产综合在线| 网友自拍视频精品区| 国产成人啪视频一区二区三区 | 欧美精品1区| 国产第一色| 四虎永久在线视频| 国产精品一区在线麻豆| 亚洲天堂在线视频| 极品私人尤物在线精品首页 | 国产丝袜第一页| 一级毛片不卡片免费观看| 色偷偷综合网| 中文字幕久久波多野结衣| 日韩在线成年视频人网站观看| 国产亚洲成AⅤ人片在线观看| 国产白丝av| 国产伦片中文免费观看| 成人年鲁鲁在线观看视频| 久久久久青草大香线综合精品 | 国产麻豆福利av在线播放| 中文字幕免费在线视频| 57pao国产成视频免费播放| 日本a∨在线观看| 五月激情婷婷综合| 国产精品林美惠子在线观看| 国产精品尤物铁牛tv| 欧美日韩午夜视频在线观看| 亚洲人成网线在线播放va| 美女毛片在线| 国产精品亚洲五月天高清| 天天躁夜夜躁狠狠躁图片| 国模视频一区二区| 国产精品xxx| 亚洲精品无码专区在线观看| 国产白浆视频| 一本无码在线观看| 老司国产精品视频| 日韩二区三区| 久久semm亚洲国产| 在线精品视频成人网| 国产91高清视频| 亚洲天堂网2014| 国产精品一区在线观看你懂的| 国产精品va免费视频| 亚洲无码在线午夜电影| 国产福利免费在线观看| 在线国产91| 国产成人精品午夜视频'| 激情成人综合网| 婷婷成人综合| 91偷拍一区| AV不卡在线永久免费观看| 亚洲无码精品在线播放| 成人免费午夜视频| 黄色三级网站免费| 色成人亚洲|