基于殘差網(wǎng)絡(luò)及筆畫寬度變換的場景文本檢測

2023-02-05 11:30:58方承志倪夢媛

計(jì)算機(jī)技術(shù)與發(fā)展 2023年1期

關(guān)鍵詞：文本檢測

方承志，倪夢媛，唐亮

(南京郵電大學(xué) 電子與光學(xué)工程學(xué)院、微電子學(xué)院，江蘇南京 210023)

0 引言

自然場景中的文本檢測在智能交通系統(tǒng)[1]、自動化設(shè)計(jì)[2]、人工智能[3]、可穿戴便攜式視覺系統(tǒng)[4]等多個(gè)領(lǐng)域都有著重要作用。

傳統(tǒng)的文本檢測方法主要是使用人工設(shè)計(jì)和傳統(tǒng)分類器，如SWT(Stroke Width Transform，筆畫寬度變換)[5]和MSER(Maximally Stable Extremal Regions，最大穩(wěn)定極值區(qū)域)[6]，這些算法主要通過檢測邊緣或提取圖像極端區(qū)域來檢測字符，然后基于自定義規(guī)則或訓(xùn)練的分類器將提取的組件組合成文本區(qū)域。但這類方法在涉及連接字符、分割筆畫字符或者不均勻照明時(shí)會表現(xiàn)不佳，無法適用于復(fù)雜場景中的文本檢測。

基于深度學(xué)習(xí)的文本檢測方法讓計(jì)算機(jī)自動學(xué)習(xí)數(shù)據(jù)的有效特征表示。主要分為基于分割和基于回歸兩類。基于回歸的文本檢測方法是將文本視為一種檢測目標(biāo)，利用深度學(xué)習(xí)框架對目標(biāo)定位坐標(biāo)進(jìn)行回歸。這種方法根據(jù)是否預(yù)設(shè)錨框可以分為間接回歸和直接回歸。間接回歸法(如Textboxes[7]、Textboxes++[8]等)采用長矩形錨框，DeepText[9]等利用k-means聚類的方法產(chǎn)生錨框，然后利用錨框回歸相對候選框偏移的文本框坐標(biāo)，其缺點(diǎn)是中間過程冗長，且需要大量錨框覆蓋檢測物體，而其中只有一小部分錨框?yàn)檎龢颖荆菀桩a(chǎn)生正負(fù)樣本失衡。直接回歸法則舍棄錨框，直接將特征圖通過網(wǎng)絡(luò)框架檢測出文本行的坐標(biāo)。例如EAST[10]算法，僅包含F(xiàn)CN(Full Convolutional Network，全卷積網(wǎng)絡(luò))[11]和NMS(Non-Maximum Suppression，非極大值抑制)兩步，但受感受野的限制，對長文本檢測效果不好。Advanced EAST等算法[12-14]通過改變回歸目標(biāo)來改善長文本的檢測，但標(biāo)簽生成過程復(fù)雜，且對密集文本檢測效果變差。因此，需要更有效的方法來解決此問題。

該文在EAST[10]算法的基礎(chǔ)上進(jìn)行改進(jìn)，提出了一種基于殘差網(wǎng)絡(luò)及筆畫寬度變換的文本檢測算法，不僅提高了算法的準(zhǔn)確度，還有效改善了對長文本的檢測效果。首先，在特征提取階段引入殘差結(jié)構(gòu)[15]，增加網(wǎng)絡(luò)深度并提升學(xué)習(xí)精度，同時(shí)避免產(chǎn)生梯度消失問題。其次，采用DIoU(Distance Intersection over Union，距離交并比)[16]計(jì)算幾何損失函數(shù)，在原IoU(Intersection over Union，交并比)損失[17]的基礎(chǔ)上加上預(yù)測框與真實(shí)框的中心點(diǎn)之間的距離作為懲罰項(xiàng)，使得檢測效果更好。最后，增加了SWT階段來解決長文本首尾丟失問題，將網(wǎng)絡(luò)生成的文本框向首尾兩側(cè)按一定規(guī)則擴(kuò)大，并進(jìn)行筆畫寬度變換[5]，根據(jù)條件判斷并補(bǔ)全長文本檢測框。

1 EAST算法分析

EAST算法[10]是一種端到端的文本檢測算法，能夠直接預(yù)測圖像中任意方向的文本或文本行，消除不必要的中間步驟，其過程簡化為兩個(gè)階段：FCN階段和NMS階段。

其網(wǎng)絡(luò)結(jié)構(gòu)分為特征提取層、特征融合層和輸出層三部分。實(shí)驗(yàn)中特征提取層將VGG16作為網(wǎng)絡(luò)結(jié)構(gòu)的骨干，通過四個(gè)卷積塊獲取不同尺度的特征圖，以實(shí)現(xiàn)對不同尺度文本行的檢測。在特征融合層，逐層將后一層的特征圖通過上采樣后與前一層特征圖進(jìn)行局部信息融合，將最終結(jié)果輸出到輸出層。輸出層輸出置信度信息和幾何位置信息。對于傾斜矩形文本框Q(x,y,w,h,θ)，輸出的位置信息為像素點(diǎn)到四個(gè)邊的距離以及矩形文本框的旋轉(zhuǎn)角度。損失函數(shù)由分類損失和幾何損失兩部分組成。分類損失采用類平衡交叉熵?fù)p失[18]以平衡正負(fù)樣本；幾何損失的計(jì)算采用對尺度不敏感的損失，即IoU損失[17]。

NMS階段采用局部感知NMS算法[10]。在假設(shè)來自附近像素的幾何圖形傾向于高度相關(guān)的情況下，提出逐行合并幾何圖形，并且在合并同一行中的幾何圖形時(shí)，迭代合并當(dāng)前遇到的幾何圖形與最后一個(gè)合并圖形。這種方法合并的文本框坐標(biāo)是通過兩個(gè)給定檢測框的坐標(biāo)按得分進(jìn)行加權(quán)平均獲得的，采取這種方法可以將所有框的坐標(biāo)信息都加以利用，而不像常規(guī)NMS一樣直接棄掉得分低的框，也許會丟失信息。

但EAST算法對長文本的檢測效果較差，這主要是由感受野不夠大導(dǎo)致的[10]。其特征提取網(wǎng)絡(luò)層數(shù)為16層，經(jīng)過5次池化，stage4輸出的特征圖感受野大小為212×212，而感受野內(nèi)特征點(diǎn)的有效性類高斯分布由中心向邊緣遞減，因此有效感受野的范圍更小，導(dǎo)致該算法對長文本，尤其是貫穿圖片的長文本檢測效果不好，容易出現(xiàn)文本的首尾部分丟失的情況。

此外，損失函數(shù)所采取的IoU損失，僅通過交并比計(jì)算損失，缺少對準(zhǔn)確位置問題的區(qū)分和調(diào)整，一定程度上影響了預(yù)測的準(zhǔn)確度。同樣的問題也出現(xiàn)在許多其他直接回歸文本框的算法中。

要通過深度學(xué)習(xí)的方法改善長文本檢測的效果，一種思路是改變回歸目標(biāo)，但往往會帶來其他問題，例如回歸像素點(diǎn)到文本框邊界的距離，對小文本的檢測效果并不好，尤其是在檢測密集文本時(shí)容易產(chǎn)生邊界錯(cuò)亂。且目前常用的數(shù)據(jù)集并沒有可以直接使用的標(biāo)注，因此這種方法還需要復(fù)雜的標(biāo)簽生成過程。另一種思路是增加網(wǎng)絡(luò)深度以及池化次數(shù)來擴(kuò)大感受野，但更深層所提取的特征圖會損失更多的小尺度信息，對小文本的檢測效果將會變差。且由于深度神經(jīng)網(wǎng)絡(luò)是通過損失函數(shù)梯度的反向傳播來指導(dǎo)權(quán)值的更新優(yōu)化，單純增加網(wǎng)絡(luò)深度，梯度逐層累乘，容易出現(xiàn)梯度消失現(xiàn)象，淺層參數(shù)無法更新，網(wǎng)絡(luò)難以收斂。此外神經(jīng)網(wǎng)絡(luò)并不是越深越好，當(dāng)超過一定層數(shù)時(shí)，要繼續(xù)提高精度所需要的網(wǎng)絡(luò)層數(shù)呈指數(shù)級增長，所帶來的參數(shù)量和計(jì)算量的挑戰(zhàn)都十分巨大。因此，該文考慮將深度學(xué)習(xí)與傳統(tǒng)算法相結(jié)合，更為簡單快捷地改善長文本檢測。

2 基于殘差網(wǎng)絡(luò)及SWT的文本檢測

2.1 算法流程

為了提升模型精度，改善對長文本的檢測效果，該文提出了一種基于殘差網(wǎng)絡(luò)及SWT的自然場景文本檢測算法。主要從三個(gè)方面對EAST算法進(jìn)行改進(jìn)。一是增加特征提取層的網(wǎng)絡(luò)深度，為了防止網(wǎng)絡(luò)退化和梯度消失，引入了殘差結(jié)構(gòu)。二是在損失函數(shù)中增加一個(gè)懲罰項(xiàng)，提高預(yù)測框回歸的準(zhǔn)確度。三是在NMS階段后，增加一步SWT階段，通過局部性的筆畫寬度變換，依據(jù)設(shè)定的條件，補(bǔ)全缺失的長文本檢測框。

算法流程如圖1所示。

圖1 基于殘差網(wǎng)絡(luò)及SWT的文本檢測算法流程

首先，將圖像送入殘差網(wǎng)絡(luò)，通過四個(gè)stage提取不同尺度的特征圖，每個(gè)stage都包含若干殘差塊；然后，通過對特征圖上采樣和通道拼接逐層進(jìn)行特征融合，得到融合后的特征圖h4；再經(jīng)過一個(gè)卷積層輸出得分圖及預(yù)測文本框的位置信息；之后，使用位置感知的NMS，獲取得分高的預(yù)測文本框；最后，將預(yù)測文本框送入SWT階段，檢查文本框兩側(cè)是否存在未檢測到的字符，若存在，則將其補(bǔ)全。

2.2 殘差網(wǎng)絡(luò)結(jié)構(gòu)

該文考慮增加網(wǎng)絡(luò)層數(shù)來提取更深層次的網(wǎng)絡(luò)信息，提高學(xué)習(xí)的準(zhǔn)確度，同時(shí)還能增大感受野。但隨著網(wǎng)絡(luò)加深，容易出現(xiàn)網(wǎng)絡(luò)退化的問題，這是由于在反向傳播的過程中，梯度逐漸消失，無法對前面的網(wǎng)絡(luò)層權(quán)重進(jìn)行有效的調(diào)整。為了解決這一問題，引入了殘差網(wǎng)絡(luò)結(jié)構(gòu)[15](見圖2)。

圖2 殘差結(jié)構(gòu)

假設(shè)某段網(wǎng)絡(luò)的輸入為x，期望輸出為H(x)。在殘差網(wǎng)絡(luò)結(jié)構(gòu)中，通過捷徑連接直接將輸入x傳到輸出作為初始結(jié)果，網(wǎng)絡(luò)學(xué)習(xí)的將是輸入和輸出的差值，即殘差F(x)=H(x)-x，訓(xùn)練的目的是使殘差結(jié)果逼近于0，相比于訓(xùn)練一個(gè)等價(jià)映射，這樣訓(xùn)練的難度要大大降低。

在原網(wǎng)絡(luò)的基礎(chǔ)上引入殘差網(wǎng)絡(luò)結(jié)構(gòu)。每個(gè)stage主要包含兩種模塊，Conv Block和Identity Block[15]，如圖3所示，其中包含若干卷積層、BN(Batch Normalization，批歸一化)層和ReLU(Rectified Linear Unit，修正線性單元)激活函數(shù)層。Conv Block輸入和輸出的維度不同，捷徑連接處用1×1的卷積層降維，它的作用是改變網(wǎng)絡(luò)的維度。而Identity Block輸入和輸出維度相同，直接將輸入加到最后的輸出上，它的作用是加深網(wǎng)絡(luò)的深度。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖3 殘差模塊結(jié)構(gòu)

輸入圖像在特征提取層首先通過7×7的卷積和池化，然后通過4個(gè)stage獲取不同尺度的特征圖f4、f3、f2、f1，尺寸分別為原圖的1/4、1/8、1/16、1/32，通道數(shù)分別為64、128、256、512。而后在特征融合層，底層特征圖h1經(jīng)過上采樣將尺寸放大一倍，然后與上一層特征圖f2進(jìn)行通道拼接，再經(jīng)過1×1卷積核減少通道數(shù)，經(jīng)3×3卷積核將特征信息融合得到特征圖h2。重復(fù)上述操作，逐層進(jìn)行特征融合，得到尺寸為原圖1/4的特征圖h4。特征融合層滿足：

(1)

(2)

其中，gi為特征融合基，hi為融合特征圖，[·;·]表示二者通道拼接，通道數(shù)增加。

圖4 改進(jìn)的殘差網(wǎng)絡(luò)結(jié)構(gòu)

融合后的特征圖h4經(jīng)32核3×3的卷積層送入輸出層。在輸出層分別經(jīng)過1×1的卷積核，輸出1維得分圖score map、4維頂點(diǎn)偏移信息和1維旋轉(zhuǎn)角度信息。

利用殘差結(jié)構(gòu)來增加網(wǎng)絡(luò)的深度，擴(kuò)大感受野，可以有效提高網(wǎng)絡(luò)性能。改進(jìn)后的特征提取網(wǎng)絡(luò)層數(shù)增加到49層，同時(shí)感受野增加到427×427。此外，殘差網(wǎng)絡(luò)采用1×1和3×3的卷積核來組合成模塊結(jié)構(gòu)，與僅使用3×3卷積核的VGG網(wǎng)絡(luò)相比，大幅減少了計(jì)算量和參數(shù)量，不僅準(zhǔn)確度大大提高，而且計(jì)算效率也有所提升。

2.3 改進(jìn)型損失函數(shù)

原算法所采用的IoU損失[17]計(jì)算的是預(yù)測文本框和真實(shí)文本框的交集與并集之比。該算法對尺度不敏感，即不受目標(biāo)物體尺度大小的影響，但是這種算法無法指示出預(yù)測框與真實(shí)文本框的重疊方式的差異。如圖5所示，圖(a)和圖(b)，其預(yù)測框與真實(shí)框都不相交，無論與真實(shí)框的距離遠(yuǎn)近，二者的IoU都為0，此時(shí)的IoU損失在訓(xùn)練中無法回傳梯度進(jìn)行更新，但顯然圖(a)的預(yù)測框比圖(b)更接近真實(shí)文本框；圖(c)和圖(d)預(yù)測框都與真實(shí)框相交，雖然重疊方式不同，但I(xiàn)oU相同，二者在訓(xùn)練過程中無法通過IoU損失進(jìn)行區(qū)分，但顯然圖(c)預(yù)測框的中心點(diǎn)與真實(shí)文本框更接近，預(yù)測的效果也比圖(d)更好。

通過以上例子不難發(fā)現(xiàn)，在預(yù)測框與真實(shí)框IoU相同的情況下，兩者中心點(diǎn)間的距離越小，預(yù)測結(jié)果越接近真實(shí)值，檢測效果越好。因此，采用DIoU Loss來計(jì)算損失函數(shù)，即在IoU Loss的基礎(chǔ)上，將預(yù)測框與真實(shí)框中心點(diǎn)間的距離作為懲罰項(xiàng)引入損失函數(shù)計(jì)算中，用以區(qū)分與真實(shí)框不同重疊方式的預(yù)測框。改進(jìn)后的損失函數(shù)Loss由分類損失Ls和幾何損失Lg組成，滿足下式：

圖5 預(yù)測框與文本框IoU效果示意圖

Loss=Ls+λgLg

(3)

其中，λg為幾何損失權(quán)重。分類損失Ls采用類平衡交叉熵?fù)p失平衡正負(fù)樣本，滿足下式：

Ls=-βYgtlogY-(1-β)(1-Ygt)log(1-Y)

(4)

幾何損失Lg由邊界框位置損失LQ和旋轉(zhuǎn)角度損失Lθ組成，LQ采用DIoU計(jì)算損失，滿足下式：

Lg=LQ+λθLθ

(5)

(6)

Lθ=1-cos(θ-θgt)

(7)

其中，λg為損失權(quán)重，Y為預(yù)測得分，Ygt為真值，β為正負(fù)樣本的平衡因子；R為預(yù)測的文本框，Rgt為真實(shí)文本框，d(c,cgt)為預(yù)測框中心點(diǎn)c與真實(shí)框中心點(diǎn)cgt間的歐氏距離；λθ、λd分別是旋轉(zhuǎn)角度損失和懲罰項(xiàng)的權(quán)重；p為能夠同時(shí)覆蓋檢測框和真實(shí)框的最小矩形的對角線長度，在此起歸一化的作用，使損失適用于不同大小的文本檢測。

相比于IoU Loss，DIoU Loss同樣具有尺度不變性，且在檢測框與真實(shí)框不重疊時(shí)，后者可以為邊界框提供移動方向。對于重疊的框，DIoU通過懲罰項(xiàng)優(yōu)化檢測框與真實(shí)框之間的距離，能夠分辨不同的重疊方式。

2.4 筆畫寬度變換(SWT)階段

對于長文本的檢測，原EAST算法的弊端在于感受野受限，盡管通過增加網(wǎng)絡(luò)深度、空洞卷積[19]等方法可以擴(kuò)大感受野，但在圖片較大時(shí)，仍不足以獲得較好的檢測效果。且一味增加網(wǎng)絡(luò)深度，淺層特征的學(xué)習(xí)能力會下降，從而影響檢測效果。一些算法[12-14]通過改變回歸目標(biāo)來避免感受野受限的問題，但往往需要復(fù)雜的標(biāo)簽生成過程和后處理過程，且在文本密集的情況下容易邊界錯(cuò)亂。因此，該文考慮增加一個(gè)SWT階段，通過傳統(tǒng)的筆畫寬度判定預(yù)測文本框兩側(cè)是否存在漏檢的文本，從而對長文本進(jìn)行補(bǔ)全。

筆畫寬度變換(SWT)[5]利用筆畫寬度，即平行字符邊緣的點(diǎn)對之間的距離，進(jìn)行文本和非文本的區(qū)分。筆畫寬度是文字所獨(dú)有的特征，一般的自然場景文本圖像中的字符的筆畫寬度值通常比較穩(wěn)定，非字符的筆畫寬度值一般變化較大，因此，可以利用筆畫寬度值對一些非文本區(qū)域進(jìn)行剔除。SWT算法首先利用Canny算子獲得邊緣圖像，對每個(gè)邊緣像素點(diǎn)沿梯度方向搜索組成像素點(diǎn)對；然后將路徑上的像素賦值為所組成的點(diǎn)對之間的距離，即為筆畫寬度。具體算法流程如算法1所示。

算法1：筆畫寬度變換算法。

輸入：圖片S。

輸出：筆畫寬度圖S'。

Step1：設(shè)S'每一個(gè)像素點(diǎn)的筆畫寬度初始值設(shè)置為無窮大；利用Canny算子對圖片S進(jìn)行邊緣檢測，取得邊緣圖像，并獲取邊緣像素點(diǎn)的梯度方向。

Step2：設(shè)p是邊緣圖像一個(gè)邊緣上的像素點(diǎn)，根據(jù)其梯度方向dp沿著路徑r=p+n*dp(n≥0)查找對應(yīng)邊緣上的一個(gè)像素點(diǎn)q，其梯度方向?yàn)閐q。

Step4：重復(fù)Step2、Step3，直至標(biāo)記該圖像上所有沒被廢棄掉的路徑上像素的筆畫寬度值。若有像素點(diǎn)被多次賦值，則保留最小值。

Step5：矯正拐點(diǎn)，計(jì)算每一條路徑上的所有像素的筆畫寬度的中值，若該路徑上像素點(diǎn)的筆畫寬度值大于中值，則對該像素點(diǎn)賦值為該路徑上筆畫寬度的中值。

Step6：由于存在亮底暗字背景和暗底亮字背景兩種情況，從梯度相反方向重復(fù)Step2至Step5進(jìn)行二次搜索。

Step7：若8鄰域內(nèi)像素與中心像素的筆畫寬度之比在[1/3,3]內(nèi)，則聚合成連通域。計(jì)算每個(gè)有效連通域的筆畫寬度的均值和方差，濾除方差大于閾值varth的連通域。

該文提出的SWT階段需要將預(yù)測框向首尾兩側(cè)擴(kuò)展一定的寬度，分別對預(yù)測框內(nèi)和擴(kuò)展區(qū)域進(jìn)行SWT，獲得區(qū)域內(nèi)的筆畫寬度信息，而后按照給定的條件判斷擴(kuò)展區(qū)域內(nèi)是否存在漏檢字符。這樣可以有效摒除復(fù)雜環(huán)境的干擾，克服SWT本身魯棒性差的缺點(diǎn)。

自然場景中的文本形狀較為規(guī)則，在預(yù)測框具有良好包裹性的情況下，預(yù)測框的高度大致就是一個(gè)字符的寬度，考慮到字符間可能存在間隙，該文將擴(kuò)展區(qū)域的寬度設(shè)定為預(yù)測框高的1.5倍。對于前述網(wǎng)絡(luò)所得的預(yù)測文本框R(x,y,w,h,θ)，其中心點(diǎn)坐標(biāo)為(x,y)，寬度為w，高度為h，旋轉(zhuǎn)角度為θ。將文本框向首尾兩側(cè)各擴(kuò)展1.5h，則兩側(cè)擴(kuò)展區(qū)域分別為Re1(x-(w+1.5h)cosθ/2，y+(w+1.5h)sinθ/2,1.5h,h)、Re2(x+(w+1.5h)cosθ/2,y-(w+1.5h)sinθ/2, 1.5h,h)，如圖6陰影部分所示。

圖6 文本框擴(kuò)展區(qū)域示意圖

分別對預(yù)測文本框R和擴(kuò)展區(qū)域Re1和Re2做SWT，獲取三個(gè)區(qū)域內(nèi)的筆畫寬度特征信息。若擴(kuò)展區(qū)域內(nèi)不存在與R相似的筆畫特征信息，則保持原預(yù)測結(jié)果；否則認(rèn)為存在漏檢的文本內(nèi)容，并根據(jù)漏檢字符的坐標(biāo)形成新的文本框左右邊界。而后再次擴(kuò)展，重復(fù)以上過程，直至沒有新的漏檢字符出現(xiàn)，從而解決長文本兩側(cè)不全的問題。具體算法流程如算法2所示。

算法2：SWT階段算法。

輸入：預(yù)測文本框R。

輸出：補(bǔ)全的預(yù)測文本框R*。

Step1：對預(yù)測框R進(jìn)行SWT，獲得筆畫寬度圖，形成連通域，并濾除方差大于閾值varth的連通域，計(jì)算整個(gè)預(yù)測框內(nèi)有效文本區(qū)域的筆畫寬度均值meanpr令R*=R。

Step2：將R*向首尾兩側(cè)各擴(kuò)展1.5h，獲得擴(kuò)展區(qū)域Re1和Re2，若擴(kuò)展區(qū)域與其他預(yù)測框相交則相交區(qū)域置零。

Step3：分別對擴(kuò)展區(qū)域Re1和Re2進(jìn)行SWT，濾除方差大于閾值varth的連通域，計(jì)算每個(gè)連通域的筆畫寬度均值mean。

Step4：若存在連通域，其1/3≤mean/meanpr≤3，則判斷該連通域?yàn)樽址?/p>

Step5：若字符屬于區(qū)域Re1，則將連通域內(nèi)橫坐標(biāo)最小的像素點(diǎn)所在的垂直于上下邊界的線作為新的預(yù)測框左側(cè)邊界；同理，若字符屬于區(qū)域Re2，則根據(jù)橫坐標(biāo)最大的像素點(diǎn)確定新的右側(cè)邊界，得到新的文本框R*。

Step6：重復(fù)Step2至Step5，直至沒有新的字符出現(xiàn)。

3 實(shí)驗(yàn)結(jié)果分析

3.1 數(shù)據(jù)集及預(yù)處理

本次實(shí)驗(yàn)采用ICDAR2015和MSRA-TD500數(shù)據(jù)集。

ICDAR2015是目前文本檢測算法中常用的數(shù)據(jù)集，包含500張測試圖像和1 000張訓(xùn)練圖像，所有的圖像尺寸均為720×1 280。該數(shù)據(jù)集圖像從谷歌街景中搜集，標(biāo)注為單詞級別的四個(gè)頂點(diǎn)的坐標(biāo)，文字呈多方向排布，模糊遮擋較多，對算法魯棒性要求高。MSRA-TD500數(shù)據(jù)集包含200張測試圖像和300張訓(xùn)練圖像，分辨率在1 296×864到1 920×1 280之間。該數(shù)據(jù)集包含中英文，大部分文本都在引導(dǎo)牌上，標(biāo)注以行為單位，而不是單詞，每張圖片都完全標(biāo)注，對于長文本的檢測有較高的參考價(jià)值。

由于數(shù)據(jù)集較小，先通過數(shù)據(jù)增強(qiáng)擴(kuò)充數(shù)據(jù)集，對圖像進(jìn)行裁剪、移位、亮度增強(qiáng)、對比度增強(qiáng)、水平翻轉(zhuǎn)和隨機(jī)方向旋轉(zhuǎn)，將ICDAR2015擴(kuò)充到7 000張，將MSRA-TD500擴(kuò)充到5 000張。

3.2 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

實(shí)驗(yàn)是在Python3.7下基于keras深度學(xué)習(xí)框架編寫，采用自適應(yīng)矩估計(jì)(Adaptive Moment Estimation，Adam)優(yōu)化器[20]優(yōu)化模型，學(xué)習(xí)率設(shè)置為3e-4，衰減系數(shù)為1e-4，輸入圖像尺寸為512×512，每次迭代的輸入圖像個(gè)數(shù)為4。

3.3 評價(jià)指標(biāo)

實(shí)驗(yàn)采用標(biāo)準(zhǔn)的自然場景文本檢測評估指標(biāo)，即：準(zhǔn)確率(P)、召回率(R)、F值(F)，計(jì)算公式分別為：

(8)

(9)

(10)

其中，TP表示檢測正確的文本框數(shù)量；D表示模型檢測出的文本框數(shù)量；G表示真實(shí)的文本框數(shù)量。若檢測結(jié)果與真實(shí)文本框之間的交并比大于閾值(閾值取0.5)，則認(rèn)為該檢測結(jié)果是正確的。F值是準(zhǔn)確率和召回率的調(diào)和平均數(shù)，用以綜合評估模型的性能。

3.4 結(jié)果分析

文中算法與EAST算法的檢測結(jié)果如圖7所示。原圖為MSRA-TD500中的一張圖片，EAST算法的檢測結(jié)果如圖(a)所示，對于長文本“中關(guān)村廣場購物中心”以及“ZHONGGUANCUN”，其檢測框不能完全覆蓋文本內(nèi)容，遺漏較多文本信息；通過改進(jìn)后的網(wǎng)絡(luò)而未經(jīng)過SWT階段預(yù)測所得的文本框如圖(b)所示，相比于EAST算法已經(jīng)有了較大的改進(jìn)，其文本框覆蓋文本內(nèi)容更加完整，但對于其中較長的文本首尾的“中”和“心”字仍然未能完全檢測到，這是由于改進(jìn)后的網(wǎng)絡(luò)雖然將感受野擴(kuò)大到427×427，但仍不足以應(yīng)對更大尺寸的文本信息；經(jīng)過SWT階段后所得檢測結(jié)果如圖(c)所示，檢測框完整檢測到了所有的文本信息，補(bǔ)全了長文本缺失的首尾部分。

圖7 文中算法檢測結(jié)果

表1為文中算法與EAST算法以及其他同期算法在ICDAR2015測試集上進(jìn)行的實(shí)驗(yàn)結(jié)果對比。

表1 ICDAR2015數(shù)據(jù)集上算法評估結(jié)果

從表1中可以看出，文中算法相比于EAST算法，準(zhǔn)確率、召回率、F值分別提高了4.5百分點(diǎn)、3.1百分點(diǎn)、3.7百分點(diǎn)。且與其他基于回歸的檢測算法相比，文中算法的檢測效果也更好。這是由于引入的殘差結(jié)構(gòu)加深了網(wǎng)絡(luò)的深度，使得網(wǎng)絡(luò)的學(xué)習(xí)能力更強(qiáng)，且融合了與真實(shí)文本框中心點(diǎn)間距離的損失函數(shù)能夠更好地校準(zhǔn)預(yù)測文本框的位置。

為了驗(yàn)證文中算法在長文本檢測方面的優(yōu)勢，進(jìn)一步在MSRA-TD500數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。表2為文中算法與其他算法的檢測結(jié)果對比。

表2 MSRA-TD500數(shù)據(jù)集上算法評估結(jié)果

從表2中可以看出，與EAST算法相比，文中算法在準(zhǔn)確率、召回率、F值上分別提高了2.3百分點(diǎn)、6.4百分點(diǎn)、4.9百分點(diǎn)，與同期其他算法相比各項(xiàng)指標(biāo)也都具有較大優(yōu)勢。由于MSRA-TD500數(shù)據(jù)集以文本行為標(biāo)注，且包含較多長文本，進(jìn)一步驗(yàn)證了文中算法的有效性，尤其是SWT階段能夠有效地補(bǔ)全漏檢的長文本字符，改善長文本的檢測效果。

4 結(jié)束語

該文提出了一種基于殘差網(wǎng)絡(luò)及筆畫寬度變換的自然場景文本檢測算法。在特征融合階段，增加網(wǎng)絡(luò)層數(shù)以提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力，同時(shí)擴(kuò)大感受野，提高對大尺度文本的檢測能力，并且利用殘差結(jié)構(gòu)解決梯度消失問題。而后，將預(yù)測文本框與真實(shí)文本框中心點(diǎn)間的距離作為懲罰項(xiàng)加入損失函數(shù)，解決了傳統(tǒng)IoU損失在預(yù)測框與文本框不相交時(shí)梯度無法回傳的問題，并在相交的情況下也能有效區(qū)分重疊方式。最后，增加了SWT階段，對預(yù)測文本框進(jìn)行擴(kuò)展，依據(jù)筆畫寬度等條件補(bǔ)全缺失的長文本信息。該算法在ICDAR2015和MSRA-TD500數(shù)據(jù)集上進(jìn)行測試，都取得了不錯(cuò)的效果，相比于EAST算法，檢測結(jié)果都有所提升，驗(yàn)證了算法的有效性。此外，該算法主要針對的是矩形傾斜文本，在后續(xù)的研究工作中，將考慮SWT階段在任意形狀四邊形文本或曲形文本檢測中的應(yīng)用。