方承志,倪夢媛,唐 亮
(南京郵電大學(xué) 電子與光學(xué)工程學(xué)院、微電子學(xué)院,江蘇 南京 210023)
自然場景中的文本檢測在智能交通系統(tǒng)[1]、自動化設(shè)計(jì)[2]、人工智能[3]、可穿戴便攜式視覺系統(tǒng)[4]等多個(gè)領(lǐng)域都有著重要作用。
傳統(tǒng)的文本檢測方法主要是使用人工設(shè)計(jì)和傳統(tǒng)分類器,如SWT(Stroke Width Transform,筆畫寬度變換)[5]和MSER(Maximally Stable Extremal Regions,最大穩(wěn)定極值區(qū)域)[6],這些算法主要通過檢測邊緣或提取圖像極端區(qū)域來檢測字符,然后基于自定義規(guī)則或訓(xùn)練的分類器將提取的組件組合成文本區(qū)域。但這類方法在涉及連接字符、分割筆畫字符或者不均勻照明時(shí)會表現(xiàn)不佳,無法適用于復(fù)雜場景中的文本檢測。
基于深度學(xué)習(xí)的文本檢測方法讓計(jì)算機(jī)自動學(xué)習(xí)數(shù)據(jù)的有效特征表示。主要分為基于分割和基于回歸兩類。基于回歸的文本檢測方法是將文本視為一種檢測目標(biāo),利用深度學(xué)習(xí)框架對目標(biāo)定位坐標(biāo)進(jìn)行回歸。這種方法根據(jù)是否預(yù)設(shè)錨框可以分為間接回歸和直接回歸。間接回歸法(如Textboxes[7]、Textboxes++[8]等)采用長矩形錨框,DeepText[9]等利用k-means聚類的方法產(chǎn)生錨框,然后利用錨框回歸相對候選框偏移的文本框坐標(biāo),其缺點(diǎn)是中間過程冗長,且需要大量錨框覆蓋檢測物體,而其中只有一小部分錨框?yàn)檎龢颖荆菀桩a(chǎn)生正負(fù)樣本失衡。直接回歸法則舍棄錨框,直接將特征圖通過網(wǎng)絡(luò)框架檢測出文本行的坐標(biāo)。例如EAST[10]算法,僅包含F(xiàn)CN(Full Convolutional Network,全卷積網(wǎng)絡(luò))[11]和NMS(Non-Maximum Suppression,非極大值抑制)兩步,但受感受野的限制,對長文本檢測效果不好。Advanced EAST等算法[12-14]通過改變回歸目標(biāo)來改善長文本的檢測,但標(biāo)簽生成過程復(fù)雜,且對密集文本檢測效果變差。因此,需要更有效的方法來解決此問題。
該文在EAST[10]算法的基礎(chǔ)上進(jìn)行改進(jìn),提出了一種基于殘差網(wǎng)絡(luò)及筆畫寬度變換的文本檢測算法,不僅提高了算法的準(zhǔn)確度,還有效改善了對長文本的檢測效果。首先,在特征提取階段引入殘差結(jié)構(gòu)[15],增加網(wǎng)絡(luò)深度并提升學(xué)習(xí)精度,同時(shí)避免產(chǎn)生梯度消失問題。其次,采用DIoU(Distance Intersection over Union,距離交并比)[16]計(jì)算幾何損失函數(shù),在原IoU(Intersection over Union,交并比)損失[17]的基礎(chǔ)上加上預(yù)測框與真實(shí)框的中心點(diǎn)之間的距離作為懲罰項(xiàng),使得檢測效果更好。最后,增加了SWT階段來解決長文本首尾丟失問題,將網(wǎng)絡(luò)生成的文本框向首尾兩側(cè)按一定規(guī)則擴(kuò)大,并進(jìn)行筆畫寬度變換[5],根據(jù)條件判斷并補(bǔ)全長文本檢測框。
EAST算法[10]是一種端到端的文本檢測算法,能夠直接預(yù)測圖像中任意方向的文本或文本行,消除不必要的中間步驟,其過程簡化為兩個(gè)階段:FCN階段和NMS階段。
其網(wǎng)絡(luò)結(jié)構(gòu)分為特征提取層、特征融合層和輸出層三部分。實(shí)驗(yàn)中特征提取層將VGG16作為網(wǎng)絡(luò)結(jié)構(gòu)的骨干,通過四個(gè)卷積塊獲取不同尺度的特征圖,以實(shí)現(xiàn)對不同尺度文本行的檢測。在特征融合層,逐層將后一層的特征圖通過上采樣后與前一層特征圖進(jìn)行局部信息融合,將最終結(jié)果輸出到輸出層。輸出層輸出置信度信息和幾何位置信息。對于傾斜矩形文本框Q(x,y,w,h,θ),輸出的位置信息為像素點(diǎn)到四個(gè)邊的距離以及矩形文本框的旋轉(zhuǎn)角度。損失函數(shù)由分類損失和幾何損失兩部分組成。分類損失采用類平衡交叉熵?fù)p失[18]以平衡正負(fù)樣本;幾何損失的計(jì)算采用對尺度不敏感的損失,即IoU損失[17]。
NMS階段采用局部感知NMS算法[10]。在假設(shè)來自附近像素的幾何圖形傾向于高度相關(guān)的情況下,提出逐行合并幾何圖形,并且在合并同一行中的幾何圖形時(shí),迭代合并當(dāng)前遇到的幾何圖形與最后一個(gè)合并圖形。這種方法合并的文本框坐標(biāo)是通過兩個(gè)給定檢測框的坐標(biāo)按得分進(jìn)行加權(quán)平均獲得的,采取這種方法可以將所有框的坐標(biāo)信息都加以利用,而不像常規(guī)NMS一樣直接棄掉得分低的框,也許會丟失信息。
但EAST算法對長文本的檢測效果較差,這主要是由感受野不夠大導(dǎo)致的[10]。其特征提取網(wǎng)絡(luò)層數(shù)為16層,經(jīng)過5次池化,stage4輸出的特征圖感受野大小為212×212,而感受野內(nèi)特征點(diǎn)的有效性類高斯分布由中心向邊緣遞減,因此有效感受野的范圍更小,導(dǎo)致該算法對長文本,尤其是貫穿圖片的長文本檢測效果不好,容易出現(xiàn)文本的首尾部分丟失的情況。
此外,損失函數(shù)所采取的IoU損失,僅通過交并比計(jì)算損失,缺少對準(zhǔn)確位置問題的區(qū)分和調(diào)整,一定程度上影響了預(yù)測的準(zhǔn)確度。同樣的問題也出現(xiàn)在許多其他直接回歸文本框的算法中。
要通過深度學(xué)習(xí)的方法改善長文本檢測的效果,一種思路是改變回歸目標(biāo),但往往會帶來其他問題,例如回歸像素點(diǎn)到文本框邊界的距離,對小文本的檢測效果并不好,尤其是在檢測密集文本時(shí)容易產(chǎn)生邊界錯(cuò)亂。且目前常用的數(shù)據(jù)集并沒有可以直接使用的標(biāo)注,因此這種方法還需要復(fù)雜的標(biāo)簽生成過程。另一種思路是增加網(wǎng)絡(luò)深度以及池化次數(shù)來擴(kuò)大感受野,但更深層所提取的特征圖會損失更多的小尺度信息,對小文本的檢測效果將會變差。且由于深度神經(jīng)網(wǎng)絡(luò)是通過損失函數(shù)梯度的反向傳播來指導(dǎo)權(quán)值的更新優(yōu)化,單純增加網(wǎng)絡(luò)深度,梯度逐層累乘,容易出現(xiàn)梯度消失現(xiàn)象,淺層參數(shù)無法更新,網(wǎng)絡(luò)難以收斂。此外神經(jīng)網(wǎng)絡(luò)并不是越深越好,當(dāng)超過一定層數(shù)時(shí),要繼續(xù)提高精度所需要的網(wǎng)絡(luò)層數(shù)呈指數(shù)級增長,所帶來的參數(shù)量和計(jì)算量的挑戰(zhàn)都十分巨大。因此,該文考慮將深度學(xué)習(xí)與傳統(tǒng)算法相結(jié)合,更為簡單快捷地改善長文本檢測。
為了提升模型精度,改善對長文本的檢測效果,該文提出了一種基于殘差網(wǎng)絡(luò)及SWT的自然場景文本檢測算法。主要從三個(gè)方面對EAST算法進(jìn)行改進(jìn)。一是增加特征提取層的網(wǎng)絡(luò)深度,為了防止網(wǎng)絡(luò)退化和梯度消失,引入了殘差結(jié)構(gòu)。二是在損失函數(shù)中增加一個(gè)懲罰項(xiàng),提高預(yù)測框回歸的準(zhǔn)確度。三是在NMS階段后,增加一步SWT階段,通過局部性的筆畫寬度變換,依據(jù)設(shè)定的條件,補(bǔ)全缺失的長文本檢測框。
算法流程如圖1所示。

圖1 基于殘差網(wǎng)絡(luò)及SWT的文本檢測算法流程
首先,將圖像送入殘差網(wǎng)絡(luò),通過四個(gè)stage提取不同尺度的特征圖,每個(gè)stage都包含若干殘差塊;然后,通過對特征圖上采樣和通道拼接逐層進(jìn)行特征融合,得到融合后的特征圖h4;再經(jīng)過一個(gè)卷積層輸出得分圖及預(yù)測文本框的位置信息;之后,使用位置感知的NMS,獲取得分高的預(yù)測文本框;最后,將預(yù)測文本框送入SWT階段,檢查文本框兩側(cè)是否存在未檢測到的字符,若存在,則將其補(bǔ)全。
該文考慮增加網(wǎng)絡(luò)層數(shù)來提取更深層次的網(wǎng)絡(luò)信息,提高學(xué)習(xí)的準(zhǔn)確度,同時(shí)還能增大感受野。但隨著網(wǎng)絡(luò)加深,容易出現(xiàn)網(wǎng)絡(luò)退化的問題,這是由于在反向傳播的過程中,梯度逐漸消失,無法對前面的網(wǎng)絡(luò)層權(quán)重進(jìn)行有效的調(diào)整。為了解決這一問題,引入了殘差網(wǎng)絡(luò)結(jié)構(gòu)[15](見圖2)。

圖2 殘差結(jié)構(gòu)
假設(shè)某段網(wǎng)絡(luò)的輸入為x,期望輸出為H(x)。在殘差網(wǎng)絡(luò)結(jié)構(gòu)中,通過捷徑連接直接將輸入x傳到輸出作為初始結(jié)果,網(wǎng)絡(luò)學(xué)習(xí)的將是輸入和輸出的差值,即殘差F(x)=H(x)-x,訓(xùn)練的目的是使殘差結(jié)果逼近于0,相比于訓(xùn)練一個(gè)等價(jià)映射,這樣訓(xùn)練的難度要大大降低。
在原網(wǎng)絡(luò)的基礎(chǔ)上引入殘差網(wǎng)絡(luò)結(jié)構(gòu)。每個(gè)stage主要包含兩種模塊,Conv Block和Identity Block[15],如圖3所示,其中包含若干卷積層、BN(Batch Normalization,批歸一化)層和ReLU(Rectified Linear Unit,修正線性單元)激活函數(shù)層。Conv Block輸入和輸出的維度不同,捷徑連接處用1×1的卷積層降維,它的作用是改變網(wǎng)絡(luò)的維度。而Identity Block輸入和輸出維度相同,直接將輸入加到最后的輸出上,它的作用是加深網(wǎng)絡(luò)的深度。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖3 殘差模塊結(jié)構(gòu)
輸入圖像在特征提取層首先通過7×7的卷積和池化,然后通過4個(gè)stage獲取不同尺度的特征圖f4、f3、f2、f1,尺寸分別為原圖的1/4、1/8、1/16、1/32,通道數(shù)分別為64、128、256、512。而后在特征融合層,底層特征圖h1經(jīng)過上采樣將尺寸放大一倍,然后與上一層特征圖f2進(jìn)行通道拼接,再經(jīng)過1×1卷積核減少通道數(shù),經(jīng)3×3卷積核將特征信息融合得到特征圖h2。重復(fù)上述操作,逐層進(jìn)行特征融合,得到尺寸為原圖1/4的特征圖h4。特征融合層滿足:
(1)
(2)
其中,gi為特征融合基,hi為融合特征圖,[·;·]表示二者通道拼接,通道數(shù)增加。

圖4 改進(jìn)的殘差網(wǎng)絡(luò)結(jié)構(gòu)
融合后的特征圖h4經(jīng)32核3×3的卷積層送入輸出層。在輸出層分別經(jīng)過1×1的卷積核,輸出1維得分圖score map、4維頂點(diǎn)偏移信息和1維旋轉(zhuǎn)角度信息。
利用殘差結(jié)構(gòu)來增加網(wǎng)絡(luò)的深度,擴(kuò)大感受野,可以有效提高網(wǎng)絡(luò)性能。改進(jìn)后的特征提取網(wǎng)絡(luò)層數(shù)增加到49層,同時(shí)感受野增加到427×427。此外,殘差網(wǎng)絡(luò)采用1×1和3×3的卷積核來組合成模塊結(jié)構(gòu),與僅使用3×3卷積核的VGG網(wǎng)絡(luò)相比,大幅減少了計(jì)算量和參數(shù)量,不僅準(zhǔn)確度大大提高,而且計(jì)算效率也有所提升。
原算法所采用的IoU損失[17]計(jì)算的是預(yù)測文本框和真實(shí)文本框的交集與并集之比。該算法對尺度不敏感,即不受目標(biāo)物體尺度大小的影響,但是這種算法無法指示出預(yù)測框與真實(shí)文本框的重疊方式的差異。如圖5所示,圖(a)和圖(b),其預(yù)測框與真實(shí)框都不相交,無論與真實(shí)框的距離遠(yuǎn)近,二者的IoU都為0,此時(shí)的IoU損失在訓(xùn)練中無法回傳梯度進(jìn)行更新,但顯然圖(a)的預(yù)測框比圖(b)更接近真實(shí)文本框;圖(c)和圖(d)預(yù)測框都與真實(shí)框相交,雖然重疊方式不同,但I(xiàn)oU相同,二者在訓(xùn)練過程中無法通過IoU損失進(jìn)行區(qū)分,但顯然圖(c)預(yù)測框的中心點(diǎn)與真實(shí)文本框更接近,預(yù)測的效果也比圖(d)更好。
通過以上例子不難發(fā)現(xiàn),在預(yù)測框與真實(shí)框IoU相同的情況下,兩者中心點(diǎn)間的距離越小,預(yù)測結(jié)果越接近真實(shí)值,檢測效果越好。因此,采用DIoU Loss來計(jì)算損失函數(shù),即在IoU Loss的基礎(chǔ)上,將預(yù)測框與真實(shí)框中心點(diǎn)間的距離作為懲罰項(xiàng)引入損失函數(shù)計(jì)算中,用以區(qū)分與真實(shí)框不同重疊方式的預(yù)測框。改進(jìn)后的損失函數(shù)Loss由分類損失Ls和幾何損失Lg組成,滿足下式:

圖5 預(yù)測框與文本框IoU效果示意圖
Loss=Ls+λgLg
(3)
其中,λg為幾何損失權(quán)重。分類損失Ls采用類平衡交叉熵?fù)p失平衡正負(fù)樣本,滿足下式:
Ls=-βYgtlogY-(1-β)(1-Ygt)log(1-Y)
(4)
幾何損失Lg由邊界框位置損失LQ和旋轉(zhuǎn)角度損失Lθ組成,LQ采用DIoU計(jì)算損失,滿足下式:
Lg=LQ+λθLθ
(5)
(6)
Lθ=1-cos(θ-θgt)
(7)
其中,λg為損失權(quán)重,Y為預(yù)測得分,Ygt為真值,β為正負(fù)樣本的平衡因子;R為預(yù)測的文本框,Rgt為真實(shí)文本框,d(c,cgt)為預(yù)測框中心點(diǎn)c與真實(shí)框中心點(diǎn)cgt間的歐氏距離;λθ、λd分別是旋轉(zhuǎn)角度損失和懲罰項(xiàng)的權(quán)重;p為能夠同時(shí)覆蓋檢測框和真實(shí)框的最小矩形的對角線長度,在此起歸一化的作用,使損失適用于不同大小的文本檢測。
相比于IoU Loss,DIoU Loss同樣具有尺度不變性,且在檢測框與真實(shí)框不重疊時(shí),后者可以為邊界框提供移動方向。對于重疊的框,DIoU通過懲罰項(xiàng)優(yōu)化檢測框與真實(shí)框之間的距離,能夠分辨不同的重疊方式。
對于長文本的檢測,原EAST算法的弊端在于感受野受限,盡管通過增加網(wǎng)絡(luò)深度、空洞卷積[19]等方法可以擴(kuò)大感受野,但在圖片較大時(shí),仍不足以獲得較好的檢測效果。且一味增加網(wǎng)絡(luò)深度,淺層特征的學(xué)習(xí)能力會下降,從而影響檢測效果。一些算法[12-14]通過改變回歸目標(biāo)來避免感受野受限的問題,但往往需要復(fù)雜的標(biāo)簽生成過程和后處理過程,且在文本密集的情況下容易邊界錯(cuò)亂。因此,該文考慮增加一個(gè)SWT階段,通過傳統(tǒng)的筆畫寬度判定預(yù)測文本框兩側(cè)是否存在漏檢的文本,從而對長文本進(jìn)行補(bǔ)全。
筆畫寬度變換(SWT)[5]利用筆畫寬度,即平行字符邊緣的點(diǎn)對之間的距離,進(jìn)行文本和非文本的區(qū)分。筆畫寬度是文字所獨(dú)有的特征,一般的自然場景文本圖像中的字符的筆畫寬度值通常比較穩(wěn)定,非字符的筆畫寬度值一般變化較大,因此,可以利用筆畫寬度值對一些非文本區(qū)域進(jìn)行剔除。SWT算法首先利用Canny算子獲得邊緣圖像,對每個(gè)邊緣像素點(diǎn)沿梯度方向搜索組成像素點(diǎn)對;然后將路徑上的像素賦值為所組成的點(diǎn)對之間的距離,即為筆畫寬度。具體算法流程如算法1所示。
算法1:筆畫寬度變換算法。
輸入:圖片S。
輸出:筆畫寬度圖S'。
Step1:設(shè)S'每一個(gè)像素點(diǎn)的筆畫寬度初始值設(shè)置為無窮大;利用Canny算子對圖片S進(jìn)行邊緣檢測,取得邊緣圖像,并獲取邊緣像素點(diǎn)的梯度方向。
Step2:設(shè)p是邊緣圖像一個(gè)邊緣上的像素點(diǎn),根據(jù)其梯度方向dp沿著路徑r=p+n*dp(n≥0)查找對應(yīng)邊緣上的一個(gè)像素點(diǎn)q,其梯度方向?yàn)閐q。

Step4:重復(fù)Step2、Step3,直至標(biāo)記該圖像上所有沒被廢棄掉的路徑上像素的筆畫寬度值。若有像素點(diǎn)被多次賦值,則保留最小值。
Step5:矯正拐點(diǎn),計(jì)算每一條路徑上的所有像素的筆畫寬度的中值,若該路徑上像素點(diǎn)的筆畫寬度值大于中值,則對該像素點(diǎn)賦值為該路徑上筆畫寬度的中值。
Step6:由于存在亮底暗字背景和暗底亮字背景兩種情況,從梯度相反方向重復(fù)Step2至Step5進(jìn)行二次搜索。
Step7:若8鄰域內(nèi)像素與中心像素的筆畫寬度之比在[1/3,3]內(nèi),則聚合成連通域。計(jì)算每個(gè)有效連通域的筆畫寬度的均值和方差,濾除方差大于閾值varth的連通域。
該文提出的SWT階段需要將預(yù)測框向首尾兩側(cè)擴(kuò)展一定的寬度,分別對預(yù)測框內(nèi)和擴(kuò)展區(qū)域進(jìn)行SWT,獲得區(qū)域內(nèi)的筆畫寬度信息,而后按照給定的條件判斷擴(kuò)展區(qū)域內(nèi)是否存在漏檢字符。這樣可以有效摒除復(fù)雜環(huán)境的干擾,克服SWT本身魯棒性差的缺點(diǎn)。
自然場景中的文本形狀較為規(guī)則,在預(yù)測框具有良好包裹性的情況下,預(yù)測框的高度大致就是一個(gè)字符的寬度,考慮到字符間可能存在間隙,該文將擴(kuò)展區(qū)域的寬度設(shè)定為預(yù)測框高的1.5倍。對于前述網(wǎng)絡(luò)所得的預(yù)測文本框R(x,y,w,h,θ),其中心點(diǎn)坐標(biāo)為(x,y),寬度為w,高度為h,旋轉(zhuǎn)角度為θ。將文本框向首尾兩側(cè)各擴(kuò)展1.5h,則兩側(cè)擴(kuò)展區(qū)域分別為Re1(x-(w+1.5h)cosθ/2,y+(w+1.5h)sinθ/2,1.5h,h)、Re2(x+(w+1.5h)cosθ/2,y-(w+1.5h)sinθ/2, 1.5h,h),如圖6陰影部分所示。

圖6 文本框擴(kuò)展區(qū)域示意圖
分別對預(yù)測文本框R和擴(kuò)展區(qū)域Re1和Re2做SWT,獲取三個(gè)區(qū)域內(nèi)的筆畫寬度特征信息。若擴(kuò)展區(qū)域內(nèi)不存在與R相似的筆畫特征信息,則保持原預(yù)測結(jié)果;否則認(rèn)為存在漏檢的文本內(nèi)容,并根據(jù)漏檢字符的坐標(biāo)形成新的文本框左右邊界。而后再次擴(kuò)展,重復(fù)以上過程,直至沒有新的漏檢字符出現(xiàn),從而解決長文本兩側(cè)不全的問題。具體算法流程如算法2所示。
算法2:SWT階段算法。
輸入:預(yù)測文本框R。
輸出:補(bǔ)全的預(yù)測文本框R*。
Step1:對預(yù)測框R進(jìn)行SWT,獲得筆畫寬度圖,形成連通域,并濾除方差大于閾值varth的連通域,計(jì)算整個(gè)預(yù)測框內(nèi)有效文本區(qū)域的筆畫寬度均值meanpr令R*=R。
Step2:將R*向首尾兩側(cè)各擴(kuò)展1.5h,獲得擴(kuò)展區(qū)域Re1和Re2,若擴(kuò)展區(qū)域與其他預(yù)測框相交則相交區(qū)域置零。
Step3:分別對擴(kuò)展區(qū)域Re1和Re2進(jìn)行SWT,濾除方差大于閾值varth的連通域,計(jì)算每個(gè)連通域的筆畫寬度均值mean。
Step4:若存在連通域,其1/3≤mean/meanpr≤3,則判斷該連通域?yàn)樽址?/p>
Step5:若字符屬于區(qū)域Re1,則將連通域內(nèi)橫坐標(biāo)最小的像素點(diǎn)所在的垂直于上下邊界的線作為新的預(yù)測框左側(cè)邊界;同理,若字符屬于區(qū)域Re2,則根據(jù)橫坐標(biāo)最大的像素點(diǎn)確定新的右側(cè)邊界,得到新的文本框R*。
Step6:重復(fù)Step2至Step5,直至沒有新的字符出現(xiàn)。
本次實(shí)驗(yàn)采用ICDAR2015和MSRA-TD500數(shù)據(jù)集。
ICDAR2015是目前文本檢測算法中常用的數(shù)據(jù)集,包含500張測試圖像和1 000張訓(xùn)練圖像,所有的圖像尺寸均為720×1 280。該數(shù)據(jù)集圖像從谷歌街景中搜集,標(biāo)注為單詞級別的四個(gè)頂點(diǎn)的坐標(biāo),文字呈多方向排布,模糊遮擋較多,對算法魯棒性要求高。MSRA-TD500數(shù)據(jù)集包含200張測試圖像和300張訓(xùn)練圖像,分辨率在1 296×864到1 920×1 280之間。該數(shù)據(jù)集包含中英文,大部分文本都在引導(dǎo)牌上,標(biāo)注以行為單位,而不是單詞,每張圖片都完全標(biāo)注,對于長文本的檢測有較高的參考價(jià)值。
由于數(shù)據(jù)集較小,先通過數(shù)據(jù)增強(qiáng)擴(kuò)充數(shù)據(jù)集,對圖像進(jìn)行裁剪、移位、亮度增強(qiáng)、對比度增強(qiáng)、水平翻轉(zhuǎn)和隨機(jī)方向旋轉(zhuǎn),將ICDAR2015擴(kuò)充到7 000張,將MSRA-TD500擴(kuò)充到5 000張。
實(shí)驗(yàn)是在Python3.7下基于keras深度學(xué)習(xí)框架編寫,采用自適應(yīng)矩估計(jì)(Adaptive Moment Estimation,Adam)優(yōu)化器[20]優(yōu)化模型,學(xué)習(xí)率設(shè)置為3e-4,衰減系數(shù)為1e-4,輸入圖像尺寸為512×512,每次迭代的輸入圖像個(gè)數(shù)為4。
實(shí)驗(yàn)采用標(biāo)準(zhǔn)的自然場景文本檢測評估指標(biāo),即:準(zhǔn)確率(P)、召回率(R)、F值(F),計(jì)算公式分別為:
(8)
(9)
(10)
其中,TP表示檢測正確的文本框數(shù)量;D表示模型檢測出的文本框數(shù)量;G表示真實(shí)的文本框數(shù)量。若檢測結(jié)果與真實(shí)文本框之間的交并比大于閾值(閾值取0.5),則認(rèn)為該檢測結(jié)果是正確的。F值是準(zhǔn)確率和召回率的調(diào)和平均數(shù),用以綜合評估模型的性能。
文中算法與EAST算法的檢測結(jié)果如圖7所示。原圖為MSRA-TD500中的一張圖片,EAST算法的檢測結(jié)果如圖(a)所示,對于長文本“中關(guān)村廣場購物中心”以及“ZHONGGUANCUN”,其檢測框不能完全覆蓋文本內(nèi)容,遺漏較多文本信息;通過改進(jìn)后的網(wǎng)絡(luò)而未經(jīng)過SWT階段預(yù)測所得的文本框如圖(b)所示,相比于EAST算法已經(jīng)有了較大的改進(jìn),其文本框覆蓋文本內(nèi)容更加完整,但對于其中較長的文本首尾的“中”和“心”字仍然未能完全檢測到,這是由于改進(jìn)后的網(wǎng)絡(luò)雖然將感受野擴(kuò)大到427×427,但仍不足以應(yīng)對更大尺寸的文本信息;經(jīng)過SWT階段后所得檢測結(jié)果如圖(c)所示,檢測框完整檢測到了所有的文本信息,補(bǔ)全了長文本缺失的首尾部分。

圖7 文中算法檢測結(jié)果
表1為文中算法與EAST算法以及其他同期算法在ICDAR2015測試集上進(jìn)行的實(shí)驗(yàn)結(jié)果對比。

表1 ICDAR2015數(shù)據(jù)集上算法評估結(jié)果
從表1中可以看出,文中算法相比于EAST算法,準(zhǔn)確率、召回率、F值分別提高了4.5百分點(diǎn)、3.1百分點(diǎn)、3.7百分點(diǎn)。且與其他基于回歸的檢測算法相比,文中算法的檢測效果也更好。這是由于引入的殘差結(jié)構(gòu)加深了網(wǎng)絡(luò)的深度,使得網(wǎng)絡(luò)的學(xué)習(xí)能力更強(qiáng),且融合了與真實(shí)文本框中心點(diǎn)間距離的損失函數(shù)能夠更好地校準(zhǔn)預(yù)測文本框的位置。
為了驗(yàn)證文中算法在長文本檢測方面的優(yōu)勢,進(jìn)一步在MSRA-TD500數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。表2為文中算法與其他算法的檢測結(jié)果對比。

表2 MSRA-TD500數(shù)據(jù)集上算法評估結(jié)果
從表2中可以看出,與EAST算法相比,文中算法在準(zhǔn)確率、召回率、F值上分別提高了2.3百分點(diǎn)、6.4百分點(diǎn)、4.9百分點(diǎn),與同期其他算法相比各項(xiàng)指標(biāo)也都具有較大優(yōu)勢。由于MSRA-TD500數(shù)據(jù)集以文本行為標(biāo)注,且包含較多長文本,進(jìn)一步驗(yàn)證了文中算法的有效性,尤其是SWT階段能夠有效地補(bǔ)全漏檢的長文本字符,改善長文本的檢測效果。
該文提出了一種基于殘差網(wǎng)絡(luò)及筆畫寬度變換的自然場景文本檢測算法。在特征融合階段,增加網(wǎng)絡(luò)層數(shù)以提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,同時(shí)擴(kuò)大感受野,提高對大尺度文本的檢測能力,并且利用殘差結(jié)構(gòu)解決梯度消失問題。而后,將預(yù)測文本框與真實(shí)文本框中心點(diǎn)間的距離作為懲罰項(xiàng)加入損失函數(shù),解決了傳統(tǒng)IoU損失在預(yù)測框與文本框不相交時(shí)梯度無法回傳的問題,并在相交的情況下也能有效區(qū)分重疊方式。最后,增加了SWT階段,對預(yù)測文本框進(jìn)行擴(kuò)展,依據(jù)筆畫寬度等條件補(bǔ)全缺失的長文本信息。該算法在ICDAR2015和MSRA-TD500數(shù)據(jù)集上進(jìn)行測試,都取得了不錯(cuò)的效果,相比于EAST算法,檢測結(jié)果都有所提升,驗(yàn)證了算法的有效性。此外,該算法主要針對的是矩形傾斜文本,在后續(xù)的研究工作中,將考慮SWT階段在任意形狀四邊形文本或曲形文本檢測中的應(yīng)用。