牟 森,陳洪剛,卿粼波,何小海,王思怡
(四川大學(xué) 電子信息學(xué)院,成都 610065)
自然場(chǎng)景下的文本檢測(cè)與識(shí)別被認(rèn)為是目標(biāo)檢測(cè)領(lǐng)域中最具有挑戰(zhàn)性的難點(diǎn)之一,它在圖像處理、無(wú)人駕駛、文檔分析、自然語(yǔ)言處理等諸多機(jī)器視覺(jué)領(lǐng)域都存在大量的應(yīng)用.相較于通用物體的目標(biāo)檢測(cè),復(fù)雜場(chǎng)景下的文本檢測(cè)存在諸多難點(diǎn):(1)場(chǎng)景中的文本行顏色、字體、尺度多樣化并且相關(guān)性較小.(2)背景多樣化.在自然場(chǎng)景下,文本行的背景是任意的,還可能會(huì)受到結(jié)構(gòu)相近的背景的影響(如柵欄).(3)文本行的形狀和方向多樣化.如水平、垂直、傾斜、彎曲等.(4)存在諸多藝術(shù)字、手寫字、多種語(yǔ)言混合以及不同程度的扭曲.(5)惡劣的光照條件和不同程度的遮擋.
近年來(lái),文本檢測(cè)領(lǐng)域的深度學(xué)習(xí)策略主要有:(1)基于字符的文本檢測(cè).Baek 等[1]提出先檢測(cè)單個(gè)字符(character region score)及字符間的連接關(guān)系(affinity score),然后根據(jù)這些連接關(guān)系確定最后的文本行,再采用高斯熱度圖來(lái)生成區(qū)域分?jǐn)?shù)和連接分?jǐn)?shù)兩個(gè)特征圖,最后借助文本行的長(zhǎng)度進(jìn)行弱監(jiān)督訓(xùn)練.(2)基于文本框的坐標(biāo)回歸的文本檢測(cè).Tian 等[2]使用一連串小尺度文本框來(lái)實(shí)現(xiàn)文本檢測(cè)的任務(wù),并且引入RNN 模型提高文本的檢測(cè)效果,用邊界優(yōu)化使文本框的邊界預(yù)測(cè)更加精準(zhǔn);Liao 等[3]提出的端到端的神經(jīng)網(wǎng)絡(luò)模型,修改了錨點(diǎn)(anchors)尺寸和卷積核尺寸,采用多個(gè)尺度的預(yù)測(cè),來(lái)提高對(duì)anchors 沒(méi)有覆蓋到的長(zhǎng)文本的檢測(cè)效果.Liao 等后來(lái)又針對(duì)該模型進(jìn)行了改進(jìn)[4],實(shí)現(xiàn)了預(yù)測(cè)旋轉(zhuǎn)的文本框;Shi 等[5]提出文本行檢測(cè)的兩個(gè)基本組成元素:分割(segment)和連接(link),并且提出了兩種link 類型:層內(nèi)連接(withinlayer link)和跨層連接(cross-layer link);Zhou 等[6]提出一個(gè)快速、準(zhǔn)確的兩階段文本檢測(cè)方法.(3)基于語(yǔ)義分割后進(jìn)行實(shí)例分割的方法.Deng 等[7]提出通過(guò)實(shí)例分割結(jié)果提取文本的位置,并且將像素點(diǎn)進(jìn)行連接得到文本框.使用像素分類實(shí)現(xiàn)語(yǔ)義分割,使用鏈接實(shí)現(xiàn)實(shí)例分割.Wang 等[8]提出了一種漸進(jìn)性的擴(kuò)展網(wǎng)絡(luò),它可以實(shí)現(xiàn)對(duì)任意形狀文本實(shí)例的檢測(cè).該方法使用了最小內(nèi)核的思想完成實(shí)例分割,在此基礎(chǔ)上漸進(jìn)式地使用不同內(nèi)核來(lái)補(bǔ)充實(shí)例分割的區(qū)域.(4)文本框回歸和語(yǔ)義分割的組合方法.Zhang 等[9]提出了一個(gè)新型端到端文本檢測(cè)器,它由3 部分組成:直接回歸模塊(DR)、迭代修正模塊(IRM)、形狀表征模塊(SEM).首先由直接回歸模塊產(chǎn)生粗略的四邊形候選文本框;然后通過(guò)迭代修正得到完整的文本行的特征塊;最后根據(jù)文本行的區(qū)域、中心線及邊界偏移得到最終的文本行.
Zhou 等[6]提出的EAST 算法在準(zhǔn)確性和總體效率方面明顯優(yōu)于同領(lǐng)域內(nèi)之前提出的其他方法,后有人對(duì)其增加了后置處理(AdvancedEAST[10]).本文提出Dilated-Corner Attention EAST (DCA_EAST)改進(jìn)算法,在AdvancedEAST 網(wǎng)絡(luò)結(jié)構(gòu)加入空洞卷積模塊以及角點(diǎn)注意力模塊,改善了漏檢情況.對(duì)損失函數(shù)改進(jìn),加入類別權(quán)重因子和樣本難度權(quán)重因子,有效提升了密集文本的檢測(cè)效果.
AdvancedEAST 包括全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,FCN)階段和非極大值抑制(Non-Maximum Suppression,NMS)合并階段.FCN 可以直接生成文本區(qū)域,消除冗余過(guò)程及復(fù)雜的中間步驟.該方法既可以檢測(cè)單詞,又可以檢測(cè)文本行,檢測(cè)的形狀可以為任意形狀的四邊形.針對(duì)文本行的特點(diǎn),使用了位置感知NMS(Locality-Aware NMS)來(lái)對(duì)生成的文本區(qū)域進(jìn)行過(guò)濾,降低了NMS 的復(fù)雜度.AdvancedEAST 網(wǎng)絡(luò)結(jié)構(gòu)圖(如圖1),分為特征提取主網(wǎng)絡(luò)(4 個(gè)級(jí)別的特征圖,表示為fi)、特征合并分支(依次將主網(wǎng)絡(luò)中1/32,1/16,1/8,1/4 特征圖進(jìn)行合并)以及輸出層:是否在文本框內(nèi)(score map),是否屬于文本框邊界像素以及是頭還是尾(vertex code),預(yù)測(cè)的2 個(gè)對(duì)角線頂點(diǎn)坐標(biāo)(vertex coord).

圖1 AdvancedEAST 網(wǎng)絡(luò)結(jié)構(gòu)圖
對(duì)于密集文本的檢測(cè),AdvancedEAST 算法存在感受野受限的問(wèn)題;并且在預(yù)測(cè)生成激活像素的過(guò)程中,存在頭或尾邊界像素丟失的情況,導(dǎo)致文本框漏檢,如圖2所示.
針對(duì)上述問(wèn)題,本文在AdvancedEAST 算法的基礎(chǔ)上引入了空洞卷積模塊(dilated conv module)以及角點(diǎn)注意力機(jī)制(corner attention module),改進(jìn)算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示.

圖2 AdvancedEAST 算法的圖象激活像素

圖3 本文算法網(wǎng)絡(luò)結(jié)構(gòu)圖
在4 個(gè)特征圖輸出之前,分別采用擴(kuò)張率為18、12、6 和3 的3×3 空洞卷積來(lái)增加網(wǎng)絡(luò)的感受野.
為了減少激活過(guò)程中頭或尾邊界像素丟失的情況,本文在對(duì)不同尺度的圖片特征提取后,由上至下對(duì)每一個(gè)層次的特征進(jìn)行融合,將特征融合階段的上采樣(unpool)改為雙線性上采樣,并利用當(dāng)前層次融合的特征對(duì)目標(biāo)位置進(jìn)行預(yù)測(cè).這樣相較于標(biāo)準(zhǔn)方法來(lái)說(shuō),可以生成更均勻的特征金字塔,包含更多的上下文信息.并且本文加入角點(diǎn)注意力模塊,目的是融入后置處理中的邊界像素特征.
假設(shè)注意力模塊需要處理的特征序列為s={s1,s2,s3,···,sn},其中n表示特征向量的個(gè)數(shù).最基礎(chǔ)的形態(tài)注意力機(jī)制的公式如下:

其中,t表示當(dāng)前時(shí)間,ct′表示輸出變量,ht表示隱藏層,αt′t表示一個(gè)權(quán)重的概率分布,σ是一個(gè)單層的感知機(jī).
常用的通道注意力機(jī)制和空間注意力機(jī)制對(duì)于特征圖邊界像素的關(guān)鍵信息提取效果并不理想,故本文采用了角點(diǎn)注意力機(jī)制,具體地是將特征圖的輸入邊像素界特征與輸出的邊界像素特征通過(guò)一個(gè)標(biāo)準(zhǔn)的一維全連接層(dense layer)連接起來(lái),公式如下:

其中,i表示當(dāng)前時(shí)步,xi為輸入邊界像素特征,yi?1為輸出的邊界像素特征,attentioni表示i處的注意力權(quán)重,ci表示輸出的帶有注意力的上下文信息.
在一般的數(shù)據(jù)集中,負(fù)樣本數(shù)量太大,導(dǎo)致?lián)p失函數(shù)輸入?yún)?shù)的大部分都是負(fù)樣本,并且很多是容易分類的,因此會(huì)使得對(duì)密集文本的檢測(cè)效果并不是很好.之前也有一些算法來(lái)處理這種類別不均衡的問(wèn)題,比如OHEM (Online Hard Example Mining),OHEM 算法雖然增加了錯(cuò)分類樣本的權(quán)重,但是OHEM 算法忽略了容易分類的樣本.
故本文在標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)[11]的基礎(chǔ)上引入了類別權(quán)重因子 α和樣本難度權(quán)重因子(1?)γ,來(lái)緩解上述問(wèn)題,提升模型精確.α可以平衡正負(fù)樣本,γ可以調(diào)節(jié)簡(jiǎn)單樣本權(quán)重降低的速率,γ>0 可以減少易分類樣本的損失,使得模型更關(guān)注于困難的、錯(cuò)分的樣本.在產(chǎn)生區(qū)域文本框的階段,通過(guò)得分和NMS 篩選可以過(guò)濾大量的負(fù)樣本,然后在分類和回歸階段又可以固定正負(fù)樣本的比例.對(duì)于不同的 γ值,模型的平均精確度(Average Precision,AP)具有不同的表現(xiàn),經(jīng)測(cè)試,γ=2時(shí)表現(xiàn)最好,結(jié)果如表1所示.

表1 本文不同γ 值對(duì)應(yīng)的AP 表現(xiàn)
Score map 和vertex code 的損失函數(shù)公式如下:

其中,Y?表示正確標(biāo)注,表示預(yù)測(cè)值,N表示樣本數(shù)量.α表示所有訓(xùn)練圖像中為1 的像素點(diǎn)數(shù)量占總像素點(diǎn)數(shù)量的比例,這是個(gè)先驗(yàn)值,在標(biāo)簽生成中就可得到,具體地定義為:

其中,w為歸屬權(quán)重:

其中,∈Y?.
對(duì)于vertex coord 的損失函數(shù),本文采用加權(quán)的Smooth L1函數(shù).相比于L1損失函數(shù),Smooth L1可以收斂得更快,相較于L2損失函數(shù)來(lái)說(shuō),Smooth L1對(duì)異常值、離群點(diǎn)不敏感,梯度的變化相對(duì)更小,訓(xùn)練更穩(wěn)定.損失函數(shù)的定義如下:

其中,w為式(8)中的權(quán)重,Smooth L1函數(shù)定義如下:

綜上,得到總的損失函數(shù)為:

其中,λs、λv和λg分別為score map、vertex code 和vertex coord 權(quán)重.
本次實(shí)驗(yàn)在Ubuntu 18.04.3 LTS 上進(jìn)行,開(kāi)發(fā)語(yǔ)言為Python 3.6.9.GPU 版本為NVIDIA GTX 1080Ti,顯存11 GB.
采用Adam[12]優(yōu)化器對(duì)本文提出的模型進(jìn)行端到端訓(xùn)練.損失函數(shù)參數(shù)γ=2,λs=4,λv=1,λg=1.數(shù)據(jù)集采用的是ICDAR2019 挑戰(zhàn)賽所用的ReCTS,該數(shù)據(jù)集主要是中英文招牌,包括20 000 張訓(xùn)練圖片和5000 張測(cè)試圖片.由于圖片尺寸跨度較大,故本次實(shí)驗(yàn)采用多尺度訓(xùn)練的方式對(duì)原始圖像進(jìn)行訓(xùn)練,以改善模型對(duì)不同尺度的圖片文本檢測(cè)的魯棒性.Batch size 設(shè)為8,Adam 學(xué)習(xí)率從1 e?3開(kāi)始,5 個(gè)epoch 后無(wú)改善則下降到1 e?5,進(jìn)行網(wǎng)絡(luò)訓(xùn)練.
本文算法與AdvancedEAST 算法在自然場(chǎng)景下的文本檢測(cè)結(jié)果對(duì)比如圖4、圖5所示.

圖4 圖象激活像素和文本框定位
對(duì)比可以發(fā)現(xiàn),圖4(a)中存在頭或尾邊界像素丟失而導(dǎo)致的文本框漏檢情況,圖5(a)中存在對(duì)于密集文本檢測(cè)不到的情況.通過(guò)本文算法處理后,激活像素連通性更好,頭尾像素也更加豐富,密集文本的檢測(cè)效果明顯改善,如圖4(c)、圖5(b)所示.同時(shí),本文使用準(zhǔn)確率(Precision)、召回率(Recall)和加權(quán)調(diào)和平均值F-measure 三個(gè)指標(biāo)來(lái)評(píng)價(jià)本文算法的性能,并與AdvancedEAST 算法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示.可以看出,本文算法相比于AdvancedEAST 算法在文本檢測(cè)的各項(xiàng)指標(biāo)上均有提升.其中召回率提升比較明顯,這是因?yàn)楸疚乃惴ㄔ龃罅死щy正樣本的檢測(cè)能力.

圖5 密集文本檢測(cè)效果圖

表2 本文算法與AdvancedEAST 文本檢測(cè)算法實(shí)驗(yàn)結(jié)果對(duì)比
本文算法在AdvancedEAST 算法的基礎(chǔ)上,引入了Dilated-Corner Attention EAST,增大網(wǎng)絡(luò)特征提取的感受野,可捕獲更多激活過(guò)程中邊界的上下文信息,改善了文本定位中出現(xiàn)的文本框漏檢情況;同時(shí),對(duì)損失函數(shù)的改進(jìn),平衡了樣本的類別權(quán)重以及樣本難度權(quán)重,最終有效提升了密集文本的檢測(cè)效果.與AdvancedEAST相比,準(zhǔn)確率、召回率和F-值均有提高.