徐 瑩
(西南民族大學(xué)電子信息學(xué)院,成都 610041)
在二十一世紀(jì)的今天,文字和我們的日常生活已經(jīng)密不可分,我們描述世間萬(wàn)物都需要用到文字。尤其是在現(xiàn)在這個(gè)信息不斷發(fā)展的時(shí)代,在互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展下,大量的文字也以圖像或視頻的方式被保存下來(lái)。人們迫切的希望可以檢測(cè)識(shí)別這些圖像或是視頻中的文字,來(lái)幫助我們更好地理解。如今,文字已經(jīng)成為我們生活中不可或缺的一部分。
目前對(duì)傳統(tǒng)電子文檔中的文字進(jìn)行檢測(cè)的方法已經(jīng)比較成熟,但自然場(chǎng)景中的文本檢測(cè)技術(shù)仍然面臨著很多問(wèn)題。和傳統(tǒng)電子文檔中的背景相比較,自然場(chǎng)景文字的背景信息更為復(fù)雜。很多文字可能會(huì)受到背景的影響,比如被其他的物體遮擋等等。同時(shí),背景中圖片的明暗變化等都會(huì)影響檢測(cè)結(jié)果。另外,自然場(chǎng)景中的文字形狀更加復(fù)雜,很多文字形狀的檢測(cè)對(duì)比一般的通用物體檢測(cè)存在更多的樣式,并且在自然場(chǎng)景中很多文字的形狀都是不規(guī)則的,文本之間變化的差距較大。在文本中還會(huì)存在語(yǔ)種屬性復(fù)雜這一問(wèn)題,一張圖片中的文字可能會(huì)包括中文、英文以及數(shù)字等一系列的語(yǔ)種文字,在處理這些信息時(shí)就會(huì)變得較為困難,也會(huì)更難提取文本中的信息。因此,對(duì)自然場(chǎng)景中的文字進(jìn)行有效的檢測(cè)同樣是研究人員的工作重點(diǎn)和挑戰(zhàn)。為了解決這些問(wèn)題,本文提出了一種可以檢測(cè)任意形狀文本的方法,以PSENet為基礎(chǔ),通過(guò)對(duì)其網(wǎng)絡(luò)進(jìn)行重新搭建,引入現(xiàn)階段提高性能的模塊,在標(biāo)準(zhǔn)數(shù)據(jù)集上得到更好的檢測(cè)效果。
近年來(lái),深度學(xué)習(xí)技術(shù)不斷發(fā)展,在文字檢測(cè)領(lǐng)域的運(yùn)用也越來(lái)越多。自然場(chǎng)景中的文字通常存在著很大的差異,比如在圖片中可能會(huì)存在文字的大小、字體以及文字顏色的差異。很多街邊的店面招牌、交通指示招牌以及食品的包裝袋上我們都可以看到這種類型的文字。這類圖像中的文字比傳統(tǒng)電子文檔中的文字更為復(fù)雜,運(yùn)用傳統(tǒng)的文字檢測(cè)方法進(jìn)行檢測(cè)準(zhǔn)確率就比較低。目前由于深度學(xué)習(xí)技術(shù)的大量運(yùn)用,很多學(xué)者就把眼光放在了對(duì)場(chǎng)景文本圖像的檢測(cè)識(shí)別上面。目前主要有兩種基于神經(jīng)網(wǎng)絡(luò)的文本檢測(cè)方法,一種是基于候選框的文本檢測(cè)方法,另一種是把基于分割的文本檢測(cè)方法。
在基于候選框的文本檢測(cè)思路上,2015年提出的一種目標(biāo)檢測(cè)框架Faster R-CNN,在很多個(gè)數(shù)據(jù)集上的檢測(cè)結(jié)果都比較好,不僅準(zhǔn)確率高檢測(cè)速度也較快。利用Faster R-CNN進(jìn)行目標(biāo)檢測(cè)一般需要兩步,首先需要用RPN網(wǎng)絡(luò)提取物體的候選框,之后再對(duì)這些提取的候選框進(jìn)行類別的預(yù)測(cè)以及位置回歸。在Faster R-CNN的基礎(chǔ)上,Tian等提出了CTPN,這一算法主要是將要檢測(cè)的文本轉(zhuǎn)換成一系列的小尺度的文本框進(jìn)行檢測(cè),在文中提出了Siderefinement這一概念,主要用于提高文本框檢測(cè)的精度。這種方法雖然提升了文本檢測(cè)的精度但在水平文本的識(shí)別上的檢測(cè)效果并不是很好。沿用RPN的思想,Ma等提出了RRPN,主要解決了識(shí)別自然場(chǎng)景文本中文字的多方向問(wèn)題,通過(guò)在錨點(diǎn)上增加很多不同方向的包圍框來(lái)提高文本檢測(cè)的精度。Shi等提出了SegLink算法,這種算法不僅從CTPN的角度運(yùn)用了對(duì)小尺度的選框進(jìn)行檢測(cè)的方法,并且增加了對(duì)不同角度的文本進(jìn)行檢測(cè)的方法,改進(jìn)了CTPN方法的不足。主要是對(duì)文本行檢測(cè)局部片段,之后將這些片段進(jìn)行連接達(dá)到最終的目的。Liao等提出了TextBoxes算法,該算法針對(duì)場(chǎng)景文本的特性,設(shè)定了適應(yīng)性的錨點(diǎn)框,提出了text-box層,采用長(zhǎng)條形的卷積核,避免了引入非文本噪聲,提出了端到端的訓(xùn)練框架,并通過(guò)增加識(shí)別來(lái)提高文本行檢測(cè)的效果。TextBoxes++在TextBoxes的基礎(chǔ)上進(jìn)行了改進(jìn),將TextBoxes中水平排列的文本檢測(cè)器擴(kuò)展為能夠檢測(cè)任意文本方向的文本檢測(cè)器。
在基于分割的文本檢測(cè)思路上,現(xiàn)階段主要是通過(guò)像素級(jí)別的語(yǔ)義分割來(lái)實(shí)現(xiàn)文本檢測(cè),利用FCN對(duì)圖像中的文本和非文本進(jìn)行分類,從而得到相應(yīng)的文字掩膜。Long等首次將文本像素分類預(yù)測(cè)用于場(chǎng)景文字檢測(cè)的任務(wù)當(dāng)中,該方法通過(guò)FCN預(yù)測(cè)得到圖像中文本的掩膜,之后利用MSER檢測(cè)提取文本區(qū)域的字符。Deng等提出的PixelLink則是沒(méi)有使用邊框回歸的思想,而是直接使用實(shí)例分割得到文本行區(qū)域,之后找到對(duì)應(yīng)的外接文本框。基于這樣的信息,可以有效組合屬于同一文本的像素點(diǎn)。Wang等在SOLO(Segmenting Objects by Locations)一文中提出了一種“實(shí)例類別”的概念,通過(guò)不同實(shí)例所處的位置來(lái)對(duì)像素點(diǎn)實(shí)現(xiàn)多分類的任務(wù),從而將文本檢測(cè)從基于回歸的方式轉(zhuǎn)換為基于分類的方式,使實(shí)現(xiàn)過(guò)程更簡(jiǎn)單有效。EAST方法主要是通過(guò)FCN輸出像素級(jí)別的檢測(cè)結(jié)果,之后利用NMS算法分類獲得文本區(qū)域。Wang等提出了通過(guò)實(shí)例分割來(lái)實(shí)現(xiàn)文本檢測(cè)的全新算法—PSENet(progressive scale expansion network),這種方法的主要特點(diǎn)是提出了漸進(jìn)式尺度擴(kuò)展,通過(guò)該方法解決文本行中相鄰文字的分離問(wèn)題。同時(shí)也實(shí)現(xiàn)了能夠檢測(cè)不同方向的文本行的目的。通過(guò)使用特征金字塔網(wǎng)絡(luò)以及殘差網(wǎng)絡(luò)來(lái)提取圖片中的文本信息,大大地提高了檢測(cè)效果。
目前最先進(jìn)的算法大多要求矩形框來(lái)定義具有任意形狀的文本,對(duì)于不規(guī)則文本的檢測(cè)就存在很多的缺陷。為此現(xiàn)在大多數(shù)使用實(shí)例分割方法進(jìn)行檢測(cè),但是這一方法同樣存在著一個(gè)難點(diǎn)。理論上這種方法是可以檢測(cè)很多的不規(guī)則文本的,但是卻不易分離鄰近的文本,PSENet的核心思想是文本區(qū)域的漸進(jìn)式尺度擴(kuò)展,本質(zhì)也是通過(guò)實(shí)例分割獲得檢測(cè)到的文本,該算法不僅可以檢測(cè)不同角度的文本,同時(shí)能夠?qū)崿F(xiàn)相鄰文本的分離。具體來(lái)說(shuō),PSENet的主干網(wǎng)絡(luò)是表達(dá)能力更強(qiáng)的ResNet網(wǎng)絡(luò),對(duì)于任意一張輸入的圖片I,通過(guò)FPN網(wǎng)絡(luò)提取特征之后得到如圖1所示的四個(gè)Feature Map(;;;),然后通過(guò)函數(shù)合并,得到。的公式如下:

通過(guò),該網(wǎng)絡(luò)會(huì)將需要檢測(cè)的文本分成不同的分割區(qū)域,并記作1…,通過(guò)設(shè)置不同尺度的核來(lái)對(duì)相應(yīng)的文本區(qū)域進(jìn)行處理。從最小的內(nèi)核開(kāi)始進(jìn)行擴(kuò)展,逐步擴(kuò)展到和原來(lái)文本實(shí)例的大小相同。通過(guò)基于分割的方法進(jìn)行像素級(jí)別的分類來(lái)定位文本實(shí)例,從而檢測(cè)任意方向的文本,達(dá)到有效的文本檢測(cè)效果。網(wǎng)絡(luò)的整體框架如圖1所示。

圖1 PSENet整體框架
ResNet(residual network),即殘差網(wǎng)絡(luò),是實(shí)現(xiàn)特征提取的主干網(wǎng)絡(luò),主要是為了解決當(dāng)進(jìn)行梯度反向傳播時(shí),網(wǎng)絡(luò)層數(shù)不斷上升后所產(chǎn)生的梯度爆炸或消失的問(wèn)題。在網(wǎng)絡(luò)結(jié)構(gòu)中引入了躍層連接,使得輸入信息直接傳輸?shù)捷敵?,從而?shí)現(xiàn)恒等映射,在一定程度上保護(hù)了信息的完整性且提高了網(wǎng)絡(luò)的性能。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,該網(wǎng)路可擴(kuò)展性較強(qiáng),可在增加準(zhǔn)確率的同時(shí)基本不改變或降低模型的復(fù)雜度。

圖2 殘差網(wǎng)絡(luò)
FPN(feature pyramid networks for object detection),即特征金字塔網(wǎng)絡(luò),我們一般進(jìn)行訓(xùn)練時(shí)大多數(shù)是用同一尺度的圖片進(jìn)行訓(xùn)練,為了能夠適應(yīng)更多尺度的圖片,Lin等提出了FPN網(wǎng)絡(luò),通過(guò)提取多尺度的特征進(jìn)行融合進(jìn)而提高目標(biāo)檢測(cè)的精度,特別是在檢測(cè)小物體上,大幅度提高了小物體檢測(cè)的性能。
FPN網(wǎng)絡(luò)主要由三部分組成:
(1)自底向上。相對(duì)于神經(jīng)網(wǎng)絡(luò)中的前向傳播過(guò)程。
(2)自上而下。是一個(gè)上采樣的過(guò)程,使用上采樣得到具有更高分辨率的特征圖。
(3)橫向連接。將自底向上生成的feature map和上采樣的結(jié)果進(jìn)行特征融合,通過(guò)引入FPN網(wǎng)絡(luò),增強(qiáng)圖片信息的表達(dá)能力。該網(wǎng)絡(luò)的基本架構(gòu)如圖3所示。

圖3 特征金字塔網(wǎng)絡(luò)
PSENet(progressive scale expansion network),即漸進(jìn)尺度擴(kuò)張算法,是一種能夠很好地檢測(cè)自然場(chǎng)景中的任意形狀文本的文本檢測(cè)器。對(duì)于圖像中的每個(gè)文本實(shí)例而言,都會(huì)生成多個(gè)相對(duì)應(yīng)的預(yù)測(cè)區(qū)域,記作1…。這些區(qū)域也可稱之為“核”,其與原文本區(qū)域具有一定的擬合性。在相對(duì)位置上也是相同的,不同的一點(diǎn)主要是每個(gè)核對(duì)應(yīng)的文本實(shí)例的比例不同。其流程如圖4所示。主要思想是利用BFS(廣度優(yōu)先算法)逐漸擴(kuò)展kernel的尺度,首先是在1上,即從最小的文字分割特征圖得到已經(jīng)分開(kāi)的文本中心區(qū)域,然后利用2中的像素和1中的像素進(jìn)行融合,以此達(dá)到擴(kuò)張1的目的,但會(huì)發(fā)生一個(gè)像素屬于多個(gè)文本區(qū)域的情況。如圖4中的灰色區(qū)域,采用的區(qū)分方法是“先到先得”。同理,用3來(lái)擴(kuò)展上一步得到的結(jié)果,得到最終的檢測(cè)結(jié)果。

圖4 漸進(jìn)式尺度擴(kuò)展算法
為了能夠更加精確地提取特征,本文運(yùn)用了ResNeXt網(wǎng)絡(luò),通常我們想要增加模型的精度一般都是通過(guò)加深網(wǎng)絡(luò)的方式,但是這就會(huì)增加計(jì)算量及其復(fù)雜性。本文使用ResNeXt作為主干網(wǎng)絡(luò)來(lái)進(jìn)行特征提取,是因?yàn)樗谔岣邷?zhǔn)確率的同時(shí)基本不改變或增加模型的復(fù)雜度。它引入了新的用于構(gòu)建CNN網(wǎng)絡(luò)的blocks模塊,通過(guò)對(duì)相同的卷積層進(jìn)行平行堆疊而形成,并提出了一種新的計(jì)算模塊復(fù)雜度的度量“cardinality”,指的是一個(gè)block中所具有的相同分支的數(shù)目。如圖5所示,該網(wǎng)絡(luò)中的cardinality=32。

圖5 ResNeXt網(wǎng)絡(luò)
本項(xiàng)目的實(shí)驗(yàn)環(huán)境配置如表1所示。

表1 實(shí)驗(yàn)環(huán)境配置
本項(xiàng)目使用的是基于MMOCR的文本檢測(cè)識(shí)別框架,在該框架上進(jìn)行模型搭建,使用的數(shù)據(jù)集是公開(kāi)數(shù)據(jù)集ICDAR2015,通過(guò)對(duì)原始的PSENet模型進(jìn)行改進(jìn),并基于ICDAR2015對(duì)模型進(jìn)行了訓(xùn)練以及測(cè)試,最后通過(guò)三個(gè)評(píng)價(jià)指標(biāo):準(zhǔn)確率Precision、召回率Recall以及綜合評(píng)價(jià)指標(biāo)H-mean對(duì)模型的性能進(jìn)行評(píng)估,從表2中可以看出,改進(jìn)后的模型對(duì)文本的檢測(cè)效果得到明顯提升。

表2 改進(jìn)模型性能對(duì)比
本文對(duì)基礎(chǔ)的文本檢測(cè)算法進(jìn)行改進(jìn)研究,實(shí)驗(yàn)中迭代次數(shù)epoch設(shè)置為600,learning rate設(shè)置為0.001,Batch Size設(shè)置為4。實(shí)驗(yàn)檢測(cè)效果如圖6所示。

圖6 檢測(cè)效果
本文通過(guò)對(duì)基本的PSENet文本檢測(cè)網(wǎng)絡(luò)進(jìn)行改進(jìn),將主干網(wǎng)絡(luò)替換為特征提取能力更強(qiáng)的ResNeXt101,增強(qiáng)了總體的特征提取能力。提高了文本檢測(cè)的效率以及精度,相較于基本的網(wǎng)絡(luò)模型,本文改進(jìn)的模型取得了更好的效果。本文算法在場(chǎng)景文本檢測(cè)方面有較好的效果,為后續(xù)進(jìn)行識(shí)別提供了一個(gè)好的基礎(chǔ)。