駱 遙
(同濟(jì)大學(xué) 測(cè)繪與地理信息學(xué)院,上海 200092)
基于深度全卷積神經(jīng)網(wǎng)絡(luò)的文字區(qū)域定位方法
駱 遙
(同濟(jì)大學(xué) 測(cè)繪與地理信息學(xué)院,上海 200092)
近年來(lái),深度學(xué)習(xí)模型在各種計(jì)算機(jī)視覺(jué)方面都展現(xiàn)出了遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)方法的性能,在自然場(chǎng)景中的文字區(qū)域定位問(wèn)題中引入深度學(xué)習(xí)方法無(wú)疑也是大勢(shì)所趨。文章提出了一種基于深度全卷積網(wǎng)絡(luò)方法的文字區(qū)域定位方法,實(shí)現(xiàn)了端到端的訓(xùn)練、檢測(cè),使得訓(xùn)練更為有效,檢測(cè)過(guò)程更加高效。最終文中方法在ICDAR 2015數(shù)據(jù)集上對(duì)比基于MSER等的傳統(tǒng)方法有了很大提升,達(dá)到了86.57%的查準(zhǔn)率和82.1%的召回率。
深度全卷積網(wǎng)絡(luò);自然場(chǎng)景文字區(qū)域定位;圖像區(qū)域分割
傳統(tǒng)的自然場(chǎng)景文字定位問(wèn)題通常遵循自下而上的檢測(cè)流程,首先是對(duì)圖像進(jìn)行預(yù)處理,然后通過(guò)傳統(tǒng)的檢測(cè)方法通常是使用模版匹配的方法來(lái)選擇候選區(qū)域,接著對(duì)候選區(qū)域進(jìn)行投票選擇融合或者非極大值抑制方法生成最后的文字區(qū)域[1]。這類(lèi)模板在解決特定場(chǎng)景下的定位問(wèn)題時(shí)非常有效,例如應(yīng)用在掃描文件的OCR問(wèn)題上[2],因?yàn)檫@類(lèi)問(wèn)題通常帶有很強(qiáng)的先驗(yàn)信息,比如字體統(tǒng)一、大小統(tǒng)一等信息,但是在自然場(chǎng)景中文字字體千差萬(wàn)別、尺度跨度非常廣,背景信息復(fù)雜,面對(duì)這些情況從低層特征構(gòu)建出的模板泛化能力非常有限,這類(lèi)方法的代表有SWT和MSER方法。
本文提出一種利用深度全卷積網(wǎng)絡(luò)來(lái)對(duì)像素點(diǎn)進(jìn)行分類(lèi),從而達(dá)到檢測(cè)文字區(qū)域的目的。這種方法有如下幾個(gè)優(yōu)點(diǎn),第一深度全卷積網(wǎng)絡(luò)不同于傳統(tǒng)的深度卷積神經(jīng)網(wǎng)絡(luò),不需要對(duì)輸入圖像的尺寸做歸一化操作,因此能最大程度上地在不損失原有圖像信息的基礎(chǔ)上利用好圖像信息。第二,由于是利用對(duì)像素點(diǎn)進(jìn)行分類(lèi)來(lái)檢測(cè)文字區(qū)域,因此對(duì)文字區(qū)域的尺度變化和旋轉(zhuǎn)變化要比傳統(tǒng)的模板匹配的方法魯棒很多。第三,這是一種端到端的訓(xùn)練檢測(cè)方法,能最大程度上的利用圖像的上下文信息和局部信息對(duì)參數(shù)進(jìn)行有效訓(xùn)練,檢測(cè)階段只需要進(jìn)行一次前向傳播就能完成所有的檢測(cè)步驟,因此對(duì)比傳統(tǒng)的模板匹配方法效率要提高不少。
1.1 傳統(tǒng)方法
過(guò)去很長(zhǎng)一段時(shí)間內(nèi),自然場(chǎng)景的文字區(qū)域檢測(cè)問(wèn)題都依賴(lài)于單個(gè)文字的檢測(cè)。單個(gè)文字通常使用一些低層特征例如HOG,LBP、區(qū)域面積、區(qū)域長(zhǎng)寬比等來(lái)對(duì)單個(gè)文字進(jìn)行描述,然后使用模板匹配的方法利用SVM,Random Forest等強(qiáng)分類(lèi)器進(jìn)行單個(gè)文字的檢測(cè)。近年來(lái),深度卷積神經(jīng)網(wǎng)絡(luò)所表現(xiàn)出的強(qiáng)大的特征表達(dá)能力使得該類(lèi)方法在各個(gè)計(jì)算機(jī)視覺(jué)方向都取得了突破性的進(jìn)展,因此也有一些工作使用深度卷積神經(jīng)網(wǎng)絡(luò)來(lái)代替低層特征加強(qiáng)分類(lèi)器來(lái)進(jìn)行單個(gè)字符的檢測(cè),也確實(shí)取得了更好的結(jié)果。但是基于該種思想的方法仍然無(wú)法在復(fù)雜的自然場(chǎng)景中游刃有余。
1.2 本文方法
VGG-16[7]是牛津大學(xué)視覺(jué)幾何組在2015年提出的一種圖像分類(lèi)的深度卷積神經(jīng)網(wǎng)絡(luò)模型。該模型所采用的小卷積核(3×3)有效地減少了參數(shù)數(shù)量,防止過(guò)擬合,提升了訓(xùn)練效率,一經(jīng)提出就在各大視覺(jué)競(jìng)賽中取得了優(yōu)異的成績(jī)。
由于VGG-16具有優(yōu)異的特征表達(dá)能力,基于這個(gè)模型的各種衍生品層出不窮[3]。本文也是基于VGG-16的特征表達(dá)來(lái)實(shí)現(xiàn)自然場(chǎng)景的文字區(qū)域檢測(cè)。本文提出網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,前五層卷積部分完全繼承自VGG-16,每個(gè)卷積部分都包含2個(gè)卷積層,2個(gè)激活層和一個(gè)下采樣層。雖然卷積核的大小固定為3×3,可是由于網(wǎng)絡(luò)層深不同的緣故,不同卷積部分所提取的特征側(cè)重也有所不同,淺層的卷積部分更關(guān)注圖像的局部細(xì)節(jié),例如邊緣和紋理等;深層的卷積部分更關(guān)注圖像的全局信息,不同深度的卷積部分提取不同尺度上的圖像特征,級(jí)聯(lián)。這些特征對(duì)于準(zhǔn)確地描述圖像特征非常有幫助。承接5個(gè)卷積部分的是5個(gè)反卷積層,分別對(duì)應(yīng)不同深度的卷積特征,其將這些卷積特征反卷積到和輸入圖像相同的尺寸大小。反卷積操作效果相當(dāng)于上采樣再加上一個(gè)1×1卷積核的卷積層。然后將這些反卷積得到的結(jié)果級(jí)聯(lián)起來(lái),再通過(guò)一個(gè)1×1的卷積層,這樣就生成了最終的特征圖。特征圖通過(guò)Sigmoid層來(lái)實(shí)現(xiàn)對(duì)每個(gè)像素點(diǎn)的二分類(lèi)。
基于深度全卷積網(wǎng)絡(luò)的訓(xùn)練方法還是采用傳統(tǒng)的minibatch的隨機(jī)梯度下降方法,由于采用logistic作為二分類(lèi)器,損失函數(shù)很自然地選擇了交叉熵?fù)p失函數(shù)。訓(xùn)練階段為了加速模型的收斂速度使用了Dropout層來(lái)加速收斂。測(cè)試階段是用Sigmoid層代替Cross-Entropy損失層來(lái)得到最后的概率預(yù)測(cè)圖,針對(duì)概率選擇閾值就可以確定最后的結(jié)果。
2.1 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)數(shù)據(jù)選擇了ICDAR—2015中的自然場(chǎng)景文本標(biāo)準(zhǔn)數(shù)據(jù)集。這個(gè)數(shù)據(jù)集是ICDAR—2015自然場(chǎng)景文本區(qū)域定位比賽的專(zhuān)用數(shù)據(jù)集,是一個(gè)公認(rèn)的具有挑戰(zhàn)性的數(shù)據(jù)集。
2.2 訓(xùn)練細(xì)節(jié)

本文所提出的方法基于Caffe開(kāi)源框架實(shí)現(xiàn),服務(wù)器配置如下:2.0 GHz 8-coreCPU,32 GRAM,GTX—1070GPU,操作系統(tǒng)為Ubuntu-14.04 LTS。
2.3 檢測(cè)結(jié)果
采用查準(zhǔn)率和召回率來(lái)定量評(píng)價(jià)算法的性能與表現(xiàn)。設(shè)Nt為圖像中文字區(qū)域數(shù)量,Nc為正確檢測(cè)的文字區(qū)域數(shù)量、Nf為錯(cuò)檢的文字區(qū)域數(shù)量,則查準(zhǔn)率定義為:precision=Nc/(Nc+Nf),召回率定義為:recall=Nc/Nt。所有測(cè)試圖像上有文字區(qū)域,基于本文算法共檢測(cè)出1 508個(gè)文字區(qū)域,其中1 303個(gè)是正確的,205個(gè)是錯(cuò)誤的,即查準(zhǔn)率為86.57%,查全率為82.1%。
本論文將深度學(xué)習(xí)引入了自然場(chǎng)景的文字區(qū)域識(shí)別問(wèn)題中,并設(shè)計(jì)采用深度全卷積網(wǎng)絡(luò)來(lái)進(jìn)行像素分類(lèi)并以此來(lái)解決文字區(qū)域定位的問(wèn)題。像素分類(lèi)不易受尺度變化、方向變化等要素影響,全卷積網(wǎng)絡(luò)不受輸入圖像的圖幅限制,本文將二者結(jié)合起來(lái)設(shè)計(jì)了端到端的訓(xùn)練、檢測(cè)方法。對(duì)比以往的基于單個(gè)字符的區(qū)域檢測(cè)方法更具有魯棒性,在標(biāo)準(zhǔn)數(shù)據(jù)集上取得了不錯(cuò)的測(cè)試效果。

圖1 本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)
[1]MATAS J, CHUM O, URBAN M, et al.Robust wide baseline stere of rommaximally stable extremal regions.[C].British: British Machine Vision Conference, 2002:384-396.
[2]DONOSER M, BISCH H.Efficient Maximally Stable Extremal Region(MSER)Tracking[C].USA: IEEE Conference on Computer Vision and Pattern Recognition, 2006:625-630.
[3]SALEMBIER, PHILIPPE, OLIVERAS A, et al. Antiextensive Connected Operators for Image and Sequence Processing.[J]. Transactions on Image Processing, 1998(4):555–570.
[4]NEUMANN L. A Method for Text Localization and Recognition in Real-World Images[C].Taibei: Asian Conference on Computer Vision,2010:770-783.
Text area location method based on depth full convolutional neural network
Luo Yao
(Surveying and Mapping and Geographic Information College of Tongji University, Shanghai 200092, China)
Deep learning has drawn lots of attention recently due to its powerful ability in both computer vision and voice field. Introducing depth learning method in text area localization problem of natural scene undoubtedly is the trend. In this paper we proposed a new method based on deep fully convolutional networks for neural scene text localization task which is an end-to-end method.The method we proposed makes the training and detection much more efficient compared with the traditional method such as MSER method. Finally we achieved 86.57% precision and 82.1% recall in ICDAR 2015 data set.
neural scene text localization;natural scene text area location; image region segmentation
駱遙(1992— ),男,甘肅天水,碩士研究生;研究方向:計(jì)算機(jī)視覺(jué)。