999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度全卷積神經(jīng)網(wǎng)絡(luò)的文字區(qū)域定位方法

2017-01-11 09:39:52
無(wú)線互聯(lián)科技 2016年23期
關(guān)鍵詞:深度特征區(qū)域

駱 遙

(同濟(jì)大學(xué) 測(cè)繪與地理信息學(xué)院,上海 200092)

基于深度全卷積神經(jīng)網(wǎng)絡(luò)的文字區(qū)域定位方法

駱 遙

(同濟(jì)大學(xué) 測(cè)繪與地理信息學(xué)院,上海 200092)

近年來(lái),深度學(xué)習(xí)模型在各種計(jì)算機(jī)視覺(jué)方面都展現(xiàn)出了遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)方法的性能,在自然場(chǎng)景中的文字區(qū)域定位問(wèn)題中引入深度學(xué)習(xí)方法無(wú)疑也是大勢(shì)所趨。文章提出了一種基于深度全卷積網(wǎng)絡(luò)方法的文字區(qū)域定位方法,實(shí)現(xiàn)了端到端的訓(xùn)練、檢測(cè),使得訓(xùn)練更為有效,檢測(cè)過(guò)程更加高效。最終文中方法在ICDAR 2015數(shù)據(jù)集上對(duì)比基于MSER等的傳統(tǒng)方法有了很大提升,達(dá)到了86.57%的查準(zhǔn)率和82.1%的召回率。

深度全卷積網(wǎng)絡(luò);自然場(chǎng)景文字區(qū)域定位;圖像區(qū)域分割

傳統(tǒng)的自然場(chǎng)景文字定位問(wèn)題通常遵循自下而上的檢測(cè)流程,首先是對(duì)圖像進(jìn)行預(yù)處理,然后通過(guò)傳統(tǒng)的檢測(cè)方法通常是使用模版匹配的方法來(lái)選擇候選區(qū)域,接著對(duì)候選區(qū)域進(jìn)行投票選擇融合或者非極大值抑制方法生成最后的文字區(qū)域[1]。這類(lèi)模板在解決特定場(chǎng)景下的定位問(wèn)題時(shí)非常有效,例如應(yīng)用在掃描文件的OCR問(wèn)題上[2],因?yàn)檫@類(lèi)問(wèn)題通常帶有很強(qiáng)的先驗(yàn)信息,比如字體統(tǒng)一、大小統(tǒng)一等信息,但是在自然場(chǎng)景中文字字體千差萬(wàn)別、尺度跨度非常廣,背景信息復(fù)雜,面對(duì)這些情況從低層特征構(gòu)建出的模板泛化能力非常有限,這類(lèi)方法的代表有SWT和MSER方法。

本文提出一種利用深度全卷積網(wǎng)絡(luò)來(lái)對(duì)像素點(diǎn)進(jìn)行分類(lèi),從而達(dá)到檢測(cè)文字區(qū)域的目的。這種方法有如下幾個(gè)優(yōu)點(diǎn),第一深度全卷積網(wǎng)絡(luò)不同于傳統(tǒng)的深度卷積神經(jīng)網(wǎng)絡(luò),不需要對(duì)輸入圖像的尺寸做歸一化操作,因此能最大程度上地在不損失原有圖像信息的基礎(chǔ)上利用好圖像信息。第二,由于是利用對(duì)像素點(diǎn)進(jìn)行分類(lèi)來(lái)檢測(cè)文字區(qū)域,因此對(duì)文字區(qū)域的尺度變化和旋轉(zhuǎn)變化要比傳統(tǒng)的模板匹配的方法魯棒很多。第三,這是一種端到端的訓(xùn)練檢測(cè)方法,能最大程度上的利用圖像的上下文信息和局部信息對(duì)參數(shù)進(jìn)行有效訓(xùn)練,檢測(cè)階段只需要進(jìn)行一次前向傳播就能完成所有的檢測(cè)步驟,因此對(duì)比傳統(tǒng)的模板匹配方法效率要提高不少。

1 方法描述

1.1 傳統(tǒng)方法

過(guò)去很長(zhǎng)一段時(shí)間內(nèi),自然場(chǎng)景的文字區(qū)域檢測(cè)問(wèn)題都依賴(lài)于單個(gè)文字的檢測(cè)。單個(gè)文字通常使用一些低層特征例如HOG,LBP、區(qū)域面積、區(qū)域長(zhǎng)寬比等來(lái)對(duì)單個(gè)文字進(jìn)行描述,然后使用模板匹配的方法利用SVM,Random Forest等強(qiáng)分類(lèi)器進(jìn)行單個(gè)文字的檢測(cè)。近年來(lái),深度卷積神經(jīng)網(wǎng)絡(luò)所表現(xiàn)出的強(qiáng)大的特征表達(dá)能力使得該類(lèi)方法在各個(gè)計(jì)算機(jī)視覺(jué)方向都取得了突破性的進(jìn)展,因此也有一些工作使用深度卷積神經(jīng)網(wǎng)絡(luò)來(lái)代替低層特征加強(qiáng)分類(lèi)器來(lái)進(jìn)行單個(gè)字符的檢測(cè),也確實(shí)取得了更好的結(jié)果。但是基于該種思想的方法仍然無(wú)法在復(fù)雜的自然場(chǎng)景中游刃有余。

1.2 本文方法

VGG-16[7]是牛津大學(xué)視覺(jué)幾何組在2015年提出的一種圖像分類(lèi)的深度卷積神經(jīng)網(wǎng)絡(luò)模型。該模型所采用的小卷積核(3×3)有效地減少了參數(shù)數(shù)量,防止過(guò)擬合,提升了訓(xùn)練效率,一經(jīng)提出就在各大視覺(jué)競(jìng)賽中取得了優(yōu)異的成績(jī)。

由于VGG-16具有優(yōu)異的特征表達(dá)能力,基于這個(gè)模型的各種衍生品層出不窮[3]。本文也是基于VGG-16的特征表達(dá)來(lái)實(shí)現(xiàn)自然場(chǎng)景的文字區(qū)域檢測(cè)。本文提出網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,前五層卷積部分完全繼承自VGG-16,每個(gè)卷積部分都包含2個(gè)卷積層,2個(gè)激活層和一個(gè)下采樣層。雖然卷積核的大小固定為3×3,可是由于網(wǎng)絡(luò)層深不同的緣故,不同卷積部分所提取的特征側(cè)重也有所不同,淺層的卷積部分更關(guān)注圖像的局部細(xì)節(jié),例如邊緣和紋理等;深層的卷積部分更關(guān)注圖像的全局信息,不同深度的卷積部分提取不同尺度上的圖像特征,級(jí)聯(lián)。這些特征對(duì)于準(zhǔn)確地描述圖像特征非常有幫助。承接5個(gè)卷積部分的是5個(gè)反卷積層,分別對(duì)應(yīng)不同深度的卷積特征,其將這些卷積特征反卷積到和輸入圖像相同的尺寸大小。反卷積操作效果相當(dāng)于上采樣再加上一個(gè)1×1卷積核的卷積層。然后將這些反卷積得到的結(jié)果級(jí)聯(lián)起來(lái),再通過(guò)一個(gè)1×1的卷積層,這樣就生成了最終的特征圖。特征圖通過(guò)Sigmoid層來(lái)實(shí)現(xiàn)對(duì)每個(gè)像素點(diǎn)的二分類(lèi)。

基于深度全卷積網(wǎng)絡(luò)的訓(xùn)練方法還是采用傳統(tǒng)的minibatch的隨機(jī)梯度下降方法,由于采用logistic作為二分類(lèi)器,損失函數(shù)很自然地選擇了交叉熵?fù)p失函數(shù)。訓(xùn)練階段為了加速模型的收斂速度使用了Dropout層來(lái)加速收斂。測(cè)試階段是用Sigmoid層代替Cross-Entropy損失層來(lái)得到最后的概率預(yù)測(cè)圖,針對(duì)概率選擇閾值就可以確定最后的結(jié)果。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)數(shù)據(jù)選擇了ICDAR—2015中的自然場(chǎng)景文本標(biāo)準(zhǔn)數(shù)據(jù)集。這個(gè)數(shù)據(jù)集是ICDAR—2015自然場(chǎng)景文本區(qū)域定位比賽的專(zhuān)用數(shù)據(jù)集,是一個(gè)公認(rèn)的具有挑戰(zhàn)性的數(shù)據(jù)集。

2.2 訓(xùn)練細(xì)節(jié)

本文所提出的方法基于Caffe開(kāi)源框架實(shí)現(xiàn),服務(wù)器配置如下:2.0 GHz 8-coreCPU,32 GRAM,GTX—1070GPU,操作系統(tǒng)為Ubuntu-14.04 LTS。

2.3 檢測(cè)結(jié)果

采用查準(zhǔn)率和召回率來(lái)定量評(píng)價(jià)算法的性能與表現(xiàn)。設(shè)Nt為圖像中文字區(qū)域數(shù)量,Nc為正確檢測(cè)的文字區(qū)域數(shù)量、Nf為錯(cuò)檢的文字區(qū)域數(shù)量,則查準(zhǔn)率定義為:precision=Nc/(Nc+Nf),召回率定義為:recall=Nc/Nt。所有測(cè)試圖像上有文字區(qū)域,基于本文算法共檢測(cè)出1 508個(gè)文字區(qū)域,其中1 303個(gè)是正確的,205個(gè)是錯(cuò)誤的,即查準(zhǔn)率為86.57%,查全率為82.1%。

3 結(jié)語(yǔ)

本論文將深度學(xué)習(xí)引入了自然場(chǎng)景的文字區(qū)域識(shí)別問(wèn)題中,并設(shè)計(jì)采用深度全卷積網(wǎng)絡(luò)來(lái)進(jìn)行像素分類(lèi)并以此來(lái)解決文字區(qū)域定位的問(wèn)題。像素分類(lèi)不易受尺度變化、方向變化等要素影響,全卷積網(wǎng)絡(luò)不受輸入圖像的圖幅限制,本文將二者結(jié)合起來(lái)設(shè)計(jì)了端到端的訓(xùn)練、檢測(cè)方法。對(duì)比以往的基于單個(gè)字符的區(qū)域檢測(cè)方法更具有魯棒性,在標(biāo)準(zhǔn)數(shù)據(jù)集上取得了不錯(cuò)的測(cè)試效果。

圖1 本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)

[1]MATAS J, CHUM O, URBAN M, et al.Robust wide baseline stere of rommaximally stable extremal regions.[C].British: British Machine Vision Conference, 2002:384-396.

[2]DONOSER M, BISCH H.Efficient Maximally Stable Extremal Region(MSER)Tracking[C].USA: IEEE Conference on Computer Vision and Pattern Recognition, 2006:625-630.

[3]SALEMBIER, PHILIPPE, OLIVERAS A, et al. Antiextensive Connected Operators for Image and Sequence Processing.[J]. Transactions on Image Processing, 1998(4):555–570.

[4]NEUMANN L. A Method for Text Localization and Recognition in Real-World Images[C].Taibei: Asian Conference on Computer Vision,2010:770-783.

Text area location method based on depth full convolutional neural network

Luo Yao
(Surveying and Mapping and Geographic Information College of Tongji University, Shanghai 200092, China)

Deep learning has drawn lots of attention recently due to its powerful ability in both computer vision and voice field. Introducing depth learning method in text area localization problem of natural scene undoubtedly is the trend. In this paper we proposed a new method based on deep fully convolutional networks for neural scene text localization task which is an end-to-end method.The method we proposed makes the training and detection much more efficient compared with the traditional method such as MSER method. Finally we achieved 86.57% precision and 82.1% recall in ICDAR 2015 data set.

neural scene text localization;natural scene text area location; image region segmentation

駱遙(1992— ),男,甘肅天水,碩士研究生;研究方向:計(jì)算機(jī)視覺(jué)。

猜你喜歡
深度特征區(qū)域
深度理解一元一次方程
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
關(guān)于四色猜想
分區(qū)域
基于嚴(yán)重區(qū)域的多PCC點(diǎn)暫降頻次估計(jì)
主站蜘蛛池模板: 2021天堂在线亚洲精品专区| 亚洲一级毛片免费观看| 国内精品自在欧美一区| 亚洲精品麻豆| 免费毛片全部不收费的| 91精品人妻一区二区| 久久久噜噜噜| 中文字幕在线观看日本| 日韩在线中文| 国产成人综合亚洲欧洲色就色| 国产精品久线在线观看| 欧美在线观看不卡| 露脸一二三区国语对白| 国产成人精品视频一区视频二区| 成人午夜亚洲影视在线观看| 伊人久久久大香线蕉综合直播| 日日拍夜夜操| 中国黄色一级视频| 国产91无毒不卡在线观看| 日韩在线播放中文字幕| 嫩草在线视频| 成人免费网站在线观看| 国产极品嫩模在线观看91| 久久国产精品国产自线拍| 伊人激情综合网| 狠狠操夜夜爽| 亚洲无码熟妇人妻AV在线| 精品视频一区二区观看| 极品尤物av美乳在线观看| 亚洲高清中文字幕| 成年看免费观看视频拍拍| 视频一区视频二区日韩专区 | 91精品综合| 欧美午夜在线观看| 欧美综合在线观看| 一区二区三区在线不卡免费| 国产精品一区二区久久精品无码| 毛片最新网址| 久久96热在精品国产高清| 福利国产在线| 欧美色综合网站| av大片在线无码免费| 69av免费视频| 波多野结衣亚洲一区| 91午夜福利在线观看| 国产18页| 国产精品网拍在线| av尤物免费在线观看| 色综合日本| 国产乱人伦精品一区二区| av在线无码浏览| 亚洲无码精品在线播放 | 久久人人97超碰人人澡爱香蕉| 毛片基地美国正在播放亚洲 | 色视频国产| 被公侵犯人妻少妇一区二区三区| 女人18毛片一级毛片在线 | 激情综合图区| 久久久国产精品无码专区| 中日韩一区二区三区中文免费视频 | 亚洲日韩精品无码专区97| 国产区成人精品视频| 亚洲欧美成人| 亚洲男人天堂久久| 久久精品国产精品青草app| 丝袜亚洲综合| 国产拍在线| 免费人成视网站在线不卡| 国产激情无码一区二区三区免费| 日韩亚洲高清一区二区| 在线色国产| 激情综合激情| 国内自拍久第一页| 亚洲日本www| 国产福利在线观看精品| 欧美不卡在线视频| 91福利免费视频| 免费A∨中文乱码专区| 伊人天堂网| 永久在线精品免费视频观看| 国产精品第一区| 国产无码网站在线观看|