999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經(jīng)網(wǎng)絡(luò)的自然背景字符識別

2018-01-03 01:55:03彭志文
計算機(jī)應(yīng)用與軟件 2017年12期
關(guān)鍵詞:特征實驗

郁 松 彭志文

(中南大學(xué)軟件學(xué)院 湖南 長沙 410075)

基于卷積神經(jīng)網(wǎng)絡(luò)的自然背景字符識別

郁 松 彭志文

(中南大學(xué)軟件學(xué)院 湖南 長沙 410075)

隨著計算機(jī)視覺技術(shù)的發(fā)展,自然背景中字符的識別在圖片檢索、視頻檢索、無人車識別周圍場景信息等領(lǐng)域都扮演了不可或缺的角色。相對于手寫字符、打印字符的識別,自然背景字符的識別有著光照強(qiáng)度變化大、背景紋理復(fù)雜、字體樣式和顏色多變等特點,這都給識別帶來了巨大的挑戰(zhàn)。主要是基于LeNet-5的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計了一種適合于識別自然背景字符的卷積神經(jīng)網(wǎng)絡(luò),由于在這一領(lǐng)域以往的研究工作的基準(zhǔn)數(shù)據(jù)集是較小的數(shù)據(jù)集(Chars74K-15),為了便于比較,實驗也是基于同樣的數(shù)據(jù)集。但因為卷積神經(jīng)網(wǎng)絡(luò)是在巨大數(shù)據(jù)量的驅(qū)動下才會有良好的效果,因此還提出了一種預(yù)處理方式和fine-tune相結(jié)合用于解決自然背景字符圖片數(shù)據(jù)量較小的問題。

自然背景字符識別 卷積神經(jīng)網(wǎng)絡(luò) 圖像分類

0 引 言

在計算機(jī)視覺領(lǐng)域,許多問題都得到了良好的解決,比如人臉檢測和手寫字符的識別。盡管目前存在很多有用的方法和應(yīng)用來解決文本的識別,例如已經(jīng)運用于商業(yè)的產(chǎn)品OCR[1]在掃描文本的識別中取得了巨大的成功。由于字體、光照、背景、視角等較為復(fù)雜的外部因素的影響,自然背景文本的識別依然存在著很多挑戰(zhàn)和待解決的問題。這一研究內(nèi)容主要包括文本的檢測和定位、字符的分割和字符的識別。本文的主要研究工作是對于字符的識別。

目前對于解決這一問題的方法主要分為2大類[2]:基于區(qū)域聚合的方法和目標(biāo)識別的方法?;趨^(qū)域聚合的方法[1,3]主要應(yīng)用了二值化和圖像分割,所以這些方法運行較快,但是在低分辨率或者存在噪聲的情況下并不適用。而基于目標(biāo)識別的方法[15]是將自然背景下字符的識別當(dāng)做一般的圖像分類任務(wù)來進(jìn)行處理,一般步驟就是從圖片中提取特征來訓(xùn)練分類器,并完成分類任務(wù),這需要大量的經(jīng)驗知識和設(shè)計恰當(dāng)?shù)奶卣鳌5诙N方法的使用較為普遍。

很多字符特征的提取方法被證明在用于提高字符識別準(zhǔn)確率上具有良好的效果。這些方法主要可以分為基于先驗知識人工設(shè)計的特征和基于深度學(xué)習(xí)自動提取的特征。方向梯度直方圖(HOG)特征在物體檢測中是很有效的,并且也被廣泛使用,因此也被[4-5]用來表示自然場景中字符的特征。一些方法認(rèn)為可以通過考慮圖像的空間與結(jié)構(gòu)信息來提高HOG特征的效果,Epshtein[6]提出了用鄰近區(qū)域的梯度方向分布代替單一的梯度方向。Yi等[5]基于HOG提出了全局采樣的GHOG,能夠?qū)ψ址Y(jié)構(gòu)進(jìn)行更好的建模。Shi等[7]提出了基于局部區(qū)域的樹狀特征,這個特征原本是用來進(jìn)行人臉檢測,文獻(xiàn)[7]的方法中用來表示字符特征。Lee等[2]認(rèn)為如果將輸入圖像分割成相等大小的區(qū)域,并且在每一個子區(qū)域提取方向梯度信息,但并不是每一個子區(qū)域都包含有效信息,因此提出了一種方法:首先提取隨機(jī)區(qū)域內(nèi)的10種不同特征,隨后使用SVM進(jìn)行訓(xùn)練,得到這10種特征對于字符識別的影響權(quán)重,然后取權(quán)重最大的前K個特征作為字符的特征。

以往的研究大多是基于人工設(shè)計的特征,設(shè)計這些特征需要良好的先驗知識,而且不一定適用于所有的自然背景的情況。因此本文針對以上問題基于LeNet-5[10]進(jìn)行了改進(jìn),該CNN模型可以有效提取自然背景下字符的特征。主要的改進(jìn)方面是增加了卷積層和卷積核的數(shù)量,這是因為LeNet-5只是識別手寫數(shù)字,而自然背景的字符識別需要識別62個種類,因此需要學(xué)習(xí)更多的特征。并且將sigmoid激活函數(shù)改為了ReLu(Rectified Linear Units),這樣減少了訓(xùn)練的收斂時間[11]。還在某些層增加了dropout[11],這是為了保證特征的稀疏性。輸入圖片增加了感興趣區(qū)域提取和二值化等預(yù)處理過程,使該卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以適應(yīng)訓(xùn)練數(shù)據(jù)較小的情況,并且通過實驗結(jié)果說明了數(shù)據(jù)擴(kuò)充的可行性。然后在數(shù)據(jù)擴(kuò)充的方法之上訓(xùn)練出最終的CNN模型用于自然背景字符的分類。

1 CNN總體框架和所采用的方法

本節(jié)主要是說明了數(shù)據(jù)集和經(jīng)過實驗得出的最佳的CNN整體結(jié)構(gòu),還描述了提出的2種數(shù)據(jù)處理的方法:基于直方圖和grabcut的數(shù)據(jù)預(yù)處理和數(shù)據(jù)擴(kuò)充。預(yù)處理是為了應(yīng)對數(shù)據(jù)量較小的情況并且驗證數(shù)據(jù)擴(kuò)充的可行性。數(shù)據(jù)擴(kuò)充是為了提升最終訓(xùn)練所得到模型的識別準(zhǔn)確率,也為數(shù)據(jù)量較小的情況下提供了一定的解決思路。

1.1 數(shù)據(jù)集說明

本文研究內(nèi)容所使用的數(shù)據(jù)集是Chars74K[12],該數(shù)據(jù)集包括64類字符,其中包括英文字母(A-Z,a-z)和阿拉伯?dāng)?shù)字(0~9),總共74 000張左右。但是自然背景下的字符只有12 503張,其中4 798張圖片較為模糊,其余的圖片是手寫字符(3 410張)和根據(jù)電腦的字體合成的字符(62 992張),圖1從這3類數(shù)據(jù)中各選了9張作為示意。

圖1 從左往右依次是自然背景字符、手寫字符、電腦合成字符

在自然背景圖片這一子數(shù)據(jù)集中,每一類字符的分布并不是均勻的,以往基于這個數(shù)據(jù)集的研究工作[5,8-9]都傾向于使用Chars74K-15,即每一類有15個訓(xùn)練樣本和15個測試樣本,總共1 860張圖片。為了方便比較實驗結(jié)果,本文的實驗內(nèi)容也同樣是基于Chars74K-15。

若是直接基于930張訓(xùn)練圖片來訓(xùn)練本文所設(shè)計的卷積神經(jīng)網(wǎng)絡(luò),則效果不理想,在測試集上只有44%的準(zhǔn)確率。這是因為和基于手工設(shè)計的特征不同,CNN是通過大量的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)特征的,而較少數(shù)據(jù)量時不容易達(dá)到好的效果,但是在具有大量數(shù)據(jù)的條件之下,CNN相對于手工設(shè)計的特征可以提取到更為準(zhǔn)確的特征而到達(dá)更好的分類效果。一些方法,比如文獻(xiàn)[8]用了12 000張自然背景字符圖片做為訓(xùn)練集,文獻(xiàn)[13]用了2 200 000張帶標(biāo)簽的訓(xùn)練數(shù)據(jù)集。然而得到如此規(guī)模的數(shù)據(jù)集是比較困難的。因此本文提出了一種數(shù)據(jù)預(yù)處理的方式對Chars74K-15進(jìn)行預(yù)處理,然后再基于現(xiàn)有的合成字符圖片數(shù)據(jù)集進(jìn)行CNN的預(yù)訓(xùn)練,最后再對預(yù)處理之后的Chars74K-15進(jìn)行fine-tune訓(xùn)練,這樣可以使識別率達(dá)到比較良好的效果。

1.2 預(yù)處理過程

預(yù)處理的目的主要是排除背景、光照等干擾因素,使預(yù)處理之后的圖片特征和合成的字符圖片較為類似。首先使用GrabCut算法[14]提取自然背景字符圖片的前景,也就是字符本身,這是CNN的分類依據(jù)。由于對字符進(jìn)行分類,只需要關(guān)注圖像的紋理與邊緣特征,所以忽略色彩特征,將三通道的彩色圖像變成單通道的灰度圖像,這也同樣減少了無關(guān)特征的干擾。接著可以計算灰度圖像的直方圖,根據(jù)圖1中自然背景字符圖片的特點可以得知,其中字符的像素是占整幅圖片大部分,由此可以在直方圖中找到某個像素范圍,經(jīng)過多次實驗本文將范圍設(shè)為24。若在這個范圍內(nèi)的像素所占的比例是最大的,則最有可能是屬于字符的像素。最后將這個范圍內(nèi)的像素設(shè)置為0,范圍外的像素設(shè)置為255,進(jìn)行腐蝕操作后即可得到與合成字符圖片特征較為類似的預(yù)處理后的自然背景字符圖片。整個過程如圖2所示。有些情況下字符所屬的像素不一定就是直方圖中最“廣闊”的山脈,背景像素有時候也可能占據(jù)圖片的大部分。這時候需要根據(jù)計算公式來決定該范圍內(nèi)的像素是否屬于圖片中的字符:

1A(P)

(1)

式中:A=[pi-a,pi+a],p是待選像素范圍的中值,pi是灰度圖像邊界像素的均值,a是根據(jù)實驗得出的經(jīng)驗值,本文中設(shè)置為12。若指示函數(shù)的值等于1,則說明待選的像素范圍很可能是屬于背景,則需要繼續(xù)查找另外的像素范圍。若等于0,待選像素范圍是正確的可能性較大。圖2的第3行和第4行分別表示了不使用指示函數(shù)和使用指示函數(shù)的區(qū)別。

圖2 從左到右依次是原圖、提取前景后的灰度圖、二值化圖像、灰度圖像的直方圖

1.3 CNN的結(jié)構(gòu)

圖3描述了本文中的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):CNN總共有10層,其中卷積層6層,全連接層1層,采樣層2層,還有最后一層是softmax層。前8層都會產(chǎn)生相應(yīng)的特征映射圖。通常來說,隨著卷積層數(shù)的增加,分類的準(zhǔn)確率會相應(yīng)提高,但是也會帶來相應(yīng)問題,比如訓(xùn)練時間和需要訓(xùn)練的參數(shù)的增長。如果保持?jǐn)?shù)據(jù)量不變,盲目地增加卷積層層數(shù),這會導(dǎo)致模型過于復(fù)雜,反而還會帶來過擬合的問題。為了確定最佳的卷積層層數(shù),本文保持CNN其他參數(shù)和結(jié)構(gòu)不變,分別在具有不同卷積層層數(shù)(分別是3、4、5、6、7層)的模型上進(jìn)行了訓(xùn)練,當(dāng)層數(shù)為6、7時測試錯誤率最低,詳細(xì)的實驗結(jié)果在第3節(jié)給出。

如圖3所示,除了采樣層與上層之間的連接參數(shù)不需要在訓(xùn)練中學(xué)習(xí),其他層與上層之間的連接參數(shù)都需要學(xué)習(xí),所以總共有8層參數(shù)需要學(xué)習(xí)。最后的全連接層會輸出一個500維的向量,softmax層將這一向量作為輸入,然后計算測試圖片分別屬于這62個類的概率分布,softmax使用交叉熵?fù)p失函數(shù)(cross-entropy)來計算每一次預(yù)測的loss值大小。常用的loss值計算的函數(shù)還有hinge loss,但是hinge loss計算的值是無標(biāo)定的,很難對所有類進(jìn)行判定。而通過cross-entropy所得的值可以對所有類都進(jìn)行判定,它會給出對每一個類的預(yù)測概率。采樣層的主要作用是降維,在本文中,采樣層將上一層每一個2×2區(qū)域內(nèi)的最大值作為采樣值。CNN中的采樣算法有最大采樣和均值采樣,實驗顯示采用最大采樣錯誤率可以降低1.2%左右。Dropout[11]會出現(xiàn)在全連接層的后面,它的主要作用是防止過擬合,dropout有一定的概率抑制它的上一層的神經(jīng)元的激活。在本文的實驗中,加了dropout錯誤率降低了8%左右。文獻(xiàn)[11]使用了局部響應(yīng)歸一化層(LRN),因為本文對輸入的圖片數(shù)據(jù)進(jìn)行了歸一化處理,所以并沒有使用LRN層,實驗證明使用了LRN層之后,錯誤率提高了2%左右。

在圖3中,第1個卷積層由20個特征圖組成,每一個特征圖的大小為28×28,每個神經(jīng)元的局部感受野大小為3×3×1。第2個卷積層由20個特征圖組成,每一個特征圖的大小為28×28,神經(jīng)元局部感受野的大小為3×3×20。第3個卷積層由50個特征圖組成,每一個特征圖的大小為14×14,神經(jīng)元局部感受野的大小為3×3×20。第4~6個卷積層有由50個特征圖組成,每一個特征圖的大小為14×14,神經(jīng)元局部感受野的大小都為3×3×50。全連接層有500個神經(jīng)元。對于所有的卷積層來說,同一個特征圖中的神經(jīng)元與上一層的連接參數(shù)都是相同的,稱為“權(quán)值共享”,而不同特征圖的神經(jīng)元與上一層的連接參數(shù)是不同的,這樣是為了可以提取不同的特征。

本文基于LeNet-5的改進(jìn)除了增加卷積層、減少局部感受野與增加卷積核(與上一層進(jìn)行卷積操作形成特征圖)之外,還增加了填充像素,目的是為了在不斷的卷積過程中,保證特征圖的空間大小不改變。因為,實驗發(fā)現(xiàn)當(dāng)卷積層從6層增加到7層的時候正確率反而降低了2%左右。原因如圖4所示,在第6層時,特征圖已經(jīng)變成4×4,第7層的局部感受野是3×3,會造成特征的丟失,LeNet-5的卷積層數(shù)目只有2層,因而無填充像素并不會影響。

2 CNN的訓(xùn)練過程

在LeNet-5中輸入圖片的大小為28×28,本文在此基礎(chǔ)上還實驗了25×25、32×32、50×50這3種尺寸作為輸入圖片的大小。發(fā)現(xiàn)32×32、50×50使準(zhǔn)確率分別降低了1.6%和4.6%,25×25和28×28幾乎沒有差別。所以實驗還是采用和LeNet-5一樣的輸入圖片尺寸。為了防止過擬合,有些方法會將輸入圖片隨機(jī)裁剪成多塊。這一步預(yù)處理在本次實驗中并不適用,因為在某些分類任務(wù)中的目標(biāo)物體不一定就在圖片正中的位置,裁剪有利于保證位移不變性。而實驗中所用的數(shù)據(jù)集字符都在中心位置,所以只采用了鏡像操作來擴(kuò)大數(shù)據(jù)量,若是使用了裁剪,錯誤率會提高3.6%左右。鑒于HOG和SIFT被普遍使用在目標(biāo)檢測和目標(biāo)識別領(lǐng)域,這兩種特征可以很好地描述圖像信息。因此本文也提取了Chars74K中的自然背景圖片的HOG特征圖和SIFT特征圖(如圖5所示)分別作為CNN模型的訓(xùn)練集,并且將訓(xùn)練結(jié)果和自然背景圖片作為訓(xùn)練集的結(jié)果相比較,比較結(jié)果分別為63.4%、31.8%、66.6%。其中,采用SIFT訓(xùn)練的識別率最低,采用原圖訓(xùn)練的識別率最高。由此可見,CNN模型并不適合采用對原圖進(jìn)行特征提取后的圖片作為訓(xùn)練集。

圖5 從左至右依次是原圖、HOG特征圖、SIFT特征圖

表1所示實驗過程中訓(xùn)練了不同層數(shù)的CNN結(jié)構(gòu):model1只有3層卷積層,model2到model5依次增加1層卷積層。在第一層最大采樣層(MAX_POOL)之前的所有卷積層有20個卷積核,之后的所有卷積層有50個卷積核。

表1 CNN結(jié)構(gòu)簡單示意

(2)

Wt+1=Wt+Vt+1

(3)

CNN中激活函數(shù)的選擇對于收斂速度和訓(xùn)練效果也是一個很重要的影響因素,本文在model4上實驗了ReLu和sigmoid兩種激活函數(shù),如圖6所示??芍?00次迭代的訓(xùn)練過程中,無論是測試準(zhǔn)確率的提高還是訓(xùn)練loss值的收斂速度,使用ReLu激活函數(shù)的效果都要優(yōu)于sigmoid激活函數(shù),因此本文在實驗中是將ReLu作為激活函數(shù)。因為它相對于sigmoid來說有單側(cè)抑制、稀疏激活性、避免過大的計算開銷等優(yōu)點。

圖6 左邊為使用ReLu函數(shù)的效果,右邊為使用sigmoid函數(shù)的效果

表1中的每一個CNN結(jié)構(gòu)都會基于3組不同的數(shù)據(jù)集進(jìn)行訓(xùn)練和測試,數(shù)據(jù)集分別是Chars74K中所有的自然背景圖片、Chars74K-15和預(yù)處理后的Chars74K-15。還會在后兩組數(shù)據(jù)集上采用fine-tune的方式進(jìn)行訓(xùn)練,fine-tune是基于Chars74K中的電腦合成字符。接著會在實驗最優(yōu)的CNN結(jié)構(gòu)中改變最后一層的卷積核個數(shù)進(jìn)行訓(xùn)練和測試。最后會將合成字符圖片進(jìn)行如2.3節(jié)所述的擴(kuò)充處理,將得到62 992張圖片作為訓(xùn)練集進(jìn)行字符分類訓(xùn)練。通過以上過程主要是想說明如下4點:

(1) 數(shù)據(jù)量的大小對CNN訓(xùn)練效果的影響。

(2) 基于本文提出的預(yù)處理方式,對于針對小數(shù)據(jù)集Chars74K-15訓(xùn)練效果的提高。

(3) 在數(shù)據(jù)量較少的情況下,fine-tune對于提高準(zhǔn)確率有較大的作用。其中fine-tune是指基于另外已有的數(shù)據(jù)集訓(xùn)練出一個模型(初始化CNN中的參數(shù)),在此預(yù)模型上針對需要完成分類任務(wù)的數(shù)據(jù)集再進(jìn)行訓(xùn)練(微調(diào)CNN中的參數(shù))。

(4) 在Chars74K-15數(shù)據(jù)集上,卷積層層數(shù)以及卷積核個數(shù)對分類效果的影響。

3 實驗結(jié)果分析

首先要驗證數(shù)據(jù)量的大小對于CNN的影響,實驗將在表1所示的5個CNN模型上分別對Chars74K的自然背景圖片(11 883張訓(xùn)練圖片,620張測試圖片)和Chars74K-15進(jìn)行訓(xùn)練,其中Chars74K-15是從每個類中選出訓(xùn)練集和測試集各15張圖片,實驗結(jié)果如圖7所示。在所有的模型中基于Chars74K訓(xùn)練的準(zhǔn)確率都要優(yōu)于基于Chars74K-15訓(xùn)練的準(zhǔn)確率,并且隨著卷積層層數(shù)的增加淺色長條會緩慢增長(從model1的62.3%到model4的66.6%),但是在model5會下降1.8%左右。深色長條則一直呈現(xiàn)波動的趨勢,在model5的時候,訓(xùn)練時候的loss是0.000 2,而測試的loss是4.93,這說明在基于Chars74K-15訓(xùn)練時可能發(fā)生了過擬合。所以基于適當(dāng)?shù)腃NN結(jié)構(gòu),數(shù)據(jù)量的增加會提高分類的準(zhǔn)確率,但是層數(shù)過多會導(dǎo)致模型需訓(xùn)練的參數(shù)增加,模型復(fù)雜度提高,從而也可能引起過擬合的現(xiàn)象。

圖7 Chars74K、Chars74K-15在不同模型上的實驗結(jié)果

接著在所有的CNN模型上實驗了在第2.1節(jié)中提出來的預(yù)處理對于Chars74K-15的影響,實驗結(jié)果如圖8所示。

圖8 預(yù)處理對于Chars74K-15的影響

由圖8可知預(yù)處理對于準(zhǔn)確率的提高有比較明顯的作用,平均提高了12%左右。這是因為經(jīng)過預(yù)處理后的圖像排除了背景,光照強(qiáng)弱等無關(guān)因素的影響,CNN更容易從中提取到與分類更加相關(guān)的特征。雖然一定程度上提高了準(zhǔn)確率,但實驗過程中準(zhǔn)確率最高為58.7%(model5),還是低于在Chars74K上訓(xùn)練的效果。為了在不增加自然背景字符圖片數(shù)據(jù)量的前提下進(jìn)一步提高準(zhǔn)確率,可以利用合成的字符圖片進(jìn)行預(yù)訓(xùn)練,然后基于訓(xùn)練好的模型再在預(yù)處理之后的Chars74K-15上進(jìn)行fine-tune訓(xùn)練,和直接基于Chars74K訓(xùn)練效果的比較如圖9所示,總體上準(zhǔn)確率并沒有大的區(qū)別。如果Chars74K-15只進(jìn)行了fine-tune訓(xùn)練而沒有經(jīng)過預(yù)處理,效果雖然比圖7(直接訓(xùn)練)平均有8%的提高,但沒有預(yù)處理之后再進(jìn)行fine-tune訓(xùn)練的準(zhǔn)確率高。

圖9 Chars74K直接訓(xùn)練、預(yù)處理后Chars74K-15的fine-tune訓(xùn)練和未預(yù)處理的Chars74K-15的fine-tune訓(xùn)練

所以預(yù)處理和fine-tune對于Chars74K-15數(shù)據(jù)集的分類準(zhǔn)確率的提高起到了一定的作用,fine-tune的方式可以有效緩解CNN的結(jié)構(gòu)比較深的時候難以訓(xùn)練的問題,而且還有一個優(yōu)于采用直接訓(xùn)練方式的地方,如圖10所示。和圖6左邊進(jìn)行對比采用fine-tune的方式在收斂速度上優(yōu)于直接訓(xùn)練。

圖10 直接基于Chars74K-15訓(xùn)練

結(jié)合準(zhǔn)確率和計算效率考慮,實驗選用model4作為最終的CNN結(jié)構(gòu),并測試卷積核數(shù)目的改變對于fine-tune訓(xùn)練預(yù)處理后的Chars74K-15影響,實驗結(jié)果如表2所示。實驗結(jié)果顯示的規(guī)律和前面的比較一致,在一定的范圍內(nèi),增加卷積層或者卷積核的個數(shù)準(zhǔn)確率也會相應(yīng)的提高,但是一旦達(dá)到某個臨界值,增加卷積層或卷積核個數(shù)便不再有幫助。

表2 不同卷積核數(shù)目的準(zhǔn)確率

表3是本文的方法和其它方法的比較,其中文獻(xiàn)[8]中提出的方法比較好,因為該方法使用了額外的自然背景字符圖片數(shù)據(jù)集,通過預(yù)訓(xùn)練的模型再進(jìn)行了fine-tune所以有目前最好的效果。

表3 不同的方法在Chars74K-15上的比較

通過CNN可以進(jìn)行比較準(zhǔn)確的分類,是因為可以通過不斷的卷積、采樣操作來提取圖片的特征和降維,并且通過隨機(jī)梯度下降的方式篩選出本質(zhì)的特征,過程如圖11所示。其中中間的圖選取的是第一層卷積層中的16個特征映射圖,右邊選取的是最后的采樣層中的49個特征映射圖,CNN從底層到頂層提取到的特征是從具體到抽象,稠密到稀疏的過程,這樣有利于提高分類的準(zhǔn)確性。

圖11 字符“m”在model4中的特征映射圖

訓(xùn)練迭代過程中的示意圖,如圖12所示。右邊的圖縱坐標(biāo)代表分類標(biāo)簽,橫坐標(biāo)代表訓(xùn)練的迭代次數(shù),像素值越高代表屬于哪個類的可能性越大。在字母“w”這個例子中,在訓(xùn)練迭代的過程中,CNN在32(表示“w”)和58(表示“W”)兩個類別間跳動。而對于特征比較明顯的字符,比如“m”,就會一直穩(wěn)定在48這一正確的分類上。圖11中顯示的是經(jīng)過預(yù)處理之后的字符圖片。

圖12 訓(xùn)練迭代時預(yù)測概率的變化

4 結(jié) 語

本文主要研究了訓(xùn)練樣本數(shù)據(jù)量大小、卷積層層數(shù)、卷積核個數(shù)以及訓(xùn)練方法對于Chars74K-15分類效果的影響。雖然在大數(shù)據(jù)背景下可以對CNN分類效果的提高起到較大的作用,但帶標(biāo)簽的數(shù)據(jù)的獲取比較困難,所以本文提出了一種預(yù)處理的方式和一個CNN結(jié)構(gòu)模型,并進(jìn)行實驗做出驗證,在不需要更多自然背景圖片的情況下,也可以取得比較良好的效果。但是基于預(yù)處理的方式也有一定的局限性,當(dāng)字符分割比較規(guī)整、字符主體和背景的對比度較高時,后續(xù)的CNN訓(xùn)練才會有比較良好提高作用。并且像數(shù)字“0”和字母“O”,數(shù)字“1”和字母“l(fā)”,還有一些字母的大小寫,本身區(qū)別就不大,分類效果自然不會很好。解決這個問題可以結(jié)合整個字符串的上下文環(huán)境來進(jìn)行考慮。

[1] Neumann L,Matas J.Real-time scene text localization and recognition[C]//Computer Vision and Pattern Recognition.IEEE,2012:3538-3545.

[2] Lee C Y,Bhardwaj A,Di W,et al.Region-Based Discriminative Feature Pooling for Scene Text Recognition[C]//Computer Vision and Pattern Recognition.IEEE,2014:4050-4057.

[3] Kita K,Wakahara T.Binarization of Color Characters in Scene Images Using k-means Clustering and Support Vector Machines[C]//International Conference on Pattern Recognition,ICPR 2010,Istanbul,Turkey,23-26 August.DBLP,2010:3183-3186.

[4] Zhang D,Wang D H,Wang H.Scene text recognition using sparse coding based features[C]//IEEE International Conference on Image Processing.IEEE,2014:1066-1070.

[5] Yi C,Yang X,Tian Y.Feature Representations for Scene Text Character Recognition:A Comparative Study[C]//International Conference on Document Analysis and Recognition.IEEE Computer Society,2013:907-911.

[6] Epshtein B,Ofek E,Wexler Y.Detecting text in natural scenes with stroke width transform[C]//IEEE Conference on Computer Vision & Pattern Recognition,2010:2963-2970.

[7] Shi C,Wang C,Xiao B,et al.Scene Text Recognition Using Part-Based Tree-Structured Character Detection[C]//Computer Vision and Pattern Recognition.IEEE,2013:2961-2968.

[8] Zhang Y.Scene text recognition with deeper convolutional neural networks[C]//2015 IEEE International Conference on Image Processing (ICIP),2015:2384-2388.

[9] Chen C,Wang D H,Wang H.Scene character recognition using PCANet[C]//International Conference on Internet Multimedia Computing and Service.ACM,2015:1-4.

[10] Lécun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

[11] Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems,2012:1097-1105.

[12] Campos T E D,Babu B R,Varma M.Character Recognition in Natural Images[C]//Visapp 2009-Proceedings of the Fourth International Conference on Computer Vision Theory and Applications,Lisboa,Portugal,February,2009:273-280.

[13] Bissacco A,Cummins M,Netzer Y,et al.PhotoOCR:Reading Text in Uncontrolled Conditions[C]//IEEE International Conference on Computer Vision.IEEE,2013:785-792.

[14] Rother C,Kolmogorov V,Blake A.“GrabCut”:interactive foreground extraction using iterated graph cuts[J].Acm Transactions on Graphics,2004,23(3):309-314.

[15] Dan C,Meier U,Schmidhuber J.Multi-column deep neural networks for image classification[C]//IEEE Conference on Computer Vision & Pattern Recognition,2012:3642-3649.

NATURALBACKGROUNDCHARACTERRECOGNITIONBASEDONCONVOLUTIONALNEURALNETWORK

Yu Song Peng Zhiwen

(SchoolofSoftware,CentralSouthUniversity,Changsha410075,Hunan,China)

With the development of the computer vision technology, the recognition of characters in natural background plays an indispensable role in the fields of picture retrieval, video retrieval and unmanned vehicle recognition. Compared to the recognition of handwritten characters and printed characters, the natural scene characters have many different features. For example, the variation of light intensity, complex background texture, the variation of font’s style and color. All these features bring a huge challenge to the recognition. The paper raised a CNN which can recognize natural scene characters effectively. Most of the past research is based on Chars74K-15 which does not contain many images. In order to compare with the past, we used the same data set. Because of the large amount of data on training the CNN, we raised a preprocessing method with fine-tune to solve the problem of lacking data.

Recognition of scene characters Convolutional neural network Image classification

2017-02-11。郁松,副教授,主研領(lǐng)域:圖像處理,數(shù)據(jù)挖掘。彭志文,碩士。

TP391.4

A

10.3969/j.issn.1000-386x.2017.12.044

猜你喜歡
特征實驗
抓住特征巧觀察
記一次有趣的實驗
微型實驗里看“燃燒”
新型冠狀病毒及其流行病學(xué)特征認(rèn)識
如何表達(dá)“特征”
做個怪怪長實驗
不忠誠的四個特征
抓住特征巧觀察
NO與NO2相互轉(zhuǎn)化實驗的改進(jìn)
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 国产成人综合日韩精品无码首页 | 亚洲精品无码人妻无码| 精品91视频| 香蕉伊思人视频| 国产视频a| 国产高清毛片| 国产极品美女在线| 呦女亚洲一区精品| 99热国产这里只有精品无卡顿"| 国产日韩久久久久无码精品| 国产高清自拍视频| 无码精油按摩潮喷在线播放| 久久公开视频| 亚洲欧美日韩久久精品| 三上悠亚在线精品二区| 超清无码熟妇人妻AV在线绿巨人 | 黄色三级网站免费| 久久国产精品国产自线拍| 午夜爽爽视频| 福利片91| 永久免费精品视频| 国产在线一区二区视频| 国产精品永久不卡免费视频 | 九九热这里只有国产精品| 小说区 亚洲 自拍 另类| 国产在线自乱拍播放| 久久国语对白| 国产高清在线丝袜精品一区| 国产高清不卡视频| 欧美97欧美综合色伦图| 欧美在线精品一区二区三区| 亚洲日本精品一区二区| 天堂va亚洲va欧美va国产| 日韩在线2020专区| 亚洲综合网在线观看| 天天综合天天综合| 亚洲精品大秀视频| 成人在线观看一区| 午夜精品影院| 色网在线视频| 99无码中文字幕视频| 国产欧美日韩精品综合在线| 国产交换配偶在线视频| 99精品久久精品| 国产资源免费观看| 香蕉99国内自产自拍视频| 美女黄网十八禁免费看| 国产a v无码专区亚洲av| 国产欧美精品午夜在线播放| 成人亚洲视频| 国产精品一区二区在线播放| 成人夜夜嗨| 亚洲综合色吧| 亚洲a免费| 国产簧片免费在线播放| 亚洲一区色| 自偷自拍三级全三级视频| 国产区在线观看视频| 无码AV动漫| 亚洲国产综合精品一区| 四虎精品免费久久| 久久国产精品波多野结衣| 97在线国产视频| 久久黄色毛片| 国产91小视频| 曰韩人妻一区二区三区| 婷婷六月天激情| 国产精品香蕉在线| 亚洲国产成人综合精品2020 | 99尹人香蕉国产免费天天拍| 91免费国产高清观看| 国产精品永久免费嫩草研究院| av在线人妻熟妇| 亚洲色图另类| 国产一级二级在线观看| 亚洲毛片一级带毛片基地| 91久久性奴调教国产免费| 国产区成人精品视频| 91综合色区亚洲熟妇p| 免费无码又爽又黄又刺激网站| 国产精品久久国产精麻豆99网站| 97久久人人超碰国产精品|