針對(duì)手寫數(shù)字算法需要人工預(yù)處理和特征提取的問題,將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于手寫數(shù)字識(shí)別中。利用卷積神經(jīng)網(wǎng)絡(luò)本身具有局域感受野、權(quán)值共享和次抽樣的特性,能直接從原始數(shù)字圖像中提取樣本的特征信息,作為神經(jīng)網(wǎng)絡(luò)的輸入,能有效減小特征,縮小神經(jīng)網(wǎng)絡(luò)的規(guī)模。通過試驗(yàn)結(jié)果證明,采用卷積神經(jīng)網(wǎng)絡(luò)能減少前期處理工作量,并具有較高的網(wǎng)絡(luò)識(shí)別率。
【關(guān)鍵詞】卷積神經(jīng)網(wǎng)絡(luò) 手寫數(shù)字識(shí)別 模式識(shí)別 特征提取
1 引言
手寫數(shù)字識(shí)別的基本原理是把輸入數(shù)字樣本的特征與標(biāo)準(zhǔn)樣本的特征進(jìn)行模式匹配,以最大相似度為度量原則,輸出識(shí)別結(jié)果。在整個(gè)識(shí)別過程中,關(guān)鍵的是特征的選擇提取額分類器的設(shè)計(jì)。目前應(yīng)用于手寫數(shù)字識(shí)別的算法有BP神經(jīng)網(wǎng)絡(luò)、貝葉斯估計(jì)、支持向量機(jī)等,這些方法在識(shí)別前需要人工確定預(yù)處理步驟和特征。在大量實(shí)踐證明,這樣的方法存在局限性,無法適應(yīng)各種各樣的字符特征。卷積神經(jīng)網(wǎng)絡(luò)預(yù)處理工序少,可進(jìn)行特征學(xué)習(xí)的有點(diǎn),讓其對(duì)數(shù)字自負(fù)平移、縮放和扭曲等特征具有很強(qiáng)的糾錯(cuò)能力,故把卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于手寫數(shù)字識(shí)別,為手寫數(shù)字識(shí)別提供一種新的工具。
2 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)主要應(yīng)用于二維數(shù)據(jù)處理,它能夠通過大量學(xué)習(xí),求解出輸入與輸出之間的關(guān)系。卷積神經(jīng)網(wǎng)絡(luò)是由卷積層和采樣層交替組成,每一層中包括多個(gè)特征提取器。卷積層中的每一個(gè)神經(jīng)元與上一層中的局部區(qū)域進(jìn)行連接。通過卷積層的卷積運(yùn)算,可以提取二維數(shù)據(jù)的特征信息,并且降低噪聲對(duì)特征的干擾。采樣層對(duì)二維數(shù)據(jù)進(jìn)行抽樣,降低其分辨率,在盡量保留圖像的特征信息的同時(shí)降低數(shù)據(jù)處理的維度,提高信息處理的速度。
2.1 卷積神經(jīng)網(wǎng)絡(luò)模型
下面介紹典型的卷積神經(jīng)網(wǎng)絡(luò)模型,包括輸入層,共有7層。其網(wǎng)絡(luò)模型如圖1所示。
輸入層負(fù)責(zé)接收輸入,它是由32×32個(gè)節(jié)電組成。接著是卷積層C1,它是由6個(gè)大小為28×28的特征圖組成,特征圖是卷積核對(duì)圖像進(jìn)行卷積運(yùn)算后,通過激活函數(shù)作用形成的。采樣層S2是由6個(gè)14×14的特征圖組成,然后采用mean-pooling方式對(duì)C1區(qū)域內(nèi)2×2個(gè)像素求取均值,然后通過激活函數(shù)輸出結(jié)果。卷積層C3,它是由6個(gè)大小為10×10的特征圖組成,每個(gè)特征圖接收采樣層S2若干個(gè)特征連接。C5層由120個(gè)大小為1×1的特征圖組成,卷積核大小為5×5。F6層是與C5曾全連接的84個(gè)神經(jīng)元。輸出層是0-9工10個(gè)字符組成的神經(jīng)元,采用RBF徑向基函數(shù)進(jìn)行分類。
2.2 卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練
下面對(duì)卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)進(jìn)行介紹。以參數(shù)l表示當(dāng)前層,那么當(dāng)前層的輸出為下式:
x1=f(u1),u1=w1x1-1+b1 (1)
u1為當(dāng)前層的輸入,w1表示當(dāng)前層的權(quán)值,x1-1表示上一層的輸出,b1表示當(dāng)前層的額外偏置。f為激活函數(shù),在文中采用sigmoid函數(shù)作為激活函數(shù)。
在卷積層中,使用卷積核對(duì)上一層的特征圖進(jìn)行卷積,然后通過激活函數(shù),得到卷積層的特征圖。卷積層的計(jì)算公式如下:
(2)
其中,l表示當(dāng)前層數(shù),xj1表示采樣層的第j個(gè)神經(jīng)元輸出,xi1-1為上一層第i個(gè)神經(jīng)元輸出,w1ij表示上一層的第i個(gè)神經(jīng)元與當(dāng)前層第j個(gè)神經(jīng)元之間的連接權(quán)值。b1表示當(dāng)前層的額外偏置。f為激活函數(shù),Mj為輸入特征圖的集合。
在采樣中,對(duì)上一層的特征圖進(jìn)行采樣處理,具體計(jì)算公式為:
(3)
其中,n表示從卷積層到采樣層的窗口寬度。
對(duì)于多個(gè)樣本(x,y),它的誤差能表示為:
(4)
式子中,E是輸出誤差,yij是期望輸出,oij是卷積神經(jīng)網(wǎng)絡(luò)的輸出。λ為懲罰系數(shù),防止過度擬合。
3 實(shí)驗(yàn)結(jié)果及分析
3.1 試驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)用的數(shù)據(jù)來自MNIST手寫數(shù)字字符數(shù)據(jù)庫,其中包含0-9的訓(xùn)練樣本集和測(cè)試數(shù)據(jù)集,選擇其中10000個(gè)包含不同手寫數(shù)字的樣本作為訓(xùn)練樣本集,選取1000個(gè)樣本作為測(cè)試樣本,每張圖片的大小為8×8,灰度級(jí)為8。如圖2所示,為數(shù)字3的手寫樣例。
3.2 試驗(yàn)結(jié)果與分析
為了分析卷積神經(jīng)網(wǎng)絡(luò)的性能,利用MNIST手寫數(shù)字字符庫的數(shù)據(jù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)驚醒訓(xùn)練,并與幾種常用的手寫數(shù)字字符識(shí)別算法進(jìn)行對(duì)比,結(jié)果如表1所示。
從表1可以看出,卷積神經(jīng)網(wǎng)絡(luò)在MNIST手寫數(shù)字字符的正確識(shí)別率為98.9%,相比其他常用方法,正確識(shí)別率更高,說明卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于手寫數(shù)字識(shí)別方面具有其獨(dú)特的優(yōu)勢(shì)。
4 結(jié)束語
本文將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到手寫數(shù)字識(shí)別研究之中。研究結(jié)果表明,卷積神經(jīng)網(wǎng)絡(luò)能夠快速有效提取二維圖像的特征,并具有較高的識(shí)別率,正確識(shí)別率達(dá)到98.9%。
參考文獻(xiàn)
[1]何西麟.基于深度學(xué)習(xí)的手寫體字符識(shí)別研究與實(shí)現(xiàn)[D].中山大學(xué),2015.
[2]尚磊,劉風(fēng)進(jìn).基于支持向量機(jī)的手寫體數(shù)字識(shí)別[J].兵工自動(dòng)化,2007(03):39-41.
作者簡介
張紅(1970-),女,內(nèi)蒙古自治區(qū)人。大學(xué)本科學(xué)歷。現(xiàn)為烏海職業(yè)技術(shù)學(xué)院副教授。研究方向?yàn)殡娮蛹夹g(shù)、計(jì)算機(jī)技術(shù)。
馬靜(1982-),女,山東省人。研究生學(xué)歷。講師。研究方向?yàn)樽詣?dòng)化技術(shù)、計(jì)算機(jī)技術(shù)。
作者單位
烏海職業(yè)技術(shù)學(xué)院 內(nèi)蒙古自治區(qū)烏海市 016000endprint