周成偉
(南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210003)
基于卷積神經(jīng)網(wǎng)絡(luò)的自然場景中數(shù)字識(shí)別
周成偉
(南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210003)
從復(fù)雜的圖片背景中提取文本信息一直是計(jì)算機(jī)視覺中的熱點(diǎn)與難點(diǎn)問題。近年來,隨著卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別研究的突破性進(jìn)展,傳統(tǒng)的人工提取圖像特征方式逐漸為深層網(wǎng)絡(luò)學(xué)習(xí)特征方式所取代,而應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)(CNN)的場景文本識(shí)別方法也越來越受到廣泛的關(guān)注。為此,提出了自然場景下基于卷積網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)字識(shí)別改進(jìn)方法。該方法能夠?qū)δ繕?biāo)區(qū)域進(jìn)行檢測,并進(jìn)行端到端的數(shù)字字符識(shí)別訓(xùn)練,數(shù)字識(shí)別部分提取的特征還可用來初始化目標(biāo)檢測的網(wǎng)絡(luò)部分,以減少特征的重復(fù)提取并提高訓(xùn)練速度。需要處理的圖像輸入無需固定格式,只需輸入原始圖像即可,可減少圖像預(yù)處理過程及其對(duì)原始圖像數(shù)據(jù)的不良影響,提高圖像識(shí)別的精度?;诠雀杞志皵?shù)據(jù)集(SVHN)與MSRA-TD500、ICDAR 2013數(shù)據(jù)集的數(shù)字字符識(shí)別驗(yàn)證結(jié)果表明,該方法的識(shí)別效果優(yōu)于其他已有的識(shí)別方法。
卷積神經(jīng)網(wǎng)絡(luò);自然場景;數(shù)字識(shí)別;端到端
光學(xué)字符識(shí)別(OCR)[1-2],也就是從掃描文檔中提取文本信息,可以看作是一個(gè)已經(jīng)解決的計(jì)算機(jī)視覺問題,而不同于掃描文檔的識(shí)別,自然場景中的字符識(shí)別需要面對(duì)復(fù)雜的背景和形形色色的噪聲。這就導(dǎo)致類似于人工提取特征的方法[3-4]很難取得好的效果。所以復(fù)雜場景下的識(shí)別任務(wù)一直是計(jì)算機(jī)視覺領(lǐng)域的一大難題,直到以CNN[5]為代表的深度學(xué)習(xí)的興起,才取得了突破性進(jìn)展?!?br>