熊海朋,陳洋洋,陳春瑋
(杭州電子科技大學(xué) 計算機學(xué)院,浙江杭州310018)
基于卷積神經(jīng)網(wǎng)絡(luò)的場景圖像文本定位研究
熊海朋,陳洋洋,陳春瑋
(杭州電子科技大學(xué) 計算機學(xué)院,浙江杭州310018)
針對由于自然場景的復(fù)雜性,從自然場景圖像中提取出文本信息較困難的問題,文中提出了一種基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的文本定位算法。通過對場景圖像進行預(yù)處理得到候選文本區(qū)域,在此基礎(chǔ)上結(jié)合深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)來自動提取文本特征進行進一步的定位。通過實驗驗證,定位的準(zhǔn)確率可達86%,綜合性能較好。
文本定位;二值化;自然場景圖像;卷積神經(jīng)網(wǎng)絡(luò)
自然場景圖像中包含著許多高層次的語義信息,例如交通路標(biāo)、門牌號、街道名稱等,是對場景內(nèi)容的重要反映。提取自然場景中的文本信息需要經(jīng)過3個步驟:定位出文本區(qū)域、對文本區(qū)域進行分割,對分割區(qū)域進行識別。文本定位作為提取文本信息的第一步,定位效果至關(guān)重要。因為場景圖像自身背景復(fù)雜,并且由于光照變換,字體等客觀因素的影響,導(dǎo)致文本定位問題至今仍是一個難題。
目前來說,采用的定位研究方法主要有基于圖像連通區(qū)域[1-3]、基于圖像的紋理特征[4-6]、以及基于圖像中的角點[7-8]這3種方法。以這些基本方法針對具體應(yīng)用取得了較好的效果,但是在復(fù)雜的場景下通常存在虛警率較高的問題,為解決這一問題,把這些基本方法進行合理的組合再結(jié)合機器學(xué)習(xí)進行定位是一種有效的思路[9-12],大幅提高了復(fù)雜場景文本定位的魯棒性和效率。……