李承昊,蔡晨陽,李 銳
沈陽理工大學,遼寧沈陽 110159
基于神經網絡的圖像識別系統的研究
李承昊,蔡晨陽,李 銳
沈陽理工大學,遼寧沈陽 110159
在社會生活發展的過程中,圖像識別技術有著十分重要的作用,隨著計算機技術、圖像處理技術、模式識別理論的發展與進步,產生了一種新型的圖像識別技術——神經網絡圖像識別技術,通過此種技術的應用,提升了圖像識別的準確性及有效性。在本文中,以神經網絡為基礎,研究和設計了圖像識別系統。
神經網絡;圖像識別;系統設計
隨著信息技術的發展,人們已經進入信息時代,作為人類感知世界的視覺基礎,圖像中蘊含了大量的信息。當前,神經網絡已經發展的比較成熟,并在圖像識別領域中有著比較廣泛的應用,在神經網絡的作用下,運算量大大的減少,運算精度顯著的提升,同時,高容錯性的功能允許圖像中某個局部存在殘缺或背景模糊,有效的提升了圖像識別的準確性。
在進行本圖像識別系統設計時,以圖像中的數字為基礎,通過對圖像一系列的處理之后,將圖像中包含的數字清晰的顯示出來。作為一個圖像識別系統,既可以單獨使用,同時還可以在其他的識別系統中作為核心的軟件應用,具有比較高的靈活性及通用性。具體的系統運作流程如下:系統啟動完成后,將需要識別的圖像輸入到系統中,接著利用圖像預處理系統對圖像進行相應的處理,之后進行字符分割、特征提取,最后進行字符識別,完成之后圖像識別結束。
總的來看,首先進行圖像預處理,再進行神經網絡文字識別是圖像識別系統的流程,因此,圖像預處理、特征提取、神經網絡識別是圖像識別系統重要的三個模塊,各個模塊的具體功能如下:在圖像預處理模塊中,主要是對上傳到系統中的圖像進行預處理,并對圖像中包含的字符進行分割;在特征提取模塊中,包含的提取方法比較多,主要功能是對圖像字符的網格特征、水平和垂直特征、像素百分比特征進行提取;在神經網絡識別模塊中,識別字符的方法為優化之后的BP算法,主要功能包含網絡訓練、數據讀取、字符判定、結果輸出。
2.1 圖像預處理模塊
第一,讀取圖像數據。圖像數據是圖像分析和處理的基礎,因此,預處理工作的第一步就是讀取圖像的數據,包含寬、高以及各個像素點的顏色值[1]。圖片在進行存儲時,格式比較多,比如JPG、GIF等,為了使運算的數據量減少,本系統在存儲圖片時,選擇256色BMP格式。利用微軟圖像函數庫的dibapi.h及dibapi. cpp進行圖像數據讀取工作。
第二,預處理圖像。首先進行灰度化,2256色位圖調色板的內容非常復雜,在進行圖像處理時,大部分的算法都無法應用,因此要對圖像進行灰度處理,彩色圖像中,像素點中的R、G、B值各不相同,通過賦予這三點各自一個加權系數,使各點分量的值相同,從而實現灰度化[2]。其次對灰度圖像進行二值化,灰度圖像像素的灰度值位于0~255之間,灰度值越大時,圖像越亮,為了提升圖像處理的便利性,進行二值化處理,依據自適應閾值法,將灰度圖像的像素分化為黑或白兩種顏色。
第三,圖像分割。首先,調整圖像的整體傾斜度,按照由下至上的順序,掃描圖像,記錄下第一個遇到的黑色的像素點,隨后,改變掃描的方向,變為由上而下,同樣將第一個遇到的黑色像素點記錄下來,這兩個點之間的距離就是圖像大致的高度范圍。其次,進行圖像分析,從左至右對圖像進行掃描,發現第一個黑色像素點之后,將此點作為圖像分割的起始部位,接著進行掃描,無黑色像素點時停止,同時,圖像分割結束。
第四,圖像的歸一化處理。掃描完成之后,圖像中的字符可顯示出來,但各個字符的大小不一,影響識別的標準性及準確率,因此,要對字符的尺寸進行調整,使其尺寸相同。對比系統要求高度與字符高度,將需變換的系數計算出來,依據此系數進行相應的高度變換,寬度也按照此方法進行變化[3]。按照插值的方法,將新圖像里的點映射到原圖像中,完成尺寸統一。
第五,圖像的緊縮重排。尺寸相同之后,字符在圖像中的位置不定,影響特征提取的精確性,通過緊縮重排,形成新的圖像字符。
2.2 特征提取模塊
經過圖像預處理模塊的處理之后,圖像中的字符變成大小相同、排列整齊,接著,對能夠代表字符特點的特征向量進行提取。將圖像字符帶入BP網絡中,開展網絡訓練工作,從而將樣本中的待識別的特征向量提取出來,隨后,進行字符識別工作。
2.3 BP神經網絡的圖像識別模塊
模式識別是BP神經網絡的重要用途,在進行此模塊的設計時,重點在于訓練出一個可行、高效的BP網絡,以便于精準的識別0~9這十個數字。圖像預處理及特征提取完成之后,就需要利用該模塊進行訓練和識別。
利用數碼相機拍攝多個車牌,并以BMP的格式存儲圖像,隨后,將圖像輸入到本文設計的圖像識別系統中,通過圖像預處理之后,形成灰度圖像,并對車牌中的數字進行規范,隨后,利用特征提取模塊對其特征向量進行提取,最后,利用BP神經網絡的圖像識別對車牌中的數字進行識別。識別結果顯示,本圖像識別系統可準確的識別出車牌中的數字。
在基于神經網絡的圖像識別系統設計中,圖像預處理、特征提取、BP神經網絡的圖像識別是系統中重要的三個模塊,通過三個模塊協同作用的發揮,有效而又準確的進行圖像識別。但本文中設計的圖像識別系統還不完善,選擇的樣品數量有限,而這也成為日后研究工作的主要方向。
[1]張坤艷,鐘宜亞,苗松池,等.一種基于全局閾值二值化方法的BP神經網絡車牌字符識別系統[J].計算機工程與科學,2010(02):88-90+134.
[2]楊永,駱霞軍,王莉利.基于神經網絡的汽車車型圖像自動識別系統的設計與實現[J].微計算機應用,2010(02):56-60.
[3]金健,林宗桂,金龍.一種基于特征的人工神經網絡數字識別系統模型[J].南京氣象學院學報,2014(06):828-835.
[4]王振,高茂庭.基于卷積神經網絡的圖像識別算法設計與實現[J].現代計算機(專業版),2015(20):61-66.
TP3
A
1674-6708(2015)150-0070-01
李承昊,本科,電子信息工程專業在進行BP網絡設計時,關鍵在于確定BP網絡3層的神經元數目[4]。在此模塊中,第一步的工作就是利用已知訓練樣本對BP網絡進行訓練,圖像預處理之后,特征的維數就是輸入層的節點個數;而在隱層,節點個數并沒有硬性的規定,通常,此層所包含的神經元數目越多,BP網絡的精神程度越高,促使訓練時間延長,不過,神經元的數目不宜過多,避免出現負面影響。標準輸出設定的方式決定了輸入層的節點數,也就是說,通過目標期望的編碼方式來確定輸入層的節點數量。神經元數目確定完成之后,需要進行字符識別,通過BP網絡訓練之后,將權值保存的形式定為文件形式,訓練完成之后,開始字符識別工作,將隱層節點個數、最小均方誤差、相關系數以及訓練步長的參數輸入進去,訓練之后得到字符識別結果。