余 偉
(西安思源學院 陜西 西安 710038)
隨著信息技術的發展,計算機圖像識別場景已深入到人們的生活、工作場景中,如條碼識別、OCR文本識別等,并從特定物體識別、物體類別識別向圖像語義層面分析與理解方向發展。計算機圖像識別主要包括“特征提取”與“分類識別”兩個階段,特征提取是對圖像內容的刻畫,經模型訓練實現已標記數據集提取圖像特征,而分類識別則是對已識別圖像特征的預測判定。在圖像識別中,圖像特征提取直接影響圖像識別準確率,在相對復雜的自然環境中,圖像受光影、角度、尺度、遮擋干擾、背景摻雜、類內差異等因素影響,導致計算機視覺難以獲取圖像抽象表示與理解表達。
在車牌識別中,特征提取和分類識別是圖像識別的重點和關鍵,識別算法主要集中于特征提取任務,一般涉及大量的人工標記工作量和高昂的人工費用,且人工標記效率低。針對人工圖像識別存在的弊端,可借助卷積神經網絡實現端對端的圖像分類識別。在車牌圖像字符識別中,圖像識別主要任務為車輛檢測、車牌檢測和車牌字符識別等環節,其中,車牌字符識別是車輛識別系統的關鍵環節,但在自然場景下車牌字符識別存在一定的問題,如車牌字符類型多、字符像素低、受環境和車牌污漬影響大、結構相似字符誤識等問題,導致車輛字符識別準確率下降。近年來,隨著車輛識別技術不斷發展,新的車牌識別技術不斷涌現,如模板匹配法、特征匹配法、機器學習識別法等。卷積神經網絡(Convolutional Neural Networks,CNN)是深度學習神經網絡的代表算法之一,能夠有效將大數據量圖片降維為小數據量,在有效保留圖片特征的前提下將大數據量圖片降維為小數據量,目前已廣泛應用于人臉識別、自動駕駛、安防等領域[1]。本文在深入研究CNN技術原理的基礎上,分析卷積神經網絡在車牌圖像識別中的應用。
卷積神經網絡是一種深度神經網絡算法,其算法原理基于模仿生物視知覺機制構建,該算法基于多層感知器變體設計,可實現不變形特征平移,將底層特征提升為抽象的高層特征,并借助不變形特征遷移學習提升了模型表達能力,實現將大數據量圖像降維處理為小數據量[2],并保留圖像特征。在圖像識別領域中,卷積神經網絡算法有效解決了模板匹配法、特征匹配法、機器學習識別法等算法存在的圖像處理效率低、圖像數據化處理丟失特征問題[3],在圖像分類檢索、圖像目標分割、人臉識別等領域應用日益廣泛。
典型卷積神經網絡由卷積層、池化層、全連接層等組成。
1.2.1 卷積層
卷積層主要功能是對輸入數據進行特征提取,其內部由多個卷積核組成,經多層感知層器卷積層提取圖像特征,可實現像素級圖像特征提取[4],卷積運算輸出結果經激活層函數變換后輸出特定映射關系。卷積運算中,各卷積核遍歷特征圖,并完成各小塊圖像區域特征信息運算,最終完成圖像局部特征提取、刻畫。卷積層輸入輸出計算公式可表示為:
式中,f為卷積層輸入圖像,g為卷積核;m、n分別為卷積核尺。
1.2.2 激活層
激活層在卷積神經網絡中通過激活函數建立輸入到輸出的映射關系[5],其實質是一種函數變換映射關系,通過對卷積運算輸入結果進行映射變換,增強了卷積神經網絡算法特征建模與表達能力[6],在卷積神經網絡中,常見的激活函數包括Logstic-Sigmoid函數、Tanh-Sigmoid雙曲正切函數、ReLU函數等[7],激活算法選擇中,學術領域尚無形成統一的標準,主要以實驗對比方法確定準確性較高的算法。在圖像分類中,在不引入額外參數的情況下,可選擇ReLU函數以降低模型難度,并有效解決梯度彌散問題[8],提高算法性能。ReLU函數形式可表示為:
當x<0時,ReLU函數具有硬飽和性,當x≥0時,ReLU函數導數為1,在該情況下,可保持訓練梯度不發生衰減,防止模型訓練出現梯度消失問題,但隨模型迭代訓練,激活層部分輸入硬飽和區,導致激活層函數對應權重無法更新,即出現“神經元死亡”問題,可借助Xavier初始化方法和設置較小學習率優化算法,以此規避該問題[9]。
1.2.3 池化層
池化層主要功能是將近似語義特征合并,通過減少特征輸出向量,防止出現特征過擬合問題。在卷積神經網絡中,池化單元通過計算特征圖中局部塊的值,并讀取、對比相鄰池化單元數據,以此降低數據表達維度,實現了低維特征向高緯特征平移不變形,在保證圖像特征提取的同時降低特征數量與計算量[10]。常見的池化方法包括最大化池化、均值池化、隨機池化,分別以最大值、均值、隨機概率選擇值作為區域池化后結果值,經池化計算就可丟棄75%的結果值,并在迭代訓練中保持良好的特征表達能力。
1.2.4 全連接層
全連接層位于卷積神經網絡結構的末端,輸出圖像的高層特征,并經分類器統計計算輸出該輸入圖像對應類別標簽的概率。全連接層運算方法包括前向運算和后向運算兩種,前向運算計算各神經元輸出值,后向運算則輸出各神經元誤差值。
在車牌識別中,相較于模板匹配法、特征識別法、機器學習識別方法等圖像識別方法,可通過連續的“卷積-激活-池化”分層結構提取圖像特征,并將底層特征提升為抽象的高層特征,使往來賬具備良好的特征學習能力。滿足車牌圖像識別要求。基于此,本研究設計了11層的車牌字符卷積識別模型,其中,第1層為輸入層,2、4、6層為卷積層,3、5、7層為池化層,8、9、10層為池化層,11層為輸出層。模型中,輸入層輸入RGB三通道車牌字符圖像,經3個階段卷積池化特征提取后采用ReLU函數激活,每個卷積層分別包含2個小卷積單元,小卷積單元之間采用Dropout層銜接,特征圖數量與大卷積層保持一致。卷積核尺寸設計為3×3,步幅按1設計,即在輸入層輸入32×32×3的圖像后,卷積層1、2、3分別生成32、64、128個特征圖,經兩層Dropout層銜接,全連接層1、2、3分別包含1 024、512、65個隱含神經節點,最后采用Softmax回歸分類區作為模型輸出。
收集自然場景下完整車牌數據11 035幅,經字符分割后得到約5萬幅字符圖像,在按車牌類型分為31個漢字字符、24個英文字母(去掉I和O)和在10類阿拉伯字符,由于安字符分割質量參差不齊,建立2個標準字符圖像數據集,一個為較大規模字符圖像數據集(LLPC),每類500幅圖像,共計32 500幅。一個為相對較小的圖像集(SLPC),每類80幅,共計5 200幅。LLPC、SLPC按4∶1比例作為訓練數據集和測試數據集,訓練集樣本每類400幅,測試集樣本每類100幅。
新Bobath建立在傳統Bobath基礎之上,在理論方面有運動控制理論、可塑性理論、運動再學習理論,身體圖式理論,生物力學、運動發育等為依據。隨著康復治療不斷發展完善中,新Bobath技術發展更新為影響張力性姿勢、誘導姿勢模式及活動性負重、改善核心穩定、近端穩定性、選擇性運動、觸變性、關健區及任務解決型方法等治療技術,體現了對運動控制障礙的基本技術不同。
卷積神經網絡中,常規的網絡訓練方法為誤差反向傳播算法,但在處理多個非線性處理單元層的深度結構時,存在梯度小或梯度彌散、梯度溢出、模型收斂到局部最小值和標簽學習困難等問題。針對此類問題,卷積神經網絡主要通過建立多層結構方法解決,即逐層構建神經元和分次訓練單層網網絡,使運算誤差自頂向下傳播并將誤差控制在允許誤差范圍內,獲得準確度較高的模型運算結果。
本實驗中,采用反向傳播算法進行模型訓練,并借助梯度下降算法求取目標函數最小參數。模型訓練過程中,采用batch-size為64、動量參數momentum 0.9、學習率0.01的隨機梯度下降算法優化模型訓練,取m個數據作為一個訓練批次,根據每批次計算結果對參數進行更新,以此實現局部收斂最優的效果。
由于該實驗樣本量較小,容易出現模型訓練過擬合問題。為充分利用現有訓練數據提高圖像識別準確率,本實驗引入數據增強變換技術,采用平移變換、翻轉變換、縮放變換和剪切變化等技術對輸入圖像進行變換,變換因子0.1,可將輸入數據規模擴大1倍。
平移變換將圖像所有像素坐標分別加上指定水平偏移量和垂直偏移量后變換,如圖像x、y向平移量為x0、y0,則平移變換可表示為:
旋轉變換將圖像繞原點θ沿順時針角度旋轉,經旋轉變換后的像素坐標可表示為:
縮放變換將圖像水平向與垂直向按縮放比例因子φx、φy縮放變換后得到像素坐標:
剪切變換將原圖像水平向和垂直向按剪切比例因子α、β剪切,經剪切變換后像素坐標為:
網絡訓練誤差損失函數可表示為:
本研究采用驗證準確率和過擬合比率作為評價實驗結果標準,驗證準確率表示為:
訓練準確率可表示為:
為便于研究卷積神經網絡算法圖像識別效果,本研究對比了卷積神經網絡與BP神經網絡算法、LeNet-5網絡算法,分別訓練模型50次,獲得實驗數據,見表1。

表1 卷積神經網絡與BP神經網絡算法、LeNet-5網絡算法實驗結果比較
本實驗中,BP神經網絡算法采用3層網絡結構,輸入神經元數量為1 024個,隱含層節點數量為260,輸出層節點數量為65。輸入數據集LLPC為經歸一化處理的32×32像素矩陣。LeNet-5網絡算法輸出層接地數量65。卷積神經網絡和LeNet-5網絡算法均采用未經處理的LLPC數據集輸入。
基于卷積神經網絡算法設計并構建11層圖像分類識別模型,并結合誤差反向傳播算法對網絡模型進行訓練,驗證了自然場景下車牌字符數據圖像分類識別性能,結果表明,卷積神經網絡在圖像識別中具有良好的特征提取能力和圖像識別能力,針對過擬合問題,可借助數據增強變換優化技術進行優化,提高圖像識別準確率。