焦微微,巴力登
(新疆大學 電氣工程學院,新疆 烏魯木齊 830047)
近些年來,脫機文字識別在網絡安全(驗證碼識別)、智能交通管理系統(車牌識別)等社會生活的各個領域發揮著重要作用。在文字識別的探索和研究過程中,學者和專家已經提出了許多有效的識別方法,例如模板匹配法、隱馬爾科夫模型(HMM)、支持向量機(SVM)、神經網絡法[1-4]等等。在這些方法中,神經網絡具有很強的學習性和自適應性,而且具有其他傳統方法不具有的并行處理能力[5]、容錯能力和自學習功能,因此其在自動化控制、模式識別等領域已經實現應用并取得較好的效果。但是在實際應用中傳統神經網絡存在局部最優點、過擬合等現象,對其在文字識別中的應用造成一定的限制。
本文通過對現有各種文字分類系統深入研究,針對標準BP算法存在局部最優解、訓練時間長、收斂速度慢等缺點,利用Levenberg-Marquardt(LM)算法對神經網絡模型進行優化,并通過對手寫數字和手寫漢字的識別來驗證該方法的有效性和可行性。
標準BP算法理論上講雖然具有逼近任意非線性連續映射的能力。但是在實際應用中容易出現訓練時間長、收斂速度慢、往往收斂于局部極小點等缺陷。所以在實踐過程中基本上都要對標準BP網絡進行改進。目前,改善標準BP網絡性能的方法主要有以下兩類[6]:第一,采用啟發式信息技術,如加入動量項、采用自適應學習率;第二,采用數值優化技術,如牛頓法、共軛梯度法、Levenberg-Marquardt[7](LM)法。采用第一類方法雖然在一定程度上可以改進標準BP網絡,但是卻會出現訓練速度慢和訓練誤差輸出較大的問題。所以本文運用數值優化技術中的LM算法對標準BP神經網絡進行改進。
LM算法是梯度下降法與Newton法的結合,也可以稱為是Newton法的改進形式。LM算法既具有Newton法的局部收斂性,又具有梯度法的全局特性。LM算法是通過自適應調整阻尼因子來達到收斂特性,此外它所具有的更高迭代收斂速度的優點在很多非線性優化問題中求得了穩定可靠解。
本文采用的LM算法主要優化的是BP神經網絡的權值和閾值,其迭代公式為

式中:e(w) 為實際輸出與期望輸出Yi的誤差,即;I為單位矩陣;μ為小的正數(學習率);J(w) 為Jacobean矩陣,即

脫機文字識別系統[8]的整個過程主要分為文字圖片的輸入、預處理、特征提取和分類識別幾個階段,如圖1所示。

圖1 脫機文字識別系統的識別過程
預處理過程主要包括二值化、分割等。預處理不僅可以增強圖像、減小噪聲和失真,還有助于實現更高更精確的識別結果。優質的圖像對神經網絡模型的建立起到非常重要的作用。因此,在任何文字識別系統中,預處理[9]階段的存在都是必不可少的。
特征提取的目的是從原始數據中抽取出用于區分不同類型的本質特征。特征向量選取的好壞對識別結果同樣會造成很大的影響。因此所提取出的特征必須具有良好的可靠性、區別性、相互獨立性和不關聯性。另外為了減少識別系統的負擔,特征維數也要適當控制。
由于LM-BP算法主要改變的是BP網絡的權值和閾值,所以改進前后BP神經網絡的結構沒有發生變化,所以本文選用的BP神經網三層,其中輸入層神經元數為14;根據隱含層神經元個數大約為輸入層神經元個數的2倍關系[10],取28作為隱含層的節點個數。
其中LM-BP算法具體步驟如下:
1)給出訓練誤差允許值ε、常數μ0和β(0<β<1),以及初始化權值和閾值向量w0,并且令k=0,μ=μ0;
2)將提取出的特征向量輸入到BP網絡中,并計算網絡的輸出;

4)計算Jacobean矩陣J(wk);
5)計算權值和閾值的變化率Δw;
6)若E(wk)<ε,轉到步驟8);
7)用式(1)更新權值和閾值向量,并計算E(wk+1)。若E(wk+1)<E(wk),則令k=k+1,μ=μβ,轉到步驟3);否則μ=μ/β,轉到步驟5)。
8)滿足終止條件,迭代結束。
以圖2中的手寫數字為訓練對象,對BP神經網絡及LM算法優化后的BP網絡(LM-BP網絡)進行訓練,得出圖3和圖4所示的訓練曲線,其中訓練目標精度為0.01。

圖2 手寫數字圖像

圖3 BP網絡訓練曲線
從圖3可以看出,BP網絡經過5 000步才完成訓練過程達到收斂,訓練曲線一直都是緩慢下降,收斂速度很慢,而且最終訓練誤差為0.511,未達到訓練誤差目標精度。圖4中LM-BP網絡到7步時,訓練誤差為0.005 81,已經達到誤差目標精度,收斂速度較快。所以,LM-BP算法不僅加快了收斂速度,而且產生的誤差也很小,是一種可行的BP網絡改進算法。

圖4 LM-BP網絡訓練曲線
如圖5所示的手寫“新疆大學電氣工程學院”為訓練對象,對改進前后神經網絡的性能進行對比,同樣可以得出LM-BP算法的收斂速度比標準BP算法要快很多,誤差也小很多。從表1中列出的識別率比較還可以看出,LM-BP算法的識別率要高于標準BP算法,所以改進算法確實有效可行。

圖5 手寫漢字圖像

表1 兩種算法的識別率比較
本文將基于LM-BP神經網絡算法分別用于脫機手寫數字和脫機手寫漢字的識別,通過LM算法優化BP網絡的閾值和權值,很好地彌補了標準BP算法存在的收斂速度慢、訓練時間長、訓練誤差大的缺陷。從實驗結果可以看出,本算法除了獲得較短的訓練時間、較快的收斂速度和較小的訓練誤差之外,還提高了脫機手寫漢字的識別率,為下一步的研究奠定了基礎。此外,本方法同樣適用于其他文字的識別,例如維吾爾語、蒙古語等。但是在本次研究中訓練集的類別還是過于少,且數字和漢字只能分別進行識別。接下來的工作就是盡量克服這一缺點,并采用更為合適的特征提取方法,為大字符庫的識別研究做準備。
:
[1]陳瑋,曹志廣,李劍平.改進的模板匹配方法在車牌識別中的應用[J].計算機工程與設計,2013,34(5):1808-1811.
[2]KESSENTINI Y,PAQUET T,HAMADOU A B.Off-line handwritten word recognition using multi-stream hidden markov models[J].Pattern Recognition Letters,2010,31(1):60-70.
[3]SHANTHI N,URAISWAMY K.A novel SVM-based handwritten tamil character recognition system[J].Pattern Analysis and Applications,2010,13(2):173-180.
[4]KALAICHELVI V.Application of neural networks in character recognition[J].International Journal of Computer Applications,2012,12(52):183-192.
[5]張玲,張鳴明,何偉.基于BP神經網絡算法的車牌字符識別系統設計[J].電視技術,2008,32(S1):140-142.
[6]龔立雄,姜建華.基于L-M算法的BP神經網絡模型機械加工誤差預測模型[J].機床與液壓,2013,41(11):67-71.
[7]孟博,李榮冰,劉建業,等.基于改進反向傳播算法的跨音速攻角步長修正研究[J].系統工程與電子技術,2010,32(12):117-119.
[8]BARVE S.Optical character recognition using artificial neural network[J].International Journal of Advanced Research in Computer Engineering&Technology,2012(4):131-133.
[9]PERWEJ Y.Machine recognition of handwritten characters using neural networks[J].International Journal of Computer Applications,2011,12(14):196-204.
[10]楊淑瑩.模式識別與智能計算——Matlab技術實現[M].北京:電子工業出版社,2011:147-157.