基于BP神經網絡的手寫數字識別系統

2020-02-25 05:01:20黃一格張炎生

機電工程技術 2020年1期

黃一格，張炎生

（廣東海洋大學電子與信息工程學院，廣東湛江 524088）

0 引言

隨著我國人口逐年遞增，公民在填寫報表時產生的數據量也在同步上漲，其中大量數據由阿拉伯數字組成。因此，需要采取必要手段將手寫數字轉化成存在計算機里的文字。傳統的做法采用手工錄入，這種做法效率低且勞動力成本高。目前，主流的數據錄入方法采用光學字符識別（Optical Character Recognition,OCR）技術[1]，OCR技術是指將采集得到帶有字符的數字圖像輸入計算機后經過處理，在輸出端得到存儲在計算機的字符的技術，手寫數字識別技術作為OCR技術的一個分支，其研究目的是將人書寫在紙上的阿拉伯數字轉換為計算機里的數字。由于數據信息主要由阿拉伯數字組成，如：郵政編碼、銀行票據等，因此處理此類信息的關鍵技術是手寫數字識別技術，所以對該技術的深入研究蘊含著巨大的應用價值和現實意義[2-3]。

本文在此背景下，提出了一種基于BP神經網絡的手寫數字分類識別模型。該模型在Matlab開發環境下實現[4]，訓練時間較短，對手寫數字的識別精度較高。

1 BP神經網絡

BP神經網絡是一種采用了BP算法的多層前饋神經網絡模型，具備高度的非線性映射能力并且克服了簡單感知機的局限性，其拓撲結構如圖1所示[5]。隱含層是一個寬泛的概念，它指代了所有介于輸入層和輸出層之間的中間層，因此其數目可以是一或多個。

BP神經網絡的學習過程包括兩個階段：正向傳播和反向傳播。正向傳播時，輸入向量從輸入層輸入，輸入數據經過線性組合成為隱含層神經元的輸入值，隱含層內包括對輸入值的線性組合和非線性映射，隨后得到隱含層的輸出值，輸出層又對隱含層輸出值作出類似的運算，最后得到實際輸出。反向傳播采用BP算法，也稱為誤差反向傳播算法，BP算法實際上是一種根據求導鏈式法則計算梯度的算法。描述輸出誤差的數學表達式不統一，通常采用均方誤差描述。輸出誤差反向逐層傳遞，根據隱含層神經元的誤差對連接權值和偏置進行調整，經過一步步迭代后，最終輸出誤差降至可接受的區間內[6]。

圖1 BP神經網絡的拓撲結構

2 結合BP網絡技術對手寫數字識別

手寫數字識別系統的總流程如圖2所示，該系統由圖像處理、特征提取和分類識別3個模塊組成[7]。系統的輸入端為通過攝像頭或其他方式采集得到的原始RGB數字圖像，輸出端則是對這個原始圖像上手寫數字的識別結果。

圖2 系統流程圖

2.1 圖像處理

該模塊對輸入的原始圖像進行必要的預處理后進行字符分割[8]，以采集得到的原始圖像（圖3）為例，其經過圖像處理模塊后效果如圖4所示。

圖3 原圖

圖4 圖像處理后效果圖

2.1.1 灰度轉換和二值化

采集的圖像通常是RGB彩色圖像，也就是說，一幅彩色圖像是由紅色（R）、綠色（G）、藍色（B）3種單色圖像組成的，需要將RGB圖像轉化為灰度圖像以確保后續操作成功，得到的灰度圖每一個像素像在每一個R、G、B分量上具有同等值，將RGB圖像進行灰度轉化通常采用如下公式：

圖像的灰度轉換調用gray=rgb2gray（I）函數實現，其中I為彩色圖像，gray為灰度圖像。其次對灰度圖像進行二值化，通過調用函數im2bw（）實現。本文采用固定閾值法，閾值的給定要根據底色的灰度值來確定，一般情況下，圖像底色灰度值約為120～180，本文將閾值設定為120。

2.1.2 平滑去噪

在非理想情況下，采集的原始數字圖像可能摻雜了噪聲，此時需要將噪聲去除或者削弱其影響，以免對后續步驟造成較大的負面影響。最常見的噪聲是椒鹽噪聲，它在二值圖像中表現為在白色的背景中有若干孤立的黑點，或是在黑色的數字中包含白色的孤立點。常用的濾波方法有均值濾波、中值濾波、最大最小值濾波等，但這些方法不能夠很好地去除孤立點而且有可能破壞數字的輪廓。本文采用8鄰域濾波法，此方法不僅能有效去除孤立點，還能夠對字符內空缺白點進行填充，其原理如下：

（1）當二值圖像（i,j）處灰度值f（i,j）=0時，而（i,j）位置相鄰的8個鄰域的灰度值為1時，則令f（i,j）=1。

（2）當二值圖像（i,j）處灰度值f（i,j）=1時，而（i,j）位置相鄰的8個鄰域的灰度值為0時，則令f（i,j）=0。

2.1.3 圖像分割

由于分類識別是對每個數字的特征信息逐一識別的，所以要將每一個字符獨立分割出來。本文采用如下方法：首先對二值圖像進行水平投影，統計出每列白像素點之和，如圖5所示。可見，字符之間的縫隙產生了波谷，字符所在列產生了波峰，波峰的區間就是每個字符的左右邊界。同理，可以確定每個字符的上下邊界，于是便能從二值圖像中分割出獨立的字符。

圖5 各列白像素點之和

2.1.4 歸一化

由于分割后每個字符圖像的分辨率不同，而后續特征提取步驟要求輸出特征向量具有相同的維數，則需要對字符圖像進行歸一化處理。本文采用大小歸一化，就是將實際提取的字符圖像通過橫縱坐標的比例放縮，得到指定大小的圖像。此步驟通過調用函數BW=imresize（I,a×b），在本文中a=14，b=10。調用后可將字符圖像變為14×10的規格，采用最近鄰插值法。

2.2 特征提取

本文采用逐像素點特征提取法，即直接將圖像送入分類器進行分類識別，這種特征提取方法相對簡單而且不會因缺少數據而喪失其他特征。逐像素點特征提取法在Matlab中表現為對字符圖像進行逐行逐列掃描，將14×10的字符圖像矩陣重新排列成140×1的特征向量矩陣，通過調用指令feature=reshape（I,140,[]）實現。

2.3 分類識別

2.3.1 初始參數的選取

連接權值的初始值通常選取大小介于[-1,+1]的偽隨機數，調用randn（）實現；初始偏置設為全0；訓練次數為1 000；學習速率η為0.05。

2.3.2 各層神經元數目的確定

本文采用3層BP神經網絡，即中間層數為1。輸入節點數目取決于特征向量，由于本文訓練樣本采用14×10的點陣，采用逐像素點特征提取法，因此可以確定輸入層神經節點數為140。輸出節點數取決于目標向量，由于輸出模式有10種可能，本文采用10位數對輸出模式編碼，所以輸出節點數為10。對于隱含層節點數的確定，目前尚無確切的理論依據。節點數太少會導致“欠擬合”現象，識別精度不夠；節點數過多會造成“過擬合”現象，雖然擬合精度足夠高，但是模型的泛化能力不足。本文選擇如下經驗公式[9]：

式中：m為隱藏層節點；n為輸入層節點；I為輸出層節點；α為1～10之間的整數。已知n=140，I=10，令α=1，計算得m≈13。

2.3.3 BP神經網絡的學習算法

由于Sigmoid具有單調可微等優良特性，本文的選取Sigmoid函數作為神經元的激活函數，下面給出學習算法步驟[10]。

（1）將連接權值ωji初始化-1～+1之間的偽隨機數，偏置值θj初始化為0。

（2）輸入訓練樣本Xk（k=1，2，…，P），期望輸出為dk（k=1，2，…，P），對每個訓練樣本進行步驟（3）到步驟（5）的迭代。

（3）計算神經元的狀態和實際輸出:

（4）計算輸出誤差:

（5）修正連接權值和偏置值:

（6）當迭代次數滿足要求時，結束。

式中：ωji為前一層第i個神經元到本層第j個神經元的連接權值；okj為實際輸出；θj為本層第j個神經元的偏置值；f（·）為激活函數；η為學習率。需要說明，式（4）適用于輸出層，式（5）適用于隱含層。

3 實驗結果分析

本次實驗在Windows10 64bit intel（R） Core（TM）i7-8750H 2.20Ghz CPU 8GB RAM環境下使用Maltab2016a完成。使用100個訓練樣本對神經網絡進行訓練，訓練時間約為7.5 s，對驗證集的識別準確率約為92.5%，再對另外10張手寫數字圖片進行識別，識別結果如表1所示。

表1 識別結果

可見，對于書寫較為簡單的數字，如0、1等識別正確率為100%。而較為復雜的數字，如8、6等識別正確率較低。此外，由于不同筆者的書寫風格具有差異性，數字的傾斜度也不同；也有筆者書寫的數字5、6差別微乎其微。針對上述種種情況，可以考慮采用傾斜度矯正、圖像細化的方法以提高識別精度。

4 結束語

本文主要對手寫數字識別結合神經網絡方法的實現進行了探討與研究，并且采用MATLAB為開發環境，編寫了系統各個模塊。本文在BP神經網絡基礎上結合逐像素點特征提取法設計了手寫數字識別系統，該系統主要由圖像處理和分類識別兩大部分組成。對原始圖片進行圖像處理是分類識別的前期工作，特征提取是連接圖像與神經網絡的橋梁。分類識別是整個系統的核心，本文采用具有代表性的三層BP神經網絡，在保證識別精度前提下又能保證簡短的訓練過程，性能較好。手寫體數字識別是近年來的研究熱點并且應用廣泛，特別是脫機手寫體數字識別在銀行票據認證、成績自動錄入等方面均有用途。