基于LeNet-5的手寫數字識別的改進方法

2024-06-16 12:30:57張趁香陳黃宇

電腦知識與技術 2024年12期

張趁香陳黃宇

關鍵詞：手寫數字識別；LeNet-5；深度學習；卷積神經網絡；激活函數

0 引言

隨著人工智能及相關技術的發展，信息存儲和傳遞方式的改變在一定程度上解決了人類面臨的多種問題，例如信息因距離遠而傳輸緩慢，或信息過于龐大或復雜而難以傳遞的困難。數字識別技術，作為一種新興的、利用計算機代替人類識別手寫數字的技術，已經得到了廣泛的應用。從航空航天、工業制造、鐵路裝備到精密儀器、芯片制造、顯微成像，各行各業都有數字的身影。本文旨在設計一種能夠快速、準確識別數字的算法，并將其實際運用到各領域中解決問題。

1 神經網絡方法解決手寫數字識別問題現狀

目前，大量的神經網絡方法被利用于解決手寫數字識別問題。傳統的神經網絡是一種機器學習方法，它通過正向的神經元計算預測值與實際樣本之間的偏差，并通過反向傳播機制（BP）來更新神經網絡中的參數，從而達到訓練模型的目的，以準確判斷手寫數字類型[1]。BP神經網絡自提出以來，因其強大的非線性擬合能力而被廣泛應用。然而，該網絡結構中的參數優化方法存在不足，在實際訓練中，很難實現有效的收斂性和訓練效率。此外，由于硬件資源的限制，訓練效率進一步降低，在較大規模的網絡中難以提供充分的運算資源進行參數優化。

為了更好地識別和分類，常采用卷積神經網絡（CNN）。該網絡是基于傳統神經網絡改進后設計的，結合了人類大腦理解視覺圖像的方式[2]。相比于原有的網絡結構，卷積神經網絡提出了一種類似于人類識別事物時的觀測方式：感受野（receptive field）。首先，它通過卷積運算來捕捉各個部位的特征，把注意力集中在一個特定區域上。其次，權重共享的核心在于，相同的特征抽取方法可以應用于其他圖像。最后，在卷積層后加入了一個池化層，它可以從卷積運算中提取特征值，進一步減少參數量和特征向量的維度，從而提高學習效率。由于卷積神經網絡更適合處理圖像數據，BP神經網絡通常將圖像信號展開為一維信號，這一過程會導致圖像中各像素之間的關聯信息丟失；而卷積神經網絡則直接將原始圖像作為輸入，或對圖像進行預處理，以保持圖像中鄰近像素的關聯性。

2 改進LeNet-5的手寫數字識別

盡管BP神經網絡在手寫數字識別領域未能達到特別高的識別精度，基于卷積神經網絡實現的手寫數字識別系統LeNet-5在MNIST數據集上的測試誤差僅為0.94%，相比之前的算法在精度方面已有一定提升。然而，傳統的LeNet-5模型采用的Sigmoid激活函數[3]可能在實際模型訓練過程中導致梯度消失現象。此外，網絡結構的設計也不足以訓練出高精度的模型。

2.1 對網絡結構進行變更

1）原模型中采用Sigmoid函數作為激活函數，經過BP神經網絡的實驗驗證，ReLU函數具有更佳的性能，因此采用ReLU函數替代原有的Sigmoid函數。

2）在LeNet-5中，第二個卷積層與上一層之間采用了特殊連接方式，本文改為在所有特征圖上直接進行卷積，以簡化網絡模型。

3）在最后的全連接層和輸出層之間加入dropout層，以防止過擬合。

4）原LeNet-5模型使用歐式徑向基函數進行分類，改為采用softmax分類函數進行分類。

2.2 改進LeNet-5模型

改進后的LeNet-5同樣通過MNIST 數據集進行訓練和測試。在此過程中，模型對原有圖像進行預處理，將原本的28×28圖像轉換為32×32圖像。這一變化旨在避免在卷積核與原始圖像之間的信息丟失。與其他神經網絡相似，該算法采用基于反向傳播的隨機梯度下降方法更新權重。與BP神經網絡相比，由于卷積層與其輸入之間是稀疏連接的，并且每個卷積核只提取原圖不同位置的相同特征（即權值共享），這種處理顯著減少了訓練所需的參數數量。此外，通過增加卷積核的數量可以提取更多的特征。改進LeNet-5網絡結構如圖1所示。

1）根據網絡中對卷積運算的處理方式，若輸入的特征圖大小為28×28，且未采用任何填充策略，且步長設為1，則使用5×5大小的卷積濾波器執行一次卷積后，生成的特征圖將變為24×24。同樣，若使用3×3大小的卷積濾波器進行同樣的卷積，將產生一個26×26 大小的特征圖。最后，再次使用3×3的卷積濾波器進行卷積，最終生成的特征圖大小仍為24×24。從這些數據可以明顯看到，無論是否重復使用3×3的卷積濾波器，結果得到的特征圖尺寸都是相同的。這一結論可以通過觀察表1中的參數變化來得出。

2）需要增加同一層中的卷積核數量。在每個卷積層中，應使用32個卷積核進行計算。這樣做可以增加每層輸出的特征圖數量，從而增強模型的特征提取能力，進而提升模型性能。

3）采用ReLU激活方式替代了Sigmoid激活方式。通過選擇適當的激活機制，可以顯著提升模型的表現力。從圖2可以看出，在相同的學習條件下，相較于Sigmoid激活方式，ReLU激活策略能夠減少訓練回合次數，并將誤差值降低至0.25。

4）利用空間金字塔池化（Spatial Pyramid Pooling）技術改進LeNet-5中的S4池化層，以減小池化過程對特征值的影響。具體來說，圖3展示了低層次和高層次的立方體分別表示的是卷積層產生的特征圖。接著，這些特征圖被傳遞到三個不同尺寸的池化層（4×4、2×2和1×1），最終將這三個結果合并成一個21維的向量，然后傳遞到全連接層。

5）采用全連接層替代LeNet-5中的C5層。通常情況下，全連接層被置于模型末端，以匯總信息并防止因過分關注局部信息而導致的分類誤差，這有助于提升網絡的穩健性。通過優化，發現在前三個卷積層之后，即使不減少卷積層數量，也可以用全連接層取代C5 層，從而進一步增強模型的穩定性和分類準確率。

在網絡訓練過程中，使用隨機優化算法初始化卷積神經網絡中所有卷積核的權值wij，旨在為正在學習的數據中的輸入到輸出的特定映射函數找到足夠好的權重集[4]。隨后，將輸入圖像送入卷積神經網絡進行前向傳播，以獲取網絡的輸出。通過計算損失函數來衡量網絡輸出與真實標簽之間的差異，并通過反向傳播將這一差異從輸出層傳遞回上一層，以此初始化網絡中的卷積核參數值。接著，選擇優化器算法生成新的樣本，并反復更新網絡中的參數，從而使損失函數逐漸減小。

2.3 多維卷積運算

由于原始輸入圖像包含RGB三個通道的數據，因此卷積核需要具有相匹配的深度，以便更有效地對特征進行組合。多維卷積有兩種方式：一種是全卷積，即同一層的所有特征圖都參與卷積運算，但這種方式并沒有突出特征組合的特殊性；另一種是選擇性卷積，在這種方式中，人為地約束了哪些特征圖進行組合，使得某些卷積核只關注部分特征之間的組合，而不是全自動地學習該組合哪些特征。在LeNet-5中，C3層和S2層采用選擇性卷積，目的是讓模型只選取特定部分的特征進行組合，這樣同時也降低了參數數量，簡化了網絡模型[5]。多維卷積運算的示意圖如圖2 所示。

2.4 池化和激活函數

池化可以對數據進行降維，同時可以縮小數據量，減小實際訓練過程中的壓力。實驗證明，池化操作不僅不會丟失特征，反而可以減少參數，使得訓練速度加快。此外，特征向量維數的降低有利于分類器的訓練。池化操作和卷積的相同之處在于都是通過一個滑動窗口對輸入進行運算，然后再加上一個偏置項；不同之處在于滑動窗口的選擇以及其中參數的確定。

按照運行方式，池化可以劃分為最大池化、平均池化和隨機池化。在最大池化過程中，通過池化操作，得到的結果是滑動窗口覆蓋區域內的最大單元。在平均池化中，通過計算，可以獲得由滑動窗口所涵蓋的單元的平均值。在池化具體操作過程中，一般選取池化窗口時需要使窗口大小能被原圖大小整除，即當滑動窗口以自身大小為步長在特征圖上滑動后，能夠覆蓋特征圖中所有的像素點。例如，28×28大小的特征圖經過2×2窗口池化之后，得到的特征圖大小為（28/2） ×（28/2），即14×14。由此可以明顯地看出，特征圖在原基礎上被抽象，且特征圖的維數大大降低，網絡訓練速度自然會有所提升。

激活函數主要起到“映射功能”。在神經網絡中，大多數操作都是線性的，為了適應某些非線性問題，必須使用激活函數。激活函數大體可以分為兩大類：

1）飽和激活函數：sigmoid、tanh。

2）非飽和激活函數：ReLU、Leaky ReLU等。

使用“非飽和激活函數”的優勢主要有：它能在一定程度上解決反向傳播過程中的計算問題，例如梯度消失的問題。由于其本身的特點及計算的非線性等特征，可以加快運算速度。因此，在本網絡中采用的是Leaky ReLU。其數學表達式為：

不同結構的神經網絡效果各異。在每次訓練過程中，隱含層的神經元會以一定概率隨機失活，因此無法保證每兩個隱含層神經元在每次訓練中都同時出現。這種機制使得權值更新不再依賴于具有固定關系的隱含層神經元的共同作用，避免了某些特征僅在其他特定特征出現時才有效的情況[6]。由于每次訓練時部分神經元不參與權值更新，實際上每次訓練的都是一個不同的網絡。

3 GUI 界面設計及實驗

3.1 GUI 界面設計

GUI 界面是通過Python 自帶的PyQt 包開發的。PyQt是一個強大的Python工具包，它不僅可以用于界面開發，還可以進行簡單的程序可視化展示。主要功能及其說明如表3所示。

3.2 實驗設計

LeNet-5手寫數字識別訓練步驟如下：

1）將遵循正態分布的120維隨機向量傳送至生成器的全連接層，然后利用隨機優化算法為各種卷積核選擇參數wij。在卷積神經網絡中，所有卷積核權重均被初始化，并輸出7×7×512個神經元，以便為正在學習的數據中的輸入到輸出的特定映射函數找到足夠好的權重集。經過ReLU激活函數的非線性映射后，并進行尺度歸一化處理，輸出至第一個轉置卷積層。

2）將輸入數據傳送到卷積神經網絡中進行前向傳播，運行Step設置為1，補零參數設為flag，然后進行卷積運算，輸出256個7×7大小的張量。經過ReLU激活函數的非線性映射后，并進行尺度歸一化處理，輸出至第二個轉置卷積層。

3）將輸入數據傳送到卷積神經網絡中進行前向傳播，運行Step設置為1，補零參數設為flag，然后進行卷積運算，輸出128個14×14大小的張量。經過ReLU 激活函數的非線性映射后，并進行尺度歸一化處理，輸出至第三個轉置卷積層。

4）將輸入數據傳送到卷積神經網絡中進行前向傳播，運行Step設置為2，補零參數設為flag，然后進行卷積運算，輸出1個56×56大小的張量。經過ReLU激活函數的非線性映射后，輸出生成對象。

5）重復以上判別過程，計算損失函數以衡量網絡輸出與真實標簽之間的差異，將這個差異通過網絡反向傳播，更新網絡中的參數。一方面的數據來源于MNIST數據集，另一方面的數據來源于生成器輸入的數據。將兩種數據輸入的損失值相加后，對判別器的模型進行優化。

3.3 實驗結果對比分析

實驗采用批量梯度下降法進行網絡權值的更新，每一批次的樣本數為120個，設置循環次數為20次，則權值更新次數為60000/120×20=10000次，在訓練過程中，每經過500次迭代就將訓練的中間網絡用于測試集進行測試。由于訓練剛開始的時候，權值是隨機初始化，模型在測試集上的效果不具備代表性，故而沒有進行記錄。

Minst數據集預測部分數據結果直觀展示圖如圖4所示。

根據LeNet-5的結構特點，本文對其結構進行了一些改變：替換激活函數、增加卷積核的數量以及加入dropout。實驗結果證明了這些結構改動的有效性。通過對誤分類樣本的觀察分析，發現網絡對于單一的MNIST訓練集的泛化能力和精度已經難以進一步提升。為了進一步提高網絡性能，可以增加樣本輸入量。針對測試集中某些類別存在的嚴重形變，可以對訓練集中的樣本進行適度的扭曲形變后再輸入網絡進行訓練，這種方法變相地增加了訓練樣本的數量，也有助于增強網絡的泛化能力。

4 結束語

首先，本研究對各種隱藏層參數和激活函數的變化進行了對比，比較了不同激活函數的利弊，發現以ReLU為激活函數的網絡能夠快速收斂；在過度擬合的條件下，添加dropout能夠稍微減輕過度擬合的問題。其次，本研究通過利用改良的LeNet-5架構進行手寫數字識別的方法進行了探索。研究結果表明，隨著卷積核數量的增加，雖然可以提高特征的維度，從而提升網絡的整體性能，但卷積核的數量并非越多越好；過多的卷積核不僅會導致巨大的計算開銷，還可能引起網絡的過度擬合。最后，通過改變LeNet-5的結構，將錯誤識別率降低到了0.86%。