基于卷積神經網絡的隨機梯度下降算法

2018-03-16 06:32:20王功鵬牛常勇

計算機工程與設計 2018年2期

王功鵬，段萌，牛常勇

(鄭州大學信息工程學院，河南鄭州 450001)

0 引言

卷積神經網絡(以下簡稱CNN)是在神經網絡的基礎上進行改造的深層網絡，是目前語音分析以及物體識別等領域使用最廣的網絡結構[1]。CNN中使用最廣泛的優化算法當屬SGD(stochastic gradient descent)算法，SGD算法的關鍵在于學習率η，η如果設置不當將會直接影響SGD的效果。針對學習率的研究，文獻[2]提出了一種學習率自適應遞減算法，但是其學習率是嚴格遞減的，在訓練后期學習率會變得非常小。為了使得學習率能更好適應SGD算法以提高SGD算法的效率，本文提出了一種用于SGD的學習率自適應更新算法，該算法的主要思想是隨著迭代的進行，根據不同的迭代次數周期性的將學習率進行更新，使得學習率能更好地適應SGD算法。

目前CNN中常用的激活函數為Relu(rectified linear units)函數。然而，在Relu函數中的閾值為負的神經元處于抑制的狀態[3]，針對Relu函數的這種缺陷，文獻[4]提出了一種改進的激活函數Leaky Relu。該激活函數在閾值大于零部分的處理與Relu一致，但是在小于零的部分的處理則是將這些閾值乘以一個很小的數值，而不是直接壓縮至零。這樣既重新修正了數據的分布同時又避免了網絡梯度的消失，這也是近年來國內外研究者常用的激活函數。目前針對CNN國外的研究者提出了許多的改進，如國外研究者提出了許多新的激活函數如PReLU(parametric retified linear unit)[5]、RReLU(randomized rectified linear unit)等激活函數，目前國外最新的研究還提出在訓練過程中使用批規范化來提高訓練速度[6]。本文將分別對比采用Leaky Relu與Relu作為激活函數的CNN的實驗結果。

本文也將采用上述提出的學習率自適應更新算法的SGD和Leaky Relu進行結合在標準數據集上進行分類識別測試，并且與Relu和學習率非自適應的SGD進行比較。

1 卷積神經網絡概述

1.1 卷積神經網絡基本結構

卷積神經網絡(CNN)是在前饋神經網絡基礎上進行升級改造的深層神經網絡，每個神經元都只與鄰近的局部神經元相互作用。CNN有三大特性分別為局部感知野、權值共享和降采樣[7,8]。局部感知野使網絡提取局部特征的能力大大增強。權值共享可以顯著的減少網絡中的參數，很大程度地降低了網絡計算的復雜度。權值共享和降采樣的結合使得網絡的計算復雜度顯著下降，這也正是CNN優于其它算法的顯著特征，正是這些特性使得CNN迅速得到普及。CNN在圖像分類和語音識別中使用最為廣泛，大部分計算機視覺系統都將它作為核心技術。目前國內也有很多基于CNN的成功的研究成果如手勢識別[9]和用于情感識別平臺[10]等。

卷積運算實際是一種對圖像元素的矩陣變換，它的輸入層是通過一個W*W大小的卷積核與上一層輸入的一小部分進行連接并進行卷積運算，然后提取該區域的局部特征。如此就減少了網絡中的參數使得網絡的計算復雜度顯著降低，同時也提高了網絡的訓練性能。卷積運算公式如下

(1)

通過卷積運算提取圖像特征后，下一步就是從這些獲得的特征中去進行分類處理。降采樣層主要作用是對通過卷積核提取到的特征進行降維抽樣處理。目前CNN中常用的池化操作有最大池化、均值池化和隨機池化。本文所選擇最大池化作為池化操作。經過池化操作后網絡的維度就大幅地降低，同時也降低了過擬合發生的機率。降采樣公式如下所示

(2)

其中，降采樣函數用bool(·)表示。在對輸入圖像中不同區域的n*n塊的全部像素進行求和運算時，降采樣函數可以將圖像整體縮小了n*n倍。經過降采樣獲得重新規劃的值后，將該值與偏執系數β相乘，最后激活函數再將該值輸出。

本文中在每一個卷積層后降采樣層前都會添加Relu或者Leaky Relu函數作為激活函數。同時為了防止過擬合的發生將會結合Dropout[11]一起使用。CNN最后全連接層采用Softmax函數來作為回歸函數對結果進行分類，Softmax回歸模型針對于多分類問題，它也是CNN常用的分類器。另外選擇合適的優化算法來學習模型參數，通過Softmax回歸函數計算出頂層損失值，再使用優化算法學習模型參數。本文選擇學習率非自適應的SGD算法與本文提出的使用學習率自適應更新算法的SGD作為優化算法。

1.2 Leaky Relu激活函數及其特性

Relu激活函數是CNN中使用最廣的激活函數。Relu激活函數具有如下優勢：解決梯度消失問題和提高網絡的訓練速度[4]。綜上所述，選擇計算復雜度更低計算速度更快的Relu作為CNN的激活函數更為合適。但是它同樣有很大的缺陷，Relu激活函數的表達式為：f(x)=max(0,x)，x表示網絡輸入閾值，f(x)表示的是網絡輸出值。從表達式可以看出它只保留了大于零的部分的閾值，而簡單的將小于零的部分的閾值置為零，因而該激活函數具有了稀疏表達能力，但是同時該激活函數中閾值為負的神經元處于抑制的狀態，這些神經元的權值也不會再通過反向傳播算法進行更新。針對這種缺陷本文提出采用LeakyRelu激活函數作為CNN的激活函數。

LeakyRelu激活函數對應的公式如下

(3)

式中:xi代表激活函數的輸入值，yi代表的是激活函數輸出值。α代表的是一個范圍為(0,1)之間的數值斜率，在實際使用過程中α會根據先驗經驗值進行設定。文獻[12]通過大量的實驗驗證α的值在0.1至0.5之間效果達到最佳，本文通過大量實驗后將其值設置為0.15。

從式(3)中可以看出，LeakyRelu激活函數將閾值為負的神經元與一個很小的數值向乘，如此閾值為負的神經元不會被丟棄同時這些的神經元信息也得到了保留。

2 SGD算法

2.1 SGD算法原理

在機器學習中，對于大多數的監督學習模型，為了得到最優的權值，需對模型創建代價損失函數，然后選擇合適的優化算法以得到最小的函數損失值。梯度下降算法是目前使用最廣的優化算法。它的核心思想是：要計算出最小的函數損失值，必須先計算出損失函數的梯度，然后按照梯度的方向使函數損失值逐漸減少，通過對權值的不斷更新調整，使得函數損失值達到最小，從而獲得最優解。SGD算法是一個基于梯度下降的改進算法，SGD每次隨機選擇一個樣本來迭代更新一次，而不是針對所有的樣本。因此該算法明顯的降低了計算量。SGD具有訓練速度快易收斂等特性，也是最受國內外研究者青睞的優化算法。SGD相關的公式如下

(4)

(5)

φ:=φ-η▽φh(φ)

(6)

式中，φ代表網絡參數權值，▽φ表示的是梯度，h(φ)代表損失函數，g(φ)代表目標函數，yi代表第i個樣本的樣本值，m表示的是整個迭代進行的總次數，η表示梯度下降中的步長即學習率，j表示的CNN中參數的總數目。正如上文所描述的學習率對梯度下降算法至關重要，如果η設置的過小則會需要多次迭代才能找到最優解且會降低網絡的收斂速度，甚至可能出現陷入到局部最優解中停滯不前的情況。如果增大學習率，雖然會加快CNN的訓練速度，但是同時也會加大了跳過最優解的機率，CNN可能出現找不到最優解的情況[13]。由此可以看出η是決定梯度下降算法是否有效的關鍵因素。為了使學習率更好地適應SGD，本文針對學習率提出了一種基于SGD的學習率自適應更新算法。

2.2 基于SGD的學習率自適應更新算法

目前較為流行的CNN結構中都將沖量添加到SGD實現方式中，沖量的作用是為了防止CNN在最小損失值點而繼續進行迭代訓練不能停止的情況發生[14]。本文在CNN中的SGD也添加沖量并將其設置為0.9。為了克服SGD中學習率選擇的困難，本文提出了一種讓學習率自適應SGD的學習率自適應更新算法，通過該算法獲得的學習率來更加適應網絡的訓練。與使用學習率非自適應的SGD相比使用該算法的SGD解決了學習率設置不當而跳過最優解而產生動蕩的問題。算法描述見表1。

表1就是本文提出的SGD學習率更新算法，但是為了防止η遞減的過快本文設置了上述的學習率更新規則1和學習率更新規則2兩種學習率更新規則。常數σ是防止隨著迭代的進行η逐漸減小以至于過小而失去作用而設置的。按照本文提出的學習率更新算法每進行一次迭代后相應的更新學習率η，這樣就做到了學習率的更新。隨著迭代的進行，函數損失值逐漸減小，應適當的減小學習率。故本文算法中學習率呈現整體梯形下降趨勢，但并不是嚴格下降，而是在一定迭代區間內周期性下降，采用周期性下降的方式可以使得相同的學習率參與更多的訓練，使得學習率得到充分的使用。隨著迭代的進行學習率衰減幅度也逐漸減

表1 SGD學習率自適應更新算法

小，這樣可以防止因學習率減小的過快而造成網絡收斂變慢情況的發生。該算法具有通用性對所有的SGD算法都適用。其中本文學習率自適應更新算法中學習率隨迭代次數變化如圖1所示。

圖1 本文學習率變化曲線

3 實驗與結果分析

3.1 實驗平臺和數據

實驗選取的數據集為Yann LeCun建立的數字手寫字符體MNIST，Alex Krizhevsky等收集建立的CIFAR-10[15]的一般物體圖像數據集和CIFAR-100數據集，其中CIFAR-10共有60 000張尺寸為32*32的真彩色圖片，共有10種類別。CIFAR-100數據集與CIFAR-10數據集類似不過它包含了20種大類和100種小類別。

實驗平臺選擇的是Amazon提供的云計算服務EC2機型，操作系統為Linux Ubuntu 14.04，選擇的GPU型號為GRID K520，可用顯存大小為8 GB。采用了NVIDIA提供的計算加速方案。

實驗數據集，見表2。

表2 實驗數據集

3.2 數據集網絡結構參數

對于3個數據集，本文設計了不同的網絡結構。表3給出了用于3個數據集的網絡結構參數。

表3 3個數據集網絡結構參數

3.3 實驗結果分析

評價一個算法優劣有很多種的標準如交叉驗證集正確率、訓練集正確率以及優化算法的收斂性[16]。本文選取上述3種標準作為本文算法評價的標準。本文中的實驗在MNIST，CIFAR-10和CIFAR-100數據集各進行了150次迭代。表4～表6給出了不同CNN在各個數據集獨立運行20次后取平均值的實驗結果。其中Relu與Leaky Relu分別表示激活函數采用Relu與Leaky Relu，優化算法采用固定學習率為0.01非自適應的SGD的網絡。MSGD Relu與MSGD Leaky Relu分別表示激活函數采用Relu與Leaky

Relu，優化算法為采用本文提出的學習率自適應更新算法的SGD的網絡。

表4 MNIST數據集的實驗結果

表5 CIFAR-10數據集的實驗結果

表6 CIFAR-100數據集的實驗結果

從上述的實驗結果中可以看出，在3個數據集上，在相同優化算法下使用Leaky Relu激活函數的網絡正確率要高于使用Relu激活函數的網絡。在相同激活函數下優化算法采用本文的學習率自適應更新算法的SGD的網絡的訓練和驗證正確率也要高于采用學習率非自適應的SGD的網絡。從實驗結果中可以看出，采用Leaky Relu作為激活函數，以本文的學習率自適應更新算法的SGD作為優化算法相結合可以進一步提高網絡的訓練和驗證正確率。

其中各個網絡在3個數據集上訓練和驗證和收斂曲線如圖2～圖4所示。train_loss表示訓練函數損失值，val_loss表示驗證函數損失值，Epochs表示迭代次數。

圖2 不同網絡在MNIST數據集上的收斂曲線

圖3 不同網絡在CIFAR-10數據集上的收斂曲線

圖4 不同網絡在CIFAR-100數據集上的收斂曲線

從圖2～圖4實驗結果可以得出結論，使用Leaky Relu作為激活函數的網絡目標函數的損失值明顯小于使用Relu作為激活函數的網絡。當優化算法采用本文的學習率自適應更新算法的SGD的網絡能更快的收斂，訓練損失值和驗證損失值趨于平穩不再波動。網絡的收斂性明顯的優于學習率非自適應的SGD算法。

從圖4中可以看出在CIFAR-100數據集上激活函數采用Relu的網絡的函數損失值最后呈現上升趨勢。相反激活函數采用Leaky Relu，優化算法采用本文的學習率自適應更新算法的SGD的網絡能更好的訓練下去。且采用本文的學習率更新算法的SGD和Leaky Relu激活函數相結合的網絡不僅具有更好的收斂性，而且訓練函數損失值和驗證函數損失值均小于其它網絡，實驗效果明顯優于其它網絡。

評估一個優化算法優劣的最可靠的依據就是看該優化算法是否收斂[16]，數據是否趨于穩定，參數是否達到了穩定值，是否還會出現周期性波動。實驗結果表明，采用本文的學習率自適應更新算法的SGD的網絡收斂性明顯的好于其它網絡。由此可以得出結論：本文提出的算法有效，能夠提高SGD算法的效率。

4 結束語

針對CNN中Relu激活函數的不足，本文設計了采用Leaky Relu作為激活函數的CNN，同時也將CNN中傳統的SGD算法進行了改良并提出了基于SGD的學習率自適應更新算法。3個數據集上的實驗結果表明，以Leaky Relu作為激活函數的CNN實驗結果要優于使用Relu作為激活函數的CNN。使用本文的學習率自適應更新算法的SGD在保證正確率的前提下，還可以加快網絡的收斂。然而，本文的算法中的眾多參數仍有許多改進的地方。在以后的工作中如何找到更優的參數，仍然需要反復的實驗和測試。下一步，將本文中的算法用于普適物體識別中，用該算法去解決實際問題。

[1]Lu Hongtao,Zhang Qinchuan.Applications of deep convolutional neural network in computer vision[J].Journal of Data Acquisition and Processing,2016,31(1):1-17.

[2]Duchi J,Hazan E,Singer Y.Adaptive subgradient methods for online learning and stochastic optimization[J].Journal of Machine Learning Research,2011,12(7):257-269.

[3]Glauner PO.Deep convolutional neural networks for smile reco-gnition[J].IEEE/ACM Transactions on Audio Speech & Language Processing,2015,22(10):1533-1545.

[4]Maas AL,Hannun AY,Ng AY.Rectifier nonlinearities improve neural network acoustic models[C]//Proceedings of the 30th International Conference on Machine Learning,2013.

[5]He K,Zhang X,Ren S,et al.Delving deep into rectifiers:Surpassing human-level performance on imageNet classification[C]//IEEE International Conference on Computer Vision.IEEE,2015:1026-1034.

[6]Ioffe S,Szegedy C.Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//International Conference on Machine Learning,2015:448-456.

[7]AlexKrizhevsky,IlyaSutskever,HintonGE.ImageNetclassificationwithdeepconvolutionalneuralnetworks[C]//AdvancesinNeuralInformationProcessingSystem.Cambridge:MITPress,2012:1097-1105.

[8]LiangM,HuX.Recurrentconvolutionalneuralnetworkforobjectrecognition[C]//IEEEConferenceonComputerVisionandPatternRecognition.IEEE,2015:3367-3375.

[9]CAIJuan,CAIJianyong,LIAOXiaodong,etal.Preliminarystudyonhandgesturerecognitionbasedonconvolutionalneuralnetwork[J].ComputerSystems&Applications,2015,24(4):113-117(inChinese).[蔡娟,蔡堅勇,廖曉東,等.基于卷積神經網絡的手勢識別初探[J].計算機系統應用,2015,24(4):113-117.]

[10]LINPingrong,HOUZhi,WENGuihua.Openplatformofemotionrecognitionbasedondeeplearning[J].ComputerEngineeringandDesign,2016,37(6):1510-1514(inChinese).[林平榮,侯志,文貴華.基于深度學習的情感識別開放平臺[J].計算機工程與設計,2016,37(6):1510-1514.]

[11]SrivastavaN,HintonGE,KrizhevskyA,etal.Dropout:Asimplewaytopreventneuralnetworksfromoverfitting[J].JournalofMachineLearningResearch,2014,15(1):1929-1958.

[12]XuB,WangN,ChenT,etal.Empiricalevaluationofrectifiedactivationsinconvolutionnetwork[D].ICMLDeepLearn,2015:1-5.

[13]PoriaS,CambriaE,GelbukhA.Deepconvolutionalneuralnetworktextualfeaturesandmultiplekernellearningforutte-rance-levelmultimodalsentimentanalysis[C]//EmpiricalMethodsinNaturalLanguageProcessing,2015:2539-2544.

[14]SutskeverI,MartensJ,DahlG,HintonG.Ontheimportanceofinitializationandmomentumindeeplearning[C]//InternationalConferenceonMachineLearning,2013:1139-1147.

[15]DudikM,HarchaouiZ,MalickJ.Liftedcoordinatedescentforlearningwithtrace-normregularization[J].Aistats,2012,22(22):327-336.

[16]WANGChangsong,ZHAOXiang.Generalmethodforevalua-tingoptimizationalgorithmanditsapplication[J].JournalofComputerApplications,2010,30(A01):76-79(inChinese).[汪昌松,趙翔.評價優化算法的一般性方法及其應用[J].計算機應用,2010,30(A01):76-79].