基于動量分?jǐn)?shù)階梯度的卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化方法

2022-03-22 03:34:30郭明霄王宏偉李昊哲楊仕旗

計算機工程與應(yīng)用 2022年6期

郭明霄，王宏偉，2，王佳，李昊哲，楊仕旗

1.新疆大學(xué) 電氣工程學(xué)院，烏魯木齊 830047

2.大連理工大學(xué) 控制科學(xué)與工程學(xué)院，遼寧大連 116024

3.大連醫(yī)科大學(xué) 基礎(chǔ)醫(yī)學(xué)院，遼寧大連 116041

隨著人工智能科技的進步，作為人工智能的重要分支，深度學(xué)習(xí)越來越多地應(yīng)用在各行各業(yè)中，為人們的社會生產(chǎn)和生活提供了諸多便利。卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的核心組成之一，其早期的研究進展較為緩慢，1998年LeCun等人[1]提出了LeNet-5卷積神經(jīng)網(wǎng)絡(luò)，并將梯度下降算法應(yīng)用到卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中，這奠定了使用梯度下降算法訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)。進入2010年以來，隨著計算機算力的提升，卷積神經(jīng)網(wǎng)絡(luò)進入飛速發(fā)展時期，相繼出現(xiàn)了多種類型的卷積神經(jīng)網(wǎng) 絡(luò) 模型，主要有AlexNet[2]、VGGNet[3]、ResNet[4]、GoogLeNet[5]、FCN[6]、DenseNet[7]等。卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用范圍越來越廣，尤其在圖片分類和分割等方面取得的效果越來越好，但與此同時，網(wǎng)絡(luò)規(guī)模越來越大，復(fù)雜程度越來越高，這使得卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練面臨更加復(fù)雜的挑戰(zhàn)。

法國科學(xué)家Cauchy于1874年提出梯度下降法，該算法常用于求解無約束最優(yōu)化問題，由于算法以目標(biāo)函數(shù)的負(fù)梯度方向作為尋找最小值的下降方向，故稱為梯度下降法[8]。梯度下降算法常用來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)，目前，有很多學(xué)者以梯度下降算法為基礎(chǔ)提出了多種改進型梯度下降算法。常用的改進型梯度下降算法主要有動量梯度下降法[9]，該算法在一定程度上減緩了尋找極值過程中的震蕩幅度，加快了收斂速度。文獻[10]提出一種動態(tài)調(diào)整學(xué)習(xí)率的梯度下降算法，使用該算法訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)，由于學(xué)習(xí)率減小較快，導(dǎo)致訓(xùn)練后期梯度更新趨向于零，因此會使訓(xùn)練過程提前結(jié)束。文獻[11]在文獻[10]所提算法的基礎(chǔ)上進行改進，為減緩學(xué)習(xí)率衰減速度，新算法使用前幾步梯度平方的指數(shù)加權(quán)平均來進行學(xué)習(xí)率調(diào)整。文獻[12]所提算法通過計算梯度的一階矩估計、二階矩估計并引入衰減系數(shù)來動態(tài)改變學(xué)習(xí)率和梯度下降方向，這使得該算法效率更高，收斂更快。

近幾年來，對分?jǐn)?shù)階微積分的研究引起了諸多學(xué)者的興趣，而分?jǐn)?shù)階微積分已成功應(yīng)用到多個領(lǐng)域，如系統(tǒng)辨識[13]、圖像處理[14-15]、建模[16]、控制[17-18]等。作為整數(shù)階微積分的推廣，分?jǐn)?shù)階微積分的階次可為分?jǐn)?shù)，因而分?jǐn)?shù)階微積分為梯度下降算法開辟了新的研究方向。文獻[19]討論了使用分?jǐn)?shù)階微分梯度下降算法求解函數(shù)最小值時不能收斂到真實最小值的問題，而后提出了可收斂到真實最小值的改進算法，這對使用分?jǐn)?shù)階微分梯度下降算法解決求取函數(shù)最小值問題提供了較強的指導(dǎo)意義。文獻[20]指出，將傳統(tǒng)梯度下降算法中的整數(shù)階梯度改為分?jǐn)?shù)階梯度并不能保證算法收斂到真實極小值，并提出了一種更為簡潔的、便于實際應(yīng)用的、可以收斂到真實極值的分?jǐn)?shù)階梯度下降算法。文獻[21]提出了一種新的改進分?jǐn)?shù)階LMS算法（MFOLMS），該算法克服了準(zhǔn)確度和速度二者間的矛盾，既提高了參數(shù)估計的準(zhǔn)確度又加快了收斂速度。文獻[22]采用分?jǐn)?shù)階微分梯度下降算法對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練，文章分析了訓(xùn)練過程的收斂性，但文中使用的神經(jīng)網(wǎng)絡(luò)模型為BP神經(jīng)網(wǎng)絡(luò)并非卷積神經(jīng)網(wǎng)絡(luò)，后者在處理復(fù)雜識別分類任務(wù)時使用更為廣泛。文獻[23]首次將卷積神經(jīng)網(wǎng)絡(luò)與分?jǐn)?shù)階微分梯度下降算法相結(jié)合，證實了分?jǐn)?shù)階微分梯度下降算法在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的可行性，但文章在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)時僅使用了一個簡單的數(shù)據(jù)集，沒有在多個不同復(fù)雜程度的數(shù)據(jù)集上進行進一步的驗證，同時文章并沒有將分?jǐn)?shù)階微分梯度下降算法與整數(shù)階梯度下降算法在同一數(shù)據(jù)集上的效果進行對比。

為了進一步驗證分?jǐn)?shù)階梯度下降算法在卷積神經(jīng)網(wǎng)絡(luò)中的可行性，本文將傳統(tǒng)梯度下降算法中的動量思想與分?jǐn)?shù)階梯度下降算法相結(jié)合，提出動量分?jǐn)?shù)階梯度下降算法。實驗結(jié)果表明，該算法既保證了卷積神經(jīng)網(wǎng)絡(luò)的分類準(zhǔn)確度，同時又極大減少了數(shù)據(jù)迭代次數(shù)和訓(xùn)練時間。

1 基礎(chǔ)知識

在分?jǐn)?shù)階微積分學(xué)領(lǐng)域內(nèi)廣泛使用的分?jǐn)?shù)階微分定義有三個，分別為：RL（Riemann-Liouville）分?jǐn)?shù)階微分、GL（Grünwald-Letnikov）分?jǐn)?shù)階微分、Caputo分?jǐn)?shù)階微分，其數(shù)學(xué)表達式分別如下所示。

對于在區(qū)間[t0,t]上絕對可積函數(shù)f(t)的RL分?jǐn)?shù)階微分定義為：

式中，α為分?jǐn)?shù)階階次且n-1≤α＜n，n=[α]為不小于α的最小整數(shù)，Γ(·)為歐拉Gamma函數(shù)，其定義為：

當(dāng)x為非負(fù)整數(shù)時可得：

對于在區(qū)間[t0,t]上n階連續(xù)可導(dǎo)函數(shù)f(t)的GL分?jǐn)?shù)階微分定義為：

對于在區(qū)間[t0,t]上n階連續(xù)可導(dǎo)函數(shù)f(t)，若f(n)(t)在區(qū)間[t0,t]上絕對可積，則函數(shù)f(t)的Caputo分?jǐn)?shù)階微分定義為：

式中，α為分?jǐn)?shù)階階次且n-1≤α＜n,n=[α]為整數(shù)。

RL分?jǐn)?shù)階微分和GL分?jǐn)?shù)階微分在實際使用中要已知信號和信號分?jǐn)?shù)階導(dǎo)數(shù)在初始時刻的取值，而Caputo分?jǐn)?shù)階微分則需已知信號和其整數(shù)階導(dǎo)數(shù)在初始時刻的取值，因而Caputo分?jǐn)?shù)階微分在實際應(yīng)用中使用更為廣泛[24]。

為方便實際應(yīng)用，對Caputo分?jǐn)?shù)階微分方程做無數(shù)次分部積分運算的求和形式為：

2 問題描述

在實際研究應(yīng)用中，卷積神經(jīng)網(wǎng)絡(luò)常被用來完成圖片分類任務(wù)，定義卷積神經(jīng)網(wǎng)絡(luò)均方誤差損失函數(shù)如下：

式中，n表示訓(xùn)練集中每一個batch含有的圖片個數(shù)，xi表示輸入到卷積神經(jīng)網(wǎng)絡(luò)中的第i張圖片，yi代表第i張輸入圖片所對應(yīng)的類別標(biāo)簽，y^i則是卷積神經(jīng)網(wǎng)絡(luò)計算后輸出的第i張圖片的類別標(biāo)簽，d為類別標(biāo)簽采用one-hot編碼時的編碼深度，w、b表示卷積神經(jīng)網(wǎng)絡(luò)中各層的鏈接權(quán)重值和神經(jīng)元偏置值。依據(jù)鏈?zhǔn)角髮?dǎo)法則求取誤差損失函數(shù)對應(yīng)于各個層的權(quán)重和偏置之間的梯度，按照給定學(xué)習(xí)率和參數(shù)更新策略對卷積神經(jīng)網(wǎng)絡(luò)各層間的權(quán)重和偏置進行更新。訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的目的是為了提高分類準(zhǔn)確率，減小損失函數(shù)值，但是隨著分類任務(wù)越來越復(fù)雜，分類精度要求越來越高，卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度也越來越高，其層數(shù)也越來越多，訓(xùn)練難度也相應(yīng)地越來越大，收斂速度越來越慢，這給整數(shù)階梯度下降算法提出了嚴(yán)峻挑戰(zhàn)，而分?jǐn)?shù)階微分梯度下降算法的出現(xiàn)為解決此項挑戰(zhàn)提供了一個新的解決途徑。

3 算法推導(dǎo)

文獻[8]中的隨機梯度下降算法使用負(fù)梯度方向?qū)?quán)重和偏置進行迭代更新，簡稱為SGD算法，結(jié)合問本文題描述，將該算法應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)，則得卷積神經(jīng)網(wǎng)絡(luò)梯度更新數(shù)學(xué)表達式為：

一般，隨機梯度下降算法使用整數(shù)階梯度進行參數(shù)更新，為使用分?jǐn)?shù)階梯度下降算法，須先求取分?jǐn)?shù)階梯度，依據(jù)文獻[20]給出的關(guān)于函數(shù)的分?jǐn)?shù)階梯度求取方法，同時結(jié)合本文問題描述，由式（8）可得分?jǐn)?shù)階梯度下降算法參數(shù)更新公式為：

由式（15）可知，分?jǐn)?shù)階梯度為無窮數(shù)列相加，這導(dǎo)致該分?jǐn)?shù)階梯度算法無法實際應(yīng)用，為解決此項矛盾，對其展開并取展開式的主要作用項，得分?jǐn)?shù)階梯度參數(shù)更新數(shù)學(xué)表達式為：

為了在尋優(yōu)過程中始終保持正向梯度下降方向，同時避免參數(shù)更新公式出現(xiàn)奇異值，式（17）又可化為：

式中，δ值為極小的正數(shù)。

至此得出分?jǐn)?shù)階梯度更新公式，即FOGM算法。將式（18）應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)，則基于分?jǐn)?shù)階梯度的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)更新數(shù)學(xué)表達式為：

為提高分?jǐn)?shù)階梯度下降算法性能，可將動量思想與分?jǐn)?shù)階梯度下降算法相結(jié)合，為此需要構(gòu)建新的梯度下降方向，新的梯度下降方向由動量項和當(dāng)前分?jǐn)?shù)階梯度下降方向組成，其中動量項包含了過去時刻的分?jǐn)?shù)階梯度方向，由式（19）、（20）可得卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重分?jǐn)?shù)階梯度和偏置分?jǐn)?shù)階梯度，則結(jié)合動量思想后，卷積神經(jīng)網(wǎng)絡(luò)參數(shù)更新使用的梯度下降方向為：

v,u分別表示權(quán)重動量項和偏置動量項，β為動量項系數(shù)且0＜β＜1,β值決定了過去時刻的梯度更新方向?qū)Ξ?dāng)前時刻參數(shù)更新方向的影響程度。

式（21）、（22）為新的分?jǐn)?shù)階梯度下降方向構(gòu)建方法，該方法包含當(dāng)前時刻的分?jǐn)?shù)階梯度信息和動量項，即過去時刻的梯度信息，因此，將該方法應(yīng)用于所求參數(shù)更新公式，可得動量分?jǐn)?shù)階梯度下降算法，簡稱為MFOGM算法。將過去時刻的梯度和當(dāng)前時刻的梯度都用于實現(xiàn)系統(tǒng)尋優(yōu)過程中的參數(shù)更新，這有助于減小尋優(yōu)過程震蕩幅度，加快收斂速度，基于動量分?jǐn)?shù)階梯度下降算法的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)更新數(shù)學(xué)公式描述如下：

v(n+1)和u(n+1)包含了過去時刻的分?jǐn)?shù)階梯度信息和當(dāng)前時刻的分?jǐn)?shù)階梯度信息，其詳細(xì)計算過程分別見公式（21）、（22）。

分?jǐn)?shù)階梯度下降算法的階次可為分?jǐn)?shù)，參數(shù)設(shè)置靈活，收斂速度較快，動量項可以減緩尋優(yōu)過程中的震蕩，提高算法收斂速度，動量分?jǐn)?shù)階梯度下降算法結(jié)合這兩項優(yōu)勢，既可以保證準(zhǔn)確性又可以提高收斂速度。

4 算法測試

為了驗證所提MFOGM算法性能，考慮測試函數(shù)f(x,y)=x2+y2+1。該函數(shù)最小值為f(0,0)=1，初始化坐標(biāo)(x0,y0)=(0,0)，(x1,y1)=(5.0,-3.0)，動量項v(0)=0，學(xué)習(xí)率ρ=0.01。

在測試中，令β=0.9,α=(0.4,0.6,…,1.6)，觀察不同分?jǐn)?shù)階階次對算法收斂性的影響，測試結(jié)果見圖1。令α=1.2,β=(0.1,0.2,…,0.9)，觀察不同動量項系數(shù)對算法收斂性的影響，測試結(jié)果見圖2。

圖1 不同分?jǐn)?shù)階階次下的收斂情況Fig.1 Convergenceunderdifferentfractionalorders

圖2 不同動量項系數(shù)下的收斂情況Fig.2 Convergenceunderdifferentmomentumcoefficients

由圖1可知，當(dāng)MFOGM算法中學(xué)習(xí)率ρ和動量項系數(shù)β固定不變時，分?jǐn)?shù)階階次α取值在一定的范圍內(nèi)由小到大變化，函數(shù)f(x,y)收斂到真實最小值的速度由慢到快，若分?jǐn)?shù)階階次α取值過大，則會導(dǎo)致函數(shù)f(x,y)的值在下降過程中出現(xiàn)較大的震蕩甚至無法收斂到真實最小值，因此使用MFOGM算法時應(yīng)注意分?jǐn)?shù)階階次α的取值。

由圖2可知，當(dāng)MFOGM算法中學(xué)習(xí)率ρ和分?jǐn)?shù)階階次α固定不變時，隨著動量項系數(shù)β值的增大，函數(shù)f(x,y)收斂于真實最小值的速度也隨之加快，當(dāng)動量項系數(shù)取值過大時會使收斂曲線產(chǎn)生震蕩，但依然會使函數(shù)f(x,y)收斂于真實最小值。較大的動量項系數(shù)有助于在梯度下降過程中逃脫局部最小值陷阱，因此采用MFOGM算法在高維復(fù)雜空間尋找最小值時建議使用較大的動量項系數(shù)。

綜上所述，在一定的取值范圍內(nèi)，函數(shù)值曲線隨著分?jǐn)?shù)階階次α的增加收斂速度不斷加快，隨著動量項系數(shù)β的增加收斂速度不斷加快，動量項系數(shù)和分?jǐn)?shù)階階次二者分別與收斂速度成正相關(guān)性。因此，使用MFOGM算法在函數(shù)尋找最小值時，通過設(shè)置適當(dāng)?shù)膮?shù)值可以保證尋找到真實最小值，從而達到收斂效果。

5 實驗設(shè)計

5.1 開發(fā)環(huán)境介紹

本實驗所用操作系統(tǒng)：Win10家庭中文版，處理器：英特爾酷睿I5-8265U，顯卡：英偉達MX250，Python版本：Python3.7.764bit，開發(fā)環(huán)境：tensorflow2.1.0。

5.2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)描述

在實驗中，使用改進后的LeNet-5卷積神經(jīng)網(wǎng)絡(luò)，網(wǎng)絡(luò)模型見圖3，該網(wǎng)絡(luò)輸入圖片大小為32×32像素，共包含兩個卷積模塊和一個全連接模塊。第一個卷積模塊包含有卷積層、BatchNormalization、ReLU激活函數(shù)、MaxPool層，輸入圖片經(jīng)過第一個卷積模塊后生成6個分辨率為14×14的featuremap。第二個卷積模塊同樣包含有卷積層、BatchNormalization、ReLU激活函數(shù)、MaxPool層，第一個卷積模塊輸出的featuremap經(jīng)過第二個卷積模塊后生成16個分辨率為5×5的featuremap。網(wǎng)絡(luò)的第三個模塊為全連接模塊，該模塊由兩個全連接層、一個輸出層、兩個ReLU激活函數(shù)構(gòu)成，每層神經(jīng)元的個數(shù)依次為120，84，10，該模塊的輸入來自第二個卷積模塊的輸出，最后的輸出層沒有使用ReLU激活函數(shù)而是直接輸出。

圖3 卷積神經(jīng)網(wǎng)絡(luò)模型Fig.3 Convolutional neural network model

5.3 實驗設(shè)計

為了驗證MFOGM算法的性能，使用隨機梯度下降算法（SGD）、動量隨機梯度下降算法（MSGD）、動量分?jǐn)?shù)階梯度下降算法（MFOGM）在三個數(shù)據(jù)集上進行圖片分類性能比較。這三個數(shù)據(jù)集分別是Mnist數(shù)據(jù)集、FashionMnist數(shù)據(jù)集、Cifar10數(shù)據(jù)集，數(shù)據(jù)集的復(fù)雜程度逐漸增加。訓(xùn)練時將數(shù)據(jù)集劃分為訓(xùn)練集和驗證集，在訓(xùn)練集上對卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練，同時記錄訓(xùn)練誤差損失值，在驗證集上驗證并記錄卷積神經(jīng)網(wǎng)絡(luò)的分類準(zhǔn)確率。另外，由于Mnist數(shù)據(jù)集和FashionMnist數(shù)據(jù)集中圖片大小為28×28像素，因此使用這兩個數(shù)據(jù)集進行訓(xùn)練時，需要將LeNet-5卷積神經(jīng)網(wǎng)絡(luò)中，第一個卷積層的Padding設(shè)置為same，其他一些關(guān)于算法參數(shù)的初始化見表1。

表1 參數(shù)初始化Table 1 Parameter initialization

Mnist數(shù)據(jù)集集合了0～9這10類手寫數(shù)字黑白圖片，共有70 000張，大小為28×28像素，其中60 000張用作訓(xùn)練集，10 000張用作驗證集。FashionMnist數(shù)據(jù)集集合了10種人類服裝的黑白圖片，分別為T恤、褲子、套頭衫、連衣裙、外套、涼鞋、襯衫、運動鞋、包、靴子，共有70 000張，大小為28×28像素，其中60 000張用作訓(xùn)練集，10 000張用作驗證集。Cifar10數(shù)據(jù)集集合了10種物體的彩色圖片，分別是飛機、汽車、小鳥、貓、鹿、狗、蛙、馬、船、卡車，共有60 000張，大小為32×32像素，其中50 000張用作訓(xùn)練集，10 000張用作驗證集，三個數(shù)據(jù)集中的部分圖片見圖4。

圖4 不同數(shù)據(jù)集展示Fig.4 Display of different datasets

5.4 實驗結(jié)果分析

由圖5可得，在Mnist數(shù)據(jù)集上進行200次迭代訓(xùn)練后，MFOGM算法能夠以最少的迭代次數(shù)使卷積神經(jīng)網(wǎng)絡(luò)達到收斂，且準(zhǔn)確率較高。MSGD算法在訓(xùn)練初期使準(zhǔn)確率上升較快，后期上升較為平緩，在經(jīng)過200次迭代訓(xùn)練后未達到收斂，在快速性上落后于MFOGM算法。SGD算法的快速性與MSGD算法、MFOGM算法都有著一定的差距，未達到收斂。從圖6可以看到，經(jīng)過相同的訓(xùn)練次數(shù)后，采用MFOGM算法取得的訓(xùn)練誤差最小，其次為MSGD算法，采用SGD算法得到的誤差與前兩者相比有一定的差距。由此可知，在Mnist數(shù)據(jù)集上經(jīng)過相同的訓(xùn)練迭代次數(shù)后，使用MFOGM算法訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)性能優(yōu)于使用SGD算法或MSGD算法訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)。

圖5 三種算法在Mnist數(shù)據(jù)集上準(zhǔn)確度對比曲線Fig.5 Accuracy comparison curves on Mnist dataset

圖6 三種算法在Mnist數(shù)據(jù)集上訓(xùn)練損失對比曲線Fig.6 Training loss comparison curves on Mnist dataset

由圖7可知，在FashionMnist數(shù)據(jù)集上進行200次迭代訓(xùn)練后，三種梯度下降算法在驗證集分類準(zhǔn)確率上有明顯區(qū)別。MFOGM算法以最快的速度使卷積神經(jīng)網(wǎng)絡(luò)達到收斂，且準(zhǔn)確率較高。采用MSGD算法得到的準(zhǔn)確率曲線呈現(xiàn)出平緩上升過程，未達到收斂。采用SGD算法得到準(zhǔn)確率曲線與前兩者有明顯差距，未達到收斂。從圖8可以看出，經(jīng)過相同的訓(xùn)練迭代次數(shù)后，采用MFOGM算法得到的訓(xùn)練誤差最小，MSGD算法次小，SGD算法的訓(xùn)練誤差最大。因此，在FashionMnist數(shù)據(jù)集上經(jīng)過相同的訓(xùn)練迭代次數(shù)后，采用MFOGM算法的卷積神經(jīng)網(wǎng)絡(luò)取得的整體性能最優(yōu)。

圖7 三種算法在FashionMnist數(shù)據(jù)集上準(zhǔn)確度對比曲線Fig.7 Accuracy comparison curves on FashionMnist dataset

圖8 三種算法在FashionMnist數(shù)據(jù)集上訓(xùn)練損失對比曲線Fig.8 Training loss comparison curves on FashionMnist dataset

圖9顯示出，在Cifar10數(shù)據(jù)集上進行200次的迭代訓(xùn)練后，采用三種算法得到的驗證集分類準(zhǔn)確率曲線圖有了顯著區(qū)別。MFOGM算法依然以最快的速度使卷積神經(jīng)網(wǎng)絡(luò)達到收斂，準(zhǔn)確率較高，優(yōu)勢顯著。采用MSGD算法得到的準(zhǔn)確率曲線呈現(xiàn)明顯上升過程，未達到收斂。SGD算法在驗證集分類準(zhǔn)確率上的效果遠(yuǎn)不如MSGD算法和MFOGM算法，未達到收斂。從圖10可以看出，經(jīng)過相同的迭代訓(xùn)練次數(shù)后，采用MFOGM算法取得的訓(xùn)練誤差最小，采用MSGD算法得到的訓(xùn)練誤差次小，采用SGD算法在訓(xùn)練損失誤差中取得的誤差值最大。由此可知，在Cifar10數(shù)據(jù)集上經(jīng)過相同的訓(xùn)練次數(shù)后，采用MFOGM算法的卷積神經(jīng)網(wǎng)絡(luò)取得的整體性能最優(yōu)。

圖9 三種算法在Cifar10數(shù)據(jù)集上準(zhǔn)確度對比曲線Fig.9 Accuracy comparison curves on Cifar10 dataset

圖10 三種算法在Cifar10數(shù)據(jù)集上損失對比曲線Fig.10 Training loss comparison curves on Cifar10 dataset

綜上所述，通過在三種不同復(fù)雜程度的數(shù)據(jù)集上采用相同的卷積神經(jīng)網(wǎng)絡(luò)和訓(xùn)練迭代次數(shù)，對MFOGM、MSGD、SGD三種算法進行對比，依據(jù)得到的驗證集準(zhǔn)確度曲線圖和訓(xùn)練誤差損失曲線圖可知，MFOGM算法可以使卷積神經(jīng)網(wǎng)絡(luò)快速達到收斂，且準(zhǔn)確率較高，收斂速度優(yōu)于MSGD算法和SGD算法，并且數(shù)據(jù)集越復(fù)雜，采用MFOGM算法的優(yōu)勢越明顯。

在實際應(yīng)用中，使卷積神經(jīng)網(wǎng)絡(luò)達到收斂時所花費的時間是驗證算法性能的重要指標(biāo)。表2、表3、表4給出了三種算法在三種數(shù)據(jù)集上取得的分類準(zhǔn)確度、所需迭代次數(shù)和時間消耗，其中，準(zhǔn)確度是指在驗證集上的準(zhǔn)確度。

表2 三種算法在Mnist數(shù)據(jù)集上時間消耗Table 2 Time consumption of three algorithms on Mnist dataset

表3 三種算法在FashionMnist數(shù)據(jù)集上時間消耗Table 3 Time consumption of three algorithms on FashionMnist dataset

表4 三種算法在Cifar10數(shù)據(jù)集上時間消耗Table 4 Time consumption of three algorithms on Cifar10 dataset

由表2、表3、表4可知，在使用同一卷積神經(jīng)網(wǎng)絡(luò)的情況下，三個算法在同一數(shù)據(jù)集上取得的準(zhǔn)確度無明顯差別。在Mnist數(shù)據(jù)集上，MFOGM算法使卷積神經(jīng)網(wǎng)絡(luò)達到收斂所需時間比MSGD算法大約少了85.25%，比SGD算法大約少了98.07%，在FashionMnist數(shù)據(jù)集上，使用MFOGM算法達到收斂所需時間比MSGD算法大約少了76.98%，比SGD算法大約少了97.65%，在Cifar10數(shù)據(jù)集上，使用MFOGM算法達到收斂所需時間比MSGD算法大約少了78.42%，比SGD算法大約少了97.53%。總之，MFOGM算法可以以較高的準(zhǔn)確度、較少的迭代次數(shù)、極少的訓(xùn)練時間完成卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，為訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)節(jié)省大量時間成本。

6 結(jié)束語

卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用越來越廣泛，性能越來越強，規(guī)模越來越大，層次越來越深，訓(xùn)練難度也越來越大。分?jǐn)?shù)階作為近幾年的研究熱點，已經(jīng)用到多個領(lǐng)域并取得了較好的實際應(yīng)用效果，但將分?jǐn)?shù)階梯度應(yīng)用到卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)文章較少，為此，本文提出了動量分?jǐn)?shù)階梯度下降算法。首先，通過測試函數(shù)驗證了所提算法的性能，并分析了不同分?jǐn)?shù)階階次和動量項系數(shù)對算法性能的影響；接著，將動量分?jǐn)?shù)階梯度下降算法應(yīng)用到卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中，完成卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，實驗結(jié)果表明，該算法可以使卷積神經(jīng)以較高的分類準(zhǔn)確率達到收斂，同時，相對比傳統(tǒng)的梯度下降算法和動量梯度下降算法，該算法可以極大地提高卷積神經(jīng)網(wǎng)絡(luò)的收斂速度，這為訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)節(jié)省了大量的時間成本，具有較強的實際應(yīng)用意義。在本文中，分?jǐn)?shù)階階次的取值為固定值，若將分?jǐn)?shù)階階次設(shè)置為動態(tài)自適應(yīng)調(diào)節(jié)，這對卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的影響是下一步值得探討的研究方向。

計算機工程與應(yīng)用2022年6期

計算機工程與應(yīng)用的其它文章: 歡迎訂閱2022年《計算機工程與應(yīng)用》; 異構(gòu)大數(shù)據(jù)環(huán)境中高效率知識融合方法的研究; 改進人工勢場法的移動機器人避障軌跡研究; 基于改進蟻群與動態(tài)窗口法的AGV動態(tài)路徑規(guī)劃; 多策略蟻群算法在機器人路徑規(guī)劃中的應(yīng)用; 基于深層連接注意力機制的田間雜草識別方法