999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于動量分?jǐn)?shù)階梯度的卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化方法

2022-03-22 03:34:30郭明霄王宏偉李昊哲楊仕旗
計算機工程與應(yīng)用 2022年6期

郭明霄,王宏偉,2,王 佳,李昊哲,楊仕旗

1.新疆大學(xué) 電氣工程學(xué)院,烏魯木齊 830047

2.大連理工大學(xué) 控制科學(xué)與工程學(xué)院,遼寧 大連 116024

3.大連醫(yī)科大學(xué) 基礎(chǔ)醫(yī)學(xué)院,遼寧 大連 116041

隨著人工智能科技的進步,作為人工智能的重要分支,深度學(xué)習(xí)越來越多地應(yīng)用在各行各業(yè)中,為人們的社會生產(chǎn)和生活提供了諸多便利。卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的核心組成之一,其早期的研究進展較為緩慢,1998年LeCun等人[1]提出了LeNet-5卷積神經(jīng)網(wǎng)絡(luò),并將梯度下降算法應(yīng)用到卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中,這奠定了使用梯度下降算法訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)。進入2010年以來,隨著計算機算力的提升,卷積神經(jīng)網(wǎng)絡(luò)進入飛速發(fā)展時期,相繼出現(xiàn)了多種類型的卷積神經(jīng)網(wǎng) 絡(luò) 模 型,主 要 有AlexNet[2]、VGGNet[3]、ResNet[4]、GoogLeNet[5]、FCN[6]、DenseNet[7]等。卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用范圍越來越廣,尤其在圖片分類和分割等方面取得的效果越來越好,但與此同時,網(wǎng)絡(luò)規(guī)模越來越大,復(fù)雜程度越來越高,這使得卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練面臨更加復(fù)雜的挑戰(zhàn)。

法國科學(xué)家Cauchy于1874年提出梯度下降法,該算法常用于求解無約束最優(yōu)化問題,由于算法以目標(biāo)函數(shù)的負(fù)梯度方向作為尋找最小值的下降方向,故稱為梯度下降法[8]。梯度下降算法常用來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),目前,有很多學(xué)者以梯度下降算法為基礎(chǔ)提出了多種改進型梯度下降算法。常用的改進型梯度下降算法主要有動量梯度下降法[9],該算法在一定程度上減緩了尋找極值過程中的震蕩幅度,加快了收斂速度。文獻[10]提出一種動態(tài)調(diào)整學(xué)習(xí)率的梯度下降算法,使用該算法訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),由于學(xué)習(xí)率減小較快,導(dǎo)致訓(xùn)練后期梯度更新趨向于零,因此會使訓(xùn)練過程提前結(jié)束。文獻[11]在文獻[10]所提算法的基礎(chǔ)上進行改進,為減緩學(xué)習(xí)率衰減速度,新算法使用前幾步梯度平方的指數(shù)加權(quán)平均來進行學(xué)習(xí)率調(diào)整。文獻[12]所提算法通過計算梯度的一階矩估計、二階矩估計并引入衰減系數(shù)來動態(tài)改變學(xué)習(xí)率和梯度下降方向,這使得該算法效率更高,收斂更快。

近幾年來,對分?jǐn)?shù)階微積分的研究引起了諸多學(xué)者的興趣,而分?jǐn)?shù)階微積分已成功應(yīng)用到多個領(lǐng)域,如系統(tǒng)辨識[13]、圖像處理[14-15]、建模[16]、控制[17-18]等。作為整數(shù)階微積分的推廣,分?jǐn)?shù)階微積分的階次可為分?jǐn)?shù),因而分?jǐn)?shù)階微積分為梯度下降算法開辟了新的研究方向。文獻[19]討論了使用分?jǐn)?shù)階微分梯度下降算法求解函數(shù)最小值時不能收斂到真實最小值的問題,而后提出了可收斂到真實最小值的改進算法,這對使用分?jǐn)?shù)階微分梯度下降算法解決求取函數(shù)最小值問題提供了較強的指導(dǎo)意義。文獻[20]指出,將傳統(tǒng)梯度下降算法中的整數(shù)階梯度改為分?jǐn)?shù)階梯度并不能保證算法收斂到真實極小值,并提出了一種更為簡潔的、便于實際應(yīng)用的、可以收斂到真實極值的分?jǐn)?shù)階梯度下降算法。文獻[21]提出了一種新的改進分?jǐn)?shù)階LMS算法(MFOLMS),該算法克服了準(zhǔn)確度和速度二者間的矛盾,既提高了參數(shù)估計的準(zhǔn)確度又加快了收斂速度。文獻[22]采用分?jǐn)?shù)階微分梯度下降算法對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,文章分析了訓(xùn)練過程的收斂性,但文中使用的神經(jīng)網(wǎng)絡(luò)模型為BP神經(jīng)網(wǎng)絡(luò)并非卷積神經(jīng)網(wǎng)絡(luò),后者在處理復(fù)雜識別分類任務(wù)時使用更為廣泛。文獻[23]首次將卷積神經(jīng)網(wǎng)絡(luò)與分?jǐn)?shù)階微分梯度下降算法相結(jié)合,證實了分?jǐn)?shù)階微分梯度下降算法在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的可行性,但文章在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)時僅使用了一個簡單的數(shù)據(jù)集,沒有在多個不同復(fù)雜程度的數(shù)據(jù)集上進行進一步的驗證,同時文章并沒有將分?jǐn)?shù)階微分梯度下降算法與整數(shù)階梯度下降算法在同一數(shù)據(jù)集上的效果進行對比。

為了進一步驗證分?jǐn)?shù)階梯度下降算法在卷積神經(jīng)網(wǎng)絡(luò)中的可行性,本文將傳統(tǒng)梯度下降算法中的動量思想與分?jǐn)?shù)階梯度下降算法相結(jié)合,提出動量分?jǐn)?shù)階梯度下降算法。實驗結(jié)果表明,該算法既保證了卷積神經(jīng)網(wǎng)絡(luò)的分類準(zhǔn)確度,同時又極大減少了數(shù)據(jù)迭代次數(shù)和訓(xùn)練時間。

1 基礎(chǔ)知識

在分?jǐn)?shù)階微積分學(xué)領(lǐng)域內(nèi)廣泛使用的分?jǐn)?shù)階微分定義有三個,分別為:RL(Riemann-Liouville)分?jǐn)?shù)階微分、GL(Grünwald-Letnikov)分?jǐn)?shù)階微分、Caputo分?jǐn)?shù)階微分,其數(shù)學(xué)表達式分別如下所示。

對于在區(qū)間[t0,t]上絕對可積函數(shù)f(t)的RL分?jǐn)?shù)階微分定義為:

式中,α為分?jǐn)?shù)階階次且n-1≤α<n,n=[α]為不小于α的最小整數(shù),Γ(·)為歐拉Gamma函數(shù),其定義為:

當(dāng)x為非負(fù)整數(shù)時可得:

對于在區(qū)間[t0,t]上n階連續(xù)可導(dǎo)函數(shù)f(t)的GL分?jǐn)?shù)階微分定義為:

對于在區(qū)間[t0,t]上n階連續(xù)可導(dǎo)函數(shù)f(t),若f(n)(t)在區(qū)間[t0,t]上絕對可積,則函數(shù)f(t)的Caputo分?jǐn)?shù)階微分定義為:

式中,α為分?jǐn)?shù)階階次且n-1≤α<n,n=[α]為整數(shù)。

RL分?jǐn)?shù)階微分和GL分?jǐn)?shù)階微分在實際使用中要已知信號和信號分?jǐn)?shù)階導(dǎo)數(shù)在初始時刻的取值,而Caputo分?jǐn)?shù)階微分則需已知信號和其整數(shù)階導(dǎo)數(shù)在初始時刻的取值,因而Caputo分?jǐn)?shù)階微分在實際應(yīng)用中使用更為廣泛[24]。

為方便實際應(yīng)用,對Caputo分?jǐn)?shù)階微分方程做無數(shù)次分部積分運算的求和形式為:

2 問題描述

在實際研究應(yīng)用中,卷積神經(jīng)網(wǎng)絡(luò)常被用來完成圖片分類任務(wù),定義卷積神經(jīng)網(wǎng)絡(luò)均方誤差損失函數(shù)如下:

式中,n表示訓(xùn)練集中每一個batch含有的圖片個數(shù),xi表示輸入到卷積神經(jīng)網(wǎng)絡(luò)中的第i張圖片,yi代表第i張輸入圖片所對應(yīng)的類別標(biāo)簽,y^i則是卷積神經(jīng)網(wǎng)絡(luò)計算后輸出的第i張圖片的類別標(biāo)簽,d為類別標(biāo)簽采用one-hot編碼時的編碼深度,w、b表示卷積神經(jīng)網(wǎng)絡(luò)中各層的鏈接權(quán)重值和神經(jīng)元偏置值。依據(jù)鏈?zhǔn)角髮?dǎo)法則求取誤差損失函數(shù)對應(yīng)于各個層的權(quán)重和偏置之間的梯度,按照給定學(xué)習(xí)率和參數(shù)更新策略對卷積神經(jīng)網(wǎng)絡(luò)各層間的權(quán)重和偏置進行更新。訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的目的是為了提高分類準(zhǔn)確率,減小損失函數(shù)值,但是隨著分類任務(wù)越來越復(fù)雜,分類精度要求越來越高,卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度也越來越高,其層數(shù)也越來越多,訓(xùn)練難度也相應(yīng)地越來越大,收斂速度越來越慢,這給整數(shù)階梯度下降算法提出了嚴(yán)峻挑戰(zhàn),而分?jǐn)?shù)階微分梯度下降算法的出現(xiàn)為解決此項挑戰(zhàn)提供了一個新的解決途徑。

3 算法推導(dǎo)

文獻[8]中的隨機梯度下降算法使用負(fù)梯度方向?qū)?quán)重和偏置進行迭代更新,簡稱為SGD算法,結(jié)合問本文題描述,將該算法應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò),則得卷積神經(jīng)網(wǎng)絡(luò)梯度更新數(shù)學(xué)表達式為:

一般,隨機梯度下降算法使用整數(shù)階梯度進行參數(shù)更新,為使用分?jǐn)?shù)階梯度下降算法,須先求取分?jǐn)?shù)階梯度,依據(jù)文獻[20]給出的關(guān)于函數(shù)的分?jǐn)?shù)階梯度求取方法,同時結(jié)合本文問題描述,由式(8)可得分?jǐn)?shù)階梯度下降算法參數(shù)更新公式為:

由式(15)可知,分?jǐn)?shù)階梯度為無窮數(shù)列相加,這導(dǎo)致該分?jǐn)?shù)階梯度算法無法實際應(yīng)用,為解決此項矛盾,對其展開并取展開式的主要作用項,得分?jǐn)?shù)階梯度參數(shù)更新數(shù)學(xué)表達式為:

為了在尋優(yōu)過程中始終保持正向梯度下降方向,同時避免參數(shù)更新公式出現(xiàn)奇異值,式(17)又可化為:

式中,δ值為極小的正數(shù)。

至此得出分?jǐn)?shù)階梯度更新公式,即FOGM算法。將式(18)應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò),則基于分?jǐn)?shù)階梯度的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)更新數(shù)學(xué)表達式為:

為提高分?jǐn)?shù)階梯度下降算法性能,可將動量思想與分?jǐn)?shù)階梯度下降算法相結(jié)合,為此需要構(gòu)建新的梯度下降方向,新的梯度下降方向由動量項和當(dāng)前分?jǐn)?shù)階梯度下降方向組成,其中動量項包含了過去時刻的分?jǐn)?shù)階梯度方向,由式(19)、(20)可得卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重分?jǐn)?shù)階梯度和偏置分?jǐn)?shù)階梯度,則結(jié)合動量思想后,卷積神經(jīng)網(wǎng)絡(luò)參數(shù)更新使用的梯度下降方向為:

v,u分別表示權(quán)重動量項和偏置動量項,β為動量項系數(shù)且0<β<1,β值決定了過去時刻的梯度更新方向?qū)Ξ?dāng)前時刻參數(shù)更新方向的影響程度。

式(21)、(22)為新的分?jǐn)?shù)階梯度下降方向構(gòu)建方法,該方法包含當(dāng)前時刻的分?jǐn)?shù)階梯度信息和動量項,即過去時刻的梯度信息,因此,將該方法應(yīng)用于所求參數(shù)更新公式,可得動量分?jǐn)?shù)階梯度下降算法,簡稱為MFOGM算法。將過去時刻的梯度和當(dāng)前時刻的梯度都用于實現(xiàn)系統(tǒng)尋優(yōu)過程中的參數(shù)更新,這有助于減小尋優(yōu)過程震蕩幅度,加快收斂速度,基于動量分?jǐn)?shù)階梯度下降算法的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)更新數(shù)學(xué)公式描述如下:

v(n+1)和u(n+1)包含了過去時刻的分?jǐn)?shù)階梯度信息和當(dāng)前時刻的分?jǐn)?shù)階梯度信息,其詳細(xì)計算過程分別見公式(21)、(22)。

分?jǐn)?shù)階梯度下降算法的階次可為分?jǐn)?shù),參數(shù)設(shè)置靈活,收斂速度較快,動量項可以減緩尋優(yōu)過程中的震蕩,提高算法收斂速度,動量分?jǐn)?shù)階梯度下降算法結(jié)合這兩項優(yōu)勢,既可以保證準(zhǔn)確性又可以提高收斂速度。

4 算法測試

為了驗證所提MFOGM算法性能,考慮測試函數(shù)f(x,y)=x2+y2+1。該函數(shù)最小值為f(0,0)=1,初始化坐標(biāo)(x0,y0)=(0,0),(x1,y1)=(5.0,-3.0),動量項v(0)=0,學(xué)習(xí)率ρ=0.01。

在測試中,令β=0.9,α=(0.4,0.6,…,1.6),觀察不同分?jǐn)?shù)階階次對算法收斂性的影響,測試結(jié)果見圖1。令α=1.2,β=(0.1,0.2,…,0.9),觀察不同動量項系數(shù)對算法收斂性的影響,測試結(jié)果見圖2。

圖1 不同分?jǐn)?shù)階階次下的收斂情況Fig.1 Convergenceunderdifferentfractionalorders

圖2 不同動量項系數(shù)下的收斂情況Fig.2 Convergenceunderdifferentmomentumcoefficients

由圖1可知,當(dāng)MFOGM算法中學(xué)習(xí)率ρ和動量項系數(shù)β固定不變時,分?jǐn)?shù)階階次α取值在一定的范圍內(nèi)由小到大變化,函數(shù)f(x,y)收斂到真實最小值的速度由慢到快,若分?jǐn)?shù)階階次α取值過大,則會導(dǎo)致函數(shù)f(x,y)的值在下降過程中出現(xiàn)較大的震蕩甚至無法收斂到真實最小值,因此使用MFOGM算法時應(yīng)注意分?jǐn)?shù)階階次α的取值。

由圖2可知,當(dāng)MFOGM算法中學(xué)習(xí)率ρ和分?jǐn)?shù)階階次α固定不變時,隨著動量項系數(shù)β值的增大,函數(shù)f(x,y)收斂于真實最小值的速度也隨之加快,當(dāng)動量項系數(shù)取值過大時會使收斂曲線產(chǎn)生震蕩,但依然會使函數(shù)f(x,y)收斂于真實最小值。較大的動量項系數(shù)有助于在梯度下降過程中逃脫局部最小值陷阱,因此采用MFOGM算法在高維復(fù)雜空間尋找最小值時建議使用較大的動量項系數(shù)。

綜上所述,在一定的取值范圍內(nèi),函數(shù)值曲線隨著分?jǐn)?shù)階階次α的增加收斂速度不斷加快,隨著動量項系數(shù)β的增加收斂速度不斷加快,動量項系數(shù)和分?jǐn)?shù)階階次二者分別與收斂速度成正相關(guān)性。因此,使用MFOGM算法在函數(shù)尋找最小值時,通過設(shè)置適當(dāng)?shù)膮?shù)值可以保證尋找到真實最小值,從而達到收斂效果。

5 實驗設(shè)計

5.1 開發(fā)環(huán)境介紹

本實驗所用操作系統(tǒng):Win10家庭中文版,處理器:英特爾酷睿I5-8265U,顯卡:英偉達MX250,Python版本:Python3.7.764bit,開發(fā)環(huán)境:tensorflow2.1.0。

5.2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)描述

在實驗中,使用改進后的LeNet-5卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)模型見圖3,該網(wǎng)絡(luò)輸入圖片大小為32×32像素,共包含兩個卷積模塊和一個全連接模塊。第一個卷積模塊包含有卷積層、BatchNormalization、ReLU激活函數(shù)、MaxPool層,輸入圖片經(jīng)過第一個卷積模塊后生成6個分辨率為14×14的featuremap。第二個卷積模塊同樣包含有卷積層、BatchNormalization、ReLU激活函數(shù)、MaxPool層,第一個卷積模塊輸出的featuremap經(jīng)過第二個卷積模塊后生成16個分辨率為5×5的featuremap。網(wǎng)絡(luò)的第三個模塊為全連接模塊,該模塊由兩個全連接層、一個輸出層、兩個ReLU激活函數(shù)構(gòu)成,每層神經(jīng)元的個數(shù)依次為120,84,10,該模塊的輸入來自第二個卷積模塊的輸出,最后的輸出層沒有使用ReLU激活函數(shù)而是直接輸出。

圖3 卷積神經(jīng)網(wǎng)絡(luò)模型Fig.3 Convolutional neural network model

5.3 實驗設(shè)計

為了驗證MFOGM算法的性能,使用隨機梯度下降算法(SGD)、動量隨機梯度下降算法(MSGD)、動量分?jǐn)?shù)階梯度下降算法(MFOGM)在三個數(shù)據(jù)集上進行圖片分類性能比較。這三個數(shù)據(jù)集分別是Mnist數(shù)據(jù)集、FashionMnist數(shù)據(jù)集、Cifar10數(shù)據(jù)集,數(shù)據(jù)集的復(fù)雜程度逐漸增加。訓(xùn)練時將數(shù)據(jù)集劃分為訓(xùn)練集和驗證集,在訓(xùn)練集上對卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,同時記錄訓(xùn)練誤差損失值,在驗證集上驗證并記錄卷積神經(jīng)網(wǎng)絡(luò)的分類準(zhǔn)確率。另外,由于Mnist數(shù)據(jù)集和FashionMnist數(shù)據(jù)集中圖片大小為28×28像素,因此使用這兩個數(shù)據(jù)集進行訓(xùn)練時,需要將LeNet-5卷積神經(jīng)網(wǎng)絡(luò)中,第一個卷積層的Padding設(shè)置為same,其他一些關(guān)于算法參數(shù)的初始化見表1。

表1 參數(shù)初始化Table 1 Parameter initialization

Mnist數(shù)據(jù)集集合了0~9這10類手寫數(shù)字黑白圖片,共有70 000張,大小為28×28像素,其中60 000張用作訓(xùn)練集,10 000張用作驗證集。FashionMnist數(shù)據(jù)集集合了10種人類服裝的黑白圖片,分別為T恤、褲子、套頭衫、連衣裙、外套、涼鞋、襯衫、運動鞋、包、靴子,共有70 000張,大小為28×28像素,其中60 000張用作訓(xùn)練集,10 000張用作驗證集。Cifar10數(shù)據(jù)集集合了10種物體的彩色圖片,分別是飛機、汽車、小鳥、貓、鹿、狗、蛙、馬、船、卡車,共有60 000張,大小為32×32像素,其中50 000張用作訓(xùn)練集,10 000張用作驗證集,三個數(shù)據(jù)集中的部分圖片見圖4。

圖4 不同數(shù)據(jù)集展示Fig.4 Display of different datasets

5.4 實驗結(jié)果分析

由圖5可得,在Mnist數(shù)據(jù)集上進行200次迭代訓(xùn)練后,MFOGM算法能夠以最少的迭代次數(shù)使卷積神經(jīng)網(wǎng)絡(luò)達到收斂,且準(zhǔn)確率較高。MSGD算法在訓(xùn)練初期使準(zhǔn)確率上升較快,后期上升較為平緩,在經(jīng)過200次迭代訓(xùn)練后未達到收斂,在快速性上落后于MFOGM算法。SGD算法的快速性與MSGD算法、MFOGM算法都有著一定的差距,未達到收斂。從圖6可以看到,經(jīng)過相同的訓(xùn)練次數(shù)后,采用MFOGM算法取得的訓(xùn)練誤差最小,其次為MSGD算法,采用SGD算法得到的誤差與前兩者相比有一定的差距。由此可知,在Mnist數(shù)據(jù)集上經(jīng)過相同的訓(xùn)練迭代次數(shù)后,使用MFOGM算法訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)性能優(yōu)于使用SGD算法或MSGD算法訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)。

圖5 三種算法在Mnist數(shù)據(jù)集上準(zhǔn)確度對比曲線Fig.5 Accuracy comparison curves on Mnist dataset

圖6 三種算法在Mnist數(shù)據(jù)集上訓(xùn)練損失對比曲線Fig.6 Training loss comparison curves on Mnist dataset

由圖7可知,在FashionMnist數(shù)據(jù)集上進行200次迭代訓(xùn)練后,三種梯度下降算法在驗證集分類準(zhǔn)確率上有明顯區(qū)別。MFOGM算法以最快的速度使卷積神經(jīng)網(wǎng)絡(luò)達到收斂,且準(zhǔn)確率較高。采用MSGD算法得到的準(zhǔn)確率曲線呈現(xiàn)出平緩上升過程,未達到收斂。采用SGD算法得到準(zhǔn)確率曲線與前兩者有明顯差距,未達到收斂。從圖8可以看出,經(jīng)過相同的訓(xùn)練迭代次數(shù)后,采用MFOGM算法得到的訓(xùn)練誤差最小,MSGD算法次小,SGD算法的訓(xùn)練誤差最大。因此,在FashionMnist數(shù)據(jù)集上經(jīng)過相同的訓(xùn)練迭代次數(shù)后,采用MFOGM算法的卷積神經(jīng)網(wǎng)絡(luò)取得的整體性能最優(yōu)。

圖7 三種算法在FashionMnist數(shù)據(jù)集上準(zhǔn)確度對比曲線Fig.7 Accuracy comparison curves on FashionMnist dataset

圖8 三種算法在FashionMnist數(shù)據(jù)集上訓(xùn)練損失對比曲線Fig.8 Training loss comparison curves on FashionMnist dataset

圖9顯示出,在Cifar10數(shù)據(jù)集上進行200次的迭代訓(xùn)練后,采用三種算法得到的驗證集分類準(zhǔn)確率曲線圖有了顯著區(qū)別。MFOGM算法依然以最快的速度使卷積神經(jīng)網(wǎng)絡(luò)達到收斂,準(zhǔn)確率較高,優(yōu)勢顯著。采用MSGD算法得到的準(zhǔn)確率曲線呈現(xiàn)明顯上升過程,未達到收斂。SGD算法在驗證集分類準(zhǔn)確率上的效果遠(yuǎn)不如MSGD算法和MFOGM算法,未達到收斂。從圖10可以看出,經(jīng)過相同的迭代訓(xùn)練次數(shù)后,采用MFOGM算法取得的訓(xùn)練誤差最小,采用MSGD算法得到的訓(xùn)練誤差次小,采用SGD算法在訓(xùn)練損失誤差中取得的誤差值最大。由此可知,在Cifar10數(shù)據(jù)集上經(jīng)過相同的訓(xùn)練次數(shù)后,采用MFOGM算法的卷積神經(jīng)網(wǎng)絡(luò)取得的整體性能最優(yōu)。

圖9 三種算法在Cifar10數(shù)據(jù)集上準(zhǔn)確度對比曲線Fig.9 Accuracy comparison curves on Cifar10 dataset

圖10 三種算法在Cifar10數(shù)據(jù)集上損失對比曲線Fig.10 Training loss comparison curves on Cifar10 dataset

綜上所述,通過在三種不同復(fù)雜程度的數(shù)據(jù)集上采用相同的卷積神經(jīng)網(wǎng)絡(luò)和訓(xùn)練迭代次數(shù),對MFOGM、MSGD、SGD三種算法進行對比,依據(jù)得到的驗證集準(zhǔn)確度曲線圖和訓(xùn)練誤差損失曲線圖可知,MFOGM算法可以使卷積神經(jīng)網(wǎng)絡(luò)快速達到收斂,且準(zhǔn)確率較高,收斂速度優(yōu)于MSGD算法和SGD算法,并且數(shù)據(jù)集越復(fù)雜,采用MFOGM算法的優(yōu)勢越明顯。

在實際應(yīng)用中,使卷積神經(jīng)網(wǎng)絡(luò)達到收斂時所花費的時間是驗證算法性能的重要指標(biāo)。表2、表3、表4給出了三種算法在三種數(shù)據(jù)集上取得的分類準(zhǔn)確度、所需迭代次數(shù)和時間消耗,其中,準(zhǔn)確度是指在驗證集上的準(zhǔn)確度。

表2 三種算法在Mnist數(shù)據(jù)集上時間消耗Table 2 Time consumption of three algorithms on Mnist dataset

表3 三種算法在FashionMnist數(shù)據(jù)集上時間消耗Table 3 Time consumption of three algorithms on FashionMnist dataset

表4 三種算法在Cifar10數(shù)據(jù)集上時間消耗Table 4 Time consumption of three algorithms on Cifar10 dataset

由表2、表3、表4可知,在使用同一卷積神經(jīng)網(wǎng)絡(luò)的情況下,三個算法在同一數(shù)據(jù)集上取得的準(zhǔn)確度無明顯差別。在Mnist數(shù)據(jù)集上,MFOGM算法使卷積神經(jīng)網(wǎng)絡(luò)達到收斂所需時間比MSGD算法大約少了85.25%,比SGD算法大約少了98.07%,在FashionMnist數(shù)據(jù)集上,使用MFOGM算法達到收斂所需時間比MSGD算法大約少了76.98%,比SGD算法大約少了97.65%,在Cifar10數(shù)據(jù)集上,使用MFOGM算法達到收斂所需時間比MSGD算法大約少了78.42%,比SGD算法大約少了97.53%。總之,MFOGM算法可以以較高的準(zhǔn)確度、較少的迭代次數(shù)、極少的訓(xùn)練時間完成卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,為訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)節(jié)省大量時間成本。

6 結(jié)束語

卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用越來越廣泛,性能越來越強,規(guī)模越來越大,層次越來越深,訓(xùn)練難度也越來越大。分?jǐn)?shù)階作為近幾年的研究熱點,已經(jīng)用到多個領(lǐng)域并取得了較好的實際應(yīng)用效果,但將分?jǐn)?shù)階梯度應(yīng)用到卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)文章較少,為此,本文提出了動量分?jǐn)?shù)階梯度下降算法。首先,通過測試函數(shù)驗證了所提算法的性能,并分析了不同分?jǐn)?shù)階階次和動量項系數(shù)對算法性能的影響;接著,將動量分?jǐn)?shù)階梯度下降算法應(yīng)用到卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,完成卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,實驗結(jié)果表明,該算法可以使卷積神經(jīng)以較高的分類準(zhǔn)確率達到收斂,同時,相對比傳統(tǒng)的梯度下降算法和動量梯度下降算法,該算法可以極大地提高卷積神經(jīng)網(wǎng)絡(luò)的收斂速度,這為訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)節(jié)省了大量的時間成本,具有較強的實際應(yīng)用意義。在本文中,分?jǐn)?shù)階階次的取值為固定值,若將分?jǐn)?shù)階階次設(shè)置為動態(tài)自適應(yīng)調(diào)節(jié),這對卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的影響是下一步值得探討的研究方向。

主站蜘蛛池模板: 婷婷综合色| 国产精品林美惠子在线观看| 亚洲天堂伊人| 毛片三级在线观看| 女人一级毛片| 麻豆精品视频在线原创| 青草精品视频| 久久精品中文字幕免费| 黄色一级视频欧美| 亚洲av成人无码网站在线观看| 色天堂无毒不卡| 香蕉蕉亚亚洲aav综合| 五月天婷婷网亚洲综合在线| 国产9191精品免费观看| 亚洲日本精品一区二区| 男女性午夜福利网站| 亚洲欧洲日韩国产综合在线二区| 亚洲清纯自偷自拍另类专区| 国产男女XX00免费观看| 久久夜色撩人精品国产| 亚洲制服中文字幕一区二区| 这里只有精品在线播放| 91在线国内在线播放老师| 国产激情第一页| 免费一级毛片在线播放傲雪网| 日本中文字幕久久网站| 日韩久草视频| 99久久精彩视频| 欧美成人精品在线| 亚洲性视频网站| 国产欧美日韩资源在线观看| 国产va在线观看| 中文无码日韩精品| 国产素人在线| 天堂亚洲网| 欧美成人午夜视频免看| 精品少妇人妻av无码久久| 欧美中文一区| 国产熟女一级毛片| 91高清在线视频| 久久人人妻人人爽人人卡片av| 精品精品国产高清A毛片| 精品色综合| 日本在线视频免费| a毛片免费在线观看| 熟妇人妻无乱码中文字幕真矢织江 | 国产AV无码专区亚洲精品网站| 国产精品自拍露脸视频 | 成人午夜网址| 在线另类稀缺国产呦| 欧美激情视频二区| 99精品热视频这里只有精品7| 妇女自拍偷自拍亚洲精品| 免费可以看的无遮挡av无码| 久久综合九九亚洲一区| 欧美第一页在线| 99久久国产自偷自偷免费一区| 欧美日韩亚洲综合在线观看| 亚洲精品爱草草视频在线| 亚洲高清国产拍精品26u| 国产精品自拍合集| 无码专区第一页| 免费高清毛片| 国产在线高清一级毛片| 亚洲无线一二三四区男男| 亚洲αv毛片| 成人国产一区二区三区| 久久午夜影院| 国产精品99在线观看| 久久国产精品电影| 中文字幕资源站| 99久久性生片| 亚洲中文字幕av无码区| 青青草原国产av福利网站| 伊人网址在线| 欧美日韩国产在线人| 国产对白刺激真实精品91| 国产麻豆永久视频| 久操线在视频在线观看| 91原创视频在线| 五月天丁香婷婷综合久久| 国产专区综合另类日韩一区|