999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于AdaGrad自適應(yīng)策略的對(duì)偶平均方法*

2022-11-05 10:52:04韋洪旭
艦船電子工程 2022年9期
關(guān)鍵詞:優(yōu)化實(shí)驗(yàn)方法

張 旭 韋洪旭

(中國(guó)人民解放軍陸軍炮兵防空兵學(xué)院信息工程系 合肥 230031)

1 引言

無(wú)論是深度學(xué)習(xí)還是機(jī)器學(xué)習(xí)中其他方法,針對(duì)分類或是回歸問題首先都要建立模型隨后進(jìn)行優(yōu)化求解,求解深度學(xué)習(xí)網(wǎng)絡(luò)模型參數(shù)可以看作是一個(gè)無(wú)約束的優(yōu)化問題,形式如下:

其中f(x)稱為目標(biāo)函數(shù)或能量函數(shù),且f(x)為凸函數(shù)。

梯度下降法是作為求解上述優(yōu)化問題的最經(jīng)典一階梯度迭代優(yōu)化方法,每一步都沿著當(dāng)前梯度方向即損失減小最快的方向迭代,從而不斷降低目標(biāo)函數(shù)的函數(shù)值,但是傳統(tǒng)梯度下降法在每一步迭代求損失函數(shù)的梯度時(shí)都需要使用整個(gè)樣本集,得到較高的準(zhǔn)確性的同時(shí)也伴隨著巨大的計(jì)算開支。因而傳統(tǒng)的梯度下降法不適用于大規(guī)模的機(jī)器學(xué)習(xí)問題。這時(shí),人們往往使用隨機(jī)梯度下降方法(SGD)[1]來代替?zhèn)鹘y(tǒng)的梯度下降法。SGD利用大規(guī)模的機(jī)器學(xué)習(xí)問題數(shù)據(jù)滿足獨(dú)立同分布假設(shè)的特點(diǎn),在每次迭代中隨機(jī)抽取1個(gè)或者部分樣本求梯度,以抽取樣本的梯度作為整個(gè)數(shù)據(jù)集梯度的無(wú)偏估計(jì),大大降低了計(jì)算的復(fù)雜度[2]。但是,SGD在每次迭代中只使用當(dāng)前梯度信息,且由于樣本的隨機(jī)性,收斂過程中存在明顯的震蕩。2009年,Nesterov在文獻(xiàn)[3]中指出SGD的固有缺陷,即收斂過程中新的梯度信息獲得不斷衰減的步長(zhǎng)致使后期收斂緩慢的問題,由此提出了對(duì)偶平均方法(DA)。DA克服梯度下降法由于引入衰減步長(zhǎng)而導(dǎo)致的固有弊端,具有步長(zhǎng)策略靈活的特點(diǎn),同時(shí),由于每次迭代都利用過往梯度的信息,目標(biāo)函數(shù)值在迭代過程中不會(huì)出現(xiàn)劇烈震蕩,算法具有較好的收斂穩(wěn)定性[4]。此后,學(xué)者們開始對(duì)DA方法展開研究。Xiao在文獻(xiàn)[5]中還將DA推廣到解決正則化學(xué)習(xí)問題中去,特別在L1正則化項(xiàng)的情況下,DA較SGD能夠更好地保證問題解的稀疏性。Chen等[6]提出最優(yōu)正則化對(duì)偶平均方法(Optimal RDA,ORDA),在DA每步迭代中添加一步子優(yōu)化問題求解,對(duì)一般凸、強(qiáng)凸及光滑問題,均得到O(1/)的最優(yōu)個(gè)體收斂速率。Nesterov等[7]在DA的基礎(chǔ)上添加線性插值策略,也得到一般凸問題O(1/)的最優(yōu)個(gè)體收斂速率。曲軍誼等[4]進(jìn)一步證明了對(duì)偶平均方法具有與梯度下降法相同的最優(yōu)個(gè)體收斂速率O(lnt/)。可見,無(wú)論在算法收斂穩(wěn)定性還是收斂速率上,DA方法都具有良好表現(xiàn),而對(duì)其的改進(jìn)仍留有空間。

在深度學(xué)習(xí)中由于優(yōu)化問題維度較高,任何單一的人為指定步長(zhǎng)都不可能同時(shí)滿足各個(gè)維度的不同要求,因此各個(gè)維度需要指定各不相同的步長(zhǎng),因此必須進(jìn)行昂貴的超參數(shù)搜索[8],由此對(duì)深度學(xué)習(xí)自適應(yīng)方法的研究成為當(dāng)前的主流方向之一,形成了 AdaGrad[9]、Adadelta[10]、RMSProp[11]、Adam[12]等一系列自適應(yīng)優(yōu)化算法。本文旨在將AdaGrad自適應(yīng)方法與DA方法相結(jié)合,保留DA方法優(yōu)勢(shì)的同時(shí),應(yīng)用自適應(yīng)矩陣調(diào)整步長(zhǎng),使其也能夠適應(yīng)當(dāng)前深度學(xué)習(xí)的發(fā)展趨勢(shì),形成一種自適應(yīng)的對(duì)偶平均方法(AdaDA)。

2 優(yōu)化算法簡(jiǎn)要介紹

本節(jié)主要對(duì)SGD、DA以及AdaGrad算法進(jìn)行必要的介紹,說明它們?cè)谇蠼馐剑?)問題的主要差異。我們首先對(duì)符號(hào)進(jìn)行明確,k表示算法的迭代步驟,gk表示凸函數(shù)f(x)在xk處的梯度?f(xk)或凸函數(shù)f(x)在xk處的次梯度,即gk∈?f(xk)。

2.1 隨機(jī)梯度下降法

SGD的迭代過程如下:

其中γk為步長(zhǎng)或?qū)W習(xí)率。一般時(shí),達(dá)到收斂。

2.2 對(duì)偶平均方法

DA的迭代過程如下:

其中λk為對(duì)歷史梯度的加權(quán),βk+1為步長(zhǎng),ψ(x)為近端函數(shù)。在λk和βk+1的選擇上,DA具有靈活的步長(zhǎng)策略。基本型的DA方法,即,為了方便與式(2)比較,其可以寫為

2.3 AdaGrad算法

過去的許多優(yōu)化算法往往在步長(zhǎng)或者學(xué)習(xí)率上采用的都是常數(shù),對(duì)梯度的每一維都進(jìn)行相同的步長(zhǎng)更新。但事實(shí)上,樣本在不同特征(梯度的不同維度)上的變化速度往往是不相同的,有些維度上梯度信息更新的過快,有的維度上梯度信息更新的過慢,自適應(yīng)方法的主要思想就是結(jié)合歷史梯度信息在不同維度上的變化速度給予不同的步長(zhǎng)或權(quán)重,對(duì)變化快的給予較小的權(quán)重限制更新速度,對(duì)變化慢的給予較大的權(quán)重加快更新速度。

AdaGrad第一次使用對(duì)角矩陣來對(duì)梯度的不同維度分配不同的步長(zhǎng),其他許多自適應(yīng)方法的研究都是在AdaGrad的基礎(chǔ)之上。其迭代過程如下:

3 AdaDA算法分析

3.1 步長(zhǎng)策略

3.2 自適應(yīng)矩陣的引入分析

3.3 AdaDA

4 實(shí)驗(yàn)

本節(jié)通過凸優(yōu)化實(shí)驗(yàn)來檢驗(yàn)AdaDA算法的可行性與收斂效果。

4.1 實(shí)驗(yàn)?zāi)P秃蛿?shù)據(jù)集

凸優(yōu)化實(shí)驗(yàn)中的問題模型,為支持向量機(jī)中常見的hinge損失,所采用的6個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集,分別為astro,CCAT,covtype ,ijcnn1,rcv1,a9a均來源于LIBSVM網(wǎng)站,詳細(xì)數(shù)據(jù)見表1。

表1 標(biāo)準(zhǔn)數(shù)據(jù)集

4.2 比較算法和超參數(shù)設(shè)置

實(shí)驗(yàn)中選取三種目前使用較多且效果較好的算法:SGD算法、AdaGrad算法、Adam算法以及基本型的DA方法與本文的AdaDA算法進(jìn)行對(duì)比。DA算法采用文獻(xiàn)[2]中的基本型,其他算法步長(zhǎng)及參數(shù)設(shè)置分別為SGD算法使用,AdaGrad算法使用,ε=1e-8,Adam算法使用,ε=1e-8,β1=0.9,β2=0.99,AdaDA算法使用。對(duì)于共同超參數(shù)γ,我們采取了從{1,0.1,0.01,0.001,0.0001}中線性搜索的方式,并取其中最好的一次實(shí)驗(yàn)結(jié)果,作為該算法的最終輸出。為了降低隨機(jī)因素產(chǎn)生的影響,各算法在每個(gè)數(shù)據(jù)集上均運(yùn)行5次,并取平均值作為最后的輸出。

4.3 實(shí)驗(yàn)效果及結(jié)論

圖1(a)到圖1(f)為六種算法在六種標(biāo)準(zhǔn)數(shù)據(jù)集下的收斂速率對(duì)比圖,橫坐標(biāo)表示迭代步數(shù),縱坐標(biāo)為當(dāng)前目標(biāo)函數(shù)值與最優(yōu)目標(biāo)函數(shù)值的差,綠色、黃色、黑色、藍(lán)色、紅色曲線分別代表Adam、DA、AdaGrad、SGD、AdaDA 算法。圖中可見在迭代10000步后,6種算法在6個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上都達(dá)到了10-4次方的精度,且具有相同的收斂趨勢(shì),AdaDA收斂速度相對(duì)較快,而且精度相對(duì)較高。

圖1 六種標(biāo)準(zhǔn)數(shù)據(jù)集

5 結(jié)語(yǔ)

本文提出一種名為AdaDA的自適應(yīng)對(duì)偶平均方法,通過一般凸函數(shù)分類優(yōu)化實(shí)驗(yàn)驗(yàn)證了該方法的可行性,達(dá)到了預(yù)期的實(shí)驗(yàn)效果,但尚缺乏理論分析。后續(xù),我們將繼續(xù)對(duì)AdaDA算法的平均收斂速率及個(gè)體收斂速率進(jìn)行理論研究。

猜你喜歡
優(yōu)化實(shí)驗(yàn)方法
記一次有趣的實(shí)驗(yàn)
超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产亚洲成AⅤ人片在线观看| 精品久久久久久中文字幕女 | 国产精品无码AⅤ在线观看播放| 91福利免费| 久久午夜夜伦鲁鲁片无码免费| 精品福利视频网| 黄网站欧美内射| 玖玖精品在线| 在线观看无码av五月花| 免费无码在线观看| 日韩欧美中文字幕在线韩免费| 亚洲日韩第九十九页| 久久综合丝袜长腿丝袜| 亚洲男人在线| 精品少妇人妻无码久久| 国产又爽又黄无遮挡免费观看| 999国产精品永久免费视频精品久久 | 国产主播喷水| 高清久久精品亚洲日韩Av| 久久成人18免费| 日韩123欧美字幕| 欧美日韩精品一区二区视频| 亚洲无码A视频在线| 波多野结衣一区二区三区AV| 免费女人18毛片a级毛片视频| 亚洲无码视频一区二区三区| 国产偷国产偷在线高清| 高清大学生毛片一级| 亚洲综合第一页| 欧美区一区二区三| 欧美性猛交一区二区三区| 国产无码制服丝袜| 亚洲免费三区| 91香蕉视频下载网站| 欧美激情综合| 国产欧美视频在线观看| 一本大道在线一本久道| 在线毛片网站| 91精品国产丝袜| 亚洲国产中文综合专区在| 国产中文在线亚洲精品官网| 视频一区视频二区日韩专区| 成人免费视频一区二区三区| 亚洲天堂日韩在线| 亚洲电影天堂在线国语对白| 欧美性久久久久| 在线播放国产99re| 91高清在线视频| 日韩黄色大片免费看| 尤物成AV人片在线观看| 伊人大杳蕉中文无码| 亚洲国产成熟视频在线多多| 国产精品分类视频分类一区| a级毛片网| 亚洲日本精品一区二区| 国产精品视频a| 欧美日韩在线观看一区二区三区| 啦啦啦网站在线观看a毛片| 人妻精品久久久无码区色视| 国产精品久久久久久久久久98| 国产精品网曝门免费视频| 中文纯内无码H| 国产色爱av资源综合区| 国内精品久久久久鸭| 一级毛片在线播放| 女高中生自慰污污网站| 亚洲一本大道在线| 国产精品网拍在线| 九九视频在线免费观看| 无码中文字幕精品推荐| 欧美v在线| 爱色欧美亚洲综合图区| 国产成人亚洲无码淙合青草| 国产理论最新国产精品视频| 欧美亚洲国产视频| 97人妻精品专区久久久久| 欧美不卡二区| 2019年国产精品自拍不卡| 茄子视频毛片免费观看| 亚洲娇小与黑人巨大交| www.日韩三级| 亚洲人成网站在线播放2019|