999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Swish激活函數(shù)在中小規(guī)模數(shù)據(jù)集上的性能表現(xiàn)

2018-01-19 21:57:00米碩田豐收孫瑞彬葛敏趙汝程
科技創(chuàng)新與應(yīng)用 2018年1期
關(guān)鍵詞:深度學(xué)習(xí)

米碩+田豐收+孫瑞彬+葛敏+趙汝程

摘 要:Swish激活函數(shù)是一種新的激活函數(shù),其形式為:f(x)=x?鄢sigmod(x),Swish-?茁激活函數(shù)的形式則為f(x)=x?鄢sigmod(b?鄢x),其擁有不飽和,光滑且非單調(diào)性的特征,而測試表明Swish以及Swish-?茁激活函數(shù)擁有極佳的性能,尤其是與局部響應(yīng)歸一化配合,以及較深的深度神經(jīng)網(wǎng)絡(luò)上,表現(xiàn)出了對(duì)目前大多數(shù)激活函數(shù)的性能優(yōu)勢(shì)。

關(guān)鍵詞:Swish激活函數(shù);深度學(xué)習(xí);神經(jīng)網(wǎng)絡(luò)

中圖分類號(hào):O174 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2018)01-0004-02

Abstract: The Swish activation function is a new type of activation function, which takes the form of , and the activation function takes the form of , which has the characteristics of being unsaturated, smooth and non-monotonic. The test results suggest that the Swish and the activation function have excellent performance, especially with the local response normalization, as well as deeper depth neural networks, showing performance advantages over most current activation functio

激活函數(shù)常在神經(jīng)網(wǎng)絡(luò)中用于添加非線性因素,可以將激活函數(shù)定義為一個(gè)幾乎處處可微的函數(shù):

(1)

第一種情況

第二種情況

激活函數(shù)存在一些問題,即飽和問題,當(dāng)激活函數(shù)滿足第一種情況時(shí),稱之為右飽和,而當(dāng)激活函數(shù)滿足第二種情況時(shí),則稱之為左飽和,如果幾乎函數(shù)在非極限狀態(tài)下,而是存在一個(gè)常數(shù)C可以證明,在x大于或小于該常數(shù)C時(shí),h(x)的一次導(dǎo)數(shù)存在恒等于零的情況時(shí),則稱h(x)為右硬飽和函數(shù)或左硬飽和函數(shù)。否則稱其為軟飽和函數(shù)。因?yàn)榉聪騻鞑ニ惴ǖ挠?jì)算方式,可證明飽和激活函數(shù)會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)的性能大幅度下降.從而產(chǎn)生梯度消失問題,如常見的sigmod函數(shù)亦或是tanh函數(shù)。

而現(xiàn)在深度神經(jīng)網(wǎng)絡(luò)中常用的激活函數(shù)為ReLU激活函數(shù),其存在有上界無下界且光滑的特點(diǎn),并可證ReLU函數(shù)為大量logic函數(shù)的近似解。但是隨著神經(jīng)網(wǎng)絡(luò)的加深,ReLU在不同數(shù)據(jù)集上則表現(xiàn)出了差于多類變種的現(xiàn)象。而新型的激活函數(shù)Swish則在幾乎所有的數(shù)據(jù)集與深度神經(jīng)網(wǎng)絡(luò)上表現(xiàn)出了出色的性能提升,尤其是在局部響應(yīng)歸一化以及較深層次的神經(jīng)網(wǎng)絡(luò)上表現(xiàn)出更好的性能。

swich是谷歌在17年10月16號(hào)的論文中提出的新型自門控激活函數(shù),其靈感來自于lstm等神經(jīng)網(wǎng)絡(luò)中,利用sigmod函數(shù)進(jìn)行門控。其形式為:f(x)=x?鄢sigmod(x),以及其swish-?茁的f(x)=x?鄢sigmod(B?鄢x),其中B為可調(diào)參數(shù),利用參數(shù)B,使得swich的內(nèi)插程度可以由參數(shù)本身控制.在多種深度神經(jīng)網(wǎng)絡(luò)上的多種數(shù)據(jù)集上的測試顯示,swish-?茁幾乎比最佳性能激活函數(shù)的性能都要優(yōu)秀。但是該激活函數(shù)并沒有數(shù)學(xué)證明,而只是通過搜索獲取的經(jīng)驗(yàn)性公式。

Swish與ReLU一樣有上界而無下界,但是其非單調(diào)性確與其他常見的激活函數(shù)不同,通知其也擁有平滑和一階導(dǎo)數(shù),二階導(dǎo)數(shù)平滑的特性。

谷歌測試證明,swich適應(yīng)于局部響應(yīng)歸一化,并且在40以上全連接層的效果要遠(yuǎn)優(yōu)于其他激活函數(shù),而在40全連接層之內(nèi)則性能差距不明顯。但是根據(jù)在mnist數(shù)據(jù)上AleNet的測試效果卻證明,swich在低全連接層上與Relu的性能差距依舊有較大的優(yōu)勢(shì)。

對(duì)于MNIST數(shù)據(jù)集而言,五層內(nèi)的全連接層已經(jīng)可以達(dá)到更好的測試性能,但是為了測試Swish激活函數(shù)與ReLU激活函數(shù)在MNIST手寫數(shù)據(jù)集上的性能差距,在進(jìn)行三層神經(jīng)網(wǎng)絡(luò)全連接層的測試同時(shí)進(jìn)行了10層的全連接層的擴(kuò)展。并在隨后的測試中并進(jìn)行了四層,五層,六層全連接層的性能測試,性能表現(xiàn)與三層全連接層神經(jīng)網(wǎng)絡(luò)的差距不大.而在收斂速度方面,同等學(xué)習(xí)率時(shí),Swish激活函數(shù)收斂速度略慢于ReLU激活函數(shù),但是在較小學(xué)習(xí)率時(shí),兩者收斂速度相近。

1 測試一

在MNIST上的使用三個(gè)全連接層的的AleNet,在添加局部響應(yīng)歸一化的情況下進(jìn)行測試,測試證明,在100000訓(xùn)練測試的情況下,ReLu的最后三次批處理的訓(xùn)練損失122.1133,訓(xùn)練集正確率為0.97396.,Swish的最后三次批處理的訓(xùn)練損失196.3051,訓(xùn)練集正確率為0.96614.但是在測試集上的測試結(jié)果則為:Swish激活函數(shù):98.83%,RelU激活函數(shù)的測試正確率為:98.44%。性能提升為0.39%.Swish表現(xiàn)出了優(yōu)于ReLU函數(shù)的性能。

2 測試二

而在MNIST上的使用十個(gè)全連接層的的AleNet,在添加局部響應(yīng)歸一化的情況下進(jìn)行測試,則表明在更多連接層的情況下Swish激活函數(shù)的與RelU的性能差距能夠更快地顯現(xiàn)出來,在10000訓(xùn)練測試的情況下,在訓(xùn)練中Swish激活函數(shù)的的平均損失已經(jīng)優(yōu)于ReLU函數(shù),而測試結(jié)果則為Swish激活函數(shù):97.16%,RelU激活函數(shù)的測試正確率為:96.58%.性能提升為0.58%。

3 測試三

而當(dāng)全連接層擴(kuò)展到45層時(shí),Swish函數(shù)則表現(xiàn)出了遠(yuǎn)優(yōu)于ReLU函數(shù)的性能.在測試集上Swish函數(shù)的最終正確率為94.20%,而ReLU激活函數(shù)的最終正確率則為93.31%,此時(shí)Swish激活函數(shù)的性能相對(duì)于ReLU激活函數(shù)提高為0.89%.測試結(jié)果證明Swish激活函數(shù)性對(duì)于ReLU激活函數(shù)在訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)方面擁有更大的優(yōu)勢(shì),并表現(xiàn)出了相對(duì)于ReLU激活函數(shù)更強(qiáng)的抗過擬合能力.而在收斂速度方面兩者的表現(xiàn)差距不大。endprint

在MNIST數(shù)據(jù)集上,Swish激活函數(shù)確實(shí)表現(xiàn)出了遠(yuǎn)優(yōu)于ReLU激活函數(shù)的性能,尤其當(dāng)全連接層增大時(shí),Swish確實(shí)表現(xiàn)出了其性能的優(yōu)越。但是同時(shí)為了避免深度神經(jīng)網(wǎng)絡(luò)在迭代過程中,性能波動(dòng)而造成的偶然性的差異,又而額外進(jìn)行了全連接層為4,5,6層的AleNet深度神經(jīng)網(wǎng)絡(luò)的測試,其表現(xiàn)差距不大,最終通過多次驗(yàn)證測試證明,Swish激活函數(shù)確實(shí)擁有遠(yuǎn)優(yōu)于ReLU激活函數(shù)的性能,并在更深深度上的神經(jīng)網(wǎng)絡(luò)擁有更大優(yōu)勢(shì).并且在不同全連接層訓(xùn)練誤差,損失與測試集誤差與損失也表明Swish激活函數(shù)確實(shí)擁有優(yōu)于ReLU激活函數(shù)的性能。同時(shí)Swish-B激活函數(shù)在其他中小規(guī)模數(shù)據(jù)集上的表現(xiàn)也比多種深度神經(jīng)網(wǎng)絡(luò)的最佳激活函數(shù)優(yōu)秀,其性能提升在0.9%到2.2%之間。

為了在更復(fù)雜的數(shù)據(jù)集上驗(yàn)證Swish激活函數(shù)的性能,測試三采用Fashion-MNIST數(shù)據(jù)集進(jìn)行測試,F(xiàn)ashion-MNIST是一個(gè)發(fā)布的新型圖片數(shù)據(jù)集,其格式完全與MNIST手寫字符集完全一致,但是其圖片內(nèi)容則為更為復(fù)雜的服裝,一般而言AleNet在Fashion-MNIST上的性能表現(xiàn)一般要比MNIST手寫數(shù)據(jù)集,低8-9個(gè)百分點(diǎn).而采用Fashion-MNIST這一更高難度數(shù)據(jù)集,可以更好地測試深度神經(jīng)網(wǎng)絡(luò)的性能。

4 測試四

我們將測試一中的數(shù)據(jù)集替換為Fashion-MNIST,采用完全形同的代碼再次對(duì)Swish激活函數(shù)進(jìn)行測試。測試集的測試結(jié)果則為:Swish激活函數(shù)的正確率為:90.45%,RelU激活函數(shù)的測試正確率為:90.03%。性能提升為0.42%。與此同時(shí)兩種激活函數(shù)的最終損失函數(shù)表現(xiàn)差異則不大。

5 測試五

將測試二中的測試性數(shù)據(jù)集更換為Swish激活函數(shù)則測試結(jié)果表明Swish激活函數(shù)已經(jīng)能夠擁有要優(yōu)秀與ReLU函數(shù)的測試正確率,最后結(jié)果Swish激活函數(shù):89.23%,RelU激活函數(shù)的測試正確率為:89.56%。性能提升為0.33%。而在最后三批的損失函數(shù)的表現(xiàn)上,Swish激活函數(shù)則表現(xiàn)出了優(yōu)于ReLU函數(shù)的性能。

6 測試六

Swish激活函數(shù)與ReLU激活函數(shù)在45層全連接神經(jīng)網(wǎng)絡(luò)后的表現(xiàn)。Swish激活函數(shù)在測試集上的正確率為87.69%,ReLU激活函數(shù)的正確率則為86.77%,Swish激活函數(shù)相較于ReLU激活函數(shù)的性能提升約為0.92%。而最后三批次訓(xùn)練的損失函數(shù),Swish激活函數(shù)則約比ReLU激活函數(shù)提高了約150。

在復(fù)雜數(shù)據(jù)集和更復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上,Swish擁有更好的性能表現(xiàn),而Swish-?茁激活函數(shù)想對(duì)于其他激活函數(shù)則表現(xiàn)出了近乎壓倒性的優(yōu)勢(shì).而在收斂速度,訓(xùn)練集損失與訓(xùn)練集正確率上,并沒有明顯差距。

7結(jié)束語

Swish在中小規(guī)模數(shù)據(jù)集上的表現(xiàn)相較于ReLU激活函數(shù)擁有更快的收斂速度,但是在全連接層較少時(shí),Swish激活函數(shù)在訓(xùn)練集上的可能低于ReLU激活函數(shù),但是在多個(gè)較少全連接層上的測試也表明,Swish激活函數(shù)即使在訓(xùn)練集性能表現(xiàn)較差的情況下依然擁有優(yōu)于ReLU激活函數(shù)的性能,而當(dāng)全連接層擴(kuò)大時(shí),性能差距將會(huì)更大。而Swish-?茁激活函數(shù)在多個(gè)數(shù)據(jù)集上的表現(xiàn)則證明其擁有優(yōu)于其他所有深度神經(jīng)網(wǎng)絡(luò)的最佳激活函數(shù)的性能。同時(shí)也依賴于Swish編寫的簡易性,只需要將現(xiàn)在的sigmod激活函數(shù)略微改造就可以擁有極佳的性能,詳細(xì)Swish激活函數(shù)將會(huì)在之后擁有更廣闊的使用空間。

參考文獻(xiàn):

[1]Noisy Activation Functions: Caglar Gulcehre, Marcin Moczulski, Misha Denil, Yoshua Bengio.arXiv:1603.00391v3.

[2]Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms. Han Xiao, Kashif Rasul, Roland Vollgraf. arXiv:1708.07747.

[3]王鑫.一種基于徑向基函數(shù)的模型參考自適應(yīng)控制的研究[J].科技創(chuàng)新與應(yīng)用,2017(26):12-13.endprint

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
基于自動(dòng)智能分類器的圖書館亂架圖書檢測
搭建深度學(xué)習(xí)的三級(jí)階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 露脸国产精品自产在线播| 国产性生交xxxxx免费| 免费中文字幕一级毛片| 9久久伊人精品综合| 欧美中日韩在线| 污视频日本| 久久a级片| 国产18在线| 亚洲一区网站| 亚洲AV无码乱码在线观看代蜜桃| 成人免费黄色小视频| 久久无码高潮喷水| 在线观看免费国产| 国产AV毛片| 爽爽影院十八禁在线观看| 免费国产不卡午夜福在线观看| 国产福利微拍精品一区二区| 国产97视频在线| 91最新精品视频发布页| 国产嫩草在线观看| 国产成人1024精品下载| aⅴ免费在线观看| 欧美日韩亚洲国产主播第一区| 国产99精品久久| 亚洲美女视频一区| 在线看片中文字幕| 久草国产在线观看| 国产精品蜜臀| 国产亚洲精品无码专| 欧美亚洲国产日韩电影在线| 日韩第一页在线| 亚洲性日韩精品一区二区| 亚洲日韩精品伊甸| 在线国产毛片| 国产激爽大片在线播放| 亚洲精品视频在线观看视频| 欧美高清视频一区二区三区| 午夜视频免费试看| 狠狠五月天中文字幕| 久久久精品无码一区二区三区| 成人福利在线视频免费观看| 69综合网| 国产黄视频网站| 国产Av无码精品色午夜| 91九色国产porny| 成年人免费国产视频| 国产精品久久精品| 亚洲精品欧美日本中文字幕| 婷婷在线网站| 最新痴汉在线无码AV| 欧美日韩国产在线播放| 亚洲国产欧洲精品路线久久| 天天躁狠狠躁| 精品久久久久成人码免费动漫 | 久久精品日日躁夜夜躁欧美| 亚洲欧美一级一级a| 精品视频一区二区三区在线播| 国产久操视频| 国产拍揄自揄精品视频网站| 香蕉国产精品视频| 高清亚洲欧美在线看| 国产v精品成人免费视频71pao | 精品国产Av电影无码久久久| 一级毛片高清| 亚洲中文无码av永久伊人| 青青青国产视频| 免费观看男人免费桶女人视频| 国产SUV精品一区二区| 多人乱p欧美在线观看| 98超碰在线观看| 国产毛片基地| 欧美区一区二区三| 亚洲欧洲自拍拍偷午夜色| 亚洲bt欧美bt精品| 国产老女人精品免费视频| 久久久久人妻一区精品| 亚洲日韩日本中文在线| 亚洲第一精品福利| 一区二区自拍| 波多野结衣久久高清免费| 91久久偷偷做嫩草影院免费看| 夜夜操天天摸|