999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

帶動量項的梯度下降算法的收斂性

2021-12-30 07:41:46彭先倫

彭先倫, 謝 綱

(華東理工大學數學學院,上海 200237)

前饋神經網絡目前已經得到了廣泛的應用[1-2],而反向傳播算法則被廣泛運用于神經網絡訓練中,并且它的收斂性也在文獻[3-4]中得到討論。在反向傳播算法中,經常會加入動量項來加速訓練和使訓練過程更穩定[5]。在有動量項的反向傳播中,當前權重的更新量是損失函數對該權重參數的當前梯度與之前權重更新量的線性組合。

許多學者對有動量項的反向傳播算法(BPM)進行過研究[6-8],文獻[9]中給出了動量反向傳播算法的穩定性分析,結果表明BPM 的穩定點就是平方誤差損失的局部極小值,其他平衡點不穩定。Qian 在文獻[10]中也討論過BPM,表明系統在局部極小點附近的行為等價于一組阻尼諧波振蕩器,動量項通過使系統的某些本征分量更接近臨界阻尼來提高收斂速度。這些研究只是描述訓練迭代過程在損失函數的局部極小值附近的行為,不能用于更一般的情況,比如隨機選擇初始權重。文獻[11-12]中探討了BPM 的收斂性,研究中限制損失函數的梯度是關于權重的線性函數,并且文獻[12]中學習率和動量系數甚至被限制為常數,在這些限制下,BPM 的迭代過程穩定,其收斂性由迭代矩陣的特征值決定。但是,對于一般的激活函數比如Sigmoid 函數,損失函數對權重的梯度不是線性函數。文獻[13]中針對沒有隱藏層的簡單網絡證明了BPM 的全局收斂性。雖然這些結果對于任意給定的初始權重有效,但沒限制損失函數的梯度是線性。文獻[14]中證明了具有一個隱藏層的神經網絡的BPM 的全局收斂性,以上研究中網絡結構沒有考慮偏置項且輸出層只有一個輸出神經元。

本文是對文獻[14]中的結果的一個推廣。本文所針對的神經網絡具有一個隱藏層,但在網絡結構中加入了偏置項,而且輸出層可以具有任意個數的神經元,在不需要添加額外的假設的情況下,證明了BPM 的全局收斂性。

1 動量反向傳播算法模型

有了輸出后就可以得到通常的平方損失為:

考慮到只需在每個輸入 ξ 末尾都添加一項1,則輸入層與隱藏層間的偏置向量可以合并到輸入層與隱藏層之間的權重矩陣而不影響結果,這里設:

則輸出層的輸出可以重新表示為:

而網絡的平方損失也可以重新表示為:

對網絡進行訓練的目的就是要找出最優的解(V?,W?,b?) ,使得:

由式(7)可以得到損失函數關于V,W,b的導數分別為:

當任意給定了初始權重向量及偏置矩陣V0,V1,W0,W1,b0,b1時,BPM 通過下面的式子對權重向量及偏置矩陣進行更新:

類似于文獻[12],動量系數 γk,i, τk,i及 κk,i分別設置為:

其中 τ ∈(0,1) 為動量因子, ‖·‖ 為歐幾里得范數。

2 BPM 的收斂性相關假設及定理結論

在第1 部分中我們介紹了本文研究的動量反向傳播算法模型,在該模型中參數是通過動量梯度下降算法不斷地進行迭代更新,而對于整個迭代過程的收斂性需要進一步地研究,給出本文對于該模型的收斂性定理結論,在給出BPM 的收斂性相關結論之前,先提出幾個需要用到的假設[13]:

最為常用的激活函數(Sigmoid 函數)是滿足假設 ( 1) 的;假設 ( 2) 是為了保證式(25)~式(28)的弱收斂性,而在文獻[15]中也作出了一個類似假設 ( 2) 來解決非線性問題;假設 ( 3) 要求損失函數只有有限個局部極小值點,這是為了保證式(29)~式(32)的強收斂性。有了假設 ( 1) 和假設 ( 2) ,我們很容易驗證以下幾條性質:

定理1 是主要結論。

3 關于模型收斂性定理1 的證明

接下來本文給出定理1 的詳細證明過程,為了簡化證明,引進下列符號:

接下來本文提出幾個有用的引理。

Step 3:Learning the past subjunctive mood based on Situation 2:Michael’s regrets.情景二中學習過去時的虛擬語氣。教師通過ppt再現電影中主人公在得到一支神奇的人生遙控器之后生活發生了翻天覆地的變化,讓主人公錯過了生命中很多精彩而重要的時刻。教師嘗試發問:(a)Why Michael’s life has changed so much?(b)Was Michael satisfied with his life here?Any regrets?

引理1:

證明:由式(13)和(35)可知:

引理2:

引理3:

證明:利用泰勒展開可得

再結合引理1 及引理2 可知:

引理5:如果假設 ( 1) 和 ( 2) 成立,則存在常數C?>0使得:

因此,由引理3 及引理5 可知:

在有了這些引理之后,接下來就可以完成對定理1 的全部證明:

最后,由式(14~16)、(42)、(50)、(51)及式(52~54)可得:

再結合引理7 以及式(55)即可得到式(29)~式(32);綜上本文就完成了對定理1 的全部證明。

4 結 論

本文通過對動量反向傳播算法模型進行理論分析,得出了相比目前已有的結果更具一般性的結論,即對于一個擁有偏置項的三層的神經網絡,對其輸出層神經元的個數不加限制,在幾個簡單而必要的假設下,該動量反向傳播算法模型的訓練迭代過程是可以收斂的,并且模型參數值也可以收斂到臨界點。

主站蜘蛛池模板: 亚洲午夜福利精品无码| 一级毛片高清| 国产女人水多毛片18| 欧美精品影院| 亚洲黄色网站视频| 一区二区三区毛片无码| 欧美日韩一区二区三区在线视频| a亚洲天堂| 中文一级毛片| 免费网站成人亚洲| 亚洲一区二区三区国产精华液| 日本人妻一区二区三区不卡影院| 欧美三級片黃色三級片黃色1| 久久99热66这里只有精品一| 色久综合在线| 亚洲三级网站| 91精品国产丝袜| 久久香蕉国产线看精品| 国产亚洲精久久久久久久91| 国产黑人在线| 无码高潮喷水专区久久| 久久精品人人做人人爽电影蜜月 | 国产无码精品在线播放| 无码精品一区二区久久久| 亚洲国内精品自在自线官| 日韩AV手机在线观看蜜芽| 日韩高清在线观看不卡一区二区| 狠狠色综合久久狠狠色综合| 青青草久久伊人| 97一区二区在线播放| 日本不卡在线| 亚洲综合第一区| 亚洲欧美在线精品一区二区| 午夜色综合| 欧洲av毛片| 老熟妇喷水一区二区三区| 九色在线观看视频| 欧美怡红院视频一区二区三区| 囯产av无码片毛片一级| 国产91av在线| 亚洲全网成人资源在线观看| 午夜高清国产拍精品| 国产亚洲精久久久久久无码AV| 免费国产黄线在线观看| 狠狠操夜夜爽| 国内熟女少妇一线天| 97精品久久久大香线焦| 97视频在线观看免费视频| 欧美影院久久| 亚洲日韩精品无码专区| 伊人久综合| 再看日本中文字幕在线观看| 久久亚洲国产一区二区| 真人高潮娇喘嗯啊在线观看| 久久精品国产亚洲麻豆| 欧美一区国产| 99精品国产自在现线观看| 久久亚洲国产一区二区| 91小视频版在线观看www| 狠狠综合久久久久综| 国产十八禁在线观看免费| 日韩区欧美国产区在线观看| 中国毛片网| 日韩第九页| 国产男女XX00免费观看| 成人福利在线免费观看| 国产麻豆永久视频| 99一级毛片| 青青青国产视频| 99精品视频在线观看免费播放| 久久毛片免费基地| 亚洲精品成人福利在线电影| 欧美日韩一区二区在线播放| 干中文字幕| 亚洲人成影院午夜网站| 国产福利免费视频| 国产精品性| 久久99久久无码毛片一区二区| 丁香婷婷激情综合激情| 婷婷色一区二区三区| 精品小视频在线观看| 在线精品亚洲一区二区古装|