彭先倫, 謝 綱
(華東理工大學數學學院,上海 200237)
前饋神經網絡目前已經得到了廣泛的應用[1-2],而反向傳播算法則被廣泛運用于神經網絡訓練中,并且它的收斂性也在文獻[3-4]中得到討論。在反向傳播算法中,經常會加入動量項來加速訓練和使訓練過程更穩定[5]。在有動量項的反向傳播中,當前權重的更新量是損失函數對該權重參數的當前梯度與之前權重更新量的線性組合。
許多學者對有動量項的反向傳播算法(BPM)進行過研究[6-8],文獻[9]中給出了動量反向傳播算法的穩定性分析,結果表明BPM 的穩定點就是平方誤差損失的局部極小值,其他平衡點不穩定。Qian 在文獻[10]中也討論過BPM,表明系統在局部極小點附近的行為等價于一組阻尼諧波振蕩器,動量項通過使系統的某些本征分量更接近臨界阻尼來提高收斂速度。這些研究只是描述訓練迭代過程在損失函數的局部極小值附近的行為,不能用于更一般的情況,比如隨機選擇初始權重。文獻[11-12]中探討了BPM 的收斂性,研究中限制損失函數的梯度是關于權重的線性函數,并且文獻[12]中學習率和動量系數甚至被限制為常數,在這些限制下,BPM 的迭代過程穩定,其收斂性由迭代矩陣的特征值決定。但是,對于一般的激活函數比如Sigmoid 函數,損失函數對權重的梯度不是線性函數。文獻[13]中針對沒有隱藏層的簡單網絡證明了BPM 的全局收斂性。雖然這些結果對于任意給定的初始權重有效,但沒限制損失函數的梯度是線性。文獻[14]中證明了具有一個隱藏層的神經網絡的BPM 的全局收斂性,以上研究中網絡結構沒有考慮偏置項且輸出層只有一個輸出神經元。
本文是對文獻[14]中的結果的一個推廣。本文所針對的神經網絡具有一個隱藏層,但在網絡結構中加入了偏置項,而且輸出層可以具有任意個數的神經元,在不需要添加額外的假設的情況下,證明了BPM 的全局收斂性。


有了輸出后就可以得到通常的平方損失為:

考慮到只需在每個輸入 ξ 末尾都添加一項1,則輸入層與隱藏層間的偏置向量可以合并到輸入層與隱藏層之間的權重矩陣而不影響結果,這里設:

則輸出層的輸出可以重新表示為:

而網絡的平方損失也可以重新表示為:

對網絡進行訓練的目的就是要找出最優的解(V?,W?,b?) ,使得:

由式(7)可以得到損失函數關于V,W,b的導數分別為:

當任意給定了初始權重向量及偏置矩陣V0,V1,W0,W1,b0,b1時,BPM 通過下面的式子對權重向量及偏置矩陣進行更新:

類似于文獻[12],動量系數 γk,i, τk,i及 κk,i分別設置為:


其中 τ ∈(0,1) 為動量因子, ‖·‖ 為歐幾里得范數。
在第1 部分中我們介紹了本文研究的動量反向傳播算法模型,在該模型中參數是通過動量梯度下降算法不斷地進行迭代更新,而對于整個迭代過程的收斂性需要進一步地研究,給出本文對于該模型的收斂性定理結論,在給出BPM 的收斂性相關結論之前,先提出幾個需要用到的假設[13]:

最為常用的激活函數(Sigmoid 函數)是滿足假設 ( 1) 的;假設 ( 2) 是為了保證式(25)~式(28)的弱收斂性,而在文獻[15]中也作出了一個類似假設 ( 2) 來解決非線性問題;假設 ( 3) 要求損失函數只有有限個局部極小值點,這是為了保證式(29)~式(32)的強收斂性。有了假設 ( 1) 和假設 ( 2) ,我們很容易驗證以下幾條性質:

定理1 是主要結論。


接下來本文給出定理1 的詳細證明過程,為了簡化證明,引進下列符號:

接下來本文提出幾個有用的引理。
Step 3:Learning the past subjunctive mood based on Situation 2:Michael’s regrets.情景二中學習過去時的虛擬語氣。教師通過ppt再現電影中主人公在得到一支神奇的人生遙控器之后生活發生了翻天覆地的變化,讓主人公錯過了生命中很多精彩而重要的時刻。教師嘗試發問:(a)Why Michael’s life has changed so much?(b)Was Michael satisfied with his life here?Any regrets?
引理1:

證明:由式(13)和(35)可知:

引理2:


引理3:

證明:利用泰勒展開可得

再結合引理1 及引理2 可知:




引理5:如果假設 ( 1) 和 ( 2) 成立,則存在常數C?>0使得:



因此,由引理3 及引理5 可知:

在有了這些引理之后,接下來就可以完成對定理1 的全部證明:



最后,由式(14~16)、(42)、(50)、(51)及式(52~54)可得:

再結合引理7 以及式(55)即可得到式(29)~式(32);綜上本文就完成了對定理1 的全部證明。
本文通過對動量反向傳播算法模型進行理論分析,得出了相比目前已有的結果更具一般性的結論,即對于一個擁有偏置項的三層的神經網絡,對其輸出層神經元的個數不加限制,在幾個簡單而必要的假設下,該動量反向傳播算法模型的訓練迭代過程是可以收斂的,并且模型參數值也可以收斂到臨界點。