張 堯, 沈海斌
(浙江大學 超大規模集成電路設計研究所,浙江 杭州 310027)
循環神經網絡(recurrent neural network,RNN)是目前最流行的人工神經網絡之一,具有處理歷史信息和建模歷史記憶的功能特點,適用于處理時間、空間上有關聯的信息,如語音識別、實時翻譯以及計算機視覺等[1~3]。在標準的RNN結構中,隨著序列數據的不斷輸入,覆蓋之前的序列數據信息,導致序列梯度消散問題[4], Karpathy A等人采用了長短時記憶(long short-term memory,LSTM)單元解決該問題[5]。LSTM型RNN使得激活函數的數量增加,激活函數一般為S型函數,如Sigmoid, Tanh等[6]。LSTM型RNN隱含層一般采用2層結構,單層網絡訓練效果不佳,多層網絡訓練難度較大。采用反向傳播算法進行訓練時,S型函數容易進入導數趨近于0的飽和區導致收斂速度慢。Glorot X等人采用了修正線性單元(rectified linear units,ReLU)訓練具有稀疏特性的數據,解決S型激活函數飽和區難以收斂的問題[7]。ReLU是分段線性非飽和函數,隨著x的增大,函數發散,訓練時容易導致梯度爆炸,無法完成訓練。
本文提出了擴展激活函數非飽和區的方法解決了S型激活函數飽和區收斂速度慢和ReLU激活函數梯度爆炸的問題,加快了LSTM型RNN的訓練收斂速度。

前向傳播過程從t=1時刻依次經過輸入層、隱含層和輸出層。
Input Gate
(1)
(2)
Forget Gate
(3)
(4)
Cell
(5)
(6)
式中wic,whc分別為輸入層、隱含層與Cell單元的連接權值。
Output Gate
(7)
(8)
Cell Output
(9)

Cell Output
(10)
式中G為隱含層輸入的個數,包括LSTM單元之間的連接和不同門之間的連接。
Output Gate
(11)
State
(12)

Cell
(13)
Forget Gate
(14)
Input Gate
(15)
LSTM單元中的Input Gate,Output Gate和Forget Gate一般采用Sigmoid函數作為激活函數,Net Input單元和Cell單元一般采用tanh函數作為激活函數[8,9]。Sigmoid函數和tanh函數具有類似的函數特征,即非線性、飽和性
(16)
(17)
不同系數的Sigmoid和tanh函數及其導數圖像如圖1、圖2所示。Sigmoid函數和tanh函數的系數不同時,函數的非線性、飽和性不同。系數變大時,非飽和區變窄,非飽和區的導數變大;系數變小時,非飽和區變寬導數變小。

圖1 k-Sigmoid函數及其導數

圖2 k-tanh函數及其導數


不同系數激活函數的LSTM型RNN訓練過程中訓練時間和訓練誤差如圖3所示,k為激活函數的系數。實驗結果表明:當激活函數系數為1/8時,訓練速度最快。激活函數系數較大時,非飽和區較窄;系數過小時,非飽和區導數較小,因此,選擇激活函數系數為1/8。同等誤差水平下,RNN的訓練時間減少了21 %(k=1的訓練時間為26 129 s,k=0.125的訓練時間為20 520 s)。

圖3 參數化激活函數的RNN訓練過程
基于S型激活函數的性質,提出了參數化激活函數方法,有效地擴展了激活函數非飽和區范圍,通過實驗證明了非飽和區擴展的RNN算法優化方法加快了訓練的收斂速度。實驗中,不同的初始化權值以及神經元結點數,對訓練的誤差和速度影響不同,如何選擇最優的LSTM型RNN的參數是今后的研究方向。
[1] Zen H.Acoustic modeling in statistical parametric speech synthesis-from HMM to LSTM-RNN[J].Middle East Policy,2008,15(1):125-132.
[2] Kim J,Kim J,Thu H L T,et al.Long short term memory recurrent neural network classifier for intrusion detection[C]∥2016 International Conference on Platform Technology and Service(PlatCon),IEEE,2016:1-5.
[3] 李幸超.基于循環神經網絡的軌跡位置預測技術研究[D].杭州:浙江大學,2016.
[4] Graves A.Neural networks[M].Berlin Heidelberg:Springer, 2012:15-35.
[5] Karpathy A,Johnson Justin,Li F F.Visualizing and understan-ding recurrent networks[C]∥International Conference on Learning Representations(ICLR),San Juan:2016.
[6] 李宏偉,吳慶祥.智能傳感器中神經網絡激活函數的實現方案[J].傳感器與微系統,2014,33(1):46-48.
[7] Glorot X,Bordes A,Bengio Y.Deep sparse rectifier neural networks[J].Journal of Machine Learning Research,2014,33(1):46-48.
[8] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Advances in Neural Information Processing Systems,2012,25(2):2012.
[9] Soleymani M,Asghari Esfeden S,Fu Y,et al.Analysis of EEG signals and facial expressions for continuous emotion detec-tion[J].IEEE Transactions on Affective Computing,2016,7(1):1.