
【摘? 要】現如今循環神經網絡(recurrent neural network,RNN)已經成為一種動態處理時間序列數據的高效的神經網絡工具。循環神經網絡(RNNs)能夠從時間序列數據中學習特征和長期依賴關系。循環神經網絡幾乎可以對任何動態系統進行建模,但是訓練過程中極易出現長程依賴的問題。本文介紹了循環神經網絡在深度學習領域的基本原理和最新進展,并且分析了今后的研究挑戰。
【關鍵詞】循環神經網絡;動態系統;深度學習;
RNN的提出與發展
人工神經網絡(ANNs)是由被稱為人工神經元的連接單元層構成的,其中淺層網絡是指一個輸入層,一個輸出層,最多一個隱含層,沒有重復連接的人工神經網絡。隨著層數的增加,網絡的復雜度也隨之增加,更多的層數或重復連接通常會增加網絡的深度,并使其能夠提供不同層次的數據表示和特征提取,這稱為深度學習。由于各層的非線性組成所造成的優化困難,在2006年之前,深度網絡體系結構方面的工作并不多[1]。而具有循環連接的神經網絡被稱為循環神經網絡(RNNs),它能夠對序列數據建模以進行序列識別和預測[2]。RNNs使用隱藏狀態在時間維度上對數據信息進行保存和更新,這種結構使RNNs能夠長時間存儲、記憶和處理過去的復雜信息。基于RNNs的文獻中已經發表了大量的論文,從架構涉及到應用發展。表1匯總了RNNs隨著時間發展的主要研究進展。
梯度下降算法的發展給RNNs的研究提供了助力,但是RNNs的模型結構導致梯度消失或者爆炸的問題無法避免。為了解決上述問題,帶有特殊門控機制的LSTM網絡于1997年被提出[3]。到目前為止,已經有超過1000篇關于LSTM和其變體的研究論文發表,其中,900篇是在2015年后發表的。
RNN和其主要變體
循環神經網絡(RNN)
RNN是前饋神經網絡的一種,它通過包含跨越相鄰時間步的有向邊來增強單元計算,從而在模型中加入了時間的概念。在時刻t,模型的輸入為x,前一個時刻的隱藏狀態為h
則RNN的公式可以定義為:
h= tanh(Wh + Wx + b)
其中WW和b是可訓練的權重參數,可通過BPTT(backpropagation through time)算法進行更新。
長短時記憶網絡(LSTM)
LSTM是一種帶有三個門控函數的特殊RNN變體,成功的解決了RNN的梯度消失爆炸問題,并且在傳統的機器學習深度學習領域廣泛應用。LSTM定義如下:
i=??????? sigmoid(Wx + Wh + b)
f=??????? sigmoid(Wx + Wh + b)
o=??????? sigmoid(Wx + Wh + b)
c= tanh(Wx + Wh + b)
c= fΘc+ iΘc
h= oΘtanh(c)
RNN應用方向
RNN主要應用于自然語言處理領域中,比如語言模型任務。LSTM的提出改進了用于語言建模的RNN模型,因為LSTM能夠更好地學習序列中的長期依賴關系,而不是簡單的隱藏狀態。RNN還被應用如生成文學作品如詩詞,歌詞等。此外,RNN還在文檔分類中表現優秀,如GRU被用來進行文檔級情緒分析,RCNNs被用于多個數據集的文本分類。在這種方法中,通常將單詞映射到一個特征向量,然后將特征向量序列作為輸入傳遞給RNN模型。
在語音信號識別領域中,語音和音頻信號會隨著時間不斷變化,音頻信號固有的時序性和時變特性使RNNs成為該領域學習特征的理想模型。在圖像識別領域中,雖然CNN在計算機視覺和圖像處理方面的應用占主導地位,但RNNs在圖像標記、圖像建模和手寫識別等方面也顯示出良好的前景。
參考文獻:
[1]Bengio Y,Boulanger-Lewandowski N,Pascanu R.Advances in optimizing recurrent networks[C]//2013 IEEE International Conference on Acoustics,Speech and Signal Processing.IEEE,2013:8624-8628.
[2] Bengio Y,Simard P,Frasconi P.Learning long-term dependencies with gradient descent is difficult[J].IEEE transactions on neural networks,1994,5(2):157-166.
[3] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural computation,1997,9(8):1735-1780.
作者簡介:
劉昌健(1994-),河北滄州人,寧夏大學碩士研究生在讀,主要研究深度學習、自然語言處理方向。
(作者單位:寧夏大學信息工程學院)