張冬梅 李金平 李江 余想 宋凱旋



摘? ?要:多變量時間序列各變量間依賴性較強,數據變化趨勢不明顯,預測難度高. 傳統研究采用帶門控機制的循環神經網絡及變體進行預測,但序列間存在相互依賴關系,突變數據段建模預測不精確. 基于信息熵,本文提出一種新的改進門控權重單元,利用信息熵技術量化數據序列的變化程度,動態調整權重矩陣刻畫數據的變化趨勢. 基于4個公開數據集分別進行實驗,實驗結果表明新模型比傳統循環神經網絡模型具有更好的預測性能.
關鍵詞:多變量時間序列;門控機制;循環神經網絡;門控權重單元;信息熵
中圖分類號:TP391 ? ? ? ? ? ? ? 文獻標志碼:A
Multivariate Time Series Prediction Based on Gating Weight Unit
ZHANG Dongmei LI Jinping LI Jiang YU Xiang SONG Kaixuan
(1. School of Computer Science,China University of Geosciences,Wuhan 430074,China)
2. Information Center,Department of Natural Resources of Hubei Province,Wuhan 430071,China)
Abtract:There is strong dependence among the variables of multivariate time series,which makes the data trend unobvious and the prediction difficult. Traditionally,recurrent neural network with gating mechanisms and its variants are used for prediction. But the interdependence between sequences makes the prediction result of mutation data not accurate. Based on information entropy,a new modified gating weight unit is presented. The change degree of data is quantified by using information entropy to dynamically adjust the weight matrix and describe the trend of data. The experiment is conducted with four public data sets. The experimental results show that the proposed model has better prediction performance than the traditional recurrent neural network.
Key word:multivariate time series;gated mechanism;recurrent neural network;gating weight unit;information entropy
多變量時間序列預測根據歷史數據對未來進行預測,是近年來研究的熱點問題. 多變量序列間存在的相互依賴關系難以學習、特別是突變數據的變化趨勢挖掘困難,導致該類問題的預測精度不高[1]. 早期研究主要是通過建立加權滑動平均模型、差分整合移動平均自回歸模型等模型進行預測,簡單直觀,但極易損失變量間的動態依賴信息. 近年基于淺層機器學習的非參數模型是多變量時間序列預測問題的主流方法,可有效克服序列非線性和變量依賴性強等問題,如支持向量回歸(Support Vector Regression,SVR)、高斯過程回歸(Gaussian Process Regression,GPR)等具有更好的性能,但淺層機器學習方法易過擬合,影響預測精度[2].
早期網絡模型不能解決長期依賴問題,存在梯度消失和梯度爆炸現象[3-4].? 目前多利用深度學習中的循環神經網絡(Recurrent Neural Network,RNN)模型解決多變量時序預測問題[5]. Graves在RNN單元中引入記憶單元和門控機制,提出長短期記憶網絡(Long Short-Term Memory,LSTM)[6],解決RNN的長期依賴問題. 目前對于循環神經網絡的改進多基于LSTM門控機制的擴展,如Zhou等提出的最小門控單元(Minimal Gated Unit,MGU)[7]、Gers 等提出的窺視孔連接[8]、Cho等提出的門控循環單元(Gate Recurrent Unit,GRU)[9]、劉頡曦等提出的混合門單元[10]. 各類LSTM變體雖然對LSTM的結構進行了改進優化,但沒有根本解決門控組件難以學習突變數據變化趨勢的問題,對變化劇烈的時序數據預測效果較差[11-12].
信息熵(Information Entropy)技術通過概率分布計算刻畫數據分布變化,Haghizadeh等使用信息熵度量災害突發信息,在洪澇災害預防方面取得較好效果[13].Naghibi等使用信息熵模型預測地下水變化趨勢[14].信息熵對數據變化敏感,可較好度量時序數據的變化程度. 針對非穩態數據預測問題,本文對網絡單元的門控機制進行擴展,提出一種新的E-LSTM單元(Entropy-LSTM,E-LSTM). 與同類研究工作不同的是通過引入信息熵技術量化數據變化程度,設置兩個動態調整權重矩陣代替傳統遺忘門權重矩陣,刻畫數據變化趨勢. 新單元通過信息熵動態調整權重矩陣,克服了傳統LSTM單元難以挖掘突變數據段變化趨勢的問題,有效提升了模型的預測精度.
本文主要貢獻有2個方面:
1)融合信息熵和循環神經網絡技術進行時序序列預測;
2)引入信息熵動態調整權重矩陣擴展門控機制,對時序數據中的突變特征提出新的量化方法和技術,相較于傳統LSTM預測精度更高.
1? ?模? ?型
1.1? ?RNN預測模型
基于RNN時序預測模型框架,針對不同問題模型中的RNN單元采用不同的改進策略,如神經網絡模型中的RNN-unit可以用簡單循環神經網絡(Simple-Recurrent Neural Network,Simple-RNN)[15]、LSTM單元等進行替換,整個RNN模型框架如圖1所示. t時刻隱藏單元RNN-unit接收網絡前一時刻的隱藏層輸出ht-1和當前輸入層輸入的xt,按隱含層更新方法計算當前時刻的最后一層隱藏層輸出yt+1.
1.2? ?Simple-RNN模型
1.3? ?LSTM模型
1.4? ?E-LSTM模型
研究表明LSTM內部的門控組件在訓練過程中隨機性較強,難以精確學習數據變化趨勢,導致存在突變的數據段預測效果較差.
信息熵通過概率描述事件分布衡量不同概率事件包含的信息量. E-LSTM通過在門控機制中加入與信息熵動態關聯的權重矩陣,使網絡單元在調節權重參數時能自適應動態挖掘異常數據的變化程度特征.
1.4.1? ?信息熵
1.4.2? ?E-LSTM模型
1.4.3? ?E-LSTM模型反向傳播
2? ?實驗與分析
本節結合4個多變量時序數據集評估新提出的E-LSTM模型,并將其性能與其他模型(Simple-RNN、LSTM、GRU)進行比較,所有RNN模型均基于TensorFlow框架實現.
2.1? ?度量指標
2.2? ?數據說明
實驗使用的4個多變量時序數據集為3個股市數據集和1個空氣濕度指數預測數據集,劃分前60%為訓練集,后40%為測試集.
股票數據集:3個股票公開數據集收錄于Kaggle Datasets機器學習庫,分別記作“BAC”、“GS”、“C”. 每個數據集有2 517條記錄,包含5個有效特征(收盤價、開盤價、最低價、最高價、成交量).
空氣濕度指數預測數據集:收錄于UCI機器學習庫,主要記錄在雅典沿海地區的海面濕度數據,數據集記作“USV”. 該數據集有1 672條記錄,包含4個有效特征(設備號、濕度、溫度、報告時間). 數據缺失時,選擇用對應屬性平均值補齊.
2.3? ?參數調優
選擇LSTM網絡作為基準結構. 循環神經網絡訓練均以小批量進行,批次大小為128,所有模型訓練2 000代. 構建E-LSTM預測模型前,預先調整網絡模型的隱含層層數和各層神經元數量. 其中隱含層層數的候選集為{1,2,3} ,神經元數目候選集為{16,32,64,96,128}.
基準結構在設置超參數時采用“控制變量法”. 固定其他參數,從候選集{16,32,64,96,128}中依次選擇神經元數目. 隨著隱含層神經元數量的增加,模型預測性能逐步提升,并在神經元數量為32或64時達到候選集參數的最高精度,當神經元數量超過64時會出現過擬合導致精度下降. 基準模型不同神經元節點數量的具體性能評價指標如表1所示. 后續實驗中,將隱含層神經元的數量設置為64.
2.4? ?權重矩陣分析
為說明E-LSTM模型兩個基于信息熵的權重矩陣的動態調整效果,對訓練過程中Wf1和Wf2的變化進行實驗. 由于權重矩陣維度較高、不易衡量特征向量的變化趨勢,使用頻率直方圖描述訓練過程中權重矩陣的變化,其中橫坐標為權重矩陣Wf1和Wf2的取值,縱坐標為權重矩陣值出現次數. 以數據集“BAC”為例進行實驗,結果如圖6所示,圖6(a)與圖6(b),圖6(c)與圖6(d)分別為訓練初期和結束訓練時的Wf1和Wf2的頻率分布直方圖. 對比圖6(a)、圖6(c)發現Wf1早期部分權重值分布多集中于0,后期部分權重系數上升至1,這說明Wf1捕獲到了數據的突變特征,改變了權重系數. 對比圖6(b)、圖6(d)發現Wf2在訓練過程中發生大幅度變化,0附近的權重參數頻率從4 000下降到3 000,0.5和-0.5附近的權重參數頻率顯著增加,說明Wf2權重變化與數據變化趨勢相關.
實驗結果表明,基于信息熵的權重矩陣Wf1和Wf2在訓練過程中能夠識別出數據的變化趨勢,并做相應的權重調整.
2.5? ?時間分析
2.6? ?實驗對比
根據調優設置參數進行訓練,各模型在4個測試集上實驗結果如表5所示. 其中加粗部分表示傳統循環神經網絡(GRU,LSTM,Simple-RNN)的最優效果,灰色背景表示添加E-LSTM后所有模型的最優效果. 實驗得到以下結論:
傳統循環神經網絡方法中,Simple-RNN結構簡單,針對不同數據集效果差異大,數據集越復雜效果越差. LSTM和GRU兩者性能相當且穩定性均優于Simple-RNN.
與傳統循環神經網絡方法相比,本文提出的E-LSTM模型在4個數據集上的MAE、RMSE和MAPE指標精度更高.
實驗4個數據集預測部分曲線如圖8所示. 顯然E-LSTM模型預測結果在所有數據集上與真實值最接近,預測精度最高. 以數據集C為例,傳統方法(GRU,LSTM,Simple-RNN)在突變數據段處(圖8(b))的預測值與真實值誤差較大,由于基于信息熵的權重矩陣能夠更好地量化數據的變化趨勢,E-LSTM模型在數據變化段的預測值與真實值基本一致,預測效果更優.
3? ?結? ?論
本文提出一種基于信息熵改進門控權重單元的時間序列預測方法,并與Simple-RNN、LSTM、GRU等傳統預測模型進行對比分析. 研究證實E-LSTM可根據輸入數據的特征動態調整新權重矩陣的權重系數,更好地刻畫數據的變化趨勢,實驗結果表明,本文提出的E-LSTM模型對局部突變數據更為敏感,預測精度更高.
在后續的研究中將進一步結合多重分形等技術改進模型的門控權重,細粒度刻畫數據多尺度的變化趨勢,提升模型的預測效率.
參考文獻
[1]? ? BOX G, JENKINS G M, REINSEL G C,et al. Time series analysis:forecasting and control,5th edition[J]. Journal of the Operational Research Society,2015,22(2):199—201.
[2]? ? BENGIO Y,LECUN Y. Scaling learning algorithms toward AI[M]//Large-Scale Kernel Machines.:The MIT Press,2007,34(5):1-41.
[3]? ? BENGIO Y,SIMARD P,FRASCONI P. Learning long-term dependencies with gradient descent is difficult[J]. IEEE Transactions on Neural Networks,1994,5(2):157—166.
[4]? ? TSIRONI E,BARROS P,WEBER C,et al. An analysis of convolutional long-short term memory recurrent neural networks for gesture recognition[J]. Neurocomputing,2017,268:78—86.
[5]? ? 許淼,劉宏飛,初凱. 基于AM-LSTM模型的共享單車時空需求預測[J]. 湖南大學學報(自然科學版),2020,47(12):77—85XU M,LIU H F,CHU K. Spatiotemporal demand prediction of bike-sharing based on AM-LSTM model [J]. Journal of Hunan University (Natural Sciences),2020,47(12):77—85. (In Chinese)
[6]? ? GRAVES A. Long short-term memory[M]. Berlin:Springer,2012:1735—1780.
[7]? ? ZHOU G B,WU J X,ZHANG C L,et al. Minimal gated unit for recurrent neural networks[J]. Int Journal of Automation and Computing,2016,13 (3):226—234.
[8]? ? GERS F A,SCHMIDHUBER J. Recurrent nets that time and count[C]//Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks. NeuralComputing:New Challenges and Perspectives for the New Millennium. Como,Italy:IEEE,2000:189—194.
[9]? ? CHO K,VAN MERRIENBOER B,BAHDANAU D,et al. On the properties of neural machine translation:encoder-decoder approaches[C]//arXiv Preprint arXiv:1409.1259,2014.
[10]? 劉頡羲,陳松燦. 基于混合門單元的非平穩時間序列預測[J]. 計算機研究與發展,2019,56(8):1642—1651.LIU J X,CHEN S C. Non-stationary multivariate time series prediction with MIX gated unit[J]. Journal of Computer Research and Development,2019,56(8):1642—1651. (In Chinese)
[11]? JOZEFOWICZ R,ZAREMBA W,SUTSKEVER I. An empirical exploration of recurrent network architectures[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille,France:JMLR,2015:2342-2350.
[12]? YANG Y. Hybrid method for short-term time series forecasting based on EEMD[J]. IEEE Access,2020,8:61915—61928.
[13]? HAGHIZADEH A,SIAHKAMARI S,HAGHIABI A H,et al. Forecasting flood-prone areas using Shannons entropy model[J]. Journal of Earth System Science,2017,126(3):1—11.
[14]? NAGHIBI S A,POURGHASEMI H R,POURTAGHI Z S,et al. Groundwater qanat potential mapping using frequency ratio and Shannons entropy models in the Moghan watershed,Iran[J]. Earth Science Informatics,2015,8(1):171—186.
[15]? JEFFREY L. ELMAN. Distributed representations,simple recurrent networks,and grammatical structure[J]. Machine Learning,1991,7(2/3):195—225.