基于門控權重單元的多變量時間序列預測

2021-11-04 09:40:20張冬梅李金平李江宋凱旋

湖南大學學報(自然科學版) 2021年10期

關鍵詞：模型

張冬梅，李金平，李江，余想，宋凱旋

（1.中國地質大學計算機學院，湖北武漢 430074；2.湖北省自然資源廳信息中心，湖北武漢 430071）

多變量時間序列預測根據歷史數據對未來進行預測，是近年來研究的熱點問題.多變量序列間存在的相互依賴關系難以學習、特別是突變數據的變化趨勢挖掘困難，導致該類問題的預測精度不高[1].早期研究主要是通過建立加權滑動平均模型、差分整合移動平均自回歸模型等模型進行預測，簡單直觀，但極易損失變量間的動態依賴信息.近年基于淺層機器學習的非參數模型是多變量時間序列預測問題的主流方法，可有效克服序列非線性和變量依賴性強等問題，如支持向量回歸（Support Vector Regression，SVR）、高斯過程回歸（Gaussian Process Regression，GPR）等具有更好的性能，但淺層機器學習方法易過擬合，影響預測精度[2].

早期網絡模型不能解決長期依賴問題，存在梯度消失和梯度爆炸現象[3-4].目前多利用深度學習中的循環神經網絡（Recurrent Neural Network，RNN）模型解決多變量時序預測問題[5].Graves 在RNN 單元中引入記憶單元和門控機制，提出長短期記憶網絡（Long Short-Term Memory，LSTM）[6]，解決RNN 的長期依賴問題.目前對于循環神經網絡的改進多基于LSTM 門控機制的擴展，如Zhou 等提出的最小門控單元（Minimal Gated Unit，MGU）[7]、Gers 等提出的窺視孔連接[8]、Cho 等提出的門控循環單元（Gate Recurrent Unit，GRU）[9]、劉頡曦等提出的混合門單元[10].各類LSTM 變體雖然對LSTM 的結構進行了改進優化，但沒有根本解決門控組件難以學習突變數據變化趨勢的問題，對變化劇烈的時序數據預測效果較差[11-12].

信息熵（Information Entropy）技術通過概率分布計算刻畫數據分布變化，Haghizadeh 等使用信息熵度量災害突發信息，在洪澇災害預防方面取得較好效果[13].Naghibi 等使用信息熵模型預測地下水變化趨勢[14].信息熵對數據變化敏感，可較好度量時序數據的變化程度.針對非穩態數據預測問題，本文對網絡單元的門控機制進行擴展，提出一種新的E-LSTM單元（Entropy-LSTM，E-LSTM）.與同類研究工作不同的是通過引入信息熵技術量化數據變化程度，設置兩個動態調整權重矩陣代替傳統遺忘門權重矩陣，刻畫數據變化趨勢.新單元通過信息熵動態調整權重矩陣，克服了傳統LSTM 單元難以挖掘突變數據段變化趨勢的問題，有效提升了模型的預測精度.

本文主要貢獻有2 個方面：

1）融合信息熵和循環神經網絡技術進行時序序列預測；

2）引入信息熵動態調整權重矩陣擴展門控機制，對時序數據中的突變特征提出新的量化方法和技術，相較于傳統LSTM 預測精度更高.

1 模型

1.1 RNN 預測模型

基于RNN 時序預測模型框架，針對不同問題模型中的RNN 單元采用不同的改進策略，如神經網絡模型中的RNN-unit 可以用簡單循環神經網絡（Simple-Recurrent Neural Network，Simple-RNN）[15]、LSTM 單元等進行替換，整個RNN 模型框架如圖1所示.t 時刻隱藏單元RNN-unit 接收網絡前一時刻的隱藏層輸出ht-1和當前輸入層輸入的xt，按隱含層更新方法計算當前時刻的最后一層隱藏層輸出yt+1.

1.2 Simple-RNN 模型

循環神經網絡是內部存在自連接的神經網絡，通過保持數據中的變量依賴關系處理具有長程相關性的時序序列.由Jordan 和Elman 提出的循環神經網絡框架（稱為簡單循環網絡）是目前廣泛流行的RNN 基礎版本.

Simple-RNN 單元隱含態更新規則為：

式中：ht-1和ht分別表示t-1 時刻和t 時刻的輸出，W為權重調節矩陣.Simple-RNN 單元如圖2 所示.

圖2 Simple-RNN 單元Fig.2 Simple Recurrent Neural Network unit

Simple-RNN 結構過于簡單，當模型深度較大時無法獲取所需的長程信息，出現“梯度消失”、“梯度爆炸”等現象.

1.3 LSTM 模型

LSTM 是一種特殊的RNN 單元，引入記憶單元和門控機制的概念.記憶單元存儲狀態信息，門控機制用于控制何時及如何更新記憶單元的狀態.

LSTM 中含有三類門控單元，分別為輸入門、遺忘門和輸出門，如圖3 所示.

圖3 LSTM 單元Fig.3 Long Short-Term Memory unit

隱含層狀態在t 時刻的傳遞過程為：

式中：it、ft、ot及Wi、Wf、Wo分別表示輸入門、遺忘門和輸出門t 時刻的計算結果和權重矩陣，ct為記憶單元狀態，ht-1和ht分別表示t-1 時刻和t 時刻的輸出，*代表矩陣相乘，⊙表示元素對應相乘，單元間通過控制單元狀態ct和隱含層狀態ht進行信息傳遞.

1.4 E-LSTM 模型

研究表明LSTM 內部的門控組件在訓練過程中隨機性較強，難以精確學習數據變化趨勢，導致存在突變的數據段預測效果較差.

信息熵通過概率描述事件分布衡量不同概率事件包含的信息量.E-LSTM 通過在門控機制中加入與信息熵動態關聯的權重矩陣，使網絡單元在調節權重參數時能自適應動態挖掘異常數據的變化程度特征.

1.4.1 信息熵

隨機變量X 的信息熵H 定義如下：

式中：X 為{x1，x2，…，xn}，E 是期望，p（X）是X 的概率質量函數.

當樣本有限時，隨機變量X 的信息熵H 定義如下：

計算信息熵時，已知某種序列值域Z=[cmin，cmax]中包含N 個數據，按升序將Z 劃分為10 等份，記第l個區間為Zl，l∈[1，10].假設序列落在區間Zl中的數據點的個數為numZl，則序列信息熵計算概率為

1.4.2 E-LSTM 模型

在LSTM 門控組件中，遺忘門對模型性能影響最大[12].當前門控機制研究多通過減少門控單元加快模型訓練速度，難以挖掘出數據變化趨勢.本文設計新的E-LSTM 單元，引入基于信息熵值的改進權重矩陣代替傳統遺忘門矩陣.新單元加強了遺忘門的記憶能力，根據信息熵量化數據特征，自適應動態調整特征權重.

E-LSTM 模型將原始遺忘門權重矩陣設計為兩個新的遺忘門矩陣Wf1，Wf2，分別與已激活信息熵σ（E）和1-σ（E）對應元素相乘得到臨時門控輸出f 1t，f 2t，如圖4 所示.

圖4 E-LSTM 單元Fig.4 Entropy-Long Short-Term Memory unit

按時間步計算，臨時門控輸出結果f1t和f2t相加得到整體遺忘門ft，E-LSTM 使用整體遺忘門代替傳統LSTM 遺忘門參與計算，其余更新狀態的方式與LSTM 保持相同.對應門控計算流程為：

式中：f 1t、f 2t分別代表兩個臨時遺忘門；Wf1、Wf2分別代表兩個臨時遺忘門矩陣；E 為輸入數據的信息熵矩陣.

1.4.3 E-LSTM 模型反向傳播

E-LSTM 的工作方式與LSTM 基本相同，區別是在反向傳播時根據序列的熵值自適應動態調整權重.

根據E-LSTM 向前傳播規則以及公式（12）將整體遺忘門ft表示為兩個臨時遺忘門f1t和f2t，忽略偏置項，使用It表示輸入矩陣，E-LSTM 正向傳播矩陣zt為：

式中：wd，ud是權重W 矩陣分塊表示后的結果，d∈{i，f1，f2，c，o}.

設定損失函數為L，已知δht=，δ 為偏導，推得：

將時間T 內的所有δWt累加，得到權重矩陣梯度δW.

δW 中整體遺忘門權重矩陣梯度由δf 1t、δf 2t共同確定，其中δf1t與σ（E）呈正相關，δf2t與σ（E）呈負相關.E-LSTM 分別通過δf1t、δf2t調整遺忘門權重矩陣權值，刻畫信息變化程度.

2 實驗與分析

本節結合4 個多變量時序數據集評估新提出的E-LSTM 模型，并將其性能與其他模型（Simple-RNN、LSTM、GRU）進行比較，所有RNN 模型均基于TensorFlow 框架實現.

2.1 度量指標

本文選擇平均絕對誤差MAE 和平均絕對百分比誤差MAPE 作為評估模型性能指標.并使用均方根誤差RMSE 作為模型訓練的損失函數，訓練時依據各批量RMSE 值進行反向傳播操作.度量指標定義如下：

式中：n 是樣本總數，ypredict是預測值，yactual是真實值.

2.2 數據說明

實驗使用的4 個多變量時序數據集為3 個股市數據集和1 個空氣濕度指數預測數據集，劃分前60%為訓練集，后40%為測試集.

股票數據集：3 個股票公開數據集收錄于Kaggle Datasets 機器學習庫，分別記作“BAC”、“GS”、“C”.每個數據集有2 517 條記錄，包含5 個有效特征（收盤價、開盤價、最低價、最高價、成交量）.

空氣濕度指數預測數據集：收錄于UCI 機器學習庫，主要記錄在雅典沿海地區的海面濕度數據，數據集記作“USV”.該數據集有1 672 條記錄，包含4個有效特征（設備號、濕度、溫度、報告時間）.數據缺失時，選擇用對應屬性平均值補齊.

2.3 參數調優

選擇LSTM 網絡作為基準結構.循環神經網絡訓練均以小批量進行，批次大小為128，所有模型訓練2 000 代.構建E-LSTM 預測模型前，預先調整網絡模型的隱含層層數和各層神經元數量.其中隱含層層數的候選集為{1，2，3}，神經元數目候選集為{16，32，64，96，128}.

基準結構在設置超參數時采用“控制變量法”.固定其他參數，從候選集{16，32，64，96，128}中依次選擇神經元數目.隨著隱含層神經元數量的增加，模型預測性能逐步提升，并在神經元數量為32 或64時達到候選集參數的最高精度，當神經元數量超過64 時會出現過擬合導致精度下降.基準模型不同神經元節點數量的具體性能評價指標如表1 所示.后續實驗中，將隱含層神經元的數量設置為64.

表1 LSTM 不同神經元節點數量的指標值Tab.1 The index value of different neuron nodes size in LSTM

確定神經元數目后更改隱含層層數，結果如表2所示.

表2 LSTM 不同隱含層層數的精度變化Tab.2 Accuracy of LSTM with different hidden layers

實驗結果表明，層數較少的深度學習模型不能滿足復雜數據集的精度要求，而層數較多又會存在“長期依賴”問題，結果如圖5 所示.根據實驗結果隱含層層數設為2 時模型預測效果最優.

圖5 LSTM 模型中隱含層層數的影響Fig.5 Influence of hidden layer of LSTM modle

為公平起見，實驗中所有深度學習模型都使用相同的隱藏層和神經元數量，最終設置2 層隱含層單元，每層包含64 個神經元，有且僅有1 個神經元的全連接層作為輸出層.

2.4 權重矩陣分析

為說明E-LSTM 模型兩個基于信息熵的權重矩陣的動態調整效果，對訓練過程中Wf1和Wf2的變化進行實驗.由于權重矩陣維度較高、不易衡量特征向量的變化趨勢，使用頻率直方圖描述訓練過程中權重矩陣的變化，其中橫坐標為權重矩陣Wf1和Wf2的取值，縱坐標為權重矩陣值出現次數.以數據集“BAC”為例進行實驗，結果如圖6 所示，圖6（a）與圖6（b），圖6（c）與圖6（d）分別為訓練初期和結束訓練時的Wf1和Wf2的頻率分布直方圖.對比圖6（a）、圖6（c）發現Wf1早期部分權重值分布多集中于0，后期部分權重系數上升至1，這說明Wf1捕獲到了數據的突變特征，改變了權重系數.對比圖6（b）、圖6（d）發現Wf2在訓練過程中發生大幅度變化，0 附近的權重參數頻率從4 000 下降到3 000，0.5 和-0.5 附近的權重參數頻率顯著增加，說明Wf2權重變化與數據變化趨勢相關.

圖6 不同訓練時期權重矩陣Wf1 和Wf2 的動態變化Fig.6 Dynamic change of weight matrx Wf1 and Wf2 in different periods

實驗結果表明，基于信息熵的權重矩陣Wf1和Wf2在訓練過程中能夠識別出數據的變化趨勢，并做相應的權重調整.

2.5 時間分析

為衡量新引入的門控權重矩陣對算法時間效率的影響，以數據集C 為例，將E-LSTM 與基準模型型LSTM 開展時間開銷對比分析.設置時間消耗比p作為測試指標，定義如下：

式中：tE-LSTM是新模型消耗時間；tLSTM是基準結構消耗時間；p 為時間消耗比.

實驗對比相同迭代代數和收斂條件下的時間開銷，結果分別如表3 和表4 所示.設定迭代代數為150 代，基準模型時間開銷為10 808.98 ms，改進模型為11 802.453 ms，時間消耗比為0.091，相同代數下改進模型的計算開銷略大.但由于增加了門控權重矩陣計算，在相同收斂條件下，改進模型的初始訓練誤差低于基準模型，擁有更快的收斂速度.基準模型收斂總體時間開銷為14 413.4 72 ms，改進模型為11 574.089 ms，時間消耗比為-0.196.兩類模型收斂曲線如圖7 所示.綜上所述新算法效率更高.

圖7 LSTM 和E-LSTM 模型在數據集C 上的收斂曲線Fig.7 Convergence curves of LSTM and E-LSTM on dataset C

表3 相同代數下性能比較Tab.3 Performance comparision under the same algebra

表4 收斂條件下性能比較Tab.4 Performance comparision under the same converger condition

2.6 實驗對比

根據調優設置參數進行訓練，各模型在4 個測試集上實驗結果如表5 所示.其中加粗部分表示傳統循環神經網絡（GRU，LSTM，Simple-RNN）的最優效果，灰色背景表示添加E-LSTM 后所有模型的最優效果.實驗得到以下結論：

傳統循環神經網絡方法中，Simple-RNN 結構簡單，針對不同數據集效果差異大，數據集越復雜效果越差.LSTM 和GRU 兩者性能相當且穩定性均優于Simple-RNN.

與傳統循環神經網絡方法相比，本文提出的ELSTM 模型在4 個數據集上的MAE、RMSE 和MAPE指標精度更高.

實驗4 個數據集預測部分曲線如圖8 所示.顯然E-LSTM 模型預測結果在所有數據集上與真實值最接近，預測精度最高.以數據集C 為例，傳統方法（GRU，LSTM，Simple-RNN）在突變數據段處（圖8（b））的預測值與真實值誤差較大，由于基于信息熵的權重矩陣能夠更好地量化數據的變化趨勢，ELSTM 模型在數據變化段的預測值與真實值基本一致，預測效果更優.

3 結論

本文提出一種基于信息熵改進門控權重單元的時間序列預測方法，并與Simple-RNN、LSTM、GRU等傳統預測模型進行對比分析.研究證實E-LSTM可根據輸入數據的特征動態調整新權重矩陣的權重系數，更好地刻畫數據的變化趨勢，實驗結果表明，本文提出的E-LSTM 模型對局部突變數據更為敏感，預測精度更高.

在后續的研究中將進一步結合多重分形等技術改進模型的門控權重，細粒度刻畫數據多尺度的變化趨勢，提升模型的預測效率.