朱非林,侯添甜,梁一帆,任瑞杰
(河海大學水文水資源學院,江蘇 南京 210024)
中長期徑流預報是流域水資源配置、水旱災害防御、水利工程運行調度等諸多工作的重要決策依據。影響中長期徑流預測的多方面因子與預測要素之間具有十分繁雜的聯系,中長期徑流預報一直是水文水資源和大氣科學領域內的一個難點方向。
近十幾年來,中長期徑流預報得到了國內外學者的普遍關注,相關預報理論方法得到了快速發展。與短期徑流預報相比,因為沒有可靠的氣象預報,且預見期較長、大氣環流等影響因素異常復雜,中長期徑流預報的方法原理普遍缺乏機理。現有的中長期徑流預測方法可分為時間序列統計模型和機器學習模型。時間序列預測方法是指通過類比推導或時間序列線性延伸所反映出的發展方向,以預測未來情況[1]。該方法一般適用于線性或平穩的數據序列,難以刻畫序列中的非平穩特征[2-3]。機器學習通過研究計算機如何模擬或實現人的學習行為來獲得提高自身性能的新知識,它具有從大數據集中自動總結歸納信息的能力,可以捕獲徑流序列中的非平穩和非線性特征[4]。例如,盧敏等將支持向量機(SVM)應用于徑流預測中,可以較好地處理高度非線性問題[5]。趙銅鐵鋼為提高徑流預報精度,將隨機森林模型應用于長江中上游枯水期徑流預報中[6]。Sivakumar等利用人工神經網絡和相空間重構方法對河流動態進行了預測[7]。盡管機器學習方法已在水文預報領域取得大量應用,仍難以滿足復雜情形下的應用需求。近年來,計算機技術和人工智能已經發展至新階段,以深度學習為代表的機器學習方法受到廣泛關注[8]。作為更有效的深度學習方法,長短期記憶神經網絡(LSTM)可以從原始數據中辨析出更深層次的特征數據,解決現有徑流預測方法存在的長期記憶能力欠缺和梯度消失、梯度爆炸等問題,在進一步提升中長期徑流預測的精度和效率方面具有明顯優勢。
受氣候、下墊面及人類活動等綜合作用,由多種頻率組成的徑流序列具有隨機性強、平穩性低且線性特征不明顯的特點,采用單一預報模型直接預測徑流的精度受到一定限制。信號分解技術可將徑流序列分解為若干相對穩定的分量,有效去除序列中的干擾信息,提高信噪比,將其與機器學習模型結合,可提高預測精度。近年來,信號分解技術在諸多領域取得了成功應用[9]。Meng等將經驗模態分解與支持向量機相結合,實現渭河流域的月徑流預測[10]。周婷等構建了基于小波分解的WD-SVM-PSO模型,并對響洪甸水庫徑流過程進行了預測[11]。李繼清等采用極點對稱模態分解(ESMD)方法處理原始徑流序列,提出了ESMD-BP耦合模型[12]。現有研究表明,組合預測模型是進一步提升原始模型預測效果的有效手段;但傳統分解方法仍面臨最佳篩選次數難以確定、抗噪能力弱、分量波形混疊、趨勢項粗略等問題。變分模態分解(VMD)可以有效克服現有分解方法存在的端點發散效應和分量波形混疊的缺點,具有良好的抗噪性和更堅實的數學理論基礎。
鑒于此,本文采用“分解-預測-重構”的思路,結合變分模態分解方法與長短期記憶神經網絡,構建中長期VMD-LSTM組合預測模型。先利用VMD方法將徑流分解為若干相對平穩的子序列,再構建LSTM模型對子序列進行單獨預測和二次重構;從而探討不同預測步長對徑流預測精度的影響,為水庫中長期徑流預測提供借鑒和參考。
變分模式分解(Variational Modal Decomposition,VMD)具有自動調整的能力,是一種完全非遞歸的處理信號和分解模態的方法[13]。該方法利用非遞歸方式,可以降低非平穩性和非線性強的時間序列復雜程度,分解得到多個不同頻率的分量[14]。
構建、分析和求解變分問題是VMD的核心,分解原始序列為K個子序列,其具體步驟為:①為獲取各子分量的單向頻譜,利用希爾伯特變換對其解析信號進行逐個計算;②針對各子分量,根據其中心頻率,把頻譜調至相應基帶;③依據高斯平滑度對信號進行解調,估算分解模態的頻率范圍,構建以模態估計帶寬之和最小為目標,以所有模態之和與原始信號相等為約束條件的變分問題,數學表達式為
(1)
式中,uk和ωk分別為第k個模態分量和其中心頻率;δ(t)為單位脈沖函數。
利用VMD算法進行徑流序列分解的計算流程見圖1。

圖1 VMD算法用于徑流序列分解的計算流程
長短期記憶神經網絡(Long Short-Term Memory,LSTM)是一種特殊的循環神經網絡(Recurrent Neural Networks,RNN)。對于有長程依賴關系的時間序列預測問題,LSTM神經網絡可以解決傳統神經網絡存在的弊端,如梯度消失和梯度爆炸等,在非線性徑流序列預測方面具有更明顯的優勢[15]。
如圖2所示,LSTM單元由遺忘門ft、輸入門it、細胞狀態Ct和輸出門Qt構成:

圖2 LSTM徑流預測原理結構
(1)遺忘門,決定應遺忘的信息。即
ft=σ(Wf[ht-1,xt]+bf)
(2)
(2)輸入門,選擇記錄到細胞狀態的信息。即
it=σ(Wi[ht-1,xt]+bi)
(3)
(4)
(3)更新細胞狀態。即
(5)
(4)輸出門,選擇攜帶到下一個神經元的信息。即
Ot=σ(Wo[ht-1,xt]+bo)
(6)
ht=Ottanh(Ct)
(7)

本文采用“分解-預測-重構”的思路,將VMD與LSTM兩種方法相耦合,發揮兩種方式各自的長處,構建了基于VMD-LSTM的中長期徑流組合預測模型。模型計算過程如圖3所示,主要有以下幾個步驟:

圖3 基于VMD-LSTM的中長期徑流組合預測模型計算流程
(1)調試VMD參數,分解徑流序列,得到一系列從高頻到低頻的平穩模態分量(IMF1,IMF2,…,IMFK)。
(2)對于VMD分解得到的每個分量,單獨構建相應的LSTM模型。將一系列平穩分量作歸一化處理,設置預測步長為1、2、3個月,通過已分解的實際徑流序列訓練和預測LSTM模型,得到各成分的預測值。
(3)加和重構各分量預測值,得到組合模型預測結果。
(4)選取一些誤差指標,如均方根誤差等,評價模型性能。
為了評估徑流預測效果,本文以均方根誤差(Root Mean Square Error,RMSE)、平均絕對誤差(Mean Absolute Error,MAE)和平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)作為評價指標。計算公式如下
(8)
(8)
(8)

金溪作為福建省閩江支流富屯溪的最大一級支流,其流域屬于亞熱帶濕潤季風型山地氣候,降雨具有量大但年內時程分配不均的特點。池潭水庫作為金溪干流水電梯級的第一級龍頭水庫,設計以發電為主,兼顧防洪等綜合利用,其地理位置如圖4所示。研究所采取的數據為池潭水庫1951年~2020年共70 a逐月徑流資料,其中前49年數據用于模型訓練,后21年的數據用于模型驗證。

圖4 池潭水庫的地理位置示意
VMD分解效果主要受分解層數K影響,若K取值過大,相鄰模態分量的中心頻率則會過于相近,引起分量波形混疊問題;若K取值偏小,部分原始信號中的信息容易被忽略,影響后續預測精度。不同的模態區別主要在于中心頻率的差異,當出現相似頻率,即選取此模態數K。為確定合適的模態數值,本文觀察不同K值下中心頻率的分布[16]。表1為不同分解層數下各分量的中心頻率,K為7與K為8時中心頻率趨于穩定,因此選取K=7作為最終的分解層數。

表1 不同分解層數下各分量的中心頻率
將實際徑流序列分解為7個分量,分解結果見圖5。與原始單一徑流序列相比,分解后的各分量均具有較為明顯的變化趨勢。其中,分量IMF1的波形起伏最為平緩,振蕩及頻率大幅降低。后續各分量的變化幅度逐漸減小,但振蕩頻率則逐漸增大。例如,IMF5、IMF6、IMF7波動十分劇烈,但由于其變幅相對較小;故,在徑流重構中IMF1仍占主導地位。

圖5 月徑流序列的VMD分解結果
為探究VMD方法對中長期徑流預測模型效果的影響,分別采用LSTM單一模型與VMD-LSTM組合模型對徑流進行預測,預測結果見圖6。

圖6 VMD-LSTM組合模型與LSTM單一模型徑流預測結果對比
由圖6可知,在相同預測步長下,兩組模型預測的徑流變化與實際徑流過程較為吻合,表明LSTM方法的非線性擬合能力較強。與單一模型相比,基于分解-重構策略的VMD-LSTM組合預測模型的預測值與實測值的接近程度明顯較高,尤其在徑流極值處,組合模型預測的效果更優,精度更高。結合誤差分析,組合模型的預報誤差與單一模型的直接預報誤差相比顯著降低,表明VMD分解可以有效提升LSTM單一模型的徑流預測精度。
3種不同預測步長下VMD-LSTM組合模型對池潭水庫徑流序列預測結果對比分析如圖7所示。當預測步長為1時,點線吻合程度最高;隨著預測步長增加,吻合程度逐漸降低。為得到更直觀的結果,將不同預測步長下實測徑流與組合模型預測結果做線性擬合分析,得到右列散點圖,其中R2為確定性系數,表示因變量Y的變異中可由自變量X解釋的部分所占的百分比,即擬合程度,計算公式為

圖7 不同預測步長下的VMD-LSTM組合模型預測結果對比
(11)

可以看出,隨著預測步長增加,R2逐漸減小,擬合效果降低;同時,擬合線斜率分別為0.765、0.706、0.630,圖像偏離1∶1直線的程度逐漸加大,預測精度降低,表明預測步長的增加會導致模型預測性能降低。
為了進一步對VMD-LSTM組合模型的有效性進行定量評估,本文選取RMSE、MAE、MAPE三種誤差指標對經過變分模態分解和未經分解的模型預測結果進行了對比(見表2)。由表2和圖7可知,當預測步長一定時,與LSTM單一模型相比,VMD分解能顯著降低LSTM模型的預測誤差。當預測步長為1時,組合模型的RMSE、MAE、MAPE指標值降幅分別為52.6%、49.9%、45.1%,確定性系數為0.84;當預測步長為2時,組合模型的指標值分別降低了51.4%、50.1%、49.9%,確定性系數為0.77;當預測步長為3時,組合模型的指標值分別降低了46.3%、44.4%、43.1%,確定性系數為0.68。由此可見,VMD-LSTM組合模型在預測精度上明顯提高。

表2 單一LSTM模型和VMD-LSTM組合模型評價指標計算結果
圖8、9分別為LSTM單一模型、VMD-LSTM模型多步預測的徑流誤差。由表2以及圖8、9可知,不管是LSTM單一模型還是VMD-LSTM模型,預報誤差均隨預報步長增加而增大。隨著預測步長的增加,單一預測模型的誤差指標增幅為15%左右,組合預測模型的指標值增幅為10%左右。

圖8 LSTM單一模型多步預測的徑流誤差

圖9 VMD-LSTM組合模型多步預測的徑流誤差
綜上所述,本文構建的VMD-LSTM中長期徑流組合預測模型可以充分發揮VMD與LSTM方法各自的優勢,表現出明顯優于LSTM單一模型的預測精度和穩定性。
中長期徑流預測是水資源開發與調度、水旱災害防治、水庫運行與管理的重要支撐。按照“分解-預測-重構”的模型架構,本文結合信號分解與神經網絡,構建了基于VMD-LSTM的中長期徑流組合預測模型。以金溪流域池潭水庫的月徑流預測為實例對模型預測性能進行了分析論證,主要結論如下:
(1)基于“分解-預測-重構”策略的VMD-LSTM組合預測模型結合了VMD方法平穩化處理技術和LSTM神經網絡模型深度學習的優勢,可有效降低徑流序列非平穩性對預測精度的影響,具有預測準確率高和穩定性好等優點。
(2)耦合VMD分解方法可以顯著提高LSTM單一模型的預測精度。
(3)時間尺度的選擇影響徑流預報的準確性,對于LSTM單一模型和VMD-LSTM組合模型,預測步長增加,預測誤差隨之增大。
(4)VMD-LSTM模型徑流預測效果良好,可以為水庫中長期調度計劃編制與水資源規劃管理提供決策依據,也提供了相關時間序列預測的研究思路。