









摘 要:黃河徑流具有非穩態、非線性的特點,為了給河南省保障水安全等提供參考,對黃河三門峽水文站非汛期流量進行了研究。構建變分模態分解(VMD)與長短期記憶網絡(LSTM)、支持向量回歸機( SVR) 相結合的非汛期徑流預測模型,利用麻雀優化算法(SSA)調節模型參數以提高預測精度。采用VMD 算法將非汛期流量數據分解為多個本征模函數(IMF),基于K-Means 聚類法計算分量間的歐氏距離,將歐氏距離的倒數作為各分量的權重,最后將各分量結果輸入LSTM/ SVR 進行模型預測,加權重構分量預測值得到流量預測結果,并與加權前后VMD-SSA-LSTM、VMD-SSA-SVR 模型進行對比。結果顯示,提出的K-Means 加權VMD-SSALSTM模型預測三門峽水文站2003 年1 月—2023 年5 月(非汛期月份)每日平均流量,平均絕對誤差為82.54 m3 / s、均方根誤差為106.64 m3 / s、擬合優度達0.92,能有效預測非汛期流量。
關鍵詞:徑流預測;變分模態分解;LSTM;SVR;K-Means 聚類;黃河流域
中圖分類號:TV734.1;TV882.1 文獻標志碼:A doi:10.3969/ j.issn.1000-1379.2025.04.007
引用格式:程桂芳,周蕓.黃河三門峽水文站非汛期流量預測研究[J].人民黃河,2025,47(4):38-43,57.
0 引言
早期的水文預報主要通過構建回歸模型進行數據分析,但是多次試驗表明單一的驅動模型無法克服徑流非穩態的問題,導致預測值與實測值之間出現較大偏差。隨著科學算法的升級,機器學習的誕生成功攻克非穩態問題,許多學者將各種機器學習模型廣泛運用于水文預報研究中。如:唐怡[1] 分析盤龍河流域枯季月徑流時,分別構建常規模型和BP(Back Propaga?tion)神經網絡模型對徑流量進行預測,對比兩模型的預測結果得出BP 神經網絡模型的預測值與實測值更加接近;巴歡歡等[2] 通過構建組合模型,在人工神經網絡的基礎上引進小波基函數,預測徑流量結果顯示小波變換預處理后的模型精度得到了提高;董云程[3]應用自回歸平均( Autoregressive Moving Average,ARMA) 模型和長短期神經網絡( Long Short TermMemory,LSTM)對不同水廠供水量進行預測,結果顯示相比傳統ARMA、LSTM 模型,LSTM-ARMA 組合模型的預測精度更高;方巍[4] 把魏家堡水文站月徑流量作為研究對象,分別用粒子群算法和灰狼優化算法優化最小二乘支持向量機(Least Squares Support VectorMachine, LSSVM)模型,對比顯示灰狼優化算法收斂效果較好,構建變分模態分解的灰狼優化LSSVM 模型對數據進行預報,結果顯示優化模型的預測效果優于未優化模型的。
近年來信號分解技術有效解決了非穩態序列的問題,該技術通過在復雜的信號中盡可能提取隱藏于信號中的特征使得序列平穩化。如:馬超等[5] 在對三峽水庫徑流進行分析時發現,與神經網絡相比,結合經驗模式分解算法的神經網絡不僅能夠呈現突變特征,而且具有更好的精確性;呂晗芳等[6] 基于變分模態分解VMD(Variational Mode Decomposition)、經驗模態分解以及總體經驗模態分解,得到序列分量IMF(IntrinsicMode Function) 和殘差,并對得到的IMF 分量利用LSSVM 模型進行處理預測,通過疊加分量預測結果重組得到3 個不同組合模型的徑流預測結果,結果顯示VMD-LSSVM 模型適用于復雜的多頻月徑流預測;桑雨婷等[7] 綜合使用集合經驗模態分解方法和BP 神經網絡方法進行數據分析,將集合經驗模態分解CEEMD(Complete Ensemble Empirical Mode Decomposition)和BP 神經網絡結合構建組合模型,通過預測分量再重構的方式獲得月徑流量預測結果,對比發現組合模型預測精度與其他方法相比具有更好的精確性;邢貞相等[8] 對LSSVM 模型進行優化改進,運用CEEMD 去掉序列中的高頻項,運用CEEMD-LSSVM 模型對數據進行分析與處理,該模型精度和準確性與LSSVM 模型相比均有較高的提升。
黃河流經青海、四川、甘肅、寧夏、內蒙古、山西、陜西、河南和山東九省(區),流域面積79.5 萬km2,是中華文明的主要發祥地,是我國重要的生態屏障、重要的經濟地帶和鞏固全面建成小康社會的重要區域。黃河素有“鐵頭銅尾豆腐腰”之稱,黃河河南段就處于“豆腐腰”位置,黃河流經桃花峪后驟然變寬,水沙關系十分復雜。本文對黃河三門峽水文站非汛期流量進行深入分析,以期為河南省保障水安全等提供參考。
1 研究方法
1.1 變分模態分解算法
變分模態分解算法(VMD)是一種新的、效果更好的信號分析方法,可以控制帶寬從而抑制模態混疊現象[9] ,通過構建變分問題,不斷更新各分量的帶寬和中心頻率直至獲得最優解。VMD 分解可將非平穩、波動大、規律弱的信號分解為不同模態的本征模函數,所得的IMF 都是平穩的,頻率按照由低至高排列,具有一定的規律性。
1.2 長短期神經網絡
長短期神經網絡(LSTM)采用當前的科學算法搭建類似于人腦系統中的神經元細胞,并運用多節點連接許多神經元[10] ,如同生物體內細胞傳遞信息的方式。模型內部結構由輸入層、輸出層和隱藏層組成,輸入層負責數據讀取,輸出層負責數據寫入,隱藏層負責數據重置。3 個層之間相互獨立又相互連接,如同細胞在人體血液傳遞一樣各層之間也進行著信息傳遞,具體結構見圖1。
1.3 麻雀優化算法
麻雀優化算法(Sparrow Search Algorithm, SSA)在2020 年被首次提出,該算法的提出起因于麻雀覓食與反捕食行為,在麻雀集群中,群體將會劃分出不同的角色,如發現者、警戒者、加入者,更新迭代個體位置信息計算最優值[11] 。與其他優化算法相比,其獨特之處在于尋優過程中能有效降低粒子過早陷入局部最優解的風險,提高平衡全局搜尋和局部搜尋的能力、粒子的收斂精度。
1.4 加權VMD-SSA-LSTM / SVR 模型
本文采用加權VMD-SSA-LSTM/ SVR 模型對三門峽水文站2003 年1 月至2023 年5 月(非汛期月份)每日平均流量進行預測分析,具體操作步驟如下。
步驟一:首先對徑流數據進行預處理,刪除缺失值;再利用變分模態分解(VMD)得到不同頻率的IMF分量。
步驟二:對特征分量IMF 進行均一化處理,把各分量的均值和方差作為K-Means 聚類法的分類依據,劃分為不同類之后選取均值較大、方差較小的分量為聚類中心,計算類中各分量到聚類中心的歐氏距離的倒數,所得值即為各分量的權重。
步驟三:將分量數據集的80%劃為訓練集、20%劃為測試集,依次將各分量輸入LSTM/ SVR 進行模型訓練和測試,再采用麻雀優化算法尋找模型最佳參數。
步驟四:將各分量預測結果按照各自的權重重構得到最終預測結果。采用平均絕對誤差、均方根誤差、擬合優度和平均百分比絕對誤差4 個統計指標對比不同模型的預測結果。
模型技術路線見圖2。
2 實例驗證與結果分析
2.1 數據分析
數據分析在Windows 64 操作系統、內存16 G 的實驗環境以及Python 3.9.6 編程器Pycharm 下進行。
徑流數據來源于黃河水利委員會官網,所有數據均按照國家標準進行測量和檢驗,具有可靠性和真實性。
數據集中存在少量缺失值,如果采用插值法處理缺失值,無法保證數據以及預測結果的真實性,故采用刪除的方式處理缺失值以保證數據的真實性和有效性。三門峽水文站汛期(7—10 月)徑流數據約占全年徑流數據的62%,非汛期(11 月—次年6 月) 徑流數據占38%,即影響非汛期數據的主要因素是前期徑流,故本文剔除數據集汛期月份的徑流數據,僅對數據集中非汛期月份每日平均流量進行探究分析。
三門峽水文站的日均流量過程比較平穩,大部分日均流量在(0,2 000]區間。數據存在周期性特征,主要原因是夏秋季節降水集中且量大,雨水補給多,徑流量大,冬季因降水減少而徑流量變小,冬夏兩季徑流量差異較大。
通過計算統計指標如最值、標準差、峰度、偏度等展現徑流的特點。其中,偏度是衡量數據分布形態對稱程度的指標,越靠近0 說明序列整體分布越均勻。峰度是衡量數據概率密度分布曲線頂端尖峭程度的指標,通常以超值峰度指標判斷數據的整體分布[12] 。
三門峽非汛期最大流量為4 370 m3 / s,最小流量為6 m3 / s,標準差為593.89 m3 / s,超值峰度為3.25,偏度為1.34。超值峰度大于正態分布超值峰度,說明其概率密度分布曲線較為陡峭;數據偏度小于2,說明流量數據主要分布在均值的右側,大部分流量數據大于均值,少部分流量數據偏小,分布形態不對稱。
2.2 數據處理及分解
在變分模態分解中懲罰因子和模態個數的選擇直接影響分解速度和分解效率,若參數過大,則會造成模態混疊;參數過小,則分解序列時極易過濾掉原信號中的重要信息。此外,由于不同模態具有不同的中心頻率,因此需要根據不同模態數下中心頻率分布確定合適模態個數和懲罰因子。本文直接引入白鯨優化算法[13] 優化VMD,經過白鯨優化算法使得變頻分解局部包絡熵最小化,分解更充分。分解后獲得各分量頻譜見圖3。
三門峽流量數據分解為3 個本征模函數IMF1、IMF2、IMF3 和一個趨勢項Res,頻譜圖由低頻分量到高頻分量逐漸平穩,低頻分量與高頻分量的區別在于上下包絡線是否對稱,上下包絡線是通過連接許多信號峰值點形成的,當包絡線對稱時,說明分量數據均值趨于0。各分量頻率越高,規律性則越強,圖像波動近似正弦波[14] 。三門峽非汛期流量數據分解模態見圖4,各分量成分可以展示日均流量時間序列的突變特性。在懲罰因子為58、模態個數為3 時,每個成分呈錯峰排列,且較為集中,其中模態三中出現模態重疊的趨勢,說明此時不能再繼續分解,否則會造成多余白噪聲干擾預測過程。
2.3 分量賦權
K-Means 算法中,歐氏距離經常被用作表達數據集之間相似程度的特征值[15] 。因此,選擇歐氏距離來表示原序列與其經過分解的分量之間的相似度。通過對三門峽流量序列分解分量進行聚類分析,利用各分量的均值和方差作為分類依據對分量進行歸類,選取類中方差較小、平均值較大的分量作為聚類中心,對各分量數據進行均一化處理,計算類中各分量的歐氏距離,規定權重如下:
w =1/ x+1 (1)
式中:x 為兩分量間的歐氏距離。
采用K-Means 法對分量進行賦權,采用簇內誤差(SSE)與類間分離度和類內緊密度的比值(CH)作為衡量聚類結果的參數。理論上SSE 越小、CH 越大,說明聚類效果越好。
分類數k =3 時,SSE 趨于極小值并且出現較大拐點,CH 值達到極大值,結合這兩個指標,取三門峽站分類數k =3。三門峽站非汛期流量數據的分量序列分類情況:將IMF1 歸為一類,IMF2 歸為一類,IMF3 和Res 歸為一類,且將Res 定為該類的聚類中心。之后對各分量進行均一化處理,并根據均一化的均值和方差求得各分量的權重,IMF1、IMF2、Res 權重為1,IMF3權重為0.94。2.4 分量預測
2.4.1 LSTM 預測分量
在預測模型建模過程中,最為關鍵的是尋找到模型的最優參數[16] ,它直接影響模型最終的預測精度,當參數選擇不佳時,容易引起過擬合或者擬合不當的問題。引入麻雀優化算法(SSA)尋得一組最優參數使得誤差達到最小。本文優化器optimizer( )采用最小化LSTM 網絡的誤差為適應度函數,同時定義update_finder( )函數發出預警,觀察捕食者出現,且定義self.update_follower( )函數更新跟隨,并剔除超邊界的變量。本文在Keras 框架內搭建LSTM,優化超參數為學習率和隱藏層節點數,其中麻雀優化算法的參數配置為:層級數為4,種群數量為22,最大運行次數為128,批次數量為32。得到優化后的模型后,對分量采用長短期神經網絡和麻雀優化算法的長短期記憶網絡進行預測,預測方式為滾動預測,即用前5 個數據預測第6 個值,三門峽非汛期流量數據各分量預測結果對比如圖5所示。
基于平均絕對誤差、均方根誤差、擬合優度和平均百分比絕對誤差比較各模型的優勢。表1 為麻雀優化前后長短期神經網絡預測各分量指標對比,由圖5、表1 可知:與LSTM 相比,對分量IMF1 進行預測時,優化過后長短期神經網絡預測曲線與實測值曲線貼合度更高,尤其極大值和極小值擬合度表現更好,預測值與實測值的誤差較小,平均絕對誤差為31. 06 m3 / s,比LSTM 的平均絕對誤差降低了32%,擬合優度提高了47.3%,說明SSA-LSTM 對IMF1 預測準確率較高。麻雀優化算法改進的長短期神經網絡對IMF2 的預測效果沒有IMF1 理想,雖然實測值曲線與預測值曲線重合度較高,但是在極值部分存在偏離的情況,整體預測表現一般,SSA-LSTM 均方根誤差比LSTM 降低了28%。對于高頻分量IMF3,優化過的神經網絡的優勢仍然凸顯,SSA-LSTM 預測結果平均絕對誤差降低了39%,均方根誤差降低了40%,擬合優度提升了88%。但是麻雀優化算法長短期神經網絡對IMF3 極值擬合效果較差,出現明顯偏大情況,此時擬合優度不超過0.8,誤差較大,實測值與預測值差異較大。對于趨勢項Res 的預測,SSA-LSTM 預測曲線重合度極低,只有少部分數據區間預測值接近實測值,擬合優度只有0.1,即使對模型參數進行了尋優,也沒有極大提高長短期神經網絡對趨勢項分量的預測精度。
2.4.2 SVR 預測分量
支持向量回歸機( Support Vector Regression,SVR)擺脫生物仿生學習機器限制,拓寬在模型識別和非線性分類等領域的應用。與神經網絡相比,可以有效地解決約束條件下的高維數據運算難的模型建立問題,避免維度爆炸,泛化能力強。
采用麻雀優化算法優化支持向量機模型的兩個參數分別是支核函數的系數(gamma)和錯誤項懲罰因子(W),隨著gamma 的增大,測試集回歸效果變差,訓練集回歸效果變好,并且使模型的復雜度提高,泛化能力(對未知數的預測能力) 降低從而出現過擬合的情況[17] 。錯誤項懲罰因子可以根據需要選擇所有大于0 的數。懲罰因子越大意味著對優化過程的總誤差越關注,對于減小誤差的要求越高,甚至不惜使間隔減小。得到優化模型后,對分量采用支持向量回歸機模型和麻雀優化算法的支持向量回歸機模型進行預測,預測方式同樣采用5 步滾動預測,三門峽非汛期流量分量的預測結果如圖6 所示。
表2 是麻雀優法算法優化前后支持向量回歸機預測各分量的結果對比,結果顯示:與未優化的支持向量回歸機模型相比,優化過的模型有效提升各分量的預測精度。IMF1 中SSA-SVR 與SVR 相比較,其平均絕對誤差降低了35.3%,均方根誤差降低了35.4%,擬合優度提升了4.3%,SSA-SVR 預測曲線相對于實測值曲線上升,極大值偏差較小,而極小值的實測值與擬合值的差異大,重合度較低。對于SSA-SVR 擬合IMF2的預測結果而言,經過麻雀優化算法優化的支持向量回歸機模型平均絕對誤差降低了24.7%,預測曲線在極值區域與實測值存在偏差,重合度比IMF1 略高。對于SSA-SVR 擬合IMF3 的預測結果而言,經過優化后的模型擬合優度提升了23.1%,平均百分比絕對誤差降低了6.4%。對于趨勢項而言,SSA-SVR 模型預測結果仍然很差,與SVR 相比各誤差只是略有小幅度降低,預測精度還有待提高。
2.5 分量重構
將分量預測結果重構得到最終預測結果,加權即分量在重構時按照K-Means 所賦予的權重相加,VMDLSTM/SVR 模型和VMD-SSA-LSTM/ SVR 模型直接疊加各分量預測結果組成流量預測結果,而加權VMD-SSALSTM/SVR 是按照分量各自的權重加權疊加組成非汛期流量結果,各模型對比見表3。
由表3 可以得出:加權VMD-SSA-LSTM 模型預測精度最高,平均絕對誤差為82.54 m3 / s、均方根誤差為106.64 m3 / s,擬合優度為0.92。支持向量回歸機模型預測精度明顯低于長短期神經網絡模型,其中KMeans加權VMD-SSA-LSTM 模型誤差最小,擬合優度最大,與VMD-LSTM 模型相比,VMD-SSA-LSTM 模型指標值中平均絕對誤差降低了48.6%,均方根誤差降低了47.8%,擬合優度提升了27.7%,平均百分比絕對誤差降低了42.4%;K-Means 加權VMD-SSA-LSTM模型平均絕對誤差降低了47.1%,均方根誤差降低了46.1%,平均百分比絕對誤差降低了41%。實例結果K-Means 加權VMD-SSA-LSTM 模型能有效提高流量預測精度。
為了驗證該模型的可行性,采用相同的方式預測花園口站2003 年11 月至2023 年5 月非汛期流量。通過變頻分解算法將花園口流量數據分解為9 個本征模函數和一個趨勢項,再基于K-Means 劃分各分量。
花園口站簇內誤差SSE 在k = 5 時出現極小值,CH 指標在k = 5 時出現極大值拐點,故合適的中心數為5,觀察結果顯示變頻分解后的分量分類結果為:IMF1 歸為一類,IMF2、IMF3 和IMF9 歸為一類(IMF2為此類聚類中心), IMF4、IMF6 和IMF8 歸為一類(IMF4 為此類聚類中心),IMF5 和IMF7 歸為一類(IMF5 為此類聚類中心),Res 歸為一類。之后基于各分量均一化的均值和分量計算分量權重,IMF1、IMF2、IMF4 和Res 權重為1,IMF5 權重為0.97,IMF9 權重為0.96,IMF3 和IMF7 權重為0.95,IMF6 權重為0.94,IMF8權重為0.92。
將花園口流量各分量依次輸入LSTM、SVR 模型進行預測,并利用麻雀優化算法優化模型參數。最后按照權重將分量結構重構得到預測結果。花園口流量預測結果見表4。
花園口流量數據預測結果顯示:加權VMD-SSALSTM模型仍然是預測精度最高、誤差最小的模型,該模型擬合優度達0.98。通過對花園口流量數據進行模型分析再次證實了加權VMD-SSA-LSTM 模型在流量預測中具有一定的實用價值。
3 結論
引入白鯨優化算法尋找變頻分解中合適的懲罰因子和模態個數,有效避免過度分解導致模態重疊,運用變分模態分解對非汛期徑流數據進行分解,基于各站分量數據擬合LSTM、SVR 模型,實證表明長短期神經網絡模型能較好地擬合本征模函數中的周期趨勢和線性趨勢,而支持向量回歸機模型在各分量的預測中表現較差。運用K-Means 法平衡不同分量對預測結果的影響程度,消除多余白噪聲的干擾,加權重構得到流量預測結果盡可能地在不損失信息的前提下降低模型誤差。同時,將加權模型應用于花園口徑流研究中,證實了模型的可行性,結果顯示K-Means 加權VMDSSA-LSTM 模型與其他模型相比,可以有效降低預測誤差,提高擬合優度。
參考文獻:
[1] 唐怡.逐步回歸和BP 神經網絡模型的枯季月徑流預測[J].云南水力發電,2021,37(3):24-26.
[2] 巴歡歡,胡挺,袁玉,等.基于小波變換和人工神經網絡模型的三峽入庫月徑流預報[J].水電能源科學,2022,40(5):10-13,49.
[3] 董云程.基于ARIMA-LSTM 的城市供水量組合預測模型研究[D].昆明:昆明理工大學,2021:36-38.
[4] 方巍.基于變分模態分解的灰狼優化最小二乘支持向量機研究及其在徑流預報中的應用[D].南昌:南昌工程學院,2020:10-11.
[5] 馬超,姜璇.基于EEMD-ANN 的水庫年徑流預測[J].水電能源科學,2016,34(8):32-35.
[6] 呂晗芳,趙雪花,桑宇婷,等.基于VMD-LSSVM 的月徑流預測方法研究[J].中國農村水利水電,2020(8):166-170,176.
[7] 桑雨婷,趙雪花,祝雪萍,等.基于CEEMD-BP 模型的汾河上游月徑流預測[J].人民黃河,2019,41(8):1-5.
[8] 邢貞相,董洪濤,紀毅,等.基于CEEMD-LSSVM-NNBR模型中長期入庫徑流模擬[J].東北農業大學學報,2019,50(12):76-85.
[9] 黃友燦.基于變頻模態分解和循環神經網絡的中長期徑流預測模型研究[D].武漢:華中科技大學,2021:22-24.
[10] 孫國梁,李保健,徐冬梅,等.基于VMD-SSA-LSTM 的月徑流預測模型及應用[J].水電能源科學,2022,40(5):18-21.
[11] 蔡海良,胡凱,李軍,等.基于BWO-ELM 算法與VR-GIS技術的電力光纜故障診斷及定位研究[J].計算機測量與控制,2022,30(12):98-104,111.
[12] 李航.統計學習方法[M].北京:清華大學出版社,2012:23.
[13] 趙小惠,楊文彬,胡勝,等. 基于VMD 能量權重法與BWO-SVM 的銑刀磨損狀態監測[J].機電工程,2022,39(12):1762-1768,1783.
[14] 李文武,石強,王凱,等.基于變分模態分解和深度門控網絡的徑流預測[J].水力發電學報,2020,39(3):34-44.
[15] 孫海兵,張寧靜.基于灰色預測的水電開發利益共享模型研究[J].水電能源科學,2023,41(3):168-171.
[16] 金保明,盧光毅,王偉,等.基于彈性梯度下降算法的BP神經網絡降雨徑流預報模型[J].山東大學學報(工學版),2020,50(3):117-124.
[17] 王佳,王旭,王浩,等.基于EEMD 與ANN 混合方法的水庫月徑流預測[J].人民黃河,2019,41(5):43-46.
【責任編輯 張 帥】
基金項目:河南省高等教育教學改革研究與實踐項目(2021SJGLX060); 河南省科技攻關項目(252102211117)