宋尚波
(淄博市水文中心,山東 淄博 255000)
徑流量是水文學(xué)和水資源管理中的一個(gè)關(guān)鍵指標(biāo),準(zhǔn)確預(yù)測(cè)徑流量對(duì)防洪、供水和水電等具有重要意義[1-3]。徑流過(guò)程是一個(gè)復(fù)雜的水文過(guò)程,受多種因素的影響產(chǎn)生高度非線性和非穩(wěn)定性,這使得徑流量預(yù)測(cè)成為一個(gè)富有挑戰(zhàn)性的任務(wù)。近年來(lái),各種人工智能算法應(yīng)用于水文學(xué)領(lǐng)域,取得較好的成果。作為一種預(yù)測(cè)技術(shù)的隨機(jī)森林回歸(RFR)由于在處理圖像、語(yǔ)音和文本數(shù)據(jù)方面表現(xiàn)出色的預(yù)測(cè)能力而引起了研究者的廣泛關(guān)注。本文基于RFR提出了一種改進(jìn)的徑流量預(yù)測(cè)模型[4-5]。該模型首先使用變方差最小分解(Variational Mode Decomposition,VMD)對(duì)輸入的歷史徑流序列進(jìn)行分解,以獲得更清晰和穩(wěn)定的信號(hào)模態(tài)。然后,這些分解后得到的模態(tài)再輸入到RFR算法進(jìn)行學(xué)習(xí)和訓(xùn)練,以建立各模態(tài)之間的關(guān)系[6-7]。最后,利用RFR網(wǎng)絡(luò)預(yù)測(cè)未來(lái)的徑流量并將各模態(tài)的預(yù)測(cè)值進(jìn)行合成。VMD的特點(diǎn)之一是高度自適應(yīng)性。可適應(yīng)不同類型的信號(hào)及其時(shí)頻特性,無(wú)論是非平穩(wěn)信號(hào)、非線性信號(hào)還是多組分信號(hào),VMD都能準(zhǔn)確地將其分解成若干個(gè)自然模態(tài),提取出各個(gè)模態(tài)的特征信息。此外,VMD還具有很強(qiáng)的魯棒性和穩(wěn)定性,對(duì)于噪聲和冗余信息有很好的抑制效果,能夠更準(zhǔn)確地還原信號(hào)的本質(zhì)。當(dāng)前,VMD被廣泛應(yīng)用于音頻信號(hào)分解、圖像壓縮、語(yǔ)音識(shí)別等任務(wù)中,能夠準(zhǔn)確地提取出信號(hào)中的關(guān)鍵信息。其次,在天文學(xué)、地震學(xué)和生物醫(yī)學(xué)等領(lǐng)域,VMD也發(fā)揮著重要作用,可以從復(fù)雜的觀測(cè)數(shù)據(jù)中提取出特定的模態(tài),幫助更好地理解序列數(shù)據(jù)背后的物理機(jī)制[7-9]。此外,VMD還在通信系統(tǒng)中有著廣泛應(yīng)用,如通信信號(hào)的解調(diào)和干擾抑制等方面。在徑流量時(shí)間序列預(yù)測(cè)中的應(yīng)用潛力尚未得到探究。
淄博地處魯中山地向黃泛平原過(guò)渡區(qū),總面積5965km2,土地利用率達(dá)89.96%。屬齊河-廣饒斷裂帶,地勢(shì)自南部魯西臺(tái)背斜隆起區(qū)向北部濟(jì)陽(yáng)坳陷區(qū)傾斜,高程介于0~1108m之間,形成山地、丘陵、平原分異地貌,分別占區(qū)域總面積的42.0%、29.9%、28.1%。受海陸位置與西北太平洋季風(fēng)影響,形成半濕潤(rùn)半干旱的大溫帶季風(fēng)氣候,多年年平均氣溫12.5~14.2℃,降水量640.5mm,日照時(shí)數(shù)2209.3~2523.0h,無(wú)霜期190~210d。市內(nèi)均為雨源型河流,主要河流為沂河、汶河、小清河等,平均河流密度達(dá)0.295km/km2,另有湖區(qū)面積13926.8hm2。淄博市多年地表水資源補(bǔ)給總量為14.11億m3,人均水資源占有量稀缺。
本研究中徑流量數(shù)據(jù)來(lái)自新疆昌吉水文水資源勘測(cè)局,其涵蓋了區(qū)域3個(gè)水文站1987—2020年逐月徑流量資料,共408個(gè)月序列。
VMD(Variational Mode Decomposition)是一種基于變分原理的時(shí)頻域信號(hào)分解算法,能夠?qū)⒎瞧椒€(wěn)信號(hào)分解為一系列模態(tài)函數(shù)(intrinsic mode portion,IMF)和殘差余項(xiàng),從而揭示不同頻率的信號(hào)成分。區(qū)別于EMD方法,其利用迭代搜索確定分量中心頻率和帶寬進(jìn)而將每一IMF調(diào)解為平滑基帶,即使對(duì)噪聲序列也具有較好魯棒性,對(duì)非正態(tài)分布序列不敏感。VMD算法的目標(biāo)是尋找一組滿足變分原理的模態(tài)函數(shù),使得每個(gè)模態(tài)函數(shù)在頻率和幅值上都具有較好的局部調(diào)整能力。在這個(gè)過(guò)程中,VMD將信號(hào)分解為多個(gè)窄帶調(diào)制分量,這些分量是由頻率和幅值不斷調(diào)整而成的。
其數(shù)學(xué)原理過(guò)程如下:
(1)首先,將待分解徑流序列信號(hào)表示為時(shí)間域的函數(shù)形式,記uk(t),該信號(hào)具有有限的帶寬,其中心頻率e-jωkt對(duì)模態(tài)函數(shù)變換為:
(1)
(2)定義一組輔助目標(biāo)函數(shù),使得每個(gè)目標(biāo)函數(shù)對(duì)應(yīng)一個(gè)帶通濾波器,用于從信號(hào)中提取特定頻率范圍內(nèi)的成分。

(2)
(3)構(gòu)建一個(gè)約束優(yōu)化問(wèn)題,其中目標(biāo)函數(shù)的集合表示滿足約束的模態(tài)函數(shù)集合,約束條件是每個(gè)模態(tài)函數(shù)的頻率和帶寬應(yīng)盡可能調(diào)整得最合理,此外應(yīng)用變分原理,對(duì)約束優(yōu)化問(wèn)題進(jìn)行數(shù)學(xué)推導(dǎo)和求解。通過(guò)求解歐拉-拉格朗日方程,找到最優(yōu)解,即最佳的模態(tài)函數(shù)集合。

(3)
(4)設(shè)置最大的迭代次數(shù)N,且存在正數(shù)n滿足n≤N、ε>0,迭代過(guò)程滿足下式:

(4)
據(jù)此可將將原徑流量信u(t)分解成若干個(gè)IMP,且每一IMP對(duì)應(yīng)一個(gè)頻率范圍的成分[4-5]。
隨機(jī)森林回歸算法(Random Forest Regression,RFR)是一種從決策樹演化而來(lái)的集成學(xué)習(xí)算法,廣泛應(yīng)用于數(shù)據(jù)分析、預(yù)測(cè)和模式識(shí)別等領(lǐng)域,能夠解決回歸問(wèn)題并有效地處理高維數(shù)據(jù)。RFR由多個(gè)決策樹組成,每一決策樹均基于不同數(shù)據(jù)子集構(gòu)建;在訓(xùn)練過(guò)程通過(guò)抽樣方法選擇部分樣本再隨機(jī)選擇部分特征,生成多個(gè)決策樹。RFR的輸出結(jié)果為每個(gè)決策樹的預(yù)測(cè)結(jié)果會(huì)被集成平均值[6-7]。
使用決定系數(shù)(R2)、均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)評(píng)估VMD-RFR模型在徑流預(yù)測(cè)中的應(yīng)用性。具體定義如下:
(5)
(6)

淄博市1987—2020年逐月徑流量時(shí)間序列波動(dòng)如圖1所示。線性擬合表明,其總體變化特征曲線為:

圖1 淄博市月徑流量序列變化特征
y=0.0013x+3.381
R2=0.0017
(7)
但并未通過(guò)0.05水平檢驗(yàn)假設(shè),因此其線性特征不顯著,可能存在非穩(wěn)態(tài)非線性復(fù)雜特征。最大值出現(xiàn)在第164月,達(dá)20.24億m3,最小值為第142月的0.24億m3,不同月份之間徑流量變異性較大。另外可直觀看出不同月份之間徑流量豐枯交替變化,豐水月多為5—9月,其他為枯水月,這與區(qū)域年內(nèi)降水量分布特征極為一致。
使用VMD算法在搜尋最優(yōu)分解IMP數(shù)量后和適宜帶寬約束后,得到淄博市近34年來(lái)逐月徑流量序列IMP結(jié)果,如圖2所示。可知,VMD將長(zhǎng)度為408個(gè)徑流序列分解得到了11個(gè)IMP和1個(gè)殘差余項(xiàng),各IMP信號(hào)呈現(xiàn)一定起伏變化,隨著IMP數(shù)量增多其時(shí)變性增強(qiáng)、承載的信量增加。將上述全部IMP經(jīng)過(guò)周期圖法得到其方差貢獻(xiàn)值。計(jì)算結(jié)果顯示,①模態(tài)1解釋了32.52%的徑流變化信息;②模態(tài)2解釋了23.34%的徑流變異性;③其他IMP3~11承載的信息量依次為15.48%、11.98%、7.34%、3.13%、2.93%、1.73%、0.86%、0.51%、0.11%。需指出的是,模態(tài)IMP1~4承載了徑流序列波動(dòng)頻率、振幅的83.33%的信息量,對(duì)捕捉徑流變化最為重要。該模態(tài)分解結(jié)果能夠提取出徑流變化更多的內(nèi)在規(guī)律。

圖2 淄博市月徑流序列VMD分解結(jié)果
將VMD分解后得到的1987—2010年(共24年,即第1—288月)的徑流序列的模態(tài)分量數(shù)據(jù)為自變量,相應(yīng)時(shí)期的徑流量為因變量,構(gòu)建RFR模型,預(yù)測(cè)2010—2020年(共10年,即289—408月)的逐月徑流量序列。RFR模型是典型非參數(shù)回歸模型,為確保模型性能,實(shí)驗(yàn)grid搜索法對(duì)超參數(shù)尋優(yōu),最終配置結(jié)果見表1。

表1 RFR模型中超參數(shù)配置
經(jīng)上述模型配置后,對(duì)預(yù)見期(即289—408月)的逐月徑流序列進(jìn)行回歸預(yù)測(cè),輸出結(jié)果如圖3所示。可見,徑流量預(yù)測(cè)值與實(shí)際值之間具有良好吻合度(圖3a),并顯示出豐枯相位交替變化,二者之間相對(duì)誤差介于0.06%~40.51%之間,統(tǒng)計(jì)得到?jīng)Q定系數(shù)R2=0.87,MAE和RMSE依次為0.17、0.22億m3。表明RFR算法基于VMD分解特征,較好逼近實(shí)際徑流量變化序列,具有一定溯源性。

圖3 徑流量預(yù)測(cè)結(jié)果
本文以淄博地區(qū)月徑流量為研究對(duì)象,通過(guò)對(duì)歷史數(shù)據(jù)的分解,采用VMD-RFR模型進(jìn)行預(yù)測(cè),驗(yàn)證VMD-RFR模型的有效性和準(zhǔn)確性。結(jié)果表明,采用VMD-RFR模型的月徑流量預(yù)測(cè)值與實(shí)際值之間具有良好吻合度,可準(zhǔn)確模擬非線性非穩(wěn)態(tài)月徑流量變化。VMD方法更好地捕捉到徑流量的變化趨勢(shì),增加模型物理解釋機(jī)制;RFR作為VMD的擬合器提供了精確的預(yù)測(cè)結(jié)果。在同類問(wèn)題的研究中,VMD-RFR模型也是一種有效的預(yù)測(cè)模型,可應(yīng)用于其他地區(qū)月徑流量預(yù)測(cè)。由于預(yù)測(cè)驗(yàn)證時(shí)段較短,變量數(shù)量較少,應(yīng)結(jié)合其他輸入變量進(jìn)一步探索VMD-RFR模型的適用性,不同時(shí)間尺度(如日、年)的徑流數(shù)據(jù)用于模型驗(yàn)證,進(jìn)一步提高模型的實(shí)用性與可依賴性。