張宸宇
(北京金河水務(wù)建設(shè)集團有限公司,北京 102206)
作為區(qū)域水文循環(huán)的重要組成部分,河道水沙含量及運移規(guī)律是影響區(qū)域水土資源平衡的重要因素之一[1-2]。全球氣候變化,嚴重影響了區(qū)域河道的徑流及含沙量的變化規(guī)律,人類活動同樣為影響河道變化的關(guān)鍵因素[3]。聯(lián)合國政府間氣候變化專門委員會(Intergovernmental Panel on Climate Change,IPCC)第五次評估報告中明確指出,全球氣溫在近年來上升了0.85℃,在未來幾十年將上升1.5℃,這嚴重影響了居民正常居住和社會的穩(wěn)定發(fā)展[4]。全球氣候變化對河道水沙過程的影響成為了如今相關(guān)部門的研究熱點。
關(guān)于區(qū)域水沙運移規(guī)律的研究國內(nèi)已取得了一定的進展。范俊健等[5]基于實測數(shù)據(jù)研究了黃河上游多年的水沙變化規(guī)律,指出區(qū)域不同站點的徑流和輸沙量均呈現(xiàn)逐年減少的趨勢;李金鑫[6]研究了淮河干流多年的徑流和含沙量變化趨勢,指出該區(qū)域的年徑流量和年輸沙量均呈現(xiàn)了逐漸升高的趨勢;李政航等[7]研究了黃河在內(nèi)蒙古境內(nèi)的水沙分布特性,指出區(qū)域年徑流和輸沙量均呈現(xiàn)逐漸顯著升高趨勢。由于區(qū)域氣候條件與人類活動的影響程度不同,導致不同區(qū)域不同河道水沙運移規(guī)律存在明顯差異。
由于不同區(qū)域河道水沙運移規(guī)律差異較大,因此,構(gòu)建區(qū)域水沙運移的模型成為了掌握水沙分布規(guī)律的關(guān)鍵。丁昌春等[8]在松花江哈爾濱河段構(gòu)建了水沙運動模型,申紅彬等[9]在黃河下游同樣構(gòu)建了水沙運動模型,均取得了較好的計算結(jié)果。由于河道水沙運移與氣候條件、人類活動等多種影響因素有關(guān),傳統(tǒng)的模型算法無法很好地反映水沙與各影響因素之間的非線性關(guān)系,也限制了模型的使用。隨著科技的發(fā)展,機器學習模型的應(yīng)用很大程度上解決了這一問題,王俊杰等[10]基于小波神經(jīng)網(wǎng)絡(luò)構(gòu)建了黃河輸沙量預(yù)測模型,取得了較高的精度。
隨著研究的深入,由于傳統(tǒng)機器學習模型具有已發(fā)生局部極值且收斂速度較慢的缺點,導致傳統(tǒng)的機器學習模型已無法滿足各領(lǐng)域精度的要求。一種引申的生物啟發(fā)算法被逐漸應(yīng)用于機器學習模型優(yōu)化與改進中。本文基于一種改進的鯨魚算法(MWOA),以梯度提升決策樹(CatBoost)模型為基礎(chǔ),構(gòu)建了MWOA-CatBoost綜合模型,并與粒子群算法(PSO)、遺傳算法(GA)2種傳統(tǒng)優(yōu)化算法構(gòu)建的優(yōu)化模型(PSO-CatBoost和GA-CatBoost)以及2種傳統(tǒng)提升樹模型(極端梯度提升樹XGBoost和自適應(yīng)提升樹AdaBoost)進行對比,找尋河道水沙預(yù)測的適宜模型。
本文數(shù)據(jù)以小流津河2013—2018年的實測徑流及含沙量數(shù)據(jù)為基礎(chǔ),同時收集了區(qū)域最高溫度、最低溫度、降雨、蒸散、植被指數(shù)、土壤分布、DEM高程等數(shù)據(jù)。植被與土壤數(shù)據(jù)來源于 Maryland大學發(fā)布的全球 1km土地覆蓋數(shù)據(jù)集。
1.2.1 梯度提升決策樹模型
梯度提升決策樹(CatBoost)模型是一種新型的提升樹模型。該模型可在算法訓練過程中對不同分類特征的變量進行處理,減少傳統(tǒng)提升樹模型的過度擬合現(xiàn)象[11]。在傳統(tǒng)提升樹模型中,采用樣本平均值作為節(jié)點分裂的標準,具體公式為
(1)
傳統(tǒng)模型的缺點為用樣本的平均值作為標準,當訓練數(shù)據(jù)集和測試數(shù)據(jù)集的結(jié)構(gòu)不同時,可能會出現(xiàn)條件偏移。因此,在CatBoost模型中對這個問題進行了改進,添加了先驗分布。公式(1)可變?yōu)?/p>
(2)
(3)
式中:p為先驗分布;σj為置換項;α為權(quán)重。
采用CatBoost模型可提高計算維度,解決了傳統(tǒng)模型發(fā)生條件偏移的問題,具體步驟可見文獻[12]。
1.2.2 改進鯨魚優(yōu)化算法
鯨魚優(yōu)化算法(WOA)是通過模擬鯨魚捕食的行為而引申出的一種生物啟發(fā)式優(yōu)化算法[13]。傳統(tǒng)的WOA算法計算簡單,精度較高,但存在早期收斂等問題,易產(chǎn)生局部極值。因此,在應(yīng)用時常需對算法進行優(yōu)化,提出MWOA算法進行應(yīng)用,具體優(yōu)化過程如下:
a.Logistic映射優(yōu)化初始種群。WOA算法采用隨機初始化種群來更新鯨魚個體的位置,該方式的缺點為可能造成初始種群分布的不均勻性,從而影響后續(xù)算法的精度。在初始化種群時引入Logistic映射,增加了種群初始化的均勻性,具體公式為
yk+1=ρyk(1-yk)
(4)
式中:ρ為Logistic映射系數(shù);yk為0~1的隨機數(shù)。
b.自適應(yīng)權(quán)重。本文將自適應(yīng)權(quán)重引入鯨魚算法的位置更新公式中,以增強全局搜索能力和局部搜索能力,具體公式為
(5)

c.交叉變異處理。為避免算法陷入局部極值問題中,在算法中利用差分優(yōu)化算法對個體進行變異處理,再將目標個體與變異個體進行交叉處理,增加種群的多樣性,經(jīng)優(yōu)化后的MWOA算法對CatBoost模型進行了優(yōu)化,MWOA-CatBoost模型的具體運算步驟可見文獻[14]。
1.2.3 模型精度對比
為驗證MWOA-CatBoost模型的精度,本文將該模型計算結(jié)果與WOA-CatBoost模型及2種傳統(tǒng)優(yōu)化算法(粒子群優(yōu)化算法PSO和遺傳算法GA)優(yōu)化CatBoost模型進行精度對比,同時與2種傳統(tǒng)提升樹模型(極端梯度提升樹XGBoost和自適應(yīng)提升樹AdaBoost)比較,模型基本步驟可見文獻[15]。
構(gòu)建以均方根誤差(RMSE)、相對均方根誤差(RRMSE)、平均絕對誤差(MAE)、決定系數(shù)(R2)、效率系數(shù)(Ens)為基礎(chǔ)的評價體系,具體公式為
(6)
(7)
(8)
(9)
(10)

當評價指標較多時,可能會出現(xiàn)評價結(jié)果不統(tǒng)一的現(xiàn)象,為綜合評定不同模型在誤差及一致性上的精度,研究中常采用綜合性指標GPI指數(shù)對模型精度進行排名,得出最優(yōu)模型,GPI指數(shù)可整合5個指標的綜合評價結(jié)果,最終得出精度最高模型[16],公式如下:
(11)
式中:αj為常數(shù);gj為不同指標的縮放值的中位數(shù);yij為不同指標的尺度值。
河道水沙多年分布規(guī)律見圖1。由圖1可以看出,在全年內(nèi),河道徑流和含沙量存在明顯的規(guī)律性。其中,徑流在年內(nèi)為明顯的二次拋物線形式,在6—8月徑流量均為最大。含沙量在年內(nèi)的1—3月、11—12月取值均為0,在8月達到最大值,多年含沙量在8月的最高取值為0.45~7.38kg/m3。河道年內(nèi)徑流與含沙量的變化與氣候因素和人類活動有關(guān),本文在模型訓練時,以降雨、蒸散、植被指數(shù)、土壤指數(shù)為輸入數(shù)據(jù),采用Matlab2018a軟件進行計算,獲得不同模型的模擬結(jié)果,數(shù)據(jù)輸入截面見圖2。

圖1 河道水沙多年分布規(guī)律

圖2 數(shù)據(jù)輸入界面示意圖
不同模型模擬河道徑流量和含沙量日值與實測值的擬合結(jié)果分析見圖3和圖4。由圖3可以看出,在模擬河道徑流時,MWOA-CatBoost模型的擬合效果最優(yōu),其與實測值的擬合方程斜率為0.990,決定系數(shù)R2為0.998;WOA-CatBoost模型精度次之,其與實測值的擬合方程斜率為1.028,決定系數(shù)R2為0.990。在優(yōu)化模型中,PSO-CatBoost模型和GA-CatBoost模型的擬合效果較差。優(yōu)化模型的擬合效果普遍優(yōu)于傳統(tǒng)的提升樹模型,在傳統(tǒng)模型中,CatBoost模型擬合效果最優(yōu),XGBoost模型的擬合效果次之,AdaBoost模型精度較低。

圖3 不同模型模擬河道徑流量擬合結(jié)果分析

圖4 不同模型模擬含沙量日值與實測值擬合結(jié)果分析
在模擬河道含沙量時,其基本規(guī)律與模擬徑流時基本一致。由圖4可以看出,MWOA-CatBoost模型的擬合效果最優(yōu),其與實測值的擬合方程斜率為0.907,決定系數(shù)R2為0.998;AdaBoost模型精度較低,其與實測值的擬合方程斜率和決定系數(shù)R2分別為0.840和0.909。
基于2018年實測數(shù)據(jù)計算得出的不同模型水沙月值的擬合結(jié)果見圖5。由圖5可以看出,不同模型模擬值的變化趨勢與實測值基本一致。在模擬徑流時,不同模型結(jié)果均呈現(xiàn)開口向下的二次拋物線形式,河道在12月至次年4月的徑流量較少,主要集中在6—10月,其中MWOA-CatBoost模型模擬的月值與實測值最為接近。在模擬含沙量時,不同模型的模擬結(jié)果主要集中在4—10月,同樣MWOA-CatBoost模型計算結(jié)果的精度最優(yōu)。

圖5 不同模型模擬水沙月值結(jié)果分析
為進一步驗證不同模型的計算精度,本文計算了不同模型的精度指標體系,結(jié)果見表1和表2。由表1可以看出,在模擬河道徑流時,MWOA-CatBoost模型精度最高,其RMSE、RRMSE和MAE僅為0.236m3/s、3.570%和0.165m3/s,誤差在所有模型中最低,其R2和Ens分別為0.998和0.997,一致性指標在所有模型中最高,其GPI為1.902,在所有模型中排名第1;其余3種優(yōu)化模型的精度次之,但精度均優(yōu)于傳統(tǒng)模型。在傳統(tǒng)模型中,CatBoost模型精度最高,其GPI為-0.214,在所有模型中排名第5,AdaBoost模型精度最低,其GPI僅為-3.000。

表1 不同模型模擬徑流量精度對比
由表2可以看出,在模擬含沙量時,MWOA-CatBoost模型精度最高,其RMSE、RRMSE和MAE僅為0.103kg/m3、19.230%和0.023kg/m3,其R2和Ens分別為0.998和0.989,GPI為2.204,精度最高;WOA-CatBoost模型和PSO-CatBoost模型的精度次之,其GPI分別為1.604和1.214,在所有模型中排名第2和第3。在傳統(tǒng)模型中,同樣表現(xiàn)為AdaBoost模型精度最低。

表2 不同模型模擬含沙量精度對比
不同模型在模擬河道水沙時的泰勒圖見圖6。在圖6中,可清晰反映出模型計算結(jié)果的均方根誤差、相關(guān)系數(shù)和標準差之間的關(guān)系。由圖6可以看出,MWOA-CatBoost模型與實測值最為接近,其計算結(jié)果與實測值的相關(guān)系數(shù)最高,誤差及標準差最低,這進一步證明了該模型的精度。

圖6 不同模型模擬泰勒圖對比
本文基于優(yōu)化的鯨魚算法對CatBoost模型進行構(gòu)建,得到了MWOA-CatBoost模型,對河道水沙進行了模擬,并將計算結(jié)果與WOA-CatBoost模型、PSO-CatBoost模型、GA-CatBoost模型、CatBoost模型、XGBoost模型和AdaBoost模型結(jié)果進行了對比,指出MWOA-CatBoost模型在模擬水沙日值和月值時的精度最高,可推薦模擬河道水沙數(shù)值。本文結(jié)論可為水文部門防汛防沙措施的制定提供理論支持。