基于數據驅動的中小河流水位漲幅預報方法研究與應用

2023-09-01 07:07:34林漢雄王漢崗

人民珠江 2023年8期

關鍵詞：模型

丁武,林漢雄,王漢崗,張煒,3*,楊濱

(1.珠江水利委員會珠江水利科學研究院,廣東廣州 510611;2.廣州市黃埔區水務設施管理所,廣東廣州 510611;3.水利部珠江河口治理與保護重點實驗室,廣東廣州 510611)

山洪災害是造成中國人員傷亡的主要災種,據統計,其所造成的人員傷亡數占全國因洪災死亡失蹤人口的40%[1]。2022年8月13日,四川成都彭州市龍門山鎮后山突發暴雨引起龍槽溝區域突發山洪,造成7人死亡、8人輕傷;8月17日,青海大通縣遭遇短歷時強降雨誘發山洪災害,造成26人遇難,5人失聯。中小河流由于產匯流非線性特質顯著,流域內布設的水文站網密度較為稀疏,大多缺乏長序列水文監測資料,且防洪基礎設施薄弱,短歷時強降雨極易誘發流域山洪災害,并具有突發性強、歷時短、破壞力大等特點,一直是中國防洪減災工作的難點。

水位漲幅預測是山洪災害防御的關鍵環節與技術難點,目前實現水位漲幅預測的方法可分為機理驅動分析方法、數據驅動分析方法以及數據驅動與機理驅動耦合方法。機理驅動分析方法主要基于流域降雨產匯流過程內在機理構建物理模型,推求降雨與成災水位的關系,常見的機理模型以水文水動力模型為主。以分布式水文模型為代表的機理驅動模型在乏資料小流域地區的山洪預報中取得了較為廣泛的應用[2-4],王坤[5]、孫仲謀[6]、孟天翔[7]使用水動力模型模擬山洪演進及沿程淹沒過程,但受限于缺乏資料小流域的DEM、遙感信息(RS)等數據的不確定性以及模型參數的經驗取值,使得分布式水文模型及水動力模型的預報精度不高。此外,張自航[8]采用陸氣耦合模型構建了山洪預報模型,實現了氣象和暴雨等致災因素驅動下的山洪預報,然而氣象預報模型本身誤差較高,從而導致整體模型的預報精度不佳。隨著水文監測技術、機器學習等人工智能技術以及高性能信息技術的迅猛發展,數據驅動分析方法越來越受青睞,數據驅動分析方法可屏蔽災害演變過程所涉及到的錯綜復雜的物理機制,其主要是假設山洪與降雨等預報因子存在特定相關關系,并通過對歷史監測數據的分析建立山洪與降雨等特征間的統計關系。基于數據驅動分析思路,趙龍等[9]利用隨機森林算法有效識別山洪主要致災因子,并以成災水位反演建立了山洪災害臨界雨量預報模型。LIU等[10]利用支持向量機(SVM)構建了山區小流域洪水預報模型,以歷史水位數據和氣象預報數據等作為輸入,對未來1～3 h的山洪進行預報,并考慮不同輸入特征對預測結果的貢獻度,預報成果較為準確。彭萬兵等[11]通過考慮降雨強度、降雨量與前期土壤含水量耦合作用的影響,建立了降雨強度、有效累計降雨量、水位漲幅過程間變量統計關系的山洪預警模型。以機器學習或深度學習為手段構建山洪預報模型具有預報精度高、適應性強、計算簡單且易于推廣的特點,因此受到眾多學者的認可[12-18]。數據驅動與機理驅動耦合方法則是以人認識自然規律的范式去從數據樣本中挖掘規律,可有效整合數據驅動與機理驅動兩者的優點,代表性的實現方法為先利用水動力模型模擬不同場景的雨洪過程,再利用聚類算法等機器學習算法學習水動力模型的模擬成果,以實現山洪災害的快速預報[19]。

中小流域山洪災害防御不僅受到災害特性的影響,還受到防洪基礎設施的制約,導致預警信息傳播時間較長,因此中小河流山洪災害預報的關鍵是延長災害的預見期以及制定簡易、推廣性強的山洪預報模型,從而實現“早介入、早行動、早預防”,最大力度的保障人民生命財產安全。為此,從簡易性、預報精度、可行性等多方面綜合考量,本文提出3種中小河流水位漲幅預報模型,以典型流域廣州市派潭鎮對研究對象,分析模型的適用性及各自的優缺點,為中小流域的山洪災害預報提供參考。

1 研究方法

1.1 水位漲幅預報因子篩選

水文預報中,預報模型的輸入被稱為預報因子。預報因子的篩選對于模型的構建至關重要,模型輸入過多冗余信息不僅會加重模型的計算量,還會增大模型的預報誤差;若模型輸入缺失與輸出具有重要成因關系的因子,則會導致預報精度直線下降。預報因子篩選主要通過度量輸入因子與預報輸出對象間的關聯度大小,剔除關聯度小和信息重復的因子,篩選信息量高、關聯度強的預報因子。常用的預報因子選取的方法有互信息法、逐步回歸法、主成分分析法、相關系數法、灰色關聯分析法等。

本文以山洪水位最高漲幅作為模型的預測輸出,原因在于增量序列能夠放大影響徑流的因子信號,更容易找到與其具有物理成因關系的氣象因子[16],同時在一定程度上減少當前時刻水位對預報輸出結果的擾動。

綜合分析中小流域產匯流特性,選取流域內各雨量站點的雨強、累積雨量、降雨時序過程等降雨特征作為特征因子進行篩選,得到與水位漲幅具有強相關性的降雨特征作為模型的輸入,共同構成模型的數據集。考慮到中小流域水位漲幅與降雨特征具有良好的線性關系,而相關系數法主要用于變量間線性相關性的度量,因此采用相關系數法分析中小河流水位漲幅與各預報因子間的相關性,其計算見式(1):

(1)

相關系數有正有負,即存在正相關和負相關,相關系數絕對值越大則表征特征間相關性越強。

1.2 中小河流水位漲幅預報模型構建

為實現山洪災害的快速、精準預報,同時考慮到模型的簡單實用性,本研究基于數據驅動分析法構建了3種河道水位漲幅預報模型,減少單一預報機制預報成果的擾動,強化不同應用場景下的山洪災害預報。

1.2.1“降雨量-水位漲幅”關系預報模型

假設降雨量與水位漲幅具有廣義線性關系,因此可通過建立降雨量與水位漲幅的回歸模型,來實現山洪災害預報模型構建。模型以與水位漲幅具有強相關關系的流域上游降雨量為輸入,當特征因子篩選得到多個雨量站點的雨量可作為模型輸入時,可將多個站點的雨量采用權值相加法確定,見式(2)。

(2)

為考慮預報模型的實用性,可考慮一元多項式或一元二次多項式逼近降雨量與水位漲幅關系。簡單線性回歸模型的表達為式(3):

Zw(P)=w1P+w2

(3)

二次回歸的表達為式(4):

Zw(P)=w1P2+w2P+w3

(4)

式中w——需要優化的參數變量;Zw(P)——降雨量與水位漲幅回歸模型。

可通過梯度下降算法、圖解法等求解參數變量,確定最優的回歸模型,回歸的損失函數為式(5):

(5)

式中m——總洪水場次;Zk——第k場洪水的實測水位漲幅。

1.2.2基于相似分析的水位漲幅預報模型

基于相似分析的河道水位漲幅預報模型用于“尋找與預見期水文場景相似的歷史水文場景,并以歷史相似場景的水位漲幅情況為預見期水位漲幅提供參考”。相似性度量是相似分析模型的關鍵,即通過度量算法計算2個水文場景的綜合相似程度。基于相似性分析法構建山洪災害預報模型時,以山洪致災因子作為水文相似性指標體系,即以特征因子篩選得到的水文特征作為相似性評估指標。計算各特征因子間的相似度,再基于相關性程度利用權重相加法或BORDA法等綜合評定兩水文場景的綜合相似性。

常用的特征因子間相似性度量算法有余弦相似度量算法、歐氏距離法等。余弦相似度量算法計算見式(6):

(6)

歐氏距離法計算見式(7):

(7)

式中m——特征的時序總步長;Xi、Yi——兩不同水文場景下特征第i個時間步長的特征值。

COSIN的值域為[-1,1],絕對值越接近1表示相似度越大;OUdist則是越小越相似。

1.2.3基于機器學習的水位漲幅預報模型

循環神經網絡由其網絡特性,在序列數據預測上具有獨特的優勢,常用的循環神經網絡有RNN、LSTM、GRU。本研究采用GRU構建水位預報模型,其與RNN的不同之處在于,GRU是一種允許網絡動態的控制時間尺度和各計算單元的遺忘行為的門控架構循環神經網絡,能有效解決長序列數據預測問題中網絡更新的梯度彌散與梯度爆炸問題。GRU與LSTM相比少了1個門控,主要由2個門控組成,其中更新門可以決定新的細胞狀態是完全復制舊的狀態,還是完全由新的信息所替換,或者處在2個極端之間,而復位門控制當前新信息中哪些部分可以用于計算下一個目標狀態,2個門控都能獨立的忽略部分狀態信息,這使得GRU具備更少的參數量,也簡化了計算,但在訓練樣本不大的情況下,GRU與LSTM能達到的預測效果基本一致,因此GRU更適用于中小河流預測小樣本、高時效的應用場景。

GRU復位門的計算見式(8)、(9):

rt=σ(Wr[St-1,Xt])

(8)

(9)

更新門的計算見式(10)、(11):

zt=σ(Wz[St-1,Xt])

(10)

(11)

a)復位門

2 實例分析

本研究選取派潭河流域作為研究流域,派潭河位于廣州市增城區境內,屬增江一級支流,東江二級支流,自北向東南流向,流域面積302 km2,主河長度31.8 km,共有14條一級支流。派潭境內河網密集、山巒起伏,河谷盆地交錯,地勢北高南低,雨量充沛,多年平均降雨量為2 027 mm,且地處暴雨中心,降雨強度大。特殊的氣候條件、地勢地貌,決定了派潭鎮暴雨具有發生頻率高、降雨強度大、歷時短、范圍集中的特點,而來自山丘區的小流域因暴雨形成的山洪具有洪水過程尖峰、暴漲暴落的特點。加之上游小型水庫調蓄能力有限、監測站點不足等問題,導致流域洪澇災害頻發。2020年6月4—9日,派潭鎮累計降雨量達到548.81 mm,最大日降雨量達204.2 mm,全鎮共有12個村22個合作社受到不同程度的水浸,共轉移群眾1 160人。2022年6月13日11時至14日11時,派潭錄得最大1 h雨強92.5 mm,派潭河水位持續上漲。14日9點30分,派潭站最高水位達16.77 m,超警戒線3.27 m,全鎮共有23個村社出現不同程度的水浸,緊急避險轉移超1 500人,頻發的山洪災害嚴重影響派潭鎮人民的生命財產安全和社會經濟發展。

在增城區水文水資源在線監控管理平臺數據庫的基礎上,利用數據收集方法,本研究共收集到派潭流域4個水位站、7個雨量站的逐小時歷史水位、雨量實測數據。時間區間為2021年12月至2022年11月;水位站分別為三丫、高灘、七境、派潭;雨量站分別為派潭、三丫、七境、大嶺山林場、上九陂村、飛碟訓練中心、背陰村。所收集到的數據質量情況較好,水位數據存在極個別的空缺值及異常值,采用3σ法剔除異常之后,通過線性插值法予以填補。

圖2 派潭流域區位

a)三丫站

圖4 雨水情監測站點分布

三丫與七境分別位于派潭河的支流高埔河與靈山河,通過物理成因分析可知其水位漲幅變化主要受到支流集雨面積上降雨量的影響。為此僅分析高灘、派潭站的水位與其上游降雨序列數據間的相關性,位于高灘站上游的雨量站有大嶺山林場、上九陂村、飛碟訓練中心;位于派潭站上游的雨量站有派潭氣象站、七境、大嶺山林場、上九陂村、飛碟訓練中心、背陰村。相關系數計算見表1,可見,兩站點水位變幅與其上游各雨量站點雨量都具有較強的相關性。

表1 相關系數計算結果

a)派潭流域基于“降雨量-水位漲幅”關系預報模型構建。對收集到的水位、雨量資料進行雨洪場次劃分,從水位起漲點開始,滿足水位漲幅閾值,至再次降到水位起漲點為一次洪水過程。以洪峰水位減去起漲水位作為場次洪水的水位漲幅;根據流域特性,選取以水位起漲時刻往前推8 h至洪峰水位出現時刻計算相關雨量站累計降雨量。高灘、派潭水位受多個相關雨量站影響,其累計雨量計算由相關雨量站場次洪水累計雨量依表2權重相加;所得到的若干場雨洪過程的累計雨量與水位漲幅量組成了模型構建數據集。為簡化計算,在實例分析中采用了簡單線性回歸方法建立水位漲幅與累計雨量關系,回歸成果見圖5。以均方根誤差(MSE)作為評估指標,選取使誤差最小的參數作為“降雨量-水位漲幅”關系模型參數;以高灘、派潭兩站為例,高潭站的MSE為0.15,派潭站的MSE為0.21,線性回歸模型對歷史“降雨-水位漲幅”數據擬合較好,可應用于實際的山洪預報預警工作中。

表2 相關系數經softmax處理后的權重取值

a)高灘站

b)基于相似分析的漲幅預報。采用窗口平移的方法計算出當前水文場景與各歷史各水文場景間的相似性;以12 h作為場次降雨數據的序列長度,計算出各相關雨量站點降雨過程的歐氏距離,同樣依據表2所示權重對各個雨量站點的歐氏距離進行相加,得到綜合的歐氏距離,綜合歐氏距離越小則兩場景越相似,歷史最相似場景的水位漲幅即為模型的預報輸出值。選取2022年11月4日6點為水文場景為目標樣本(實際中使用當前水文場景),從歷史數據中尋找最相似歷史水文場景,經過水位漲幅預報相似分析模型的計算,得到了與目標樣本預見期水文場景最相似的歷史場景,將其結果陳列(表3)。

表3 相似分析模型預報案例

c)基于機器學習的漲幅預報。通過GRU建立水位漲幅預報模型,模型的輸入為降雨序列數據。網絡結構拓撲圖見圖6,首先通過GRU單元提取降雨時間序列數據特征,派潭、高灘水位漲幅預報以多個站點的雨量數據為輸入,可通過設置多個并行的GRU單元進行降雨特征的提取,其次通過全連接層實現對多個降雨序列信息的深度融合和特征提取,最終輸出水位漲幅。

圖6 網絡拓撲

為綜合評定3個模型的預報性能,并考慮模型在汛期與非汛期等不同時期預報精度的響應程度,將總數據集隨機打散,按照7∶3的比例劃分為訓練樣本集與測試樣本集,據此分別建立了派潭流域4個水位站點的水位漲幅預報模型,以RMSE、預報誤差百分比為評估指標評估模型的整體預報精度;其中預報誤差百分比指預報值與實測值絕對誤差小于某一閾值的樣本數占總樣本數的百分比,本研究采用了0.10、0.20、0.30 m 三種閾值。表4為派潭水位站的預報精度評估。

表4 派潭水位站預報精度評估

從預報精度評估結果分析,基于機器學習的水位漲幅預報模型的預報精度優于相似分析模型優于“降雨量-水位漲幅”關系模型。機器學習與相似分析模型預報誤差控制在0.1 m以內的整體精度分別為68.33%、57.52%,控制在0.3 m以內的精度分別為90.56%、80.14%;“降雨量-水位漲幅”關系模型預報精度稍低,預報誤差在0.1 m以內控制在42%左右,0.3 m以內控制在60%左右。

機器學習模型、相似分析模型對于樣本集大小的敏感程度遠高于“降雨量-水位漲幅”關系模型,模型精度隨樣本覆蓋程度的提升提升。本實例研究選取了流域內近一年的雨洪資料,樣本基本覆蓋了汛期與非汛期等不同時期,因此機器學習模型與相似分析模型的預報精度較為理想,而基于線性回歸的“降雨量-水位漲幅”關系模型模型復雜度低,樣本數量飽和后,無法繼續提升模型的預報精度。因此當流域實測資料較為豐富時,可使用機器學習模型、相似分析模型提升預報精度;當流域實測資料匱乏時,“降雨量-水位漲幅”關系模型也可提供山洪災害預報提供支撐。

3 結論

本研究以派潭流域為案例分別建立了3種河道水位漲幅預報模型,經評估指標分析,機器學習與相似分析模型具有較高的預報精度;相似分析模型從歷史資料中尋找相似場景,預報結果具有較好的認知性與可解釋性,而機器學習模型則是黑箱模型;“降雨量-水位漲幅”關系模型則是建立起簡單的累計降雨量與水位漲幅的回歸關系,整體預報精度中等。相似分析模型與機器學習模型需要依托計算機設備進行輔助計算,而“降雨量-水位漲幅”關系模型可將模型結果繪制成圖,對于基層人員的使用具有更強的可操作性。從預報便利性及預報精度上綜合考慮,當中小流域具備計算機、APP等輔助設備支撐時,可采用機器學習與相似分析等多種模型進行山洪預報,提升預報精度;當缺乏計算機等基礎設備的支撐時,“降雨量-水位漲幅”關系模型可為中小流域山洪預報預警提供便捷的計算方式。