高延香
(陜西省延安市寶塔區(qū)水資源與節(jié)約用水中心,陜西 延安 716000)
盡管水對于所有形式的生活都是必不可少的,但有時也會具有破壞性。洪水,山體滑坡和泥石流都是由多余的水引起的[1]。世界上許多地區(qū)都容易遭受與水有關的災害,其破壞以及由此造成的人員傷亡正在增加。在各種與水相關的災害中,洪水災害在造成的人員傷亡和破壞程度方面更加嚴重。還必須指出的是,不僅因為人口遷移到經(jīng)濟前景更好的地區(qū),災難的數(shù)量在增加,而且受影響的人數(shù)也在增加。延河屬于典型的多泥沙河流,是黃河中游泥沙主要輸入?yún)^(qū)之一,也是區(qū)域內(nèi)延河流域地質(zhì)洪澇災害高發(fā)的原因之一。因此,預報延河流域的徑流量是十分重要的。
緩解洪災可以通過預報徑流量來提前預測洪水,以便早作準備、減少災害損失。但河流流量時間序列非常復雜,并且包含各種頻率分量[2]。如果利用傳統(tǒng)物理性的水文模型來預測徑流量,雖然可以解釋徑流變化規(guī)律,但需要輸入許多參數(shù),太過復雜[1,3]。而在水文建模中,發(fā)現(xiàn)神經(jīng)網(wǎng)絡是一種合適的工具。如果對系統(tǒng)的水文地質(zhì)特征了解不足,并且相比于理解物理過程,認為預測的準確性更為重要的情況下,那么黑箱型模型是可行的選擇。循環(huán)神經(jīng)網(wǎng)絡(RNN)屬于黑箱型模型[4],可用于捕獲復雜系統(tǒng)的非線性行為。循環(huán)神經(jīng)網(wǎng)絡模型已經(jīng)用于降雨-徑流過程中,并且不斷被改進[5],且RNN在時間序列的預測方面具有一定的可行性。
因此,本文將利用循環(huán)神經(jīng)網(wǎng)絡來預測延河流域的徑流量,以期所建模型可以有效預報該流域的徑流量,提早預防,減少災害的發(fā)生。
在訓練RNN模型之前,利用歸一化公式對數(shù)據(jù)進行處理,此類處理有益于模型的訓練[3]。處理后的數(shù)據(jù)大小范圍在[0,1]內(nèi)。公式如下:
(1)
式中:xnorm、xi、xmin和xmax分別為數(shù)據(jù)的標準化值、觀測值、最小值和最大值。
循環(huán)神經(jīng)網(wǎng)絡(RNN)常用于時間序列預測任務[4,6]。RNN被認為是遞歸的,因為它們對序列中的每個元素執(zhí)行相同的任務,并且當前輸出取決于先前的計算。在RNN中,單元之間的連接形成有向循環(huán)。RNN的結構見圖1。

圖1 RNN網(wǎng)絡結構圖
該算法迭代按以下方程式進行:
ht=tanh(Uxt+Wht-1+b)
(2)
xt=tanh(Vht+c)
(3)
其中:ht為根據(jù)先前的隱藏狀態(tài)ht-1計算出的隱藏狀態(tài);xt為當前時間的輸入值;U、W和V分別為在RNN中訓練的輸入層到隱藏層的參數(shù),隱藏層到隱藏層的參數(shù)和隱藏層到輸出層的參數(shù)。
RNN模型的參數(shù)按經(jīng)驗設定如下,主要有:隱含層神經(jīng)元數(shù)目32,迭代訓練次數(shù)為250次,核函數(shù)采用Adam函數(shù),誤差函數(shù)用均方誤差來評價模型精度,設置誤差標準為0.001。本研究利用Matlab R2018進行模型訓練與測試。
通過均方根誤差RMSE來評價模型的效果。RMSE越接近于0,意味著模型精度越高,預測效果越強。RMSE的計算公式如下:
(4)

安塞縣延河干流設有安塞水文站[7]。安塞水文站設立于1973年6月,位于安塞縣真武洞鎮(zhèn),地理坐標E109°19′,N36°56′,控制流域面積1 334 km2。安塞水文站有1981年~至今實測水文資料。本研究選用1981-2004年的逐月徑流數(shù)據(jù)用以模型的訓練,用2005-5015年的逐月徑流數(shù)據(jù)用以模型的測試。
圖2為模型訓練過程中,訓練集和測試集的均方根誤差隨著迭代次數(shù)的變化。由圖2中可以看出,訓練集隨著迭代次數(shù)的變化,均方根誤差先快速驟降,然后再緩慢下降。當?shù)螖?shù)達到175時達到最低點,隨后基本保持不變。測試集也有類似的規(guī)律,均方根誤差先驟降,但其在驟降到最低點后,又有緩慢的回升現(xiàn)象。不過與訓練集相比,其均方根誤差更低。因此,本文選用迭代次數(shù)為175次的模型作為徑流預測模型。

圖2 RNN模型最佳訓練結果
為了進一步評價所建的徑流預測模型的效果,本文繪制了圖3、圖4。圖3為2005-2015年的逐月徑流預測值與實測的變化圖,從圖3中可以發(fā)現(xiàn),實測曲線與預測曲線的特征基本一致,但是在部分細節(jié)部分兩者之間具有明顯的差異,說明模型在預測時,仍有一些偏差。

圖3 安塞站2005-2015年逐月徑流量預測

圖4 安塞站2005-2015年逐月徑流量偏差分布結果
圖4為實測值與預測值之間的偏差柱狀圖,由圖4可知,2005與2013這兩年,模型在預測時具有明顯高于其余年份的偏差,但其徑流的大致情況仍可以得到體現(xiàn),其模型預測的RMSE僅380 m3/s。對誤差進行統(tǒng)計分析,見圖5。

圖5 安塞站2005-2015年逐月徑流量偏差統(tǒng)計結果
圖5中的分布說明,預測誤差大部分集中在零附近,所以本文所建的安塞站逐月徑流預測模型是具有一定預測能力。
本文還對模型效果進行了相關性分析。圖6為實測值與預測值的散點圖,R為相關系數(shù)。整體的相關系數(shù)可達0.62,建模集的相關系數(shù)為0.61,而測試集的相關系數(shù)可以高達0.77。由圖6中的擬合線與1∶1直線的夾角可以發(fā)現(xiàn),模型對測試集的效果比較好。總的來說,本文利用RNN來預測安塞站的逐月徑流量是有效的,雖然在某些年份有相對較大的誤差,但是預測值仍然與實測值較為接近。


圖6 安塞站逐月徑流量實測與預測散點圖
本文將RNN模型應用于延河流域的逐月徑流預測,結論如下:
在安塞站,RNN模型具有一定的適用性,其迭代達175次時,具有最佳的效果。而且,用以預測2005-2015年逐月徑流量,有較好的效果,均方根誤差為180m3/s,實測值與預測值的相關系數(shù)可達0.77。模型的建立可為該地區(qū)的徑流預測及災害預報提供一定的參考。