張 健
(阜陽水文水資源局,安徽 阜陽 236000)
隨著全球氣候變化的進程加快,極端天氣事件如洪水、臺風和干旱的出現頻率和強度都在不斷增加,對人類社會和自然生態系統產生了深遠影響[1-2]。有效的水位監測和準確的預測方法對于減輕這些事件的災害風險、優化水資源管理、保障人民生命財產安全以及支持可持續發展戰略的實施至關重要[3-4]。傳統的水位監測方法依賴于歷史數據和經驗法則,在某些情況下可能無法及時響應快速變化的環境條件[5-6]。隨著數據采集技術的進步和計算工具的發展,現代水位監測正逐漸轉向更為精確和響應迅速的預測模型,以期對極端水文事件做出更迅速和更為準確的響應[7-8]。
本文旨在分析并評估基于季節性自回歸積分滑動平均(Seasonal auto-regressive integral moving average,SARIMA)模型的水位預警系統的效果。SARIMA模型作為一種先進的時間序列預測方法,通過結合季節性因素、趨勢和噪聲等多個方面的特性,提供了一種有效的預測框架。它能夠處理數據中的非平穩性和季節性變化,使其特別適用于水文時間序列數據的分析。在水位監測中,該模型可以基于歷史水位數據,預測未來的水位變化,從而為災害預防提供關鍵的時間窗口。研究的主要目的是通過應用SARIMA模型與實際的水位數據,評估其在預測未來水位變化方面的準確性和效果。研究將涵蓋模型的建立、參數優化、預測精度評估,以及與傳統水位預測方法的比較。通過這些分析,探討SARIMA模型在現代水資源管理和災害預防中的潛在應用價值,為未來的水位監測技術提供理論和實踐上的指導。
水位監測及預警是洪澇類災害的有效預防手段,水位的監測預警需要大量的水文數據作為模型的預測依據。監測數據一般由監測時間及監測數值構成,具有明顯的時間特征[9-10]。城市水位監測數據也是如此,且城市水位的監測數據還具有明顯的季節性變化[11-12]。利用這類帶有明顯時間序列特征的數據進行預測類研究時,通常采用時間序列預測模型[13-14]。在時間序列分析中,基于數據的特征和性質,可將時間序列模型大體分類為平穩時間序列模型和非平穩時間序列模型。平穩時間序列模型主要用于分析統計特性不隨時間變化的序列,這些序列的未來行為能夠較好地被歷史數據所預測,因為它們缺乏趨勢或者季節性的變化,表現出一定的規律性和周期性[15]。非平穩時間序列模型適用于具有明顯趨勢或以非常規方式隨時間變化的序列,這些序列可能會呈現出趨勢變化、季節性模式或其他結構性的變動,需要更為復雜的模型來捕捉其內在的動態特征。
自回歸積分滑動平均(Autoregressive integral moving average,ARIMA)模型是一個經典的非平穩模型,它涵蓋了差分操作,可以將非平穩序列轉換為平穩序列,以便預測和分析。當非平穩時間序列展現出明顯的季節性規律時,季節性時間序列模型成為一種更為合適的分析工具。這種模型不僅考慮了數據的一般趨勢和隨機波動,而且還將季節性周期納入模型構建中。而SARIMA模型是這一類模型中極為著名的代表,它結合了ARIMA模型的特點,并通過內置的季節性差分和季節性自回歸移動平均項,來捕捉數據中的季節性結構。基于SARIMA模型的城市水位監測模型的建立,分為數據預處理、平穩性檢驗、參數的確定及模型檢驗4個階段,具體流程見圖1。

圖1 SARIMA的建模流程
SARIMA模型是由自回歸模型和移動平均模型組成,主要參數包括自回歸模型的滯后階數p、移動平均模型的滯后階數q、季節自回歸階數P、季節移動平均階數Q、季節差分次數D及序列周期m。自相關圖與偏相關圖可以確定SARIMA模型參數p、q、P、Q的范圍,利用自相關圖與偏相關圖確定參數范圍時,需要利用赤池信息準則(Akaike Information Criterion,AIC)進行計算,計算公式如下:
式中:k為模型的參數數量;L為最大似然函數。
水文監測中的數據通常是連續采集的,在監測記錄的過程中,常因為各類環境或人為因素,導致數據存在缺失。因此,水文監測數據通常具有結構簡單、相關性強、隨機缺失數據的特點。結構簡單、相關性強的特點可以有效提高模型的預測準確率,而數據隨機缺失則會導致模型精度嚴重下降,因此在對SARIMA模型進行驗證時,需要事先對收集的數據進行預處理。常見的數據缺失處理方式包括填充、刪除及不作為3種方式,刪除及不作為兩種處理方式均會導致模型的預測精度下降,而水文監測數據具有結構簡單的特點,研究以填充方式作為水文監測數據缺失的預處理方式。數據填充方法分為3個階段,分別是缺失數據的檢索、缺失數據的計算、缺失數據的遞歸。
城市內澇災害會對人們的生命財產安全造成嚴重影響。X市是我國中部的重要城市,地理位置獨特,位于多條內陸河的交匯處,城市擁有豐富的水資源。由于地勢相對低洼,該市在雨季或極端氣候條件下特別容易出現積水情況,加之城市內眾多的河流和湖泊,在面對持續降雨或上游水量增加時,尤其容易受到洪水的威脅。該市的市內湖泊是城市景觀的重要組成部分,也是生態和休閑活動的中心,但這些水體在雨季也可能成為洪水的來源。當河流水位上升時,城市排水系統的壓力增大,河流泛濫和湖泊溢出的風險隨之升高,不僅影響市民的日常生活,也對城市基礎設施造成壓力。研究以該市為研究對象,取該市1990-2020年的城市水位監測數據作為SARIMA預警模型的訓練及檢驗數據,該市某地區的城市水位監測點分布見圖2。

圖2 城市水位監測點位分布
該地區共設置9個城市水位監測點。其中,2、3、6號監測點均設置在城市水體中,負責監測城市水體水位的變化情況;1、5、8號監測點均設置在城市建筑中,負責監測建筑內水位變化情況;4、7、9號監測點均設置在城市主干道路附近,負責監測城市道路的水位變化情況。
為了對該模型進行訓練驗證,研究構建一個基于SARIMA模型的水位監測預警模型。取1990-2010年的數據作為模型的訓練數據,2010-2020年的數據作為檢驗數據。所有模型測驗及數據檢驗均利用實驗室設備完成,設備操作系統為windows 7 64bit,數據分析平臺為MATLAB。X市的水位變化具有明顯的周期性,研究采用移動平均法對訓練數據的周期值進行確定,并以6個月及12個月作為基數,對訓練數據進行移動平均值的求解,結果見圖3。

圖3 不同基數下的移動平均線
由圖3(a)可知,以6個月作為基數時,X市的水位移動平均線的最高水位為300mm以上,而最低水位在50mm以下;1990-2010年的水位移動平均線以6個月為基數進行計算時,仍略顯曲折。由圖3(b)可知,以12個月為基數后,X市的水位移動平均線的最高水位低于200mm,最低水位高于50mm;1990-2010年的水位移動平均線以12個月為基數進行計算時,曲折度大幅下降,相較于以6個月為基數的移動平均線,更加平滑。因此,研究將模型的參數周期定為12。
確定周期后,研究將步長設置為12,對訓練數據進行一階差分計算,結果見圖4。

圖4 訓練數據的一階差分結果
由圖4可知,經過一階差分后,所有的訓練數據均在基點上下進行浮動。1990-2010年,共有12個一階差分后的水位數據在200mm以上。其中,有4個數據的水位在400mm以上;水位在500mm以上的數據有3個;在-200mm以上的數據共20個;-400mm以上的數據共2個。訓練數據經過一階差分后,測試統計值為-8.55,P值檢驗結果也遠小于0.05,訓練數據1%的臨界值為-3.45,5%的臨界值為-2.87,10%的臨界值為-2.57。訓練數據的測試統計值小于1%、5%及10%的臨界值,經過一階差分處理后,訓練數據為平穩序列數據。
為了確定SARIMA的p、q、P、Q參數,研究繪制一階差分后的自相關圖及偏自相關圖,見圖5。

圖5 一階差分后的自相關圖及偏自相關圖
圖5(a)為訓練數據一階差分后的自相關圖。可以看到,滯后系數為1、7、8、9、10、11、16、17、20、21、22、23、27、29、33時,自相關系數大于0,訓練數據在這些時間間隔上呈正相關;在其余滯后系數中,自相關系數小于0,訓練數據在這些時間間隔上呈負相關。滯后系數為33時,訓練數據的自相關系數最大,為0.065;滯后系數為27時,自相關系數僅次于滯后系數為33時的自相關系數,此時自相關系數為0.048;滯后系數為13時,訓練數據的自相關系數最小,為-0.202;滯后系數為34時,自相關系數僅大于滯后系數為13時的自相關系數,此時自相關系數為-0.101。僅在滯后系數為13時,自相關系數的絕對值大于0.200;其余滯后系數下,訓練數據的自相關系數的絕對值均小于0.100。
圖5(b)為訓練數據一階差分后的偏自相關圖。可以看到,與自相關圖結果相似,在滯后系數為33時,偏自相關系數最大,為0.089;滯后系數為22及23時,訓練數據的偏自相關系數僅小于滯后系數為33時的偏自相關系數,此時偏自相關系數為0.071;滯后系數為13時,訓練時數據的偏自相關系數最小,為-0.223;滯后系數為34時,訓練數據的偏自相關系數僅大于滯后系數為13時的偏自相關系數,此時偏自相關系數為-0.073。
因此,由圖5可知,p、q、P、Q參數是[0,2]之間的任意值。
長短時記憶(Long Short Term Memory,LSTM)網絡是當前常見的一種預測模型,研究訓練后的SARIMA模型,與該模型進行預測結果擬合的比較,結果見圖6。

圖6 水位預測結果比較
由圖6(a)可知,在2010-2014年,SARIMA模型的預測結果大部分時候都小于實際結果。在這段時間內,實際水位共4個峰值,在第一個峰值,預測結果與實際結果相差100mm左右;在第二個峰值,二者相差350mm左右;在第三個峰值,二者相差250mm左右;在第四個峰值,二者相差150mm左右。在2015年以后,預測結果大部分時候都高于實際結果。在2015年后,預測水位出現4個峰值,在第一個峰值,二者誤差在100mm內;在第二個峰值,二者誤差在100mm左右;在第三個峰值,二者誤差在200mm左右;在第四個峰值,二者誤差在100mm內。除峰值外,SARIMA模型的預測結果與實際結果的擬合效果較好。由圖6(b)可知,與SARIMA模型擬合結果較為相似,但在水位峰值區域,SARIMA模型的擬合效果更好。
為了進一步驗證SARIMA模型的有效性,研究比較二者的訓練及檢測均方根誤差(Root mean square error, RMSE)值,結果見表1。

表1 模型RMSE比較 /mm
RMSE可以表示預測值與實際值之間的平均偏差,該值越小,模型的擬合效果就越好。由表1可以看到,ARIMA模型的訓練RMSE值及檢驗RMSE值分別為86.37及85.94mm,而LSTM模型的訓練RMSE值及檢驗RMSE值分別為106.92及99.86mm。研究表明,SARIMA模型訓練及檢驗的RMSE值均低于LSTM模型,SARIMA模型擬合效果較好。因此,SARIMA模型可以有效監測城市水位變化,對城市內澇災害做出有效預警。
為了提高城市面對極端天氣災害的預警能力,本文提出了基于SARIMA模型的城市水位預測模型,對城市水位進行監測。SARIMA模型結合了自回歸模型、移動平均模型和季節性差分操作,是預測具有明顯季節性和非平穩特性時間序列數據的理想選擇。結果顯示,訓練數據的周期為12,p、q、P、Q參數是[0,2]之間的任意值,相較于LSTM水位預測模型,基于SARIMA模型的水位預測模型擬合效果更好,SARIMA模型的訓練RMSE值較LSTM模型低20.55mm,檢驗RMSE值低13.92mm,表明研究提出的模型有效提高了城市水位的監測及預警能力。