


[關鍵詞]機器學習;降雨;水質;時間分布特征;珊溪水庫
珊溪水庫是溫州市重要的飲用水源地[1]。水庫水質狀況直接影響生活飲用水安全,與人民的生命健康密切相關[2]。溫州地處浙江沿海地區,降雨頻繁且量較大,臺風和強降雨等極端氣候事件時常發生[3-5]。降雨及其導致的地表徑流不僅會增大水庫入庫流量,而且會向水庫水體中輸入營養鹽和有機污染物[6],導致氮、磷濃度和CODMn等水質指標水平在短時間內大幅升高[7],嚴重時會造成水體富營養化,降低水環境質量,影響整個水生態系統[8]。因此,為防控水體富營養化風險和保障居民飲用水安全,研究降雨對珊溪水庫水質的影響具有重要意義。
機器學習是數據挖掘中的一種重要工具,它主要是利用經驗改善計算機系統的自身性能,通過對現有知識的學習獲取新知識,從而起到數據分析和預測的作用[9-11]。面對大量、復雜和凌亂的降雨數據和水質監測數據,傳統的統計分析方法適用性較差,常規的水環境質量評價方法不具備預測能力[12]。使用機器學習算法不僅能分析降雨對水庫水質的影響,還可以對降雨后水質情況進行預測。目前,前人研究主要集中在水庫水體富營養化評價與控制方面[13],針對降雨對水庫水質的影響研究較少,基于機器學習算法的水質預測研究更是鮮有報道。本研究解析了珊溪水庫的降雨和水質時間分布特征,對降雨與水質進行了相關性分析,通過線性回歸、決策樹和隨機森林3種機器學習算法,構建水質預測模型,選出最優水質預測模型及算法,以期為掌握珊溪水庫降雨前后水質提供技術支撐,并為該區域水生態環境保護和水體富營養化防治措施的制定奠定理論基礎。
1. 評價
1.1研究區域
珊溪水庫(119° 36'54″ ~120° 04'37″E,27° 26'38″ ~27°58'37″N)位于我國浙江省溫州市,飛云江干流中游,距溫州市區117 km[14]。珊溪水庫流域面積1545.85 km2,約占全流域面積的48%,水庫總庫容18.24×108 m3,約占全市總庫容的80%[1, 14],是溫州市主要的供水水源。溫州屬中亞熱帶季風性氣候區,溫度適中,雨量充沛,年平均氣溫19.6℃,年平均降雨量1876.9 mm。珊溪水庫壩址、珊溪氣象站和珊溪水質自動監測站均位于溫州市文成縣珊溪鎮。
1.2數據來源
2015~2019年珊溪站逐日降雨數據由溫州市氣象局提供,2015~2019年珊溪水庫水質監測數據由溫州生態環境監測中心提供。水質監測指標包括高錳酸鹽指數(CODMn)、總氮(TN)、總磷(TP)、氨氮(NH3-N)和葉綠素a(Chl.a)。
1.3評價方法
1.3.1相關性分析
本文運用IBM SPSS 26.0 對數據進行Pearson 相關性分析,探究不同降雨強度下,降雨前與降雨后的同一水質指標相關關系。由顯著性P 值評估顯著性水平。P 值大于0.05表示差異無統計學意義,P 值小于0.05表示差異有統計學意義,P 值小于0.01表示差異非常顯著。
1.3.2 機器學習算法
本文采用線性回歸、決策樹和隨機森林3種機器學習算法進行降雨后水質預測研究。線性回歸算法是以坐標系中一個維度為標簽,其他維度為特征,以期尋找一條能夠最大程度上擬合標簽和特征關系的直線,標簽是因變量,特征是自變量[15]。決策樹是一種樹形結構,它能從一組無序的標簽和特征數據中總結出決策規則,并以樹狀圖的結構呈現規則[16, 17]。決策樹中需要優化的主要參數有葉中最小實例數、樹的最大深度和拆分內部節點所需的最小樣本數。隨機森林的所有基評估器是決策樹[18]。隨機森林中需要優化的主要參數有樹的數量、單個樹的最大深度和拆分內部節點所需的最小樣本數。
1.3.3 模型驗證和精度評價
本研究采用決定系數(R2)和均方根誤差(RMSE)評價3種機器學習算法的模型精度。R2是預測值與均值相比于真實值的符合程度,用來衡量因變量被自變量的解釋程度[19]。R2越接近1,表示模型在預測時的誤差越小,模型精度越高[20]。RMSE是預測值與真實值誤差平方根的均值,用來衡量預測值與真實值的差異[21]。RMSE越接近0,表示預測值與真實值偏差越小,模型擬合效果越好[22]。
1.4 評價結果
1.4.1 水庫降雨特征
本研究將日降雨量<25.0 mm的降雨過程劃歸為弱降雨,將日降雨量≥25.0 mm 的降雨過程劃歸為強降雨。2015~2019年珊溪水庫日降雨量變化如圖1所示。2015~2019 年珊溪水庫日降雨量波動范圍為0.0~309.8 mm,在2016年9月28日達到峰值,強降雨次數波動范圍為15~28次,在2016 年達到最大值。研究期間累計降雨量10034.3 mm,平均年降雨量2006.9 mm。從降雨天數來看,強降雨和弱降雨分別累計105d和829d,分別占總降雨天數的11.24%和88.76%。從降雨量來看,強降雨和弱降雨分別累計降雨量5273.2 mm和4761.1 mm,分別占總降雨量的52.55%和47.45%。因此,研究區域內強降雨的降雨量較大,在總降雨中占據較大比例,弱降雨出現得更頻繁,是降雨的常見形式。
1.4.2 水庫水質特征
2015~2019年珊溪水庫4項水質指標CODMn、TN、TP、NH3-N和Chl.a變化特征見圖2。如圖2(a)所示,CODMn濃度介于0.426~3.600 mg/L,滿足《地表水環境質量標準》(GB3838-2002)的Ⅱ類標準(CODMn≤4 mg/L)。2017年7月~2018年12月CODMn濃度波動劇烈,CODMn濃度在2017年9月達到峰值,2018年1月達到第二大值。從整體上來看,全年內CODMn濃度波動較大,年際間CODMn濃度表現出下降趨勢。如圖2(b)所示,TN濃度介于0.085~0.888 mg/L,滿足《地表水環境質量標準》(GB3838-2002)的Ⅲ類標準(TN≤1.0 mg/L)。在2016年11月TN濃度急速上升并達到峰值,之后快速振蕩下降,并在2018年3月降至低谷。2015~2019年,年際間TN濃度總體呈現上升趨勢。圖2(c)的監測數據顯示,TP濃度波動范圍為0.002~0.043 mg/L,滿足《地表水環境質量標準》(GB3838-2002)的Ⅲ類標準(TP≤0.05 mg/L)。在2016年11月~2017年1月,TP濃度陡然上升至最大值,其后迅速下降并恢復到之前的濃度水平。除此之外,TP濃度波動幅度較小。如圖2(d)所示,NH3-N濃度介于0.003~0.104 mg/L,滿足《地表水環境質量標準》(GB3838-2002)的I類標準(NH3-N≤0.15 mg/L)。NH3-N濃度最大值和最小值分別出現在2015年8月和2018年2月。2015~2019年,全年NH3-N濃度波動變化大,年際間NH3-N濃度總體呈現下降趨勢。如圖2(e)所示,Chl.a的濃度變化范圍為1.45~61.97 μg·L-1,平均值為10.19 μg·L-1。2015年8月~2016年2月Chl.a濃度出現較大起伏,Chl.a濃度逐漸升高并在2015年12月達到峰值,之后濃度快速回落下降。整體而言,2015~2019年Chl.a濃度均呈小范圍穩定波動。
1.4.3 降雨與水質相關性分析
本研究對不同降雨強度下,降雨前后同一水質指標進行Pearson相關性分析,結果如表1所示。5項指標降雨前后數據差異具有統計學意義,無論是弱降雨還是強降雨強度下,CODMn、TN、TP、NH3-N和Chl.a降雨前后數據均呈現極顯著正相關(Plt;0.01),且相關系數較高。相比之下,TP的相關性要小于其余四項水質指標,這主要是由于TP的數值波動范圍較小,削弱了差異性。另外,降雨強度對5項水質指標濃度變化的影響不同。當降雨量增大時,CODMn、NH3-N 和Chl.a降雨前后水質相關性分別增加了11.4%、7.2% 和3.4%,表現出更好的相關性,這說明CODMn、NH3-N和Chl.a受降雨影響較大,強降雨會在短時間內促進水庫CODMn、NH3-N和Chl.a濃度上升。與強降雨相比,弱降雨強度下TN和TP的降雨前后水質相關關系變弱,相關性分別下降了10.5%和2.2%。因此,降雨是影響水質的主要因素之一,降雨強度對珊溪水庫水質變化有顯著影響。
1.4.4 基于機器學習的水質預測
統計水質監測數據,分別建立基于各水質指標濃度的線性回歸、決策樹和隨機森林的水質預測模型,即以降雨前的水質指標濃度為自變量,降雨后的水質指標濃度為因變量建模,結果如表2所示。3種機器學習模型對水質指標建模的R2 均在0.719以上,RMSE均在0.320以下,各模型精度較高。對比5項水質指標,模型對TP的預測精度要低于對CODMn、TN、NH3-N和Chl.a的預測精度,這主要是由于TP樣本數值的差異較小,不利于模型訓練和數據挖掘。進一步對比各模型的R2和RMSE可知,線性回歸模型的R2更接近1,RMSE更接近0,預測精度最高。圖3為樣本實測值與線性回歸模型的預測值的比較。通過散點圖可視化分析能夠更直觀地看出,線性回歸模型的穩定性較高,樣本擬合度較好。綜上所述,權衡3種機器學習算法的評價參數,線性回歸模型的模擬效果總體上優于決策樹和隨機森林模型。線性回歸更適用于珊溪水庫降雨后的水質預測。
2. 結論
a)2015~2019年珊溪水庫流域強降雨的累計量較大,在總降雨中占據重要比例,弱降雨累計降雨天數較高,是降雨的常見形式。水質指標CODMn、TN、TP、NH3-N和Chl.a濃度變化趨勢各異,但均存在一定幅度的波動。
b)降雨強度對珊溪水庫水質變化有顯著影響。在弱降雨和強降雨強度下,CODMn、TN、TP、NH3-N和Chl.a降雨前后數據均呈現極顯著正相關(Plt;0.01),且相關系數相對較高。降雨強度增大時,CODMn、NH3-N和Chl.a降雨前后水質相關性增強,TN和TP降雨前后水質相關性減弱。
c)基于機器學習的水質預測中,線性回歸模型的R2最高,RMSE最小,且模型穩定性相對較好,總體性能優于決策樹和隨機森林模型。另外,機器學習模型對TP的預測精度要低于CODMn、TN、NH3-N和Chl.a。