楊承亮
(南昌市水利規劃設計院,江西 南昌 330000)
隨著氣候變化和自然災害頻發,對降雨量準確空間反演變得愈發重要[1]。江西作為南方立體農業核心區,其降雨量分布對水資源管理和災害防控具有重要意義。然而,由于該省地形復雜、降雨量具有明顯的時空變化特征,傳統的降雨量觀測手段難以全面準確地獲取其空間分布信息[2]。為此,許多研究者關注基于多源數據和機器學習算法的降雨量空間反演研究。其中,隨機森林(RF)作為一種強大的非參數機器學習方法,已經在許多領域展現出了良好的預測能力[3-4]。通過結合多源數據,如氣象站點觀測數據、衛星遙感數據以及地理信息系統數據,可以獲得更豐富的降雨量信息,提高空間反演的準確性[5]。因此,本研究以江西省為研究對象,旨在利用RF 算法和多源數據,實現對省域降雨量空間反演,為區域水資源管理、氣象災害預警等提供科學依據。
如圖1 所示,江西省位于中國中東部、鄱陽湖南側、武夷山北麓,總面積16.7 萬km2。區域地形自東、南、西向中北部傾斜,海拔介于0~2160 m,形成環鄱陽湖平原、江南丘陵、幕府山地、武夷山系等折疊地貌,境內有長江贛江自南向北通過,具有徑流量大、汛期長特點。

圖1 江西省地形特征和氣象站點分布
本研究中的降雨量數據從氣象科學數據中心(https://data.cma.cn/data)下載,鑒于數據可得性,僅獲取了2020 年89 個氣象站日降雨資料。該數據經0.1 mm 精度的質量控制,具有良好應用性。為實現對省域降水量進行空間反演,選擇地理空間數據云(http://www.gscloud.cn)平臺提供的STRM DEM 數據作為輔助,其空間分辨率為90 m,可精確反映局部地形變異;另外還基于DEM 數據提取了坡度和坡向信息。為反映降雨量經緯度地帶性特征,以獲取的DEM 數據為基礎,先通過ArcGIS10.8 平臺中的rater to point 工具將DEM 柵格轉成成空間點數據,然后利用屬性表中Calculate geometry 工具計算每一格點的經度和緯度,再通過point to raster 模塊生成區域柵格式經、緯度信息。將全部柵格數據利用cubic 方法重采樣成500 m 分辨率,用作空間反演輔助變量集。
隨機森林RF 是基于Boostrap 抽樣和bagging 理論的一種組合器算法,它由許多決策樹或回歸樹組成,每棵樹依賴于獨立采樣的隨機向量的值,并且數據中所有樹的分布相同。在RF 建模中使用boostrap 采樣允許袋外數據用于估計一般誤差,預測結果是所有聚合預測的平均輸出[6]。RF 建模需要兩個用戶定義的參數:用于生長每棵樹的變量數量(mtry)、林中樹數量(ntree)。mtry 參數確定每棵樹的強度和樹之間的相關性,增加mtry 還會增加每棵樹的強度和樹之間的相關性[7]。RF 模型性能通過增加樹木強度和降低樹木之間的相關性而得到改善。
RF 機器學習作為數據驅動模型對數據結構具有一定敏感性,將89 個樣本點按照7∶3 的比例隨機劃分成訓練集(62個)和驗證集(27 個),分別執行模型訓練、獨立驗證。對于訓練集、測試集,應用十折交叉驗證方法計算模型的決定系數(R2)、均方根誤差(RMSE)、平均絕對誤差(MAE)來評估模型預測能力和空間反演精度。
式中:yp、yo為預測值與實際值;、為預測與實測序列的平均值;r為實測值與預測值之間皮爾遜相關系數;V2p、V2o分別為預測值、實際值的方差。
江西省2020 年89 個標準氣象站點觀測的降雨量統計特征見表1。年降雨量最小值出現在彭澤站,僅為1285.61 mm,最大值為資溪站的2340.46 mm,兩者相差1054.86 mm;統計平均值為1799.53 mm,中值為1834.83 mm,單樣本KS 檢驗顯示其呈偏態分布。全部樣帶數據的離差系數為16.60%,表明全省降水量呈中度異質性。

表1 江西省站點降水量統計特征(n=89) 單位:mm
為深入認識站點降雨資料空間變異特征,使用ArcGIS10.8→Geostatistical analysis →Wizard kriging 工具得到其半方差函數Semivariance 結構圖,其結果見圖2。由圖2 可知,區域降雨量空間分布符合高斯(Gau)模型,塊金值為0.35,偏基臺值Partial Sill 為2.23,塊基比(Nugget/Sill)為13.56%,具有強烈空間自相關性(25%<Nugget/Sill<75%),其空間自相關范圍為600 km。這表明,研究區不同空間位置上降水量具有一定相關性,局域降水量存在互相影響。

圖2 江西省站點降水量Semivariance 結構圖
本研究以樣本植被為輸入變量,以站點時間降雨量為輸出目標,在Rstudio平臺中運用Caret程序包設計RF回歸模型。RF 模型結構受超參數影響,為確保模型穩健性和擬合能力,使用gridsearch 方法進行參數尋優,其結果見圖3??梢?模型訓練精度R2隨著ntree 數量增加先呈急劇增加后平穩趨勢,當ntree 大于200 時,R2趨于穩定。由于輸入變量較少,因此設置mtry 參數尋優區間為2~8,可見當其取值為8 時達到最大值。據此,選擇ntree、mtry 的超參數配對依次為200、8。

圖3 基于RF 算法降雨量插值模型優化過程
基于以上優化過程此訓練RF 模型,并分別利用訓練集計算精度評價指標R2、MAE 和RMSE,結果見圖4??梢奟F建模精度良好,其R2達0.78,MAE 和RMSE 分別為91.81 mm、139.81 mm。訓練集里真實值與預測值分布于1∶1 線兩側,并具有局部離散特征,表明該模型在訓練過程中較好擬合了降雨量與環境之間關系。因此可用以對未知區降水量進行插值預測。

圖4 隨機森林模型訓練精度
將上述訓練好的RF 模型代入柵格變量數據集,進而對省域降雨量空間分布進行預測,其結果見圖5。由圖5 可知,降雨量柵格面值域介于1280 mm~2340 mm,柵格平均值為1823 mm,離差系數為23.54%,這與表1 中站點統計值一致,表明預測的降雨量分布集成了站點降雨特性。降雨量呈現自東北向西、北遞減分布,降水量中心位于贛東鷹潭等地,局部降雨量可達1900 mm 以上;贛中地區次之,分布范圍為1600 mm~1900 mm 之間;贛南地區降水量呈現自西向東增加分布,介于1500 mm~1750 mm ;贛西北地區的幕阜山地區最少,僅為1280 mm~1500 mm。這種分布特征主要受季風運移路徑和地形影響。從局域特征來,該非線性插值結果并未出現“牛眼”“機械漸變”等非自然特征,而較好體現了經緯度地帶性和地形變異,因而反演的降水量分布更符合區域實際。

圖5 隨機森林方法反演的降水量空間分布
為進一步評價RF 模型反演精度,基于測試集計算了精度評價參數,并繪制散點圖,其結果見圖6??芍洫毩Ⅱ炞C的R2達0.76,MAE 和RMSE 依次為121.11 mm、151.70 mm,相對于訓練精度的R2減小了2.56%,MAE 和RMSE 分別增大了-31.91%、8.50%,表明RF 模型在移植后發生了一定程度精度下降,但依然在可接受范圍內。圖6 顯示,預測值與實際觀測降雨量之間具有良好線性關系,因此空間反演結果在研究區具有一定替代性,同時表明RF 模型能挖掘降雨量—環境因素間顯性、隱式關系進而更穩健擬合區域降雨分布。綜合來看,使用多源環境變量與RF 算法反演省域尺度降雨量空間分布過程中不存在過擬合而且具有良好適用性。

圖6 區域降雨量反演獨立驗證精度
本研究通過聯合GIS 與RF 機器學習技術,準確反演了省域尺度500 m 空間分辨率的降雨量分布式信息,結論如下:RF 模型基于站點降水量與環境因子之間非線性關系假設,模擬省域降雨量面分布,該方案克服了氣象站點數據密度缺陷且促進了氣候過程模式理解,可作為具有前景的數據解析技術,并能夠移植到其他地區幫助構建穩健的氣候要素反演模型,繪制更為精細的氣候面空間圖。然而,模型預測能力依賴于環境變量,本研究僅考慮了地形和經緯度因子,后續研究應納入大氣含水量、氣溫、地表溫度等信息,進而改進模型性能;此外還應定量分析各環境因子重要性,深刻解釋環境因子對降雨量空間異化的影響。