趙 華
(昌吉水文勘測局,新疆 昌吉 831100 )
降水量空間分布研究是氣象科學領域熱點之一[1]。目前降水量模擬主要使用數值模式,但由于氣象觀測站點限制,其在降水量時空分布方面模擬精度較低[2-3]。為了克服這一限制,學者們使用衛星遙感技術來獲取高時空間分辨率的降水量數據,并證實了能夠更準確了解降水量分布式信息[4-5]。然而,由于衛星數據分辨率通常比觀測站粗糙得多,因此需要使用降尺度方法來將衛星數據轉換為精細柵格面數據。目前主要的降尺度方法包括統計降尺度方法、動態降尺度方法[6-7]。動態降尺度方法通過分析大氣-陸地系統之間的交互作用來降尺度,而具有較大研究成本。以隨機森林回歸算法為代表的機器學習方法不僅能預測降水量空間分布,同時也能夠有效地降尺度衛星數據。
昌吉州位于亞洲大陸核心、我國新疆北部,總面積面積為11.2 萬km2。區域東部為準格爾盆地區,西南側為天山山麓,總體地勢呈現自西向東、自南向北傾向,海拔介于227 m~5323 m 之間,形成高寒山地、隔壁、盆地綠洲等地貌。該地區屬于溫帶大陸性干旱區,具有干旱少雨、酷暑寒冬、晝夜溫差大等特點;年平均氣溫在6℃~12℃之間, 年降水量100 mm~300 mm,積溫約2500℃,日照時數為2660 h,干旱日數約250 d,太陽輻射量120 kcal/cm2以上。該地水資源主要來自于天山融雪和地表徑流,年徑流量為33.7 億m3。
從氣象科學數據中心(http://data.cma.cn/)共收集到研究區16 個站點資料,時間為2020 年。該氣象站點通過降雨量自記錄儀記錄雨滴時的微弱電信號進行降水測量。人工觀測則在定點場地安裝雨量計,由專業人員采集記錄雨水的信息,并采用自動算法、人工復核等方法,對于存在異常或偏差的數據進行修正或刪除,因而數據可信度高。
研究區GPM 衛星降水數據則通過官方網站獲取(https://gpm.nasa.gov/data/directory)。該數據產品為IMERG,時間分辨率為/月,空間分辨率為0.1°(約10km),利用累加法將逐月GPM 數據合成2020 年產品,進而與該地地貌雨量站資料匹配。
隨機森林回歸(Random forest regression)是一種基于決策樹(CART)的集成學習方法,它通過將多個決策樹的預測結果進行平均或加權平均來得到最終的預測結果。集成學習方法可以降低單一模型的泛化誤差,提升模型的穩定性和準確度。以海拔、經度、緯度和經緯度等環境屬性作為隨機森林回歸模型的輸入特征,以基于氣象站點降水量數據為目標變量,構造的訓練集為:T={(x1,y1), (x2,y2), …,(xn,yn)},其中xi∈X,n=16 為輸入樣本數量,yi∈Y,為地面降水量值,進而擬合降水—環境之間復雜非線性關系下:
式中:B={1,2…,B},表示CART 數據;b表示boostrap樣本數;tb*為單一CART,K是第k個訓練樣本,包含目標變量(y)和協變量(x)的成對值[8]。
本研究使用ArcGIS 軟件對文中空間數據進行預處理,降尺度模型構建與參數優化則在Rstudio 軟件中實行。利用隨機森林回歸算法預測得到的降水量柵格點值y'為參考值,以地面觀測站降水量y 為真值,計算決定系數(R2)、平均絕對誤差(MAE)和均方根誤差(RMSE),對昌吉地區降水量GPM 降尺度精度進行量化評估。
研究區原GPM 年降水量柵格面見圖1,其共存在2498 個像素,可知其原GPM 像素值介于降水量介于78 mm~508 mm之間,其空間平均值為178 mm,離差系數達56%,呈現自動向西減少的分布特征。需指出的是,該粗糙的柵格像素存在明顯機械性特征,無法精細表達降水量空間細節變化。

圖1 昌吉地區原GPM 降水量空間分布
利用半方差函數(GS+9.0 軟件)檢測原GPM 降水數據(圖3)柵格像素點之間空間自相關性。由圖2 可知,隨著空間距離增加,半方差值先從0 值迅速升高,當空間距離達到300 km 距離時,半方差值趨于穩定。統計的其塊基比為6.29%,說明存在顯著空間自相關,其自相關距離約為30 km,降水量在此范圍內呈現互相影響,而超出該范圍則相關性消失。上述研究表明,利用RF算法對區域降水量進行空間擬合具有可行性。

圖2 研究區降水量半方差函數特征

圖3 昌吉地區原GPM 降水量與地面觀測值之間一致性
為客觀評估研究區GPM 降水量數據可替代性,利用研究區16 個氣象站點空間數據提取了對應位置上GPM 像素,并比較二者之間差值。如圖3 所示,衛星記錄降水量值與地面觀測值之間具有較好一致性,散點聚集于1∶1 兩側,僅有少部分離散點;統計得到二者間的R2達0.45,MAE 和RMSE分別為48.89 mm、61.47 mm。由此可知,昌吉地區2020 年GPM 衛星數據在該地區具有一定可替代性。
為確保降尺度模型穩健性,利用全部16 個氣象站點降水量資料進行充分訓練,以地面雨量站觀測降水量為目標特征,以DEM、地理經度、緯度和經緯度乘積為協變量,進而訓練隨機森林回歸模型。利用網格搜索算法對該關鍵參數優化,其中對Importance Coefficient 設定搜索范圍為0~1,步長為0.1;mtry 取 值 0~1 之 間 整 數;Regularization value 為0~1 之 間,步長為0.1。由模型參數優化過程可見當mtry、Importance Coefficient 和Regularization value 參數組合配置依次為10、0、0.2 時,此時模型訓練精度RMSE 達到最小,僅為14.23 mm。
利用訓練好的隨機森林回歸模型進行降尺度處理得到昌吉州1 km 分辨率水平的降水量空間信息(圖4)。可見,降水量值域范圍為77 mm~512 mm,其空間平均值為190 mm,這些統計特征與原GPM 數據(圖1)相接近。西部南部天山北坡地區降水量較高,可達300 mm 以上,而東部、東北部平原地區較少,僅為200 mm 一下,該分布特征主要受到地形抬升影響。然而,與原始GPM 資料相比,降尺度后的GPM 數據不僅繼承了其數值水平和空間分異規律,還突出了在刻畫降水量分布細節信息方面的優勢,更符合研究區實際。

圖4 昌吉地區GPM 數據降尺度降水量分布
在獲取研究區GPM 數據降尺度后柵格面基礎上,利用ArcGIS 工具extract 功能提取昌吉州全部氣象站點位置上對應的降尺度后降水量數值信息,在此基礎以地面觀測降水量值為參考,計算二者之間差值。圖5 中顯示,地面降水量與降尺度后GPM 值之間擬合度較好,二者間的R2達0.703,MAE、RMSE 分別為37.31 mm、42.34 mm,且離散點相對較少。相比于原始GPM 數據,降尺度的GPM 降水量與地面觀測值之間的R2提升了62%,而MAE 和RMSE 依次降低了24%、31%。該結果表明,研究區粗糙集GPM 數據經隨機森林降尺度處理,提升了數值準確性。

圖5 降尺度后GPM 降水量與地面觀測值之間一致性
為進一步了解隨機森林降尺度后GPM 數據具體誤差分布,先利用站點數據統計了點基尺度相對誤差,再利用Voroni 圖進行可視化,具體分析過程為:ArcGIS Geostatistical Analysis →Explore data Voronoi map。如圖6 所示,降尺度后GPM 數據誤差存在區域性差異,其中對中北部地區降水量存在高估,相對誤差約為0~60 mm,對南部山地存在低估,誤差約為-78 mm~0 mm。

圖6 昌吉地區GPM 降水量空間殘差分布
本研究基于隨機森林回歸降尺度算法對粗糙集的原GPM衛星降水數據進行尺度變換處理,對昌吉州降水量空間分布進行研究。結果表明,隨機森林回歸模型通過擬合地面觀測降水量與地形、經緯度之間非線性關系,較好模擬了昌吉地區降水量空間細節分布,并展示了空間平滑性和可靠性;經降尺度處理后的GPM 數據精度取得較大提升,生成的降水量空間柵格圖顯示,區域降水量呈現自東向西、自南向北減少分布規律;區域GPM 數據降尺度后誤差呈現由南向北增加分布,南部山區存在低估,北方盆地存在高估。未來研究仍需進一步拓展其他機器學習或深度學習算法在降尺度過程中的應用性,并比較不同非線性回歸技術對GPM 數據降尺度的差異性。