張常清
(河北省衡水水文勘測研究中心,河北 衡水 053000)
地表徑流是陸地生態過程中多元物質與能量流動的關鍵驅動要素,徑流量時空分布對經濟社會發展、生態環境變化具有重要影響[1]。目前,GOU等[1]開發了我國為數不多的徑流量格點產品,但其空間分布僅為0.25°(約25km),導致在流域尺度水文模擬、水資源管理中缺乏有效應用。因此,降尺度技術為改善其空間分辨率和數值精度提供了潛在可能。降尺度過程依賴于解釋地表徑流過程的地形、土地利用、人為活動、土壤含水率等環境變量,但各變量之間可能存在線性、冗余關系,導致模型過擬合。遺傳算法(Genetic Algorithm,GA)可以不考慮線性相關性而側重于構建最小變量集,以使模型擬合精度最優。隨機森林(Random forest, RF)是經典機器學習技術之一,相比于其他神經網絡、機器學習等非線性方法,其參數優化簡易、收斂性佳,因此善于解決高維、非線性問題。
本文以江蘇省為案例,運用GA-RF算法,先利用GA算法對降尺度因子進行優化,再結合RF技術建立徑流格點數據降尺度模型,進而重構省域尺度徑流量精細化分布式的柵格面。
河北省地處我國陰山-太行山向渤海中段延伸地帶,經緯度在E113°27′-E119°50′、N36°05′-N42°40′之間,省域陸地面積18.85×104km2。全省地勢西高東低、北高南低,形成壩上高原、土石山地、華北平原、前海濕地等折疊地貌景觀,海拔0~2 882m,見圖1。河北省屬溫帶季風性氣候向溫帶大陸性氣候過渡區,具有季候差異明顯、水熱同期、年內溫差大的特點,多年平均氣溫8℃~14℃,平均降水量531.7mm,年日照時數2 303.1h,各地無霜期介于81~204d。主要河流為海河、灤河等,多年平均水資源總量204.69×108m3,僅占全國水資源總的0.72%。其中,地表水資源量約120.17×108m3,全省人均水資源量僅約為300m3,不足全國平均水平的1/9。總體而言,河北省地表水資源相對匱乏,以徑流量格點數據降尺度為研究目標,對半濕潤半干旱區水資源優化配置具有積極意義。

圖1 研究區及主要河流分布
本文綜合再分析產品、衛星遙感數據、地面水文觀測資料,具體描述如下:
1)使用的降尺度目標數據為《中國天然徑流量格點數據集CNRD v1.0(1961-2018)》,其由GOU等基于VIC(The Variable Infiltration Capacity)分布式水文模型結合地面徑流觀測資料生成,并證明在全國尺度上的數值精度優于其他開源產品,且保持了空間分布連續性(https://poles.tpdc.ac.cn/zh-hans/news/1f6a8d07-b413-4a3b-875e-32dadca3196b)。
2)水文觀測資料。從水文水資源局收集到研究區28個水文站的2018年徑流量資料,并以此作為真值。
3)DEM數據。DEM數據由美國聯邦地質調查局(USGS)提供的STRM數字高程(DEM)V3.0產品,其空間分辨率為30m,以DEM數據為基礎,據此使用SAGAGIS軟件平臺(https://www.pcsoft.com.cn/soft/205412.html)提取相關地形因子,見表1。

表1 徑流量格點降尺度的環境變量
4)Landsat-8 OLI數據。本研究從United States Geological Survey (USGS) Earth Explorer website (https://earthexplorer.usgs.gov)獲得2018年遙感影像。先利用ENVI5.6軟件中Mosaic工具進行鑲嵌處理,再利用(Exelis Visual Information Solutions, Boulder, Colorado)基于24個地面控制點進行幾何校正,使每個控制點的均方根誤差小于0.5個像素,然后使用FLAASH模塊進行了輻射到反射率的轉換與大氣校。最后,利用Spectral indices extraction工具提取相關植被指數,見表1。
5)土壤和土壤是地表水源涵養的主要控制因素之一,將土壤砂礫、粉砂、黏粒、有機質、平均降水量、氣溫納入環境變量集,進而預測潛在水分。該數據由中國科學院資源環境科學數據中心(http://www.resdc.cn/)獲得,其空間分辨率為1km,另收集Global-land2020數據(LUCC)。
除站點觀測資料外,將其他柵格數據使用ArcGIS工具進行空間提取、投影轉換、歸一化處理。
GA是借鑒達爾文自然選擇進化論發展而來的最優解搜索算法。GA首先按一定比例選擇現有的種群進行新一代繁殖,然后利用交叉、變異等操作產生第二代種群,在此過程中,淘汰適應度( Fitness )低的個體,保留適應度高的個體,并不斷重復選擇、交叉、變異等操作,直至進化出具有最大適應度的個體作為最優解輸出,則終止進化。Scrucca(2013)利用R軟件的caret包構建基于GA算法的最優集。
隨機森林(RF)是基于Boostrap抽樣和bagging理論的一種組合器算法,由許多決策樹組成,每棵樹依賴于獨立采樣的隨機向量值,并且數據中所有樹的分布相同。RF建模使用boostrap采樣允許袋外數據用于估計一般誤差,預測結果是所有聚合預測的平均輸出。RF建模需優化兩個關鍵參數:用于生長每棵樹的變量數量(mtry)、林中樹數量(ntree)和終端節點的最小數量。mtry參數確定每棵樹的強度和樹之間的相關性,增加mtry還會增加每棵樹的強度和樹之間的相關性。RF模型性能通過增加樹木強度和降低樹木之間的相關性而得到改善。在本研究中,RF模型構建與參數優化通過caret包實現。
為了客觀評估GA-RF在粗糙集徑流量格點數據降尺度中的應用性,以降尺度前后格點數值與實際水文觀測站點值為基本輸入,運用納西系數(NSE)、平均絕對誤差(MAE)、均方根誤差(RMSE)作為評價指標,兩個模型性能,相關計算公式如下:
(1)
(2)
(3)

圖2為研究區原徑流量格點數據。由圖2可知,其空間分辨率粗糙,對局部細節信息刻畫不足。利用站點數據進行驗證發現,該產品與28個地面觀測站點數據具有良好一致性,見圖3,其NSE為0.70,MAE和RMSE分別為34.48、48.05mm,該誤差在可接受范圍內,因此在研究區具有一定可替代性。

圖2 河北省原徑流格點數據空間分布

圖3 研究區原徑流量格點數據與實測徑流量散點圖
將GA全局變量選擇技術應用于28×29的樣本矩陣,矩陣值因變量為站點尺度徑流量,其他均為自變量,進而檢索出徑流量格點降尺度模型所需的最優變量。圖4中,橫坐標為協變量數目或迭代次數,縱坐標為訓練精度的度量。由圖4可知,當變量數為11時,模型的RMSE達到最小,次數的精度最具可靠性。相應地,此時確定了11個環境變量如下:徑流量格點、降水量、氣溫、海拔、距河流距離、LUCC、地形濕度指數、NDVI、EVI、土壤粉粒、有機質。

圖4 GA算法變量選擇迭代圖
盡管相關研究認為RF算法對超參數配置并不敏感,但為了確保模型穩健,使用網格搜索法,對其關鍵參數進行優化。利用隨機抽樣方法,將28×29個輸入樣本隨機劃分為10份,其中9份作為訓練樣本,剩余1份為測試樣本,進而構建RF模型進行非線性擬合。圖5為不同mtry、ntree配置下,RF模型訓練精度RMSE的變化特征。由圖5可知,這兩個參數互相影響且單調性并不同步,最終確認當mtry=3、ntree=700時,模型訓練的擬合性能達到最優狀態,此時RMSE僅為0.6mm。

圖5 RF模型參數的網格搜索結果
將優化后的RF模型代入由11項環境變量組成柵格集,然后進行降尺度空間預測,得到研究區精細化的徑流量格點空間分布,見圖6。由圖6可知,降尺度后,其徑流量數值范圍介于24~303mm之間,空間柵格統計平均值為223mm,與圖2的原數據數值特征一致,表明降尺度的結果集成其表征功能。降水量呈現東多西少、南多北少的格局,以衡水、滄州、邯鄲東南部、唐山東南局部地區徑流量相對較大,可達250~300mm;石家莊、承德、唐山北部、廊坊、保定等地徑流量次之,在150~250mm之間;陰山和燕山地區的張家口、承德北部徑流量最少,僅在150mm以下。另外,與原徑流量格點數據相比,降尺度后的徑流量分布圖呈現了細節分布,避免了粗糙集格點鋸齒狀特征,反映了地形、河流對地表徑流深的影響。

圖6 河北省徑流量降尺度結果
為了評估降尺度精度,利用站點進行驗證,其結果顯示降尺度后的精度NSE為0.76,MAE和RMSE 分別為28.39、37.97mm。相對于原始徑流量格點數據精度,降尺度后的NSE提升了8.57%,MAE和RMSE 依次減小21.44%、23.92%。見圖7。

圖7 降尺度后徑流量格點與地面觀測數據之間一致性
粗糙集徑流量產品的降尺度研究是水文工作研究的重點方向之一。本文運用GA算法,從高維數據集里選擇最小變量集,進而采用RF擬合徑流量與環境變量之間復雜非線性關系。結果顯示,GA-RF算法將0.25°分辨率的徑流量產品降尺度至30m,且不犧牲其本源精度,表明所提出的GA-DNN降尺度方案具有移植性,可為其他區域和類似粗糙水文氣象數據的分辨率重構提供新方案。