閆 鑫,陳 華,尚志宏,王金星
(1. 安徽省水利水電勘測設計研究總院有限公司,安徽 合肥 230088; 2. 武漢大學 水資源與水電工程科學國家重點實驗室,湖北 武漢 430072; 3. 松遼水利委員會水文局,吉林 長春 130021; 4. 水利部信息中心,北京 100053)
降水作為地球水循環的重要組成部分,在水文、氣象、生態等方面具有重要意義[1-3]。陸地水文過程中的不確定性大多是由降水的時空變異性引起的[4,5],水文模型輸出的質量在很大程度上依賴于輸入降水估算的質量[6]。目前,主要采用雨量站、衛星遙感、天氣雷達等手段測量降水。雨量站可以在點尺度上提供較為準確的降水值,但在大尺度上無法準確估算連續的空間降水分布[7]。氣象雷達可以提供更精確的時間和空間分辨率的降水數據,但是在復雜地形條件下,由于波束遮擋和雷達信號隨距離衰減等原因,會造成測量誤差[8]。得益于衛星傳感器和測量技術的發展,基于衛星的遙感數據正在成為提供全球時空連續的降水估計的一種有效的數據源。衛星降水產品可以提供關于降水分布及其變化的周期性和區域性信息,比雨量站數據更能反映空間分布,但大多數衛星降水產品存在較大的系統偏差和隨機誤差[9]。
數據融合是指將來自多個數據源的數據進行融合,從而獲得比任何單一數據源更準確、更有價值的信息的過程[10]。近年來,為了減少衛星降水估計誤差,提高精度,利用雨量站數據和衛星降水數據在可用性和準確性方面具有互補的特點,將兩者的觀測數據融合已成為一種常用的方法,如空間隨機森林法[11]、貝葉斯平均法[12]、具有外部漂移的克里金法[13]和地理加權嶺回歸[14]等。然而,由于衛星像元與雨量站在空間尺度上存在不匹配的問題,將會導致難以避免的誤差[15]。因此,為了解決上述問題,有研究提出在進行融合校正前,需要對原始低分辨率的衛星反演降水數據進行降尺度處理,以更好地匹配雨量站數據源的尺度[16-18]。
研究的主要目的是通過兩步降尺度融合方法來獲得高分辨率日降水產品。首先,基于隨機森林模型對GPM_3IMERGDF 日降水產品進行空間降尺度,提出了“時間升尺度-空間降尺度-時間降尺度”一體化方案。其次,采用協同克里金法將降尺度衛星降水數據與地面雨量站觀測數據融合,獲得高精度日降水產品。最后,通過半分布式日尺度WASMOD-D(the daily version of Water And Snow balance MODeling system)水文模型來模擬降雨—徑流過程,評估融合降水產品的徑流模擬效果。
漢江流域位于中國中南部,在北緯30°4'~34°11'到東經106°5'~114°18'之間,面積為15.9 萬km2。漢江流域降水分布表現出很強的梯度,隨經度、緯度和海拔變化,屬于亞熱帶季風區,氣候溫和濕潤,年降水量873 mm,水量豐富。

表1 研究數據及其來源Tab.1 Research data and sources

圖1 研究區域Fig.1 Study area
2.1.1 隨機森林模型
隨機森林(Random Forests)[19]是一種增強的決策樹模型,基于引導聚集算法(Bootstrap Aggregating)來增加額外的隨機性層。如圖2所示,在隨機森林模型中,決策樹模型作為單個預測模型。隨機森林模型可用于分類和回歸,在降水和溫度等氣象數據降尺度方面具有良好的表現。

圖2 基于Bagging方法的隨機森林算法示意圖Fig.2 Schematic diagram of random forest algorithm based on bagging method
2.1.2 降尺度模型的構建
由于日降水量與陸面環境變量之間缺乏較強的相關關系,研究首先在季節尺度上對GPM 降水數據進行空間降尺度,然后對降尺度結果在時間上進行分解,由此得到高時空分辨率的GPM 日降水數據。GPM 降水數據和夜間地表溫度(LSTnight)、日間地表溫度(LSTday)、坡度、高程、坡向、經緯度和NDVI 數據輸入到隨機森林模型中,建立陸面環境變量與降水量之間的回歸模型,如圖3所示。

圖3 基于隨機森林模型的降尺度方案流程圖Fig.3 Schematic diagram of downscaling scheme based on random forest
2.1.3 季節GPM 降水的分解







研究中,雨量站觀測被視為“真實降水量”,通過定量和定性指標評估衛星降水產品的精度。對于星地融合降水數據的精度,采用留一交叉驗證法來進行評估[14]。相關系數(r)反映了觀測值和預測值之間的線性相關程度。平均絕對值誤差(Mean Absolute Error,MAE),它表示預測值和觀測值之間絕對誤差的平均值。均方根誤差(Root Mean Square Error,RMSE)代表觀測值和預測值(稱為殘差)之間差異的樣本標準偏差。偏差(Bias)代表預測值和觀測值的偏離程度。修正Kling-Gupta效率系數(the modified Kling-Gupta Efficiency,KGE)是對觀測值與預測值在整體趨勢上進行綜合比較。精度評估指標計算公式如下:

式中:o為觀測降水量;p為估計降水量為觀測降水量的平均值為估計降水量的平均值;CV為以mm 為單位的變異系數;σp為估計降水量的標準差;σo為觀測降水量的標準差。
檢測率(Probability of Detection,POD)、誤檢率(False Alarm Ratio,FAR)和臨界成功指數(Critical Success Index,CSI)被選擇來評估衛星降水數據檢測降水事件的能力,計算公式如下:

式中:H為同時通過雨量站觀測和衛星降水數據確定的降水事件數;M為被衛星降水數據確定但未被雨量站觀測捕獲的降水事件數量;F為在雨量站觀測中識別到但在衛星降水數據中未被識別的降水事件數。
Xu 等[20]基 于NOPEX 流 域 開 發 了WASMOD 水 文 模 型。Gong 等[21]在WASMOD 基礎上開發了半分布式日尺度WASMOD-D 模型。WASMOD 水文模型是一個水量平衡模型,模型概念簡單,參數較少。模型結構如圖4 所示,包含降水下滲、蒸發、產流和匯流等四個模塊。

圖4 WASMOD模型系統概念圖Fig.4 conceptual diagram of wasmod model system
為了比較3 種不同降水產品降水的空間分布情況,以研究時段的4 個年份的3 天的日降水數據為例,分別繪制了原始GPM 降水產品(Ori_GPM)、降尺度GPM 降水產品(Down_GPM)和降尺度—融合降水產品(MR_CK)的空間分布圖(如圖5~8 所示)。這些日期橫跨了了春、夏、秋三季,包括了漢江流域的主要降雨季節,因此具有良好代表性。Down_GPM 不僅保留了原始GPM 降水的空間分布模式,也改善了其空間細節,尤其對于局部降水事件較多的情況。在與雨量站觀測數據融合后,GPM降水數據的降水量和空間分布都得到了一定的校正。

圖5 3種降水產品在2014年第101 d、第242 d、第284 d的降水分布圖Fig.5 Precipitation distribution of three precipitation products on the 101st, 242 and 284 days in 2014

圖6 3種降水數據集在2015年第91 d、第196 d、第284 d的降水分布圖Fig.6 Precipitation distribution of three precipitation products on the 91st, 196 and 284 days in 2015

圖7 3種降水數據集在2016年第96 d、第174 d、第311 d的降水分布圖Fig.7 Precipitation distribution of three precipitation products on the 96st, 174 and 311 days in 2016

圖8 3種降水數據集在2017年第99 d、第187 d、第270 d的降水分布圖Fig.8 Precipitation distribution of three precipitation products on the 99st, 187 and 270 days in 2017
表2 列出了降水產品精度評估指標的結果。從總體上來看,與Down_GPM 相 比,MR_CK 的MAE和RMSE分 別 下 降 了32.38%和21.38%,偏差的絕對值從20%降低到了小于1%,r和KGE分別提高了17.40%和31.78%。在與雨量站觀測數據進行融合后,MR_CK顯著提高了Down_GPM的精度。

表2 3種日降水產品精度評估指標結果Tab.2 Precision evaluation index results of three daily precipitation products
從圖9 可以看出,所有降水產品都能很好地識別出無雨事件,但識別能力隨著降水量的增加而逐漸降低。Down_GPM 的識別能力與Ori_GPM 幾乎相同,在與雨量站觀測數據融合后,MR_CK在識別降水事件方面的能力得到了顯著的提高。此外,隨著降水量的增加,3 種降水產品的RMSE和MAE逐漸增加,并具有相似的變化模式。

圖9 不同降水范圍內Ori_GPM、Down_GPM 和MR_CK的精度表現Fig.9 Precision performance of Ori_GPM, Down_GPM and MR_CK in different precipitation ranges
研究選取漢江流域的典型子流域白河流域作為研究對象,如圖10 所示。設置兩個徑流模擬情景,在情景I中,WASMODD 模型參數用雨量站降水數據進行率定,并以3 種降水數據集和站點降水作為輸入驅動模型進行徑流模擬。在情景II 中,每個降水數據集分別率定WASMOD-D 模型參數,再根據不同的參數集進行徑流模擬。

圖10 白河流域概況Fig.10 Baihe River Basin
使用納西效率系數(NSE)、相關系數(r)和水量相對誤差(Re)這3個指標來評價3種降水產品對日徑流模擬精度。



3.3.1 徑流模擬情景I:使用雨量站數據進行模型率定
為了保證降水數據的獨立性,率定模型的雨量站數據選自中國地面氣候資料日值數據集(V3.0),選擇白河水文站1969-1979 年的歷史實測徑流數據來進行模型參數的率定。然后,3種降水數據集和站點降水數據作為輸入驅動WASMOD-D 模型進行水文模擬。從圖11可知,衛星降水產品驅動的模擬徑流大部分高估了日徑流觀測的極大值。從表3 可知,徑流模擬一致性效果較好的是MR_CK,其相關模擬徑流的NSE和r分別為0.67和0.87,相較于站點降水數據有一定的提升。

圖11 3種降水產品和站點降水驅動WASMOD-D水文模型模擬的白河流域出水口白河站的日徑流和月平均徑流Fig.11 Daily runoff and monthly average runoff of Baihe station at the outlet of Baihe River Basin simulated by WASMOD-D hydrological model driven by three precipitation products and station precipitation

表3 3種降水產品和站點降水數據驅動下的徑流模擬效果Tab.3 Runoff simulation effect driven by three precipitation products and station precipitation data
3.3.2 徑流模擬情景II:利用每個降水數據集進行模型率定
分別使用3 種降水數據集和站點降水對WASMOD-D 水文模型進行率定,比較其水文模擬效果差異。設置率定期為2014-03-01-2017-02-28,檢驗期為2016-03-01-2018-02-28。
從圖12(a)可知,無論衛星降水產品還是融合降水產品驅動的模擬徑流都低估了日徑流觀測的極大值。由表4 可知,在率定期模擬效果較好的是MR_CK,其相關模擬徑流的NSE、Re和r分 別 為0.74、-10.88% 和0.86。與Ori-GPM 相 比,Dowm_GPM 的水量相對誤差有明顯下降,降低了58%。在檢驗期模擬效果最好的是MR_CK,其相關模擬徑流的NSE、Re和r分別為0.71、-7.55%和0.84。與站點降水相比,MR_CK 徑流模擬的一致性指標略有提升,但是水量平衡誤差改善較為明顯。

圖12 3種降水產品和站點降水驅動WASMOD-D水文模型模擬的白河流域出水口白河站的日徑流和月平均徑流Fig.12 Daily runoff and monthly average runoff of Baihe station at the outlet of Baihe River Basin simulated by WASMOD-D hydrological model driven by three precipitation products and station precipitation
基于隨機森林的降尺度模型將低分辨率降水數據降尺度至高空間分辨率,為雨量站的點數據和衛星像素之間的尺度差問題提供了有效的解決方案。利用隨機森林模型對衛星降水數據進行降尺度處理提高融合結果的精度,由于降尺度降水數據與雨量站數據空間尺度更加匹配,且降尺度過程具有一定的平滑效果,使得衛星降水數據分布更加連續。有助于解決不連續降水背景場所導致的邊界偏差問題和繪制高分辨率降水分布圖[22]。
在先前的研究中,陳圓圓[18]使用面到點克里格法(Area-To-Koint Kriging,ATPK)對(Tropical Precipitation Measurement Mission,TRMM)月降水產品進行空間降尺度,然后使用地理加權回歸克里金法(Geographically Weighted Regression Kriging,GWRK)將降尺度降水量與雨量站觀測值進行融合。Chen等[13]通過地理加權回歸縮小了TRMM 降水量的尺度,然后使用具有外部漂移的克里金法將降尺度TRMM 降水數據與雨量站觀測值進行融合。Chen 等[14]使用地理加權嶺回歸(Geographically Weighted Ridge Regression,GWRR)將四個降尺度衛星降水數據與雨量站觀測值進行融合。與以往的研究不同,研究引入了機器學習算法中的隨機森林模型和地統計學中的協同克里金法來構造降尺度-融合方案。結果表明,在日尺度上融合降水數據的精度顯著提高。對于衛星降水和雨量站觀測的融合,增加雨量站的分布密度有助于提高融合結果的質量[17,18,23]。然而,當雨量站密度達到臨界閾值時,這種改善將受到限制[24]。對于不同的融合算法,對于最優融合結果,最優雨量站密度是不同的,值得進一步研究。
情景I 對于有實測資料的流域,使用獨立的雨量站數據進行水文模型參數率定,在水文界應用廣泛。而情景II 則可以被視為無雨量站實測資料流域的替代方案,主要適用于只有來自遙感觀測平臺的降水數據。與基于雨量站參數的模擬表現相比,模型重新率定顯著改善了兩種衛星降水數據集的NSE值,但Re值和r值卻有所下降;而對于融合降水數據集和站點降水來說,NSE值和Re值改善較為明顯,r值的變化并不明顯。經分析認為,可能是以NSE為目標函數進行參數率定時,參數的調整是朝著NSE的最優值方向靠近的。Xue 等[25]指出不同的參數設置(即情景II 中根據不同輸入的降水數據集重新率定水文模型參數)可以補償降水數據集驅動中的誤差,從而改善徑流的模型預測。利用偏差較大的衛星降水產品進行徑流模擬時,根據相應的衛星數據重新率定參數,可以提高徑流模擬性能,是提高近實時衛星降水產品在徑流模擬中適用性的關鍵步驟。這種參數補償效應被廣泛認可,并應用于水文研究中[12,26,27]。
(1)基于“時間升尺度—空間降尺度—時間降尺度”三步綜合降尺度方案,為衛星日降水數據的空間降尺度提供了有效途徑。該方案所獲得的降尺度日降水估計不僅保留了衛星數據的原始空間格局,而且顯著地改善了其空間細節,使得衛星降水數據分布更加連續,改善了不連續降水背景場所導致的邊界偏差問題。基于隨機森林模型的降尺度算法不僅顯著提高了GPM降水的空間分辨率,而且保持了較好的精度。
(2)考慮到地面觀測降雨與衛星反演降水具有空間相關性,將協同克里金法引入融合地面雨量站—衛星遙感反演降水估計中,提出了一種降水數據線性融合模型。精度評估結果證明,當衛星降雨數據與雨量站觀測數據融合后精度得到了顯著提高, 相較于Down_GPM,MR_CK 對日降水估計的精度有了明顯的提升,在柵格尺度上,r和KGE均大于0.7。
(3)利用原始GPM 降水產品(Ori_GPM)、降尺度GPM 降水產品(Down_GPM)、降尺度—融合降水產品(MR_CK)和站點實測降水驅動分布式水文模型WASMOD-D 來模擬降雨—徑流過程,在兩種不同的徑流模擬情景下評價了三種降水產品和站點降水對日徑流模擬的精度。綜合兩種不同情景下的日徑流模擬效果來看,由于結合了衛星降水數據和站點降水數據的優勢,MR_CK的整體模擬效果最好。
(1)針對不同區域不同的降水分布規律以及對于不同的融合算法,融合降水結果達到最優時的最佳雨量站密度是不一樣的,這個問題在今后值得進一步研究。
(2)高時間分辨率(如小時尺度)的降水數據對于短期水文預報等研究是十分重要的。對于高時間分辨率的衛星降水數據的降尺度和數據融合值得進一步研究。