王彧蓉 周建中 楊鑫 方威



摘要:為彌補長江中下游地區臺站觀測資料的部分缺失,探究再分析數據集的適用性,從時間和空間上評估ERA5和CFSR再分析降水數據集精度,建立了包含相關系數、相對偏差、均方根誤差和Kling Gupta系數多指標定量綜合評價體系,提出了結合校正系數法與自回歸模型的組合校正法(C-AR);并將C-AR校正法與單一的校正系數法、AR模型以及校正系數法與最鄰近抽樣法組合的校正法(C-KNN)進行對比,探究C-AR組合校正法的校正效果。研究結果表明:① ERA5和CFSR與實測降水數據在年、季尺度上降水趨勢變化和年內分配規律上較為一致,且與實測數據的相關性均較好;② ERA5和CFSR在實測降水量多的區域均存在正偏差,而在實測降水量少的區域存在負偏差;③ C-AR組合校正模型不僅可在量級上校正數據集,還可提升數據集與實測數據的相關性,可多方面綜合改善數據集精度,提高數據集適用性,校正效果要優于校正系數法、AR模型和C-KNN組合校正法。
關 鍵 詞:再分析降水資料;ERA5;CFSR;組合校正法;長江中下游地區
中圖法分類號:P339
文獻標志碼:A
文章編號:1001-4179(2021)09-0093-08
DOI:10.16232/j.cnki.1001-4179.2021.09.015
0 引 言
長江中下游地區是中國經濟和科技文化最為發達的地區,雨季持續時間長,洪澇災害發生較為頻繁[1-2]。因此,高精度的降雨預報信息對長江中下游地區防洪減災具有重要意義。然而,雨量站觀測數據可能存在時間長度、觀測方法不一致等問題[3],使得實測降水數據質量較差,無法滿足水文氣象研究需求。因此,對地面、無線電探空、衛星、雷達等觀測資料進行嚴格質量控制及同化處理的再分析數據集應運而生。
目前主流的再分析數據集有美國國家環境預報中心(National Centers for Environmental Prediction,NCEP)的FNL和CFSR數據集、歐洲中期天氣預報中心(European Centre for Medium-Range Weather Forecasts,ECMWF)的ERA-interim和ERA5數據集以及日本氣象廳(Japan Meteorological Agency,JMA)的J25和J55數據集等。然而,這些再分析數據集適用范圍不盡相同[4],且未經過校正和后處理的降雨預報產品系統誤差較大,導致模型輸入不確定性較大,影響了預報精度[5]。因此,有必要對再分析數據集進行評估校正后再應用于水文氣象研究。Xu等[6]評估了CaPA、ERA-interim、ERA5等多種再分析資料在北部大平原的適用性,發現再分析資料在春秋兩季的表現優于夏冬兩季。李建等[7]評估了NCEP、ERA和JRA資料對中國夏季降水場的再現能力,結果表明3套資料均能較好地再現夏季降水量分布特征。王旭丹等[8]利用NCEP/NCAR對華北地區水汽含量和降水量分布特征進行了分析,結果表明華北地區水汽含量和降水量分布規律一致。
有代表性的校正再分析資料的方法主要有校正系數法[9-10]、線性校正法[11]、分位數映射法[12]、局部強度縮放法[13]等。分位數映射法是基于概率分布的校正方法,校正系數法、線性校正法和局部強度縮放法均通過某一固定系數或縮放因子從量級上校正再分析數據集。這些校正方法對于序列均值均有較好的校正效果,但對于再分析降水資料與實測降水序列的趨勢擬合上的校正效果不甚理想。由于AR模型對時間序列預測及趨勢擬合效果較好,本文將校正系數法與自回歸模型相結合,提出了C-AR組合校正法。在對ERA5和CFSR再分析降水資料在長江中下游地區的適用性進行定性和定量評估后,采用C-AR組合校正法對ERA5和CFSR進行校正,并與其他校正方法對比,為今后ERA5和CFSR再分析數據集的校正和相關水文氣象研究提供參考。
1 數據資料與方法
1.1 數據資料
實測降水數據使用的是中國氣象局整理發布的中國地面氣候資料逐日數據集,數據經過人工篩查,質量良好。為充分考慮豐平枯水年情況,實測數據選取了長江中下游地區160個站點1980~2013年34 a的長序列實測逐日降水數據,站點分布情況如圖1所示。
再分析降水資料使用的是ERA5和CFSR再分析降水數據集。ERA5是ECMWF的第五代再分析資料,采用了4D-Var變分同化技術,比起ERA-interim有更高的時空分辨率。本文采用的ERA5降水數據集時間分辨率為每1 h一次的降水量,空間分辨率為0.25°×0.25°。CFSR是由NCEP提供的覆蓋全球的高分辨率再分析資料,時間分辨率為每6 h一次的降水量,空間分辨率為1°×1°。
1.2 AR模型
自回歸模型(Autoregressive Model)是一種時間序列模型,結構簡單。假設實測降水序列為Xt=(X1,X2,…,Xn),其中n為降水序列的長度,則再分析數據集序列為X^t=(X^1,X^2,…,X^n)。實測降水序列與再分析數據集序列的差值為誤差序列,記為et=(e1,e2,…,en)。考慮到誤差序列存在相關性,因此可通過建立AR模型來預測誤差值,將其疊加至再分析數據集降水量,從而得到數據集的校正結果。基于誤差序列的AR模型數學表達式如下:
采用AIC準則來選取模型的階數。AIC計算公式如下:
1.3 C-AR模型及其計算步驟
考慮到校正系數法主要對降水量量級進行修正,因此將校正系數法和AR模型相結合,構建C-AR模型,其計算步驟如下:
(1)收集并整理ERA5、CFSR和實測降水數據,計算其多年月均降水量。
(2)根據ERA5、CFSR與實測數據多年月均降水量的偏差計算各月校正系數,對ERA5和CFSR數據集進行初步修正,校正系數計算公式如下所示:
(3)計算校正系數修正后的數據集與實測降水數據的誤差,將其作為初始數據序列,根據公式(1)構建新的自回歸模型C-AR模型。
(4)利用步驟(3)中構建好的C-AR模型預測各時段誤差值,從而得到數據集最終校正結果。
(5)利用選取的評估指標檢驗校正模型性能。
1.4 評估指標
為較全面地評估ERA5和CFSR數據集的精度,采用相關系數(R)、相對誤差(BIAS)、均方根誤差(RMSE)和Kling-Gupta系數(KGE)這4個指標評估數據集的優劣。
(1)相關系數(R)反映了數據集與實測數據的相關性強弱:
(2)相對誤差(BIAS)反映了數據集的準確度:
(3)均方根誤差(RMSE)反映了數據集和實測數據之間的偏離程度:
(4)Kling-Gupta系數充分考慮了數據集和實測數據的均值和偏差,是集合了相關系數、均值誤差和標準差誤差的綜合性指標。
式中:Qfi和Qoi分別為模擬降水量和實測降水量;μf,σf和(μo,σo)分別代表模擬降水和實測降水的期望與標準差;KGE包含了3個組成部分:相關系數R、可反映數據集和實測數據相對離散程度的α指標以及反映數據集和實測數據均值偏差的β指標。
總的來說,本文首先基于長江中下游地區160個氣象站點,分析評估了ERA5和CFSR在長江中下游地區不同時間尺度下與實測降水趨勢變化的一致性及相關性;其次,探索了再分析數據集與實測降水偏差的空間分布規律;同時,為更全面地評估再分析數據集精度,建立了定量綜合評估體系;最后,提出了C-AR組合校正法校正數據集以提高再分析數據集精度。研究框架如圖2所示。
2 結果分析
2.1 時間精度評估
將ERA5數據集和CFSR數據集通過反距離插值法[14-15]插值到長江中下游地區的160個氣象站點,以便和實測降水數據對比分析。計算出這3套數據的年、季和月均降水量,得到不同時間尺度下的時間序列,分析相應尺度下的變化趨勢和年內降水分配規律,如圖3所示。其中,圖3(a)為逐年降水量趨勢圖,可以看到ERA5和CFSR的四季降水量都比實測降水量高,存在高估的現象,但總體的降水趨勢是接近的。從圖3(f)月均降水分布圖可以看出,ERA5和CFSR年內分配變化規律與實測降水數據一致,存在明顯的雨季和旱季,在4~9月降水量較大,1~3月和10~12月降水量較小。從圖3也可以看出ERA5和CFSR數值都比實測降水數據大,且CFSR和實測降水數據偏差比ERA5大。綜上所述,ERA5和CFSR均能較好地描述實測降水的變化趨勢和年內分配規律,但均存在高估現象,CFSR比ERA5高估現象更為嚴重。因此,需采用合適的校正方法對ERA5和CFSR數據集進行校正,以提高數據集驅動的水文模擬精度。
圖4給出了ERA5和CFSR與實測降水數據在不同時間尺度上的相關系數,且均通過了顯著性檢驗(α<0.05)。ERA5和CFSR在年際變化、四季降水趨勢變化和降水年內分配上和實測降水數據相關性較高,均在0.75以上。ERA5和實測降水數據在年際變化上的相關性略低于CFSR(0.84),為0.82。季降水趨勢相關性分析中,ERA5和CFSR與實測降水數據在秋季和冬季時呈現較強的相關性,相關系數都在0.90以上,而春季和夏季相關性略差,相關系數約為0.80。ERA5和CFSR在年內降水分配規律上和實測降水數據的相關性十分顯著,相關系數接近1.00,且ERA5相關性比CFSR高。綜上所述,ERA5和CFSR在不同時間尺度上與實測降水數據相關性差異很小,均具有較強的相關性和良好的適用性。
2.2 空間精度評估
為分析降水偏差的空間分布情況,用ArcGIS中的反距離插值模塊得到ERA5、CFSR與實測降水數據偏差百分比的空間分布圖,如圖5所示。從圖5(a)可以看出長江中下游地區在緯度較高地區,多年平均實測降水量偏小;在緯度較低地區,多年平均實測降水量偏大。從圖5(b)可以看出ERA5和實測降水數據的多年平均降水量偏差較大,甚至有部分區域降水偏差超過100%。ERA5的降水偏差百分比在大部分區域為正偏差(80.00%的站點),即高估了降水量;少部分區域為負偏差(20.00%的站點),即低估了降水量。相比之下,CFSR再分析降水資料和實測降水數據的多年平均降水量的偏差較小,降水偏差百分比在-25.34%~82.92%之間。CFSR的降水偏差百分比同樣在大部分區域為正偏差(94.37%的站點),在少部分區域為負偏差(5.63%的站點)。并且CFSR和ERA5降水偏差分布較為一致:在實測降水量多的區域,呈現負偏差;在實測降水量少的區域,呈現正偏差,存在高估弱降水、低估強降水的現象。
2.3 校正方法對比
為論證C-AR模型的校正效果,選取校正系數法、AR模型以及校正系數法與最鄰近抽樣法組合校正的方法(C-KNN)對數據集進行校正并作對比分析。ERA5和CFSR各月的校正系數如表1所列。本文中最鄰近抽樣法(KNN)樣本向量長度取經驗值4,近鄰數目K通過公式計算得到(K=int(m),其中m為樣本數量)。ERA5和CFSR經各校正方法校正后的結果如表2和表3所列。
如表2~3所列,ERA5和CFSR經過4種校正方法校正后數據精度均得到較大改善,相對誤差小于20%,在可接受范圍內,提高了數據集在長江中下游地區的適用性,因而這4種校正方法均有較好的校正效果。從相關系數看,除C-KNN在對ERA5數據集校正時相關系數略低于未校正前外,各校正方法均在一定程度上提高了相關系數,且在0.97附近,表明校正后的數據集與實測數據誤差顯著減小;從相對誤差看,ERA5和CFSR經過這4種校正方法校正后的相對誤差均低于7%(許可誤差20%),在可接受允許誤差范圍內,相較于未校正前的相對誤差(大于20%)得到了較大的改善;從均方根誤差看,ERA5和CFSR經過C-AR校正法校正后,均方根誤差低于15,而ERA5和CFSR數據集經過其他3種校正方法校正后高于15,但經這4種校正方法校正后均方根誤差均顯著降低,說明校正后數據集與實測數據偏離程度均變小;從KGE系數看,ERA5和CFSR數據集經過C-AR校正法校正后KGE系數得到了顯著提高,均達到了0.9,其他校正方法校正后KGE系數略低于經過C-AR校正法校正后的值,但經過這4種校正方法校正后KGE系數均得到了顯著提高,表明校正后的數據集精度得到了綜合性改善。
此外,C-AR組合校正法校正結果在4個指標上均優于校正系數校正法和AR模型校正法,從而得到C-AR組合校正法校正結果優于單一的校正系數法和AR模型。C-AR組合校正法,相較于C-KNN組合校正法,除對ERA5校正后的相對誤差略高于C-KNN校正法外,其他指標都優于C-KNN法;且C-KNN校正法相較于單一的校正系數法,它以犧牲相關系數為代價改善相對誤差、均方根誤差和KGE其他3個指標,因此C-AR組合校正法比C-KNN組合校正法更具有優勢。由上述分析可以得到,各校正方法對ERA5和CFSR數據集均有良好的校正效果,極大地改善了數據集精度,提高了數據集在長江中下游地區的適用性,應用價值較高,并且C-AR校正法相較于其他3種校正方法校正效果更優。
圖6為ERA5和CFSR數據集各校正方法各年評估指標箱線圖。從圖中可知,數據集未校正時,對于這4個指標來說,ERA5的表現優于CFSR。具體來說,ERA5相關系數的均值、中位數和四分位數均高于CFSR,且四分位區間更小,即波動性更小;ERA5相對偏差和均方根誤差的均值、中位數和四分位數均低于CFSR,表明ERA5數據集與實測數據的偏離程度小于CFSR,且ERA5的相對偏差和均方根誤差波動性僅略大于CFSR;ERA5 KGE的均值、中位數和四分位數均高于CFSR,兩者的KGE波動性相當。因此,相較于CFSR,ERA5在長江中下游地區有更好的適用性。
(1)從相關系數來看,各校正方法均能在一定程度上提高相關系數,校正后相關系數均達到0.95以上,且其中C-AR組合校正方法校正效果最優,其中位數均高于校正系數法、AR模型及C-KNN校正方法;ERA5數據集經過AR模型和校正系數法校正后,其相關系數中位數較接近,CFSR數據集經過校正系數法校正后的相關系數中位數高于AR模型校正后的,即單獨從相關系數來看,校正系數法優于AR模型;ERA5和CFSR數據集經過C-KNN校正法校正后,其相關系數的中位數低于經過校正系數法校正后的中位數和均值,即校正系數法和KNN組合后并沒有進一步改善相關系數。
(2)從相對偏差和均方根誤差來看,各校正方法校正后相對偏差和均方根誤差的均值和中位數均得到了降低,其中校正后相對偏差接近0,均方根誤差在15附近,波動性也更小,但異常值略有增多,尤其是AR模型。對比來看,C-AR組合校正方法校正效果較好,其中位數均低于校正系數法、AR模型,相較于C-KNN組合校正法,除ERA5經過C-AR方法校正后與經過C-KNN法校正后相對偏差和均方根誤差中位數較為接近外,CFSR經過C-AR法校正后相對偏差和均方根誤差中位數均低于經過C-KNN方法校正后的;ERA5和CFSR經過AR模型校正后,其相對偏差及均方根誤差的中位數低于經過校正系數法校正后的,但異常值較經過校正系數法校正后的多;ERA5和CFSR數據集經過C-KNN校正法校正后,其相對偏差和均方根誤差的中位數均低于經過校正系數法校正后的中位數和均值,從對降雨量級的校正來說,C-KNN校正效果較好。
(3)從KGE來看,各校正方法校正后KGE的均值和中位數均顯著提高,在0.9附近,且波動性更小,但除C-AR模型校正后異常值減少外,其他校正方法校正后異常值均增加。C-AR組合校正方法校正效果也最優,其中位數均高于校正系數法、AR模型及C-KNN校正法校正后的;ERA5和CFSR數據集經過AR模型校正后,其KGE中位數高于通過校正系數法校正后的;ERA5和CFSR數據集經過C-KNN校正法校正后,其KGE的中位數高于經過校正系數法校正后的KGE中位數和均值,但低于經過C-AR模型校正后的KGE中位數。總的來看,校正系數法和AR模型校正法在不同指標上表現各有千秋;C-KNN組合校正法相較于校正系數法,在相關系數上的校正效果更差,異常值更多,但在其他3個指標上均優于校正系數法;而C-AR組合校正法在4個指標上均優于校正系數法和AR模型,且C-AR組合校正法相較于其他3種方法,校正后的指標波動性更小,異常值也更少,具有明顯的優勢。
圖7~8分別為ERA5、CFSR經過C-AR校正法校正后的結果與實測雨量數據逐月過程對比圖,以進一步分析C-AR校正法的校正效果。從圖中可以看出,未校正前ERA5和CFSR數據集降雨量明顯高于實測降雨數據,而經過C-AR校正法校正后的數據和實測數據量級十分接近,且趨勢變化也較為一致,這是由于C-AR校正法結合了校正系數法對量級校正和AR模型對趨勢擬合的優勢,從而綜合改善了數據集精度。
綜上所述,C-AR校正法對ERA5和CFSR數據集均有較好的校正效果,可提高數據集在長江中下游的適用性,且校正后指標值波動性更小,異常值更少,精度更為穩定。并且,從校正后的各指標值及過程圖看,C-AR模型可從多方面改善數據集精度,具有較高的應用價值。
3 結 論
本文從時間和空間上對ERA5和CFSR在長江中下游地區的適用性進行了對比評估,建立了包含相關系數、相對偏差、均方根誤差和KGE多指標的定量綜合評價體系評估再分析數據集精度,提出了C-AR組合校正法以提高數據集精度。結果表明:ERA5和CFSR與實測數據的降水趨勢較為一致,且相關性良好;空間分布特征上,ERA5比CFSR的表現略差,但從定量綜合評估指標看,ERA5表現優于CFSR;將C-AR組合校正法與校正系數法、AR模型以及C-KNN組合校正法進行對比得到C-AR組合校正法校正結果在4個指標上均有較好的性能表現,優于單一的校正系數法、AR模型和C-KNN組合校正法,說明C-AR組合校正法可從多方面改善數據集精度,從而提高數據集在長江中下游地區的適用性。同時,C-AR組合校正法原理簡單,易于實現,也適用于其他流域,具有廣闊的應用前景。目前,本文僅將C-AR組合校正法應用于面雨量的校正,未從空間尺度上逐網格逐站點進行校正,今后可在這方面進行研究,以增強該方法的實用價值。
參考文獻:
[1] 寧磊.長江中下游防洪形勢變化歷程分析[J].長江科學院院報,2018,35(6):18-22.
[2] 姜彤,施雅風.全球變暖、長江水災與可能損失[J].地球科學進展,2003,18(2):277-284.
[3] 成曉裕,王艷華,李國春,等.三套再分析降水資料在中國區域的對比評估[J].氣候變化研究進展,2013,9(4):258-265.
[4] FRANCHITO S H,RAO V B,VASQUES A C,et al.Validation of TRMM precipitation radar monthly rainfall estimates over Brazil[J].Journal of Geophysical Research Atmospheres,2009,114:D02105.
[5] 馬秋梅.多源衛星降水產品在長江流域徑流模擬中的適用性研究[D].武漢:武漢大學,2019.
[6] XU X,FREY S K,BOLUWADE A,et al.Evaluation of variability among different precipitation products in the Northern Great Plains[J].Journal of Hydrology:Regional Studies,2019,24:100608.
[7] 李建,宇如聰,陳昊明,等.對三套再分析資料中國大陸地區夏季降水量的評估分析[J].氣象,2010,36(12):1-9.
[8] 王旭丹,王立亞.華北地區水汽含量及降水量分布特征分析[J].水電能源科學,2010,28(9):11-13.
[9] 何奇芳,曾小凡,趙娜,等.ERA-interim再分析數據集在長江上游的適用性[J].人民長江,2018,49(12):30-33.
[10] 高瑞,穆振俠,彭亮,等.CFSR、ERA-Interim再分析降水數據在高寒山區徑流模擬中的適用性[J].水電能源科學,2017,35(9):8-12.
[11] 張若愚.PREC/L再分析降水數據在石羊河流域的適用性及其應用研究[D].武漢:華中科技大學,2019.
[12] 雷華錦,馬佳培,李弘毅,等.基于分位數映射法的黑河上游氣候模式降水誤差訂正[J].高原氣象,2020,39(2):56-69.
[13] 田霖,孟凡潔,劉鐵,等.干旱典型山區CFSR降水數據的偏差校正方法研究:以新疆開孔河流域為例[J].干旱氣象,2017,35(2):313-320.
[14] 程美玲,高飛,王永桂,等.基于水汽輸送與IDW法耦合的降雨插值方法研究[J].人民長江,2017,48(8):23-27.
[15] 陳雅婷,劉奧博.中國流域降水數據的空間插值方法評估[J].人民長江,2019,50(4):100-105.
(編輯:謝玲嫻)