張茂林,鄧小波,劉海磊,劉夢琪,陳衛星
(成都信息工程大學電子工程學院,四川成都 610225)
氣溫(Ta)是區域和全球尺度輻射平衡、能量收支和水循環研究的關鍵參數。氣溫數據也是陸面過程建模的重要輸入[1],如地表蒸散發估算[2]、農田監測[3]和氣候變化分析[4]。獲取氣溫的傳統方法是在地面站進行測量。然而,測得的氣溫點不能反映大面積的溫度[5]。空間插值法可將離散空間分布的地面站所測量的氣溫擴展到大面積,其中一個常用的因素是距離[6]。除考慮氣溫變化和距離的空間相關性外,進一步發展了先進的插值方法,納入更多的因素,如海拔、緯度和經度[7],但空間插值不適用于地面站不足的地區。
氣候模型已被證明是調查氣候系統和氣候變化的有效工具,可獲全球范圍的氣候數據。近年來,CMIP5(coupled model intercomparison project 5)利用全球氣候模型(GCM)開發了大量氣候模擬[8]。隨著氣候模式的發展,已經生成可提供長期氣溫的產品,如國家環境預測中心和國家大氣研究中心(NCEP/NCAR)已經生成了可供用戶使用的再分析數據集和ERA5 再分析數據集[9-11]。盡管這些GCM 可以捕捉到主要的大尺度環流特征,但其在區域氣候模擬中的應用研究有限,因為它們的空間分辨率從0.0625°~1°甚至更粗,無法獲得區域尺度上氣候特征的有用信息[11-12],特別是在地形變化劇烈的山區[13]。
為滿足局部地區的應用,如何獲得中高空間分辨率的氣溫數據已成為關注的焦點,從全球氣候模型(GCM)做出的大規模氣候預測中提取局部或區域尺度信息的過程稱為縮小尺度,也稱之為降尺度。氣候變化文獻中存在動態降尺度和統計降尺度兩大類降尺度方法。動態降尺度方法是建立在區域氣候模式(regional climate model,RCM)基礎上的,GCM 為RCM 提供初邊值條件,通過高分辨率區域氣候模式的數值積分獲得高分辨率天氣氣候信息[14]。RCM 采用數學物理方程描述氣候系統內部的各種動力和熱力學過程。隨著地球生物化學等過程的引入,區域氣候模式正逐漸向區域地球系統模式方向發展,這些模式可以描述大氣—陸地—水—經濟等過程之間的相互作用[15-16]。然而,動力降尺度需要大量的計算資源,隨著區域氣候模式分辨率的提高,計算量呈指數形式增長。
統計降尺度方法建立在觀測的局地氣候與大尺度場之間的統計關系基礎上,假定上述統計關系在未來的氣候情景下仍然適用,從而實現對全球模式未來氣候變化預估結果的降尺度。統計降尺度有以下優點:能夠以很高的計算效率由大尺度氣象要素得到區域尺度的氣象要素;能輸出較高分辨率或站點尺度的氣象要素;模型參數可以受區域下墊面特征的控制。統計降尺度能夠彌補動力降尺度的一些不足,因而得到廣泛應用[17-19]。
統計降尺度已被證明是提高氣溫空間分辨率的有效工具。Schoof 等[20]檢驗了回歸模型和神經網絡模型在氣溫降尺度中的表現;通過這兩種模型的簡化,得到了相似的結果。通過選擇中歐和西歐作為研究區域,Huth[21]開發了一種統計方法,通過站點網絡對每日測量的氣溫進行降尺度處理,引導許多科學家開始關注通過降尺度獲取中等空間分辨率的氣溫。Pan[13]利用天氣研究與預報(weather research and forecasting,WRF)模型生成了一個5 km/1 h的氣溫數據集,用于驅動中國黑河流域的水文模型。Hofer 等[22]利用統計降尺度方法獲得了數據稀疏冰川山脈環境下的氣溫。Jha[23]提出了氣溫降尺度的地質統計學框架。
Ramírez 等[24]分別針對不同的地域,將神經網絡(NN)與線性回歸、CCA 等線性方法用于統計降尺度的對比研究,表明多數情形下NN 的降尺度能力更好。因此,本研究構建一個神經網絡降尺度模型(DS),用于建立臺站觀測氣溫與氣候模式數據,包括GFS 氣溫數據、海拔(ElE)數據和歸一化植被指數(NDVI)數據等之間的關系。然后將該網絡模型用于高空間分辨率氣溫制圖,并通過大量實驗驗證其有效性和優越性。
研究區域為中國湖南省(108.8 °E~114.2 °E,24.7 °N~30.1 °N)。作為中國的內陸省份,湖南擁有復雜的地理環境,海拔高度0~2100 m,擁有多種地貌特征,山地占全省總面積的51.22%,丘陵占15.40%,崗地占13.87%,平原占13.11%,水面占6.39%。
臺站數據被認為是地面氣溫的真值,被用于氣溫估算模型的訓練和驗證。使用湖南省2020年的97 個國家級自動氣象站的逐小時地面氣溫數據進行研究(http://data.cma.cn)。這些氣溫數據經過了包括氣候學界限值、區域界限值、時間一致性及空間一致性檢查等在內的嚴格質量控制,可用率達98.9%[25]。湖南省的海拔和其97 個臺站分布如圖1所示。表1 總結了主要數據的特征,包括數據的時空分辨率和來源。

表1 數據的時空信息及來源

圖1 研究區域海拔和氣象臺站位置空間分布圖
美國國家環境預測中心(NCEP)運營的GFS 在全球范圍內提供0.25°、0.5°和1°網格化氣溫數據。網格包括分析和預測時間步長,0~240 h是預測時間步長為3 h的網格數據,240~384 h是預測時間步長為12 h的網格數據,模型預測運行在每天00、06、12 和18UTC進行。
本研究使用2020年分辨率為0.25°的GFS 預測氣溫。美國國家大氣研究中心(NCAR)的研究數據檔案(RDA)擁有NCEP GFS 0.25°全球預報網格(https://rda.ucar.edu/datasets/)的完整歷史檔案。RDA 提供了一個子集工具,用于通過可自定義的數據請求選擇變量、時間和區域,使其易于下載和使用氣溫預測。GFS 氣溫預報是通過https://rda.ucar.edu/datasets/ds084.1 使用可定制的數據請求下載的。實時GFS 氣溫預報可從NOAA NCEP(https://www.nco.ncep.noaa.gov/pmb/products/gfs/)獲得。
為更好地驗證DS 模型的結果,使用ERA5-Land再分析數據進行比較。ERA5-Land 是新一代的再分析和同化數據,比以前的版本具有更好的時空分辨率和準確性[26-27]。
ERA5-Land 提供每小時氣溫數據,網格大小為0.1°×0.1°,通過重播ECMWF ERA5 氣候再分析的土地部分而制作。通過使用物理定律,重新分析將模型數據與來自世界各地的觀測結果組合成一個全球完整且一致的數據集。ERA5-Land 數據通過https://climate.copernicus.eu/the-climate-data-store 下載。
研究表明,海拔、緯度、NDVI、JD 和小時數據等輔助數據可以提高氣溫降尺度的精度[28-32]。使用航天飛機雷達地形任務(SRTM)的高程數據集,分辨率為3 弧秒(~90 m)。SRTM3 數據從ftp://e0srp01u.ecs.nasa.gov/srtm/version2/SRTM3/下載。
緯度和時間信息取自AGRI 地理位置數據,并使用中分辨率成像光譜輻射計(MODIS)的16 天植被指數產品(MOD13Q1)。MOD13Q1 NDVI 產品的空間分辨率為250 m。數據來自土地處理分布式活動存檔中心(LP DAAC;https://lpdaac.usgs.gov/)。
目前,一般降尺度方法都是基于大氣溫度垂直遞減率理論(ALR)開展的。垂直遞減率是氣溫通常隨著高度的升高而下降,下降速度約為5~6 ℃/km,一般公式如下:
Ta=T-ALR×(H-H0)
式中,H0是高分辨率的海拔數據,T是低分辨氣溫,H是低分辨率的海拔數據,Ta是高分辨率氣溫。但考慮到夏季垂直遞減率更為顯著,對其他季節的適用性有待進一步驗證。所以選用神經網絡來構建氣溫與預測因子間的映射關系。神經網絡是由多個神經元構成的非線性模型,能夠更好地獲取預測變量和輸出變量的非線性關系,被廣泛應用于氣溫的降尺度。神經網絡能從訓練數據集中學習到不同尺度下海拔(ElE)、NDVI 差異所帶來的氣溫差,從而實現高空間分辨率氣溫模型的構建。DS 模型的結構公式:
Ta=f(GFS,ElE,JD,Hour,Lon,Lat,NDVI)
其中f(·)表示DS 模型需要建模的非線性估計函數。
DS 模型算法可分為3 個部分:數據處理、DS 降尺度模型建立以及降尺度結果的驗證和分析。
數據處理。首先,對GFS 數據進行雙線性插值處理,將0.25°×0.25°的GFS 數據插值為250 m×250 m的網格數據,再將SRTM 數據從90 m重采樣到250 m。空間分辨率為0.25°和250 m的數據分別是粗分辨率和細分辨率中擬合關系的輸入參數。利用2020年湖南臺站的時空信息采用最近鄰域法去匹配對應的GFS、海拔、NDVI 等數據,得到2020年的數據集。經過處理后,總共識別出274301 組樣本。根據臺站隨機劃分,將其中約一半的數據用于訓練模型,稱為訓練集,而另一半數據用于驗證模型,稱為驗證集,具體如表2。

表2 訓練和驗證數據集
模型的建立和應用。模型的建立如圖2 紅虛線部分:將訓練集數據放進神經網絡中進行訓練,并用驗證集數據去驗證模型的精度,最終得到DS 模型。應用部分如圖2 藍實線部分:將實時的數據集輸入DS 模型,經過模型的輸出,最終得到250 m×250 m的近地面氣溫數據。

圖2 算法流程圖
降尺度結果的驗證和分析。使用相關系數(R)、均方根誤差(RMSE)和偏差來評估降尺度模型的準確性,如下所示:
式中,Ta是降尺度的氣溫,Tsta是氣象站觀測到的氣溫,N是數據樣本的總數。
圖3 為降尺度模型驗證與臺站氣溫的二維直方圖,降尺度的氣溫(DSTa)與臺站觀測氣溫(In-situTa)吻合度較好。DS 的均方誤差為1.54 ℃,相關系數為0.982。平均偏差為-0.03 ℃,表明降尺度氣溫整體沒有明顯的高估或低估。總的來說,結果表明該模型在縮小溫度數據方面表現良好。

圖3 DS Ta 與In-situ Ta 的二維直方分布圖
圖4 顯示了模型的Ta降尺度誤差(DS-In-situTa)的垂直分布。DSTa的誤差呈正態分布,大多數誤差在±2.5 ℃(>80.92%的樣本)。DSTa誤差小于±1.5 ℃的數據點占63.55%。這意味著DS 模型是可行的。

圖4 DS Ta 和In-situ Ta 之間的差異直方圖
為進一步評估該模型在湖南地區的適用性,本文逐個站點評估了降尺度氣溫的誤差。圖5 為模型的R、RMSE 和Bias 的空間分布圖。總的來說,模型的所有站點都表現較好。R在0.974~0.994,這表明估算氣溫和臺站實測氣溫相關性較高;RMSE 在1.05 ℃~1.99 ℃,Bias 在±0.5 ℃以內,表明DS 模型有較高的精度。

圖5 模型的R、RMSE 和Bias 的空間分布圖
DS 的誤差展現了一定的空間分布特征。從圖5可以看出,位于湖南省邊界的臺站展現了較大的RMSE 和較小的R,通過和湖南地形圖比較,發現這些站點的海拔較高。這種誤差空間分布特征可能是由高海拔地區通常地形較為復雜,導致溫度垂直遞減率在空間和時間上有所不同[33]。通常情況下,山區的垂直遞減率比平原地區復雜[34-35]。
表3 給出了兩種數據集(GFS 和DS)在不同海拔處的驗證結果,可以看出,DS 在各個海拔都對GFS 數據有著很好的訂正效果。GFS 數據在各個海拔上都呈現出明顯的負偏差,在400~600 m的海拔范圍內的Bias 達到了-1.9 ℃,而DSTa的偏差不超過±0.2 ℃。在各個海拔段里,DSTa比GFSTa有著更小的RMSE,且DSTa也比較穩定,RMSE 穩定在1.48 ℃~1.67 ℃。這意味著DS 能夠很好的處理不同海拔下的氣溫數據。

表3 不同高程間隔的GFS 和DS 的誤差分析
作為示例,圖6 為2021年6 天(即DOY 10、69、130、191、253、314)的GFS 原始數據、ERA5-Land 和DS 氣溫分布圖。圖6 可以發現,DSTa顯示了更多關于氣溫的細節,尤其是在南部和西部有許多山脈,其對應位置的氣溫都較低。雖然GFS(0.25°)和ERA5-Land(0.1°)的氣溫可以呈現整個區域的氣溫空間模式,但粗分辨率不能滿足在局部尺度上繪制氣溫的要求。DSTa(250 m)可以清晰地反映氣溫的空間分布。圖6 表明,降尺度前后和ERA5-Land 的氣溫圖像在尺度上非常相似,包括幅度和空間細節:中部和東北部因海拔較低而偏暖,而西部和南部因海拔較高而較冷(海拔見圖1)。總的來說,這3 個數據集的空間分布和溫度梯度非常相似,都顯示出相似的季節性氣溫動態。但DS 空間分辨率高(250 m×250 m),相比于ERA5-Land(0.1°×0.1°)和GFS(0.25°×0.25°)能展現更多的空間細節。圖7 為圖6 中6 個時刻的誤差散點分布圖,從圖7 DSTa與GFSTa和ERA5Ta對比發現,DSTa更集中,GFSTa和ERA5Ta較為發散。DSTa的RMSE 為1.674 ℃,而GFSTa和ERA5Ta的RMSE 為2.867 ℃和2.772 ℃,這表明DS 還能提高GFS 氣溫的精度。

圖6 2021年1、3、5、7、9、11月10日6 UTC 時刻的GFS、ERA5-Land 和DS 氣溫空間分布圖

圖7 6 個時刻的散點對比圖
本研究假設影響DS 的是地表特征和時間,如海拔和JD。基于上述97 個氣象站的瞬時Ta,通過以下方法對該假設進行檢驗。以所有輸入的因素為自變量進行網絡訓練模型;測試了可能因素的不同組合,包括案例1:海拔;案例2:海拔和時間;案例3:海拔、時間和緯度;案例4:海拔、時間、緯度和經度;案例5:海拔、時間、緯度,經度和NDVI。海拔被選為主要因素,因為Ta隨著海拔的升高而降低,尤其是在山區。緯度和經度代表位置和太陽角,時間代表季節性和白天黑夜,使用NDVI 來參數化植被覆蓋率。氣溫還受到其他地表特征的影響,如土壤水分和降水[36]。然而,本研究未考慮土壤水分和降水,因為當前產品具有粗糙的空間分辨率和時間分辨率[37-38],且無法滿足氣溫的降尺度要求。各個案例的RMSE 如圖8所示,案例1 和2 中的海拔和TIME 解釋了整個研究區域內Ta空間變化的主要內容。當DS 模型中僅包含海拔和時間時,RMSE 的增量在0.3 ℃~1.4 ℃,因此,海拔和時間可以作為Ta降尺度的主要因素。如Li 等[39]還發現緯度也會影響Ta的空間變化。但對于97 個臺站而言,緯度、經度和NDVI 對氣溫空間變化的貢獻是可忽略的:在案例3、案例4 和案例5 中,RMSE 的最大增量<0.15 ℃。這些不同數據集組合的模型精度證實了在模型中融合多源數據在氣溫降尺度中實際上是有意義的。另一方面,當使用更多數據集時,映射結果將在空間上以更詳細的信息進行優化。

圖8 Ta 與研究區不同因子線性回歸中的RMSE
在氣候變化、水文、生態學等研究中,氣溫是一個重要的參數。然而,目前氣溫產品的粗空間分辨率已不能滿足相關研究和應用日益增長的需求,如GFS,ERA5 等。本研究以中國湖南省為研究區域,提出一種將GFS 提供的氣溫數據集從粗分辨率(0.25°)降為高分辨率(250 m)的神經網絡降尺度方法。
首先根據97 個氣象站對DSTa的精度進行評價。結果表明:從GFS 產品降尺度后,97 個站點的氣溫均方根誤差為1.53 K;與降尺度前的氣溫相比,降尺度后的氣溫與地面實測的氣溫有更好的一致性。此外,從圖像質量的角度對DSTa圖像進行評價,整體空間分布情況大致相同,降尺度后的氣溫圖像具有良好的圖像質量,能夠清晰地反映山區氣溫的空間變化。與現有的氣溫降尺度方法相比,本文方法的機理不依賴地面實測數據,因此,可以更容易地應用于大面積地區。本研究僅使用了國家標準氣象站,未來可以引入更多的區域氣象站來提高降尺度精度。