方鴻斌 王珊珊 王曉玲 譚江紅 魯禮炳
1 武漢中心氣象臺(tái),武漢 430074 2 湖北省襄陽市氣象局,襄陽 441022 3 湖北省荊州市氣象局,荊州 434022
提 要:使用2017年9月至2021年3月國(guó)家級(jí)業(yè)務(wù)化運(yùn)行的智能網(wǎng)格實(shí)況分析產(chǎn)品和歐洲中期天氣預(yù)報(bào)中心全球模式(EC)產(chǎn)品,根據(jù)湖北省的地理分布特征構(gòu)建6個(gè)分區(qū),采用基于LightGBM機(jī)器學(xué)習(xí)算法建立的氣溫預(yù)報(bào)方法,生成湖北省0.05°×0.05°格點(diǎn)氣溫預(yù)報(bào)產(chǎn)品。利用2021年4—9月的預(yù)報(bào)產(chǎn)品和格點(diǎn)實(shí)況資料進(jìn)行檢驗(yàn),結(jié)果表明:基于機(jī)器學(xué)習(xí)的氣溫預(yù)報(bào)方法(MLT)取得了較好的預(yù)報(bào)效果,其在0~72 h時(shí)效內(nèi)優(yōu)于中央氣象臺(tái)下發(fā)的氣溫精細(xì)化指導(dǎo)預(yù)報(bào)(SCMOC)和EC產(chǎn)品;MLT在山區(qū)的誤差較平原大,但山區(qū)的訂正幅度大于平原,日最高氣溫的訂正幅度大于日最低氣溫的訂正幅度;4—9月MLT、SCMOC、EC產(chǎn)品的平均絕對(duì)誤差(MAE)日變化都呈現(xiàn)了白天偏高、夜間偏低、午后凸起的單峰特征,MLT的MAE值較SCMOC和EC產(chǎn)品的更低,并且在轉(zhuǎn)折性天氣中仍具有優(yōu)勢(shì);站點(diǎn)檢驗(yàn)與格點(diǎn)檢驗(yàn)結(jié)論一致,基于格點(diǎn)建模的氣溫預(yù)報(bào)產(chǎn)品對(duì)站點(diǎn)預(yù)報(bào)同樣得到了訂正。機(jī)器學(xué)習(xí)在格點(diǎn)氣溫的模式訂正方面可以作為一個(gè)行之有效的手段。
氣溫的高分辨率格點(diǎn)預(yù)報(bào)是精細(xì)化預(yù)報(bào)業(yè)務(wù)中的一項(xiàng)重要工作,提高格點(diǎn)氣溫預(yù)報(bào)的準(zhǔn)確率是氣象預(yù)報(bào)業(yè)務(wù)智能化、客觀化的發(fā)展要求,是氣象工作“觀測(cè)精密、預(yù)報(bào)精準(zhǔn)、服務(wù)精細(xì)”目標(biāo)的內(nèi)在要求。近年來,在國(guó)內(nèi)外大力發(fā)展無縫隙精細(xì)化預(yù)報(bào)的背景下,我國(guó)的格點(diǎn)實(shí)況分析場(chǎng)產(chǎn)品也得到了長(zhǎng)足的發(fā)展(師春香等,2019;俞劍蔚等,2019)。2017年7月國(guó)家級(jí)格點(diǎn)實(shí)況分析產(chǎn)品(CLDAS-V2.0),正式投入業(yè)務(wù)化運(yùn)行。與此同時(shí),機(jī)器學(xué)習(xí)在氣象預(yù)報(bào)領(lǐng)域的應(yīng)用也正在蓬勃發(fā)展,國(guó)際上已經(jīng)有越來越多的機(jī)器學(xué)習(xí)方法應(yīng)用在天氣預(yù)報(bào)領(lǐng)域中(Haupt et al,2021; Kashinath et al,2021)。歐洲中期天氣預(yù)報(bào)中心在2021年初發(fā)布的未來十年發(fā)展規(guī)劃(Machine learning at ECMWF:A roadmap for the next 10-years,https:∥www.ecmwf.int/en/elibrary/81207-machine-learning-ecmwf-roadmap-next-10-years)中闡明了未來機(jī)器學(xué)習(xí)技術(shù)在其數(shù)值天氣預(yù)報(bào)流程中的重要性。我國(guó)學(xué)者在氣象領(lǐng)域應(yīng)用機(jī)器學(xué)習(xí)技術(shù)上也進(jìn)行了諸多探討和實(shí)踐(許小峰,2018;李揚(yáng)等,2021;周康輝等,2021a,楊絢等,2022)。通過預(yù)報(bào)員主觀手動(dòng)訂正千米級(jí)分辨率的氣溫網(wǎng)格預(yù)報(bào)難以做到準(zhǔn)確高效,而利用高分辨率格點(diǎn)實(shí)況產(chǎn)品,通過機(jī)器學(xué)習(xí)算法訂正精細(xì)化的格點(diǎn)預(yù)報(bào)產(chǎn)品是未來的一大趨勢(shì)。
國(guó)內(nèi)常見的氣溫模式后處理訂正方法有模式輸出統(tǒng)計(jì)(MOS)、卡爾曼濾波、人工神經(jīng)網(wǎng)絡(luò)、站點(diǎn)訂正值向格點(diǎn)傳遞法、最優(yōu)集合預(yù)報(bào)訂正法、滑動(dòng)平均和空間誤差綜合訂正技術(shù)、機(jī)器學(xué)習(xí)訂正方法等(潘留杰等,2017;雷彥森等,2018;郝翠等,2019;薛諶彬等,2019;門曉磊等,2019;任萍等,2020;陳昱文等,2020)。以上方法基本是針對(duì)站點(diǎn)的預(yù)報(bào)訂正,訂正后的2 m氣溫有不同程度的改進(jìn),但優(yōu)勢(shì)不夠突出。基于本地業(yè)務(wù)基礎(chǔ)和天氣特點(diǎn),也有多種后處理方法。如,吳啟樹等(2017)發(fā)展了最優(yōu)TS評(píng)分訂正算法,王建鵬等(2018)研發(fā)了動(dòng)態(tài)交叉最優(yōu)要素預(yù)報(bào)方法,盛春巖等(2020)選擇最優(yōu)的數(shù)值預(yù)報(bào)產(chǎn)品,分析不同客觀釋用方法預(yù)報(bào)效果,研究適合的最優(yōu)集成預(yù)報(bào)方法,生成氣溫智能網(wǎng)格最優(yōu)集成預(yù)報(bào)產(chǎn)品。這些方法考慮了本地地理、氣候等特征以及模式偏差,但仍然沒能很好地解決實(shí)況分辨率粗的問題,并且方法復(fù)雜不易推廣,沒能充分利用數(shù)值模式環(huán)流預(yù)報(bào)較為準(zhǔn)確的優(yōu)勢(shì),中高層物理量對(duì)氣溫的影響考慮不足。而針對(duì)氣溫預(yù)報(bào),除了需要考慮天氣因子的影響外,地理特征、日變化的特征以及模式固有的偏差都是非常重要的。因此本文提出,結(jié)合地理特征、日變化特征、融合多種影響氣溫預(yù)報(bào)的物理因子及模式偏差,基于LightGBM(light gradient boosting machine)算法建立湖北省格點(diǎn)氣溫預(yù)報(bào)方法,將該方法生成的溫度預(yù)報(bào)產(chǎn)品命名為MLT(matching learning temperature)。
本文資料采用的是2017年9月至2021年9月28.9°~33.4°N、108.25°~116.25°E范圍的 EC模式數(shù)據(jù)、CLDAS-V2.0逐小時(shí)格點(diǎn)氣溫實(shí)況數(shù)據(jù)及中央氣象臺(tái)下發(fā)的氣溫格點(diǎn)預(yù)報(bào)產(chǎn)品(SCMOC)。EC模式數(shù)據(jù)時(shí)間分辨率為3 h,空間分辨率為0.125°×0.125°;格點(diǎn)氣溫實(shí)況的時(shí)間分辨率為1 h,空間分辨率為0.05°×0.05°(約5 km);SCMOC時(shí)間分辨率為1 h,空間分辨率為0.05°×0.05°。
本文采用線性插值方法分別在時(shí)間、空間上做了插值。提取逐小時(shí)格點(diǎn)實(shí)況數(shù)據(jù)與數(shù)值預(yù)報(bào)要素,并進(jìn)行時(shí)空對(duì)齊,去掉缺失、存在異常的樣本,形成機(jī)器學(xué)習(xí)樣本數(shù)據(jù)庫。為了使建模的特征因子更接近真實(shí)值,選取08時(shí)和20時(shí)起報(bào)的0~11 h時(shí)效EC模式預(yù)報(bào)產(chǎn)品作為樣本。本文采用的EC模式?jīng)]有24 h高溫、低溫產(chǎn)品,所以在檢驗(yàn)時(shí),采用的是由逐3 h高溫、低溫統(tǒng)計(jì)出來的24 h高溫、低溫。基于氣候差異和地形特征,對(duì)湖北省進(jìn)行地理分區(qū),6個(gè)分區(qū)示意圖如圖1。28.9°~33.4°N、108.25°~116.25°E范圍內(nèi)6個(gè)矩形塊分別為鄂西南、鄂中南(江漢平原南部)、鄂東南、鄂西北、鄂中北(江漢平原北部)、鄂東北。本文對(duì)數(shù)據(jù)進(jìn)行裁剪,應(yīng)用機(jī)器學(xué)習(xí)算法,針對(duì)6個(gè)分區(qū)分別建立預(yù)報(bào)模型。

圖1 湖北省6個(gè)分區(qū)示意圖
機(jī)器學(xué)習(xí)中,常見的算法是決策樹類(樹模型)。該算法具有可解釋性較強(qiáng),在天氣預(yù)報(bào)中的連續(xù)性變量(氣溫、濕度、氣壓)預(yù)報(bào)效果出色,不亞于深度學(xué)習(xí),具有訓(xùn)練更高效的特點(diǎn)(楊璐等,2021)。近年在樹模型算法中梯度提升算法 (gradient boosting decision tree,GBDT)較為流行,例如XGBoost(extreme gradient boosting)算法、LightGBM算法。LightGBM是一種基于梯度提升樹的機(jī)器學(xué)習(xí)方法,是2016年由微軟公司開發(fā)的一種比較快速的梯度提升框架,較XGBoost有明顯優(yōu)勢(shì)。LightGBM是對(duì)GBDT的高效實(shí)現(xiàn),原理上它和GBDT及XGBoost類似,都采用損失函數(shù)的負(fù)梯度作為當(dāng)前決策樹的殘差近似值,去擬合新的決策樹。XGBoost的不足在于,計(jì)算信息增益需要掃描所有樣本,從而找到最優(yōu)劃分點(diǎn);在面對(duì)大量數(shù)據(jù)或者特征維度很高時(shí),其效率和擴(kuò)展性很難使人滿意。考慮到本文采用的數(shù)據(jù)體量較大,訓(xùn)練樣本較多,而LightGBM利用了單邊梯度采樣算法和互斥特征綁定算法,能夠很好地解決上述問題(Ke et al,2017),因此本文選擇LightGBM機(jī)器學(xué)習(xí)算法。
機(jī)器學(xué)習(xí)模型的好壞需要建立在對(duì)天氣物理規(guī)律清晰、明確的認(rèn)識(shí)基礎(chǔ)之上(周康輝等,2021b)。正確的特征選擇可以降低機(jī)器學(xué)習(xí)任務(wù)的難度,減少計(jì)算和存儲(chǔ)開銷,同時(shí)優(yōu)化學(xué)習(xí)模型(孫全德等,2019;Pan et al,2019,Wang et al,2021)。因此,本文根據(jù)預(yù)報(bào)員經(jīng)驗(yàn)初選出能夠反映氣團(tuán)冷暖、日照輻射、日變化等56種特征因子,通過機(jī)器學(xué)習(xí)(統(tǒng)計(jì)分析)特征重要性排序,綜合考慮硬件環(huán)境、業(yè)務(wù)運(yùn)行耗時(shí)及檢驗(yàn)評(píng)估結(jié)果,進(jìn)一步篩選38個(gè)特征因子形成最優(yōu)因子集進(jìn)行建模。
構(gòu)建模型使用的要素主要有預(yù)報(bào)場(chǎng)的各層風(fēng)場(chǎng)、濕度場(chǎng)、溫度場(chǎng)、海平面氣壓場(chǎng)以及平均位勢(shì)高度(用500 hPa場(chǎng)代替)。本文選取的風(fēng)場(chǎng)數(shù)據(jù)層次包括10 m、925 hPa、850 hPa、700 hPa,一定程度上體現(xiàn)了影響某地的天氣系統(tǒng)。相對(duì)濕度,用于體現(xiàn)當(dāng)?shù)厣峡盏奶炜諣顩r以衡量輻射因子。氣溫方面,選取了1000~850 hPa氣溫,用以表征大氣的基本冷暖狀態(tài)。
相似的天氣特征,由于格點(diǎn)所處位置的不同,格點(diǎn)實(shí)況值往往有較大差異。因此構(gòu)建特征時(shí),分別把6個(gè)分區(qū)的格點(diǎn)進(jìn)行編碼。每個(gè)分區(qū)有約2840個(gè)格點(diǎn),每個(gè)分區(qū)用從0開始的正整數(shù),逐一將格點(diǎn)編碼,并在訓(xùn)練時(shí)把格點(diǎn)編碼作為類別特征。經(jīng)機(jī)器學(xué)習(xí)特征重要性排序,格點(diǎn)編碼排名第一,說明格點(diǎn)的位置是氣溫客觀預(yù)報(bào)應(yīng)該考慮的一個(gè)重要特征。此外,氣溫存在明顯的日變化特征,因此在逐小時(shí)的樣本中將小時(shí)作為特征之一,并且把小時(shí)作為類別變量。預(yù)報(bào)員做主觀預(yù)報(bào)時(shí)往往會(huì)考慮到模式近期預(yù)報(bào)的偏差,所以在24 h內(nèi)的預(yù)報(bào)建模當(dāng)中,使用過去5 d對(duì)應(yīng)時(shí)刻的氣溫預(yù)報(bào)偏差作為特征之一進(jìn)行建模。本文建模及預(yù)報(bào)流程如圖2。

圖2 機(jī)器學(xué)習(xí)氣溫預(yù)測(cè)流程圖
LightGBM將連續(xù)特征離散化成直方圖特征,減少了數(shù)據(jù)的存儲(chǔ)空間和計(jì)算復(fù)雜度;訓(xùn)練過程中通過高效的垂直并行化計(jì)算,提高了訓(xùn)練速度;通過設(shè)置類別變量參數(shù)(categorical_feature),選擇類別變量,基于類別特征值的最優(yōu)分割,對(duì)經(jīng)緯度編碼和小時(shí)特征設(shè)置為類別變量,較one-hot編碼更方便、高效,可以有效反映時(shí)空特征。
在硬件環(huán)境及時(shí)間允許范圍內(nèi)進(jìn)行個(gè)別關(guān)鍵參數(shù)的網(wǎng)格搜索,尋找最優(yōu)參數(shù),6個(gè)分區(qū)建模的關(guān)鍵參數(shù)保持一致,LightGBM建模關(guān)鍵參數(shù)的最優(yōu)值詳見表1。值得說明的是,迭代次數(shù)(num_iterations)設(shè)置為10 000,同時(shí)設(shè)置早停(earlystopping_rounds)參數(shù)為30,即如果一個(gè)驗(yàn)證集的評(píng)估指標(biāo)在最近30次循環(huán)中沒有繼續(xù)改善(誤差降低或者準(zhǔn)確率提高),訓(xùn)練將提前停止訓(xùn)練,而不會(huì)進(jìn)行到第10 000次。6個(gè)分區(qū)雖然面積相差不大,但是由于迭代循環(huán)中,平原地區(qū)的誤差改進(jìn)小進(jìn)而迭代次數(shù)相對(duì)少,所以耗時(shí)短,山區(qū)則相反。機(jī)器學(xué)習(xí)訓(xùn)練調(diào)優(yōu)之后,保存一份含有最優(yōu)參數(shù)的模型,用來進(jìn)行預(yù)報(bào)。基于機(jī)器學(xué)習(xí)的氣溫預(yù)報(bào)MLT從獲取EC模式數(shù)據(jù)到未來24 h的產(chǎn)品生成,可以在3 min內(nèi)完成。

表1 LihgtGBM建模關(guān)鍵參數(shù)的最優(yōu)值
智能網(wǎng)格檢驗(yàn)業(yè)務(wù)相關(guān)要求使用平均絕對(duì)誤差(MAE)進(jìn)行氣溫預(yù)報(bào)性能對(duì)比。機(jī)器學(xué)習(xí)一般采用均方根誤差(RMSE)作為損失函數(shù)進(jìn)行回歸建模。分析氣溫預(yù)報(bào)偏高、偏低問題,通常使用平均誤差(ME);在對(duì)比多種產(chǎn)品的站點(diǎn)預(yù)報(bào)性能時(shí),本文使用氣溫的預(yù)報(bào)準(zhǔn)確率。即本文共使用了4種檢驗(yàn)方法,分別是ME、MAE、RMSE、氣溫預(yù)報(bào)準(zhǔn)確率。以上檢驗(yàn)方法均是參照全國(guó)智能網(wǎng)格預(yù)報(bào)業(yè)務(wù)產(chǎn)品檢驗(yàn)評(píng)估辦法(2021版)。
利用2021年4—9月時(shí)間段的格點(diǎn)實(shí)況數(shù)據(jù)進(jìn)行檢驗(yàn),對(duì)比24、48、72 h時(shí)效MLT、SCMOC、EC預(yù)報(bào)產(chǎn)品的高溫、低溫預(yù)報(bào)在6個(gè)分區(qū)的MAE和RMSE(圖3)。由圖3a、3b可見,MLT低溫MAE在6個(gè)分區(qū)24~72 h時(shí)效預(yù)報(bào)誤差均在1℃左右,與EC相比,西部山區(qū)低溫訂正幅度較大,平原地區(qū)訂正幅度略小。MLT低溫在6個(gè)分區(qū)的RMSE均在1℃左右,與MAE相差不大,由于RMSE對(duì)誤差的反映更敏感,也證明了MLT低溫較接近于實(shí)況。由圖3c、3d可見,MLT高溫與EC預(yù)報(bào)產(chǎn)品相比,西部山區(qū)高溫訂正幅度較大,平原地區(qū)訂正幅度略小。SCMOC高溫24 h預(yù)報(bào)較EC預(yù)報(bào)產(chǎn)品有正訂正,隨著時(shí)效的延長(zhǎng),訂正幅度降低。MLT高溫在6個(gè)分區(qū)的RMSE,明顯低于EC和SCMOC預(yù)報(bào)產(chǎn)品的相應(yīng)數(shù)值,且與MAE相差不大。綜合分析表明,MLT高溫、低溫的預(yù)報(bào)效果優(yōu)于SCOMC與EC預(yù)報(bào)產(chǎn)品,預(yù)報(bào)誤差較小且較穩(wěn)定。

圖3 2021年4—9月08時(shí)起報(bào)的24 h、48 h、72 h時(shí)效MLT、SCMOC、EC(a,c)日最低氣溫和(b,d)日最高氣溫預(yù)報(bào)產(chǎn)品在湖北省6個(gè)分區(qū)的(a,b)平均絕對(duì)誤差和(c,d)均方根誤差
圖4、圖5分別展示了湖北省區(qū)域內(nèi)MLT、SCMOC和EC高溫、低溫預(yù)報(bào)產(chǎn)品的MAE空間分布對(duì)比。EC預(yù)報(bào)產(chǎn)品高溫較大的MAE除位于鄂西山區(qū)外,鄂東北的大別山區(qū)和鄂東南的幕府山區(qū)也有兩個(gè)小中心。從SCMOC和MLT高溫預(yù)報(bào)產(chǎn)品的訂正效果看,SCMOC在平原地區(qū)24 h訂正較好,MAE基本在1.5℃以下,但是鄂西山區(qū)和大別山、幕府山一帶訂正效果不明顯。SCMOC在48 h和72 h對(duì)山區(qū)和平原的訂正效果均不明顯。MLT在山區(qū)有明顯的訂正效果,24~48 h西部山區(qū)的MAE在2℃以下,72 h的MAE有所增大,但是比EC預(yù)報(bào)產(chǎn)品低0.4~0.5℃,比SCMOC低0.1~0.3℃。綜上所述,MLT對(duì)EC高溫、低溫預(yù)報(bào)產(chǎn)品有較好的訂正效果,與SCMOC相比,MLT高低溫的偏差也有一定的降低,特別是西部山區(qū)降低的幅度更大。

圖4 2021年4—9月08時(shí)起報(bào)的24 h、48 h和72 h時(shí)效MLT、SCMOC、EC日最低氣溫預(yù)報(bào)產(chǎn)品的平均絕對(duì)誤差

圖5 2021年4—9月08時(shí)起報(bào)的24 h、48 h和72 h時(shí)效MLT、SCMOC、EC日最高氣溫預(yù)報(bào)產(chǎn)品的平均絕對(duì)誤差
對(duì)比SCMOC和MLT的方法,可以發(fā)現(xiàn)SCMOC主要基于CMA-GFS模式為基礎(chǔ),采用格點(diǎn)化MOS方法(韋青等,2020;趙聲蓉等,2012),其主要思路和MLT的方法是一致的,都是通過選取最優(yōu)的要素,利用回歸的方法建立氣溫預(yù)報(bào)方法,但是在回歸方法、要素和建模方案上存在一定的差別。SCMOC產(chǎn)品輸出的是全國(guó)的氣溫,相較MLT不夠精細(xì),雖然鄂西北和鄂西南都是山區(qū),但是氣溫變化規(guī)律不同,鄂西北升溫和降溫幅度都很大,而鄂西南一般云系多,夜間氣溫降幅小,因此精細(xì)的分區(qū)有利于找到更準(zhǔn)確的地域規(guī)律。另外MLT是直接利用格點(diǎn)氣溫實(shí)況建模,而SCMOC是先利用MOS建模得到城鎮(zhèn)站點(diǎn)預(yù)報(bào)結(jié)果,再通過插值得到格點(diǎn)預(yù)報(bào)(金榮花等,2019),即MLT減少了中間環(huán)節(jié),更接近于格點(diǎn)實(shí)況。
對(duì)比2021年4—9月08 時(shí)起報(bào)的SCMOC、EC預(yù)報(bào)產(chǎn)品24 h逐小時(shí)整點(diǎn)氣溫預(yù)報(bào)的MAE日變化特征(圖6),可以發(fā)現(xiàn)24 h時(shí)效內(nèi)三種預(yù)報(bào)產(chǎn)品的逐小時(shí)平均絕對(duì)誤差在白天較大,夜間較小;誤差最大出現(xiàn)在7 h、8 h時(shí)效,誤差最小出現(xiàn)在23 h時(shí)效左右。圖6a、6d分別為鄂西南與鄂西北的氣溫誤差日變化特征,可以看出湖北西部高海拔山地區(qū)域逐小時(shí)平均絕對(duì)誤差較其他地區(qū)大,15 時(shí)和16時(shí)的氣溫誤差最大;平原地區(qū)占比較多的地區(qū)(圖6b、6c、6e、6f),逐小時(shí)MAE較小;三種預(yù)報(bào)產(chǎn)品在6個(gè)分區(qū)表現(xiàn)出了一致的誤差日變化特征,即同時(shí)段山區(qū)誤差較大,同地區(qū)每個(gè)時(shí)段MLT的預(yù)報(bào)效果都是最好的。20 時(shí)起報(bào)的產(chǎn)品(圖7)也有類似的這種日變化特征,高溫時(shí)段誤差較大。

圖6 2021年4—9月08時(shí)起報(bào)的24 h時(shí)效MLT、SCMOC、EC逐小時(shí)整點(diǎn)氣溫預(yù)報(bào)產(chǎn)品在湖北省6個(gè)分區(qū)的平均絕對(duì)誤差

圖7 2021年4—9月20時(shí)起報(bào)的24 h時(shí)效MLT、SCMOC、EC逐小時(shí)整點(diǎn)氣溫預(yù)報(bào)產(chǎn)品在湖北省6個(gè)分區(qū)的平均絕對(duì)誤差
結(jié)合圖6、圖7對(duì)不同分區(qū)整點(diǎn)氣溫的MAE日變化分析可以看出,SCMOC在平原地區(qū)低溫預(yù)報(bào)誤差較小,但山區(qū)誤差仍較大,而MLT低溫在平原和山區(qū)都較小。在24 h時(shí)效內(nèi),EC 對(duì)白天的氣溫預(yù)報(bào)誤差明顯偏大(1~3℃),尤其是中午至下午時(shí)段,鄂西山區(qū)更為突出(1.5~3.0℃);SCMOC對(duì)白天的氣溫有一定的正訂正效果,但對(duì)夜間氣溫卻是負(fù)效果;MLT對(duì)白天、夜間的氣溫都有明顯的訂正效果,尤其是對(duì)山區(qū)白天的氣溫訂正幅度更大。
以湖北經(jīng)緯度范圍內(nèi)的171個(gè)站實(shí)況作為真值,檢驗(yàn)MLT、SCMOC在2021年4月1日至9月30日的逐小時(shí)氣溫。由圖8可見,SCMOC小時(shí)氣溫的MAE和ME明顯高于MLT(圖8a、8b);SCMOC在湖北地區(qū)的氣溫預(yù)報(bào)東部偏高,西部偏低;SCMOC、MLT的準(zhǔn)確率分別是77%、84%,MLT較SCMOC提高了7%(圖8e)。站點(diǎn)的空間誤差檢驗(yàn)表明:SCMOC、MLT在東部平原地區(qū)的預(yù)報(bào)較西部山區(qū)更好,同時(shí)MLT在西部山區(qū)的預(yù)報(bào)結(jié)果比SCMOC更有優(yōu)勢(shì),該結(jié)論與格點(diǎn)檢驗(yàn)的結(jié)論一致。

注:各圓點(diǎn)以相應(yīng)站點(diǎn)數(shù)值為半徑;設(shè)置時(shí)以批量站點(diǎn)數(shù)據(jù)的平均值為基準(zhǔn),當(dāng)某站點(diǎn)數(shù)值超出或小于基準(zhǔn)時(shí),則以其絕對(duì)值為半徑,以凸顯偏差情況。
對(duì)比分析逐小時(shí)整點(diǎn)氣溫預(yù)報(bào)的日變化特征(圖9)。EC、SCMOC和MLT的準(zhǔn)確率都存在單低谷的日變化特征,即在14—17時(shí)出現(xiàn)準(zhǔn)確率低谷值。上述時(shí)段大致為汛期最高溫的出現(xiàn)時(shí)間,氣溫起伏較大,導(dǎo)致預(yù)報(bào)準(zhǔn)確率較低。MLT在站點(diǎn)逐小時(shí)整點(diǎn)預(yù)報(bào)中每一個(gè)觀測(cè)時(shí)間預(yù)報(bào)準(zhǔn)確率都高于SCMOC,這與格點(diǎn)的平均絕對(duì)誤差日變化結(jié)論保持一致。形成上述檢驗(yàn)結(jié)果的原因可能是:汛期白天氣溫變化幅度較大,高溫出現(xiàn)時(shí)段三種產(chǎn)品的預(yù)報(bào)誤差較大,所以在14—17時(shí)出現(xiàn)準(zhǔn)確率低谷值;而MLT建模時(shí)是逐1 h作為一個(gè)樣本,以小時(shí)為單位將時(shí)間作為類別變量建模,可以有效學(xué)習(xí)到氣溫日變化。

圖9 2021年4—9月湖北省各站點(diǎn)整點(diǎn)氣溫預(yù)報(bào)準(zhǔn)確率
該算法目前已經(jīng)在業(yè)務(wù)中實(shí)時(shí)運(yùn)行,本文雖然沒有將常規(guī)天氣和轉(zhuǎn)折天氣分開建模,但是由于模型在訓(xùn)練的過程中充分考慮了各層的濕度,可以理解為考慮了云的情況,所以該產(chǎn)品在轉(zhuǎn)折天氣中仍有較好的表現(xiàn)。2021年4—9月的檢驗(yàn)結(jié)果表明,MLT的24 h高溫預(yù)報(bào)準(zhǔn)確率優(yōu)于EC和SCMOC;同時(shí),其在晴雨轉(zhuǎn)換天氣中也有較好表現(xiàn)。
以2021年4月7日為例,湖北省自西向東出現(xiàn)了降雨,SCMOC的高溫預(yù)報(bào)比實(shí)況偏高,準(zhǔn)確率僅為56.7%,MLT的準(zhǔn)確率達(dá)到96.1%。圖10a、10b分別為MLT和SCMOC的高溫預(yù)報(bào)MAE,SCMOC為2.09℃,MLT則為0.69℃,即MLT比SCMOC的MAE降低了1.40℃,預(yù)報(bào)結(jié)果更接近實(shí)況。2021年4月12日過程,是一次雨轉(zhuǎn)晴的過程,SCMOC的高溫預(yù)報(bào)比實(shí)況偏低,準(zhǔn)確率為52.3%,MAE為2.19℃(圖10d),MLT的高溫預(yù)報(bào)也偏低,但是偏低的幅度要小于SCMOC,MAE為0.95℃(圖10c),即MLT比SCMOC的MAE降低了1.24℃,準(zhǔn)確率也達(dá)到89.2%。

圖10 2021年4月(a,b)6日20時(shí),(c,d)11日20時(shí)起報(bào)的24 h時(shí)效(a,c)MLT和(b,d)SCMOC格點(diǎn)日最高氣溫平均絕對(duì)誤差
本文建立了一種基于機(jī)器學(xué)習(xí)的氣溫預(yù)報(bào)方法(MLT),應(yīng)用于湖北地區(qū),并與SCMOC和EC模式的預(yù)報(bào)產(chǎn)品進(jìn)行了對(duì)比檢驗(yàn)。主要有以下結(jié)論:
(1)通過格點(diǎn)氣溫實(shí)況產(chǎn)品和主客觀篩選的30多個(gè)特征量,利用LightGBM方法建立的格點(diǎn)氣溫預(yù)報(bào)方法,可以提供時(shí)間分辨率為1 h、空間分辨率為0.05°×0.05°的氣溫預(yù)報(bào)產(chǎn)品。在0~72 h時(shí)效內(nèi)MLT的MAE、RMSE較SCMOC與EC的低。
(2)MLT在山區(qū)的誤差較平原大,但山區(qū)的訂正幅度大于平原,日最高溫的訂正幅度大于日最低溫。RMSE比MAE略大,但誤差分布是一致的。在模型中設(shè)置格點(diǎn)編碼和小時(shí)特征為類別變量,較好地分別反映了格點(diǎn)氣溫的地理特征和日變化特征。
(3)MLT以站點(diǎn)為真值檢驗(yàn),仍然有很好的預(yù)報(bào)效果。這說明應(yīng)用機(jī)器學(xué)習(xí)基于格點(diǎn)實(shí)況建模的格點(diǎn)氣溫預(yù)報(bào)產(chǎn)品對(duì)站點(diǎn)預(yù)報(bào)同樣有訂正作用。
(4)2021年4—9月MLT、SCMOC、EC 的MAE日變化都呈現(xiàn)了白天偏高、夜間偏低,午后凸起的單峰特征,MLT不僅在湖北全省累計(jì)平均誤差較低,在單時(shí)次、單區(qū)域的平均誤差較SCMOC、EC仍較低,并且在轉(zhuǎn)折性天氣中仍具有優(yōu)勢(shì)。檢驗(yàn)結(jié)果表明,MLT在湖北的氣溫預(yù)報(bào)準(zhǔn)確率優(yōu)于EC和SCMOC。
由此可見,機(jī)器學(xué)習(xí)在格點(diǎn)氣溫的模式訂正方面可以作為一個(gè)行之有效的手段。本文運(yùn)用的機(jī)器學(xué)習(xí)方法對(duì)EC氣溫預(yù)報(bào)模式訂正表現(xiàn)出了較好的效果,對(duì)其他模式或其他要素預(yù)報(bào)訂正仍具有很大的潛力。未來可以在天氣學(xué)的物理意義指導(dǎo)下進(jìn)行更精細(xì)的數(shù)據(jù)處理、特征工程,應(yīng)可挖掘出更多的可訂正的時(shí)空誤差信息,進(jìn)而達(dá)到更好的預(yù)報(bào)效果。