









摘" 要:文章基于2023年興安盟地區國家級氣象臺站的逐日氣象觀測資料,與中央氣象臺下發的國家級智能網格預報產品進行對比檢驗,并利用機器學習方法探索歸納訂正方法,得出結論。結合CMA-GFS數值預報模式結果以及各類地面觀測實況,通過集成學習方法建立了溫度產品訂正模型。該模型在最高氣溫和最低氣溫的訂正上均表現出顯著效果,訂正后準確率顯著提高,誤差明顯降低。該訂正方法具有較高的研究價值和實際應用意義。
關鍵詞:智能網格;預報檢驗;數值預報修訂;機器學習
中圖分類號:TP181;P405" 文獻標識碼:A" 文章編號:2096-4706(2025)04-0080-07
Research on the Temperature Element Correction Method for Intelligent Grid in Xing'an League Area Based on Machine Learning
LI Xuexue
(Meteorological Bureau of Keyouqian Banner, Xing'an League" 137400, China)
Abstract: Based on the daily meteorological observation data of the national-level meteorological stations in Xing'an League area in 2023, this paper conducts a comparative verification with the national-level intelligent grid forecast products issued by the Central Meteorological Observatory, and explores and summarizes the correction method by using Machine Learning method, then comes to conclusions. Combining the results of the CMA-GFS numerical forecast model and various ground observation facts, a temperature product correction model is established by an integrated learning method. The model can achieve excellent correction effects on both the highest and lowest temperatures, and the accuracy rate increases and the error is reduced significantly after correction. This correction method has good research value and practical application significance.
Keywords: intelligent grid; forecast verification; numerical forecast correction; Machine Learning
0" 引" 言
當前,隨著社會經濟發展和公眾對生活質量要求的日益提升,公眾對天氣預報的時間及空間分辨率提出了更為嚴格和細致的要求。為響應這一需求,國內外氣象領域均在積極研發和推廣無縫隙網格化預報業務,力求提供更加精準、全面的氣象服務信息[1]。在此背景下,中國氣象預報服務領域也迎來了重要的變革,智能網格預報業務正式上線啟用。這一業務的推出,標志著中國氣象預報技術已經實現了從傳統站點向格點化預報的跨越性轉變,它不僅提升了公眾的氣象服務水平,也為防災減災、農業生產、交通運輸等各行各業提供了更加有力的氣象保障[2]。
當前數值天氣預報主要依賴于高性能數值計算模式得以實現[3],但其計算結果難免存在誤差[4]。為提高天氣預報結果的精準度,需對其結果進行訂正[5]。國內外學者主要利用集合預報、統計與機器學習等訂正方法,這些方法各自具有獨特的優勢和局限性[6]。
在數值模式預報領域,許多學者利用機器學習、深度學習等算法改善氣象預報結論的精準性[7],利用大量氣象實況觀測數據構建模型,對氣象信息進行預測或訂正[7]。
1" 研究內容與方法
1.1" 研究內容
文章基于2023年興安盟地區阿爾山等8個氣象臺站的每日氣象觀測實況,與國家級智能網格溫度預報產品(SCMOC)進行對比分析檢驗。結合全球中期數值預報系統(GRAPES-GFS)數值預報模式的溫度預測結果以及各類地面資料實況,利用機器學習方法構建了訂正模型,并取得了良好的訂正效果。
1.2" 檢驗方法
對最高、最低氣溫產品的預報結果主要開展平均誤差(TME)、平均絕對誤差(TMAE)、均方根誤差(TRMSE)和≤2 ℃的預報準確率(Tk)檢驗[8],計算式如下:
(1)
(2)
(3)
(4)
其中,Fi為某站第i天預報氣溫,Oi為該點第i天實況氣溫,N為預報總天數,k為2,Nk為絕對誤差≤2 ℃時預報正確的天數[9]。
氣溫資料的檢驗內容主要包括逐月對單站及區域最低(高)氣溫準確率及平均絕對誤差的分析[10]。
1.3" 模型構建方法
氣溫數據訂正模型的構建流程需經過數據預處理、特征工程、模型對比、模型訓練,最終完成測試。在模型選擇上,需要從多角度進行評分,當不同模型類型的指標評分各有千秋時,可采用建立集成模型的方式。選擇后的模型通過訓練,可對未知的測試數據作出正向或負向訂正的判斷,并對每一輪的迭代重新進行打分。本研究將模型學習率設置為0.001,迭代次數為10。
本次數據集為2023年的逐日數據,屬于中期數據,因此過大的迭代次數會導致模型的過擬合。該參數能夠在避免過擬合的情況下尋找最優解。其余參數通過網格搜索的方法來尋找最優解,減少手動調參的誤差。通過訓練確定模型參數后可測試部署模型,若無過擬合和欠擬合,且模型能夠提升預報準確率,則說明該模型具有訂正效果。
2" 氣溫預報效果檢驗
氣溫檢驗是對興安盟地區20時至次日20時段的逐24小時、48小時、72小時的最低、最高氣溫的SCMOC氣溫產品絕對誤差≤2 ℃的預報準確率、MAE的檢驗。基于興安盟氣溫季節差異較大的特點,本文進行了氣溫逐月檢驗,同時基于興安盟地廣人稀、地貌復雜的特點,分區域、分站點對SCMOC氣溫產品進行檢驗分析。
2.1" 正確率檢驗
2.1.1" 年正確率檢驗
經計算,2023年SCMOC氣溫產品對興安盟地區表現出較高的預報性能,準確率隨著預報時效的延長呈逐漸下降趨勢:最低氣溫24小時、48小時、72小時的準確率分別為74.91%、71.23%、68.29%;最高氣溫24小時、48小時、72小時的準確率分別為76.38%、68.67%、63.41%。該數值顯著高于興安盟地區中短期天氣預報員的平均水平。
2.1.2" 逐站正確率檢驗
由SCMOC氣溫預報產品各站24小時、48小時、72小時最低(高)氣溫年平均預報準確率檢驗分析(如圖1),SCMOC預報準確率中等水平,但穩定性較高,預報質量隨著預報時效的延長未見顯著下降;多數站點各時效最低氣溫預報準確率高于最高氣溫準確率;最低氣溫各站點間差異較大,西北部山區以及南部沙地地區總體預報準確率略高于其他地區。一般情況下,山地及沙地的晝夜溫差較大,其最低氣溫準確率分布也體現了SCMOC在復雜地形下對最低氣溫預報性高的特點。最高氣溫準確率分布總體上南部地區略優于其他地區。
2.2" 誤差檢驗
2.2.1" 年誤差檢驗
經計算,2023年 SCMOC溫度產品對興安盟地區具有較高的預報性能。隨著預報時效的延長,平均絕對誤差(MAE)略有上升。最低氣溫24小時、48小時、72小時的平均絕對誤差分別為1.60、1.44、1.55 ℃;最高氣溫24小時、48小時、72小時的平均絕對誤差分別為1.67、1.67、1.86 ℃。這些數值體現了SCMOC溫度產品較高的預報性能。
從2023誤差分析看,在正負誤差平均值上沒有明顯規律,但24小時到72小時預報最高(低)氣溫誤差為負的比例均大于為正的比例,說明模式對于興安盟地區溫度預報值比實際偏高,因此對氣溫訂正的時候,傾向于在基礎值上減小數值,如見表1、表2所示。
2.2.2" 各站平均絕對誤差檢驗
各站最低(高)氣溫年平均絕對誤差隨預報時效延長呈現小幅上升趨勢,如圖2所示,但大部分地區72小時預報時效的平均絕對誤差仍小于2 ℃,這體現了SCMOC誤差小、穩定性高的特點。大部分站點各時效最低氣溫的平均絕對誤差略低于最高氣溫的平均絕對誤差。各站之間的差異顯著,最低氣溫的平均絕對誤差呈現出西北和東南方向小、中部大的特點,這與最低氣溫預報準確率的分布相一致。最高氣溫誤差在各站之間的差異不大,但總體上西北部山區的誤差略小于其他地區。
3" 基于集成學習模型的氣溫訂正
3.1" 氣溫數據預處理
氣溫數據訂正包括最高氣溫和最低氣溫。在氣溫數據訂正中,加入了CMA-GFS模式數據,對缺失值進行剔除處理,同時保留異常值作為特征輸入模型。
3.2" 氣溫預報因子篩選
選取日最高氣溫、日最低氣溫、智能網格最高氣溫、智能網格最低氣溫、GFS預報最高氣溫、GFS預報最低氣溫、平均地面溫度、20~20時降水量、平均2分鐘風速、最大風速、極大風速、日照時數等地面氣象資料進行皮爾遜相關性分析。由于氣溫數據訂正屬于回歸問題,對特征值的要求更高,因此需要去除相關性較弱的因子。設置相關性閾值為0.7,最終選取CMA-GFS模式氣溫數據以及日地面平均溫度作為建模因子。
3.3" 集成學習模型構建
3.3.1" 模型選擇
在模型選擇方面,對全體數據進行抽樣,以提高模型的普遍適應性。遵循控制變量的原則,對多種模型進行初步訓練,并得出評估參數,如表3所示。從16種模型中篩選出三種最佳模型,分別對三個時效的氣溫數據進行訓練。這三種模型分別是極端隨機樹回歸模型(Extremely Randomized Trees)、隨機森林回歸模型(Random Forest Regressor)以及梯度提升回歸模型(Gradient Boosting Regressor)。
3.3.2" 集成學習融合模型
將上述三種模型進行融合,形成集成學習模型。在數據訓練時,分別對比三種模型的性能,選擇最優解作為初步預測結果。集成學習融合模型將每個基本模型的預測結果作為特征,構建一個新的數據集,通常稱為元數據集。元數據集的特征是每個基本模型的預測結果,而目標變量仍然是原始訓練數據集中的目標變量。
使用元數據集對一個額外的模型(稱為元模型)進行訓練。元模型的任務是利用基本模型的預測結果來學習如何進行最終的預測。接下來進入第二層訓練過程,使用訓練好的元模型對測試數據集進行預測。元模型以基本模型的預測結果為輸入,輸出最終的集成預測結果。之后,使用堆疊模型的預測結果對測試數據集進行性能評估,通常采用均方誤差(MSE)等評估指標。堆疊是一種強大的集成學習技術,能夠在多個模型之間找到最佳組合方式,從而獲得更準確的預測結果。然而,它也需要更多的計算資源和數據來訓練和評估多個模型,因此在實際應用中需要權衡計算成本和性能提升。
3.3.3" 訓練與測試
在訓練過程中,采用K-折交叉驗證(K-Fold Cross-Validation)方法,并通過隨機搜索迭代選擇最佳超參數,以均方根誤差(RMSE)作為主要篩選指標。具體結果如表4所示。
對24小時最低氣溫回歸分析可知,模型通過訂正智能網格數據得到的新預報數據與真實數據相當接近。同時能夠觀察發現,融合模型的誤差較單個模型也得到了大幅度降低,這證明了集成學習模型有著更高的數據訂正能力。因此,可將該模型部署于整體數據進行測試,分別對24小時、48小時和72小時預報時效的站點數據進行最高氣溫和最低氣溫的訂正。
3.4" 氣溫訂正精度評價
以24小時時效的最高氣溫為例,由圖3模型輸出結果可知,經過訂正后的氣溫數值與真實數據更加接近。同時,該模型能夠剔除一些誤差較大的異常點,證明了該集成學習模型具有較高的數據訂正能力。
對8個站點的智能網格氣溫進行訂正,并計算各站點、各時次的準確率、TMAE和TRMSE的變化情況。結果顯示,盡管各站點之間存在一定的差異,但該集成學習模型在最高氣溫和最低氣溫的訂正上均表現出顯著的效果。訂正后,各站點的準確率普遍提高,誤差顯著降低,如表5、表6所示。
對模型輸出的8個站點的最低氣溫訂正序列與實測資料進行對比檢驗,結論如下:隨著預報時效的增加,訂正效果略有下降,各站點間也存在一定差異。其中,突泉站在準確率提升方面表現最優,24小時最低氣溫的準確率同比提升了41.27%。在平均絕對誤差的訂正方面,各站點差異不大,均取得了良好的效果,平均絕對誤差下降了0.72~1.13 ℃。
綜合分析,模型對最高氣溫的訂正也具有一定的效果。除突泉站外,其他站點的訂正效果隨著預報時效的增加而有所提升,各站點間也存在一定差異。其中,突泉站在準確率提升方面表現最優,24小時最高氣溫的準確率同比提升了35.83%。在平均絕對誤差的訂正方面,各站點差異不大,均取得了良好的效果。
4" 結" 論
綜合檢驗分析和訂正預報結果,可以得到以下結論:
1)SCMOC溫度產品對興安盟地區具有較高的預報性能和較強的穩定性,但隨著預報時效的延長,準確率略有下降。
2)從2023年的誤差分析來看,正負誤差的平均值沒有明顯規律。然而,在24小時到72小時的預報中,最高氣溫和最低氣溫的誤差為負的比例均大于為正的比例,這表明系統對興安盟地區的溫度預報值普遍偏高。
3)結合CMA-GFS數值預報模式結果以及各類地面觀測實況,利用集成學習方法建立了溫度產品訂正模型。該模型在最高氣溫和最低氣溫的訂正上均表現出顯著效果。盡管各站點之間存在一定差異,但整體上準確率有所提高,誤差顯著降低。
參考文獻:
[1] 韋青,代刊,林建,等.2016—2018年全國智能網格降水及溫度預報檢驗評估 [J].氣象,2020,46(10):1272-1285.
[2] 劉海燕,周雪瑩,李顯風,等.基于數據湖的智能網格氣象預報業務產品服務模式初探——以江西省為例 [J].氣象與減災研究,2022,45(1):64-69.
[3] 賈曉紅,魏巍,石嵐.冬季路面最低溫度統計預報方法對比研究 [J].內蒙古氣象,2024(1):25-30.
[4] 杭月荷,孫鑫.支持向量機方法在內蒙古客觀溫度預報中的應用 [J].內蒙古氣象,2020(3):16-19.
[5] 金榮花,代刊,趙瑞霞,等.我國無縫隙精細化網格天氣預報技術進展與挑戰 [J].氣象,2019,5(4):445-457.
[6] 孫康慧,肖安,夏侯杰.基于LightGBM機器學習算法的江西氣溫短期預報模型研究 [J].高原氣象,2024,43(6):1520-1535.
[7] 劉杰,劉高平,安晶晶,等.基于機器學習的模式溫度預報訂正方法 [J].沙漠與綠洲氣象,2024,18(3):96-104.
[8] 朱玉祥,劉海文,萬文龍,等.人工智能在飛機顛簸預報中的應用進展及未來趨勢展望 [J].大氣科學學報,2023,46(6):825-836.
[9] 武略,焦瑞莉,王毅,等.北京地區體感溫度誤差訂正方法研究 [J].氣象科學,2022,42(2):261-269.
[10] 曾曉青,曹勇,王玉,等.一種針對模式預報場的精細化插值新方法 [J].大氣科學,2024,48(5):1879-1890.
作者簡介:李雪雪(1993.02—)女,蒙古族,內蒙古突泉人,工程師,農學碩士,研究方向:天氣預報與氣象服務研究。
收稿日期:2025-01-15
基金項目:內蒙古自治區氣象局科技創新項目(nmqxkjcx202412)