楊理智,張櫨丹,王俊鋒,張 帥,嚴渝昇
(中國人民解放軍31308部隊,四川 成都 610031)
氣候預測方法有統計學、動力學和動力統計相結合三類方法。統計學方法由于指數因子過多且各因子相互作用過程復雜,難以基于簡單的人工分析把握主要統計要素,因此不確定性較高。動力學方法基于數值預報模式,受初始擾動和大氣可預報性影響,氣候預測技巧有限,特別是青藏高原地區海拔高且地形復雜,氣候動力模式難以精準捕捉氣候過程,從而表現出了明顯偏差[1-2]。動力統計結合方式為現在主流方式,能彌補統計和動力方法各自的不足,明顯提升預測準確度[3-5]。因此,利用統計學方法訂正西部方向氣候模式,以提升預報準確度是值得探索的一個方向。
近年來,大數據分析挖掘技術——機器學習正騰飛發展,也在對數據關鍵信息的提取、識別和預測上取得了巨大成就。充分利用大數據分析挖掘技術,優化傳統統計預測方法,是提升高原地區氣候預測準確度的重要途徑。氣候預測準確性的影響因子眾多,包含不同起報時間的模式場數據以及前期環流特征等,因子數量多、呈現顯著的非線性。機器學習算法能夠挖掘大數據規律,區別于傳統統計方法,它從數據出發進行學習,具有很強的處理非線性問題的能力[6],能夠從地氣系統大數據中發現并挖掘分析相互關聯信號,提升氣候預測技巧[7-8]。
機器學習已經被廣泛應用于氣候預測中,涌現出大量創新創造性成果[9-11]。機器學習方法常與數值模式融合,Gentine等[11]用神經網絡模擬云和對流中熱量、水汽的垂直輸送以及輻射與云和水蒸氣的相互作用,更有效地改進數值模式的模擬性,對氣候模式的發展和預測水平的提高帶來深遠影響。機器學習也被廣泛用于訂正動力模式偏差,Moghim和Bras[12]使用ANN模型對CCSM3的南美洲北部降水進行訂正,效果顯著優于線性回歸模型;Wang等[13-14]用隨機森林、支持向量、貝葉斯模型等工智能模型訂正偏差,從而提高動力模式預測水平。機器學習算法對提升氣候預測業務水平也有極大的貢獻,黃超[15]等采用隨機森林挑選因子、多層前饋神經網絡、支持向量回歸和自然梯度算法建立模型,有效提升了湖南夏季降水的預測能力;鄧居昌等[7]用多種機器學習算法構建廣西月降水量預測統計訂正,結合動力模式方法,極大提升了預測準確率;向波等創造性地將機器學習算法融入多省市的氣候預測業務中,成功優化預測效果。
上述研究在氣候預測中機器學習算法的應用領域做出了較大貢獻,但由于模式表現差、測站少等原因,鮮有研究關注西部方向。因此,本文利用西部方向240個區域站30年觀測數據、國內外主流氣候模式數據、前期環流特征等大數據樣本,基于EOF分解的時間系數,采用信息流算法分析挖掘數據因果特征,運用機器學習算法構建高影響因子集與時間系數的預報模型,以優化模式預報場,最后將模式數據、重構預報數據插值回240個區域站,分析對比模型預報效果,探索基于機器學習算法的氣候模式訂正方法在西部方向的適用性。
本文基于機器學習算法實現氣候模式訂正,技術方案如圖1所示。

圖1 建模流程
具體步驟如下:
(1)融合格點場。取EC預報場和NCC預報場的均值,形成融合格點場。
(2)訂正格點場。將融合格點場插值到站點,并作為輸入,站點實測數據作為輸出,利用隨機森林訓練訂正模型,從而訂正融合格點場,形成訂正預報場。
(3)EOF分解。對訂正后的格點場進行EOF分解,得到前N個模態的空間系數、時間系數,將前N個模態的時間系數作為模型的預測因子。
(4)影響因子選取。采用信息流算法,尋找前N個模態時間系數與起報前M個月環流指數的因果關系,構建高影響因子集。
(5)機器學習建模。采用機器學習算法,對不同模態的高影響因子集與前N個模態的時間系數進行建模,得到預測的時間系數。
(6)重構格點場。利用前N個模態空間系數及預測的時間系數,得到預報的格點場。
(7)預測效果評估。將預報的格點數據插值到西部方向240個站點上,通過RMSE評估預報準確度;通過PS評分、ACC評分分析模型預報技巧。
1.2.1 隨機森林
隨機森林(Random Forest,RF)算法是2001年Breiman[15]基于Bagging思想首次提出的一種分類和回歸算法,它由相互獨立的單棵決策樹組成,使用多棵決策樹樣本進行訓練和預測,最后利用投票機制來實現最終的分類。具體算法流程如下:
(1)矩利用自助重采樣方法,從原始樣本集S中采用有放回的采樣方式,隨機抽取N個樣本子集。
(2)從N個樣本子集中建立相應的N棵決策樹:
{h(x,θn),n=1,2,…,N}
(1)
其中x為輸入的自變量和因變量,θn為服從獨立同分布隨機向量。
(3)訓練決策樹模型節點時,隨機選取m(m≤M)個預測因子作為樹節點劃分特征(M為預測因子總個數),以其中最優的一個特征來劃分決策樹的左右子樹。
(4)訓練結束后,將投票得到的所有模態的平均值作為輸出,得到隨機森林模型預測結果。
(2)
1.2.2 信息流
區別于以往因果分析方法,近幾年Liang[16-18]突破性地證明了因果關系實際上具有嚴格的物理意義和理論基礎:因果關系可以被一規范方程運用最大似然估計所推得的閉合解(定義為信息流,Information Flow,IF)來度量。信息流不僅被證實在線性系統中能夠快捷有效地探明因果信息交換情況,還在非線性系統的因果分析中展示了明顯優于Granger因果測試法和轉移熵的表現[19]。
針對兩兩時間序列X2和X1,Liang[20]運用最大似然估計推得從X2向(注意方向性)傳輸的信息流可用如下公式計算:
(3)

(4)

1.3.1 趨勢異常綜合評分PS
PS評分計算公式:
(5)
其中N0為氣候趨勢預測正確的站數,N1為一級異常預測正確的站數,N2為二級異常預測正確的站數,M為沒有預報二級異常而實況出現降水距平百分率≥100%或等于-100%的站數(稱漏報站)。其中,20%≤降水距平百分率絕對值<50%為一級異常,降水距平百分率絕對值≥50%為二級異常;同號率指各站降水距平值實況和預報正負符號相同的站數占總站數的百分比。
1.3.2 空間距平相關系數ACC
ACC計算公式:
(6)

1.3.3 均方根誤差
均方根誤差(RMSE)又稱標準誤差,是評估預測結果好壞的常用指標,用來衡量一組數自身的離散程度,能更好地反映模型預測值與真實值之間的偏差,值越小,表明模型的預測能力越好。計算公式為:
(7)
其中Xobs,i為每一個真實值,Xmodel,i表示對應的預測值,n為樣本量。
本文選取西部方向7省(市/區)區域站歷史數據、歐洲中期天氣預報中心EC氣候模式數據、國家氣候中心NCC氣候模式數據、114項氣候系統監測指數(88項大氣環流指數、26項海溫指數)。
(1)區域站數據選擇1985年1月至2021年9月240個地面氣象觀測站逐月的降水資料(西部方向共243個區域站,其中56 666攀枝花、57 503東興區、51 747塔中站點因缺測資料較多,不計入此次建模);
(2)EC氣候模式歷史回算時間范圍為1993年2月至2022年9月,空間范圍為25°N - 50°N、70°E - 140°E,空間分辨率1°×1°,時間分辨率1 month;
(3)NCC氣候模式歷史回算時間范圍為1991年1月至2022年12月,空間范圍為25°N - 50°N、70°E - 140°E,空間分辨率1°×1°,時間分辨率1 month;
(4)114項氣候系統監測指數包含副高、東亞槽、歐亞環流型等88項大氣環流指數,及厄爾尼諾、暖池等26項海溫指數的逐月平均值,時間范圍為1951年1月至2023年2月。
2.2.1 模式數據訂正
將NCC模式數據與EC模式數據進行均值融合,得到融合網格NEC,將其插值到240個站點。令插值的降水數據為輸入,各測站實測的降水數據為輸出,利用隨機森林構建訂正模型。建模完成后,輸入均值融合網格數據進入訂正模型,得到利用實測站點訂正后的模式網格數據R_NEC。
將R_NEC、NCC、EC插值到站點,與站點實測數據進行誤差分析,經訂正后的R_NEC模式網格數據能夠有效減少原有模式數據的均方根誤差,如圖2所示。

圖2 R_NEC、NCC、EC模式均方根誤差
2.2.2 因果分析
對R_NEC格點場降水進行EOF分解,得到空間系數和時間系數。根據累積方差貢獻率,各模態累計方差貢獻率如圖3所示。

圖3 各模態累計方差貢獻率
選取前4個模態(方差貢獻率90%)時間系數分別與起報前1~6 mon共684項環流指數進行相關性分析。采用信息流分析各模態高影響環流因子,取信息流值τCol→Row≥1%表示因子之間具有強因果關系[20],高影響因子集數量如表1所示。

表1 各模態影響因子概況
基于隨機森林構建模型,以不同模態高影響因子集為輸入,以其時間系數為輸出,得到各模態預報的時間系數;利用模型預報的時間系數和EOF分解出的空間系數還原成格點場。
使用1993年2月~2014年7月258個樣本進行訓練,2014年8月~2021年9月86個樣本進行檢驗。將預報數據和優化后的格點數據插值到站點,計算各站點RMSE以及逐月ACC、PS評分,隨機森林模型RF、融合網格R_NEC、歐洲中心氣候模式EC、國家氣候中心模式NCC四種模式結果如圖4所示。

圖4 不同預測模型預報效果評價
隨機森林模型RF、融合網格R_NEC、歐洲中心氣候模式EC、國家氣候中心模式NCC四種模式平均RMSE、ACC得分、PS得分及其對應的方差如表2所示。

表2 各站點預報評分
對比來看,RF模型預報效果最優,R_NEC網格次之,均比NCC、EC模式預報效果有較大提升。
(1)模型精度方面,RF模型預報RMSE均值最低、RMSE方差最小。
(2)預報技巧方面,RF模型ACC評分、PS評分及PS評分方差均為最小,特別是PS方差較模式預報大幅減小,說明模型在異常降水預報的表現穩定度較模式大幅提升。但RF模型ACC方差大于NCC模式,離散度較高,說明RF模型在降水預報空間場表現有待提高。
西部方向氣候預測影響因子眾多、非線性特征凸顯,本文利用機器學習算法,分析挖掘地氣系統內部規律,提高了氣候模式在西部方向的預報準確度,為機器學習算法在西部氣候預測中的應用提供了思路。對比國內外主流氣候預測模式,本文所建立的模式訂正方案能夠有效降低預測誤差,并具有更好的預報技巧。
然而,由于模式在高原地區表現極為不佳,加之初始場擾動劇烈,模型優化后的預報準確度依然不高,下一步將探索使用不同機器學習算法修訂對比預報結果;此外,將探索數學算法與地氣系統物理模型相結合的研究途徑,提升模式預報精度,從而為算法模型構建提供更好的初始場。