劉 峻,高 珊,2
(1.廣西大學計算機與電子信息學院,廣西 南寧 530004;2.廣西壯族自治區氣象服務中心,廣西 南寧530022)
臺風是在溫帶洋面上生成和發展的熱帶天氣系統,引發的次生災害具有極大的破壞性。準確估算臺風強度是臺風預報和災害預警中極為關鍵的問題,可以為防災部門提供有效的信息支持,大大減少生命和財產的損失。
目前,世界上對臺風強度預測仍處于探索研究階段,隨著機器學習在各行業的應用逐漸深入,氣象領域的研究人員開始嘗試將機器學習算法應用于天氣預報領域。自從Knaff等人于2002年開發了第一版 “統計臺風強度預報方案” (STIPS)以來,研究人員相繼提出了基于人工神經網絡、徑向基函數網絡(RBFN)、多層感知器(MLP)、統計多元線性和普通線性回歸等模型的方案對臺風強度進行預測。Jin等[1]認為臺風強度的變化受包括海洋熱量、垂直風切變和下墊面變化等許多因素的影響,極端梯度提升算法XGBoost算法可以挖掘、處理多個維度因素,進行多因素預測,因而基于XGBoost模型和風云衛星影像估算南海熱帶氣旋強度。而Yuan等[2]考慮到影響臺風強度的變化因素多呈非線性特征,且往往具有時間相關性,因此采用LSTM模型將臺風強度預報作為時間序列問題進行研究。這些方法在機器學習應用到臺風強度預測方面進行了有益嘗試,取得了較好的結果,但仍存在預測誤差率不夠高、特征提取復雜等問題。
考慮到XGBoost具有較高的預測精度、良好的擬合和泛化能力等優點,LSTM擅長處理時間序列問題,以及XGBoost樹模型和LSTM神經網絡模型的方法原理不同,兩者進行方法組合,產生的結果相關性較低,有利于提高預測的準確性。因此本文基于XGBoost和LSTM對臺風強度進行組合建模和預測,將其預測結果與單機器學習模型XGBoost和LSTM進行對比,以研究這些機器學習方法在臺風預報與監測中的應用。
極度梯度提升算法(eXtreme Gradient Boosting,XGBoost)[1]是一種Boosting集成學習方法,通過不斷形成新的決策樹來擬合上一步預測的殘差,逐步縮減真實值與預測值之間殘差,以達到準確分類的效果,十分適合作為臺風強度預測的分類模型。
而長短期記憶神經網絡(Long Short Term Memory,LSTM)[2]是一種時間循環神經網絡,是為了解決一般的循環神經網絡RNN存在的長期依賴問題而專門設計出來的,適于對與時間相關的臺風強度影響因素進行建模。
本文將XGBoost和LSTM模型組合在一起,進行臺風強度預測實驗。預測模型使用當前時間和提前不同時間的臺風強度、位置和移動速度等數據來共同預測下一個時間點的臺風強度。該過程可以獲得提前6,12,24小時等預報時間的臺風強度數據。
組合模型預測流程為:首先對臺風原始數據集進行預處理,提取出氣候、環境、歷史數據等特征;然后將這些特征輸入LSTM模型中進行訓練,得到LSTM模型的初步預測值;再次,將LSTM模型的初步預測值作為一個新的特征,與原始數據集經過預處理得到的其他氣候、環境、歷史數據特征一起構成一個新的數據集,將其輸入XGBoost模型中進行訓練和預測,得到最終的預測值。
本文構建的XGBoost+LSTM預測模型的輸入數據集,不但包含了對臺風原始數據集進行預處理而提取出的氣候、環境、歷史數據等特征參數,還包括了經過LSTM模型處理得到的初步預測值作為另一維度特征參數。兩種特征參數一起作為XGBoost臺風強度預測模型的輸入,參加臺風強度的預測過程。這一方式主要是利用XGBoost模型和LSTM模型結構上的差異,充分發揮兩個模型各自的優勢,降低模型過擬合的風險,提高臺風強度的預測精度。預測模型流程如圖1所示。

圖1 XGBoost+LSTM臺風強度預測模型流程
本文XGBoost臺風強度預測模型使用的數據來自廣西壯族自治區氣象局及中央氣象臺臺風網(http://typhoon.nmc.cn/web.html)。臺風強度根據中國氣象局發布的《關于實施<熱帶氣旋等級>國家標準(GB/T 19201—2006)的通知》[3](氣發〔2006〕154號)中的標準進行劃分,熱帶氣旋底層中心附近最大平均風速達到10.8~17.1 m/s(風力6~7級)為熱帶低壓,達到17.2~24.4 m/s(風力8~9級)為熱帶風暴,達到24.5~32.6 m/s(風力10~11級)為強熱帶風暴,達到32.7~41.4 m/s(風力12~13級)為臺風,達到41.5~50.9 m/s(風力14~15級)為強臺風,達到或大于51.0 m/s(風力16級或以上)為超強臺風。
為了驗證臺風強度預測模型性能,本文使用平均絕對誤差MAE指標對模型進行評估。由于臺風強度一般認為由底層中心附近最大平均風速決定,因此本文主要對臺風不同階段的風速進行驗證對比。本文將基于XGBoost和LSTM組合的臺風強度預測模型的結果誤差與單獨基于LSTM和XGBoost的臺風強度預測模型的結果誤差進行了對比分析,并選取提前6小時和提前24小時的預測誤差,如圖2—3所示。
在提前6小時預報中,組合模型對于所有臺風強度級別的預測的平均絕對誤差(MAE)均小于單一模型的平均絕對誤差,尤其在強臺風以下的級別預報中,組合模型的MAE誤差值一直保持在5以下,LSTM模型和XGBoost模型的MAE誤差值則一直隨著臺風強度級別的增強而不斷上升。
在提前24小時的預報中,組合模型明顯更適合熱帶低氣壓、臺風和強臺風等級的預報,而LSTM模型對熱帶風暴、強熱帶風暴和超強臺風等級的預報誤差更低一些。
由圖2—3可以看出,在預報提前時間小于24小時的預報中,LSTM模型更適合預報提前時間量偏長的超強臺風級別的預測,而XGBboost+LSTM組合模型更適合預報提前時間量偏短的臺風級別預測,且適用性更廣。因此,在進行臺風強度預報時,可以根據不同時間階段和不同臺風強度等級,采用不同模型進行預測,這樣更能發揮各自模型算法的優勢。

圖2 單一模型和組合模型提前6小時預報不同強度臺風的誤差

圖3 單一模型和組合模型提前24小時預報不同臺風強度的誤差
本文對比分析了基于XGBoost和LSTM的臺風強度預測模型,經過多輪迭代訓練,優化相應超參數,構建相應深度神經網絡對臺風強度進行了分析和預測。實驗結果表明,在不同時間階段和不同臺風強度等級的預測中,模型的正確選擇有利于降低預測的誤差。總體而言,與XGBoost和LSTM單機器學習模型相比,由于XGBoost和LSTM組合模型不僅考慮了影響臺風強度的因素的時間序列特征,同時又兼顧了這些因素的非線性特征。因此,組合模型的預測誤差相對更小,穩定性也更強,更適用于臺風強度預測。今后,筆者將進一步擴大樣本數量,優化模型的預測效果,以期將該臺風強度預測模型真正應用于實際。