榮新,覃衛(wèi)堅(jiān),韋文山
(1.廣西民族大學(xué)電子信息學(xué)院,廣西南寧 530000;2.廣西氣候中心,廣西南寧 530022)
臺(tái)風(fēng)是一種破壞性極大的氣象災(zāi)害,臺(tái)風(fēng)期間常伴隨狂風(fēng)、暴雨、風(fēng)暴潮等現(xiàn)象。廣西位于中國(guó)南部沿海地區(qū),每年平均受5 個(gè)臺(tái)風(fēng)的影響。臺(tái)風(fēng)常給廣西造成嚴(yán)重的經(jīng)濟(jì)損失和人員傷亡,如2001年7 月2—9 日,臺(tái)風(fēng)“榴蓮”和臺(tái)風(fēng)“尤特”給廣西帶來(lái)強(qiáng)降雨,導(dǎo)致左江、右江、邕江、郁江、潯江洪水泛濫,百色市遭遇了百年不遇的洪澇災(zāi)害,1 650 萬(wàn)人受災(zāi),24 人死亡,直接經(jīng)濟(jì)損失達(dá)159 億元。因此,提高預(yù)測(cè)影響臺(tái)風(fēng)頻數(shù)的氣候要素的能力,對(duì)提前做好臺(tái)風(fēng)防范工作、減少災(zāi)害損失具有重要意義。
臺(tái)風(fēng)預(yù)報(bào)方法研究一直受到人們的關(guān)注,傳統(tǒng)的線性回歸、廣義加性模式、動(dòng)態(tài)統(tǒng)計(jì)混合模式等統(tǒng)計(jì)預(yù)報(bào)方法在熱帶氣旋活動(dòng)預(yù)測(cè)中取得了巨大的成功[1-8]。近年來(lái),基于機(jī)器學(xué)習(xí)和人工智能算法在處理非線性問(wèn)題上有較好的自適應(yīng)學(xué)習(xí)能力,被廣泛應(yīng)用于天氣預(yù)報(bào)中[9-15],例如:在探索臺(tái)風(fēng)生成、路徑以及強(qiáng)度時(shí),CHEN 等[16]關(guān)注了大氣和海洋變量的時(shí)空相關(guān)性,將臺(tái)風(fēng)的形成和強(qiáng)度預(yù)報(bào)分別定義為時(shí)空序列預(yù)報(bào)的分類(lèi)和回歸問(wèn)題,建立了卷積神經(jīng)網(wǎng)絡(luò)-長(zhǎng)短期記憶網(wǎng)絡(luò)(Convolutional Neural Networks-Long Short-Term Memory,CNN-LSTM)混合預(yù)測(cè)模型;高珊等[17]、徐光寧[18]分別運(yùn)用LSTM和深度學(xué)習(xí)建立臺(tái)風(fēng)強(qiáng)度預(yù)測(cè)模型;HAGHROOSTA等[19]在臺(tái)風(fēng)強(qiáng)度預(yù)測(cè)上證明了運(yùn)用自適應(yīng)模糊神經(jīng)網(wǎng)絡(luò)(Adaptive-Network-based Fuzzy Inference Systems,ANFIS)方法優(yōu)于單獨(dú)的人工神經(jīng)網(wǎng)絡(luò)方法;GAO 等[20]建立了基于LSTM 的臺(tái)風(fēng)路徑預(yù)報(bào)模型,得到了理想的6~24 h 的臺(tái)風(fēng)路徑預(yù)報(bào)結(jié)果;SONG 等[21]結(jié)合兩次數(shù)據(jù)降維,建立了基于支持向量回歸(Support Vector Regression,SVR)方法的臺(tái)風(fēng)路徑預(yù)報(bào);LIU 等[22]通過(guò)粒子群投影尋蹤和模糊數(shù)學(xué)計(jì)算權(quán)重來(lái)優(yōu)化預(yù)測(cè)因子,建立了基于自然正交展開(kāi)和組合權(quán)值的非線性小波神經(jīng)網(wǎng)絡(luò)模型,同樣TAN 等[23]使用最小絕對(duì)收縮和選擇算子方法獲取預(yù)測(cè)因子并結(jié)合隨機(jī)森林(Random Forest,RF)建立了預(yù)測(cè)方案,兩者在熱帶氣旋頻數(shù)預(yù)測(cè)上都取得了較好的預(yù)測(cè)結(jié)果。綜上可見(jiàn)機(jī)器學(xué)習(xí)和人工智能算法多應(yīng)用于臺(tái)風(fēng)路徑、強(qiáng)度等天氣預(yù)報(bào)中,而在臺(tái)風(fēng)頻數(shù)預(yù)測(cè)的應(yīng)用中還不多見(jiàn)。本文以影響廣西的臺(tái)風(fēng)年頻數(shù)作為研究對(duì)象,針對(duì)臺(tái)風(fēng)頻數(shù)預(yù)測(cè)的非線性特點(diǎn),汲取當(dāng)前人工智能的研究成果篩選最優(yōu)的預(yù)測(cè)因子,在數(shù)據(jù)處理上運(yùn)用具有優(yōu)越選擇特征的隨機(jī)森林方法進(jìn)行因子二次篩選來(lái)得到最優(yōu)預(yù)測(cè)因子,使用SVR、RF 以及循環(huán)門(mén)單元(Gated Recurrent Unit,GRU)3種機(jī)器學(xué)習(xí)算法建立臺(tái)風(fēng)個(gè)數(shù)預(yù)測(cè)模型,綜合對(duì)比分析得出最優(yōu)算法,為年度臺(tái)風(fēng)頻數(shù)預(yù)測(cè)提供新的可行性方法。
影響廣西臺(tái)風(fēng)觀測(cè)數(shù)據(jù)(1951—2020 年)來(lái)源于中國(guó)氣象局上海臺(tái)風(fēng)研究所提供的臺(tái)風(fēng)年鑒和熱帶氣旋年鑒。臺(tái)風(fēng)等級(jí)包括臺(tái)風(fēng)、熱帶風(fēng)暴及熱帶低壓,影響廣西的臺(tái)風(fēng)定義為進(jìn)入19°N 以北、112°E以西的臺(tái)風(fēng)[24]。
國(guó)家氣候中心提供了1951—2020 年88 項(xiàng)大氣環(huán)流特征向量和26 項(xiàng)海溫指數(shù)資料(獲取地址:http://cmdp.ncc-cma.net/Monitoring/cn_index_130.php)。對(duì)上述資料進(jìn)行歸一化預(yù)處理,歸一化公式為:
式中:i表示第i年;k表示第k個(gè)特征因子。
線性回歸分析是探索因變量和自變量關(guān)系程度的統(tǒng)計(jì)方法,通過(guò)將真實(shí)值與預(yù)測(cè)值的平方誤差最小化,可建立反應(yīng)變數(shù)(Y)和解釋變數(shù)(X)之間的關(guān)系模型。最小二乘法代價(jià)函數(shù)為:
式中:α是線性回歸系數(shù)。
解出系數(shù)α為:
式中:XTX為滿秩矩陣。
為了解決線性回歸分析中過(guò)擬合的問(wèn)題,嶺回歸方法(Ridge Regression,RR)在建模時(shí)加入正則化項(xiàng),在矩陣XTX的對(duì)角線元素上加入嶺系數(shù)σ,代價(jià)函數(shù)hα(α)轉(zhuǎn)變?yōu)椋?/p>
得到系數(shù)α的解:
式中:σ是超參數(shù),可通過(guò)調(diào)節(jié)σ的值來(lái)改變對(duì)α的懲罰強(qiáng)度。
SVR 模型方法是一種用于分類(lèi)和回歸、有監(jiān)督的機(jī)器學(xué)習(xí)算法,在處理高維問(wèn)題方面具有較強(qiáng)的魯棒性。SVR 的主要思想是利用支持向量機(jī)找到可能的最佳預(yù)測(cè)模型,并容忍一些預(yù)測(cè)誤差[25]。首先需要構(gòu)建一個(gè)樣本標(biāo)簽,選擇最有影響力的樣本集構(gòu)造超平面,方程表示為:
式中:w表示加權(quán)矩陣;b為偏置項(xiàng)。當(dāng)且僅當(dāng)訓(xùn)練樣本落入劃分的超平面外時(shí)計(jì)算損失,將回歸風(fēng)險(xiǎn)最小化為:
式中:B為正則化常數(shù);g(xk)為第k個(gè)樣本的預(yù)測(cè)值;yk為第k個(gè)真實(shí)值;lθ為不敏感損失函數(shù),其中θ為容忍偏差。
本模型引入高斯核函數(shù)G(x,xk),可將樣本從原始空間映射到更高維的特征空間以獲得更高的預(yù)測(cè)精度,超平面所對(duì)應(yīng)的模型變?yōu)椋?/p>
RF 模型方法是決策樹(shù)方法的改進(jìn)[26]。RF 算法由許多決策樹(shù)組成,把多個(gè)決策樹(shù)的計(jì)算結(jié)果進(jìn)行平均作為最后的輸出結(jié)果。基本流程見(jiàn)圖1。對(duì)于給定的原始數(shù)據(jù)D(xk,k∈1,2,3,…,n):

圖1 RF方法流程圖Fig.1 RF method flow chart
①首先在原始數(shù)據(jù)D中有放回的隨機(jī)抽樣,生成m個(gè)子元組,保證每個(gè)子元組數(shù)量等于總數(shù)據(jù)集數(shù)。
②在建立決策樹(shù)的過(guò)程中隨機(jī)抽取備用特征,把最優(yōu)特征子集劃分為局部訓(xùn)練集,構(gòu)造m棵決策樹(shù),剩余樣本形成袋外數(shù)據(jù)(OOB)用于估計(jì)隨機(jī)森林的擬合度。構(gòu)造決策樹(shù)使用基尼指數(shù)(Gini)[27]最小化準(zhǔn)則進(jìn)行分裂,Gini值越小,數(shù)據(jù)集的純度就越高。Gini指數(shù)可表示為:
式中:ak為訓(xùn)練集中樣本屬于某一類(lèi)的概率。
③特征選擇。
a.計(jì)算特征pi在節(jié)點(diǎn)j中的基尼指數(shù)變化值,公式為:
式中:Gini(j)表示分枝前的基尼指數(shù);Gini(l)和Gini(r)則為節(jié)點(diǎn)j分枝后產(chǎn)生的兩個(gè)新節(jié)點(diǎn)的基尼指數(shù)。
b.計(jì)算特征pi在第z棵決策樹(shù)上的基尼指數(shù)變化量:
式中:N為節(jié)點(diǎn)集合。
c.求每個(gè)特征對(duì)隨機(jī)森林每棵樹(shù)的貢獻(xiàn)值,即重要程度:
d.對(duì)每一個(gè)節(jié)點(diǎn)求得貢獻(xiàn)值后進(jìn)行比較和排序[28]。
④將m棵樹(shù)組成隨機(jī)森林,求平均值并作為最后輸出的預(yù)測(cè)結(jié)果。
GRU 模型方法是一種高級(jí)的長(zhǎng)短期記憶技術(shù)[29],是LSTM 算法的一個(gè)變體,GRU簡(jiǎn)化了LSTM算法的3 層門(mén)循環(huán),將單元狀態(tài)與輸出狀態(tài)合二為一,僅保留了兩層的門(mén)循環(huán)即重置門(mén)和更新門(mén)。基本流程見(jiàn)圖2。

圖2 GRU方法基本流程圖Fig.2 GRU method flow chart
GRU方法的公式表示為:
式中:zt表示更新門(mén);rt表示重置門(mén);w表示循環(huán)層權(quán)重;xt為t時(shí)刻的輸入;It表示t時(shí)刻的輸出狀態(tài)。使用GRU 算法可以有效解決數(shù)據(jù)序列在訓(xùn)練過(guò)程中出現(xiàn)的梯度消失和爆炸問(wèn)題。
2.1.1 初次篩選因子
給定一組數(shù)據(jù)D={(Xk,Yk)},k∈n,設(shè)相關(guān)系數(shù)為r,r可表示為:
式中:為X的平均值;為Y的平均值。
計(jì)算1951—2015年影響廣西的臺(tái)風(fēng)年頻數(shù)時(shí)間序列與同一年、前一年各月各種大氣環(huán)流和海溫指數(shù)的相關(guān)系數(shù),初步篩選出相關(guān)系數(shù)絕對(duì)值達(dá)到0.4、通過(guò)水平為0.01的顯著性檢驗(yàn)的環(huán)流特征量和海溫指數(shù)作為預(yù)報(bào)因子,共得到24個(gè)預(yù)報(bào)因子(見(jiàn)表1)。

表1 初選得到的預(yù)報(bào)因子Tab.1 Predictors obtained from the primary selection
2.1.2 二次篩選因子
通常預(yù)報(bào)因子之間的多重共線性會(huì)導(dǎo)致解釋變量之間出現(xiàn)相當(dāng)大的冗余,為了能夠更好地反映預(yù)報(bào)因子場(chǎng)的綜合信息,需要在已選定的一批因子中得到最優(yōu)因子,進(jìn)一步提高預(yù)測(cè)精度,降低計(jì)算的復(fù)雜度。使用RF方法對(duì)上節(jié)得到的24個(gè)預(yù)報(bào)因子進(jìn)行二次篩選,使用經(jīng)過(guò)訓(xùn)練的RF 模型,計(jì)算每個(gè)因子的重要程度,按照從大到小的順序逐個(gè)輸出,篩選出重要性值相對(duì)較高的因子。由于前3 位因子的重要性值最高,之后因子的重要性值有較大幅度的減小(如第四位重要性值僅為0.030 33),因此最后得到3 個(gè)預(yù)報(bào)因子(見(jiàn)表2),分別為前一年9月歐亞緯向環(huán)流指數(shù)、同一年2月NINO 1+2區(qū)海表溫度距平指數(shù)、前一年6 月大西洋經(jīng)向模式風(fēng)指數(shù)(Atlantic Meridional Mode,AMM),該區(qū)域多處于西太平洋臺(tái)風(fēng)生成的區(qū)域。

表2 二次篩選得到的特征因子Tab.2 Characteristic factors obtained from the secondary screening
設(shè)臺(tái)風(fēng)樣本數(shù)據(jù)為D(xk,k∈1,2,3,…,n),絕對(duì)誤差計(jì)算公式為:
相對(duì)誤差計(jì)算公式為:
基于初次篩選因子和二次篩選因子建立RR 預(yù)報(bào)模型。利用24個(gè)因子建立預(yù)報(bào)模型,調(diào)節(jié)嶺參數(shù)值為0.7 時(shí)預(yù)測(cè)結(jié)果最佳,由表3 可知5 a 獨(dú)立樣本的預(yù)測(cè)平均絕對(duì)誤差為1.46,平均相對(duì)誤差為38.13%。利用二次篩選得到的3 個(gè)因子建立RR 預(yù)報(bào)模型,調(diào)節(jié)嶺參數(shù)σ為0.6 時(shí),訓(xùn)練64 a 臺(tái)風(fēng)樣本集效果最佳(見(jiàn)圖3),平均絕對(duì)誤差為2.12;5 a獨(dú)立樣本預(yù)測(cè)結(jié)果見(jiàn)表3,預(yù)測(cè)平均值為4.31,較使用初次篩選因子的預(yù)測(cè)更接近實(shí)況平均值,平均絕對(duì)誤差為1.03,平均相對(duì)誤差為24.02%,較使用24 個(gè)因子的RR 模型預(yù)測(cè)的平均絕對(duì)誤差減少0.43,平均相對(duì)誤差減少14.11%,預(yù)測(cè)效果明顯提高。

表3 2016—2020年臺(tái)風(fēng)頻數(shù)RR模型預(yù)報(bào)結(jié)果Tab.3 RR model forecast results of typhoon number in 2016—2020

圖3 RR模型訓(xùn)練擬合預(yù)報(bào)和實(shí)況序列Fig.3 RR model training to fit forecasts and observations
SVR 采用liblinear 庫(kù)來(lái)實(shí)現(xiàn),選取參數(shù)懲罰函數(shù)C=0.1,損失函數(shù)explosion=2.0,最大迭代次數(shù)默認(rèn)為10 000 次,訓(xùn)練集為64 a 臺(tái)風(fēng)個(gè)數(shù)。當(dāng)預(yù)報(bào)因子為24 個(gè)時(shí),5 a 獨(dú)立樣本預(yù)測(cè)結(jié)果見(jiàn)表4,預(yù)報(bào)誤差絕對(duì)值平均為0.83,平均相對(duì)誤差為17.28%。當(dāng)預(yù)報(bào)因子為3 個(gè)時(shí),預(yù)測(cè)樣本選取5 a 的數(shù)據(jù),從訓(xùn)練集的擬合曲線和實(shí)況序列來(lái)看(見(jiàn)圖4),預(yù)測(cè)值波動(dòng)幅度較實(shí)況小,對(duì)極端異常臺(tái)風(fēng)個(gè)數(shù)的預(yù)測(cè)能力較低,如2004 年無(wú)臺(tái)風(fēng)影響廣西時(shí)預(yù)測(cè)值為4個(gè),2013 年臺(tái)風(fēng)達(dá)到9 個(gè)時(shí)預(yù)測(cè)值也為4 個(gè),相對(duì)誤差為55.56%,平均絕對(duì)誤差為1.56,較嶺回歸減少0.56;5 a 獨(dú)立樣本預(yù)測(cè)結(jié)果見(jiàn)表4,預(yù)測(cè)平均值為4.08,總體上較實(shí)況值偏小,預(yù)測(cè)平均絕對(duì)誤差為0.72,平均相對(duì)誤差為16.55%,較嶺回歸方法分別減少了0.31 和7.47%,較使用24 個(gè)因子預(yù)測(cè)的平均絕對(duì)誤差減少0.11,平均相對(duì)誤差減少0.73%。

表4 2016—2020年臺(tái)風(fēng)頻數(shù)SVR模型預(yù)報(bào)結(jié)果Tab.4 SVR model forecast results of typhoon number in 2016—2020

圖4 SVR模型訓(xùn)練擬合預(yù)報(bào)和實(shí)況序列Fig.4 SVR model training to fit forecasts and observations
使用RF 方法建模預(yù)報(bào),設(shè)置n_estimators=50,n_jobs=-1,random_state=10。當(dāng)預(yù)測(cè)因子為24 個(gè)時(shí),5 a 獨(dú)立樣本預(yù)測(cè)結(jié)果見(jiàn)表5,平均絕對(duì)誤差為0.75,平均相對(duì)誤差為16.78%。利用二次篩選得到的3個(gè)預(yù)報(bào)因子,5 a獨(dú)立樣本預(yù)測(cè)值平均為3.65,總體上比實(shí)況值略偏小,預(yù)測(cè)平均絕對(duì)誤差為0.68,平均相對(duì)誤差為14.58%,分別比嶺回歸方法減少了0.35 和9.44%,比初次選取的因子預(yù)測(cè)平均絕對(duì)誤差減少0.07,平均相對(duì)誤差減少2.2%;RF 方法訓(xùn)練的擬合曲線和實(shí)況序列見(jiàn)圖5,預(yù)測(cè)值和實(shí)況值基本吻合,尤其是對(duì)極端年份的預(yù)測(cè)能力較SVR 模型和RR模型有較大提高,如2013年臺(tái)風(fēng)為9個(gè),RF方法預(yù)測(cè)值為8個(gè),非常接近;擬合預(yù)測(cè)平均絕對(duì)誤差為0.64,較嶺回歸減少1.48。

表5 2016—2020年臺(tái)風(fēng)頻數(shù)RF模型預(yù)報(bào)結(jié)果Tab.5 RF model forecast results of typhoon number in 2016—2020

表6 2016—2020年臺(tái)風(fēng)頻數(shù)GRU模型預(yù)報(bào)結(jié)果Tab.6 GRU model forecast results of typhoon number in 2016—2020

圖5 RF模型訓(xùn)練集擬合預(yù)報(bào)和實(shí)況序列Fig.5 RF model training to fit forecasts and observations
本模型基于tensorflow 搭建,樣本集數(shù)量較少,只包括一個(gè)隱藏層,內(nèi)含20 個(gè)神經(jīng)元,算法優(yōu)化器選用rmsprop,使用均方誤差進(jìn)行誤差衡量。由于特征因子之間的數(shù)值差異很小,這里不對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,而使用層處理函數(shù)進(jìn)行迭代,初次迭代2 000次,步長(zhǎng)為5,在迭代次數(shù)達(dá)到1 000次左右時(shí)擬合基本趨于平穩(wěn),因此二次實(shí)驗(yàn)?zāi)P偷? 200次。當(dāng)預(yù)測(cè)因子為24 個(gè)時(shí),得到5 a 獨(dú)立樣本的預(yù)報(bào)平均絕對(duì)誤差為0.98,平均相對(duì)誤差為19.93%。當(dāng)預(yù)測(cè)因子為3 個(gè)時(shí),5 a 獨(dú)立樣本預(yù)測(cè)值平均為4.06,預(yù)測(cè)平均絕對(duì)誤差為0.59,平均相對(duì)誤差為13.72%,分別較嶺回歸減少了0.44和10.30%,較使用初選因子預(yù)報(bào)結(jié)果的平均絕對(duì)誤差減少0.39,平均相對(duì)誤差減少6.21%;GRU 方法訓(xùn)練集的擬合曲線和實(shí)況序列見(jiàn)圖6,擬合曲線和實(shí)況基本吻合,對(duì)極端年份的預(yù)測(cè)結(jié)果接近實(shí)況。

圖6 GRU模型訓(xùn)練集擬合預(yù)報(bào)和實(shí)況序列Fig.6 GRU model training to fit forecasts and observations
本文計(jì)算了臺(tái)風(fēng)頻數(shù)與88項(xiàng)環(huán)流特征量、26項(xiàng)海溫指數(shù)的相關(guān)系數(shù),初次篩選出24 個(gè)高相關(guān)因子,再利用隨機(jī)森林方法進(jìn)行二次篩選得到3 個(gè)預(yù)報(bào)因子并建立基于3 種機(jī)器學(xué)習(xí)算法的預(yù)報(bào)模型,對(duì)訓(xùn)練樣本集進(jìn)行多次迭代計(jì)算,不斷優(yōu)化模型參數(shù),對(duì)2016—2020年臺(tái)風(fēng)個(gè)數(shù)進(jìn)行預(yù)測(cè)實(shí)驗(yàn)。嶺回歸方法、支持向量回歸方法、隨機(jī)森林方法和循環(huán)門(mén)單元方法的預(yù)測(cè)結(jié)果較使用初選因子平均相對(duì)誤差分別減少14.11%、0.73%、2.2%、6.21%,可見(jiàn)利用隨機(jī)森林方法對(duì)預(yù)測(cè)因子進(jìn)行二次篩選是有效的,能充分發(fā)揮多信息融合的優(yōu)勢(shì),在線性擬合的過(guò)程中能進(jìn)一步提高數(shù)據(jù)的適應(yīng)能力。由此,使用隨機(jī)森林二次篩選因子建立模型,機(jī)器學(xué)習(xí)預(yù)報(bào)方法比嶺回歸方法的平均相對(duì)誤差都有減少,其中循環(huán)門(mén)單元方法、隨機(jī)森林方法、支持向量回歸方法的平均相對(duì)誤差分別減少10.30%,9.44%,7.47%,由此可知,機(jī)器學(xué)習(xí)方法在處理高維數(shù)據(jù)下的非線性問(wèn)題上具有較大優(yōu)勢(shì)。在未來(lái)的工作中,我們還要考慮增加其他影響臺(tái)風(fēng)形成的因子,在模型分析中選擇更多的預(yù)測(cè)因子,進(jìn)一步優(yōu)化模型參數(shù),提高預(yù)測(cè)的精度和計(jì)算效率。