池 欽
基于隨機森林的降雨預報季節性分析
池 欽
(安徽理工大學空間信息與測繪工程學院,安徽 淮南 232001)
全球導航衛星系統(Global Navigation Satellite Systems,GNSS)能夠以高精度和高時間分辨率有效地反演大氣可降水量(precipitable water vapor,PWV)。GNSS衍生的PWV可用于反映強對流天氣過程中的水汽變化。通過研究PWV、氣象參數與降雨的相關系可以幫助研究人員利用隨機森林模型進行降雨預報。但缺少測站位置的氣象參數限制了PWV的進一步應用。因此,文章利用GPT3模型得到經驗氣象參數幫助GNSS反演PWV,并利用wuh2測站建立隨機森林降雨預報模型,研究季節性對預報效果的影響。結果表明,在7月—9月的預報效果是最好的,達到了93%以上,1月—3月的效果是最差的,但也在75%以上。在今后的研究中,可以針對不同季度改變建模策略,來提高預報的精度。
GPT3;隨機森林;PWV;短臨降雨;季節性
GNSS信號在穿過對流層時會發生延遲和彎曲,這個誤差在天頂方向被定義為天頂對流層延遲(Zenith tropospheric delay,ZTD)。利用GNSS獲取ZTD反演PWV具有高精度和低成本等優勢,能廣泛應用于氣象研究。但缺少測站位置的氣象參數時,工作人員很難獲得高精度的PWV,因此本文利用最新的GPT3模型得到測站位置的氣象參數,反演計算測站上空的PWV。
已經有眾多學者對PWV的降雨預報性能進行研究。施闖等[1]研究了中國中南半島區域的大氣水汽在地理位置、季節性上的周期特征以及大氣水汽含量同降雨的相關性;王勇等[2]利用小波變換的方法,對重構后的PWV和氣象參數數據分析相關性;李黎等[3]進一步利用小波變換方法對PWV分解后的數據同暴雨信息聯系分析,探究暴雨發生時的異常點;Wang H、Shou K J、Li G等[4-6]研究實驗結果表明基于機器學習和深度學習的降雨預報模型比傳統的統計方法更能發掘數據的潛在聯系,從而準確預測出降雨情況。因此本文研究當地氣象站獲取的氣象參數、PWV與降雨的相關性并利用隨機森林模型研究季節性對預報效果的影響。
Landskron和bohm提出的GPT3(Development of Global Pressure and T emperature)模型是GPT系列的最新版本。GPT3模型可以輸出壓力、溫度、溫度遞減率、大氣加權平均溫度、水氣壓、干濕延遲映射函數系數、水汽遞減率、大地水準面波動、干濕延遲東北梯度等一系列共計13個參數,這一組氣象量包含平均值、年和半年振幅,可應用于一系列的大地測量、氣象和氣候等方面。這些氣象參數分局ERA-Interim區域的月平均氣壓水平數據計算,并以全球分辨率為1°×1°格網數據導出。通過GPT3模型的公式計算大氣壓力(Atmospheric pressure,P)和大氣加權平均溫度(Weighted average temperature of the atmosphere,Tm):

ZTD由天頂靜力延遲(Zenith hydrostatic delay,簡稱ZHD)和天頂濕延遲(Zenith wet delay,ZWD):

Saastamoinent模型已被廣泛用于ZHD的計算,公式如下:


ZWD是大氣中的水蒸氣在非靜態平衡狀態下引起的。一般采用經驗模型和GNSS站的氣象參數獲得ZHD,然后從ZTD中推導ZHD,得到ZWD。

ZWD和PWV之間的線性關系可以表示為:

隨機森林模型是一個集成模型,通過使用訓練樣本子集來生成多組決策樹聯合進行預測。每個決策樹都是獨立生成的,沒有任何剪枝,每個節點使用用戶定義的特征數量進行分割,隨機選擇。
通過將決策樹數量增長到訓練模型定義的一個量,使該模型具有高方差和低偏差的樹的效果。最終通過對所有生成樹計算出的類別分配概率利用算數平均值來進行分類決策。當我們輸入一個新的沒有標簽的數據后,將根據集合中創建的所有決策樹進行評估,并且每個樹投票選擇一個類成員。得票最多的分類將是最終被選中的分類,隨機森林概念圖如圖1所示。

圖1 隨機森林概念圖
這些數據來源于IGS提供的提供的GNSS數據和對流層延遲產品和rp5.ru網站提供的氣象數據。收集wuh2站一年的觀測數據和對流層延遲產品和來自武漢57494氣象站一年的氣象數據。收集到的GNSS數據和氣象數據的特征變量是:以毫米為單位的對流層延遲(ZTD);以毫米為單位的每三小時降雨量;以兆帕為單位的氣壓(P);以華氏度為單位的溫度(T);以華氏度為單位的露點溫度(DPT);以百分比為單位的相對濕度(RH)。通過轉換公式計算的數據是以毫米為單位的大氣可降水量(PWV)。
特征向量之間的單位并不統一,為了更加直觀的展示特征向量之間的關系,首先使用z-score標準化的方法,將數據通過處理規劃均值為0,標準差為1的大小。計算公式如式(6)所示:

圖2展示了數值特征之間的關系。氣溫和露點溫度、對流層延遲和大氣可降水量是兩組具有明顯線性正相關性的特征,相關性達到了0.9以上。露點溫度和氣壓是具有明顯線性負相關性的特征,相關性達到了-0.9。溫度、露點溫度和對流層延遲、大氣可降水量這四組數據具有一定程度的正相關性,達到了0.6以上。氣壓和對流層延遲、溫度、大氣可降水量這三組數據具有一定程度的負相關性,達到了-0.6以下。其他數據組之間表現出了弱相關性,因此通過分析多特征向量的非線性關系達到降雨預報的目的是有必要的。

圖2 PWV與氣象參數相關性分析
GNSS測站一般不設專用氣象測量裝置,自身采集的氣象數據精度不高,也會遇到缺少數據的情況,而氣象站57494距離GNSS測站40 km左右,利用氣象站的采集數據應用到GNSS測站的PWV計算當中誤差較大,因此計劃采用GPT3模型計算測站位置的Tm和P。首先利用GAMIT處理GNSS數據得到ZTD,通過Saastamoinent模型計算ZHD,經過式(4)得到ZWD,最后經過式(5)得到測站上空的PWV,公式中用到的Tm和P來自GPT3模型的計算結果。
根據季節性特點將時間劃分為四組,分別對應1月—3月、4月—6月、7月—9月和10月—12月,將每組的前兩個月作為訓練集,探究降雨預報模型的在季節性方面的影響。將PWV和氣象站獲取的氣象參數組合特征向量(ZTD、P、T、DPT、RH、PWV和降水)輸入隨機森林模型,確定隨機森林模型的分類標準為Gini系數,通過網格搜索和交叉驗證方法對隨機森林模型的最大特征數、決策樹最大深度、內部節點再劃分最小樣本數、葉子結點最少樣本數和最大迭代次數五個參數進行調優。通過對每組前兩個月的訓練,將3月、6月、9月和12月作為測試集進行未來3小時的降雨預報測試。
準確率(Accuracy)、精確率(Precision)和假負率(False Negative Rate,簡稱FNR)是衡量分類器性能的指標,分別表示分類器的整體準確率、成功預報降雨的正確率和沒有成功預報降雨的錯誤率。
圖3和表1展示了wuh2站四個季節性分組的降雨預報結果??梢詮膱D中清晰地看到在準確性方面四個分組是逐級遞增的,10月—12月的整體預報性能是最好的,達到了96.7%;精確性方面,4月—6月和7月—9月兩組都達到了90%以上,其中7月—9月這組是最高的,達到了93.27%,其次是10月—12月這組也預報到了84.62%的降雨情況;假負率方面,7月—9月這組是最低的,達到了6.73%,證明這段時間內的降雨被誤報的情況很少,10月—12月和4月—6月這兩組的假負率在這之后,分別達到了15.38%和24.04%。
接著利用ROC(receiver operating characteristic)曲線和PR(Precision Recall)曲線對四個分組的結果進行評估,AUC(Area Under Curve)和AP(Average precision)值表示曲線與坐標圍成的面積,值越大說明分類器的效果越好。
圖4、圖5展示了wuh2站的ROC曲線和PR曲線結果。可以看到7月—9月的曲線ROC曲線和PR曲線是最凸的,預報效果是最好的,AUC值和AP值分別是0.95656和0.93852;4月—6月的預報效果排在第二位,AUC值和AP值分別是0.95441和0.92221,與7月—9月的預報效果幾乎相近。10月—12月雖然有比1月—3月更好的ROC曲線,更高的AUC值,但是PR曲線很不穩定,變化幅度較大,AP值也比1月—3月更低。

圖3 隨機森林模型的季節性效果

圖4 四個季度的ROC和AUC曲線

圖5 四個季度的PR和AP曲線
本文首先針對GNSS站氣象數據缺失的問題,利用GPT3模型獲取相關的P和Tm,以此得到測站上空的PWV,從而與當地氣象站獲取的氣象數據結合,在分析多特征向量之間的相關性后,利用隨機森林模型構建降雨預報模型,分析季節性對預報效果的影響。
在整體上隨機森林模型能很好地對3小時后的降雨情況進行預報,能正確預報出未來3小時80%以上降雨情況,誤報率也在40%以下。通過綜合準確率、精確率、假負率、ROC曲線和PR曲線的結果,可以看到隨機森林模型在第三季度(7月—9月)的效果是最好的,能達到93%左右的準確率,誤報率是最低的6.73%,其次是第二季度(4月—6月),第四季度(10月—12月)的效果排在第三位,最差的效果是第一季度(1月—3月)。
分析可能導致的原因:(1)在第二季度和第三季度所對應的季節是夏季和秋季,是季風活躍的時間,容易發生降雨,使訓練模型有充足的樣本進行分析,有更好的性能,而第一季度和第四季度發生降雨的情況少,樣本數相對比較少;(2)活躍的季風帶來的影響是相關性較強的水汽信息,強對流產生的降雨使其與對流層延遲相關性在第二季度和第三季度相對較高,訓練后的隨機森林模型具有對PWV和ZTD的敏感性,使預報更加準確。
[1] 施闖,張衛星,曹云昌,等. 基于北斗/GNSS 的中國-中南半島地區大氣水汽氣候特征及同降水的相關分析[J]. 測繪學報,2020,49(9): 1112-1119.
[2] 王勇,劉備,劉嚴萍,等. 基于小波變換的GPS水汽與氣象要素相關性分析[J]. 大地測量與地球動力學,2017,37(7): 721-725.
[3] 李黎,宋越,周嘉陵. 利用小波變換對暴雨過程中GNSS氣象要素的初步探索[J]. 大地測量與地球動力學,2020,40(3): 225-230.
[4] Wang H, Asefa T, Sarkar A. A novel non-homogeneous hidden Markov model for simulating and predicting monthly rainfall[J]. Theoretical and Applied Climatology, 2021, 143(1): 627-638.
[5] Shou K J, Lin J F. Evaluation of the extreme rainfall predictions and their impact on landslide susceptibility in a sub-catchment scale[J]. Engineering Geology, 2020, 265: 105434.
[6] Li G, Chang W, Yang H. A novel combined prediction model for monthly mean precipitation with error correction strategy[J]. IEEE Access, 2020, 8: 141432-141445.
Seasonal Analysis of Rainfall Forecast Based on Random Forest
Global Navigation Satellite Systems (GNSS) can effectively retrieve the precise water vapor (PWV) with high accuracy and high time resolution. The PWV derived from GNSS can be used to reflect the changes of water vapor in the process of severe convective weather. By studying the correlation between PWV, meteorological parameters and rainfall, we can help us to use the random forest model to forecast rainfall. However, the lack of meteorological parameters at the station location limits the further application of PWV. Therefore, this paper uses the empirical meteorological parameters obtained by GPT3 model to help GNSS retrieve PWV, and uses wuh2 station to establish a random forest rainfall prediction model to study the influence of seasonality on the prediction effect. The results show that the forecast effect from July to September is the best, reaching more than 93%, and the forecast effect from January to March is the worst, but also more than 75%. In the future research, the modeling strategy can be changed according to different seasons to improve the accuracy of prediction.
GPT3; random forest; PWV; short term and imminent rainfall; seasonal
P426
A
1008-1151(2022)10-0017-04
2022-06-16
池欽(1998-),男,浙江瑞安人,安徽理工大學空間信息與測繪工程學院在讀碩士研究生,研究方向為GNSS水汽反演。