張啟凡 王永忠 馬俊逸
(1.中國商飛民用飛機試飛中心 上海 201323)(2.中國民用航空飛行學院 廣漢 618300)
對流天氣是我國夏秋兩季多發的天氣現象,短期的強對流天氣受到地理條件等多種因素的影響,在預報上有很大的難度,且易產生各類氣象災害[1]。針對降水量預測問題,研究人員提出了多種的預測方法。傳統降水量預測大多采用數值預報方法[2],張祥[3]等提出的加權型馬爾科夫模型,屈文崗[4]等基于滑動平均馬爾可夫預測模型。李文輝[5]等提出時間序列均生函數模型。陳程[6]提出了一種結合卷積神經網絡和GRU得到了Conv GRU模型。Qing-hua Miao等[7]結合卷積和長時記憶神經網絡改進季風降水預測。
諸多研究中鮮有用影響降水的氣象指數或因子對短時降水量進行數值預測。本文從物理量參數回歸分析的思想出發,選取并計算了影響降水的物理參數。綜合這些物理量參數利用多元線性回歸模型和擬合效果較好的BP神經網絡、RBF神經網絡模型對短時降水量進行預測并對得到的仿真結果進行誤差分析,從而選取最優的預測模型。
降水數據選用北京懷柔區2007年1月1日至2017年12月31日的地面逐日降水資料。基礎物理量參數由美國國家環境預報中心(NCEP/NCAR)每天四次更新的(2.5°×2.5)再分析數據下載得到nc數據文件,本文使用Matlab中相關函數對其進行讀取。在對nc文件中var數據進行讀取之前需要將該地區的經緯度坐標做格點化處理方可進行讀取從而獲取研究所需的基本物理變量。經同化處理前的降水數據如表1所示,格點坐標數據如表2所示。篩選2007~2017年間共計180組數據編入訓練集。

表1 降水樣本示例(地球坐標)

表2 降水樣本示例(格點坐標)
多元回歸模型有三個主要特征:線性、方差齊性、殘差為正態分布[8]。在實際預測問題中通常很難判定一個變量是相關的,理想的模型需要盡可能低的殘差,又需要有盡可能少的變量。故在選擇變量時將盡可能減少待估計回歸系數的數量并參考因變量之間和因變量與自變量的物理關系。
結合降水產生過程的物理量方程,綜合考慮強降水產生的三個必要條件,充沛的水汽,大氣的動力和大氣穩定度。選擇q、RH、|FH|、FZ、?p·六項物理量參數建立模型。
上述指數的相關計算公式如下:

通過Matlab編程讀取格點坐標信息下的nc數據集中的變量參數并計算上述指數,整理為模型的輸入數據集共180組,隨機選取30組作為測試集。
依據上述參數及數據建立多元回歸模型并進行預測以及檢驗分析,所得結果如表3所示。

表3 多重判定系數
R、R2,調整R2反映線性回歸方程擬合度,取值范圍為0至1,越接近1擬合度越好。
由F檢驗的結果,sig=0.000<0.05表明支持原假設,也就是線性回歸方程顯著。
由t檢驗的系數得到回歸方程:

在得到回歸方程之后還需要考慮這些數據是否適合做回歸即它們之間是否存在線性關系。
圖1中橫坐標為降水量的標準化預測值,縱軸代表實際降水量。圖中的數據點為使用線性回歸模型進行預測得到的降水值。理想情況時,預測點均勻分布在圖中黑色直線兩端,所以可以看出該模型的精度不夠理想,由于數據中包含降水量為0的情況,所以選用MAE,MSE,RMSE對誤差做出評價。

圖1 線性回歸模型預測


表4 預測效果評價
上述指標顯示多元線性回歸的預測結果誤差很大,因此降水量與六項物理量之間無明顯線性關系。
BP是一種為減小誤差使網絡的誤差平方和最小[9]而通過梯度下降的學習方式反向傳播來不斷調整網絡的權值和閾值從而達到目標參數的多隱含層層前饋網絡[10]。
RBF神經網絡是兩層前饋網絡,其隱藏層不是傳統的神經網絡層,隱層的功能是將輸入向量的非線性可分離集轉換為線性可分離集[11]。隱藏層的每一個神經元需計算輸入數據到代表神經元聚類中心的距離,找到RBF作為激勵函數的輸入與聚類中心的距離r。第二層是一個簡單的前饋層,網絡輸出由隱含層的輸出結果經感知神經元或ADALINE線性加權輸出[12]。最常用的徑向基函數是高斯核函數,形式為

其中xc為核函數中心,σ為函數的寬度參數,控制了函數的徑向作用范圍。
xk為第k個輸入樣本,cj為第j個中心點,m為隱含層的結點數,n是輸出的樣本數[14]。可得到網絡的輸出為

4.3.1 模型參數設置
BP神經網絡在預測時為3層網絡,其中輸入層節點個數為自變量個數,隱含層節點數為9,隱含層函數tansig[13],輸出層函數purelin[14~15],學習率設置為0.001,gaol為0.0001,最大迭代次數1000次。RBF神經網絡在預測時隱含層節點數為30,隱含層為Gaussian核函數。
4.3.2 預測結果及評價
將6項物理量作為自BP,RBF經神經網絡進行仿真預測,得到結果如圖2~圖3。

圖2 BP神經網絡仿真結果

圖3 RBF神經網絡仿真結果
BP和RBF神經網絡的擬合優度都超過了90%,RBF的擬合優度高達99.8%絕對誤差較小。采用MAE,MAPE,MSE,運行時間指標對兩者進行評價對比,如表5所示。

表5 仿真效果評價
從各項評價指標來看,RBF神經網絡的誤差明顯小于BP神經網絡,由于RBF局部逼近可以簡化計算量所以其運行時間也較短,是理想降水量的預測模型。
4.3.3 最優模型的確定
為進一步驗證將6項物理量作為輸入的RBF神經網絡模型是否為最優模型,本文利用6項物理量建立自變量隨機選取的21個RBF神經網絡仿真模型,運行得到的結果如圖4~圖8所示。

圖4 21個模型的R2對比

圖5 21個模型MAE對比

圖6 21個模型MSE對比

圖7 21個模型RMSE對比

圖8 21個模型運行時間對比
由上圖可以看出隨物理量參數的增加R2遞增,MAE、MSE、RMSE誤差減小,運行時間t的趨勢不明顯。
選取擬合度大于95%的模型做進一步比對得到表6。

表6 R2大于95%的模型預測效果評價
模型6的所有指標均優于模型5和模型11,驗證了將6項物理量作為自變量的RBF神經網絡模型為最優模型,缺少任一變量都會導致信息的不完整性和準確度的缺失。同時也驗證了4.2節中自變量選取的合理性和準確性。
本文在理論和數據表現上對短時降水進行分析,分析了發生降水的三個物理條件及其對應的物理量。使用多元線性回歸進行回歸預測,發現其預測效果較差,物理量與降水量之間不存在明顯的線性關系。使用非線性模型前饋神經網絡BP,RBF進行預測,RBF表現出較高的準確性。最終,為選取最優模型建立了自變量隨機選取的21個RBF模型并比較其預測結果,得到最優模型。本文提出的基于物理量選擇和神經網絡學習的短時降水量預測模型對短時降水量的預測在R2、MAE、MSE、RMSE、運行時間上都具有最優的預測精度。同時,短時降水量預測的復雜性還可以繼續深入的研究,且本文的模型中BP和RBF的隱含層數設置為單層,可以考慮設置多層進行仿真或采用優化算法對模型進一步優化,以此降低模型的預測誤差。