韓瑩 管健 曹允重 羅嘉



摘要基于長短時記憶網絡(Long Short-Term Memory,LSTM)降水量預測模型存在過擬合、時滯現象,而寬度學習系統(Broad Learning System,BLS) 無需多次迭代的特點有助于解決LSTM的上述缺點.加權寬度學習系統(Weighted Broad Learning System,WBLS)通過在BLS中引入加權懲罰因子約束分配樣本權重,降低噪聲和異常值對降水量預測精度的影響.本文提出一種LSTM-WBLS日降水量預測模型,選取湖北省巴東站日降水量進行實證研究,并考慮氣壓、氣溫、濕度、風速和日照等因素對降水量的影響.實驗結果表明,與現有的預測模型相比,LSTM-BLS模型在RMSE、MAE和R2等評價指標上均有顯著提升.不同時間步長下,本文模型預測精度均優于現有模型,驗證了其穩定性.與LSTM相比,WBLS直接計算權重的特點使得LSTM-WBLS的運算效率并未降低.
關鍵詞降水量預測;長短時記憶網絡;寬度學習系統;加權寬度學習系統;多因素預測
中圖分類號
TP183
文獻標志碼
A
收稿日期
2021-10-18
資助項目
南方海洋科學與工程廣東省實驗室(珠海)基金(SML2020SP007);國家自然科學基金(62076136)
作者簡介
韓瑩,女,博士,副教授,研究方向為大數據處理方法及其應用.hanyingcs@163.com
羅嘉(通信作者),女,碩士,研究方向為災害應急建模與分析、氣象數據分析.jeeaaan@qq.com
0 引言
短時強降水會造成暴雨洪澇,繼而引發山洪、泥石流等次生災害,嚴重威脅人們生命財產安全.因此,熟練掌握降水規律、精準預測日降水量,對洪澇災害的研究和控制具有重要指導意義[1].
降水量預測的方法基本分為兩類:基于過程的方法和數據驅動方法.基于過程的降水量預測方法的優點是對降水物理過程解釋清晰,但物理過程的復雜性增加了建模難度,需要給出一系列假設才能夠對模型求解.數據驅動的方法是經驗型的,不需要對降水物理過程進行分析,只根據降水量的歷史數據進行預測,模型簡單易操作.
統計方法和機器學習是目前最常見的數據驅動的降水量預測方法.統計方法方面,近年來最為流行的是基于差分自回歸移動平均(AutoRegressive Integrated Moving Average,ARIMA)模型的預測方法[2-3].研究表明,當降水量時間序列是線性或接近線性時,統計模型能產生令人滿意的預測結果,但當時間序列呈現非線性時,其預測結果往往差強人意.有鑒于此,適合復雜非線性過程建模的機器學習方法廣泛應用于降水預測中.Hartigan等[4]使用隨機森林(Random Forest,RF)和支持向量回歸(Support Vector Regression,SVR)對悉尼流域內降水和氣溫進行預測;Xiang等[5]利用決策樹和FR的雙系統協同影響模型對重慶市34個氣象觀測站的數據進行預測;Peng等[6]基于極限學習機和基因表達式構建了日降水量預測混合模型;勾志竟等[7]結合遺傳算法和BP神經網絡的優勢研究了天津市日降水等級的預測方法;Rostam等[8]采用多種優化算法對多層感知器算法進行優化,以探索伊朗首都大尺度氣候指數與降水之間的任何有意義的聯系.
然而,傳統機器學習方法無法捕獲輸入序列的長期記憶[9],從而影響預測精度.長短時記憶網絡(Long Short-Term Memory,LSTM)克服了上述缺點.王子岳等[10]采用句子狀態LSTM模型對說話人意圖進行識別;王朋等[11]基于小波長短期記憶網絡對風電功率超短期概率進行預測;羅嘉等[12]等融合LSTM與BLS對突發氣象災害事件中公眾情感傾向分析.在降水預測方面:Nguyen等[13]利用LSTM改進基于雷達的降雨預報;沈皓俊等[14]利用LSTM研究了中國夏季降水情況;Ni等[15]給出了兩類改進的LSTM模型 (WD-LSTM和CNN-LSTM),并分別探討了其在徑流和降雨預測的應用;Kang等[16]選定多輸入變量的LSTM模型對江西景德鎮日降水量進行預測.
雖然基于LSTM的降水預測模型已經顯示出強大的優勢,但現有模型都未解決在預測中存在時滯的問題.這主要是由于LSTM訓練中需要循環調整權重造成的.注意到新提出的寬度學習系統(Broad Learning System,BLS)具有直接計算權重,運算簡單、快捷的優點,可以用來改進LSTM.但是噪聲和異常值對模型會產生不良影響,所以將加權懲罰因子應用于BLS,提出了加權寬度學習系統(Weighted Broad Learning System,WBLS).通過自動為每個樣本分配適當的權重,給高可靠性的樣本更高的權重,而可疑的異常值獲得較低的權重.因此,減少了異常樣本對建模的影響.結合兩種算法的優勢,本文提出LSTM-WBLS日降水量預測模型.
為了有效地驗證新模型,本文選取湖北省巴東站進行日降水量預測的實證研究.在預測精度上,與現有降水預測模型相比較,本文模型在均方根誤差(RMSE)、平均絕對誤差(MAE)和決定系數(R2)三個評價指標上均表現最佳.在穩定性上,通過分析時間步長分別為1、3和5 d對各模型預測精度的影響,證明了雖然所有模型的預測精度會隨著時間步長增加而降低,但在不同的時間步長下,本文模型在RMSE、MAE和R2三個評價指標方面仍然表現最佳.在運算效率上,因為WBLS計算方便、快捷的特點,加入了WBLS的LSTM-WBLS模型與LSTM模型相比,運算效率并未下降.
2 實例分析
2.1 研究地區以及數據集描述
巴東縣,隸屬湖北省恩施土家族苗族自治州,位于湖北省西南部,屬于亞熱帶季風氣候,溫暖多雨,濕熱多霧,四季分明.最熱月平均氣溫一般高于22 ℃,最冷月氣溫在0~15 ℃之間;年降水量多在800~1 600 mm.巴東天氣的非周期性變化和降水季節變化都很顯著,所以對其日降水預測比較困難.
本文數據在國家氣象中心網站獲取.數據的范圍為2000—2020年巴東地區氣象觀測站實測降水量觀測數據.將共7 671 d的數據以7∶2∶1的比例設為訓練集、驗證集和測試集,測試集為最近幾年的降水量數據.
2.2 參數設置與評價指標
將日降水量映射為S×τ×D個張量數據作為模型的輸入.其中,S為樣本數量(samples),τ為時間步長(time steps),D為特征個數(features),本文模型為氣壓、氣溫、濕度、風速、日照以及降水量六個維度的輸入和降水量一個維度的輸出.所以D為6.
采用Dropout退出部分神經元來防止過擬合,確定隨機丟棄比例P值.再通過全連接層,將其輸出作為WBLS層的映射特征,與輸入X一起構成隱藏層H,最后算出輸出權重W.N 1為每個映射特征節點個數,N 2為映射特征個數,C為L 2正則化參數.本文利用驗證集對本文模型的超參數進行實驗,取值為多次實驗后選取的最優值.本文所用的參數如表1所示.
選取RMSE、MAE和R2對算法的精確度進行評估.RMSE對預測值誤差十分敏感,能夠體現預測的精準度.MAE可以避免誤差相互抵消的問題,可以準確反映實際預測誤差.R2常用于判斷回歸方程的擬合程度,數值在0到1之間,越大表示模型的預測性能越好.
E RMSE=1n∑ni=1((i)-y(i))2,(15)
E MAE=∑ni=1|((i)-y(i))|,? (16)
R2=1-∑ni=1((i)-y(i))2∑ni=1((i)-y(i))2,? (17)
其中,y i表示真實月降水量,表示預測月降水量,表示平均月降水量.
2.3 與現有模型對比分析
將現有模型與本文模型進行對比分析,以預測長度1 d為例,對比結果如表2所示.本文模型與現有的SVM[4]、EEMD-ARIMA[3]、LSTM[13]、CNN-LSTM[15]和LSTM-BLS模型相比:RMSE值分別減少了50.20%、47.58%、37.00%、34.80%和17.54%;MAE值分別減少了55.29%、53.19%、49.20%、48.00%和22.72%;R2值分別增加了0.209、0.189、0.078、0.058和0.015.顯然,本文模型表現在三個指標上都是最優的,證明了本文模型的有效性和準確性.
為進一步驗證本文模型有效性,對LSTM系列相關模型預測進行可視化.將測試集的降水序列和各個模型的預測值進行擬合,對比可視化如圖4所示.為了方便作圖,其中第1天對應2018年11月26日的降水真實值與預測值,一直到2020年12月31日共767 d.
從圖4可以看出,在降水量突變的日期本文模型的預測結果要明顯優于現有的所有模型.注意到,現有的基于LSTM模型(圖4a、4b)在預測上都不可避免地存在滯后性,因此無法精準預測.圖4c因加入BLS基本解決了滯后性問題,但是噪聲和異常值對預測的不良影響依然存在.本文模型在圖4c基礎上加入了加權懲罰因子,預測結果最優(圖4d).
2.4 與單因素模型對比
為進一步驗證本文模型的有效性,與單因素降水量輸入的模型進行對比,結果如表3所示.可以看出多因素輸入的預測要遠遠高于單因素輸入模型.原因是數據中零值過多,單輸入模型無法準確預測.部分數據集如表4所示.綜合考慮各種氣象因素的影響,本文模型可以準確地對降水量進行預測.
2.5 穩定性分析
不改變模型中的參數,將預測長度分別設置為3 d和5 d,對日降水量進行預測,結果如表5所示.結合預測長度為1 d的預測結果,可以看出隨著預測長度的增加,所有預測模型的預測精度都有所下降.但是,LSTM-WBLS模型在不同預測長度下,預測精? 度依然優于其他模型.這一結果驗證了本文模型的穩定性.
2.6 運算效率分析
運算效率也是算法的主要評價指標.在保證LSTM-WBLS與LSTM訓練都達到最優結果的情況下,運算效率對比如表6所示.由表6可以看出,LSTM-WBLS訓練時間只比LSTM長2 s左右,效率未明顯下降.其原因是WBLS不需大量運算、直接計算權重的特點使得LSTM-WBLS相比LSTM,在運算效率上不會有太大的下降.
3 結論
鑒于現有日降水預測模型的缺點,本文提出一種LSTM-WBLS日降水預測模型.通過實證研究,本文模型借助WBLS不用大量訓練、直接通過偽逆計算權重的特點解決了LSTM預測中存在的滯后問題,且運算效率沒有下降.通過自動為每個樣本分配適當的權重,給高可靠性的樣本更高的權重,而可疑的異常值獲得較低的權重,減少了異常樣本的影響,提高了預測精度與穩定性.本文探討了在降水量預測中,同時融合深度學習與寬度學習優勢的可能性,為降水量預測研究提供了新的思路.本文模型僅考慮歷史氣象數據和具體日降水數據,以后將加入地理、地貌等特征,進一步提高日降水預測精度.
參考文獻
References
[1] 王海鵬,張斌,劉祖涵,等.基于混沌理論的武漢、宜昌近60年來月降水特征的對比研究[J].自然災害學報,2012,21(6):111-118
WANG Haipeng,ZHANG Bin,LIU Zuhan,et al.Chaos theory-based comparative study on monthly rainfall characteristics in Wuhan and Yichang during recent 60 years[J].Journal of Natural Disasters,2012,21(6):111-118
[2] 張改紅.基于ARIMA模型的渭南市降水量趨勢分析與預測[J].價值工程,2019,38(34):197-199
ZHANG Gaihong.Analysis and prediction of precipitation trend in Weinan city based on ARIMA model[J].Value Engineering,2019,38(34):197-199
[3] 胡盈,吳靜.基于ARIMA模型的降水空間特征分析及預測[J].江西科學,2021,39(1):99-104
HU Ying,WU Jing.Analysis and prediction of precipitation spatial characteristics based on ARIMA model[J].Jiangxi Science,2021,39(1):99-104
[4] Hartigan J,MacNamara S,Leslie L M,et al.Attribution and prediction of precipitation and temperature trends within the Sydney catchment using machine learning[J].Climate,2020,8(10):120
[5] Xiang B,Zeng C F,Dong X N,et al.The application of a decision tree and stochastic forest model in summer precipitation prediction in Chongqing[J].Atmosphere,2020,11(5):508
[6] Peng Y Z,Zhao H S,Zhang H,et al.An extreme learning machine and gene expression programming-based hybrid model for daily precipitation prediction[J].International Journal of Computational Intelligence Systems,2019,12(2):1512-1525
[7] 勾志竟,任建玲,徐梅,等.基于Hadoop的GA-BP算法在降水預測中的應用[J].計算機系統應用,2019,28(9):140-146
GOU Zhijing,REN Jianling,XU Mei,et al.Application of GA-BP algorithm based on Hadoop in precipitation forecast[J].Computer Systems & Applications,2019,28(9):140-146
[8] Rostam M G,Sadatinejad S J,Malekian A.Precipitation forecasting by large-scale climate indices and machine learning techniques[J].Journal of Arid Land,2020,12(5):854-864
[9] Shen C P.A trans-disciplinary review of deep learning research for water resources scientists [J].Water Resources Research,2018,54(11):8558-8593
[10] 王子岳,邵曦.基于S-LSTM模型利用‘槽值門機制的說話人意圖識別[J].南京信息工程大學學報(自然科學版),2019,11(6):751-756
WANG Ziyue,SHAO Xi.Speaker intention recognition based on S-LSTM model and slot-gate[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2019,11(6):751-756
[11] 王朋,孫永輝,翟蘇巍,等.基于小波長短期記憶網絡的風電功率超短期概率預測[J].南京信息工程大學學報(自然科學版),2019,11(4):460-466
WANG Peng,SUN Yonghui,ZHAI Suwei,et al.Ultra-short-term probability prediction of wind power based on wavelet decomposition and long short-term memory network[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2019,11(4):460-466
[12] 羅嘉,王樂豪,涂姍姍,等.基于LSTM-BLS的突發氣象災害事件中公眾情感傾向分析[J].南京信息工程大學學報(自然科學版),2021,13(4):477-483
LUO Jia,WANG Lehao,TU Shanshan,et al.Analysis of public sentiment tendency in sudden meteorological disasters based on LSTM-BLS[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2021,13(4):477-483
[13] Nguyen D H,Kim J B,Bae D H.Improving radar-based rainfall forecasts by long short-term memory network in urban basins[J].Water,2021,13(6):776
[14] 沈皓俊,羅勇,趙宗慈,等.基于LSTM網絡的中國夏季降水預測研究[J].氣候變化研究進展,2020,16(3):263-275
SHEN Haojun,LUO Yong,ZHAO Zongci,et al.Prediction of summer precipitation in China based on LSTM network[J].Climate Change Research,2020,16(3):263-275
[15] Ni L L,Wang D,Singh V P,et al.Streamflow and rainfall forecasting by two long short-term memory-based models[J].Journal of Hydrology,2020,583:124296
[16] Kang J L,Wang H M,Yuan F F,et al.Prediction of precipitation based on recurrent neural networks in Jingdezhen,Jiangxi province,China[J].Atmosphere,2020,11(3):246
[17] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780
[18] Chen C L P,Liu Z L,Feng S.Universal approximation capability of broad learning system and its structural variations[J].IEEE Transactions on Neural Networks and Learning Systems,2019,30(4):1191-1204
[19] Chu F,Liang T,Chen C L P,et al.Weighted broad learning system and its application in nonlinear industrial process modeling[J].IEEE Transactions on Neural Networks and Learning Systems,2020,31(8):3017-3031
Application of improved LSTM-WBLS model in daily precipitation forecast
HAN Ying1 GUAN Jian1 CAO Yunzhong1 LUO Jia2
1School of Automation,Nanjing University of Information Science & Technology,Nanjing 210044
2Hubei Public Meteorological Service Center,Wuhan 430074
Abstract The popular Long Short-Term Memory (LSTM) based precipitation prediction models suffer from overfitting and time lag.Broad Learning System (BLS),which does not require multiple iterations,helps to solve the above disadvantages of LSTM.Weighted Broad Learning System (WBLS) reduces the impact of noise and outliers on precipitation prediction accuracy by introducing a weighted penalty factor constraint to assign sample weights in the BLS.Thus a LSTM-WBLS daily precipitation prediction model is proposed in this paper.The daily precipitation at Badong station in Hubei province is selected for empirical study.And the influence of air pressure,temperature,humidity,wind speed and sunshine on precipitation is considered.The experimental results demonstrate that the LSTM-BLS model has significantly improved the prediction accuracy in the evaluation indexes of RMSE,MAE and R2 compared with existing prediction models.The prediction accuracy of the new model outperforms existing models at different time steps,proving its stability.In particular,the direct calculation of weights by WBLS does not make any reduction in operational efficiency of LSTM-WBLS.
Key words precipitation forecast;long short-term memory (LSTM) network;broad learning system (BLS);weighted broad learning system (WBLS);multi-factor predication