














摘" 要:氣溫與環境要素之間存在非線性關系,針對傳統的預測方法難以捕捉數據的內在特征和時間相關性問題,提出一種基于卷積神經網絡與雙向長短期記憶網絡相結合的氣溫預測模型。基于宿遷四個國家氣象觀測站的逐小時觀測數據,首先通過一維卷積神經網絡提取氣象要素數據的空間特征,然后將這些特征引入雙向長短期記憶網絡中來全面學習并掌握氣象要素的上下文信息,進而對氣溫進行有效預測。實驗結果表明,與其他的預測方法相比,所提模型在空間特征提取和時序特征學習方面表現卓越,且其在氣溫預測的精度上有顯著的優勢。
關鍵詞:深度學習;卷積神經網絡;雙向長短期記憶網絡;氣溫預測;對比分析
中圖分類號:TP18;P457.3 文獻標識碼:A 文章編號:2096-4706(2024)21-0035-07
Temperature Prediction Model Based on Convolutional Neural Networks and Bidirectional Long Short-Term Memory
YE Jian, TANG Huan, YIN Hua, GAO Zhenxiang
(Suqian Meteorological Bureau, Suqian" 223800, China)
Abstract: There is a nonlinear relationship between temperature and environmental factors. Aiming at the problems that traditional prediction methods are difficult to capture the inherent characteristics and temporal correlation of the data, a temperature prediction model based on a combination of Convolutional Neural Networks and Bidirectional Long Short-Term Memory is proposed. Based on hourly observation data from four national meteorological observation stations in Suqian, firstly, the spatial features of meteorological element data are extracted through the One-dimensional Convolutional Neural Networks, followed by these features are introduced into the Bidirectional Long Short-Term Memory to comprehensively learn and master the contextual information of meteorological elements, so as to effectively predict the temperature. The experimental results show that compared with other prediction methods, this proposed model performs excellently in spatial feature extraction and temporal feature learning, and it has significant advantages in the accuracy of temperature prediction.
Keywords: Deep Learning; Convolutional Neural Networks; Bidirectional Long Short-Term Memory; temperature prediction; comparative analysis
0" 引" 言
氣溫狀況是決定天氣變化的重要因素之一,它既是天氣預報的重要項目,也是天氣預報的重要依據,同時也是影響環境變化的關鍵要素。因此,提高氣溫預測的準確率,對于社會發展、人類生活等具有重要意義[1-2]。
目前,氣象部門通常會根據數值天氣預報(Number Weather Prediction, NWP)模型來預測天氣結果[3],但NWP模型會面臨由復雜地形組成的區域的溫度時空變化帶來的挑戰[4]。隨著氣象數據觀測技術的現代化,氣象數據呈現爆炸性增長,傳統的氣象溫度預測技術的性能面臨著新的挑戰,但給基于海量數據的機器學習方法帶來了新的機遇。由于深度學習中的循環神經網絡(Recurrent Neural Network, RNN)及其變形結構長短期記憶網絡(Long Short-Term Memory, LSTM)和門控循環單元(Gated Recurrent Unit, GRU),在處理具有時序特性的數據時具有非常好的效果,如今已廣泛應用于眾多領域[5-11]??紤]到氣象數據也具有時間特性,陶曄等人[12]通過隨機森林(Random Forest, RF)對含有多要素的氣象時間序列數據進行特征選擇,然后利用LSTM進行氣溫預測,取得了不錯的預測效果;楊耘等人[13]采用LSTM學習氣象數據的時間相關性,然后引入反向神經網絡(Back Propagation Neural Network, BP)對氣象要素進行優化,得到了較高的預測精度。同樣,金郁淇等人[14]和花凡等人[15]均利用LSTM對氣溫時序數據進行有效建模和預測;楊迎新等人[16]利用主成分分析(PCA)算法對氣象要素進行降維處理,并用改進的粒子群算法(PSO)優化GRU后對氣溫進行有效預測;趙琳娜等人[17]用全連接神經網絡方法對日最高氣溫進行了有效訂正。這些機器學習方法已經取得了不錯的預測效果,但沒有較好的學習到氣象數據的時序特征,空間特征學習上不夠好,時序數據的上下文信息學習不夠全面,氣溫預測的準確度還有待提高。
針對以上問題,為了更好地利用氣象數據的時空特征,充分發揮卷積神經網絡(Convolutional Neural Networks, CNN)對氣象數據空間特征的自動篩選和提取,以及長短期記憶網絡對氣象序列數據預測的長時間依賴問題的優勢,本研究基于宿遷四個國家氣象觀測站的逐小時觀測數據,提出了一種結合一維卷積神經網絡(One Dimensional Convolutional Neural Networks, 1D-CNN)和雙向長短期記憶網絡(Bi-directional Long Short-Term Memory, BiLSTM)[18]的氣溫預測模型,簡稱為1D-CNN_BiLSTM。首先使用1D-CNN來學習氣象數據中各個影響要素的特征,提取局部空間特征,獲得包含空間信息的特征向量,然后將空間特征引入BiLSTM模型學習氣象數據的時間相關性,并提取正反兩個方向的時間特征,進而對氣溫進行有效預測,并與其他氣溫預測模型作對比分析。
1" 數據與方法
1.1" 研究區域與數據來源
研究區域是江蘇省宿遷市,該市建于1996年,位于江蘇省北部,屬于暖溫帶亞濕潤季風氣候,四季分明。全市總面積為8 555 km2,陸地面積占77.6%,年平均氣溫是14.2 ℃,年平均降水量為910 mm,年平均日照總時間為2 291小時。該區域的4個國家級氣象觀測站分布由圖1中圓點表示,區站名(站號名)分別為宿遷(58131)、泗陽(58132)、沭陽(58038)和泗洪(58135)。
1.2" 數據處理
為了保證該深度學習模型能夠獲得更全面、更準確、更穩定的數據輸入,從而在氣溫預測方面達到更高的準確性和可靠性,本文將2004—2020年宿遷四個國家氣象觀測站的逐小時觀測數據合在一起作為研究對象。先對該實況數據做完整性檢查,直接刪除要素都缺失的時間點數據,用鄰近值對缺失部分要素的時間點數據進行補全,最終共得到581 393個樣本數據。以宿遷站點(區站號為58131)為例,圖2為2004—2020年的氣溫變化情況,從圖中可以看出,該區域的氣溫變化具有明顯的周期特性。
由表1可知,氣象各要素往往具有不同的量綱及量綱單位,這樣會對氣溫預測有很大的影響。為了消除各個要素之間的量綱影響,對氣象各要素數據分別進行歸一化處理:
(1)
其中,min(x)和max(x)分別為氣象各要素中樣本數據的最小值與最大值,為歸一化結果。
由于當前時刻的氣溫會受到以往各要素的影響,因此可以將該時間序列數據轉化為有監督數據。將氣象數據按時間序列進行排序,輸入數據是前T小時內的各要素的觀測值,期望輸出是第T+1時刻的氣溫值。
1.3" 研究方法
氣溫預測的目標是利用氣象自動觀測站搜集的歷史數據對未來某個時間的氣溫進行預測,本研究提出的預測模型如圖3所示。
1.3.1" 一維卷積神經網絡
卷積神經網已經成為眾多科學領域的研究重點,本研究采用的一維卷積神經網絡(1D-CNN)如圖3中所示,主要通過卷積層(含激活層)和池化層構成對氣象數據進行局部趨勢學習以提取氣象數據的局部空間特征。若1D-CNN模型的輸入數據集為x = [x1,x2,…,xN],N為樣本個數,則:
(2)
(3)
(4)
式(2)為卷積操作,其核心是卷積核,作用是對不同維度的原始數據進行稀疏連接,提取特征。本研究使用一維卷積層(Conv1D)對氣象數據進行端到端的特征提取,并減少參數量。l為網絡層數,j為特征圖數,為第l層的第i個數據,為卷積層的輸入,和分別是第l層的卷積核矩陣和偏置項, 為卷積層輸出。
激活層是對數據進行非線性變換,提高模型的擬合性能。再通過激活函數之前,會進行批量標準化(Batch Normalization, BN),盡可能使該層網絡的輸入具有相同分布,避免梯度消失,加快訓練速度。式(3)中的σ為激活函數,為輸入,為輸出,σ一般用ReLU函數:
(5)
由式(5)可知,當數據大于0時,輸出等于輸入;當數據小于0時,神經元的輸出也為0,增加了網絡的稀疏性,減少了參數的相互依賴關系,緩解過擬合問題的發生。
池化層中是采用最大池化(Max Pooling),即對前面輸出過來的數據做一個取最大值的處理。經過池化后,可提取到更為抽象的特征信息,并減少參數量。
1.3.2" 雙向長短期記憶網絡
LSTM是由RNN算法改進而來,RNN可以處理一定時間的短期依賴,但無法處理長期依賴問題,因為會出現梯度消失或梯度爆炸的問題。LSTM在RNN結構的基礎上,引入了t時刻的記憶狀態ct和三個門控單元(輸入門it、遺忘門ft和輸出門ot)來實現對信息傳遞的控制,可以有效處理RNN存在的問題,如圖4所示。
遺忘門ft。它是決定從單元狀態中選擇性的舍棄某些不重要的信息。當輸入信息通過LSTM時,遺忘門會有條件地決定上一時刻狀態有多少保留到當前時刻,即式(6):
(6)
其中,xt為當前t時刻的輸入,ht-1為上一時刻的輸出,bf為偏置項,σ為Sigmoid激活函數,即σ(x)=1/(1+e-x)。
輸入門it。通過遺忘門后,輸入門會條件性地從當前的輸入中選擇有用數據加入單元狀態中,即如公式:
(7)
(8)
(9)
其中,為當前狀態的候選值,將會被加入狀態中,ct和ct-1分別為當前時刻和上一時刻的單元狀態,Wt與Wc分別為輸入門和更新狀態后的權重,bi與bc為對應的偏置項。
輸出門ot。狀態經過更新之后,再通過Sigmoid函數來決定哪部分信息將被輸出,即:
(10)
(11)
雖然LSTM引入了記憶單元,具有長期記憶能力,但是傳統的LSTM只能單向學習,忽略了上下文信息。雙向長短期記憶網絡(BiLSTM)是LSTM的改進算法,具有前向LSTM層和后向LSTM層,分別從時序序列的始端和末端開始運行,充分考慮數據的過去和未來的上下文信息。BiLSTM的網絡結構如圖5所示,計算公式如下:
(12)
(13)
(14)
式中和分別為t時刻的前向隱層狀態與后向隱層狀態,Ht為最終輸出。
由圖2可知,氣溫數據在時間上是一維時序周期序列,當前的氣溫會受到前時刻天氣的影響,同時也會影響到之后的氣溫狀況。因此,將1D-CNN提取的空間特征向量輸入BiLSTM中學習氣溫數據的時間周期特征,充分考慮輸入的上下文信息進行預測會有更好的效果,故本研究提出1D-CNN_BiLSTM模型來預測氣溫,如圖3所示。
2" 實驗及結果分析
2.1" 實驗設置
為了驗證所提模型的有效性,本研究設置2004—2020年各個站點的數據T=24,即前24小時的氣象數據作為輸入,第25小時的氣溫值作為目標輸出,四個站點合到一起共有581 369組樣本,并按8:1:1比例將其隨機分成訓練集、驗證集和測試集。
實驗過程中,將預處理后的訓練集先輸入1D-CNN中,提取氣象要素的空間特征,接著將空間特征輸入BiLSTM中,學習氣象數據的時序特征,最后通過全連接進行氣溫預測。訓練過程中,通過人工調參試驗最優參數,并用驗證集對模型進行有效驗證,最終確定最優模型參數為:在1D-CNN的空間特征提取階段,輸入數據通過具有32個濾波器、卷積核大小為4的一維卷積,采用“same”填充方式和ReLU激活函數,并使用最大池化(大小為2);在BiLSTM的時序特征處理階段,通過具有32個節點的BiLSTM,并在最后的全連接層之前,經過50%的Dropout層來防止過擬合;在網絡的訓練過程中,設置批量大小為256個樣本,訓練周期為500,并使用學習率為1×10-4的Adam算法進行學習優化。保存訓練過程中的最優模型,并通過測試集進行測試與評估。
2.2" 評估指標
為評估所提氣溫預測模型的性能,選取均方根誤差(Root Mean Square Error, RMSE)和平均絕對誤差(Mean Absolute Error, MAE)作為評價指標,計算公式如下:
(15)
(16)
其中,N為樣本個數,和yi分別為氣溫的預測值和真實值。當RMSE和MAE的值越小時,表明氣溫預測值與真實值之間的誤差越小,模型的預測效果越好。
2.3" 結果與分析
2.3.1" 基于1D-CNN特征提取的有效性
本研究復現了陶曄等人[12]中的RF_LSTM模型和楊耘等人[13]中的LSTM_BP模型,模型參數也都按照其論文中的設置,并在本研究的數據集上進行對比實驗,結果如表2所示。
對于RF_LSTM[12]方法,先通過隨機森林篩選出與氣溫相關性更高的4個要素,如圖6所示,分別為濕球溫度、水汽壓、相對濕度和露點溫度,然后再通過LSTM進行預測,最終實驗結果為:RMSE是1.13,MAE是0.82。對于LSTM_BP[13]方法,在此數據集上得出的結果為:RMSE是1.05,MAE是0.76。
為了驗證基于一維卷積神經網絡對氣象數據特征提取的有效性,本文將1D-CNN分別加在RF_LSTM和LSTM_BP中的LSTM之前進行試驗,簡記為RF_1D-CNN_LSTM和1D-CNN_LSTM_BP。由表2中的實驗結果可知,與RF_LSTM相比,RF_1D-CNN_LSTM模型的RMSE降低了0.37,MAE降低了0.28;與LSTM_BP相比,1D-CNN_LSTM_BP模型的RMSE降低了0.35,MAE降低了0.28。那么氣溫模型預測效果的排序為RF_1D-CNN_LSTM>RF_LSTM,1D-CNN_LSTM_BP>LSTM_BP,且1D-CNN_LSTM_BP>RF_1D-CNN_LSTM>LSTM_BP>RF_LSTM,這表明基于1D-CNN提取的空間特征可以明顯改善氣溫的預測效果。
2.3.2" 基于BiLSTM時間特征學習的有效性
楊耘等人[13]為已經證明了LSTM和BP的組合(LSTM_BP)預測效果要優于LSTM,因此,為了驗證雙向長短期記憶網絡學習氣象數據的時間特征的有效性,本研究直接將BiLSTM預測效果和LSTM_BP進行比較。由表3中的實驗結果可知,與LSTM_BP相比,BiLSTM模型的RMSE降低了0.37,MAE降低了0.3。這表明氣溫預測模型的效果排序是BiLSTM>LSTM_BP>LSTM,可以看出,通過BiLSTM學習氣象數據的上下文信息有利于提高氣溫預測的準確性。
2.3.3" 各算法的性能比較
表4列出了各機器學習模型的氣溫預測準確性比較,由上述內容可知,1D-CNN對氣象數據的空間特征提取具有很好的效果,且BiLSTM對氣象數據的時間特征提取也具有好的效果。因此,為了充分利用氣象數據的空間特征與時序特性,本研究將1D-CNN與BiLSTM結合在一起為1D-CNN_BiLSTM模型進行氣溫預測,由表4可知,使用1D-CNN_BiLSTM模型的預測誤差最低,此時RMSE為0.64,MAE為0.43,與算法RF_LSTM[12]的預測結果相比,1D-CNN_BiLSTM的RMSE降低了0.49,MAE降低了0.39;與算法LSTM_BP[13]的預測結果相比,1D-CNN_BiLSTM的RMSE降低了0.41,MAE降低了0.33,達到了非常好的預測效果。這表明,充分利用氣象要素的空間與時間特征更有助于提高氣溫預測的準確性。
圖7是各個模型的氣溫預測效果對比圖,由于數據量較大,只顯示了連續3天的預測值和真實值的數據,由圖可知,1D-CNN_LSTM_BP模型的預測結果與真實值更接近。
3" 結" 論
為實現對氣溫的準確預測,本研究利用觀測站點氣象數據,將一維卷積神經網絡(1D-CNN)提取氣象要素的空間特征的優勢和雙向長短期記憶網絡(BiLSTM)提取氣象要素的時間相關性的優勢相結合,構建了一種新的氣溫預測模型1D-CNN_BiLSTM,并與其他機器學習氣溫預測模型進行對比,主要得到以下結論:1)一維卷積神經網絡能有效的提取氣象數據的空間特征,可以充分利用氣象各要素的特征聯系。2)雙向長短期記憶網絡具有很好的時間特征提取能力,可以充分學習到序列數據的上下文信息,更加適合于時序氣象數據的預測。3)與其他機器學習模型相比,本文提出的1D-CNN_BiLSTM氣溫預測模型達到了更好的預測效果,實驗結果是:RMSE為0.64,MAE為0.43。
值得討論的是,機器學習已經廣泛應用于各大領域,它的各類算法可以處理眾多問題,以后將會嘗試以下機器學習算法思路對網絡模型做進一步改進:1)本文只是使用了簡單的CNN結構做特征提取,證實了用CNN做氣象數據的空間特征提取是有效果的,以后可以嘗試與搭建更加高效的CNN結構或機器學習模型。2)可以先用完備總體經驗模態分解(Complete Ensemble Empirical Mode Decomposition, CEEMD)算法將氣象數據集進行模態分解,再用小波軟閾值去噪將分解得到的多個模態分量和殘余分量進行降噪處理,最后結合雙向長短期記憶網絡對氣溫數據進行分析預測。3)可以通過遷移學習方法來用于不同地區的氣溫預測,這樣會加快并優化基于深度學習建立氣溫預測模型的學習效率,且能夠解決由于不同區域中氣溫數據量的不足而導致的深度學習模型不能充分學習到氣象各個要素之間特征的問題。
參考文獻:
[1] ENGDAW,MASTAWESHA MISGANAW,et al. Attribution of Observed Changes in Extreme Temperatures to Anthropogenic Forcing Using CMIP6 Models [J].Weather and Climate Extremes,2023,39:100548.
[2] 吳興洋,陳怡璇,支亞京,等.1951—2020年貴州均一化氣溫序列構建及初步分析 [J].沙漠與綠洲氣象,2023,17(5):152-158.
[3] PATHAK J,SHASHANK S,HARRINGTON P,et al. FourCastNet: A Global Data-driven High-resolution Weather Model Using Adaptive Fourier Neural Opera-tors [J/OL].arXiv:2202.11214 [physics.ao-ph].[2024-01-18].https://arxiv.org/abs/2202.11214?context=physics.ao-ph.
[4] SEKULA P,BOKWA A,BOCHENEK B,et al. Prediction of Air Temperature in the Polish Western Carpathian Mountains with the ALADIN-HIRLAM Numerical Weath-er Prediction System [J].Atmosphere,2019,10(4):186.
[5] 徐嘉遠,鄒磊,夏軍,等.TVGM-LSTM耦合模型及其徑流模擬效果分析 [J].水資源保護,2023,39(6):104-110.
[6] BIKASH S,SHAYAK C,Somenath M. Investigating the Relationship Between Earthquake Occurrences and Climate Change Using RNN-based Deep Learning Ap-proach [J].Arabian Journal of Geosciences,2021,15(1):31.
[7] SENGAL G,ALI M. Control of a Three-Phase Grid-Connected Voltage-Sourced Converter Using Long Short-Term Memory Net-works [J].Energies,2022,16(1):453-453.
[8] LEE H J,HONG K J. Comparative Performance Analysis of Tech-ni ques for Predicting Concatenated Normal and Abnormal Vibra tions [J].Electronics,2023,12(23):4778.
[9] ZHANG M,XIE C,TIAN B,et al. Application of Gated Recurrent Unit Neu-ral Network for Flood Extraction from Synthetic Aperture Radar Time Se-ries [J].Water,2023,15(21):3779.
[10] BALDUíNO C M,MATEUS M, JOSé T F,et al. Comparing LSTM and GRU Mod-els to Predict the Condition of a Pulp Paper Press [J].Energies,2021,14(21):1-21.
[11] AZYUS F A,WIJAYA K S, NAVED M. Determining RUL Predictive Mainte-nance on Aircraft Engines Using GRU [J].Journal of Mechanical, Civil and Indus-trial Engineering,2022,3(3):79-84.
[12] 陶曄,杜景林.基于隨機森林的長短期記憶網絡氣溫預測 [J].計算機工程與設計,2019,40(3):737-743.
[13] 楊耘,王彬澤,劉艷,等.基于時空優化LSTM深度學習網絡的氣溫預測 [J].徐州工程學院學報:自然科學版,2020,35(2):44-49.
[14] 金郁淇,李知何.基于LSTM神經網絡的逐時氣溫預報 [J].現代信息科技,2023,7(9):26-29.
[15] 花凡,李莉,蔡鑫楠.長短期記憶網絡在氣溫預測中的應用[J].智能計算機與應用,2022,12(11):92-95+102
[16] 楊迎新,杜景林,武艷.基于PCA和改進PSO-GRU神經網絡的氣溫預測 [J].現代電子技術,2022,45(1):89-94.
[17] 趙琳娜,盧姝,齊丹,等.基于全連接神經網絡方法的日最高氣溫預報 [J].應用氣象學報,2022,33(3):257-269.
[18] ZHANG M Y,HAN Y,YANG P,et al. Landslide Displacement Prediction Based on Optimized Empirical Mode Decomposition and Deep Bidirectional Long Short-term Memory Network [J].Journal of Mountain Science,2023,20(3):637-656.
作者簡介:葉劍(1980—),男,漢族,江蘇宿遷人,工程師,本科,主要研究方向:機器學習、農業氣象學;通信作者:唐歡(1991—),男,漢族,江蘇宿遷人,工程師,碩士,主要研究方向:機器學習、應用氣象學。
選取了宿遷市四個國家氣象觀測站從2004年1月1日00:00到2020年7月31日23:00之間的逐小時氣象實況數據,包括氣溫、氣壓、濕球溫度、水汽壓、相對濕度、風速、風向度數、日照時數、露點溫度和降水量10個要素,具體數據(部分)如表1所示。
基金項目:江蘇省氣象局青年基金項目(KQ202420);“宿遷英才”群英計劃培養資助項目、宿遷市級指導性科技計劃項目共同資助。