王碩,陳中舉,許浩然,黃小龍
(長江大學計算機科學學院,湖北 荊州 434023)
降水量預測是氣候預測的重要研究內容。降水量與人類的生產生活,社會的經濟發展密切相關。大氣降水是一個地區地表水和地下水的總補給源,直接決定了這個地區的水資源豐富程度,并且異常的降水是旱災、洪澇災害的直接影響因素之一[1-6]。因此,降水量的準確預測有著極其重要的意義,也是近年來國內外研究的熱點。
目前,國內外學者在預測降水量上進行了大量探索,主要的研究方法有回歸模型[7,8]、支持向量回歸[9-11]、神經網絡[12]等。其中,長短期記憶網絡(Long Short-Term Memory, LSTM)在相關工作上被廣泛的應用并取得了不錯的成效[14]。然而,水文時間數據是非線性、非平穩的數據,由于單一模型存在一定的局限性,其預測效果可能會不理想。有學者提出結合信號分析方法-集合經驗模態分解(Ensemble Empirical Mode Decomposition, EEMD)與時間序列模型進行預測,得到了不錯的效果。如李智強等[8]使用EEMD-ARIMA模型對臨夏的年降水量進行預測。楊倩等[14]使用EEMD-LSTM對天山北坡經濟帶降雨量進行預測。由于EEMD方法有著很強的局部表現能力,所以在處理水文時間序列這種非線性、非平穩的信號時是一種有效的方法,結合了EEMD的模型相較于單一模型預測準確性得到了較大的提升[13-16]。
然而,LSTM仍存在不足,LSTM只能夠按照順序讀取數據,在數據的并行處理上存在一定的劣勢。此外,EEMD在分解的過程中也會存在殘余的白噪聲,并且EEMD選取有效的IMF完全依靠經驗來確定,使得EEMD對信號的分解重構的準確性受到影響。
時間卷積網絡(Temporal Convolutional Network, TCN)[17]近年來被證明在很多時間序列處理上的性能都優于LSTM[18],如李亞平等[19]使用TCN對滾動軸承壽命趨勢進行預測,結果表明TCN的性能要優于LSTM。相較于LSTM,TCN架構更簡單更易于理解,并且TCN既能夠利用卷積網絡提取時間序列的高級特征,又可以用并行思想高效率計算,進而在提高速度的同時達到更好的預測效果。自適應噪聲的完備經驗模態分解(complete ensemble empirical mode decomposition with adaptive noise, CEEMDAN)[20]是由Torres等在2011年提出的。相對于EEMD,CEEMDAN大大降低了分解的復雜度并進一步提升了分解信號的精確度和完備度,具有明顯的優越性。因此,為了提高降水量預測的準確性,本文將CEEMDAN和TCN耦合構建CEEMDAN-TCN模型,并首次應用于地學領域的降水量預測上,對河南省月降水量進行預測。最后,與LSTM、TCN、CEEMDAN-LSTM三個模型進行對比,驗證了CEEMDAN-TCN模型的有效性。
河南地處中國中部,總面積為16.7 萬km2,地理坐標為31°23′~36°22′N、100°21′~116°39′E。年平均降水量在464.2~1 193.2 mm。河南省地勢西高東低,由平原和盆地、丘陵、山地和水面構成[21]。河南省大部分處于溫暖帶,氣候上屬于北亞熱帶向暖溫帶過渡的大陸性季風氣候。同時,河南省還具有自東向西由平原向丘陵山地氣候過渡的特征和四季分明、雨熱同期等氣候特點。本文的研究區域及各區域站點數目為豫東3個、豫南6個、豫西3個、豫北2個、豫中3個共五大區域17個站點。區域及氣象站點分布如圖1所示。

圖1 研究區域概況Fig.1 Overview of the study area
本文所用的河南省降水量數據均來自于中國氣象數據網(http://data.cma.cn),所用河南地理高程數據來源于地理空間數據云(http://www.gscloud.cn/search)。
CEEMDAN是對EMD以及EEMD算法的改進算法。CEEMDAN算法在對信號進行EMD分解的各個階段,自適應調整噪聲系數,從而在待分解信號中引入不同信噪比的高斯噪聲,能同時避免模態混疊問題并消除虛假信息干擾[22]。CEEMDAN算法原理如下:
定義x(t)為待分解的時間序列信號,通過EMD分解得到的第k個IMF分量為Ek(·),是通過算法CEEMDAN分解得到的第k個IMF,Vm為滿足標準正態分布的高斯白噪聲,m為加入白噪聲的次數m= 1,2,…,N,ε0為噪聲系數。
步驟1:將N組高斯白噪聲加入待分解的信號,對新信號進行EMD分解并對產生的N個IMF進行總體平均得到CEEMDAN的IMF1。
步驟2:計算第一個殘差r1(t)。
步驟3:在一階殘差中加入正負成對的高斯白噪聲并對其進行EMD分解得到模態分量D1重復計算N次并進行總體平均可得到CEEMDAN的IMF2。
步驟4:計算第二個殘差r2(t)。
步驟5:重復步驟3和步驟4直到獲得的殘差信號為單調信號不能繼續進行分解,算法結束。此時得到的IMF數量為i,原始信號x(t)被分解為:
時間卷積網絡(TCN)是由卷積神經網絡(CNN)變體而來。它可以直接使用卷積的特性來提取時間序列的高級特征,并且,相較于LSTM,TCN擁有并行性好、感受野靈活、梯度穩定、內存小等優點[23]。在結構上時間卷積網絡主要由因果卷積、膨脹卷積和殘差模塊構成。
(1)因果卷積。TCN需要保證網絡的輸出長度和輸入長度相同,并且未來數據不會發生泄露,因此,TCN采用了一維全卷積網絡和因果卷積。下面給出因果卷積的定義序列X=(x1,x2,…,xt),濾波器F= (f1,f2,…,ft),在xt處的因果卷積為:
(2)膨脹卷積。簡單的因果卷積并不能獲取較長的時間序列。為此,TCN采用了膨脹卷積。下面給出膨脹卷積的定義序列X=(x1,x2,…,xt),濾波器F=(f1,f2,…,ft),在xt處膨脹因子為d的膨脹卷積為:
(3)殘差模塊。為了解決引入因果卷積和膨脹卷積從而造成的梯度消失或者爆炸問題,TCN引入殘差模塊,將模型的輸入x加權融合到模型的輸出F(x)中最終得到TCN的輸出y。
式中:Activation為激活函數。
長短期記憶網絡(LSTM)由Hochreiter等提出[24]。LSTM在RNN的基礎上引入了記憶細胞的結構和輸入門、輸出門、遺忘門3種門結構。其網絡輸入到輸出的計算過程如下:
式中:Wf、Wi、Wo、Wc分別代表遺忘門、輸入門、輸出門、記憶單元的權值向量;bf、bi、bo、bc分別代表遺忘門、輸入門、輸出門、記憶單元的偏置向量。
CEEMDAN-TCN模型構建流程如圖2所示,具體建模步驟如下。

圖2 建模流程Fig.2 Modeling process
步驟1:針對降水量時間序列非線性,非平穩的特性,使用CEEMDAN方法對其進行分解處理,降低原始序列對模型產生的不利影響。得到各個平穩的IMF分量以及一個殘差分量Res。
步驟2:分別將各個子序列數據進行歸一化處理,并采用滑動窗口方法針對各個子序列建立TCN模型分別對其進行預測,使用優化算法對模型的超參數進行優化。
步驟3:將各個子序列使用經過優選過的TCN模型進行預測得到預測結果,并將預測的結果疊加得到預測值。
本文采用均方根誤差(RMSE)和平均絕對誤差(MAE)對模型的精度進行評價。其計算公式如公式(15)、(16)所示。
式中:k為氣象站點數;yt和為真實值和預測值。
本文選取河南省17個氣象觀測站1960-2017年的月降水數據作為研究對象,建立CEEMDAN-TCN模型進行預測,按7∶3的比例將數據集進行劃分,即1960年1月-2000年7月的月降水量數據共496個月的數據進行模型的訓練,2000年8月-2017年12月共200個月的降水量進行模型的驗證。使用控制變量法根據預測結果的精度調整模型參數,經過多次實驗最終確定模型的優化器為Adam(Adaptive moment estimation),確定學習率為0.000 1,迭代次數為600;為了防止模型出現過擬合現象,將模型的dropout設為0.1。對比模型LSTM與TCN模型的參數調整類似,同樣將dropout設為0.1,采用Adam作為優化算法,迭代次數和TCN設置相同。實驗環境為python3.7,tensorflow版本為2.3.1。
以57178站點為例,原始降水量序列的變化曲線如圖3所示。由圖3可知,原始降水量序列的波動幅度較大,存在著較強的非平穩性。通過CEEMDAN方法對原始降水量序列共696個月的數據進行分解得到8個子序列,分解結果如圖4所示。隨著分解的逐步進行,經過分解得到的8個子序列波動漸趨于平緩并且更具有規律性。CEEMDAN分解有效降低了序列的非平穩性,從而提高了模型預測的精度。

圖3 57178站點原始降水序列Fig.3 The original Precipitation sequence of 57178 site

圖4 基于CEEMDAN分解結果Fig.4 Decomposition results based on CEEMDAN
為驗證本文提出的CEEMDAN-TCN模型的可行性,選取LSTM模型、TCN模型、CEEMDAN-LSTM模型進行對比實驗,采用RMSE和MAE指標對各模型的預測效果進行評判。各個模型的驗證集預測精度如表1所示,驗證集預測值和真實值對比結果如圖5所示。

表1 57178站點各模型預測精度評價指標對比Tab.1 Comparison of prediction accuracy evaluation indicators of each model at 57178 site

圖5 57178站點各模型降水量預測值與真實值對比Fig.5 Comparison between the predicted value and the real value of the precipitation of each model at 57178 site
由表1可知,本文提出的CEEMDAN-TCN模型預測效果均優于對比模型,且預測精度提升較大。結合圖5和表1可知,LSTM模型的預測誤差最高,其預測值相較真實值較為離散。TCN得益于強大的信息提取和擬合能力預測精度有所提升,相較LSTM模型,RMSE減少了4.44%,MAE減少了12%。并且由于TCN具有更高的計算效率,其運行時間相較LSTM減少了36.36%。但單一的TCN模型預測效果仍存在較大不足,其對于峰值的預測與真實值具有一定差距,且對波谷的波動無法有效的預測。
CEEMDAN-LSTM預測效果相較于LSTM模型預測效果有著顯著提升,RMSE和MAE分別減少37.60%,20.75%。CEEMDAN-LSTM的預測值整體符合實際降水量序列的變化趨勢,且對于波峰的預測有著較好的效果。但CEEMDAN-LSTM無法對波谷進行有效的預測,波谷的預測值相較于真實值仍較為離散。CEEMDAN-TCN模型相較LSTM模型、TCN模型、CEEMDAN-LSTM模型,其預測精度最高,RMSE分別減少了74.09%、72.88%、58.47%;MAE分別減少了70.86%、66.87%、63.22%,預測精度具有較大提升。并且,由圖5可知,CEEMDAN-TCN模型對降水量序列的變化趨勢預測更為準確,其較為準確地預測出了波峰和波谷的波動情況,預測值更貼近真實值。
為進一步驗證CEEMDAN-TCN模型在月降水量預測的有效性和普適性,選取河南省另外16個站點建立模型進行預測,并選取LSTM模型、TCN模型、CEEMDAN-LSTM模型進行對比實驗,4個模型的驗證集預測精度如圖6和圖7所示,詳細數值如表2所示。

表2 各個站點各模型預測精度評價指標對比mmTab.2 Comparison of prediction accuracy evaluation indexes for each model at each site

圖6 河南省各站點RMSE值對比Fig.6 Comparison of RMSE values for each site in Henan Province

圖7 河南省各站點MAE值對比Fig.7 Comparison of MAE values for each site in Henan Province
結合表2和圖6圖7可知,在所有模型中LSTM模型在所有站點的預測效果都較差。相較于LSTM模型,TCN模型預測效果有所提升,其RMSE、MAE平均減少11.47%和14.20%,說明TCN具有更優秀的捕捉序列間信息的能力。但由表2可得,單一的LSTM模型和TCN模型對降水量序列的預測精度仍然不高,RMSE值和MAE值處于較高水平,這主要是由于降水量序列的非線性和非平穩性使得單一的模型無法很好的擬合降水量序列的變化趨勢,這表明僅使用單一的模型對降水量序列預測精度的提升十分有限。
CEEMDAN-LSTM模型相較LSTM模型,其RMSE和MAE平均減少29.80%,22.87%,說明了CEEMDAN方法可以有效降低降水量序列的不規律性和非平穩性以提升模型預測的精度。CEEMDAN-TCN對大部分站點的預測都較為準確,對個別站點的預測效果欠缺,但對這些站點預測的RMSE值和MAE值在上述對比模型中仍然最低。CEEMDAN-TCN模型相對于TCN模型、LSTM模型、CEEMDAN-LSTM模型RMSE分別平均減少了33.71%、41.32%、16.40%;MAE分別平均減少了25.60%、36.16%、17.23%,預測效果較好,預測精度在所有站點所有模型中最高。實驗結果表明CEEMDAN-TCN模型在河南省月降水量預測中更加有效且具有普適性。
為進一步驗證CEEMDAN-TCN模型的預測效果,本文對2000年8月-2017年12月的月均降水量數據各模型的預測值和真實值采用普通克里金插值法進行空間插值,插值結果如圖8所示。

圖8 各模型降水量真實值和預測值的空間插值分布Fig.8 The spatial interpolation distribution of predicted and true values of precipitation for each model
由圖8可知,河南省降水量由豫西北到豫東南逐漸遞增,形成了以豫東南區域為中心的降水高值區。通過分析四種模型的預測值和真實值的空間插值分布可知,CEEMDAN-TCN模型預測值的總體變化趨勢與真實值變化趨勢相符,在豫東、豫西、豫北的預測效果較好;但在豫南的部分站點空間的插值效果存在欠缺,這主要是由于豫南降水量數據較為復雜,極端降水較多造成的。CEEMDAN-LSTM模型的總體變化趨勢和真實值變化趨勢雖然相近,但在豫西的57051、57067站點,豫南的57156站點都存在空間插值效果不佳的情況。TCN、LSTM模型插值在大部分站點效果較差,僅在豫南的插值效果與真實值插值效果相近。綜上,說明CEEMDAN-TCN模型相較其他3種模型在河南省月降水量預測上效果更好。
本文針對LSTM存在的不足和降水量數據非平穩性、非線性導致其難以被準確預測的問題。將自適應噪聲的完備經驗模態分解(CEEMDAN)和時間卷積網絡(TCN)結合,提出了基于CEEMDAN-TCN模型的降水量預測方法。使用河南省1960年1月-2000年7月的月降水量數據進行訓練,2000年8月-2017年12月的降水量數據進行預測,得出結論如下:
(1)在河南省單站點月降水量預測中,在57178站點,相對于LSTM模型、TCN模型、CEEMDAN-LSTM模型,CEEMDAN-TCN模型的預測精度最高,對波峰波谷的預測更為準確,較準確地預測出了降水量序列的整體的變化趨勢。
(2)在河南省其他全部站點中,相較于LSTM模型、TCN模型、CEEMDAN-LSTM模型,CEEMDAN-TCN模型在各個站點的預測精度最高,且具有較大的提升。對絕大多數站點的預測效果都較好,充分表明該模型在河南省月降水量預測上的有效性和普適性。
(3)在空間分布上,對4種模型的預測值和真實值使用普通克里金插值法進行空間插值發現,CEEMDAN-TCN模型的月均降水量預測值與真實值的插值效果更為接近,表明該模型在河南省月降水量預測上具有較高的可靠性。
研究結果表明,使用CEEMDAN方法可以有效降低降水量序列的不平穩性的影響,進而提升模型的預測精度。并且通過TCN與LSTM的對比實驗,表明了TCN模型具有更為優秀的信息提取能力和計算效率。實驗證明了CEEMDAN-TCN模型在月降水量預測上的準確性和可行性,也為該領域的研究提供一種新方法。