◎周 慧
(廣西科技大學理學院,廣西 柳州 545006)
廣西柳州每年在4—5月份前汛期,由于區域的暴雨等災害性天氣,造成嚴重的洪澇災害.提高前汛期月降水量的預測可以有效減輕這種嚴重氣象災害對社會造成的損失.國內有關長期降水量業務應用的多數統計和動力統計客觀預測方法中,無法有效選擇建模因子導致預測模型穩定性較差.20世紀90年代以來,國內外在大氣學科中開展了很多有關神經網絡預測建模和氣候分析等應用研究.
機器學習方法在實際應用中雖處理非線性問題能力較強,但存在訓練速度慢、容易陷入局部極小點等缺點.近年來提出的極限學習機(Extreme Learning Machine,ELM)應用的是一種針對單隱含層的前饋神經網絡算法,只需設置隱含層神經元數以及激活函數,便可獲得最優解,不受學習率選擇敏感的影響,具有良好的泛化性能以及極快的學習能力等優點.ELM目前被廣泛應用到了各個領域.
由于降水數據具有較強的不確定性和顯著的非線性變化特征,因此用單個方法建立長期數值預測模式研究還難以應用在預測業務中.為此,本文首先采用均生函數(Mean Generating Function,MGF)對降水序列進行延拓,通過變換極限學習機模型的不同參數建立柳州月降水量預測模型,然后用等權平均法組合不同預測結果建立集成降水預測模型(Extreme Learning Machine Based on Mean Generating Function,MGF-ELM).
90年代初,魏鳳英等拓展了數理統計中算術平均值的概念,提出了均生函數算法.
設降水數據序列為{yt,t=1,2,…,N},MGF計算方法如下:
(1)

對其作周期延拓計算,得到周期延拓序列
(2)
其中P為預報步數,則外延均生函數序列矩陣為
(3)
2004年,南洋理工大學的Huang提出了ELM算法,將均生函數的延拓矩陣作為自變量,原始降水序列作為因變量.
ELM網絡結構如圖1所示,由輸入層、隱含層和輸出層組成,設輸入層有n個神經元,隱含層有r個神經元,輸出層有m個神經元.

圖1 ELM網絡結構圖
在ELM模型中,設該連接權值A為
(4)
aij表示隱含層第i個神經元和輸入層第j個神經元間的連接權值.設隱含層和輸出層之間的連接權值B為
(5)
bjk表示隱含層第j個神經元與輸出層第k個神經元間的連接權值.設隱藏節點的偏差為c,則有:
(6)
設隱含層神經元激活函數為g(x),則網絡的輸出S為
(7)
HB=S′
(8)
其中H為ELM的隱含層輸出矩陣.可通過求以下式子的最小二乘解,得到隱含層與輸出層間的連接權值
(9)
60年代,Bate提出組合預測方法,通過將不同的單項預測模型進行組合,對各種單項預測方法提供的信息進行綜合利用,來提高模型的預測精度.等權平均法即算術平均法,不同單項預測模型的權重相同,可避免精度與權重大小不匹配的現象.
本文以柳州市1951~2020年每年的4月份70個降水量實測數據為實例分析,其中1951~2010年60個數據作為訓練樣本建立MGF-ELM模型,其余2011~2020年10個數據作為測試樣本用于檢驗模型預測效果.
為了更精確了解柳州4月份降水量的有關統計特征,根據1951~2020年降水預報資料可知,降水量的最大值為420.3 mm,最小值為33 mm,極差為387.3 mm,標準差為77.434 mm.以上數據表明柳州市4月平均降水量年際變化較大的氣候特征.因此,本文采用均生函數方法對柳州市1951~2020年4月份月降水序列進行延拓,得到70×35的均生函數延拓矩陣.
本文建立了參數優化后ELM模型和等權平均法組合兩種模型,采用以下四種統計指標定量對比模型預測精度.

對比單一MGF-ELM和集成MGF-ELM模型.
分別改變MGF-ELM模型的激活函數和隱含層神經元的個數,得到15個參數不同的MGF-ELM模型.采用等權平均組合法,建立15個ELM模型的等權法集成模型.
一方面,由表1可以看出與15個單一模型相比,集成模型的RMSE和MAPE值較小,PCC的值大,說明集成模型的擬合精度高于單一模型.同時,選擇激活函數為sine,設置隱藏節點個數為30時,單一模型的擬合效果最好.由圖2可看出,集成模型的擬合情況明顯優于單一模型.

表1 單一MGF-ELM模型和集成MGF-ELM模型的擬合效果統計指標
另一方面,表2是兩個模型對柳州2011~2020年4月份10年月降水量的預測結果.集成模型預測降水平均絕對誤差和平均相對誤差分別為109.62和22%,而單一MGF-ELM模型預測降水的平均絕對誤差和平均相對誤差分別為362.44和38%.由此我們可以看出,集成MGF-ELM 模型預測能力優于單一MGF-ELM模型.

圖2 兩個模型數據擬合效果

表2 兩個模型月降水量的預測結果
本文利用MGF對降水序列進行延拓,以延拓矩陣作為自變量,原始降水序列作為因變量,利用不同ELM激活函數和不同參數建立降水預測模型并把結果等權平均組合.該方法具有以下特點:
(1)采用均生函數方法對降水序列進行延拓,以延拓矩陣作為自變量,原始降水序列作為因變量,建立ELM降水預測模型.此模型泛化能力好,更適用于非線性數據,擬合和預測精度均明顯高于時間序列模型.
(2)通過調整ELM算法參數得到不同輸出結果,最后采用等權平均組合預測法建立降水預測模型.集成模型對各種單一ELM模型提供的信息進行綜合利用,不僅提高了預測模型精度,也增強了網絡的穩定性.