丁星臣,徐淑琴,路豪杰,陳際旭,劉琦峰
(東北農(nóng)業(yè)大學水利與建筑學院,哈爾濱 150030)
目前降雨量的預測方法主要有小波神經(jīng)網(wǎng)絡法[1]、序位集對分析法[2]、均生函數(shù)法[3]、時間序列法[4]、馬爾科夫預測法[5]、貝葉斯概率預報[6]、支持向量機預測法[7]等,而實際的降雨量數(shù)據(jù)并非純粹呈指數(shù)的增長規(guī)律,是一種具有劇烈波動的非線性變化規(guī)律,利用單一的預測方法雖然在預測過程中取得了較好的效果,但自身難免都存在一些不足,單獨使用預測精度不是很理想,誤差較大。比如時間序列法在數(shù)據(jù)波動較大時預測效果較差,人工神經(jīng)網(wǎng)絡存在局部收斂、過擬合、網(wǎng)絡層數(shù)和各層神經(jīng)元數(shù)沒有統(tǒng)一的確定標準等問題[8],最小二乘支持向量機(Least Square Support Vector Machines,LS-SVM)繼承了標準SVM優(yōu)異的泛化性能和全局收斂能力,用等式約束代替了不等式約束,并用訓練誤差的平方代替了松弛變量,從而優(yōu)化了SVM復雜的運算過程,極大地提高了訓練速率[9]。本文針對目前降雨量預測方法存在的不足提出時間序列最小二乘支持向量機組合模型的降雨量預測方法,該組合模型充分考慮了降雨量變化的時序動態(tài)性、隨機性因素,提高了預測準確度,為地區(qū)降雨量的精確預報提供了一種新的方法。
時間序列分析是一種暫不考慮外界因素影響對動態(tài)數(shù)據(jù)處理的統(tǒng)計方法,對非線性數(shù)據(jù)具有較好的擬合效果,本文首先對858農(nóng)場1963-2004年的年降雨量采用AR模型進行擬合,年降雨量動態(tài)變化組成的數(shù)學表達式如下:
H(t)=h(t)+v(t)+x(t),t=1,2,3,…,n
(1)
式中:H(t)為年降雨總量,mm;h(t)為趨勢變化項,mm;v(t)為周期變化項,mm;x(t)為隨機干擾項。
1.2.1趨勢變化項h(t)
利用Excel2010軟件數(shù)據(jù)回歸分析功能對原始數(shù)據(jù)添加趨勢線,在α=0.05顯著水平下,挑選出適宜的趨勢項模型為:
h(t)=0.086x2-5.006x+602.5,r2=0.028
(2)
由于降雨量數(shù)據(jù)動態(tài)變化趨勢呈現(xiàn)較明顯的周期性變化特點,本文采用諧波分析法提取周期項,取倍頻極限即最大波數(shù)p=(N/2),N為樣本數(shù),N=42,則p=21。根據(jù)最小二乘法和三角函數(shù)的正交性,可以得到序列v(t)的諧波系數(shù)估計值即傅立葉系數(shù)。在α=0.05顯著水平下,F(xiàn)α=3.05,經(jīng)過對各個諧波方差進行檢驗,達到顯著水平的諧波只有24號,其對應的F統(tǒng)計量為3.448 5>Fα=3.05。達到顯著水平。故提取第24號諧波建立的周期序列為:

(3)
1.2.3隨機干擾項x(t)
假定降雨量隨機成分x(t)為平穩(wěn)的,則x(t)由平穩(wěn)相依成分D(t)和平穩(wěn)獨立隨機成分(純隨機成分)εt組成,即x(t)=ε(t)+D(t)。對于x(t)可以用線性平穩(wěn)隨機模型來表示他的統(tǒng)計特征。一般的自回歸模型表示為:
(4)

首先對序列x(t)分別進行自相關分析和偏相關分析[10],自相關圖和偏相關圖如圖1、圖2所示。

圖1 自相關圖Fig.1 Auto correlation graph

圖2 偏相關圖Fig.2 Partial correlation graph

退行性膝關節(jié)骨性關節(jié)炎主要發(fā)生群體是老年人,隨著國家老齡化社會結(jié)構(gòu)的到來,退行性膝關節(jié)骨性關節(jié)炎的發(fā)生率逐年上升,該病癥會嚴重影響患者的生活質(zhì)量,甚至對社會生產(chǎn)力造成一定程度影響。退行性膝關節(jié)骨性關節(jié)炎會致使患者有巨大的病癥疼痛感,也是致使患者殘疾的重要原因之一。本文對退行性膝關節(jié)骨性關節(jié)炎患者的治療過程中應用刺絡放血配合溫針灸治療,以此評價刺絡放血配合溫針灸治療的效果及對VAS評分的影響。
將以上計算得到的趨勢項h(t)、周期項v(t)及隨機性干擾項x(t)進行疊加,得到降雨量非平穩(wěn)時序隨機模型。應用該模型對858農(nóng)場年降雨量擬合結(jié)果見圖3。

圖3 1963-2004年降雨量擬合圖Fig.3 1963-2004 annual rainfall fitting
根據(jù)Suykens的LS-SVM理論,LS-SVR建模的主要思想是首先把一訓練樣本集:(xi,yi),i=1,2,…,n,x∈Rd,y∈R通過非線性函數(shù)φ(x)將樣本從原輸入空間Rd映射到一個高維的特征空間Z中,在特征空間,采用如下公式來估計未知的非線性函數(shù):
y=wTφ(x)+b
(5)
式中:φ(x)為空間映射函數(shù);w為權(quán)重向量;b為偏置。
按結(jié)構(gòu)風險最小化原理,LS-SVR取逼近誤差二次項和來控制模型的經(jīng)驗風險,其優(yōu)化問題被定義為:
(6)
式中:γ為正則化參數(shù)。
為求解上一優(yōu)化問題,構(gòu)造拉格朗日函數(shù)如下:
(7)
式中:αi∈R(i=1,2,…,N)為Lagrange因子。
根據(jù)最優(yōu)性條件,分別求L關于變量(w,b,ei,αi)的偏微分,得到:
(8)
方程組(8)中,消去變量w和ei,再利用Mercer條件:
Ωi,j=φ(xi)Tφ(xj)=K(xi,xj),i,j=1,…,N
(9)
得到矩陣形式為:
LS-SVR模型的表達式為:
(10)
式中:αi,b是方程組(8)的解[11-14]。
本文選取858農(nóng)場1963-2004年降雨量作為訓練集,2005-2014年降雨量作為測試集,并對2015-2017年降雨量進行預測。首先采用AR模型對數(shù)據(jù)進行擬合,擬合結(jié)果見前文圖3,用實際值與擬合值計算42個時間點對應的絕對誤差,見圖4。

圖4 絕對誤差分布圖Fig.4 Absolute error distribution
從圖4中可以看出,絕對誤差數(shù)值分布規(guī)律具有很強的周期性,可以很好地用LS-SVR進行擬合,本文采用徑向基核函數(shù)(RBF):
RBF的參數(shù)較少,且變量限制性條件少,可以降低模型的復雜性,提高模型的訓練速度。影響LS-SVM訓練效果主要的參數(shù)是懲罰參數(shù)c和核函數(shù)參數(shù)g,懲罰參數(shù)和核函數(shù)參數(shù)是需要在模型訓練前事先假定的,它決定了模型擬合的效果和預測精度,若c取值較小,則對樣本數(shù)據(jù)的離群點懲罰度減小,使訓練精度變差,算法的泛化能力加強。若c取值較大,相對應的wTw/2就小,算法的泛化能力將會變差。核函數(shù)參數(shù)g太小會對樣本數(shù)據(jù)造成過學習現(xiàn)象,太大會對樣本數(shù)據(jù)造成欠學習現(xiàn)象。本文采用交叉驗證方法尋找最佳的懲罰參數(shù)c和核函數(shù)參數(shù)g,將原始數(shù)據(jù)均分成7組,將每個子集數(shù)據(jù)分別做一次驗證集,同時其余的6組子集數(shù)據(jù)作為訓練集,這樣會得到7個模型,用這7個模型最終的驗證集分類準確率的平均數(shù)作為此K-CV下分類器的性能指標,在每個模型最優(yōu)參數(shù)選定過程中,本文采用遺傳算法對參數(shù)進行尋優(yōu),避免了傳統(tǒng)的網(wǎng)絡搜索法在大范圍尋優(yōu)費時等缺點,采用啟發(fā)式算法可以不必對網(wǎng)絡內(nèi)的所有參數(shù)點計算其分類準確率,迅速找到全局最優(yōu)解,參數(shù)尋優(yōu)的算法流程見圖5。

圖5 GA優(yōu)化流程圖Fig.5 GA optimization flow chart
本文首先對絕對誤差做歸一化處理,最大進化代數(shù)為500,種群最大數(shù)量為20,參數(shù)c的變化范圍設為(0,100],g的變化范圍設為[0,1 000],交配概率及變異概率設為0.9,適應度函數(shù)采用平均相對百分比誤差MAPE函數(shù):
(11)

利用GA算法對訓練樣本尋優(yōu)得到的參數(shù)c=4.066 6,g=56.968 6。組合模型的預測原理如圖6所示。

圖6 AR-LSSVR組合模型預測原理Fig.6 AR-LSSVR combination model prediction principle
為了說明模型預測的準確性,利用組合模型對2005-2014年降雨量進行預測,預測結(jié)果見圖7,將預測值與實際值作比較,得到相對誤差分布圖見圖8。

圖7 2005-2014年降雨量預測值Fig.7 2005-2014 annual rainfall forecast

圖8 相對誤差分布Fig.8 Relative error distribution
由相對誤差分布圖可看出,2004和2011年的預測誤差較大,其他年份誤差較平穩(wěn),誤差較小,根據(jù)《水文情報預報規(guī)范》[15],相對誤差≤20%為合理的預測標準,經(jīng)過計算,本文預測檢驗合格率大于20%的達到了90%,達到一級預測標準。因此所建立的858農(nóng)場AR-LSSVR組合預測模型具有較好的可靠性和預測精度,可以對858農(nóng)場未來的降雨量進行預測。現(xiàn)對858農(nóng)場2015-2017年的年降雨量進行預測,預測結(jié)果見表1。

表1 2015-2017年降雨量預測值 mm
本文針對如何提高年降雨量預測精度提出AR與LSSVR組合模型,AR模型對非平穩(wěn)降雨量數(shù)據(jù)進行預測時,由于不能消除其波動性使預測效果不理想,LSSVR的訓練過程等價于求解一個線性且有限制性條件的二次規(guī)劃問題,具有泛化能力強、不易陷入局部極小等優(yōu)點,較好地解決了小樣本、非線性、高維數(shù)、和局部極小問題,改進的GA優(yōu)化算法能夠在大范圍快速準確地尋找最佳的核函數(shù)參數(shù)g和懲罰參數(shù)c,提高了LSSVR對樣本的訓練效果以及預測精度,為降雨量預測提供了一種快速的參數(shù)尋優(yōu)方法。
雖然該模型達到了較高的預測精度,但還可以做更深入的研究:①影響降雨量的因素很多,本文由于數(shù)據(jù)的限制,僅采用單一年降雨量數(shù)據(jù)進行預測還不夠全面,如果能同時考慮日照時間、空氣濕度、大氣中水氣含量、地面蒸發(fā)量、風速等因素,能夠提高降雨量的預測精度。②支持向量是SVM的訓練結(jié)果,在SVM預測過程中起決定作用的是支持向量,而本文LSSVR訓練過程中,將所有訓練樣本作為支持向量,降低了支持向量機的稀疏性,如能提出一種新的改進算法,可以提高LSSVR訓練的準確性和運算速率。
[1] 侯澤宇,盧文喜,陳社明. 基于小波神經(jīng)網(wǎng)絡方法的降水量預測研究[J]. 節(jié)水灌溉,2013,(3):31-34.
[2] 劉銀迪,張小壯,張澤中. 序位集對分析在遼河流域年降雨預測中的應用[J]. 安徽農(nóng)業(yè)科學,2011,28:17 534-17 536.
[3] 竇浩洋,鄧 航,孫小明,等. 基于均生函數(shù)-最優(yōu)子集回歸預測模型的青藏高原氣溫和降水短期預測[J]. 北京大學學報(自然科學版),2010,(4):643-648.
[4] 劉 楊,徐淑琴,董麗麗,等. 時間序列模型在查哈陽農(nóng)場降雨量預測中應用[J]. 黑龍江水利科技,2012,(2):5-7.
[5] 杜 川,梁秀娟,王中凱,等. 改進灰色-馬爾科夫模型在年降水量預測中的應用研究[J]. 節(jié)水灌溉,2014,(6):32-36.
[6] 邢貞相. 確定性水文模型的貝葉斯概率預報方法研究[D]. 南京:河海大學,2007.
[7] 歐陽琦,盧文喜,董海彪,等. 基于支持向量機回歸分析的降水量預測研究[J]. 節(jié)水灌溉,2014,(9):38-41.
[8] 白玉潔. 改進時間序列模型在降雨量預測中的應用研究[J]. 計算機仿真,2011,(10):141-145.
[9] 李麗娟. 最小二乘支持向量機建模及預測控制算法研究[D]. 杭州:浙江大學,2008.
[10] 付 強.數(shù)據(jù)處理方法及其農(nóng)業(yè)應用[M]. 北京:科學出版社, 2006:430-433.
[11] 曾 杰,張 華. 基于最小二乘支持向量機的風速預測模型[J]. 電網(wǎng)技術(shù),2009,(18):144-147.
[12] 姜靜清. 最小二乘支持向量機算法及應用研究[D]. 長春:吉林大學,2007.
[13] 袁從貴. 最小二乘支持向量回歸及其在水質(zhì)預測中的應用研究[D]. 廣州:廣東工業(yè)大學,2012.
[14] 陳其松. 智能優(yōu)化支持向量機預測算法及應用研究[D]. 貴陽:貴州大學,2009.
[15] GB/T 22482-2008,水文情報預報規(guī)范[S].