王寶紅 康永輝 黃偉軍 孫凱 解建倉
摘要 鑒于單一預測模型在建模時預測值比實際值存在較大偏差問題,為了提高預測精度,在此首先采用自回歸綜合移動平均ARIMA模型(簡稱A模型)、Elman神經網絡模型(簡稱B模型)、小波網絡分析模型(簡稱C模型)、灰色系統GM(1,1)模型(簡稱D模型),利用廣西田東縣1990~2007年的年降雨量分別進行了模擬計算,然后在各單一模型預測(擬合)的年降雨量偏差值基礎上,應用熵權法對4種模型的偏差值進行客觀賦權后優化組合,并根據最優組合結果,選用A、B、C單一模型和最優選的A-B-C優化組合模型對廣西田東縣2008~2010年的年降雨量進行預測對比。結果表明,A、B、C和A-B-C模型得到的均方根誤差RMSE和模型效率EF分別為0.018、0.015、0.017、0.013和0.817、0.877、0.843、0.897,優化組合模型的預測精度和擬合度比單一模型的結果得到了提高和改善,該組合方法提高了年降水量的預測精度,為諸如廣西田東縣以雨養農業為主的區域農業干旱預報提供了新的方法和依據。
關鍵詞 ARIMA模型; Elman神經網絡; 小波網絡分析; 熵權; 年降雨量; 組合預測
中圖分類號 S161.6 文獻標識碼 A 文章編號 0517-6611(2014)16-05142-04
干旱是一種普遍的自然現象,一般可分為氣象干旱、農業干旱、水文干旱、社會經濟干旱4種類型[1],為了減少旱災影響,國內外不少學者對干旱預報展開了研究,干旱預測成果為國家和政府進行科學防旱抗旱提供了決策依據和支撐。當今預測的方法和研究成果較多[2-7],常用的有灰色預測方法、人工神經網絡、小波分析理論、蒙特卡洛預測方法、時間序列分析法等[5-7]。但相關文獻的研究結果表明,單一的預測模型難以達到理想精度或由于自身建模的行業側重點和適應領域不同使得預測結果存在不足,因此組合模型[8-10]預測研究成為了熱門課題,以便消除單一模型的缺陷并綜合單一模型的特性和優點,為能有效提高預測精度,而將各種預測模型進行組合,形成更系統、全面的組合模型。筆者利用熵權的客觀賦權方法,根據年降雨量具有的水文復雜特性,如時間、模糊、灰色以及周期等特性,采用了自回歸綜合移動ARIMA模型、Elman神經網絡模型、小波網論模型、灰色系統GM(1,1)模型等進行預測,然后對各單一模型的預測偏差進行賦權優化,把單一預測方法有機結合起來,形成一種新的優化組合預測模型,對廣西田東縣的年降雨量進行預測,借以用于農業干旱的預報。
1 資料與方法
1.1 預測模型
1.1.1 ARIMA 模型。ARIMA模型是由Box等提出的一種時間序列建模方法[11],其建模的基本思想是對非平穩的時間序列用若干次差分使其成為平穩序列,作差分的次數就是參數d,再用以P、q為參數的ARIMA模型對該平穩序列建模,然后經反變換得到原序列。以P、d、q為參數的ARIMA模型預測方程可以表示為:yt=θ0+φ1y1+φ2y2+…+φpyt-p+εt-θ1εt-1-θ2εt-2-…-θqεt-q,式中,yt為樣本值;φi(i=1,2,…,p)和θj(j=1,2,…,q)為模型參數;εt為服從獨立正態分布N(0,δ2a)的白噪聲序列;p、d、q為模型的階數,通過對不同的p、d、q組合測試可以優化模型預測結果,并找到合適的模型參數。在進行ARIMA建模和預測時首先需對數據進行平穩化處理,對于非平穩數據序列需進行數據差分處理;進行模型識別和參數估計;根據參數效驗后選取合適參數的模型進行預測。
1.1.2 Elman神經網絡模型[4]。Elman神經網絡模型是典型的局部遞歸內時延反饋型神經網絡。除了輸入層、輸出層和隱層節點外,還有與隱層節點數相同的反饋層節點,其輸入是隱層節點輸出的一步延遲。設網絡外部輸入時間u(t)、反饋層輸出yc(t)、網絡的輸出y(t),網絡描述為:x(k)=f(w11xc(k)+w12u(k-1))、xc(k)=αxc(k-1)+x(k-1)、y(k)=g(w13x(k)),式中,w11為反饋層單元與隱含層單元的連接權矩陣;w12為輸入單元與隱含層單位的連接權矩陣;w13為隱含層單元與輸出單元的連接權矩陣;xc(k)、x(k)、y(k)分別表示k時刻反饋層、隱含層及輸出層的輸出;0≤α<1為自連接反饋增益因子。f一般為非線性作用函數,常取為sigmoid函數f(x)=11+e-x。
1.1.3 小波網絡分析模型。小波分析是一種時、頻多分辨率分析方法,是傅立葉分析發展史上的一座里程碑,由法國工程師Morlet于1980年在分析地震資料時提出,目前小波分析在信號處理、圖像壓縮、語音編碼、模式識別、地震勘探、大氣科學以及許多非線性科學領域內取得了大量的研究成果[12-14]。小波分析具有時、頻同時局部化的優點,被譽為數學“顯微鏡”,其關鍵在于引入滿足一定條件的基本小波函數ψ(t),再將基本小波函數ψ(t)經伸縮和平移得到一族函數ψa,b(t),公式為ψa,b(t)=|a|-1/2ψt-ba(a、b∈R,a≠0),式中,ψa,b(t)稱為分析小波或連續小波;a為尺度因子,反映頻域特性;b為時間因子,反映時域特性。一般對于連續小波信號f(t)∈L2(R),其小波變換定義為:Wf(a,b)=|a|-12∫+∞-∞f(t)Ψ(t-ba)dt,式中,Wf(a,b)為小波系數,ψ(t-ba)為ψ(t-ba)的復共軛函數。對于離散信號f(nΔt),其小波變換為:Wf(a,b)=|a|-12ΔtNk=1f(nΔt)Ψ(nΔt-ba),式中,Δt為采樣時間間隔,n=1、2、…、N,N為樣本容量。Wf(a,b)能同時反映時域參數b和頻域參數a的特性,它是時間序列f(t)或f(nΔt)通過單位脈沖相應的濾波器的輸出。當a較小時(高頻部分),對頻域的分辨率低,對時域的分辨率高;當a增大時(低頻部分),對頻域的分辨率高,對時域的分辨率低。因此,小波變換像顯微鏡一樣,實現了時間序列的時頻局部化。當時間序列分解成小波系數后,對時間序列分析就轉化為對小波變換系數的研究。
小波變換系數一般不直接進行數值積分,而采用快速小波變換法。快速算法不涉及具體的小波函數,計算簡單快捷。Mallat算法是在多分辨分析的基礎上提出的一種快速小波變換方法,包括分解算法和重構算法兩部分。Mallat小波快速分解算法為Cj+1=HCj
Dj+1=GCj(j=0,1,…,J),Mallat重構合成算法為Cj=H*Cj+1+G*Dj+1(j=J-1,J-2,…,0),式中,H為分解低通濾波器;G為分解高通濾波器;H*為重構低通濾波器;G*為重構高通濾波器;J為尺度數。利用Mallat小波快速分解可以將原始時間序列分解為d1、d2、…、dJ和cJ,分別為原始信號的高頻成分和低頻成分。可以用t時刻小波分解序列作為人工神經網絡的輸入,t+T時刻原始序列作為網絡輸出(T為預見期),來構造人工神經網絡模型。ANN模型的結構和權重大小正好體現了時間序列組成成分的重要性和它們之間的映射關系,以此方式建立的人工神經網絡模型,稱為小波網絡模型,簡計為WANN。
1.1.4 灰色預測模型[15]。灰色系統理論和方法是由鄧聚龍教授于1982年提出的,它主要以“部分信息已知,部分信息未知”的“小樣本”、“貧信息”不確定系統為研究對象,通過對“部分”已知信息的生成、開發,提取有價值的信息,實現對系統運行行為的正確認識和有效控制。灰色預測是指灰色系統根據過去與現在確知的或未確知的信息建立一個從過去延伸到未來的模型,從而確定系統在未來發展變化的趨勢,不追求個別因素的作用效果,力圖通過對原始數據的處理削弱隨機因素的影響來尋找其內在規律。一般由原始序列經累加處理生成序列后,用指數關系式擬合,通過構造數據矩陣建立n階微分方程模型,而在灰色模型中應用最廣泛的是GM(1,1)模型,它是單一序列一階線性動態模型,其基本原理為:設原始數列為X(0)={x(1)(0),x(2)(0),…,x(n)(0)},對原始數據序列進行一次累加得到X(1)={x(1)(1),x(2)(1),…,x(n)(1)},其中,Xi(1)=ik=1x(i)(0),再對X(1)建立白化微分方程dx(1)dt+ax(1)=u,式中,x為一次累加后的新數列,t為時間,a為系統發展灰數,u為系統內生控制灰數。
1.2 熵權理論 在項目評估或多目標決策時,常需考慮各個評價指標的重要程度,最直接和簡便的方法是給每個指標賦權,確定權重的方法主要有主觀和客觀賦權2種。熵權法是客觀賦權法的一種,利用指標的信息差異大小來表征指標的重要程度,當某項指標的值相差較大時,熵值較小,而反映該指標的權重較大,反之則表征該指標的熵權較小。
1.2.1 確定指標熵。根據m個評價指標和n個被評價對象,構造指標特征值矩陣,并對特征值進行歸一化處理,即可求得m個指標中第i個指標的熵Hi,Hi=-knj=1fijlnfij,式中,fij=yij/nj=1yij,k=1/lnn(假定當時fij=0,fijlnfij=0)。
1.2.2 確定指標的熵權。根據Hi=-knj=1fijlnfij計算出指標i的熵值Hi后,再計算指標i的熵權ψi=1-Him-mi=1Hi,其中,mi=1ψi=1。
1.3 優化組合預測模型 由于單一預測模型得到的預測值與實際值存在較大偏差,為了提高預測精度,因而在此采用熵權法對各預測模型的偏差值賦權后進行優化組合,進而得到優化組合預測模型Z,即Z=mi=1ψiMi(i=1,2,…,m),其中,Mi代表各單一預測模型。
1.4 研究區概況 廣西田東縣地理位置為106°05′~107°26′ E、23°16′~24°01′ N。太陽輻射強,日照充足,雨量較多,霜雪較少,無霜期長,夏季炎熱,冬季溫暖,夏濕冬干,屬南亞熱帶季風氣候區,常年降雨量為1 100 mm以上,但由于降雨在年內、年際分配不均,境內水利工程措施和非工程措施薄弱,主要為雨養農業地區,干旱頻發。因此筆者根據該區域的特征,試圖找到一種精度高的預測模型對年降雨量進行預報,以便為當地的抗旱管理機構對抗旱決策和農民生產布局提供依據。
2 實例驗證
首先根據田東縣1990~2007年的年降雨量序列資料利用ARIMA模型(簡稱A模型)、Elman神經網絡模型(簡稱B模型)、小波網絡分析模型(簡稱C模型)、灰色系統GM(1,1)模型(簡稱D模型)4種單一預測模型,采用MATLAB和SPSS等[16-18]進行分析計算,從4種單一模型模擬1990~2007年的年降雨量值結果及偏差百分比(表1)可看出,各單一預測模型結果均存在較大偏差,其中灰色模型的偏差最大,最大偏差達46.48%,ARIMA模型的最大偏差為17.85%,Elman神經網絡模型為17.78%,小波網絡模型僅有12.66%。從單一模型模擬的結果可以看出降水具有明顯的周期性和非線性等特征,因而小波網絡模型和Elman神經網絡模型的模擬精度相對較高,但整體的模擬精度尚需提高。因此對單一模型模擬的偏差值采用熵權法賦權后進行A-B-C、A-B-D、A-C-D、B-C-D、A-B-C-D 5種組合,并從5種組合模型中優選最佳組合預測模型A-B-C來對田東縣2008~2010年的年降雨量進行預測。
限于篇幅,在此僅以A-B-C組合模型利用各單一模型模擬的偏差值為例,采用熵權法對權重計算進行闡述,根據自回歸綜合移動平均ARIMA模型、Elman神經網絡模型、小波網絡分析模型分別模擬計算出的偏差值可構造一個Q3×19的評價矩陣,再對特征值進行歸一化處理后可得標準化矩陣如下:根據熵權法的有關計算公式,進而可分別得到ψ1=0.338 064、ψ2=0.330 775、ψ3=0.331 161,得到的優化組合預測模型Z=0.338 064A+0.330 775B+0.331 161C。
然后用A、B、C單一模型和優化的A-B-C組合模型對2008~2010年的實際年降雨量進行預測(表2),并對偏差結果進行對比驗證(表3和圖1),驗證標準采用文獻[19-20]的檢驗標準C、均方根誤差RMSE、模型效率EF,其中C和RMSE越小越好,EF越大越好,如果EF=1,表明預測值與實際值完全符合。驗證結果(表3和圖1)表明A-B-C的組合模型精度和擬合度最好。
3 結論
分析結果表明灰色模型的最大偏差達46.48%,ARIMA模型的最大偏差為17.85%,Elman神經網絡模型為17.78%,小波網絡模型為12.66%,而優化組合模型的最大偏差為
圖1 ARIMA、Elman神經網絡、小波網絡和組合模型的預測值對比11.20%,同時均方根誤差(RSME)和模型效率EF的結果是優化組合模型最好。由于單一模型在建模中存在固有的較大偏差問題,而通過熵權法對幾種單一模型按照多種方式進行優化組合后,可以充分利用各種模型的自身特性發揮其優勢,同時又可以對其模型的固有缺陷進行彌補,以達到對原始數據本身的真實性質體現并按照其發展規律進行拓展,因此優化組合模型的預測精度高于單一模型的精度,且預測結果與實際值擬合更好。基于熵權的優化組合預測模型能更高精度地對年降雨量進行預測,為諸如廣西田東縣以雨養農業為主的區域干旱預報提供了新的理論支持,為抗旱減災決策提供科學支撐,是一種行之有效的新方法。
參考文獻
[1] 袁文平,周廣勝.干旱指標的理論分析與研究展望[J].地球科學進展,2004,19(6):982-991.
[2] 萬玉文,蘇超,方崇.我國大中型灌區有效灌溉面積的灰色預測[J].人民長江,2011,42(15):96-98.
[3] 陳亞新,屈忠義,高占義.基于ANN技術的大型灌區節水改造后農田水環境預測[J].農業工程學報,2009,25(1):1-5.
[4] 朱益民,孫旭光,陳曉穎.小波分析在長江中下游旱澇氣候預測中的應用[J].解放軍理工大學學報:自然科學版,2003,4(6):90-93.
[5] 王俊松.基于Elman神經網絡的網絡流量建模及預測[J].計算機工程,2009,35(9):190-191.
[6] 韋慶,盧文喜,田竹君.運用蒙特卡羅方法預報年降水量研究[J].干旱區資源與環境,2004,18(4):144-146.
[7] 王紅瑞,康健,林欣,等.水文序列ARIMA模型應用中存在的問題與改進方式[J].系統工程理論與實踐,2008(10):166-176.
[8] 佟長福,史海濱,包小慶,等.基于小波分析理論組合模型的農業需水量預測[J].農業工程學報,2011,27(5):93-97.
[9] 郭其一,路向陽,李維剛,等.基于小波分析和模糊神經網絡的水文預測[J].同濟大學學報:自然科學版,2005,33(1):130-133.
[10] 王曉玲,孫月峰,梅傳書,等.基于組合預測方法的海河流域生活用水量研究[J].天津大學學報,2006,39(6):745-749.
[11] BOX G E P,JENKINS G M.Time Series Analysis,Forecasting and Control [M].San Francisco:Holden-day,1970.
[12] WANG H R,YE L T,LIU C M,et al.Problems existing in wavelet analysis of hydrologic series and some improvement suggestions [J].Progress in Natural Science,2007,17(1):80-86.
[13] 王文圣,丁晶,向紅蓮.小波分析在水文學中的應用研究及展望[J].水科學進展,2002,13(4):515-520.
[14] 王文圣,黃偉軍,丁晶.基于小波消噪和符號動力學的徑流變化復雜性研究[J].水科學進展,2005,16(3):380-383.
[15] 張倩,沈利,蔡煥杰,等.基于灰色理論和回歸分析的需水量組合預測研究[J].西北農林科技大學學報:自然科學版,2010,38(8):223-227.
16] 杜強,賈麗艷.SPSS統計分析從入門到提高[M].北京:人民郵電出版社,2012.
[17] 叢爽.面向MATLAB工具箱的神經網絡理論與應用[M].合肥:中國科學技術大學出版社,2009.
[18] 董長虹,高志,余嘯海.MATLAB小波分析工具箱原理與應用[M].北京:國防工業出版社,2004.
[19] 楊建偉.灰色理論在干旱預測中的應用[J].水文,2009,29(2):50-51.
[20] 周鴻飛,陳志斌,關欣.評價回歸模型擬合效果的數量化方法[J].沈陽農業大學學報,2001,32(6):455-458.