劉東君 李力 趙曼



摘要對時間序列水質預測問題進行研究,提出了基于最優加權法的組合預測模型。綜合利用了ARIMA預測模型、人工神經網絡模型和指數平滑法對水質數據進行預測,再將它們的結果利用最優加權組合法進行組合,得到組合預測模型結果。將組合預測模型應用到廣州長洲水質預測工作中,得到了較好的預測結果。組合預測模型結果的精度高于單一模型結果。組合預測模型能平衡單一模型的偏差,具有更好的適用性和更高的精度。
關鍵詞水質;組合預測;ARIMA模型;神經網絡模型;指數平滑法
中圖分類號S181;X824文獻標識碼A文章編號0517-6611(2015)28-254-03
Prediction for Time Series Data of Water Quality Based on Combination Prediction Model
LIU Dongjun, LI Li*, ZHAO Man
(Shenzhen Graduate School, Harbin Institute of Technology, Shenzhen, Guangdong 518055)
AbstractFor the issue of prediction for time series data of water quality, a combination prediction model based on optimal weighting method was presented. The ARIMA model, ANNs model and exponential smoothing model was used to predict the data of water quality. The results of the three methods were combined with the weights from optimal weighting method. Thus the combination prediction results were obtained. The combination prediction model was used to predict the data of water quality of Changzhou in Guangzhou, and good prediction results were obtained. The accuracy of the results of the combination forecasting model was higher than that of each single model. The combined forecasting model could balance the deviation of each single model, and had better applicability and higher accuracy.
Key wordsWater quality; Combination prediction; ARIMA model; ANNs model; Exponential smoothing method
隨著社會與經濟的發展,以及人們生活水平的提高,天然的水體不斷地遭到污染。水質預測是水環境研究中的重要工作,是水環境污染管理、保護的基礎工作之一,具有非常重要的理論與現實意義[1]。水質預測是利用歷史水質數據,通過一定的預測模型或方法來計算指標未來的可能值,或待預測水質指標隨時間的變化趨勢[2]。目前,常用的預測模型和方法包括時間序列模型、回歸分析法、灰色系統模型法和人工神經網絡模型等。不過,由于單一預測模型各自的建模機理與適用條件的不同,在不同程度上都會有一定的應用局限。Bates等于1969年首次提出了組合預測的思想[3],將幾種預測模型和方法進行組合,得到一個綜合的預測模型,從而提高了預測效果。Durdu mer Faruk將混合神經網絡和ARIMA模型相結合來對土耳其的大門德雷斯河進行水質預測,獲得了更高的精確度[4]。Xu等結合了小波變換與BP神經網絡建立短期小波神經網絡模型來預測密集的淡水珍珠養殖池塘水質[5]。Ding等將主成分分析(PCA)、遺傳算法(GA)和BP神經網絡(BP神經網絡)相結合建立模型來對太湖進行水質預測[6]。張穎等提出了一種將灰色模型和模糊神經網絡相結合的水質預測模型對太湖水域進行水質預測,結果表明,這種方式用來預測湖泊水質變化趨勢具有可行性,而且優于BP網絡模型[7]。
該研究分別利用ARIMA模型、神經網絡模型和指數平滑法對廣州長洲水質數據進行預測,再利用最優加權組合法對結果進行組合,以期得到精度高的預測結果。
1相關理論
1.1ARIMA模型
ARIMA 模型(Autoregressive Integrated Moving Average Model,簡記ARIMA),全稱是自回歸積分滑動平均模型。它是博克思(Box)和詹金斯(Jenkins)在20世紀70年代初提出的,因此又稱BoxJenkins模型。它是在將非平穩時間序列轉化為平穩時間序列的前提下,根據對因變量和因變量的滯后值以及隨機誤差項的現值和滯后值進行回歸所建立的模型[8]。ARIMA模型的基本原理:預測對象隨時間變化會形成一定的數據,用一定的數學模型來近似描述這些數據(這些數據可以看作一個隨機數列)。然后,通過識別這個數學模型,就可以從時間序列的過去值和現在值來估計未來值。
假設在時間t的一個觀測值為隨機變數Yt,那么隨機過程就可以看作一組Yt所構成的數列,通常情況下,ARIMA(p,d,q)模型一般記作Yt~ARIMA(p,d,q),它的定義如下:
φp(B)Wt=θq(B)at(1)
式中,φp(B)=1-φ1B-φ2B2-…-φpBp,
θq(B)=1-θ1B-θ2B2-…-θqBq,
Wt=(1-B)dYt。at為白色噪聲;p、d、q為非負整數;B為后移分算子。
1.2神經網絡模型
人工神經網絡模型是模仿人腦神經元網絡的模型,它借助網絡中各神經元間的相互作用來完成信息處理的功能[9]。人工神經網絡模型中較常用的是BP神經網絡模型,它是一種多層前饋網絡,其組成部分是正向的信號傳播與反向的誤差傳播,經過若干次的訓練,神經元連接的權值與閾值被不斷地修改從而滿足一定的訓練目標。BP神經網絡的組成包括輸入層、隱含層和輸出層,每一層有不同數量的節點,每個節點為一個神經元,上層節點與下層節點利用權值連接,而每層內之間的節點不存在連接。含有一個隱含層的3層結構網絡是典型的BP神經網絡,其模型結構如圖1所示。
BP神經網絡模型優點在于良好的非線性組合與強大的學習能力,它可使系統輸入與輸出間存在高度的非線性映射關系,理論上來講每一個連續函數均可以用它來逼近。
1.3指數平滑模型
指數平滑法是一種重要的數據預測方法,它可消除時間序列的偶然性變動,提高近期數據的重要性權重。其基本建模思想是對原始數據進行平滑處理,得到平滑值,再通過公式計算未來預測值。其優點是原理簡單、計算方便、適用性強,對短期和中長期數據都能進行預測[10]。
該研究采用模型為布朗二次多項式指數平滑法,此模型應用范圍廣泛,它不僅可避免了預測值滯后于原始值的問題,而且可跟蹤數據曲線的非線性變化趨勢。公式如下:
Ft+m=at+btm+0.5ctm2(2)
其中,at、bt、ct為模型參數,可根據原始數據進行估計[10];xt 是原始時間序列數據;m是未來預測的步數。
2組合預測模型
根據歷史數據利用不同的預測法進行建模,可得出不同的預測結果。將同一時刻不同方法得到的預測值加權組合起來,便得到了組合預測值:
(0)=k1·(0)1+k2·(0)2+…+kn·(0)n(3)
其中,k1+ k2+…+ kn=1,ki≥0(i=1,2,…,n),ki是不同預測模型結果的權重。
該研究利用3種方法對原始數據進行預測,并采用基于
調和平均的加權法[11]對3種預測法結果加權。在調和平均的加權法中,設第i種預測方法在時刻t的預測值是fit,i=1,2,…,n,則其基于調和平均加權的組合預測值ft為:
ft=1/ni=1kifit(4)
把預測誤差平方和最小作為目標,以權重歸一化為約束條件,由此構建規劃模型:
min J=Ni=1e2t
et=ni=1(kifit-1xt)
ni=1ki=1,ki≥0(5)
求解模型(5)即可得出權重ki,利用權重將各單一預測法的結果進行組合,得到組合預測模型結果。
3仿真數據與結果
3.1仿真數據與結果
利用最優加權組合預測模型對廣州長洲水質進行分析。選取氨氮為水質指標,對其濃度時間序列數據進行預測。原始數據為2010年第46周到2014年第20周的氨氮濃度值,來源于中國環境監測總站[12]。氨氮為水體里的營養素,它可導致水體富營養化,氨氮是水環境中主要的耗氧污染物,它對水中魚類和某些水生植物有毒害作用。
利用ARIMA模型、神經網絡模型和指數平滑法3種方法對氨氮濃度數據進行預測,各種方法的預測值如圖2所示;利用基于調和平均的加權法計算權值,其結果為k1=0315 5,k2=0.274 2,k3=0.410 3。利用權重對水質氨氮濃度的預測值進行組合,得到的組合預測結果如圖2所示。
3.2結果分析與檢驗
為考察預測結果的準確性和精度等,需要對預測結果進行檢驗。計算各種誤差指標[13]如表1所示。
預測模型平均絕對誤差(MAE)平均相對誤差(MPE)Theil不等系數(U)偏差比例方差比例協方差比例
ARIMA模型0.363 00.380 60.210 40.000 20.089 60.910 2
ANNs模型0.432 40.425 20.200 80.010 00.044 70.945 2
指數平滑法0.486 00.458 30.209 70.002 00.028 30.969 7
組合預測模型0.381 40.363 70.180 24.534 5×10-110.018 80.981 2
可以表示預測值和原始值間的離散程度,這3個指標都是越小越好。由表2可見,從MAE、MPE和U指標來看,組合預測的精度最高,其次是ARIMA模型,指數平滑法結果精度最低。
偏差比例與方差比例可度量預測值與原始數據在均值與方差方面的偏離程度,它們值越小,預測結果也越好;協方差比例度量了其余的非系統誤差,其值越大,預測精度越高。由表2可知,組合預測結果精度最高,ARIMA模型結果精度最低。
3.3預測未來濃度
用最優加權組合預測模型對未來一周,即2014年第21周水質中氨氮濃度進行預測,并與單純的ARIMA模型、ANNs預測模型和指數平滑模型預測結果比較,如表2所示。
由表2可知,對未來一周水質氨氮濃度的預測,組合預測法的絕對誤差和相對誤差都明顯小于其他模型結果。這說明了組合預測數值更接近水質的實際值,它更好地反映了水環境的實際情況,因此組合預測結果更加有效、可靠。
4結論
根據組合預測的思想,提出了基于最優加權的組合預測模型。分別利用ARIMA模型、神經網絡模型和指數平滑法對水質數據進行預測,再利用最優加權組合法對結果進行組合,從而得到組合預測結果。將組合預測模型應用到廣州長洲水質氨氮濃度時間序列數據預測中,得到了精度較高的預測結果。組合預測平衡了各單一模型的偏差,提高了預測精度,在水質預測工作中具有重要的實際意義。
參考文獻
[1] THOMANN R V.The future “Golden Age” of predictive models for surface water quality and ecosystem management [J].Journal of environmental engineering,1998,124(2):94-103.
[2] HIRSCH R M,SLICK J R,SMITH R A.Techniques of trend analysis for monthly water quality data[J].Water resources research,1982,18(1):107-121.
[3] GRANGER C W J,BATES J.The combination of forecasts [J].Operations research quarterly,1969,20(4):451-468.
[4] FARUK D .A hybrid neural network and arima model for water quality time series prediction[J].Engineering applications of artificial intelligence,2010,23(4):586-594.
[5] XU L Q,LIU S Y.Study of shortterm water quality prediction model based on wavelet neural network [J].Mathematical and computer modelling,
2013,58(3/4):807-813.
[6] DING Y R,CAI Y J,SUN P D,et al.The use of combined neural networks and genetic algorithms for prediction of river water quality[J].Journal of applied research and technology,2014,12(3):493-499.
[7] 張穎,高倩倩.基于灰色模型和模糊神經網絡的綜合水質預測模型研究[J].環境工程學報,2015,9(2):537-545.
[8] LIM C,MCALEER M.Time Series Forecasts of International Travel Demand for Australia[J].Tourism management,2002,23(4):389-396.
[9] 邱林,陳守煜,聶相田.模糊模式識別神經網絡預測模型及其應用[J].水科學進展,1998,9(3):258-264.
[10] LIU H,LIU Y,LI L.Study on application of exponential smoothing method to water environment safety forecasting[C]// 2010 International Conference of E-Product E-Service and E-Entertainment.Zhenjiang,China,2010:1-3.
[11] 韓冬梅,牛文清,楊榮.線性與非線性最優組合預測方法的比較研究[J].情報學報,2007,25(11):1672-1678.
[12] China National Environmental Monitoring Center.中國環境監測總站[DB/OL].[2015-01-01].http://www.cnemc.cn/citystatus/waterWeekReport.jsp.
[13] 周巧.湖北省GDP總量的時間序列預測模型的比較分析[J].中南財經政法大學研究生學報,2009(4):24-31.