關銳



摘 要:本文討論的主要問題是時間序列分析和在環境監測污染預測范圍的應用。本文使用了紅河州河口縣紅河某個支流河流的單一點位的六年數據,使用時間序列arma(自回歸滑動平均模型)模型對該河流單一點位渡口進行模型擬合。并使用擬合出的arma(3,3)模型對該點位未來兩年數據進行預測,并對2005到2013年的數據也做了預測,并把2005到2013年預測的數據與2005到2013年預測的數據進行對比,發現平均誤差為8.25%,達到可接受水平,所以該模型可以用來對該點位的五日生化需氧量,進行污染預測,預測的數據能很好的幫助環境管理決策。
關鍵詞:環境監測;污染;時間序列;arma;預測
中圖分類號:X52 文獻標識碼:A 文章編號:1671-2064(2017)11-0011-02
1 時間序列技術和ARMA模型介紹
1.1 時間序列
所謂的時間序列是用時間記錄列表排序的數據為研究依據,觀察時間序列,尋找他的改變軌跡,預測其未來發展趨勢。在日常生產、生活中,時間序列應用比比皆是。作為數理統計學的一個專業分支。時間序列遵循數理統計的基本原理[1]。
1.2 ARMA基本概念
廣泛穩定:隨著時間的推移,該序列的統計特性不改變只是時間間隔相關。AR模型:AR模型另外的稱呼為自回歸模型,回歸模型預測過去和現在的觀測干擾值是一個數學公式的方式線性組合。自回歸模型的數學公式為:
式(1)中:y為自回歸模型的階數(i=1,2,...,p)為模型的待定系數參數,ξ為誤差,序列為一個平穩時間序列。
MA模型:MA模型也稱為滑動平均模型。它對數據預測形式是通過過去和現在的干擾干擾值預測值的線性組合。數學公式移動平均模型:
式(2)中:q是這個模型的階的系數;(J=1,2,...,q)為待定系數模型;ξ為平均誤差;函數為平穩時間序列函數。
ARMA模型:自回歸模型和滑動平均模型的組合,便構成了用于描述平穩隨機過程的自回歸滑動平均模型ARMA,數學公式為:
2 建模與預測內容及假設
2.1 假設
(1)假設:河口縣GDP保持年均每年增長12%以上,人口自然增長率控制在每年4‰以內;(2)假設河口縣大部分排污企業達標排放,大部分生活污水得到收集;(3)認為未來將不會有大的污染事故和其它不可抗拒的自然和社會因素。
2.2 內容
(1)依據時序圖來確定序列的穩定性;(2)考察有關圖,初階確定移動平均階數q和自回歸階數p;(3)利用經典B-J法利用紅河州八年水質數據建立適當的ARMA()模型,并利用該模型進行短期預測。
2.3 繪制序列時序圖
我們對序列做ADF檢驗,出現序列圖1所示,時序圖得到108個數據因為序列沒有明顯的上升和下降趨勢,所以是穩定的,判斷是粗糙的,需要用統計方法來驗證[2]。
2.4 ADF檢驗序列的平穩性
由時序圖和相關圖,以確定該序列是平穩的,我們通過統計檢驗,以進一步證實這一結論,雙序列生產,點擊查看/單位根檢驗,在圖1的對話框中的外觀,我們發現該序列本身沒有明顯的波動趨勢,所以選擇常數項,做沒有傾向測試模型的選擇,其他使用默認設置,試驗結果表明,拒絕零假設,存在一個單位根平穩序列。單位根檢驗結果圖2所示。
2.5 模型定階
它是在偏相關系數當K=3快速向0收斂所以是3階圖,因此AR擬合(3);圖K=1的自相關系數為0,其置信帶的邊緣為K=3,標準偏差的2倍,所以考慮擬合ma(2)或ma(3);在同一時間擬合考慮ARMA(3,1)模型。
2.6 模型參數估計
(1)嘗試AR模型。經過模型識別所確定的階數,可以初步建立AR(3),可用菜單或命令兩種方式分別建立。在主菜單中選擇快速/估計方程,在定義方程空缺區輸入x ar(1) ar(2) ar(3),其中ar(i)(i=1,2…)表示自回歸系數。在已知的伴隨概率下,AR(I)(I =1,2,3)顯著性很高,在表的底部給出的是滯后多項式的倒數根,只有當這些值都落在單位圓內,這個過程才是平穩的。由伴隨概率可知,AR(i)(i=1,2,3)均高度顯著,表中最下方給出的是滯后多項式的倒數根,只有這些值都在單位圓內時,過程才平穩。通過使用復雜根的檢驗理論的復數知識,知道三個根都落在單位圓。AIC,SC準則是重要的標準在選擇模型中,在比較中,我們希望這兩個指標能最小。DW統計量是對殘差的自相關檢驗統計量,在2附近,說明殘差不存在一階自相關[3]。
(2)嘗試MA模型。根據上述定義,方法,方程類型的空白區域鍵入X ma(1)ma(2)(當中(MA(J),J=1,…代表移動平均系數)或在主菜單視窗鍵入ls x ma(1) ma(2)。從MA(2)伴隨概率的估計結果,系數不顯著,因此消除,繼續做估計模型。該表的底部是多項式 的根滯后的倒數,惟有這些值都落到單位圓內,整個方程是個平穩的過程,可以發現,它滿足方程的要求,即穩定。
2.7 嘗試ARMA模型
通過模型發現,P可以等于3,Q值可以等于3,根據不同的組合來選擇優化模型,在主菜單視窗命令欄鍵入ls x ar(1) ar(2) ar(3) ma(1),敲擊回車,即獲得參數估計見圖3所示。
從參數估計的結果可以看出,該系數不顯著,表明該模型是不適合ARMA(3,1)模型。經過進一步甄別,并刪除不明顯逐漸滯后或移動平均期限,因此最后得到下面的ARMA(3,3)模型:
Y(t)=-0.222189*Y(t-1)-0.139276*Y(t-2)-0.917088*Y(t-3)+e(t) -0.097127e(t-1) -0.096037*e(t-2) -0.998908*e(t-3)+1.532543
由以上我們可以知道,我們能夠根據原則創建一個更合適的模型,一樣的平穩序列,但數值對比AIC和SC,和酌量其余的檢驗統計量,基于ARMA模型的簡單的規定,所以ARMA(3,3)模型是最佳的選擇。
2.8 模型預測
靜態預測中,預測值存儲在xf中,X和XF圖4部分所示,我們可以看到靜態預測效果很好。
根據2013年的預測結果,相對誤差及預測精度整體上各期的預測值與實際值間的相對誤差較小,根據計算均值絕對百分誤差為8.1087,說明模型的預測效果較好。
2.9 預測誤差分析
對于使用ARMA模型進行水質污染分析,我們是在不考慮眾多影響水質的因素的條件下進行,但是在實際中紅河州的河流水質污染是整個存在有不確定性成分、變化比較難以預測的情況,因此就會有一定的誤差。另外,水質污染預測是一種有條件的預測,是假定工業企業、人口增長、面源污染、天氣氣候等的影響變化基本是在過去變化基礎上的延伸或重復,但在實際中往往并非如此,社會環境在不斷變化和發展,工業企業、人口增長、面源污染、天氣氣候影響因素在不斷產生與變化,所以造成了預測結果與實際結果的偏差,產生了一定的誤差。當然造成誤差的原因還很多,如計算上有差錯,或者建立的預測模型不夠精確等等。
3 結語
以ARMA模型分析為主,對河口縣渡口斷面五日生化需氧量進行了預測和對比分析,取得了良好的效果,顯示了ARMA模型在河流污染物預測有著廣闊的應用前景。通過對ARMA時序模型用于預測研究進行深入的了解,我們也發現了一些不足之處,比如說ARMA模型只考慮在一段相當長的時間內數據的相關性,就是說只考慮了數據的時間維度,而忽略了其他因素,這在一定程度上便于預測和使用,但在實際中,河流的污染因子是由很多因素造成的,所以ARMA模型預測的準確度和可用性在一定程度上還有待研究。
參考文獻
[1]田錚.時間序列的理論與方法[M].北京:高等教育出版社,2001.
[2]何書元.應用時間序列分析[M].北京:北京大學出版社,2005.
[3]潘紅宇.時間序列分析[M].北京:對外經濟貿易大學出版社,2006.