王盼盼+郭林豪+王林枝+馬寨璞



摘 要:水溫是影響水質的重要因素之一,為了更好地預測水溫的變化趨勢,為水質管理及漁業生產提供科學依據,本文以太湖梅梁灣湖區為例,選取梅梁灣1995年1月-2005年12月的水溫數據,構建季節性時間序列模型,并以2006年的水溫數據進行驗證,結果顯示了模型擬合效果較好,預測值與實測值相對誤差較小,表明季節性時間序列在水溫預測方面有較好的應用性。
關鍵詞:季節性;時間序列;水溫;漁業
由于自然和人為因素的影響,對湖泊的水質造成了不同形式的危害。一旦湖泊發生富營養化,就會導致藻類及其他水生生物過量繁殖,造成水質惡化。這不僅對生態環境造成一定程度的破壞,而且對漁業的生產也會產生影響。然而,水中各影響因子之間關系比較復雜并且呈非線性,各因子對影響富營養化程度的大小不一,其中水溫作為影響藻類生長和繁殖的基本因子,與細胞內酶反應速率和植物的新陳代謝有密切的關系[1]。Agawin等認為水溫升高對藻類數量的增加有主導作用,在其他環境條件適宜的情況下,溫度每升高10 ℃都會引起藻類活動強度增加2倍[2]。所以了解水溫變化趨勢在一定程度上可以為預測湖泊水質提供科學依據,同時對漁業生產提供科學指導。
水溫數據是隨著時間的推移而記錄下的一系列的數據,它們往往具有季節性和周期性。對于這種序列的數據,我們往往稱為季節性序列。而處理這種序列數據的方法之一就是建立季節時間序列模型,即SARIMA模型,此模型主要應用于有長期趨勢與季節性波動的時間序列的分析預測中。本文將以太湖梅梁灣湖區1995年1月-2005年12月水溫數據為基礎,建立季節時間序列模型,并以2006年各月水溫數據為依據,對建立的SARIMA模型預測值進行驗證,為水溫及水質預測提供新思路。
1 SARIMA模型概述
SARIMA模型又叫季節性差分自回歸移動平均模型(Seasonal Autoregressive Integrated Moving Average),存在明顯的周期變化,這種周期變化主要是由于季節變化引起的。此模型的基本構成為SARIMA (p,d,q)(P,D,Q),共六個參數需要確定。其中P、D、Q主要描述季節性的變化,p、d、q用來描述去除季節性的變化,分別代表自回歸、差分、移動平均。SARIMA模型在國內外不同領域均有廣泛的應用,例如:Kutluk Kagan Sume等對開塞利及附近地區的電力需求應用SARIMA模型進行了預測[3];王瑩等用SARIMA模型對北京地鐵進站的客流量進行了預測[4];劉濤等將SARIMA模型應用于山東省手足口病發病趨勢的研究[5];田苗等基于條件植被溫度指數,用SARIMA模型對關中平原進行了干旱預測[6]。以上模型均很好地擬合了數據趨勢,預測結果與實際情況較吻合。
2 研究區概況
太湖是我國東部近海區域最大的湖泊,是我國第二大淡水湖泊。湖泊面積隨著自然和人為因素的影響已經逐漸縮減到2 427.8 km2,位于北緯30°55'40"~31°32'58"和東經119°52'32"~120°36'10"之間。梅梁灣是太湖北部的一個湖灣,面積約129.3 km2,平均水深2.3 m,是無錫市主要水源地及旅游區。梅梁灣東北部有梁溪河、五里湖注入,西北部與武進港、直湖港有水力聯系[7]。由于入湖河道及沿岸的污染影響,梅梁灣內藍藻水華現象嚴重。圖1為太湖區域的輪廓圖,方框中的區域為梅梁灣湖區。
3 數據來源
本文選取梅梁灣監測點1995年1月-2005年12月的水溫監測數據(由中國科學院太湖湖泊生態系統研究站提供)。數據為每月一次,共132個樣本數據。
4 梅梁灣湖區水溫季節時間序列模型建立
4.1 數據的預處理
首先我們對數據進行預處理,通過探索性分析,防止數據在建立SARIMA模型時存在由于錄入錯誤、缺失以及不相等的觀測區間或者不相關的時間等而出現的問題[8]。因為SARIMA模型是對序列相鄰時期的觀測值之間的相關關系進行的建模,不能應用于有缺失值的時間序列。對于數據中出現的缺失值,本文采取臨近年份之間的平均值來代替。而對于間隔不等的時間序列可以用差值法來轉換成等間隔的時間序列,本文中時間序列相等,為每月一次。
時間序列的確定性分析:
(1)對梅梁灣1995年1月-2005年12月的各月水溫數據做時間序列圖,如圖2(左)所示,可以看出該序列存在季節性周期波動,但是趨勢性并不明顯。
(2)計算觀測序列的樣本相關系數和樣本偏相關系數。在時間序列中,相鄰兩個時間點的觀測值具有一定的相關性,即所謂的自相關;它們的相關系數則成為自相關系數(ACF)。而偏相關系數(PACF)指的是在給定中間觀測值的條件下,時間序列的觀測值與過去觀測值的線性相關性的系數。梅梁灣樣本數據的自相關函數和偏相關函數圖如圖2(中、右)所示,由此可以看出序列為非平穩狀態,所以需要對此序列進行差分,從而轉換為平穩序列,繼續建立模型。
4.2 模型識別
所謂差分(Difference),即是用原序列的每一個觀測值減去前面一個觀測值,所形成的就是對原序列的一階差分。通過以上對梅梁灣1995年-2005年的水溫數據的分析得出此序列為季節性時間序列,故需對原序列進行一階季節性差分,從而消除其季節性因素,使序列得以平穩。差分后的序列圖以及自相關和偏相關圖如圖3所示。一階季節性差分后的序列圖的季節性已不明顯,但是自相關圖和偏相關圖的滯后12階處有明顯的峰值,說明此差分序列仍然存在一定周期性,故繼續進行單位根檢驗。所得結果如圖4所示,ADF值= -9.664 849,小于三個顯著性水平下的值,所以拒絕原假設,此序列沒有單位根,認為是平穩序列,可以建立SARIMA模型。
4.3 參數估計
模式識別之后,便可以對模型進行初步定階。但是符合模型模式的參數并不唯一,所以要考慮到所有可能的參數值。由于一階季節性差分后序列達到平穩狀態,所以不難確定d=0,D=1。對于p,q,P,Q的可能取值,可以由低階到高階擬合模型,根據BIC準則來確定最終的最優模型的參數。本文經過篩選,最小的BIC的值為1.664,最優模型為SARIMA(0,0,0)(1,1,1)。該模型的統計量結果見表1,R方值為0.936,說明擬合較好,顯著性的值大于0.05,表明殘差錯誤是隨機的。
4.4 模型診斷與檢驗
根據模型SARIMA(0,0,0)(1,1,1)擬合得到的殘差自相關及偏相關圖見圖5,從圖中可以看出殘差序列基本不存在相關性,位于置信區間內,可以看做白噪聲序列,故本文所建立的SARIMA(0,0,0)(1,1,1)模型是比較可靠的。
4.5 模型預測結果及分析
對模型進行檢驗之后就可以用所建立的SARIMA(0,0,0)(1,1,1)對梅梁灣1995年1月-2005年12月的水溫數據進行擬合,以及對2006年各月水溫進行預測,如圖6所示,從圖中可以看出擬合情況與原序列較吻合。表2記錄了2006年各月水溫的預測值以及當年的實測值,為了更好地驗證模型SARIMA(0,0,0)(1,1,1)的預測準確性,本文以相對誤差的大小作為衡量標準。經計算,相對誤差大都在15%以下,且誤差為零的有2個,誤差小于5%的有3個,誤差在5%~10%的有2個,誤差在10%~15%的有3個,誤差在15%~20%的有1個,誤差超過20%的有1個,總體來說平均相對誤差為7.9%。所以本文建立的季節時間序列模型有較好的預測效果,相對誤差在允許的范圍內。圖5 模型SARIMA(0,0,0)(1,1,1)殘差序列自相關和偏相關圖.
5 結論
本文對太湖梅梁灣湖區建立的季節性時間序列模型能夠很好地擬合水溫序列趨勢,同時經過2006年實測水溫數據的驗證,表明SARIMA模型的預測效果較為理想,能夠適用梅梁灣湖區的水溫預測。
時間序列應用領域比較廣泛,但是將季節時間序列應用于湖泊的管理及水質預測還不是很多,由此為研究水生態及漁業生產的科學管理提供了一種新思路。
參考文獻:
[1] 田志富.基于RDA的白洋淀浮游植物群落結構動態特征分析[D].保定:河北大學,2012
[2] N S Agawin, C M Duarte, S Agusti. Nutrient and Temperature Control of the Contribution of Picoplankton to Phytoplankton Biomass and Production[J].Limnology and Oceanography,2000,45(3): 591-600
[3] Kutluk Kagan Sumer, Ozlem Goktas, Aycan.Hepsag.The Application of Seasonal Latent Variable in Forecasting Electricity Demand as an Alternative Method[J].Energy policy,2009,37(4):1317-1322
[4] 王瑩,韓寶明,張琦,等.基于SARIMA模型的北京地鐵進站客流量預測[J].交通運輸系統工程與信息,2015(06):205-211
[5] 劉濤,王顯軍,姜寶法,等.SARIMA模型預測山東省手足口病發病趨勢[J].中國衛生統計,2013,30(05):697-700
[6] 田苗,王鵬新,韓萍,等.基于SARIMA模型和條件植被溫度指數的干旱預測[J].農業機械學報,2013,44(02):109-116
[7] 陳鳴,陸衛鮮,郁建橋,等.太湖梅梁灣水污染及藍藻分析計算[J].河海大學學報(自然科學版),2010,38(6):634-638
[8] 格雷特,李洪成.時間序列預測實踐教程[M].北京:清華大學出版社,2012