摘 要: 時間序列的預測有著廣泛的應用,如何提高預測的準確程度是人們關心的問題。將海水位數據作為研究對象,對多組不同長度的樣本,采用AR模型預測,將預測誤差與樣本長度的關系進行定量分析。另外,實驗得到的預測誤差與樣本長度的函數關系呈現出一定的冪函數特征,這有助于提高時間序列預測的準確程度。
關鍵詞: 時間序列預測; 海水位信號; AR模型; 誤差分析; 樣本長度
中圖分類號: TN911.6?34 文獻標識碼: A 文章編號: 1004?373X(2013)17?0122?03
時間序列預測在許多領域都有廣泛的研究與應用。如今關于時間序列的預測已經有一些常用的方法和模型[1],例如自回歸(AR)模型、滑動平均(MA)模型,以及自回歸滑動平均(ARMA)模型,綜合上述模型的優點,學者又提出求和自回歸滑動平均(ARIMA)模型。如何提高預測精度是人們關心的問題,在要求的預測誤差前提下,如何確定預測樣本的長度是值得研究的問題。文中探討了在應用同樣的預測模型條件下,不同的樣本長度對預測誤差的影響程度,將預測樣本分成多組,通過分析大量的樣本預測誤差數據與它們尺度的定量關系,采用多項式擬合與冪函數擬合來研究這種定量關系,推導出的函數關系有助于提高預測準確程度。
1 數 據
文中主要討論的是時間序列的預測問題,時間序列通常按固定的時間間隔采樣,通常有兩種采樣方法,第一種是取觀測時間點處被測參數的瞬時值,第二種是取相鄰時間點期間內的累計值。
海洋潮起潮落,波浪起伏不定。嚴格地說海水位是隨機變化的,海水位預測也是海洋科學中較有意義的熱點問題,海水位信號就是一類常見的時間序列。本文將其作為研究對象[2],研究數據取自美國國家海洋和大氣管理局(NOAA)下屬的國家浮標資料中心[3] (NDBC)的網站,NDBC在全球分布有眾多監測站點,監測站點的傳感器全天候采集氣象數據,每小時記錄一次被測參數。選取位于佛羅里達州松布列羅島的監測站SMKF1采集到的2012年海水位數據作為實驗的預測樣本。測得的數據表現了2012年該地海水位高度連續一整年的情況,不失一般性,采用監測站的TG01傳感器數據作為預測樣本。
2 預測方法
經過多年研究,人們對時間序列的預測已有了一定的理論和實踐經驗[4],許多學者提出過多種經典模型,使得時間序列預測有了一定的理論體系[5],例如AR模型、MA模型,還有ARMA模型。ARMA模型在理論上較為成熟,是人們廣泛研究的有限參數線性模型,它將非平穩時間序列平穩化,然后利用自回歸過程和滑動平均過程,根據樣本的自相關系數、自偏相關系數對時間序列進行參數估計和預測。本文的研究重點在于分析預測誤差與樣本尺度的關系,應用AR模型預測建模是為了簡化參數估計的過程,將樣本分成多組預測,能夠取得盡可能多的預測誤差值,而大量的實驗數據更有利于發現誤差遵從的規律。
3 預測過程
圖2畫出了20組樣本的預測均方根誤差,觀察到預測誤差隨樣本容量的增大明顯減小,當樣本容量達到1 000時,誤差水平已減小到非常可觀的程度。根據圖2描述的定量關系,在不改變預測模型和方法的前提下,繼續增大預測樣本大小對于誤差的改善作用已經很小了。下面將進一步分析上述定量關系符合什么函數關系。
4 數據分析
為了研究預測誤差與樣本尺度的函數特征,分別采用多項式擬合和冪函數擬合兩種方式進行探究。
圖3和圖4分別畫出了采用多項式擬合和冪函數擬合兩種方法對原始曲線逼近的模擬結果,通過兩張圖的對比,可以清晰地看到冪函數擬合的效果要更加符合時間序列預測誤差隨樣本的變化趨勢。
另外,通過擬合得到了確切的冪函數關系,可以很快地根據樣本大小來求出預測可以達到的精度,也可以通過預測精度來確定采集樣本的數量范圍,有助于減少研究中采集樣本的數量,節約了研究的時間和代價,這對時間序列的探究有一些實際的意義。
5 結 語
本文研究了時間序列中海水位這一類信號的預測問題,目的在于提高預測這一類時間序列的準確程度。本文的貢獻之處在于:
(1)著重分析了基于AR模型的序列預測誤差隨著樣本尺度變化的函數定量關系。
(2) 進一步采用多項式與冪函數擬合,得到上述定量關系符合冪函數的函數特征。
(3)推導出的函數關系可以計算一定誤差要求下需要的樣本長度。將來可以進一步研究基于FARIMA模型[7]的時間序列預測誤差與樣本尺度的函數關系。
參考文獻
[1] 張美英,何杰.時間序列預測模型研究簡介[J].江西科學,2009,27(5):697?701.
[2] LI M, CHEN Y Q, LI J Y, et al. H?lder scales of sea level [J]. Mathematical Problems in Engineering, 2012, 22: 2012.
[3] NDBC. Station list [R/OL]. [2007?07?16]. http://www.ndbc.noaa.gov/to_station.shtml.
[4] BHANSALI R J, KOKOSZKA P S. Prediction of long?memory time series: a tutorial review [M]// RANGARAJAN Govindan. Processes with Long?Range Correlations, Lecture Notes in Physics. Berlin: Springer, 2003, 621: 3?21.
[5] BOX G E P, JENKINS G M, REINSEL G C. Time series analysis: forecasting and control [M]. Hoboken: Wiley, 2008.
[6] 王正洪,蔡蕙,蔡冠玉.基于SAS軟件的城市電力需求 ARIMA 模型及預測[J].現代電子技術,2007,30(2):165?167.
[7] COULON M, CHABERT M, SWAMI A. Detection of multiple changes in fractional integrated ARMA processes [J]. IEEE Transactions on Signal Processing, 2009, 57(1): 48?61.
作者簡介:張正浩 男,1989年出生,江蘇無錫人,碩士研究生在讀。研究方向為時間序列預測、時頻分布等。
李 明 男,1955年出生,江蘇無錫人,博士,華東師范大學教授,博士生導師。主要研究方向為網絡流量、信號處理等。