李曉磊 肖進麗 劉明俊
(武漢理工大學航運學院1) 武漢 430063) (湖北省內河航運技術重點實驗室2) 武漢 430063)
基于SARIMA模型的船舶交通流量預測研究*
李曉磊1,2)肖進麗1,2)劉明俊1,2)
(武漢理工大學航運學院1)武漢 430063) (湖北省內河航運技術重點實驗室2)武漢 430063)
為提高船舶月交通流量預測精度,更合理地為港口規劃和發展提供決策依據,選用季節性差分自回歸滑動平均(seasonal autoregressive integrated moving average,SARIMA)模型對船舶月交通流量建立了預測模型,并利用Eviews軟件,以2007年1月-2015年12月荊州港船舶交通流月均流量統計數據為樣本進行了實證分析.對船舶月交通流量時間序列樣本數據進行平穩化預處理,消除其趨勢成分和季節因素;基于平穩化后的數據建立了SARIMA模型并對模型進行參數檢驗及最優模型選取;并利用所獲得的最優模型SARIMA(2,0,0)(1,1,1)12對2008年1月-2016年3月荊州港船舶交通流月均流量進行預測,并將預測結果與AR(1)模型、季節指數模型的預測結果進行對比分析.對比分析結果表明,SARIMA的預測精度更高,更能反映船舶月交通流量的變化情況,利用該模型對船舶月交通流量進行建模預測具有較好的實用性.
船舶交通流;時間序列;SARIMA模型;預測
船舶交通流量的預測主要有年交通流量預測和月交通流量預測兩種.對于月交通流量預測,受氣候條件、通航水位等因素的影響,船舶交通流量量統計會存在一定的周期性和季節性特征.目前交通流量預測方法主要有神經網絡法、時間序列預測法、支持向量機預測法、組合預測法等[1-5],許多文獻也基于上述方法對船舶年交通流量和月交通流量進行了預測[6-8],但大多數有關船舶月交通流量預測的研究未考慮季節性影響,從而導致預測結果誤差較大.SARIMA模型是一種改進的差分自回歸滑動平均(autoregressive integrated moving average model,ARIMA)模型,對于周期性或季節性的時間序列具有較高的預測精度,因此,文中基于SARIMA模型,選取實例通過EVIEWS軟件進行月度船舶交通流量統計數據的模型識別、檢測及參數選取[9],完成船舶月交通流量預測與分析.
SARIMA模型是隨機季節模型與ARIMA 模型的組合[10].如果時間序列具有平穩性,則可直接建立ARMA(p,q)模型,但對于具有某種趨勢的非平穩時間序列,就需先對其進行平穩化處理.若采用差分方法對非平穩時間序列進行平穩化處理[11],則一個d階單整時間序列ARIMA(p,d,q)模型可建立為
(1)式中:?(B)=1-?B-?2B2-…-?pBp是自回歸算子;p為自回歸階數;θ(B)=1-θ1B-θ2B2-…-θqBq為移動平均算子;q為移動平均階數;d為非平穩時間序列成為平穩時間序列所需做的差分次數.
對于非平穩時間序列進行平穩化處理,要判斷時間序列的趨勢是否消除,可觀察經過d階差分處理后序列的自相關分析圖中自相關系數是否快速趨于零.
SARIMA模型對具有季節性波動的時間序列有較高的預測精度.SARIMA模型又稱ARIMA(p,d,q)(P,D,Q)S模型,其一般形式
式中:S為季節性周期長度;φP(Bs)和ΘQ(Bs)分別為季節P階自回歸算子和Q階移動平均算子;P為季節性自回歸階數;Q為季節性移動平均階數,D為季節性差分階數.當P=Q=D=0時,SARIMA模型變為非季節性ARIMA模型.
SARIMA模型具體建模過程如下[13].
1) 序列平穩性預處理 通過時序圖和序列相關圖判斷序列是否具有趨勢性和周期性,進一步確定是否需進行逐期差分和季節性差分,從而確定d和D的值,最后用ADF或pp檢驗逐期差分和季節性差分處理后的序列是否已經平穩.
2) 模型初步定階 依據逐期差分和季節性差分處理后平穩序列的自相關函數和偏自相關系數特點,以及其出現周期性滯后顯著不為0的位置選擇合適的p,q,P,Q.
3) 最優模型選擇 通過AIC準則、SC準則對p,q,P和Q的可能取值進行比選,最后確定最優SARIMA模型的p,q,P和Q的取值.
4) 模型診斷與檢驗 根據序列t檢驗或殘差的Q-統計量的值判斷殘差序列是否為白噪聲序列,從而確定模型的合理性.
5) 預測 利用確定的最優SARIMA模型對時間序列進行預測.
為驗證SARIMA模型在船舶交通流量預測中的有效性,選取2007年1月—2015年12月荊州長江公路大橋斷面船舶流月均流量統計數據為樣本建立SARIMA模型,并基于Eviews對2008年1月—2016年3月船舶交通流月均流量進行預測,并與ARIMA模型、季節指數平滑模型的預測結果以及實際值進行對比分析.
3.1 樣本時間序列平穩性預處理
對選取的樣本數據繪制時序圖(見圖1),由圖1可見,該時間序列并未有持續上升或下降的趨勢,但含有某種周期性.根據ADF檢驗(見圖2),t統計值小于顯著性水平為1%的臨界值,拒絕存在單位根的原假設,表明序列是平穩的,不需要進行逐期差分處理.

圖1 樣本時間序列圖

圖2 時間序列ADF檢驗圖
對選取的樣本序列做自相關圖和偏自相關分析,觀察獲得的自相關和偏自相關分析圖(見圖3),可見自相關系數和偏相關系數在12階、24階等位置出現最大峰值,表明序列有周期為12個月的波動.對序列進行1階季節差分并做相關性分析,見圖4.

圖3 序列自相關圖和偏自相關圖

圖4 序列1階季節差分后的自相關和偏相關圖
根據圖4中序列1階季節差分自相關和偏自相關系數特點,PAC(partial correlation)函數在二階截尾,AC(autocorrelation)函數呈現快速衰減且在一階截尾,但樣本的自相關系數和偏相關系數仍滯后12期周期性的顯著不為0,可知季節性依然存在.經試驗,對序列進行2階季節差分后發現季節性并沒有顯著改善,故只做1階季節差分即可.
通過對序列1階季節差分的ADF檢驗(見圖5),t統計值小于顯著性水平為1%的臨界值,拒絕存在單位根的原假設,表明序列仍平穩,可進行SARIMA建模.

圖5 序列1階季節差分ADF檢驗圖
3.2 SARIMA模型定階與檢驗
由于樣本時間序列不需進行逐期差分處理,故d取值為0,而樣本序列進行了1階季節差分后季節性基本消除,故D取值也為1.同時,由樣本序列的自相關圖和偏自相關圖,可供選擇的(p,q)組合有(1,1),(2,0),(2,1)和(3,0).此外,由于樣本序列進行季節差分后,序列的自相關和偏自相關系數周期性滯后12期,且在12期時顯著不等于0,則P=Q=1.
據此,選擇不同(p,q)組合,建立SARIMA(1,0,1)(1,1,1)12,SARIMA(2,0,0)(1,1,1)12,SARIMA(2,0,1)(1,1,1)12及SARIMA(3,0,0)(1,1,1)12四種SARIMA模型并對2008年1月-2016年3月數據進行試預測,其相關檢驗結果見表1.

表1 四種SARIMA模型相關檢驗結果
由表1可知,(p,q)組合為(2,0)時所構建的SARIMA(2,0,0)(1,1,1)12模型的AIC值、SC值以及試預測的平均絕對百分誤差(MAPE)都是最小;此外,通過對該模型殘差序列進行白噪聲檢驗(見圖6),ACF和PACF都沒有顯著異于零,Q統計量的P值都遠遠大于0.05,故殘差序列可認為白噪聲序列,表明該模型提取的序列信息比較充分,選擇SARIMA(2,0,0)(1,1,1)12模型為預測模型是合理的.

圖6 殘差白噪聲檢驗圖
3.3 ARIMA模型與季節指數模型建模
1) ARIMA模型建模 根據樣本序列自相關和偏相關圖(見圖3),可看到樣本序列的自相關函數拖尾且偏相關函數一階截尾,符合AR(1)模型的特點,且考慮到AR(1)模型是線性方程估計,相對于ARIMA模型的非線性估計容易,故實際建模時用AR(1)模型替換掉相對應的ARIMA(1,0,0)模型,與SARIMA(2,0,0)(1,1,1)12進行對比.AR(1)模型的t檢驗結果見圖7,此模型的回歸系數通過了顯著性t檢驗,且絕對誤差較小,AR特征根絕對值小于1,表明該模型基本穩定,擬合準確度也在可接受的范圍內.

圖7 非季節性AR模型的檢驗結果圖
2) 季節指數模型建模 季節指數平滑模型有Holt-Winters乘法模型和 Holt-Winters 加法模型兩種,利用這兩種模型對原樣本時間序列進行建模預測,其模型檢驗結果見表2.

表2 季節指數平滑模型相關檢驗結果
由表2可知,Holt-Winters 加法模型預測結果的均方根誤差和殘差平方和均較小,故本文選擇擬合較好的Holt-Winters 加法模型與SARIMA模型進行船舶交通流預測比較.
3.4 預測結果與對比分析
根據建立的SARIMA(2,0,0)(1,1,1)12模型、AR(1)模型和Holt-Winters 加法模型對船舶交通流量數據進行預測對比分析,圖8~9分別為SARIMA(2,0,0)(1,1,1)12模型與AR(1)模型和Holt-Winters 加法模型交通流量預測對比,表3則為這3種模型于2016年1—3月期間的預測結果與此期間真實數據的比較結果.

圖8 SARIMA(2,0,0)(1,1,1)12和 AR(1) 模型預測對比圖

圖9 SARIMA(2,0,0)(1,1,1)12和 Holt-Winters加法模型預測對比圖

模型時間預測值/(艘次)實際值/(艘次)誤差/(艘次)相對誤差/%AR(1)2016-0156775739-62-1.02016-025260392713334.02016-0342155703-148-26.0加法模型2016-0156215739-118-2.02016-0240813927154 3.92016-0351735703-5309.3SARIMA(2,0,0)(1,1,1)122016-0153985739-341-5.92016-0239923927651.62016-0353365703-367-6.4
從表3可知,AR(1)模型和Holt-Winters 加法模型預測的相對誤差較大,而SARIMA(2,0,0)(1,1,1)12模型預測的相對誤差控制在7%內,較AR(1)模型和Holt-Winters 加法模型有更高的準確度且預測結果更貼合實際,擬合度較好,適用性更強.
文中給出了利用SARIMA模型對船舶月交通流量進行預測的方法,并與ARIMA模型和Holt-Winters 加法模型進行了實證對比分析.對比分析結果表明,SARIMA模型能夠有效地將船舶月交通流量的季節相關性表達出來,比ARIMA模型和季節指數平滑模型的預測精度更高,更能反映船舶月交通流量的變化情況,因此利用該模型對船舶月交通流量進行建模預測具有較好的實用性.但是,由于該模型的建模過程完全依賴于數據本身,不考慮外界影響因子,是一種完全數據驅動的方法,因此具有一定的局限性,需進一步深入研究.
[1]梁德陽.基于SARIMA和BP神經網絡的時間序列組合預測模型研究[D].蘭州:蘭州大學,2014.
[2]毛玉鳳.基于時間序列分析的電力需求預測及季節調整模型的研究[D].北京:北京工業大學,2013.
[3]XIAO X P, ZHENG R J. Multi-level recursive method of short-term traffic flow forecast based on PGAGOGM(1,1) model[J]. Management Science and Engineering,2011,53:55-58.
[4]魏杏.基于指數平滑法和ARIMA的交通量組合預測模型應用研究[D].鄭州:鄭州大學,2014.
[5]CONG Y L, WANG J W, LI X L. Traffic flow forecasting by a least squares support vector machine with a fruit fly optimization algorithm[J]. Procedia Engineering,2016,137:157-162.
[6]黃智仟.基于神經網絡的船舶交通流量預測研究[D].大連:大連海事大學,2015.
[7]薛潔,史忠科.基于混沌時間序列分析法的短時交通流預測研究[J].交通運輸系統工程與信息,2008,8(5):69-72.
[8]YIN Y, SHANG P J. Forecasting traffic time series with multivariate predicting method[J].Applied Mathematics and Computation,2016(1):5-11.
[9]羅媛媛.基于EVIEWS的短時交通流分析及預測[D].成都:西南交通大學,2009.
[10]黃毅.SARIMA模型在月平均溫度時間序列中的應用[D].北京:北京郵電大學,2012.
[11]郝勇,朱海燕.基于客流n日均量的地鐵客流量的時間序列分析[J].鐵道運輸與經濟,2009(10):42-50.
[12]張輝,劉嘉琨,柳湘月,等.交通流的季節ARIMA模型與預報[J].天津大學學報,2005,38(9):838-841.
[13]王瑩,韓寶明,張琦,等.基于SARIMA模型的北京地鐵進站客流量預測[J].交通運輸系統工程與信息,2015,15(6):205-210.
Vessel Traffic Flow Prediction Based on the SARIMA Model
LI Xiaolei1,2)XIAO Jinli1,2)LIU Mingjun1,2)
(SchoolofNavigation,WuhanUniversityofTechnology,Wuhan430063,China)1)(HubeiKeyLaboratoryofInlandShippingTechnology,Wuhan430063,China)2)
To improve the predictive accuracy of vessel traffic flow and provide more reasonable decision-making basis for port planning and development, Seasonal Autoregressive Integrated Moving Average (SARIMA) model is put forward to predict the monthly traffic flow of vessel. Based on the software Eviewsis, empirical analysis is carried out for the vessel traffic flow monthly statistical data of Jingzhou port during January 2007-December 2015. Firstly, the sample data from the vessel traffic flow monthly statistics of Jingzhou port is executed stationary pre-process, in order to eliminate the trend component and seasonal factors of the statistical data. Afterwards, the SARIMA model based on the data through stationary pre-treatment is set up. Then the model parameters are test and the optimal model SARIMA(2,0,0) (1,1,1)12is validated. Finally, the prediction of the vessel traffic flow during January 2008-March 2016 of Jingzhou port is made, and the prediction results are compared with the those using AR (1) model and seasonal exponential model. The comparison results show that the SARIMA prediction accuracy is higher, and can reflect the monthly change characteristics of vessel traffic flow more accurately.
vessel traffic flow; time series; SARIMA model; prediction
2017-01-13
*湖北省自然科學基金面上項目資助(2015CFB282)
U491.14
10.3963/j.issn.2095-3844.2017.02.030
李曉磊(1993—):男,碩士生,主要研究領域為交通信息處理及交通安全保障技術