丁董 吳俊 劉鍇
(大連理工大學交通運輸學院,遼寧大連 116024)
時間序列模型在烏魯木齊交通事故分析中的應用
丁董 吳俊 劉鍇
(大連理工大學交通運輸學院,遼寧大連 116024)
文章研究時間序列模型在烏魯木齊月交通事故中的應用。分析了烏魯木齊2007年1月至2013年12月的月交通事故數,建立一般時間序列ARIMA模型和季節時間序列SARIMA模型。結果表明剔除時間趨勢和季節性的SARIMA(0,1,1)(0,1,1)12模型適合研究烏魯木齊月交通事故數,利用模型進行短期預測并比較了2014年1月至8月的月交通事故數的實際值和預測值,驗證了模型的準確性和科學性,可為烏魯木齊政策制定者在預測未來交通事故時提供一定參考。
ARIMA模型 SARIMA 模型 交通事故 分析 預測
隨著國家西部大開發的深入進行以及對新疆發展的大力支持,烏魯木齊經濟建設迅速發展,汽車保有量急劇升高,引起交通事故頻繁發生。據統計,烏魯木齊2007年1月至2014年8月共發生交通事故5158起,其萬車事故率是北京萬車事故率的2.1倍,是上海萬車事故率的1.3倍[1],交通安全形勢十分嚴峻。
從統計學角度來說,在道路交通樣本數據比較少并且表現為嚴重的非平穩性時,獲得準確的預測結果并不容易。時間序列模型中的ARIMA模型及其擴展模型——SARIMA(seasonal ARIMA model)模型可以擬合數據少的樣本,而且在眾多的預測方法中,其短期預測精度較高[2]。目前,時間序列模型被廣泛地運用于醫療領域[3]和經濟領域[4],將模型運用于交通事故數據分析并進行短期預測的研究較少。
本文利用烏魯木齊2007年1月至2013年12月的月交通事故數建立ARIMA模型和SARIMA模型,找出最佳時間序列模型,再進行2014年1至8月短期交通事故數量的預測。

表1 所有擬合模型的參數比較
ARIMA 模型是一類隨機差分自回歸移動平均模型,包括自回歸模型(autoregressive model,簡稱AR模型)和移動平均模型(moving average model,簡稱MA模型)。該模型的一般形式為ARIMA(p,d,q),其中p為自回歸項數,q為移動平均項數,d為差分次數。對于p階的自回歸AR(p),模型可以寫為:Yt=β0+β1yt-1+…+ βpyt-p+εt。對于q階移動平均過程MA(q),模型可以寫為:Yt=μ+ εt+θ1εt-1+θ2εt-2+…+θqεt-q.。將AR(p)與MA(q)結合得到ARIMA(p,d,q)模型:Yt=β0+β1yt-1+…+βpyt-p+εt+θ1εt-1+…+θqεt-q。其中,εt為白噪聲,滿足期望值為0,方差相同且無自相關性。該方法將隨時間變化而形成的數據序列視為一個時間序列,用數學模型擬合后,可根據序列的過去和現在的值來預測其未來值。
SARIMA模型是一類季節性差分自回歸移動平均模型,由ARIMA 模型和隨機季節模型(stochastic seasonal model)組合而成。該模型的一般形式為SARIMA(p,d,q)(P,D,Q)S,其中P是季節自回歸階數,Q是季節移動平均階數,D為季節差分次數,月度數據s為12。相對于一般的ARIMA模型,SARIMA模型考慮時間序列中的周期性和季節性,可作為既有季節效應又有長期周期效應的時間序列的預測。
3.1數據預處理
本文使用的數據為2007年1月至2013年12月烏魯木齊市公安交警支隊接到報警后現場勘察的共5158起事故記錄的統計數據(其中2013年12月以前的數據用來擬合模型,之后的數據用來驗證預測的準確性)。烏魯木齊在每年的5月至10月事故數量有所增加,旅游旺季8月的事故數較多。將烏魯木齊的月交通事故進行對數化處理,消除原始序列的異方差[5]。
3.2ARIMA模型的建立與檢驗
將處理過的時間序列進行單位根檢驗,其檢驗統計量的值為-3.451小于5% 置信水平的值-2.904,說明該時間序列的波動性已經消除,成為平穩的時間序列,再進行一般時間序列ARIMA模型的擬合。
由于月交通事故取對數的時間序列沒有進行差分就達到平穩,所以d=0,通常情況下p,q≤3。當AR(p)和MA(q)的值小于0.05時,模型具有顯著性,才能擬合時間序列。通過比較顯著性時間序列模型的AIC和BIC的值來選取最佳擬合模型。其中,ARIMA(3,0,2)模型AIC和BIC的值最小,擬合程度最高。進行白噪聲檢驗后,發現其殘差序列的檢驗值為0.041小于0.05,說明該擬合模型不適合解釋當前時間序列,還存在有用信息未被提取。
3.3SARIMA模型的建立與檢驗
考慮烏魯木齊的月交通事故數具有周期性和季節效應,進行季節時間序列SARIMA模型的擬合。對原月交通事故取對數的時間序列進行一階差分后再進行十二階季節差分再進行單位根檢驗,其檢
············驗統計量的值為-11.410小于5% 置信水平的值-2.914,為平穩的時間序列。
由于月交通事故取對數的時間序列進行一階差分和十二階季節差分達到平穩,所以d=1,D=1,通常情況下p,q≤3,P,Q≤1。選取具有顯著性的時間序列模型,比較AIC和BIC的值,選取最佳SARIMA模型。
結果(表1)表明具有顯著性的擬合模型中SARIMA(0,1,1) (0,1,1)12模型的AIC和BIC的值最小,其白噪聲檢驗值為0.661遠大于0.05,殘差序列中有用的信息已被提取完,模型擬合程度很好。
3.4模型預測與分析
利用SARIMA(0,1,1) (0,1,1)12模型對烏魯木齊2007年1月至2013年12月的月交通事故數進行了擬合,并進行月交通事故數預測與對比。結果表明(圖1):模型預測值與實際值的變化趨勢非常接近,尤其是2008年和2013年的交通事故數量;但是部分月份數值存在偏差,如2009年7月的預測值略大于實際值,可能是模型未考慮烏魯木齊發生“7.5事件”后出行旅游人數減少等因素。
烏魯木齊的月交通事故數表現出明顯的周期性和季度性的變化。由于烏魯木齊每年10月至來年4月是冬季,雖然道路常有結冰現象,行車條件不好,事故風險較大,但是一方面總交通量有所減少,另一方面駕駛員安全意識更高,交通事故數反而比較少。5月至10月,天氣轉暖,市民出行增加,旅游人數也會增加,交通量激增,導致交通事故數增多,因此在旅游季節應加大交通安全管理力度。
相對一般ARIMA模型,考慮季節性的SARIMA(0,1,1) (0,1,1)12模型能更好的擬合烏魯木齊的月交通事故數。預測2008年2月至2014年8月的交通事故數,發現預測值與實際值基本吻合。SARIMA模型在短期交通事故預測中的成功應用為政策制定者在預測未來交通事故時提供一定參考。
[1]程巧夢,張廣泰,王立曉.烏魯木齊市道路交通事故特性及多發路段鑒別研究[J].交通與運輸(學術版),2014(A01):192-196.
[2]張輝,劉嘉焜,柳湘月.交通流的季節ARIMA模型與預報[J].天津大學學報,2005,38(9):838-841.
[3]吳家兵,葉臨湘,尤爾科.ARIMA模型在傳染病發病率預測中的應用[J].數理醫藥學雜志,2007,20(1):90-92.
[4]趙喜倉,周作杰.基于SARIMA 模型的我國季度GDP 時間序列分析與預測[J].統計與決策,2010,22:18-20.
[5]張娜,佟連軍.基于SARIMA模型的黑龍江省冰雪旅游國際需求預測[J].資源開發與市場,2012,28(7):660-663.