李志成,王 珂
(1.安徽交通職業技術學院城市軌道交通與信息工程系,安徽 合肥 230001;2.蘭州交通大學交通運輸學院,甘肅 蘭州 730070)
近年來,我國城市化不斷發展,機動車保有量和公路里程逐年增加,與此同時,我國的交通事故數量也在不斷增加,其中事故死亡人數是大家的關注點之一.交通事故的發生具有隨機性和不確定性,同時在特定的時空區域內又呈現出一定的規律性.基于此特性,為了進一步提高交通事故死亡人數的預測精度,國內外很多學者從不同角度對交通事故的各項指標進行分析和建模[1].
目前常用的交通事故預測方法有時間序列法、灰色預測、人工神經網絡預測等[2].任英和王軍雷等[3-4]分別建立交通事故面板模型,通過宏觀和微觀層面較全面的分析驗證了該模型可以很好的應用于交通事故的相關因素分析中.王揚等[5]采用灰色系統理論對我國交通事故總量進行了預測.杜曉燕等[1]剖析事故次數和相關致因,并采用灰色度法求解其之間的關聯度.張嘉琦和Xiao Kun Miao等[6-7]建立GM(1,1)模型預測了遠期交通事故的數量.馬國忠等[8]通過實例分析說明灰色-周期外延組合模型可用于交通事故死亡人數的動態預測.李相勇等[9]建立基于灰色預測方法的灰色馬爾可夫預測模型提高道路事故的預測精度.喬向明[10]運用線性回歸的方法建立11種預測方程模型,通過模型尋優預測31個省2004~2007年的交通事故死亡人數和直接經濟損失的最優預測結果.沈坤和裘晨璐等[11-12]采用多元線性回歸分析方法分別對交通事故影響要素進行了分析,建立交通事故預測回歸模型,為國家宏觀戰略層次相關決策、預測提供參考.王祥等[13]利用非線性回歸的方法預測全國道路交通事故發展形勢,結果表明該方法簡單易行且預測精度較高.朱茵[2]從公安交通管理的實際出發,提出基于非參數回歸的道路交通安全趨勢預測方法.Fagoyinbo等[14]利用最小二乘法來預測拉各斯州的道路交通事故總數和總人員死亡人數.孫浩和袁偉等[15-16]分別以我國機動車保有量、公路里程、人口、國民總收入等為參數,以我國交通事故死亡人數為基數建立最優組合預測模型,為提高預測精度提供理論依據.
此外,針對交通事故時間序列預測,國內外學者已開展了多方面研究,同時也頗有成效[17].例如:盧毅等[18]建立基于脈沖響應的城市交通協整模型,分析城市化與公共交通發展的內在聯系,結果表明兩者之間存在某種長期均衡關系.蔣宏等[19]針對北方某城市交通事故統計數據建立季節性時間序列模型,結果表明該模型能夠充分利用歷史數據從而減少誤差,具有良好的適用性.邴其春等[20]構建的向量誤差修正模型在預測交通事故時具有較好的預測效果.季彥婕等[21]建立道路交通事故多因素時間序列宏觀預測模型,結果表明該模型具有數據資料少,建模簡單,計算便捷的優點,能夠很好的應用于道路交通事故預測.劉淼[22]選取2007~2012年的某城市交通事故四項指標數據,采用時間序列模型和灰色理論對道路交通事故次數和死亡人數進行了具體的預測,表明其結果是可信的.王文博等[23]從時間序列出發,構建了基于相關向量機(RVM)的交通事故預測模型,較好驗證了1951~2013年的交通事故數.Chabok等[24]使用SARIMA模型分析評估過去幾年的事故死亡趨勢并預測未來4年的事故趨勢,該模型被認為是預測死亡趨勢的最佳擬合模型.Mutangi和Avuglah等[25-26]對于城市交通事故統計數據應用自回歸綜合移動平均(ARIMA)時間序列模型預測未來可能發生的年度交通事故數量.
綜上所述,交通事故在時間序列上是具有一定的可預測性.因此,本文將以我國交通事故死亡人數為基數,采用VAR模型、ARMA模型、VEC模型分別進行預測,為提高交通事故的預測精度提供合理有效的理論依據.
當VAR模型對于相互聯系的平穩時間序列變量是有效的預測模型,既可以做變量的指標分析,也可以做數據預測[27].
對于一個包含n個變量的p階向量自回歸模型,記為VAR(p),其公式為:
Yt=c+A1Yt-1+…+ApYt-p+BXt+εt
(1)
式(1)中,Yt是k維內生變量向量,εt是k維擾動向量,Xt是d維外生變量向量,T是樣本數量,k×k維矩陣A1,A2,…Ap和k×d維矩陣B是要被估系數矩陣,p為滯后階數.
對于不平穩變量,可以將數據取對數差分變為平穩變量,但這會改變其經濟意義;若數據滿足協整檢驗條件,用原始變量建立誤差修正模型(VEC模型).VEC模型是VAR模型的一種,其建模一般是含有協整關系的非平穩時間序列[27].
向量誤差修正模型可以表述為:
(2)
ARMA(p,q)模型是自回歸滑動平均模型英文簡稱,該模型應用于單個平穩時間序列建模,模型包含了p個自回歸項和q個移動平均項,其核心思想是要確定p和q這兩個參數[28-29].其中,p決定了我們要用幾個滯后時期的數據,而q決定了我們要用幾個滯后時期的預測誤差.ARMA(p,q)模型可以表示為:
Yt=φ1Yt-1+φ2Yt-2+…+φpYt-p+μt-θ1μt-1-θ2μt-2-…-θqμt-q
(3)
式(3)中,實參數φ1,φ2,…,φp稱為自回歸系數,θ1,θ2,…,θq稱為移動平均系數,均為模型的待估參數.
簡單平均法和加權平均法是目前而言較為常見的綜合集成預測方法.其中,簡單平均法是以平均數為基礎來確定數據預測值的方法,計算簡便,適用于觀測對象變化較小且沒有明顯趨勢的情況.該方法表述為[28]:
(4)
但是簡單平均預測法給每個預測模型分配相同的權重,對于模型的預測效果好壞并沒有顯示出明顯的差異性,為了彌補該弊端,有些學者就提出了加權平均預測法.該方法根據每個預測模型的歷史數據的優劣分配相應的權重,很好的體現了每個模型預測效果的好壞程度.該方法表述為:
(5)

(6)
式(6)中,|xi|為第i個模型的擬合誤差或者預測誤差的絕對值.
根據已有文獻和數據的可獲得性,本文選取中國1987~2017年的交通事故四項指標之一的事故死亡人數為研究對象.國民生產總值、總人口數、公路里程、機動車保有量分別為解釋變量y1、y2、y3、y4,交通事故死亡人數為被解釋變量y,變量均選取年度數據.圖1描述了我國1987~2017年的交通事故死亡人數變化趨勢,圖2是交通事故死亡人數影響因素的變化趨勢.文中各變量均來源于歷年的國家統計局中國統計年鑒.

圖1 我國1987~2017年的交通事故死亡人數圖 圖2 交通事故死亡人數影響因素圖
2.2.1 單位根檢驗
本文利用Eviews軟件對原序列進行單位根檢驗.單位根檢驗發現原序列t統計量的P值均大于0.05,這表明原序列為非平穩序列;所以對原序列進行ADF檢驗,結果如表1所示.可以得出,二階差分后序列平穩,且為二階單整.

表1 平穩性檢驗表
2.2.2 確定最佳滯后階數并建立VAR模型
在確定VAR模型的最佳滯后期時,綜合考慮評價指標LR、FPE、AIC、SC和HQ的值,結果如表2所示.從表2可以得出,滯后階數為2時評價指標的“*”號最多,因此將模型的最優滯后階數選擇為2,即建立VAR(2)模型.

表2 VAR模型滯后期的5個指標評價值
2.2.3 VAR模型檢驗
由圖3可以得出,VAR(2)模型的特征根全部落在單位圓曲線內,這表明建立的VAR(2)模型是穩定.

圖3 VAR(2)模型單位圓曲線圖 圖4 VAR(2)模型對交通事故死亡人數擬合預測和實際值對比圖
2.2.4 VAR模型預測結果
由圖4可以得出,1990~2000年之間預測值在原序列附近上下浮動,2000~2008年兩序列差值較大,之后又趨于近似.
2.3.1 Johansen協整檢驗
若序列非平穩,存在協整關系,且為同階單整,則可以建立VEC模型.根據表1得出y1、y2、y3、y4這四個因素的時間序列值二階差分經ADF單位根檢驗是平穩的,可以采用VEC模型.
Johansen協整檢包括跡檢驗(Trace test)和最大特征根檢驗(Max-eigenvalue),目的是為了防止偽回歸現象的出現.從表3可以得出,這兩種檢驗結果均顯示在5%顯著水平下存在2個協整關系,表明y和y1、y2、y3、y4之間存在長期均衡關系,因此可以通過y1、y2、y3、y4對y未來的變動趨勢進行預測.

表3 Johansen協整檢驗
2.3.2 VEC模型建立
經過協整關系檢驗,發現存在協整關系,對交通事故死亡人數進行VEC建模,模型擬合效果一般, 1990~2017年的交通事故死亡人數VEC建模預測的擬合效果如圖5所示.

圖5 VEC模型對交通事故死亡人數擬合預測和實際值對比圖 圖6 自相關及偏自相關圖
可以得出,1990~2000年之間預測值與實際值具有相同的發展趨勢,預測效果較好,2000~2017年之間預測值波動較大,預測效果較低.
2.4.1 平穩化處理
為判斷交通事故死亡人數的數據的平穩性,將1987~2017年的歷史數據定義為隨機序列y,且序列y是一個不平穩的時間序列,結果如表4所示,ADF檢驗表明,一階差分序列平穩,因此可以對其構建ARMA模型.

表4 交通事故死亡人數平穩化處理
2.4.2 模型識別與建立
根據圖6自相關和偏自相關圖觀察ACF和PACF,發現偏自相關系數截尾,自相關系數緩慢遞減且基本位于2倍標準差范圍內.為了進一步確定ARMA模型,通過建立相應的估計方程,根據ACI,SIC最小準則確認建立AR(2)模型,并得到模型AR(2)的擬合結果如表5所示.擬合結果中,AR(1)和AR(2)的P值遠小于0.05,證明該模型的擬合效果最為理想.

表5 AR(2)模型擬合結果
2.4.3 模型檢驗
通過殘差分析試驗來檢驗模型,本文基于AR(2)模型擬合結果的ACF和PACF確定殘差序列的獨立性,結果見表6.表6中殘差診斷滯后一階,Q-stat的P值=0.324 0> 0.05,擬合模型殘留誤差接受于白噪聲,殘差無序列相關,表明無遺漏變量.這在一定程度上體現了AR(2)模型交通事故死亡人數信息的充分性,因此該模型是適合的模型.

表6 AR(2)模型殘差診斷
2.4.4 模型預測
為檢驗模型的預測效果,采用靜態預測的方法,預測1990~2017年的交通事故死亡人數,并與實際情況比較,如圖7所示.可見,短期預測值與實際值的趨勢基本一致,預測結果良好,但整體還有一定的偏差,在預測精度上仍有很大的提升空間.

圖7 ARMA模型對交通事故死亡人數擬合預測和實際值對比圖
用VAR模型,VEC模型,ARMA模型分別對交通事故死亡人數進行預測,結果如表7所示,可見,VAR模型在三年的預測中表現出較高的穩定性,其平均誤差為-1.71%.而VEC模型預測效果最差,2015年誤差較大,為19.9%,其三年平均誤差高達16.48%.ARMA模型雖然在2016年的預測中達到-7.87%的誤差,但其三年平均誤差在10%以內,預測效果良好.整體而言,三種模型預測2015~2017年的交通事故死亡人數呈現平穩上升的趨勢,這與實際趨勢相符合.不過,單個預測模型的誤差仍然相對較大,容易出現不可靠因素,因此對我國交通事故死亡人數提出綜合集成預測的方法.

表7 三種模型預測結果與實際值的誤差率
由表7得出VEC模型預測誤差較大,不宜加入綜合集成預測,對VAR和ARMA模型進行集成,通過計算,兩種模型的集成預測權重結果如表8所示.根據1.4節提出的綜合集成預測方法計算出2015~2017年的交通事故死亡人數,結果及誤差如表9所示.

表8 集成結果權重分配
可以看出,綜合集成預測誤差較低,誤差波動較小,預測效果較好,很好的避免了單個模型預測的局限性.此外,為了比較樣本外模型的預測效果,采用動態預測的方法分別預測了2018~2020年的交通事故死亡人數如表9所示.從整體上看,事故死亡人數仍然呈現出穩定上升趨勢.

表9 交通事故死亡人數預測值及集成結果
本文分別建立VAR,VEC,ARMA三類模型來預測我國交通事故死亡人數.其中,VAR和ARMA模型的預測效果良好,而VEC模型有待改進.最后提出交通事故死亡人數的VAR和ARMA模型的綜合集成預測,通過計算得出,綜合集成預測的精度和穩定性較高.因此,綜合集成預測能夠有效提高我國交通事故死亡人數的預測精度,這對于交通預測有著很重要的借鑒意義.