王羽塵,陸 濤,馬健霄,劉宇航,白瑩佳
WANG Yuchen, LU Tao, MA Jianxiao, LIU Yuhang, BAI Yingjia
(南京林業大學 汽車與交通工程學院,江蘇 南京 210037)
(College of Automobile and Traffic Engineering, Nanjing Forestry University, Nanjing 210037, China)
高速公路由于其同向性、便捷性以及舒適性等優勢[1],在國家公路網中起著至關重要的作用。據統計,2018 年我國高速公路里程達到14.26 萬公里,每年有近5%左右的增幅[2]。由于高速公路的行駛要求、復雜的路況環境等因素,一旦發生事故,易造成交通擁堵,產生次生事故,帶來更大的傷亡和損失。通過研究不同因素對事故形態的影響程度[3],可以從不同角度分析事故成因,對于減少輕微交通事故和降低重大事故的人員傷亡、財產損失具有重要的意義。
由于交通事故數據大多具有離散度不足(低擴散)、低密度(數據的樣本均值較低) 等特征[4],國內外學者利用數學模型圍繞事故發生的道路、環境及車輛等因素與交通事故形態的關系進行系統研究,通過分析數據分布特征并選用與之匹配的模型,可以降低參數估計的誤差,精確刻畫不同因素對事故形態的影響。通過整理不同文獻,得到不同模型以及其適用條件和不足,歸納總結如下:
(1) 當數據特征為非負整數時,常采用泊松分布模型和負二項/泊松-γ 分布模型,此類模型易于估計,且后者可以應用于過度離散的情況,但無法描述離散度不足、低密度、樣本量少的情況。Xie 利用貝葉斯Logit 模型研究駕駛人特征、碰撞車輛以及道路條件對事故形態及嚴重程度的影響[5]。馬聰從事故發生地點、道路條件、車輛類型3 個方面改進非線性負二項預測模型[6]。
(2) 當數據特征為大量零值時,常采用零膨脹泊松和零膨脹負二項,后者可以處理0,1 的數據集,但無法應用低密度、小樣本的情況。李蕊選取道路、環境、駕駛員及車輛等因素,將零膨脹模型應用于高速公路交通事故嚴重程度分析[7]。
(3) 當數據特征為多組因變量時,常采用二元模型和多元模型,后者因變量范圍更廣,估算過程復雜。
(4) 任何數據類型都可以使用機器學習進行分析,但估算過程復雜,沒有可解釋的參數,無法轉移其他數據集。Li 選擇事故發生地點、車輛類型、道路條件作為影響因素,比較SVM 和多元模型的適用性[8]。
綜上所述,國內外學者大多集中于不同數據及模型的適用性,但是對因素本身的關注不夠,未考慮影響因素作為模型的自變量,在周期內的潛在變化可能導致重要信息的丟失。因此,本研究收集了連續4 年的高速公路事故數據,選取道路、環境及車輛指標,通過分析數據的分布類型,選取合適的模型,探究影響因素的年時變特征。
本文所用高速公路事故數據來自滬蓉高速(G42 江蘇段),樁號為k36+000-k192+000,每起事故均包含事故發生的時間、地點、事故形態、道路線形及車輛等信息,剔除信息記錄不完整的事故,最終用于本研究的事故總數為2 098 起。根據事故記錄數據,從高速公路道路條件、環境、車輛信息3 個等方面選擇了4 個自變量,具體說明如表1 所示。
根據4 年內的統計數據,選取事故形態作為因變量。將碰撞、刮擦、翻車作為主要事故形態,碾壓、墜落、爆炸和失火作為其他事故形態進行研究,如圖1 所示。

表1 自變量統計及符號

圖1 事故形態頻率分布柱形圖
由于數據中零值居多,相比于傳統的數學計算模型,零膨脹模型可以更加準確地描述此類數據。陳穎雪、曾平將零膨脹模型分別應用于軌道觸網故障頻次[9]、心肌缺血節段數的研究中[10]。因此,本文采用零膨脹模型中運用最廣泛的零膨脹泊松(ZIP)和零膨脹負二項(ZINB) 模型分析不同事故形態的主要影響因素,選用似然比(LR) 檢驗比較兩個模型的擬合程度。
零膨脹模型是由伯努利分布和普通計數分布按照一定比例組成的混合分布[11],當零膨脹模型應用于事故形態研究時,可以理解為發生n起交通事故中,若第i種事故形態事故發生的次數Yi服從結構零權重為φi的零膨脹模型,其概率分布函數為:

式中:Ki為基本計數分布,φi為第i起事故中出現過多0 所占的比例,其取值為0<φi<1。

式中:νi=(νi1,νi2,…,νiq)為q×1 協變量向量,表示第i起事故中q個影響因素的取值,α=(α1,α2,…,αq)為q×1 參數向量,q為協變量個數。
對零膨脹模型中結構零權重φi作回歸,得到式(3):

式中:φi,νi,α 意義同上。
2.1.1 零膨脹泊松模型
當Ki服從Poisson 分布,選取影響因素作為分布均值λi的自變量[12],即:

其對數似然函數為:

分別對 α=(α1,α2,…,αq),β=(β1,β2,…,βp)求偏導,并令其等于零可求得參數估計值
2.1.2 零膨脹負二項模型
當Ki服從負二項分布,選取主要影響因素作為分布均值μi的自變量,即:

其對數似然函數為:

分別對 α=(α1,α2,…,αq),β=(β1,β2,…,βp),θ 求偏導,并令其等于零可得到參數估計值
若兩個模型的全部自由參數都是相同的,并且其中一個模型可通過限定部分參數為固定值而得到另一個模型,則稱其中一個模型嵌套另一個模型[13]。當零膨脹負二項模型中的離散參數θ=0 時,模型即退化為零膨脹泊松模型。
因此,可以使用似然比檢驗的方法對模型進行選擇,先假設零膨脹泊松模型嵌套零膨脹負二項模型,對應的似然比統計量為:

式中:LR服從自由度為ν 的卡方分布,L1為零膨脹泊松模型,L2為零膨脹負二項模型ν=df1-df2為受限參數的個數,在這里為1。若則可表明零膨脹負二項優于零膨脹泊松模型[14]。
將不同事故形態作為因變量,影響因素作為自變量,建立零膨脹泊松模型和零膨脹負二項回歸模型。根據LR指標來判斷模型擬合的優劣,采用Python 編程得出各影響因素的估計系數和顯著度指標P值,如表2~5 所示。
3.2.1 顯著度分析
根據顯著度指標p值是否小于0.05 可以得出不同因素對事故形態的影響,若小于0.05,則說明該因素對模型影響顯著,當p值越接近零,說明檢驗程度越好。因此,得出以下結論:
以2016 年的事故數據為例,事故發生時段對碰撞和翻車這兩類事故形態影響顯著,臨近出入口和年平均日交通量對所有事故形態影響顯著,當交通量發生變化時,交通流狀態和車輛間的相互影響也隨之改變,導致交通沖突和事故的發生。相比于責任車輛為小型車輛,貨車等大型車輛對碰撞、刮擦、翻車這3 類事故形態影響更為顯著。
3.2.2 時變特征分析
通過模型結果得到各影響因素系數隨時間變化趨勢圖,如圖2 所示。
對比圖2(a) 可以看出:事故發生時段對翻車和其他事故起著反向作用,潛在原因是:工作日期間,駕駛人警惕性提高,車輛減速行駛;假期期間,交通量激增,交通流達到穩定反而降低了事故的嚴重程度。
臨近出入口對碰撞和翻車和其他事故起到反向作用,如圖2(b) 所示。可能原因是隧道等特殊路段存在著視距不足、平面線形指標較差等原因,導致安全事故發生。近年來對路段的出入口段進行排查和整治,降低了車輛相互碰撞、撞擊隧道洞口和翻車的概率。但是,該研究結果尚需進一步驗證和研究。
從圖2(c) 可以看出,隨著年平均日交通量的遞增,碰撞、刮擦、翻車這3 類事故形態的系數也在整體增長。特別的是,刮擦事故自2013 年系數遞減之后,在2015 年開始遞增。這是由于交通流達到穩定前,較小交通事故或行車障礙的影響容易消除,而突破穩定流范圍下限之后,交通流稍有增加就會導致服務水平顯著降低。

表2 2013 年零膨脹模型分析結果

表3 2014 年零膨脹模型分析結果
責任車輛為大型車時,各類事故呈現上升趨勢,如圖2(d) 所示。潛在原因是大型車受到動力和車輛性能的影響,其初始運行速度未能短時間內達到設計速度,小型車因其功率和重量的比值較大,能夠短時間內達到道路的設計速度,兩種車型之間存在速度差,從而造成不同類型的交通事故頻發。

表4 2013 年零膨脹模型分析結果

表5 2016 年零膨脹模型分析結果

圖2 影響因素的時間變化
(1) 基于2013~2016 年滬蓉高速(G42 江蘇段) 的事故數據得到影響事故形態的各因素,建立零膨脹模型,并用似然比驗證零膨脹泊松和零膨脹負二項模型的擬合程度。從顯著度和時間變化趨勢兩個角度分析不同因素對事故形態的影響。結果表明,零膨脹負二項模型擬合度更好。
(2) 研究結果可以為相關管理人員降低不同事故形態風險提供理論依據,由于數據來源有限且存在部分數據缺失的情況,本研究僅考慮4 個因素對事故形態的影響,后續可針對不同路段研究其他因素對發生事故形態的影響。