李貴陽 張福明 王永崗
(長安大學公路學院 西安 710064)
山區(qū)高速公路線形條件復雜,道路平曲線半徑較小、縱坡坡度較大、視距不良和長大下坡等特殊情況,遇雨雪天氣易造成路面濕滑,事故發(fā)生頻率比平原地區(qū)高[1].此外,山區(qū)高速公路多車事故后果相較于單車事故更為嚴重.Mehdi等[2]在研究多車事故時所使用的馬來西亞事故數(shù)據(jù)中,多車事故占事故總數(shù)的60%,占死亡事故的75%.
山區(qū)高速公路多車事故影響因素分析方面的研究方法主要以Logit/Probit等傳統(tǒng)離散選擇模型為主.Sunghee等[3]利用有序Logit模型及Multinomial模型,分析了高速公路安全事故嚴重程度.王鵬等[4]利用有序Probit模型分析了環(huán)境因素、道路因素、車輛因素和駕駛員因素等影響因素與追尾事故嚴重程度之間的致因關(guān)系.雖然離散選擇模型在事故影響因素分析中得到了很好的分析結(jié)果,但無序模型忽視了事故嚴重程度有序這一特點,有序模型問題是事故嚴重程度頭尾兩級概率的增減是連動的,即若死亡事故概率降低則無傷害事故概率的增加.此外,在事故數(shù)據(jù)收集過程中存在指標變量定義不明確且出現(xiàn)誤報的問題.Hauer[5]明確指出不是所有的碰撞事故都被記錄在冊.此諸多問題的存在容易導致離散選擇模型參數(shù)估計有偏.此外,在研究過程中對傳統(tǒng)離散選擇模型適用條件驗證較少.
由于傳統(tǒng)離散選擇模型對數(shù)據(jù)本身的質(zhì)量要求較高及適用條件的限制,有時會產(chǎn)生模型不適用問題.近幾年,有學者開始嘗試將非參數(shù)方法應用于事故影響因素分析,如分類回歸樹模型[6-7]、貝葉斯網(wǎng)絡模型、神經(jīng)網(wǎng)絡模型等,研究結(jié)果表明非參數(shù)方法在事故分析中具有更優(yōu)的統(tǒng)計擬合度和泛化能力[8-9].文中在考慮傳統(tǒng)離散選擇模型應用的基礎上,應用支持向量機模型(support vector machine model,SVM)對山區(qū)多車事故進行分析,辨識事故風險因素對事故的影響.
選取江西省昌金高速以及泰贛高速1 351條多車事故數(shù)據(jù),公路所處地理位置見圖1.從駕駛員、車輛、道路、環(huán)境4個維度,收集了包含14個事故潛在風險因素并對其進行了分類,分類及統(tǒng)計結(jié)果見表1.從數(shù)據(jù)描述性統(tǒng)計結(jié)果發(fā)現(xiàn),事故碰撞類型中車輛追尾碰撞事故發(fā)生頻率為0.70,說明在高速公路多車事故中,追尾事故更易發(fā)生.由于本數(shù)據(jù)收集過程中并未對事故人員傷亡情況作詳細描述,因此,將事故嚴重程度分為財產(chǎn)損失、受傷事故、致死事故3個等級,事故嚴重程度分布依次占比0.44,0.35,0.21.

圖1 昌金高速及泰贛高速公路位置圖

表1 分類自變量描述性統(tǒng)計
在事故嚴重程度分析中,很多學者通過傳統(tǒng)離散選擇模型(即Logit/Probit模型)對事故數(shù)據(jù)進行了分析處理,但對于離散選擇模型的適用條件驗證方面的工作較少.多項Logit模型需要滿足選擇獨立無關(guān)假定(irrelevant alternatives assumption),而有序Logit模型需要滿足平行線假定(parallel regression assumption).在前述的變量分類表1中,使用“1”為僅財產(chǎn)損失事故,“2”為受傷事故,“3”為死亡事故.借鑒前人理論成果,獨立無關(guān)假定檢驗采用Small-Hsiao檢驗;平行線假定檢驗采用Wald檢驗,見表2~3.經(jīng)檢驗,本數(shù)據(jù)資料不滿足傳統(tǒng)離散選擇模型假定條件.因此,為了能夠分析該事故數(shù)據(jù),考慮應用支持向量機模型對其進行分析.

表2 Small-Hsiao檢驗獨立無關(guān)假定結(jié)果

表3 Wald檢驗平行線假定結(jié)果
SVM模型是一種基于統(tǒng)計學習理論用來解決分類問題的非參數(shù)方法.該模型最初被應用于二分類問題且已經(jīng)被很多研究中所使用.假設給定一個特征空間上的訓練數(shù)據(jù)集,其中xi為輸入空間X中的一個輸入向量,yi作為輸出向量,其值的集合Y={-1,1}.當y=+1時,稱xi為正例;反之,為負例.
(x1,y1),…,(xi,yi),yi∈{-1,1}
對于二分類問題,它嘗試尋找一個超平面來將不確定的輸入劃分為正例或負例.分離超平面方程為
W·X+b=0
(1)
在這些超平面中,存在一個最大寬度的超平面,該超平面被認為是最優(yōu)的分離超平面.最優(yōu)分離超平面由邊緣向量唯一確定.Cortes等指出在數(shù)據(jù)非線性可分條件下,SVM模型轉(zhuǎn)變成求解最優(yōu)解問題[10].
(2)
式中:ξi為誤分類誤差的松弛變量;C為分類器中引入的額外誤差的懲罰因子,C的取值需要人為設置,約束條件:
yi(WTφ(xi)+b)≥1-ξi
(3)
引入拉格朗日乘子,相應的分類決策函數(shù)為
(4)
式中:αi為拉格朗日算子,x為支持向量;b為實數(shù),定義基本超平面W·X+b=0.對于線性不可分數(shù)據(jù),則需要將其映射到高維特征向量空間.此時,非線性映射函數(shù)φ被應用,式(5)核函數(shù)可以用來進行非線性變換.
k(xi×xj)=Φ(xi)×Φ(xj)
(5)
目前,有三個核函數(shù)常常被應用于SVM模型:線性核函數(shù)、非齊次多項式核函數(shù)與高斯徑向基核函數(shù).

(6)
k非(xi×xj)=[γ(xi×xj)+1]P
(7)
k高(xi×xj)=exp(-γ‖xi-xj‖2)
(8)
通過式(2)、式(6)~(8)可知,采用線性核函數(shù)需確定參數(shù)C;采用非齊次多項式核函數(shù)需確定參數(shù)(C,γ,p);采用高斯徑向基核函數(shù)需確定(C,γ).為了尋求三個核函數(shù)條件下支持向量機預測精度最高的參數(shù)組合,定義參數(shù)取值見表4.

表4 SVM模型參數(shù)建議取值
本文數(shù)據(jù)研究基礎是三分類問題,常規(guī)的SVM模型并不能直接應用于多分類問題.應用SVM模型處理多分類問題有三種方法:①Cortes提出了“一對其余”方法,其原理是基于K個類別,將其中一個類別樣本看作一類別,其余k-1個類別看作一個類別,構(gòu)建K個二分類SVM模型;②Knerr等[11]提出了“一對一”方法,其思想是在K分類中,每次考慮兩個分類,即對每兩類樣本設計一個二分類SVM模型;③Platt等[12]提出了SVM決策樹方法,它通常和二叉決策樹結(jié)合起來,構(gòu)成多類別的識別器.通過對以上三種方法的原理分析,SVM模型處理多分類問題立足點是通過將多類別問題轉(zhuǎn)變?yōu)槎诸愡M行處理.
本研究采用“一對一”處理方法,利用SVM模型對多車事故數(shù)據(jù)進行分析.在進行SVM模型過程中,選擇K折交叉驗證對數(shù)據(jù)進行反復測試.其原理是將數(shù)據(jù)樣本切割成K個子集,選取其中K-1個子集上進行訓練,剩下的子集用來做訓練模型效果驗證,重復操作進行K次.本文選擇的是10折交叉驗證,并利用網(wǎng)格搜索法對模型最優(yōu)參數(shù)進行確定.本文在模型預測精度的判定上,采取僅財產(chǎn)損失、受傷事故、死亡事故三個等級嚴重程度預測精度的平均值,三個核函數(shù)的預測精度最高的參數(shù)組合見表5.

表5 SVM模型參數(shù)最優(yōu)組合及預測精度
由表5可知,三個核函數(shù)在三分類問題上處理,實現(xiàn)預測精度最高的核函數(shù)為高斯徑向基函數(shù),平均預測精度0.733.這與Yu等[13]的研究結(jié)果一致,他在利用SVM模型預測實時碰撞風險的研究成果顯示了高斯徑向基核函數(shù)對比線性核函數(shù)提供了更好的擬合結(jié)果.Chen等[14]在利用SVM模型分析翻車事故中指出支持向量機模型具有較好的預測性能,非多項式核函數(shù)優(yōu)于高斯RBF核函數(shù),通過對其研究內(nèi)容的梳理發(fā)現(xiàn),研究中并未對參數(shù)C取值進行考慮.
SVM模型作為一種非參數(shù)方法,在分析解釋變量對于響應變量的影響方面表現(xiàn)不佳.Fish等[15-16]提出利用敏感性分析從統(tǒng)計角度研究解釋變量的影響,該方法在Li等的研究中被應用.敏感性分析類似于邊際影響,其過程分為兩步:①在其他自變量保持不變的條件下,增加或減少自變量的一個單位量級.在本研究中,自變量為分類變量,即由0變?yōu)?或由1變?yōu)?;②重新計算出現(xiàn)不同事故嚴重程度的平均概率,進而分析改變自變量前后的平均概率.敏感性分析可以用來揭示事故潛在影響變量與事故嚴重程度之間的正負影響關(guān)系.敏感性分析結(jié)果見表6.

表6 敏感性分析結(jié)果
在可能影響山區(qū)多車事故發(fā)生的潛在因素中,駕駛員年齡被分為三個水平:<30歲,31~55歲,>55歲.選擇小于30歲作為基準量,年齡31~55歲及55歲以上駕駛員分別減少了0.006 3,0.029 0的死亡事故發(fā)生比率.這暗示了中年駕駛員相比于年輕駕駛員在行車過程中造成受傷事故的可能性小.在行車過程中,當駕駛員為男性時,對僅財產(chǎn)損失事故發(fā)生有積極影響,增加了0.001 4.相較于女性駕駛員,男性駕駛員分別減少了受傷事故及死亡事故0.000 8,0.000 7的發(fā)生概率,這與男性駕駛員應對突發(fā)事件反應能力較強有關(guān).
在涉及卡車的事故中,其對受傷事故及死亡事故分別增加了0.065 6,0.021 0發(fā)生概率.碰撞類型劃分為刮擦碰撞、正面碰撞、角度碰撞、追尾碰撞四種類型,以碰撞類型為刮擦碰撞為參考類別.正面碰撞與角度碰撞對事故影響有明顯差異.正面碰撞更容易造成傷亡事故發(fā)生,分別增加受傷及死亡概率0.072 6,0.000 2.角度碰撞更易造成僅財產(chǎn)事故發(fā)生,增加了0.101 7發(fā)生概率.追尾事故在事故碰撞類型發(fā)生頻率最高,更易發(fā)生僅財產(chǎn)損失及受傷事故.
超速、冒險跟隨、疲勞駕駛屬于駕駛員不良駕駛行為.超速、冒險跟隨、疲勞駕駛對受傷事故有顯著的正影響,分別增加了0.065 6,0.037 0,0.036 1的事故發(fā)生概率.在道路因素中,相對于圓曲線小于等于2 000 m,圓曲線半徑大于2 000 m更易發(fā)生僅財產(chǎn)損失事故,而對于受傷及死亡事故產(chǎn)生負影響,分別減少了0.027 3,0.013 3發(fā)生概率.圓曲線半徑值越大,車輛轉(zhuǎn)彎操作相對簡單.坡度在大于0.03條件下,對死亡事故發(fā)生產(chǎn)生正影響,其增加了0.015 5死亡事故概率,這表明坡度大更易造成死亡事故發(fā)生.豎曲線類型劃分為直線、凸曲線、凹曲線.以豎曲線類型為直線為基準,凸曲線、凹曲線線形對僅財產(chǎn)損失事故分別增加了0.016 9,0.078 9的發(fā)生概率,特別地,凹曲線相對于凸曲線線形發(fā)生僅財產(chǎn)損失及死亡事故概率的影響要小,這是由于車輛在上坡過程中前方視距不足,更易發(fā)生碰撞有關(guān).
另外,季節(jié)為夏季和秋季,其影響多車事故嚴重程度發(fā)生的概率變化一致.夏季和秋季更易發(fā)生僅財產(chǎn)損失及受傷事故.此外,冬季對僅財產(chǎn)損失及死亡事故發(fā)生概率分別增加0.028 8,0.004 6.天氣條件為陰天,其更容易發(fā)生僅財產(chǎn)損失事故,增加了0.034 7的事故概率.雨、雪、霧天氣分別增加了僅財產(chǎn)損失、受傷事故概率0.068 3,0.030 7;與此同時,降低了0.078 0死亡概率.這暗示了在雨、雪、霧天氣下,駕駛員行車速度降低,駕駛更加謹慎有關(guān).
節(jié)假日期間,受傷事故發(fā)生概率明顯上升,增加了0.052 3事故發(fā)生概率.這與節(jié)假日外出旅游休假出行量上升有明顯關(guān)系,此時交通流狀態(tài)變得復雜,相比工作日易發(fā)生事故.時間劃分為三個階段:06:00—18:00,18:00—24:00,00:00—06:00.以06:00—18:00為基準,18:00—24:00時段相較于00:00—06:00時段發(fā)生死亡事故可能性低.
1) 線性核函數(shù)、非線性核函數(shù)、高斯徑向基核函數(shù)被應用于SVM模型來測試其在事故預測方面的泛化能力,其中,高斯徑向基核函數(shù)在SVM模型中表現(xiàn)最優(yōu).最終,結(jié)果充分證實了SVM模型在山區(qū)多車事故預測方面有很好的泛化能力.
2) 在傳統(tǒng)Logit/Probit模型適用條件不滿足的情況下,通過支持向量機模型,利用敏感性也可以得到變量對于事故嚴重程度的影響.本文量化了14個潛在風險因素對于山區(qū)高速公路多車事故發(fā)生概率的影響.
3) 雖然本研究取得了一定的研究成果,但仍存在一些不足.在事故影響因素分析中,以昌金高速以及泰贛高速兩條高速公路事故數(shù)據(jù)為主,研究對象相對片面;其次,多車事故分類只分成四類,對特殊碰撞類型未作出詳細說明,這主要由于搜集事故數(shù)據(jù)存在很多現(xiàn)實困難.此外,事故嚴重程度分級分為僅財產(chǎn)損失、受傷事故、死亡事故三個等級,對于受傷事故并未作出進一步劃分.