喬建剛,王 傑,岳凌峰
(1.河北工業(yè)大學(xué) 土木與交通學(xué)院,天津 300401;2.中交建冀交高速公路投資發(fā)展有限公司,河北 石家莊 050000)
隨著國家現(xiàn)代化進(jìn)程加快,山區(qū)高速公路長大隧道群占比逐漸增大。隧道出入口段特殊行車環(huán)境,對駕駛員駕駛行為和車輛運(yùn)行產(chǎn)生一定負(fù)面影響,引發(fā)交通事故[1]。因此,合理利用已有事故數(shù)據(jù),預(yù)測隧道不同區(qū)段風(fēng)險程度,探究不同影響因素與事故等級之間的因果關(guān)系,對于交通事故預(yù)防具有重要意義。
目前,學(xué)者運(yùn)用不同方法對隧道行車安全影響因素及事故嚴(yán)重程度進(jìn)行研究:趙曉華等[2]基于駕駛模擬,分析長大隧道內(nèi)駕駛行為與事故風(fēng)險關(guān)系;杜志剛等[3]分析高速公路隧道光環(huán)境對交通事故影響;Zhang等[4]從路面紋理方面分析路面性能對隧道行車安全的影響;李倩等[5]通過建立公路隧道交通安全事故樹,量化交通事故影響因素重要度;Jian等[6]對新加坡高速公路隧道事故數(shù)據(jù)進(jìn)行統(tǒng)計,發(fā)現(xiàn)隧道口過渡段事故較嚴(yán)重;Zhang等[7]應(yīng)用不同類型Logit模型,估計隧道追尾事故風(fēng)險水平;Caliendo等[8]基于226起高速隧道事故數(shù)據(jù),利用隨機(jī)參數(shù)模型分析隧道碰撞事故發(fā)生頻率影響因素;孫軼軒等[9]構(gòu)建C5.0決策樹,提出影響嚴(yán)重程度的實證規(guī)則集。現(xiàn)有研究為隧道不同區(qū)段運(yùn)營風(fēng)險分析及預(yù)測奠定基礎(chǔ),但針對不同風(fēng)險因素組合對風(fēng)險等級的影響鮮有研究,對運(yùn)營風(fēng)險判別規(guī)則的研究也相對較少。
因此,本文以山區(qū)高速公路隧道事故數(shù)據(jù)為基礎(chǔ),應(yīng)用隨機(jī)森林模型預(yù)測隧道不同路段風(fēng)險等級,并對風(fēng)險等級影響因素及決策規(guī)則進(jìn)行分析,研究結(jié)果可為隧道行車安全提供決策建議。
收集全國范圍內(nèi)2010—2021年山區(qū)高速公路隧道段人員傷亡交通事故共130起,造成366人死亡,656人受傷,數(shù)據(jù)涵蓋全國各個地理分區(qū)[10-13]。事故發(fā)生地區(qū)事故數(shù)量占比情況如圖1所示。
圖1 事故發(fā)生地區(qū)事故數(shù)量占比情況Fig.1 Number of accidents in different geographical divisions as a percentage
結(jié)合百度地圖開放平臺、國家氣象信息中心等平臺采集事故時空信息,包括事故路段線形、天氣數(shù)據(jù)等。事故等級與公安部[14]一致,嚴(yán)重程度分為特大、重大、一般事故,等級分布如圖2所示,重大、特大事故總占比85%,說明山區(qū)高速公路運(yùn)營隧道發(fā)生傷亡事故時,人員死亡幾率較大。
圖2 隧道事故嚴(yán)重程度等級分布Fig.2 Distribution of tunnel accident severity level
1) 時間分布
選取當(dāng)量死亡人數(shù)[14],分析不同隧道區(qū)段事故嚴(yán)重程度,將事故傷亡按月份進(jìn)行統(tǒng)計,如圖3所示。
圖3 隧道事故嚴(yán)重程度月份分布Fig.3 Monthly distribution of tunnel accident severity
由圖3可知,人員傷亡數(shù)量較高的月份依次為8,3月,原因在于8月降雨較多,事故數(shù)量增加,導(dǎo)致人員傷亡上升。從事故等級占比來看,2,3月份特大事故占比相對最高,大于55%,這是由于2,3月份正值冬季,山區(qū)空氣濕度較大,低溫導(dǎo)致路面濕滑,加上團(tuán)霧多發(fā),路面、天氣雙重影響下易引發(fā)特大事故。同樣,1,4月重大事故占比處于較高水平。
隧道出入口與內(nèi)部行車環(huán)境變化同樣影響事故發(fā)生,統(tǒng)計1 d中隧道不同位置各時段事故死亡人數(shù),如圖4所示。由圖4可知,總死亡人數(shù)最高的時間段依次是13,19,7~8時,且13時中隧道入口、出口當(dāng)量死亡人數(shù)相對最多,占總量的81.21%,這是由于駕駛員中午易行車疲勞,疲勞駕駛和分心駕駛的概率增大;7,19時中部隧道傷亡較嚴(yán)重,原因是隧道內(nèi)部行車環(huán)境單一,駕駛員疲勞感增加,事故發(fā)生概率增加;8,18時出入口處死亡人數(shù)較高,這是由于清晨和黃昏時段,環(huán)境照度變化劇烈,當(dāng)洞口處交通設(shè)施不合理時,如照明設(shè)施損壞,將導(dǎo)致駕駛員心理緊張,易引發(fā)交通事故。
圖4 隧道事故嚴(yán)重程度時段分布情況Fig.4 Hourly distribution of tunnel accident severity
2)空間分布
由上文可知,事故人員傷亡與隧道位置有一定關(guān)系,但隧道不同區(qū)段界定范圍沒有明確規(guī)定[15]。為分析不同區(qū)段事故發(fā)生情況,綜合考慮駕駛員視覺明暗效應(yīng)[16]、停車視距[17]和路面材料變化[18]劃分隧道區(qū)段。長度大于500 m的隧道劃分如圖5所示,小于等于500 m的隧道則不存在區(qū)段3。
圖5 隧道區(qū)段劃分Fig.5 Tunnel sections division
統(tǒng)計不同區(qū)段人員傷亡情況,如圖6所示。從死亡人數(shù)來看,區(qū)段2>區(qū)段1>區(qū)段4>區(qū)段3>區(qū)段5,說明隧道入口段事故發(fā)生概率較大。這是由于進(jìn)入隧道時,易產(chǎn)生“黑洞效應(yīng)”,不利于駕駛員及時發(fā)現(xiàn)隧道內(nèi)部狀況,當(dāng)限速較高時,緊急制動使車輛故障率增大。從事故占比來看,區(qū)段1的特大事故占比相對最高,其次是區(qū)段5,2個區(qū)段均位于隧道與外部環(huán)境交接處,易發(fā)生交通事故。
圖6 不同隧道區(qū)段事故傷亡情況Fig.6 Accident casualties in different tunnel sections
隧道交通事故嚴(yán)重程度受駕駛員、環(huán)境、路面狀況、車輛類型等多方面因素影響,因此將事故致因綜合為人、車、道路及環(huán)境4大因素,事故致因?qū)е氯藛T傷亡占比如圖7所示。由圖7可知,人的因素導(dǎo)致人員傷亡最為嚴(yán)重,占40.87%,其次為道路因素,為32.17%。
圖7 事故原因?qū)е氯藛T傷亡情況占比Fig.7 Proportions of casualties caused by accident causes
綜合考慮“人-車-道路-環(huán)境”相互作用,從4個方面選取16個影響因素作為自變量,如表1所示。因變量為風(fēng)險等級,發(fā)生特大事故區(qū)段風(fēng)險等級高,為1;發(fā)生一般、重大事故區(qū)段則為0。
表1 自變量分類Table 1 Classification of independent variables
決策規(guī)則指分類模型中,對樣本數(shù)據(jù)分組時過濾數(shù)據(jù)的條件,而決策樹分類模型中,樹根節(jié)點到葉節(jié)點的路徑即為1條規(guī)則。隨機(jī)森林算法(Random Forest,RF)作為多顆決策樹的集成,具有精度高、抗噪能力高等優(yōu)點,規(guī)則提取同樣可行。
Breiman于2001年結(jié)合Bootstrap重采樣和決策樹提出RF,從K個自變量中抽取mtry個分支變量,構(gòu)建ntree棵決策樹,根據(jù)各決策樹分類結(jié)果投票,得到預(yù)測結(jié)果[19],投票過程如式(1)所示:
(1)
式中:X為決策樹中特征自變量;Y為決策結(jié)果的類標(biāo);R(X)為票數(shù)最多的Y;ntree為決策樹個數(shù);rit(X)為i決策樹中節(jié)點t的決策路徑函數(shù),i∈[1,ntree],t∈[1,Ti],Ti為決策樹i中的節(jié)點數(shù)量。
提取RF中各決策樹的葉節(jié)點路徑,獲得決策規(guī)則rit(X)[20],組合形成決策集R,如式(2)~(3)所示:
R={rit|i=1,…,ntree;t=1,…,Ti}
(2)
(3)
式中:Ojc為第i個決策樹第t個節(jié)點上自變量Xj的取值范圍。
根據(jù)Nguyen[21]規(guī)則,rit(X)規(guī)則結(jié)構(gòu)如式(4)所示:
(4)
RF中重要自變量是指重要性評分VIM(X)排名前40%的自變量,X的重要性評分越高,對Y的影響程度越大,如式(5)所示:
(5)
式中:VIM(Xk)為第k個自變量的重要性評分;Ei為袋外數(shù)據(jù)計算第i顆決策樹的校驗誤差;Eik為袋外數(shù)據(jù)隨機(jī)置換第k個自變量后,第i顆決策樹的校驗誤差。
RF中決策樹較多,提取規(guī)則數(shù)量大,且部分規(guī)則缺乏解釋性,因此,本文提出規(guī)則重要性精煉規(guī)則,即通過每條規(guī)則所包含規(guī)則判斷準(zhǔn)確率Q1和重要自變量占比Q2,對規(guī)則集進(jìn)行篩選,如式(6)~(7)所示:
(6)
(7)
式中:TPrit(X),F(xiàn)Prit(X)分別為規(guī)則rit(x)判斷正確數(shù)和判斷錯誤數(shù);Xk′為重要性評分排名前40%的自變量;Count[Xk′,rit(X)]為規(guī)則rit(x)中重要自變量出現(xiàn)的個數(shù)。Q1越高,規(guī)則預(yù)測精度越高,Q2越大,規(guī)則重要程度越高,規(guī)則代表性強(qiáng)。
評價指標(biāo)選擇分類結(jié)果準(zhǔn)確率(Accuracy,ACC)、查全率(TP Rate,TPR)和查準(zhǔn)率(Precision,PRE),查全率和查準(zhǔn)率2者可對正例樣本多的規(guī)則結(jié)合分類情況進(jìn)行更全面的評價。
在保證原始分類性能前提下,為降低規(guī)則數(shù)量,提高規(guī)則集的可解釋性,進(jìn)一步形成風(fēng)險判別法則,關(guān)鍵規(guī)則集提取流程包括以下5個步驟:
步驟1:提取RF模型中所有決策樹規(guī)則,保留結(jié)果為正例的規(guī)則,構(gòu)建初始決策規(guī)則集SETorig。
步驟2:計算初始規(guī)則集SETorig中各規(guī)則的Q1,Q2,規(guī)則重要性評分為Q=Q1+Q2,并排序。
步驟3:依次抽取SETorig中重要性排名靠前的規(guī)則,構(gòu)建簡化規(guī)則集SETsimp。
步驟4:計算SETsimp在測試集上的分類性能,以ACC作為其評價指標(biāo)。
步驟5:重復(fù)步驟3~4,直至SETsimp連續(xù)幾次迭代中,ACC未提升或達(dá)到迭代次數(shù),得到關(guān)鍵規(guī)則集SETcrux,形成判別法則。
計算所有自變量與嚴(yán)重等級的Pearson相關(guān)系數(shù),剔除“隧道長度”和“事故類型”2個變量,其他14個因素作輸入自變量。借助Python構(gòu)建隨機(jī)機(jī)森林回歸模型,對mtry和ntree2個參數(shù)進(jìn)行設(shè)定,2個參數(shù)將影響模型泛化誤差和運(yùn)行時間。考慮影響因素有4類,決策樹分支變量應(yīng)大于4,因此mtry取4,5,6,10,20,50,100,ntree取值為1~50。比較不同參數(shù)方案的誤差變化,如圖8所示,當(dāng)mtry為5、ntree為45時,模型均方誤差較小,模型精度ACC為0.81,分類性能較好。
圖8 不同參數(shù)下模型誤差變化Fig.8 Variation of model error under different parameters
對于訓(xùn)練好的RF模型,為計算各規(guī)則的規(guī)則重要性以及各影響因素重要性評分,得到自變量重要性評分排名如圖9所示。評分排名前40%的自變量其重要評分由大到小為涉及車輛數(shù)、隧道坡度、駕駛行為、交安設(shè)施狀況、隧道區(qū)段、路面狀況。
圖9 自變量重要性評分排名Fig.9 Ranking on importance scores of independent variables
利用Python中Matplotlib工具包,可視化RF中45顆決策樹,其中原始RF中某顆決策樹可視化結(jié)果如圖10所示。
圖10 原始RF中某顆決策樹可視化結(jié)果Fig.10 Visualization results of a decision tree in original RF
保留決策結(jié)果為正例的規(guī)則,共369條,分別計算各規(guī)則的重要性。根據(jù)提取流程,構(gòu)建關(guān)鍵規(guī)則集,并考慮規(guī)則的可解釋性,樣本覆蓋數(shù)需大于10,最終得到10條規(guī)則構(gòu)成的運(yùn)營隧道風(fēng)險判別法則。
采用提取到的風(fēng)險判別法則對測試集數(shù)據(jù)進(jìn)行測試,預(yù)測分類性能,并與真實值和已訓(xùn)練好的原始RF模型進(jìn)行對比,預(yù)測結(jié)果如圖11~12所示。
圖11 與真實值對比Fig.11 Comparison results with real values
圖12 與原始RF模型對比Fig.12 Comparison results with original RF model
由圖11~12可知,風(fēng)險判別法則集預(yù)測中有3個事故等級與真實值不同,即發(fā)生事故103,104,126的事故風(fēng)險判為高風(fēng)險,這與原始RF模型預(yù)測結(jié)果一致。經(jīng)分析,3起事故地點均為“隧道入口/出口段+曲線段/彎坡路段”的組合,均發(fā)生不安全駕駛行為,雖然已發(fā)生事故人員傷亡較低,但該區(qū)段仍存在高事故風(fēng)險,說明風(fēng)險法則能夠發(fā)現(xiàn)隧道區(qū)段上隱藏的事故風(fēng)險并進(jìn)行預(yù)測。
與原RF模型預(yù)測精度進(jìn)行對比如圖13所示,查全率出現(xiàn)小幅度下滑,查準(zhǔn)率基本一致,說明風(fēng)險判別法則能夠較好保留原RF模型的預(yù)測能力。此外,判別法則中規(guī)則個數(shù)相較于原RF模型減少36.9倍,原RF模型與風(fēng)險判別法則在測試集上運(yùn)行時間分別為0.419 6,0.100 0 s,說明關(guān)鍵規(guī)則集提取方法降低了規(guī)則的復(fù)雜性以及模型運(yùn)算時長。
圖13 分類精度對比Fig.13 Comparison of classification accuracy
將提取運(yùn)營隧道風(fēng)險判別法則知識化,如表2所示。從包含“Tunnel section的”規(guī)則來看,出現(xiàn)“隧道入口過渡段+隧道交安設(shè)施不合理或路面結(jié)冰或駕駛員違規(guī)駕駛及車輛方向失靈”以及“隧道出口過渡段+隧道路面潮濕及駕駛員超速駕駛”時,將發(fā)生嚴(yán)重的交通事故,運(yùn)營風(fēng)險提高。因此,對于隧道運(yùn)營者,要避免以上不利因素的組合,即確保隧道內(nèi)部照明合理并減輕洞內(nèi)外明暗差異;提前預(yù)警由于降雪、低溫等特殊天氣導(dǎo)致路面積雪、暗冰并及時處理,避免車輛失控導(dǎo)致嚴(yán)重交通事故發(fā)生。
表2 運(yùn)營隧道風(fēng)險判別法則Table 2 Risk discrimination rules of operating tunnel
1)通過調(diào)研,明確山區(qū)高速公路隧道重特大交通事故時空特性,結(jié)合人-車-道路-環(huán)境系統(tǒng),分析隧道風(fēng)險等級影響因素。
2)以實際數(shù)據(jù)為基礎(chǔ),構(gòu)建基于隨機(jī)森林的隧道風(fēng)險等級預(yù)測模型,通過分析決策樹與規(guī)則關(guān)系,結(jié)合RF中自變量重要性評分,提出基于隨機(jī)森林的高速公路運(yùn)營隧道風(fēng)險判別法則。
3)通過采用風(fēng)險判別法則,對高速公路隧道不同區(qū)段進(jìn)行分析,確定運(yùn)營高速公路隧道不同區(qū)段發(fā)生事故成因,對事故預(yù)防具有重要意義。