呂 路,李 杰,郭忠印,閻 瑩,高 超
(1.同濟大學 道路與交通工程教育部重點實驗室,上海 201804; 2.山東高速信息集團有限公司,山東 濟南 250100;3.長安大學 運輸工程學院,陜西 西安 710064;4.陜西匯德通市政工程有限公司,陜西 西安 710086)
交通事故是指車輛在道路上因過錯或者意外造成人身傷亡或者財產損失的事件[1]。交通事故持續時間計算結果是劃分事故等級,制定事故下的交通誘導、分流管控方案的重要依據。目前對交通事故持續時間的研究主要集中在事故影響因素分析[2]、事故持續時間計算方法[3]、降低交通事故損失[4]等方面,然而現有研究主要針對城市道路交通事故,對高速公路交通事故持續時間計算方法的研究不足。
不同于城市道路,高速公路交通感知、管控設施較少,交通流密度低、流速大,事故形態相對單一,由此導致城市道路交通事故與高速公路交通事故持續時間的影響因素存在差異[5],城市道路交通事故持續時間相關研究成果不適用于高速公路交通事故管理。除上述原因外,目前交通事故持續時間計算方法還存在計算復雜、模型穩定性差等問題[6]。
根據交通事故發生和處理過程,通常將交通事故持續時間劃分為事件檢測、事件響應、事件清除3個階段,其大小由事故類型和當地交管部門的應急服務水平決定[7]。在建立交通事故持續時間計算模型時,將交通事故持續時間影響因素劃分為交通事故特征、交通環境特征、交通狀況特征以及道路特征[8]4個部分,各個特征又包含不同變量。重要性較大的變量組合能夠顯著提高模型計算精度[9]。隨機森林和隨機生存森林[10]、貝葉斯網絡[11]、參數加速失效模型[12]等方法均可用于特征變量選擇。
交通事故持續時間計算方法的適用性決定了模型計算結果的準確性。按照統計方法,交通事故持續時間計算模型可分為概率模型和非概率模型。決策樹[13]、邏輯加速時間度量模型[14]、離散選擇模型[15]是概率模型。線性回歸模型[16]、時間序列模型[17]以及神經網絡[18]是非概率模型。模糊Logistic回歸模型[19]既可看作是概率模型,又可看作是非概率模型。受事故類型和交通環境差異影響,交通事故持續時間計算結果為一定誤差范圍內的估計值,對事故持續時間概率計算模型的應用研究越來越多。
本研究首先對貴州省高速公路交通事件持續時間分布進行了統計;其次,根據高速公路交通事故檔案信息建立事故持續時間初始變量集,基于XGBoost方法對事故持續時間特征變量進行選擇,建立了高速公路交通事故持續時間計算模型,并對各特征變量的敏感性進行了分析;最后,對模型性能和穩定性進行檢驗,建立了交通事故持續時間快速計算方法。
統計貴州省路網中心2020年8月1日至2021年7月31日記錄的6 582條高速公路交通事件信息。每條數據包含事件初報和終報時間、事件地點、事件概況、事件類型、傷亡情況等要素。為了提高模型計算精度,對交通事件信息進行預處理。從描述性的事件概況中提取事件發生時間、事件發生位置以及車輛類型,消除事件發生和清除時間不明、事件類型等關鍵信息缺失的異常數據,刪除發生在高速公路服務區、收費站站前廣場等路外數據。為了避免異常值對計算結果產生影響,刪除事件持續時間大于10 h的數據,最終得到6 332條有效數據。以50 min為間隔,繪制事件持續時間頻數分布直方圖,如圖1所示。

圖1 事件持續時間頻數分布直方圖
圖1顯示,隨著事件持續時間的增加,事件頻數迅速下降。事件持續時間主要集中在100 min以內,其中頻數最大值出現在50 min以內。按照事件類型和事件發生的主要原因,將交通事件劃分為道路交通事故、地質災害、氣象災害、交通設施安全事件。處理后的各事件信息均包括事件發生時間、事件清除時間、事件類別、事件類型、事件地點、傷亡情況、涉及車輛類型、事件發生位置、事件阻塞車道數等信息。
不同事件類別持續時間分布特征統計結果,如表1所示。表1顯示,道路交通事故是平均持續時間最短的一類事件,地質災害事件和交通設施安全事件平均持續時間較長。除交通事故外,其他事件占交通事件總數的12.93%,表明交通事故是最常發生的一類事件。以下主要對交通事故持續時間計算方法進行研究。

表1 事件持續時間分布統計
由處理后的貴州省高速公路交通事件數據篩選得到交通事故數據集,按照交通事故特征、環境特征、交通狀況特征以及道路特征構建事故持續時間的初始變量集。事故特征構成要素有事故類型、事故發生時段、受傷人數、死亡人數、涉及車輛類型、事故發生位置、剩余車道數;環境特征要素有能見度、氣溫、雨量、路面濕滑程度;交通狀況特征要素有分車道流量、車型構成比例;道路特征要素包括道路類型、道路幾何特征。
根據事件信息記錄表,對各影響因素進行細分,建立交通事故持續時間初始變量集,其中環境特征和交通狀況特征數據來源于高速公路沿線氣象觀測站和交通調查系統,道路特征數據來源于公路工程設計文件,結果見表2。

表2 交通事故持續時間初始變量集
極限梯度提升樹(XGBoost)是梯度提升決策樹(GBDT)的一個變種,屬于順序化的集成學習構建方法。同GBDT相比,最大的區別是XGBoost通過對目標函數中的結構損失函數做二階泰勒展開,大大提高了模型的可擴展性、收斂速度和計算精度。
基于XGBoost的交通事故持續時間計算方法,主要包括特征變量選擇和模型構建與參數調優兩個步驟。以處理后的初始交通事故數據構建樣本庫,隨機抽取50%的樣本數據用于模型訓練,另一半數據用于模型測試。算法流程為:
(1)對原始事故信息進行預處理,構建初始變量訓練集;基于XGBoost進行特征變量重要程度排序及選擇。
XGBoost通過計算各特征變量給分裂節點帶來信息增益的加權平均值,得到每個特征變量的重要性得分。特征變量重要性分數越高,其在模型構建中的價值越大。在特征變量按重要程度降序排列的基礎上,依次計算由1個最重要特征變量至所有特征變量構建模型時的計算結果準確率,選擇模型計算準確率最大時的特征變量作為變量篩選結果。
所得特征變量重要程度降序排列為:1,7,12,3,4,6,5,2,15,13,14,8,11,10,9,表明事故特征對事故持續時間的影響最大。圖2為模型計算準確率Rk隨變量個數N的變化曲線,當變量個數由15減至7時,刪除不重要變量能夠減小冗余信息對算法帶來的影響,模型計算準確率增加;當變量個數由7減至1時,隨著重要特征變量被刪除,模型計算準確率下降;當變量個數為7時,曲線有最大值。因此,事故類型、剩余車道數、服務水平、死亡人數、受傷人數、涉及車輛類型、事故發生位置即為篩選得到的交通事故持續時間特征變量。

圖2 模型計算準確率與變量個數之間的關系
(2)使用篩選得到的7個特征變量構建訓練集來訓練XGBoost,通過粒子群算法(PSO)優化模型參數。
在給定的包含n個樣本和m個特征變量的數據集D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R)中,集成樹模型通過K步得到模型的計算值,如式(1)所示。
(1)

(2)

(3)

通過枚舉決策樹每個葉節點中所有特征的可能分割方案,計算分裂前后目標函數的收益,以收益最大的特征作為分裂特征,用該特征的最佳分裂點作為結點的分裂位置,生成回歸樹模型。使用平均絕對百分誤差(MAPE)評估模型計算準確率,MAPE值越小,模型計算準確率越高。
采用PSO算法優化模型參數,訓練得到的模型計算誤差率隨迭代次數的變化關系,如圖3所示。當迭代次數為56時,模型計算誤差率取得最小值29.5%,此時模型參數達到最優。

圖3 計算誤差率曲線
通過XGBoost算法,可得到事故持續時間特征變量的重要程度序列。對篩選得到的交通事故持續時間特征變量進行敏感性分析,計算PSO算法優化后的各變量系數的指數值,得到不同特征變量對事故持續時間的影響程度,即當特征變量的取值改變1個單元時,事故持續時間變化的百分比,并使用指數系數進行表示,用于表征事故持續時間對特征變量的乘法效應估計。特征變量敏感性分析結果如表3所示。

表3 特征變量敏感性分析
表3顯示,剩余車道數的增加、因涉及車型變化可能導致事故產生的人員傷亡和財產損失的減少,可降低交通事故持續時間,其余變量的變化將增加事故持續時間。死亡人數增加1人,引起的事故持續時間指數系數值為+e0.097,即事故持續時間將增加10.2%。同時,剩余車道數的變化引起的事故持續時間指數系數值為e-0.154,即85.7%,意味著剩余車道數每增加1條,事故持續時間將減少14.3%。
統計交通事故持續時間計算模型在一定誤差范圍內的平均絕對百分誤差(MAPE)。劃分10,20,30,40,50 min共5個誤差區間,按照事故持續時間小于50,50~120,120~300,300~600 min將交通事故劃分為不同等級。基于XGBoost的交通事故持續時間計算結果誤差率,如表4所示。
當MAPE小于等于20%時,可認為模型計算性能較好;當MAPE位于21%~50%之間時,可認為模型計算結果合理[22]。由表4可知,當交通事故持續時間小于120 min時,此結果是可接受的,計算結論可作為制訂事故發生后交通分流與管控方案的決策依據。但當交通事故持續時間大于120 min時,模型計算結果的MAPE大于50%,這主要是由于持續時間大于120 min的交通事故樣本量小,特征變量構成復雜等原因造成的。

表4 交通事故持續時間計算結果誤差率
為了驗證XGBoost交通事故持續時間計算方法的性能,采用鄰近算法(KNN)和隨機森林(RF)作為對比算法。不同模型在不同事故持續時間及誤差范圍內的計算準確率,結果如圖4所示。在不同事故持續時間和誤差范圍下,XGBoost模型的計算準確率高于KNN和RF。當交通事故持續時間大于120 min 時,模型計算準確率在各誤差范圍內均下降至較低值。通過擴大樣本量,對事故特征進行更加精細化的劃分,可提高此類事故持續時間的計算準確率。

圖4 不同模型事故持續時間計算結果對比
受不同地區、不同時期交通運行環境差異影響,交通事故持續時間計算模型的變量系數可能不同,因此需要對模型時空穩定性進行檢驗。兩個地區相同時期模型空間穩定性檢驗的對數似然比公式,如式(4)所示。
LRD=-2[LL(βD)-LL(βa)-LL(βb)],
(4)
式中,LL(βa)和LL(βb)分別為使用a地區和b地區的交通事故數據估計模型收斂時的對數似然;LL(βD)為兩個地區所有的事故數據估計模型收斂時的對數似然。LR近似服從χ2(k)分布,其自由度k與篩選得到的事故持續時間特征變量個數相同。當顯著性水平α取0.05時,查表可得模型區域穩定性對數似然比檢驗的臨界值。
a地區數據為上述研究使用的貴州省2020年8月1日—2021年7月31日記錄的5 513條高速公路交通事故信息,b地區數據為山東省2020年8月1日—2021年7月31日記錄的3 423條高速公路交通事故信息。不同地區模型系數χ2(k)的檢驗結果,如表5所示。

表5 算法空間穩定性檢驗
同一地區不同時期模型時間穩定性檢驗的對數似然比公式,如式(5)所示。
LRt=-2[LL(βT)-LL(βa)-LL(βc)],
(5)
式中,LL(βa)同式(4),LL(βc)為貴州省2017年10月1日—2018年9月30日記錄的6 867條高速公路事故數據估計模型收斂時的對數似然;LL(βT)為兩個時間段內所有事故數據估計模型收斂時的對數似然。不同時期模型系數χ2(k)的檢驗結果,如表6所示。

表6 算法時間穩定性檢驗
同一時期不同地區的模型系數隨地區轉移不具有穩定性,但同一地區不同時期的模型系數隨時間轉移具有穩定性。在模型空間穩定性檢驗時,貴州交通事故數據檢驗山東模型系數的P值大于山東數據檢驗貴州模型系數的P值。這可能是因為貴州位于我國西南部,其地形、氣候、交通環境更加多樣,交通事故數據包含的信息更加全面,事故持續時間計算模型的適應性更好。
交通事故持續時間是指從交通事故發生至事故清除的時間,這一概念符合生存分析對生存時間的定義[23]。采用log-logistic函數對事故持續時間進行計算,事故持續時間風險函數的log-logistic模型表達式,如式(6)所示。
(6)
式中,ψ=exp(-β′X),X為特征變量組成的列向量;β為參數;γ為示形參數,當γ<1時,h(t)先增大后減小,當γ≥1時,h(t)單調遞減。
單方事故、事故車輛停駛在硬路肩、路段服務水平為1級、死亡人數0人、受傷人數0人、涉及車型為小客車,事發位置為基本路段的交通事故是最常見的一類事故,可將此類事故看作基準事故。風險函數h(t)是風險的一種度量,在時刻t1和時刻t2之間,h(t)越大,則事故清除(失效)發生的風險也越大。基準事故持續時間的失效風險如圖5所示,估算模型的拐點為29 min。意味著當事故持續時間超過29 min時將被很快清除,所以可認為基準事故的持續時間為29 min。

圖5 基準事故持續時間的失效風險
事故持續時間的風險率隨時間先增加后減小,表明示形參數γ小于1。根據交通事故持續時間特征變量敏感性分析結果,類比基準事故特征變量以及基準事故持續時間,建立交通事故持續時間計算模型,如式(7)所示。
t=29×(1+0.240(a1-1)-0.143(a2-3)+
0.141(a3-1)+0.102(a4-1)+0.058(a5-1)-
0.033(a6-4)+0.025(a7-2)),
(7)
式中,a1~a7的含義同表3,取值方法見表2。當交通事故發生時,高速公路管理人員可根據所發生的交通事故特征變量,快速進行事故持續時間計算。例如,事故類型為兩車追尾、事發路段剩余1條通行車道、路段服務水平為3級、死亡人數0人、受傷人數2人、涉及車型為貨車、事發位置為基本路段的事故持續時間計算方法,如式(8)所示。
t=29×(1+0.24×(2-1)-0.143×(2-3)+
0.141×(2-1)+0.102×(1-1)+0.058×
(3-1)-0.033×(3-4)+0.025×(2-2))=49 min。
(8)
本研究對高速公路交通事故持續時間計算方法進行了分析。利用貴州和山東省高速公路交通事件檔案,交通和氣象觀測站統計數據以及高速公路設計文件,構建了包含4類15項事故持續時間影響因素的初始變量集。通過統計學習方法進行變量選擇,建立了包含事故類型、剩余車道數、服務水平、死亡人數、受傷人數、涉及車輛類型、事故發生位置等7個變量在內的極限梯度提升樹交通事故持續時間計算模型,并對模型性能進行了檢驗。得到的基本結論有:
(1)將交通事件劃分為道路交通事故、氣象災害、地質災害、公路設施安全事件,交通事件發生頻數和事件持續時間統計結果表明,交通事故是平均持續時間最短、發生頻次最高的一類事件。
(2)特征變量篩選結果表明,交通事故特征和交通狀況特征對事故持續時間的影響程度高于道路特征和環境特征;根據所發生的交通事故特征,由變量敏感性分析結果、基準事故持續時間,可快速進行事故持續時間計算。
(3)由于不同省份不同時期交通事故持續時間影響因素存在差異,所建交通事故持續時間計算模型具有時間穩定性,但不具備空間穩定性。