DOI:10.16652/j.issn.1004-373x.2025.16.011
中圖分類號:TN912-34;U491.3 文獻標識碼:A 文章編號:1004-373X(2025)16-0061-06
Traffic accident severity prediction based on ensemble learning
JIA Xianguang',SONG Tengfei',LU Yingying2 (1.SchoolofTransportationEngineering,KunmingUniversityof Technology,Kunming 65o5oo,China; 2.SchoolofIformationEngineeringndAutomation,KunmingUiversityofTechoogyKunming65O5,a)
Abstract:Inordertoimprovetheperformanceofroad traffcaccidentseverityprediction modelsandanalyze theimpactof acidentfeaturesonacidentseverityamethodoftraffcaccidentseveritypredictionbasedonadouble-layerStackingodelis proposed.The BSMOTE2 algorithm isused tobalancethedataandverifywhetherdatabalancing procesing willhaveapositive impact on model prediction.The GBDT-RFECV algorithm isused for k -fold cross validation selection to complete the feature dimensionalityreduction.Atwo-layer Stacking model isbuilt.Thefirstlayeriscomposedof BiGRUandXGBoost,using time seriesfeatures forBiGRUandstaticfeaturesforXGBostforthepreliminaryprediction.TheCatBoostmodelisusedatthe secondlayerandcombinedwith thepredictionresultsofthefirstlayerforthefinalseverityprediction.Theresearchresults indicate that theaccuracyofthemodel,macro F1 ,andmacroAUChaveallimproved significantly,indicatingthatdatabalance processing hasapositiveimpactonmodelprediction.IncomparisonwithKNN,BiGRU,RF,andXGBoost models,theproposed double-layer Stacking model can improve prediction accuracy by 5.45%,10.23%, 1.78% ,and 2.34%,respectively,the macro F1 (204 value can be increased by 5.31% , 9.91% ,1.35%,and 1.92%,respectively,and the macro AUC canbe increased by11.13%, (204 6.97% , 2.13% ,and 2.71%,respectively.The double-layer Stacking model can perform beter than other modelson multiple evaluation metrics.
Keywords:traficsafety;traffcaccidentseverity;predictiveanalysis;ensemble learing;machine learning;deeplearning; feature dimensionalityreduction
0 引言
隨著社會經濟的快速發展,汽車保有量逐漸增加,但道路交通安全問題日益突出。由于交通事故具有突發性和不確定性特點,難以準確預測其時間、地點和嚴重程度等信息,因此對交通事故嚴重程度的預測就顯得十分重要。
交通事故預測與致因分析一直是交通安全研究領域的熱點問題,學者們常用統計建模方法和機器學習方法進行研究,旨在通過對交通事故數據的分析,揭示事故發生的趨勢和主要原因,從而為預防交通事故提供指導。文獻[1]利用美國華盛頓州交通署收集的道路交通事故數據作為樣本,以道路交通事故嚴重程度為研究對象,并分成死亡/受傷事故和僅財產損失事故兩類,建立一種基于隨機森林(RandomForest,RF)和多目標優化算法的道路交通事故嚴重程度預測模型。文獻[2]采用決策樹、貝葉斯網絡和線性支持向量機三種數據挖掘模型,對交通事故嚴重程度相關的風險因素進行了綜合分析。文獻[3]針對事故嚴重程度的影響因素,采用比例優勢模型進行確定,并展開對比分析,得出冰雪季和非冰雪季的天氣、路面狀況及防護設施對事故的嚴重程度有一定的影響,但影響程度存在差異。文獻[4]建立LightGBM和隨機森林模型,采用SMOTEENN處理數據不均,比較其與邏輯回歸模型的效果。文獻[5]基于意大利南部城市道路上記錄的202條事故數據集,采用人工神經網絡(ArtificialNeuralNetwork,ANN)和灰狼優化(GreyWolfOptimizer,GWO)算法兩種機器學習技術相結合來預測道路交通事故的嚴重程度。文獻[6]首次提出了一種基于一維和二維卷積神經網絡的新方法,用于檢測交通事故的嚴重程度以提高預測精度。文獻[7]運用空間廣義有序Probit模型,分析13個因素與事故嚴重程度的空間關聯性。
但是由于大多數事故數據集本身的不平衡性,使得創建的預測模型產生不平衡的識別和分類效應,導致數據較少的類別預測準確性降低。常見數據平衡處理方法包括隨機欠采樣(RandomOver-Sampling,ROS)、隨機過采樣(RandomUnder-Sampling,RUS)9、合成少數類過采樣技術(Synthetic Minority Oversampling Techni-que,SMOTE)[o]。文獻[11]首次提出了Rotation SMOTE算法,將數據采樣與模型融合,用于不平衡數據學習,該方法在Boosting模型訓練過程中,根據基分類器預測結果有針對性地合成采樣少數類樣本,以提高召回率,并通過PCA旋轉變換融合多個模型,增加樣本多樣性,為解決原始數據不平衡的問題提供新思路。文獻[12]采用Borderline-SMOTE算法進行過采樣調整,解決原始數據不平衡的問題。
特征篩選和數據預處理是數據分析和機器學習中一體兩面的關鍵步驟。在數據分析和機器學習領域,特征篩選是一種重要的技術,用于從大量的自變量或特征中選擇最相關和有意義的特征,以構建高效和準確的預測模型。文獻[13]首次提出了一種基于主成分分析和信息增益的特征選擇混合濾波模型,然后應用混合模型來支持使用機器學習技術(例如樸素貝葉斯技術)的分類。
文獻[14]利用隨機森林模型對電動自行車騎行者受傷嚴重程度進行預測,并對相關因素的重要程度進行排序。
本文綜合分析了交通事故嚴重程度的預測方法,集中討論了不同學者的研究進展和方法。由于交通事故數據往往不平衡,本研究選擇BSMOTE2算法進行數據平衡,以改善預測模型的準確性。接著,使用GBDT-RFECV算法結合k折交叉驗證進行特征降維,確保模型聚焦于最關鍵的特征。然后,應用雙層Stacking模型進行交通事故嚴重程度預測,第一層由BiGRU和XGBoost組成,將時間序列特征用于BiGRU,靜態特征用于XGBoost進行初步預測;第二層采用CatBoost模型,結合第一層的預測結果進行最終的嚴重程度預測。通過這些先進的數據處理和機器學習技術,本文旨在提高交通事故嚴重程度預測的準確性。
1 理論基礎
1.1 Stacking算法
Stacking[是一種在分類和回歸任務中廣泛應用的集成學習技術。它由多個基學習器組成,這些學習器首先在原始數據集上進行訓練和預測;接著,元學習器在第一層的學習器輸出的基礎上進行第二輪訓練。相比于Voting集成學習模型,后者通過一次性訓練多個基礎模型并使用投票機制來確定最終的分類結果,Stacking模型因其兩階段訓練過程而具有更高的泛化能力。Stacking算法偽代碼如下。
輸入:訓練集
初級學習算法 L1,L2,…,LT
次級學習算法 L
過程:
1. f ort=1,2,…,T do
2. ht=Lt(D)
3.end for
4. D′=?
5.for i=1,2,…,m do
6.fc rt=1,2,…,T do

8.end for
9
(24
10.end for
11. 
輸出 
1.2模型評價指標
在多分類問題中,評價模型的性能需要選擇合適的評價指標,常用的評價指標包括準確率、宏 F1 和宏AUC4。表1為三分類結果混淆矩陣,假設 a~i 表示模型訓練的分類結果,每行代表樣本的真實類別,每列代表樣本的預測類別。
表1分類結果混淆矩陣

1)準確率是評價分類問題中最常用的指標之一,表示模型正確預測的樣本數占總樣本數的比例。準確率對于類別數量相對平衡的問題能夠很好地反映模型的性能。準確率的計算公式為:

2)宏 F1 指標是綜合了模型在每個類別上的精確率和召回率,計算方法是對每個類別單獨計算 F1 值,然后對所有類別的 F1 值求平均值。宏 F1 指標適用于類別不平衡或者某些類別比其他類別更重要的情況下,能夠更好地反映模型的全局性能。宏 F1 的計算公式為:





3)宏AUC指標可以評價模型對于每個類別的區分能力,計算方法是對每個類別單獨計算AUC值,然后對所有類別的AUC值求平均值。宏AUC指標適用于類別之間存在差異性的問題,能夠更好地反映模型的性能。宏AUC的計算公式為:

2 數據處理
2.1數據來源及預處理
本文使用美國坦佩市2022年期間的交通事故數據集,該數據集共包含2945條樣本數據。為確保數據的準確性和可靠性,對數據進行以下預處理:
1)移除遺失和未記錄的事故信息;
2)剔除包含異常特征信息以減少數據噪聲;
3)排除至少有兩個缺失值的行;
4)消除對同一事故多個結果的重復記錄。
通過以上預處理,本文篩選出含有21個特征、共2872條事故的數據集。
2.2 特征編碼
數據集包含事故雙方信息,將不同特征根據“人-車-路-環境”的因素分成事故信息、道路信息、肇事人及車輛信息3類,使用離散型數字編碼表示每個特征,編碼表如表2~表4所示。表中事故雙方及車輛信息解釋如下。
1)數據集中包含事故雙方信息,包括性別、年齡、身份、違規行為、行進方向、是否飲酒和是否吸毒。
2)將交通違規行為按嚴重程度由最低、較低、中等和高風險分成4級。將事故雙方的違規等級相加,可以在一定程度上量化違規行為對事故產生的風險。
3)行進方向角度包括東對應 0° 、北對應 90° 、西對應 180° 、南對應 270° 、東南對應 45° 、東北對應 135° 、西南對應 225° 、西北對應 315° 。使用方向1-方向2表示雙方行車方向的差異,為預測潛在交通事故提供有用信息。
2.3不平衡數據處理
預處理后的數據集一共包含2872條樣本數據,其中輕微事故數據1859條,占比 64.7% ,一般事故數據961條,占比 33.5% ,重大或特大事故數據52條,占比1.8% ,樣本數據嚴重不平衡。這種情況會導致模型對少數類別的樣本預測效果較差,從而影響整個模型的性能。本文采用BSMOTE2算法進行樣本數據的平衡處理,平衡處理后的數據集一共包含4492條樣本數據,并且三種事故嚴重程度類型占比相同。為驗證數據平衡處理是否會對模型預測產生正向影響,選擇采用KNN模型對平衡處理前后模型評價指標進行對比。如圖1所示,模型的準確率、宏 F1 和宏AUC均有明顯的提高,表明數據平衡處理對模型預測產生正向影響。
2.4特征降維
特征降維是將高維數據轉換為低維數據的過程,以減少計算復雜度和過擬合等問題,它可以降低計算成本,減少過擬合風險,增加模型的可解釋性,并提高模型的效率和準確性。常見的特征降維方法包括PCA[6LDA[17]和t-SNE[18]等。
表2特征編碼表(一)

盡管PCA、LDA和t-SNE在降維和數據可視化方面有其獨特的優勢,但在特征選擇問題上,GBDT-RFECV算法通過機器學習和交叉驗證的方式能夠更好地自動選擇具有顯著性的特征子集,從而對目標任務的預測性能提供更有針對性的特征信息
表3特征編碼表(二)

本文使用GBDT-RFECV算法進行特征降維。它是一種基于梯度提升樹的特征選擇方法,結合了GBDT和RFECV。GBDT-RFECV算法的流程如下:
1)使用GBDT模型對所有特征進行訓練,得到每個特征的重要性指標;
2)根據特征的重要性指標對特征進行排序,從重要性最低的特征開始逐步剔除;
3)對于每個剔除后的特征子集,使用交叉驗證來評估模型性能,并記錄性能指標;
4)重復步驟2)和步驟3),直到所有特征都被剔除;
5)選擇性能最佳的特征子集作為最終的特征集合。
表4特征編碼表(三)

圖1平衡處理前后模型評價指標對比

通過GBDT-RFECV算法對數據集進行特征篩選,其中設置每次迭代時的遞歸特征消除長度為1,交叉驗證規則CV選為2、5、8,根據不同特征維度對應的準確率確定最終的特征子集。
圖2為k折交叉驗證下GBDT-RFECV模型準確率結果。隨著特征個數增加,采用三種交叉驗證規則的模型準確率均呈遞增趨勢,當特征個數從4開始,模型準確率增長趨勢開始減緩,并且隨著特征個數的增加,模型準確率呈現來回波動的趨勢,同時采用 CV=2 的模型準確率明顯低于另外兩種交叉驗證。所以只考慮CV=5 和8的交叉驗證規則。
由圖2可以看出,當特征個數為18時,采用 CV=8 的模型準確率達到最高,并且要比采用 CV=5 的模型準確率最高值更大?;跍蚀_率曲線的觀察結果,本文選擇8折交叉驗證規則,特征個數為18。根據模型結果剔除“路面狀況”“天氣”和“吸毒”三個特征。
3模型構建評估分析
3.1模型的構建與調參
對于機器學習和深度學習算法,調參可以對模型的泛化能力、準確性和速度等方面產生影響。本文選擇經特征降維處理的數據集,基于遺傳算法對KNN、BiGRU、RF和XGBoost這四種模型的參數開展尋優。各模型參數優化后的取值如表5所示。
圖2k折交叉驗證下GBDT-RFECV模型準確率結果

表5模型調參結果

3.2 實驗結果與對比分析
采用優化后的參數得出KNN、BiGRU、RF、XGBoost和雙層Stacking模型的準確率、宏 F1 和宏AUC。模型評價指標對比見表6。模型ROC曲線見圖3。
表6模型評價指標對比

從表4、圖3可以得出以下結果。
1)各模型的準確率和宏 F1 分數相近,表明BSMOTE2成功改善了模型對少數類別的性能,在不犧牲任何類別性能的情況下,保持了較高的整體準確性。
2)雙層Stacking模型在準確率、宏 F1 值和宏AUC方面均表現出最佳性能。相較于KNN、BiGRU、RF和XGBoost模型,雙層Stacking模型的預測準確率分別提高了 5.45%,10.23%,1.78% 和 2.34% ,宏 F1 值提高了5.31%.9.91%.1.35% 和 1.92% ,宏AUC提高了 11.13% 、6.97%.2.13% 和 2.71% 。雙層Stacking模型在多個評估指標上的表現優于其他模型,這表明它能夠更準確、更全面地預測道路交通事故的嚴重程度。
圖3模型ROC曲線

4結語
本文使用美國坦佩市2022年期間的交通事故數據集,研究選擇BSMOTE2算法進行數據平衡,以提高預測模型的準確性。接著,使用GBDT-RFECV算法結合k折交叉驗證進行特征降維,確保模型聚焦于最關鍵的特征。然后,應用雙層Stacking模型進行交通事故嚴重程度預測,第一層由BiGRU和XGBoost組成,將時間序列特征用于BiGRU,靜態特征用于XGBoost進行初步預測;第二層采用CatBoost模型,結合第一層的預測結果進行最終的嚴重程度預測。結果表明,雙層Stacking模型在多個評估指標上的表現優于其他模型。然而,研究中也存在一些不足之處,如數據量相對較少且數據的地域分布單一,研究結論存在一定的局限性。
注:本文通訊作者為呂英英。
參考文獻
[1]張蔚.基于集成學習的道路交通事故嚴重程度預測方法研究[D].南京:南京理工大學,2019.
[2]ALKHEDERS,ALRUKAIBIF,AIASHA.Risk analysisoftraffic accidents’severities:an application of three data miningmodels[J].ISAtransactions,2020,106:213-220.
[3]曹弋,張貝貝,李詩文.冰雪季城市道路交通事故嚴重程度影響因素分析[J].大連交通大學學報,2022(4):8-13.
[4]束鵑.基于可解釋機器學習的城市道路交通事故嚴重程度預測[D].西安:長安大學,2022.
[5] ASTARITA V,HAGHSHENAS S S, GUIDO G,et al. Developing new hybrid grey wolf optimization-based artificial neuralnetworkforpredictingroadcrashseverity[J]. Transportation engineering,2023,12:100164.
[6] PEREZ - SALA L,CURADO M,TORTOSA L, et al. Deep learning model of convolutional neural networks powered by a genetic algorithm for prevention of traffic accidents severity [J]. Chaossolitonsamp;fractals,2023,169:113245.
[7]胡郁蔥,韋湖,曾強.基于空間廣義有序Probit模型的高速公 路事故嚴重程度分析[J].華南理工大學學報(自然科學版), 2023,51(1):114-122.
[8]劉允.基于不平衡樣本下Stacking集成方法的貸前風控研究 [D].武漢:華中師范大學,2022.
[9]LIU B,TSOUMAKAS G.Dealing with class imbalancein classifier chains viarandom under sampling [J]. Knowledge based systems,2020,192:105292.
[10]王潔寧,侯海洋,賈奇.不均衡空管危險源自由文本分類模型 [J].安全與環境學報,2022(2):826-835.
[11]陳圣靈.面向工業大數據的不平衡數據處理方法研究[D].長 沙:國防科技大學,2018.
[12]YANG J,LI R,CHEN L,et al.Research on equipment corrosion diagnosis method and prediction model driven by data [J]. Process safety and environmental protection,2022, 158: 418-431.
[13] OMUYAE O,OKEYOGO,KIMWELE M W.Feature selection for classification using principal component analysis and information gain [J].Expert systemswith applications, 2021,174:114765.
[14]李英帥,張旭,王衛杰,等.基于隨機森林的電動自行車騎行 者事故傷害程度影響因素分析[J].交通運輸系統工程與信 息,2021(1):196-200.
[15]單永航,張希,胡川,等.基于集成學習的交通事故嚴重程度 預測研究與應用[J].計算機工程,2024,50(2):33-42.
[16]徐笑鋒,肖英杰,章學來,等.基于PCA-相對熵模型的海上中 轉引航平臺選址研究[J].安全與環境學報,2021(6):2438- 2443.
[17]WANGX,PALIWAL KK.Feature extraction and dimensionality reduction algorithms and their applications in vowel recognition [J]. Pattern recognition,2003,36(10): 2429-2439.
[18]文靜,景鵬,賈洪飛,等.基于K均值聚類與隨機森林算法的 居民低碳出行意向數據挖掘[J].華南理工大學學報(自然科 學版),2019,47(7):105-111.
作者簡介:賈現廣(1977—),男,河南??h人,碩士研究生,碩士生導師,研究方向為智能交通大數據。宋騰飛(2000一),男,安徽阜陽人,碩士研究生,研究方向為智能交通大數據。呂英英(1982—),女,山西臨汾人,碩士研究生,講師,研究方向為大數據應用。