摘要 為了深入探究道路營運車輛的交通事故特征,解決現有交通事故統計分析手段單一、事故因素量化關聯研究不足等問題,文章引入隨機森林RF-fpgrowth組合算法。首先,采用隨機森林RF算法分析得出影響事故嚴重程度的關鍵因子;其次,用fpgrowth算法對關鍵因子和目標因子之間進行關聯規則的挖掘。研究結果表明,該方法能夠有效評估各因素的重要性,并挖掘出各因素與事故嚴重程度之間的強關聯規則。具體來說,交通事故的嚴重程度與31~55歲年齡段的駕駛員、營運車輛類型、特定時間段、路口及碰撞運動車輛有強烈的關聯。同時,根據相關特征的挖掘結果,提出了相應的對策,為交通事故的預防和減少提供了更為科學和有效的決策支持。
關鍵詞 交通安全;營運車輛;RF-fpgrowth算法;關聯性分析;交通事故特征挖掘
中圖分類號 U121 文獻標識碼 A 文章編號 2096-8949(2024)24-0026-04
0 引言
交通安全問題一直是全球關注的焦點,尤其是對交通事故的數據分析,以揭示其致因規律和特征,對于預防事故的發生具有重要意義。許多國內外學者已經進行了大量研究,例如,Mehdizadeh M[1]等人研究發現出租車駕駛員比重型貨車駕駛員更易做出侵犯性的違法駕駛行為;Long T T[2]等人研究得出出租車和網約車事故均與開車時使用手機等危險行為有關;Npa B[3]等人研究發現超速、闖紅燈、使用手機都是造成網約車事故的重要因素;高鐵男[4]研究得出違規操作是影響城市客車交通事故的關鍵因素;朱彤[5]等人研究發現駕駛員違規行為是導致公共交通事故發生的重要原因之一;員伊雯[6]指出相較于環境因素,駕駛員違法行為是造成出租車交通事故的重要因素。
然而,目前的研究主要關注單一的事故類型或單一的影響因素,對于各因素之間關聯性的研究相對缺乏,同時分析方法也較為單一。例如,陸歡[7]等人基于Logistic模型研究高原山區公路環境下不同交通事故形態的致因,但此方法主要用于二分類問題,不適用于多分類特征的挖掘分析;彭志鵬[8]等人基于貝葉斯網絡建立了網約車事故預測模型,識別各因素對事故頻率的影響,但此方法計算復雜度較高,對于大規模的數據,可能需要很長的計算時間;王繼博[9]等人利用k-mesans篩選出與交通事故高度相關的交通事故違法行為,但此方法是一種無監督學習算法,不適用于該文采集到的數據。
鑒于此,該文引入隨機森林RF-fpgrowth組合算法。這種算法不僅能處理分類變量,避免過擬合現象,還能評估變量的重要性,計算復雜度相對較低,能高效挖掘出營運車輛交通事故特征之間的復雜關聯規則,為交通事故的預防和減少提供更為科學和有效的決策支持,有助于進一步提升交通安全水平。
1 研究方法
1.1 隨機森林RF算法
隨機森林(Random Forest,簡稱RF)是一種集成學習方法,通過構建多個決策樹并取它們的平均預測結果,提高預測精度和防止過擬合。其中,預測精度及變量重要度是評估和優化隨機森林模型的重要工具。
(1)算法精度預測。使用袋外錯誤率errOBB作為內置的驗證方法,計算每棵樹的袋外數據錯誤率errOBB
=M/U,其中M為預測錯誤的次數,U為袋外數據的總數。
(2)變量重要性度量。通過三個步驟評估變量對結果的影響:1)計算原始袋外數據誤差errOOB1;2)對所有OOB樣本的特征G添加噪聲干擾,再次計算袋外誤差errOOB2;3)假設隨機森林中有N棵樹,計算特征G的重要性得分為(errOOB1?errOOB2)/N,變量重要性得分越高,其對分類結果的影響越大。
1.2 fpgrowth算法
fpgrowth是一種頻繁項集挖掘算法[10],通過構建FP樹存儲數據集信息,并采用分治法找出頻繁項集。該文使用支持度、置信度和提升度三個指標篩選有效關聯規則,發現其中的特征規律,提出有效的解決方案,降低營運車輛交通事故的發生率,保障車輛出行安全。
(1)支持度(Support)。
支持度是關聯規則挖掘中的常用指標,表示項集在總項集中出現的概率,如式(3)所示:
(3)
式中,N( )——事務集里特定項集出現的次數;——總事務集的個數;——同時包含X和Y的事務集個數。
(2)置信度(Confidence)。
置信度表示在先決條件X發生的情況下,由關聯規則“X→Y”推出Y的概率,如式(4)所示:
(4)
式中,——X出現的概率;——X和Y同時出現的概率;——X發生的情況下出現Y的概率。
(3)提升度(Lift)。
提升度表示含有X的條件下,同時含有Y的概率,與含有Y的概率之比,如式(5)所示:
(5)
式中,——Y出現的概率;——X發生的情況下出現Y的概率。
1.3 RF-fpgrowth建模流程
該文基于RF-fpgrowth算法實現營運車輛的事故特征挖掘,具體步驟如下:
(1)對收集到的交通事故數據進行篩選和剔除,以減少異常數據對后續實驗的影響。
(2)結合預處理的數據,根據屬性的影響因素和分類結果進行賦值。
(3)將事故嚴重程度作為目標變量,年齡、性別、事故發生時間、營運車輛類型等因素作為輸入變量,通過構建L棵決策樹,訓練RF模型,輸出每個特性因素對分類結果影響程度的重要性得分。
(4)將RF模型輸出的結果作為fpgrowth算法的輸入,挖掘頻繁項集,直至挖掘出最大的頻繁項集,停止挖掘,生成關聯規則,并計算每個規則的置信度、支持度和提升度。
(5)對篩選出的關聯規則進行分析,得出年齡、事故發生時間、營運車輛類型、碰撞形態、違法駕駛行為等特征之間的關聯性,并作出相應分析。
2 實證分析
2.1 數據采集及預處理
該研究所用的數據通過某城市行業組織獲取,原始數據為1 275份去隱私的交通事故數據,經篩選與排除部分事故信息不全、重復或缺失的數據后,仍有934份事故數據滿足分析要求。數據預處理后得到交通事故發生的主要影響因素共有11個。在RF模型中,輸入和輸出變量均以向量的形式表示,因此需預先為文本屬性的影響因素和分類結果進行賦值,如表1所示,并應用python編程實現RF-fpgrowth算法。
2.2 變量篩選
隨機森林算法可以對因素的重要性進行排序,但單一的樹結構無法揭示變量的重要性排名。因此,通過選擇50~150棵樹進行模型訓練,觀察樹的數量對分類預測精度的影響,以確定最優參數。如圖1所示,不同決策樹數量下的OOB(Out-of-bag)誤差變化情況,當樹的數量達到118棵時,OOB誤差最小,表明此時模型的預測精度最高。
使用RF算法分析數據后得到影響交通事故嚴重程度的主要因素,按重要度排序如下:駕駛違法行為、責任認定、營運車輛類型、事故發生時間、年齡、事故碰撞形態、路口路段類型、天氣類型、性別和是否運載危險品。其中,駕駛違法行為是最主要的因素,可能直接增加事故風險;責任認定和營運車輛類型次之,可能因為它們而影響事故責任和損失;天氣類型、性別和是否運載危險品的影響較小。
基于RF算法對因素重要度進行變量篩選,閾值設定為0.05時,在多數數據集上能有效剔除不重要特征,從而更好地聚焦關鍵因素,提升模型預測的準確性和穩定性。因此,如果變量的重要度得分低于0.05,可能表明該變量對模型的貢獻有限,可以排除[11]。如圖2所示,天氣類型、性別、是否運載危險品這三個因素的重要度均低于0.05,排在后三位,可以不列入下一步研究對象。
2.3 關聯度分析
通過隨機森林模型RF生成的重要影響因素,進一步利用fpgrowth算法挖掘頻繁項集。由于關聯規則源自頻繁項集,每個關聯規則都自然滿足最小支持度,可設定最小支持度為0.1,最小置信度為0.5。為了便于快速訪問頻繁項集及其支持度,將它們存儲在一個表中。然后,列出每個頻繁項集的非空子集的置信度,并根據最小置信度閾值篩選出關聯規則。在規則結果中,將置信度大于0.5且提升度大于1的規則設定為強關聯規則。通過應用fpgrowth算法,挖掘出營運車輛交通事故特征的頻繁項集和關聯規則,如表2所示:
根據表2的挖掘規則結果,可以得出以下結論:
序號1、2、14表明,在上午6:00至12:00、下午12:00至18:00時段發生交通事故或碰撞的概率可能會顯著增加,這可能與這些時段為出行高峰期有關。深夜24:00—6:00的時間段內發生事故與疲勞駕駛有關。
序號3、5、6、8、10、13表明,駕駛員年齡在31~55歲的群體更容易引發交通事故,并且傷人和致命風險較高,這可能是因為這個年齡段的駕駛員雖然擁有豐富的駕駛經驗,但他們可能過于自信或傾向于冒險,這種心態可能增加危險駕駛行為的發生,從而提高交通事故發生的風險。
序號4、5、6、7表明,貨運車涉及交通事故的嚴重程度往往與碰撞運動車輛、超載或超速行駛等因素有關。在交通事故中,無論是一方負主要責任、次要責任,還是雙方負同等責任,事故的嚴重程度通常都較高。特別是涉及路口刮撞行人的情況,即使貨運車非主責,也可能導致亡人事故的發生,這可能是因為貨運車存在視野盲區,駕駛員無法及時減速或避讓行人,從而導致沖突發生。
序號8、9描述了私家車因醉酒駕駛易導致傷人事故的發生。序號10~12表明31~55歲的出租車駕駛員,如果超速行駛并且是事故的主要責任方,很可能會導致人員傷害;此外,駕駛時的分心打電話、變更車道等違法駕駛行為,都可能增加事故的發生率和嚴重程度。序號13~14表明,對于網約車司機來說,未能與前車保持安全距離,以及在深夜(24:00—6:00)疲勞駕駛,都可能導致財產損失。序號15描述了即使公交車司機在行人橫穿馬路時無責,也可能導致人員傷害事故的發生。
3 對策與建議
為了有效預防交通事故,該文提出以下三個主要建議:
(1)完善道路硬件條件。針對大型汽車,如貨運車、公交車等,因其體積大而易出現視野盲區,從而引發交通沖突,可以在路口設置行人、非機動車等預警設施,同時對這些措施的效果進行評估,以確保其有效性。
(2)加強安全隱患管理。雖然開車打電話、疲勞駕駛等行為對事故的影響較大,但現行的交通法規對此并未實施實質性的約束和處罰,可以通過道路交通監控的拍攝畫面,在特定高峰時期對出租車駕駛員進行監督,并對其違規行為給予警告和經濟處罰。
(3)優化交通管制機制。在上午6:00~12:00和下午12:00~18:00的高峰期,交通管理部門應加強交通管理,如增派交通警察、增加交通信號燈的數量和頻率,以減少交通事故;對事故頻發路段進行改造,如改善路面條件、增設路燈和交通標志,提高駕駛員視線。
4 結論
該文采用隨機森林RF-fpgrowth組合算法,以解決道路營運車輛交通事故分析中存在的問題。這種算法能夠有效地評估各因素的重要性,并深入挖掘各因素與事故嚴重程度之間的強關聯規則。根據研究結果,得到的主要結論如下:
(1)交通事故在出行高峰期和深夜疲勞駕駛時段的發生率顯著增加。
(2)31~55歲的駕駛員中,由于過度自信或冒險心態,更容易引發交通事故。
(3)在各類營運車輛中,貨運車與交通事故嚴重程度的關聯最多,其事故發生與碰撞運動車輛、超載或超速行駛等因素有關,即便非主責,也可能引發嚴重事故。
(4)私家車駕駛員醉駕更易導致傷人事故;出租車駕駛員如果出現超速、分心打電話、變更車道等違法行為,都可能增加事故的發生率和嚴重程度;網約車司機未能與前車保持安全距離,以及深夜疲勞駕駛,都可能導致財產損失;公交車司機在行人橫穿馬路時,即使無責,也可能導致人員傷害事故的發生。
同時,針對上述結論,該文提出了包括完善道路硬件條件、加強安全隱患管理等一系列對策,以提供更科學、更有效的決策支持,進一步提升交通安全水平。將來也可以針對營運車輛的某一類型進行針對性研究,探討其交通事故的發生規律。
參考文獻
[1]Mehdizadeh M, Shariat-Mohaymany A , Nordfjaern T.
Driver behaviour and crash involvement among professional taxi and truck drivers: Light passenger cars versus heavy goods vehicles[J]. Transportation Research Part F Traffic Psychology and Behaviour, 2019:86-98.
[2]Long T T, Hang T . Mobile phone related crashes among motorcycle taxi drivers[J]. Accident Analysis amp; Prevention, 2019(132):105288.
[3]Npa B , Cdg C , Han D , et al. Risky behaviours associated with traffic crashes among app-based motorcycle taxi drivers in Vietnam[J]. Transportation Research Part F: Traffic Psychology and Behaviour, 2020(70):249-259.
[4]高軼男.人員致命城市客車事故特征及致因機理分析[J].交通工程, 2022(3):82-87+96.
[5]朱彤,秦丹,董傲然,等.公交駕駛員違規類型同交通事故間的關聯分析[J].交通運輸系統工程與信息, 2022(2):322-329.
[6]員伊雯.基于數據挖掘的出租車駕駛員交通事故分析及其應用研究[D].西安:西安電子科技大學, 2019.
[7]陸歡,戢曉峰,楊文臣,等.高原山區公路環境下交通事故形態致因分析[J].中國安全科學學報, 2019(5):44-49.
[8]彭志鵬,潘恒彥,王永崗.基于貝葉斯網絡的網約車交通事故致因機理分析[J].東北大學學報(自然科學版), 2023(1):145-152.
[9]王繼博,楊蕾.基于K-Means聚類的交通違法行為與事故關聯關系研究[J].交通建設與管理, 2019(5):92-95.
[10]晏杰,亓文娟.基于Aprioramp;FP-growth算法的研究[J].計算機系統應用, 2013(5):122-125.
[11]Carolin Strobl, Anne-Laure Boulesteix, Thomas Kneib, et al. Conditional variable importance for random forests. BMC bioinformatics, 2008(1):307-318.