楊博,段宗濤,左鵬飛,肖媛媛,王藝霖
融合異構交通態勢的事故預測模型
楊博,段宗濤*,左鵬飛,肖媛媛,王藝霖
(長安大學 信息工程學院,西安 710064)( ? 通信作者電子郵箱ztduan@chd.edu.cn)
針對事故數據信息表達有限、數據不平衡以及數據中存在動態時空特性的問題,提出一種融合異構交通態勢的事故預測模型。其中:時空狀態聚合模塊通過代表動態交通態勢的交通事件和天氣特征完成語義增強,并聚合四種區域(單一區域、鄰近區域、相似區域和全局區域)的歷史多時段時空狀態;時空關系捕獲模塊從微觀和宏觀角度捕獲事故數據局部與全局的動態時空特性;時空數據融合模塊進一步融合多區域、多角度的時空狀態,并完成下一時段的事故狀況預測任務。在US-Accident的5個城市數據集上進行實驗,結果表明所提模型的正樣本、負樣本、加權正負樣本的平均F1分數分別為85.6%、86.4%和86.6%,與傳統的前饋神經網絡(FNN)模型相比,在三個指標上分別提升了14.4%、5.6%和9.3%,能有效抑制事故數據不平衡對實驗結果的影響。構建高效的事故預測模型有助于分析道路交通安全形勢,減少交通事故的發生,提高交通安全。
交通事故預測模型;交通事故數據;時空特性;深度學習;交通安全
道路交通事故不僅會造成大量的財產損失,而且會對人們的生命安全造成極大威脅[1]。為有效預防道路交通事故的發生,需要對城市道路交通安全形勢進行分析研判。交通事故預測是道路交通安全形勢分析研判的主要部分,旨在利用歷史交通事故數據,構建交通事故預測模型,預測某個區域未來一段時期的事故發生狀況。
為提高交通事故預測模型的準確性,需要充分考慮事故數據的自身特性。在確定一起交通事故時,需要在時間和空間維度上描述,顯然事故數據具備時間特性和空間特性。在時間上,事故數量隨著時間的變化而變化,如高峰期更容易發生交通事故[2];在空間上,由于鄰近地區的相互影響以及各個地區的物理空間差異,事故數據表現出空間依賴性和空間異構性[3-4]。事故數據在時間和空間上的特性并不是相互獨立的,存在時空依賴性[5]。采集的交通事故數據一般包括事故基本信息、駕駛人員信息和車輛基本信息,其中事故基本信息用于交通事故預測模型的構建,另外兩類信息還可用于事故成因分析[6-8]。但是,事故基本信息本身表達的信息有限。因此在構建交通事故預測模型時,如何在事故數據信息表達有限的前提下,從事故數據中捕獲它們的時空特性,并提高交通事故預測模型的準確性是一個難點。
早期研究通常使用傳統機器學習方法構建交通事故預測模型,如文獻[9]中使用負二項回歸模型和決策樹模型建立交通事故發生頻率預測模型,文獻[10]中通過近鄰方法構建實時公路交通事故預測模型;但這類交通事故預測模型往往忽略了交通事故數據的時空特性。隨著深度學習的發展,一些研究開始使用可以捕獲鄰域信息的卷積神經網絡和善于處理時序數據的循環神經網絡來捕獲交通事故數據的時空特性[11]。文獻[12]中提出的DAP(Deep Accident Prediction)模型包含多個組件,其中循環網絡組件處理與時間相關的特征,全連接網絡組件處理與時間無關的特征,嵌入組件捕獲空間異構性。文獻[13]中在研究區域上設置滑動窗口并利用循環神經網絡分別對農村區域、城市區域和混合區域建模。上述研究處理了局部區域的時空特性,但忽略了全局時空特性。圖卷積網絡(Graph Convolutional Network, GCN)通過聚合鄰域信息來迭代更新節點信息,隨著迭代的進行,每個節點會聚合圖上更大范圍的信息[14],可捕獲全局空間特性。文獻[15]中提出差分時變圖卷積網絡捕獲實時全局交通狀態和研究子區域的互相關性。但這些研究未能從多角度、多尺度捕獲事故數據的動態時空特性。
為彌補事故基本信息表達力有限的缺陷,各種不同的語義信息也被作為事故預測模型的輸入數據,如天氣特征[9,12-13,15-16]、道路特征[9,13,15-16]、興趣點(Point Of Interest, POI)數據[12,16]、交通流[9,11,13,15]、GPS軌跡[15-17]、人口數據[18]等。不同研究通常將不同的語義信息作為事故基本信息的補充輸入給交通事故預測模型,而大多數語義信息都難以獲取,建立的模型難以應用在其他區域。此外,靜態語義信息無法反映道路交通態勢,如道路特征、POI特征等。而動態語義信息可以反映真實路況,如天氣特征、交通事件等。在惡劣的天氣和道路環境狀況下,更易發生道路交通事故[19-20]。
現存研究構建的交通事故預測模型分為分類預測模型和回歸預測模型。根據是否劃分事故嚴重等級,分類預測模型被劃分為二分類預測模型[12,16,18,21]和多分類模型[6-8]。根據是否為不同的事故嚴重程度賦予不同的風險值,回歸預測模型被劃分為事故發生數量預測模型[2,13,15]和事故風險等級預測模型[17]。其中,二分類預測模型預測未來一段時期某個區域是否會發生道路交通事故。由于事故基本信息只會在發生事故時被采集,因此二分類模型缺乏負樣本。文獻[18,21]通過隨機修改事故基本信息中的字段來生成負樣本。這種通過隨機生成的負樣本無法反映真實路況。
為解決上述問題,本文提出了一種融合異構交通態勢的二分類事故預測模型(binary Accident Prediction model Fusing Heterogeneous Traffic Situation, AP-FHTS)。本文主要工作如下:
1)考慮了可反映真實路況的動態語義信息,包括交通事件信息、天氣特征、時間特征等交通態勢數據;
2)設計時空狀態聚合模塊和時空關系捕獲模塊,以研究子區域為中心,聚合四種異構地理區域歷史多時段時空狀態,捕獲交通事故數據存在的動態時空特性;
3)在5個城市數據集上進行了充分實驗,實驗結果表明動態捕獲多角度、多尺度的道路交通態勢可有效提高事故預測模型性能。

2)多分類模型通常將道路交通事故按照事故嚴重程度劃分為多個類別,對交通事故嚴重程度建模,通常使用具備可解釋性的機器學習方法,如決策樹和隨機森林,或使用敏感性分析法探索交通事故嚴重程度的主要影響因素。由于研究目標不同,因此無法對多分類模型的標簽進行定義。
本文提出的模型包括時空狀態聚合模塊、時空關系捕獲模塊和時空數據融合模塊。AP-FHTS的模型框架如圖1所示,其中包括:長短期記憶(Long Short-Term Memory, LSTM)網絡、批量歸一化(Batch Normalization, BN)和前饋神經網絡(Feedforward Neural Network, FNN);AF為激活函數(Activation Function);Time代表交通事故數據的時間特征;Loss代表預測值和真實值之間的誤差。

圖1 AP-FHTS的模型框架
時空狀態聚合模塊由四部分組成,分別針對單一區域(Sin)、鄰近區域(Adj)、相似區域(Sim)和全局區域(SG)完成歷史交通事故時空狀態在局部與全局的空間依賴特性和空間異構特性捕獲任務。單一區域、鄰近區域和相似區域部分以研究子區域為中心,分別獲取該區域、該區域鄰域和與該區域相似區域的歷史多時段交通事故時空狀態,在微觀層面聚合研究子區域歷史時空狀態的局部空間特性。全局區域以整體研究區域為中心,獲取其歷史多時段總體交通事故時空狀態,并將總體時空狀態映射到利用POI數據建立的空間相似圖上,在宏觀層面聚合研究子區域歷史時空狀態的全局空間特性。










時空關系捕獲模塊試圖從歷史多時段時空狀態和總體時空狀態中分別捕獲局部與全局的時空依賴性。針對歷史多時段時空狀態,該模塊從歷史時段中逐步獲取研究子區域的時空狀態發展趨勢,對下一時段的時空狀態作出預測;針對總體時空狀態,該模塊通過在空間相似圖上進行多次信息傳遞,使各個研究子區域聚合相似區域的時空狀態,利用更新后的研究子區域時空狀態預測下一時段的時空狀態。





3.1.1實驗數據
實驗數據源于US-Accident中5個城市在2018年6月1日—9月1日內的所有交通事件數據和天氣數據,以及5個城市的POI數據。實驗中的時間段間隔為1 h,每個研究子區域的大小為5 km×5 km。通過事故相關數據的經緯度屬性將每條數據映射到對應的研究子區域中。同一時間段內存在多條數據時,二值屬性取并操作,連續屬性取平均值。交通事件數據Traffic_Event的基本信息包括交通事件的類型、發生時間和發生地點。天氣數據Weather包含氣象站的經緯度、數據記錄時間和溫度、濕度、氣壓、可見度等6種類型的天氣數據,以及雨天、雪天、霧天和冰雹4種天氣狀況,由4個二值屬性構成。POI數據包括POI的類型、位置及數量。時間特征Hour,包含是/非節假日、日出/日落和所屬時段三種類型。是/非節假日由1個二值屬性構成;日出/日落由1個二值屬性構成;所屬時段將一天24 h分為5個時段[12],由5個二值屬性構成。US-Accident數據集包含7種類型的交通事件和15種類型的POI,其中交通事故是交通事件的一種。具體實驗數據如表1所示。

表1 數據集詳情
3.1.2時間特性
實驗數據中,Houston在一天內各個時段的周累積道路交通事故數量,體現出事故數據的時間特性,如圖2所示。

圖2 事故數據的時間特性
3.1.3空間特性
空間依賴性指鄰近區域會呈現出相似的交通事故狀況。空間異構性側面反映地理空間相似區域會呈現出相似的交通事故狀況。各城市研究子區域在實驗研究范圍內的道路交通事故數量,體現出事故數據的空間特性,如圖3所示。道路交通事故數量呈現出從中心向外擴散的特點,表現出空間依賴性。地理空間相似區域(圖3中標記點)的交通事故狀況也表現出空間異構性。

圖3 事故數據的空間特性
3.1.4時空特性
事故數據在呈現出周期性的時間特性基礎上,鄰近區域和地理空間相似區域(圖4中標記點)也分別呈現出空間上的依賴性和異構性。實驗數據中,Houston前5周道路交通事故數量,體現出事故數據的時空特性,如圖4所示。
在交通事故預測問題中,非事故時段數量遠大于事故時段數量。Atlanta城市數據在完成研究區域劃分和時間范圍劃分后,事故時段數量和非事故時段數量之比高達1∶60(如表1),因此該問題是一種典型的不平衡類問題。解決不平衡類問題的方式之一是對非事故數據進行不充分抽樣,以改變數據集中事故數據和非事故數據的分布比例,使模型在訓練過程中對事故數據得到更好的表示,提高模型在事故數據上的預測準確度[22]。本研究對非事故數據進行不充分抽樣,隨機抽取2%的非事故數據作為數據集的負樣本,而所有的事故數據作為數據集的正樣本。
在不充分抽樣完成后,將數據集劃分為訓練集和測試集,比例為5∶1。此外,為了防止過擬合,采取提前停止方式,隨機抽取10%的訓練集作為驗證集。在訓練次數迭代超過40次以后,每5次迭代計算一次驗證集的損失,當驗證集的損失連續3次不再降低,則停止訓練。


圖4 事故數據的時空特性
本文模型中3個模塊的具體結構如下:

3)時空數據融合模塊:該模塊將單一區域、鄰近區域、相似區域和全局區域的32維表示向量,以及7維的時間特征向量進行拼接,構成135維的表示向量,輸入FNN模塊。FNN模塊包含2個隱含層,神經元個數分別為256和64,輸出層神經元個數為2,每層的激活函數為Tanh函數,每兩層之間使用批量歸一化方法。
由于不同模型使用的數據存在差異等原因,很難將本文模型與其他事故預測模型進行直接比較,所以選取下述4種模型與本文提出的模型進行比較,如下所示:
1)Logistic回歸(Logistic Regression, LR)[23]。
2)隨機森林(Random Forest, RF)[24]。
3)前饋神經網絡:該模型包括3層神經網絡,神經元個數分別為256、64和2,激活函數為ReLU。
4)Sin+Sim+Adj+G(SSAG):將本文提出的模型中的SG部分的輸出結果替換為圖卷積后所有研究子區域的狀態均值,并使用G代替。
LR、RF和FNN的輸入向量是單一區域、鄰近區域和相似區域的時空狀態向量和時間特征拼接生成的415維向量。LR、RF和FNN通過Scikit-learn機器學習庫[25]搭建,超參數優化由Scikit-learn完成。SSAG模型的輸入向量和超參數優化與本文提出的模型一致。
選取適合評價不平衡類問題的F1指標作為模型的評價指標,分別計算正樣本F1分數(Acc)、負樣本F1分數(Non?Acc)及考慮正負樣本比例的加權平均F1分數(Avg?Acc)。
為每個城市單獨訓練一個事故預測模型,不同模型在不同城市數據集上的性能比較如表2所示。與所有的基準方法相比,本文提出的AP-FHTS在三個指標上均表現出最優的性能,在5個城市數據集上的平均Acc、Non-Acc、Avg-Acc分別為85.6%、86.4%、86.6%,與FNN模型相比,在三個指標上分別提升了 14.4%、5.6%和9.3%。與使用所有研究子區域狀態均值的SSAG模型相比,進行節點選擇的模型(AP-FHTS)在三種指標上均有明顯提升,表明使用所有研究子區域狀態均值未能考慮交通事故數據表現出的空間特性,而AP-FHTS可以捕捉到空間特性,提升模型在所有城市的Acc和Non?Acc,尤其是Dallas的Acc。與基準方法相比,AP-FHTS在不同城市數據集上的指標提升有所差異。例如,雖然AP?FHTS在Dallas的Acc低于其他4個城市,但相較于基準方法Acc的提升卻大于其他4個城市,而且Noc-Acc也高于其余4個城市,再次證明AP?FHTS充分考慮了交通事故數據表現出的空間特性。AP?FHTS在Atlanta和Charlotte的Acc高于Non-Acc,在Austin的兩種指標持平,在Dallas和Houston的Acc低于Non-Acc。這是因為Dallas和Houston原始數據集中的事故時段與非事故時段比值遠小于其他城市數據集,因此負采樣后的數據集仍保留此現象,符合各個城市的現實情況。與基準方法相比,AP-FHTS可有效提高各城市的Acc和Non-Acc,并減少二者之間的差異。
雖然本文使用的數據源于文獻[12]的公開數據集,但本文未將靜態語義信息作為特征輸入模型,如POI特征、事故文本描述信息等,因此使用的數據與文獻[12]存在差異,所以本文模型也無法直接與它進行比較。但與DAP模型[12]相比,使用更少類型數據的AP-FHTS在不同城市的Acc均大幅提升,高效解決了事故數據中存在的不平衡性問題。
通過組件選擇方式分析AP-FHTS中各組件對不同城市預測模型性能的影響,如圖5所示。共設置5組實驗,構建5種模型,記作A、B、C、D、E,其中:A僅使用單一區域組件(Sin);B使用單一區域和相似區域組件(Sin+Sim);C使用單一區域和鄰近區域組件(Sin+Adj);D使用單一區域、鄰近區域和相似區域組件(Sin+Sim+Adj);E使用單一區域、鄰近區域、相似區域和全局區域組件(AP-FHTS)。從A和B的結果看,Sim可提高4個城市的Acc,但降低了Austin的Acc指標;Sim在Charlotte和Dallas的Non-Acc有提升,在Atlanta的Non-Acc指標下降,對其他城市的指標無影響。從A和C的結果看,Adj可提高4個城市的Acc,對Austin指標無影響;Adj在4個城市的Non-Acc有提升,在Atlanta則指標下降。上述三組實驗的對比說明Sim和Adj組件對大部分城市預測模型性能的提升均有積極作用。從B、C和D的結果看,Sim和Adj組件在部分城市具有相容性。這種現象是正常的,因為鄰近區域的物理結構往往很相似(如圖3所示)。最后,從D和E的結果看,全局區域組件可提高所有城市的Acc和Non-Acc。
通過特征選擇方式分析天氣數據(WE)、時間特征(H)和交通事件(TE)對不同城市預測模型性能的影響,如圖6所示。在原有5個城市模型的基礎上,構建一個包含所有城市訓練數據的模型(All),以探索是否有必要為每一個城市單獨訓練一個事故預測模型。由于各個城市在物理結構上不存在相鄰關系,因此選擇Sin+Sim+Adj模型探索特征的重要性。從結果上看,三種特征對模型性能均有提升作用,不同特征在不同城市對模型性能提升有差異。例如,僅使用天氣數據時,Austin的Acc低于Atlanta,在添加時間特征后,二者的Acc持平;僅使用天氣數據時,Austin的Non-Acc低于所有城市,在添加時間特征后,不僅Austin的Non-Acc大幅提升,僅低于Houston,而且Atlanta和Charlotte的Non-Acc也大幅提升。其次,交通事件有助于平衡Acc和Non-Acc,減少預測模型在各城市的性能差異。此外,為不同城市訓練不同模型是必要的。雖然在使用全部特征時,All的Avg-Acc僅比Houston低,但為每個城市單獨訓練模型仍是必要的,因為在集成所有城市訓練數據后,負樣本比例過大,導致平均性能向負樣本性能傾斜;然而,對事故數據正確預測的意義遠大于非事故數據。實際在使用全部特征時,All的Acc低于4個城市,Non-Acc低于2個城市。

表2 不同模型在5個城市數據集的性能比較

圖5 不同組件對不同城市的模型性能的影響

圖6 不同特征對不同城市的模型性能的影響
基于事故數據存在的時間周期性、空間依賴性和空間異構性,本文提出了一種融合異構交通態勢的事故預測模型AP-FHTS。與基準方法相比,動態捕獲多角度、多尺度時空狀態的AP-FHTS可有效完成對事故數據動態時空特性的捕獲;而且AP-FHTS在同時提高Acc和Non-Acc的基礎上,能縮小二者的差距,抑制事故數據不平衡性對實驗結果的影響。事故預測模型性能的提高不僅可完成城市道路交通安全形勢分析研判任務,還可根據模型的輸入特征及其使用的方法完成事故成因分析。消融實驗中,由于事故數據的空間依賴性,導致鄰近區域組件和相似區域組件在部分城市預測性能上表現出相容性。未來,將會研究鄰近區域和相似區域之間的事故狀況聯系,以及各個研究子區域的事故狀況演變趨勢,以進一步提高事故預測模型性能。
[1] SILVA P B, ANDRADE M, FERREIRA S. Machine learning applied to road safety modeling: a systematic literature review[J]. Journal of Traffic and Transportation Engineering (English Edition), 2020, 7(6): 775-790.
[2] REN H, SONG Y, WANG J, et al. A deep learning approach to the citywide traffic accident risk prediction[C]// Proceedings of the 21st International Conference on Intelligent Transportation Systems. Piscataway: IEEE, 2018:3346-3351.
[3] ZIAKOPOULOS A, YANNIS G. A review of spatial approaches in road safety[J]. Accident Analysis and Prevention, 2020, 135: No.105323.
[4] JIANG W, LUO J. Graph neural network for traffic forecasting: a survey[J]. Expert Systems with Applications, 2022, 207: No.117921.
[5] AL HAMAMI M, MATISZIW T C. Measuring the spatiotemporal evolution of accident hot spots[J]. Accident Analysis and Prevention, 2021, 157: No.106133.
[6] YU H, YUAN R, LI Z, et al. Identifying heterogeneous factors for driver injury severity variations in snow-related rural single-vehicle crashes[J]. Accident Analysis and Prevention, 2020, 144: No.105587.
[7] ABELLáN J, LóPEZ G, DE O?A J. Analysis of traffic accident severity using Decision Rules via Decision Trees[J]. Expert Systems with Applications, 2013, 40(15): 6047-6054.
[8] ALOGAILI A, MANNERING F. Unobserved heterogeneity and the effects of driver nationality on crash injury severities in Saudi Arabia[J]. Accident Analysis and Prevention, 2020, 144: No.105618.
[9] CHANG L Y, CHEN W C. Data mining of tree-based models to analyze freeway accident frequency[J]. Journal of Safety Research, 2005, 36(4): 365-375.
[10] LV Y, TANG S, ZHAO H. Real-Time highway traffic accident prediction based on the k-nearest neighbor method[C]// Proceedings of the 2009 International Conference on Measuring Technology and Mechatronics Automation. Piscataway: IEEE, 2009: 547-550.
[11] TEDJOPURNOMO D A, BAO Z, ZHENG B, et al. A survey on modern deep neural network for traffic prediction: trends, methods and challenges[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34(4): 1544-1561.
[12] MOOSAVI S, SAMAVATIAN M H, PARTHASARATHY S, et al. Accident risk prediction based on heterogeneous sparse data: new dataset and insights[C]// Proceedings of the 27th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York: ACM, 2019:33-42.
[13] YUAN Z, ZHOU X, YANG T. Hetero-ConvLSTM: a deep learning approach to traffic accident prediction on heterogeneous spatio-temporal data[C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2018: 984-992.
[14] HAMILTON W. 圖表示學習[M]. AI TIME,譯. 北京:電子工業出版社, 2021: 72-113.(HAMILTON W. Graph Representation Learning[M]. AI TIME, translated. Beijing: Publishing House of Electronics Industry, 2021: 72-113.)
[15] ZHOU Z, WANG Y, XIE X, et al. RiskOracle: a minute-level citywide traffic accident forecasting framework[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 1258-1265.
[16] YU L, DU B, HU X, et al. Deep spatio-temporal graph convolutional network for traffic accident prediction[J]. Neurocomputing, 2021, 423: 135-147.
[17] CHEN Q, SONG X, YAMADA H S, et al. Learning deep representation from big and heterogeneous data for traffic accident inference[C]// Proceedings of the 30th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2016:338-344.
[18] YUAN Z, ZHOU X, YANG T, et al. Predicting traffic accidents through heterogeneous urban data: a case study[C]// Proceedings of the 6th International Workshop on Urban Computing. New York: ACM, 2017:1-9.
[19] LOBO A, FERREIRA S, IGLESIAS I, et al. Urban road crashes and weather conditions: untangling the effects[J]. Sustainability, 2019, 11(11): No.3176.
[20] MALIN F, NORROS I, INNAMAA S. Accident risk of road and weather conditions on different road types[J]. Accident Analysis and Prevention, 2019, 122: 181-188.
[21] ROLAND J, WAY P D, FIRAT C, et al. Modeling and predicting vehicle accident occurrence in Chattanooga, Tennessee[J]. Accident Analysis and Prevention, 2021, 149: No.105860.
[22] TAN P N, STEINBACH M, KUMAR V. 數據挖掘導論(完整版)[M]. 范明,范宏建,譯.北京:人民郵電出版社, 2011: 180-186.(TAN P N, STEINBACH M, KUMAR V. Introduction to Data Mining[M]. FAN M, FAN H J, translated. Beijing: Posts and Telecom Press, 2011: 180-186.)
[23] WALKER S H, DUNCAN D B. Estimation of the probability of an event as a function of several independent variables[J]. Biometrika, 1967, 54(1/2): 167-179.
[24] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[25] PEDREGOSA F, VAROQUAUX G, GRAMFORT A, et al.: machine learning in Python[J]. Journal of Machine Learning Research, 2011, 12: 2825-2830.
Accident prediction model fusing heterogeneous traffic situations
YANG Bo, DUAN Zongtao*, ZUO Pengfei, XIAO Yuanyuan, WANG Yilin
(,’,’710064,)
To address the problems of limited information expression, imbalance, and dynamic spatio-temporal characteristics of accident data, an accident prediction model fusing heterogeneous traffic situations was proposed. In which, the semantic enhancement was completed by the spatio-temporal state aggregation module through traffic events and weather features representing dynamic traffic situations, and the historical multi-period spatio-temporal states of four types of regions (single region, adjacent region, similar region, and global region) were aggregated; the dynamic local and global spatio-temporal characteristics of accident data were captured by the spatio-temporal relation capture module from both micro- and macro-perspectives; and the multi-region and multi-angle spatio-temporal states were further fused by the spatio-temporal data fusion module, and the accident prediction task in the next period was realized. Experimental results on five city datasets of US-Accident demonstrate that the average F1-scores of the proposed model for accident, non-accident, and weighted average samples are 85.6%, 86.4%, and 86.6% respectively, which are improved by 14.4%, 5.6%, and 9.3% in the three metrics compared to the traditional Feedforward Neural Network (FNN), indicating that the proposed model can effectively suppresses the influence of accident data imbalance on experimental results. Constructing an efficient accident prediction model helps to analyze the safety situation of road traffic, reduce the occurrence of traffic accidents and improve the traffic safety.
traffic accident prediction model; traffic accident data; spatio-temporal characteristic; deep learning; traffic safety
1001-9081(2023)11-3625-07
10.11772/j.issn.1001-9081.2022101619
2022?10?28;
2023?04?05;
陜西省重點研發計劃項目(2019ZDLGY17?08, 2019ZDLGY03?09?01); 陜西省“特支計劃”科技創新領軍人才項目(TZ0336)。
楊博(1999—),男,山西運城人,碩士研究生,CCF會員,主要研究方向:大數據、深度學習; 段宗濤(1977—),男,陜西鳳翔人,教授,博士,CCF會員,主要研究方向:大數據智能、交通大數據分析; 左鵬飛(1997—),女,山西大同人,碩士研究生,主要研究方向:機器學習、交通大數據分析; 肖媛媛(1997—),女,陜西西安人,博士研究生,主要研究方向:機器學習、數據挖掘; 王藝霖(1999—),女,山西太原人,碩士研究生,主要研究方向:數據聚類、用戶畫像。
TP391; U491.31
A
2023?08?07。
This work is partially supported by Key Research and Development Program of Shaanxi Province (2019ZDLGY17-08, 2019ZDLGY03-09-01), Project of “Special Support Plan” Science and Technology Innovation Leading Talents of Shaanxi Province (TZ0336).
YANG Bo, born in 1999, M. S. candidate. His research interests include big data, deep learning.
DUAN Zongtao, born in 1977, Ph. D., professor. His research interests include big data intelligence, analysis of big traffic data.
ZUO Pengfei, born in 1997, M. S. candidate. Her research interests include machine learning, analysis of big traffic data.
XIAO Yuanyuan, born in 1997, Ph. D. candidate. Her research interests include machine learning, data mining.
WANG Yilin, born in 1999, M. S. candidate. Her research interests include data clustering, user portrait.