宋淑慧 劉文江 時浩婷



摘 要 冬季的北方城市,降雪、霜凍、結冰現象時有發生,已成為影響市內交通安全、造成交通事故的一個重要因素。本論文基于傳感器采集到的冬季濟南某地區的路面、氣象等數據,使用隨機森林對數據樣本進行訓練,構建結冰狀態預測模型,并與svm模型做對比,使用準確率、f1_score、ROC曲線等分類算法評估指標對模型進行評價以驗證算法的有效性。結果表明,基于隨機森林訓練得到的模型可以實現道路結冰狀態的有效預測。
關鍵詞 隨機森林;路面結冰預測;交通安全
前言
道路結冰是造成城市交通事故的一個重要原因之一。冬季發生降雪、結冰等氣象情況時容易造成車輛打滑、行人行走困難,路面結冰也會降低輪胎的摩擦系數,容易對交通運輸和人民安全造成危害[1]。因此,對道路的結冰情況進行及時的監測能夠減少交通事故的發生。顧婷婷[2]等根據杭州高速公路上的交通事故數據和氣象數據,研究了杭州路面上的結冰情況并建立了結冰預測模型。劉小高[3]等分析氣象因子和其他影響因素,基于氣象相關數據建立了道路結冰預警模型,通過驗證集的檢驗證明了模型的有效性。鄭斌[4]通過研究影響路面結冰的因素,使用采集到的數據建立了神經網絡結冰預測模型。
本文基于濟南某地區路面凝冰數據樣本,使用隨機森林對凝冰數據進行訓練得到結冰預測模型,最后使用算法評估指標對模型進行評價,并與文獻[2]使用的svm方法做對比,證明本文算法的有效性。
1路面、氣象數據分析
道路結冰是多個因素共同影響所引起的,主要影響因素有路面水膜厚度、大氣溫度、路面溫度、路面冰點溫度、風速等。基于此,我們使用路面傳感器采集濟南某地區12月份的水膜厚度、路面溫度、冰點溫度數據來對結冰狀態進行預測。三參數數據樣本的散點圖如圖1所示。為了防止出現正負樣本不平衡以及過擬合問題,我們對數據進行下采樣得到未結冰數據331條,并將其標記為0;得到結冰數據263條,將其標記為1。
從以上三幅圖可以看出,不同狀態時數據分布存在差異,結冰時水膜厚度明顯大于未結冰時水膜厚度,而冰點溫度和路面溫度受到外界因素的干擾,比如,路面溫度在零下3℃,但因為撒鹽,冰點可能在零下8℃,就不結冰,路面溫度和冰點溫度來共同影響路面的結冰狀態。本文使用路面溫度、冰點溫度、水膜厚度作為特征數據用于結冰預測模型的輸入,將結冰狀態作為標簽數據用于結冰預測模型的輸出。用于模型訓練的部分數據樣本如圖2所示。
2隨機森林訓練模型
隨機森林算法介紹:隨機森林是基于Bagging算法并將其改動之后演化過來的。它是以決策樹[5-6]為基學習器,多個決策樹結合起來的一種集成學習[7-8]算法,屬于有監督的學習。對于分類問題,數據的抽樣方法選用bootstrap方式,對訓練數據進行隨機有放回的選擇,構成隨機森林的每一個決策樹都是一個分類器,在進行模型訓練時,每一個決策樹都要給出一個分類結果,隨機森林來集成所有決策樹的分類結果,對所有的分類結果取平均值,并將分類類別最多的結果作為模型的輸出值,有效防止了過擬合現象的出現。
隨機森林訓練結冰預測模型的步驟為:①將數據集進行劃分,70%的數據用于訓練,30%的數據用于測試。②參數選擇。使用網絡搜索法選擇最優參數為決策樹數目為40,決策樹最大深度為4,葉子結點中最少樣本數量為10。③將訓練集送入模型進行訓練。④模型在測試集上測試效果,得到各個算法評估指標值。
3模型評價
3.1 混淆矩陣
混淆矩陣又被稱為誤差矩陣,用來評價分類算法精度。通常以m行n列的矩陣來表示,每一列代表模型的預測值,每一行代表數據的真實類別,混淆矩陣的結構如表1所示:
本文以道路結冰情況為研究對象,道路未結冰時標記為0,道路結冰時標記為1,因此,上表中的P代表結冰的類別“1”,N代表未結冰的類別“0”。其中,TP代表道路實際結冰被預測成結冰的樣本數量,FP代表道路實際結冰被預測成未結冰的樣本數量,FN代表道路實際未結冰并預測成結冰的樣本數量,TN代表道路實際未結冰并預測成未結冰的樣本數量。本文訓練結冰預測模型時,將數據集以7:3的比例劃分,測試集共179條數據,程序輸出的混淆矩陣如表2表示:
從上表可看出,結冰數據共82條,模型預測正確的結冰數據共80條;未結冰數據共97條,模型預測正確的未結冰數據共96條,說明該模型預測效果良好。
3.2 f1_score與ROC曲線
f1_score是召回率和精確率的調和平均值,是兩者的綜合衡量,f1_score越高,說明模型越穩健。其中,精確率直觀地反映模型對負樣本的區分能力,精確度越高,表明模型的區分能力越強;召回率直觀地反映模型對正樣本的識別能力,召回率越高,表明模型對正樣本的識別能力越強。精確率、召回率以及f1_score的計算公式如表3所示。本文研究得到的f1_score=0.981,表明結冰預測模型較穩健。
ROC曲線能反映模型在選取不同閾值的時候其敏感性和其精確性的趨勢走向,該評估指標能降低不同測試集帶來的干擾,更加客觀的衡量模型本身的性能。AUC為ROC曲線下的面積,是衡量二分類模型優劣的一個重要指標。本文研究得到的ROC曲線及AUC值如圖3所示,從圖3可看出AUC=0.99,驗證了結冰預測模型的有效性。
使用基于隨機森林訓練得到的結冰預測模型對測試集進行預測,測試集上準確率為0.983,得到的結果如圖4所示(在文末)。
3.3 模型效果對比
本文研究得到的結冰預測模型與文獻[2]中所使用的svm方法進行效果對比,對比結果如表4所示。從表4可以看出,本文得到的模型在各個評價指標上都具有一定的優勢,能夠實現道路結冰狀態的有效預測。
4結束語
本文基于傳感器采集到的路面溫度、冰點溫度、水膜厚度數據,使用隨機森林算法建立結冰預測模型,使用多種算法評估指標對模型的精度和穩健性進行評估。最后實驗結果表明,基于隨機森林訓練得到的模型能夠進行結冰狀態的有效預測,這將為道路結冰預測研究提供一個較好的方法思路,具有很好的應用價值。
參考文獻
[1] 舒斯,熊守權,陳英英,等.湖北省高速公路道路結冰預警模型[J].氣象,2019,45(11):1589-1599.
[2] 顧婷婷,駱月珍,梁卓然.杭州地區路面結冰天氣特征及其預測[J].科技通報,2015,31(11):48-51.
[3] 劉小高,許書紅,潘凌峰,等.冰雪天氣高速公路行車安全預警等級標定[J].黑龍江交通科技,2018,41(11):165-166,169.
[4] 鄭斌.路面結冰影響因素研究及預測模型的構建[D].哈爾濱:哈爾濱工業大學,2019.
[5] Wang Y,Shen T,Yuan G,et al. Appearance-based gaze estimation using deep features and random forest regression[J]. Knowledge-Based Systems,2016(110):293-301.
[6] 劉承啟,黃學堅,徐健鋒,等.基于決策樹和粗糙集的高分辨率短時臨近雷電預報模型[J].南昌大學學報(理科版),2014,38(6):559-563,568.
[7] Lindner C,Bromiley P,Ionita M,et al. Robust and Accurate Shape Model Matching Using Random Forest Regression-Voting[J].IEEE transactions on pattern analysis and machine intelligence,2015,37(9):1862-1874.
[8] 王鑫,汪晉寬,劉志剛,等.基于隨機森林的認知網絡頻譜感知算法[J].儀器儀表學報,2013,34(11):2471-2477.
作者簡介
宋淑慧,現就讀學校:山東交通學院交通與物流工程學院,碩士研究生在讀,研究方向:智能交通。
劉文江,職稱:碩士生導師,現就職單位:山東交通學院道路安全應急與減災技術研究中心。