宋建洋,王 志,2,李藹恂,田 華,2,郜婧婧,王宇虹
(1.中國氣象局公共氣象服務中心,北京 100081;2.中國氣象局交通氣象重點開放實驗室,江蘇南京 210009)
大霧嚴重威脅高速公路交通運行安全。據統計,我國高速公路交通事故中有15%~25%發生在霧天環境下,同時重大傷亡交通事故中有約1/3與大霧關聯,造成的社會影響和經濟損失較大,是公安交管部門最關注的氣象災害之一[1-3]。為描述事故發生的不確定性,可利用交通安全風險量化特定區域或路段未來一段時間內的期望事故率(或可能性)[4],以用于提前做好防災減災工作部署。
公路交通是我國氣象部門專業氣象服務的重要領域。隨著多源監測資料的綜合應用與分析方法的日漸成熟,交通氣象業務內容逐漸從氣象要素的監測預報向基于影響的風險評價拓展[5],在研究領域也呈現諸多成果。霧或低能見度方面,李藹恂等[6]綜合考慮氣象災害危險性、暴露性、脆弱性和防災減災能力,建立了我國主要公路低能見度災害風險的評估指標體系和權重,并以此開展風險區劃和評估研究;林雨等[7]、唐亞平等[8]建立了考慮不同能見度、路況條件或道路交通環境下的公路安全行車速度模型;曲曉黎等[9]選取高影響天氣強度、持續時間、風險區劃等級、單項車流量、地形、發生時段等因子,建立了河北省高速公路分災種風險等級預報模型,能夠反映當地霧災對高速公路行車的風險;李嵐等[10]、周慧等[11]、吳彬貴等[12]分別對沈大、京津塘高速公路大霧天氣氣候特征及對交通安全的影響進行了分析探討。氣象綜合影響方面,吉延艷等[13]、許秀紅等[14]、朱興琳等[15]在分析影響本省道路交通安全的氣象因子特征基礎上,分別制定了貴州、黑龍江和新疆的公路交通氣象指數或指標體系,以評價氣象對交通安全的影響程度;羅慧等[16]、凌良新等[17]利用Logistic回歸構建了城市尺度分季節的逐日公路交通事故氣象預警模型;丁德平等[18]在相關分析基礎上,設計出京津塘高速公路萬輛車流交通事故災害的氣象綜合指數風險等級指標。
然而,現有研究或將霧、降水、冰凍等氣象災害統籌考慮,或量化結果在時間與空間上的顆粒度較粗、實時性較差,在當下要求日益精準化的氣象服務需求前還存在不足。本文以我國霧天交通事故(以下簡稱“霧事故”)多發高速公路路段為研究對象,采用隨機森林等機器學習技術,建立發生時間、能見度、相對濕度、風、氣溫、變溫等多類信息與小時霧事故發生概率的量化關系,從而實現對霧天高速公路交通安全狀態的實時評價,以期為高速公路交通安全動態管理和風險防控提供氣象支持。
據2012-2016年全國高速公路交通事故數據統計,江蘇境內京滬高速、安徽境內京臺高速和寧洛高速的霧天交通事故高發。同時,公路沿線氣象觀測站網布設較為密集,數據質量較好,并且兼具蘇皖地區北部、南部、西部和東部的災害天氣特點,作為研究對象進行分析時具有一定的代表性。
資料時段為2012年1月至2017年3月。交通事故數據來自于公安部交通管理科學研究所,記錄了霧天交通事故發生的具體時間及路段信息,其中簡易事故786起,一般事故97起。氣象數據采用國家氣象信息中心提供的公路沿線交通氣象觀測站及周邊國家氣象觀測站資料,要素包含氣溫、相對濕度、風、能見度等,監測頻次以1h為主,部分站點為10 min或5 min。
利用ArcGIS空間分析技術,以25 km范圍內距離最近且觀測有效為原則,將事故發生位置與氣象觀測站進行匹配。經統計,匹配后兩者間的平均距離不到7 km,最近距離不到200 m。以1 h為數據集計單元,得到有氣象監測信息的有效事故組樣本465個。采用配對病例對照方法提取建模數據,其中,病例為事故組樣本對應的氣象環境特征,對照為沒有發生霧事故條件下的氣象環境特征。經多次試驗,兩者配比率采用常用的1:3比例[19]。為剔除混雜因素影響,隨機選取對照組數據時考慮以下條件:與事故發生時段一致,與事故發生地點一致,與事故發生日期臨近,匹配氣象站觀測有效。
1.2.1 RF?RFE算法
隨機森林(random forest,RF)是以決策樹為基礎的集成模型,可以通過對構造的許多決策樹結果取平均值來降低過擬合,并保持樹的預測能力,有效解決不平衡分類問題[20]。同時,因其能夠更準確地處理數值型變量和分類型變量混雜在一起的高維高容量輸入數據,常被應用于交通安全預測[21]。
遞歸特征消除(recursive feature elimination,RFE)是一種以反復構建模型為主要思想的變量選擇方法。它以特征重要性排序為基礎,通過逐一舍棄最不重要特征,使用剩余變量構建一個新模型并記錄性能評價指標值來選擇重要變量。其中,獲得最高評分的新模型為最優模型,對應輸入參數為重要變量。RFE有助于減小冗余信息對算法的影響,加快預測速度,提升分類正確率,或允許可解釋性更強的模型。考慮到RF在處理交通安全數據上的優越性,本文使用其作為基模型進行變量重要性排序和模型訓練,即隨機森林?遞歸特征消除(RF?RFE)算法。
1.2.2 風險分級
以模型輸出的小時內事故發生概率為指標,參照相等間隔法劃分為5個等級,進而從氣象因子角度對霧天高速公路的交通安全風險水平進行分析判定。級別含義詳見表1。

表1 霧天交通安全氣象風險等級劃分Table 1 Classification of traffic safety meteorological risk in foggy weather
1.2.3 技術路線
本文的技術路線如圖1所示,主要包含1)數據集準備;2)基于RF?RFE的重要變量提取與模型構建;3)模型效果評價三部分內容。

圖1 技術路線圖Fig.1 Technology roadmap
為保證判別結果的準確度,需要對由事故組和對照組構成的數據集進行劃分。隨機分層選擇數據集的90%(1 672個)作為訓練樣本,剩下的10%(188個)作為測試樣本;對訓練樣本進行9折交叉驗證,即其中的8/9(1 486個)作為訓練集用于模型構建,1/9(186個)作為驗證集用于模型和參數選擇。
算法性能的評價指標包含各類別分類精度和AUC分數。其中,AUC分數(area under the curve)為ROC曲線下的面積,等價于從正類樣本中隨機挑選一個點,由分類器給出的分數比從反類樣本中隨機挑選一個點的分數更高的概率,最高值為1;更適用于不平衡類別的二分類問題,AUC分數越高,選擇的模型性能越好[22]。
霧天交通事故具有顯著的時間變化特征。從月度分布來看(圖2(a)),除8月份外,研究路段各月均有霧事故發生,并總體呈現冬半年多、夏半年少的趨勢特點。事故發生頻次在1月份達到峰值,約占全年的20.16%;2月和12月次之,占比分別為18.35%和15.52%。從日變化情況來看(圖2(b)),超過65%的霧天交通事故集中發生在05:00~10:00,并在07:00~08:00出現峰值,占比可達20.07%;中午至凌晨時段事故量明顯偏少,但對于一般事故,在02:00~03:00和21:00~22:00還分別出現了一個小高峰(圖略)。

圖2 研究路段發生霧天交通事故的月(a)、日(b)變化特征Fig.2 The characteristics of monthly(a)and daily(b)distribution of fog?caused traffic accidents in the studied road section
霧事故發生特征除了受車流量影響外,主要與氣象環境背景場關系密切。霧的形成需要大氣層結穩定、水汽充足、微風以及恰當的冷卻作用。從氣候上來看,蘇皖地區冬半年近地層多受冷高壓控制,夜長且出現無云風小的概率大,地面散熱迅速,致使地表溫度急劇下降,近地面水汽更容易在后半夜至清晨達到飽和而凝結成小水珠,造成時段內霧天交通事故的高發。
大霧除了會降低能見度,造成駕駛員視覺障礙和心理緊張外,還會通過霧水與積灰、塵土混合以及在冷的道路表面形成一層薄冰而使車輛與路面的摩擦系數減小,是引發霧天交通事故的另一重要原因[23-24]。綜上分析并考慮因子累積效應,以時間、能見度、相對濕度、風速、風向、氣溫與變溫等信息的基礎及衍生變量構建初始自變量集,利用RF評價特征重要性,結果如圖3所示。可見,能見度因素對霧天環境下高速公路交通事故的發生影響最顯著,重要程度值達0.23以上;其次是相對濕度與風速,特征重要性分別在0.06和0.04左右;溫度類信息中,24 h變溫與氣溫的貢獻相對較高,其他特征差別不大,程度值在0.021~0.025之間;風向信息對霧事故影響最小。與氣象因子相比,時間信息對于霧天交通事故判別的重要性相對較低,但考慮到事故發生存在的有規律變化,有必要在模型構建時引入發生季節、發生時段等非氣象因子。

圖3 初始自變量的特征重要性Fig.3 The characteristic importance of initial independent variables
因變量Y是描述小時內是否有霧事故發生的二分類變量,發生與沒有發生分別取值1和0。應用RF?RFE算法篩選對霧天高速公路交通事故影響較為顯著的重要變量,得到11個氣象因子和3個非氣象因子,具體見表2。

表2 篩選后保留的自變量Table 2 Independent variables retained after filtering
利用2012年1月至2017年3月的樣本資料建立RF?RFE模型。定義第k個樣本的霧天交通事故特征向量u k為

相應的霧天交通事故訓練矩陣為

式中,K為訓練集樣本數量;u k1,u k2,…,u k14為第k個樣本的14個輸入自變量,對應因變量Y k∈{1,0}。事故發生條件概率計算及狀態判定的實現過程如下:構建n棵決策樹,通過bootstrap隨機采樣法有放回地從U中隨機抽取K個樣本得到每顆決策樹的新訓練集;在每棵樹的每個節點處隨機抽取m個自變量,然后從中選擇最優特征進行數據擬合,特征分類的閾值通過檢查每個分類點確定;將n棵決策樹組成隨機森林,給出每棵樹選擇“發生”的概率大小p,對所有樹的預測概率取平均值,即為小時霧天交通事故發生概率P;將P≥0.5的樣本標識為事故(Y′=1),P<0.5的樣本標識為對照(Y′=0)。經參數尋優,n=5 000,m=3。
表3給出了模型的分類精度。在訓練樣本中,75.4%的事故樣本被成功判別,95.4%的對照樣本被成功判別,對事故的空報率和漏報率分別為15.5%和24.6%,總體分類正確率為90.4%,表明RF?RFE算法在訓練時有較好的擬合精度。在測試樣本中,模型成功判別出80.9%的事故樣本和93.6%的對照樣本,空報率和漏報率均為19.1%,總體分類正確率為90.3%,表明RF?RFE算法在高速公路霧天交通事故預測方面有較好的精度。另外,模型在交叉驗證和單獨驗證上的AUC分數均為0.953,泛化能力較強,對事故的判識能力趨于穩定。

表3 RF?RFE模型霧天交通事故判別精度Table 3 The accuracy of RF?RFE model for fog traffic accident discriminant
參照表1,給出霧天交通安全氣象風險等級檢驗結果(表4)。從中可知,隨著風險等級的提升,實際發生霧天交通事故的樣本數量呈增加趨勢,沒有發生霧天交通事故的樣本數量呈減小趨勢,符合交通安全風險等級劃分基本原則。經統計,有80.85%的事故樣本發生在較高(3級)及以上風險級別內,其中高風險(4級)和極高風險(5級)的比例分別為27.66%和42.55%;有89.93%的對照樣本落在極低(1級)和低(2級)的風險級別,其中交通事故概率在0.2以下的極低風險占比可達80.58%。整體來看,RF?RFE模型體現出較好的性能,可以對霧天高速公路交通事故發生可能性的危險程度進行有效判別,同時保持了較低的空報,具有較好的實際業務應用價值。

表4 霧天交通安全氣象風險模型檢驗精度Table 4 Test accuracy of meteorological risk model for highway traffic safety in foggy weather
2016年2月11日21時起,江蘇境內京滬高速、安徽境內京臺高速24 h內間斷性發生20起簡易霧事故。其中,京臺高速5起集中爆發在12日11~13時的795~856 km處,影響范圍較小,持續時間較短;相較之下,京滬高速江蘇段受大霧天氣影響更大,多時段、多點出現多起交通事故,主要涉及12日10~20時的901~1 055 km處。
從霧天高速公路交通安全氣象風險模型輸出結果來看(圖4):2月11日21時~12日20時,京滬高速江蘇段(以下簡稱“G2”)的風險等級明顯高于安徽境內京臺高速(以下簡稱“G3”)和寧洛高速(以下簡稱“G36”),這與當日G2多發霧事故的事實相符;另外,臨近災害發生時,超9成霧事故所在路段的風險等級達4級或5級,高于其他無事故時段或路段,模擬結果合理且具有風險提示意義。

圖4 霧天高速公路交通安全氣象風險模型評價結果(2016年2月11日21時至12日20時,節選)Fig.4 Evaluation results of meteorological risk model for highway traffic safety under foggy weather condition(excerpts from 21:00,February 11,2016 to 20:00,February 12,2016)
從氣象風險演變過程來看,G2自第1起霧事故發生的2月11日21時開始自北向南逐步提升,全路段較高的風險等級持續至次日11時,而后開始迅速回落并于13時基本恢復到極低風險級別;但這期間,模型在事故多發的江都中段始終提示高或極高的風險等級,與實際災情發生的時段和位置有很好的對應關系,能夠反映出本次霧天氣過程對于區域路網交通安全可能產生的持續性不良影響。
與G2不同,G3的霧天交通安全氣象風險基本處于較低水平,僅北段局部路段在2月12日7~13時出現等級階段性提升的現象;對照事故信息,徐州方向795 km處12日8~9時發生1起霧事故,合肥方向819~826 km處12日11~13時接連發生5起霧事故,正好處于模型輸出的4~5級氣象風險范圍內,證實了評價結果的準確性和風險提示的及時性。
綜上所述,基于RF?RFE的霧天高速公路交通安全氣象風險模型在實際數據驗證及個例分析過程中被證實有較高的準確性和可靠性,有助于實現對高風險路段和高風險時段的實時監測預警,為霧天環境下交通安全動態管理與智能控制提供一定的提示信息。
本文利用試驗路段災情信息與氣象資料,綜合考慮事故發生時間及氣象環境因素,以小時霧事故發生概率作為表征指標,建立了基于隨機森林-遞歸特征消除算法的霧天高速公路交通安全氣象風險模型,以期為交通氣象風險預警業務及防災減災服務提供技術支撐。結論如下:(1)霧天交通事故存在明顯的時間變化,多發生在冬半年、05:00~10:00之間;氣象條件中,能見度信息對霧天交通事故的發生影響最顯著,然后是相對濕度、風速、氣溫與變溫,最后是風向信息。(2)利用隨機森林-遞歸特征消除算法對21個初始自變量進行優化降維,最終保留11個氣象因子和3個非氣象因子建立的霧天高速公路交通安全氣象風險模型效果最佳。(3)從分類精度來看,模型成功判別出80.9%的事故樣本和93.5%的對照樣本,空報率和漏報率均為19.1%,AUC分數為0.953;從安全風險來看,分別有42.6%和27.7%的事故樣本發生在極高(5級)和高(4級)的氣象等級中,有80.6%和9.4%的對照樣本發生在極低(1級)和低(2級)的氣象等級中;模型預測精度較高,交通安全氣象風險等級劃分比較合理,從個例分析來看也有較好的模擬效果。
受限于可獲取的公路數據條件有限,本文重點從氣象角度對試驗高速路段霧天交通事故的發生概率及安全狀態做出評價,能夠為當地交通氣象服務及減災策略制定提供參考。引入車流量、道路線性、車況等交通實測信息,可以繼續對模型進行修正和完善,有助于進一步提高評價結果的全面性和精準性。