鄭長江,葛升陽,鄭樹康
(河海大學1.土木與交通學院,江蘇 南京210098;2.物聯網學院,江蘇 常州213022)
交通擁堵會造成經濟損失、能源過量消耗、出行時間延誤,環境污染等可估計和不可估計的損失,弊端之大,不言而喻。據不完全統計,在美國,60%的城市道路交通擁堵是由偶發性的交通事故、車輛拋錨和貨物掉落等引起的[1]。
不同于每日高峰時段的常發性交通擁堵,無法預知的偶發性交通事件也是導致交通擁堵的重要因素,并且此類擁堵相比常發性擁堵更容易引發二次事故。這里交通事件指的是不可預知的偶發性事件,包括交通事故、碰撞、拋錨,車輛著火,道路施工、天氣情況等。美國在2003年的統計顯示,全美范圍內車輛碰撞發生600萬次,導致死亡人數42 000人,受傷人數29 000 000人,經濟損失總值約2 306億美元,相當于美國國民生產總值的2.3%[2]。
國內外很多研究者致力于交通事件持續時間的預測,每一個研究使用的數據集不同,事件變量不同,樣本容量也不同??偨Y這些方法,有以下幾類:時間序列模型,線性回歸模型,非參數回歸模型,基于概率分布的預測方法,基于條件概率的預測方法,決策樹預測模型和人工神經網絡,Cox Regression模型,多元回歸分析,模糊邏輯預測[3-5]等??紤]眾多方法的優缺點,將貝葉斯網絡預測模型用于城市道路交通事件持續時間的研究,并對事件總數據集進行了分類和影響因子的提取,提高了精度。
一般,交通事件持續時間包括4個重要的組成部分,并且各部分相互獨立,即:事件的發現時間,事件響應時間,事件清除時間和交通恢復時間,具體如圖1所示。
事件發現階段:從交通事件發生到交通管理者通過各種信息渠道得知發生事件的時間階段。事件響應階段:交通事件被確認之后,各方面的營救人員和救援車輛到達現場的時間階段。事件清除階段:各方面的救援行動如搶救受傷人員,車道封鎖,移除事件車輛以及碰撞碎片等結束以后,道路開始恢復通行能力的時間階段。事件恢復階段:交通事件被徹底清除后,車輛排隊消散直至道路恢復原有的正常通行能力的時間階段。

圖1 交通事件持續時間的定義Fig.1 Definition of traffic incident duration
貝葉斯網絡的原理,就是統計學上的概率推理,所謂概率推理就是通過一些變量信息來獲得其他變量的概率信息。首先,關于貝葉斯網絡的相關概率公式介紹如下。
1)條件概率。設A,B是兩個事件,且P(B)>0,稱P(A|B)=為已知事件B發生的條件下,事件A發
生的條件概率。
2)聯合概率。若A、B為兩個基本事件,切P(B)>0,則有

上式為乘法公式,P(AB)稱為A、B的聯合概率分布。
3)全概率公式。設B1,B2,…Bn是一系列兩兩互不相容的事件,且有

則對任一事件A,有

4)貝葉斯公式。根據公式(1)和(2),可以推導出貝葉斯公式

貝葉斯網絡B=<Bs,Bp>表示n個隨機變量X={X1,…,Xn}的聯合概率分布,這個網絡由2部分組成[6]:
①DAG,即有向無環圖,表示網絡結構Bs。n個隨機變量在結構圖中以節點表示,節點之間的有向邊代表了節點之間的相互關系,即變量之間的概率依賴關系。如果X節點和Y節點之間的有向邊是指向Y的,那么稱X為Y的父節點,Y是X的子節點。
②CPT,即條件概率表,用以反映變量之間的相關聯系。
Bp={P(Xi|ΠXi),1 ≤i≤n} ,其中Xi是網絡中的節點,ΠXi是Xi的父節點集,若Xi沒有父節點,則ΠXi=?。
根據概率論的原理,貝葉斯網絡的聯合概率分布

而貝葉斯網絡中,每個節點在其父節點已知的時候是條件獨立與其他非子節點的,即

根據公式(5)和(6)可得

貝葉斯網絡節點就是刻畫所研究對象的一組隨機變量集合X={X1,…,Xn},用xi來表示Xi這個隨機變量的取值。
貝葉斯網絡節點中包含了目標節點和證據節點。目標節點就是我們建立貝葉斯網絡模型需要求解的未知變量,證據節點是作為推理的證據輸入網絡的,其本身可以由觀測得到數據。貝葉斯網絡是以概率來推理的,所以變量節點的取值就必須是離散型的數據值,最典型的取值形式就是{yes,no}。
基于評分搜索的網絡結構算法是從一個初始網絡出發,利用搜素算法修改完善網絡結構,再利用評分函數對習得的網絡結構打分,然后重復這一步驟,直到找到最優的網絡結構為止[7]。那么評分搜索的算法就有2部分構成:①評分函數;②搜索算法。
定義了評分函數之后,貝葉斯網絡學習的問題就演化為了搜索方法問題。通過擬定的搜索算法,尋找到一個評分最高的網絡結構。通常采用啟發式的搜索算法,常用的方法有爬山法,模擬退火法,演化法和抽樣算法。
搜索算法的原理就是對隨機給定的一個貝葉斯網絡結構做出有向邊的修改,包括添加、刪除、反向,并且保證每一步修正過后的網絡結構評分高于前一步的網絡評分,直到無法尋找到評分更高的網絡為止。
數據來源于荷蘭的中部城市Utrecht,記錄了Utrecht從2005年5月1日~9月13日的1 853個交通事件,主要來自于荷蘭的國家事件管理中心,還有一部分來自交通相關部門的處理信息。每一組交通事件都包含了17個屬性變量和一個類別變量。
為了提高預測精度,對事件進行分類處理,包括:①交通事故小汽車有傷亡;②交通事故小汽車無傷亡;③小汽車車輛拋錨;④卡車車輛拋錨;⑤貨物掉落。
利用SPSS 軟件分別對5 類事件進行顯著性影響因子提取,分別得到相應類型事件的貝葉斯網絡節點。
下面還要對交通事件數據中時間數據進行離散化處理。通常對數據離散化的處理,是對連續型的數值數據進行分段處理,將變量的取值分為幾個區域。針對本文所使用的交通事件數據集,將時間節點離散化。根據相關研究標準,如果預測的誤差的絕對值小于等于15 min,可視為有效預測。基于此,以15 min為一個區間對時間數據進行離散化,由于大于90 min的事件實例樣本數過少,因此考慮到實際情況,對時間離散化如表1所示。

表1 對時間的離散化Tab.1 Discretization of time
對交通事件進行分類預測的工作在WEKA平臺上完成。WEKA是一款全免費的開源的數據挖掘分析軟件,并且給出了相當全面的數據挖掘分析算法,其中功能包括了數據預處理、分類、聚類、回歸等[8]。使用WEKA對上述5大類事件數據分別進行預測,結果見表2~表6,分別有:交通事故小汽車有傷亡,交通事故小汽車無傷亡,車輛拋錨小汽車,車輛拋錨卡車,貨物掉落。在5大類事件的數據集中,采用了80%的數據作為訓練集來建立貝葉斯網絡模型,選取其中20%作為測試集,來檢測構建的貝葉斯網絡模型的預測效果。
通常是以預測值與實際值的誤差的絕對值在15 min之內,視為預測準確。根據這一標準,在評價預測結果的時候,選取這樣一種評價方式:當前預測實例的實際值所在區間,以及該區間的前后2個區間,共3個區間內,若預測的分類結果落在這3個區間內,視為有效預測。

表2 交通事故小汽車有傷亡預測分析Tab.2 Prediction analysis of car accident casualties

表3 交通事故小汽車無傷亡預測分析Tab.3 Prediction analysis of no car accident casualties

表4 車輛拋錨小汽車預測分析Tab.4 Predictive analysis of car vehicle breakdown

表5 車輛拋錨卡車預測分析Tab.5 Predictive analysis of truck vehicle breakdown

表6 貨物掉落預測分析Tab.6 Predictive analysis of cargo drop
分析以上5大類事件的預測結果,可以看出除了卡車拋錨類型的事件,其他4類事件在總測試集的預測準確率上均超過了70%,而貨物掉落類型的事件總測試集的預測結果甚至到達86.7%。
在低、中時間段(<30 min,30~60 min)貝葉斯網絡模型的預測效果都達到了比較高的預測精確度,①由于低、中時間段的事件實例數較多,機器對數據進行充分的學習,使預測達到較高精度;②對于低、中時間段,事件持續時間相對較短,造成的誤差也相對較小,預測精度也相對較高。以上5大類事件的預測結果中,貨物掉落類型事件,在低、中時段的預測準確率在90%以上。交通事故小汽車無傷亡、有傷亡,在低、中時段的預測結果也都在70%以上,車輛拋錨事件由于本身的數據集的實例數比較少,因此預測精度稍微偏低。
而高時段的事件預測結果普遍不高,①由于高時段的事件實例數并不多,機器無法對數據進行充分的學習,導致影響預測效果;②交通事件本身就是一個隨機性很大的問題,與事件處理人員的能力,事件發生時的天氣等諸多因素有關系,也與事件數據采集本身相關,因此數據本身也可能有比較大的差異;③對于60 min以上的事件,時間本身比較長,那么對于此類事件來說,誤差更大一些也通常可以接受。例如對于80 min以上的事件,那么誤差超過20 min也是可以接受的。
交通事件持續時間的預測對交通管理者和出行者都有重要意義。首先介紹了貝葉斯網絡方法的基本概念和構造貝葉斯網絡的要素,以及貝葉斯網絡預測模型的優勢,提出了對交通事件采取分類的處理方法。通過對荷蘭交通部門提供的交通事件的分析,選擇出事件中的顯著性變量,利用數據挖掘軟件WEKA,對事件數據進行相關處理,建立完整的貝葉斯網絡模型。分析其預測結果表明:貝葉斯網絡模型在預測交通事件持續時間的工作上,有較好的精度,值得進一步研究和挖掘。
此外,貝葉斯網絡模型對提高交通事故預測準確性應注意的問題:①貝葉斯網絡的概率學習是一個比較繁瑣的過程,應當獲取更多的交通事故事件的實例數,來提高預測的精度;②交通事件不但本身隨機性很大的,而且是多個因素綜合作用的結果,在建立預測模型的時,應盡量考慮更多的因素,來提高預測的準確性。
[1] SCHRANK D,LOMAX T.The 2004 urban mobility report[J].Texas Transportation Institute’s Annual Urban Mobility Report,2004,9(1):27-31.
[2] 姬楊蓓蓓.交通事故持續時間預測方法研究[D].上海:同濟大學交通運輸工程學院,2008.
[3] 康國祥,方守恩.Cox Regression模型在交通事件持續時間研究中的應用[J].交通信息與安全,2011,2(29):104-106.
[4] 劉偉銘,管麗萍,尹湘源.基于多元回歸分析的事件持續時間預測[J].公路交通科技,2005,11(22):126-129.
[5] 孟祥海,鄭來,秦觀明.基于模糊邏輯的交通事故預測及影響因素分析[J].交通運輸系統工程與信息,2009,9(2):87-92.
[6] 張連文,郭海鵬.貝葉斯網引論[M].北京:科學出版社,2006:39.
[7] 胡春玲.貝葉斯網絡的結構學習算法研究[D].合肥:合肥工業大學,2006.
[8] VAPNIK V N.Anover view of statistic all earning theory[J].Trans Neural Netw,1999,10(3):988-999.
[9] 周雪峰,鄭長江.基于博弈論的無控制路段人行橫道處人車搶行分析[J].華東交通大學學報,2012,29(6):65-69.