文/溫喜梅 丁志成
不同的天氣、環境以及不良的駕駛行為都會導致惡性交通事故的發生。為了進一步挖掘高速公路交通事件的特征以及內在聯系,提高交通管理安全,本文以新疆交通事件數據分析為例,在運用灰色關聯挖掘強關聯數據的基礎上,利用關聯規則Apriori算法挖掘事件屬性之間的聯系,結果表明G30線路受影響較為嚴重,同時風雪天氣容易造成路面積冰打滑且視線模糊,對行駛安全存在較大的威脅,考慮到行車安全各方面因素,進一步為交通管理者提供一定的幫助與建議。
目前,中國道路交通建設進入到一個快速發展的階段[1]。但是中國道路造成的交通事故數總體在增加的趨勢,其中事故起數、死亡人數分別占全國重特大事故總量的70%和80%[2]。為了有效改善道路的交通安全狀況,提高高速公路的交通效率,需要對道路安全進行各方面分析。時宇杰[3]對道路安全并對數據挖掘分析,并以某市區事故數據為例,利用Apriori算法得出各因素之間的關系并給出建議措施,但文中對于數據的處理應更加細致,避免計算的重復性。李淦山等[4]通過對近年來統計數據中機動車量,死亡量等進行分析,利用回歸分析對死亡人數預測,針對現有數據及預測數據對相關部門提出建議與措施,文中預測時所利用的因素較少,實際中其他數據因素都會有所影響。江山等[5]利用灰色關聯規則與Apriori算法相結合,同時與僅采用Apriori算法相對比,表明了相結合方法的有效性,可以分析出與交通事故的強關聯的因素。本文以2017年-2019年新疆高速公路數據為研究對象,首先分別從時間、空間等方面對新疆高速公路事件特征進行分析,其次在灰色關聯分析的基礎上,利用關聯規則Apriori算法挖掘分析數據之間的聯系。
灰色關聯分析,是一種多因素統計分析的方法,可以了解所關注信息受其他因素影響的相對強弱。對于兩個系統之間的因素,隨時間或其他對象而變化的關聯性大小的量度,稱為關聯度。

1993年R.Agraw al.[7]等人提出了Apriori算法,是經典的關聯規則頻繁項集挖掘算法之一。利用關聯規則可以發現生活以及其他方面某些因素有趣的聯系。關聯規則最先是針對超市購物問題“尿布與啤酒”的例子提出的,原因是發現跟尿布一起購買最多的商品是啤酒,通過發現其中存在的關系也為商家提供了銷售策略。因此,關聯規則就是幾種因素之間存在的關系,比如X→Y這樣的形式,其中X={X1,X2…},X∩Y=φ。關聯規則主要分為兩個過程,首先令K=1產生頻繁1項集,不斷迭代K=K+1得到頻繁K項集,如果K項候選集的支持度大于等于設定的最小支持度閾值,則稱為K項頻繁項集。否則,K為項非頻繁項集。
度量關聯規則的兩個階段分別是支持度s和置信度c。支持度是某一項集出現的頻率,當支持度大于等于設定的最小支持度時,則稱為頻繁項集,進一步挖掘找出所有的頻繁項集;置信度可認為條件概率,在某一項集的前提下,求另一項集的概率。當同時滿足最小支持度和最小置信度的情況下稱強關聯規則[8]。

其中,公式(5)、(6)中的σ 代表個數,其中σ(X∪Y)代表同時包含項集X與項集Y的個數,σ(X)代表包含項集X的個數,N代表總個數。
根據以上可知關聯規則主要分為兩個過程,挖掘所有的頻繁項集;根據頻繁項集找出強關聯規則。
本文以新疆交通事件為例,采集2017年-2019年的數據共1566條,通過上文對交通事件分析的敘述,將上述方法運用到新疆交通數據,發現交通事件的特征以及其中的關聯因素,并可進一步提出措施保證交通安全。針對上文所述,主要是對不全的信息進行刪除清理,選擇保留那些交通事件發生的字段因素。對數據處理后應保留的字段包括:事件發生月份、天氣情況、路面狀況、發生線路、事件地點、事件類別、交通事件、控制方式幾大類。其中各個因素分別對應其屬性值,例如月份中共包含1月-12月,分別利用數字1-12進行編碼,天氣中包含雪、大霧、降雨等屬性,具體見表1。

表1 各因素及對應的屬性值
將灰色關聯分析方法應用于交通數據可分析出強關聯數據,設置關聯度閾值為0.8。利用公式(3)、公式(4)計算確定的關聯度,一月份的關聯度為0.91,二月份的關聯度為0.87,以此類推計算關聯度,若小于設置的關聯度閾值則剔除。將所有數據按照上述方法以此計算分析,得到關聯度。
2.2.1交通事件變量因素分析
將關聯規則Apriori算法用于數據分析,可分析各因素之間的聯系。根據公式(5)、公式(6)可確定各因素屬性值的支持度以及置信度。設置最小支持度為0.1[5],以月份為例,1月的支持度為0.153,2月的支持度為0.117,3月的支持度為0.075,由于0.153(1月)>0.117(2月)>0.1,說明1月和2月對事件發生影響較大,對其進行保留,反之則剔除。
將所有的數據按照上述方式進行計算,可得到各自因素的支持度,對小于設定的支持度時直接剔除。對于屬性值小于0.1的因素進行剔除,對其他因素數據保留進一步分析。
2.2.2交通事件關聯分析
設置最小支持度0.1,最小置信度為0.5[5],對數據進一步分析,當滿足強規則時說明具有兩者之間具有強關聯。強規則結果見表4。

?
根據表4對強規則進行分析,以第一條規則為例,w ays=1代表控制方式中的單向阻斷;line=4代表發生線路中的G30線。規則1表示控制方式為單向阻斷且發生在G30線的可能為23.6%,在控制方式為單向阻斷的情況下有65.1%的可能發生在G30線。
針對上述規則,可以發現G30線路受影響較為嚴重,同時風吹雪天氣容易造成路面積冰打滑且視線模糊,對行駛安全存在較大的威脅,考慮到行車安全各方面因素,大多進行雙向阻斷的控制方式。
本文基于灰色關聯與關聯規則Apriori算法相結合對新疆交通事件進行分析,挖掘出強關聯因素以及各因素之間的聯系。分析結果表明該方法能夠較好地對交通事件進行分析,具有一定的可行性與實用性,也為交通管理者提供了建議與幫助,進一步保證了人身安全。針對于此,為了進一步提升道路交通安全,交通安全預防,堅持安全教育為主,堅決杜絕違章現象的發生。C
引用出處
[1]人民日報.中國公路總里程已達484.65萬公里暢通九州[EB/OL].http://www.Chinan news.com/gn/2019/07-19/8900098.shtm l,2019年07月19日09:21.
[2]新華網.我國道路交通事故降幅明顯[EB/OL].http://www.xinhuanet.com/legal/2017-12/19/c_1122135897.htm,2017-12-1916:46:07.
[3]時宇杰.數據分析在道路交通事故中的研究與應用[D].浙江工業大學,2018.
[4]李淦山.云南省交通事故數據的分析研究[J].中國安全科學學報,2007(07):72-80+177.
[5]江山,宋柯,謝維成,潘成偉.基于灰色關聯與Apriori算法的道路交通事故數據分析[J].公路工程,2019,44(04):67-73.
[6]劉昱崗,董道建.灰色關聯彈性模型在公路客運量預測中的運用[J].公路工程,2015,40(01):253-256.
[7]AgrawalR.M ining Association Rule between Setsof Items in Large Databese[C]//ACM SIGMOD Conference on Management of Data.1993:263-236.
[8]曾子賢,鞏青歌,張俊.改進的關聯規則挖掘算法——M IFP-Apriori算法[J].科學技術與工程,2019,19(16):216-220.