孫婷婷++呂明新++趙偉杰



[摘要]文章對多源異構數據分析方法進行對比分析,選擇了聚類分析法對高速公路事故黑點進行辨析。文章從駕駛員生理、心理特征、駕駛行為和駕駛技能等因素分析駕駛員對高速公路道路安全的影響。采用基于最小離差平方和的聚類分析方法對高速公路路網進行事故黑點理論研究。
[關鍵詞]高速公路;聚類分析;事故黑點;駕駛員因素
[DOI]1013939/jcnkizgsc201623161
改革開放后,我國高速公路建設事業迅猛發展,從1988年第一條高速公路滬嘉高速公路建成通車,至 2012年,我國高速公路通車總里程達到96 萬千米,已經超越了美國的92萬千米,居世界第一位。同時,我國機動車保有量也呈現“井噴式”增長態勢。然而,道路交通安全問題也逐漸凸顯,成為我國經濟社會發展中急需解決的難題。其中,高速公路的道路安全問題尤為突出。
國內外眾多研究機構和學者圍繞多源異構數據在道路事故黑點辨析方面的應用,從多個層次、角度采取不同的方法進行了廣泛研究。Smith et al利用聚類分析的方法對交通信號燈配時數據進行了分析處理。[1]Cevallos和Wang將數據挖掘技術應用在公交系統上,提高了公交準時率。[2]Saccomanno和Grossi等人提出將貝葉斯模型應用在對意大利南部SS107公路的事故黑點鑒定上[3],表明了多源異構數據處理方法能夠很好地應用在事故黑點鑒定領域。
本文通過對多源異構數據分析方法進行分析比較,選擇了聚類分析法對高速公路事故黑點的鑒定進行分析研究。文章從駕駛員特性的角度出發,對來源于不同部門的各種類型高速公路路網數據用聚類分析方法進行數據挖掘,從而對事故黑點進行辨析。
1多源異構數據融合與挖掘
高速公路交通安全數據的多源異構性表現在數據的來源多樣性、信息廣泛性、異地分布性,來源于不同部門的各種類型交通安全數據具有不同的分析標準,從多角度全面的對多源異構數據進行處理分析,是迅速有效地對事故黑點進行辨析的關鍵。
1.1多源異構交通安全數據融合
對于判別高速公路事故黑點、建立預測模型,需要在眾多交通安全影響因素中選擇最相關的要素作為模型變量。實現該過程的首要任務是對多源異構交通安全數據進行預處理,即選擇數據融合(Data Fusion)方法對數據庫建立統一的對外服務窗口,從而利用數據挖掘技術對交通安全影響因素進一步挖掘分析。
數據融合可以有效整合多源高速公路交通安全數據,消除部分數據之間的異構性,減少有效安全數據的損失。圖1為高速公路交通安全數據融合結構示意圖。
1.2多源異構交通安全數據挖掘
數據挖掘(Data Mining)又稱數據庫中的知識發現(Knowledge Discovery in Database,KDD)[4],是從大型數據庫中提取隱藏的、未知的、有潛在應用價值信息的一種數據處理方法。數據挖掘技術是大數據信息領域中應用廣泛、發展迅速的一項技術,是很多不同領域專家和學者研究的熱門技術。
數據挖掘技術在交通領域應用廣泛,通常采用數據挖掘技術對公路監測設備所采集的數據進行分析,從而對城市交通或高速公路制定交通管控和誘導策略。常用數據挖掘的方法有:人工神經網絡(Neural Network)、遺傳算法(Genetic Algorithms)、決策樹(Decision Trees)、模糊邏輯(Fuzzy Logic)、規則歸納(Rule Induction)等。[5]數據挖掘的任務包括:數據特征化、數據區分、關聯規則、分類、聚類、孤立點分析和演變分析等。其中,聚類分析是處理和分析數據之間關系的數據挖掘方法。
2高速公路事故黑點鑒定
2.1事故黑點鑒定方法
交通事故黑點是道路交通事故頻發的某一地點或路段。常用的事故黑點鑒定方法有事故數法、事故率法、矩陣分析、數據挖掘和質量控制等方法。表1對常用事故黑點鑒定方法進行了對比分析。
2.2基于聚類分析方法的事故黑點鑒定
聚類分析就是按照在性質上的親疏遠近程度把樣本或變量進行分類歸納,已廣泛地應用在高速公路安全性和事故黑點研究中。聚類分析法不僅對樣本數據接納性高,克服了選取參數的困難,并且能在對事故數據進行聚類分析的同時,發揮數據挖掘的功能,解決了模型復雜、技術指標單一的難題,為高速公路交通事故黑點的鑒定提供了新思路。[6]
2.2.1駕駛員因素
影響交通安全事故的要素主要有:人、車、路和環境。在對事故樣本進行聚類分析時,選擇不同的影響要素聚類分析會得到不同的結果,本文主要從駕駛員特性出發,對高速公路交通事故進行聚類分析并找到事故黑點。
駕駛員因素是高速公路交通安全眾影響因素中最活躍的主動性因素,也是引發高速公路交通事故的最主要因素。本文主要從駕駛員生理、心理特征、駕駛行為和駕駛技能等因素分析駕駛員對交通安全的影響,如表2所示。
2.2.2高速公路交通事故黑點的聚類分析方法
本文從數據挖掘的角度出發,采用基于最小離差平方和法的聚類分析方法分析高速公路路網中的交通事故,旨在找到交通事故發生次數較多或較嚴重的道路。聚類分析流程如圖2所示。
(2)指標特征值標準化。
為了消除原始數據之間的不融合性,選取Z-Score標準法[7]對事故樣本指標特征值進行標準化處理。
(3)建立樣本距離矩陣。
選取歐式距離公式來對樣本間的距離進行表示。
dij=pi=12xik|yik(6)
其中,
dij:第i個樣本的第j個樣本間的距離,i, j=1,2,…,p;
:樣本的協方差矩陣;
xik, xjk同公式(1)。
(4)基于最小離差平方和法的事故黑點聚類分析。
本文采取最小離差平方和法對高速公路進行聚類分析。設將n個樣品分為k類:
G1,G2,…,Gn;Dpq為類Gp與Gq間的距離,若類Gp與Gq合并為一新類記為Gr,則任一類Gk與新類Gr間的距離為Dkr。[6]
將類間的距離定義為:
D2pq=Sr-Sp-Sq(7)
其中,Gr=GPuGq。
Si=nit=1(X(t)′(t)|X(t))(X(t)(t)|X(t))(8)
則類內離差平方和為:
S=kl=1Si=kl=1nii=1(X(t)′(t)|X(t))(X(t)(t)|X(t))(9)
D2kr=nk+npnr+nkD2kp+nk+nqnr+nkD2kq|nknr+nkD2pq(10)
其中,
X(t)i: Gi中的第t個樣品;
ni:Gi中的樣品個數;
X(t):Gi的重心;
Si:樣品間的距離。
3結論
聚類分析法通過由事故的綜合指標和相關影響因素構成的評價集合,能夠準確地對駕駛員行為從多領域多范圍進行信息的挖掘。采用基于最小離差平方和的聚類分析方法對整個路網的事故樣本進行分析,能夠準確快速地找到路網中危險性較高的道路。
參考文獻:
[1]Scuderi,M.,Clifton,K.J.Bayesian Approaches to Learning from Data:Using NHTS Data for the Analysis of Land Use and Transportation [J].Transportation Research Record,2003(1854):50-61.
[2]Cevallos,F.,Wang,X.Adams.Data Archiving and Mining System for Transit Service Improvements [J].Transportation Research Record,2008(2063):43-51.
[3]F.F.Saccomanno,R.Grossi,D.Greco,et al.Identifying Black Spots along Highway SS107 in Southern Italy Using Two Models[J].Journal of Transportation Engineering,2001,127(6):515-522.
[4]廖鵬宇,梅冰松.數據挖掘技術在交通事故黑點整治中的運用[J].道路交通與安全,2008(3):47-50.
[5]趙新勇.基于多源異構數據的高速公路交通安全評估方法[D].哈爾濱:哈爾濱工業大學,2013.
[6]陳燕芹.城市道路交通事故黑點的鑒別方法研究[D].西安:長安大學,2015.
[7]任雪松,于秀林.多元統計分析[M].北京:中國統計出版社,2011:59-93.