999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

道路交通事故數據深度挖掘技術與應用
——以深圳市為例

2018-06-22 02:05:34王大珊叢浩哲饒眾博
城市交通 2018年3期
關鍵詞:數據挖掘關聯規則

支 野,王大珊,叢浩哲,饒眾博

(公安部道路交通安全研究中心,北京100062)

0 引言

中國正處于機動車、駕駛人及道路里程高速增長期,道路交通事故甚至重特大交通事故時有發生。以2015年道路交通事故統計數據為例,中國道路交通事故數約18.7萬起,死亡人數約5.8萬人,萬車死亡率為2.08,遠高于美國(1.25)、日本(0.53)、德國(0.62)等發達國家,中國道路交通安全形勢十分嚴峻[1]。開展道路交通事故統計分析工作是預防道路交通事故的有效手段之一。中國每年由公安部交通管理局組織開展道路交通事故統計分析工作,主要是針對交通事故的宏觀形勢進行統計分析[2]。

伴隨著信息技術步入大數據時代,道路交通事故數據也逐漸呈現出數據量龐大、更新速度快、價值豐富等大數據特征[3],傳統以四項指數(事故起數、死亡人數、受傷人數、直接財產損失)為統計內容、以描述性統計為主要方法的分析手段已難以滿足大數據時代道路交通事故統計分析需要。具體表現在:1)數據項缺失。在實際獲取道路交通事故數據過程中,由于多種原因導致數據采集項信息不完整、不準確,致使后續統計分析結果可信度降低。2)方法單一。事故統計方法以描述性統計為主,難以挖掘事故背后深層次的原因和機理,不能定量化地甄別事故特征因子及建立事故風險預警評價機制。3)結果不實用。事故數據的挖掘分析多注重方法理論研究,但受數據采集限制,無法獲取全項事故數據,因此研究結果一般實用性較單一,沒有針對性,也不利于指導基層開展道路交通事故預防工作。

美國、日本、德國等發達國家普遍重視交通事故調查與統計分析工作,設有專門的交通安全研究機構,例如美國國家公路交通安全管理局(National Highway Traffic Safety Administration,NHTSA)、日本交通事故研究分析中心(Traffic Accident Research and Analysis Center,TARAC)、德國聯邦公路研究院(Federal Highway Research Institute,BAST)等。這些研究機構普遍建立了道路交通事故分析、預防和評估預警技術體系,統計數據采集全面翔實,較早地將大數據挖掘技術引入事故數據統計分析中,除四項指數等基本統計項外,更加注重挖掘道路交通事故背后潛在的規律和誘因特征[4-5]。

如何將大數據挖掘技術應用于中國道路交通事故數據分析研判中,為預防事故和降低事故傷亡率提供科學指導,成為新時期公安交管部門面臨的巨大挑戰。本文以深圳市2014—2016年交通事故數據為研究對象,采用Apriori關聯分析算法、貝葉斯理論及模糊聚類等大數據挖掘方法[6],探索性地提出道路交通數據缺失數據項填補、事故傷亡特征因子甄別以及事故危險性評價方法。

1 實驗數據及預處理

本文獲取深圳市2014—2016年交通事故相關數據包括:1)事故描述數據(含事故發生地點信息,見圖1);2)事故涉事人員信息數據;3)路網地圖數據;4)以日為單位的天氣數據。

經統計,深圳市交通事故信息數據表共有屬性項68項,人員信息數據表共有屬性項88項。為了更好地開展事故數據深度挖掘,主要進行以下預處理工作:1)數據融合。以事故編碼和時空信息為主鍵,將事故記錄信息、涉事人員信息、路網shp數據以及天氣數據進行關聯融合,建立事故信息多維度矩陣。2)數據清洗。刪除缺失率為100%的屬性項,如運載危險品事故后果、是否逃逸等;同時刪除對事故誘因深度挖掘關聯不大的字段,如調解人、文書狀態等字段,最終選取30個字段(見表1)。若發現字段中的屬性值不屬于《道路交通管理信息代碼》(GA/T 16.1—2012)(以下簡稱《代碼》)中所規定的范圍,則置為空。3)數據編碼。對屬性項、分類型屬性值進行編碼化操作,參照規范建立數據字典表。

2 基于Apriori 關聯分析的數據填補方法

在實際道路交通事故數據中,由于各種原因導致出現不同程度的數據缺失,其中非傷亡事故比傷亡事故數據缺失率高,直接降低了數據的可用性,不利于數據深度挖掘分析。本文將缺失的事故數據按照是否具有關聯性分為兩類:一類為隨機型缺失數據,表征事故數據中的獨立信息,與其他屬性項不存在明顯的相關性,例如姓名、民族、車牌號碼等。該類缺失數據理論上無法通過后期分析進行彌補。另一類為關聯型缺失數據,與其他屬性值之間存在潛在的關聯關系,例如事故形態、交叉口及路段類型、照明條件等,該類缺失數據具有取值范圍固定且取值空間相對狹小等特征,可通過大數據挖掘方法進行一定程度的填補,進而提高道路交通事故數據的完整性。

常見的數據填補方法包括:均值填充、熱卡填充、聚類填充、多重插補等[7]。考慮到事故關聯性缺失數據以分類數據為主,本文采用關聯規則挖掘進行數據填補。關聯規則挖掘是數據挖掘的一個重要研究問題,反映一個事物與其他事物之間的相互依賴性或相互關聯性。關聯規則挖掘大量數據項集之間有趣的關聯或相關聯系,側重于確定數據中不同領域之間的聯系,找出滿足給定支持度和置信度閾值的多個域之間的依賴關系。挖掘關聯規則是指在數據庫中挖掘具有特定形式的規則:由于某些事件(要素)的發生而引起另外一些事件(結果)的發生。關聯規則在決策支持系統、專家系統和智能信息系統等方面有著重要的應用價值。

關聯規則挖掘過程主要包括三個階段:第一階段從數據集中找出所有的頻繁項集,均滿足支持度s≥min_sup,min_sup為支持度閾值;第二階段由這些頻繁項集產生關聯規則,計算這些關聯規則的置信度c,然后保留那些滿足c≥min_conf的關聯規則,min_conf為置信度閾值;第三階段計算關聯規劃的提升度l,并選取提升度l>1的規則。考慮到計算效率,本文選用Apriori關聯方法進行事故數據潛在關聯規則挖掘。具體過程為:1)設定支持度>3%,通過Apriori算法從事故數據挖掘出頻繁項集;2)設定置信度>60%、提升度>1為篩選依據,從頻繁項集中形成事故數據關聯規則集;3)按照最大事故信息量原則與最小數據缺失項原則,將具體的事故信息與關聯規則集進行類比,獲得各項缺失數據的最可能值,對缺失的事故數據進行彌補,進而提高道路交通事故數據的完整性。

以填補傷亡事故中的缺失字段屬性值為例,經過Apriori關聯分析得出強關聯且有意義的規則(見表2)。例如,對于某起傷亡事故,若路表情況字段空缺時,若天氣字段為雨天,則可以用規則1進行數據填補;若駕齡字段為“小于5年”,則可以用規則3對數據進行填補,以此類推。經過這種方法處理后,可使事故數據庫中的數據進一步豐富,提高數據完整性。

圖1 深圳市2014—2016年事故點分布Fig.1 Distribution of accident locations in Shenzhen from 2014 to 2016

表1 事故數據屬性項字典表Tab.1 Dictionary of accident attribute data

3 基于樸素貝葉斯的道路交通事故傷亡特征因子甄別方法

降低傷亡事故發生頻率是公安交管工作的重中之重,目前大多使用數理統計方法對道路交通事故傷亡特征因子進行分析,統計傷亡事故發生概率、分析傷亡事故發生原因,以此為基礎建立數學模型,來評估道路和交通管理安全性和有效性[8]。但是這種造成傷亡交通事故的違法行為可能多數情況下導致非傷亡事故的概率更高。例如對深圳市傷亡事故中違法行為統計發現“駕車時有其他妨礙安全行車行為的”約占60%,由此推斷只要有這一違法行為就很可能發生傷亡事故是不合適的。因為在非傷亡事故中,這一違法行為也大量出現,其與傷亡事故的比值約為143:1,即發生144次交通事故違法行為為“駕車時有其他妨礙安全行車行為的”時,可能只有一次是傷亡事故。由此可以得出該違法行為作為道路交通事故傷亡特征因子不合適。本文提出基于樸素貝葉斯的事故傷亡特征因子甄別方法:

經挖掘分析,得出事故發生后造成傷亡率超過80%的前20種傷亡特征因子(見表3),主要涉及違法行為(5種)、人的因素(2種)、車的因素(5種)、路的因素(6種)和環境因素(2種)。道路交通事故傷亡特征因子能定量化地挖掘事故誘因與事故傷亡情況之間的關聯關系,為基層民警開展事故預防預警提供了抓手。

表2 傷亡事故數據填補規則(部分)Tab.2 Casualty data filling rules(partial)

表3 基于貝葉斯的道路交通事故傷亡特征因子甄別Tab.3 Bayesian theory-based characteristic factor selecting of road accident casual

4 基于聚類算法的道路交通事故危險性挖掘

道路交通事故起因復雜多樣,每起事故均有其獨特的特點,但是在多個事故中可能存在相同的特征,本文稱之為共性特征。掌握交通事故的共性特征、發現交通事故危險程度的規律性結論,有助于在警力資源有限的情況下,有針對性地采取預防措施,減少交通事故的發生。本文基于K-means聚類算法,以事故認定主要違法行為為對象,以事故數、傷亡率(基于表3中結果)、受傷人數、死亡人數作為危險度分析指標,對事故數據進行聚類。算法過程為:1)建立事故認定主要違法行為的分析矩陣,主要違法行為為行,4個危險度指標為列;2)采用SVD算法對矩陣進行降維分解,選定前n個分量作為特征分量(本文選取前2個,見圖2a);3)選取k個初始聚類中心;4)確定相似性距離度量函數。采用歐式距離作為計算兩兩違法行為前n個特征分量的相似性距離。5)開始迭代更新運算。計算每個樣本數據與每個聚類中心的相似性距離,將樣本歸到距離最短的類中。6)更新聚類中心位置。利用均值方法,更新每類的中心點位置。重復5)運算,直至每個聚類中心值保持不變。

本文基于深圳市事故數據進行聚類分析后,得到3個具有明顯特征的類簇(見圖2)。類別1主要是事故頻次高、傷亡率較低的事故記錄,包括變更車道時影響正常行駛、不按規定倒車、不讓右行等發生在城區的交通事故。類別2主要是事故頻次較高、傷亡率較高的事故記錄,包括不按規定會車、轉彎機動車未讓直行車輛、行人先行,駕車時有其他妨礙安全行車行為等涉及機動車的事故。類別3主要是事故頻次較低、傷亡率高的事故記錄,包括未按規定戴安全頭盔、駕駛電動自行車超速行駛、肇事逃逸構成犯罪等以摩托車、電動車、非機動車為主的事故。

道路交通事故危險度分析結果具有重要的應用價值:一方面,可以對特定道路、交通、環境條件下各類交通事故的危害性進行量化,便于相互之間比較;另一方面,事故危險性可作為該類事故的權重納入道路交通安全評價中,提升評價結果的合理性。

圖2 基于事故危險性特征的聚類結果Fig.2 Clustering results based on accident risk characteristics

5 結語

本文針對現有道路交通事故統計工作中存在的數據項缺失、方法單一、實戰應用性弱等問題,借助大數據挖掘技術,探索性地提出道路交通數據缺失數據項填補、事故傷亡特征因子甄別,以及事故風險等級分類評價方法,挖掘出的結果可輔助公安交管部門開展道路交通事故預防和交通安全管理工作。本文研究成果仍存在一定的局限性,例如時段僅劃分了早晚高峰和平峰,未考慮白天和夜間的區別,天氣未考慮雨量和風力。另外,考慮到深圳城市發展與交通管理政策,并未對深圳特區內外分別進行研究。未來,將進一步對道路交通事故數據開展多角度、精細化深入挖掘,同時將研究道路交通事故數據挖掘的自動化和智能化,研發相關決策支持系統。

:

[1]公安部交通管理局.中華人民共和國道路交通事故統計年報(2015年度)[R].北京:公安部交通管理科學研究所,2016.

[2]許卉瑩,包勇強,江海龍,等.道路交通事故數據分析挖掘技術研究[J].中國人民公安大學學報(自然科學版),2008,14(4):69-73.

[3]李翔敏,戴帥.基于大數據的道路交通管理反思:小即是美[J].城市交通,2015,13(3):71-75.Li Xiangmin,Dai Shuai.Retrospection on Big Data-Based Road Traffic Management:Smaller Can be Better as Well[J].Urban Transport of China,2015,13(3):71-75.

[4]焦萬磊.面向道路交通事故成因分析的數據庫與挖掘方法研究[D].長春:吉林大學,2009.Jiao Wanlei.Research on the Database and Data Mining Method for the Cause of Traffic Accident[D].Changchun:Jilin University,2009.

[5]王曉燕,鄒堅敏,裘晨露,等.基于數據挖掘的交通事故信息綜合分析研判系統構建研究[J].中國公共安全(學術版),2016(4):57-62.Wang Xiaoyan,Zou Jianmin,Qiu Chenlu.Comprehensive Statistics and Analysis System of Traffic Accident Information System Implementation Based on Data Mining[J].China Public Security(Academy Edition),2016(4):57-62.

[6]Peter Harrington.機器學習實戰[M].李銳,李鵬,曲亞東,等,譯.北京:人民郵電出版社,2013.Peter Harrington.Machine Learning in Action[M].Li Rui,Li Peng,Qu Yadong,et al,translated.Beijing:Posts and Telecom Press,2013.

[7]曄沙.數據缺失及其處理方法綜述[J].電子測試,2017(18):65-67+60.Ye Sha.Data Deletion and Summary of Its Processing Methods[J].Electronic Test,2017(18):65-67+60.

[8]韓靜文,劉志強,龔標,等.基于貝葉斯網的城市道路交通事故機理分析[J].科技創新與應用,2017(8):23-24.Han Jingwen,Liu Zhiqiang,Gong Biao,et al.Traffic Accident Mechanism Analysis Based on Bayesian Network[J].Technology Innovation andApplication,2017(8):23-24.

猜你喜歡
數據挖掘關聯規則
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 国产日韩欧美黄色片免费观看| 日本影院一区| 亚洲人成网址| 全部毛片免费看| 在线国产毛片| 久久毛片免费基地| 人人爽人人爽人人片| 亚洲综合欧美在线一区在线播放| 亚洲欧美日韩中文字幕在线| 国产在线观看99| 国模极品一区二区三区| 欧美一区二区丝袜高跟鞋| 亚洲av无码久久无遮挡| 黄色成年视频| 无码 在线 在线| 国产在线观看成人91| 亚洲综合久久成人AV| 午夜成人在线视频| 国产第一页亚洲| 高清码无在线看| 国产青青草视频| 免费看一级毛片波多结衣| 无码又爽又刺激的高潮视频| 国产香蕉在线视频| 亚洲欧美一级一级a| 国产免费高清无需播放器 | 国产美女精品在线| 欧美成人免费一区在线播放| 素人激情视频福利| 国产人妖视频一区在线观看| 日韩天堂网| 亚洲伊人天堂| 幺女国产一级毛片| 日韩精品毛片| 亚洲日本中文综合在线| 久久99国产综合精品女同| 久久永久精品免费视频| 精品福利视频导航| 免费A级毛片无码无遮挡| 欧美国产日韩另类| 国内精品九九久久久精品| 婷婷综合在线观看丁香| 国产特一级毛片| 人妻丰满熟妇αv无码| 中文字幕 91| 无码国产偷倩在线播放老年人| 91在线激情在线观看| 第一区免费在线观看| 欧美19综合中文字幕| 四虎精品国产永久在线观看| www.91中文字幕| 美女一级毛片无遮挡内谢| 亚洲一级毛片| 手机精品视频在线观看免费| 欧美日韩第三页| 久久综合九色综合97网| 青青极品在线| 午夜福利无码一区二区| 亚洲视频一区在线| 久久免费观看视频| 五月婷婷丁香综合| 99伊人精品| 永久免费无码日韩视频| 野花国产精品入口| 天堂成人在线| 国产精品视频久| 无码有码中文字幕| 亚洲va在线∨a天堂va欧美va| 久热这里只有精品6| 国产情侣一区| 色吊丝av中文字幕| 成人一区专区在线观看| 亚洲成年人网| 国产精品欧美在线观看| 日韩精品欧美国产在线| www亚洲精品| 免费一看一级毛片| 91麻豆精品视频| 青青操国产| 欧美国产三级| 国产一区二区三区日韩精品 | 久久精品这里只有国产中文精品|