999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹C4.5算法的個人駕駛行為分析

2017-02-06 00:22:08劉凱利李晉宏
軟件 2016年6期
關鍵詞:駕駛員模型

劉凱利+李晉宏

摘要:針對我國汽車產業及運輸行業的快速發展,但交通安全觀念及文明意識明顯滯后、不規范駕駛行為多發的問題,利用數據挖掘中的決策樹方法,對個人駕駛行為數據進行預處理,分析與駕駛行為相關的主要指標,然后通過C4.5算法構建了決策樹知識學習模型,并采用后剪枝法(post-punning)對其進行剪枝,最后利用建立的模型對測試數據集進行評估。研究結果表明:該決策樹模型有較高的準確性,為個人駕駛行為分析提供了可行性依據。

關鍵詞:交通安全;駕駛行為;決策樹;C4.5算法;后剪枝法

引言

根據相關數據顯示,我國2014年底機動車駕駛人數量突破歷史性的3億人,機動車的使用數量及駕駛人數,使得我國面臨更為嚴峻的交通安全形勢。2014年,我國交通事故死亡人數為34292.34人,比2013年的死亡31604.3人增加了2688.04人,增長率為8.5%;相比2012年的死亡30222.5人,增加了4069.84人,增長率為13.46%;美國公路運輸安全管理局(National Highway Traffic Safety Admini-stration:HTSA)曾在2009年調查發現,由于酒后駕駛行為導致的死亡人數為10839,為交通事故總死亡人數的32%;澳大利亞MONASH大學事故研究中心的研究報告表明,接近25%的道路交通事故是由于駕駛員的分心。可見,不當的駕駛行為是近些年來誘發交通事故的主要原因,對駕駛行為的分析與研究變得尤為重要。

此外,隨著國民經濟的快速增長,運輸企業和租車公司急速擴張,而如何降低車隊運營成本,加強對駕駛員的行為管理成為關鍵問題。比如以色列的Traffilog管理系統,通過記錄司機的多種不良駕駛行為,譬如超速、過程怠速、急剎車、急加速、超轉行駛、停車立即熄火、低油量行駛、冷卻系統異常、停車狀態踩油門、長時間剎車、長時間離合、粘離合、發動機異常熄火等信息,有意識提醒并改善司機的駕駛行為情況;國內最早是蘇州金龍于2011年推出GBOS智慧運營系統,后來該系統的管理理念又被復制到了卡車行業,陜汽順勢在2013年推出“天行健車聯網系統”,為汽車經銷商、個體車主及運輸公司提供車貸管理服務、駕駛員行為分析服務、車輛常規監控服務、油耗節能服務等。

由于后天的實際車路況不同、交通監控設施不到位、違章成本低等諸多因素,大多數駕駛員會或多或少養成一些不良駕駛行為,譬如超速行為、減速行為、加速行為等,這些駕駛行為的確會影響車輛油耗、車輛使用壽命及車輛安全隱患。然而駕駛員的駕駛行為除了與路況環境相關外,與駕齡、行車時間、車速、是否工作日等信息也息息相關,本文通過分析這些影響駕駛行為的因素,判斷其與不良駕駛行為之間的關系,運用決策樹C4.5算法以期對駕駛行為分類,改善不良駕駛習慣,提高交通安全意識。

1決策樹基本概念

決策樹是一種簡單但是廣泛使用的分類器,由內部節點,葉子節點以及分支構成。其中,內部節點表示在一個屬性上的測試,分支代表測試的輸出,葉子節點表示類別分布。樹中每一個非葉節點對應著一個非類別屬性,分支代表這個屬性的值,而根節點到葉子節點之間的路徑則形成一條分類規則。決策樹可以很方便地轉化為分類規則,是一種直觀的分類模式表現形式。

ID3以及C4.5算法是最典型的決策樹算法,其中ID3是1986年由Quinlan提出的最著名的決策樹算法,運用信息熵理論,選擇當前樣本集中最大信息增益的屬性值作為測試屬性,樣本集的劃分則依據測試屬性的值進行,測試屬性有多少不同取值就將樣本集劃分為多少子樣本集。ID3算法簡單、快速但要求屬性離散,而C4.5算法可以處理連續的屬性值,它選擇具有最大增益比例的屬性作為劃分樣本集的屬性。

2數據采集與預處理

本文所使用的數據來源于某車禍預防系統,此系統現已經安裝在租車公司的運營車輛上面,可以記錄駕駛員的性別、年齡、工齡、數據上傳時間、車速以及告警類型等信息,并通過網絡傳輸到后臺數據庫,進而獲取個人駕駛行為數據。

然而,隨著數據庫中數據的快速增長,決策樹的生成速度和準確性的評估將會明顯變慢,并最終可能超過硬件的承載能力,因而通常的做法是對業務數據源進行抽樣,選取出一個大小適中并盡可能地包含有全部業務數據的數據集樣本。本文采集共計4543條數據,并采用保持法隨機將此數據的2/3作為訓練數據,其余的1/3作為測試數據。數據樣例見表1。

這些駕駛數據中,存在一些重復和無效的數據影響駕駛行為的分析,因此在進行預處理時利用Python語言將這些數據從表中刪除,比如:重復的時間,持續的怠速為0狀態等。此外,由于研究目標是針對個人的駕駛行為,性別、年齡、工齡這些與輸出變量無關的固定變量,應將其刪除。對連續型屬性如時間和車速,經過分析,對時間和車速采用離散化處理,并根據數據上傳時間增加了是否工作日(work day)屬性,其中1代表工作日,0代表非工作日,而時間主要分析2個時間段,0代表早高峰7:00-9:00,1代表晚高峰17:00-19:00,并計算各個時間段內的平均車速。告警類型采用每段時間內出現頻率最大(max(pi))的告警類型作為類別結果,得到的標準化訓練樣本見表2。

3 C4.5算法構建決策樹

決策樹的構建主要借鑒分治法的思想,將一個龐大的、復雜的分類問題,逐步轉化為若干個簡單的、規模更小的分類問題,自上而下地遞歸建立分類器模型。C4.5算法的核心是通過采用信息增益比例的方式來選擇能夠將樣本分類的最佳屬性,而增益比例存在的問題是:傾向于選擇分割不均勻的分裂方法,即若一個節點拆分為兩個節點,其中一個節點屬性取值特別多,另一個節點取值特別少時,這種拆分有利于被選擇。為了克服此問題,需要對C4.5算法進行改進,采取的具體解決方案如下:首先利用信息增益概念,計算每一個屬性劃分的信息增益,獲得平均信息增益;選出信息增益大于平均值的所有屬性集合,對該集合計算增益比例,選擇其中增益比例最大的屬性進行決策樹分裂。

3.1信息增益率的計算

定義1設D是訓練樣本集,類別屬性具有m個不同的值,即有m個不同類Ci(i=1,2,…,m),Dj是隸屬Ci類的樣本集合,則信息熵的計算公式為:

3.2決策樹生成與剪枝

本文使用Python語言進行計算信息熵、C4.5算法劃分數據集遞歸構建了決策樹,同時為了避免決策樹過擬合(Overfitting)樣本,即隨著決策樹節點個數的增加,決策樹在訓練樣例集上的準確度不斷提升,但在測試集上的準確度卻逐漸降低,需要對得到的初始決策樹進行除噪和分支異常處理,并采用后剪枝法(post-punning)對其進行剪枝。

決策樹構造過程中,修剪方法有兩種:預剪枝法和后剪枝法,其中預剪枝法是指在構造節點時,若節點的信息增益小于0.1%,則舍棄;或者構造節點時若節點下的記錄數在所有記錄數中的比例小于0.2%,則停止其子樹的生長;構造節點時如果沒有屬性可以用于對數據進行分割,則停止該子樹的生長。后剪枝法則采用期望錯誤率最小原則,即對樹中的內部節點計算其剪枝/不剪枝可能出現的期望錯誤率,如果剪去該節點導致較高的期望錯誤率,則保留該子樹,否則剪掉該子樹,最后得到具有最小期望錯誤率的決策樹。其生成的決策樹如圖1所示。

3.3模型評估及分析

使用生成的決策樹模型對測試數據集進行評估,參與測試的樣本數據集有1400個,占整個數據集的1/3。為了評估此模型的準確性,可以利用測試數據集中的數據進行預測,并比較測試結果與實際情況的吻合程度。其準確率公式如下:

利用決策樹模型得到的檢驗結果見表3。

通過對數據集的測試與評估可以看出,總體平均識別率達到89.41%,檢測結果表明運用C4.5算法學習到的模型對未來數據樣本的分類預測可以達到基本要求。

最終生成的決策樹模型是以IF-THEN形式形成的分類規則集合,從根節點到葉子節點的每條路徑構成一條規則,路徑內部節點的特征對應規則的條件,葉子節點的類則對應規則的結論。

從生成的決策樹可以看出:作為根節點的平均車速屬性是所有樣本中信息量最大的屬性,即駕駛人的平均車速對告警類型的產生影響較為顯著,而告警類型是即將發生危險時,車禍預防系統以圖像和聲音的形式對駕駛者的直接提醒,說明車速與日常交通事故的發生有著密不可分的關系。此外,結合對平均每小時報警數(報警數/駕駛時長)的統計,如果單位時間內告警數量有明顯下降,說明駕駛員對警示提醒有了重視,這有助于駕駛員形成良好的駕駛習慣,形成良好的駕駛行為;同時發現在早高峰和晚高峰時期,多次發生城市碰撞,說明在市區駕駛比較多;在非工作日狀態下,存在超速行駛現象嚴重,有主動違章的駕駛行為習慣,而且在高速行車變化車道時,有不開啟轉向燈或者壓線行駛情況多的習慣,這樣存在潛在的碰撞危險。

4結論

決策樹作為數據挖掘的一個常用工具,有便于理解的分類規則和高準確率,深受數據分析者的喜愛。本文通過收集車載設備的個人駕駛行為數據,對數據進行預處理以確認數據質量,從中提取有價值的行車特征,并運用C4.5算法建立了決策樹知識學習模型,采用后剪枝法簡化了決策樹的大小,提高了決策樹的可讀性,并驗證了模型的準確率。此模型可以用來幫助駕駛員避免或減少日常交通事故的產生,同時探索誘導交通事故發生的影響因素,降低不良駕駛行為造成的潛在危害性,為交通安全提供保障。它將有助于發現駕駛員在駕駛過程中可能出現的錯誤操作,進而改善駕駛者的駕駛行為習慣,同時給出較為合理的駕駛方案,以提高交通運輸效率,減少交通事故的發生。

猜你喜歡
駕駛員模型
一半模型
基于高速公路的駕駛員換道意圖識別
基于眼動的駕駛員危險認知
駕駛員安全帶識別方法綜述
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于matlab的純電動客車駕駛員行為分析
汽車電器(2018年1期)2018-06-05 01:22:54
3D打印中的模型分割與打包
起步前環顧四周是車輛駕駛員的義務
公民與法治(2016年4期)2016-05-17 04:09:26
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 91在线播放免费不卡无毒| 国产人碰人摸人爱免费视频| 精品少妇人妻一区二区| 成人午夜视频在线| 国产aaaaa一级毛片| 久久国产精品夜色| 国产哺乳奶水91在线播放| 国产黑丝视频在线观看| 久久亚洲天堂| 免费女人18毛片a级毛片视频| 91无码网站| 69综合网| 国禁国产you女视频网站| 国产欧美精品午夜在线播放| 97人妻精品专区久久久久| 日韩福利视频导航| 制服丝袜亚洲| 东京热一区二区三区无码视频| 亚洲国产欧美国产综合久久 | 精品五夜婷香蕉国产线看观看| 欧美日韩激情在线| 99久久精品久久久久久婷婷| 成人欧美在线观看| 亚洲国产精品无码AV| 91精品专区| 成人va亚洲va欧美天堂| 九色91在线视频| 亚洲色精品国产一区二区三区| 女人18毛片一级毛片在线 | 欧美性色综合网| 毛片网站免费在线观看| 欧美www在线观看| 夜夜操天天摸| 综合久久久久久久综合网| 99久久国产自偷自偷免费一区| 国产香蕉国产精品偷在线观看| 五月激情婷婷综合| 热re99久久精品国99热| 国产女同自拍视频| 天天操精品| 免费a在线观看播放| 精品国产一区二区三区在线观看| 亚洲天堂视频在线免费观看| 午夜久久影院| 久久精品无码一区二区日韩免费| 国产精品免费电影| 免费毛片网站在线观看| 久久精品无码一区二区国产区| a级毛片一区二区免费视频| 色综合天天综合中文网| 国产91精品调教在线播放| 国产福利一区视频| 日韩av在线直播| 91福利片| 欧美日韩高清在线| 国产福利免费视频| 2020国产精品视频| 综合久久五月天| 亚洲天堂日韩av电影| 亚洲国产精品一区二区第一页免| 成年午夜精品久久精品| 久青草免费在线视频| 女人18毛片久久| 欧美成人综合在线| 久久香蕉国产线| 在线视频亚洲色图| 在线网站18禁| 成人午夜精品一级毛片| 亚洲欧美成人| 久久亚洲中文字幕精品一区 | 在线国产综合一区二区三区| 亚洲精品777| 国产精品视频公开费视频| 国产成人精品视频一区二区电影| 久久久久久久久18禁秘| 538精品在线观看| 国产丰满成熟女性性满足视频 | 国产香蕉国产精品偷在线观看 | 91丝袜在线观看| 好紧太爽了视频免费无码| 亚洲综合香蕉| 91美女视频在线|