999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Spark的路網交通運行分析系統*

2020-08-26 06:27:26許宏科

楊 孟 許宏科 錢 超 朱 熹

(長安大學電子與控制工程學院1) 西安 710064) (深圳市城市交通規劃設計研究中心有限公司2) 深圳 518021)

0 引 言

隨著智能交通系統(intelligent transportation system, ITS)研究的深入展開,道路交通數據規模和復雜度呈爆發式增長,呈現出大數據的“6V”特征[1].采用傳統的串行處理方式,其計算速度已無法滿足大數據環境下實時業務需求.因此,采用并行化與分布式的數據處理技術來提高交通信息處理水平成為當前交通大數據平臺研究的熱點.建立綜合運輸服務大數據平臺,促進交通運輸大數據產業化應用成為迫切的行業需求[2].

目前,國內外在交通大數據應用領域積極展開相關研究.由于傳統的數據存儲方法無法解決海量交通數據的高效存儲和快速增長問題,Zhu等[3-4]采用Hadoop的分布式文件系統進行交通數據并行存儲,并應用MapReduce分布式計算框架實現對交通數據的統計分析,提高了海量交通數據的存儲和計算效率;Rathore等[5]根據城市交通監控數據,利用Hadoop的MapReduce機制,在并行環境下將視頻進行分塊處理,提高城市道路違規檢測的效率.為提高交通數據處理能力,孫衛真等[6]改進了分布式調度算法模型,優化了Hadoop的處理能力,從而彌補了傳統調度算法實時性的不足;Park等[7]采用數據挖掘算法對交通流數據進行聚類與分類分析,提出了一種改進的交通事故預測模型;Fan等[8]以ETC收費數據為基礎,采用隨機森林算法與Hadoop構建大數據機器學習分析平臺,實現公路旅行時間的預測;Chen等[9]利用歷史的交通速度,在Hadoop平臺上集成了KNN算法和高斯過程對道路速度進行預測.以上研究主要利用歷史數據對交通數據進行處理,為了實現交通數據的實時處理,Tsai等[10]利用Spark平臺實時處理數據的能力,構建了一種可以實時提供路網交通量的系統;黃廷輝等[11]利用道路檢測數據,提出了一種分布式城市交通流預測模型,實現了實時、準確的交通流預測;段宗濤等[12]在Hadoop平臺上設計并實現了一種多路徑的實時交通流分配方法,解決了傳統交通分配方法的難以保證交通流均衡性問題;陳釗正等[13]結合實際的交通流數據,利用聚類算法對交通流量和速度進行聚類分析,給定了交通狀態劃分方法,結果反映了實時、準確交通運行狀態.

綜上所述,應用分布式系統進行交通大數據研究集中在對傳統交通模型的改進以及對交通信息預測,缺少利用實時的交通數據對路網交通運行狀態進行更加合理、準確的分析研究,從而進行多指標綜合評價.因此,本文設計了一種基于Spark的路網交通運行狀態分析系統,以實時的交通流指標為基礎,實現對路網運行狀態的判別.結合真實路網交通數據,對系統分析結果進行綜合評價,驗證了系統的準確性與高效性.

1 路網大數據機器學習平臺

Spark是Apache項目的一個開源集群運算框架[14],具有分布式存儲和并行計算的能力,同時還提供了機器學習算法編程的接口,以及利于迭代運算的并行化執行機制,保證平臺在可接受的時間內完成大規模數據的學習和訓練.本文采用Spark技術搭建的路網大數據機器學習平臺總體框架,見圖1.在Linux操作系統上搭建Hadoop與Spark平臺,利用Hadoop平臺的分布式文件系統(hadoop distributed file system, HDFS)作為路網大數據機器學習平臺的數據存儲層,負責底層交通數據存儲管理.數據處理層利用Spark SQL對交通數據進行讀取與查詢,并將讀取的結果作為SparkR的輸入,利用Spark調用的k-means算法和隨機森林算法實現路網交通運行狀態的判別;并在數據應用層對數據判別結果進行研究分析.在數據的存儲、處理與應用過程中,由于Spark平臺的獨立調度器(standalone)模式較為簡單方便,無需依賴其他任何的資源管理系統,利用Standalone模式實現底層資源調度;同時,利用彈性分布式數據集(resilient distributed datasets, RDD)進行交通數據處理任務的并行執行;相較于MapReduce方法,RDD利用高速內存代替了低速磁盤I/O操作,提高了整體的運算效率.

圖1 路網大數據機器學習平臺

2 路網交通運行狀態研判

2.1 路網交通運行狀態聚類

路網暢通程度是描述道路運行狀態的重要指標.2012年,交通運輸部在《公路網運行監測與服務暫行技術要求》中以路段平均車速為標準,將道路交通運行狀態劃分為“暢通”“基本暢通”“輕度擁堵”“中度擁堵”“嚴重擁堵”五級.但不同的道路速度可能會有多種不同的道路狀況,僅用平均車速來度量交通運行狀態缺乏科學性和可靠性.因此,本文以道路交通流量、速度和占有率作為評價交通運行狀態的指標,采用聚類算法將道路擁堵程度劃分為五種狀態.傳統的k-means算法由于其原理簡單而被廣泛使用,當數據量較大時,算法的時間開銷非常大.本文采用分布式k-means算法進行聚類分析,將大量交通流數據劃分為多塊子數據,采用多個處理器并行計算,從而減少算法的運算時間.分布式k-means算法的基本思想基本過程如下.

1) 從高速公路交通流數據集D={x1,x2,…,xn}中,隨機選擇k個中心點mj,并將其存入文件clusterList中.

2) 在路網大數據機器學習平臺的分布式文件系統中,每個節點都包含部分數據集Di,將文件clusterList分發給分布式文件系統的每個節點中.

3) 在每個子數據集Di中,計算非中心數據xi到k個中心點數據mj的距離d(xi,mj),如果d(xi,mj)=min{d(xi,mj),i=1,2,…,n′;j=1,2,…,k},則將xi劃分到中心數據mj的類中.

5) 計算k-means算法的誤差平方和準則函數J,若聚類準則函數收斂或聚類迭代達到最大,則得到最終聚類結果;否則重復步驟2)、3)、4)繼續迭代,直到滿足聚類停止條件.

6) 迭代結束,得到交通流運行狀態聚類結果.

2.2 路網交通運行狀態判別

利用k-means算法實現路網交通運行狀態聚類后,每條交通流數據被賦予一個特定的分類標簽,其聚類結果為T={(xi,mj);i=1,2,…,n;j=1,2,…,5}.其中:xi為交通流運行數據,包括交通流量、速度和占有率,n為數據集記錄數,mj表示交通流運行數據聚類后的標記即五種交通運行狀態.隨機森林算法(random forest, RF)是以聚類產生的類別標簽為規則,判別數據與分類規則之間的關系.將帶標簽的交通流數據作為隨機森林算法的輸入數據,實現路網運行狀態判別,其具體判別過程如下.

1) 以高速公路交通流運行數據集D={x1,x2,…,xn}與各樣本對應的客戶類別為基礎,采用Bootstrap重采樣技術從數據集D中有放回地隨機抽取numTrees個子數據集,并將numTrees個子數據集Di基本均勻的分配到路網大數據機器學習平臺的所有節點中.

2) 分別從平臺所有節點的數據集Di中隨機選取M(M≤3)個特征屬性,將M個特征屬性作為數據集Di的特征屬性.

3) 并行訓練所有節點的數據集Di,以計算信息增益的方式確定最優的屬性劃分點,構建numTrees棵交通流運行狀態判別決策樹.

4) 利用numTrees棵決策樹形成交通流運行狀態判別隨機森林,并綜合numTrees棵決策樹的判別結果,按numTrees棵樹分類器投票決定最終分類結果.

2.3 路網交通運行狀態判別結果評價

綜合評價路網判別結果,本文引入交通運行狀態混淆矩陣見表1,其中,每一列代表了交通運行狀態的類別,每一行代表了交通數據真正的歸屬類別.混淆矩陣可以直觀反應實際交通運行狀態與判別結果的分布情況,根據混淆矩陣提取出精確度、召回率和F度量等指標來評判判別結果的準確性.

表1 交通運行狀態混淆矩陣

(1)

2) 召回率Rec描述交通運行狀態判別模型中正確結果占實際交通運行狀態的百分比,其中Pj為實際交通運行狀態為j的測試數據記錄數.

(2)

3)F度量 精確度Prec與召回率Rec的調和均值,體現了判別模型的穩定性.

(3)

3 實例分析

3.1 實驗平臺搭建

PeMS(performance measurement system)是美國加州運輸局運行監測系統,包含近40 000個檢測器的實時路網交通數據.本文選取西奧克蘭(West Oakland)地區高速公路作為實驗路網,包括I880號、I580號、I980號、I80號和SR24號高速公路,共布設57個車輛檢測器,實驗路網見圖2.以2016年5月29日—9月3日的交通流運行數據作為基礎數據,具體數據量為1 608 768條,采樣間隔為5 min.實驗路網交通流運行參數見表2.

圖2 實驗路網

表2 交通流運行原始數據表

本文利用5臺PC機搭建包含一個控制節點和四個計算節點的路網大數據機器學習平臺,處理器Intel(R) Core(TM)2 i5-6500@3.20 GHz,4 G內存.在路網大數據機器學習平臺中的所有節點上均安裝有Linux(ubuntu 12.04)操作系統,并配置Spark所需的軟件,包括:Java,Hadoop,Scala,Spark和R.

3.2 聚類可靠性分析

聚類結果的可靠性決定了路網運行分析系統準確性.因此,本文通過對比并行化聚類算法和傳統的聚類算法結果、并行化聚類算法結果和實際交通特性,對聚類結果進行評價.

3.2.1并行化聚類和傳統的聚類結果分析

相較于傳統的聚類算法,路網大數據機器學習平臺對預處理后的交通流數據進行并行計算,大幅度提高了聚類效率,聚類結果統計見表3.由表3可知,兩種聚類方式的聚類結果占比基本一致,其平均相對誤差約為7.3%,說明并行化聚類和傳統聚類算法結果具有一致性.

表3 并行化聚類與傳統聚類結果

3.2.2并行化聚類結果時間特性分析

圖3為401416號檢測器6月7日并行聚類結果時間分布特性圖,采用“1”“2”“3”“4”“5”表示交通運行狀態的“暢通”“基本暢通”“輕度擁堵”“中度擁堵”“嚴重擁堵”.由于I980號高速公路具有早晚高峰特點,而401416號檢測器處于I980號高速公路下行線上.由圖可知:401416號檢測器并行聚類結果時間分布特性具有早高峰特點,在早晨08:00前后道路交通量和占有率達到最高,同時道路上車輛的速度下降到最低值,與交通流運行特性是一致的,說明交通流運行數據并行聚類結果是可靠的.

圖3 401416號檢測器樣本與并行化聚類結果時間分布

3.3 判別準確性分析

3.3.1傳統判別與并行化判別結果評價

在單機和路網大數據機器學習平臺上分別構建路網交通運行狀態判別模型,其中85%的路網數據作為訓練集,15%的路網數據作為測試集,構建傳統判別與并行化判別結果的交通運行狀態混淆矩陣,并從混淆矩陣中提取出兩種判別結果平均精確度、召回率和F度量見圖4.由圖4可知,在路網大數據機器學習平臺上并行化判別路網運行狀態會影響其判別結果,并行化判別的精確度、召回率和F度量略低于傳統判別,但均達到98.5%以上,說明并行化判別結果的準確性依然可靠.

圖4 傳統判別與并行化判別結果評價指標平均值對比

3.3.2并行化判別模型評價

在路網大數據機器學習平臺中,為評價判別模型的準確性,本文選用邏輯回歸模型(Logit)、多層感知器(multi-layer perception, MLP)和隨機森林算法(RF)進行對比.采用85%數據作為訓練集和15%數據作為測試集進行實驗,圖5為在不同交通運行狀態下Logit,MLP,RF分類算法的精確度、召回率和F度量對比,圖6為Logit,MLP,RF分類算法的平均精確度、召回率和F度量對比.由圖6可知,隨機森林算法的精確度、召回率和F度量高于Logit和MLP算法,并均達到98%以上,說明在路網大數據機器學習平臺中,隨機森林算法的準確性相較于其他分類算法準確性較高.

圖5 不同分類算法下五種判別結果的指標對比

圖6 不同分類算法下判別結果的指標對比

3.4 系統性能分析

3.4.1運行時間

以路網交通流數據為基礎,不斷增加數據規模,分析在不同計算節點數下路網交通運行分析系統的運行時間,結果見圖7.當數據規模較小時,增加計算節點的數量對系統的運行時間影響不大;隨著數據規模的增大,系統中計算節點的數量越多,其運行時間的越短.

圖7 不同節點運行時間對比

3.4.2加速比

在在不同數據規模下,改變系統中計算節點的數量,分析并行判別系統的加速比,結果見圖8.增加計算節點的數量,加速比均會上升;當數據規模較少時,加速比隨著計算節點數量的增加先增大后趨于平穩;當數據規模較大時,增加系統中計算節點,系統的加速比也不斷上升.

圖8 路網交通運行分析系統加速比

3.4.3可擴展性

以不同規模數據為基礎,通過改變系統節點數量分析路網交通運行分析系統的運行時間,結果見圖9.增加系統中計算節點的數量,數據的運行時間均有所下降;數據規模越大,系統的運行時間下降的幅度越大,說明路網交通運行分析系統適用于不同規模數據處理,具有良好的可擴展性.

圖9 路網交通運行分析系統可擴展性

4 結 論

1) 以交通流量、速度和占有率為基礎進行交通運行狀態評價,從而更加全面、準確的反映路網中的路網運行狀態.

2) 經實驗證明,相較于傳統的運算系統,本文提出的并行運算系統結果依然可靠、準確,系統的加速比提升了近50%,并具有良好的可擴展性,能更有效的對大規模數據進行處理.

3) 本文采用定點檢測器采集的交通流量、速度和占有率數據實現路網交通狀態的判別,檢測器的布設密度對實際結果具有一定的影響.因此,在未來的研究中,采用定點檢測器數據與動態采集設備的數據相融合,能進一步提高交通狀態判別的準確性和可靠度.

主站蜘蛛池模板: 色综合天天娱乐综合网| 国产成人高清精品免费| 欧洲成人免费视频| 久爱午夜精品免费视频| 四虎亚洲精品| 久草性视频| 久久综合激情网| 国产区精品高清在线观看| 亚洲国产成人自拍| 国产超碰一区二区三区| 1024你懂的国产精品| 久草网视频在线| 素人激情视频福利| 91在线一9|永久视频在线| 国产亚洲精| 欧美精品H在线播放| 国产91特黄特色A级毛片| 91小视频在线观看免费版高清| 呦女亚洲一区精品| 国产精品一区二区国产主播| 国产精品微拍| 日韩二区三区无| 中文成人在线| 麻豆精品在线视频| 国产精品欧美激情| 欧美另类视频一区二区三区| 全部无卡免费的毛片在线看| 国产真实乱了在线播放| 亚洲中文字幕国产av| 国产激情无码一区二区APP | 亚洲中文字幕久久无码精品A| 中国国产A一级毛片| 日日摸夜夜爽无码| 国产杨幂丝袜av在线播放| 日本午夜精品一本在线观看 | 亚洲成人播放| 久久这里只有精品23| 欧美高清国产| 亚洲天堂久久久| 亚洲成年人网| 日韩av无码精品专区| 亚洲综合第一区| 亚洲AV人人澡人人双人| 亚洲妓女综合网995久久| 亚洲国产日韩欧美在线| 成人91在线| 国产精品对白刺激| 无码中文字幕乱码免费2| 人人艹人人爽| 欧美区一区二区三| 国产在线97| 这里只有精品在线播放| 2021国产精品自产拍在线| 91在线免费公开视频| 国产精品久久久久无码网站| 丁香六月激情综合| 91亚洲免费| 97精品伊人久久大香线蕉| 国内精品91| 深爱婷婷激情网| 日本a级免费| 久久婷婷人人澡人人爱91| 国产美女在线观看| 亚洲黄色激情网站| 美女毛片在线| 国产乱人免费视频| 国产精品视频第一专区| 国产亚洲精品资源在线26u| 国产精品亚洲αv天堂无码| 啦啦啦网站在线观看a毛片| 老司国产精品视频| 欧美在线视频不卡第一页| 久久成人国产精品免费软件| 夜夜拍夜夜爽| 91成人在线观看| 国产日韩精品一区在线不卡 | 高清国产在线| 亚洲aaa视频| 婷婷伊人五月| 国产在线精彩视频论坛| 久久综合亚洲鲁鲁九月天| 欧美午夜一区|