999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于高斯混合聚類模型的公交出行特征分析

2019-08-23 05:34:47黃艷國韓亮張碩許倫輝
現代電子技術 2019年16期
關鍵詞:數據采集

黃艷國 韓亮 張碩 許倫輝

摘? 要: 針對公交出行特征的傳統數據分析方法人工成本大的問題,提出一種基于高斯混合聚類模型的公交出行特征分析方法。以公交IC卡刷卡數據、公交運行GPS數據及靜態站點數據為基礎,建立高斯混合聚類模型,對比節假日與通勤日公交出行特征差異。最后以深圳市某路公交為實例,仿真結果表明,節假日與通勤日公交出行在高峰時段分布與持續時間上具有顯著差異,驗證了高斯混合聚類模型在交通數據分析領域中的有效性,對公交運營與調度優化有一定的借鑒意義。

關鍵詞: 公交出行; 出行特征; 高斯混合聚類模型; 數據采集; 模型驗證; 聚類分析

中圖分類號: TN919?34; U491.1+7? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)16?0174?05

0? 引? 言

公交作為地面上主要的公共交通方式,在分擔城市交通壓力方面不可或缺。物聯網等技術的發展,使交通數據呈現4V特征,傳統的數據分析方法在處理這些海量數據時,往往會出現處理速度慢、精度低、人工成本大的問題。為應對這種情況,專家學者開始對大數據技術進行深入的研究與探討,與它相關的各種關鍵技術也都隨著研究的深入日漸成熟。通過這些關鍵技術,給公交的相關研究方向提供了便利,公交出行特征分析就是其中之一。隨著公交都市的不斷推進,對公交出行特征研究取得了不少成果。如文獻[1?2]采用問卷調查的形式采集居民出行數據并建立公交出行預測模型;文獻[3?4]利用乘客上下公交產生的刷卡數據分析公交出行行為;文獻[5?6]通過建立公交選擇行為模型,對比分析公共交通與非公共交通出行行為差異;隨著部分城市快速公交專用通道的建設,文獻[7?8]重點對快速公交的出行特征進行分析;不少學者也將近年來比較熱門的大數據技術與公交出行特征結合分析,文獻[9?10]基于大數據與云計算平臺對海量的公交OD數據進行采集與分析,較為準確且高效地推算出公交乘客上下車站點。

但多數研究主要集中于公交出行特征的整體性分析,對不同影響因素下,如節假日與通勤日公交出行特征的差異性分析較為缺乏。本文使用高斯混合聚類算法對節假日與通勤日的公交出行特征進行差異化分析,以求更充分地分析公交出行特征。

1? 數據采集與預處理

1.1? 數據采集

本文使用的數據集包括公交IC卡數據、公交運行GPS數據和靜態站點數據。公交IC卡數據記錄的信息包括ID卡號、時間日期、車輛編號等,不過由于公交支付方式的多樣化,導致IC卡數據不能涵蓋所有乘客的出行信息。為避免信息的丟失與分析結果的片面性,本文加入公交GPS數據作為補充,靜態站點數據的采集則方便了GPS數據的匹配。

1.2? 數據預處理

因為數據源具有多樣性,以及由于干擾、冗余和一致性因素的影響的數據集具有不同的質量,所以在大數據系統中需要數據預處理技術提高數據的質量[11]。預處理步驟包括數據清洗與數據融合。數據清洗包括價值信息篩選、統一格式、錯誤數據清洗、缺失數據。

1) 價值信息篩選。原始數據信息駁雜,只需將需要的字段數據篩選出來。經篩選后,IC卡數據所保留的字段包含ID卡號、刷卡時間、車輛編號、線路編號;公交GPS數據所保留的字段包含經緯度、車輛編號、線路編號、方向、車速、信號時間;靜態站點數據保留字段站點經緯度、站點編號、站間距離。

2) 統一格式。GPS數據的儲存一般經過加密,需對相關字段的格式進行統一,最終得到結果如表1所示。

3) 錯誤數據清洗。錯誤數據也包括重復數據,錯誤數據可通過設置閾值的方式進行篩選剔除,重復數據則是由于系統故障導致數據重復傳輸,使用SQL數據庫語言對數據進行唯一性篩選。

4) 缺失數據一般是信號被遮擋或設備故障導致,由于缺失的數據可能對數據的特征有著重要的描述作用,直接刪除會影響數據的分析結果。本文采用TDI算法[12](基于塔克分解的插補算法)對缺失數據進行估算還原,算法描述如下:

輸入:[A](丟失的數據),[w](非負權重),公差[ε], 最大迭代次數[kmax];

輸出:估計值[A′];

初始化正交因子矩陣([X0,Y0,Z0]);

For [k=0,1,2,…,kmax] do:

計算[γ=B2],[B=w?A];? ? ? ? ? ? ? ? ? ? ? ? //[B]為三階張量

計算[C=w?(S×1X×2Y×3Z)];? ? ? ? ? ? ? ? ? ? ? //[S]為核心張量

do

[f=0.5γ-B,C+0.5C2];

[wk=gradF(xk)];

If [B-Cw/Bw<ε],then break

End for

計算估計值[A′=Sk×1Xk×2Yk×3Zk]

數據融合是獲取到的IC卡數據和GPS數據存在相同字段,將兩組數據按照相同的字段進行融合得到統一數據源。

2? 公交出行時空特征分析

本文以2018年3月20日—4月12日深圳113路公交上行線(長嶺東總站—蛇口總站)運行數據為例,探究公交出行特征。113路公交主要運行區域位于深圳深南大道,深南大道是深圳一條重要的主干道,為確保數據更具有代表性,選取位于深南大道的運行區間(門診部②—深大本門②)為研究范圍。主要數據集經清洗后得到公交GPS數據63 430條、IC卡數據154 231條,其中節假日數據包括公交GPS數據7 360條、IC卡數據12 357條。

2.1? 公交出行量時間分布

為了研究公交出行時間域的分布情況,將時間進行離散化,即將6:00—22:00共16 h以15 min為間隔進行劃分,記為[i],[i∈{0,1,2,…,64}]。按照IC卡的刷卡時間標記所處時間段,按照日期分為節假日、通勤日、周末三種類型,記為[j],[j∈節假日,通勤日,周末]。則每種類型在一天各個時段內的公交平均出行量表示為:

[Kji=j=1DjMjilDj] (1)

式中:[Mjil]為[j]類型第[l]天第[i]時段的公交出行量;[Dj]為[j]類型發生的天數;[l={1,2,…,Dj}]。

當日公交出行總量為:

[Kj=i=064Kji] (2)

各時段出行比例為:

[Nji=KjiKj×100 %] (3)

最終得到三種類型下分時段公交出行量占當天總出行量的比例,如圖1所示。

從圖1可看出,節假日乘客公交出行行為主要集中在上午,早高峰時段為9:00—9:30,晚高峰時段集中在18:00—18:30;通勤日的公交出行行為在一天內分布較為均勻,早高峰要比節假日的早高峰提前45 min左右,晚高峰出現時段與節假日基本一致,但持續時間較節假日要長30 min左右;相比于節假日,周末公交出行的差異性較小,總體趨勢較為相近,差異主要是早高峰比節假日要早1 h左右,晚高峰晚15 min左右且持續時間較短。

2.2? 公交出行量站點分布

公交的運行線路所經過的各個站點,因為地理位置的不同,所具有的載客特征也不同。本文對每個站點的公交出行量進行統計,得到該站點出行量占全站點總出行量比例,結果如圖2所示。

由圖2可以看出,部分站點的乘客出行量在三種類型影響下存在一定的差異性,如第4站點在通勤日的乘客出行比例最高,節假日的出行比例最低;而第17站點節假日出行比例最高,通勤日出行比例最低。

圖2? 公交出行量比例隨站點分布

Fig. 2? Distribution of bus travel volume

proportion with its station location

3? 公交出行特征聚類分析

數據聚類分析是尋找數據之間一種內在結構的技術,可以將全體數據按相似的屬性分為不同的簇類。本文通過對數據進行聚類分析,探究公交出行的獨特屬性。

目前,聚類分析中常用的分析算法有Apriori算法[13]、神經網絡算法、DBSCAN算法[14]、遺傳算法、K?means算法等,但在對交通數據的分析中發現,交通數據類數據分布具有一定的高斯分布。因此本文引入高斯混合模型聚類算法[15](Gaussian Mixture Model,GMM)作為數據聚類分析算法。

3.1? 高斯混合聚類模型

假設一天各時段公交出行量為[xi](i=1,2,…,65),則高斯混合模型可表示為:

[p(x)=k=1KπkN(xkμk,Σk)] (4)

高斯混合模型中有三個參數需要估計,分別為[π],[μ]和[Σ],式(4)可化為:

[p(xπ,μ,Σ)=k=1KπkN(xμk,Σk)] (5)

最常用的參數估計算法是最大似然法(EM)。

算法步驟如下:

1) 指定[π],[μ]和[Σ]的初始值。

2) 計算后驗概率[γ(znk)]:

[γ(znk)=πkN(x|μk,Σk)j=1KπjN(x|μj,Σj)] (6)

3) 求解[μk]的最大似然函數:

[μk=1Nkn=1Nγ(znk)xn] (7)

4) 求[Σk]的最大似然值:

[Σk=1Nkn=1Nγ(znk)(xn-μk)(xn-μk)T] (8)

5) 求解[πk]的最大似然函數

[πk=NkN] (9)

6) 循環重復計算步驟2)~5),直至算法收斂。

3.2? 分析結果

本文通過Matlab軟件平臺,對節假日和通勤日一天各時段公交出行量進行聚類仿真實驗。仿真結果如圖3、圖4所示。

圖3? 節假日公交出行量聚類

Fig. 3? Clustering of bus trip volume on holidays

圖4? 通勤日公交出行量聚類

Fig. 4? Clustering of bus trip volume on commuting days

通過比較AIC(赤池信息量)準則,最終將節假日數據分為三個簇類,AIC最小值為935.3,通勤日數據也分為三個簇類,AIC最小值為910.9。

對比上述的聚類結果圖,可知節假日與通勤日一天各時段公交出行量在聚類時,都被分為三個簇類,這三類分別代表早高峰、午平峰、晚高峰。但從結果來看,節假日與通勤日的出行時段差異十分明顯,主要差異表現在:節假日公交出行早晚高峰出現較晚且持續時間較長,午平峰較短且整體趨勢處于下降趨勢;通勤日公交出行早晚高峰出現較早且持續時間更短,午平峰一直保持持續增長的趨勢直到晚高峰到來。

3.3? 算法對比

為凸顯GMM算法的有效性,現與K?means聚類算法結果進行比較,以通勤日數據為例,K?means的仿真結果如圖5所示。結果顯示K?means也將數據分為三個簇類,不過分類依據是根據出行量,分類的差異性較大且特征不夠明顯。由此可見,GMM算法在聚類結果的準確性以及魯棒性方面要優于K?means算法,證明了GMM算法在本文的數據挖掘方面的有效性。

4? 結? 論

本文基于公交IC卡數據、公交GPS數據、靜態站點數據,以深圳113路公交為例,通過高斯混合聚類模型對公交出行的時空分布特征進行了相關研究。研究結果顯示,節假日與通勤日公交出行具有鮮明的特征差異,證明高斯混合聚類模型在交通數據分析領域的有效性,對相關公交調度優化研究有一定的參考價值。但因受限于數據量,本文的分析結果可能存在一定的誤差,后續增加數據量之后再進行更深入的研究。

參考文獻

[1] 劉嶄,高璇.基于非集計模型的公交出行選擇預測模型[J].公路,2010(5):135?139.

LIU Zhan, GAO Xuan. Bus travel prediction model based on non?aggregate model [J]. Highway, 2010(5): 135?139.

[2] 周雪梅,張顯尊,楊曉光.基于交通方式選擇的公交出行需求預測[J].同濟大學學報(自然科學版),2007,35(12):1627?1631.

ZHOU Xuemei, ZHANG Xianzun, YANG Xiaoguang. Travel mode choice?based prediction of public transit demand [J]. Journal of Tongji University (Natural Science), 2007, 35(12): 1627?1631.

[3] 龍瀛,張宇,崔承印.利用公交刷卡數據分析北京職住關系和通勤出行[J].地理學報,2012,67(10):1339?1352.

LONG Ying, ZHANG Yu, CUI Chengyin. Identifying commuting pattern of Beijing using bus smart card data [J]. Acta geographica sinica, 2012, 67(10): 1339?1352.

[4] ZHOU Y Y, YAO L, JIANG Y, et al. GIS?based commute analysis using smart card data: a case study of multi?mode public transport for smart city [C]// Proceedings of 3rd International Conference on Geo?Informatics in Resource Management and Sustainable Ecosystem. Wuhan: Springer, 2015: 83?94.

[5] 殷煥煥,武平,趙紅征.城市公共交通出行方式選擇行為研究[J].武漢理工大學學報(交通科學與工程版),2013,37(2): 352?356.

YIN Huanhuan, WU Ping, ZHAO Hongzheng. Study of public transit travel mode choice behavior [J]. Journal of Wuhan University of Technology (Transportation science & engineering), 2013, 37(2): 352?356.

[6] 嚴海,王熙蕊,梁文博,等.基于結構方程模型的通勤交通方式選擇[J].北京工業大學學報,2015,41(4):590?596.

YAN Hai, WANG Xirui, LIANG Wenbo, et al. Commute traffic mode choice based on structural equation model [J]. Journal of Beijing University of Technology, 2015, 41(4): 590?596.

[7] 蔡志理,邴其春.同線路BRT與常規公交速度特性對比分析[J].武漢理工大學學報(交通科學與工程版),2012,36(5): 916?921.

CAI Zhili, BING Qichun. Comparative analysis on speed characteristics between BRT and normal bus transit on same line [J]. Wuhan University of Technology (Transportation science & engineering), 2012, 36(5): 916?921.

[8] 武鈞,霍月英.快速公交乘客滿意度影響因素的定量研究[J].計算機工程與應用,2015,51(21):219?224.

WU Jun, HUO Yueying. Quantitative study on effect factors of passenger satisfaction for BRT [J]. Computer engineering and applications, 2015, 51(21): 219?224.

[9] 鄔群勇,蘇克云,鄒智杰.基于MapReduce的海量公交乘客OD并行推算方法[J].地球信息科學學報2018(5):647?655.

WU Qunyong, SU Keyun, ZOU Zhijie. A MapReduce?based method for parallel calculation of bus passenger origin and destination from massive transit data [J]. Journal of geo?information science, 2018(5): 647?655.

[10] 孫慈嘉,李嘉偉,凌興宏.基于云計算的公交OD矩陣構建方法[J].江蘇大學學報(自然科學版),2016,37(4):456?461.

SUN Cijia, LI Jiawei, LING Xinghong. Estimation of bus origin?destination matrix based on cloud computing [J]. Journal of Jiangsu University (Natural science edition), 2016, 37(4): 456?461.

[11] 李學龍,龔海剛.大數據系統綜述[J].中國科學:信息科學,2015,45(1):1?44.

LI Xuelong, GONG Haigang. A Survey on big data systems [J]. Scientia sinica informationis, 2015, 45(1): 1?44.

[12] TAN H, FENG G, FENG J, et al. A tensor?based method for missing traffic data completion [J]. Transportation research, Part C: emerging technologies, 2013, 28: 15?27.

[13] 張鑫,陳燕,李桃迎.基于 Apriori算法的經濟指標關聯分析[J].科學技術與工程,2016,16(8):233?237.

ZHANG Xin, CHEN Yan, LI Taoying. The associational analysis of economic indexes based on Apriori algorithm [J]. Science technology and engineering, 2016, 16(8): 233?237.

[14] 姜洪權,王崗,高建民,等.一種適用于高維非線性特征數據的聚類算法及應用[J].西安交通大學學報,2017(12):1?8.

JIANG Hongquan, WANG Gang, GAO Jianmin, et al. A clustering algorithm for high?dimensional nonlinear feature data with applications [J]. Journal of Xian Jiaotong University, 2017(12): 1?8.

[15] 高菲菲.基于Gabor特征分解的高斯混合非線性濾波算法[J].科技通報,2015,31(12):88?90.

GAO Feifei. Gauss hybrid nonlinear filter design based on Gabor feature decomposition [J]. Bulletin of science and technology, 2015, 31(12): 88?90.

猜你喜歡
數據采集
Web網絡大數據分類系統的設計與改進
CAN總線通信技術在電梯監控系統中的應用
基于大型嵌入式系統的污水檢測系統設計
社會保障一卡通數據采集與整理技巧
基于AVR單片機的SPI接口設計與實現
CS5463在植栽用電子鎮流器老化監控系統中的應用
大數據時代高校數據管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
鐵路客流時空分布研究綜述
基于廣播模式的數據實時采集與處理系統
軟件工程(2016年8期)2016-10-25 15:54:18
通用Web表單數據采集系統的設計與實現
軟件工程(2016年8期)2016-10-25 15:52:53
主站蜘蛛池模板: 国产在线啪| 91在线高清视频| 亚洲人人视频| 国产成人精品18| 亚洲精品卡2卡3卡4卡5卡区| 日韩中文无码av超清| 亚洲欧美日韩天堂| 国产h视频在线观看视频| 欧美日韩精品一区二区在线线 | 精品视频第一页| 免费jizz在线播放| 91麻豆久久久| 欧洲成人免费视频| 午夜福利免费视频| 亚洲婷婷在线视频| 亚洲av片在线免费观看| 国产精品美女免费视频大全| 国产中文一区a级毛片视频| 18禁黄无遮挡免费动漫网站| 亚洲第一页在线观看| 亚洲自偷自拍另类小说| 少妇精品在线| 女人毛片a级大学毛片免费| 国产情侣一区二区三区| 亚洲综合婷婷激情| a网站在线观看| 日韩乱码免费一区二区三区| 激情视频综合网| 国产1区2区在线观看| 中文字幕有乳无码| 日本黄色a视频| 久久国产成人精品国产成人亚洲| 亚洲欧美天堂网| 精品免费在线视频| 日韩无码黄色网站| 夜夜操国产| 热久久综合这里只有精品电影| 99热这里只有成人精品国产| 麻豆国产在线观看一区二区 | 亚洲日本一本dvd高清| 欧美成人精品高清在线下载| 亚洲精品无码日韩国产不卡| 成年免费在线观看| AV色爱天堂网| 鲁鲁鲁爽爽爽在线视频观看| 欧美综合一区二区三区| 在线观看亚洲精品福利片| a网站在线观看| 色综合综合网| 一级一级特黄女人精品毛片| 日韩欧美高清视频| 国产精品片在线观看手机版| 成人久久精品一区二区三区| 伊人色在线视频| 国模在线视频一区二区三区| 直接黄91麻豆网站| 亚洲毛片一级带毛片基地| 香蕉久久永久视频| 国产经典三级在线| 亚洲免费福利视频| 精品欧美一区二区三区久久久| 手机精品视频在线观看免费| 无码网站免费观看| 国产高清在线精品一区二区三区 | 国产成人高清精品免费软件| 久久网欧美| 国产一区二区三区在线精品专区| 国产精品三级专区| 亚洲天堂久久久| 亚洲 成人国产| 欧美自慰一级看片免费| 国产精品欧美在线观看| 精品久久久久久久久久久| 最新午夜男女福利片视频| 亚洲第一色网站| 亚洲水蜜桃久久综合网站| 一级毛片视频免费| 日韩成人在线视频| 一本一道波多野结衣av黑人在线| 色哟哟色院91精品网站| 国产在线精品人成导航| 在线欧美国产|