趙庶旭 董 亮
(蘭州交通大學電子與信息工程學院 甘肅 蘭州 730070)
?
城市交通GPS數據可視化分析
趙庶旭董亮
(蘭州交通大學電子與信息工程學院甘肅 蘭州 730070)
現階段城鎮化進程的不斷加快和機動車數量的急劇增加導致道路交通壓力不斷增大,急需對產生的大量交通數據進行分析來指導市政道路規劃和提高城市管理水平,從繁雜的交通數據中發現城市運行的規律。但交通數據具有海量,高維等特點,對其分析具有很大的難度。提出的可視化方法是解決該問題的有力手段,基本思想為通過一系列自動分析算法處理大數據和人腦對圖像等可視化圖形的先天認知優勢,可以從海量復雜的數據中去偽存精,進而對關注的主題改進分析模型,最后獲取結論。以山東省淄博市車輛GPS數據作為樣例,首先對相關數據進行預處理,然后利用匹配技術還原車輛在道路上特定時刻的狀態,再運用聚集計算等技術將車輛運行狀態轉化為道路通行信息,最后通過可視化界面呈現道路的交通運行情況。結果表明,該可視化方法能夠反映淄博市道路通行狀況。
可視分析GPS大數據聚類分析匹配算法交通數據
隨著城市交通和定位技術的不斷發展,車流量、人流量不斷增加所帶來的大量軌跡數據呈現爆炸式增長,如何在這些錯綜復雜的數據中歸納出對城市交通發展具有輔助支持意義的信息和規律,對于城市道路交通規劃具有重要意義[1]。本文可視化方法重點反映了在海量軌跡數據和人對多維數據有限認知的局限性這對矛盾中尋找平衡,即如何在有限的空間范圍內盡可能多地展示軌跡數據當中的各個維度,幫助用戶在探索和分析大量數據中看到數據的全貌,很大程度上在發現數據當中隱含的知識時對數據有一個全面的分析,提高人在可視分析中總結出正確的規律和知識。
國內外對于軌跡數據的可視化已經有很多成果。Tobler等[2]研究了流向圖,并繪制了美國的人口1965年-1970年間的遷移地圖,其中邊的方向用箭頭表示,由于箭頭造成了邊遮擋嚴重而進行了改進,采用不同的箭頭畫法,并提出過濾掉一些流量小的邊,來減小邊的遮擋。Kapler等[3]開發的可視化軟件GeoTime可以展示軌跡的各個屬性并能跟蹤涉及某一屬性的事件,采用x、y、z三條軸分別表示軌跡的各個屬性的三維視圖設計,這種方法在不失對軌跡空間屬性展示的情況下引入了時間屬性,對充分地利用軌跡數據提供了幫助。
2.1地圖匹配過程
在進行所需要的軌跡可視分析之前,軌跡數據需要重建與校準[4],然后對軌跡的各個屬性:空間屬性、時間屬性和其他相關屬性進行可視化。地圖匹配技術是一種利用路網信息對原始的軌跡數據進行修正的方法,其基本思想將一連串車輛位置與電子地圖上的道路網絡進行比較并由此確定車輛相對于地圖的位置。該過程主要包括對軌跡的重建、清洗、存儲等。
通常接收到GPS數據,精度較差、信號丟失嚴重、數據量大,本文中的數據采樣間隔時間長(2 min),屬于低頻采樣數據。低頻采樣數據的特點主要表現為在地圖匹配時,單條鏈路上匹配不到GPS 位置數據的可能性增大,導致相鄰GPS點所匹配的鏈路不能直接連通,從而極大地增加了車輛軌跡的確定難度。相應地,低采樣率GPS數據匹配算法[5]對前后軌跡點位置距離較遠、難以弄清車輛具體行駛路線的路段和對一些復雜的城市路段(主輔路平行路段)的匹配引入了路網拓撲信息,使該算法更適合于此類情況。另外,由于車輛定位的誤差,GPS 點同時投影在相鄰路段的概率增加,很難確定車輛的行駛軌跡在哪一條道路上,此算法在處理這種問題時也具有匹配精確度高、計算時間短的特點。為此,本文采用該算法還原GPS數據。

d=2πRγ/36
(1)

(2)


(3)

(4)

(5)

輸入路網數據G,GPS數據(p1→p2→…→pn)
Step1初始化候選路徑列表。
Step2將位于以點pi(1≤i≤m) 為中心、半徑為r的圓形誤差域內結合上述公式計算pi的候選鏈路,直到m個點全部完成。
Step3將符合條件的節點添加至G′(V,E)候選路徑列表。
Step4得到候選路徑集合,經過計算出的觀察值可能性和最短路徑約束得到最佳匹配路徑G′。
2.2軌跡聚類過程
可視分析[6]旨在利用人的先天感知能力發現數據背后的知識。在這之前,軌跡數據中各個參數要通過一系列的自動算法將其語義展示為用戶所理解的方式,如行為特征。在用戶分析過程中,較低等級的分析任務如過濾、篩選和規則都可以利用編程處理,降低用戶的負擔。而聚集分析[8]作為數據挖掘的重要方法,可以將數據按照一定的指定規則來進行劃分。目前對軌跡數據的聚類分析主要是對整條軌跡空間上進行聚類或者根據用戶指定的目標將軌跡數據的某個維度信息進行聚類。

輸入分割好的軌跡段集合D={L1,L2,…,Lnumln},參數ε1、ε2、MinLns。
輸出類簇集合O={c1,c2,…,cnumclus}。
For each(L∈D)do{
If(Lis unclassified)then
ComputeNε1,ε2(L);
Assign clusterID to ?X∈Nε1,ε2(L);
ExpandCluster(Q,clusterID,ε1,ε2,MinLns);
Increase clusterID by 1;
Else MarkLas noise;}
check the clusters cardinality;

圖1 確定關鍵點
3.1GPS數據預處理
本文使用GPS軌跡數據和路網數據作為輸入來計算和分析交通擁堵。GPS軌跡數據包括了許多軌跡點。每條軌跡包含一連串采樣點。每一個采樣點含有車輛IP標識、位置記錄(經度,緯度)、時間、速度,當前瞬時方向角、回傳時間和一系列隨機屬性(α0,α1,…,αn-1)。這些采樣點是通過時間序列排出的。兩個連續的采樣點之間的每個區域叫作一個軌跡段。GPS異常數據主要包括定位點漂移錯誤,車輛在加油站、停車場等的無用信息,傳輸信號和盲區引起的GPS數據缺失。本課題所采用的是山東省淄博市及周邊2014年1月8日1:30~24:00的部分車輛GPS數據。部分GPS樣例數據如表1所示。由于GPS數據屬于采樣數據,在本例中約為1~2分鐘發回一次,必然導致在采樣過程中存在各種誤差,所以本文設置了幾組過濾條件(F1~F5)對數據中噪聲數據進行剔除。條件設置如圖2所示。

表1 本文部分GPS數據

圖2 過濾條件設置
3.2路網數據預處理
定制化地圖目前在互聯網上已有較成熟的應用,本文使用OpenStreetMap[9]開源地圖工具,它允許用戶通過API接口定制個性化地圖。路網數據從該數據庫提取(路網范圍為N36°~N37°,E117.7°~E118.4°),不僅包含高速公路,而且包括水道、建筑等。因此,在這里使用編輯工具(Potlatch)首先提取可行駛道路的數據。處理遵循以下幾點:1) 過濾掉不連接到主要路網的小公路并確保所有道路連接在一起。2) 兩條定向道路之間是明確和單向的關系。3) 要求每條道路的長度小于50公里,保證空間分辨率。
3.3算法實現
3.3.1地圖匹配
針對本文所采用的低采樣率GPS地圖匹配算法。首先作如下定義和約束:1)GPS軌跡段L是由一系列隨著時間間隔的連續的GPS軌跡點組成,規定這些點的采樣間隔不超過閾值(ΔT≤10min)。即L:p1→p2→…→pn,pi∈L。ΔT是采樣點時間間隔。本文采用低采樣率GPS浮動車數據,時間間隔為1~2 min;2)空間分析不僅考慮單個GPS點和該點候選路段的距離,還考慮了道路網的拓撲信息。為了避免出現環繞的路徑,我們采用最短路徑來測量每個候選路徑和“真正”路徑的相似性。考慮到本文GPS誤差和路網寬度,將誤差半徑設定為50 m。


表2 候選路段
3.3.2聚集分析
結合前面的算法過程,本實驗將6個參數dmin、dmax、αmax、ε1、ε2、MinLns設定5組不同的值來觀察計算時間、軌跡分段數目和聚類數目。分別為:(1)αmax=160,ε1=4.4,ε2=45,MinLns=35,dmax=dmin+1;(2)ε1=4.4,ε2=45,MinLns=35,dmax=6,dmin=3;(3)αmax=160,ε2=45,MinLns=35,dmax=6,dmin=3;(4)αmax=160,ε1=4.4,MinLns=35,dmax=6,dmin=3;(5)αmax=160,ε1=4.4,ε2=45,dmax=6,dmin=3;結果如表3-表7所示。

表3 參數為(1)時算法的運行時間、軌跡段和聚類數目

表4 參數為(2)時算法的運行時間、軌跡段和聚類數目

表5 參數為(3)時算法的運行時間、軌跡段和聚類數目

表6 參數為(4)時算法的運行時間、軌跡段和聚類數目

表7 參數為(5)時算法的運行時間、軌跡段和聚類數目
由上述的實驗數據可以發現:dmin增加,聚類結果增加;αmax增加,軌跡段數目增加;ε1、MinLns結果影響聚類結果簇的數目;ε2越大,軌跡段數目和類簇數目減小[10]。綜上,設定參數(4)作為該算法的參數輸入,設定該參數時,可以保持37%的數據變化,降低了部分路段小部分數值的頻繁變化而影響整個的聚類結果[11]。
本文的實驗環境包括R i386 3.1.3,Windows 7,CPU(CORE 2 DUO 2.2 GH),內存 2 GB。R語言編寫算法和設計可視化界面,軌跡數據存儲在MYSQL的數據表中,JOSM(JAVA OPENSTREETMAP)提供修正后的路網數據。GPS數據集采用山東省淄博市2014年1月8日1:30~24:00的車輛GPS數據,數據量約為21 000條??梢暬脩艚缑嫒鐖D3所示。數據匹配至地圖再進行聚集計算,在圖中顯示1:30~24:00路網上的平均路況。

圖3 可視化界面
基于上述不同時段可視化界面的分析和淄博市城市發展結構特點,該城市是由周村區、張店區、臨淄區、恒臺縣等幾個區域構成,作為淄博市最為繁華的周村區和臨淄區,交通流量較大。我們也根據文獻[12]和文獻[13]的交通擁堵評價標準對當天該城市的平均路況進行量化分析,采用的參數依據上述文獻。此實驗所涉及的路段包括有453條,在這些路段選取中平均選取3000個坐標點繪制平均路況圖來反映道路通行信息,圖4反映全時段總體的平均路況;其中包括早高峰和晚高峰。
綜合上述仿真可以看出,張店區魯泰大道往西、世紀路全段、中潤大道,以及毗鄰金晶大道的周邊路段的平均路況不佳,車流的速度僅僅持續在10~15 km/h左右,堵車現象較為嚴重。此外,從路況的時間分布中可以看出兩個峰值和三個谷值,在3:00~6:00時,路況較好;6:00~9:30左右,路況變差且一直到1:00左右逐漸緩和;在2:00左右,路況持續變差并達到峰值;在18:00以后,路況逐漸好轉。

圖4 采樣點平均路況
最后,在可視界面中發現連通張店區和臨淄區的濟青高速相比其他單條道路的車流量都要大,而且在該路段上的車流保持了60~100 km/h速度,這條高速公路為分流車流和加強兩個區之間的聯系起到了很重要的作用。在允許的情況下可以在兩個區之間建設多條城際道路,面對城區間聯系的日益加劇,可以更好地迎合不斷增加的城市交通壓力。如果一條道路發生交通狀況無法使用,另一條道路可以繼續起到緩解交通和承擔樞紐的作用,不至于由于該路段的影響而造成連環的市區堵車效應。
為了證明本文的可視化相關技術方法的優勢和全面性,在此與目前主流的處理時空數據的可視化方法-流式地圖[14]進行對比。為清晰反映出兩種可視化方法的差異,在此使用與上述實驗相同的GPS數據,采用流式地圖的可視化機制對浮動車數據進行仿真,其中所包括的定義與參數遵循文獻[14]。仿真結果如圖5所示。從本仿真可以看出:(1)圖中車流量較大的臨淄區出現了軌跡相互重疊的現象,路網中線條越粗越密則反映該條道路上的軌跡數據越大,對該區地圖放大也不能分辨具體道路的車流變化情況,對于分析者了解和總結路網運行規律有很大的困難;(2)流式地圖在面對海量的軌跡數據時,這種可視化方案往往可能會出現軌跡相互覆蓋和交叉,當數據量進一步增加時軌跡將會填充整個地圖,最終呈現的可視化效果使得用戶難以分辨和總結繁雜數據中的交通運行規律。此外,當用戶對研究的問題比較陌生時,數據量的過多展現可能會導致用戶分不清哪些問題是要被忽略的,進而對所關注的主題產生干擾,影響可視化模型中用戶反饋調整分析模型這一步驟的準確性。本文提出的可視化方案以圖3的可視化界面和圖4的統計圖相結合的方法,在展現車輛運行狀態的同時總結出交通運行中出現的問題,這種可視化方法使用戶在觀察和分析的過程中既可以定位局部也可以從宏觀角度發現規律。

圖5 采用流式地圖方法的可視化界面
隨著社會高速發展和交通數據(如GPS 數據)的大量產生,對這些數據的處理工作是一項挑戰。本文主要敘述了在面對大量錯綜復雜的軌跡數據時所采用的可視化方案,通過地圖匹配和聚集計算等一系列自動算法將我們需要的數據很好地呈現在了分析者的面前,通過分析者對問題本質的認識逐漸深入,可以不斷地改進以前的分析模型,將我們所不知道的隱含結論一步步挖掘出來。高效的自動算法還需要直觀的可視化,本文的可視化方案呈現還原到當時的場景中,便于從現象中發現本質。未來會有更多高維繁雜的軌跡數據產生,分析的難度將會進一步加大,可視分析無疑是解決此類問題的有效手段。
[1] 王祖超, 袁曉如. 軌跡數據可視分析研究[J]. 計算機輔助設計與圖形學學報, 2015(1):9-25.
[2] Tobler W. Experiments in migration mapping by computer[J].Cartography and Geographic Information Science,1987,14(2):155-163.
[3] Kapler T,WrightW.GeoTimeinformationvisualization[J].Information Visualization,2005,4(2):136-146.
[4] 周保興.GPS數據預處理方法研究及其應用[D].南京:河海大學,2005.
[5] 姚恩建, 左婷. 基于低頻浮動車數據的實時地圖匹配算法[J]. 北京工業大學學報, 2013,39(6):2-4.
[6] 蒲劍蘇, 屈華民, 倪明選. 移動軌跡數據的可視化[J]. 計算機輔助設計與圖形學學報,2012,24(10):1273-1282.
[7] 馮少榮, 肖文俊. DBSCAN聚類算法的研究與改進[J]. 中國礦業大學學報, 2008,37(1):105-111.
[8] Lee J G, Han Jiawei. Trajectory Clustering: A Partition-and-Group Framework[C]//Proceedings of ACM’s Special Interest Group on Management of Data. Beijing, China: [s. n.], 2007.
[9] 陳舒燕. 基于OpenStreetMap的出行可達性分析與實現[D].上海:上海師范大學,2010.
[10] Chetverikov D, Szabo Z. A Simple and Efficient Algorithm for Detection of High Curvature Points in Planar Curves[C]//Proceedings of the 10th International Conference on Computer Analysis of Images and Patterns. Groningen, The Netherlands: [s. n.], 2003.
[11] 李桃迎.交通領域中的聚類分析方法研究[D].大連:大連海事大學,2010.
[12] DB11/T785-2011城市道路交通運行評價指標體系[S].北京:北京市質量技術監督局,2011.
[13] 祝付玲.城市道路交通擁堵評價指標體系研究[D].南京:東南大學,2006.
[14] Scheepens R, Willems N, Van de Wetering H, et al. Composite density maps for multivariate trajectories[J].IEEE Trans. on Visualization and Computer Graphics,2011,17(12):2518-2527.
VISUALISATION ANALYSIS ON URBAN TRAFFIC GPS DATA
Zhao ShuxuDong Liang
(SchoolofElectronicandInformationEngineering,LanzhouJiaotongUniversity,Lanzhou730070,Gansu,China)
At the present stage the ever-acceleration of urbanisation process and the sharp increase in vehicle numbers persistently aggravate the traffic pressure, there is an urgent need to analyse a large number of the generated traffic data for guiding the municipal road planning and improving the level of city management, and to found the laws of city operation from miscellaneous traffic data. However there is great difficulty in traffic data analysis, because the data has the features of mass and high dimensionality. The visualisation approach proposed in this paper is a powerful tool for solving the problem. Its basic idea is that through a series of automatic analysis algorithm to deal with big data and the inherent cognitive advantage of human brain in visualised graphics such as images, it is able to exclude the fakes and retain the essences from massive complex data, and then to further improve the analysis model of the focused theme, and finally to get the conclusion. In this paper we use the vehicle GPS data as the sample data, which are collected from Zibo city of Shandong province. We operated the pre-processing on relevant data first, and then used the map-matching algorithm to restore the status of vehicles on the road at a particular moment. After that we applied the technology of clustering computation to convert the vehicle running status to the road traffic information, and finally presented the road traffic operation situation through a visual interface. Results showed that this visualisation method can reflect the traffic status in Zibo city.
Visual analysisGPS big dataClustering analysisMap-matching algorithmTraffic data
2015-07-19。蘭州交通大學科技支撐計劃項目(ZC2013 012)。趙庶旭,教授,主研領域:交通信息工程及智能控制。董亮,碩士生。
TP391.9
A
10.3969/j.issn.1000-386x.2016.10.062