周思源++劉佳雨++陳佳宜++任越++竇萬峰
摘 要公共交通已成為市民出行的重要交通工具,分析研究公共交通客流數據并對相關規律進行分析,有助于掌握市民出行規律,并依此優化城市公交網絡。在已有聚類分析方法的基礎上,本文基于公交IC卡刷卡數據的多個類聚點,提出一種通過GPS定位、乘客“閉環”出行、以及出行規律等條件,對已聚類點進行上車站點的匹配和下車站點判斷方法。利用公交IC卡數據可得到滿意地匹配和推斷上、下車站點,為研究大規模出行規律提供基礎。
【關鍵詞】公交IC卡 聚類分析 站點匹配
1 K-means聚類方法的局限與改進
K-means聚類算法是目前聚類算法中十分普遍常用的算法。K-means算法高效便捷、簡單快速,但是在實際的操作中我們不難發現,K-means算法在確定初始K值、初始凝聚點確定等問題上仍存在很大的不確定性。加之K-means算法采用歐幾里得距離最為相似性度量的依據,而歐幾里得距離僅適用于分布均勻且呈類球形的數據,實際使用過程中會出現很多問題,為此,我們對K-means聚類算法提出了改進。
該算法對兩個數據之間的距離進行測量。當兩個數據之間的距離較遠時,結果值較大;完全一致時結果值為0。m作為不同簇的生成值中心點,n作為等待劃分點。當等待劃分點與中心點距離接近時,兩個值的差距較小,即K-means值越小;當等待劃分點與中心點一致時,K-means值則為0。作為K-means聚類方法的改進,該算法也可用于其他類型的數據。其公式可表示為:
其中,mj代表第j類的生成值中心點,ni代表第i個等待劃分點。該公式的使用條件是mj和ni為非負數。當和中不全為正數時,令
。當mj與ni距離越大時,的值越大。
2 上車站點匹配
已知研究的公交線路有m個站點,利用上述方法可將實驗數據聚類成n個點。通過比較n與m之間的關系,可以將已類聚的點與對應車站進行匹配。在聚類方法正確的情況下,將不會出現m
2.1 利用GPS數據匹配上車站點的方法
該方法將GPS數據與公交IC卡數據進行混合處理,通過公交車輛在不同站點的行駛時間與乘客的刷卡時間進行比對,從而將地理信息位置和乘客的上車站點進行匹配。在基于GPS技術的公交站點匹配上由于GPS數據存在延時性,即非實時數據,因此與公交車輛的實時地理位置存在一定偏差,需要量化兩者的時間偏差,由于不同的公交系統GPS數據延時不同,本文對該偏差不予以考慮。
匹配步驟如下:
步驟1:獲取同一聚類點下乘客刷卡的交易時間,依據不同乘客的刷卡時間,確定一個可以代表此批次乘客刷卡時間的特征時間點。
步驟2:將步驟一中獲得的特征時間點與對應線路、車輛的記錄時間進行匹配,獲取該時刻下的經度與緯度。
步驟3:將步驟二中獲得的坐標與對應公交線路的坐標進行匹配,求得對應公交線路中直線距離最小的公交站點。
步驟四 求得直線距離最小的車站,即為該聚類點匹配的上車點。
2.2 不利用GPS數據匹配上車站點的方法
由于日常生活中存在交通擁堵或者某站點沒有乘客上下車等問題,因此根據居民的出行規律將公交線路在不同站點的時間間隔進行劃分。根據實際調研及相關數據處理,以南京市棲霞區為例,獲得該區域內交通高峰調查結果如表1所示。
同時,將大量實際調研數據進行分析,可以推斷出公交車相鄰兩站運行時間間隔的閾值,部分調查結果如表2所示。
主要處理步驟如下:
步驟1:依次將聚類得到點按時間順序與已有站點匹配,并依據表1中信息判斷時間是否屬于高峰時段。
步驟2:在表2中尋找其相鄰兩站運行時間閾值。若小于閾值,則代表兩站相鄰;若大于閾值,則代表“跳站”行駛。
步驟3:以此類推,完成所有站點的匹配。
2.3 “閉合”公交出行線路下的下車站點推算
所謂的“閉合”出行線路,是指某乘客某次出行經過多次公交換乘后的起止點均為同一地點,且換乘過程中連續。圖1表示該乘客某次出行乘坐公交的過程為從A點連續換乘5次公交依次到達B點、C點、D點、E點并返回至A點的過程。
在這種情況下我們可以發現,每次乘坐公交的上車點與上次乘坐的下車點距離極近甚至重合。由此,我們可以在推算下車站點時,可以通過下一次乘坐記錄的上車點位置得出結論。從數據需求的角度,一方面,我們需要前期收集某城市的公交站點位置、車輛線路(來與回的同路公交線路標注不同的線路號,包含停靠站點及相應方向的上下游位置)等信息;另一方面,我們需要通過IC卡號查詢出某乘客當日的所有上車信息,包括站點位置、上車時間、車輛線路號等。
“閉合”線路判斷條件:對某乘客當日的所有上車站點根據時間排序后,對于每一次上車信息,都滿足下一次上車站點在此次上車線路號包含的某一個下游站點附近。
根據單次“閉合”線路的推算并推廣到多次,我們可以進一步分析出此種出行線路是否具有長期性規律。
2.4 非“閉合”公交出行線路下的下車站點推算
所謂的非“閉合”線路,是指某乘客某次出行乘坐的公交線路不滿足上一部分中“閉合”線路的要求,如圖2。該圖表示該乘客某次出行從A點換乘4次公交依次到達B點、C點、D點、E點,最后采用其他交通方式,返回至A點的過程。
在這種情況下,我們很難用上一節中的方法進行推算。由于居民長期的公交出行線路較為穩定,因此我們可以進一步分析該乘客多日的出行線路,嘗試得出規律。
通過對比相鄰幾次的出行數據,我們可以在非“閉合”線路的斷點(如圖2中的E點)前找到同一上車站點信息(如圖2中的D點),并尋找不同線路中是否存在下一個上車站點能滿足閉合線路中的判斷條件。若能找到,則此乘客在這條線路上有規律性的長期出行,可將非閉合線路轉化為閉合線路進行進一步研究。若不能找到,則此乘客在這條線路上的出行不具有規律性,則丟棄此次出行的相應數據。
3 結論與展望
在基于公交IC卡大數據分析的居民出行行為研究中,我們在前人研究出的關于站點K-means聚類算法的基礎上,對居民上下車時間進行了聚類運算,并對如何進行上下車站點的匹配做了更完備透徹的解釋。我們將上車站點的推算分成了2種情況進行討論,而推算出了上車站點后,我們可以借此對下車站點進行進一步推測,分為了閉環出行和非閉環出行以及規律出行和非規律出行相互交錯的4種情況進行了討論。
隨著大數據時代的到來和發展,如何正確處理種類繁多、數量龐大的數據信息,并從這些信息中篩選出有用的信息從而更好地為社會發展提供堅實的基礎成為了目前亟待解決的話題和任務。而目前,公共交通事業飛速發展,智能交通的概念愈發深入人心。在這樣的發展趨勢下,我們不能只停留在公共交通事業蓬勃發展的表面現象上,而是應該推測和總結出大量的公共交通數據背后的信息,推斷居民出行規律,并結合城市的經濟狀況、城市規劃、地質特點、氣候特征等因素合理優化公共交通線路,同時應用于公共交通車輛調度的過程中,改善城市出行狀況,改善公共交通管理制度,提升公共事業管理水平,為建設智能城市做出貢獻。
參考文獻
[1]沈吟東,張仝輝,徐甲.基于K-means聚類算法的公交運營時段分析[J].交通運輸系統工程與信息,2014,14(02):87-93.
[2]陳紹輝,陳艷艷,尹長勇.基于特征站點的公交IC卡數據站點匹配方法研究[J].北京工業大學學報,2012,38(06):885-889.
[3]陳紹輝,陳艷艷,賴見輝.基于GPS與IC卡數據的公交站點匹配方法[J].公路交通科技,2012,29(05):102-108.
[4]叢曉潔.基于IC卡和GPS大數據的公交客流分析[C].2015年中國城市交通規劃年會暨第28次學術研討會,2015.
[5]陳孟柯.基于公交IC卡數據的公共交通客流分析——以南京為例[J].科技視界,2016(22):157-158.
作者簡介
周思源(1995-),男,河北省滄州市人。南京師范大學計算機科學與技術學院2014級本科生,信息管理與信息系統專業。
劉佳雨(1996-),女,江蘇省鎮江市人。南京師范大學計算機科學與技術學院2014級本科生,信息管理與信息系統專業。
陳佳宜(1996-),女,山東省東營市人。南京師范大學計算機科學與技術學院2014級本科生,信息管理與信息系統專業。
任越(1996- ),女,天津市人。南京師范大學計算機學院2014級本科生,信息管理與信息系統專業。
竇萬峰(1968-),男,陜西省永壽縣人。南京師范大學計算機科學與技術學院管理科學與工程系教授,博士研究生導師。
作者單位
南京師范大學計算機學院 江蘇省南京市210023