羅 茜,熊 文
(云南師范大學 信息學院,云南 昆明 650500)
客流分析是公共交通系統運營的基礎。準確獲取乘客出行鏈是完善公共交通系統建設的重要前提。但由于公交乘客只需在上車刷卡,下車無需任何操作,所以客流分析者很難通過刷卡記錄直接得知乘客的下車站點。
目前獲取乘客下車站點的方法主要有人工采集法、自動計數設備采集法、基于乘客消費數據推算方法等。前兩種方法效率較低、誤差較大,研究者們常用的是推算方法。Huang D[1]提出了一種利用智能卡和GPS數據估計OD矩陣的方法,根據公交出行鏈的特點推斷出乘客下車站點;李佳怡[2]提出公交出行節的概念,并將其劃分為連續或斷裂來分析乘客出行鏈類型以推斷下車站點;崔紫薇[3]用出行鏈方法推算的下車站點記錄作為歷史出行數據集,從歷史數據的生成和選擇兩方面進行考慮,以此方法推算了更多的下車站點;劉曉[4]基于整體出行規律和基于個體出行規律,提出下車站點推導算法。
本文根據乘客IC卡記錄、車輛GPS軌跡數據、車輛排班信息,提出一種基于出行鏈分析方法來推算公交乘客下車站點。首先,本文利用時間匹配方法識別乘客上車站點,然后根據乘客歷史刷卡數據構建出行鏈,分析出行鏈特點并分類推算各次的下車站點,最后以實例檢驗方法有效性。
乘客IC卡數據沒有記錄站點名稱,所以需要先識別出乘客的上車站點。上車站點可根據時間匹配的方法獲取,該方法將上車記錄中的時間與所在車輛進出站時間做對比,時間差最小的站點為乘客的上車站點。在車輛調度數據缺失的情況下,本文將上車時間匹配至差值最小的GPS記錄,獲取乘客的具體位置,匹配最近的站點為乘客上車站點。
一般地,公交乘客的出行鏈主要概括為3種,如圖1所示。

圖1 乘客公交出行鏈分析
圖1(a)中乘客的出行以“公交+公交”方式構成閉合出行鏈,始末點均為公交出行。該情況符合學生、上班族等群體的出行行為。
圖1(b)中乘客的出行以“公交+非公交+公交”方式構成閉合出行鏈,即始末點均為公交出行,但乘客在中途以非公交形式發生移動。該情況符合組合出行的規律性乘客。
圖1(c)中乘客的出行以“公交+非公交”方式構成開放出行鏈,即只知在起點乘坐公交,后續行程無法了解,該情況多為隨機出行。
閉合的公交出行鏈具有較強的時空規律性,可根據乘客出行規律判斷下車站點。開放的公交出行鏈具有較強的隨機性,需根據站點自身吸引強度判斷乘客下車站點。
對于閉合的出行鏈路,當后一次出行的上車站點位于前一次出行上車站點的下游,或距離下游小于閾值(通常設為1 km),本文認為乘客此次是規律出行,前一次出行的下車站點為后一次出行的上車站點。
對于開放的出行鏈路,由于站點自身具有吸引屬性,本文認為在上車站點的下游中,某站點吸引強度越大,乘客在此站下車可能性越大。站點吸引強度可用該路線各站點的上車人數表示,計算公式為:
(1)
式中,P表示站點吸引強度,N為站點的上車人數,k為該路線站點總數。
推算流程如圖2所示。

圖2 下車站點推算流程
由于公交乘客的整體出行在各路線上下行的客流量基本持平,存在線性關系:
(2)
式中,N表示站點客流,a、b為回歸系數。當a越趨近于1時,該路線各站點上下車客流量越持平。檢驗該方法的數據采集由于自動售檢票系統(AFC),利用無線技術傳輸于后臺服務器中,包括廣州市2021年7月的199萬條刷卡記錄、537萬條車輛排班信息、7 260萬條GPS記錄。
隨機選取3條路線進行實驗,在MATLAB軟件上以各個站點的上下人數據建造矩陣,求得各路線參數如表1所示。參數a值均趨近于1,參數b值略有浮動但差距不大,說明該路線上下車客流量基本持平,本文的方法具有可靠性。

表1 各路線參數
如表2所示,乘客****2913連續兩天在836路的不同方向上車,屬于規律出行者,故南洲北路站和東坑站互為該乘客出行的始末點。乘客****2794只有單次乘車記錄,屬于隨機出行,經計算可知在下游站點中吸引強度最大的站點是白云區醫院站,因此推算該乘客此次出行的下車站點為白云區醫院站。

表2 上下車站點推算
為推算乘客下車站點,本文基于海量的公交大數據,構建乘客出行鏈,并分析3種出行方式,滿足了多場景下的預測需求。以廣州公交為實例,本文的方法推算出80%以上不同出行鏈的乘客下車站點。
后續研究將考慮可能影響站點吸引強度的因素,并加入公交車內無線監控系統采集的數據驗證推算的準確性。