周晨陽 張國棟 文舜智 劉 川 歐陽錦燦
(浙江數智交院科技股份有限公司,浙江 杭州 310030)
公共汽車作為縣城公交系統的重要組成部分,對公交GPS和IC卡數據進行研究得到乘客出行的需求與規律,為公交線路規劃調整、運營管理提供數據支撐[1-3]。推測公交下車點可以了解公共交通需求變化特征。針對公交下車點推算的研究較多。Farzin[4]通過整合公交GPS數據估算乘客出行的上下車位置,構建區域公交OD矩陣。Vu等[5]構建了一個用于用戶聚類和目的地預測的樸素貝葉斯分類器。Chen等[6]利用智能卡數據比較了倫敦、北京和新加坡的異質性和多樣性,討論不同時空尺度的變化。Eh等[7]從城市、分析方法、輸出結果等方面對使用IC卡數據估計公共交通OD進行了綜述。Yan等[8]通過制定往返、換乘原則識別出行的用戶,利用樸素貝葉斯分類器完成下車點識別。綜上所述,公交下車點推斷主要有兩種識別方法:一是基于出行鏈,該方法邏輯簡單,適用于小樣本且具有明確應用場景的數據;二是基于機器學習,需要有大量數據支撐,適用于出行鏈規則不明確的應用場景。文章以浙江省某縣為例展開研究,該縣公交線網結構清晰,居民公交出行行為、出行鏈及活動模式異質性較低,可采用基于規則的識別方法推算公交下車點,對推算結果進行客流特征分析。
基于2020年9月1日—11月30日浙江省某縣的公交GPS數據和IC卡數據展開。區域總面積2 539 km2,2020年常住人口19.4萬人,有19條公交線路,209個公交站點。本文使用的公交GPS數據約2 000萬條,IC卡數據約37.3萬條。根據該縣2020年公交乘車類型分布調查,9—11月乘車人次共計約41.8萬人,IC卡(含客票、月票、公交云)占比為89.5%,該縣公交IC卡普及率較高,因此使用IC卡數據進行下車點推斷及客流出行特征挖掘具有一定代表性。
各乘車類型數量分布如表1所示。

表1 各乘車類型數量分布
將公交GPS數據和IC卡數據匹配,通過將IC卡數據匹配對應車輛指定時間段內的GPS數據,得到站點上客記錄表,通過融合時空信息和概率方式的兩階段模型推算下車點。基于出行鏈時空約束的推算模型:先基于時間和位置推算,對每個上客站點,找到下個刷卡時間站點,當前線路中與其最近的站點即為下客站點;基于概率的推算模型:面向非通勤出行的公交記錄,且時空約束推算模型失效情況下,選擇用戶在當前線路上客頻率最高的站點作為下客站點。
經典出行鏈包含兩點基本假設。同一出行者行程連續,即前一段行程下車點和接續行程上車點在時空上相近;同一出行者單日出行鏈閉環,單日行程結束時返回當日出發站點。文章構建了基于時空約束的出行鏈假設以保證推斷過程的準確性。根據同一用戶出行記錄判斷用戶“往返”“同站換乘”“異站換乘”3種類型出行記錄并打上標簽。針對同站換乘類型,檢查前后兩程是否滿足同站換乘時間上限來判別其有效性;針對異站換乘類型,只有同時滿足時間約束和空間約束時,記錄才有效。同站換乘和異站換乘的時空約束應該有所差異。
基于時空約束的出行鏈假設下車點推算模型如圖1所示。

圖1 基于時空約束的出行鏈假設下車點推算模型
上客記錄總數為n,對于第i條上客記錄ri(1 ≤i≤n),卡號為ci,刷卡時間為ti,所屬公交線路為l(共m個站點,站點集合Lm={l1,l2,…,lm}),點為SUi,要推算的下客站點為SDi,推算步驟為:篩選出卡號為ci,且與ri同日期,刷卡時間大于ti的上客記錄集,記為R;若R非空,則找到離推算上客記錄最近的一次上客記錄rj(j≠i,1 ≤j≤n),將rj的上客站點記為SUj,線路l中離站點SUj最近的站點作為推算的下客站點,時,滿足Distance(Sp,SUj)最小,則SDi=Sp。其中Distance(S1,S2)表兩個站點的距離;若R為空,則篩選出卡號為c且線路為l的所有上客記錄集,統計上客站點頻率,排除上客站點SUi后,由高到低排列為{S1,S2,…,Sm},則上客頻率最高的站點S1作為推算的下客站點,即SDi=Sp。每條上客記錄ri采用以上步驟推算下客站點,可得到站點上下客記錄表。面向彈性出行的第二階段推算模型較好地彌補了第一階段推測效率較低的缺陷。
兩階段下車點推算模型整體框架如圖2所示。

圖2 兩階段下車點推算模型整體算法框架
兩階段模型在整體下車點推算比例為96.6%,共計約25.5萬條。其中第一階段基于出行鏈時空約束的推算比例為41.7%,第二階段基于概率面向彈性出行的下車點推算比例為54.9%。
下車點推測各階段數量占比如表2所示。

表2 下車點推測各階段數量占比
在推得上下車站點記錄的基礎上,以4路為例,從站點上下客日人次、站點OD日人次、運距、客流等維度進行分析。4路各站點上下客量較大的人民醫院、官碧路口、平昌廣場西站點均為建設強度或居住密度較高區域。
4路站點上下客日人次如圖3所示。

圖3 4路站點上下客日人次
4路OD量的分布不太均衡,少數主要場所承擔了很大的OD量,如廣場、醫院、公園等,這些場所都有客流聚集的風險,原因可能是縣城用地規劃各功能分區的不協同性,在無形中增加了該縣公交的客流負擔。4路站點日均OD矩陣如圖4所示。

圖4 4路站點日均OD矩陣
1路、6路總運距最高,5路、6路平均運距最高,與1路、5路、6路途徑工業園區、公司、學校等有關,會產生大量通勤出行。各人次運距變化總體平滑,但前20%人次運距變化幅度較大,說明公交出行傾向于短途。各線路平均運距對比如表3所示。
3.2.1 高低頻客流分析
將月出行次數大于15次的乘客定義為高頻客流,反之為低頻客流。低頻客流的平均出行距離大于高頻客流,高頻乘客傾向于更短距離的出行。另外該縣20.9%的高頻用戶數貢獻了67%的客流量,表明少量高頻用戶承擔了大部分縣城公交出行,應當作為公交運營管理的重點關注對象。
高低頻客流特征對比如表4所示。

表4 高低頻客流特征對比
3.2.2 分時段客流分析
以10 min為間隔,分別統計工作日和休息日在各時間段的客流,如圖5、圖6所示。

圖5 工作日分時段客流變化趨勢
從總體客流量分布可知,3個月的客流時變趨勢基本一致,10月份因為國慶假期導致工作日客流少而節假日客流多;從各時段的分布上看,工作日和節假日均呈現出早高峰和晚高峰的特征,工作日更明顯且早晚高峰時間集中,說明工作日承擔了大量的通勤客流,休息日相對特征不明顯且時間比較分散,說明休息日承擔了大量的非通勤客流。
為了驗證規律對一般縣城的適用性,對浙江省其他2個縣(SY縣、LG縣)同樣使用二階段下車點推算模型及公交客流特征分析,以SC縣表示本研究案例縣城。
各縣基本情況如表5所示。

表5 浙江省各縣基本情況
由表5可知,人口、地區GDP和數據量上SC、SY兩縣接近,LG縣大于SC、SY兩縣,但LG縣區域面積較小,人口密度遠大于SC縣、SY縣,總體各縣人口規模處于同一數量級,具有可比性。
模型推算各縣部分客流結果數據如表6所示。

表6 各縣部分客流結果數據
兩縣的各項結果相近,SY縣高頻用戶和高頻流量比例都更高,共同規律是少量高頻用戶占了大部分客流量,低頻用戶的平均出行距離大于高頻用戶,工作日相比休息日平均出行距離略大、每日客流量更多,高頻用戶傾向于工作日出行,低頻用戶傾向于休息日出行。推算SY、LG兩縣的上下客日人次、站點OD量、運距指標,規律也與SC縣一致,說明SC縣分析得到的特征規律適用于一般縣城。
文章基于浙江省某縣2020年9—11月的公交GPS數據和IC卡數據,進行下車點推算及其應用,設計了融合時空信息和概率方式的兩階段下車點推算模型,得到該縣公交系統OD矩陣。從站點OD量、運距、客流等維度展開分析,得到規律基本符合實際縣城實際情況,采用同樣模型和方法對相似的縣城進行分析驗證,發現結論也適用于其他縣城,如各站點上下客量總體均衡,平時客流密集站點的上下客量較大;線路OD分布總體不均衡,少數場所承擔較大OD量;不同線路總運距和平均運距不同,各人次運距變化總體平滑,公交出行傾向于短途;工作日相比于休息日平均出行距離略大、每日客流量更多,高頻用戶傾向于工作日出行,低頻用戶傾向于休息日出行;工作日和節假日都呈現早高峰和晚高峰的特征。文章所設計公交下車點推算方法與站點OD、運距、客流等的規律特征,對縣城公交均具備一定普適性。文章也存在一些不足,主要體現在下車點推算方法上,對于刷卡頻率較低的乘客,難以通過基于時空信息和概率的方法推算,后續可以完善相關方法,或采用將規則與機器學習相結合的方法,對公交下車點進行更精準推算。