翁劍成涂 強袁榮亮王月玥
(1.北京工業大學交通工程北京市重點實驗室,100124,北京;2.北京市城市規劃設計研究院,100044,北京;3.北京市軌道交通指揮中心,100101,北京∥第一作者,副教授)
隨著智能公共交通系統的不斷發展及其技術突破,城市公共交通運行、服務等方面的動態數據持續積累,智能卡刷卡交易及車輛GPS(全球定位系統)位置等數據已形成了海量的規模。
基于良好的數據基礎,很多學者利用智能卡數據在公共交通用戶出行行為分析方面做了大量研究,主要包括出行者的出行起點/終點(OD)、出發時間、行程時間和換乘特征等方面。文獻[1]利用倫敦市的公交智能卡數據,研究了地鐵與其他公交系統換乘之間出行階段的連接時間閾值。文獻[2]基于韓國智能卡數據記錄信息,對乘客公共交通出行時間及換乘特征進行了分析。文獻[3]基于智能卡數據,提出了用于預測公共交通出行者的活動目的、出行地點、出行時間、持續時間的方法。文獻[4]利用刷卡數據揭示了深圳市通勤人群在出發時間、出行耗時、換乘特征等方面的規律。文獻[5]提出了基于智能卡信息采集技術的公交客流及出行信息的分析方法。文獻[6]提出基于多源數據的公共交通通勤出行特征提取方法,但通勤人群識別僅依據一周的出行頻次,可靠度較低。文獻[7]利用智能卡和問卷調查數據,建立了基于決策樹模型的通勤人群分類器,精度較高。
這些研究都是基于智能卡數據,以單次刷卡記錄為研究對象對公共交通出行者出行行為進行詳細分析。然而,在城市公共交通系統網絡化、出行模式多樣化的背景下,應重點解決換乘行為的判別問題,注重從“完整出行”的角度研究乘客的出行行為,以期更客觀、準確地描述出行者的出行特征與需求時空分布。此外,與非通勤人群相比,通勤人群在換乘特征、出行頻率等方面有明顯的差異性。現有研究在出行行為分析時缺乏對不同出行者的科學分類,無法確切表達通勤人群的出行特點與資源時空需求。
本文擬利用海量的智能卡交易數據,研究城市公共交通系統出行鏈的連接方法,并引入機器學習方法進行通勤人群判別,為實現公共交通出行行為的精細化分析提供技術支持,為城市公共交通規劃與管理提供更為準確的指導。
公共交通刷卡數據是進行出行鏈提取、出行者類型識別及出行行為特征分析的基礎,包含道路公交智能卡數據和城市軌道交通自動售檢票(AFC)系統刷卡數據兩種來源。
目前,城市軌道交通AFC系統主要用以記錄用戶卡號、進出站點編號及時間等信息。由于乘客在軌道交通網絡內部換乘時不需要再次刷卡,因此AFC數據無法直接記錄乘客在軌道交通系統內部的換乘行為,但根據其出行軌跡可獲取不同出行OD所對應的換乘次數。
本文以北京市2014年9月的公共交通刷卡數據作為研究基礎。2014年北京市道路公共交通系統的計費方式同時包括一票制和分段計價制兩種,可覆蓋大多數城市的情況,具有普適性。其中:一票制只能準確記錄乘客的上車站點信息,下車時間和站點位置缺失;分段計價制雖然上下車均需刷卡,但上車站點信息缺失的現象明顯,且準確度較低,往往只有下車站點信息相對準確。以往基于智能卡數據推算道路公交上下車站點信息的研究較多,在此不作為重點研究對象。
為了完整分析公共交通出行者的出行過程,按照以下步驟剔除與出行特征分析無關的數據字段,并對軌道交通和道路公交的異源數據進行整合。
(1)關鍵字段提取:從道路公交和軌道交通刷卡數據庫中提取與出行特征相關的字段,包括用戶卡號、進出線路號、進出站車站編號、進出站時間等7個有效字段;
(2)數據整合:以卡號為關聯條件,將同一用戶的刷卡記錄按照刷卡時間排序,為一票制、分段計價制道路公交和軌道交通線路等3類數據增加出行階段類型的數據標記,分別記為B1、B2和R。公共交通刷卡數據整合表如表1所示。

表1 公共交通刷卡數據整合表
將城市公共交通出行鏈定義為從出行的起始站點到目的站點,由一個或多個地鐵及道路公交的出行階段按照時間順序組成的一次完整的出行過程。其中,一個出行階段指從道路公交出發站點刷卡上車或軌道交通進站起,經過在途出行(可包含軌道交通內部換乘)后刷卡下車或出站的過程。因此每一條刷卡數據記錄都可表示一個出行階段。出行階段與出行鏈示意圖如圖1所示。

圖1 城市公共交通出行鏈二維結構圖
基于經過整合的公共交通刷卡數據,將所有刷卡記錄按照時間順序進行排序,利用一卡通卡號字段鎖定同一用戶,根據相鄰出行記錄時間差進行換乘關系識別,劃分或者連接該用戶的所有出行階段。由此方法確定的公共交通出行鏈可由一個或多個出行階段組成,設第i個出行階段的上、下車(或進、出站)刷卡時間分別為Ti-ON和Ti_OFF,則相鄰出行階段之間的換乘時間可由Ti+1_ON-Ti_OFF表示(見圖2)。

圖2 前后兩個出行階段時間分布示意圖
2.1.1 換乘關系判別閾值
在刷卡數據中,單次(一票制)刷卡道路公交只記錄上車時間TB1-ON、雙次(分段計價制)刷卡道路公交只記錄下車時間TB2-OFF,軌道交通同時記錄進站時間TR-ON和出站時間TR-OFF。因此,三種出行模式間的換乘交易時間差閾值包含了不同的時間組成,部分換乘結構的交易時間差閾值中包含公交在途時間(見表 2)。
根據道路公交站點服務水平及軌道交通站點吸引范圍的相關研究[8-9],確定道路公交與道路公交、道路公交與軌道交通間在理論上可接受的最大換乘時間(不含在途時間)。根據所有道路公交線路的運營里程和高峰時段的運行速度,確定B1或B2理論上的最大可接受在途時間。根據不同的公共交通換乘模式,共劃分出8種換乘類型。選取一個月的多模式刷卡數據(約1 500萬條/日),連接同一卡號用戶的相鄰出行階段,分別計算這8種換乘類型的交易時間差。基于累計頻率在95%位的刷卡實際交易時間差,確定各換乘類型的交易時間差閾值(部分包含在途時間),如表2所示。

表2 8種出行階段連接類型換乘關系判別實際交易時間差閾值
2.1.2 出行鏈結構提取
基于城市公共交通系統內各換乘關系的時間判別閾值,可實現出行鏈結構的提取。在表1的基礎上增加以下標記字段:“CHAIN”代表該刷卡記錄處于該公共交通卡用戶的第i條出行鏈;“JS”代表該刷卡記錄處于所屬出行鏈的第k個階段。基于公共交通卡卡號及上車時間字段,對表1中的刷卡記錄進行排序,采用圖3所示流程即可實現出行鏈結構的提取與標記。

圖3 公共交通出行鏈結構信息標記流程
選取396名志愿者,記錄他們連續10個工作日的公共交通出行過程,包括通勤出行和非通勤出行。志愿者按照出行次序,完整記錄每一次出行過程包含的所有乘車信息,包括乘坐的交通方式、線路號、上車和下車站點及刷卡時間等。
根據志愿者卡號,匹配刷卡交易記錄中的數據,進行出行鏈提取,對比模型提取結果與實際出行過程的吻合程度。共記錄了284條包含換乘的出行鏈,包含577個出行階段,共有15種出行鏈結構。驗證結果顯示,模型的出行鏈結構提取成功率為96.1%(見表3)。道路公交出行記錄信息的不完備造成部分換乘交易時間差閾值中包含了道路公交在途時間,對出行鏈提取的準確度影響較大。但目前的提取成功率可以基本滿足換乘特征分析的精度要求。

表3 公共交通出行鏈結構提取成功率
在數據挖掘技術中,“分類識別”十分重要且具有廣泛的應用價值。目前,機器學習分類器的核心算法種類多樣[10],各類算法的分類原理、適用范圍和精度特點各有差異。
機器學習分類器的建立過程可分訓練和測試兩部分,構建過程與步驟如圖4所示。
采用網絡問卷、現場調查等方式,并通過對調查樣本一周刷卡數據特征進行校驗,最終確定了978位公共交通出行者為樣本人群,其中包括490位通勤出行者和488位非通勤出行者。
為了使分類器能夠了解各類出行人群的出行特征,從而增強分類器的泛化性和推廣性,在基礎數據選擇時需要注重樣本的多樣性。因此,在選擇樣本數據時,考慮了出行人群在性別比例、年齡結構和出行結構等方面的均衡性。此外,在樣本數據選擇時還考慮了樣本數據的出發時間、出行距離和出行時間等要素。
通勤出行具有以下特點:出行的往返性、出發時間的規律性、出行方式選擇的固定性、線路選擇的多樣性。而非通勤出行的上述特征并不明顯。因此,可選取上車和下車刷卡時間、上車和下車線路編號、上車和下車站點編號作為特征值描述每個公共交通出行者的出行特征。

圖4 機器學習分類模型的建立過程
(1)訓練與測試集準備:將全部樣本數據按照7∶3的比例隨機劃分為訓練集與測試集。
(3)模型訓練:選取多種機器學習算法進行模型訓練,包括決策樹(Decision Tree)、逐步增強法(AdaBoost)、感應器 (Perception)、支持向量機(SVM)、隨機森林(Random Forest)、梯度提升樹(Gradient Boosting Tree)等,基本涵蓋了常用的機器學習算法。
(4)模型評價:采用分類準確度A、召回率R和精準度P來評估模型的分類效果。三個參數的計算公式如下:


式中:
PS——通勤人群的樣本數量;
NS——非通勤人群的樣本數量;
TP——可正確識別的通勤人群的數量;
TN——可正確識別的非通勤人群的數量;
施工人員在基坑開挖期間首先要開挖兩邊,主要采取機械和人工兩者結合的方式行。在實際開挖時要對土質在基坑底部的變化情況尤其注重,一旦發現土質在基坑底部的狀況不符合工程設計,則要將開挖工作立刻停止,并進行實際情況的反饋。通過和監理與相關設計單位的溝通出現的狀況進行綜合分析,從而將有效的解決措施制定出來,再繼續實施開挖工作,這樣可以使開挖工作的進行順利開展;其次設計標準高度在一定程度上達到時為了將基坑底部受到的干擾影響減少,使開發工作的質量得以確保,應當將正在進行的機械開挖工作暫停并轉為人工開挖。
FP——把非通勤人群識別為通勤人群的數量。
基于測試集的293個樣本采用不同的算法進行模型評價,計算結果如圖5所示。結果顯示,隨機森林算法的分類準確度最高,達99.96%,且召回率和精準度也明顯高于其他算法。與已有的基于決策樹的通勤人群鑒別方法[7](準確度98.1%,召回率81.0%)相比,模型精度有明顯提升。因此,隨機森林算法在出行人群分類中具有最好的適用性,可實現高精度的通勤人群鑒別。

圖5 機器學習分類效果評價截圖
利用提出的出行鏈提取方法和基于機器學習的出行人群分類模型,選取了北京市2014年9月一周的公共交通刷卡數據(當時尚未實施公交票改,數據普適性較好),對公共交通的出行人群結構、出行鏈與換乘特征進行了初步分析。
通過分析可知,北京市每天采用公共交通通勤出行的人數在270萬左右,出行量較為穩定,占公共交通日均出行總人數的52.5%。
在公共交通出行資源使用方面,通勤出行的公共交通使用頻次明顯高于非通勤出行。通勤出行日均刷卡次數為750萬次,占刷卡總量的58.6%。同時,一周的不同工作日,通勤人群的出行特征和構成比例也相對穩定。
通勤人群出行鏈結構特征如表4所示。由表4可知:無換乘出行鏈(不包含軌道交通線網內的換乘)的通勤人群占比約為66.4%。此外,在含有軌道交通模式的通勤出行鏈中,約有28%的通勤者乘坐軌道交通前后需要采用道路公交接駁的方式完成出行,這反映北京市軌道交通線網在可達性方面有待提高。變異系數表示各結構類型出行鏈數量在統計期內的穩定程度。結果表明,不同結構類型的出行鏈在每天的數據量和占比中均較穩定,變異系數均在3%以內。

表4 通勤人群出行鏈結構特征分析表
出行者平均換乘系數是衡量出行直達程度、反映乘車方便程度的指標。換乘系數越低,表明乘客出行直達程度越高,計算方法如下:

本案例的乘客平均換乘系數計算結果如表5所示。

表5 乘客平均換乘系數
表5的計算結果表明,通勤出行者的平均換乘系數明顯高于非通勤出行者。這說明受到出行時耗和工作地點的限制,通勤人群出行過程中存在更多換乘。
研究利用公共交通刷卡數據,建立了城市公共交通系統出行鏈連接方法和基于機器學習的出行人群分類模型,通過實際出行調查和測試樣本集驗證了出行鏈連接方法和出行人群分類模型的精度,并初步分析了北京市居民出行特征。結果表明,該特征提取分析方法可以有效識別通勤人群的城市公共交通系統出行鏈結構及換乘特性。
在今后的研究中,可通過增加分類訓練集的樣本量,以提高分類器的準確性與泛化性;從出行鏈的出行時間、上下車位置和換乘過程等維度進一步進行分析與信息挖掘,為城市軌道交通及道路公交線路規劃與站點布局優化等提供更準確的數據支撐。