劉 曉 柳 林,2* 鄒 健
1(山東科技大學測繪科學與工程學院 山東 青島 266590) 2(國家測繪局海島(礁)測繪技術國家測繪地理信息局重點實驗室 山東 青島 266590)
城市的公交車系統每天都會產生海量的時空軌跡數據,包括公交刷卡數據和GPS定位數據等。當數據無缺失時,將公交刷卡數據與GPS定位數據融合易得到乘客的上車站點。由于大部分城市采取一票制刷卡制度,刷卡信息中不包含乘客的下車站點及時間,無法獲取乘客完整的出行鏈和空間出行信息[1],因此快速準確地從公交數據中提取出乘客的上下車站點及時間是公交數據挖掘的基礎[2]。
目前已有一些有關利用公交刷卡數據進行的研究,但主要是針對下車站點及OD矩陣的推斷。文獻[3]提出了公交出行節的概念,根據乘客的出行節是否連續分多種情況來推斷乘客的下車站點,推算模型比較復雜,處理效率較低;文獻[4]提出了一個基礎的基于時空鄰近性的恢復算法和一個改進的基于歷史的恢復算法,但需要借助于地鐵刷卡信息;文獻[5]對公交出行行為進行了分類,推算了有往返出行和有換乘的出行乘客的出行起止點,但未考慮到其他乘客。總體來說,現有的基于公交IC卡數據的站點推算方法還有很多的不足,因此本文對公交IC卡數據進行了深入的探討與研究,改進了傳統的上車站點推導算法,提出了下車站點推導算法,以青島市西海岸新區的公交刷卡數據、GPS定位數據為例驗證了算法的可行性,并利用公交刷卡數據識別了通勤乘客,進行了公交通勤分析。
本文研究數據來源于青島市琴島通卡股份有限公司及真情巴士集團提供的公交刷卡數據、GPS定位關聯站點數據、真情巴士集團司機檔案數據、駕駛員對應車號數據(真情巴士集團車輛調度數據)等,在分析了各數據的字段后建立了數據之間的關聯關系,如圖1所示。

圖1 數據字段及關聯關系
公交刷卡數據中無車輛編號,無法直接與GPS定位關聯站點數據匹配上車站點,首先可以通過司機檔案數據匹配公交刷卡數據中司機卡號所對應的員工姓名,然后再通過駕駛員對應車號數據(即車輛調度數據)結合司機工作日期匹配到車輛編號,匹配完成即可與GPS定位關聯站點數據融合進行處理。
根據公交刷卡數據的字段可以發現單純地通過公交刷卡數據無法獲得乘客的上車站點,因此結合GPS定位數據來識別。通常乘客的刷卡時間Ti與GPS定位數據中同一車輛的到離站時間區間(Tas,Tcs)滿足式(1)時,可判定車輛所在的站點S即為乘客的上車站點[4]。
Tas (1) 但在公交運營中,有時會存在多輛公交車同時到站的情況,后續公交車為了節省時間會提前開門上客,此外在高峰時段因前門擁擠,部分乘客會選擇后門上車[5],在公交離站后刷卡,因此部分乘客刷卡時間會在車輛到離站時間區間外。 為提高上車站點識別率,本文引入了彈性閾值對到離站時間區間進行了改進,若乘客刷卡時間Ti滿足式(2)時,則可判定站點S為上車站點。 Tas-φ (2) 式中:φ為公交車到離站彈性閾值。 考慮到公交運行時長、候車時間等因素,在進行下車站點推算時首先以2小時為閾值,將前后兩次刷卡時間差值小于2小時的出行設為連續出行,否則為非連續出行(一天內僅一次刷卡記錄的出行也為非連續出行),所以對于一天內有多次刷卡記錄的乘客可以有多次連續出行或非連續出行。 對任一乘客q在線路L上任一站點i上車,為推算乘客在任一站點j下車的概率提出了如下假設: 1) 對于連續出行來說,乘客上次乘車的下車站點大多接近下次乘車的上車站點[5]。 2) 對于非連續出行,乘客當次乘車的下車站點為下游高頻站點[5]。 3) 對于下游無高頻站點的非連續出行,乘客的出行規律服從整體公交乘客的出行規律,即乘客會選擇吸引強度較大的站點下車,且出行站數服從泊松分布[6]。 2.2.1基于整體出行規律分析 根據以往的公交客流分析結果,從公交乘客整體上看,乘客的出行站數服從一定的分布規律,且各站點吸引強度不同。因此,在推算乘客下車站點時應將出行站數和站點吸引強度兩個因素考慮在內。 1) 單純考慮出行站數。 居民的公交出行距離通常處于一定范圍內,而出行距離可以用乘坐的站點數量來表示。已有的研究指出,下車概率隨途經站點數量服從泊松分布[6-8]。因此僅受途經站點數量一個因素影響時的下車概率Fij的公式如下: (3) 式中:λ為途經站點數量的均值,當上車站點i下游站點數量不足λ時,λ=m-i,m為單條線路站點總數。 2) 單純考慮站點吸引強度。 站點吸引強度是用一條線路上各站點的客流量來表示的,不同站點的吸引強度不同。由于居民的出行具有往返性,各站點的上下車客流量基本相當[4]。因此可用各站點上車客流量來計算站點吸引強度Wj,公式如下: (4) 式中:Sk為站點j的上車人數;m為某一線路站點總數。 2.2.2基于個體出行規律分析 從單個乘客q來考慮,定義下游站點集Eq、高頻站點集Fq和銜接站點集Gq[6],下車站點的推算分以下幾種情況: 1)C1:對于乘客的連續出行,若Gq非空,則站點j的吸引權重Z1如下: (5) 2)C2:對于Gq為空集、Fq非空的乘客的連續出行或者Fq非空的非連續出行,下游站點j吸引權重Z2如下: (6) 式中:Sj為乘客q于研究期內在站點j的上車次數;p為高頻站點集中的站點個數;Sp為乘客在高頻站點p的近期上車總次數。 3)C3:對于Gq、Fq均為空集的乘客的連續出行和Fq為空集的乘客的非連續出行,下游站點j的吸引權重Z3如下: Z3=1/d (7) 式中:d為下游站點j與下次刷卡上車站點的標準化距離,當乘客在研究期內的上車站點數為1時,d=1。 綜上所述, 本文將單個乘客的出行特征融入到整體公交乘客中,在任一線路任一站點i上車的單個乘客,在同線路上站點j下車的概率Pij的推算公式為: (8) 式中: (9) 根據上述下車站點算法即可推算公交乘客的下車站點,再將其與GPS定位數據結合即可獲得乘客的下車時間。 上下車站點匹配完成后,需要對匹配結果進行驗證。常規的驗證方法是將匹配結果與實驗調查值進行比較,但在實際生活中,跟蹤調查單個乘客上下車站點難度較大。研究乘客的上下車站點本質上是為了分析乘客群體的出行特征,因此本文采用上下車客流量來對算法進行檢驗[9]。 根據公交乘客的出行特征,一天各站點的上下車客流量基本相當,即二者之間應該具有線性關系[9]: Si,on=aSi,of+b (10) 式中:Si,on為站點i的上車人數;Si,of為站點i的下車人數;a、b為回歸系數,若上下車客流量基本相當,則a的值應接近1[6]。 通勤是造成城市早晚高峰的主要原因,早高峰主要集中于居住地附近,而晚高峰多發生于就業地附近。目前公交通勤已成為緩解城市交通壓力的重要途徑,掌握通勤者的空間出行特征對于科學布局公交站點、動態調整公交線路具有重要意義。 在對公交刷卡數據進行分析后,提出出行時間鏈的概念,即根據乘客每次刷卡時間所處的時間段對其進行編碼,然后將乘客一天的刷卡時間碼按時間先后連接起來即可獲得乘客每天的出行時間鏈。 時間段的劃分如表1所示,相鄰的時間段級別相差1(即B0與A0相差1個級別,B0與A1也相差1個級別)。 表1 時間段編碼 通勤群體有兩大出行規律:(1) 出行天數較多,通勤群體幾乎每個工作日都會出行,即提取出的出行時間鏈較多;(2) 出行時間相對固定,即出行時間鏈較穩定[10-11]。 城市早晚交通高峰主要是由通勤造成的,以前主要是根據乘客在高峰時段的刷卡記錄數來識別通勤乘客[12],但該方法會將在高峰時刻有多條刷卡記錄的乘客誤判為通勤乘客,同時對于一些錯時上下班的城市又會遺漏大量通勤乘客[13]。PTD(Position-Time-Duration)模型[14]的提出為通勤識別提供了新的思路,該模型將乘客每天的首次刷卡站點定義為居住地,將乘客在某站點的停留時長超過閾值的站點定為就業地[15-16]。 基于通勤出行的特點,本文結合出行時間鏈和PTD模型進行通勤乘客及其職住地的識別。將各卡號一周的出行記錄匯總,按照日期和時間先后進行排序,獲取乘客每天的出行時間鏈。時間鏈判定方法如下。時間鏈相同:每天的出行鏈編碼完全相同;時間鏈相似:首次出行時間鏈編碼相差1個級別,但兩次出行時間差值在半小時以內,其他時間鏈編碼相同的可認為對應的兩天的時間鏈相似。將乘客一周的出行時間鏈進行對比,若5天的工作日中出行時間鏈相同或相似的天數大于等于3,則對這些乘客建立PTD模型。 若非居住地PTD模型中存在停留時長大于等于某一閾值的情況,則可確認這些乘客為通勤人員,同時PTD模型中所對應的站點即為乘客的就業地站[17]。 本文以2018年8月20日至8月26日的青島市西海岸新區公交刷卡數據為例來進行通勤時空分析。青島市西海岸新區位于山東省青島市西岸,是我國第九個國家級新區,現新區轄12個街道,11個鎮,可劃分為十大功能區,目前新區內開通了96條公交線路,共有1 090個公交站點,站點分布圖如圖2所示。 圖2 西海岸新區公交站點分布圖 新區的西南部分主要發展農業、港口、軍民融合產業,就業地相對較少。由圖2可見,區內公交站點相當稀疏,因此本實驗通勤分析研究過程中會去除西南部分的三個功能區(現代農業示范區、董家口循環經濟區和古鎮口軍民融合創新示范區)。 上下車站點的識別利用MATLAB軟件實現。2018年8月20日至8月26日的公交刷卡數據共180萬條左右,其中工作日的刷卡數據1 347 928條,在匹配上車站點時取彈性閾值為站間停留時長的1/5,即φ=1/5(Tcs-Tas),共識別出了1 260 110條刷卡記錄的上車站點,上車站點的識別率高達93.485%,與不添加閾值的傳統算法相比多識別了77 910條,識別率提高了5.78百分點。 按照上文提出的下車站點算法,以6路、7路、11路、13路公交車為例,提取了各線路的刷卡數據來推算下車站點并進行驗證。根據各站點的上下車客流量進行了回歸分析,分析結果如圖3所示。回歸方程的各參數如表2所示,可以看出各線路回歸方程的系數a均分布在1左右,說明上下車客流量的相關性較強;各線路的可決系數R2均大于0.8,接近于1,說明客流量的擬合效果較好,表明本文算法推斷出來的各站點上下車客流量基本均衡,符合居民出行的基本特征,可以進一步用于通勤的分析。 圖3 西海岸新區多線路公交客流量分析 表2 各線路客流回歸參數表 在進行通勤分析時,對具有3天以上相同或相似出行時間鏈的乘客建立PTD模型,通過PTD模型來識別通勤乘客及其職住地。智聯招聘最新推出的《中國職場人平衡指數調研報告》[18]指出青島的日均工作時長為8.47 h,因此本文在識別通勤時將閾值設為8 h,共識別出了656 820條通勤乘客的刷卡記錄,數據處理結果如表3所示(為保護乘客隱私對公交卡號進行了處理)。 表3 部分數據處理結果 根據處理結果,在MATLAB軟件中對通勤時間和距離進行了多種函數的擬合,包括泊松分布、指數分布、對數分布和韋伯分布,結果顯示韋伯分布的擬合效果最好,如圖4-圖5所示。 圖4 西海岸新區公交通勤時間分布 圖5 西海岸新區公交通勤距離分布 可以看出,公交通勤乘客的通勤時間與通勤距離基本符合韋伯分布,該分布具有明顯的長尾效應。通勤時間主要介于6~21 min,通勤距離一般小于7 km。根據處理結果計算出西海岸新區的平均通勤時間為33 min,平均通勤距離為7.9 km,與百度地圖公布的2018年度中國城市交通報告中青島的行政區內平均通勤時間為37.8 min、通勤距離為8.3 km[19]的結果比較接近,說明了本文的識別結果較準確。 借助ArcGIS軟件對通勤乘客的職住地站點進行了可視化分析,結果如圖6-圖8所示。 圖6 居住地熱力圖 圖7 就業地熱力圖 圖8 西海岸新區公交通勤出行 可以看出,新區的通勤出行及職住地站點主要集中在青島經濟技術開發區,居住地相對就業地來說比較分散,居住地站點除了開發區之外,在中德生態園、靈山灣影視文化產業區、海洋高新區等均有分布。經濟技術開發區集先進制造業、高端服務業為一體,區內遍布大型工業園,如海爾工業園、海信工業園、澳柯瑪工業園、青島光谷軟件園等,產業集群效應吸引了大量的通勤出行,與本文的熱力圖中心相符。 本文首先提出了利用公交刷卡數據識別乘客上下車站點的算法,在此基礎上提出了出行時間鏈的概念,結合PTD模型來識別通勤乘客及其職住地,并以青島市西海岸新區的公交刷卡數據為例進行實驗驗證與通勤時空分析。在識別上車站點時,加入了彈性時間,上車站點的識別率達到93.485%,與不添加閾值的傳統算法相比提高了5.78百分點。接著以多線路公交為例推算了下車站點,并將上下車客流量進行了回歸分析,回歸分析的結果表明本算法推斷出來的各站點上下車客流量符合居民出行的基本特征,驗證了算法的可行性。最后結合提出的出行時間鏈和PTD模型識別了西海岸新區的通勤乘客及其職住地,計算出的區內平均通勤時間為33 min,平均通勤距離為7.9 km,與百度地圖發布的交通報告結果比較接近,此外本文識別出的區內職住地與通勤出行也與實際情況基本相符。2.2 下車站點推算
2.3 客流模型檢驗
3 城市通勤時空分析
3.1 出行時間鏈提取

3.2 通勤職住地識別
4 實例分析
4.1 研究區概況

4.2 站點識別


4.3 通勤時空分析






5 結 語