鄧 偉 袁 軼 蔣善龍
(重慶交通開投集團科技發展有限公司,重慶 400700)
學海泛舟
基于IC卡歷史數據的公交客流統計方法
鄧 偉 袁 軼 蔣善龍
(重慶交通開投集團科技發展有限公司,重慶 400700)
隨著公交IC卡的普遍使用,基于公交IC卡數據的公交客流統計方法逐步成為主流的統計方法。因國內絕大部分城市均采用上車刷卡的方式,所以需根據用戶出行規律進行下車站點的推測。為降低運算復雜程度,現有的IC卡分析算法多采用基于后續公交站點吸引權的概率算法,這種算法既不能判斷單個乘客的下車站點,對于總體客流又存在數據準確性問題。為此,本文對于能夠形成出行閉環的單日多次出行采用傳統方法推測其下車地點;對于未形成閉環的單日出行,則分析相關單個乘客歷史類似天日的IC卡刷卡數據,統計出其最可能的下車站點,進而得出總體客流。采用本算法對重慶市某段時間的所有IC卡數據進行處理和統計后,經人工計數的數據對比表明:相較于傳統的出行閉環算法和站點吸引權算法,本算法對于公交客流的統計更加準確。
交通工程;公交客流統計;出行預測;IC卡數據
隨著公交IC卡的普遍使用,因其數據信息量全面、便于計算機統計分析等特點,在很多公交應用場合逐步替代費時的人工方法以及昂貴的專用設備統計方法,成為主流的客流統計方法。而在中國多數城市乘客只在上車時刷卡,導致無法獲得完整的公共交通客流數據,從而無法根據這些基礎數據進行諸如運營調度、線網規劃等相關公交決策。為此,學者們就如何分析IC卡數據以獲得下車站點開展了大量研究,主要采用以下兩種方法:
第一種是基于IC卡的刷卡率以及一般通勤出行會形成“閉環”的特點(即上班時的下車地點往往在其下班時的上車地點附近,反之亦然),來推算其下車地點。主要研究包括:戴霄等[1,2]提出了基于單條線路的IC卡數據分析方法及基于公交IC卡的公交數據分析方法;師富民[3]以IC卡數據為基礎,通過分析居民公交出行特征,建立了兩站點模式對下車站點進行推算,構造居民公交出行OD矩陣。
第二種是基于不同下車站點對于客流的吸引權值不同來得出客流的大致走向。主要研究包括:戴霄等[4,5]采用基于站點吸引權的方法對公交下車站點進行判斷,Cui[6]基于公交ADC數據實現了OD的推導;章威等[7]以居民IC卡刷卡記錄信息和車輛GPS定位數據為基礎對公交OD進行推算。
第一種方法的準確率比較高,但由于算法比較耗時,過去在并行計算等大數據分析方式尚未出現時很少采用。第二種方法存在算法準確率較差的缺點(不同天日、不同時段、不同方向、不同用地屬性站點的吸引權值應該不同。比如附近土地使用性質為寫字樓或辦公區域的站點在不同高峰時段上下行的人流不同:早高峰下站人數多,而晚高峰上站人多),但因其計算簡單且速度較快,得到較為廣泛的應用。
對于公交規劃和運營而言,客流數據準確率非常重要:比如根據不同時段各站點的準確客流情況可采用多種策略(區間車、屯車、大小車等)精準投放運力,從而在滿足乘客出行需要的情況下,盡可能地節約人力和物力。隨著計算機處理能力的提高以及并行計算、大數據分析等先進計算模式的應用,方法1計算量大的問題可得以克服。對此我們將另文闡述。
根據對重慶市所有IC卡刷卡數據的統計,對于正常的通勤天日,重慶市的刷卡率約為80%(高峰期刷卡率約95%),日刷卡人次超過500萬次,其中能形成閉環的出行次數約為70%,單次出行約為8%,其它未形成閉環的多次出行約為20%,存在錯誤以及替人刷卡等情況的刷卡數據約為5%。鑒于方法1不能處理的情況(未形成閉環的出行:單次出行和其它未形成閉環的多次出行)占比較大:約30%,為此本文給出相應的優化算法,對這部分出行數據給出下車站點的推斷,經線路實測,本算法大大優于傳統的閉環出行算法。
本文算法思想如下:
(1)IC卡數據根據以下天日屬性分類:異常天氣情況(酷熱、酷寒、暴雨等)、星期情況(工作日、周末)、節假日情況(國家法定)、冬夏時制、學生寒暑假、特殊天日(如重大事件、學生開學或放假日等)。取臨近天日數據時,需滿足日期屬性相同。
(2)選擇一條線路,對于當日IC卡出行數據能形成閉環的刷卡數據,將根據方法1推算每個乘客的下車站點,進而得出線路當日各時段(如一天分為8個時段)的OD數據。期間需考慮乘客上下班可能不會乘坐同一線路的車,但回程線路需在出發站點的一定范圍之內(如下午回程的下車站點應在上午出發站點的2公里范圍內)。
(3)得出每個時段的下車站點吸引權:根據(2)中得出的線路OD數據,得出各時段線路每個站點上車乘客在其后續下車各站點的下車概率。
(4)根據歷史數據推斷下車站點:對于未形成閉環的出行,按如下方式處理:
1)單次出行:查找相鄰多天同屬性天日的出行數據(如之前的15天),對起點站相同或在一定范圍內、出行方向一致且當天形成閉環或有后續換乘的線路(即能推算出下行站點的類似出行歷史數據),得出其可能的下車站點:比如對于乘客X而言,15天內有10天的歷史數據能推算出下車站點,其中A站點下車有8次,B站點下車2次;那么乘客X的下車概率為:A站點0.8,B站點0.2。
2)多次出行:對于多次出行的數據,需按照換乘判斷條件來分辨其是否為連續出行,對于最后一次非換乘出行,類似以上步驟,找出其歷史數據中類似出行的下車站點,統計后得出其下車站點及概率。
3)無歷史出行數據的處理:對于無類似歷史記錄的出行情況,按照(3)中提到的改進吸引權算法和IC卡上車時間段確定其下車站點及概率。
(5)在步驟(2)中獲得的線路各站點下車人數的基礎上,加上步驟(4)中三種未閉環出行情況獲得下車人次概率,最后取整獲得整個線路在此時段的出行OD。
3.1 預處理
(1)IC卡刷卡數據處理。IC卡中需關注以下重點字段:卡號、公交線路編碼、車輛編碼、刷卡交易時間。按天日分類并存儲刷卡記錄,根據IC卡卡號段或線路段等條件切分數據并將其分發到各計算處理節點上。
(2)線路及車輛有效數據提取。根據站點GPS位置、公交線路基礎信息等獲得如下表格:
車輛停留站點時刻表:日期、車輛編碼、上下行標志、站點序號、站點名、進站時間、出站時間、站點緯度、站點經度。
3.2 按線路推算下車站點算法
說明:本算法首先根據上車刷卡時間獲得上車站點,然后根據IC卡換乘記錄或閉環出行特點,獲得下車站點;對于未閉環出行,將根據歷史數據或站點吸引權獲得其下車站點。
3.2.1 輸入數據
(1)根據線路號,獲取該線路所有車輛全天的IC卡刷卡記錄,并根據這些IC卡號,獲得其當日乘坐其他線路的刷卡記錄,包括所有換乘記錄。
(2)根據IC卡記錄,提取關聯的所有線路、車輛信息。
(3)從GPS信息中獲取所有車輛當日的進出站時刻表。
(4)根據進出站記錄中的站點編號,從線路基礎信息數據庫獲取其對應的站點資料,包括名稱、上下行方向、經緯度坐標等。
3.2.2 獲得所有IC卡出行記錄的上下車站點
獲得該車的所有IC卡刷卡數據,對每個乘客的刷卡數據按時間排序,然后對每一個乘客的數據執行:
(1)獲得公交車上車站點。過去算法對上車站點的獲得是通過刷卡時GPS位置與站點經緯度比較或時間聚類方式取得,存在一定誤差。現在車載智能終端能夠實現實時報站功能,且將進出站信息上報到后臺服務器,因此根據乘客所乘車輛、刷卡時間、對應車輛的進出站歷史記錄,可得到乘客的上車站點。
(2)獲得公交車下車地點。判斷此乘客該天的刷卡次數:
1)刷卡一次,查找相鄰多天同屬性天日的出行數據(如之前的15天),對起點站相同或在一定范圍內、出行方向一致且當天形成閉環或有后續換乘的線路(即能推算出下行站點的類似出行歷史數據),得出其可能的下車站點;在沒有相鄰歷史出行數據時,則采用吸引權算法AttractionWeightStation推測下車人次概率。
2)刷卡多次,按時間先后順序,對每次刷卡記錄(前次),與后續相鄰的一次刷卡記錄(后次),做如下判斷:
對于非最后一次出行,調用GetNearestBusStation,離符合條件的站點,如果存在,則將首次乘車地點作為最后一次出行的下車站點;該乘客為閉環出行;如果無法通過換乘、閉環出行判斷下車站點,則通過歷史出行數據推斷下車站點,如果不存在歷史數據,則采用吸引權算法AttractionWeightStation推測下車站點。
函數:GetNearestBusStation(公交線路編碼,公交站編碼,換乘公交站編碼)
注:獲得公交線路上從指定站點上車,到其他線路換乘站點的可能下車站點。
根據公交線路編碼,查詢該線路所有上行及下行站點名及其GPS坐標;獲得與指定上車站點在同一方向的后續其他站點;比較這些站點與換乘站點的GPS坐標距離,獲得直線距離最短的站點名;如果最短距離小于給定的閾值(如1km),則此站點為下車站點,否則不存在換乘關系。
函數:AccurateAttractionWeight (公交線路編碼,站點編碼,上下行方向,時段)
注:獲得某站點上車,其后續站點的下車概率。
獲得同線路、同方向已分析出上、下車站點的出行記錄;根據上車站點及上下行方向,統計此上車站點乘客在后續站點的下車人數;每個后續站點下車人數除以上車站點的總人數即為此下車站點的下車概率(也稱為吸引權)。
返回:輸入站點的各后續站點下站的概率數組。
3.2.3 輸出
將全天劃分為多個時段,獲得各時段中每個乘客、每條線路及整個城市的出行OD。

圖1 465線龍湖西苑站上行各時段客流圖

圖2 465線龍湖西苑站下行各時段客流圖

圖3 465線各站點客流分布圖

圖4 465線各站點早高峰客流分布圖

圖5 465線全天各站點客流分布圖
重慶每天的IC卡刷卡數據約有六百至七百萬條。我們將每天的IC卡數據按照IC卡號橫向分割處理后,分別用大數據平臺的計算節點進行并行處理,對多條公交線路的客流進行了人工實測以判斷及改進算法的準確率。現以其中一條線路465為例,計算結果如圖1-圖5。
2016年11月10日,共22161名乘客乘坐465線路車輛,因乘客經465線路換乘或返回時不一定乘坐此線路車輛等原因,所以該線路乘客的OD推算將涉及的相關線路數約為487條(重慶市內共650余條公交線路),共82875條刷卡記錄;采用CPU為4核和內存為8G的計算節點用時8分鐘,獲得該線路相關的所有下車站點;用時2分鐘,獲得該線路在某日高峰期的所有站點上下行方向的后續站點吸引權值。
對于OD推算算法和效果驗證如下:
通過人工實際現場調查,465線路龍湖西苑站點早高峰(7:00-9:00)的上下車人數實測為:上行上車347人、下車104人,下行上車53人、下車208人;通過未優化的IC客流算法推算為:上行上車327人、下車78人,下行上車55人、下車156人;通過基于歷史客流的IC卡客流算法推算的人數為:上行下車91人,下行下車176人。可得出兩個算法的準確率分別為75%和85%,新算法效果明顯。
通過對以上站點時間客流圖分析,可得出如下結論:不同站點在不同時間段的站點吸引權不一致且差異較大(如位于CBD的解放碑站早高峰下車人數多,其上下車人數分別為121人、227人;而晚高峰此站上車人數多,上下車人數分別為343人、85人),所以現有基于概率的站點吸引權算法準確率存在問題,而本文基于歷史類似天日的OD出行數據形成的動態站點吸引權算法的準確率與以上客流數據相符。
[ 1 ] 戴霄, 陳學武. 單條公交線路的IC卡數據分析處理方法[J].城市交通,2005,3(4):73-76.
[ 2 ] 戴霄, 陳學武, 李文勇. 公交IC卡信息處理的數據挖掘技術研究[J].交通與計算機,2006,24(1):40-42.
[ 3 ] 師富民.基于IC卡數據的公交OD矩陣構造方法研究[D].長春:吉林大學, 2004.
[ 4 ] 戴霄. 基于公交IC信息的公交數據分析方法研究[D].南京:東南大學,2006.
[ 5 ] 徐文遠, 鄧春瑤,劉寶義. 基于公交IC卡數據的公交客流統計方法[J].中國公路學報, 2013, 26(5):158-163.
[ 6 ] Cui A. Bus Passenger Origin-Destination Matrix Estimation Using Automated Data Collection Systems[M]. Cambridge: Massachusetts Institute of Technology, 2006.
[ 7 ] 章威, 徐建閩. 基于GPS與IC卡的公交OD量采集方法[J]. 交通與計算機,2006,24(2):21-23.
Approach on Public Traffic Passenger Flow Statistics Based on Historical IC Data
(Chongqing City Transportation Development & Investment Group, chongqing 400700)
DengWei Yuan Yi Jiang Shanlong
With popularity of public traffic IC cards, passenger flow statistics tends to be based on analysis of IC card data. Most Chinese cities only let passengers swipe cards while they get on buses, so we need estimate their get-off bus stations according to their trip rules. To cut down computational complexity, most of current IC card analysis algorithms are probabilistic algorithms, which fail to deduce each passenger’s get-off bus station in addition to their relatively low data accuracy. Thus, for passengers with trip-closed loop, we apply traditional passenger trip rule to obtain their get-off bus stations; otherwise, we analyze their historical trip data in similar days so as to predict the most probable get-off bus stations. By above method, we can get the total passenger flow of a city. Verified by monthly IC card data of Chongqing, the algorithm can get more accurate passenger flow compared with independent traditional trip-closed loop one and probabilistic ones.
traffic engineering; public traffic passenger flow statistics; traffic prediction; IC data
U491
A