李卓航 張健欽 李泰增 陸 浩 張 安
(1. 北京建筑大學 測繪與城市空間信息學院, 北京 102616;2. 自然資源部城市空間信息重點實驗室, 北京 102616)
交通擁堵是城市發展普遍面臨的城市病,嚴重制約城市的可持續發展,因此,各個城市一直以來大力推動公共交通發展以解決交通擁堵問題[1]。近年來國內外學者對于城市公共交通的研究越來越多。張志熙、陳玲娟等基于公交IC數據對乘客上下車站點進行推算[2],劉倩通過交通需求完成對公交發車時刻的優化[3],李軍、鄭培慶、劉耀林等基于公交IC卡數據分析通勤特征并構建了通勤熵變模型[4-5]。陳曉旭在對公交客流分析的同時,也對常規的公交線路客流進行了預測[6]。
在公共交通出行的研究中,公交IC卡記錄數據作為一種典型的出行大數據,具有海量性、多樣性、高速性和易變性的特征,相較傳統數據采集方法能夠獲取更準確、實時、高效的客流數據,因此成為了解公共交通出行需求動態變化的重要突破口。然而公交IC卡數據量十分龐大,傳統數據庫無法定時及時更新公眾出行的特征實現動態調整公交供給, Hadoop分布式技術具有高可靠性、高擴展性、高容錯性等優點,能夠高效準確的處理大規模數據,實現對時空大數據的挖掘和分析[7-10]。本文采用Hadoop分布式計算方法,實現對海量公交IC卡數據的高效存儲和計算,并提出一種公交客流綜合評價模型,對公交客流時空出行特征進行對比分析。
本研究基于2016年9月24日至30日的北京市公交IC卡刷卡數據及公交站點數據,北京每天約產生1 840萬條刷卡記錄,傳統的數據處理技術無法將其進行有效的分割和計算,因此本文通過搭建Hadoop分布式平臺對數據進行高效的計算和存儲。Hadoop的框架核心設計是分布式文件系統和分布式離線運算框架[11-12],公交出行大數據處理流程如圖1所示,分布式文件系統(hadoop distributed file system,HDFS)為海量的公交出行大數據提供了存儲,由主節點和子節點構成基本元素,在刷卡的過程中,由于刷卡行為、卡片質量、網絡傳輸等原因,會造成部分信息錯誤或者字段缺失等問題[13],因此需要將無效刷卡數據進行清洗。本文創建1個主節點和7個子節點,在Map(映射)階段設置篩選條件,對近1.3億條北京市一周原始公交刷卡大數據展開清洗,將上下車刷卡時間相同和字段缺失的刷卡記錄進行清除,處理后有效數據為原始數據的44%左右。

圖1 公交大數據Hadoop分布式處理總體流程圖
在MapReduce階段計算清洗后的數據,考慮到現實生活中乘客從出發地到達目的地中間可能需要換乘多條線路的情況,因此本文基于公交IC卡數據和公交站點數據對換乘行為進行判別,根據原始刷卡記錄中的上下車序號和所在線路匹配乘客出行時間和距離。Map(映射)階段負責將數據分發給子節點進行計算,并生成新的鍵值對,Reduce(規約)階段負責將相同的鍵組進行合并按照指定規則輸出計算結果,當乘客的出行記錄滿足時間間隔在30 min以內,空間間隔在1 km以內[14],符合換乘規則,連接起點、換乘點和終點則構成一條出行鏈記錄,數據的最終處理如圖2所示。

圖2 一周出行鏈情況概覽
基于處理后的公交出行鏈數據,分別從時間維度、空間維度以及客流強度3個角度分析公交資源供給與客流需求,具體指標包括時間不均衡度、方向不均衡度、斷面客流、斷面客流不均衡度、全天線路滿載率,具體如表1所示。
采用屬性層次模型(attribute hierarchy model,AHM)賦權法構造指標間的相對屬性判定矩陣,設有n個元素(指標)u1,u2…un,對準則C,比較ui和uj(i≠j)的相對重要性μij和μji,μij和μji滿足式(1)。
(1)
式中,μij和μji為ui和uj(i≠j)的相對重要性。
元素μi和自身的比較是無意義的。故規定式(2)。
(2)
令式(3)和式(4)為

表1 公交客流時空特征量計算指標
屬性判斷矩陣應滿足一致性。即對任何i,當Qi非空時有式(5)。
(5)
按照式(6)計算第i個元素權重ωc(i)為。
(6)
將各個指標進行歸一化和同趨勢化處理,即將各個指標取值范圍調整為0至1之間,且數值越高代表指標越優,本文采取倒數方法將低優指標高優化,并采取如式(7)將各個指標進行歸一化處理。xi為未處理前的指標值,xave為當前指標的平均值,xmax當前指標的最大值,xmin為當前指標的最小值。
(7)

最后按照式(10)計算各評價對象與最優方案和最劣方案的接近程度Ci,Ci∈[0,1],Ci愈接近于1,表示第i個評價對象越接近于最優水平為
(10)
實驗采用2016年9月24日(周六)至9月30日(周五)公交IC卡數據,根據Hadoop分布式計算換乘量前二十公交站點,結合北京市公交線路空間位置、站點數量以及公交熱點換乘站點統計結果,選取北京市300內環線、快速公交4號線、96路、339路4條公交線路,如圖3所示。

圖3 研究所采用的公交路線
快速公交4號線,西起龍泉西公交場站,東至阜成門站,橫跨門頭溝、石景山、海淀、西城四區,為跨市區公交線路。300內環線,沿二環跨海淀區、朝陽、豐臺3個區,首發站和終點站均為和平東橋,途經站六里橋北里、公主墳南、西壩河、三元橋、亮馬橋和草橋為公交熱點換乘站點。公交96路為豐臺區社區公交之一,北起北京西站,南至曉月苑公交場站,六里橋北里和北京西站均為北京市重要交通樞紐。線路339為短距離公交,兩終點站為王佐和郭莊子公交場站。
基于公交出行鏈數據,分別計算4條線路工作日及非工作日的斷面客流、斷面客流不均衡度、時間不均衡度、方向不均衡度以及全天線路滿載率,并構造屬性判斷矩陣,按照式(5)進行一致性檢驗,滿足一致性要求,按照式(6)求得指標相對屬性權重向量為:(ω1,ω2,ω3,ω4,ω5)=(0.272,0.254,0.153,0.091,0.230),將斷面客流、斷面客流不均衡度、時間不均衡度、方向不均衡度和全天線路滿載率進行同趨勢化和歸一化。為了更充分利用各指標優點,本文采用基于屬性AHM的Topsis對各線路進行綜合評價,計算各線路與最優方案的接近程度,并從優至劣排序,見表2。

表2 各線路運營情況評價值及從優至劣
快速公交4號線無論在工作日期間還是非工作日期間,運營情況均為最優,其次是300內環線,兩條線路均為跨城區公交線路,可見公交線路的運營距離及站點的空間分布是影響客流、運力的重要因素。可采用高峰期間開設區間車并減少發車時間以緩解工作日期間的通勤壓力。對于社區公交且經過重要交通樞紐的公交線路(如96路),客流不均衡程度主要體現在上下行方向方面,因此對于這些車輛應當分時段分方向適當增加車輛緩解熱點換乘車站客流壓力。
為了能夠快速實時更新公眾出行的特征,動態調整公交供給,實驗采用瀏覽器/服務器架構(browser/server,B/S),以二維地圖為主要載體,將公交客流特征量計算結果以電子地圖,圖表,列表等多種可視化工具與方法,將所有特征量計算結果進行集成。
本文基于Hadoop分布式技術實現對公交IC卡刷卡大數據清洗及處理,解決了傳統數據庫數據結構化的特點,在保證數據多樣性的同時,能夠快速實時地進行流處理。除此之外,提出一種基于屬性AHM賦權Topsis綜合評價方法,并選取斷面客流、斷面客流不均衡度、時間不均衡度、方向不均衡度以及全天線路滿載率,建立適用于不同情況下的公交綜合評價指標模型,并以北京市4條具有代表性的公交線路為例進行分析,將公交客流分布信息及特征計算結果依托于GIS可視化進行分析,針對工作日與非工作日分別提出對應的線路優化措施及建議。相較于傳統的公交客流特征分析,本文針對不同空間約束下不同性質公交的利用率進行分析,對于提高群眾出行效率,改善城市交通擁堵具有重要意義。