陳菁菁 江志彬
(1.上海地鐵第四運營有限公司,200071,上海;2.同濟大學交通運輸工程學院,201804,上海∥第一作者,高級工程師)
隨著地鐵網絡運營規模的拓展和客流需求的激增,網絡運營面臨常態或突發事件下的大客流壓力,對客流流量和流向的多方位全過程監測將成為提升網絡運營安全和效率的關鍵。AFC(自動售檢票)系統可以得到乘客的進出站刷卡數據,但由于網絡出行路徑的多樣性和出行過程的動態性,AFC刷卡數據無法準確獲取每位乘客的出行路徑,因此只能通過模型清分的方式在宏觀層面對客流量進行統計分析。
為快速、準確地檢測個體乘客在軌道交通網絡上的移動路徑及聚類特征,視頻檢測[1]和手機信令[2-3]等新技術開始在不同應用場景得到探索和嘗試。這些技術手段在宏觀層面或特定局部區域應用有一定的價值,但由于現有技術的瓶頸,其尚不能很好地解決地鐵網絡客流分布和乘客個體出行路徑的高精度識別問題。WiFi嗅探數據是探針設備(AP)與WiFi設備(如手機、平板電腦等)的交互信息數據,可以實現對攜帶WiFi設備對象的動態跟蹤,從而解決紅外檢測和視頻檢測難以追蹤對象的問題;同時,其具有檢測范圍相對集中、檢測速度快、采樣率高、實時性強等特點,可實現乘客出行時空軌跡的精準化識別[4]。目前,針對WiFi嗅探數據的研究多側重于局部范圍內的精確定位算法[5-7],但針對基于WiFi嗅探數據的大規模網絡和海量客流分析的研究還剛剛起步。
WiFi嗅探數據可通過判斷目標是否在AP設備的檢測范圍內來進行符號位置感知,可從微觀層面實時獲取乘客位置和移動方向,可結合地鐵網絡、列車實際運行圖和乘客出行鏈路進一步挖掘得到列車、站臺、站廳與換乘通道的客流量。隨著上海、廣州等城市地鐵網絡WiFi全覆蓋,如何充分挖掘海量的網絡WiFi嗅探數據信息,對乘客出行的軌跡進行分析,實現對地鐵網絡客流的多方位全過程動態監測,成為目前迫切需要研究的課題。
本文以上海軌道交通網絡WiFi的全覆蓋為前提,對WiFi嗅探數據的采集原理、采集方法、數據結構、預處理流程進行詳細分析;然后對目前采集的數據質量、數據特征以及數據分析模型進行詳細闡述;最后以上海軌道交通網絡為例,對WiFi嗅探數據獲取和客流分析的有效性進行驗證。
WiFi嗅探技術是運用WLAN(無線局域網)技術實現接入設備的定位,即在無線接入的同時能夠判定接入設備的位置。WiFi嗅探數據的采集原理為:AP高頻率地向四周廣播發送Beacon幀(信標幀),用來通知附近的WiFi設備,通知AP的存在;同時,WiFi設備(如手機、平板電腦等)也會不停地發送probe幀(探測幀),去尋找附近可用的AP。在probe幀的數據包里包含了設備的MAC(Medium/Media Access Control)地址。當AP接收到WiFi設備發送的probe幀后,就獲取了這個設備的MAC地址。因此,只要在WiFi探針覆蓋區域內的設備打開WiFi,探針就能收集到該設備的MAC地址。設備與AP布設位置的距離可通過RSSI(接收信號強度指示)這個指標來反饋。RSSI值還與AP的功率及環境的干擾有關。WiFi設備定位的精度與AP布設的密度有關。以上海軌道交通網絡為例,AP分為兩類,一類為固定AP,主要布設于車站站廳、站臺和換乘通道內;另一類為移動AP,布設在列車各節車廂內。WiFi嗅探數據的采集原理如圖1所示。乘客攜帶打開WiFi功能的設備進入車站,會先后被布設在站廳、站臺、車廂等的AP采集到,AP按平均2 min的間隔將采集到的嗅探信息連續上報至中央服務器。

圖1 WiFi嗅探數據的采集原理圖
WiFi嗅探數據從采集到可用,需經過數據采集、數據清洗、數據標準化處理和數據入庫四個過程。數據采集是AP服務器接收上報數據(包括AP的MAC地址、WiFi設備的MAC地址、采集的日期時刻等信息)后生成流文件,數據處理服務器定期掃描流文件,如果發現新的文件則啟動數據處理任務,然后結合固定或移動AP位置的標簽信息,轉換成結構化數據。數據清洗包括數據去重、有效MAC地址識別、MAC地址加密、數據匹配、量綱統一,以及時間同步性效驗等過程。數據標準化處理包括格式轉換、賦缺省值、類型變換、代碼轉換、特定字符轉換等。數據入庫是將標準化處理后的乘客軌跡數據存入數據庫服務器中,以供日后長期存儲和后期加工用。
WiFi嗅探數據轉換后可以得到乘客的原始軌跡數據,包括WiFi設備的MAC加密地址、數據抓取的日期和時刻、車站名稱、設備位置、線路編號、車體編號、車廂編號等基礎信息,如表1所示。
目前,上海軌道交通網絡在車站的站廳、站臺和列車的每節車廂都布設了WiFi設備,為乘客提供免費網絡服務。對每位乘客的MAC地址按采集時間進行排序,可以得到該乘客在一天中的出行原始軌跡。基于2017年8月某日獲取的站臺、站廳和列車WiFi設備采集的數據約為5 000萬條,MAC的采樣率約為網絡進站量的60%(200萬~300萬),原始數據的完整性接近33%,加上還原算法還原后的數據,完整性可接近50%。對乘客實際出行軌跡進行還原分析,發現目前WiFi嗅探數據自身存在一些典型性問題。這些問題的解決一方面需要通過提升設備可靠性來保障,另一方面需要結合列車運行和乘客出行規律,選擇相應的算法來修復。

表1 地鐵WiFi嗅探數據轉換后的主要信息
WiFi嗅探數據存在的問題主要有:
(1)數據采集與上報數據的缺失與重復問題。上海軌道交通目前布設的AP中,存在一些AP(包括列車AP)的嗅探數據無法成功上報至服務器的情況;另外,上報的數據中也有無法識別的AP信息,同時還有大量數據重復上報(約占總數據的1/4)。
(2)軌跡數據的不完整性問題。由于AP布點的不完整,加上AP故障或網絡故障,上報的嗅探數據常常會不完整,導致部分乘客的出行過程識別存在困難,可以識別完整鏈路的MAC并不多,約占10%。原始軌跡數據存在的常見問題見表2。但總體來看,大部分已經采集到的軌跡數據還是有效的,可以通過相應的數據還原算法來補全。

表2 原始軌跡數據問題描述與有效性分析
(3)數據樣本問題。部分乘客有可能沒有攜帶WiFi設備,或者攜帶設備的WiFi功能沒有打開,或者設備在中途打開或關閉了WiFi功能,這些情況會導致此部分乘客的原始軌跡數據缺失或不完整。
(4)iPhone隨機碼問題。IOS 8.0版本以上的蘋果設備在掃描AP時,手機向外發送probe request幀時會隨機生成MAC地址,只有當設備完成WiFi掃描并跟某一確定AP連接時才會給出真實的MAC地址,隨機碼會對同一軌跡對象的識別產生嚴重干擾。
(5)非地鐵乘客的干擾問題。在地面和高架站,AP很有可能采集到非地鐵乘客的WiFi設備。同時,線路上帶WiFi功能的固定設施設備及車站工作人員等軌跡數據都會對數據的加工產生干擾。
(6)時間同步性問題。WiFi嗅探數據采集的系統時間可能與北京時間不同步,會對原始鏈路的時間排序產生干擾,需要在轉換前對時刻進行修正。
(7)數據的實時處理速度問題。一是數據采集、傳輸以及入庫的過程需要2~3 min延遲;二是目前嗅探數據的上報機制為AP發生切換后才上報,造成乘客在固定位置或列車上時信息不能及時更新;三是嗅探數據容量非常大,加上網絡拓撲結構的復雜性,針對數據的預處理、清洗以及加工的時間比較長。為此,需要采用高性能的計算集群,并研究高效的數據處理算法來優化。
選擇部分完整鏈路數據,初步分析發現,既有的軌跡數據中,主要存在三類典型的特征軌跡,如表3所示。

表3 典型的特征軌跡描述與分析
識別上述不同的軌跡特征是原始軌跡數據挖掘的基礎。可根據時間和空間上的移動軌跡將乘客進行分類,然后針對不同的類型乘客(或設備)的特征進行清洗和數據還原。
客流分析的基礎是要還原每位乘客的出行鏈路。由于原始軌跡數據的不完整性,且原始軌跡數據中有可能包括了多次出行過程,因此,針對出行鏈路的原始軌跡數據處理流程是:首先對原始軌跡進行鏈路識別與拆分,然后通過數據補全等方法還原每次出行完整結構化的出行軌跡。如圖2所示。

圖2 乘客出行原始軌跡數據處理流程
(1)出行階段識別。乘客出行由若干階段組成,依據地鐵內乘客的出行行為,可將乘客的每次出行過程分解為進站、候車、上車、乘車、下車、換乘和出站等7個階段。乘客在不同出行階段的軌跡特征是不同的,如上下車過程需要與列車運行的交路以及到發時刻進行匹配,換乘過程需要結合車站的拓撲結構和換乘組合形式來確定。
(2)出行次數判別與拆分。針對單個乘客出行軌跡中可能包括多次出行的情況,需要對每一次的出行過程進行識別與拆分。乘客出行過程中,通常情況下后一次出行與前一次會有一定的時間差,如果兩條連續的軌跡銜接時間長度超過了,則可以判定為后面的軌跡為另一次出行過程;如果后一連續軌跡與前一連續過程發生在同一條線路,但列車的運行方向相反,則不論兩條軌跡的銜接時間是多長,可將后面的軌跡判定為另一次出行過程。
(3)乘客完整的出行軌跡還原。針對不完整的乘客出行軌跡,可以結合出行階段和狀態,建立乘客與車站和列車的時空關聯模型。結合采集的軌跡序列,通過設計相應的算法,對乘客進站、候車、上車、乘車過程、下車、換乘、出站的全過程軌跡進行還原。
(4)區域人數的計算。基于完整的乘客出行軌跡,可以計算出各車站的分時進出站客流、各換乘站不同換乘方向的分時換乘客流、各站臺和站廳的分時聚集客流、站臺的上下車和候車客流、列車載客人數與滿載率、分車廂的人數等客流指標。
以上海軌道交通網絡2017年8月某日采集的嗅探數據為例,經過數據清洗和隨機MAC剔除,轉換加工后數據約3 500萬條。基于原始軌跡數據,可以得到網絡分時(15 min)的MAC進網量,然后結合經驗擴樣系數進行修正(規則是基于不同時段采集的MAC占AFC采集的總進站量的比例來制定的,總體原則是高峰比例比平峰比例低,過渡時段采用插值法來計算),最后與AFC系統的實際刷卡進站數據對比(如圖3)。從圖3中可以看出,擴樣前的MAC進網量較AFC進站量要小,但總體變化趨勢是一致的;擴樣后,客流的變化趨勢與實際AFC的進站數據吻合度非常高。因此,從大數據分析的角度講,WiFi嗅探數據的總體樣本與網絡客流的變化規律是吻合的。
WiFi嗅探數據對地鐵客流的分析優勢更體現在微觀層面的乘客軌跡還原上。表4給出了采集到的某兩位乘客的軌跡數據。從數據中可以完整識別這兩位乘客的全天出行過程。如ID為1的乘客7:57從曹楊路站進站上車,乘坐車號為424的列車(2號車廂),于8:08到達目的地上海火車站站,18:57從上海火車站站上車,乘坐車號為425的列車(3號車廂)于19:16返回曹楊路站;ID為2的乘客15:41從靜安寺站上車,乘坐車號為208(2號車廂)的列車至中山公園站,換乘至3/4號線,乘坐車號為301(6號車廂)的列車離開中山公園站。由于缺失后續的數據,經與列車運行圖匹配,可知301號列車16:07運行在金沙江路—曹楊路的區間上,因此可得到該乘客在中山公園的乘車方向為江蘇路—中山公園—金沙江路。雖然目前大部分乘客的軌跡數據不完整,但結合實際和計劃列車運行圖、AFC刷卡數據,可以通過多種數據還原的算法來實現路徑的有效還原,從而得到網絡客流的分布特征。

圖3 AFC刷卡數據與WiFi嗅探數據加工后的進網量數據對比圖

表4 某兩位乘客的軌跡數據
基于乘客在地鐵網絡中的出行時空軌跡識別,進一步得到網絡客流在時間和空間上的流量和流向,一直是網絡化運營中的難點問題。本文僅對目前上海軌道交通網絡獲取的WiFi嗅探數據進行了初步分析,從分析結果來看,目前WiFi嗅探數據的采集和轉換加工的技術條件已經具備,從采集的數據質量來看也能滿足客流特征分析的要求。但由于樣本數量、數據缺失等問題,再加上網絡結構復雜、客流量大,針對數據的加工處理、數據還原、數據的深度挖掘仍然面臨諸多挑戰,這也是未來研究的重點方向。
參考文獻
[1] 張霖,韓寶明,李得偉.基于圖像技術的城市軌道交通大客流辨識[J].都市快軌交通,2012(1):72.
[2] 唐小勇,周濤,陸百川.基于手機信令的大范圍人流移動分析[J].重慶交通大學學報:自然科學版,2017(1):82.
[3] 蒲一超,尹梅枝,朱瓊斯,等.基于手機數據的地鐵線網清分模型驗證與優化[J].都市快軌交通,2017(4):102.
[4] 李思杰,朱煒,黃兆東.基于WIFI數據的城市軌道交通乘客出行時空軌跡推定[J].華東交通大學學報,2017(2):85.
[5] 羅宇鋒,王鵬飛,陳彥峰.基于RSSI測距的WiFi室內定位算法研究[J].測控技術,2017(10):28.
[6] 高仁強,張曉盼,熊艷,等.模糊數學的WiFi室內定位算法[J].測繪科學,2016(10):142.
[7] DAVIDSON P,PICHE R.A Survey of Selected Indoor Positioning Methods for Smartphones[J].IEEE Communications Surveys&Tutorials,2017,19(2):1347.