胡必松
(軌道交通工程信息化國家重點實驗室(中鐵一院),西安 710043)
鐵路車站客流是進行車站合理規劃布局、確定設備設施規模及制定運輸組織方案的基礎數據,通常包括車站旅客發送量、客流流向及占比、高峰小時旅客發送量及高峰小時系數、車站最高聚集人數等指標,目前主要通過傳統交通檢測手段獲取。在移動通信大數據時代,手機已經成為現代人必備隨身工具,截至2020年5月,中國移動、聯通、電信三大運營商手機用戶總數已達15.9億戶,通過手機終端產生的信令數據和基站位置即可定位使用者的當前位置,還原個體在時間維度、空間緯度上的出行鏈路信息,這些海量數據為鐵路車站客流的提取及分析提供了新的手段支持。相較于傳統的交通檢測手段,手機信令數據具有覆蓋范圍廣、數據穩定可靠、樣本量大、成本低的優勢[1-3],如何在海量手機信令數據中快速、有效提取車站客流,對鐵路部門制定科學決策具有重要意義。因此,有必要對移動通信系統網絡構成、空間覆蓋特征、手機信令數據結構、信令數據提取、數據清洗、車站客流提取等進行系統研究。
GSM 移動通信系統主要由基站子系統(Base Station Subsystem, BSS)、網絡交換子系統(Network Switching Subsystem, NSS)、操作與維護子系統(Operation Subsystem, OSS)和移動臺(Mobile Station, MS)四大部分組成[4-6],如圖1所示。在GSM移動通信系統中,移動臺通過通信基站和固定的通信網絡連接,中間信號通過信道傳輸鏈路進行傳遞。

圖1 GSM移動通信系統總體結構示意
從空間覆蓋范圍上看,移動通信系統一般劃分為MSC區、位置區(Location Area)、基站區和小區(Cell)四個層級,如圖2所示,其空間覆蓋與網絡設備的層級對應關系如表1所示。

圖2 移動通信系統的網絡覆蓋分區關系

表1 空間覆蓋與網絡設備的層級對應關系
(1)移動通信系統能提供龐大的用戶支撐
GSM移動通信系統是全球用戶量最大的移動通信網絡,我國三大通信營運商大部分語音和短信業務仍然要依賴于GSM網絡。GSM系統龐大的用戶群體可有效保證數據數量的要求;同時,GSM系統在穩定性和覆蓋范圍方面具備的優勢對于客流空間層面的特征研究是高度可行的。
(2)手機定位技術提供切實可行的技術支撐
采集手機信令數據無需對通信網絡和用戶手機進行改造,其成本低廉、操作方便、定位快速,可實施性高。定位精度在市域范圍內為50~200 m,完全可以滿足鐵路區域客流研究精度要求。
(3)手機信令數據提供多維度的數據支撐
手機信令數據具有樣本量大、空間覆蓋范圍廣、實時動態性強的特點,通過手機定位技術所產生的手機信令數據主要包括移動臺識別號(Mobile Station ID,MSID)、時間戳(Timestamp)、位置區編碼(LAC)、小區編碼(CELLID)、用戶歸屬地(Qcellcore)、事件編號(EVENTID)等信息[7-9],如表2所示。因此,能夠通過這些數據對旅客出行時空軌跡進行動態追蹤,從而為鐵路區域客流特征提取提供多維度、多時段的樣本研究數據支撐。

表2 手機信令主要字段含義
基于手機信令的鐵路車站客流提取技術流程主要包括手機信令數據提取、數據清洗、客流特征提取3個步驟,技術流程如圖3所示。

圖3 技術流程
數據提取:即根據車站研究范圍設定信令采集基站分布,采集研究區域內相關時段旅客的手機信令數據。
數據清洗:即對手機信令數據進行預處理,使之滿足客流特征提取要求,主要包括信令數據簡化、信令數據除燥、數據擴樣、鐵路網絡基站數據庫構建4個步驟。
客流特征提取:在識別旅客出行軌跡后,提取相關車站客流特征,包括車站旅客發送量、客流流向及占比、高峰小時客流量及高峰小時系數、車站最高聚集人數等。
由GSM系統中的七號信令檢測卡在移動通信網絡中的特定接口處檢測原始信令信息,再通過信令解析服務器解析、合成原始信令代碼,最終生成手機信令信息,采集系統如圖4所示。

圖4 手機信令數據采集系統示意
根據手機信令數據結構及車站客流特征提取需要,采集的信令信息主要內容如表3所示。

表3 手機信令數據采集
采集的手機信令數據是進行客流特征提取的原始基礎數據,其中包含的移動設備識別碼、時間戳、小區編碼、用戶歸屬地等信息通過簡化、相關算法提取,即可得到客流特征研究所需的旅客出行流量、流向及時間等信息。
(1)信令數據簡化
數據簡化是對采集的手機信令數據文件進行數據填充、初步篩選,具體步驟如下。
步驟1:數據填充。在數據文件中添加用戶歸屬地及基站經緯度坐標數據字段,先用空值填充,轉步驟2和步驟3,后轉步驟4。
步驟2:依據用戶識別碼(EMSI)確定每一行數據的用戶歸屬地,并填充對應字段數據。
步驟3:將位置區編碼(LAC)、基站區編碼(BSCID)、蜂窩小區編碼(CELLID)確定信令采集基站的具體位置,填充經緯度字段。
步驟4:初步篩選。刪除基站區編碼(BSCID)、移動設備識別碼(IMEI)以及移動業務交換中心編碼(MSCID),形成初步數據文件。
(2)信令數據除燥
通信系統產生的手機信令數據存在無效數據、重復數據、乒乓數據、漂移數據等噪聲數據,會影響研究結果的精度與準確性,也會增加數據處理工作量與復雜度,因此,需預處理進行除燥。
無效數據處理:指不能真實記錄通信網絡信令時間發生狀況的數據,需要識別并刪除。無效數據主要包括兩類,一是字段缺失數據,數據中一個或幾個字段為空;二是Flag=001的數據,即沒有成功獲取用戶的IMEI,無法準確記錄用戶信息。
重復數據處理:重復數據指各個字段均相同的重復數據,以及一些信令事件在短時間(數秒)內產生的多條除Timestamp外其他字段均相同的數據,過濾保留其中一條數據。
乒乓數據處理:乒乓數據是由于基站小區的無線信號重疊覆蓋和信號強度波動,造成的手機在短時間內頻繁在附近多個基站間來回切換而產生的數據,需進行過濾保留其中一條數據。
漂移數據處理:信號漂移現象為GSM系統中手機的通信鏈路從臨近基站切換至位置較遠的基站,該類數據中存在短時間內長距離移動不符合用戶實際活動行為,會干擾算法識別,影響研究結果的精度與準確性,需對其進行過濾。
(3)信令數據擴樣
綜合考慮營運商市場占有率、采集終端信令抓取率,對信令數據逐層進行擴樣,如圖5所示。

圖5 手機信令數據擴樣流程

采集終端信令抓取率擴樣:主要考慮目前手機尚未100%普及,如部分老人和兒童無手機;部分手機用戶可能持有2個以上的手機終端,如雙卡雙待;信令采集終端可能會漏抓部分信令;部分用戶習慣長時間關機。設該區域信令抓取率為β,則區域旅客總量Npassenger=Nuser/β。
綜上,一位終端用戶代表旅客人數λ=1/(αP×β)。
(4)基站數據庫構建
構建鐵路站點基站數據庫DBStation(L,C,α)和鐵路線路基站數據庫DBLine(L,C),其中,L為位置區編碼LAC;C為小區編碼CELLID;Station為站點名稱;Line為線路名稱;α為0-1變量,α=1表示收集來自候車廳的用戶信令,α=0表示來自站臺的用戶信令。
為提取客流特征數據,定義旅客單次出行數據中第i條手機信令數據為Pi(Ti,Li,Ci,Ei)。其中,Ti為第i條手機信令數據上傳時間,即TIMES TAMP信息;Li為第i條手機信令數據的LAC編號;Ci為第i條手機信令數據的CELLID編號;Ei為第i條手機信令數據的EVENTID編號。此外,在識別數據文件中添加Station、Site、Behavior、Line4個字段,并用空值填充。其中,Site表示信令采集時旅客位置,在候車廳Site=Wattingroom,在站臺Site=Platfrom;Behavior表示旅客在站出行行為,旅客進站Behavior=Enter,旅客檢票上車Behavior=Checkingin&Aboard,旅客下車出站Behavior=Exit,旅客換乘Behavior=Interchange,旅客過站Behavior=Pass。
(1)旅客出行軌跡識別
依據旅客單次出行信令數據,按照進站、出站、換乘站點識別方法及出行線路匹配方法,提取旅客單次出行軌跡的時空數據,步驟如下。
步驟1:進站站點識別與標記
搜索首個Pi,滿足Pi(Li,Ci)∈DBStation(L,C,α==1)、Ei==03,令m∈+,然后依次搜索信令Pi+m。若Pi+m(Li+m,Ci+m)∈DBStation(L,C,α==0)、Ei+m==03、Ti+m-Ti≤Tin,其中Tin為旅客進站時間閾值,則判定Pi、Pi+m代表一次進站行為,令Stationi=Station、Sitei=Wattingroom、Behaviori=Enter、Stationi+m=Station、Sitei+m=Platfrom、Behaviori+m=Checkingin&Aboard,刪除第i+1至m-1條信令數據。令k=i+m,轉步驟2。
步驟2:出行線路匹配
令n∈+,依次搜索Pk+n,若Pk+n∈DBLine(L,C)、Ek+n=03,令Linek+n=Line,刪除第k+1至k+n-1條信令數據,置k=k+n+l,轉步驟3。
步驟3:離站站點識別與標記
設置旅客離站時間閾值TI-P,若存在信令Pk+j,j∈+,滿足Pk+j∈DBLine′(L,C)、Ek+j==03、Tk+j-Tk≤TI-P,說明旅客到達Station站后乘坐列車沿線路Line′繼續出行,轉步驟4;否則,說明旅客到站后沒有繼續乘坐列車,選擇離站,則令Stationk=Station、Sitek=Platfrom、Behaviork=Exit,刪除Pk之后的信令,旅客單次出行軌跡識別完畢。
本研究使用SPSS 18.0軟件進行統計學處理,計量資料以(±s)表示,若符合正態分布采用t檢驗,若不符合正態分布采用秩和檢驗,計數資料以率(%)表示,采用字2檢驗,等級資料采用秩和檢驗,P<0.05為差異有統計學意義。
步驟4:換乘站點與中間站點識別
判斷旅客從線路Line到Line′是否需要換乘,若需要,說明站點Station為旅客出行換乘站點,轉步驟5;否則,站點Station為旅客出行中間站,轉步驟6。
步驟5:換乘站點標記
令Stationk=Station、Sitek=Platfrom、Behaviork=Interchange。令j′∈(0,j),判斷Pk與Pk+j之間是否存在信令Pk+j′∈DBStation(L,C,α==0),若存在,則刪除第k條至第k+j′-1條信令數據,令Stationk+j′=Station、Sitek+j′=Platfrom、Behaviork+j′=Interchange,置k=k+j′,轉步驟2;否則,直接轉步驟2。
步驟6:中間站點標記
令Stationk=Station、Sitek=Platfrom、Behaviork=Pass。令j′∈(0,j),判斷Pk與Pk+j之間是否存在信令Pk+j′∈DBStation(L,C,α==0),若存在,則刪除第k條至第k+j′-1條信令數據,令Stationk+j′=Station、Sitek+j′=Platfrom、Behaviork+j′=Pass,置k=k+j′,轉步驟2;否則,直接轉步驟2。
步驟7:出行路徑是否有效
遍歷上述手機信令數據,若Pi(Ti,Li,Ci,Ei)中Station、Site、Behavior、Line4個字段不存在空值,則出行路徑有效,否則剔除。

圖6 旅客出行軌跡識別技術路線
(2)客流特征提取
①車站旅客發送量


②客流流向及占比
通過手機信令數據中的歸屬地Qcellcore字段進行篩選統計,車站在時刻t到t+ΔT之間來自地區location的客流可由下式計算得出
(1)
其中
③高峰小時客流量及高峰小時系數

④車站最高聚集人數

(2)
其中
則車站在時段[T1,T2]的車站旅客最高聚集人數
本案例信令數據采集運營商為中國聯通,采集時間跨度為2019年2月4日零時至2月10日24時,包含整個春節假期,信令采集基站覆蓋范圍為西安北站候車廳,采集數據共177 466條數據,部分數據及字段如表4所示。

表4 手機信令數據示例
經過數據簡化、除燥等清洗后剩余157 461條數據,根據中國聯通在各省份的用戶占有率及信令抓取率(本次取值85%),對數據進行擴樣,各省旅客的擴樣代表人數λ如表5所示。

表5 各省旅客擴樣代表人數
(1)旅客發送量
通過對結束時間字段提取每日車站旅客信令數據,再對擴樣代表人數λ求和,得到2019年2月4日至10日西安北站旅客發送量,手機信令擴樣旅客發送
量與實際發送量(來自中國鐵路西安局集團)對比如圖7所示。

圖7 西安北站手機信令擴樣旅客發送量與實際對比
信令數據擴樣旅客發送量與實際旅客發送量誤差在-4.85%~4.54%,說明提取技術有效。同時,西安北站2019年全年實際旅客發送量3860萬人,日均旅客發送量105735人,根據擴樣數據可計算得出西安北站客流波動系數為1.25。
(2)客流流向及占比
通過對信令歸屬地Qcellcore字段進行篩選統計,計算得出采集期間西安北站客流主要流向陜西省內部,占比41.4%,對外主要為河南、四川、甘肅、北京等地。手機信令擴樣旅客流向占比與實際流向(來自中國鐵路西安局集團)對比如圖8所示。

圖8 客流流向對比
(3)車站高峰小時客流量與高峰小時系數
通過手機信令數據,以1 h為間隔連續提取西安北站2019年2月4日至10日的客流量,如圖9所示。

圖9 西安北站分時客流量


圖10 西安北站2019年2月10日實際客車分布
(4)最高聚集人數

手機信令數據能夠對旅客出行時空軌跡進行動態追蹤,其樣本量大、定位快速,可實施性高,因此,能夠用于區域鐵路客流的提取。本研究基于GSM通信系統中手機定位技術對旅客手機信令數據進行采集,通過數據簡化、除燥、擴樣、數據庫構建等步驟對手機信令數據進行清洗,在識別旅客出行軌跡的基礎上,設計了車站旅客發送量、客流流向及占比、高峰小時旅客發送量及高峰系數、車站最高聚集人數等客流特征提取技術。最后,以西安北站為案例,進行手機信令擴樣后的區域客流數據與實際數據對比,驗證了技術的有效性和可行性。