張 惠,沈 亮,李寶磊,戴鵬程
(中國移動通信集團設計院有限公司 北京100080)
近年來,移動互聯網用戶連續呈現爆發式增長,一方面得益于移動網絡的發展、智能終端價格及流量資費下降等外部因素;另一方面,移動互聯網應用在用戶中的快速普及,成為用戶規??焖侔l展的內在推動力,而作為業務承載管道的運營商則擁有了最優質的數據資源。
隨著當下數據采集、存儲與數據挖掘分析技術的日益成熟,如何利用大數據技術,盡可能多地收集數據,整理關聯數據,保存數據,充分發揮大數據的價值,盡可能地發掘數據的行業應用,轉化大數據資產的價值,為用戶提供更加優質、個性化的服務,增加用戶粘性,是運營商未來業務發展的趨勢和目標。
中國移動通信集團設計院有限公司網優所借助長期對移動網絡數據的測試、優化與運營,積極探索移動大數據的行業應用,近期使用自主開發的大數據挖掘分析平臺(DMAP)完成了手機數據在交通規劃中的咨詢分析,本文對這一應用進行詳細介紹。
交通數據傳統的采集手段包括交通燈、感應線圈探測器、視頻圖像處理裝置以及基于GPS的車體等,這種采集手段的優點是大量的設備已經投入應用,應用基礎好;缺點是建設成本和運營維護成本較高,且提供信息的范圍有限。
相比其他數據源,手機數據的優勢在于以下4個方面。
①手機數據的采集對象為手機終端,交通出行的人群主體是手機的主要使用群體,因此,基于手機數據分析得到的交通信息能夠反映主體人群的交通特征及規律。
②手機數據包含的信息具有樣本量高、實時性強的特點,可以對移動用戶進行連續追蹤,再現手機用戶的出行鏈,可以按照規劃需求進行出行鏈的分割。
③手機數據信息可以濾除用戶屬性信息,將用戶手機號碼進行加密處理,不涉及用戶隱私。
④手機作為交通信息采集設備,具有投資少、見效快的優點,有廣泛的覆蓋范圍和低廉的建設成本,且包括全天全量信息,采集不受氣候干擾,具有高度的靈活性。
目前,基于手機數據的人員出行信息分析技術主要采用兩類手機數據:手機話單數據和手機信令數據。兩類數據源的數據內容及特點見表1。
兩者的差別在于手機信令數據定位信息更完整,但采集依賴于運營商采集設備是否完善;手機話單數據是手機信令數據的子集,其獲取難度較低。
(1)數據的獲取
通過部署在省公司端口的數據采集設備,進行原始數據的格式封裝、采集存儲。
(2)數據的預處理
采集的數據均為原始二進制碼流,需要通過DMAP 工具進行內容解析及格式轉換,并且進行信息的清洗和過濾,在提取出來的多個字段信息中,依據分析需求保留需要的字段,同時實現手機號碼的加密處理。
(3)信息匹配
依據提取數據中的LAC/CI 字段,與小區基礎數據進行信息匹配,從而實現經緯度信息的關聯,通過IMSI 字段區分出本地和漫游用戶信息。
(4)輸出結果
按照相關統計算法,獲得手機用戶出行信息并以圖表方式進行輸出呈現。
數據處理流程如圖1 所示。
以某地為例,采集連續7天的手機信令數據,采集有效數據樣本4.7 億條,涵蓋該交通分析區域本地手機用戶547 萬人(該區域人口數量為845 萬,分析人口滲透率為64%),漫游用戶259 萬人。

表1 數據源內容及特點

圖1 數據處理流程
在規劃區內識別手機用戶的出行時間、出行次數、出行速度等信息,用于評估城市的總體交通出行和服務水平。
(1)出行時間
每小時內同一用戶的經緯度有變更,計為移動用戶,統計全網每小時移動用戶數,同一用戶不累計,如圖2 所示。人流出行主要分布于8:00~11:00、17:00~19:00,通過這項分析確定用戶出行的早晚高峰時段,后續重點進行公交數據、出租車數據等其他路網數據在該時段的分析。
(2)出行次數
按照時間序列,同一用戶的下一條信令記錄位置信息與上一條信令記錄不一致時,則該用戶移動次數累加,從而統計全域中所有用戶每天出行次數,如圖3 所示。案例區域中,周平均出行次數為13 人次,工作日(周一~周五)為14 人次,周末為12 人次,一周內55%的手機用戶每天的位置移動在10 次以下,周末兩天該占比為57%;一周內移動次數在50 次以上的用戶占比為0.08%,周末該占比為0.06%,周末人們的出行強度比工作日低。
(3)出行速度
速度=距離/時長(距離=用戶位置變遷前后經緯度距離,時長=變遷后第一條記錄時間點-變遷前第一條記錄時間點),按照距離區間統計移動人次,案例區域中,在30 km/h 以上的高速用戶人次占比在20%以上,交通需求較高。手機用戶出行速度分布如圖4 所示。

圖2 手機用戶出行時間分布

圖3 手機用戶出行次數分布

圖4 手機用戶出行速度分布
(4)人口分布
可通過手機用戶信息實現動態監測人口的空間分布情況,分析不同時刻每個交通分析區域內的人口數量或人口密度。
同一位置點的用戶篩重,統計時段內用戶數量。案例區域內,白天用戶熱點主要分布于主城區,夜間用戶熱點分布會向郊區擴散,周末的用戶熱點分布向郊區擴散的情況更為明顯,漫游用戶則主要分布在景點較多的幾個行政區。用戶熱點分布如圖5 所示。
(5)大區間OD 分布
根據時間序列,每一用戶信令記錄的第一個區域是出發點O 區域,區域位置變更一次記為到達點D 區域,以此分析區域間客流交換情況。
以某地為例,從全交通規劃區OD 分布來看,區域1 到區域2、區域2 到區域3、區域3 到區域4的人流交換最多,人流交換高峰出現在17:00 左右。區域OD 分布如圖6 所示。
依據上述手機數據輸出信息,再結合公交車數據、出租車行駛數據以及其他路網數據為后續的交通規劃提供依據。

圖5 用戶熱點分布

圖6 區域OD 分布
手機數據是交通規劃的重要數據源之一,依據該數據可充分把握交通情況現狀,包括全網用戶及漫游用戶分布,各區域的人口產生量與吸引量,人口出行時段、出行距離、出行強度現狀等。此外,手機數據應用于交通規劃可改善交通需求預測分析的可靠性,利用歷史與目前交通數據,結合未來人口、經濟水平等,預測規劃年度出行需求,或用于交通規劃后評估、模型參數校正等,從而真正實現交通規劃的模型化、定量化與科學化。