張翔
近年來,“以人民為中心的創作導向”、“以人民為中心的發展理念”等重要思想正式提出。2021年,自然資源部按照堅持以人民為中心的發展思想,發布《國土空間規劃城市體檢評估規程》(以下簡稱《規程》),確保國土空間規劃城市體檢評估的規范性和可操作性,有助于了解人民最關心最直接最現實的突出問題,提升人民群眾的獲得感、幸福感、安全感。《規程》倡導大數據等新技術和新方法的應用,對城市發展現狀及規劃實施效果進行分析和評價。鼓勵利用大數據等先進技術,提高對空間治理問題的動態精準識別能力。對此,可聯合電信運營商、互聯網公司等大數據提供方,對城市建設、人口和就業特征、交通和通勤特征、公共服務設施配置、空間品質等開展分析評價[1]。
自然資源領域常用的大數據包括POI數據、手機信令數據、交通IC卡數據、位置服務數據等[2-3],本文重點討論以手機信令數據為支撐的基本指標與推薦指標測算。
利用手機信令數據開展人口定量分析,彌補了傳統統計數據的不足,提高了對人類活動的動態監測水平,具有良好的實用性與適用性。目前手機信令數據的分類:移動通信運營商可以提供兩種手機信令數據服務方式。
第一種數據服務的數據處理結果是保留信令記錄,對信令數據字段中的信令時間戳、信令事件類型代碼、經度、緯度進行必要模糊處理。第二種數據服務的數據處理結果是按指定空間位置、指定時間段匯總用戶人數,不保留加密移動用戶識別碼、不保留信令記錄。城市體檢評估相關大數據分析一般為人的群體趨勢性分析,無需移動用戶識別碼等敏感信息。另外,考慮到分析的易用性,建議采用第二種數據服務開展分析工作。
本次研究所用數據源為遼寧省范圍內的聯通手機信令數據,時間跨度為2019年9月1日至9月30日,共30天,記錄時間精度為秒級,總記錄量為TB級別。涉及全省30天共記錄到1959萬個用戶,平均每天約1300萬。共有16個表單,近200多個字段,包含了用戶的實體行為以及虛擬空間的行為。

表1 手機信令原始數據包含的信息

圖1 遼寧省2019年9月某日24小時人口實時分布
運營商基于原始數據通過剔除非人卡號、處理“乒乓效應”、處理“基站漂移”等一系列數據處理工作,得到不同類型的數據表單,用戶可針對表單進行分析查詢操作。常用表單情況如下:
(1)用戶位置狀態:用戶一天的狀態分為駐留和出行。原則上用戶在同一位置停留超過 30 分鐘形成駐留,部分情況可能出現駐留時間小于 30 分鐘,用戶每日的駐留記錄在 stay_month 表,每一條記錄為用戶一次駐留行為,包含用戶的駐留位置網格,駐留起止時間、編號、類型等信息 。
(2)月度駐留行為:stay_poi表為用戶月度駐留行為的匯總,包含用戶月度所有駐留位置的編號、位置網格、類型、分時段駐留時長、頻次等信息 。
(3)駐留與駐留之間的出行行為:記錄在 move_month 表中,包含用戶每次出行的編號、起止位置網格、起止時間、類型、時間、距離等信息。
(4)用戶出行軌跡:根據用戶出行途徑的基站點與路網進行空間擬合,得到用戶出行軌跡的最可能路,根據用戶出行途徑的基站點與路網進行空間擬合,得到用戶出行軌跡的最可能路網節點,記錄到網節點,記錄到move_rn(由于信令定位的精度限制,算法會優先與主干道路進行匹配),通過與route_node表進行關聯,獲取到路徑經緯度信息,可以實現不同區域道路節點表的關聯,獲取到路徑經緯度信息,可以實現不同區域或者道路上出行量的統計。
(5)用戶屬性信息:用戶基礎屬性,通過uid、date、city字段與其余位置表進行關聯,以實現不同區域不同時間段的畫像特征統計。
(6)研究網格:s_city_grid,為方便數據統計和地圖展示,預置了以城市邊界范圍繪制的標準250*250米網格,可以通過經緯度關聯將用戶位置網格進行替換,并在極智平臺上進行制圖展示;客戶也可以自行上傳并同步不同大小形式的網格或者研究區域進行計算和展示。
數據源坐標系統:WGS84坐標系統。
利用手機信令數據,結合城市體檢評估要求[1],充分挖掘有價值的潛在信息,提出城市對外日均人流聯系量、工作日平均通勤時間、實際服務管理人口數量、45分鐘通勤時間內居民占比、軌道交通站點800米半徑服務覆蓋率等5項基本指標與推薦指標測算方法。
通過智慧足跡DaaS平臺提供的Spark & Hadoop混合大數據處理集群環境,對數據處理請求進行響應,再對應的數據存儲及處理環境中進行數據建模及加工處理。借助SQL語言進行數據查詢建模,注入查詢條件,通過DaaS平臺獲取分析結果。利用Python編寫爬蟲程序,爬取相關的互聯網地圖POI信息資源。通過ArcGIS完成分析結果的處理與可視化展示。
從加密移動用戶識別碼無法識別特定個人并無法復原對數據安全是至關重要的,在一般情況下只許輸出聚合統計后的指標結果。同一個移動用戶識別碼在不同區域加密后得到的加密移動用戶識別碼相同。由于手機信號等不穩定因素,導致有些數據可能存在異常,比如信號丟失或信號位置偏移嚴重等,需識別并清理該部分異常數據,確保分析結果的準確性[4-6]。
基于聯通手機信令的大數據技術,以250m*250m正方形網格為最小單位,提取大連市域常住人口、OD通勤以及職住關系等特征信息,賦予每個網格分析結果信息,結合GIS工具,形成實時精確的數據可視化解決方案,滿足各類數據分析應用場景。
GIS空間數據均采用WGS84坐標系,如果其他原始數據不屬于,可采用坐標系變換的方式,或利用基礎影像圖、控制點等數據對其進行校正。
通過手機信令數據融合提取每個用戶連續一個月的出行軌跡,進行匿名化處理,完成排除異常、消除乒乓效應等數據清洗工作后,采用聚類分析的方法進行軌跡頻繁模式挖掘[7],DaaS平臺在聚類分析的數據基礎上提供多類表單。下一步重點分析表單結構,篩選對其有用的表名與字段,基于提供的基礎內容構建人群特征分析、OD分析等核心算法,結合五種指標的描述,根據數據源挖掘其潛在價值,建立分析模型,分析得出相對應的指標信息,并可利用ArcGIS或QGIS等工具完成可視化操作。

圖2 數據挖掘的技術路線
單位:萬人次;
分析過程:
識別每個ID的停留O點和D點,大于1小時停留算有效停留。當天該ID的出發地O點在城市A,目的地D點在城市A外,此類情況就算該天的一次對外人流,D點發生時間不做設定。匯總得出每日的城市對外人流聯系量,30天累加平均后獲得。計算結果為30.53萬人(未擴樣)。

圖3 遼寧省省域范圍內各街道對外OD分析
單位:分鐘;
分析過程:
從數據集的Move_month表單中提取城區工作日內,家到工作地移動的總人數作為總的通勤人口,計算該部分人口的總的家到工作的時間為工作日總通勤時間,并與工作日總通勤人口數量的比值計算獲得。結果為30.53分鐘。

圖4 大連市平均通勤時間分析
單位:萬人;
分析過程:
利用聯通手機信令數據識別大連市域內9月每天的停留人口(stay_day表單),定義實際服務人口:常住人口+短期駐留人口+其他人口。其中短期駐留人口:一個月內出現大于1天且小于10天(每天停留時長3小時以上);其他人口:一個月內出現大于10天且小于18天(每天停留時長3小時以上);常住人口:一個月內出現大于18天(每天停留時長3小時以上);三類人口加和后進行擴樣[8]。結果為1050.2萬人(未擴樣結果251.6萬人,擴樣系數0.239679875)。

圖5 實際服務人口分布情況
單位:%;
分析過程:
從數據集的Move_month表單中提取城區內從家到工作地移動的總人數作為總的通勤人口,計算其在家到工作地的時間,通過篩選通勤時長在45分鐘以內通勤人口,并與總通勤人口數量的比值計算獲得。結果為占總通勤人口的93.30% 。
單位:%;
分析過程:
以獲取的軌道交通站點點位,做800米的點緩沖。識別該范圍內的居住人口,以及就業崗位數(居住人口,就業崗位可從數據集中直接提取),兩者的比值即為人口和崗位覆蓋率。計算結果,800米內人口/總人口=0.21;800米內崗位/總崗位=0.32;(800米內人口+崗位)/(總人口+總崗位)=0.24。所以最后結果為24%。

圖6 研究范圍內工作人口居住/工作地與軌道交通站點的關系
本文探討了如何利用手機信令數據,挖掘有價值的潛在信息,并以大連市為例深入實踐,為國土空間規劃城市體檢評估相關指標測算提供了新技術、新方法。并分析了目前主流手機信令數據的兩種類型,從分析的易用性角度給出選擇建議。基于連續一個月的聯通手機信令數據,構建了技術路線,重點開展了城市對外日均人流聯系量、工作日平均通勤時間、實際服務管理人口數量、45分鐘通勤時間內居民占比、軌道交通站點800米半徑服務覆蓋率等5項基本指標與推薦指標測算。但由于目前手機信令數據源較為單一,缺少其他兩個運營商數據,在人群覆蓋度、擴樣系數方面存在誤差。因此,應探索三大運營商數據結合的方法,提升數據準確性,充分發揮手機信令數據在國土空間規劃城市體檢評估中的作用,提高對空間治理問題的動態精準識別能力,為新一輪國土空間規劃提供技術支撐。