魏姍姍,王 揚,徐 暢,王 琳
(1.山東省交通科學研究院,山東 濟南 250031;2.北京工業大學,北京 100124)
隨著中國智慧城市建設的不斷推進以及人口老齡化問題的日益突出,對城市精細化規劃、治理,以及更好地為老年人提供社會服務都提出了新的挑戰。傳統上獲取城市人口空間分布結構的方法主要是人口普查,而基于常住人口或戶籍人口的人口普查數據不但收集、更新成本高,而且普查間隔較長,僅能代表調查地區某一時間段的靜態人口數據,不能表示潛在的人口數及實時的動態人口數據,已經不能滿足智慧城市發展的需求。大數據分析不僅對城市管理者制定政策和規劃具有指導意義,而且可以為市民的日常出行或其他活動提供更優質的服務。手機數據因其覆蓋人群廣、范圍大,持續性強,并且能實時定位等特點被廣泛應用。
相關研究表明手機數據在增強城市管理的創新應用方面的適用性[1]。由于手機數據具有定位功能,可以根據手機數據推斷用戶的出行信息,研究居民的出行行為[2]。雖然手機數據在用戶出行相關方面的研究眾多,但是目前利用手機數據評估人口數量及識別特定人群的研究較少。因此,研究基于手機數據識別老年人群的方法,旨在未來的人口統計和城市規劃中,有可能使用手機數據進行補充甚至替代人口調查,進一步提高城市服務水平。
常用的手機數據可分為兩大類:一是基于手機內置傳感器的數據,二是基于蜂窩網絡的手機信令數據。采用數據為北京市基于蜂窩網絡的中國移動手機信令數據。數據主要包括的字段見表1,每個手機號都有唯一標識碼IMSI,數據中包含數據上傳時間、地點、觸發的基站名稱、蜂窩編號、所處的交通小區以及觸發事件的類型。

表1 通訊詳單數據各字段
通過定位技術采集到的手機數據由于傳輸或其它干擾因素,會存在噪音數據,因此,需要對其進行質量控制,剔除“噪聲”數據。對于基于蜂窩網絡的定位數據,噪聲數據主要包括重復數據和“乒乓數據”兩類。
重復數據是指所有字段完全相同的兩條或兩條以上記錄數據,對于重復數據只保留一條數據記錄,重復的記錄進行刪除處理。針對重復數據的處理步驟:(1)根據所有字段,找到所有字段相同的記錄數據;(2)針對Step1 得到的記錄數據,根據用戶識別碼(IMSI)和時間字段(TIME),每個用戶在相同的時間僅保留一條記錄,刪除其它重復的記錄。
“乒乓數據”是指由信號漂移導致的錯誤定位數據,表現為在很短的時間內,手機信號從臨近基站切換到相對較遠的基站,在一段時間后又切回到臨近基站。由于信號突然切換到較遠的基站,位置變動過大,這種數據可以根據設置速度閾值vmax,然后根據數據中前后三條數據之間的距離權重比f,進行進一步判斷。針對“兵乓數據”的處理步驟:(1)設初始值n=2,順序選取用戶IMSI中第n-1、n、n+1 三條數據;(2)根據時間和經緯度信息計算兩相鄰記錄之間的移動速度vn;(3)設置速度閾值,vmax=100 km/h,若vn>vmax,則判定n為“兵乓數據”;(4)在上述情況下,計算n-1、n、n+1 相鄰三條記 錄之間 的距離差分別為△dn-1,n、△dn+1,n,f為兩個距離差的比值。判斷當f>3 時,則判定n為“兵乓數據”;(5)刪除上述不符合條件的數據。
按照上述的數據處理方法,可以得到高質量、較為完整的手機信令數據。手機數據質量控制流程見圖1。

圖1 手機數據質量控制流程
以北京市為例,2019 年常住人口2 153.6 萬人,外來人口數量也十分巨大,人口流動性較大。北京市老年人口比例逐年增加,常住人口中60 歲及以上人口占比高達28.6%[3]。
北京市共有基站約1.4 萬個,六環以內的主城區基站分布更加密集,交通小區劃分更加精細,且道路網密度較高,見圖1。

圖2 北京市基站及六環以內交通小區和路網分布
由于手機數據的隱私性要求,一般用于研究的手機信令數據會對用戶的姓名、年齡等私密信息進行脫敏處理,所以無法直接通過手機信令數據得到用戶的年齡數據。要想通過手機信令數據識別老年人群,首先要找到典型的老年人行為特征,并且通過手機數據展現這些行為特征。
相關研究表明不同年齡的人群在出行距離、出行方式、出行次數等方面存在很大差異[4-5]。由于老年人已經退休,并且身體狀況可能不佳,所以老年人更傾向于使用當地設施,從事非工作活動,這些特殊性導致老年人的出行和需求與一般人群有很大不同[6]。相關研究發現老年人出行的目的主要是休閑和購物,出行方式以步行、公交和自行車為主[5]。盡管家庭中小汽車擁有量逐年上升,但是老年人因身體原因開車的比例相對較少[6]。
常用的城市交通出行方式有步行、自行車、電動車、公交車、地鐵、出租車、私家車、通勤班車等。將其歸類為步行,非機動車(自行車、電動車)和機動車(公交、地鐵、出租車、私家車、通勤班車)三類出行方式,基于手機信令數據進行出行方式辨識研究。
在出行特征調查中,調查了居民的出行次數、出行方式、每次的出行距離等信息。出行方式的調查日期為工作日,本次調查共發放402 份,有效份數310 份。
經過對調查結果進行統計分析發現,老年人群和非老年人群在出行方式、出行次數及出行距離方面有明顯的差異,見圖3 ~圖5。數據結果顯示:老年人群1 d 出行次數主要集中在≤2 次或3 ~4 次,出行方式中步行和非機動車占比高達80%,而且超過80%的老年人群單次最大出行距離≯3 km。而非老年人群的平均出行次數明顯高于老年人群,出行方式以機動車為主,最大出行距離也明顯高于老年人群,超過60%的非老年人群出行距離≥5 km。

圖3 老年人群和非老年人群1 d 出行次數

圖5 老年人群和非老年人群出行距離

圖4 老年人群和非老年人群出行方式
綜合分析,把出行次數、出行方式以及出行距離作為主要出行特征來進行老年人群識別。其中,出行方式的差異可以體現在不同交通方式的出行速度不同,因為手機信令數據可以通過出行中的起始時間和距離估算出出行速度,所以可以根據劃分速度閾值的方法對出行方式進行判別。
調查研究發現[7]:步行出行的平均出行速度范圍:0 ~5 km/h;自行車出行的平均出行速度范圍:5 ~15 km/h;公交車出行的平均出行速度范圍:10 ~20 km/h;小汽車出行的平均出行速度范圍:15 ~40 km/h;地鐵出行的平均出行速度范圍:10 ~30 km/h。結合以往居民出行調查的研究經驗,設定的出行方式和出行速度的對應關系見表2。

表2 出行方式和速度對照
用戶的出行次數和每次出行距離可以通過手機信令數據獲取,相關研究已經比較成熟,具體方法在此處不贅述。
由于生活習慣的不同,非老年人群和老年人群可能在通話特征上存在差異,以問卷的形式調查了居民的通話特征,包括工作日通話次數、周末通話次數、通話高峰時段等信息。
通過對問卷結果的統計分析發現,老年人群及非老年人群在工作日通話次數、周末通話次數、通話高峰時段方面存在明顯差異,分析結果見圖6 ~ 圖8。

圖6 通話次數(工作日)

圖7 通話次數(周末)

圖8 老年人群和非老年人群通話高峰時段
數據結果顯示:大多數老年人群在工作日通話次數≤2 次,最大≤5 次,在周末的通話次數也是以≤2 次為主,工作日通話高峰時段在07 00—11 00和11 00—15 00 的人數居多。而非老年人群在工作日和周末的通話次數都要明顯高于老年人群,并且非老年人群在周末的通話次數要略低于工作日的通話次數。在通話高峰時段方面,非老年人群主要集中在07 00—11 00 以及15 00—19 00 時段,并且有些非老年人群的通話高峰時段在23 00 以后。把工作日通話次數、周末通話次數以及通話高峰時段作為主要的通話特征來進行老年人群識別。
老年人群和非老年人群在出行特征及通話特征方面存在明顯差異,以出行特征(出行次數、出行方式、最大出行距離)和通話特征(工作日通話次數、周末通話次數、通話高峰時段)為分類特征,基于樸素貝葉斯分類技術,提出了基于手機信令數據的老年人群識別方法,具體流程見圖9。

圖9 基于貝葉斯分類的老年人群識別流程
以出行次數、出行距離、出行方式、周末通話次數、工作日通話次數、通話高峰時段為特征屬性,選取調查樣本中310 個用戶的數據,隨機抽取70%為訓練數據,其余為測試樣本,建成了樸素貝葉斯分類器,并驗證了其分類精度。其分類精度的混淆矩陣見表3,對測試樣本的分類準確性達到了91%。

表3 分類器混淆矩陣分析結果
基于構建的樸素貝葉斯分類器,對北京市六環區域內,每個交通小區的老年人群進行了識別。為驗證識別結果的可靠性,根據人口統計數據對老年人群識別結果進行了驗證。人口統計數據是以街道為單位,每個街道包含多個交通小區,而且可能包含交通小區的一部分,在進行數據驗證時,當某個交通小區的一部分屬于某街道時,則按照屬于該街道這部分的面積占該交通小區總面積的比來計算落在該街道的人口數。因此,這種驗證方式可能會存在一定的誤差。結合人口統計數據,隨機選取了幾個典型地點分別進行了驗證,表4 列出了驗證結果,平均百分誤差大約為31%。雖然平均由誤差左右,但所提出的基于手機數據識別老年人群的方法,相對于人口普查具有低成本和動態估算等優點,適用于需要頻繁估計老年人口的場景。

表4 人口數量識別驗證結果
基于傳統人口普查數據獲取成本高、耗時長等不足,提出了一種可以通過挖掘手機信令數據中用戶出行和通話信息,進行老年人群識別的方法,并通過實際統計數據驗證了該方法的有效性。驗證結果顯示,該方法在老年人群識別方面的準確率在69%左右,盡管該識別方法存在一定誤差,但是可以作為傳統人口調查的補充,在城市精細化管理及提高老年人群服務水平等方面具有重要意義。