戴碧濤 譚索怡 陳灑然 蔡夢思 秦爍 呂欣?
1) (國防科技大學系統工程學院, 長沙 410073)
2) (盲信號處理國家重點實驗室, 成都 610041)
人口遷徙是疫情傳播的重要媒介, 突發、大規模和分散的人類遷徙可將疾病的局部暴發轉變為廣泛流行[1-3].一方面, 頻繁的人口流動為遠距離、大規模傳播病毒感染創造了條件, 另一方面, 人群在不同地區間的往返活動, 對潛在感染者與易感人群的充分接觸傳播起到極大的促進作用.新型冠狀病毒感染的肺炎(COVID-19)可在人與人之間持續傳播, 在2020 年初新冠肺炎疫情的暴發期間,隨著春節及返程高峰的到來, 各地區間大規模的人口流動增加了交叉接觸傳播的風險, 為疫情防控帶來了極大的挑戰.截至2020 年12 月6 日24 時, 我國累計報告確診病例達86634 例, 累計死亡病例達4634 例.分析人口遷徙模式, 挖掘其背后的時空演化規律有助于分析疫情傳播路徑和控制疫情傳播范圍, 對疫情防控至關重要.
針對新冠肺炎的相關研究和防控工作已經迅速展開, 現有研究主要側重于流行病學的傳播特征[4-6]、基本再生數[7-9]等主要參數的估計以及基于傳播動力學進行感染人數預測[10,11].但傳統的動力學模型并不能模擬疫情在地域間的傳播, 此外,動力學模型的預測結果通常顯著依賴于初始系數的取值, 初始參數的設置差異可能導致研究結果大相徑庭[12].因此考慮人口遷徙的疫情傳播模型得到了廣泛關注.Brockmann 和Helbing[13]指出疾病的傳播與城市間的“有效距離”有關, 其中有效距離的核心構成因子是城市間的交通流量.Wu 等[14]通過使用確診病例數據、全球飛往武漢的航空網絡數據以及騰訊數據庫定位服務記錄獲取的人口流動數據, 首次對本次疫情的時空傳播特征進行建模.而王聰等[15]結合了百度遷徙數據和公開新聞報道, 刻畫了武漢市COVID-19 早期時空傳播特征.Gross 等[16]研究了COVID-19 在中國的時空傳播模式, 研究發現各省感染人數與相應省份人口數量、距湖北省的距離均符合冪律分布, 疾病的傳播與湖北人口的遷徙高度相關, 得益于有效的隔離措施, 感染率在后期呈指數級下降.許小可等[17]對疫情暴發前期武漢外流人口去向的地理分布進行了統計分析.Tian 等[18]基于人口流動大數據, 研究了武漢封城對疫情阻斷的效果, 結果表明武漢封城極大地減少了全國各省的輸入和感染人數, 且在封城之前, 受感染的個體數量與湖北的人口遷移高度相關.Jia 等[2]使用海量手機定位數據, 基于在疫情暴發前武漢輸入到全國各地的人口流動數據,構建“人口流動-風險源模型”準確地預測新冠疫情暴發的時間、強度和地理分布.
綜合來看, 大規模人口流動是疫情得以迅速擴散的重要媒介, 城市間密集的人口遷徙對疫區疫情向外傳播具有重要推動作用.基于大數據挖掘人口出行模式可以預測傳染病如何在地區間擴散, 并在災難性流行病暴發或再次暴發之前利用數據分析技術對其進行防控.
然而, 已有研究使用的人口流動數據大多基于百度遷徙數據[19]和中國疾病預防控制中心公布的病例數據, 而百度遷徙指數構造方法目前并未公開, 其與真實人口遷徙的關系并不完全明確[15].同時, 確診病例等數據存在滯后性和統計誤差.這些因素會導致人口流動數據在時效性和準確性上均有所欠缺.大量研究表明, 移動大數據在刻畫疫情期間傳播風險方面具有突出能力, 利用移動手機數據能從時空兩方面精確提取出突發事件情況下的人口流動數據[20,21], 進而有效地預測大規模災難之后的人口遷移軌跡[22].根據國家工信部的數據,2018 年我國的手機普及率高達112.2 部/百人[23],2019 年移動電話用戶總數已超16 億戶[24].因此手機通信數據憑借覆蓋廣、定位準確的特性可以在出現突發事件情況下對大規模人群進行定位和追蹤,進而及時、有效地提取出人口的分布和流動信息,進一步為應急管理決策提供有效支撐.
本文基于疫情期間2020 年1 月1 日—2 月29 日的匿名手機定位大數據, 構建全國范圍的人口流動網絡, 從時空大數據分析的角度挖掘不同階段全國人口流動的演化規律, 為疫情發展態勢預測、防控措施評價等提供科學決策支撐.本文的主要貢獻在以下幾個方面: 1) 基于手機定位大數據研究人口遷徙, 發現我國城市分布隨人口流動而呈現出區域集聚的城市群格局; 2) 為了探究人口流動網絡背后蘊含的空間作用機理以及城市間人口流動的演化規律, 提出了一種引入地理衰減因子的Spatial-Louvain (SL)算法, 解決了現有社團檢測算法不能很好地集成空間信息的問題; 3) 本文的研究框架有助于進一步理解突發事件對大規模人口遷徙的影響、人口流動性與區域經濟發展的關系, 同時為疫情防控效果評價, 尤其是出行限制措施的實施效果評估提供了科學、定量的分析范式.
本文使用的人口流動數據從國內某手機運營商提供的經過匿名處理的手機定位數據中提取,數據統計了2020 年1 月1 日—2 月29 日中國大陸366 個地級市(不包含港澳臺)之間的人口流動情況.原始數據包括日期、出發省份、出發城市、抵達省份、抵達城市、運營商統計的人口移動量、由運營商使用機器學習方法估計的總人口移動量,共7 個字段, 總計8350643 條數據, 累計記錄了2195986035 人次的流動數據(數據記錄了不同城市間的人口流量, 不包含用戶id).本文使用由運營商基于機器學習方法估計的總人口移動量來研究人口遷徙.盡管基于機器學習的外推技術已經相當成熟, 為了確保數據的準確性, 本文在中國幾個地級市以及中國所有省份, 通過國內其他兩家手機運營商的實際覆蓋率驗證了這種計數推斷, 證明了使用該數據來預測整個網絡中的用戶數量具有很高的準確性.
本文基于時序網絡分析方法將數據集按照日期劃分為60 個時間窗口, 每個時間窗口均為1 天,將同一天內起始城市和結束城市分別相同的人口移動量合并, 構建成一個366 × 366 的城市間人口遷徙(OD)矩陣.然后將每個時間窗口均構建成有向加權網絡[25].網絡中的每個節點代表在數據集中出現的城市, 共計366 個, 每個城市由對應的編號標識.如果用戶在目的地城市中停留半個小時以上, 則將其計為一次出行.矩陣元素 wi,j表示由城市 i 到城市 j 的人口流動量.

表1 網絡中心性指標Table 1.Network centrality metrics.
本文采用6 個中心性指標(見表1)對構建的人口流動網絡進行結構性分析, 主要包括度(用來衡量城市間的人口交互流動的頻率以及節點城市的輻射力和吸引力)、加權度(用來衡量城市間的人口流動總量)、密度(用來衡量網絡中節點聯系的緊密程度)、集聚系數(測量人口流動的集聚性)、介數與接近中心性(衡量節點城市在網絡中的樞紐連接作用以及網絡整體連通度).
人口流動往往與城市的地理位置、經濟體量息息相關, 為了深入挖掘人口流動網絡中蘊含的組織結構信息和城市分布特征, 本文使用社團檢測技術對聯系緊密的城市群進行分類和識別.目前, 復雜網絡的社團檢測算法主要有層次聚類算法、基于模塊度優化方法、圖分割等算法[26].然而針對時空網絡, 現有算法大多僅考慮網絡的拓撲結構, 不能很好地將空間信息集成到模型中.為解決這一問題,本文基于重力模型的地理衰減思想[27], 對Louvain算法[28]進行改進.
Louvain 算法中模塊度[29]定義公式為

基于重力模型改進的Louvain 算法中模塊度的計算公式為

其中 m 代表網絡的邊數, Aij為節點 i 與節點 j 之間連邊的權重,為節點 i 的所有連邊的權重之和, 同理為 節點 i 與節點 j 之間的地理距離, β 為衰減系數, Ci與 Cj分別表示節點所屬的社團, 如果兩個節點屬于同一社團, δ 取值為1, 否則取值為0.本文選取作為網絡邊權, 修正Louvain 算法中的權重參數, 引入重力模型一方面可以避免 dij直接與 Aij線性組合和消除量綱的影響, 另一方面引入地理距離強化了短程邊效應, 弱化了新疆、拉薩等邊緣地區的長程且人口流量少的邊, 防止邊緣地帶的城市社團在各階段反復變動.本文將衰減因子 β 設置為1.

圖1 (a) 人口流動網絡邊數時序特征; (b) 人口總流量時序特征Fig.1.(a) Temporal characteristics of the number of edges in the population mobility network; (b) temporal characteristics of total population flow.
本文基于60 天的城市人口流動數據, 通過劃分時間窗口的方法分析網絡元素(節點和邊)、中心性指標的變化, 進而分析網絡的演化過程, 結果如圖1 所示.可以看出, 2020 年1 月—2 月間城市間的人口流動網絡邊數變化和人口總流量演化趨勢一致, 呈現明顯的階段性特征.自1 月10 日春運以來, 人口流動規模迅速增加, 城市間人口轉移的路徑逐步多元化.1 月20 日有關疫情的媒體報道引發社會熱議, 隨后人口流動規模開始下降.1 月23 日10 時武漢正式封城, 各地群眾積極支持防疫,居家隔離, 自24 日起人口流動規模呈現斷崖式下跌, 隨后以高速率持續降低, 2 月15 日達到谷值.疫情期間人口流動網絡中單天最大邊數為57888,最小邊數為26830, 降低53.7%, 單天最大人口流量為137494000, 最小人口流量為29157400, 降低78.8%, 這些數據表明, 武漢封城及各地疫情防控策略對控制人口流動和人員接觸起到了顯著作用.
城市間的人口流動網絡拓撲結構變化也呈現明顯的階段性特征: 1 月1 日—1 月9 日, 圖2 中的平均度、加權度、密度、集聚系數、接近中心性相對平穩, 1 月10 日—1 月20 日對應指標穩步上升,20 日達到最大值, 23 日有小幅度下降, 然后在24 日驟降, 呈現斷崖式下跌.這是因為1 月10 日為春運開始日, 1 月23 日為武漢封城日, 春運期間, 城市間人口流動變得頻繁且規模龐大, 網絡連通性增大, 平均連接數提高了16.7%, 密度提高了10.3%, 集聚系數提高了9.2%.網絡中節點城市之間的連接有多條路徑, 介數降低了7.1%.由于1 月23 日武漢封鎖交通, 政府進行干預, 各省市陸續啟動一級響應, 城市間人口流動大大減少(高達80.4%), 網絡連通性降低, 平均連接數降低了54.9%,密度降低了53.5%, 集聚系數降低了29.8%.同時2 月10 日開始, 各地陸續開始復工, 人口流動開始增加(提高了110%), 逐步朝常態化階段恢復, 平均連接數增加了54.9%, 密度提高了50.0%, 集聚系數提高了26.1%, 人口流動提高了110.0%, 介數降低了12.5%.
為了更好地反映新冠肺炎疫情的發展動態和相應防疫措施效果, 結合網絡拓撲結構的階段性特征, 本文劃分了4 個人口遷徙階段.第一階段是2020 年1 月1 日—1 月9 日, 沒有采取具體針對新冠肺炎干預措施的常態化階段.第二階段是2020 年1 月10 日—1 月22 日, 發生大規模人口流動, 加速新冠肺炎蔓延的春運階段.第三階段是2020 年1 月23 日—2 月10 日, 武漢封城到各地復工, 恢復經濟生產之前的居家隔離階段.第四階段是2020 年2 月11 日—2 月29 日, 社會生產恢復,各地開始復工的返流階段.將60 天的人口流動網絡合成4 個靜態網絡, 相關網絡基礎特征如表2 所列.常態化階段網絡連接緊密, 人口流動頻繁, 到了春運階段進一步增強.然而居家隔離階段網絡邊數、平均度和密度均稍高于常態化階段, 這是因為1 月24 日和25 日是春節時期, 仍然有部分人口在返鄉途中, 本文為了突出武漢封城這個關鍵事件(1 月24 日全國人口總流量呈現斷崖式下跌), 將1 月23 日作為春運與隔離階段的分割點.同時在隔離階段, 各地政府響應國家衛健委緊急號召令,調動救援隊馳援武漢, 也增加了城市間的連通路徑.而平均日流量出現了大幅度下降則說明了行人出行模式大多轉變為居家隔離, 人口遷徙得到了有效控制.

圖2 人口流動網絡中心性指標時序特征 (a) 平均度; (b) 介數; (c) 接近中心性; (d) 加權度; (e) 網絡密度; (f) 集聚系數Fig.2.Temporal characteristics of population mobility network centrality metrics: (a) Average degree; (b) betweenness centrality;(c) closeness centrality; (d) weighted degree; (e) density; (f) clustering coefficient.

表2 人口流動網絡四階段網絡基礎特征Table 2.Basic characteristics of the population mobility network in four stages.
為了體現SL 算法的優越性, 首先比較了兩種算法四階段網絡的模塊度, 結果如圖3(c)所示,SL 算法在各階段均顯著高于傳統的Louvain 算法, 平均模塊度值提高了14%.然后進一步比較了兩種算法在常態化階段的社團檢測結果.如圖3(a)和圖3(b)中區域1 所示, 傳統的Louvain 算法僅考慮城市間即邊上的人口流量, 忽略了現實的空間信息和距離要素, 從而將一些偏遠地區的城市也與中心城市合并為一個社團, 如烏魯木齊市和北屯市.另一方面, SL 算法弱化了長程及人口流量少的邊, 強化了短程邊效應, 使社團劃分更加合理.區域2—5 則說明即使地理鄰近的城市也可能因為其他因素不屬于同一個社團, SL 挖掘了人口流動網絡潛藏的分布規律, 具體內容將在社團演化部分進行深入討論.
人口流動可以作為衡量城市之間經濟聯系的一種指標, 本文使用SL 算法在四個階段中分別對人口流動網絡進行社團劃分(圖4), 為了體現經濟因素, 圖例僅展現省會城市、一線、新一線和二線城市[30].本文算法所檢測的城市社團的邊界與城市經濟區的邊界具有高度相似性, 且四個階段的社團數目均為18.社團分布呈現以省會城市、一線、新一線和二線城市為核心, 以點帶面, 向四周輻射的區域集聚城市群分布特征(由人口流動的差異性造成, 不同于傳統的城市群定義).圖5 則細致地展示了各階段社團之間的成員變化及轉移路徑, 圖中“1-”—“4-”分別對應表2 中的四個階段.
3.4.1 常態化階段分布情況
在常態化人口流動階段, 由于地理上的鄰近性和城市之間的經濟交互聯系, 除了1—2 個地處新疆西藏的邊遠社團, 因為地理位置過于偏僻, 尚未能與周邊城市加強聯系, 其余絕大數社團都體現了中心城市和省會城市耦合的集群現象.以重慶、成都、貴陽和昆明為紐帶, 構成了成渝社團, 以沈陽、長春、哈爾濱、大連為核心的遼中南社團, 以北京、天津、濟南、石家莊為核心的京津冀社團, 以廣州、深圳、佛山、珠海為核心的珠三角社團, 以及以武漢、長沙為核心的中部社團, 具體社團構成信息詳見圖5 和補充材料 (online).

圖3 SL 算法與Louvain 算法的人口流動網絡社團檢測結果對比 (a) SL 算法社團檢測結果; (b) Louvain 算法社團檢測結果;(c) 模塊度值Fig.3.Comparison between SL algorithm and Louvain algorithm: (a) Results of SL; (b) results of Louvain; (c) modularity value.

圖4 基于人口流動網絡的四階段城市集群演化 (a) 常態化階段; (b) 春運階段; (c) 隔離階段; (d)復工階段Fig.4.Four-stage evolution of urban agglomeration based on population mobility network: (a) Normal times; (b) chunyun migration; (c) epidemic interventions; (d) recovery times.
3.4.2 常態化階段到春運階段社團演化

圖5 基于人口流動網絡的四階段城市集群演化桑基圖Fig.5.Sankey diagram of four-stage evolution of urban agglomeration based on population mobility network.
在春運時期絕大部分城市群與常態化階段保持一致, 僅有47 個城市發生了社團轉移.以鄭州和徐州為核心的鄭州社團發生了分離, 徐州等城市形成了新的徐州社團.本文構建的是有向網絡, 且兩階段對應城市地理距離一致, 因此人口流量變化是影響社團成員轉移的主導因素.這說明該社團的人口常年在鄭州社團工作, 由于春運返鄉, 大規模人口回流, 鄭州社團人口流動發生較大的變化, 導致社團分離.
京津冀社團里以濟南、煙臺和青島為核心的山東半島社團也加入了徐州社團, 作用機理與徐州社團相似.同時山東半島社團和徐州社團的合并也說明山東和江蘇一直存在經濟和人口交互, 但是由于彼此在地理上分別鄰近京津冀社團和鄭州社團, 這種效應只有在春運時期才有所體現.
廣西社團的百色和河池、武漢長沙社團的銅仁、湘西土家族自治州、恩施土家族和苗族自治州加入了成渝社團; 南京合肥社團分離, 合肥及其周邊城市加入鄭州社團, 南京及其周邊城市加入上海社團.這說明常態化階段合肥南京社團人口流動、經濟交互以及城市耦合的程度超越其與鄭州社團和上海社團的交互程度.
總體來看常態化階段到春運階段的演化能夠體現社團間鄰近城市的人口和經濟效應.社團內部城市保持整體穩定, 鄰近社團的部分接壤城市會發生社團轉移, 且大多是由春運返鄉, 大規模人口遷徙導致的.
3.4.3 春運階段到隔離階段社團演化
自武漢封城開始, 各地紛紛啟動公共衛生一級響應, 號召公民居家隔離, 因此隔離階段人口流動大幅度下降.然而大部分社團仍保持穩定, 社團內成員變動不大, 共有83 個城市改變了其社團歸屬,且大多為城市等級較低的城市.
其中合肥等城市社團變動最大, 脫離鄭州社團加入了武漢社團.這是因為在居家隔離階段, 合肥等城市人口流動規模大幅度減少, 行人出行方式轉變為鄰近地區的小規模流動, 因此加入了武漢社團.
銀川等城市脫離太原社團加入蘭州社團, 而常態化、春運階段銀川等城市一直在太原社團, 并不在地理位置與其更接近的蘭州社團, 說明其與太原社團城市連接緊密, 經濟因素占據社團構成主導地位.這表明, 極端突發情況下, 在經濟欠發達地區,地理的鄰近性超越經濟的交互, 地理位置成了影響人口流動的主導因素.此前, 在常態化階段和春運階段, 長沙武漢社團一直很穩定, 天然的地理鄰近、直通高鐵以及源遠流長的歷史聯系讓武漢和長沙一直聯系十分緊密.然而, 在隔離階段, 長沙等城市脫離了武漢社團, 構成了新的長沙社團.這是因為, 武漢是重災區、中國疫情的暴發地, 加之武漢封城, 行政上的封鎖和災害性疾病導致了社團分離.
南昌等城市脫離武漢社團加入廈門社團的原因則與銀川加入蘭州社團(地理鄰近性)的原因一致, 長沙離開武漢社團則是由行政封鎖與重大防疫所導致.而在春運階段形成的濟南徐州社團在此時瓦解, 各自分別回到常態化階段的京津冀社團和鄭州社團(一方面春運階段大部分人口已經從務工城市返回家鄉, 理論上社團應當與春運階段保持一致, 另一方面國家建議公民居家隔離, 人口流動已經大大減少), 這一現象說明即使由于疫情的影響,也無法完全隔絕城市群的交互.
3.4.4 隔離階段到復工階段社團演化
與上一階段相比, 復工階段大部分社團仍然保持穩定, 共有35 個城市發生社團轉移.銀川等城市離開了上一階段加入的太原社團回歸了蘭州社團; 合肥等離開武漢社團回歸鄭州社團; 南昌等城市離開了廈門社團回歸武漢社團; 其他城市陸續回歸到常態化階段的狀態.這說明中國城市社團以城市群為核心且具有魯棒性和恢復性, 在干擾因素消除后能迅速恢復原有格局.
3.4.5 社團演化規律總結
城市輻射力是解釋城市在城市網絡層次結構中的功能、作用和相對位置的重要因素[31].本文利用改進后的SL 算法對四階段網絡進行分析, 發現人口流動網絡中大部分城市社團以多個一線城市或省會城市為核心, 且具有強烈的區域集聚效應,形成了以核心城市為點向周邊輻射的分布格局.城市群在四階段大體保持穩定, 側面反映出中國城市間的人口流動以城市群內部流動為主.此外, 春運和疫情的因素并不能使城市社團發生大規模分離.經濟和地理因素對人口流動以及城市社團的影響不會因為突發性傳染病事情而消失, 城市群體現了中國城市之間的動態關系.
人口遷徙模式對疫情傳播起到了舉足輕重的作用, 本文使用手機匿名定位大數據, 構建人口流動網絡, 通過6 個中心性指標以及集成空間信息提出的SL 算法, 從時空大數據分析的角度探究疫情期間人口流動網絡的演化模式及空間作用機理.
本文的分析結果表明, 我國城市分布隨人口流動而呈現出區域集聚的城市群耦合特征, 分為京津冀、珠三角、成渝等18 個社團, 其中經濟交互和地理位置是城市群社團構建的基礎.居家隔離階段,銀川等城市離開太原社團加入蘭州社團, 說明在突發應急情況下, 偏遠地區人口流動的主導因素是地理位置而不是經濟交互.同時四階段大部分社團保持穩定, 共有113 個城市發生社團轉移, 其中63個城市轉移一次(僅占城市總數的17%), 47 個城市轉移2 次, 3 個城市轉移3 次.春運、疫情等事件僅能在一定程度上影響少部分社團演變, 說明中國城市格局具有魯棒性.復工返流階段城市陸續回到常態化階段的社團, 說明經濟和地理因素對人口流動以及城市社團的影響不會因為突發性傳染病事情而消失, 城市群體現了中國城市之間的動態關系.
本文基于手機定位大數據, 利用空間可視化和網絡分析模型, 從時空演化的角度挖掘了疫情期間全國人口流動背后潛藏的城市群效應以及大規模人口流動在平時與疫情期間的流動模式差異, 驗證了控制人口出行模式對疫情防控起到至關重要的作用.為疫情防控、分析疾病傳播路徑以及應對突發性公共衛生事件開辟了一種通用的分析范式.