

收稿日期:2024-01-18;修訂日期:2024-07-19
基金項目:國家自然科學基金項目“網絡視角下城市增長與收縮的測度與機理研究”
(42171216);首都經濟貿易大學重大培育項目“雙碳目標下縱深推進以人為核心的新型城鎮化研究”
(ZD202302)。
作者簡介:郭濤,經濟學博士,首都經濟貿易大學城市經濟與公共管理學院博士后;吳康(通訊作者),理學博士,首都經濟貿易大學城市經濟與公共管理學院教授,博士生導師;李棟,理學博士,清華大學中國新型城鎮化研究院高級研究專員;劉濤,理學博士,北京大學城市與環境學院研究員,博士生導師;戚偉,理學博士,中國科學院地理科學與資源研究所副研究員。
摘 要:人口監測是開展人口規劃、統計、預測及預警等
的基礎性工作,是政府科學決策的基石。我國人口監測的傳統數據仍存在漏報重報、質量不高、時效不強、屬性不全、融合不深等問題,難以實施有效的人口精細化管理,也限制了監測數據在人口學研究中的廣泛應用。隨著信息技術的快速發展及移動終端的進一步普及,手機信令、互聯網、遙感信息等一系列可直接或間接捕捉“人口行為”的新型數據大量涌現并應用于人口監測,與人口普查、調查等傳統數據采集手段互為補充,有望通過交叉協同形成更加全面、更為實用的人口監測多源大數據基礎。
從人口監測的傳統數據、新型數據及新老數據融合三方面入手,系統梳理了數字時代用于人口監測的多源數據。
首先,通過梳理傳統人口監測的分類及相關應用研究,總結了傳統數據的主要優勢、瓶頸與不足,進而明確了融合新型數據的需求靶點和必要性。
其次,從數據分類及優缺點對比、應用研究等角度對新型數據的相關文獻進行梳理,重點分析現階段應用新型數據的機會和挑戰。
最后,通過總結傳統數據與新型數據融合應用的優勢,提煉了有待進一步研究的議題,
為應用多源數據實現人口動態監測,推進流動人口統計信息化、規范化和精細化,支撐政府政策制定和人口學研究建立了理論基礎。
關鍵詞:多源數據;人口監測;人口行為;人口研究;調查普查
中圖分類號: C921.2
文獻標識碼: A
文章編號:1000-4149(2024)05-0063-15
DOI:10.3969/j.issn.1000-4149.2024.00.045
一、引言
人口是影響我國經濟社會發展的基礎性變量,對人口動態變化進行精準
監測是調整人口政策、優化經濟社會結構的基石,也是開展人口戰略研究、解決當下人口問題和前瞻性應對未來人口問題的基礎性工作。
《中共中央國務院關于優化生育政策促進人口長期均衡發展的決定》
明確提出,應“加強人口監測和形勢研判,健全完善國家生命登記管理制度,健全覆蓋全人群、全生命周期的人口監測體系,密切監測生育形勢和人口變動趨勢”。當前,我國人口發展已進入低出生率、低死亡率、負增長率的新階段,
必將對我國未來經濟社會發展路徑、收入分配和資源配置等
產生深遠影響,也對完善我國人口監測體系提出了迫切要求。
《人口與經濟》2024年第5期
郭 濤,等:
數字時代人口監測中的多源數據應用
人口監測旨在基于普查、調查、行政記錄等方法,對國土范圍內全量或特定人群開展定期監測,包含數據采集、處理、評估、匯總等多個階段。經典人口學理論認為,人口既包含性別、年齡等自然構成,又具有經濟構成和社會構成。傳統人口監測重點關注人口的自然構成,如出生、死亡、遷移與流動等,并產生了人口普查、調查及行政記錄等常規人口監測數據,這類數據構成政府決策和人口研究最重要的數據基礎。近年來,隨著數字化和信息技術的普及,人口監測數據的范疇正逐漸向經濟社會構成延伸,表現為“人口行為”數據的日益豐富,大大提高了人口監測的時效性和
數據
屬性的豐富性。因此,廣義上的人口監測可進一步延伸至監測數據的后續開發應用,包括在出生率和死亡率估計、流動人口分析、人口預測等經典人口學研究領域及經濟學、公共衛生、地理學、城市規劃等與人口研究密切相關的交叉領域的應用,為新時期制定精細化、高質量的人口政策提供了數據支撐。這類新型數據主要來源于互聯網、物聯網、基于位置的服務(LBS)、遙感導航、地理信息等產業用戶在應用服務過程中產生的海量行為記錄,對完善傳統人口監測數據提供了重要補充,也為實現對人口特征全面、準確、實時的監測提供了新契機。
當前,各國學者針對傳統數據、新型數據以及兩類數據的融合應用展開了豐富的研究,但尚未有文獻在多源數據的統一框架下梳理我國人口監測的數據。本文基于人口監測及其延伸的廣義應用范疇,分別從傳統數據、新型數據及新老數據融合的多源數據三方面系統梳理了我國人口監測體系的整體演進及監測數據開發應用的相關研究,并提煉有待進一步研究的議題,為構建基于多源數據的人口動態監測體系提供理論支持和實踐借鑒。
二、人口監測的傳統數據:實踐與經驗
傳統人口監測采取普查為主、抽樣調查和專項調查為輔的形式開展,具有強制性、結構化和覆蓋全等特點,但也存在長時滯、成本高、數據重報漏報等問題[1]。因此各國在實踐中逐漸引入行政記錄數據進行補充[2],通過對人口相關行政記錄的“統計化操作”生成普查可用的指標信息[3]。傳統人口監測數據廣泛應用于出生率及死亡率估計、預期壽命及人口預測等對數據覆蓋范圍及連續性要求更高的研究中。
1. 傳統監測數據的分類
人口普查及抽樣調查是我國目前實施的、以立法確認的最基本的人口數據獲取方式。近年來,隨著信息化水平不斷提高,普查與調查數據的獲取過程也出現了新變化,第七次全國人口普查(簡稱“七普”)開始全面采取電子化方式登記,并鼓勵通過手機等移動終端自行填報,在質量控制環節針對電子化登記記錄設置了700余條校驗規則[4],發現問題可及時核實,大大提高了人口普查的數據質量,減少數據重報、漏報問題。
考慮到部分政策主要針對特定區域和重點人群,政府、高校和科研機構也會開展定期或不定期的人口專項調查,以獲取更及時、更具針對性的特殊群組人口相關信息。這類專項調查數據對普查數據形成了重要補充,在政策設計和效果追蹤中發揮著越來越重要的作用。雖然專項調查數據也存在不同數據庫難以相互匹配、調查時間不連續、覆蓋樣本少等缺點,但其仍為分析特定人口問題提供了關鍵數據支撐,是傳統人口數據的重要組成部分。
居民人生各階段在行政部門的登記、報告、審批、檢查等活動,保存了大量人口行政變動信息,其具有數據質量高、收集成本低等特點,逐漸被用于輔助進行人口普查或調查[3]。尤其2016年以來,隨著中央加快統籌推進政務數據共享和應用工作,縣級以上行政單元電子政務已實現100%覆蓋,海量的低成本數字化行政記錄數據為提高普查數據質量、降低人口數據獲取成本提供了重要支持。例如“七普”通過將普查對象與聯網行政記錄進行比對,顯著提升了普查工作的事前摸底效率,減少了覆蓋誤差。借鑒發達國家人口普查的演變趨勢,未來隨著全國一體化政務大數據體系的建設,不同部門間行政記錄數據的標準化、規范化和共享水平會不斷提高,行政記錄數據將逐漸成為傳統人口數據不可或缺的組成部分。
2. 傳統監測數據的應用研究
(1)人口監測體系的國內外對比與優化。
部分研究從方法、方式、指標、預測等方面對比國內外人口監測體系的異同,為我國健全人口動態監測體系提供了重要借鑒。從監測方法來看,國外人口監測正逐步從“人口普查”的傳統模式向“以人口普查為主,行政記錄為輔”的組合模式和“僅使用行政記錄”的完全模式過渡,而我國目前仍主要采取傳統模式,但正逐步向“組合模式”轉變。從監測方式來看,部分國家選擇以建筑物普查、社區調查等替代普查長表,逐年采集人口的特征、家庭、移民、居住、教育等信息,監測周期更短,而我國的普查仍采取長短表結合的方式,且更注重人口素質、人群結構和空間分布等基礎內容的獲取,監測周期更長。從監測指標來看,除基本人口特征外,國外的監測指標還包括家庭結構、工作收入、居住條件、衛生保障等多方面,能全面覆蓋居民的經濟社會生活,且指標選取更加科學,而國內監測指標的覆蓋內容
相對較少,且存在指標選取不合理、編碼依賴人工等問題。從人口預測來看,國外短期及中長期人口預測方法和實踐已較為成熟,預測結果廣泛應用于支撐人口政策制定,國內人口預測則實踐不足,尤其缺乏準確有效的中長期人口預測方法[5]。綜上,未來人口監測可通過加大行政記錄數據的應用、以逐年調查替代普查長表、
普查及調查指標選取和編碼方式科學化、加快開發適應我國人口發展特征和階段的預測模型等手段,進一步降低數據采集成本,提高人口監測的效率和準確度。
(2)傳統人口監測數據質量評估與改善。
由于數據獲取方法和目標各不相同,不同類型的傳統數據存在異質性,準確評估及改善
數據質量
是進一步應用數據開展分析的前提。對于人口普查數據,漏報、重報和誤報是其面臨的主要挑戰,尤其是特定群組的重報、漏報問題。現有文獻在對普查數據整體質量評估和校正的基礎上,重點討論了低齡人口、高齡人口、青年人口、外國移民等特定群組的重報、漏報問題,普遍使用的方法包括事后抽樣調查法、雙系統估計量法、隊列存活率法、普查數據分析法、惠普爾指數法、普通最小二乘法及不同方法的綜合運用。方法的選擇需綜合考慮評估對象、比對數據質量和評估準確度。
金城(Kaneshiro)使用普通最小二乘法估計美國1990年人口普查的凈漏報,發現男性、新移民和年齡在15—44歲之間的人群相對凈漏報比例更高[6]。基于Brass-Logit、Coale-Demeny、聯合國模型、DCMD模型等的生命表技術是修正普查數據最常用的方法。總體而言,現有針對普查數據質量評估和改善方法的研究已較為成熟,但在實際應用過程中還需重點考慮方法的選擇和不同方法的綜合利用。
調查數據的誤差主要來源于抽樣過程,不合理的抽樣方案、實施過程中的無回答現象、頻繁的人口流動等都會影響樣本選擇的隨機性和代表性。抽樣的精度通常采用對比相對誤差、標準誤差、變異系數等方法來判斷。加權控制法是處理抽樣數據估計誤差的重要方法,現有文獻重點探討了抽樣中權數的獲取、調整、評估和不同群組的權數設計等問題,為抽樣調查結果的糾偏和準確的統計推斷提供了技術支持。如貝克爾(Becker)和
卡拉馬爾(Kalamar)提出了一種基于DHS抽樣方案的擴展夫婦成對權重估計方法,發現應用該權重可以使估計的
大部分中位數百分比偏差小于3%[7]。可以發現,目前針對抽樣調查數據質量評估的研究相對較少,評估方法有待進一步優化。
考慮到行政記錄數據的采集并非以支持人口監測為目的,應用此類數據亟須實現全社會政府部門的數據共享和跨部門統計化。但我國在此過程中尚存在各部門登記口徑不統一、規范性差、大量重復記錄、數據互不銜接、生命登記系統不完善、行政尋租等問題,導致不同來源的行政記錄數據質量參差不齊、處理難度較大。以生命登記系統為例,目前我國登記出生人口信息的部門既有各區縣的婦幼保健機構,又有負責戶籍登記的公安機關,兩部門的統計時間、渠道和目的均有不同,統計的出生人口平均差值高達2.7%[8]。死亡登記也存在農村和高齡死亡漏報、部分地區虛報等問題,基于《死亡醫學證明》的死亡登記覆蓋率有待提升。現有文獻中常用的行政記錄數據質量評估方法包括行政記錄比對法、事后抽樣調查法、常規調查比較法、三維度評估法等[2]。同時,現有文獻還從構建行政記錄數據質量評估框架、統一行業分類及指標口徑、加強全國統一行政記錄共享平臺建設、加強立法等方面提出了改善行政記錄數據質量、加快數據跨部門共享的政策建議。行政記錄數據
在人口監測體系中發揮著越來越重要的作用,而現有對行政記錄數據質量的討論多為定性研究,缺乏定量和方法的討論,這與現階段行政記錄數據較低的開放程度有關。
(3)傳統人口監測數據的應用研究。
在確保數據質量的基礎上,現有文獻從出生率和死亡率估計、人口遷徙、人口預測等人口學經典問題及老齡化、健康、教育、住房等與人口密切相關的領域,多維度開展了豐富的應用研究。出生率和死亡率估計是人口科學的重點問題,現有文獻主要從估計方法、數據校準、結果分析及特定群組估計等方面展開研究[9]。隨著人口流動的日益頻繁,現有文獻基于傳統數據,重點探討了我國流動人口的口徑界定、規模測度、時空演變特征、社會融入和居留意愿等問題。周皓基于“七普”數據分析了我國現階段人口流動的距離、模式、方向等特征,認為“七普”數據應公布重報率和其他誤差率,以便真實評估流動人口規模[10]。高質量的人口數據也是開展人口預測的基礎。目前,國內學者正嘗試探索適用于我國的
人口
預測模型,并應用數學統計預測、隊列因素法、概率人口預測等方法對人口總量和生育率等變量的變化趨勢進行預測。老齡化是當前我國經濟社會發展面臨的重要問題,部分學者基于傳統數據探討了老齡化的時空演變特征及其通過負擔效應和壽命效應對儲蓄率、經濟增長、勞動力供給、技術進步等的影響[11]。此外,考慮到普查和專項調查還收集了人口的住房條件、受教育水平等豐富的經濟和社會特征,這些數據也為從微觀層面研究我國居民住房需求的變化及其影響因素、教育機會均等化等重要問題提供了機會。
3. 傳統數據的優勢、瓶頸與不足
傳統人口監測數據具有連續性強、覆蓋性廣和可獲取性高等優勢,但也在以下幾個方面存在瓶頸與不足(見圖1)。
第一,普查數據中特定群組的漏報問題仍有待改善。隨著“七普”的信息化轉型,人口漏報率達到歷史新低的0.05% 數據來源:國家統計局,http://www.stats.gov.cn/sj/zxfb/202302/t20230203_1901089.html,但現階段技術仍無法解決由于生命登記系統不完善、個人填報意愿等導致的漏報問題,尤其是特定群組的出生人口和死亡人口的漏報。李婷等通過綜合多種模型生命表并利用國際比較法對“七普”各年齡段分性別的死亡水平進行估算,并與“七普”死亡數據進行比對,發現“七普”嬰兒男女性死亡漏報率分別高達75.3%、76.61%,中低齡老人(60—79歲)男女性死亡漏報率分別為
51.93%、34.63%[12]。特定群組的死亡人口漏報問題既影響對整體死亡水平的估計,也不利于準確預估未來平均壽命和整體人口發展趨勢。此外,也需警惕“數據鴻溝”及“數據歧視”等問題催生的個人信息的謊報和瞞報等[4]。
第二,非普查年份抽樣調查數據漏報嚴重。抽樣調查數據的誤差主要來自抽樣方法本身的隨機性、推算誤差及調查填報等工作產生的操作誤差等。以“七普”數據回推,2011—2014年普查和抽樣調查的出生人數年均相差235萬,出生登記的漏報
嚴重[13]。將抽樣數據與公安部門的戶籍登記數據進行交叉比對,發現2012年國家統計局公布的出生人口與戶籍登記的實際出生人口誤差高達300萬人[14]。通過估計和比對歷次抽樣調查的死亡漏報率,發現2015年1%人口抽樣調查中除1—4歲年齡組外,其余各年齡組均存在較嚴重的死亡漏報問題[15]。可以發現,抽樣調查數據的低齡人口和死亡人口的漏報問題尤為嚴重,原因之一是我國尚未建立完善的以《出生醫學證明》和《死亡醫學證明》為基礎的生命登記系統。
第三,獲取成本高,時效性和連續性較差。隨著政府對各類指標的需求擴大、人口流動性提高及個人對隱私信息的重視,獲取傳統數據的難度和成本進一步提高,這給中央和地方財政帶來較大壓力。尤其我國是人口大國,開展普查不僅需要聘請和培訓大量的普查員和普查指導員,而且前后需經歷多個環節,涉及人員多、工作周期長、財政投入大,如何在保證數據質量的同時進一步壓縮成本是未來面臨的重要挑戰。同時,由于普查和抽樣調查分別每十年和每五年開展一次,且數據獲取和整理的時間都較長,各類專項調查數據也多為非連續數據,各年之間指標統計口徑還存在差異,這些因素都會導致傳統人口數據的時效性較差、連續性不強,無法及時有效地支持政策調整,也增加了開展各類人口研究的難度。
第四,行政記錄數據的共享水平低,在普查和調查中應用不足,獲取困難。現階段,我國各省市電子化行政記錄平臺多由省內牽頭建設,缺乏國家標準和頂層設計,部門間指標記錄的口徑、時間不統一,難以實現跨部門、跨地區的數據整合。不同部門人口指標的記錄分散化、孤立化和單向化,部門間既有重復又有空白,產生行政資源的浪費。部門間的協同工作機制尚不明確,權責劃分相對模糊,缺乏涉及個人隱私信息的保護制度,進一步降低了行政記錄數據應用于人口普查和調查的效率。以流動人口監測為例,目前,國家統計局、公安部、
國家衛生健康委員會、人力資源和社會保障部、農業農村部等多部門均開展了流動人口調查,但“流動人口”的定義口徑存在差異且統計指標各有不同,且人員基礎信息統計不全,這些問題都限制了不同部門和地區數據的整合。此外,由于行政記錄數據涉及人的身份、健康、居住、經歷等多重隱私信息,將其應用于人口研究會面臨較大的法律和倫理挑戰,這也限制了部分研究的開展和數據價值的深入挖掘。
三、人口監測的新型數據:機會與挑戰
近年來,隨著數字化和信息技術的普及,大量與人口相關的新型數據,例如手機信令數據、物聯網數據、衛星遙感數據等,直接或間接記錄和反映了人口的行為特征,能夠在更小的時空粒度上反映人口變化,為實現人口實時、動態、精準監測提供了數據支撐,也為解決傳統數據時效性不強、采集成本高、數據漏報、缺乏共享等問題提供了新契機。新型數據獲取的實時性和低成本使其
廣泛應用于人口流動分析等對數據時效性和動態性要求更高的領域。
1. 新型數據的分類及優缺點對比
以是否直接反映人的行為為標準,新型數據包括直接行為數據和間接行為數據(見圖2)。
直接行為數據是直接記錄人口行為的數據,常用的包括手機信令數據、物聯網數據、
基于位置的服務(LBS)數據等。手機信令數據是新型人口數據中最具代表性的一類,因其具有
高覆蓋率、高持有率、高準確性等特點,目前廣泛應用于估算出行流動、空間分布、職住特征、交通條件等研究,同時也為收集和校驗傳統監測數據提供了技術和數據支撐。但應用該數據時還存在老人和兒童手機持有率低、一戶多號、非實名、人機分離、多運營商融合困難等難題,亟須通過算法優化重點突破。物聯網技術通過將不同的傳感設備應用于城市交通、安全監控、環境衛生、能源管理、健康醫療等各個領域,也可以獲取大量記錄人的行為的非結構化數據,
這類數據也被
應用于相關人口研究。但目前應用物聯網數據進行研究的文獻還較少,數據獲取困難、隱私安全等問題限制了此類數據的應用。LBS數據融合了移動通訊、互聯網、空間定位、位置信息、大數據等多種信息技術。相較手機信令數據,LBS數據的獲取更依賴用戶對服務的消費,但也能提供除用戶位置之外的與偏好及消費習慣等相關的更為豐富的行為數據。因此,大量文獻應用LBS數據進行人口消費和行為分析、公共情緒分析及人口空間化研究,如有學者基于騰訊約8億用戶的LBS數據進行城市級總體制圖,精度高達88.9%,高于基于遙感數據的制圖精度[16]。LBS數據的使用部分緩解了手機信令數據依賴基站信號強度、泰森多邊形覆蓋不全等問題,能輔助提高對人口分布空間異質性的刻畫。
間接行為數據不直接記錄人的行為,但可用于對人口行為特征的間接推斷,常用的包括衛星遙感(RS)數據、地理信息數據、興趣點(POI)數據等。隨著遙感技術的快速發展,夜間燈光、土地利用等遙感數據越來越被廣泛應用于人口及相關研究。考慮到這類數據通常與人的活動高度相關,在放寬準確度要求的前提下,遙感數據為反推人口行為特征提供了重要的數據支撐。遙感數據的優勢在于獲取難度低、連續性強、數據易處理,且能在更小的空間維度對人口分布進行模擬。此外,基于遙感數據獲取的人口估計和預測數據也更容易與地理信息數據相匹配,進而被應用于城市中心識別、公共安全等領域的研究。地理信息數據包括道路、坡度、河流、區劃等反映地區資源分布與城市規劃特征的信息,這類數據通常不單獨
被用于人口估計,而是通過與遙感數據、手機信令數據等結合,為人口空間分布估計和預測提供資源分布和規劃特征方面的依據,增強估計的準確性和精細化水平[17]。近年來,POI數據因其具有豐富的空間語義信息,常被用于城市功能區劃分、中心(邊界)識別和業態集聚分析等研究。相較于僅能間接反映人口活動特征的遙感數據,POI數據與人口經濟社會活動關聯更密切、認知度更高[17],相較于記錄個體行為軌跡的LBS數據,POI數據更能反映不同類型的場所對人口分布的影響,因此可用于更加精細的隨城市功能規劃的人口分布特征的研究和預測。
如有學者使用POI和房地產數據對新加坡不同區域的居民數量和平均年齡、老年人比例等人口特征進行預測,發現公交車站、委員會中心和兒童保育設施等POI數據對人口特征預測的貢獻最大[18]。
盡管受限于個人信息保護與企業數據安全政策,研究者一般無法直接訪問這些新型數據,但也有部分互聯網公司提供了其用戶地理位置、使用記錄、使用內容等信息的下載通道,研究者可通過數據共享協議訪問過去、當前和最新(甚至每秒)的數據,使應用手機信令數據、LBS數據等新型數據進行人口監測及相關研究成為可能。
2. 新型監測數據的應用研究
(1)出生率估計。
網絡搜索數據、LBS數據等為監測難以達到的人群的生育模式和短期內生育率變化提供了一種可靠和準確的手段。部分研究嘗試基于用戶對“懷孕”、“育兒”、“墮胎”等與生育相關話題的主觀搜索頻率來推測當地短期內的生育相關指標。
例如雷斯
(Reis)和布朗斯坦
(Brownstein)探究了美國50個州與墮胎相關的搜索量和該州墮胎率及墮胎限制政策之間的關系,發現墮胎的搜索量與墮胎率呈反比,這表明禁止墮胎政策驅使人們轉向互聯網尋求墮胎服務[19]。
又如比拉里(Billari)等提出了一種基于谷歌搜索的生育率監測方法,發現使用該方法預測的出生人口誤差比人口普查局的
低35%[20]。需要注意的是,使用網絡搜索數據進行人口統計分析的前提是網絡搜索總量和個人意圖之間相關性的持續。也有研究使用LBS數據(如Twitter等)研究孕產婦和生殖健康的相關問題,以及對
特殊人群的行為和情緒進行分析。
例如有學者使用Twitter帖子來量化分析分娩前后376名母親在社會參與、情感、社交網絡和語言風格等維度上的變化[21]。
(2)死亡率估計。
部分研究使用互聯網、手機信令、LBS等數據來推測人口的死亡率及相關信息。
有學者使用來自WikiTree網站的在線系譜數據集來識別過去幾個世紀中人類人口壽命分布的變化,并構建了人類壽命的預測模型[22]。
有學者發現在難以接觸到的人群中,手機可能被用作進行遠程解剖和了解死亡情況的工具[23]。
有學者基于對Twitter網站上近100萬條信息的情感分析,研究了不同的人口統計學特征(年齡、性別和職業)對自殺率的影響[24]。有學者通過對在線訃告的自動收集和文本挖掘,得到美國癌癥死亡的年齡分布、地理空間分布和時間趨勢[25]。還有學者利用8600萬份在線擴展族譜數據分析了家族分散過程,獲取了高度可靠的人口統計數據集[26]。
(3)人口流動及特征分析。
考慮到LBS數據和手機信令數據等能實時捕捉人口位置的空間變化,因而被廣泛應用于人口遷移和流動研究。
有學者使用四年共計150萬條盧旺達人的移動通信數據集,描述了盧旺達人口國內移徙的動態軌跡、主要原因和后果[27]。有學者使用Twitter約50萬用戶的LBS數據來評估這些用戶在國家內部和國家之間的地理移動,提出了一種使用倍差法減少樣本選擇偏差的方法,并預測移民趨勢的轉折點[28]。
還有學者通過分析領英的數百萬份LBS和職業歷史數據集,調查了專業人士的國際移民趨勢及特征[29]。此外,還有部分文獻應用新型數據研究了其他多種人口特征的分布和變化,包括性別、年齡、民族等。
例如有學者基于Twitter數據,使用機器學習模型從用戶生成的內容中推斷粗粒度的情緒和心理人口學特征,包括性別、收入、政治觀點、年齡、教育程度、樂觀程度和生活滿意度等[30]。
通過對數據的清洗和處理,并采用多種方法處理樣本代表性等問題,新型數據使搭建一種成本低、時效性強、準確度高的人口動態監測體系成為可能。
3. 應用新型數據的機會與挑戰
新型數據打開了個體活動的內部世界,數字技術的發展使用戶的每一個動作都可以被存儲、存檔并分析,這大大豐富了研究的范圍及可能。但這類數據的濫用也可能帶來一些問題與挑戰。只有充分了解新型數據的優勢和不足,才能為解決不同數據的問題、更好地結合傳統數據與新型數據提供理論支撐,引導研究方向。
(1)機會分析。
新型數據的出現創造了社會科學研究的一種新的數據收集范式,其體現出的一些獨特的性質與特征使其在人口監測中能發揮強大優勢,主要包括以下幾方面。
第一,提高數據采集效率,降低成本并提高時效性。互聯網每分每秒都能產生大規模的用戶訪問痕跡、社交網絡和行為信息數據,大大提高了人口數據的收集效率并降低了成本,使研究人員得以使用連續的人口數據進行實時的人口監測、流動分析及預測預警。
第二,數據可跟蹤記錄并存檔。新型數據所提供的信息并非針對特定人群的一次性信息,
而是能夠對用戶一段時間內的各種活動軌跡進行跟蹤,并對產生的數據痕跡加以儲存和歸檔,避免了傳統調查由于受訪者選擇性回憶和統計人員的回憶偏差所產生的數據誤差[31]。存儲下來的數據也可以
被反復地審查和處理,以提煉出核心真實的信息。
第三,覆蓋樣本更全面。盡管新型數據并非全樣本覆蓋,但仍能以更低的成本覆蓋更大范圍的人群,甚至使研究者能獲取傳統調查無法到達的或者代表性更低的群體信息,提供針對某一重點人群更加深入的側寫和分析。
(2)挑戰分析。
新型數據的濫用也可能引入新的風險和挑戰,主要包括以下幾個方面。
第一,數據需有選擇地使用。由于新型數據的收集并不以服務人口監測為目的,因此這類數據必須有選擇地使用,研究者需從海量指標中篩選出與自身研究目的最為相關的指標,通過清洗和處理,使之能更加合理和準確地反映所需信息。進一步地,新型數據的引入也使得研究過程由理論驅動轉向數據驅動,亟須研究人員調整研究范式。
第二,樣本選擇性偏誤問題。由于新型數據僅覆蓋部分群體,同時獨特的數據收集過程或
平臺設計邏輯也會導致在使用該數據時引入樣本偏差[32],使得推測的統計特征與總體特征發生偏離,因此需重點考慮在應用新型數據時的樣本糾偏問題。
第三,不利于開展定性研究。數據體量過大使得研究人員很難逐個分析每一條數據,而現有的文本分析等自動化分析方法又不可避免地存在信息遺漏等問題,不利于研究人員開展定性研究。如何在海量數據中發現隱藏在其中的豐富內涵是未來應用此類數據的研究重點。
第四,倫理問題。一方面,源于互聯網的個人數據可能包含個人未授權的隱私信息,導致在應用數據時產生對個人權利的侵犯及連帶的法律責任,隱私數據的泄露也可能引發對弱勢群體的數字歧視;另一方面,為避免不必要的法律爭議,很多互聯網公司并不向研究者提供包含人口基本特征的原始數據,而這些數據正是進行人口監測及人口學研究的核心數據基礎,新型數據的倫理問題進一步限制了其被廣泛應用于人口研究。
第五,存在技術壁壘。新型數據存在大體量、非結構化等特點,數據的獲取、清洗、分析和管理過程都需要用到較為專業的大數據及計算機技術,人口等社會科學研究者未經過專業的
數字
技術培訓,應用此類數據往往存在較大的技術壁壘。
總體而言,盡管將新型數據應用于人口監測尚存在不少挑戰,但這些挑戰也為通過克服它們以加快人口實時監測體系的構建創造了機會。
四、傳統數據與新型數據的融合:多源數據人口監測
考慮到傳統數據與新型數據各有利弊,將二者融合形成多源數據或許能取長補短,進一步提高人口監測的質量和效率。需要注意的是,多源數據的構建并非簡單地將兩類數據合并,其重點在融合,即通過整合不同類型的數據,既可保留傳統數據連續性強、覆蓋范圍廣的優點,又能充分發揮新型數據時效性強、獲取成本低的優勢,以實現在更小的時空粒度上對人口總量、結構及相關指標的實時監測,并不斷拓寬數據的應用范圍。目前,相關研究多聚焦于對人口結構、人口流動、貧困人口等的監測及人口空間化分析,研究綜合性人口監測體系構建的文獻較少。
1. 多源數據的優勢
通過以上分析可以發現,傳統數據的優勢主要在于數據的連續性強、覆蓋范圍全面且可獲取性更高,但也存在數據漏報、高獲取成本和時效性較差等缺陷。與之相對應的,新型數據存在高時效、低成本、可跟蹤以及可覆蓋難以到達的人群等優勢,但樣本選擇偏誤、數據爆炸、倫理問題及高技術壁壘等問題也帶來了巨大的挑戰。通過融合傳統數據與新型數據形成多源數據,主要具有以下兩方面的優勢。
首先,在傳統數據中引入新型數據,可以豐富傳統數據在指標、研究維度和時效性上的不足。考慮到傳統人口監測的高成本,且可獲取的人口指標有限,尤其缺乏人口主觀和行為特征的指標,另外個體
為保護
隱私信息所發生的謊報和漏報也會對數據質量產生影響。通過使用新型數據輔助傳統數據研究,能進一步豐富可用于研究的指標和維度。手機信令等數據的獲取不受人的主觀意愿的影響,且時效性更強,結合此類數據與傳統數據進行人口流動等分析能進一步提高分析的準確性和時效性。此外,盡管傳統人口監測能覆蓋最全面的人口范圍,但仍可能存在難以到達的人群未能統計。新型數據的輔助應用為估計這類人群的特征提供了可能,能進一步補充完善應用傳統數據進行的出生率、死亡率等估計。
其次,在新型數據中引入傳統數據,可以為應用新型數據開展分析提供基本數據保障。間接行為數據僅能反映人群的分布、活動等特征,而無法直接捕獲人口行為,將其應用于人口分析和人口特征推斷時必須
由傳統數據提供數據基礎。而傳統數據也無法在更細的時空維度上量化人口的空間分布。因此需要通過結合兩類數據,以實現在更精細化的時空維度上的人口數據網格化。
2. 多源數據的應用
(1)人口結構分析。
對人口結構變化的分析是人口監測的一項重要內容,人口結構不僅包括年齡、性別結構,還包括空間、社會結構等。傳統數據對人口結構的監測主要基于人口普查、出生登記、死亡登記等數據,例如通過出生性別比推斷人口整體性別比例的變化。近年來,隨著移動終端的普及及用戶登記的規范化,用戶在購買手機卡、使用微信等社交軟件時登記了基本人口特征信息,因此手機信令及部分LBS數據中也包含了人口結構的相關變量,將兩類數據結合可用于監測人口結構的動態變化和社會分異等現象。
如陳曉萍等基于手機運營商登記信息中的用戶性別數據,研究不同性別人群出行道路網的社會分異現象[33]。
湯姆林森(Tomlinson)等通過給移動設備發送短調查的方式,追蹤難以接觸到的農村人口的性別及年齡結構變化[34]。此外,還有大量文獻基于多源數據研究了人口空間結構的變化。多源數據的應用大大提高0OLS2AiDi6koyrk3W9JWgw==了人口結構監測的時效性,為進一步分析人口結構變化與其他社會學和經濟學變量的關系提供了可能。
(2)流動人口分析。
應用多源數據的流動人口監測可從政府、學界和企業三方視角展開。從政府實踐來看,
國家衛生健康委員會基于大數據、云計算等技術來構建流動人口數據平臺,實現了多源人口及社會經濟數據的整合,加快了數據的分析和共享。北京、云南等省份
均嘗試結合傳統統計、遙感和手機信令數據來實現大數據動態人口監測
海淀區利用移動通信大數據、衛星遙感影像等高科技手段進行人口動態監測的網頁:https://zyk.bjhd.gov.cn/ztzl/kjcx/ywdt/201810/t20181027_3897405.htm。從學術研究來看,部分學者也嘗試基于多源數據對人口流動的時空特征進行分析。林文棋等利用以手機信令數據為主的多源時空數據,使用貝葉斯模型刻畫了北京市朝陽區居住人口的時空變化[35]。
另有學者構建了一個手機信令數據的分析框架,解決了應用該數據時在數據收集、軌跡構建、數據噪聲去除、數據存儲和用戶移動性分析方法等方面存在的問題,為大規模分析用戶長時間運動軌跡提供了方法借鑒[36]。從企業實踐來看,各大提供LBS服務的互聯網公司也積極構建基于多源數據的人口遷徙實時監測平臺,例如百度遷徙大數據、谷歌遷徙數據等,監測的指標主要包括人口的遷入地、遷出地、遷徙時間、遷徙數量等,并實現了人口遷徙的動態可視化。多源數據的應用豐富了對流動人口的分布特征、位置變化、通勤習慣、消費活動等指標的逐日、逐月的監測。
(3)人口空間化分析。
人口空間化是應用多源數據進行人口研究的一個重要方向,旨在基于傳統人口數據,結合地理信息數據、遙感數據、手機信令數據、POI數據等新型數據,在更精細化的時空維度上實現人口數據的網格化,便于人口數據同經濟、環境、資源等微觀數據的整合和跨學科研究。現有研究探討了在不同空間尺度下應用多源數據進行人口空間化的多種方法,包括插值法、遙感數據估算法、移動基站數據估算法、多源數據估算法等。
有學者基于從移動網絡中被動收集的呼叫詳細記錄和移動管理信號數據開發了一個雙峰模型,更好地估計了城市尺度上的實時人口分布[37]。何艷虎等融合人口統計數據、土地利用類型遙感數據、POI數據、DEM數據、河流道路數據等多源數據,構建柵格單元的人口分布模型,對珠江三角洲人口分布進行估計和預測,并實現了較為精確的估計結果[17]。
基于遙感數據、地理信息數據、POI數據及傳統人口數據,研究機構還使用人口空間化的多種方法研發了覆蓋全球的網格化人口數據集,影響較為廣泛的包括美國能源部橡樹嶺國家實驗室開發的LandScan人口數據集及南安普頓大學的WorldPop數據集等。其中,LandScan人口數據集能提供1998年至今1km分辨率下的全球網格化人口數據,而WorldPop數據集的分辨度在部分地區更是能達到100m。現有文獻也基于這類網格化人口分布數據集,從各個層面針對數據質量控制、復雜地形人口密度估計、城市規模識別、能源消費等問題開展了更全面的研究。
(4)其他人口相關領域應用。
除人口研究外,基于多源人口監測數據并融合深度學習等先進技術的應用還推廣至公共衛生安全風險防控和精準扶貧等與人口密切相關的領域,并形成了一系列研究成果。
在公共衛生安全風險防控方面,現有研究基于多源數據,綜合使用深度學習和網絡分析等新方法,重點研究了疫情擴散的時空動態、趨勢預判、公眾情緒、防控措施評估等問題,并探討了疫情對經濟社會的影響。如顧嘉等基于傳統SEIR流行病傳播模型,設計開發了考慮人口遷徙的vSEIdRm模型,并使用中國聯通智慧足跡的人口遷徙數據,驗證了人口遷徙和交通管制對疫情擴散的影響[38]。
另有學者通過分析2020年4月發布的348933條推文,分析了新冠疫情期間公眾經歷的特定情緒和人們關心的話題[39]。公共衛生安全風險防控相關研究要求數據的實時性和準確性,多源數據的引入有助于基于人口動態流動準確識別疫情擴散的時空變化及其影響。
近年來,多源數據還應用于貧困治理領域,為實現精準扶貧創新及動態防返貧預警提供數據支持。用于精準扶貧的大數據主要包括貧困登記、各部門行政記錄、資源和空間地理信息等,重點收集了貧困家庭基本情況、致貧原因、幫扶責任人、幫扶計劃、幫扶成效以及脫貧評估等基本指標。為評估脫貧政策效果,部分研究還對九項精準扶貧措施的實施效果進行了調查[40]。此外,多源人口大數據還可應用于防脫貧研究,如孫壯珍和王婷以四川省L區為例,分析了如何基于電網大數據構建防返貧預警機制[41]。
五、有待進一步研究的議題
近年來,為滿足經濟社會發展需要,人口監測的對象正逐漸從人口的自然構成向“人的行為”延伸。本文從人口監測的傳統數據、新型數據及新老數據融合三方面對國內外相關研究進行系統梳理,研究發現:一方面,目前傳統數據還存在特定群組及抽樣調查數據漏報、數據采集成本高、時滯長和行政記錄數據缺乏共享等不足,不利于人口實時動態監測體系的構建;另一方面,引入新型數據時機會與挑戰并存,機會在于新型數據的獲取效率更高、成本更低、時效性更強、覆蓋相對全面且能長期跟蹤記錄,這些優勢在一定程度上彌補了傳統數據的不足,但新型數據同樣產生了新挑戰,包括研究范式的轉變、樣本選擇性偏誤問題、定性研究困難、倫理問題和技術壁壘等,
解決
這些挑戰為構建
人口實時動態監測體系提供了新契機;進一步地,傳統數據和新型數據的融合促進了兩類數據取長補短,共同構成人口監測的多源數據基礎,大大提高了人口監測的實時性、準確度及效率,并降低了監測成本。
目前,我國基于多源數據的人口監測研究與實踐仍處于探索階段,未來在以下幾個方面仍有待于進一步加強研究。
第一,傳統數據和新型數據的深度融合研究。未來可通過系統梳理不同類型數據的結構和內容特征,探究應采取何種方式
充分發揮數據間的互補優勢,綜合各數據的長處,以差異化方式促進傳統數據與新型數據的深度融合,為整合形成多源人口監測數據庫提供理論支撐。
第二,應用多源數據進行人口監測的新算法研究。多源數據融合了傳統數據和新型數據,不同數據的處理方式存在異質性,既有方法并不能完全發揮多源數據作為融合數據的優勢,需要進一步探索適用于多源融合數據的人口監測新算法。這類算法旨在在改善不同數據質量問題的基礎上,優化傳統數據與新型數據的匹配和融合方式,有選擇地保留不同數據的優勢信息,避免由于指標重復所產生的數據冗余、低效率等問題。
第三,數據獲取和隱私計算問題研究。
獲取問題是當前應用多源數據面臨的核心議題之一,而改善數據獲取的方法之一是應用隱私計算技術。通過制定統一的隱私計算規則,實現多源數據的“可見、不可見”,在確保個人隱私數據安全性的前提下,使研究者能夠應用反映人口特征的相關變量進行分析。如何合理地針對多源數據進行隱私計算是未來相關研究需要關注的一個重要問題。
第四,明確監測的應用方向。現有文獻尚缺乏對監測之后應用方向的討論,無法實現以應用為導向的數據采集及監測分析。未來可嘗試從理論和政策評估的目的出發,通過精心設計的社會實驗或者準社會實驗,研究不同條件變化下人口的變化及政策實施的效果,從而更加清晰和深入地分析導致這些現象產生的內在機制與改進方向。
參考文獻:
[1]胡桂華,漆莉,遲璐婕.人口普查中遺漏人口數的估計[J].數量經濟技術經濟研究,2022(1):132-153.
[2]WALLGREN B, WALLGREN A. Register-based statistics: statistical methods for administrative data[M]. New York: John Wiley & Sons, 2014:121-146.
[3]徐藹婷,楊玉香.基于行政記錄人口普查方法的國際比較[J].統計研究,2015(11):88-96.
[4]“北京大學人口研究所人口普查質量評估”課題組,陳功.論人口普查信息化:新特征、新挑戰與新路徑[J].調研世界,2021(7):59-66.
[5]盛亦男,顧大男.概率人口預測方法及其應用——《世界人口展望》概率人口預測方法簡介[J].人口學刊,2020(5):31-46.
[6]KANESHIRO M. Missing minorities? the phases of irca legislation and relative net undercounts of the 1990 vis--vis 2000 decennial census for foreign-born cohorts[J]. Demography, 2013, 50(5):1897-1919.
[7]BECKER S, KALAMAR A. Sampling weights for analyses of couple data: example of the demographic and health surveys[J]. Demography, 2018, 55(4):1447-1473.
[8]趙莉,樊延軍,王媛媛,等.基于《出生醫學證明》構建我國出生人口基礎信息庫的思考[J].人口研究,2019(3):57-64.
[9]趙明,王曉軍.我國人口死亡風險異質與混合模型研究[J].統計研究,2023(3):139-150.
[10]周皓.中國人口流動模式的穩定性及啟示——基于第七次全國人口普查公報數據的思考[J].中國人口科學,2021(3):28-41,126-127.
[11]王廣州.新中國70年:人口年齡結構變化與老齡化發展趨勢[J].中國人口科學,2019(3):2-15,126.
[12]李婷,鄭葉昕,閆譽騰.第七次人口普查數據死亡水平估計[J].中國人口科學,2022(5):2-16,126.
[13]張現苓,明艷.第七次全國人口普查年齡數據準確性分析[J].人口研究,2022(4): 27-39.
[14]翟振武,劉雯莉. 七普數據質量與中國人口新“變化” [J]. 人口研究, 2021(3): 46-56.
[15]李成,米紅. 中國1982年后人口普查和抽樣調查中死亡漏報的估計——基于Bayesian分層回歸模型 [J]. 人口研究, 2022(1): 19-36.
[16]XU Y, SONG Y, CAI J, et al. Population mapping in China with Tencent social user and remote sensing data[J]. Applied Geography, 2021, 130:102450.
[17]何艷虎,龔鎮杰,林凱榮.基于地理大數據和多源信息融合的區域未來人口精細化空間分布模擬研究——以珠江三角洲為例[J].地理科學, 2022(3): 426-435.
[18]SZARKA N, BILJECKI F. Population estimation beyond counts-inferring demographic characteristics[J]. PlosOne, 2022, 17(4):e0266484.
[19]REIS B Y, BROWNSTEIN J S. Measuring the impact of health policies using Internet search patterns: the case of abortion[J]. BMC Public Health, 2010, 10:1-5.
[20]BILLARI F, D’AMURI F, MARCUCCI J. Forecasting births using Google[C]. 1st International Conference on Advanced Research Methods in Analytics, 2016:119.
[21]DE CHOUDHURY M, COUNTS S, HORVITZ E. Predicting postpartum changes in emotion and behavior via social media[C]. The SIGCHI Conference on Human Factors in Computing Systems, 2013: 3267-3276.
[22]FIRE M, ELOVICI Y. Data mining of online genealogy datasets for revealing lifespan patterns in human population[J]. ACM Transactions on Intelligent Systems and Technology, 2015, 2:1-22.
[23]TAMGNO J K, FAYE R M, LISHOU C. Verbal autopsies, mobile data collection for monitoring and warning causes of deaths[C]. 15th International Conference on Advanced Communications Technology (ICACT), 2013:495-501.
[24]FAHEY R A, MATSUBAYASHI T, UEDA M. Tracking the werther effect on social media: emotional responses to prominent suicide deaths on Twitter and subsequent increases in suicide[J]. Social Science & Medicine, 2018, 219:19-29.
[25]TOURASSI G, YOON H J, XU S. A novel web informatics approach for automated surveillance of cancer mortality trends[J]. Journal of Biomedical Informatics, 2016, 61:110-118.
[26]KAPLANIS J, GORDON A, WAHL M, et al. Quantitative analysis of population-scale family trees using millions of relatives[J]. Science, 2018, 360(6385): 171-175.
[27]BLUMENSTOCK J E, EAGLE N. Divided we call: disparities in access and use of mobile phones
in Rwanda[J]. Information Technologies & International Development, 2012, 8(2):1.
[28]ZAGHENI E, GARIMELLA V R K, WEBER I, et al. Inferring international and internal migration patterns from Twitter data[C]. The 23rd International Conference on World Wide Web, 2014:439-444.
[29]STATE B, RODRIGUEZ M, HELBING D, et al. Migration of professionals to the US: evidence from Linkedin data[C]. Social Informatics: 6th International Conference, 2014: 531-543.
[30]VOLKOVA S, BACHRACH Y. On predicting sociodemographic traits and emotions from communications in social networks and their implications to online self-disclosure[J]. Cyberpsychology, Behavior, and Social Networking, 2015, 18(12):726-736.
[31]CESARE N, LEE H, MCCORMICK T, et al. Promises and pitfalls of using digital traces for demographic research[J]. Demography, 2018, 55(5): 1979-1999.
[32]LAZER D, KENNEDY R, KING G, et al. The parable of Google Flu: traps in big data analysis[J]. Science, 2014, 343(6176):1203-1205.
[33]陳曉萍,周素紅,李秋萍,等.廣州城市道路網的社會分異——基于軌跡大數據的出行分布性別差異[J].地理研究,2021(6):1652-1666.
[34]TOMLINSON M, SOLOMON W, SINGH Y, et al. The use of mobile phones as a data collection tool: a report from a household survey in South Africa[J]. BMC Medical Informatics and Decision Making, 2009, 9(1):1-8.
[35]林文棋,陳會宴,謝盼,等.基于多源數據的北京市朝陽區人口時空格局評估與預測[J].地球信息科學學報,2018(10):1467-1477.
[36]QIAO Y, CHENG Y, YANG J, et al. A mobility analytical framework for big mobile data in densely populated area[J]. IEEE Transactions on Vehicular Technology, 2016, 66(2): 1443-1455.
[37]FENG J, LI Y, XU F, et al. A bimodal model to estimate dynamic metropolitan population by mobile phone data[J]. Sensors, 2018, 18(10): 3431.
[38]顧嘉,陳松蹊,董倩,等.基于vSEIdRm模型的人口遷移以及離漢交通管控對新冠肺炎疫情發展的影響分析[J].統計研究,2021(9):114-127.
[39]ZHANG X, WANG Y, LYU H, et al. The influence of Covid-19 on the well-being of people: big data methods for capturing the well-being of working adults and protective factors nationwide[J]. Frontiers in Psychology, 2021, 12: 681091.
[40]汪磊,許鹿,汪霞.大數據驅動下精準扶貧運行機制的耦合性分析及其機制創新——基于貴州、甘肅的案例[J].公共管理學報,2017(3):135-143,159-160.
[41]孫壯珍,王婷.動態貧困視角下大數據驅動防返貧預警機制構建研究——基于四川省L區的實踐與探索[J].電子政務,2021(12):110-120.
Multi-source Data for Population Monitoring in the Digital Age:
Current Situation and Prospects
GUO Tao1,2, WU Kang1,2, LI Dong3, LIU Tao4, QI Wei5
(1.School of Urban Economics and Public Administration, Capital University of Economics
and Business, Beijing 100070, China;2.Beijing Key Laboratory of Megaregions Sustainable
Development Simulation, Beijing 100070, China;3.Institute for China Sustainable
Urbanization, Tsinghua University, Beijing 100084, China;4.College of Urban and
Environmental Sciences, Peking University, Beijing 100871, China;5.Institute of
Geographic Sciences and Natural Resources Research, Chinese Academy of
Sciences, Beijing 100101, China)
Abstract: Population monitoring is the basic work to support the party and the state to carry out multiple goals such as population planning, statistics, prediction and early warning, and is the cornerstone of scientific government decision-making. At present, the traditional data of population monitoring in China still have some problems, such as missing and rereporting, low quality, weak timeliness, incomplete attributes, and insufficient integration. It is difficult to implement effective and fine population management, and also limits the wide application of monitoring data in demographic research. With the rapid development of information technology and the further popularization of mobile terminals, a series of new data such as mobile phone signaling, Internet and remote sensing information that can directly or indirectly capture
“population behavior” have emerged in large numbers and been applied to population monitoring, complementing traditional data collection methods such as census and survey. It is expected to form a more comprehensive and practical multi-source big data foundation for population monitoring through cross-collaboration. This paper systematically combs the multi-source data used for population monitoring in the digital era from three aspects: traditional data, new data and the fusion of traditional and new data. Firstly, by combing the classification of traditional population monitoring and related application research, it summarizes the main advantages, bottlenecks and shortcomings of traditional data, and then clarifies the demand targets and necessity of fusion of new data. Secondly, from the perspective of data classification, comparison of advantages and disadvantages, and application research, the relevant literature of new data is reviewed, focusing on the opportunity and challenge of applying new data at the present stage. Finally, by summarizing the advantages
of fusion application of traditional data and new data, the issues to be further studied are refined. This study establishes a theoretical basis for using multi-source data to realize population dynamic monitoring, promote the informationization, standardization and refinement of floating population statistics, and support government policy making and demographic research.
Keywords:multi-source data;population behavior;population data;demographic studies;survey and census
[責任編輯 崔子涵]