[摘要]近年來,不同領域學者使用各類數據研究了我國人口流動問題。本文整理了這些研究數據并將其分為七類。通過概括這七類數據的特點及常用統計指標,本文評述了學者使用七類數據的研究方法及數據使用中存在的問題。本文旨在歸納我國人口流動問題的可行研究數據,以方便各領域學者跳出自身專業數據集和研究方法的局限,對人口流動問題進行跨專業融合研究。
[關鍵詞]人口流動;人口遷徙;數據;統計指標
[中圖分類號]C921""""" [文獻標識碼]A
[DOI]:10.20122/j.cnki.2097-0536.2023.10.003
人口流動問題是我國學術界近些年研究的熱點問題。社會學、地理學及經濟學等領域學者使用各類數據,對人口流動問題進行了深入研究。本文整理了我國人口流動領域的研究數據并將其歸納為七類。通過介紹七類數據及其關于人口流動的常用統計指標,本文旨在比較不同領域學者的數據和研究方法,指出已有研究存在的問題,以方便后續研究人員跳出自身專業局限,對我國人口流動問題進行跨專業融合研究。
一、全國人口普查或抽樣調查數據
全國人口普查由國家統計局組織,每10年普查一次,一般在尾數為0的年份進行。我國于1953、1964、1982、1990、2000、2010和2020年進行了七次全國人口普查,1990年四普時,我國首次將人口省際遷移作為正式統計項目,2000年五普時進一步細化該項目,增加了省、市及縣內部的人口遷移流量統計。
除人口普查外,國家統計局在尾數為5的年份進行全國1%人口抽樣調查。抽樣調查內容與普查相同,只是人數減少。我國于1995、2005和2015年進行了人口抽樣調查。在非普查或抽樣調查年份,國家統計局每年還進行人口變動情況抽樣調查,在全國抽取1‰人口。全國1‰人口抽樣調查內容比人口普查和1%人口抽樣調查的內容減少很多,但依然包括人口出生、死亡和遷移等基本情況。
在國家統計局的各類調查中,學者多使用全國人口普查數據或1%人口抽樣調查數據進行研究。相關研究的統計指標可分為兩大類:一是未使用微觀數據的宏觀統計指標;二是使用微觀數據的微觀統計指標。
(一)宏觀統計指標
宏觀統計指標來自全國人口普查或1%人口抽樣調查公布的公報及年鑒。公報及年鑒顯示,流動人口遷出地分為三類:分別是戶籍地、五年前常住地和出生地。按不同遷出地標準統計的流動人口規模不同,官方流動人口數據由戶籍地標準獲得,學者多使用五年前常住地標準的流動人口數據,目前少有文獻涉及出生地標準的流動人口。
1.戶籍地標準的流動人口。當人口的戶籍地與現居地不同且離開戶籍地半年以上,便出現人戶分離。人戶分離人口是最寬泛的流動人口。人戶分離人口又分為市轄區內人戶分離人口和跨市轄區的人戶分離人口兩類,其中后者是官方認定的流動人口。
2.五年前常住地標準的流動人口。朱宇等(2022)認為,人戶分離與人口遷移流動事件脫節,基于現住地與五年前常住地對比的統計數據揭示了流動人口“流量” [1]。學者基于五年前常住地標準研究人口跨省流動,使用的統計指標包括:一是帶有方向的流動人口規模,包括流入規模、流出規模、凈流動規模和總流動規模。二是人口流動強度,即地區流動人口與該地區居住人口之比。流動強度又被稱為遷移率,根據流動方向的不同,可分為遷入率、遷出率、凈遷移率和總遷移率。三是一省不同目的地的流出人口占該省總流出人口的比重,由此可加總出前三位遷出目的地總比重,或計算表示遷出目的地概率分布分散程度的熵。段成榮等(2022)提出,從流出地看,可將一省流出人口與該省戶籍人口數量之比定義為人口流動參與度,從流入地看,可將一省流入人口與該省常住人口數量之比定義為流動人口能見度 [2]。
(二)微觀統計指標
微觀統計指標來自人口普查或抽樣調查的原始微觀數據,該數據樣本量巨大,即使從中再抽取子樣本,也可達100余萬。學者使用的微觀統計指標,依賴其研究主題不同而有所差異,但研究人口省際流動時,都一致選擇了五年前常住地標準衡量人口流動。
不同領域學者使用微觀數據的研究方法也不同。地理學領域學者多使用復雜網絡分析法探討人口流動的網絡特征,社會學領域學者在統計人口學特征外,多對單期截面數據進行OLS或Logit回歸,但這無法避免遺漏變量帶來的估計偏誤。近年來,經濟學領域學者嘗試通過工具變量或構造城市層面面板數據解決遺漏變量偏誤問題。
全國人口普查或抽樣調查數據是我國人口流動領域最具權威的數據,使用該數據研究中,存在如下兩個問題。一是人口普查或1%抽樣調查僅在特定年份進行,由此得到的數據在時效性和連續性方面存在缺陷。利用宏觀數據分析人口流動多偏重于省際層面,城際層面或縣域層面相對較少。二是微觀數據需要機構先備案申請通過,機構的工作者才能以個人名義申請使用數據。數據申請過程過于繁瑣,致使部分高校無法獲得微觀數據。
二、中國流動人口動態監測調查數據
2009年起,國家衛生健康委員會每年在流入地組織一期針對流動人口的動態監測調查。調查涉及的流入地涵蓋我國31個省及新疆生產建設兵團,調查以“人戶分離”確定流動人口,衛健委將在流入地居住一個月以上的非本市戶籍人口定義為流動人口。自2009年至2018年,衛健委共組織了10期調查,每期調查約20萬戶,由此形成的數據被稱為中國流動人口動態監測調查數據(CMDS)。
學者基于中國流動人口動態監測調查數據構造了多項統計指標,其中常用的是流動人口規模和流動人口居留意愿。
首先,流動人口規模。自2011年至2018年,動態監測調查采用了分層、多階段、與規模成比例的PPS抽樣方法,并以調查當年各城市的第一次季報流入人口排序確定抽樣比例。王春超和葉蓓(2021)根據各城市調查人數和CMDS抽樣設計方案,加權得到了當年第一季度各城市的高技能、低技能流動人口數量,以及流動人口的總數量 [3]。其次,流動人口居留意愿。朱宇和林李月(2019)將流動人口在城鎮的居留意愿分為定居意愿、戶籍遷移意愿、五年以上長居意愿、放棄流出地土地意愿和在流入地買房意愿五類,認為已有文獻以研究定居意愿和戶籍遷移意愿為主 [4]。本文觀察到,當使用多期跨年數據時,為解決調查問卷在各年提問方式不一致問題,學者常使用五年以上長居意愿衡量流動人口的居留意愿。
研究居留意愿時,學者多以流動人口個體為對象,針對個體對相關問題的回答判斷其居留意愿,探討高房價、社會融合和城市管理等熱點問題對流動人口居留意愿的影響。近年來,部分學者將居留意愿的研究上升到省或地市層面,以有居留意愿的流動人口數占抽樣總量的比例衡量省或地市居留意愿(陳浩和羅力菲,2022) [5]。
CMDS數據是研究我國人口流動的常用數據,雖然取得較多研究成果,但使用中仍存在兩個問題。一是單期截面數據遺漏變量偏誤。和全國人口普查或1%人口抽樣調查的截面數據一樣,存在遺漏變量偏誤下,回歸結果只能被解讀為相關性,不能進行因果推斷。近年來,學者認識到不足,或將多期數據混合后再控制年份及省市固定效應(周穎剛等,2019) [6],或將個體調查數據上升到省或地市層面,再構造面板數據(陳浩和羅力菲,2022) [5]。二是缺少2019年以后CMDS數據。2019年至今,衛健委未再組織全國性流動人口動態監測調查,這使我們無法檢驗如新冠疫情或省會城市全面放開落戶等新問題對流動人口居留意愿、就業選址或回流的影響。
三、年鑒數據
從國家到地方省、市、縣等各級政府,每年年初發布當地上年度《國民經濟和社會發展統計公報》,公報中常涉及常住人口、戶籍人口等數據。公報數據是初步統計的快報數據,經統計局人口變動情況抽樣調查核實后,才能記入統計年鑒,成為年鑒數據。
使用年鑒數據需注意,一是年鑒數據與人口普查或1%抽樣調查數據不一致時,統計局會修正之前各年年鑒數據;二是各級政府在統計年鑒中匯報人口數據時沒有統一要求,是否報告某項數據由地方政府自行決定。
受我國戶籍制度影響,學者研究人口空間移動時,常使用人口遷移和人口流動兩個指標。伴隨戶籍變更的人口移動被稱為人口遷移,不伴隨戶籍變更的人口移動被稱為人口流動。學者多使用年鑒數據計算省或地市層面的戶籍凈遷移人口和凈流動人口。
一是戶籍凈遷移人口。由于戶籍人口有自然增長和遷移增長兩種來源,劉濤等(2021)提出在戶籍人口總增量中減去自然增長的數量(即出生人口數與死亡人口數之差),可求得戶籍凈遷移人口數 [7];其將戶籍凈遷移人口數與年末戶籍總人口數之比定義為戶籍凈遷移率,通過比較各地市戶籍凈遷移率,劉濤等(2021)分析人口遷移的時空特征 [7]。二是凈流動人口。自媒體中有以常住人口總增量指代凈流動人口數,但這沒考慮常住人口的自然增長。劉嘉杰等(2022)提出,常住人口與戶籍人口數量差值可用來衡量“存量”意義上的流動人口數,本年差值與上一年差值之差,可用來衡量凈流動人口數量 [8]。計算凈流動人口首先需要常住人口數量。由于部分城市未公布常住人口數,李衛兵和楊歡(2021)以《中國城市統計年鑒》根據常住人口為標準計算的人均生產總值,倒推了常住人口,即以城市的生產總值與人均生產總值相除計算常住人口數量 [9]。三是暫住人口。在我國,暫住人口指離開常住的戶口所在地,到其它城市或是鄉鎮暫住三日以上的人口。《中國城市建設統計年鑒》有各地市暫住人口的統計。陳淑云和李琪(2022)以相鄰兩年度暫住人口的差值衡量非戶籍人口變動,這同樣沒考慮到人口自然增長問題 [10]。
經濟學領域學者多使用年鑒數據研究省或地市層面人口流動,使用年鑒數據通常存在兩個問題。一是年鑒數據的修正和部分指標缺失。陳友華和孫永健(2022)指出,北上廣深等大城市的行政統計人口數量常年低于人口普查數量,存在系統性低估 [11]。這導致人口普查或抽樣調查后要對年鑒數據進行修正。另外,2020年后部分地市將出生人口數和死亡人口數作為城市絕密數據,不對外公布,導致計算戶籍凈遷移人口的關鍵指標缺失。二是錯誤使用統計指標。年鑒中均有標明,出生人口、死亡人口及人口自然增長率是公安部根據戶籍人口統計的,戶籍人口構成不同于常住人口,因而直接以戶籍人口自然增長率與常住人口數相乘來計算常住人口自然增長數量(李衛兵和楊歡,2021) [9],是錯誤的。另外,統計年鑒指出,應以“年平均戶籍人口數”與人口自然增長率相乘,計算戶籍人口的自然增長,很多文獻錯誤的使用了“年初戶籍人口數”。
四、高校及科研機構的微觀調查數據
經濟學領域學者常使用高校及科研機構組織的微觀入戶調查數據研究我國人口流動問題。與中國流動人口動態監測調查一年二十余萬人的大樣本不同,高校或科研機構年平均調查樣本僅有一至兩萬人,且調查間隔二至四年組織一次。
根據是否對調查樣本追蹤,我們可把微觀調查分為兩類:一類是有追蹤的調查,包括中山大學的中國勞動力動態調查(CLDS)、北京大學的中國家庭追蹤調查(CFPS)、中國人民大學的中國教育追蹤調查(CEPS)、暨南大學的中國城鄉勞動力流動調查(RUMiC)及西南財經大學的中國家庭金融調查(CHFS);另一類是沒有追蹤的連續性截面調查,包括中國人民大學的中國綜合社會調查(CGSS)、北京師范大學的中國家庭收入調查(CHIPS)以及中國社科院的中國社會狀況綜合調查(CSS)。
學者使用微觀調查數據時,都以人戶分離標準界定流動人口。在研究思路上,部分學者將人口的遷移流動作為自變量,研究遷移流動行為的影響;部分學者則確定流動人口樣本后,在樣本內研究流動人口特征。首先,當以人口遷移流動作為自變量時,學者多關注其對教育及教育回報的影響。其次,當以流動人口為研究對象時,學者多關注流動人口的方言能力、社會融合及住房等熱點問題。可以看出,學者關注的熱點問題較為集中,不同學者使用不同的微觀調查數據,研究了相同的熱點問題。
高校及科研機構組織的微觀調查連續進行,因而學者多使用此類數據展開研究。但微觀調查數據也存在一個問題,即為保護隱私,各類數據只公布被訪者所在省份,所在地市均以偽碼代替,這導致實證時個體數據無法與地市層面宏觀數據相匹配,從而影響實證結果。另外,本文發現學者使用微觀調查數據界定的流動人口并不一致。部分學者將戶口在本縣其他鄉鎮街道與本縣以外的被訪者界定為流動人口(高立飛和王國軍,2021) [12],這是國家統計局定義的人戶分離人口,部分學者以不改變戶籍情況下,被訪者離開本縣(市)半年以上界定流動人口,這與官方定義的流動人口一致。人戶分離人口包括市轄區人戶分離人口和流動人口兩部分,市轄區人戶分離人口的方言、社會融合及住房選擇等都不同于流動人口,將兩者混為一體,將造成估計結果失真。
五、課題組實地調研數據
農民工是我國流動人口主體。為研究農民工流動,部分課題組進行實地調研,獲得了第一手的實地調研數據。與其他微觀數據不同的是,一是課題組實地調研數據樣本量較小,早期調研人數往往在300-1300人之間,2020年后的調研可達1.5萬-2萬人。二是課題組實地調研依課題完成而結束,不會隔年連續調查,更不會進行追蹤調查。
課題組實地調研主題大多也集中在社會融合、住房等熱點問題上,它是高校及科研機構微觀調查數據的有效補充。高校及科研機構的微觀調查為服務于“收入分配”或“教育”等一個總主題而展開,雖然會涉及人口流動,但很難深入一些農民工的細節問題,這時就需要課題組實地調研加以彌補。實地調研的訪談問卷根據課題需要設計,因而更具針對性。
為降低成本,課題組往往選擇在農民工流入地進行實地調研。有研究認為,流入地調研很難做到隨機抽樣,農民工領域的研究應改在流出地調研,但流出地抽樣不可避免存在“人不在家”問題。
六、人口遷徙大數據
人口遷徙指人群短期離開居住城市,前往其他城市旅游、看病或出差等的短期流動行為。不同于年鑒數據的“暫住人口”以三日為限界定人口流動,人口遷徙判定流動的時間更短,通常在1天以內。我國主要根據智能終端用戶的定位變化判斷人口遷徙,由此形成的逐日數據被稱為人口遷徙大數據。
(一)百度人口遷徙大數據
由于百度地圖開放平臺為十余萬款APP提供免費且優質的定位服務,人們普遍認為基于百度地圖定位的人口遷徙數據覆蓋面廣,客觀且真實記錄了人口的日常流動軌跡。“百度遷徙”統計8小時內定位變化的智能終端用戶數量,據此編制了四類反映人口遷徙的統計指標。
第一類指標是遷徙規模指數。該指數是一個無量綱數,與統計的實際遷徙人口數量正相關。遷徙規模指數分為全國、省份和城市三個層面。全國層面指數不區分流動方向,只反映總體遷徙規模,省份和城市層面指數按流動方向不同,分為遷入規模指數和遷出規模指數兩類。
第二類指標是省份和城市層面的遷入/遷出比例。其中,遷入比例指從某來源地遷入當前區域的人數占當前區域總遷入人數的比例,遷出比例指從當前區域遷出到某目的地的人數占當前區域總遷出人數的比例。
第三類和第四類指標分別是上班出行/就餐休閑出行強度指數和城內出行強度指數。這兩類指標非常相近,都是先計算城市某類出行行為的人數與該城市居住人口的比值,然后將比值指數化。安邦等(2021)在研究武漢人口流動對跨城市新冠疫情傳播的影響中,以城內出行強度指數作為居民人文素養的代理變量,探究了居民人文素養在防疫中的作用 [13]。
(二)騰訊人口遷徙大數據
“騰訊遷徙”是騰訊公司根據用戶移動定位信息擬算出的人口遷徙大數據,該數據以城市為單位,統計每天城市之間人口流入與流出情況。“騰訊遷徙”將實際人口流動數據無量綱化處理后再編制為指數,在其網站發布。騰訊遷徙每天發布遷徙人口乘坐汽車、火車和飛機三種不同交通方式出行的比例,這為學者研究我國城市之間人口流動網絡帶來新的思路。
(三)高德人口遷徙大數據
高德公司發布的高德人口遷徙大數據,同樣是由人群定位信息獲得。高德遷徙數據有兩個重要指標,一個是城市間實際遷徙指數,另一個是城市間意愿遷徙指數。由于未公開兩個指數具體算法,我們僅知道實際遷徙指數是一個與實際遷徙人數正相關的指數,無法知曉意愿遷徙指數的由來,因此目前沒有學者使用“意愿遷徙指數”研究我國人口流動問題。
三大平臺公布的人口遷徙大數據多以指數表示,相較于社會學和經濟學的研究,這些指數更適合于地理學領域的城市間網絡結構分析。雖然地理學領域已取得豐富研究成果,但使用人口遷徙大數據時,仍需注意以下兩點。一是三大平臺僅公布近期人口遷徙數據,歷史數據需要網絡爬蟲獲取,我們無法檢驗爬取歷史數據的準確性;二是人口遷徙大數據描述人群短期流動,我們無法知曉短期流動是否伴隨戶籍遷移,無法得知遷徙個體的人口學特征,這將影響使用人口遷徙大數據的實證檢驗。
七、其他數據
(一)地方支持的微觀大數據
張文佳等(2023)利用深圳市規劃國土房產信息中心提供的1980-2014年全國31個省遷入深圳的約1906萬條人口大數據,篩選出本科及以上高學歷人才23.43萬人作為研究對象,分析了人才遷入深圳的多維驅動因素 [14]。王寧寧和趙曉永(2022)從黑龍江省600余萬社保參保人員20年的繳費信息中獲取了城鎮工作人員遷移數據,建立了省內146萬余條的人口遷移大數據集,分析了省內人口遷移的時空特征 [15]。
上述兩篇文獻的共同點是數據由地方政府向特定研究者提供,不對其他研究者公開,因而我們無法檢驗相關結論。
(二)構造人口流動變量的大數據
王兆華等(2021)利用長江中下游某省2016-2017年200余萬城鎮家庭月度智能電表數據分析人口流動,其將用電量低于閾值的家庭判定為遷出家庭,高于閾值的判定為未遷出家庭,一個城鎮遷出家庭數占總家庭數比值被定義為人口遷移指數,進而使用該指數研究空氣污染對人口流動的影響 [16]。
肖周燕和李慧慧(2021)以“城市名+招聘、城市名+地圖、城市名+租房”為關鍵詞,使用爬蟲技術獲取我國319個地市2018年和2019年百度搜索指數的搜索日均值,將三者相乘后取立方根,定義為人口遷移傾向,據此研究了潛在流動人口向目標城市流動的可能性 [17]。郝竟均和張鵬(2021)以“城市名+房價”為關鍵詞,爬取了我國93個城市2013-2019年每年百度搜索指數的搜索值,構造了城市內源性人口吸引力和外源性人口吸引力兩個指標,研究了國家級城市群政策對城市人口吸引力的影響 [18]。
上述三篇文獻雖未使用直接的人口流動變量,但利用大數據構造的變量表征了人口流動,因而研究方法可行。
學者創新性的使用相關大數據研究我國人口流動問題。除一般學者拿不到地方支持數據外,這類數據還存在一個問題,即如何確定百度搜索指數關鍵詞。不同文獻使用不同關鍵詞搜索,不僅搜索結果不同,關鍵詞與要表征的人口流動意愿關聯度也不同,本文認為“房價”與城市內源性人口吸引力關聯度不高,我們不能確定“關注房價”將導致城市內人口流入還是流出。
八、結語
本文整理了我國人口流動問題的研究數據并將其歸為七類,評述七類數據特點、各類數據常用統計指標及數據使用中存在的問題,這可幫助后續研究人員根據自身研究主題選擇數據,深入探討我國人口流動問題。
參考文獻:
[1]朱宇,林李月,李亭亭,等.中國流動人口概念和數據的有效性與國際可比性[J].地理學報,2022,77(12):2991-3005.
[2]段成榮,邱玉鼎,黃凡,等.從657萬到3.76億:四論中國人口遷移轉變[J].人口研究,2022,46(6):41-58.
[3]王春超,葉蓓.城市如何吸引高技能人才?——基于教育制度改革的視角[J].經濟研究,2021,56(06):191-208.
[4]朱宇,林李月.流動人口在城鎮的居留意愿及其決定因素——文獻綜述及其啟示[J].人口與經濟,2019(2):17-27.
[5]陳浩,羅力菲.財政能力、公共服務供給與流動人口居留意愿[J].中國人口·資源與環境,2022,32(10):197-208.
[6]周穎剛,蒙莉娜,盧琪.高房價擠出了誰?——基于中國流動人口的微觀視角[J].經濟研究,2019,54(9):106-122.
[7]劉濤,劉嘉杰,曹廣忠.中國城市人口戶籍遷移的估算及時空特征——新型城鎮化的落戶政策導向[J].地理科學,2021,41(4):553-561.
[8]劉嘉杰,劉濤,曹廣忠.中國人口戶籍遷移與非戶籍遷移的比較[J].地理學報,2022,77(10):2426-2438.
[9]李衛兵,楊歡.空氣污染對人口遷移的影響——基于斷點回歸的估計[J].華中科技大學學報(社會科學版),2021,35(01):118-130.
[10]陳淑云,李琪.人才政策對流動人口落戶決策的影響——基于全國199個地級市的證據[J].江漢論壇,2022(05):32-42.
[11]陳友華,孫永健.人口普查數據與行政統計數據偏離現象研究——以中國四大城市為例[J].人口與經濟,2022(3):86-96.
[12]高立飛,王國軍.人口流動對居民商業保險需求的影響研究——基于CGSS2017數據的實證分析[J].河北經貿大學學報,2021,42(02):85-91.
[13]安邦,國辰辰,于博.人口流動管制、疫情防控與疫后經濟復蘇——基于百度人口遷徙大數據的研究[J].華北金融,2021(12):9-25.
[14]張文佳,王雨潤,陰劼.深圳市高學歷人才遷入格局的時空演化與驅動因素——基于1980—2014年個體遷移大數據[J].地理科學,2023,43(2):262-271.
[15]王寧寧,趙曉永.黑龍江省內部中長期城鎮人口遷移行為分析與建模——基于社保關系轉移視角[J].世界地理研究,2022,31(5):1096-1107.
[16]王兆華,馬俊華,張斌,等.空氣污染與城鎮人口遷移:來自家庭智能電表大數據的證據[J].管理世界,2021,37(03):19-33+3.
[17]肖周燕,李慧慧.中國主要城市群人口遷移傾向研究——基于百度指數的應用[J].人口與經濟,2021(04):22-36.
[18]郝竟鈞,張鵬.國家級城市群政策如何影響了城市人口吸引力?——基于城市人口吸引力二源分解和準自然實驗的分析[C]//中國管理現代化研究會,復旦管理學獎勵基金會.第十六屆(2021)中國管理學年會論文集,2021:662-683.
基金項目:2019年山東社會科學規劃項目,項目名稱:“新舊動能轉換背景下山東省流動人口戶籍遷移及其精準管理研究”(項目編號:19CQXJ22)
作者簡介:崔凌云(1980.2-),女,漢族,山東濟南人,博士,講師,研究方向:西方經濟學。