路 蘭,殷水英
(1.青島大學 經濟學院,山東 青島 266000;2.重慶大學 數學與統計學院,重慶 401331)
人口是經濟社會發展的關鍵要素,人口流動水平在一定程度上決定了地區在后續發展上的高度和質量,人口流動和空間分布的不斷優化是提高地區經濟發展水平的關鍵路徑。第七次全國人口普查資料(下稱“七普”)顯示[1],較之第六次人口普查數據,從人口流動方向上看,我國流動人口持續向城市群和都市圈集聚,人口增長和分布在空間上的集聚區域化凸顯[2-3];從人口流動規模和強度上看,省際人口遷出遷入規模和強度的省際差異雖明顯趨向減少,區域分布呈分散化趨勢,但人口流動區域層級化凸顯[4-5];從人口流動關鍵路徑上看,我國人口流動持續由中西部地區向東部經濟發達省市集聚的總體趨勢沒變,但時間維度上看存在一定的路徑依賴效應[6]。我國流動人口的增長及分布在空間上的動態變化表明,近10年我國人口流動的集聚區域化、層級化及路徑依賴等特征不斷強化,其必將加劇我國人口集聚的不均衡性及產業集聚的區域化差異,使我國區域產業升級過程中呈現梯度化、勞動力匹配失衡、流動效率低等諸多問題。然而,人口流動行為并不是孤立的,區域間人口的流動不能只考慮流入地和流出地,還需要考慮地區之間的交互作用,將人口布局和生產力布局有機結合,引導人口合理有序流動才是緩解問題的有效途徑。
實際上,人口流動及分布一直是學者們研究和關注的熱門話題。人口抽樣調查及人口普查數據開創了中國人口流動定量研究的新局面[7-12],使流動人口的研究越發活躍[13-14]。然而,此類靜態數據嚴重缺乏時效性和連續性,無法及時揭示新形勢下人口流動空間格局的分布特征。早期的人口空間分布研究主要采用洛倫茲曲線、基尼系數、遷入/遷出率分布等指標計算方法[15]、人口重心分析法[16]及聚類分析法[17-18]等對全國人口流動趨勢和分布均衡性變化進行分析,從各種角度提供了胡煥庸線作為人口分界線的證據[19-20]。這些研究結果表明,我國人口不均衡趨勢越來越顯著,總體呈現非均衡“雙向流動”格局。人口流動的主流仍然是從中西部向東南沿海地區轉移,中小型城市人口逐漸向區域中心級城市轉移。然而,近年來“胡煥庸線”兩側的“中間地帶”人口凈遷出呈現出不對稱性。但這些結論大都是基于人口普查或抽樣調查的靜態數據,給出我國各地區人口存量的靜態分布,無法提供我國人口分布變化的動態規律特征。
人口在城市或國家之間的流動是嵌入在地理空間中的有向流網絡,不同地區對人口的吸引力要素分布直接決定了人口分布特征[4]。研究表明,經濟社會因素對省際人口流動具有顯著影響,且中、東部各省份經濟社會因素對省際人口凈流入的影響較大,西部各省份經濟社會因素對省際人口凈流入的影響相對較小[3,21]。早在1938年,赫伯爾(Herberle)對遷移定理進行了深化,首次系統提出的“推拉理論”認為人口遷移是受遷入地拉力和遷出地推力相互作用的結果,這里已經開始萌生出交互作用的影子[22]。1946年齊普夫(Zipf)將牛頓定理引入推拉模型,提出了引力模型,認為區域間的人口流動量與兩地的人口成正比,與其距離成反比[23]。經典的引力模型和雙約束引力模型等空間交互模型均考慮了空間交互作用的衰減機制,但此類模型缺乏嚴格的理論依據。威爾森(Wilson)提出的最大熵模型也只能從宏觀層面上解釋引力模型,無法從微觀層面上刻畫個體的決策行為[24]。隨著經典的空間交互模型在復雜網絡領域的不斷發展及應用,介入機會模型、輻射模型和人口權重機會模型(Population-Weighted Opportunity,PWO)均基于微觀層面給出了人口流動機制的理論依據。介入機會模型完全是從個體目的地選擇行為的角度建模,引入排序的思想,即并非采用真實的數據來衡量各目的地與出發地之間的距離,而是簡單地采用排序的方法。該模型的缺點在于公式復雜,且容易高估近距離出行的比例[25]。輻射模型是假定個體只選擇距自己最近的高收益地點,收益值與地點人口數成正比,這就導致其預測結果有時與真實情況存在一定偏差[26]。閆楠等提出的PWO模型是假定個體在選擇目的地時會綜合考量所有潛在目的地的收益[27]。換句話說,在同等距離的情況下,個體會選擇收益率高的目的地,而在收益同等的情況下,距離較近的目的地對個體的吸引力更大。通過模型的構建過程可知,PWO模型中考慮到了目的地的就業機會數量衰減機制,進而考察了空間交互作用。該模型只需要輸入人口數據就可以預測地點間的流量矩陣,操作簡便,預測效果十分穩定,準確率可達到70%左右[28]。這表明地區間的就業機會數量對個體流動決策具有很重要的影響,但上述理論模型均沒有考慮到個體主觀因素對轉移決策的影響。布羅克曼(Brockmann)等最早在Nature上發表了利用美元流通數據間接分析人類空間移動行為的論文[29]。閆小勇等提出了記憶性偏好隨機游走模型,認為出行者在出行過程中會對已經到訪過的地點形成記憶偏好,并且此偏好會隨著到訪次數的增加而增強[30]。并且,閆小勇等在PWO和記憶性隨機游走模型的基礎上進一步提出了統一模型(Universal Model,UM)。該模型的基本假設是目的地對于個體來說存在著固定吸引力以及附加吸引力,固定吸引力可利用PWO計算得出,而附加吸引力則與個體的主觀認識有關,所以采用記憶因子來進行量化分析[31]。UM分別從主觀和客觀兩個方面對地區的吸引力進行了量化分析,在大量的數據分析中都取得了較好的預測結果,說明模型的基本機制是相當普適的。然而,由推拉理論對人口遷移的解釋可知,人口遷移的動力由遷出地的推力(排斥力)與遷入地的拉力(吸引力)共同構成,而UM中對空間交互強度的量化僅考慮了出行者所感受到的就業機會數,忽略了空間交互強度在地理距離上衰減速度的度量。
此外,我國區域間的交互作用通過要素“流動”的方式,逐漸從“地方中心”孕育的向心型中心地模式,向“流空間”塑造的多中心網絡化模式轉變[32-33],這種區域空間組織特征的結構變化必將對省際人口流動的空間分布產生影響。由此,已知各地點的人口(或經濟產值、流出總量等反映地點體量差異的指標)和地點之間距離(或移動成本、出行時間等反映地點之間阻隔程度的指標)等數據的前提下,更加準確地預測地點之間空間交互強度,成為本文研究的重點內容,也是本文主要的創新點。
鑒于此,本文在統一模型的基礎上,同時考慮空間交互強度在就業數量和地理距離上的衰減機制,提出了改進的統一模型(Improved Universal Model,IUM )。基于2020年全國人口普查的相關數據,利用PWO、UM及IUM構建省際人口流動網絡,采用社會網絡分析方法,從空間結構特征及模型預測誤差兩個維度,將三種預測網絡的結果與真實情況進行對比分析,給出三種模型的預測精度結果。
(1)人口權重機會模型。PWO公式如下:
(1)
Sji=∑djk (2) 其中,Pij表示個體從地點i流向地點j的概率;mj表示地點j的總人口數,dji表示地點j和地點i之間的地理距離。考慮到人口分布的異質性,用1/Sji對空間交互作用強度的衰減機制進行量化,其表示的是目的地的就業機會數量是隨著人口總數呈現遞減趨勢。 (2)統一模型。UM公式如下: (3) 其中,λi表示記憶強度參數,體現了個體在移動過程中會對已經訪問過的地點形成記憶性偏好,這種記憶性偏好會隨著個體對一個地點的訪問次數增加而得到不斷強化。rj表示地點j附加吸引力的排序,mj表示地點j的總人口數,1/Sji仍是對空間交互強度衰減機制的量化表示,同PWO模型。 (3)改進的統一模型。由于UM中對空間交互強度的量化僅考慮了出行者所感受到的就業機會數,忽略了空間交互強度在地理距離上衰減速度的度量。因此,本文在UM的基礎上,引入距離衰減系數,從地理距離和機會數量兩個維度對空間交互作用進行量化分析。張寶磊等提出目前常用的阻抗函數有四種,即冪型函數、指數函數、冪與指數復合型函數和半鐘型函數[34]。其中冪型函數、指數函數的形式相對簡單,而冪與指數復合型函數和半鐘型函數形式復雜、參數較多,計算難度較大,因此本文選擇冪型形式的阻抗函數。具體公式如下: (4) 以省份作為網絡節點,不同省份間人口流動的路徑作為邊,人口轉移量作為邊權,構建省際人口流動的加權有向網絡,記為G=(V,E,T)。其中,向量Vi=[vi](i=1,2,…,31)和Vj=[vj](j=1,2,…,31)分別表示人口從i省份流出,流入j省份;E=[eij]?V×V代表邊的集合,(vi,vj)∈E表示省份節點vi到省份節點vj的人口轉移關系,T(vi,vj)表示有向邊(vi,vj)的權重,即省份節點vi到省份節點vj的人口轉移量。計算公式如下: Tij=Pij×mi (5) (6) 其中,Pij表示遷出地省份i和遷入地省份j之間發生人口轉移的概率值,mi表示地點省份i的總人口數,n為省份總數。本文借鑒李敬等的研究[35],利用閾值法提煉網絡的核心結構,在充分保留省際間人口轉移原始基本信息的同時,又簡化了網絡以便于深入剖析該網絡拓撲特征。 結合社會網絡的相關結構參數,從省際人口流動網絡整體和省份個體兩個維度對真實網絡和預測網絡的空間網絡結構進行比較分析。選取的參數指標如表1所示。 根據羅杰斯(Rogers)等在2002年提出的理論,將人口流動的實際矩陣與模型模擬的預測矩陣分解為以下四個因素:整體效應K、特定省份的相對流出力Pi和相對吸引力Qj、省際間的空間交互效應Fij[36]。因此流動強度的估算公式如下: Tij=KPiQjFij (7) 其中,Tij表示省份i到省份j的人口流動強度;K為所有人口流動強度的幾何平均數,表示整體影響;Pi為省份i所有勞動力流出流的幾何平均數與K的比值,表示省份i的相對流出力;Qj為省份j所有勞動力流入流的幾何平均數與K的比值,表示省份j的相對吸引力;Fij表示關聯省份的空間交互效應,計算公式為Fij=Tij/KPiQj。 實際流動流和模擬流動流的表達式分別如下: T1ij=K1P1iQ1jF1ij (8) T2ij=K2P2iQ2jF2ij (9) 模擬流動流T2ij可進一步表示為: (10) 因此,模擬省際人口流動模型的總誤差Mgij可表示為: (11) 由整體效應K、相對流出力Pi、相對吸引力Qj和空間交互效應Fij在實際流與模擬流之間的不同而造成的誤差分別定義為Ekij、Epij、Eqij、Efij。且在單獨計算這四個誤差時,將被計算誤差之外的因素視為相等的處理方式,因此: (12) (13) (14) (15) 上述四個誤差彼此之間相互作用導致的復合誤差,將其定義為Eoij,其表達式如下: Eoij=Mgij-Ekij-Epij-Eqij-Efij (16) 綜上,誤差之間存在以下關系: Mgij=T2ij-T1ij=Ekij+Epij+Eqij+Efij+Eoij (17) 本文人口數據來源于國家統計局公布的2020年第七次全國人口普查據。省份距離數據采用兩省省會之間最短的火車距離,數據來源于全國鐵路主要站間里程表。其他數據均可在國家和地方統計年鑒上獲取。 表2 省際人口流動影響因子 在利用真實數據、PWO、UM及IUM構造我國2020年省際人口流動空間關聯矩陣的基礎上,利用Gephi軟件繪制四種省際人口流動網絡圖,如圖1所示。 圖1 2020年省際人口流動網絡結構圖 從圖1中可明顯得到,真實網絡和預測網絡中人口流動的空間格局均呈現出“多核心—網絡狀分布”的結構特征。這說明三種預測模型對省際人口流量及流向的預測均具有一定的可行性。然而,從人口流動分布特征來看,與2010年普查數據結果相比,2020年我國人口流動的主流模式仍然是從中西部向東南沿海地區轉移,主要的流動方向并沒有發生變化,但網絡核心的特征發生了微妙的變化:以北上廣為核心的勞動力流動網絡逐漸轉變為以京津冀、長三角和珠三角地區為核心的中心—外圍網絡。比較這三種模型的預測結構可知,PWO模型預測結果中鄰近區域間的流動較為突出,且很多是雙向流動,這有悖于2020年的普查結果。UM及IUM模型預測的人口流動的空間結構較為相似,且基本可以體現出2020年實際人口流動特征。 從整體結構參數上看,由表3可知,與2010年的結果類似,2020年我國省際間人口流動真實網絡的網絡密度和平均路徑長度都比較小,而聚集系數較大,表明人口流動網絡處于稀疏狀態,省際人口流動的關聯性并不強,但存在明顯的局部聚集效應,“小世界”特征凸顯。而基于三種空間交互網絡模型給出的預測網絡的整體參數值,雖與真實網絡存在一定的差距,但預測網絡與真實網絡的結構特征基本一致,整體網絡較為稀疏,但局部聚集效應明顯,也呈現“小世界”特征。 表3 省際人口流動網絡的整體結構參數 從個體層面來看,根據真實網絡和預測網絡的節點強度分別繪制入、出強度分布的直方圖(如圖2)。由圖2可知,實際網絡的入強度分布峰值在0—10之間,分布呈現右偏特征,表明在全國范圍內,只有少數省份是人口流入大省。而PWO的入強度分布峰值位于10—20之間,與實際情況不符,UM與IUM的入強度分布峰值與真實情況一致,并且同樣是呈右偏特征。與入強度類似,實際網絡的出強度分布峰值處于0—5之間,并且分布同樣呈現出右偏特征,同樣表明只有少數省份是人口輸出大省。三個預測網絡的出強度分布特征均與實際情況一致,分布峰值處于0—5之間,分布呈現出右偏特征。另外,依據真實網絡的入、出強度分布可以看出,相比出強度分布,入強度分布的偏度更高,異質性也更強,這表明大多數省份吸納人口的能力較差。通過上述分析可以看出,UM與IUM的出入強度分布更符合真實情況。 進一步繪制實際與模擬省份的出入強度散點圖(如圖3),考察具體省份的人口流動及模型模擬的情況。就入強度圖3(a)而言,廣東省的人口流入量位居全國之首,這可能是由于近年來珠三角產業轉型升級加快,高端制造業、信息經濟等新興產業快速發展,吸引了大量的人口流入。同時珠三角地區近年放寬的落戶限制也吸引了外省大量人口流入。繼廣東之后,作為沿海發達省份的浙江、江蘇同樣成為人口流入大省。就出強度圖3(b)而言,河南省的人口流出量最多,河南省人口基數龐大,但省內的經濟發展對于本省人口的吸引力不足,因此造成了人口的大量流失。安徽、重慶、湖南等中西部地區同樣存在大量人口流出的特征。值得關注的是,與2010年人口流動空間結構相比,流向東部沿海省份的人口數量大幅回落,回流特征尤為顯著。就模型模擬結果而言,除個別省份模型模擬的結果與真實結果出入較大外,整體上模型模擬的結果較為良好。 基于公式(7)對人口流動矩陣進行因素分析,結果如表4所示。 表4 實際矩陣與模擬矩陣流動因素對比 由表4可以得出,就中位數而言,PWO、UM與IUM預測模型的人口省際流Tij與實際值的誤差分別為0.80、0.25、0.12;整體影響K的誤差率分別為0.61、0.26、0.17;相對流出力Pi的誤差率分別為0.11、0.03、0;相對吸引力Qj的誤差率分別為0、0.22、0.23;空間效應Fij的誤差率分別為0.03、1.01、0.07。通過對比發現,IUM的人口省際流Tij、整體影響K、相對流出力Pi的誤差率均是最小的。且就中位數而言,整體上三種預測模型的平均誤差率分別為0.31、0.36、0.12,表明IUM的預測結果最好(1)誤差率計算公式為:(估計值 - 實際值)/實際值。。 在分省計算結果對比中(見圖4),就相對流出力而言圖4(a),河南省(實測4,PWO模擬4.46,UM模擬3.95,IUM模擬4.06,后同)是人口相對流出最多的省份,四川省(3.09,2.62,2.95,2.92)、廣東省(2.02,2.82,3.33,3.46)緊隨其后,且總體來看三個模型的估計結果較好。而就相對吸引力而言圖4(b),廣東省(5.90,1.02,1.67,1.63)、浙江省(5.38,1.01,1.94,1.98)、江蘇省(3.90,1.03,2.38,2.47)、上海市(3.17,0.97,4.21,4.29)、北京市(2.33,0.98,8.19,8.57)的實際相對吸引力排名靠前,表明這些城市對于流動人口的吸引力較高。但就模型的估計結果而言,整體來看三個模型的估計結果較真實值均偏低。且圖4中得出的結論與圖3出入強度得出的結論高度一致。 圖4 實際與模擬省份相對流出力和吸引力 表5給出的是實際流與模擬流之間的相對誤差。由表5中的平均值列數據可知,PWO、UM及IUM的總誤差分別為202%、111%、96%,相比之下,IUM的總誤差率最低,因此其預測精度相對最高(2)表5中平均值列代表的是各個模型預測值與實際值相對誤差的平均值,其中人口省際流的平均值即為總誤差,各因素的平均值即為各因素誤差。。從IUM的各因素誤差率結果來看,相對吸引力Qj造成模擬流與實際流之間最大的誤差,達到34%,而相對流出力Pi和整體影響K分別造成了8%、17%的模型誤差,空間交互效應Fij造成了16%的誤差。相比UM的空間交互效應Fij相對誤差率為143%,IUM的結果較低,表明其更好地量化了空間交互作用。 表5 實際流與模擬流的相對誤差 通過誤差估算結果可以得出,IUM的預測效果是最好的,為了進一步驗證該結論,本文就其穩健性進行檢驗。首先,基于三種預測模型給出的人口省際流動空間關聯矩陣,隨機抽取500次10×10子矩陣,將三種模型預測網絡子矩陣的連邊數與真實情況進行對比。 通過表6可以看出,在500次隨機模擬的情況下,無論是整體評價指標總體精度(87.51%),還是單個類別的評價指標用戶精度(64.76%、92.48%)和生產者精度(65.29%、92.31%),IUM的結果均為最優。 表6 2020年省際人口流動模型的500次隨機模擬結果 其次,用指數函數形式的阻抗函數替代冪型函數的阻抗函數,即f(dij)=exp(-αdij),且α=1。通過更換IUM的衰減系數形式,對省際人口流動進行預測,隨機抽取500次10×10子矩陣,將三種模型預測網絡子矩陣的連邊數與真實情況進行對比,結果如表7所示。 表7 2020年省際人口流動模型的500次隨機模擬結果(更換阻抗函數) 通過表7同樣可以看出,在更換阻抗函數形式的情況下,通過500次隨機模擬,IUM的整體評價指標總體精度(87.11%)的結果是最優的。進一步證實了IUM模型預測精度最優且具有一定的穩健性。 本文基于第七次全國人口普查等相關數據,通過PWO、UM以及IUM構建的省際人口流動網絡與真實的人口流動網絡,在空間結構及誤差估算兩個維度上進行對比分析,并利用交叉驗證法對模型的穩定性做了檢驗。研究結果表現在以下幾個方面。 首先,在空間結構方面,從整體分布來看,真實網絡和預測網絡均處于較稀疏的狀態,聚集系數較大且平均路徑長度較小,表明存在局部聚集效應,空間格局均呈現出“多核心—網絡化分布”的結構特征。表明這三種預測模型對省際人口流量及流向的預測均具有一定的可行性。與2010年結果對比可知,我國省際間勞動力流動網絡存在明顯的“核心—邊緣”層次結構,但核心結構特征由“以單個省份為核心”轉變為“以鄰近區域為核心”,勞動力流動的集聚區域化特征凸顯。具體到個體層面,東部沿海地區仍然是我國勞動力流入的主要方向,吸收了大量來自中西部地區的勞動力。但從流量上分析可知,我國中西部部分省份勞動力已經出現回流的現象,但規模較小。從模型模擬結果來看,UM與IUM的出入強度分布、相對吸引力及相對流出力更符合真實情況,除個別省份模型模擬的結果與真實結果出入較大外,整體上模型模擬的結果較為良好。 其次,在模型精度方面,從效應分解來看,三種預測模型的平均誤差率分別為0.31、0.36、0.12,其中IUM的預測結果最好。IUM的人口省際流Tij、整體影響K、相對流出力Pi的中位數誤差率均是最小的。從相對誤差來看,PWO、UM及IUM的總誤差分別為202%、111%、96%,相比之下,IUM的總誤差率最低,這一結果表明IUM的預測精度相對最好。IUM中相對流出力、相對吸引力和空間交互效應造成的實際流與模擬流的相對誤差率較PWO和UM均有了明顯的改善。 再次,在穩健性方面,利用交叉驗證法可知無論是整體評價指標總體精度,還是單個類別的評價指標用戶精度和生產者精度,IUM的結果都是最優的。此外,變換阻抗函數的計算形式后,結論保持不變,進一步證實了IUM模型預測精度具有一定的穩健性。 本文不足之處在于空間交互作用強度的量化精度。空間交互強度的量化本身就是一個難題,本文結合人口流動理論,利用就業數量和地理距離的衰減機制對其進行量化分析,雖較統一模型降低了空間交互效應的誤差率,但省際人口流動的空間交互效應具體表現為區域間的交換性、聯系性和互動性,本文中并沒有考慮空間相關性對空間交互效應的影響,這也是下一步研究的方向。
2. 省際間人口流動的空間結構預測
3. 結構測度指標
4. 模型精度測度指標
三、省際人口流動預測模型研究
1. 數據來源及參數設定


2. 直觀比較

3. 空間結構比較

4. 模型精度比較



5. 模型穩健性分析


四、結論與不足