王桂新
對兩時點之間缺損(或異常)人口數據的插值(或調整),實質上也是一種人口預測,所以人口預測方法同樣適用于兩時點之間時間系列缺損人口數據的插值。關于兩時點之間時間系列缺損人口數據的插值,包括人口數量、年齡結構數據插值等多方面的內容。適用于區間時間系列人口數據插值的人口預測方法,主要有數學方法和人口增長因素分解法。限于篇幅,本文只介紹區間人口數量插值的數學方法。
所謂區間人口數量插值的數學方法,即根據數學方法和人口靜態統計數據,在分析和模擬已有人口數據變化趨勢的基礎上建立人口增長模型,并用以推算區間某一缺損值的方法。用于區間人口數量插值的數學方法,主要有以下幾種:
(1)假定以算數級數增長的直線插值方法
根據對已有人口數據(或樣本數據)變化趨勢的考察分析,如果判斷人口數量變化基本按算術級數增長,那么就可以用按算數級數增長的直線模型推算的方法進行插值,其插值推算模型為

其中,Pt為需要插值的t時點的人口,P0為期初人口,PN為期末人口。這種方法適用于時間較短、人口數量增長規模相對比較均勻的區間人口插值,在正常情況下以年度數據推算年內各月人口數據時多采用在這種方法。
(2)假定以幾何級數增長的曲線插值方法
如果根據對已有人口數據(或樣本數據)變化趨勢的考察分析,發現人口數量變化基本按幾何級數增長,那么就需要用以幾何級數增長的曲線模型推算的方法進行插值。這種插值方法,對已有人口數據多用指數曲線(即復利曲線)進行擬合,較適用于封閉地區時間較短、人口增速比較均勻的區間人口插值,其基本模型為

其中,P0為期初人口,PN為期末人口為人口年均增長率,n為考察期間的年數。這種方法,關鍵是通過變換



然后再根據公式推算出需要插值的t時點的人口數Pt。
(3)根據一般趨勢曲線模型的插值方法
如果根據對已有人口數據(或樣本數據)變化趨勢的考察分析,發現人口數量變化曲線并非符合幾何級數,這時可根據已知人口數據擬合建立一般趨勢曲線模型進行插值。采用一般趨勢曲線模型進行插值,通常使用2次曲線、3次曲線、指數曲線等趨勢線模型,但有時也用其他趨勢線模型。究竟使用哪種趨勢線模型更合適,可通過多次模擬結果做出判斷和選擇。這種方法比較適用于時間較短、人口呈加速增長態勢的區間人口插值。
例如,可對已有人口數據用2次多項式進行回歸分析,由此建立的基本曲線模型為

其中,Pt為需要插值的t年的人口數,a、b、c均為參數。
如果人口的加速增長曲線比2次多項式曲線還陡峭,可選用3次多項式曲線進行擬合,并建立相應的趨勢曲線插值模型

同樣,式中Pt為需要插值的t年的人口數,a、b、c、d均為參數。
當然,如果發現人口呈指數增長趨勢時,就要用指數曲線式進行回歸建模。
(4)根據極限增長曲線的插值方法
對一定區域來說,在一定約束條件下,人口數量增長往往會存在一定的極限規模,這時就需要用存在一定極限的增長曲線模型進行插值。存在一定極限的增長曲線主要有變形指數曲線、岡巴茲曲線(Gompertz curve)和邏輯斯特曲線(Logistic curve)。關于擬合建立變形指數曲線模型、岡巴茲曲線(Gompertz curve)模型和邏輯斯特曲線(Logistic curve)模型的具體方法可參閱筆者拙著《區域人口預測方法及其應用》(華東師范大學出版社,2000年出版),在此不再贅述。
1.2.1 區間人口數據缺損插值的基本原則
由前述可以看出,對區間缺損人口數據進行插值,關鍵是建立一個插值模型;而要建立插值模型,關鍵又是需要獲得數量足夠、質量可靠的樣本數據(已有數據),而且建立的模型及其參數都要通過統計檢驗,最后計算的插值模型值與實際值的相對誤差率都不能太大。具體地說,進行區間人口數據缺損插值,一般應遵循以下原則:
首先,用于建立插值模型的樣本數據,數量要充足,質量要可靠。根據回歸分析建模,樣本數據一般應在10個以上。而進行區間缺損人口數據插值,多屬在兩次人口普查、即10年之間插值,所以要求的樣本數據可以少一些,但最好也不能少于六、七個,至少不能少于要插值的個數。
其次,建立的插值模型及其參數都要通過統計檢驗。對模型來說,說明系數R2最好達到95%以上。如果模型精度達到95%以上,其參數一般也都會通過檢驗。
第三,建立插值模型以后推算的年度人口模型值與實際人口值(已有樣本數據值)的相對誤差率一般應控制在95%以上,最好能達到1%以內。這樣才能保證模型插值更逼近于實際人口值。
1.2.2 區間人口數據缺損插值的一般步驟
第一,要收集數據,并評估數據質量。如對尚未進行常規年度統計的常住人口進行區間插值,要收集足夠數量的常住人口樣本數據,并對收集的常住人口樣本數據進行質量評估。評估常住人口樣本數據的質量,最簡單、有效的方法,就是通過繪制樣本數據的點子圖,看其樣本數據的分布有沒有突變的異常數據,如果樣本數據的分布都很有規律,即說明樣本數據的質量是比較可靠的。
第二,建立區間缺損數據插值模型。根據上面繪制的樣本數據點子圖形狀,確定選用怎樣的曲線模型模擬更合適。如果點子圖顯示人口數量基本呈均勻增長態勢,可選用模型(1)模擬建模;如顯示人口數量基本呈加速增長態勢,可選用其他幾種趨勢曲線模型進行模擬建模。模擬建模可以直接用EXCEL或SPSS等軟件實現。在模擬建模時,可以建立幾個插值模型供比較選用。
第三,檢驗模型。檢驗模型包括三個方面。一是進行統計檢驗。如果對樣本數據用EXCEL或SPSS等軟件進行模擬建模,可以直接給出對模型的統計檢驗結果。二是計算和比較所建插值模型理論值與實際人口值的相對誤差率,選用各年相對誤差率都普遍較小的插值模型。實際上,以上這兩種檢驗在效果上是一致的。三是間接檢驗,如已有研究證明年度人口數量與GDP規模密切相關,所以也可以根據已知的GDP規模變化趨勢檢驗根據插值模型計算的年度人口數量的變化是否合理。
第四,對模型和插值進行解釋。也就是對為什么采用某個插值模型及其插值做出客觀解釋。如對上海“五普”與“六普”之間常住人口數量變化建立的插值(或調整)模型,可結合宏觀經濟形勢及上海城市發展與人口發展政策等給出客觀、合理的科學解釋。
上海統計部門根據人口普查及相關調查數據,每年都發表全市常住人口數,表1即為統計部門發表的2000~2009年間每年的常住人口數。2011年4月市計劃生育部門率先發表了上海2010年常住人口數為2221(2220.83)萬人,此后統計部門又發表了2010年上海人口普查的常住人口數為2302(2301.91)萬人,比計生委部門發表的年末常住人口數還多81萬人。不管是計生委部門發表的年末常住人口數,還是統計部門發表的10月末人口普查常住人口數,與以前發表的1999年的常住人口數比較,分別增長了300萬和381萬人。表1顯示,上海年末常住人口連續多年年增數基本都在三、四十萬人左右,而2010年甚至不到1年就增長了380多萬人,這顯然是超越常規、令人質疑的。為了獲得上海相對較能反映實際的常住人口數,必須對其2000~2010年間的年末常住人口數進行適當地調整和整合。看起來這屬于數據調整,但其實質與缺損數據插值原理及方法是一致的。
由于常住人口數據主要來源于每10年進行一次的人口普查及中間每5年進行一次的人口抽樣調查。盡管對常住人口(主要是外來常住人口)調查比較困難,統計誤差較大,但相對其他來源的常住人口數據,每10年進行一次的人口普查所獲的常住人口數據仍然被認為信賴度最高,并仍被作為評價其他數據可信性的參照依據。因此,本文對2000~2010年間的年度常住人口數進行調整,也將以2000年和2010年人口普查獲得的常住人口數為基準。

表1 上海市發表常住人口數 (萬人)
2.1.1 數據收集和評價
根據前述步驟,首先要收集和評價現有數據。收集的上海常住人口數據已如表1所示。對此,有幾個問題需要討論和評估。
一是上海2010年一年常住人口是否能暴增三百多萬人甚至更多。根據作者多方面的調查,對此概括起來主要有兩種看法:一種看法是2010年上海常住人口的增長受到世博會很大影響。他們認為由于世博會的舉辦,吸引了更多的外來人口到上海務工經商,從而使上海外來常住人口顯著增長。盡管在人口普查時已注意盡量減少世博會的影響,但這種影響很難消除。這種看法實際上就是認為上海2010年常住人口由于受世博會的影響而暴增,但人口普查的常住人口數未能剔除因世博會影響而引起的常住人口的非正常增長;另一種看法是上海2010年的常住人口數量基本沒有受世博會的明顯影響,世博會對上海常住人口增長的影響在世博會舉辦之前的建設期即已表現出來。這種看法實際上就是認為上海2010年常住人口因世博會影響一年暴增三百多萬人是不可能的,人口普查的常住人口數基本反映了上海常住人口規模,但它是2010年及之前多年增長的結果。根據對人口普查獲得的上海全市不同年份“離開戶口登記地時間(R8)”的外來常住人口的參考性分析,結果并不支持第一種看法,但能佐證第二種觀點。對楊浦區人口普查數據的分析結果也同樣如此。
二是在包括2010年的“十一五”期間上海常住人口呈怎樣的增長態勢。根據上海市有關部門調查,上海近年外來常住人口呈加速增長趨勢,如嘉定區“十一五”期間來滬人員總量從2006年的58萬增長到2010年底的79萬(居住六個月及以上者為73.1萬),平均每年增加8~10%。普陀區外來常住人口也呈同樣的加速增長趨勢,如其2006年、2008年和2010年來滬常住就業人口分別為46.83萬人、74.50萬人和101萬人。有關部門對上海郊區四區的調查還發現,在“十一五”期間外來常住人口呈倍增趨勢。這說明,表1中“十一五”期間2010年之前幾年的常住人口規模及其增長,并未真正反映上海常住人口的實際增長變化。
三是2005年全國1%人口抽樣調查時上海的抽樣比為3.18%,一般來說至少在人口總量層次上按此推算的常住人口規模應該具有相當的代表性。但推算結果顯示,以當時的調查樣本人口和抽樣比推算的常住人口數為1646萬人,幾乎與2000年人口普查數據相等,這顯然是偏小的。表1中發表的2005年常住人口數為1778萬人,說明統計部門已經根據當時的實際情況對包括2005年的“十五”期間每年的上海常住人口數據進行了調整。該發表數據已得到廣泛應用,而且也沒有相關調查說明其不符上海當時常住人口的增長情況,所以可以認為上海“十五”期間年度常住人口數據是比較符合實際的,可以用作本次常住人口數據調整的樣本數據。
基于以上可得結論:第一,2010年上海常住人口數量并未因世博會影響而出現驟然暴增現象,而是2010年及之前多年增長的結果;第二,表1中“十一五”期間2010年之前幾年的常住人口規模及其增長未能反映上海常住人口的實際增長變化,需要進行調整處理;第三,“十五”期間常住人口數據則相對比較符合實際,可作為調整“十一五”期間2010年之前幾年常住人口數據的基礎樣本數據。所以,對上海“五普”、“六普”兩次人口普查(2000~2010年)之間年度常住人口數據調整插值,可把上海“十五”期間5年和2000年、2010年等年份的常住人口數據作為基礎樣本數據,以此建立擬合調整模型,計算“十一五”期間2010年之前幾個年份常住人口的調整值。
2.1.2 調整模型選擇與建模
基于以上調查和分析,通過對上海常住人口多種數據的嘗試,以及采用多種方法的探索性擬合,發現上海常住人口數量的增長,可用前述的多項式曲線模型進行擬合。事實也說明用該曲線模型擬合效果較好,尤以3次多項式模型擬合效果最好。
為了建立擬合調整模型,并為避免引發更大的人口規模“恐大癥”和簡單起見,本文首先把2000年人口普查的1640萬人和2010年人口普查的2302萬人分別作為當年年末的常住人口數①現有統計年鑒已把1640萬人作為2000年的年末常住人口數。。這樣就可直接根據表1中的歷年常住人口數據,采用逐步去掉“十一五”期間2010年之前幾年常住人口“異常”數據的方法進行反復擬合,直到建立滿足目標精度的擬合模型。當然,在達到目標精度的前提下,去掉的年度數據應該盡量少,這樣可以保留更多的數據以滿足回歸分析的樣本要求。擬合分析結果顯示,去掉3到4年的“異常”數據即可建立高精度的2次曲線和3次曲線擬合調整插值模型。根據擬合分析結果,本文對上海2000~2010年間年度常住人口的調整提供了以下2個方案。
2.2.1 調整方案Ⅰ
該方案假定表1中2009年、2008年、2007年3年的常住人口數為需要調整的“異常”數據。因此,根據2000~2006年和2010年共8年的常住人口數據進行擬合分析,建立相應的2次曲線模型1和3次曲線模型2,據其計算的2009年、2008年、2007年的常住人口調整值分別如表2和表3所示。
模型1

模型2


表2 根據模型1的擬合計算結果

表3 根據模型2的擬合計算結果
2.2.2 調整方案Ⅱ
該方案假定表1中2009年、2008年、2007及2006年4年的常住人口數為需要調整的“異常”數據。因此,根據2000~2005年和2010年共7年的常住人口數據進行擬合分析,建立相應的2次曲線模型3和3次曲線模型4,據其計算的2009年、2008年、2007年及2006年的常住人口調整值分別如表4和表5所示。
模型3

模型4


表4 根據模型3的擬合計算結果

表5 根據模型4的擬合計算結果
根據以上擬合分析結果可知,兩種方案的4個擬合調整插值模型,說明系數R2都在99%以上,具有很高的精度。但從4個模型計算模型值與實際值的誤差看,模型1計算模型值與實際值的相對誤差率最大年份達1.88%,其他3個模型的計算結果,年度常住人口數的絕對誤差都基本小于15萬人,相對誤差率都基本在0.8%以下,其中尤以模型4的擬合效果最佳,模型值與實際值的絕對誤差都在7萬人以下,相對誤差率都小于0.45%。所以,對上海2000~2010年間各年末常住人口數的調整插值,可優先考慮采用模型4的計算調整結果。
根據模型1~模型4計算調整后的上海2000~2010年每年的常住人口數和戶籍人口數(表6),可計算出每年的外來常住人口數(表7)。由此可以看出,根據模型2、模型3、模型4計算調整的上海“十一五”期間常住人口數量均呈加速增長趨勢(圖略),而且也都基本呈倍增態勢。該結果與前述的調查分析結論相同。這也從一個方面說明了本文調整插值方法的科學性和調整插值結果的合理性。

表6 根據模型1-模型4調整計算后的上海常住人口數

表7 根據模型1-模型4擬合計算的上海外來常住人口數
[1] 王桂新.區域人口預測方法及應用[M].上海:華東師范大學出版社,2000.