區(qū)間人口數(shù)據(jù)插值/調(diào)整方法及其應(yīng)用

2012-07-25 08:13:38王桂新

統(tǒng)計(jì)與決策 2012年9期

關(guān)鍵詞：上海模型

王桂新

1 區(qū)間人口數(shù)據(jù)缺損插值方法及步驟

1.1 區(qū)間人口數(shù)據(jù)缺損插值的基本方法

對(duì)兩時(shí)點(diǎn)之間缺損（或異常）人口數(shù)據(jù)的插值（或調(diào)整），實(shí)質(zhì)上也是一種人口預(yù)測(cè)，所以人口預(yù)測(cè)方法同樣適用于兩時(shí)點(diǎn)之間時(shí)間系列缺損人口數(shù)據(jù)的插值。關(guān)于兩時(shí)點(diǎn)之間時(shí)間系列缺損人口數(shù)據(jù)的插值，包括人口數(shù)量、年齡結(jié)構(gòu)數(shù)據(jù)插值等多方面的內(nèi)容。適用于區(qū)間時(shí)間系列人口數(shù)據(jù)插值的人口預(yù)測(cè)方法，主要有數(shù)學(xué)方法和人口增長(zhǎng)因素分解法。限于篇幅，本文只介紹區(qū)間人口數(shù)量插值的數(shù)學(xué)方法。

所謂區(qū)間人口數(shù)量插值的數(shù)學(xué)方法，即根據(jù)數(shù)學(xué)方法和人口靜態(tài)統(tǒng)計(jì)數(shù)據(jù)，在分析和模擬已有人口數(shù)據(jù)變化趨勢(shì)的基礎(chǔ)上建立人口增長(zhǎng)模型，并用以推算區(qū)間某一缺損值的方法。用于區(qū)間人口數(shù)量插值的數(shù)學(xué)方法，主要有以下幾種：

（1）假定以算數(shù)級(jí)數(shù)增長(zhǎng)的直線插值方法

根據(jù)對(duì)已有人口數(shù)據(jù)（或樣本數(shù)據(jù)）變化趨勢(shì)的考察分析，如果判斷人口數(shù)量變化基本按算術(shù)級(jí)數(shù)增長(zhǎng)，那么就可以用按算數(shù)級(jí)數(shù)增長(zhǎng)的直線模型推算的方法進(jìn)行插值，其插值推算模型為

其中，Pt為需要插值的t時(shí)點(diǎn)的人口，P0為期初人口，PN為期末人口。這種方法適用于時(shí)間較短、人口數(shù)量增長(zhǎng)規(guī)模相對(duì)比較均勻的區(qū)間人口插值，在正常情況下以年度數(shù)據(jù)推算年內(nèi)各月人口數(shù)據(jù)時(shí)多采用在這種方法。

（2）假定以幾何級(jí)數(shù)增長(zhǎng)的曲線插值方法

如果根據(jù)對(duì)已有人口數(shù)據(jù)（或樣本數(shù)據(jù)）變化趨勢(shì)的考察分析，發(fā)現(xiàn)人口數(shù)量變化基本按幾何級(jí)數(shù)增長(zhǎng)，那么就需要用以幾何級(jí)數(shù)增長(zhǎng)的曲線模型推算的方法進(jìn)行插值。這種插值方法，對(duì)已有人口數(shù)據(jù)多用指數(shù)曲線（即復(fù)利曲線）進(jìn)行擬合，較適用于封閉地區(qū)時(shí)間較短、人口增速比較均勻的區(qū)間人口插值，其基本模型為

其中，P0為期初人口，PN為期末人口為人口年均增長(zhǎng)率，n為考察期間的年數(shù)。這種方法，關(guān)鍵是通過變換

然后再根據(jù)公式推算出需要插值的t時(shí)點(diǎn)的人口數(shù)Pt。

（3）根據(jù)一般趨勢(shì)曲線模型的插值方法

如果根據(jù)對(duì)已有人口數(shù)據(jù)（或樣本數(shù)據(jù)）變化趨勢(shì)的考察分析，發(fā)現(xiàn)人口數(shù)量變化曲線并非符合幾何級(jí)數(shù)，這時(shí)可根據(jù)已知人口數(shù)據(jù)擬合建立一般趨勢(shì)曲線模型進(jìn)行插值。采用一般趨勢(shì)曲線模型進(jìn)行插值，通常使用2次曲線、3次曲線、指數(shù)曲線等趨勢(shì)線模型，但有時(shí)也用其他趨勢(shì)線模型。究竟使用哪種趨勢(shì)線模型更合適，可通過多次模擬結(jié)果做出判斷和選擇。這種方法比較適用于時(shí)間較短、人口呈加速增長(zhǎng)態(tài)勢(shì)的區(qū)間人口插值。

例如，可對(duì)已有人口數(shù)據(jù)用2次多項(xiàng)式進(jìn)行回歸分析，由此建立的基本曲線模型為

其中，Pt為需要插值的t年的人口數(shù)，a、b、c均為參數(shù)。

如果人口的加速增長(zhǎng)曲線比2次多項(xiàng)式曲線還陡峭，可選用3次多項(xiàng)式曲線進(jìn)行擬合，并建立相應(yīng)的趨勢(shì)曲線插值模型

同樣，式中Pt為需要插值的t年的人口數(shù)，a、b、c、d均為參數(shù)。

當(dāng)然，如果發(fā)現(xiàn)人口呈指數(shù)增長(zhǎng)趨勢(shì)時(shí)，就要用指數(shù)曲線式進(jìn)行回歸建模。

（4）根據(jù)極限增長(zhǎng)曲線的插值方法

對(duì)一定區(qū)域來說，在一定約束條件下，人口數(shù)量增長(zhǎng)往往會(huì)存在一定的極限規(guī)模，這時(shí)就需要用存在一定極限的增長(zhǎng)曲線模型進(jìn)行插值。存在一定極限的增長(zhǎng)曲線主要有變形指數(shù)曲線、岡巴茲曲線（Gompertz curve）和邏輯斯特曲線（Logistic curve）。關(guān)于擬合建立變形指數(shù)曲線模型、岡巴茲曲線（Gompertz curve）模型和邏輯斯特曲線（Logistic curve）模型的具體方法可參閱筆者拙著《區(qū)域人口預(yù)測(cè)方法及其應(yīng)用》（華東師范大學(xué)出版社，2000年出版），在此不再贅述。

1.2 區(qū)間人口數(shù)據(jù)缺損插值的一般原則和步驟

1.2.1 區(qū)間人口數(shù)據(jù)缺損插值的基本原則

由前述可以看出，對(duì)區(qū)間缺損人口數(shù)據(jù)進(jìn)行插值，關(guān)鍵是建立一個(gè)插值模型；而要建立插值模型，關(guān)鍵又是需要獲得數(shù)量足夠、質(zhì)量可靠的樣本數(shù)據(jù)（已有數(shù)據(jù)），而且建立的模型及其參數(shù)都要通過統(tǒng)計(jì)檢驗(yàn)，最后計(jì)算的插值模型值與實(shí)際值的相對(duì)誤差率都不能太大。具體地說，進(jìn)行區(qū)間人口數(shù)據(jù)缺損插值，一般應(yīng)遵循以下原則：

首先，用于建立插值模型的樣本數(shù)據(jù)，數(shù)量要充足，質(zhì)量要可靠。根據(jù)回歸分析建模，樣本數(shù)據(jù)一般應(yīng)在10個(gè)以上。而進(jìn)行區(qū)間缺損人口數(shù)據(jù)插值，多屬在兩次人口普查、即10年之間插值，所以要求的樣本數(shù)據(jù)可以少一些，但最好也不能少于六、七個(gè)，至少不能少于要插值的個(gè)數(shù)。

其次，建立的插值模型及其參數(shù)都要通過統(tǒng)計(jì)檢驗(yàn)。對(duì)模型來說，說明系數(shù)R2最好達(dá)到95%以上。如果模型精度達(dá)到95%以上，其參數(shù)一般也都會(huì)通過檢驗(yàn)。

第三，建立插值模型以后推算的年度人口模型值與實(shí)際人口值（已有樣本數(shù)據(jù)值）的相對(duì)誤差率一般應(yīng)控制在95%以上，最好能達(dá)到1%以內(nèi)。這樣才能保證模型插值更逼近于實(shí)際人口值。

1.2.2 區(qū)間人口數(shù)據(jù)缺損插值的一般步驟

第一，要收集數(shù)據(jù)，并評(píng)估數(shù)據(jù)質(zhì)量。如對(duì)尚未進(jìn)行常規(guī)年度統(tǒng)計(jì)的常住人口進(jìn)行區(qū)間插值，要收集足夠數(shù)量的常住人口樣本數(shù)據(jù)，并對(duì)收集的常住人口樣本數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估。評(píng)估常住人口樣本數(shù)據(jù)的質(zhì)量，最簡(jiǎn)單、有效的方法，就是通過繪制樣本數(shù)據(jù)的點(diǎn)子圖，看其樣本數(shù)據(jù)的分布有沒有突變的異常數(shù)據(jù)，如果樣本數(shù)據(jù)的分布都很有規(guī)律，即說明樣本數(shù)據(jù)的質(zhì)量是比較可靠的。

第二，建立區(qū)間缺損數(shù)據(jù)插值模型。根據(jù)上面繪制的樣本數(shù)據(jù)點(diǎn)子圖形狀，確定選用怎樣的曲線模型模擬更合適。如果點(diǎn)子圖顯示人口數(shù)量基本呈均勻增長(zhǎng)態(tài)勢(shì)，可選用模型（1）模擬建模；如顯示人口數(shù)量基本呈加速增長(zhǎng)態(tài)勢(shì)，可選用其他幾種趨勢(shì)曲線模型進(jìn)行模擬建模。模擬建模可以直接用EXCEL或SPSS等軟件實(shí)現(xiàn)。在模擬建模時(shí)，可以建立幾個(gè)插值模型供比較選用。

第三，檢驗(yàn)?zāi)Ｐ?。檢驗(yàn)?zāi)Ｐ桶ㄈ齻€(gè)方面。一是進(jìn)行統(tǒng)計(jì)檢驗(yàn)。如果對(duì)樣本數(shù)據(jù)用EXCEL或SPSS等軟件進(jìn)行模擬建模，可以直接給出對(duì)模型的統(tǒng)計(jì)檢驗(yàn)結(jié)果。二是計(jì)算和比較所建插值模型理論值與實(shí)際人口值的相對(duì)誤差率，選用各年相對(duì)誤差率都普遍較小的插值模型。實(shí)際上，以上這兩種檢驗(yàn)在效果上是一致的。三是間接檢驗(yàn)，如已有研究證明年度人口數(shù)量與GDP規(guī)模密切相關(guān)，所以也可以根據(jù)已知的GDP規(guī)模變化趨勢(shì)檢驗(yàn)根據(jù)插值模型計(jì)算的年度人口數(shù)量的變化是否合理。

第四，對(duì)模型和插值進(jìn)行解釋。也就是對(duì)為什么采用某個(gè)插值模型及其插值做出客觀解釋。如對(duì)上海“五普”與“六普”之間常住人口數(shù)量變化建立的插值（或調(diào)整）模型，可結(jié)合宏觀經(jīng)濟(jì)形勢(shì)及上海城市發(fā)展與人口發(fā)展政策等給出客觀、合理的科學(xué)解釋。

2 區(qū)間人口數(shù)據(jù)缺損插值方法應(yīng)用——以上海為例

上海統(tǒng)計(jì)部門根據(jù)人口普查及相關(guān)調(diào)查數(shù)據(jù)，每年都發(fā)表全市常住人口數(shù)，表1即為統(tǒng)計(jì)部門發(fā)表的2000～2009年間每年的常住人口數(shù)。2011年4月市計(jì)劃生育部門率先發(fā)表了上海2010年常住人口數(shù)為2221（2220.83）萬(wàn)人，此后統(tǒng)計(jì)部門又發(fā)表了2010年上海人口普查的常住人口數(shù)為2302（2301.91）萬(wàn)人，比計(jì)生委部門發(fā)表的年末常住人口數(shù)還多81萬(wàn)人。不管是計(jì)生委部門發(fā)表的年末常住人口數(shù)，還是統(tǒng)計(jì)部門發(fā)表的10月末人口普查常住人口數(shù)，與以前發(fā)表的1999年的常住人口數(shù)比較，分別增長(zhǎng)了300萬(wàn)和381萬(wàn)人。表1顯示，上海年末常住人口連續(xù)多年年增數(shù)基本都在三、四十萬(wàn)人左右，而2010年甚至不到1年就增長(zhǎng)了380多萬(wàn)人，這顯然是超越常規(guī)、令人質(zhì)疑的。為了獲得上海相對(duì)較能反映實(shí)際的常住人口數(shù)，必須對(duì)其2000～2010年間的年末常住人口數(shù)進(jìn)行適當(dāng)?shù)卣{(diào)整和整合?？雌饋磉@屬于數(shù)據(jù)調(diào)整，但其實(shí)質(zhì)與缺損數(shù)據(jù)插值原理及方法是一致的。

由于常住人口數(shù)據(jù)主要來源于每10年進(jìn)行一次的人口普查及中間每5年進(jìn)行一次的人口抽樣調(diào)查。盡管對(duì)常住人口（主要是外來常住人口）調(diào)查比較困難，統(tǒng)計(jì)誤差較大，但相對(duì)其他來源的常住人口數(shù)據(jù)，每10年進(jìn)行一次的人口普查所獲的常住人口數(shù)據(jù)仍然被認(rèn)為信賴度最高，并仍被作為評(píng)價(jià)其他數(shù)據(jù)可信性的參照依據(jù)。因此，本文對(duì)2000～2010年間的年度常住人口數(shù)進(jìn)行調(diào)整，也將以2000年和2010年人口普查獲得的常住人口數(shù)為基準(zhǔn)。

表1 上海市發(fā)表常住人口數(shù) （萬(wàn)人）

2.1 數(shù)據(jù)收集、評(píng)價(jià)及調(diào)整模型建模

2.1.1 數(shù)據(jù)收集和評(píng)價(jià)

根據(jù)前述步驟，首先要收集和評(píng)價(jià)現(xiàn)有數(shù)據(jù)。收集的上海常住人口數(shù)據(jù)已如表1所示。對(duì)此，有幾個(gè)問題需要討論和評(píng)估。

一是上海2010年一年常住人口是否能暴增三百多萬(wàn)人甚至更多。根據(jù)作者多方面的調(diào)查，對(duì)此概括起來主要有兩種看法：一種看法是2010年上海常住人口的增長(zhǎng)受到世博會(huì)很大影響。他們認(rèn)為由于世博會(huì)的舉辦，吸引了更多的外來人口到上海務(wù)工經(jīng)商，從而使上海外來常住人口顯著增長(zhǎng)。盡管在人口普查時(shí)已注意盡量減少世博會(huì)的影響，但這種影響很難消除。這種看法實(shí)際上就是認(rèn)為上海2010年常住人口由于受世博會(huì)的影響而暴增，但人口普查的常住人口數(shù)未能剔除因世博會(huì)影響而引起的常住人口的非正常增長(zhǎng)；另一種看法是上海2010年的常住人口數(shù)量基本沒有受世博會(huì)的明顯影響，世博會(huì)對(duì)上海常住人口增長(zhǎng)的影響在世博會(huì)舉辦之前的建設(shè)期即已表現(xiàn)出來。這種看法實(shí)際上就是認(rèn)為上海2010年常住人口因世博會(huì)影響一年暴增三百多萬(wàn)人是不可能的，人口普查的常住人口數(shù)基本反映了上海常住人口規(guī)模，但它是2010年及之前多年增長(zhǎng)的結(jié)果。根據(jù)對(duì)人口普查獲得的上海全市不同年份“離開戶口登記地時(shí)間（R8）”的外來常住人口的參考性分析，結(jié)果并不支持第一種看法，但能佐證第二種觀點(diǎn)。對(duì)楊浦區(qū)人口普查數(shù)據(jù)的分析結(jié)果也同樣如此。

二是在包括2010年的“十一五”期間上海常住人口呈怎樣的增長(zhǎng)態(tài)勢(shì)。根據(jù)上海市有關(guān)部門調(diào)查，上海近年外來常住人口呈加速增長(zhǎng)趨勢(shì)，如嘉定區(qū)“十一五”期間來滬人員總量從2006年的58萬(wàn)增長(zhǎng)到2010年底的79萬(wàn)（居住六個(gè)月及以上者為73.1萬(wàn)），平均每年增加8～10%。普陀區(qū)外來常住人口也呈同樣的加速增長(zhǎng)趨勢(shì)，如其2006年、2008年和2010年來滬常住就業(yè)人口分別為46.83萬(wàn)人、74.50萬(wàn)人和101萬(wàn)人。有關(guān)部門對(duì)上海郊區(qū)四區(qū)的調(diào)查還發(fā)現(xiàn)，在“十一五”期間外來常住人口呈倍增趨勢(shì)。這說明，表1中“十一五”期間2010年之前幾年的常住人口規(guī)模及其增長(zhǎng)，并未真正反映上海常住人口的實(shí)際增長(zhǎng)變化。

三是2005年全國(guó)1%人口抽樣調(diào)查時(shí)上海的抽樣比為3.18%，一般來說至少在人口總量層次上按此推算的常住人口規(guī)模應(yīng)該具有相當(dāng)?shù)拇硇浴５扑憬Y(jié)果顯示，以當(dāng)時(shí)的調(diào)查樣本人口和抽樣比推算的常住人口數(shù)為1646萬(wàn)人，幾乎與2000年人口普查數(shù)據(jù)相等，這顯然是偏小的。表1中發(fā)表的2005年常住人口數(shù)為1778萬(wàn)人，說明統(tǒng)計(jì)部門已經(jīng)根據(jù)當(dāng)時(shí)的實(shí)際情況對(duì)包括2005年的“十五”期間每年的上海常住人口數(shù)據(jù)進(jìn)行了調(diào)整。該發(fā)表數(shù)據(jù)已得到廣泛應(yīng)用，而且也沒有相關(guān)調(diào)查說明其不符上海當(dāng)時(shí)常住人口的增長(zhǎng)情況，所以可以認(rèn)為上海“十五”期間年度常住人口數(shù)據(jù)是比較符合實(shí)際的，可以用作本次常住人口數(shù)據(jù)調(diào)整的樣本數(shù)據(jù)。

基于以上可得結(jié)論：第一，2010年上海常住人口數(shù)量并未因世博會(huì)影響而出現(xiàn)驟然暴增現(xiàn)象，而是2010年及之前多年增長(zhǎng)的結(jié)果；第二，表1中“十一五”期間2010年之前幾年的常住人口規(guī)模及其增長(zhǎng)未能反映上海常住人口的實(shí)際增長(zhǎng)變化，需要進(jìn)行調(diào)整處理；第三，“十五”期間常住人口數(shù)據(jù)則相對(duì)比較符合實(shí)際，可作為調(diào)整“十一五”期間2010年之前幾年常住人口數(shù)據(jù)的基礎(chǔ)樣本數(shù)據(jù)。所以，對(duì)上?！拔迤铡?、“六普”兩次人口普查（2000～2010年）之間年度常住人口數(shù)據(jù)調(diào)整插值，可把上?！笆濉逼陂g5年和2000年、2010年等年份的常住人口數(shù)據(jù)作為基礎(chǔ)樣本數(shù)據(jù)，以此建立擬合調(diào)整模型，計(jì)算“十一五”期間2010年之前幾個(gè)年份常住人口的調(diào)整值。

2.1.2 調(diào)整模型選擇與建模

基于以上調(diào)查和分析，通過對(duì)上海常住人口多種數(shù)據(jù)的嘗試，以及采用多種方法的探索性擬合，發(fā)現(xiàn)上海常住人口數(shù)量的增長(zhǎng)，可用前述的多項(xiàng)式曲線模型進(jìn)行擬合。事實(shí)也說明用該曲線模型擬合效果較好，尤以3次多項(xiàng)式模型擬合效果最好。

為了建立擬合調(diào)整模型，并為避免引發(fā)更大的人口規(guī)?！翱执蟀Y”和簡(jiǎn)單起見，本文首先把2000年人口普查的1640萬(wàn)人和2010年人口普查的2302萬(wàn)人分別作為當(dāng)年年末的常住人口數(shù)①現(xiàn)有統(tǒng)計(jì)年鑒已把1640萬(wàn)人作為2000年的年末常住人口數(shù)。。這樣就可直接根據(jù)表1中的歷年常住人口數(shù)據(jù)，采用逐步去掉“十一五”期間2010年之前幾年常住人口“異常”數(shù)據(jù)的方法進(jìn)行反復(fù)擬合，直到建立滿足目標(biāo)精度的擬合模型。當(dāng)然，在達(dá)到目標(biāo)精度的前提下，去掉的年度數(shù)據(jù)應(yīng)該盡量少，這樣可以保留更多的數(shù)據(jù)以滿足回歸分析的樣本要求。擬合分析結(jié)果顯示，去掉3到4年的“異?！睌?shù)據(jù)即可建立高精度的2次曲線和3次曲線擬合調(diào)整插值模型。根據(jù)擬合分析結(jié)果，本文對(duì)上海2000～2010年間年度常住人口的調(diào)整提供了以下2個(gè)方案。

2.2 上海2000～2010年間年度常住人口調(diào)整結(jié)果

2.2.1 調(diào)整方案Ⅰ

該方案假定表1中2009年、2008年、2007年3年的常住人口數(shù)為需要調(diào)整的“異常”數(shù)據(jù)。因此，根據(jù)2000～2006年和2010年共8年的常住人口數(shù)據(jù)進(jìn)行擬合分析，建立相應(yīng)的2次曲線模型1和3次曲線模型2，據(jù)其計(jì)算的2009年、2008年、2007年的常住人口調(diào)整值分別如表2和表3所示。

模型1

模型2

表2 根據(jù)模型1的擬合計(jì)算結(jié)果

表3 根據(jù)模型2的擬合計(jì)算結(jié)果

2.2.2 調(diào)整方案Ⅱ

該方案假定表1中2009年、2008年、2007及2006年4年的常住人口數(shù)為需要調(diào)整的“異?！睌?shù)據(jù)。因此，根據(jù)2000～2005年和2010年共7年的常住人口數(shù)據(jù)進(jìn)行擬合分析，建立相應(yīng)的2次曲線模型3和3次曲線模型4，據(jù)其計(jì)算的2009年、2008年、2007年及2006年的常住人口調(diào)整值分別如表4和表5所示。

模型3

模型4

表4 根據(jù)模型3的擬合計(jì)算結(jié)果

表5 根據(jù)模型4的擬合計(jì)算結(jié)果

2.3 兩種調(diào)整方案的比較與討論

根據(jù)以上擬合分析結(jié)果可知，兩種方案的4個(gè)擬合調(diào)整插值模型，說明系數(shù)R2都在99%以上，具有很高的精度。但從4個(gè)模型計(jì)算模型值與實(shí)際值的誤差看，模型1計(jì)算模型值與實(shí)際值的相對(duì)誤差率最大年份達(dá)1.88%，其他3個(gè)模型的計(jì)算結(jié)果，年度常住人口數(shù)的絕對(duì)誤差都基本小于15萬(wàn)人，相對(duì)誤差率都基本在0.8%以下，其中尤以模型4的擬合效果最佳，模型值與實(shí)際值的絕對(duì)誤差都在7萬(wàn)人以下，相對(duì)誤差率都小于0.45%。所以，對(duì)上海2000～2010年間各年末常住人口數(shù)的調(diào)整插值，可優(yōu)先考慮采用模型4的計(jì)算調(diào)整結(jié)果。

根據(jù)模型1～模型4計(jì)算調(diào)整后的上海2000～2010年每年的常住人口數(shù)和戶籍人口數(shù)（表6），可計(jì)算出每年的外來常住人口數(shù)（表7）。由此可以看出，根據(jù)模型2、模型3、模型4計(jì)算調(diào)整的上?！笆晃濉逼陂g常住人口數(shù)量均呈加速增長(zhǎng)趨勢(shì)(圖略)，而且也都基本呈倍增態(tài)勢(shì)。該結(jié)果與前述的調(diào)查分析結(jié)論相同。這也從一個(gè)方面說明了本文調(diào)整插值方法的科學(xué)性和調(diào)整插值結(jié)果的合理性。

表6 根據(jù)模型1-模型4調(diào)整計(jì)算后的上海常住人口數(shù)

表7 根據(jù)模型1-模型4擬合計(jì)算的上海外來常住人口數(shù)

[1] 王桂新.區(qū)域人口預(yù)測(cè)方法及應(yīng)用[M].上海：華東師范大學(xué)出版社，2000.