多元線性回歸與ARIMA在中國人口預測中的比較研究

2014-04-29 21:31:44韓紹庭周雨欣

中國管理信息化 2014年22期

韓紹庭周雨欣

[摘要] 參考中國統計年鑒1970-2005年的數據，文章建立了多元線性回歸模型和基于ARIMA算法的時間序列模型對我國人口進行預測，將結果與實際值進行比較，得出多元線性回歸模型在人口預測上具有更高的精準度。兩個模型同時表明，我國人口在短期內會繼續增長，并且多元線性回歸模型表明增長趨勢會逐漸變緩。

[關鍵詞] 人口預測；多元線性回歸；ARIMA

doi ： 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 22. 065

[中圖分類號] O212 [文獻標識碼] A [文章編號] 1673 - 0194（2014）22- 0100- 04

中國是一個人口大國，人口問題始終是制約我國發展的關鍵因素之一。人口多，人均耕地少，人均占有資源相對不足是中國的基本國情。

新中國成立以來共進行了6次全國性人口普查，從人口總數上分析，我國人口發展經歷了前30年高速增長和后20多年低速增長兩大階段。黨的十八大報告中指出，在中國目前的現代化進程中，必須實現人口與經濟、社會、資源、環境協調發展和可持續發展，進一步控制人口數量，提高人口質量，改善人口結構，實現五位一體的和諧發展。

有效控制我國人口數量的增長，將促進我國經濟的可持續發展，也是全面建設小康社會的需要。而認識人口數量的變化規律，建立人口模型，作出精確的預報，是有效控制人口增長的前提。準確預測未來一段時間內每年人口數量及其增長，可以為中國經濟和社會發展決策提供科學依據，對于加速推進中國現代化建設有著極為重要的現實意義。

1 文獻綜述

人口預測始于1696年，當時英國社會學家G·金使用簡單的數學方法對英國未來600年的人口發展進行了粗略的計算，雖然這一結果與以后的實際情況相差甚遠，但他的思想卻對后人的工作很有啟發。

早在1798年，英國人口統計學家馬爾薩斯提出了聞名于世的人口指數增長模型，此模型曾用于世界人口的預測，在1961年以前是比較準確的，但用此模型預測未來人口，得到的結果會出現很大誤差。馬爾薩斯預見，各國經濟將趨同于一個穩定的人均收入水平，而且當收入水平超過均衡水平時，生育率上升，死亡率下降，反之亦然。

此后，K.Subbarao的研究表明，一個國家的人口增長率與居民受教育水平負相關。另外，對于貧困階層來說，兒童在某種程度上是一種經濟投入品，父母期待為其年老時提供經濟支持的形式，獲得養育兒童的回報，由此認為貧富差距對人口數量的影響是顯著的。

在中國，中國社會科學院學者李政（2006）使用中國1992—2002年的數據，通過構建人口增長率與人均GDP、每萬人在校大學生人數的回歸模型，得出經濟增長和教育水平對人口增長率有抑制作用。

中國學者王浩（2006）年在《我國人口增長的經濟教育因素的實證分析》一文指出收入分配差距對人口增長的影響有兩個途徑：其一，從結構上看，收入分配差距越大，低收入人群所占比重也越大。在我國，低收入人群的生育率要遠高于高收入人群。因此，在其他情況不變的情況下，收入分配差距越大，人口增長率也越大。其二，從總體上看，收入分配差距通過對經濟增長發生阻礙作用，最終影響人口增長。

由此，預測未來中國人口總數時，既要參考人口的出生率、死亡率，更需要將國民經濟數據（如GDP）、城鎮化率以及人口受教育程度等變量因素納入考察范圍。

2 人口預測的多元線性回歸模型

2.1 模型建立

基于文獻綜述的結果，本模型引入以下變量：

（1）選取“人均GDP”反映各觀測期的經濟發展水平；

（2）選取“城鎮化率（城鎮人口/總人口）”反映城鄉人口結構；

（3）選取“初中畢業生人數”反映我國居民的受教育水平；

（4）選取“城鎮居民家庭人均可支配收入/農村居民家庭人均純收入”反映我國的貧富差距。

因此多元線性回歸模型設定為：

式中，yt為觀測期年底人口數；c為截距項；x1t為觀測期人均國內生產總值（元）；x2t為觀測期城鎮化率；x3t為觀測期初中畢業生人數（萬人）；x4t為觀測期城鎮居民家庭人均收入/農村居民家庭人均收入；t為時間變量；εt為殘項；βi為待估計參數值。

2.2 模型估計與分析

在導入1970-2005年的數據后，使用R軟件進行回歸分析，得到：

分析結論：

（1）可決系數為0.999 6 ，校正的可決系數為0.999 5，可以看出模型的擬合度很高，模型對財政收入的解釋程度高達99.6%；

（2）F統計量為13 410，說明0.05水平下回歸方程整體上顯著；

（3）t 檢驗結果表明，除了初中生畢業人數以外，其他因素對人口總數的影響均顯著。

2.3 驗證多重共線性

模型整體上擬和效果較好，但x3項（即初中生畢業人數）的t檢驗不顯著，而且符號與預期相反，模型可能存在多重共線性。經計算各解釋變量的相關系數，得相關系數矩陣，見表1。

由相關系數矩陣可以看出，各個解釋變量之間的相關系數較高，證實在此模型中，多個變量之間確實存在著比較顯著的多重共線性。而在線性回歸模型中，如果解釋變量之間存在精確相關關系或高度相關關系，則模型將會失真。

為了消除模型中多重共線性的影響，采用逐步回歸法剔除變量。start步中，全部變量回歸時，AIC值為384.81.94；如果去掉x3，AIC值變為382.86；去掉x4，AIC值變為389.46；去掉x1，AIC值變為429.9；去掉x2，AIC值變為439.33。故第一步完成后判斷去掉x3，AIC值最小。然后使用此模型進行下一輪計算。在下一輪計算中，無論去掉哪個變量，AIC值都會增加。因此終止計算，得到最優回歸方程：

2.4 用模型預測值實際值比較

結果見表2。

2.5 模型診斷

令殘差對擬合值作圖，結果如圖1所示。橫軸是對各個觀測的擬合值Yi^，而縱軸是分離出來的殘差ε^=Yi-Yi^。從圖中首先可以看出第1、11個觀測值，即1978年、1988年的觀測值，殘差出現異常。對于以上兩個特殊年份，考慮到中國整個城鎮化進程受到了前后不統一的政策影響，特別是在建國初期經歷了短暫的正常發展后，城鎮化進程受到大躍進、“文革”等政治因素的強烈干擾，在1964年到1977年之間，城鎮化水平由原先的增長轉為倒退，即“反向城鎮化進程”。因此，從1978年重新進入到一個上升渠道的城鎮化數據造成了1978年出現了觀測值異常。同樣，1988年也有類似的政策性干擾因素出現。

要檢驗數據中是否有異常值或影響點可以通過計算比較Cook距離來實現。令標準化殘差對杠桿值作圖，如圖2所示。

通過圖2，發現1、5、17、35號樣本，即：1978年、1982年、1994年、2011年有較大的影響。正如之前考慮到幾個數據異常是由于我國的政策性因素所造成，因此，根據圖2可知第一個點，即1978年政策性干擾較大，考慮剔除。而其后1982年、1994年以及2011年的幾個異常值由于殘差的差值在可接受范圍內，不考慮剔除。

3 基于ARIMA算法的時間序列模型

3.1 平穩性檢驗

根據ARIMA算法的建模步驟，可知ARIMA模型是以平穩隨機序列為前提的，因此需要首先檢驗人口的平穩性。由于多元線性回歸模型已經證明1978年數據異常，因此在本模型中選用1980-2005年的數據，以此對未來人口進行預測，并與實際值進行比較。

從圖3可知：我國人口逐年增長，因此為非平穩時間序列，需要進行差分。從圖4看出一階差分圖最后趨勢還是下降的，因此依舊是非平穩序列，需要進行二階差分。可以看出二階差分后（如圖5）數值近似在平均值上下波動，因此可以初步判斷其為平穩序列。

接下來進行單位根檢驗，采用ADF單位根檢驗法，得到P值遠小于0.01，因此拒絕原假設，即拒絕二階差分序列存在單位根，因此可以判定二階差分序列為平穩序列。

3.2 時間序列模型建立

由于我國人口數一直增長，因此判定無周期，可以采用ARMA（p，q）模型。

首先計算平穩時間序列的樣本自相關系數（ACF）和偏自相關系數（PACF），然后依此來估計p和q的值。

做出二階差分序列滯后12期的ACF圖（如圖6）和PACF圖（如圖7）。

可以看出，ACF圖在q=1之后截尾，而PACF拖尾，因此根據判斷法則，可識別模型為ARIMA（0，2，1），得到模型的AIC值為293.1。同時，根據R軟件自帶auto.arima函數，得到建議模型為：ARIMA（0，2，0），其AIC值為292.77。二者的AIC值比較接近，因此有待進一步根據檢驗情況判斷。

3.3 模型預測結果

根據ARIMA（0，2，0）預測結果見表3。

根據ARIMA（0，2，1）預測結果見表4。

可以看出ARIMA（0，2，0）預測效果較好，因此選用ARIMA（0，2，0）模型作為最終模型。

3.4 殘差檢驗

參數估計后，需對模型殘差序列進行白噪聲檢驗，若殘差序列不是白噪聲序列，意味著殘差序列還存在有用信息沒有提取，需要進一步改進。

圖8中第二行的ACF檢驗說明殘差沒有明顯的自相關性，第三行的Ljung-Box測試顯示所有的P值都0.1，說明殘差為白噪聲序列，模型合格。

3.5 模型預測結果圖示

模型預測結果如圖9所示。

4 結論

運用兩個模型同時對2006-2011年的人口數據進行預測，并與實際值進行比較，發現多元線性回歸模型具有較高的精準性。當然，任何一種預測方法都是建立在一定假定條件之上的，而任何一種假定條件都難以包括現實世界中的所有復雜關系。相對來說，兩種模型都適用于中短期人口預測，模型精確度都比較高。

經過分析，ARIMA模型相對于多元線性回歸模型精確度較低的原因可能在于其僅基于時間以及歷史人口數據來對未來進行預測，并沒有考慮其他因素。而人口數量與眾多因素（出生率、死亡率、城鎮化率、國家政策）息息相關，因此僅通過時間因素分析并不能很好地預測人口的變化。

在實際情況中，影響人口數量的因素還有很多，但是并不能把所有因素全部引入到多元線性回歸模型中，因為這將引起嚴重的多重共線性，進而影響模型的準確性、可靠性。而在消除共線性的過程中，又會引起變量減少、干擾序列不相關、存在異方差等諸多缺陷。因此更加精準的預測人口變化，還需要更多的研究與探討。

主要參考文獻

[1]Jalan Jyotsna，K Subbarao. Gender Disparity in Human Resource Development： Cross Country Patterns[C]//Education and Social Policy Department， World Bank， ESP Discussion Paper Series 25，1994.

[2]門可佩，官琳琳，尹遜震.基于兩種新型灰色模型的中國人口預測[J].經濟地理，2008（6）：942-945.

[3]涂雄苓，徐海云. ARIMA與指數平滑法在我國人口預測中的比較研究[J].統計與決策，2009（16）：21-23.

中國管理信息化2014年22期

中國管理信息化的其它文章: 第三方電子商務平臺的發展現狀思考與分析; 基于xMOOC和cMOOC的混合教學模式研究; 企業管理信息化建設對高校管理信息化建設的經驗借鑒; 淺析高校文科管理類實驗室的信息化建設; 行政公開的意義分析與體制完善; 面向可持續發展的養老保險資金探討