李浩迪,劉一帆,李夫明
(山東理工大學 數學與統計學院, 山東 淄博 255049)
受經濟發展、社會轉型以及生育政策等因素的影響,我國的人口發展近些年表現出超低生育率、人口老齡化和新生兒性別比例失調等情形。為改變這一現狀,中國政府在 2013年末啟動單獨二孩政策,2016年初推出全面二孩政策。政策實施后,我國新生兒人口數量短期內有一定程度的回升,但未能改變生育水平持續走低的趨勢。基于近些年的新生兒人口數量對未來幾年新生兒人口數量進行預測,不僅有利于掌握我國未來人口的數量變化情況,還可以為國家及時制定相關政策提供信息支撐,具有重要的現實意義。
人口預測[1]是根據現有的人口狀況并考慮影響人口發展的各種因素,按照科學的方法,測算在未來某個時間的人口規模、水平和趨勢。在已有的研究中,出現了多種人口預測的方法,如人口增長率推算法、Leslie模型、Logistic增長模型、神經網絡預測等。劉曉艷等[2]應用變參數年齡移算法模型,對我國未來20年人口數量和人口結構變化趨勢進行預測;孟令國等[3]采用PDE模型,以第六次全國人口普查數據為基礎,設定生育率低、中、高3種不同方案進行推演, 預測了我國2015—2050年人口結構變化走勢;郭震威等[4]從人口總量岡波斯 (Gompertz) 和邏輯斯蒂 (Logistic) 基本預測模型出發,依據2010年人口普查數據, 采用孩次遞進生育預測方法對未來中國人口發展過程進行情景模擬,給出了未來人口政策建議。
本文將在獲取歷年新生兒出生量數據的基礎上,分別使用時間序列預測模型與灰色預測模型進行短期預測。由于兩種預測模型在預測效果上各有優劣,為了得到更好的預測效果,通過構建組合預測模型實現最終預測。由于剛剛出臺的一對夫妻可以生育三個子女政策,通常會對未來幾年新生兒的數量帶來一定沖擊,因此本文也對組合預測得出的結果進行必要的修正。
ARIMA模型[5]在ARMA模型的基礎上發展而來。
1.1.1 三大經典的ARMA模型
1)自回歸模型(AR)。自回歸模型假定時間序列的未來值主要由其前期的歷史觀測值決定。p階自回歸模型可表達為
(1)
式中:yt是當前值;μ是常數項;γi是自相關系數;εt是白噪聲擾動,通常取E(εt)=0,var(εt)=σ2。
2)移動平均模型(MA)。移動平均模型假定時間序列的未來值主要由其前期的歷史擾動值決定。q階的移動平均模型可表達為
(2)
式中:yt是當前值;μ是常數項;θi為誤差項系數;εt是白噪聲擾動,通常取E(εt)=0,var(εt)=σ2。
3)自回歸移動平均模型(ARMA)。將自回歸模型和移動平均模型相結合,可得到自回歸移動平均模型。ARMA(p,q)模型可表達為
(3)
式中參數及有關假設與上述兩個模型保持一致。
1.1.2 差分自回歸移動平均模型ARIMA
將自回歸移動平均模型和簡單差分相結合,得到差分自回歸移動平均模型。ARIMA(p,d,q)模型可表達為
(4)
式中:B是后移算子;d是使得差分序列首次達到寬平穩的階數;其他參數及有關假設與ARMA模型保持一致。
1.1.3 ARIMA建模的一般過程
一般來說,建立ARIMA模型要歷經以下幾個階段:數據的平穩化處理、模型識別和定階、參數估計、模型檢驗以及模型預測。
1)數據的平穩化處理
為減小數據的振動幅度,使線性規律更加明顯,對原始序列進行平方根或取對數的處理。
對上述經過變換后的序列進行差分后,還需要實施單位根檢驗來判斷差分序列是否達到平穩。
對yt進行d階差分的公式為
d(yt,d)=(1-B)dyt,
(5)
式中:d(yt,d)是序列yt的d階簡單差分序列;d是使序列yt首次達到平穩的階數;B為后運算子。
2)模型識別和定階
(1)自相關函數ACF(autocorrelation function)與偏自相關函數PACF(partial autocorrelation function)定階法。根據(偏)自相關函數拖尾與截尾的特征,確定模型的階數,判別準則見表1。

表1 模型判別準則
該方法對AR模型和MA模型定階較為有效,但對ARMA模型定階則較為困難,通常還需采用一些經驗準則。
(2)準則函數定階法。常用的信息準則有AIC準則和BIC準則,各自的計算公式如下:
AIC=2r-2ln[L],
(6)
式中:r是模型的獨立參數個數;L是模型的極大似然值。
BIC=ln(N)r-2ln[L],
(7)
式中:N是觀測數據的個數;r是模型的獨立參數個數;L為模型的極大似然值。
通過多次嘗試計算,使得AIC或者BIC最小的階數,即為最適合數據的階。
3)參數估計
確定出序列適合的模型及對應的階數之后,可以使用矩估計、條件最小二乘估計以及條件最大似然估計等方法對模型中的參數進行估計。
4)模型檢驗
所建ARMA模型的合理性,主要看“過濾”出的殘差是否具有純隨機性,即考察殘差序列是否為零均值的白噪聲序列。原假設為殘差序列是白噪聲序列,常用的檢驗統計量為Box-Pierce統計量,即

(8)

5)模型預測
模型檢驗通過后,則可進一步采用正交投影預測法、條件期望預測法等對時間序列未來幾期的取值進行短期預測。
1.2.1灰色模型GM(1,1)
灰色系統理論[6]基于關聯空間、光滑離散函數等概念定義灰導數與灰微分方程,進而用離散數據列建立微分方程形式的動態模型,即灰色模型是利用離散隨機數經過生成變為隨機性被顯著削弱而且較有規律的生成數,建立起的微分方程形式的模型,這樣便于對其變化過程進行研究和描述。G表示grey(灰色),M表示model(模型)。
定義x(1)的灰導數為
d(k)=x(0)(k)=x(1)(k)-x(1)(k-1),
(9)
令z(1)(k)為數列x(1)的鄰值生成數列,即
z(1)(k)=αx(1)(k)+(1-αx(1)),
(10)
于是定義GM(1,1)的灰微分方程模型為
d(k)+αz(1)(k)=b
(11)
或
x(0)(k)+αz(1)(k)=b,
(12)
式中:x(0)(k)是灰導數;α是發展系數;z(1)(k)是白化背景;b是灰作用量。
將時刻k=2,3,…,n代入式(12)有

(13)
引入矩陣向量記號

(14)
于是GM(1,1)模型可表示為Y=Bu。
a和b的值可以用一元線性回歸求解,也就是用最小二乘法求它們的估計值,即

(15)
1.2.2GM(1,1)的白化型


(16)
1.2.3GM(1,1)灰色預測的步驟
1)數據的檢驗與處理
為保證GM(1,1)建模方法的可行性,需要對已知數據進行必要的檢驗處理。
設原始數據列為x(0)=(x(0)(1),x(0)(2),…,x(0)(n)),計算數列的級比為

(17)
y(0)(k)=x(0)(k)+c,k=1,2,…,n,
(18)
取c使得數據列的級比都落在可容覆蓋區間內。
2)建立GM(1,1)模型
不妨設x(0)=(x(0)(1),x(0)(2),…,x(0)(n))滿足上面的要求,以它為數據列建立GM(1,1)模型為
x(0)(k)+αz(1)(k)=b。
(19)
用回歸分析求得a,b的估計值,于是相應的白化模型為

(20)
解為

(21)
于是得到
k=1,2,…,n-1,
(22)
從而相應地得到預測值為
k=1,2,…,n-1。
(23)
3)檢驗預測值
(1)殘差檢驗
殘差

(24)
相對誤差

(25)
(2)后驗差檢驗
均值

(26)
方差

(27)
殘差的均值

(28)
殘差的方差

(29)
后驗差比值

(30)
小誤差概率

(31)
(3)預測精度等級
預測精度等級對照如下:

(32)
單個預測模型考慮的因素有限,可能出現信息利用不全面、甚至模型誤用風險;同時,新生兒出生數量序列作為一個復雜系統,包含諸多隨機和不確定因素。因此,選用組合模型[7]進行預測是較為合適的。組合模型可以通過對各個預測模型加權平均,把單一預測模型的優點集合起來,形成預測精度更高的預測模型,使得結果更加準確。
1.3.1 權值的確定


(33)
1.3.2 模型組合
基于上述權重,求得組合預測公式為

(34)

根據國家統計局編著的《中國統計年鑒——2020》中的每年總人口數 (年末) 以及每年出生率計算出近十幾年的出生人口數 (截至2019 年),又由中國新聞網得知,全國2020年出生人口為1 200萬人,得到歷年出生人口數據見表2,繪制的折線圖如圖1所示。

表2 歷年人口出生數據

圖1 出生人口折線圖
由圖1可以看出,2000—2003年我國每年新生兒人口數量有輕微下降,2003—2012年我國每年新生兒人口數量較穩定,2013—2016年有輕微的上升趨勢,但 2016—2020年我國每年新生兒人口數量便出現了急劇暴跌的趨勢。
2.2.1 時間序列預處理
1)初步判斷原始序列的平穩性。從圖1看出,2000—2020年我國每年新出生嬰兒的數據是不平穩的,這個判斷比較粗糙,需要用統計方法進一步驗證。
2)利用eviews對原始序列進行單位根檢驗(見表3)。

表3 原始序列單位根檢驗

3)原始數據平穩化。對原始序列yt進行以下處理:

其次,對序列zt進行二階差分運算,得到序列d(zt,2),對其進行單位根檢驗,結果見表4。

表4 預處理后序列單位根檢驗

2.2.2 模型的識別與定階
根據截尾、拖尾的特征(如圖2所示),并進行了必要的試算,最終確定的最佳階數為p= 1,q= 1,則確定的模型為 ARIMA(1,2,1)。

圖2 平穩化序列的自相關序列圖
2.2.3 參數估計
回歸模型各參數見表5。基于2000—2020年全國歷年新生兒人口數據所建立的時間序列預測模型為

表5 回歸模型表
d(zt,2)+0.489 9d(zt-1,2)=
εt-0.157 0εt-1,
(35)
式中:εt是第t年的隨機擾動;d(zt,2)是平穩化序列的觀測值。
2.2.4 模型驗證及預測
1)模型驗證。殘差序列的白噪聲檢驗結果見表6。由表6可得,當選擇顯著性水平為 10% 時,各期殘差的P-值均大于 0.1,不能拒絕原假設,則上述模型的殘差序列通過了白噪聲檢驗,即基于原始數據所建立的 ARIMA 模型是可行的。

表6 殘差序列的自相關序列表
2)模型預測。對未來3年全國新生兒人口數據進行預測,結果見表7。

表7 預測結果表
2.3.1 級比檢驗
基于 Matlab 實現GM(1,1)模型后,通過代入歷年出生人口數據對比預測精度等級,確定了以5期數據為代入數據,預測期數為1期的滾動GM(1,1)模型效果最佳。滾動的含義是:首先將5年歷史數據代入模型中,設定預測期數為1期,再將得到的新數據代入模型,并移除最早一年的數據,保證帶入模型的數據始終為5期,最終迭代得出期望的多年預測數據。
由前述內容可知,原始數據列的級比應落在可容覆蓋區間內才可建立GM(1,1)模型并進行灰色預測,因此先對2016—2020年的出生人口進行級比檢驗。設數列為x(0)=(1 790.609 45,1 727.869 44,1 526.545 72,1 467.252 4,1 200)
根據式(17)計算數列的級比,得到的結果為


2.3.2 預測結果
根據2016—2020年的出生人口,預測2021—2023年出生人口,結果見表8。

表8 預測結果及預測誤差表
通過預測精度等級對比可知,模型預測精度良好。
2.4.1 權重的確定
基于2000—2020年我國歷年新生兒人口數據,第一個單項預測模型(ARIMA模型)的離差平方和為18.784 09,均方誤差為0.939 204 5;第二個單項預測模型(滾動灰色預測模型)的離差平方和為124 776.686 8,均方誤差為7 798.542 925,得到兩個預測模型的權數為
α1=0.999 88,α2=0.000 12。
2.4.2 組合模型
基于上述權重,求得組合模型為

(36)
因此,利用組合模型對我國未來3年新生兒人口數量的預測值見表9。

表9 組合模型預測結果表
由圖1可以看出,2015年前,我國每年新生兒人口數量均保持在1 600萬左右的水平上。2015年10月,中國共產黨第十八屆中央委員會第五次全體會議公報指出:堅持計劃生育基本國策,積極開展應對人口老齡化行動,實施全面二孩政策。此政策的頒布使得我國新生兒人口數量在2016—2017年有較大幅度的提升,但此影響的效應持續時間不長,在2018—2020年間,我國新生兒人口數量呈現急劇下滑的趨勢,在此趨勢下,我們運用組合模型預測了2021—2023年我國新生兒人口數量。但在2021年5月31日,中共中央政治局召開會議并指出,為進一步優化生育政策,實施一對夫妻可以生育三個子女政策及配套支持措施。因此,基于上述組合模型做出的預測與實際存在一定的偏差,則需要我們對最終的預測結果進行改進,以適應今年剛剛提出的三孩政策。
由文獻[8]可知:從實施全面二孩政策后的實際生育狀況的統計看,大約有 40%~50% 的育齡夫婦生了一個孩子,40%~50%的育齡夫婦生了兩個孩子,不到 10% 的育齡夫婦生了三個及以上的孩子。換言之,二孩育齡人口的規模基本只占一孩育齡人口的 40%~50%,而三孩生育的規模和比例將直接受到這一規模和比例的限制。考慮到生育政策的影響,因此假設二孩育齡人口的規模基本只占一孩育齡人口的 45%,則三孩育齡人口的規模將占二孩育齡人口的35.56%。根據上述比例改進2022—2023的預測結果分別為934.296 700 0 萬人和633.752 531 0 萬人。
時間序列分析預測模型與灰色預測模型都有自身的局限性,不能完全準確地擬合原始數據,造成一些信息的損失,進而影響預測的準確性。但是通過均方倒數法加權的方式將兩個模型組合起來,獲得的組合模型能夠更好地反應原始數據的變化趨勢,即能夠有效利用原始數據的更多信息,從而使得預測結果更加準確。將灰色系統預測模型GM(1,1)和時間序列預測模型ARIMA(1,2,1),通過加權組合的方式組合在一起,基于2000—2020年我國新生兒人口數據,對2021—2023年我國新生兒人口數量做了短期預測。預測結果表明:我國未來3年新生兒人口數量會繼續呈下降趨勢,雖然其下降速率會出現改變,但其總趨勢仍為下降趨勢。之后,將二孩政策的發布對我國新生兒的影響趨勢與我國現階段人們所面臨的各種社會壓力結合起來,對2021年5月31日發布的三孩政策對我國新生兒人口數量的影響做出了估計,并據此調整了預測結果,調整后的預測結果仍表明:我國未來幾年的新生兒人口數量仍呈現大幅下滑趨勢,沒有回增趨勢。因此,想要改變我國現階段的人口結構矛盾,僅通過生育政策的改變是遠遠不夠的,還需要從生育觀念等根部究其原因。
二孩政策的開放,沒有使得我國新生兒人口數量持續增加。除前兩年有較為明顯的增長外,接下來的幾年均呈明顯的下降趨勢,造成這種現象的原因是多方面的,如社會生育觀念的轉變、經濟社會的發展等因素。究其根本,只從生育政策出發,就想要改變我國目前人口的主要矛盾是不夠的,還需要從以下幾個方面做出改變:
1)提升公眾的生育意愿。政府需加強全面二孩政策的宣傳工作,科學規范地介紹實施全面二孩政策的好處,改變以往獨生子女的觀念[9],隨著三孩政策的出臺,政府應該提高社會生產和人均收入,不斷修正公共政策、優化公共服務,才能夠讓人們“敢于生,愿意生”。
2)保障生育假相關措施。政府應完善產假相關措施,保障女性就業機會,加大對用人單位的監督力度,同時引入合理的男性“產假”,以緩解女性生育、撫養等壓力,并改善存在已久的職場性別歧視。在社會輿論方面,應積極倡導男女平等思想,呼吁社會和企業正確認識生育三孩。
3)完善相關的配套措施。全面三孩政策的實施效果離不開各種保險以及教育設施等配套措施的完善,也離不開財政稅收上的大力支持。因此,一方面,要適度提高生育保障水平、醫療保障水平[10],合理保障女性在生育期間的收入,并引導用人單位予以財政上的支持,做好生育的基本保障;另一方面,要加大教育資源的投入,促進教育公平,解決“上學難,上好學難”的問題。與此同時,還要加大正規托兒機構的建設力度,實現智能化信息管理, 讓家長們“放心生”。