玉婻寶 隋曉雪 霍帥
摘要:本文中應用普通的線性回歸--最小二乘法和廣義線性模型對我國人口死亡率的預測模型進行研究,得出死亡率預測模型,分析結果,從結果中可為制定中國人口政策提供一定的依據。
關鍵詞:負二項回歸;死亡率預測
1.研究背景
人口老齡化是指總人口中因年輕人口數量減少、年長人口數量增加而導致的老年人口比例相應增長的動態。按照這個標準,我國已于1999年進入老齡社會。人口老齡化產生的原因:出生率下降、人口壽命提高。近年來我國為防止老齡化更加嚴重,出臺的“二孩”政策。但在有些專家提出“二孩”政策并不能真正改善老齡化問題,只是一個緩解的過程。人口老齡化問題關乎我國未來經濟社會的長遠發展,必須對當前我國人口老齡化的趨勢及可能帶來的影響進行深入分析,以便及時調整相應的政策和措施加以應對。因此研究我國人口死亡率模型,建立預測模型是非常有必要的。
2.數據的處理與描述
2.1 數據的描述
對數據進行描述性統計分析,研究各數據指標之間的關系,分析出男性生存人口數、死亡人數、死亡率隨年齡有一定的規律變化。為使變量之間的分布波動相對穩定,呈現的分布更明顯,考慮對男性生存人口數、死亡人數、死亡率三個變量進行對數變換,畫出散點圖。可得出有關男性生存人口數、死亡人數、死亡率的對數隨年齡變化的大致規律。
(1)死亡率對數在0至10歲這個區間呈遞減趨勢,從10歲開始,男性死亡率隨年齡的增加而增加。
(2)男性死亡人口數的對數總體趨勢是隨著年齡的增加而增加,但在0至10歲之間是呈遞減趨勢,隨后增加,直到75歲之后又遞減。
(3)男性生存人口數總體趨勢是隨著年齡的增加而減少,在0至50歲之間有波動性。
2.2 響應變量分布的研究
由死亡人數對數直方圖可根據橫軸將數據分為兩部分,以log(男性死亡人口數)=10為分界點。采用KS檢驗對雙峰分布擬合效果進行檢驗, 值小于顯著性水平 ,拒絕原假設,認為擬合的雙峰分布不能確切地描述死亡率對數的分布情況。不能從分布情況來建立預測模型,考慮從變量之間的關系來建立模型。
3.人口死亡率的模型建立及結果分析
3.1模型建立
利用最小二乘法擬合死亡人數。模型建立: ,響應變量Y為死亡人數。回歸變量X包含年份、年齡和生存人口數對數。檢驗模型顯著性,利用R軟件實現,比較P值與預設α值0.05后,可認為所有變量在顯著性水平為0.05下具有顯著性。但擬合優度的值為0.6486,修正后的擬合優度為0.6476,擬合程度不高。
3.2 模型分析
對模型進行殘差分析,畫出殘差對擬合值散點圖、殘差的正態QQ圖、位置尺度圖、學生化殘差與杠桿值圖,曲線點表明存在非線性,可能意味著響應變量和回歸變量之間不是線性的。說明用最小二乘方法來建立死亡人數的預測模型是不適合的。考慮建立用廣義線性模型來建立模型。
3.3 負二項廣義線性模型
3.3.1 模型建立
在建立中國死亡人數模型時,設 為年齡i,年份j的死亡人數, 為年齡i,年份j的生存人數, 表示包括常數項和年齡i、年份j的解釋變量對應的設計向量,向量 為模型中的待估參數。
連接函數為
因此對中國死亡人數建立的負二項廣義線性模型為:
利用R語言實現模型,得出的結果如下所示
Null deviance: 43790.1 Residual deviance: 1014.5 AIC: 20786
在顯著性水平α=0.05、α=0.1下,兩個解釋變量的分量都是顯著的。由 ,得出包括年齡、年份解釋變量的偏差統計量的值遠遠小于不包括年齡、年份解釋變量的偏差統計量的值,故建立死亡人數預測模型應考慮年齡、年份兩個因子水平。
3.3.2 模型分析
去掉異常值,重新建立模型后,Null deviance,Residual deviance,AIC的值都減小,說明模型擬合的效果更好。
為了進一步說明用負二項廣義線性模型建立中國死亡人數預測模型具有一定的優勢性,此處用泊松回歸模型進行建立模型。對兩個模型進行比較,負二項回歸模型中Null deviance、Residual deviance、AIC的值都遠遠小于泊松回歸模型的三個項目的值。
3.4 結果分析
本文至此已經建立中國人口死亡人數的預測模型,那么現在要轉換回建立中國人口死亡率預測模型的問題,由建立好的中國人口人數預測模型中年份、年齡與死亡人數之間的關系,以及死亡率的公式,得出預測的死亡率。可畫出死亡率隨年齡變化的散點圖進行分析,年齡因子對死亡率影響比較大,因此找到死亡率隨年齡變化的模式對預測非常重要。此外,隨著時間的推移,死亡率初步呈現下降趨勢,導致人口老齡化的形成。
4.結論
通過研究分析,得出死亡率預測模型,分析死亡率隨年齡、年份的變化模式,可為實施中國人口政策提供一定的依據。在本文中,發現最小二乘法不適用于建立死亡率預測模型,而負二項回歸相對于泊松回歸擬合結果比較好。從建立的模型中看死亡率隨年份變化的模式中,可知死亡率逐漸下降,導致老齡化社會的形成。但本文中建立的死亡率預測模型還有不足之處,有待改進。在用負二項回歸建立模型時,還可再改進,如選取主要的因子,可能建立的模型具有更優的擬合優度性。
參考文獻:
[1]李詩羽, 張飛, 王正林. 數據分析:R語言實踐[M]. 北京:電子工業出版社, 2014. 243-259.
[2]Douglas C.Montgomery, Elizabeth A.Peck, G.Geoffrey Vining. Introduction to Linear Regression Analysis, Fifth Edition[M]. 北京:機械工業出版社, 2016. 326-335.
[3]張連增, 段白鴿. 廣義線性模型在生命表死亡率修勻中的應用[J]. 人口研究, 2012, (3): 89-103.
[4]陳卓恒.負二項分布的廣義線性模型及其應用[J].華僑大學學報,2011,32(2).
[5]徐業峰. 負二項回歸模型的統計推斷[D]. 揚州大學, 2014.