龐艷蕾 張惠蘭 李向云△ 趙 晶
灰色模型GM(1,1)和ARIMA在擬合全國嬰兒、5歲以下兒童死亡率中的應用
龐艷蕾1張惠蘭2李向云1△趙 晶1
目的 比較分析灰色模型GM(1,1)、ARIMA模型在全國嬰兒死亡率(IMR)和5歲以下兒童死亡率(U5MR)擬合過程中的適用性,為兒童保健工作提供科學依據。方法 以1991-2012年全國IMR、U5MR為原始資料,統一運用SAS分析軟件。采用灰色模型GM(1,1)和ARIMA模型進行擬合分析,分別計算各模型擬合MPE、MAPE值,比較各模型的適用性和精確性。結果 嬰兒死亡率GM(1,1)和ARIMA模型MPE分別為0.32、1.18,MAPE分別為3.09%、5.34%;5歲以下兒童死亡率GM(1,1)和ARIMA模型MPE分別為0.57、0.89,MAPE分別為3.11%、4.33%。結論 GM(1,1)模型對兒童保健指標擬合效果優于ARIMA模型,模型擬合要充分考慮數據特征。
GM(1,1) ARIMA 嬰兒死亡率 5歲以下兒童死亡率 擬合
2000年9月世界各國領導人在聯合國千年首腦會議上通過“聯合國千年宣言”[1]并制定了八項千年發展目標(MDGs)。其中一項就關系到兒童保健方面,要求到2015年在1990年的基礎上使五歲以下兒童的死亡率降低三分之二。控制和降低嬰兒死亡率(IMR)和5歲以下兒童死亡率(U5MR)既是改善和增進人民福利的內在要求,又是我國人口與社會發展的重要內容[2]。國內大多數學者運用單一模型對兒童死亡率進行擬合分析,且缺乏橫向比較。本文旨在運用模型GM(1,1)和ARIMA對IMR和U5MR擬合分析,比較兩模型在擬合兒童死亡率中的適用性和精確性。
1.資料來源
資料來源于中國國家衛生和計劃生育委員會衛生信息中心《2013中國衛生統計年鑒》和《2013年中國衛生統計提要》,真實可靠。利用1991-2012年全國嬰兒死亡率(IMR)及5歲以下兒童死亡率(U5MR),作為建模分析的原始數據。
2.模型原理
(1) 灰色模型GM(1,1)
②模型檢驗 根據小誤差概率(P值)和后驗差檢驗計算方差比(C值)檢驗模型的精確性,詳見表1。
* 以C值或P值對應的最優精度等級作為模型精度等級
(2) 模型ARIMA
②模型檢驗 純隨機性檢驗(白噪聲檢驗),對模型檢驗時,殘差序列為白噪聲序列則模型擬合較好,說明充分提取了數列信息。若殘差序列不是白噪聲序列要重新建模,直到殘差為白噪聲序列為止。
3.統計分析
兩種預測模型都通過SAS軟件編輯程序并分析。根據兩種模型擬合結果計算出與實際值誤差,以擬合誤差來判定模型擬合的優劣性。
4.模型比較
各指標數據擬合后,以擬合值與真實值的差值作為誤差,然后計算各模型擬合預測平均相對誤差MPE和平均相對誤差絕對值MAPE。前者是將每個預測值的誤差以誤差的倍數放大,這樣單個誤差較大的預測值就可以使預測誤差的方差大幅增加,這更適合模型比較;與前者相比后者不存在正負相抵消的情況,所以應用起來更優越。因此,將MPE和MAPE結合起來共同作為模型評價標準。
1.擬合嬰兒死亡率
(2)建立ARIMA模型 利用全國1991-2012年IMR數據,先進行白噪聲檢驗并結合序列ACF和PACF進行分析,結果序列為有很強的遞減趨勢的非白噪聲序列。然后對序列進行差分運算,2階差分后,表現為平穩非白噪聲序列。觀察差分后序列ACF和PACF,并結合表2和擬合結果殘差白噪聲檢驗結果,最終選擇ARIMA(0,2,2)模型擬合,即2階差分2階移動平均模型:(1-Β)2χt=(1-0.72067Β+0.81441Β2)εt。模型殘差和參數檢驗均通過檢驗詳見表3,擬合結果詳見表4。
2.擬合5歲以下兒童死亡率
(2)建立ARIMA模型 同ARIMA建模原理步驟,經過白噪聲檢驗、差分運算、擬合結果白噪聲檢驗以及AIC值和BIC值比較,最終選擇最優ARIMA(0,2,1)模型,即2階差分1階移動平均模型:(1-B)χt=0.12478 + (1-B)εt。模型殘差白噪聲檢驗:延遲6階χ2值為10.68,P值為0.0582,延遲12階χ2=19.14,P=0.0587,P值均大于0.05,模型通過檢驗。模型參數顯著性檢驗:均值(常數)t=2.96,P=0.0084,θ1檢驗t=6.42,P=0.00001,P值均小于0.05,參數通過檢驗。擬合結果詳見表4。
3.模型比較
根據各模型預測結果和擬合誤差,計算各模型擬合MPE、MAPE值。為使結果比較更有說服力現統一采用2005年以后擬合數據進行誤差分析。嬰兒死亡率GM(1,1)和ARIMA模型MPE分別為0.32、1.18,MAPE分別為3.09%、5.34%;5歲以下兒童死亡率GM(1,1)和ARIMA模型MPE分別為0.57、0.89,MAPE分別為3.11%、4.33%。可見,GM(1,1)模型在IMR和U5MR擬合方面優于ARIMA。圖1、圖2直觀展現了兩模型在IMR和U5MR方面擬合效果。
GM(1,1)或ARIMA都適用于短期序列擬合,均曾被學者用在兒童死亡率的研究中[5-6],也有學者將兩者共同運用于疾病或入院人數預測的比較分析[7-8]。本次研究將兩模型同時用于IMR和U5MR擬合,在各模型均通過檢驗情況下,比較其精確性。兩種模型擬合均通過了模型檢驗,均可用于IMR和U5MR擬合,但GM(1,1)在IMR、U5MR的擬合時MPE、MAPE值均低于ARIMA模型。所以說在擬合兒童死亡率方面,GM(1,1)擬合效果優于ARIMA。
GM(1,1)對樣本含量和概率分布沒有嚴格的要求,適應性強,可廣泛應用于農業、工業、氣象、醫學等領域的預測[9],并允許較少數據預測,對影響因素不明確或結局不明朗的事件均可以展開預測[10]。而ARIMA對數據要求相對較高,需要相對較多的連續序列數據,且過程相對GM(1,1)復雜。依據兩種模型的適用條件,數據無波動或波動較小的時間序列宜用GM模型、波動較大的時間序列宜用ARIMA模型[7]。當序列存在周期波動或季節波動時ARIMA更是首選。由原始數據可以看出,IMR、U5MR均表現很強的遞減趨勢,沒有很大逆向波動,因此原始數據特征和模型自身特點是選擇合適擬合模型的關鍵。
兒童死亡率受到多方面的影響,比如社會經濟發展水平、衛生資源的配置利用、以及家長經濟狀況和文化程度等,并且各種因素對兒童死亡率影響程度、方式、途徑等都有各自的特點。模型擬合兒童死亡率只是單純從模型擬合角度探究模型擬合歷史數據的精確程度,數學模型主要是反映數據的規律性,不能完全反映各種非規律性的社會因素對預測數據的影響[11]。因此在擬合乃至預測過程中要慎重。
[1]聯合國千年宣言.A/55/L.2,http://www.un.org/chinese/ga/55/res/a55r2.htm.
[2]劉元元.2010年我國孕產婦、嬰兒及5歲以下兒童死亡率的統計預測研究.成都:四川大學,2005.
[3]徐國祥.統計預測和決策.第二版.上海:上海財經大學出版社,2005:202-224.
[4]王燕.應用時間序列分析.第二版.北京:中國人民大學出版社,2008.142-173.
[5]劉潔,曲波,郭海強,等.ARIMA模型在中國5歲以下兒童死亡率預測中應用.中國公共衛生,2011,27(2):237-238.
[6]李向云,劉曉冬,馬麗敏,等.GM (1,1)灰色模型在擬合我國嬰兒死亡率中的應用.中國醫院統計,2009,16(1):33-35.
[7]金如鋒,邱宏,周霞,等.ARIMA模型和GM(1,1)模型預測全國3種腸道傳染病發病率.復旦學報(醫學版),2008,35(5):675-680.
[8]梁景星.GM(1,1) 灰色模型和ARIMA模型在我院季度入院人數預測中的比較分析.中衛生統計,2014,31(1):107-109.
[9]許筱紅,金小林.GM(1,1)數學模型在瘧疾疫情預測中的應用.中國寄生蟲病防治雜志,2005,18(3):178-179.
[10]楊婷,王玉貴,楊丹,等.基于灰色成分數據模型的醫療費用結構變動趨勢預測研究.中國衛生統計,2011,28(1):58-60.
[11]張冬艷,盧亦愚,馮燕,等.應用灰色系統模型預測麻疹的流行時間.數理醫藥學雜志,2011,24(1):7-9.
(責任編輯:郭海強)
1.濰坊醫學院公共衛生學院(261053)
2.山東省濰坊市奎文區婦幼保健院(261041)
△通信作者:李向云,E-mail:lixy@wfmc.edu.cn