陳 萌 趙 麗 符文華△
【提 要】 目的 基于時間序列模型對沈陽市月死亡率進行預測研究,為制定人口健康策略提供參考依據。方法 選取Holt-Winter模型與SARIMA模型對沈陽市2010年1月-2021年12月主城區(qū)月死亡率進行預測分析,并比較兩種模型準確度。結果 沈陽市主城區(qū)人口粗死亡率呈上升趨勢,分布呈現周期性特征,年初和年末稍高,年中稍低。SARIMA模型的MAPE為4.33%,Holt-Winters相乘模型的MAPE為3.82%,從預測效果來看,驗證集的實際值均落在預測值的95%CI之內,SARIMA模型和Holt-Winters相乘模型的總體相對誤差分別為1.20%和0.39%。結論 Holt-Winter相乘模型更適于沈陽市月度人口死亡率的預測。
死亡率作為最可信的衛(wèi)生資料之一,直接反映了人口健康狀況和社會衛(wèi)生水平。了解居民死亡水平及變化趨勢,對衡量疾病死亡負擔,制定疾病防控策略,配置衛(wèi)生資源以及評估干預措施效果都有著積極的作用[1]。
數據來源于沈陽市疾病預防控制中心提供的2010年1月-2021年12月沈陽市主城區(qū)人口死亡監(jiān)測數據。登記對象為沈陽市內五區(qū)戶籍人口,并以《居民死亡醫(yī)學證明(推斷)書》作為統(tǒng)計憑證。
以2010年1月-2019年12月數據作為訓練集,2020年1月-2021年12月數據作為驗證集,比較Holt-Winters與季節(jié)性差分自回歸移動平均(seasonal autoregressive integrated moving average,SARIMA)模型預測精確度,得出最優(yōu)模型。最后將驗證集數據納入最終模型,對沈陽市2022-2023年月度死亡率進行定量預測。
(1)模型介紹
Holt-Winters指數平滑模型包含水平項α、趨勢項β和季節(jié)項γ,參數范圍均為0~1之間,是模型預測值與實測反推值之間的平衡權重,參數越小,則模型擬合較好。當季節(jié)變化大致保持不變時,常選擇加法模型;當季節(jié)變化與時間序列的水平成比例變化時,則選擇相乘模型[2-3]。
差分整合移動平均回歸(autoregressive integrated moving average,ARIMA)模型:ARIMA(p,d,q)中,AR是自回歸,p為自回歸項數;MA為滑動平均,q為滑動平均項數,d為使序列平穩(wěn)所做的差分階數[2-3],SARIMA是由 ARIMA(p,d,q)模型與季節(jié)性 ARIMA(P,D,Q)s模型混合而成,二者建模過程基本相似,包括序列平穩(wěn)化、模型識別、模型檢驗、模型預測[4]。
(2)統(tǒng)計學方法
采用R 4.1.2軟件進行時間序列模型的建立、驗證和預測,主要調用“tseries”和“forecast”軟件包[5]。模型選擇中ets()函數和auto.arima()函數,默認以校正赤池信息準則(AICc)值最小為最優(yōu)模型[3];比較兩模型擬合程度可參考平均絕對百分比誤差(MAPE),參數越小表示擬合程度越好。假設檢驗以P≤0.05認定為具有統(tǒng)計學意義。
2010-2021年沈陽市主城區(qū)年均死亡率為8.65‰,粗死亡率呈現逐步上升后趨于平穩(wěn),標化死亡率則呈現逐年下降趨勢,見圖1。月粗死亡率呈現周期性分布特征,表現為年初和年末稍高,2月稍有降低,6月份最低,7-8月份略有回升,但總體不同月度間死亡率差異較小,圖2顯示了月度粗死亡率的平均水平。

圖1 2010-2021年沈陽市主城區(qū)粗死亡率和標化死亡率趨勢圖

圖2 2010-2021年沈陽市主城區(qū)月死亡率趨勢圖
使用“stl”函數將死亡率時序圖拆分成季節(jié)周期、長期趨勢和隨機序列三部分,見圖3。使用ets()函數篩選出最優(yōu)模型:Holt-Winters相乘模型的水平項α=0.14、季節(jié)效應項γ=1×10-4,AICc值為-168.70,MAPE為3.82%。

圖3 2010-2019年沈陽市主城區(qū)人口死亡率時序分解圖
使用ndiffs()函數進行差分處理后,結果顯示趨勢性差分(d=1)時,平衡性檢驗結果為P=0.01,提示差分后的序列基本趨于平穩(wěn)。使用auto.arima()函數最終模型確定為SARIMA(4,1,1)(2,0,0)12,AICc值為-390.10,MAPE值為4.33%,應用Ljung-Box檢驗顯示P=0.93>0.05,表明模型殘差序列為白噪聲序列,模型擬合較好。
分別運用Holt-Winters相乘模型和SARIMA(4,1,1)(2,0,0)12預測沈陽市2020-2021年的月度死亡率,藍色曲線為月度死亡率的預測值,陰影部分為預測值的95%CI,見圖4。從預測效果來看,兩種模型的實際值均落在預測值95%CI之內,SARIMA和Holt-Winters相乘模型的總體相對誤差分別1.20%和0.39%,綜合來說Holt-Winters相乘模型預測效果較好。

圖4 2020-2021年沈陽市主城區(qū)人口月死亡率
將2020-2021年數據重新加入到總數據集中,運用Holt-Winters相乘模型對沈陽市2022-2023年人口月死亡率進行預測,年均死亡率為8.99‰,見圖5。

圖5 2022-2023年沈陽市主城區(qū)月度死亡率預測圖
當前,我國已經進入人口老齡化快速發(fā)展階段[6],而遼寧省人口老齡化程度則居于全國首位[7],預計到2050年,人口年齡構成將發(fā)展成典型的倒金字塔結構[8]。老年人口比例的變化勢必會導致死亡率的明顯改變,沈陽市的人口發(fā)展已經進入了“風險積累”和“風險爆發(fā)”并存的階段,呈現出粗死亡率逐年上升的現象,國內許多研究[9-10]都驗證了不同程度的老齡化與死亡密切相關;另一方面隨著醫(yī)療技術水平的發(fā)展,老年人預期壽命不斷增加,表現為人口標化死亡率逐年下降。
根據死因監(jiān)測資料,2021年沈陽市居民死因以慢性非傳染性疾病為主,占比約84.44%,全人群死因順位前3位分別為心臟病、惡性腫瘤和腦血管病。死亡率周期性分析顯示年初和年末稍高,2月份略有下降,6月份最低,7-8月份則略有回升的趨勢。多項研究表明死亡率和溫度之間存在較強的相關性,老年人體溫調節(jié)敏感度降低,影響更為明顯[11-12]。The Lancet Planetary Health發(fā)表一項聯合研究表明[13],全球每年死亡人數的9.43%都是異常的低溫或高溫導致的,其中約90%與異常低溫有關,結合東北地區(qū)冬季較為寒冷的氣候特點,年初年尾的心腦血管疾病[14-15]和老年人跌倒[16]等因素致死均有不同程度地增加。反之,日最高氣溫升高也是誘發(fā)心腦血管疾病的危險性因素[15,17],每年7-8月份隨著氣溫升高,死亡率也隨之回升。人口死亡率不僅受到自然環(huán)境的影響,社會政策等因素對其影響同樣較為明顯,2020年新冠肺炎全球爆發(fā)以來,不同程度的社會和醫(yī)療管控,所造成的延遲就醫(yī)[18]等問題也對死亡率產生了影響。2010-2019年死亡率周期趨勢較為一致,2020-2021年則有所變動,從而造成個別月份預測誤差較大的問題。
時間序列模型作為預測數據的一種工具,模型選擇的種類并不絕對,需要通過不斷地整合監(jiān)測數據、定期調整參數來尋求更為貼近真實情況的模型。由于人口死亡率受到遺傳、人口構成、環(huán)境和社會等眾多因素影響,模型構建應遵循“抓大放小”的原則,注意避免過度追求精確度所造成的過度擬合。
隨著我國第一、第二個生育高峰人口相繼進入慢性病和死亡的高發(fā)期,在未來若干年內,將出現大量“帶病生存”人群,還將迎來死亡率快速增長期。人口傷病死亡水平預測的應用在實際決策中具有較高的參考意義,積極采取合適的策略措施,有益于提高人群健康水平和預期壽命。