嚴 婧,杜玉開,楊北方
1)江漢大學醫學院護理學系 武漢 430056 2)華中科技大學同濟醫學院公共衛生學院兒少衛生與婦幼保健學系 武漢 430030 3)湖北省疾病預防控制中心傳染病防治所 武漢 430079
自回歸求和移動平均模型在湖北省戊型病毒性肝炎發病率預測中的應用
嚴 婧1,2),杜玉開2),楊北方3)#
1)江漢大學醫學院護理學系 武漢 430056 2)華中科技大學同濟醫學院公共衛生學院兒少衛生與婦幼保健學系 武漢 430030 3)湖北省疾病預防控制中心傳染病防治所 武漢 430079
#通信作者,男,1979年2月生,博士,副主任醫師,研究方向:疫苗針對疾病的預防和控制,E-mail:308041407@qq.com
戊型病毒性肝炎;自回歸求和移動平均模型;發病率;預測;湖北省
目的:應用自回歸求和移動平均模型(ARIMA模型)對湖北省戊型病毒性肝炎疫情報告數據進行分析、預測,為戊型病毒性肝炎的監測、預警提供理論依據。方法:采用SAS 9.2對2004年1月至2015年12月湖北省戊型病毒性肝炎的報告疫情數據進行ARIMA 模型的參數估計、擬合檢驗,預測2016年1月至12月戊型病毒性肝炎的月發病數,并用實際數據驗證評估預測效果。結果:ARIMA(1,1,1)×(0,1,1)12模型擬合誤差RMSE為0.045,2016年1月至12月戊型病毒性肝炎預測值平均相對誤差為14.23%,能較好地擬合原始序列數據,預測精度較高。結論:ARIMA模型對湖北省戊型病毒性肝炎報告發病率短期預測精度良好,具有實際應用價值。
隨著傳染病預警系統的日漸完善,電子計算機技術的發展,多個領域的相互合作,各種數學預測模型越來越廣泛地應用于傳染病的預測,并得到國內外學者的一致認可[1-3]。有研究[4]在對12種不同的預測方法進行比較后提出自回歸求和移動平均模型(autoregressive integrated moving average model,ARIMA模型)是最好的預測模型之一。ARIMA模型預測方法作為一種重要的時間序列分析方法被廣泛地應用于各領域,近年來國內外學者[5-8]利用疫情監測資料構建ARIMA模型預測傳染病的發病趨勢,并取得了較好的預測效果,但尚無利用該模型對湖北省戊型病毒性肝炎發病趨勢開展預測的文獻報道。有鑒于此,該研究利用2004至2016年湖北省戊型病毒性肝炎的報告發病資料,采用ARIMA乘積季節模型對戊型病毒性肝炎的發病趨勢進行了預測,以期為今后湖北省戊型病毒性肝炎的防控工作提供科學依據。
1.1 資料來源 數據資料來源于中國疾病預防控制信息系統,為2004年1月至2016年12月湖北省17個地(市、州)的戊型病毒性型肝炎報告發病個案資料。
1.2 ARIMA模型
1.2.1 基本原理 ARIMA方法以時間序列的自相關分析為基礎,分析時間序列本身以及不同滯后期的自相關、偏自相關系數,即自相關函數(auto correlation function,ACF)和偏自相關函數(partial auto correlation function,PACF),用于發現時間序列的特征。根據序列的不同特征以及選擇參數的不同,該模型可分為:ARIMA(p,d,q)×(P,D,Q)s,ARIMA(p,d,q),ARIMA(p,q),AR(p)和MA(q)。根據序列是否與季節有關又可分為:季節模型ARIMA(P,D,Q)、非季節模型ARIMA(p,d,q)以及季節乘積模型ARIMA(p,d,q)×(P,D,Q)s。p,d,q以及P,D,Q分別表示非季節模型和季節模型中的自回歸的階、差分(季節差分)次數、滑動平均的階。模型中參數的確定與自相關函數、偏自相關函數密切相關,ACF、PACF是判別序列適合于哪種模型建模的重要參考指標[9]。
1.2.2 建模過程[10-11]
①平穩性檢驗:平穩性檢驗是為了使序列減少隨機變量的個數,增加待變量的樣本容量,即簡化時序分析的難度,提高對均值函數的估計精度。首先要對時間序列進行正態性檢驗,若不服從正態分布,要進行轉化,一般包括自然對數轉換和平方根轉換,使轉換后的數據服從正態分布,然后采用自相關分析、偏自相關分析及單位根檢驗(ADF檢驗)等方法來對時間序列的隨機性、平穩性及季節性進行分析,而ADF檢驗為平穩性統計檢驗的最常用方法。如果序列為非平穩序列,必須采取相應的措施進行處理,如對數轉換、差分運算使序列平穩化。
②模型識別:模型的識別過程即為序列定階的過程,是ARIMA分析中關鍵的一步,其中基于樣本ACF和PACF的性質的估計來對自回歸階數(p)和移動平均階數(q)進行定階。
③參數估計:根據以上各個參數的幾何意義給出p、d、q、P、D、Q 的初始值后,ARIMA程序能夠估計模型的參數,這里常常采用迭代計算法,以確定最大似然系數,并獲得擬合值、預測值、誤差(殘差)以及可信區間。
④模型檢驗:殘差序列的自相關函數和偏自相關函數不應與0有顯著的差異,殘差應隨機,即白噪聲。在各階延遲下LB統計量的P值均>0.05,反映此擬合模型顯著有效。
⑤模型的比較:用于比較各模型間擬合優度的統計指標包括確定系數(R2)、赤池信息準則(AIC)、貝葉斯信息準則(BIC)和殘差平方和(RSS)。AIC適合自回歸模型,而BIC是更為通用的標準,在判斷模型優劣時,可將兩者結合使用。
1.3 統計分析方法 該研究利用Excel 2007對湖北省戊型病毒性肝炎情資料進行整理,將2004年1月至2015年12月的戊型病毒性肝炎的發病數據作為建模部分,2016年1月至12月的發病數據作為模型驗證部分,采用SAS 9.2對湖北省戊型病毒性肝炎不同年份發病率進行趨勢χ2檢驗,建立ARIMA 模型,進行模型的參數估計、擬合檢驗和預測。
2.1 2004至2016年湖北省戊型病毒性肝炎報告發病率的流行趨勢 見圖1。由圖1可知,湖北省戊型病毒性肝炎報告發病率有明顯的周期性以及趨勢性,整體呈現上升的趨勢,上升幅度較小,3~5月份發病率相對較高。

圖1 2004至2016年湖北省戊型病毒性肝炎發病率的流行趨勢
2.2 ARIMA模型的建立與預測
2.2.1 平穩性檢驗 通過觀察原始時間序列圖可以初步判斷序列具有季節性,結合原始序列的ACF圖(圖2)可見,在時點12和24處都有一個局部的極大值,在這些時點處的序列值緩慢降低,這提示需進行季節差分來獲得穩定的均值。
將原始序列進行一次差分和一次季節差分后(圖3),數據的線性趨勢消失;同時對差分后的數據進行ADF檢驗,P<0.001,提示數據平穩。

圖2 原始序列的ACF圖

圖3 原始序列經一次差分及一次季節差分轉換后的序列圖
2.2.2 ARIMA模型的識別 觀察原始序列經一次差分和一次季節差分后的ACF和PACF(圖4),拖尾、截尾現象不明顯,初步確定模型為復合季節模型ARIMA(p,1,q)(P,1,Q)12。

圖4 原始序列經一次差分和一次季節差分后的ACF(左)和PACF(右)圖
模型中p、P和q、Q四個參數采取從低階到高階逐個進行嘗試以檢驗各個模型的擬合優度,并進行比較。選取其中擬合效果最好的幾個模型,比較各個模型的擬合參數,初步選出擬合效果最好的ARIMA模型,如表1所示,ARIMA (1,1,1)×(0,1,1)12模型為最優模型。

表1 各個模型的擬合優度統計量
2.2.3 ARIMA模型的參數估計 對ARIMA (1,1,1)×(0,1,1)12模型進行參數估計,結果見表2,P<0.001,可見模型的各個參數均具有統計學意義。

表2 ARIMA (1,1,1)×(0,1,1)12 模型參數估計結果
2.2.4 模型檢驗 對該模型的殘差序列進行白噪聲檢驗,結果顯示延遲6階,延遲12階,延遲18 階,延遲 24 階的LB檢驗統計量的P值均>0.05,說明殘差為白噪聲序列;殘差序列的自相關函數和偏自相關函數如圖5所示,ACF、PACF值均在置信區間內,提示序列為純隨機序列,說明ARIMA(1,1,1)×(0,1,1)12模型的擬合有效,初步確定其模型表達式為:(1-0.507B12)(1-B)(1-B12)Yt=(1-0.944B)(1-0.904B12)et。

圖5 ARIMA (1,1,1)×(0,1,1)12模型殘差序列的ACF(左)和PACF(右)圖
2.2.5 模型預測 利用模型ARIMA (1,1,1)×(0,1,1)12預測湖北省2016年1月至12月的戊肝月發病率(1/10萬),預測結果如圖6和表3所示,可見戊肝實際發病率都在ARIMA模型預測值的95%的置信區間內。經Ljung-Box檢驗[Q(15)=13.199,P=0.587],表明殘差已無滯后相關性,為白噪聲序列。

圖6 ARIMA模型對2016年1~12月湖北省戊肝月發病率的預測情況

表3 ARIMA模型對2016年1~12月湖北省戊肝月發病率的預測值
發病率表示在一定期間內,一定人群中某病新發生的病例出現的頻率[12]。發病率直接測定發病風險,是分析病因的重要依據,反映了疾病對人群健康的影響,同時可以用于評價防治措施的效果。對發病率進行預測是傳染病控制工作的重要環節,科學的預測是正確決策的首要前提和條件,如果能夠對傳染病未來的流行趨勢、變化規律及相關影響因素進行合理的預測,可及時發現疾病的暴發和流行,有的放矢地采取防控措施,對于傳染病的預防和控制具有重要的意義[13]。此外,發病率預測具有十分重要的預警價值,若實際發病率在預測值的95%的置信區間內波動,即表明當月病毒性肝炎的疫情正常,否則就需要警惕病毒性肝炎的流行或暴發,可及時采取相關措施。
ARIMA模型是一種基于時間序列分析、預測和控制的定量預測方法,其根據對時間序列資料進行統計處理,找出系統內在統計特性及發展規律性,并將其進行外延,對未來進行預測[11]。它以時間綜合代替各種影響因素,根據以往數據的特點建立模型,可消除時間序列的隨機波動,擬合確定型趨勢,其短期預測精度較高[5-6]。該研究利用2004年1月至2016年12月湖北省戊肝月報告發病率資料,采用ARIMA模型對戊肝的發病趨勢預測,既能明確湖北省戊肝防控現狀,又為下一步防控措施的制定提供科學依據。預測結果顯示:ARIMA (1,1,1)×(0,1,1)12模型擬合誤差RMSE=0.045,2016年1~12月預測值平均相對誤差為14.23%,發病率預測結果的平均相對誤差均在10%左右,能較好地擬合原始序列數據,預測精度較高。胡建利等[14]也曾構建ARIMA模型預測江蘇省戊肝的月發病數,其結果也顯示預測效果較好。
湖北省2004年至2016年戊型病毒性肝炎報告發病率呈上升的趨勢,與福建省的報道基本一致[15]。戊肝報告發病率的逐年升高趨勢,可能與人口流動日益頻繁和農村衛生條件差使感染機會增多有關,應引起重視,進一步加強飲水衛生和食品安全的監管。鑒于ARIMA模型對戊肝報告發病率短期預測精度較高,具有一定實際應用價值,可作為戊肝防控工作中的輔助工具,監測戊肝疫情,為相關部門的衛生決策提供科學依據,同時還可將戊肝預測值95%CI作為戊肝暴發的閾值,為預警提供依據。該研究采用時間序列模型對戊型病毒性肝炎進行預測,能較好地分析傳染病的周期性及季節性變化的規律,但只能分析線性資料,僅考慮時間這一影響因素,沒有考慮到其他變量對發病率的影響,預測結果很大程度上受疫情報告資料質量的影響。此外,預測模型是建立在歷史數據的基礎上,建模前提是數據的外延,若外界影響因素突然變化,或是有新的變量引入,都會對模型的預測效果造成極大的影響,降低預測效能,因此需加強疫情監測系統的數據質量,提高網絡直報數據的及時性和準確性,將新的變量納入模型,使模型更具有代表性,提高預測精度。
[1]曲江文,聶紹發.傳染病預測預警方法的研究進展[J].醫學與社會,2014,27(10):13
[2]林玫,李永紅,董柏青.傳染病預測預警方法在我國的應用現狀[J].中國熱帶醫學,2010,10(3):308
[3]JIA ZW,CHENG SM,JIA XW.A mathematical model for evaluating tuberculosis screening strategies[J].J Evid Based Med,2011,4(1):48
[4]武紅濤.ARIMA模型在醫院出院患者預測中的應用[J].解放軍醫院管理雜志,2009,16(1):21
[5]陳莉.探討ARIMA模型在細菌性痢疾發病預測中的應用[J].中國衛生統計,2011,28(4):417
[6]朱奕奕,馮瑋,趙琦,等.ARIMA乘積季節模型在上海市甲肝發病預測中的應用[J].復旦學報(醫學版),2012,39(5):460
[7]萬燕麗,楊永利,施念,等.ARIMA模型在河南省 AIDS疫情預測中的應用[J].鄭州大學學報(醫學版),2015,50(2):160
[8]FIRMINO PR,DE MATTOS NETO PS,FERREIRA TA. Correcting and combining time series forecasters[J].Neural Netw,2014,50:1
[9]馮丹,韓曉娜,趙文娟,等.中國內地法定報告傳染病預測和監測的ARIMA模型[J].疾病控制雜志,2007,11(2):140
[10]劉剛,唐宋,孫文杰.時間序列分析法在香港結核病預測中的應用[J].中國衛生統計,2012,29(2):226
[11]于林鳳,吳靜,周鎖蘭,等.ARIMA季節模型在我國丙肝發病預測中的應用[J].鄭州大學學報(醫學版),2014(3):344
[12]李立明.流行病學[M].北京:人民衛生出版社,2006.
[13]金連梅,楊維中.我國傳染病預警工作研究現況分析[J].中國公共衛生,2008,24(7):845
[14]胡建利, 祖榮強, 彭志行,等.江蘇省戊型肝炎發病趨勢的時間序列模型應用[J]. 南京醫科大學學報(自然科學版),2011,31(12):1874
[15]歐劍鳴,謝忠杭,洪榮濤,等.福建省2004-2010年戊型病毒性肝炎流行特征分析[J].中華流行病學雜志,2012,33(4):445
(2016-11-23收稿 責任編輯趙秋民)
Application of auto regressive integrated moving average model in forecasting incidence of hepatitis E in Hubei Province
YANJing1,2),DUYukai2),YANGBeifang3)
1)DepartmentofNursing,SchoolofMedicine,JianghanUniversity,Wuhan430056 2)DepartmentofChildandWomanHealth,SchoolofPublicHealth,TongjiMedicalCollege,HuazhongUniversityofScienceandTechnology,Wuhan430030 3)InstituteofInfectiousDiseaseControlandPrevention,HubeiCenterforDiseaseControlandPrevention,Wuhan430079
hepatitis E;auto regressive integrated moving average model;incidence;prediction;Hubei Province
Aim: To apply auto regressive integrated moving average model(ARIMA) to predict hepatitis E(HEV) incidence in Hubei Province, and provide the theoretical basis for future prevention strategies. Methods: Based on the reported HEV monthly incidence from January 2004 to December 2015 in Hubei Province, ARIMA model was applied to forecast the HEV monthly incidence in January to December 2016 using SAS 9.2,and the forecasted results were verified by the actual data of 2016. Results: The best model was ARIMA (1,1,1)×(0,1,1)12, the RMSE of this model was 0.045, and the average relative error of prediction was 14.23% with high precision.Conclusion: The ARIMA model can be used to forecast the HEV monthly incidence with high precision in the short-term in Hubei Province.
10.13705/j.issn.1671-6825.2017.03.012
R512.6