李曦 溫建 潘春柳 張江萍
(1.貴州醫科大學公共衛生學院,貴州 貴陽 550004;2.貴陽市云巖區疾病病預防控制中心疾病預防控制科,貴州 貴陽 550004;3.貴陽市云巖區衛生與計劃生育委員會,貴州 貴陽 550004)
?
·預防醫學·
基于ARIMA模型的貴陽市云巖區手足口病預測分析
李曦1*溫建2潘春柳2張江萍3△
(1.貴州醫科大學公共衛生學院,貴州 貴陽 550004;2.貴陽市云巖區疾病病預防控制中心疾病預防控制科,貴州 貴陽 550004;3.貴陽市云巖區衛生與計劃生育委員會,貴州 貴陽 550004)
手足口病; ARIMA; 趨勢預測
手足口病(HFMD) 是嬰幼兒常見的急性傳染性疾病,多發生于5 歲以下的兒童,主要癥狀為手足口等多個部位出現皰疹,少數患者可發生嚴重的神經系統并發癥如無菌性腦膜炎、脊髓炎等,甚至會導致患兒死亡[1]。該病主要由多種腸道病毒(EV) 引起,國內最常見的病原體是腸道病毒71 型(EV71) 和柯薩奇病毒A 組16 型(CoxA16)。根據2008-2014 年貴陽市云巖區手足口病的發病率,創建未來6年的發病預測數學模型,為制定手足口病的防控措施提供科學依據。
1.1 資料來源 研究數據來源于《中國疾病預防控制信息系統》中貴陽市云巖區2008-2014年疫情監測數據。
1.2 方法
1.2.1 ARIMA模型建模原理 將預測對象隨時間推移而形成的數據序列視為一個隨機序列,用一定的數學模型來近似描述這個序列。這個模型一旦被識別后就可以從時間序列的過去值及現在值來預測未來值。根據原始數據序列是否為平穩,模型可以分為:季節性ARIMA(p,d,q)(P,D,Q)S和非季節性ARIMA(p,d,q)[2],其中ARIMA(p,d,q)稱為差分自回歸移動平均模型,AR是自回歸, p為自回歸項; MA為移動平均,q為移動平均項數,d為時間序列成為平穩時所做的差分次數。
1.2.2 建模的方法和步驟 ARIMA建模法分為三個階段:模型識別、參數估計和診斷檢驗、預測[3]。模型識別階段:對貴陽市云巖區2008-2014年的手足口病發病率進行“日期定義”,繪制貴陽市云巖區手足口病發病率原始和差分后的自相關系數圖(ACF)和偏相關系數圖(PACF),以ADF單位根檢驗其方差、趨勢及其非季節性變化規律,對序列的平穩性進行識別。參數估計和診斷檢驗階段:顯著性檢驗可以確定是否需要模型中的一些項,擬合優度的統計量可以確定模型擬合的優劣程度;運用Akaike信息標準(AIC)和Schwartz Bayesian標準(BIC)作為模型選擇準則,其中參數值小者為優。預測階段:利用云巖區2008-2014年發病率創建的模型,預測貴陽市云巖區2008-2020年手足口病發病率。
1.3 實現軟件 用EXCEL對原始數據進行分類整理,使用SPSS 19.0進行ARIMA模型進行創建,檢驗水準α=0.05。
2.1 創建平穩序列 繪制2008-2014年的手足口病發病率時間序列圖(圖1)。由圖1可知云巖區2008-2014年的手足口病發病率為非平穩序列,無明顯季節性,對原始時間序列進行一階差分后近似平穩序列。
2.2 模型識別 為使時間序列平穩,先將云巖區手足口病發病率進行差分,差分后的自相關系數圖2(ACF)和偏相關系數圖3(PACF),該序列通過一階非季節性差分可以達到近似平穩序列,此時,可創建ARIMA模型。
2.3 參數估計和診斷檢驗 由時間序一階列差分得到類似平穩序列,可得出d=1;由ACF圖(圖2),出現滯后現象Lag=1,q=1; 由PACF圖(圖3), 出現滯后現象Lag=1,p=1。因模型階數過高會造成過度擬合,故各階數均限定在2以內,SPSS19.0報告得出的最終參數:平穩的決定系數,同時應用Akaike信息標準(AIC)和Schwartz Bayesian標準(BIC)作為模型選擇準則。根據SPSS 19.0 報告的擬合優度和統計量結果可見,排除與預測結果差異太大的模型ARIMA(1,0,1)和ARIMA(0,1,1),兩個較好的備選模型中ARIMA(1,1,1),ARIMA(1,1,0)相比較,模型ARIMA(1,1,1)的AIC11.570、BIC11.462及殘差方差均小,而其參數的P<0.05,選定該模型建立方程。
對ARIMA(1,1,1)的殘差做自相關和偏自相關分析(圖4)殘差是隨機的白噪聲,殘差序列的box-ljung Q統計結果顯示統計量差異均無統計學意義(P>0.05),對殘差序列進行t 檢驗,差異無統計學意義(P>0.05)。進一步證實殘差是白噪聲序列,所選模型恰當。
2.4 預測結果 根據已知的貴陽市云巖區2008-2014年手足口病發病率(1/10萬),運用ARIMA(1,1,1)模型對貴陽市云巖區2015-2020年手足口病發病率(1/10萬)進行預測,預測結果依次為121.1742、221.1876、148.1587、245.9970、175.0109、270.7259。擬合時序圖如下(圖7)。經檢驗預測結果擬合度較好,由圖5可見,擬合時間序列動態趨勢與真實時間序列動態趨勢基本一致;擬合結果都在預測發病率的95%可信限(95%CI)。由ARIMA(1,1,1)模型參數結果可得出預測模型為:Dyt=yt-yt1;Dyt=-0.990Dyt-1+εt+εt-1。
隨著數學模型被運用到交叉學科以來,運用數學模型進行預測,運用數理統計來尋求事物規律思維的發展與完善,越來越多的數學理論、統計方法及預測模型被應用于傳染病的預測。但是,我們并不能用單一因素分析傳染病的流行特征及規律,應從傳染病的發病特征,發病人群,發病時間,發病因素等等水平來預測傳染病。ARIMA 預測模型是基于原始數據服從時間序列分布,利用任何事物發展均具有一定慣性趨勢的原理,建立時間序列模型,從而達到預測的目的[4]。ARIMA 預測模型既吸收了傳統回歸分析的優點又發揮了移動平均的長處,具有適用范圍廣,實用性強、預測誤差小的特點,是 一種預測精確度較高的短期預測方法[5]。
本研究對2008-2014年云巖區手足口病發病情況,運用ARIMA(1,1,1)模型通過模型識別、參數估計和診斷檢驗、預測三個階段完成數學建模。模型預測的結果均在95%CI內,預測結果顯示未來6年貴陽市云巖區手足口病的發病不會持續下降,相反發病率會出現反復狀態。因此,這就需要相關部門提前預警,加大防控工作力度,防止手足口病出現大規模流行。
數據記錄的準確性和全面性對數學模型的預測至關重要。因此 為提高模型預測的準確度和精度,應全面收集影響傳染病發生的相關因素,建立可以考慮到影響因素的預測模型[6]。在今后傳染病監測和預防工作中,首先應提高傳染病的報告準確性和記錄全面性;其次要運用預測模型結果,運用不斷更新的數據多次擬合預測未來發病率,謹慎使用傳染病預測結果,提前引導社區居民,易感人群做好消毒和防護措施,為工作人員采取預防措施提供正確的參考依據,以期最大化實現控制疾病的傳播。

[1] 張雅娟, 崔彩巖, 史劉輝. 2010-2013年西安市手足口病流行病學特征分析[J]. 現代預防醫學, 2015,42(7):1235.
[2] 范引光, 呂金偉, 戴色鶯,等. ARIMA模型與灰色預測模型GM(1,1)在HIV感染人數預測中的應用[J]. 中華疾病控制雜志, 2012, 16(12):1100-1103.
[3] 朱奕奕, 馮瑋, 趙琦,等. ARIMA乘積季節模型在上海市甲肝發病預測中的應用[J]. 復旦學報:醫學版, 2012, 39(5):460-464.
[4] 譚姣,雷靜 . ARIMA 模型在乙型病毒性肝炎發病率預測中的應用[J]. 公共衛生與預防醫學,2013,24(4):8-10.
[5] 張澤武,盧展鵬,曾耀明,等. ARIMA 模型在東莞市細菌性痢 疾預測中的應用[J]. 公共衛生與預防醫學,2013,24 (4) :43-45.
[6] 韓琴,蘇虹,王忱誠,等. ARIMA 模型與GRNN 模型對性病發病率的預測研究 [J]. 現代預防醫學,2012,39 (6) : 1337-1340.
R181.8
B
1000-744X(2016)07-0775-02
2016-03-03)
*貴州醫科大學公共衛生學院2014級在讀碩士研究生
△通信作者,E-mail:jpzhang1972@163.com