肖占沛 王燕 張肖肖 路明霞 馬雅婷 張延煬



[摘要]目的建立乘積季節自回歸移動平均(ARIMA)模型,觀察其對河南省流行性腮腺炎疫情預測的可行性。方法利用河南省2004~2013年分月的流行性腮腺炎疫情監測資料建立乘積季節ARIMA模型,利用2014年1~12月的流行性腮腺炎疫情資料評價該模型的預測效能。結果河南省2004~2013年流行性腮腺炎發病呈現明顯的季節效應,且發病數在2006年后呈現逐年增多的趨勢;模型ARIM(1,0,2)(0,1,1)12能較好地擬合既往的流行性腮腺炎報告病例數,且對2014年1~12月按月報告的流行性腮腺炎病例數的預測值與實際值基本吻合。結論ARIMA模型能較好地模擬、預測河南省流行性腮腺炎的發病情況。
[關鍵詞]乘積季節自回歸移動平均模型;流行性腮腺炎;疾病預測
[中圖分類號]R512.1 [文獻標識碼]A [文章編號]2095-0616(2016)02-07-04
流行性腮腺炎是一種由腮腺炎病毒引起的急性呼吸道傳染病,其傳染性僅次于麻疹和水痘,嚴重影響了青少年兒童的身體健康。近年來,河南省流行性腮腺炎發病呈現上升趨勢,其防控形勢不容樂觀,因此,為科學有效地應對流行性腮腺炎防控,有必要對流行性腮腺炎發病水平進行短期預測,國內外有研究者利用疫情監測數據構建自回歸移動平均(ARIMA)模型,根據近幾年某傳染病的流行特點,來進一步預測該傳染病的發病情況和發展趨勢,取得了較好的預測效果。本研究利用河南省2004~2013年分月流行性腮腺炎疫情監測數據建立ARIMA模型,并利用2014年的監測數據評價ARIMA模型的預測效果,進而探討河南省流行性腮腺炎發病趨勢預測預警的方法。
1.資料與方法
1.1一般資料
資料來源于《中國疾病監測信息報告系統》中河南省2004年1月-2014年12月流行性腮腺炎月發病病例數共169 537例。
1.2研究方法
基于2004年1月~2013年12月流行腮腺炎發病數資料建立乘積季節ARIMA模型,用2014年流行腮腺炎發病數資料來驗證模型的預測效果。ARIMA模型包括:自回歸模型(AR)、移動平均模型(MA)和ARIMA模型,一般包括4個步驟,分別為:序列平穩化、模型的識別、參數估計和模型診斷、預測應用,依據2004年1月~2013年12月流行腮腺炎發病數資料,通過這3個步驟反復建模,篩選出最優的預測模型。(1)模型識別:觀察2004~2013年流行腮腺炎分月監測數據的時間序列的平穩性,如若是非平穩序列,要通過數據轉化和一階周期為12的季節性差分將序列平穩化。首先,根據平穩序列的ACF圖和PACF圖,來識別序列的季節性成分,然后,再根據殘差序列的ACF圖和PACF圖,識別非季節性成分,最終識別模型。(2)參數估計:依據最大似然法或無約束最小二乘法原則,根據序列的自相關系數和偏相關系數,經過不同方法的參數選擇、比較、篩選,估計出自回歸移動平均過程的系數,并對各系數進行顯著性假設檢驗。(3)模型檢驗:預測模型是否合適,取決于其殘差序列是否為白噪音序列,合適的模型其殘差呈白噪音,其ACF和PACF與零應無統計學差異,利用此標準對所建立的ARIMA模型是否合適作出診斷。若幾個模型都能滿足要求,選取AIC、BIC較小者及R2較大者,則模型效果較好。(4)模型預測:對序列進行平穩化后,選擇最優的模型,對河南省2014年1~12月的按月報告的流行腮腺炎病例數的數據進行預測,觀察其預測效果。
1.3統計學處理
采用Excel 2007建立河南省流行性腮腺炎月報告發病數數據庫,運用PASW statistics19.0軟件進行ARIMA模型構建及統計分析。
2.結果
2.1河南省2004~2013年流行性腮腺炎報告病例數的變化趨勢
河南省2004~2013年流行性腮腺炎報告病例數呈現明顯的季節性,每年的3~7月及11月~次年1月呈現發病高峰,自2006年起,呈現上升趨勢,提示該時間序列為非平穩序列。河南省2004~2013年流行性腮腺炎月發病數時間序列圖,見圖1。
2.2模型識別結果
從原序列圖可以看出,該序列方差不平穩,且有明顯的季節規律,為消除原序列的不平穩趨勢,首先對其進行對數轉換和季節差分,經對數轉換和1次季節差分后作ACF和PACF分析(圖2)。根據圖2可以看出,ACF圖在時點1呈現一個高峰,而PACF圖在季節性時點1、13、25處呈現指數衰減,由上述特點可初步選定季節模型是ARIMA(0,1,1)12。
同時圖2中,ACF圖在12點處還出現了一個單一的季節性低估。我們對ARIMA(0,1,1)12殘差序列進行ACF和PACF分析(圖3),與標準的ACF和PACF圖比較,非季節模型可能是ARIMA(1,0,1)、ARIMA(1,0,0)或者ARIMA(1,0,2),因此,可擬合3個備選混合效應模型ARIMA(1,0,1)(0,1,1)12,ARIMA(1,0,0)(0,1,1)12和ARIMA(1,0,2)(0,1,1)12。
2.3參數估計及檢驗
3個備選模型的參數估計及檢驗結果見表1,經過參數比較和選擇,根據BIC最小和R2最大的準則和模型簡潔原則,初步判斷為模型ARIMA(1,0,2)(0,1,1)12。
2.4模型診斷
在SPSS19.0中對模型ARIM(1,0,2)(0,1,1)12的殘差進行Q檢驗,結果顯示,Ljung-Box Q=19.765,P=0.138,差異無統計學意義,說明模型ARIMA(1,0,2)(0,1,1)12殘差序列呈白噪聲,提示所選模型恰當,適用于預測。
2.5模型擬合和預測
本研究用ARIMA(1,0,2)(0,1,1)12模型對原序列進行了擬合和預測,見圖4,擬合值的動態趨勢與實際值具有基本相似的升降規律,這說明擬合效果較好。
運用模型ARIMA(1,0,2)(0,1,1)12對河南省2014年1-12月流行性腮腺炎的報告病例數進行預測,結果見圖5,預測值均在實際值的95%可信區間范圍內,且預測值的動態趨勢與實際值基本一致。
3.討論
ARIMA模型是一種基于時間序列分析、預測和控制的方法,是一種精度較高的短期預測法,其基本思想是利用時間序列的觀測值所具有的依存關系或相關特點,依據預測對象發展的延續性,預測對象發展的未來值或變化趨勢,該模型能綜合考慮季節、趨勢和隨機干擾等因素,所以,特別適用于時序規律不明顯,或有明顯季節性和周期性的情況。在國內相關研究中,ARIMA模型在流行性腮腺炎發病率預測方面,其可行性與準確性已得到充分地驗證。
本研究利用河南省2004-2013年流行性腮腺炎的月發病數擬合了ARIMA(1,0,2)(0,1,1)12模型,并對2014年1~12月的發病情況進行了回代預測,其結果顯示,模型擬合值與實際發病數基本一致,預測值均在實際值的95%可信區間范圍內,預測精確度較高,這提示該模型有較好的預測效果,對河南省流行性腮腺炎發病趨勢的預測具有可行性,在河南省流行性腮腺炎發病預測中具有推廣應用的實際價值,但是該模型也有不足之處:(1)建立此預測模型需要很大數量的歷史數據,且數據越多,預測效果越好;(2)該預測模型只能用于短期預測,在實際工作中,應注意數據的及時性,動態掌握流行性腮腺炎的發病變化趨勢,以新數據來重新擬合預測模型,同時,建立動態分析評價該序列的策略,從而采取具有針對性、預見性和主動性的防控措施。