吳琳琳 孫曉冬 胡家瑜 李智 楊建萍
摘要:【目的】探討時間序列模型在流行性腮腺炎(流腮)預測中的應用,建立上海市流腮發病的預測模型,預測2017年上海市流腮發病趨勢。
【方法】收集中國疾病監測信息報告系統中的上海市2005年1月—2016年12月流腮月報告發病資料,使用SPSS軟件進行建模,考慮季節因素建立ARIMA (Autoregressive Integrated Moving Average)乘積季節預測模型,并用所建模型預測上海市2017年流腮發病趨勢。
【結果】ARIMA(1,0,0)(1,1,0)12可較好地擬合流腮發病的時間序列趨勢,對2005—2016年流腮發病數預測值與實際值吻合程度高,平均相對誤差為879%,2017年流腮預測病例數為2656例。
【結論】ARIMA乘積季節模型可較好地擬合流腮發病的時間序列趨勢;與2016年相比,預測2017年流腮報告發病數相對平穩。
關鍵詞:時間序列分析;流行性腮腺炎;預測
中圖分類號:R1818 文獻標志碼:ADOI:1019428/jcnkisjpm201818669
引用格式:吳琳琳,孫曉冬,胡家瑜,等.上海市流行性腮腺炎疫情時間序列模型建立的初探[J].上海預防醫學,2018,30(7):557561.
流行性腮腺炎(簡稱“流腮”)是一種在全球范圍內廣泛流行的急性呼吸道傳染病,其疾病譜從隱性感染至無菌性腦膜炎、睪丸炎、耳聾等,且疾病嚴重程度隨年齡增長而增加[1]。多發于兒童和青少年,亦可見于成人, 且年長的青少年和成人的發病率有上升的趨勢[24]。
時間序列預測是根據現在與過去的隨機序列的樣本取值,對未來某一時間段的隨機變量記性估計[5]。ARIMA是時間序列分析方法中重要的預測模型之一,其綜合考慮了長期趨勢、周期變化和隨機干擾因素,借助模型參數的變化對數據進行量化表達,可以達到較好的預測效果[67]。本研究旨在通過對流腮歷史報告發病數的分析,采用時間序列分析中的ARIMA模型進行流腮報告發病數的擬合,建立流腮報告發病數的預測模型, 并對2017年上海市流腮發病趨勢進行預測。
1材料與方法
11資料來源
流腮發病資料來源于中國疾病監測信息報告系統。[JP2]按發病日期收集2005年1月—2016年12月上海市流腮的分月報告發病數進行時間序列分析。[JP]
12方法
[JP2]采用SPSS 170統計軟件的ARIMA分析方法,通過數據處理及模型識別、[JP3]模型檢驗和產生預測等步驟對上海市2005—2016年流腮月發病數進行時間序列分析,并對2017年流腮月發病數進行預測。[JP]
ARIMA模型是傳統的時間序列模型,由Box和Jenkins于1970年提出,也稱為BoxJenkins模型。季節乘積性ARIMA模型是將隨機季節模型與ARIMA模型相結合,其結構為ARIMA(p,d,q)(P,D,Q)s,其中(p,d,q)和(P,D,Q)分別為非季節性和季節性自回歸(AR)、差分(I)和移動平均(MA)的階數,s代表季節周期。模型建立的主要步驟為[8]:① 序列平穩化檢驗和處理:通過對已有時間序列數據進行差分,使該序列滿足零均值且方差不隨時間變化,根據差分次數確定d或(和)D。② 模型識別:序列平穩后,通過觀察序列的自相關系數(autocorrelation function,ACF)、偏自相關系數(partial autocorrelation function, PACF)和SPSS 擬合結果,確定備選模型。③ 參數估計和模型檢驗:利用非線性最小二乘法估計模型參數,ARIMA 模型篩選依據為貝葉斯信息準則(Bayesian information criterion BIC)、殘差和模型檢驗分析。對模型的參數進行統計學檢驗和殘差的白噪聲檢驗。④ 模型預測:用所篩選的最優模型,對模型進行預測,得到原序列將來的趨勢。根據預測值與實際值的平均預測相對誤差來評價預測效果。
2結果
21流腮報告病例時間分布情況
2005年1月—2016年12月上海市流腮月報告發病數波動較大,每年均出現夏季的發病高峰月份,且發病高峰出現的時間比較一致,呈明顯的周期性、季節性變化(圖1)。
22建立模型
221序列的平穩化處理通過原始時間序列圖發現,原始時間序列不滿足平穩性的要求,且存在以12個月為一個周期的季節性波動,[JP2]同時游程檢驗結果顯示,流腮游程數為28,檢驗統計量Z=-7229, P<001,表明其序列不滿足序列平穩性要求,需進行平穩化處理。對原始序列進行1次季節性差分,消除季節的影響。差分后序列的均值在0上下波動(圖2),認為此時序列已消除了季節影響,基本符合ARIMA模型的平穩性的要求。[JP]
222模型的建立與檢驗對差分后的數據序列進行ACF和PACF分析,ACF,PACF函數既不截尾也不拖尾,也不呈線性衰減趨勢,判斷數據序列適合于乘積季節模型(圖3、圖4)。根據差分情況以及序列特征,可初步判斷該時間序列為符合季節模型ARIMA(p,0,q)(P,1,Q)指定“專家建模器”擬合ARIMA模型并自動檢測加法離群值,自動識別模型參數為ARIMA(1,0,0)(1,1,0)12。通過擬合優度統計量比較多個模型間的擬合優劣性,BIC值較小的模型較好。分析發現最優模型為ARIMA(1,0,0)(1,1,0)12。BIC=-1913,殘差LjungBox Q=16028,P=0451,差異無統計學意義,可認為殘差序列為白噪聲。
223預測用ARIMA(1,0,0)(1,1,0)12模型對2005—2016年流腮分月病例數進行回代擬合,結果顯示,ARIMA擬合值與真實值之間基本吻合,均落入95%置信區間內,平均相對誤差為879%。應用該模型預測2017年1—12月上海市流腮月發病數(表1),并繪制實際值與預測值序列圖(圖5),發現實際值與預測值基本吻合,進一步計算可得2017年擬合流腮病例數為2656例。
3討論
時間序列分析是一種重要的現代統計分析方法,[JP2]其模型廣泛地應用于自然領域、社會領域和科學研究。ARIMA模型是最常用的時間序列模型,其建模預測精度較高,可較好地用于疾病發病或死亡的預測預報,特別是針對有季節性變動的時間序列[9]。考慮到季節性和周期性等因素對平穩性的影響,本研究采用了ARIMA模型。此外,由于在總人口數沒有太大波動時,發病人數本身也能反映疾病疫情的發展趨勢。因此,本文直接用發病人數的預測來了解未來流腮的發病情況。[JP]
本研究用上海市2005—2016年共計168個月的流腮發病數據,建立了ARIMA預測模型,經過模型檢驗,表明ARIMA模型能較好地用于流腮發病的預測,模型預測精度較高。對組內資料的擬合結果顯示,發病數擬合值曲線與實際值曲線基本一致,流腮發病數實際值均落入擬合值的95%CI內。2017年上海市流腮發病預測為2656例,較2016年的實際報告值2394例上升了1094%,較2016年預測值上升了107%,預測2017年流腮疫情應比2016年稍高,但變化不大。因此,要繼續落實麻腮或麻腮風疫苗的常規免疫接種工作,不斷監督和落實腮腺炎疫情預防控制措施,以便及時有效地控制疫情。
本研究運用ARIMA模型建立了上海市流腮發病的時間預測模型,并對其預測效果進行了評價,達到了較好的擬合和預測效果,但本研究所用的數據僅包含時間和月發病例數,并未包括其他造成發病變化的因素,如接種率情況、氣候變化情況及疫苗納入免疫規劃情況等等。因此,雖然模型統計量Q值顯示模型擬合較好,但模型解釋仍需謹慎。在實際應用中,由于所建模型是以歷史監測數據序列為依據而建立的,時間序列分析是一種適合短期預測的技術,隨著預測期的延長,會加大誤差,降低預測的精度。因此,在今后的工作中,可以繼續累積新數據,加入流行的周期因素修正模型,進而提高預測精度,能更準確地指導防控工作。
參考文獻
[1]GALAZKA A M,ROBERTSON S E,KRAIGHER A.Mumps and mumps vaccine:a global review[J].Bull World Health Organ,1999,77(1):314.
[2]程玲,黃富禮,鐘利,等.流行性腮腺炎152例流行病學及臨床特點調查分析[J].現代醫藥衛生,2014,30(6):839840,842.
[3]陸瑾,姜銘波,牟文,等.上海市黃浦區1990—2015年流行性腮腺炎流行趨勢分析[J].上海預防醫學,2017,29(5):358361.
[4]李未,常玥,靳妍.臺州市2004—2012年流行性腮腺炎流行病學分析[J].上海預防醫學,2013,25(8):437439.
[5]王春平,王志鋒,單杰,等.隨機時間序列分析法在傳染病預測中的應用[J].中國醫院統計,2006,13(3):229232.
[6]張愛紅,周培,申銅倩,等.乘積季節ARIMA模型在食源性疾病預測中的應用[J].中國衛生統計,2014,31(1):6869,73.
[7]陳偉,陳正利,李少芬,等.ARIMA模型在河南省梅毒月發病率預測中的應用[J].中國衛生統計,2013,30(4):604606.
[8]時照華,蘇虹,秦鳳云,等.ARIMA模型在常見呼吸道傳染病疫情預測中的應用[J].安徽醫科大學學報,2013,48(7):793786.
[9]梁景星.GM(1,1)灰色模型和ARIMA模型在我院季度入院人數預測中的比較分析[J].中國衛生統計,2014,31(1):107109.
(收稿日期:20180205)