馬曉晨 牛彥麟 吳陽博 王超 王同瑜 馬蕊
食源性疾病是全球重點關注的公共衛生問題,造成嚴重的疾病負擔。食物中毒是常見的食源性疾病,影響我國食品安全的主要問題,對其發病趨勢進行早期預警、預測,為食物中毒控制工作提供參考依據,從而最大程度降低決策的盲目性。食物中毒的發生具有長期趨勢、季節性、短期波動和不規則變動等特點。時間序列分析是運用歷史的觀點,根據系統有限長度的動態數據,分析序列的基本趨勢、擬合理論模型并用于預測序列的未來發展趨勢[1]。ARIMA模型是復合的季節模型,適合一些有季節變化的時間序列。現通過運用ARIMA模型對2004-2016年北京市13年食物中毒數據進行時間序列分析并建立預測模型,探討通過ARIMA模型進行食物中毒發病情況預測的可行性,為預防和控制食源性疾病提供依據。
1.1資料來源 2004-2010年食物中毒發病人數數據來源于北京市衛生監督所歷年食物中毒報表,2011-2016年食物中毒發病人數來源于北京市食源性疾病暴發監測系統。
1.2食物中毒的判定標準 食物中毒所有事件均經過流行病學調查,食物中毒的確定符合GB14938-94《食物中毒診斷標準及技術處理總則》的技術要求。
1.3研究方法 ARIMA預測模型,ARIMA(p,d,q)(P,D,Q)s,其中p和q為自回歸和移動平均階數,d為差分次數,P和Q為季節性自回歸和移動平均階數,D為季節性差分次數,s為季節周期。ARIMA模型建模的4個基本步驟:(1)序列平穩化。要求原始序列平穩,均數和方差不隨時間變化;(2)模型識別。根據時序圖和自相關圖(ACF)和偏自相關圖(PACF),分析時間序列的隨機性、平穩性和季節性,選擇一個模型來擬合數據;(3)參數估計和模型診斷。通過擬合優度檢驗得到統計量對數似然函數、貝葉斯信息準則(BIC)等并進行假設檢驗,要求殘差為白噪聲;(4)模型預測。以2004-2015年各季度食物中毒發病人數擬合模型,利用2016年各季度發病人數和事件數檢驗模型預測效果,根據預測值得到95%置信區間,計算預測值與實際值的相對誤差,以判斷模型的預測精度,并進一步預測2017年食物中毒發病人數。
1.4統計學方法 采用SPSS 20.0建立2004-2016年各季度食物中毒發病人數數據庫,并利用時間序列分析模塊進行數據處理與分析。
2.1序列平穩化 將北京市2004-2015年食物中毒的發病人數分別繪制序列圖(圖1)。由圖1可知,北京市食物中毒發病人數呈明顯的非平穩性和周期性。食物中毒發病人數呈明顯的季節波動,第3季度出現中毒高峰,第1季度表現為低谷期。對食物中毒發病人數經自然對數轉換、一次季節性差分后,基本消除了趨勢性和季節性的影響,滿足時間序列分析對于平穩性的要求(圖2)。

注:Q1為第1季度,Q3為第3季度。圖1 北京市2004-2015年食物中毒季度發病人數時間序列圖

注:Q1為第1季度,Q3為第3季度。圖2 經過自然對數和一階季節差分后的食物中毒季度發病人數時間序列圖
2.2模型的識別 經自然對數和一階季節差分后可得到較為平穩序列,可初步估計食物中毒人數滿足ARIMA(p,0,q)×(P,1,Q)4模型,4表示以4個季度為周期。根據ACF(圖3)與PACF(圖4)表明可初步選擇p=1,q=0,ARIMA(1,0,0)×(P,1,Q)4。

圖3 經自然對數轉換、一階季節差分后的偏自相關圖

圖4 經自然對數轉換、一階季節差分后的偏自相關圖
2.3參數估計與模型診斷 對模型進行參數估計,SPSS 20.0自動對模型進行選擇,食物中毒發病人數的模型為ARIMA(1,0,0)×(1,1,0)4為最優模型;通過運算標準BIC為9.263,調整R2為0.533,經檢驗模型參數經統計學檢驗得到P<0.05,具有統計學意義。殘差的ACF圖和PACF圖(圖5)顯示殘差的ACF和PACF均在置信區間內,且殘差序列Ljung-Box檢驗統計量Q=17.03,P=0.383,差異無統計學意義,說明殘差序列為白噪聲,建立的模型恰當。

圖5 模型ARIMA(1,0,0)×(1,1,0)4殘差序列的ACF、PACF圖
2.4模型預測 利用所建立的ARIMA(1,0,0)×(1,1,0)4模型,對2004-2015年北京市食物中毒發生人數進行擬合,對2016年北京市食物中毒發生人數進行預測,通過預測值與實際值的比較來驗證模型,同時對2017年北京市食物中毒生人數進行預測。結果顯示擬合值和實際值相比,雖然存在一定的差異性,但實際值均在擬合值的95%CI范圍內(圖6)。如表1所示,2016年的食物中毒人數預測值與實際值比較,得到平均相對誤差率為6%。預測2017年北京市食物中毒的發生人數為264人(表2)。

表1 2016年北京市食物中毒發生人數實際值與

注:Q1為第1季度,Q3為第3季度。圖6 北京市食源性疾病發生人數模型擬合序列圖

季度預測值置信區間(下限)置信區間(上限)1250229298030438802944530259合計264——
3.1目前用于疾病預測的模型很多,如多元回歸分析、指數平滑分析等。與其他疾病相比,食物中毒影響因素較多,很難采用多元回歸等模型對其進行預測。而時間序列模型能夠充分利用一系列按時間順序記錄的數據,發現事物隨時間變化的規律。ARIMA模型過程簡便、短期預測精度較高,是目前應用較多的時間序列預測方法之一[2-6]。
3.2本研究選擇了2004-2015年季度發病人數共48個數據建模,經過模型篩選,最終確立了ARIMA(1,0,0)×(1,1,0)4模型,并對2017年的發病情況進行了預測。結果表明模型可較好的擬合北京市食物中毒季度發病人數的變化規律,特別是在2010年以后預測的擬合值與實際值的走向基本一致,顯示出較好的預測精度,各季度發病人數實際值都落入預測值的95%置信區間,說明運用ARIMA模型預測北京市食物中毒發病人數的變化趨勢是可行的。不同研究在運用ARIMA模型對本地區數據進行擬合時,模型的預測誤差不同,張愛紅等[5]的研究擬合平均相對誤差為2.70%,陳玲等[6]的研究為9.59%。本研究的中ARIMA模型預測誤差為6.00%,可能與以下因素有關:一是用于建立模型的數據還不夠多,二是某些年的食物中毒的發生受一些突發事件的影響。
綜上所述, 可以運用ARIMA模型方法對北京市食物中毒發病人數進行預測,但值得注意的是食物中毒的發病人數受外界環境多種因素影響,要對其發生趨勢進行更為準確的預測,還需要在模型中納入其它影響因素。此外,單次分析建立的預測模型,只能用于短期預測。在實際工作中,應收集足夠的時間序列數據,用新的實際值對已建立模型進行修正和重新擬合預測值,為科學制定食物中毒預防控制措施提供依據。
參考文獻
[1] 孫振球,徐勇勇.醫學統計學[M].北京:人民衛生出版社,2002:351-372.
[2] 胡躍華,廖家強,馮國雙,等.ARIMA模型在全國丙型肝炎疫情預測中的應用[J].中國預防醫學雜志,2015,16(4):262-266.
[3] 朱平,侯曉艷,馬平,等.南通市流感樣病例時間序列分析及發病趨勢的預測研究[J].現代預防醫學, 2015,42(1):160-162.
[4] 高強,蘇琦,范剛.ARIMA模型在2004-2014年淮安市其他感染性腹瀉流行病學特征及發病趨勢預測中的應用[J].中國預防醫學雜志, 2016,17(14):1953-1956.
[5] 張愛紅,周培,申銅倩,等.乘積季節ARIMA模型在食源性疾病預測中的應用[J].中國衛生統計,2014,31(1):68-69.
[6] 陳玲,徐慧蘭.自回歸求和移動平均模型在湖南省食物中毒預測中的應用[J].中南大學學報(醫學版),2012,37(2):142-146.