海南省疾病預防控制中心(570203) 陳 莉
細菌性痢疾是海南省高發傳染病之一,其發病率一直居海南省法定甲乙類傳染病前6位,是影響我省公眾健康的主要傳染病。近年來針對傳染病流行規律以及預測方法的研究逐漸成為疾病防控工作中的熱點〔1〕,本文利用海南省細菌性痢疾發病資料,采用時間序列分析法中自回歸滑動平均混合模型法(auto regressive integrated moving average,ARIMA)建立預測模型,探討細菌性痢疾發病趨勢的預測方法,為我省的細菌性痢疾防制工作提供科學依據。
1.資料來源
資料來源于國家法定傳染病監測報告系統。醫療機構中首診醫生經過培訓,按照傳染病報告管理規范,在系統中對病例進行實時報告,可以保證數據的準確性、完整性和可靠性。
2.建立模型基本原理與方法
時間序列分析基本原理是將預測對象隨時間推移而形成的數據序列視為一個隨機序列,即除去個別偶然的原因引起的觀測值外,時間序列是一組依賴于時間t的隨機變量,這組隨機變量所具有的依存關系或自相關性表征了預測對象發展的延續性,而這種自相關性一旦被相應的數學模型描述出來,就可以從時間序列的過去值及現在值預測未來值〔2,3〕。本文使用的自回歸滑動平均混合模型法簡記為ARIMA(p,d,p)模型。運用SPSS11.5軟件進行統計預測分析。
1.序列平穩化檢驗
繪制2000年1月~2009年12月海南省細菌性痢疾發病率的時間序列圖,時間單位定義為年月型,起始點為2000年1月。時序圖顯示2000~2009年各月細菌性痢疾發病率始終圍繞在1.25/10萬附近隨機波動,沒有明顯的趨勢和季節性分布特征(圖1)。為穩妥起見,我們再利用時間序列自相關圖進一步輔助識別,自相關圖顯示,周期性的余弦衰減,即具有“偽周期”性質,這些都是平穩序列常見的特征〔4,5〕。經分析,原始數據可視為平穩序列,因此無需變換和差分處理(圖2)。

圖1 海南省2000~2009年細菌性痢疾各月發病率時序圖
2.模型識別
自相關圖顯示超過5%的樣本自相關系數落入了2倍標準差范圍之外,且序列由顯著非零的相關系數衰減為小值波動過程比較慢或者非常連續,可視為不截尾。偏自相關圖顯示,除了延遲1階的偏自相關系數大于2倍標準差之外,其他的偏自相關系數都在2倍標準差范圍內做小值隨機波動,而且由非零相關系數衰減為小值波動的過程非常突然,所以該偏自相關系數可視為1階截尾〔4,5〕。綜合該序列自相關系數和偏自相關系數的性質,初步選定 ARIMA(1,0,0)、ARIMA(0,0,1)、ARIMA(1,0,1)3 個模型進行擬合預測。見圖2、圖3

圖2 海南省2000~2009年細菌性痢疾各月發病率序列自相關圖
3.參數估計與檢驗
根據備選模型進行參數估計與檢驗,結果顯示模型 ARIMA(1,0,0)和 ARIMA(0,0,1)參數均有統計學意義,ARIMA(1,0,1)模型中MA1參數無統計學意義,見表1。

圖3 海南省2000~2009年細菌性痢疾各月發病率序列偏自相關圖
4.模型檢驗
經過參數檢驗,ARIMA(1,0,1)模型被剔除,殘差序列白噪聲檢驗顯示,模型ARIMA(1,0,0)的LB檢驗統計量差異無統計學意義(P>0.05),可認為殘差序列為白噪聲,而ARIMA(0,0,1)模型LB檢驗統計量差異有統計學意義(P<0.05),表明殘差序列為非白噪聲。

表1 備選ARIMA模型參數估計結果
5.模型優化
通過對3個模型的AIC和BIC值進行比較,結果顯示ARIMA(1,0,0)模型的AIC、BIC 值為最小,表明該模型是最適合本次研究,是該序列的有效最優擬合模型,見表2。
6.預測應用
根據所建模型對2000年1月至2009年12月的細菌性痢疾發病率進行回代預測(組內回代),以及對2010年1~9月發病率進行組外回代預測,結果顯示,細菌性痢疾月發病率預測數據與實際數據基本吻合,趨勢基本相同,且均落入95%可信區間范圍中。見圖4

表2 備選ARIMA模型擬合優化結果比較

圖4 海南省2000年1月~2010年9月細菌性痢疾各月發病率序列預測圖
7.預測結果驗證評價
時間序列分析主要目的在于對未來值進行預測以評估其發展趨勢,本研究對2010年1~9月細菌性痢疾發病率進行短期預測,預測結果為預測值與實際值之間平均絕對誤差為0.07,平均相對誤差為9.61%。見表3。

表3 2010年海南省細菌性痢疾發病率預測評價結果
1.ARIMA預測模型基于原始時間數據序列,利用任何事物發展均具有一定慣性趨勢的原理,建立時間序列模型,達到預測的目的。該方法將各種影響疾病發生發展錯綜復雜因素的綜合效應統一蘊含于時間變量之中,綜合考慮了序列的趨勢變化、周期變化和隨機干擾并借助模型參數進行量化表達,而且可以通過反復識別修改獲得滿意的模型〔6〕。ARIMA預測模型既吸收了回歸分析的優點又發揮了移動平均的長處,具有適用范圍廣,實用性強、預測誤差小的特點,是一種預測精確度較高的短期預測方法。近年來,該方法已廣泛應用于醫學領域各方面,特別是傳染病的發病或死亡的預測預報工作〔6-9,11〕。
2.本文利用2000~2009年海南省細菌性痢疾發病資料,通過識別、估計、診斷等過程擬合建立了ARIMA(1,0,0)預測模型,結果顯示,細菌性痢疾各月發病率實際值均落入預測值的可信區間范圍,預測值的動態趨勢與實際情況基本一致吻合,2010年1~9月驗證數據顯示,平均絕對誤差較小,平均相對誤差小于10%〔7〕,表明利用ARIMA模型預測海南省細菌性痢疾發病趨勢的可行性。另一方面也顯示了預測的實用性和應用價值,根據發病率既往的變化規律(線性趨勢、季節性、周期性等),如果實際發病率在預測值95%可信區間范圍內波動,表明當月疫情基本正常,如果超出預測值95%可信限范圍,應提示并警惕傳染病的暴發或流行的可能,可以為傳染病預警預報及干預提供依據〔8〕。
3.本研究證實了ARIMA模型法能夠較好地用于細菌性痢疾發病的預測,該模型在其他傳染病發病預測中的應用也值得進一步探討。由于不同病種,不同地區、不同時間段傳染病發生發展的流行規律不同,構建的模型也不盡相同,單次分析建立的ARIMA模型,不能作為永久不變的預測工具,只能用于短期預測。因為任何一個預測模型都有其使用時限,因此將ARIMA模型法應用到其他地區或病種預測時,應該考慮隨著事件不斷發展變化,及時利用新的數據對其修訂〔9〕,才能適應使用需要,從而達到較好預測效果。
4.使用ARIMA模型法進行預測,應當注意,如果研究對象慣性趨勢發生很大改變,如采取了干預措施(預防接種、加強環境治理)以及出現新發傳染病等,很大程度上改變了以往的流行規律,此時應當結合實際情況全面考慮謹慎使用預測結果,并且需要累積新的數據對模型進行修正,或重新擬合〔9-11〕,方可達到有效預測。
1.鄧甦,李曉毅.馬爾科夫鏈在呼吸道傳染病預測中的應用.中國衛生統計,2010,27(6):615-616.
2.孫振球.醫學統計學.北京:人民衛生出版社,2002:358-371.
3.Jack P.Interacrive Comparision of Forecasting Method.Time Series A-nalysis,1984:444-459.
4.王燕.應用時間序列分析.北京:中國人民大學出版社,2005:16-90.
5.張文彤.SPSS11統計分析教程(高級篇).北京:北京希望電子出版社,2002:250-285.
6.史繼先,張文增,冀國強,等.ARIMA模型在流感樣病例預測預警中的應用.首都公共衛生,2010,4(1):15-16.
7.彭志行,鮑昌俊,趙揚,等.ARIMA乘積季節模型及其在傳染病發病預測中的應用.數理統計與管理,2008,27(2):365-367.
8.吳家兵,葉臨湘,尤爾科.ARIMA模型在傳染病發病率預測中的應用.數理醫藥學雜志,2007,20(1):92.
9.李娜,殷菲,李曉松.時間序列分析在結核病預測應用中的初步探討.現代預防醫學,2010,37(8):1428.
10.趙亮,吳艷喬,彭丹,等.運用ARIMA模型對我國人均衛生費用的預測.現代預防醫學,2010,37(3):412.
11.牟瑾,謝旭,李媛,等.將ARIMA模型應用于深圳市1980-2007年重點法定傳染病預測分析.預防醫學論壇,2009,15(11):1052-1053.