河南省疾病預防控制中心信息中心(450016) 陳正利 陳 偉 許汴利
應用ARIMA模型對河南省1991-2011年乙型肝炎發病趨勢分析
河南省疾病預防控制中心信息中心(450016) 陳正利 陳 偉 許汴利
目的 探討應用ARIMA模型對河南省進行乙肝發病趨勢進行預測,為制定防控策略提供科學依據。方法 采用SPSS15.0軟件對河南省1991~2011年乙型肝炎發病率擬合ARIMA模型進行預測,將預測值與實際值進行比較。結果 確定模型為ARIMA(0,1,1),殘差序列為隨機序列,預測值和實際值平均相對誤差為10.04%,預測2012年乙肝發病率為182.1/10萬。結論 ARIMA(0,1,1)模型可以很好擬合乙肝發病趨勢,可為乙肝防治提供科學依據。2012年預測結果提示乙肝發病有上升趨勢,當地可制定相應防控策略。
乙型肝炎 ARIMA 時間序列分析 預測
乙型肝炎(簡稱乙肝)是由乙型肝炎病毒(HBV)感染引起的傳染病,目前已成為影響我國居民健康的重要公共衛生問題〔1-2〕。河南省又是乙肝高發區,多年來法定傳染病報告中乙肝發病均居首位,根據河南省1991-2011年乙型肝炎發病資料探討預測分析方法,為乙肝防治提供科學的依據。
1.資料來源 河南省1991-2011年乙型肝炎疫情數據來自《疾病監測信息報告系統》網絡直報的訂正數據。
2.分析方法 運用SPSS 15.0軟件的ARIMA模型做預測分析。
ARIMA模型(自回歸綜合移動平均模型)是Box-Jenkins方法中常用的時間序列分析模型。ARIMA模型的建模分三步〔3〕:第一步,模型的識別:利用自相關分析和偏自相關分析等方法,判定時間序列的隨機性、平穩性和季節性,并采用差分的方法對數據進行平穩化處理,根據自相關和偏自相關圖的截尾性判定模型的階數。第二步,模型的參數估計:利用時間序列的數據估計模型的參數,并進行檢驗,以判定該模型是否恰當。如不恰當,重新選定模型。第三步,預測分析:用選定的模型對將來某個時期的數值及可信區間做出預測。
1991~2011年河南省乙型肝炎發病率在21.2/10萬~159.4/10萬波動,具有明顯的上升趨勢。見圖1
(1)模型的識別
本研究資料原始時間序列不滿足隨機性、平穩性的要求,對序列采取了一階差分消除趨勢的影響,得到了平穩的時間序列,符合了ARIMA模型的要求。根據自相關圖和偏相關圖分析初步確定模型形式ARIMA(0,1,1),R2=0.95,NormalizedBIC=5.305。一階差分后的自相關圖和偏相關圖見圖2。

圖1 1992~2011年乙肝發病趨勢及擬合預測

圖2
(2)模型的參數估計
參數檢驗結果有統計學意義(P=0.025)。對殘差序列進行白噪聲檢驗,Ljung-Box(18)=14.39(P=0.639),殘差序列的自相關系數均落在95%的可信區間內,說明誤差項是隨機的,可認為殘差序列是白噪聲,說明模型已經充分提取信息,模型是適宜的,可進行預測。見圖3。

圖3 殘差序列自相關和偏自相關圖
(3)預測分析
根據建立的模型對1992-2011年河南省乙型肝炎發病率進行回代,平均絕對誤差百分比為10.04%,結果顯示的動態趨勢和實際情況吻合,模型擬合較好。預測2012年乙型肝炎發病率為182.1/10萬,95%可信區間(156.5,207.6)。擬合及預測結果見圖1。
河南省是乙肝高發區,多年來法定傳染病報告中乙肝發病均居首位,根據近二十年乙肝發病趨勢看,乙肝發病率呈逐年上升趨勢,這與其他省份的研究報道一致〔4-5〕。2004年后較2003年前大幅度上升可能與2004年開始實行了傳染病網絡直報制度有關。乙肝對居民的身體健康造成巨大威脅,給國家和居民個人帶來了沉重的經濟負擔和社會問題,已成為現階段重要的公共衛生問題,對乙肝發病率的預測可以為衛生部門制定防控策略提供科學的依據,具有重要意義。
時間序列分析是根據事物自身變動情況建立動態模型,利用現代數理方法,擬合最優模型,對未來進行統計推斷〔6〕。ARIMA是時間序列預測方法中最復雜、最高級的方法,是由美國威斯康辛大學Box-Jenkins于70年代提出,近年來已被公共衛生學者重視,廣泛應用在醫療公共衛生各個領域中〔7〕。運用數學模型探索疾病發病規律的方法,在傳染病控制方面取得了良好的發展〔8-9〕,目前國內外應用時間序列法對乙肝資料進行分析和預測的研究均有報道〔10-11〕。本文根據乙肝發病情況建立動態模型,通過運用ARIMA(0,1,1)進行模型擬合并外推預測,殘差序列為隨機序列,預測的動態趨勢和實際情況吻合,很好擬合了原始發病序列的趨勢,預測精度較高,模型擬合較好。外推預測2012年乙肝發病率有上升趨勢,結果可用于乙肝發病率趨勢的分析和預測,為近階段制定相應的防治措施提供依據。
本次研究資料來源于傳染病網絡直報系統報告的乙肝病例,疫情報告是否能真實反映乙肝發病情況,還需進一步研究。2010年對乙肝報告進行了規范,明確要求在集體體檢中發現的乙肝只進行紙質登記而不再進行網絡報告,所以2010年乙肝發病率比往年明顯下降,本次預測未考慮疫情報告及質量等因素,所以2010年預測值與真實值誤差較在,這在一定程度對預測結果會有影響。因此研究所建模型并非一成不變,可在一段時間內進行修正,以提高預測的敏感性。
1.王曉軍,張榮珍,胡苑笙,等.我國病毒性肝炎流行現狀研究.疾病監測,2004,19(8):209-292.
2.莊輝.乙型肝炎流行病學研究進展.國外醫學,流行病學傳染病學分,2004,6(3):133.
3.盧紋岱.SPSS for windows統計分析.第2版.北京:電子工業出版社,2002:412-433.
4.張發香,葉建君,鄭莉,等.湖北省乙肝疫情流行病學分析,公共衛生與預防醫學,2008,19(3):10-12.
5.鄭能雄,林云欽,鄭高.1994~2003年福州市乙型肝炎發病趨勢分析,中國公共衛生管理,2005,21(4):311-314.
6.陶莊,金水高.時間序列分析簡明攻略.中國衛生統計,2003,20(3):151-153.
7.章揚熙著.醫學統計預測.第1版.北京:中國科學技術出版社,1995:64.
8.馮超,白杉.時間序列模型擬合艾滋病發病趨勢預測,中國公共衛生,2005,21(7):893.
9.許筱紅,金小林.GM(1,1)數學模型在瘧疾疫情預測中的應用,中國寄生蟲病防治雜志,2005,18(13):178-179.
10.徐元勇,溫亮,李申龍,等.應用隨機時間序列分析法對軍隊乙型肝炎疫情的預測研究.現代預防醫學,2008,35(18):3475-3478.
11.王春平,王志峰,單杰,等.隨機時間序列分析法在傳染病預測中的應用.中國醫院統計,2006,13(3):229-232.
(責任編輯:劉 壯)