中國醫科大學附屬第一醫院腫瘤所二室(110001) 孟凡東 吳 迪 隋承光
2004-2015年中國狂犬病發病數據ARIMA乘積季節模型的建立及預測
中國醫科大學附屬第一醫院腫瘤所二室(110001) 孟凡東 吳 迪 隋承光
目的了解我國大陸地區2004-2015年狂犬病的發病情況,建立狂犬病發病的時間序列模型,利用模型進行短期預測,為狂犬病的預防和控制提供參考。方法通過查閱2004-2015年每月的《中華人民共和國衛生和計劃生育委員會公報》,獲得狂犬病發病的月統計數據,利用2004-2014年的數據建立ARIMA乘積季節模型,并利用建立的模型預測2015年數據,與實際發病數據比較。結果中國2004-2015年總計報告狂犬病25561例,年平均發病率為0.1592/10萬,總計報告死亡病例22196例,年平均死亡率為0.1383/10萬,2004年-2007年,狂犬病的發病人數和死亡人數逐年上升,2008年至2015年,持續下降。狂犬病具有一定的季節趨勢,其中夏秋季節報告發病人數較多,而冬春季節發病人數較少。根據2004-2014年發病資料建立的最優時間序列模型為ARIMA(0,1,1)(0,1,1)12,模型預測2015年發病人數為764,相對誤差7.73%。結論我國大陸地區狂犬病發病在2007年達到峰值之后,之后年發病率持續降低。ARIMA乘積季節模型能很好地擬合狂犬病發病的長期趨勢和季節趨勢,回代擬合和短期預測效果較理想。
時間序列 ARIMA乘積季節模型 狂犬病
狂犬病在世界范圍內廣泛存在,每年大約55000人死于狂犬病,其中95%的死亡病例發生在亞洲和非洲[1]。印度的狂犬病流行最為嚴重,中國緊隨其后,列第二位[2]。在20世紀80年代前,中國每年有數千例患者感染狂犬病,嚴重威脅人們的生命健康。20世紀90年代,狂犬病的發病人數和死亡人數明顯降低,1996年全年僅報告159例狂犬病感染病例[3-4]。隨后,發病例數開始快速增加,2003年全國報告病例數超過2000例。
狂犬病由狂犬病病毒感染所致,可影響任何動物的中樞神經系統,但只在哺乳動物間傳播流行[5]。感染者一旦發展到臨床癥狀的出現,狂犬病幾乎100%致死。因此,狂犬病的預防和控制非常關鍵。我國狂犬病病毒的攜帶者主要是家庭豢養的犬,并通過咬傷傳染給人類[6]。在中國,隨著經濟的快速發展和家庭結構的改變,家養寵物狗的數量急劇上升,導致中國正面臨狂犬病的爆發流行[7]。
本研究對2004-2015年中國狂犬病的發病進行描述性分析,并利用2004-2014年的逐月發病數據建立季節性時間序列模型,對2015年的發病情況進行預測。
狂犬病的月發病數據來自歷年每月的《國家衛生和計劃生育委員會公報》[8],人口數據來自《中國衛生統計摘要》[9]。
求和自回歸移動平均(autoregressive integrated moving average,ARIMA)[10]模型是時間序列分析方法中重要而基本的模型之一,它用特定的數學模型描述與時間相關的一組隨機變量之間所具有的自相關性,以掌握預測對象的發展趨勢,并根據已獲得的時序資料對其未來進行短期預測。ARIMA乘積季節模型,即 ARIMA(p,d,q)(P,D,Q)S模型,是隨機季節模型(stochastic seasonal model)與 ARIMA模型的結合,用于分析擬合不僅含有季節性成分,還混有非季節性成分的時間序列資料。其中p、q、d分別為模型非季節部分的自回歸平均階數、移動平均階數、差分次數,P、Q、D分別為季節性自回歸平均階數、移動平均階數、季節性差分次數,s為一個季節周期中觀測值的個數。
ARIMA(p,d,q)(P,D,Q)S模型建模分析過程具體分3個階段進行[11]:(1)模型參數的確定,利用自相關和偏自相關分析時間序列原始數據的隨機性、平穩性和季節性,初步確定模型參數p、d、q及P、D、Q、s的取值;(2)模型參數的檢驗,首先采用Box-Ljung檢驗模型的白噪聲,以判斷模型的擬合優度,若有兩個或兩個以上的模型通過了Box-Ljung檢驗,則根據Akaike′s information Criterion(AIC),Schwarz′s Bayesian Criterion(BIC)選擇最適合的模型參數;(3)預測應用,通過對比模型預測值與實際值的差值,評價模型預測的準確性。預測的相對誤差按下式計算:

本研究中 ARIMA(p,d,q)(P,D,Q)S模型的建立、參數檢驗、預測均借助SPSS 13.0軟件完成[12]。
中國2004-2015年總計報告狂犬病25561例,年平均發病率為0.1592/10萬,總計報告死亡病例22196例,年平均死亡率為0.1383/10萬,各年情況見表1。2004-2007年,狂犬病的發病人數和死亡人數逐年上升,2008年至2015年,持續下降。

表1 2004-2015年中國狂犬病發病及死亡數據統計
從狂犬病的逐月發病人數看(表2),具有一定的季節趨勢,其中夏秋季節發病人數較多,而冬春季節發病人數較少,歷年季節趨勢基本一致,見圖1。

表2 2004-2015年按月統計中國狂犬病發病及死亡數
以2004-2014年全國狂犬病報告發病數據構建ARIMA乘積季節模型。從圖1狂犬病發病數據的原始序列圖可見,狂犬病的發病數以年為周期的變化較明顯。2004-2007年,發病數逐年上升,2008-2014年發病數逐年減少。為獲得平穩的序列,先對原始數據進行自然對數轉換,再分別進行一階普通差分和一階季節性差分,獲得的序列見圖2。對數轉換和差分后序列的長期趨勢和季節性趨勢基本消失,數值圍繞0上下隨機波動,可進一步進行ARIMA模型建模分析。初步判斷模型是以1年(12個月)為周期的季節乘積 ARIMA模型:ARIMA(p,1,q)(P,1,Q)12,待定參數p,q為連續模型部分的自回歸階數和移動平均階數,P,Q為季節模型部分的自回歸階數和移動平均階數。對于四個待定參數p,q,P,Q的確定,通常采用從低階到高階逐個嘗試,通過比較各個模型的擬合優度確定。一般情況下,超過2階的情況很少見。因此,本研究在確定d=1,D=1后,分別測試了在d=1,D=1的情況下,p,q,P,Q分別取 0,1,2的所有模型,共測試81個模型,綜合考慮模型的殘差白噪聲檢驗(Box-Ljung test)結果,模型參數的檢驗結果,模型的AIC、BIC等,得到的最優模型為 ARIMA(0,1,1)(0,1,1)12。模型的參數估計結果見表3。模型殘差的Box-Ljung檢驗P>0.05。

圖2 2004-2014年狂犬病發病數經對數轉換和一階普通差分、一階季節差分后的序列圖

表3 最優模型 ARIMA(0,1,1)(0,1,1)12參數估計結果
(1)回代擬合 通過獲得的最優模型ARIMA(0,1,1)(0,1,1)12對2004-2014年的發病數進行回代擬合,結果如圖3所示,擬合值和實際值基本吻合,119對數據的平均擬合誤差為11.21%。

圖3 模型 ARIMA(0,1,1)(0,1,1)12回代擬合比較
(2)預測利用建立的模型對中國2015年狂犬病的發病數進行預測,結果見表4。預測結果12個月的平均相對誤差為14.19%,按全年發病例數計,相對誤差為7.73%。

表4 模型 ARIMA(0,1,1)(0,1,1)12預測2015年狂犬病發病結果
迄今為止,狂犬病的病死率幾近100%,是人類病死率最高的急性傳染病,而我國又是全球狂犬病流行最嚴重的國家之一,年報告發病數僅次于印度[13]。因此,狂犬病的疫情監測和預防控制,仍是我國傳染病防制工作的重中之重。本研究應用ARIMA乘積季節模型分析了中國狂犬病2004-2015年的發病情況,原始數據來自國家衛生行政部分的疫情公報。目的在于找出近年狂犬病的流行特點,并對今后短期的流行做出預測。影響狂犬病流行的因素很多,預測模型往往很難將所有的影響因素納入。在時間序列分析中,認為其他影響因素均包含在時間因子中,將時間因素作為一個綜合影響因子進行模型的擬合與預測[14]。
利用2004-2014年中國狂犬病發病數資料,構建ARIMA乘積季節模型,最終選擇 ARIMA(0,1,1)(0,1,1)12模型。該模型殘差的白噪聲檢驗、模型參數檢驗、擬合優度檢驗均有統計學意義,模型的回代擬合效果和預測效果均可接受。由于時間序列預測法所需要的只是序列本身的歷史數據,因此,這一類方法在資料收集上的成本很低,有著寬廣的應用前景。但與一般時間序列模型相比,ARIMA乘積季節模型需要更多的歷史數據,模型確定中的難點是尋找對序列進行平穩性處理的方法,以提高預測模型的精度[15]。
對暴露人群進行預防處置(postexposure prophylaxis,PEP)和疫情監測是控制狂犬病的主要措施[15]。PEP主要包括暴露后及時規范地進行傷口處理、疫苗接種與抗狂犬病血清或人狂犬病免疫球蛋白注射。這些措施的實施通常受社會經濟條件的影響,盡管中國的社會經濟不斷發展,在中國,特別是廣大農村地區,被犬類的動物咬傷后接受PEP處理的比例仍相對較低。一項調查顯示,2003-2004年,廣東省被犬類等咬傷的居民中32.8%進行了暴露后預防處理,其中只有37.5%的人是到當地醫院或疾病預防控制機構進行正確的傷口處理和預防。降低狂犬病疫苗的接種價格,提高人們對狂犬病的認知,是提升PEP比例、預防和控制人感染狂犬病的關鍵。
[1]Knobel DL,Cleaveland S,Coleman PG,et al.Re-evaluating the burden of rabies in Africa and Asia.Bull World Health Organ,2005,83:360-368.
[2]郭綬衡,唐青,李浩,等.中國31省1991-2005年狂犬病流行情況比較分析.中華流行病學雜志,2007,28(4):374-376.
[3]唐青,趙秀芹,陶曉霞.中國人間狂犬病流行近況分析.中華流行病學雜志,2001,22(1):8-10.
[4]Zhang YZ,Xiong CL,Xiao DL,et al.Human Rabies in China.Emerg Infect Dis,2005,11:1983-1984.
[5]Bourhy H,Dautry-Varsat A,Hotez PJ,et al.Rabies,Still Neglected after 125 Years of Vaccination.PLoSNegl Trop Dis,2010,4:e839.
[6]Song M,Tang Q,Wang DM,et al.Epidemiological investigations of human rabies in China.BMC Infect Dis,2009,9:210-219.
[7]Wu XF,Hu RL,Zhang YZ,et al.Reemerging Rabies and Lack of System ic Surveillance in People′s Republic of China.Emerg Infect Dis,2009,15:1159-1164.
[8]衛生部.2004-2015中華人民共和國衛生部公報.http://www.moh.gov.cn/publicfiles/business/htmlfiles/mohbgt/pggtg/index.htm.
[9]國家衛生計生委.2014年中國衛生統計提要.http://www.moh.gov.cn/publicfiles//business/htmlfiles/zwgkzt/ptjty/digest2010/index.html.
[10]Box GEP,Jenkins GM.Time Series Analysis:Forecasting and Control.2nd ed.San Francisco:Holden-Day,1976.
[11]郭海強,丁海龍,曲波,等.應用ARIMA模型對全國2004-2009年腎綜合征出血熱疫情分析及預測.中國人獸共患病學報,2010,26(12):1137-1140.
[12]宇傳華.SPSS與統計分析.第2版.北京:電子工業出版社,2014,645-679.
[13]李放湘.我國狂犬病流行與防制近況.醫學動物防制,2012,28(4):394-396.
[14]徐國祥.胡清友.統計預測和決策.上海:上海財經大學出版社,1998:150-275.
[15]衛生部,衛疾控發.狂犬病暴露預防處置工作規范(2009年版).(2009-12-17).http://www.moh.gov.cn/publicfiles/business/htmlfiles/mohbgt/s10695/200912/45090.htm.
Human Rabies Incidence in China:Trends and Predictions from a Time Series Analysis from 2004 Through 2015
Meng Fandong,Wu Di,Sui Chengguang.(The first hospital of China Medical University 110001,Shenyang)
Objectivewith an increasing population of dogs and low vaccination coverage,rabies is remerging and becoming a serious public health problem in China.Control and prevention of rabies requires know ledge of recent and future incidence trends.MethodsMonthly information on the incidence of human rabies from January 2004 through December 2015 was collected from the Gazette of the Ministry of Health of the People′s Republic of China.Autoregressive integrated moving average(ARIMA)multiple seasonal models were established to fit and predict rabies incidence using these data.The dataset was divided into two parts:data reported from January 2004 to December 2014,which were used to develop the time series model,and data from 2015,which were used to validate the established model.ResultsHuman rabies remains a serious infectious disease in China.During the 12 years that this study investigated,25561 rabies cases were reported in China.The annual average number of cases was 2 130 and the incidence was 0.1592/105people.The seasonal ARIMA(0,1,1)(0,1,1)12model was the best to fit the data from the year 2004 to 2014.Using this model,we predicted 764 rabies cases in all of China in 2015.The actual number of reported cases was higher than the prediction for all of 2015(828 vs.764),for a relative predictive error of7.73%,which was statistically acceptable.Conclusionthe number of rabies cases reported reached its peak in the year of 2007,then it has been show ing a downward trend since then.The seasonal ARIMA(0,1,1)(0,1,1)12model was significant,with an acceptable estimative and predictive accuracy.The time series model can be used to analyze and predict rabies cases in China,and w ill help frame strategies to control and prevent the disease.
Time series;The seasonal ARIMA;Human rabies
(責任編輯:郭海強)