鐘球 蔣莉 周琳 李建偉 陳瑜暉 連永娥
(廣東省結核病防治研究所 廣州 510630)
廣東省結核病發病趨勢的時間序列分析
鐘球 蔣莉 周琳 李建偉 陳瑜暉 連永娥
(廣東省結核病防治研究所 廣州 510630)
目的利用乘積季節模型預測廣東省結核病的發病趨勢,為制訂結核病的防控措施提供科學的依據>。方法利用最小二乘法原理,應用自回歸求和移動平均模型與隨機季節模型相結合的乘積季節模型,對廣東省結核病發病趨勢進行預測>。結果利用1996年至2008年資料構建ARIMA(0,1,1)(0,1,1)4模型,所建立的模型的預測效果良好,實際值均在預測值的95%可信區間內>。結論采用ARIMA乘積季節模型預測廣東省結核病發病情況,擬合及預測效果較好,預測結果符合全省發病現狀及當前采取的防控措施。
結核,肺/預防和控制;結核,肺/流行病學;發病率;時間;廣東省
我國是全球22個結核病高負擔國家之一,每年新發結核病人估算數居第2位。由于我國結核病疫情嚴重、流行廣泛,使得國內疫情下降速度緩慢。特別是近年來,由于城市和農村的環境發生了巨大的變化,流動人口的增加、TB/HIV雙重感染和耐藥病人的出現,使結核病發病和流行模式變得十分復雜,如果能對結核病的發病進行準確的預測,將對結核病防治工作起到極大的推動作用[1]。因此,本文嘗試利用美國學者Box和英國Jenkins提出的自回歸求和移動平均模型(autoregressive integrated moving average,ARIMA)與隨機季節模型(stochastic seasonal model)相結合的乘積季節模型(product seasonal model)建立結核病發病預測模型,對結核病報告發病率進行分析、預測,為結核病控制提供科學依據。本研究利用擬合的數學預測模型,對2010年及2011年的結核病報告發病率進行外部預測,以探討該模型在該領域應用的價值。
1.1 資料來源 用于預測的結核病登記發病率資料,來源于廣東省1996年至2009年每季度登記的新涂陽肺結核患者人數及廣東省統計年鑒1996年至2009年全省人口數。
1.2 研究方法 采用SPSS13.0錄入人口及每季度新涂陽肺結核患者登記情況資料,根據1996年至2008年每季度的報告報告發病率建立ARIMA乘積季節模型,用2009年的數據評價模型的預測效果,對2010—2011年的疫情進行外部預測和分析。
1.3 時間序列模型的建立 為選擇1個最優的預測模型,完整的ARIMA過程包括[2]:①序列平穩化:ARIMA的應用需要時間序列符合平穩性的要求;②模型的識別:主要是根據ACF圖和PACF圖的特征,提出幾種可能的模型作進一步分析;③模型參數估計和模型診斷:對提出的模型進行參數估計和診斷,如模型不恰當,則回到第二階段,重新選定模型;④預測應用:1996年~2008年的數據用于建立模型,2009年的數據用于驗證模型的預測效果。
2.1 結核病發病的趨勢分析 對1996年至2009年各季度的新涂陽肺結核登記發病率繪制時間序列分布圖(圖1)。由圖1可以看出,新涂陽肺結核登記發病率呈現明顯的季節變動規律,且年內呈現波動現象,基本規律為每年1、4季度登記發病率較低,
2、3季度登記發病率高。
2.2 模型的建立
2.2.1 序列的平穩化 在對原始數據進行取自然對數和 1階差分轉換后,做序列自相關圖,發現ACF序列在4、8、12、16處都有一個局部極大值,說明存在周期為4的季節性周期,再進行一次季節性差分消除季節因素的影響后,原始資料由明顯震蕩特征的非平穩序列,轉化為近似平穩的時間序列,符合ARIMA模型的平穩性要求。
2.2.2 模型的識別 根據差分變換的次數,可以確定模型形式為:ARIMA(p,1,q)(P,1,Q)4,其中p,q和P,Q是待定的參數,分別表示連續模型和季節模型中的自回歸階數和移動平均階數。4表示季節模型以4個季度為周期。由于差分后自相關系數在P>1后驟減,偏自相關系數遞減但拖尾,根據以上特征初步判斷連續模型為ARIMA(0,1,1)或ARIMA(0,1,2)[3]。季節模型的參數P、Q判斷較為困難,但根據文獻,參數超過 2階的情況很少見[4-5],可以分別取0、1、2由低階到高階逐個試驗,根據模型的擬合優度、殘差情況以及系數間的相關性進行綜合判斷,直至得到最佳模型。

圖1 1996—2009年新涂陽肺結核季度報告發病率時間序列分布情況

表1 備選模型的參數估計

表2 2009年各季度新涂陽肺結核報告發病率實際值與預測值比較
2.2.3 參數估計與模型檢驗 (1)參數估計:采用非條件最小二乘法進行參數估計,最大迭代次數為10。各備選模型參數顯示只有ARIMA(0,1,1)(0,1,1)4模型除常數項外,其他參數均P<0.05,有統計學意義。根據簡潔性原則,將常數項去除,各備選模型結果見表1,仍只有ARIMA(0,1,1)(0,1,1)4模型所有參數具有統計學意義(P<0.01)。(2)模型擬合優度檢驗。根據擬合優度結果中AIC和SBC準則,選取兩個值均較小的模型為優,結果也顯示ARIMA(0,1,1)(0,1,1)4模型的擬合優度較好。AIC值=20.58,SBC值=25.21,SE=0.04,Log-likelihood=3.65。(3)模型殘差檢驗。若殘差為白噪聲,則意味著所建立的模型已包含了原始序列的所有趨勢,從而模型應用于預測是合適的;若殘差不是白噪聲,說明模型有必要進行改進。對殘差序列作自相關和偏相關圖(圖2和圖3),自相關和偏相關函數基本沒有突破可信區間,可見殘差是隨機分布的;同時,結果顯示ARIMA(0,1,1)(0,1,1)4模型的Box-Ljung統計量均無統計學意義(Box-Ljung最小值=2.253,P=0.133),可以認為殘差序列是白噪聲,說明所選模型是恰當的。模型數學表達式為:(1-B)(1-B4)Zt=(1-0.379B)(1-0.652B4)α t,其中Z為季度報告報告發病率的自然對數,B為后移算子,α t為隨機干擾。
2.2.4 預測值與實際值比較。采用ARIMA(0,1,1)(0,1,1)4模型,擬合1996年至2008年各季度新涂陽肺結核登記發病率,并對我省2009年新涂陽肺結核的各季度登記發病率進行預測,擬合及預測結果見圖1,比較實際值與擬合值和預測值可見模型擬合和預測效果良好,2009年各季度新涂陽肺結核登記發病率的預測值與實際值(表2),相對誤差都在10%以下。


表3 2010—2011年各季度新涂陽肺結核登記報告發病率預測結果
2.2.5 對2010—2011年各季度新涂陽肺結核登記發病率的預測 以1996至2009年各季度新涂陽登記發病率建立模型,對2010—2011年各季度報告登記發病率預測結果(表3)。
眾所周知,由于結核病監測受到多種新的因素和干預措施的影響,導致當前結核病疫情監測指標的敏感性和特異性不強,監測信息不能充分反映結核病的實際發病和死亡情況,從而難以及時預測結核病的發病、流行和爆發,不能及時采取有效的應對措施,導致結核病發病和死亡人數的增加,因此結核病的報告發病率預測研究一直備受關注。
曾應用于結核病的流行病學數學模型主要有:Azuma模型、回歸模型、指數平滑法、灰色系統預測模型及ARIMA模型等。在眾多模型中,Azuma模型應用較為廣泛,也曾對于我國結核病流行模式的研究起到一定的指導作用。但隨著我國結核病控制工作的進展,結核病三大挑戰(流動人口、耐藥結核病、HIV合并感染)的出現,應用該模型進行現時的結核病流行預測遇到了一些較為嚴重的問題。而90年代的回歸模型(直線或曲線模型、指數模型、多項式模型)考慮了結核疫情變動的影響因素,保證預測值與觀察值的殘差最小,不僅可作近期預測,還可作遠期預測。但在建立模型時需要樣本量足夠大,樣本服從特定的統計分布規律等比較苛刻的要求,使得其使用受到一定的限制[6-8]。指數平滑法則給予近期觀察值以較大的權數并通過對平滑系數的控制以提高預測效果的準確性,但其需要預先憑經驗估計出初始平均值及平滑系數,往往要求有較豐富的歷史資料來進行多次嘗試計算[9-10]。綜上所述,這些方法在進行結核病發病預測方面的應用均存在較大的局限性。而本文嘗試使用的ARIMA模型是將預測對象隨時間推移形成的數據序列視為一個隨機序列,利用其依存關系或自相關性表征預測對象發展的延續性,它不需要對時間序列的發展模式作先驗假設,方法的本身保證可通過反復識別修正,直至獲得滿意模型。在預測模型時需要的只是預測對象本身的歷史數據,并不要求事先明確所有的影響因素,因此在資料收集的成本上很低;同時,由于ARIMA模型可以將發病的各類影響因素的綜合效應統一蘊涵于時間變量中進行分析,短期外推的精確度比線性回歸分析更高[11-13]。
本文嘗試在考慮其季節因素的情況下,利用1996年至2009年各季度新涂陽結核報告報告發病率,建立的復合季節模型ARIMA(0,1,1)(0,1,1)4,取得的預測結果與實際結果基本一致,各預測值均在95%可信區間內,充分體現了乘積季節模型用于結核病報告發病率的預測是可行的、合理的和可接受的。模型的預測結果可以與常規監測相結合,及時發現報告發病率變化的異常情況,同時可以對采取的結控措施效果進行評價,為結核病的流行預警系統提供技術參數,也可為結核病預測預警模型的建立提供借鑒。
本研究建立的復合季節模型ARIMA(0,1,1)(0,1,1)4,能較好的用于結核病的發病預測,但時間序列模型不是一勞永逸和一成不變的,不能作為永久的預測工具,在實際工作中應該不斷的收集積累數據,定期更新模型,才能獲得更為準確的預測結果,為結控工作提供更為科學的防控數據。
[1]World Health Organization.Tuberculosis control:Surveillance,Planning,Financing.WHO Report 2005;349.
[2]張文彤.SPSS統計分析教程[M].北京:北京希望電子出版社,2002:250-289.
[3]孫振球.醫學統計學[M].北京:人民衛生出版社,2002:461-476.
[4]溫亮,徐德忠,林明和.應用時間序列模型預測瘧區瘧疾發病率[J].第四軍醫大學學報,2004,25(6):507-5101.
[5]張蔚,張彥琦,楊旭.時間序列資料ARIMA季節乘積模型及其應用[J].第三軍醫大學報,2002,24(8):955-9571.
[6]董選軍,賈偉娜.ARIM A時間序列在傳染病預測中的比較[J].現代實用醫學,2010,(02):142-143,147,242.
[7]Azuma Y.A simple simulation model of tuberculosis epidemiology for use without large scale computers[J].Bulletin WHO,1975,52:313.
[8]Pilheu JA.Tuberculosis 2000:problems and solutions[J].INT J T UBERC L UNG DIS,1998,2(9):696-703.
[9]Lalit Kant.BCG Revisited[J].Ind J Tub,2000,47(1):1-2.
[10]R í os M,Garc í a JM,Sánchez JA,Pérez D.A statistical analysis of the seasonality in pulmonary tuberculosis[J].Eur J Epidemiol,2000,16,(5):25-27.
[11]Pang SC,Harrison RH,Brearley J,Jegathesan V,Clayton AS:T uberculosis surveillance in immigrants throug h health undertaking s in Western Australia[J].Int J Tuberc Lung Dis 2000,4:232-232.
[12]Nagayama N,Ohmo ri M.Seasonality in various forms of tuberculosis[J].Int J Tuberc Lung Dis,2006,10:1117-1122.
[13]A ntunes JLF,Waldman EA.Tuberculosis in the twentieth century:time-series mortality in S? o Paulo,Brazil,1900-97[J].Cad Saúde Pública,1999,15:463-476.
Application of time series analysis for the prediction of incidence trend of tuberculosis in Guangdong province
Zhong Qiu,Jiang Li,Zhou Lin,Li Jianwei,Chen Yunhui,Lian Y onge
Anti-tuberculosis Research Institute of Guangdong Province,Guangzhou510630,China
ObjectiveTo utilize the product seasonal model to predict the trend of TB and provide scientific evidence for formulating the related measures of prevention and cure.MethodsThe product seasonal model was combined with ARIMA model and stochastic seasonal model by using the least square principle.ResultsThe ARIMA(0,1,1)(0,1,1)4model was established by the data from 1996 to 2008,and the effectiveness of prediction of this model showed to be good with the actual values in the 95%confidence interval of predicted values.ConclusionThe ARIMA product seasonal model shows effective to predict the incidence of TB in Guangdong province,and the results is in according to the current status of TB,moreover,it could provide information for us to take measures for TB prevention and control.
tuberculosis,pulmonary/prevention and control;tuberculosis,pulmonary/epidemiology;incidence;time;Guangdong province
Zhong Qiu(gdtb@vip.163.com)
鐘球(gdtb@vip.163.com)
國家“十一五”重大傳染病專項資助(基金編號:2008ZX10003-007)
2010-07-26)
(本文編輯:張曉進)