陳銀蘋,吳愛萍,余亮科,許雅麗,蔣 寧,楊 陽,張 錦,張靜宇,曹燕花
肺結(jié)核是我國發(fā)病、死亡人數(shù)最多的重大傳染病之一。根據(jù)2010年全國第五次結(jié)核病流行病學調(diào)查結(jié)果,估算我國全人群活動性肺結(jié)核患病率為392/10萬,其中傳染性肺結(jié)核患病率為100/10萬。據(jù)此估算2010年我國現(xiàn)有活動性肺結(jié)核患者總數(shù)為523萬,其中傳染性肺結(jié)核患者總數(shù)為134萬,占全球發(fā)病的14.3%,僅次于印度[1]。本文運用自回歸積分移動平均(ARIMA)-灰色模型(GM)組合模型對遷安市2004年1月—2012年12月的肺結(jié)核逐月發(fā)病率進行擬合,并預測該市2013年肺結(jié)核逐月發(fā)病情況,以探討使用此模型預測肺結(jié)核未來發(fā)病率,為加速防控肺結(jié)核提供依據(jù)。
1.1 資料來源 遷安市2004年1月—2012年12月肺結(jié)核的發(fā)病資料來源于中國疾病預防控制信息系統(tǒng)中疾病監(jiān)測信息報告管理系統(tǒng),相應的人口學資料來源于中國疾病預防控制信息系統(tǒng)的基本信息系統(tǒng)。
1.2 ARIMA模型
1.2.1 ARIMA模型原理 ARIMA模型是由博克思(Box)和詹金斯(Jenkins)于20世紀70年代初提出的著名時間序列預測方法,又稱為Box-Jenkins模型、博克思-詹金斯法[2]。醫(yī)學研究中,某些傳染病的發(fā)生發(fā)展規(guī)律隨時間而變化,將這組依賴于時間變化的變量稱之為時間序列資料,就是依賴于時間(t)的數(shù)據(jù),記作:Y1,Y2……Yt。如肺結(jié)核就是一種隨時間而發(fā)生有規(guī)律變化的傳染病,可以用t函數(shù)關系來描述其發(fā)生及變化規(guī)律。
1.2.2 建模步驟 (1)預處理數(shù)據(jù);(2)模型的識別:采用最小二乘估計等方法對識別階段提供的粗模型進行參數(shù)估計并假設檢驗,確定赤池信息量準則(AIC)值〔或貝葉斯信息準則(BIC)值〕最小的模型[3];(3)參數(shù)估計及模型診斷:模型是否合適需要對其擬合優(yōu)度進行檢驗,如果殘差序列不是白噪聲序列,則需要重新建立模型,重復上述步驟直到殘差序列是白噪聲序列為止;(4)預測:包括點預測和區(qū)間預測。
1.3 GM(1,1)模型
1.3.1 GM(1,1)模型原理 灰色系統(tǒng)理論是我國學者鄧聚龍教授于19世紀80年代初提出的,主要內(nèi)容包括以灰色朦朧集為基礎的理論體系,以灰色關聯(lián)空間為依托的分析體系,以灰色序列生成為基礎的方法體系,以GM為核心的模型體系,以系統(tǒng)分析、評估、建模、預測、決策、控制、優(yōu)化為主體的技術(shù)體系。GM(1,1)模型的核心思想是利用離散隨機數(shù)經(jīng)過生成(其中包括累加、累減生成、均值生成等)變?yōu)殡S機性被顯著削弱而且較有規(guī)律的生成數(shù),建立起微分方程。GM(1,1)模型實質(zhì)是一階一個變量的微分方程模型,是一階n個變量的微分方程模型GM(1,n)中最基本的模型[4]。
1.3.2 建模步驟 設由n+1個原始數(shù)據(jù)組成的原始數(shù)據(jù)組成的原始數(shù)列為 (t=0,1,2……n),其建模具體步驟[5]如下:(1)累加生成;(2)均值生成;(3)建立GM(1,1)模型的一階線性微分方程;(4)計算 的估計值。
1.4 ARIMA-GM組合模型 由于肺結(jié)核發(fā)病率的歷
本文創(chuàng)新點
本研究運用時序圖對唐山遷安市肺結(jié)核發(fā)病率數(shù)據(jù)進行描述性分析后,發(fā)現(xiàn)肺結(jié)核發(fā)病率的歷史數(shù)據(jù)中既有線性趨勢又有非線性趨勢,因此提出一種基于時間序列的自回歸積分移動平均(ARIMA)模型和灰色模型(GM)(1,1)的組合模型。利用ARIMA季節(jié)乘積模型對周期型時間序列提取線性信息,然后用一帶閾值的GM(1,1)模型對其殘差進行修正提取非線性特征信息,最后結(jié)合二者結(jié)果構(gòu)造出對肺結(jié)核發(fā)病率預測的組合預測方法,以彌補ARIMA模型非線性映射性能弱的不足,并將指標C值、P值結(jié)合平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)綜合評價模型精度以篩選最佳預測模型。結(jié)果顯示帶閾值的ARIMA-GM組合模型的MAE為0.965 7,MAPE為18.63%,均比單個模型小,證明組合模型確實可以提高預測精度。ARIMA-GM組合模型較好地擬合了唐山遷安市肺結(jié)核發(fā)病情況,預測結(jié)果能夠?qū)Ψ谓Y(jié)核的早期預測預警模型的建立提供借鑒。
史數(shù)據(jù)中既有線性趨勢又有非線性趨勢,因此可以先使用ARIMA季節(jié)乘積模型預測肺結(jié)核發(fā)病率,獲得每個實際觀察值的ARIMA模型擬合序列及殘差序列,對殘差序列用一閾值更新為非負序列,然后用GM(1,1)模型預測ARIMA季節(jié)乘積模型的殘差序列。將以上ARIMA季節(jié)乘積模型的肺結(jié)核發(fā)病率預測值和GM(1,1)模型預測的殘差預測值綜合一起,即得到組合模型對2013年遷安市肺結(jié)核發(fā)病情況的預測值。
1.5 統(tǒng)計學方法 利用Excel 2003建立遷安市2004—2012年肺結(jié)核發(fā)病人數(shù)和人口數(shù)的數(shù)據(jù)庫,并用Excel 2003和SPSS 13.0統(tǒng)計軟件進行數(shù)據(jù)分析。
2.1 ARIMA模型的建立 本資料肺結(jié)核月發(fā)病時間序列具有季節(jié)波動性,即該序列不是平穩(wěn)序列。差分是消除時間序列趨勢,達到時間序列平穩(wěn)化目的常用的方法,因此進行季節(jié)性差分后得出自相關圖和偏自相關圖(見圖1)。
經(jīng)一次季節(jié)性差分后消除了季節(jié)波動性的影響,自相關關系圖(ACF圖)呈現(xiàn)逐漸衰減趨勢,處理后的序列符合運用ARIMA模型的條件(見圖1)。可初步確定形式為ARIMA(p,d,q)(P,1,Q)12,這是一個綜合了連續(xù)模型和季節(jié)模型的復合季節(jié)模型,其中季節(jié)以12個月為周期。
對模型ARIMA(p,d,q)(P,1,Q)12中p、d、q、P和Q各參數(shù)采取從低階到高階逐個進行嘗試的辦法,而模型階數(shù)過高會造成過擬合,各階數(shù)限定在0~2,選取參數(shù)有統(tǒng)計學意義的部分模型的結(jié)果及擬合優(yōu)度檢驗見表1和表2。

圖1 遷安市2004—2012年肺結(jié)核發(fā)病率(1/10萬)經(jīng)季節(jié)差分自相關系數(shù)與偏自相關系數(shù)圖
Figure1 Plotting of the incidence of pulmonary tuberculosis after seasonal difference in Qian′an from 2004 to 2012
根據(jù)AIC、BIC信息準則以及簡約性原則,選擇AIC、BIC、標準誤差均最小的模型,模型最終確定為ARIMA(0,1,1)(0,1,1)12。對該模型的殘差序列進行白噪聲檢驗,殘差自相關系數(shù)均很小且不表示出任何特征,按α=0.05水準,檢驗結(jié)果表明殘差不存在自相關,即殘差是一個隨機序列,因此可以確定肺結(jié)核發(fā)病率的預測模型(見表3)。
2.2 GM(1,1)模型殘差序列分析 針對ARIMA(0,1,1)(0,1,1)12模型得到殘差序列,取閾值為4。然后利用GM(1,1)模型預測帶閾值的殘差序列,預測模型通過了精度檢驗(C=0.573,P=0.805),所建立的模型擬合精度為基本合格,再進一步將該殘差序列還原后得到GM(1,1)模型預測的殘差序列。然后運用平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)對2004—2012年發(fā)病率進行檢驗,組合模型的MAE、MAPE都比單個模型小,說明該組合模型預測精度較高,且由MAPE的評價標準可知,組合模型的預測結(jié)果為良好預測(見表4)。
表1 ARIMA(p,d,q)(P,1,Q)12不同參數(shù)組合擬合后的部分結(jié)果
Table1 Parts of the parameters′ estimates for the ARIMA(p,d,q)(P,1,Q)12model

模型AR1MASAR1SMA常數(shù)項ARIMA(1,1,0)12 β---0516--0182 t值---6158--1840 P值-- 0000-0069ARIMA(0,0,1)(0,1,1)12 β--0084--0958-0176 t值--0913-1795-3801 P值-0364-00760000ARIMA(1,0,0)(0,1,1)12 β0113--0983-0176 t值1245--0755-3871 P值0216--04520000ARIMA(0,1,1)(0,1,1)12 β-0850-09440004 t值-15729-24180527 P值-0000-00180599
注:-無此項;AR1=1階自回歸模型,MA=滑動平均模型,SAR1=1階季節(jié)性自回歸模型,SMA=季節(jié)性滑動平均模型
表2 備選模型擬合優(yōu)度統(tǒng)計量
Table2 Goodness-of-fit results among ARIMA(p,d,q)(P,1,Q)12models

模型AICBIC標準誤差對數(shù)似然ARIMA(1,1,0)121979-169839343679348807ARIMA(0,0,1)(0,1,1)121359-161765329530337223ARIMA(1,0,0)(0,1,1)121324-161863329727337420ARIMA(0,1,1)(0,1,1)121459-163736333472341133
表3 ARIMA(0,1,1)(0,1,1)12模型殘差檢驗結(jié)果
Table3 White-noise test of the residuals of ARIMA(0,1,1) (0,1,1)12model

時滯自相關系數(shù)標準誤Box-Ljung統(tǒng)計統(tǒng)計量 自由度 P值1-004101010168106822007901000789206743009601001714306344-011900993142405345002500993203506696-006600983659607237-006500984096707698-0058009744518081490043009746499086410-00530096495410089411-00220095500611093112-003800955163120952
2.3 ARIMA-GM組合模型預測結(jié)果 將以上ARIMA季節(jié)乘積模型的肺結(jié)核發(fā)病率預測值和GM(1,1)模型預測的殘差預測值綜合一起,就得到了組合模型對遷安市2013年肺結(jié)核月發(fā)病率的預測值(見圖2)。
表4 ARIMA模型、GM(1,1)模型及組合模型預測殘差結(jié)果比較(2004—2012年)
Table4 Results of the residuals accuracy of ARIMA,GM (1,1) and combination models (from 2004 to 2012)

模型平均殘差MAEMAPE(%)ARIMA模型-001100143647GM(1,1)模型 001099652105ARIMA-GM組合模型 001096571863
注:MAE=平均絕對誤差,MAPE=平均絕對百分比誤差
肺結(jié)核是我國發(fā)病、死亡人數(shù)最多的重大傳染病之一,對人們的健康造成了嚴重的威脅,特別是耐藥菌株的出現(xiàn),給我國衛(wèi)生系統(tǒng)帶來了很大的挑戰(zhàn)。肺結(jié)核的預測是結(jié)核病防治工作中非常重要的一個環(huán)節(jié)。隨著預測理論及預測技術(shù)的發(fā)展與完善,越來越多的統(tǒng)計理論、預測方法及統(tǒng)計模型被應用于傳染病的預警和預報,但對一個地區(qū)來說,傳染病流行的影響因素錯綜復雜。因此,對某單一因素的分析不能全面把握傳染病的流行特征及規(guī)律,而且各種模型的應用條件不同,對相同的傳染病發(fā)病資料擬合不同的預測模型,其擬合的準確性可能不同[6]。
ARIMA模型的優(yōu)勢在于時間序列分析可將多種影響疾病發(fā)生、發(fā)展的因素包括未知因素的綜合效應統(tǒng)一蘊含在時間變量中[7],通過綜合考慮序列的趨勢變化、周期變化和隨機干擾并借助統(tǒng)計模型進行量化表達,且可以通過反復識別及修改以獲得更為滿意的模型,且其過程簡便、經(jīng)濟、適用,短期預測精度較高[8];而建立季節(jié)ARIMA模型時,季節(jié)差分使得模型需要比較大的樣本容量,另外當實際問題比較復雜時,模型的定階也變得困難,這就需要應用者對實際資料的特點有深刻的理解,并不斷積累經(jīng)驗,才能獲得更合適的模型。灰色系統(tǒng)理論是由中國學者鄧聚龍教授于20世紀80年代初創(chuàng)立的,主要應用于復雜系統(tǒng)中某一主要變量特征值的擬合和預測,以揭示該主要變量隨時間的變化規(guī)律和未來的發(fā)展態(tài)勢,在一定程度上克服了傳統(tǒng)預測模型多建立在數(shù)理統(tǒng)計基礎上、并需要大量樣本和典型概率分布的局限性,一定程度上有助于減少時間序列的隨機性和提高預測精度;但GM(1,1)只能用于數(shù)據(jù)離散較小且發(fā)展趨勢呈單調(diào)性的情況,無法分析系統(tǒng)的波動規(guī)律[9],并且遠期預測誤差較大。
本研究考慮到肺結(jié)核發(fā)病率的歷史數(shù)據(jù)中既有線性趨勢又有非線性趨勢,因此提出一種基于ARIMA-GM的組合模型,利用ARIMA季節(jié)乘積模型對周期型時間序列提取線性信息,然后用一帶閾值的GM(1,1)模型對其殘差進行修正提取非線性特征信息,最后結(jié)合二者結(jié)果構(gòu)造出對肺結(jié)核發(fā)病率預測的組合預測方法,以彌補ARIMA模型非線性映射性能弱的不足,從而提高預測的精度。結(jié)果顯示ARIMA-GM組合模型的MAE為0.965 7,MAPE為18.63%,均比單個模型小,說明組合模型確實可以提高預測精度。
但實際建立擬合模型時還應注意到,要提高組合模型的預測精度不僅取決于每個單一模型的優(yōu)劣,還應該考慮到各種其他影響數(shù)據(jù)的外在因素,得到的模型才會更接近真實數(shù)據(jù),預測效果才會更優(yōu),也可以把其應用在其他數(shù)據(jù)的預測上。目前,我國針對幾種主要的傳染病均通過立法的形式進行長期監(jiān)測和網(wǎng)絡報告,但針對影響傳染病發(fā)生、發(fā)展的各種自然、社會因素監(jiān)測數(shù)據(jù)的收集卻并不充分,這些均影響了數(shù)學模型預測傳染病疫情的準確度[10]。因此,為提高模型預測的準確度和精度,應全面收集影響傳染病發(fā)生的相關因素,建立可以考慮到影響因素的預測模型[11]。在進行肺結(jié)核發(fā)病情況預測時,盡量綜合考慮和比較多種模型的預測效果,選擇適合本地區(qū)的預測模型進行預測;其次,應不斷更新數(shù)據(jù)對模型進行重新擬合且謹慎使用統(tǒng)計模型的預測結(jié)果。在實際工作中對肺結(jié)核發(fā)病率的預測常很難做到絕對的準確,但總體上完全可以為公共衛(wèi)生人員預測疫情發(fā)展趨勢和及時采取控制對策提供可靠的科學依據(jù)。

圖2 遷安市2004—2012年肺結(jié)核月發(fā)病率及2013年肺結(jié)核預測月發(fā)病率
1 World Health Organization.Global tubereulosis control 2010[R].WHO/HTM/TB/2010.7.Geneva:WHO,2010:102.
2 Box GEP,Jenkins GM.Time series analysis:foreca-sting and control[M].San Francisco:Holden Day,1976:181-218.
3 張文彤.SPSS統(tǒng)計分析教程[M].北京:北京希望電子出版社,2002:557-582.
4 鄧聚龍.灰色理論基礎[M].武漢:華中科技大學出版社,2002:215,218-227.
5 黎健,吳寰宇,李燕婷.應用EXCEL實現(xiàn)上海市乙肝發(fā)病灰色模型的預測研究[J].中國衛(wèi)生資源,2011,14(2):109-118.
6 金如鋒,邱宏,周霞,等.ARIMA 模型和GM(1,1)模型預測全國3種腸道傳染病發(fā)病率[J].復旦學報:醫(yī)學版,2008,35(5):675-680.
7 Lal A,Ikeda T,French N,et al.Climate variability,weather and enteric disease incidence in new zealand:time series analysis[J].PLoS One,2013,8(12):e83484.
8 Tanaka M,Katayama F,Kato H,et al.Hepatitis B and C virus infection and hepatocellular carcinoma in China:A review of epidemiology and control measures [J].J Epidemiol,2011,21(6):401-416.
9 盛艷霞,徐娜,霍飛,等.灰色模型在預測天津市腸道傳染病發(fā)病趨勢中的應用[J].職業(yè)與健康,2011,27(1):16-17.
10 胡建利,祖榮強,彭志行,等.江蘇省戊型肝炎發(fā)病趨勢的時間序列模型應用[J].南京醫(yī)科大學學報:自然科學版,2011,31(12):1874-1878.
11 韓琴,蘇虹,王忱誠,等.ARIMA模型與GRNN模型對性病發(fā)病率的預測研究[J].現(xiàn)代預防醫(yī)學,2012,39(6):1337-1340.