李軍,史魯斌,肖占沛
河南省疾病預防控制中心,河南鄭州 450016
甲型病毒性肝炎(甲肝)是由甲肝病毒引起的以肝臟損害為主的消化系統傳染性疾病,主要經糞—口途徑傳播;隨著甲肝疫苗預防接種的推廣和衛生狀況的改善,河南省甲肝的發病率逐年下降,但仍存在不同程度的甲肝流行以及局部地區的暴發[1]。傳染病的流行狀況往往受到經濟水平、社會環境和生活方式、針對性的疫苗接種率等多種因素的影響。近幾年來國內外有研究者[2-5]利用疫情監測數據構建ARIMA模型,預測傳染病的發病趨勢,取得較好的預測效果。該研究將利用河南省2008—2013年分月甲肝疫情監測數據建立ARIMA模型,并利用2014年的監測數據評價ARIMA模型的預測效果。
疫情數據來源于中國疾病預防控制信息系統中河南省2008~2013年分月的甲肝監測數據。
采樣時間序列法,利用河南省2008—2013年分月的甲肝疫情監測資料,通過SAS 9.1統計軟件,建立甲肝發病的ARIMA模型的多個模型,篩出最優模型,利用2014年1—12月的甲肝疫情資料評價該模型的預測效果。ARIMA模型分為自回歸模型(AR)、移動平均模型(MA)、ARIMA模型[6]。

圖1 2008—2013年河南省報告的甲肝病例數按月分布圖
一般ARIMA建模包括模型的識別、參數估計、模型檢驗3個步驟,依據河南省2008—2013年甲肝分月的監測數據,通過這3個步驟反復建模,篩選出最優的預測模型。
①模型識別:觀察2008—2013年甲肝分月監測數據的時間序列的平穩性,如若是非平穩序列,要通過數據轉化和一階周期為12的季節性差分將序列平穩化。先對序列的季節性成分進行分析,再識別非季節性成分,通過觀察序列的自相關系數和偏相關系數初步確定階值。
②參數估計:模型參數估計運用最大似然法或最小二乘法,根據序列的自相關系數和偏相關系數,經過不同方法的參數選擇、比較、篩選,計算出自回歸移動平均過程的系數,并對其標準誤進行假設檢驗。
③模型檢驗:一個合適的模型的殘差序列是白噪音過程,其自相關系數(autocorrelation function,ACF)和偏向相關系數(partial autocorrelation function,PACF)應與0無統計學差異,利用此標準對所建立的ARIMA模型是否合適作出診斷。若幾個模型都能滿足要求,選取Akaike信息準則 (Akaike information criterion,AIC)和Schwarz貝葉斯準則(Schwarz Bayesian information criterion,SBC)、殘差序列的方差(Variance estimate,VE)以及方差估計的平方根(standard error estimate,std.EE)較小者,則模型效果較好[7]。
河南省2008—2013年甲肝報告病例數呈現明顯的季節性,每年的6~9月呈現發病高峰,11月至次年3月呈現發病低谷,且呈現逐年遞減趨勢,提示該時間序列為非平穩序列。2008—2013年河南省報告的甲肝病例數按月分布情況見圖1。
在對原始數據進行對數轉換的基礎上進行了一階差分和一階周期為12的季節性差分,將序列平穩化,生成數據系列(圖2),圖2的圖形顯示差分后序列近似平穩。延遲1階和12階的自相關系數顯著大于可信區間范圍,說明差分后仍具有短期相關性和明顯的季節性,考慮擬合ARIMA乘積季節模型。
經過參數比較和選擇,根據AIC和SBC的最小的準則和模型簡潔原則,初步判斷為模型ARIMA(1,1,0)(2,1,2),見表1。

表1 各模型的擬合優度統計量
模型ARIMA(1,1,0)(2,1,2)延遲6階、12階、18階、24階、30階、36階X2檢驗統計量的P均>0.05,表明模型對數據信息提取充分,擬合效果較好,見圖3。
某地甲肝的暴發流行與當地的經濟、衛生、甲肝疫苗接種等有關。由于受諸多因素的影響,甲肝暴發或者流行的早期預警尤為重要。
傳統的甲肝預測預警模型可以分為兩類:回歸分析模型和時間序列模型。前者由于受到各種未知因素的影響、難以獲得足夠的數據進行分析,因此有一定的局限性。后者將已知的、未知的因素綜合成一個統一的因素,將這些因素蘊含在時間序列這個變量中,所需的原始資料較少,對疾病短期內的預測效果較好,具有一定的應用前景[8-10]。

圖2 1階與12步差分和對數轉換后序列圖

圖3 河南省甲肝按月報告病例數的擬合效果圖
該研究對河南省2008—2013年的甲肝監測數據資料進行擬合建模,結果顯示,河南省2008—2013年的甲肝監測數據呈現逐年降低的趨勢,且具有明顯的季節性周期。篩選ARIMA(1,1,0)(2,1,2)12模型為最優模型,利用此模型對2014年1—12月的甲肝監測數據進行預測,結果顯示預測值與真實值接近,提示該模型有較好的預測效果,在河南省甲肝發病預測中具有較高的推廣應用價值,可為河南省甲肝的防控措施及預警機制提供參考。
[1]朱奕奕,馮瑋,趙琦,等.ARIMA乘積季節模型在上海市甲肝發病預測中的應用[J].復旦學報:醫學版,2012,39(5):460-464.
[2]楊召,葉中輝,尤愛國,等.乘積季節ARIMA模型在結核病發病預測中的應用[J].中國公共衛生,2013,29(4):469-472.
[3]彭志行,鮑昌俊,趙楊,等.ARIMA乘積季節模型及其在傳染病發病預測中的應用[J].數理統計與管理,2008,27(2):362-368.
[4]金如鋒,邱紅,周霞,等.ARIMA模型和GM(1,1)模型預測全國3種腸道傳染病發病率[J].復旦學報:醫學版,2008,35(5):675-680.
[5]時照華,蘇虹,秦鳳云,等.ARIMA模型在常見呼吸道傳染病疫情預測中的應用[J].安徽醫科大學報,2013,48(7):783-785.
[6]黃春萍,鄧晶,張磊,等.ARIMA模型在麻疹預警中的應用[J].疾病監測,2008,23(1):53-55.
[7]李永紅,林枚,董柏青,等.ARIMA模型在細菌性痢疾預測中的應用[J].現代預防醫學,2010,37(7):1203-1204.
[8]葉孟良,李智濤,歐榮.ARIMA模型在預測重慶市醫院日住院量中的應用[J].重慶醫學,2012,41(13):1260-1261.
[9]牟瑾,謝旭,李媛,等.將ARIMA模型應用于深圳市1980-2007年重點法定傳染病預測分析[J].預防醫學論壇,2009,15(11):1051-1052.
[10]張彥琦,唐貴立,王文昌,等.ARIMA模型及其在肺結核預測中的應用[J].現代預防醫學,2008,35(9):1608-1612.