ARIMA季節(jié)性模型在預(yù)測蘭州市丙肝發(fā)病人數(shù)中的應(yīng)用*

2022-03-17 08:09:28譙小偉曹文珮李娟生任曉衛(wèi)王宇紅劉小寧

中國衛(wèi)生統(tǒng)計 2022年1期

關(guān)鍵詞：報告模型

馬晶王梅譙小偉曹文珮李娟生任曉衛(wèi) 王宇紅劉小寧△

【提要】目的應(yīng)用自回歸移動平均(autoregressive integrated moving average，ARIMA)乘積季節(jié)模型建立適合預(yù)測蘭州市丙肝月報告發(fā)病人數(shù)的最優(yōu)模型，為丙肝防控工作提供參考依據(jù)。方法收集2010年1月至2019年12月蘭州市丙肝月報告發(fā)病人數(shù)，基于2010年1月至2018年12月丙肝月報告發(fā)病人數(shù)建立ARIMA乘積季節(jié)模型，比較2019年1-12月預(yù)測值和實際值以進行預(yù)測模型性能檢驗，并對2020年進行預(yù)測。結(jié)果蘭州市丙肝月報告發(fā)病人數(shù)總體呈現(xiàn)下降趨勢，并于每年2月份達到最低值，于3月份迅速上升至峰值，有季節(jié)性和周期性。根據(jù)2010年1月至2018年12月丙肝月報告發(fā)病數(shù)據(jù)擬合出最佳預(yù)測模型ARIMA(2，1，0)(0，1，1)12，該模型擬合2019年1-12月的預(yù)測值與實際值的相對誤差范圍是0.00% ～ 57.28%，平均相對誤差為16.96%，2020年預(yù)測結(jié)果顯示蘭州市丙肝報告發(fā)病人數(shù)略有下降。結(jié)論基于本研究數(shù)據(jù)，ARIMA(2，1，0)(0，1，1)12模型能較好地擬合蘭州市丙肝的月報告發(fā)病人數(shù)，可用于短期的預(yù)測。

丙型肝炎(簡稱丙肝)是由丙型肝炎病毒(hepatitis C virus，HCV)引起的一種以肝臟損害為主的傳染性疾病，該病毒可造成急性或慢性肝炎感染，其嚴(yán)重程度從持續(xù)幾周的輕微病癥到終身嚴(yán)重疾病不等[1]。2017年世界衛(wèi)生組織(WHO)估計，全球HCV感染率為1.0%，約有7100萬慢性HCV感染者，HCV已成為當(dāng)今世界嚴(yán)重的公共衛(wèi)生問題之一[2]。近年來，中國HCV報告發(fā)病數(shù)呈逐年上升趨勢，全國報告發(fā)病率由2010年的11.41/10萬上升至2019年的16.02/10萬，HCV的防控形勢依然嚴(yán)峻[3]。在目前無安全有效疫苗的情況下，應(yīng)充分利用傳染病監(jiān)測信息資源，開展有效的HCV發(fā)病狀況預(yù)測，這對HCV防控工作的開展具有重要的指導(dǎo)意義。本研究擬采用自回歸移動平均(auto-regressive integrated moving average，ARIMA)乘積季節(jié)模型建立蘭州市HCV月報告發(fā)病數(shù)模型，在此基礎(chǔ)上進行擬合和短期預(yù)測，為有關(guān)部門制定HCV防治策略提供科學(xué)的參考依據(jù)。

資料與方法

1.資料來源 2010年1月至2019年12月蘭州市HCV監(jiān)測數(shù)據(jù)來源于中國疾病預(yù)防控制信息系統(tǒng)平臺下的傳染病信息直報系統(tǒng)。

2.診斷標(biāo)準(zhǔn) HCV報告病例診斷依據(jù)《丙型肝炎診斷標(biāo)準(zhǔn)(WS213-2018)》[4]。

3.質(zhì)量控制納入標(biāo)準(zhǔn)：現(xiàn)住址為蘭州市、已通過審核的臨床診斷病例和確診病例(病例均為單純感染HCV)，剔除信息缺失病例。

4.研究方法 ARIMA模型是時間序列分析中最受歡迎和方便的模型之一，并且廣泛用于傳染病的預(yù)測中[5]。本研究選用ARIMA(p，d，q)(P，D，Q)s模型建立預(yù)測蘭州市HCV月報告發(fā)病數(shù)的數(shù)學(xué)模型，其中p、d、q分別為自回歸階數(shù)、非季節(jié)差分階數(shù)、移動平均階數(shù)，P、D、Q分別代表季節(jié)自回歸階數(shù)、季節(jié)差分階數(shù)、季節(jié)性移動平均階數(shù)，s為周期。

ARIMA模型建模的基本步驟[6-8]：(1)時間序列的平穩(wěn)化。模型要求原始序列平穩(wěn)，即均值和方差不隨時間變化，因此通過對原始時間序列作時序圖、自相關(guān)圖(autocorrelation function，ACF)、偏自相關(guān)圖(partial autocorrelation function，PACF)以及單位根檢驗(augmented dickey-fuller test，ADF)判斷原始時間序列是否穩(wěn)定。若原序列不平穩(wěn)，則需要對非平穩(wěn)序列通過對數(shù)轉(zhuǎn)換、趨勢差分、周期性差分等預(yù)處理轉(zhuǎn)變?yōu)闊o長期趨勢性和周期性的平穩(wěn)序列。(2)模型識別。對預(yù)處理后達到平穩(wěn)性要求的序列，繪制ACF圖和PACF圖，根據(jù)其截尾或拖尾的情況識別模型中p、q、P、Q的數(shù)值，擬合一個或多個ARIMA模型。(3)參數(shù)估計和模型診斷。運用最大似然估計法(maximum likelihood estimation，MLE)對模型參數(shù)進行估計，對備選模型進行Ljung-Box殘差白噪聲檢驗(L-B檢驗)，以判斷模型中的信息提取是否充分，再通過比對備選模型的池赤信息準(zhǔn)則(Akaike information criterion，AIC)值和施瓦茨貝葉斯準(zhǔn)則(Schwarz′s Bayesian criterion，SBC)值，在所有通過檢驗的模型中，AIC或SBC函數(shù)達到最小的模型為相對最優(yōu)模型。(4)模型預(yù)測及評價。利用選出的最優(yōu)模型進行預(yù)測，將預(yù)測值和實際值進行比較，使用相對誤差評價模型的準(zhǔn)確性。

5.統(tǒng)計分析采用excel 2019建立蘭州市HCV月報告發(fā)病人數(shù)數(shù)據(jù)庫，運用R 4.0.1軟件進行ARIMA模型構(gòu)建、分析及預(yù)測。其中2010年1月至2018年12月HCV月報告發(fā)病數(shù)作為訓(xùn)練集擬合ARIMA乘積季節(jié)模型，2019年1-12月的數(shù)據(jù)作為測試集檢驗ARIMA模型的外推能力。以P<0.05為差異有統(tǒng)計學(xué)意義。

結(jié) 果

1.一般情況

2010-2019年蘭州市HCV累計報告病例數(shù)22695例，年平均報告人數(shù)2269例，年均報告發(fā)病率為70.20/10萬，見表1。對2010年1月-2018年12月HCV月報告發(fā)病數(shù)的時間序列進行趨勢性、季節(jié)性和隨機誤差分解，結(jié)果顯示，HCV月報告發(fā)病數(shù)在2010-2012年呈平緩上升趨勢，2013年出現(xiàn)下降趨勢，說明此時間序列為非平穩(wěn)時間序列。在季節(jié)因素的作用下，HCV月報告發(fā)病例數(shù)在每年的2月份出現(xiàn)低谷，隨后3月份出現(xiàn)高峰，5、8、12月份報告人數(shù)有增加的趨勢，隨機誤差維持在一定范圍內(nèi)。見圖1。

表1 2010-2019年蘭州市HCV報告發(fā)病情況

圖1 原始數(shù)據(jù)的時間序列圖

2.ARIMA模型構(gòu)建

(1)數(shù)據(jù)預(yù)處理由原始序列圖可以看出此時間序列為非平穩(wěn)序列，且具有一定的季節(jié)性。使用“diff”語句對原始序列進行1階12步季節(jié)差分，消除時間序列趨勢和季節(jié)影響后，使用tseries包中的“ adf.test ”語句進行ADF檢驗(P=0.01)，由此可知差分后數(shù)據(jù)滿足平穩(wěn)性要求。使用“Box.test”語句對差分處理后的數(shù)據(jù)進行白噪聲檢驗，序列延遲6階、12階的檢驗結(jié)果分別為χ2=50.92(P<0.001)、χ2=94.19(P<0.001)，其為非白噪聲序列，說明差分處理后的序列值之間還蘊含著較強的相關(guān)關(guān)系，必須進一步分析。因此，可考慮建立ARIMA(p，1，q)(P，1，Q)s模型進行分析和預(yù)測。

(2)模型識別 ARIMA模型中參數(shù)p和q的識別主要依據(jù)ACF圖和PACF圖的截尾或拖尾情況，對差分后的數(shù)據(jù)分別做ACF圖(圖2b)與PACF圖(圖2c)，ACF圖顯示自相關(guān)系數(shù)0階截尾(q=0)，且在12階、24階均有明顯波動，提示差分后序列有季節(jié)效應(yīng)。PACF圖顯示偏自相關(guān)系數(shù)在2階后落入置信區(qū)間，即p=2。根據(jù)差分次數(shù)和數(shù)據(jù)的周期情況初步判定模型為ARIMA(2，1，0)(P，1，Q)12，采用從低階向高階的順序進行嘗試，根據(jù)模型的擬合優(yōu)度指標(biāo)選擇最佳模型。

圖2 1階12步差分變換后分析圖

(3)參數(shù)估計和模型診斷運用 R 4.0.1軟件中的“auto.arima()”函數(shù)自動識別出的模型為ARIMA(0，1，1)(0，0，2)12，基于以上分析共有10個備選模型，通過計算，10個備選模型中有6個模型參數(shù)具有統(tǒng)計學(xué)意義，見表2。比較發(fā)現(xiàn)， ARIMA(2，1，0)(0，1，1)12模型的AIC和SBC值最小，故選取該模型作為本次研究相對最優(yōu)模型。經(jīng)檢驗，ARIMA(2，1，0)(0，1，1)12模型各參數(shù)檢驗統(tǒng)計量P值均小于0.01，L-B檢驗結(jié)果顯示序列延遲6、12、18及24階差異均無統(tǒng)計學(xué)意義(P>0.05)，說明殘差序列為白噪聲序列，模型擬合較好，見表3。

表2 備選模型及殘差白噪聲檢驗表

表3 ARIMA(2，1，0)×(0，1，1)12模型參數(shù)和殘差白噪聲檢驗結(jié)果

(4)模型預(yù)測效果評估為驗證ARIMA(2，1，0)(0，1，1)12模型的外推能力，用“forecast”函數(shù)預(yù)測2019年1-12月蘭州市HCV的月報告發(fā)病例數(shù)，預(yù)測結(jié)果見表4。結(jié)果顯示，預(yù)測HCV月發(fā)病例數(shù)相對誤差范圍為0.00%～57.28%，平均相對誤差為16.96%。2019年1-12月中除9月份外其他月份HCV報告發(fā)病的實際值均落在預(yù)測值的95%置信區(qū)間(95%CI)范圍內(nèi)，提示該模型預(yù)測性能較好。對2020年HCV月發(fā)病數(shù)進行預(yù)測(圖3)，結(jié)果顯示2020年蘭州市HCV月報告發(fā)病數(shù)略有下降。

表4 2019年1-12月HCV的月發(fā)病例數(shù)的實際值與預(yù)測值比較

圖3 蘭州市HCV月報告發(fā)病人數(shù)預(yù)測

討論

本研究結(jié)果顯示，蘭州市HCV流行主要有以下特征：第一，蘭州市HCV報告發(fā)病人數(shù)總體呈下降趨勢。從原始時序分解圖中觀察到蘭州市HCV報告發(fā)病人數(shù)在2010-2012年呈現(xiàn)上升趨勢，2013-2014年HCV報告發(fā)病人數(shù)較2012年明顯下降，提示可能與開展HCV數(shù)據(jù)質(zhì)量核查、規(guī)范HCV病例報告等相關(guān)，也可能與同期甘肅省衛(wèi)生廳出臺規(guī)范乙肝診斷與報告的文件間接相關(guān)[9-10]。2014-2019年HCV報告發(fā)病人數(shù)下降趨勢逐漸平緩，由此可見，隨著HCV防治宣傳教育的普及，人群關(guān)于HCV知識的知曉率不斷提升，防范意識也逐漸增強。第二，存在季節(jié)性升高。通過本研究原始序列圖可觀察到HCV發(fā)病周期為一年，季節(jié)性特征明顯，可觀察到除2012年外蘭州市每年HCV的月報告發(fā)病人數(shù)在2月份均處于較低水平，其后迅速上升，在3月份會達到峰值，形成“春節(jié)效應(yīng)”[11-12]，提示可能與HCV病例因我國春節(jié)影響審核且上報延遲以及春節(jié)過后人口流動量增加有關(guān)。本研究結(jié)果還顯示，每年5月份、8月份和12月份報告人數(shù)也會出現(xiàn)增加的趨勢，同樣提示可能有周期性或季節(jié)性的存在。但也有研究指出HCV的感染不具有季節(jié)性[13-15]，提示可能與HCV主要為血源及性傳播疾病有關(guān)，但季節(jié)性不明顯不代表其發(fā)病無高峰和低谷期，因此仍要做好相關(guān)的防控工作。

結(jié)果顯示，2019年1-12月HCV報告發(fā)病的實際值基本落在預(yù)測值的95%CI內(nèi)，從預(yù)測精度來看，該模型預(yù)測的最小相對誤差為0，最大相對誤差為57.28%，平均相對誤差為16.96%。雖然該模型能較好地擬合HCV發(fā)病人數(shù)，但部分月份如9月份的擬合值和實際值誤差較大，提示可能與該月HCV報告發(fā)病人數(shù)變化過大有關(guān)。HCV的感染通常還涉及吸毒、艾滋病以及性傳播方式等，因此HCV的報告發(fā)病人數(shù)不僅受檢測技術(shù)、疾病報告系統(tǒng)完善性等客觀條件的影響，還受到患者行為方式、文化程度以及宗教信仰等因素的影響[16]，而ARIMA模型的優(yōu)勢是將多種因素的綜合效應(yīng)蘊含于時間變量之中，在不考慮這些因素的情況下對疾病的發(fā)生情況仍能進行科學(xué)的預(yù)測，并通過反復(fù)識別和修正達到最滿意的預(yù)測效果[17]。此外，目前HCV的治療仍缺乏特效方法，也沒有有效的疫苗進行預(yù)防，且HCV是一種慢性化程度高、危害極為嚴(yán)重的傳染病，感染后極易轉(zhuǎn)化為慢性肝炎、肝硬化、肝癌等經(jīng)濟負擔(dān)較嚴(yán)重的疾病。因此，通過利用現(xiàn)有的監(jiān)測數(shù)據(jù)，觀察各個時間點上的變化規(guī)律，并對該類疾病在發(fā)病高峰前進行積極主動的預(yù)測，根據(jù)預(yù)測發(fā)出預(yù)警，這對疾病防控具有重要的意義。

ARIMA模型在疾病發(fā)病預(yù)測中也存在一定的偏倚。首先，時間序列是按照一定歷史時期的規(guī)律進行預(yù)測，其前提是這些規(guī)律在一定時期內(nèi)保持相對穩(wěn)定，但是當(dāng)未來某個時點或時段的實際值變化過大時，模型的預(yù)測值可能就會偏離實際值，故預(yù)測時間不宜太長。其次，在模型識別時有主觀成分存在，由于個人經(jīng)驗的不同，不同的研究者對同一組數(shù)據(jù)建模時可能得不到相同的最優(yōu)模型，這也會導(dǎo)致偏倚的發(fā)生，從而影響模型預(yù)測的精確度和準(zhǔn)確度。由于HCV感染是一個復(fù)雜的過程，因此，在今后的研究中應(yīng)該多考慮其他因素對預(yù)測結(jié)果的影響，建立預(yù)測效果更好、更適合于HCV預(yù)測的模型。

ARIMA季節(jié)性模型在預(yù)測蘭州市丙肝發(fā)病人數(shù)中的應(yīng)用*

資料與方法

結(jié) 果

討 論

討論