尤佳豪,張蓓蓓,丁 勇
(南京醫科大學康達學院醫學信息工程教研室,江蘇 連云港 222000)
AIDS 是一種危害性極大的傳染病,由感染HIV引起。HIV 是一種能攻擊人體免疫系統的病毒,將人體免疫系統中最重要的CD4+T 淋巴細胞作為主要攻擊目標,大量破壞該細胞,使人體喪失免疫功能,最后導致死亡。艾滋病主要通過性接觸、血液接觸、母嬰傳播等方式進行傳播[1]。該病的防治是一項長期的重要任務,良好的預測能對未來近期艾滋病的預防和控制提供預警。國內外用于傳染病預測的方法有很多,比較常用的有時間序列分析法[2]、動力學模型[3]、灰色預測等。隨著計算機科學的應用和發展,預測理論借助計算機強大的計算能力也得到了較快的發展。預測理論分為3 種,分別是定性預測、定量預測、綜合預測。定性預測是通過對當地傳染病的流行過程、流行特征及其有關因素的具體分析,判斷該病即將流行的趨勢和強度。定量預測是借助數學手段利用原始資料,建立恰當的數學模型,預測未來傳染病的發病數和發病率。綜合預測又稱組合預測,是指應用2 種或2 種以上的預測模型對某種傳染病進行預測,綜合利用各種單個預測模型所提供的信息,以適當的加權平均形式得出組合預測模型。ARIMA 模型適用于各種復雜的時間序列模式,是目前較通用的預測方法之一[4-7],已廣泛應用于傳染病發病率的預測,特別是具有季節性趨勢的傳染病預測。本文收集我國艾滋病發病疫情數據,應用ARIMA 模型擬合全國艾滋病的月發病率,并預測短期艾滋病發病趨勢,旨在對這類傳染病早期預警提供理論參考。
1.1 數據來源 數據資料來源于我國疾病預防控制局 網 站(http://www.nhc.gov.cn/jkj//new_index.shtml)2006 年1 月-2019 年6 月的全國法定報告傳染病疫情資料,其中2006 年1 月-2018 年12 月的數據用于建立模型,2019 年1 月-6 月的數據用于驗證模型的預測效果。
1.2 方法 建立季節性ARIMA 模型,即ARIMA(p,d,q)(P,D,Q)S,其中p、q 為自回歸和移動平均階數,P、Q 為季節性自回歸和移動平均階數,d、D 為非季節性和季節性差分次數,s 為季節周期。對數據進行數據平穩化處理,通過時序圖初步判斷序列是否平穩,若為不平穩序列,則針對序列不平穩的趨勢性或周期性進行差分或季節性差分處理,實現序列的平穩化。①模型識別:對平穩序列做自相關圖,根據自相關函數和偏自相關函數拖尾、截尾情況估計p、d、q 值,建立備選模型;并根據貝葉斯準則(BIC)選擇最優模型。②模型檢驗:選擇殘差檢驗的Q 統計量檢驗,根據各滯后期Q 統計量的P值,檢驗結果不能拒絕殘差不相關的零假設,即模型的殘差序列是白噪聲序列,所選模型恰當,可用于預測。③預測并驗證:運用最終選定的ARIMA 模型進行預測,并與實際值比,計算殘差的95%CI(置信區間)以及相對誤差,以驗證模型的擬合效果。
1.3 統計學方法 采用SPSS 23.0 軟件進行數據統計分析,取顯著性水平為0.05。
2.1 序列的平穩化 2006 年1 月-2018 年12 月我國艾滋病月發病數時間序列圖見圖1,該序列呈現出明顯的非平穩性和季節性(s=12),并隨著時間呈現遞增。數據經過對數轉換、一階差分和一階季節差分后達到平穩,見圖2。

圖1 我國艾滋病月發病數時間序列圖

圖2 經過轉換的數據序列圖
2.2 模型的識別與定階 由于原始數據經過一階差分和一階季節差分后達到平穩,取s=12,d=1,D=1;觀察差分后的自相關圖見圖3,ACF 滯后1 階后趨向0,判斷序列的自相關函數呈1 階截尾,故p=1;觀察差分后的偏相關圖見圖4,PACF 滯后2 階后逐步趨向0,判斷序列的偏相關函數呈2 階拖尾,故q=2。模型初步為ARIMA(1,1,2)(P,1,Q)12,季節模型的P、Q 值較難判斷,但根據文獻,參數P、Q 很少超過2 階,分別取0、1、2(共有9 個模型)由低階到高階摸索試驗,結合模型的擬合優度、殘差以及系數間的相關性進行估計,采用Ljung-Box 方法檢驗殘差白噪聲,非白噪聲模型排除。

圖3 差分后序列的自相關圖

圖4 差分后序列的偏相關圖
2.3 參數估計及診斷 對9 組模型進行檢驗,模型ARIMA(1,1,2)(0,1,1)12正態化BIC 值(12.839)最小,R2=0.902 最大,楊-博克斯統計量為18.726,P=0.176,殘差序列為白噪聲;殘差序列的自相關系數及偏相關系數均在95%CI,見圖5,由此判斷ARIMA(1,1,2)(0,1,1)12模型為最優模型。

圖5 殘差序列的自相關系數及偏相關系數
2.4 模型預測 用ARIMA(1,1,2)(0,1,1)12模型預測全國2019 年1 月-6 月艾滋病月發病人數,并對實際數據進行預測精度的驗證,見表1,該模型的預測結果平均相對誤差率為10.10%,預測值比較接近實際值,該模型具有較好的預測功能。

表1 模型預測的誤差
在定量預測模型中,ARIMA 模型能將各種已知的、未知的因素綜合成統一的影響因素蘊含在時間序列變量中,比較靈活,既適用于非周期性序列,也適用于周期性序列。周期可以為年份、季度、月份,適用范圍更廣泛且所需的原始資料較少,對短期內傳染病的預測效果較佳,具有較為廣泛的應用前景。
目前國內對艾滋病的預測研究報告不多,且多是對艾滋病的地區年發病情況進行分析預測,對全國的發病情況進行預測研究的報道較少。本研究結果顯示,全國2006 年1 月-2018 年12 月艾滋病發病率呈現出明顯季節周期性,且發病率呈逐年上升趨勢,有必要對艾滋病發病趨勢進行準確預測,提前做好應對措施、制定防控方案。本研究通過正態化BIC 值最小,擬合優度最大,楊-博克斯統計量顯著性和殘差序列為白噪聲等指標,篩選ARIMA(1,1,2)(0,1,1)12模型為擬合效果最優模型;同時利用2019 年上半年艾滋病的月發病率進行預測,結果顯示預測的平均誤差絕對率為10.10%,預測值接近真實值,提示該模型具有較好的預測功能。
建立ARIMA 模型需要一定數量的歷史數據,所建立的模型只能用于短期預測;當獲得新數據時,應不斷加入新的實際值,以修正或重新擬合更優的模型。因此,在制定艾滋病的預防控制策略和具體的措施時,還必須考慮其他綜合因素對預測結果的影響,采用多種方法綜合分析[8-10],會有更好的效果和預測精度。
本文用ARIMA 模型對我國艾滋病發病趨勢進行了分析和預測,模型擬合優度為0.902,預測結果的平均相對誤差為10.10%,說明ARIMA 模型能夠較好地擬合并預測我國艾滋病的月發病人數,為艾滋病的防控提供定量分析的依據。