苑斌 石曉峰 霍春青 趙晶 何世華 趙玉華 嚴靜 費雯 欒曉婷 金海強 孫永安
1菏澤醫學??茖W校附屬醫院神經內科,山東274000;2菏澤醫學??茖W校教務處,山東274000;3西藏自治區人民醫院神經內科,拉薩850000;4清華大學附屬第一醫院神經內科,北京100016;5北京大學第一醫院神經內科100034
棘球蚴病是人感染細粒棘球絳蟲及多房棘球絳蟲的幼蟲(包蟲囊)所致的全球畜牧業發達地區常見的人畜共患病,其又稱為“包蟲病”。在中國,包蟲病的高發地集中于以畜牧業為主要產業的地區,比如西藏、新疆、內蒙古等地區。包蟲囊主要是通過感染人的肝、腎、腦、肺等臟器,其發病病程長,嚴重影響患者身心健康,而且是高度致死的疾病,患者如不經及時治療,10年內本病病死率為90%。因此掌握西藏高發地區流行趨勢,是開展相關健康教育、預防治療的前提和基礎。本研究采用X-12自回歸移動平均(X-12-ARIMA)乘積季節模型對西藏地區包蟲病月報告病例數進行預測,從而為其防控提供參考依據。
1.1 資料來源包蟲病患者的數據來源于西藏自治區人民醫院。疾病分類標準則按照國際疾病ICD-10的分類,B67為包蟲病的診斷編碼。
1.2 方法
1.2.1 數據處理數據存儲和管理則采用Microsoft Excel 2013、SAS 9.2對資料數據進行處理和統計分析。
1.2.2 X-12-ARIMA乘積季節模型X-12過程:X-12過程是根據美國人口普查局X-12-ARIMA季節調整程序改編,用于調整具有月度或季度時間序列數據。過程包含了X-11過程以及一些新的特征,一個主要提高是應用RegARIMA模型,利用該模型進行移動假日、月份長度、交易日效應等固定效應的調整。
標準:具有季節性的ARIMA模型為ARIMA(p,d,q)×(P,D,Q)S,其中p代表非季節性自回歸階數,d代表非季節性差分階數,q代表差分階數移動平均階數,P代表季節性自回歸階數,D代表季節性差分階數,Q代表季節性移動平均階數以及S代表季節性周期。對于一個季節ARIMA模型來說:(1)確定周期,根據時序圖進行判斷;(2)判斷時間序列是否平穩,根據時序圖、自相關系數(ACF)和偏自相關系數(PACF)進行判斷,如果得出非平穩時間序列,則進一步進行差分運算轉化為平穩序列,并進行平穩性檢驗;(3)模型定階,根據X-12模型基本原理、ACF以及PACF來進行模型定階,所以擬合模型實質為ARIMA(p,q)×(P,Q),綜合前面的d階趨勢差分和D階以周期S為步長的季節差分運算,對原觀察值序列擬合的乘積模型;(4)參數估計,使用條件最小二乘估計方法,確定該擬合模型的口徑;(5)模型檢驗及預測應用,對擬合模型進行檢驗,并根據擬合模型對西藏地區2013至2018年包蟲病月度發病率進行預測。
2.1 包蟲病發病基本情況根據西藏自治區2013年8月至2018年7月包蟲病月度發病人數數據顯示,包蟲病發病具有明顯的季節效應和周期效應(表1);其中可看出隨著月份的增加包蟲病發病率呈現逐漸下降的趨勢,其發病高峰期為1月至4月。由此可看出西藏自治區包蟲病月發病人數呈現波動性下降。

表1 2013至2018年西藏自治區包蟲病月度發病人數(n)
2.2 模型識別季節調整和趨勢成分分解(X-12)分析顯示,西藏自治區2013至2018年包蟲病月發病人數時間序列分解為趨勢因素、季節因素和不規則因素。西藏自治區包蟲病發病人數存在季節趨勢,并先呈下降趨勢,具有一定的周期性。
X-12的趨勢成分分解分析中,在假定穩定性的前提下確定是否存在季節性檢驗,檢驗結果提示(F=11.41,P<0.001)。結合原始數據序列、季節指數及季節性檢驗,提示包蟲病月發病人數存在明顯的高峰和低谷現象。
結合乘法模型在剔除季節和趨勢成分后得到西藏自治區包蟲病月發病人數的不規則成分影響程度大于1,則說明包蟲病月發病人數受不規則成分影響較大。
2.3參數估計和模型診斷X-12模型中,根據序列圖可看出2013至2018年包蟲病月發病人數為不穩定的序列,存在波動性下降趨勢。對于時序圖,首先進行差分運算,再根據時序圖的趨勢進行1階12步差分,差分后檢驗得出平穩序列。初步判斷時間序列模型為ARIMA(p,1,q),采用IDENTIFY語句根據ACF和PACF以及AUTODML的自動選擇過程,確定最終選擇ARIMA(1,1,0)×(1,1,0)12模型為最佳模型,模型殘差和參數檢驗見表2、表3、圖1。

表2 不同延遲階數殘差的白噪聲檢驗

表3 精確ARIMA最大似然估計
2.4 回代擬合及模型預測根據模型預測結果和擬合誤差,即運用ARIMA(1,1,0)×(1,1,0)12模型進行回代擬合并對包蟲病月發病人數進行預測,將序列擬合值和序列觀察值聯合作圖,可以觀察到擬合效果良好;并對2018至2019年包蟲病月發病人數進行預測,并根據月發病人數可以得出西藏自治區包蟲病月發病人數,見圖2。

圖1 2013至2018年西藏自治區包蟲病月發病人數1階12步差分后時序圖

圖2 2013至2019年包蟲病月發病人數與預測發病人數擬合效果比較
包蟲病是一種人獸共患的由棘球屬絳蟲幼蟲引起的寄生蟲病,在畜牧發達地區存在高發病率、高病死率以及高復發率的特點,給當地居民造成嚴重的經濟負擔及健康問題[1]。并且中國是全世界包蟲病發病最嚴重的國家之一[2]。在中國,青海、西藏、甘肅、寧夏等經濟與醫療條件相對落后的地方,包蟲病廣泛流行。2016年西藏自治區對包蟲病進行普查,發現該地區包蟲病患病率為1.66%,全區包括7個地(市)的74個縣(區)均有不同程度的流行[3]。狗、羊、牛是該病常見的宿主。西藏地區為畜牧區,衛生條件相對較差,牧民與包蟲病宿主接觸頻繁,易通過糞-口途徑感染。人感染棘球屬絳蟲幼蟲后,幼蟲則會進入人體的門靜脈系統,從而滯留于肝臟內,并在肝內逐漸長大,壓迫周圍肝組織和肝內膽管,常引起肝細胞不可逆損傷和阻塞性黃疸,晚期病死率高,號稱“蟲癌”[4]。
對于包蟲病,目前研究主要集中于預防、診斷及治療,而國際公認此病的預防要遠勝過治療。在中國,包蟲病分布地區比較廣泛而且發病人數也較多,包蟲病的防治則需要消耗比較多的人力、物力以及財力,同時還要保證防治機制的可持續性,這些問題都增加了此病防治的難度[5-6]。
隨著對包蟲病研究的不斷深入及國家對傳染性疾病防控力度的不斷加大,西部地區包蟲病的發病率顯著降低。但包蟲病具有高復發率的特點,包蟲病預防工作意義深遠。國家衛計委于2016年下發了關于包蟲病防治的“十三五”規劃,將包蟲病列為我國重點防治的寄生蟲病之一[7]。
目前ARIMA模型在傳染病的發病預測中得到廣泛應用。比如王永斌等[8]運用此模型預測了我國梅毒的發病率,姚英和沈毅[9]預測了杭州市手足口病的發病趨勢。美國學者Box和英國統計學家Jenkins在20世紀70年代提出ARIMA模型,該模型分為兩個:簡單模型和乘積季節模型,并且發現此模型短期預測精確度高[10]。ARIMA乘積季節模型可以充分的提取趨勢信息和季節信息,并能借助模型參數進行量化表達[11]。因其在傳染病發病率預測中具有簡便、適用和短期預測精度較高的優點,故本文應用ARIMA乘積季節模型預測包蟲病的發病率,從而為包蟲病的防治提供有效的依據。
然而,ARIMA模型也有其局限性,主要包括以下幾點:(1)獲得的歷史數據較少,所建立的模型的有效性則相對低;反之,收集的數據越多則能建立更為優化的模型。(2)環境因素的改變極易導致預測效果不理想。(3)長期預測精度相對較低。因此為了提高此模型的精準性,在實際工作中,提高數據的準確性是重中之重。如果在研究過程中,研究對象的趨勢發生較大變化時,則需要重新收集新的數據,實時對模型進行修正和重新擬合,使該模型的預測結果與當年包蟲病實際發病情況一致。