基于時間序列方法建立廣東省肺結核病發病預測模型

2019-09-10 07:22:44曾潔文

赤峰學院學報·自然科學版 2019年6期

曾潔文

摘要：以廣東省2004-2016年各月肺結核發病例數為數據基礎，結合時間序列分析方法與SAS軟件、Excel軟件，構建廣東省肺結核發病例數預測模型疏系數ARIMA（（11，12），1，（1，11））模型，得出廣東省肺結核發病規律為每年的3月-8月是廣東省肺結核發病的高發期，4月、12月分別為每年發病的最高峰和最低峰.用2017年各月肺結核發病例數檢測模型預測效果，預測值符合廣東省肺結核發病規律，平均絕對百分比誤差為2.12%，模型屬于高精度模型.對2018年各月肺結核發病例數進行預測，預測值均落入95%置信區間內.疏系數ARIMA（（11，12），1，（1，11））模型可較精確預測廣東省肺結核發病例數，為肺結核的預防控制工作提供理論基礎.

關鍵詞：時間序列;疏系數ARIMA模型;肺結核;預測

中圖分類號：O213? 文獻標識碼：A? 文章編號：1673-260X（2019）06-0011-03

肺結核是一種由結核分枝桿菌入侵人體分布而引起的慢性傳染病.肺結核雖然是乙類傳染病，但在傳染性疾病中排名第一.雖然結核病的防控在中國已經取得了很大的進步，但現今中國仍然是肺結核流行病的重災區，其嚴重程度僅次于印度和印度尼西亞，而廣東省又是我國肺結核負擔最重的省份.廣東省我國的流動人口大省，人口相對我國其他省份高度集中，再加上肺結核是呼吸道傳染病，以上條件為肺結核在廣東省的傳染和爆發提供了基礎.劉維華、朱建良、郭付愛等已為石家莊地區建立學校結核病預警模型[1];李曉榮、龐學文、于燕明等人已對天津市結核病發病建立ARIMA（0，1，1）（0，1，1）模型進行預測[2].然而至今尚缺乏針對廣東省肺結核發病的、有效的模型擬合并預測.本研究結合時間序列理論，以廣東省2004年1月—2016年12月廣東省肺結核發病例數為建立模型的數據基礎，建立疏系數求和自回歸移動平均模型，即疏系數ARIMA模型，預測廣東省未來各月肺結核發病情況，為廣東省及時采取有效且迅速措施提供重要理論依據，同時為其他省份建立肺結核發病預測模型提供方法與基礎.

1 資料和方法

1.1 數據來源

數據來源是中國疾病預防控制中心官網中廣東地區2004年-2018年各月肺結核發病例數.

1.2 研究方法

1.2.1 疏系數ARIMA模型理論基礎

ARIMA模型，即求和自回歸移動平均模型，是由美國統計學家Box和英國統計學家Jenkins與1970年提出的經典時間序列分析模型，主要運用于單變量、同方差場合下.該模型的基本思想是某件事情的發展通常是有一定慣性的，即時間序列值之間的相關關系，而該相關關系又具有某種統計性質或規律，當這種統計規律被刻畫描述出來后，就可以對時間序列的歷史值和當前值進行擬合、對未來值進行預測.而疏系數ARIMA模型是指原ARIMA（p，d，q）模型中的自相關系數和移動平均系數有部分缺省的模型，ARIMA（（p1，p2…pm）），d，（q1，q2…qn）.[3]

1.2.2 疏系數ARIMA模型建模方法

以廣東省2004年1月—2016年12月廣東省肺結核發病例數為建立模型的數據基礎.第一步，觀察初始序列圖，獲取初始序列的基本、明顯特征，進行平穩性檢驗，根據自相關系數函數與偏自相關系數函數判斷初始序列是否具有周期性和趨勢性，并確定周期長度和趨勢走向.第二步，根據第一步中獲取的初始序列特征，對初始序列進行合適的差分?d與周期差分?s，消除初始序列的非平穩性，并再次進行平穩性檢驗，獲得平穩時間序列.第三步，根據差分后序列的自相關函數與偏自相關函數，為初始疏系數ARIMA模型定階.第四步，在初始模型基礎上調整參數并對參數進行最小二乘估計與最大似然估計，直至各個參數均通過顯著性檢驗、差分后序列通過白噪聲檢驗與殘差自相關檢驗.最后，在最終模型的基礎上，利用廣東省2017年1月—12月的肺結核發病例數對模型預測做出評價，對2018年1月—12月的肺結核發病例數做出預測和95%的置信區間.

1.3 統計分析工具及水平

本研究中采用SAS軟件和Excel軟件進行分析，顯著性水平取0.05.

2 模型建立過程

2.1 獲取序列特征

從Excel軟件制作的廣東省2004年1月-2016年12月肺結核發病例數時序圖可知，廣東省2004-2016年各月肺結核發病例數總體呈現波動性的先上升后下降的趨勢，且有明顯的周期性，周期長度為12個月.

為了提取出廣東省肺結核發病的具體規律，本研究采用提取季節指數的方法提取廣東省肺結核發病規律，計算廣東省2004-2016年同年各月肺結核發病總月平均例數，以及13年間的總平均發病例數，將同年各月總平均發病例數除以13年間總平均發病例數，算得各月季節指數分別為：1.15、0.94、1.17、1.21、1.19、1.14、1.12、1.11、1.02、1.02、0.87、0.71.其中，4月的季節指數最高，為1.21;而12月的季節指數最低，為0.71.3月到8月的季節指數持續偏高，9月開始有明顯下降趨勢，最低降至12月，在下一年的1月又有回彈并重復前面的規律.

從季節指數計算結果可知，廣東省肺結核發病規律為：每年的4月是全年發病例數最高峰，3月—8月是肺結核病的高發期，從9月開始廣東省肺結核發病例數較3月-8月有明顯持續性下降，至11月、12月肺結核病發病危險程度已降至較低水平，12月是全年發病例數最低谷.

2.2 疏系數ARIMA模型定階

2.1節中已知廣東省2004年1月—2016年12月肺結核發病例數時序有一定的趨勢性和明顯的周期性，周期長度為12個月，所以初始序列屬于非平穩序列，要對序列進行1階12步差分.差分后的序列在0.05的顯著性水平上通過單位根檢驗且不能通過白噪聲檢驗，則可認為差分后序列是平穩的非白噪聲序列，需要繼續提取信息.利用SAS軟件做出差分后序列的自相關（ACF）圖和偏自相關（PACF）圖，可知自相關系數除了在延遲11、12階時明顯超出了2倍標準差，在1階之后基本上落在2倍標準差以內;而偏自相關系數除了在延遲11、12、24階的時候明顯超出2倍標準差，在3階之后基本落在2倍標準差以內.綜合考慮自相關系數與偏自相關系數的情況，建立初始疏系數ARIMA（（1，2，11，12）1，（2，3，11，12））.

由于在參數顯著性檢驗中初始疏系數ARIMA模型多個參數不顯著，所以對模型參數進行調整.經過多番調整并對模型各個參數進行最小二乘估計和最大似然估計后，疏系數ARIMA（（11，12），1，（1，11））模型各個參數均顯著不為零;且殘差序列通過白噪聲檢驗，為白噪聲序列.所以，確定ARIMA（（11，12），1，（1，11））模型為對廣東省肺結核發病例數進行預測是比較理想和合理的最終模型，即

?12?xt=εt

εt～NID（0，73.5384）

3 模型擬合及應用

3.1 模型擬合預測效果

為了檢驗2節中建立的疏系數ARIMA（（11， 12），1，（1，11））模型的預測效果，將廣東省2017年1月—12月的肺結核發病例數進行回代預測.預測結果顯示，2017年的3—8月是廣東省該年肺結核發病的高發期，4月為最高峰，12月為最低谷，這與實際發病例數和2.1節中得到的序列特征符合.將預測值與真實值作對比，預測值與真實值之間的平均絕對百分比誤差（MAPE）為2.12%，在10%的標準以下[4]，且實際發病例數均在預測發病例數的95%置信區間之內，所以可認為該模型屬于高精度模型.具體數據請參考表1.

3.2 模型預測應用

使用疏系數ARIMA（（11，12），1，（1，11））模型對廣東省2018年1-12月肺結核發病例數進行預測.從預測結果可知，2018年3月-8月依然是廣東省肺結核發病高發期，其中最高為4月的7531例，最低為12月的5468例，極值差為2063，較往年相比該年變化幅度不大，總體發病趨勢與往年相比無明顯變化.2018年各月肺結核發病例數均落在95%的置信區間內，即就預測數據來看，在2018年，廣東省并無肺結核病暴發的跡象.

3 討論

近年來，時間序列的方法與模型越來越多地被應用到傳染病的預測中，了解傳染病發病趨勢和規律、建立良好且敏感的模型擬合并預測，為及時采取有效且迅速措施提供重要理論依據，切實保障人民的身體健康.目前廣泛應用到傳染病預測的時間序列模型除了ARIMA模型以外，還有混合分解模型、殘差自回歸模型和GARCH模型等等.如今，ARIMA模型是傳染病預測中最常用的模型之一，而疏系數ARIMA模型作為ARIMA模型的推廣，使ARIMA模型的定階與構建更多元化、使用范圍更廣.預測精度上，疏系數ARIMA模型對殘差進行了白噪聲檢驗，當殘差通過白噪聲檢驗時，模型已具有較高的精確度[5]-[8].

本研究中主要是采用SAS軟件中有關時間序列部分的包，運用最小二乘法和最大似然估計法構建、擬合最佳的模型.經過參數調整后，最終挑選出最優的模型為疏系數ARIMA（（11，12），1，（1，11））模型.在確定模型后，首先使用模型對廣東省2017年1月—12月的肺結核發病例數進行預測，將獲得預測值與真實值作對比，發現預測值與真實值偏差較小且符合往年發病規律，說明該模型屬于高精度模型.然后，再使用疏系數ARIMA（（11，12），1，（1，11））模型預測了廣東省2018年1月—12月的肺結核發病例數，根據預測值大致了解2018年廣東省肺結核病的疫情，同時還可以根據當月的真實發病例數是否落入對應的95%預測區間中，初步判斷下一個月是否有疫情暴發的可能.因此，可根據本研究中建立的疏系數ARIMA模型，提前預測廣東省未來的肺結核月發病例數，提早采取相應的預防控制措施，做好充分準備工作.

參考文獻：

〔1〕劉維華，朱建良，郭付愛，等.應用時間序列法建立學校結核病預警模型研究[J].中國學校衛生，2018，39（11）：1682-1685.

〔2〕李曉榮，龐學文，于燕明，等.ARIMA模型在天津市結核并發病預測中的應用[J].實用預防醫學，2018，25（12）：1536-1538.

〔3〕王燕.應用時間序列分析[M].北京：中國人民大學出版社，2005.118-121.

〔4〕孫文生，楊汭華.經濟預測方法[M].北京：中國農業大學出版社，2005.272-273.

〔5〕劉繼恒，白春林，孫要武，等.應用ARIMA模型預測肺結核報告發病例的研究[J].中國熱帶醫學，2014，14（9）：1067-1070.

〔6〕吳祖達.福州市2008-2012年學生肺結核發病特征分析[J].海峽預防醫學雜志，2014，20（4）：76-78.

〔7〕孫光，張良，謝金貴，等.ARIMA模型在阜陽市手足口病發病數預測中的應用[J].安徽預防醫學雜志，2015，21（4）：231-234.

〔8〕王怡，張震，范俊杰，等.ARIMA模型在傳染病預測中的應用[J].中國預防醫學雜志，2015，16（6）：424-428.

赤峰學院學報·自然科學版2019年6期

赤峰學院學報·自然科學版的其它文章: Apriori算法在新工科學生專業承諾研究中的應用; “互聯網+教育”模式下高校教學新生態的研究; 理論、實驗、實踐三位一體的量化計算教學探索; 領航與助推：地方師范學院信息資源支持鄉村教師專業發展研究; 網頁設計制作課程MOOC移動教學資源庫的構建; 論短式網球在合肥市高校體育中的價值提升