◇玉林師范學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院 鐘德炎 陳麗華 吳榮火
目的:基于我國(guó)公開(kāi)數(shù)據(jù)中有關(guān)新型冠狀病毒肺炎(COVID-19)的死亡病例時(shí)機(jī)數(shù)據(jù),預(yù)測(cè)以后的死亡病例。方法:結(jié)合時(shí)間序列理論,建立尚有確診的時(shí)間序列的殘差自回歸模型。結(jié)果:殘差自回歸模型預(yù)測(cè)效果較好,有一定的參考價(jià)值。
2019年12月以來(lái)[1],湖北省武漢市因不明原因出現(xiàn)了多例新型冠狀病毒肺炎的患者。與此同時(shí),全世界多個(gè)國(guó)家也受到了新型冠狀病毒肺炎的影響,全球受新冠肺炎疫情影響的國(guó)家和地區(qū)數(shù)量已達(dá)101個(gè)[2]。這是一種急性感染性肺炎,具有人傳染人的能力,感染初期病人有發(fā)熱、乏力、干咳的征狀,嚴(yán)重者可出現(xiàn)呼吸困難、呼吸窘迫綜合征或濃毒癥休克,可增加進(jìn)入重癥監(jiān)護(hù)室(ICU)的概率和病死率[3]。疫情期間,引起了很多人的恐慌,擔(dān)心疫情得不到控制,擔(dān)心死亡的病例越來(lái)越多。因此,對(duì)因新冠狀病毒肺炎而死亡的病例進(jìn)行研究具有重要意義,本文將通過(guò)我國(guó)每日的數(shù)據(jù)進(jìn)行時(shí)間序列分析。
殘差自回歸模型常用于有確定性趨勢(shì)的時(shí)間序列數(shù)據(jù),基本思想是先利用確定性因素分解法提取時(shí)間序列中的主要確定性信息,如果信息提取充分,則殘差序列的自相關(guān)性不顯著,可以利用確定性回歸模型進(jìn)行擬合;但如果殘差序列的自相關(guān)性顯著,則需要進(jìn)一步對(duì)殘差序列擬合自回歸模型提取隨機(jī)因素信息[4]。
殘差自回歸是一種分析非平穩(wěn)時(shí)間序列的研究方法[5]。殘差自回歸模型表達(dá)式有兩種情況:以時(shí)間為自變量的情況下,表達(dá)式為:

以歷史觀察值為自變量的情況下,表達(dá)式為:

本研究數(shù)據(jù)來(lái)源于中國(guó)人民共和國(guó)國(guó)家衛(wèi)生健康委員會(huì)官網(wǎng)(http://www.nhc.gov.cn/),選取2020年1月20日到2020年3月10日新型冠狀病毒肺炎(COVID-19)相關(guān)數(shù)據(jù)。
模型的建立基于R軟件。首先判斷原序列的平穩(wěn)性,根據(jù)死亡病例據(jù)繪制時(shí)序圖(見(jiàn)圖1)。

圖1 2020年1月20日到2020年3月10日死亡病例時(shí)序圖
通過(guò)時(shí)序圖,可以看出死亡病例在2020年1月20日到3月10日有明顯的趨勢(shì),初步判斷該時(shí)間序列為非平穩(wěn)的時(shí)間序列。且根據(jù)ADF檢驗(yàn)結(jié)果顯示:Dickey-Fuller=-2.7077,p-value=0.2899>0.05,即存在單位根,明確時(shí)間序列為非平穩(wěn)的時(shí)間序列。死亡人數(shù)的時(shí)間序列具有明顯的確定性趨勢(shì),且沒(méi)有季節(jié)效應(yīng),所以選擇以殘差自回歸模型對(duì)數(shù)據(jù)進(jìn)行擬合。首先分別對(duì)以時(shí)間t為自變量和以歷史觀察值為自變量的兩個(gè)確定性趨勢(shì)模型進(jìn)行構(gòu)建,通過(guò)R軟件進(jìn)行分析,得出兩個(gè)確定性趨勢(shì)模型的結(jié)果。
模型一:t為自變量的確定性趨勢(shì)模型

模型二:歷史觀察值為自變量的模型

首先通過(guò)殘差序列的自相關(guān)圖和偏自相關(guān)圖來(lái)確定自回歸模型的階數(shù)。
由圖2可知,自相關(guān)系數(shù)拖尾,偏自相關(guān)系數(shù)1階截尾。因此,對(duì)模型一的殘差序列擬合AR(1)模型。由圖3可知,自相關(guān)系數(shù)拖尾,偏自相關(guān)系數(shù)2階截尾,即對(duì)模型二的殘差序列擬合AR(2)模型。由擬合結(jié)果得:

圖2 模型一殘差自相關(guān)和偏自相關(guān)圖

圖3 模型二殘差自相關(guān)和偏自相關(guān)圖
擬合模型一的殘差序列自回歸模型為:

擬合模型二的殘差序列自回歸模型為:

綜合上面的分析,對(duì)2020年1月20日到2020年3月10日因新型冠狀病毒肺炎確死亡病例的時(shí)間序數(shù)據(jù),我們可以通過(guò)以下殘差自回歸模型進(jìn)行擬合。

建立模型的重要意義就是通過(guò)模型來(lái)進(jìn)行預(yù)測(cè),所以在這里通過(guò)自回歸殘差模型對(duì)2020年3月11日到2020年3月15日因新型冠狀病毒肺炎的死亡病例進(jìn)行預(yù)測(cè),并將預(yù)測(cè)結(jié)果和實(shí)際結(jié)果進(jìn)行比較。模型預(yù)測(cè)效果的指標(biāo)體系很多,一般使用平均相對(duì)誤差這一相對(duì)指標(biāo),其定義條件一般認(rèn)為MAPE值小于10%,則是預(yù)測(cè)精度較高的預(yù)測(cè)結(jié)果。預(yù)測(cè)結(jié)果見(jiàn)表1。計(jì)算方法為:

由表1可知,用殘差自相關(guān)模型預(yù)測(cè)2020年3月11日到2020年3月15日的死亡病例的相對(duì)誤差可知在8.06%以?xún)?nèi),且平均相對(duì)誤差是4.812%<10%,即該模型的預(yù)測(cè)效果較好。

表1 2020年3月11日-3月15日的死亡人數(shù)比較表