林德雙,金秀玲,劉文鑫,黃正鵬,黃怡宣
(閩江學院 數學與數據科學學院,福建 福州 350108)
2019年底暴發的新冠肺炎疫情給全世界帶來了巨大的影響。疫情給各國人民生命安全和身體健康帶來嚴重的威脅,對世界經濟造成嚴重的沖擊。我國政府采取一系列積極的防控措施,疫情已逐漸緩和,疫情的防控工作進入常態化,但國外疫情仍處于嚴峻的狀態。因此對疫情的發展趨勢進行分析和預測,是對科學有效部署疫情防控工作,具有重要的意義。
目前,不少國內外專家學者對疫情數據建立了傳統的統計模型和病毒傳播模型,有非線性回歸、Bernstein模型、時間序列模型、修正SIR模型、SEIR動力學模型、SEIR模型等[1-7],對不同地區、不同視角、對疫情發展趨勢和疫情防控措施的有效性進行了分析和預測。有一部分學者研究COVID-19流行病的感染控制和預防策略,從傳播途徑、發病狀況、疫情檢測分析、防控救治、資源調配、抗疫成效等方面進行了研究[8-13]。各行從業者就行業特點,對疫情進行研究和探索。
就目前的文獻看,其中對世界的疫情發展狀況進行全局性的探索,專門針對中國整體疫情發展進行的建模預測相對較少。因此,本文結合世界各國抗疫的成效和COVID-19疫情發展的歷史數據,基于K-means聚類方法進行全球疫情局勢分析,對中國疫情歷史數據建立ARIMA模型預測中國疫情的發展趨勢,為疫情的預警監測提供一定的科學依據。
文中COVID-19疫情數據通過南方醫科大學余光創教授制作的一個用于下載疫情實時數據的nCov 2019軟件包獲取,nCov 2019軟件包獲取的實時疫情數據來自包括騰訊、丁香園、國家衛健委、GitHub等多個網絡平臺,數據獲取來源真實可靠。數據包括中國、美國、巴西等在內的158個國家,含有confirm(累計確診人數)、dead(累計死亡人數)、dead Rate(死亡率)、heal(累計治愈人數)、heal Rate(治愈率)共計5個變量。
為了顯著的體現世界各國疫情的發展狀況,文中采用158個國家的疫情暴發累計確診100例以上的進行分析,如圖1所示,世界各國疫情暴發100例以來的發展趨勢曲線圖。
可見各國的累計確診人數增長趨勢均呈現先快后慢,最終趨于平緩的共同特征;在沒有得到有效的防控之前,累計確診人數的增長速率是極其可怕的;其中疫情較為嚴重的國家大都處在疫情發展中期。從圖中可以明顯看出美國的暴發趨勢曲線在這里尤為突出,比較嚴重有巴西、俄羅斯等國家,其近期的增長趨勢也是極其明顯。在這些國家還沒有實施有效措施之前,預計疫情拐點不會輕易到來。相對來說,中國、日本等早期暴發的國家疫情已逐漸緩和,說明國家的積極抗疫措施以及人民群眾的密切配合起到了較好的效果。
K-means聚類算法是一種無監督的聚類算法,簡單性是它最大的特點,該方法通過計算出最優簇類數K,將n個樣本劃分為K個簇,讓簇里面的點盡量并且緊密的連在一起,同時讓不同的簇之間的距離盡量的大,兩個對象之間的距離越近,那么它們的相似性就越高。
對世界各國疫情發展的累計確診人數進行k-means聚類分析,利用R軟件進行客觀聚類結果如圖2,再與全球抗疫形式實際情況相結合,確定最佳聚類數目為6。以confirm、dead、dead Rate、heal、heal Rate為聚類中心,通過K-means聚類將世界各國抗疫情成效歸為6大類,聚類結果如表1所示。

圖2 最佳聚類數目的選擇Figure2 selection of the optimal number of clusters

表1 各國家聚類結果表 Table1 clustering results of each country

圖3 聚類中心雷達圖Figure3 Radar map of cluster center
從表1和圖3可以看出,K-Means聚類結果的6大類國家特征:第一類,瑞士、澳大利亞等在內的106個國家,該類國家疫情防控效果較好,累計確診低、死亡數也較低;第二類,巴西、俄羅斯等10個國家,該類國家疫情防控效果一般,累計確診較高,但治愈能力也相對較高,由于基數較大,所以死亡、死亡率也顯得比較高,只要做好疫情防控工作,這類國家的疫情發展狀況會有較好的改觀;第三類,荷蘭、比利時等10個國家,該類國家累計確診人數相對較低,治愈率也較低,這類國家需要繼續做好疫情防控工作,并且提高國家醫療水平,謹防疫情的大規模暴發擴散;第四類,英國、法國等9個國家,該類國家死亡率高、治愈率低,疫情狀況不容樂觀,如此情況的發生與國家早期實施的抗疫措施也是密不可分的;第五類,中國、芬蘭等16個國家,該類國家確診人數相對較低,治愈率極高,死亡率較低,疫情狀況較好,但也仍需繼續做好防疫措施,防止疫情再次暴發;第六類,美國,該類國家累計確診、死亡、死亡率、治愈、治愈率都極高,如果不及時調整好防疫措施,疫情狀況將進一步惡化。綜上述,可以發現聚類結果與實際結果相符合,結果較好,可以間接反映出各國抗疫措施的好壞。
ARIMA模型也就是差分整合移動平均自回歸模型(Autoregressive Integrated Moving Average model)。在ARIMA(p,d,q)模型中,d即差分,差分運算用于確定性信息的提取,通過差分提取確定性信息,使得非平穩序列顯示出平穩序列的性質,“差分”一詞雖未出現在ARIMA的英文名稱中,卻是關鍵步驟,通過差分顯示平穩的序列也稱為差分平穩序列。AR在模型中表示自回歸,p是自回歸項數,MA為滑動平均,q是滑動平均項數,對差分平穩序列可以進行ARIMA模型進行擬合。如圖4,ARIMA模型流程圖。

圖4 ARIMA模型建模流程Figure4 ARIMA model modeling process
抓取中國1月13日至6月2日的疫情數據進行建模,提取這142天數據,包含confirm(累計確診人數)、dead(累計死亡人數)、heal(累計治愈人數)、heal Rate(治愈率)3個變量。
首先觀察中國2020年1月13日至2020年6月2日疫情下確診、死亡、治愈人數趨勢曲線如圖5所示,中國疫情在爆發后早期呈現出指數式增長趨勢,這是由于初期人們對新冠病毒的了解不足,隨著中國政府積極抗疫態度,及時實施了限制出行等抗疫措施,在人民群眾的積極配合下,疫情防控取得明顯效果,疫情的增長趨勢趨于緩和。其中累計確診人數曲線中,前中期增長的線性趨勢非常明顯,為非平穩時間序列。經過一階差分后的數據如圖6所示,其長期的線性趨勢已經去除,相對較為平穩。ADF檢驗結果如表2所示,p值為0.000974,小于0.01,判定一階差分后的序列平穩。再看統計量,原假設為有單位根,檢驗統計量T=-4.098398均小于在1%、5%、10%的置信度上臨界值,檢驗結果拒絕了原假設,即累計確診人數一階差分序列為平穩序列。

圖5 中國疫情下確診、死亡、治愈人數趨勢曲線Figure5 trend curve of the number of confirmed cases, deaths and cured cases in China

圖6 累計確診人數一階差分序列時序圖Figure6 Sequence diagram of first order differential sequence for cumulative number of confirmed cases

表2 累計確診人數一階差分序列ADF檢驗結果表
對2020年1月13日至6月2日以來,中國COVID—19累計確診人數進行ARIMA擬合。一階差分后的序列進行自相關性和偏自相關性分析,如圖7和圖8所示,自相關系遞減到零的速度緩慢,隨著延遲期數增加呈現出三角對稱性,數據出現截尾的特征,偏自相關系數進一步證實其截尾的特征顯著性。最終,中國COVID—19累計確診人數序列擬合的最佳模型有ARIMA(1,1,1)和備選模型ARIMA(1,1,2)和ARIMA(2,1,2)模型。

圖7 序列acf圖Figure 7 sequence ACF diagram

圖8 序列pacf圖Figure 8 sequence PACF

表3 擬合模型檢驗表
對最佳擬合模型與預備選模型的檢驗,結果見表3。這3個擬合模型均通過參數顯著性檢驗,且延遲6期與延遲12期的白噪聲檢驗P值均大于顯著性水平α=0.05。基于AIC最小準則選擇模型, 其中ARIMA(1,1,1)模型的信息量AIC=2405.24,達到最小,最終選擇ARIMA(1,1,1)模型。
利用ARIMA(1,1,1)模型,進行步長為10的預測,即對預測中國6月3日至6月12日的累計確診人數;見表4和圖9。通過與這10天實際觀測值進行對比,預測的平均絕對誤差為3.485人,平均相對誤差較小;預測精度最高可達99%。說明ARIMA(1,1,1)模型在預測中國COVID-19病毒累計確診人數的精確度很高,為疫情預警和各行各業關于疫情防控工作提供科學的借鑒。

表4 模型10期預測結果表

圖9 預測結果與實際觀測值總體對比圖Figure 9 overall comparison between predicted results and actual observations
本文利用R軟件抓取COVID-19全球疫情發展的歷史數據,基于K-means聚類方法進行全球疫情局勢分析;對中國疫情歷史數據建立ARIMA模型預測中國疫情的發展趨勢。通過對疫情數據的挖掘分析,結合相關資料,得到如下結論。
(1)全球疫情局勢K—means聚成 6大類
中國、瑞士為代表的這兩類國家,國家抗疫態度積極,疫情暴發早期實施了嚴格的社會隔離舉措,疫情防控措施到位,目前疫情狀況較為平穩;而美國獨聚成的一類,其特點是:抗疫態度和舉措存在不合理的地方,疫情防控效果較差,出現疫情肆虐狀況;以英國為代表的類,其治愈率低下,確診人數持續攀升,治愈人數并未更新;以巴西為代表的類,其疫情尚未緩和,累計確診人數較多,主要原因在于早期對抗疫不太重視且居民個人隔離不嚴格,該類國家需嚴格做好抗疫工作,防止疫情進一步暴發;以荷蘭為代表的類,該類國家防疫措施較好,確診人數較低,但國家醫療資源較為匱乏,死亡率較高、治愈率較低。
(2)對中國疫情累計確診人數建立ARIMA模型預測中國疫情
對中國疫情發展數據序列建立的ARIMA(1,1,1)模型,預測的精度達到99%,預測效果較好,說明ARIMA(1,1,1)模型預測中國疫情是可行的。可以利用本文研究的結果,對疫情的發展趨勢,進行精準的預測,從而為疫情防控以及復工復產的有序進行提出科學的借鑒。