


摘? 要:新冠疫情的發展,給全球多個國家都造成了重大的影響。非洲人口雖然只占全球人口的0.76%,但感染人數卻占到了全球確診人數的4.00%。文章提出了結合倒數歐氏距離,綜合相似性分析度量方法來進行多維度時間序列相似性分析的方法,并用全球最新的疫情數據進行了驗證。通過實驗,文章找到了和南非疫情發展相似的兩個大國:中國和英國,這兩個國家的疫情治理經驗可以供南非參考。
關鍵詞:新型冠狀病毒;傳染病預測;相似性度量;時間序列
中圖分類號:TP311.13? ? ? 文獻標識碼:A 文章編號:2096-4706(2020)17-0009-04
Abstract:The development of COVID-19 has had a major impact on countries around the world. Although the population of Africa accounts for only 0.76 percent of the global population,its total confirmed cases accounts for 4.00 percent of the worlds confirmed cases. In this paper,for the research of multi-dimensional time series,a similarity analysis method combining reverse Euclidean distance and integrated similarity analysis measurement is proposed,which is verified by the latest global epidemic data. Through experiments,this paper identifies two large countries,China and the United Kingdom,with similar development of the epidemic in South Africa. The prevention strategies of these two countries can be a reference for South Africa.
Keywords:COVID-19;infectious disease prediction;similarity measure;time series
0? 引? 言
新型冠狀病毒肺炎是一種新型疾病,可以影響肺部和呼吸道。這種新型病毒叫做2019-nCoV[1],持續到現在,它引發了全球性的感染,根據Worldometer組織提供的數據,全球一共有235個國家及地區,截至2020年7月27日,其中187個國家及地區出現感染新冠病毒的肺炎患者。根據Worldometer組織提供的數據,非洲人口雖然只占全球人口的0.76%,但感染人數卻占到了全球確診人數的4.00%。2020年7月27日WHO六個地區累計確診總數如圖1所示。
用現有的傳染病模型(如SIRS、SEIR模型)做拐點預測,但是無法找出和目標國家疫情發展相似的其他國家,從而難以為某個國家提供其他疫情相似國家的治理經驗。所以,本文提出一種新的多維度時間序列相似性分析算法,并用于分析南非的疫情數據。
1? 南非新冠疫情及相似性分析綜述
1.1? 南非疫情綜述
有關南非疫情的研究文獻較少,所以本文參考由南非共和國衛生部創建的COVID-19南非在線門戶網站(sacoronavirus. co.za)進行研究,并得出如下結論。
當地時間2020年3月23日,南非總統拉馬福薩首次宣布從2020年3月26日至4月16日,為期三周的全國性封鎖。南非政府將會對人們的出行進行嚴格的限制,不允許聚會、家庭探訪和其他社交活動。南非政府也關閉了海關,減少從海外流入的病例,并且入境者會被強制隔離。
這些措施不僅減緩了感染率上升并防止了衛生公共設施不堪重負,還給政府留了更多的準備時間以建立廣泛的公共衛生應對措施。所以南非政府從2020年6月1日起,將防疫級別從四級下降到三級。南非民眾可以在任何時間獨自外出運動,并且購買商品和享受各種服務,聚集性活動依然不被允許,除了葬禮和工作場合可以進行少于50人的聚集性活動。并且民眾在公共場所或者乘坐公共交通時,要使用口罩去遮蓋住鼻子和嘴巴,以及要保持1.5米的社交距離。
2020年7月12日,由于一些南非民眾無視規矩,舉辦了超過1 000參與人數的葬禮和其他聚集性活動,疫情日趨嚴重,多地醫院已不堪重負,所以南非重新開啟宵禁。南非總統拉馬福薩表示,南非目前正處于疫情激增期,全國災難狀態延長至8月15日,實行不提升防疫級別的加強版三級防疫措施,會加強民眾佩戴口罩的規定,雇主、商店老板和經理、公共交通運營商和任何其他公共建筑的經理和業主現在都有法律義務確保任何人進入他們的場所或車輛必須戴口罩,宵禁將于2020年7月13日9點開始實施。
1.2? 疫情相似性分析綜述
在傳染病預測上,各種數學模型被提出。經典的基于復雜網絡的傳染病傳播模型有SIR模型、SI模型、SEIR模型、SIS模型[2];基于機器學習算法的模型有貝葉斯方法[3,4]、支持向量機算法[5,6]。有的研究應用基于分割K-最近鄰算法對上海市疾病預防控制中心的腹瀉數據進行預測[7],只考慮了同地區不同年份相同月份的數據相似性,導致預測需要一個地區大量的過去數據作為基礎。這些方法存在以下不足:
(1)無法通過現有的傳染病模型做疫情傳播共性的研究。
(2)現有傳染病模型需要設置/調節的參數很多,而很多參數往往是難以測量的,導致模型精度和現實情況有差距。
(3)現有的傳染病模型需要在疫情發展一段時間后監測到大量數據才能建模,耗費的監測時間比較長,無法在疫情發展初期或數據不足的情況下就開始建模分析。
針對以上不足,本文提出基于全球多維度疫情數據結合倒數歐氏距離、塔尼莫特系數和余弦系數的相似性判斷分析方法。
2? 相似性分析流程
2.1? 數據來源
數據來源于Worldometer組織提供的數據,Worldometer是由一個由開發人員、研究人員和志愿者組成的國際團隊運行,沒有與任何的政府、政治體制和公司有任何聯系的組織。該組織從官方報告和政府傳播渠道直接收集數據和通過當地媒體間接收集數據。Worldometer能夠及時更新來自5 000多個來源的不斷更新的數據,再通過程序清理和保存數據。
該組織提供了很多與COIVD-19有關的數據,在本論文中的我們使用了其中的“Country wise day to day cases dataset”數據集。本數據的格式是CSV,大小為3.15 MB,數據每天更新,截至投稿日期,本文使用的數據范圍是2020年1月22日到2020年7月27日。數據來自187個國家或者地區,它們被分為6個WHO地區分部,而南非與其他47個國家屬于WHO地區分部之一的非洲地區。南非的疫情數據更新起始于2020年1月22日,終止于2020年7月27日;一共有188條記錄。疫情數據包括國家、經緯度、所屬WHO地區、累積確診人數、現存確診人數、死亡人數和治愈人數。
2.2? 相似性分析過程
本文提出的相似性分析過程如圖2所示。
圖中各個步驟分別完成了如下任務:
(1)獲取數據:從Worldometers獲取原始數據,并用Python解析數據。
(2)預處理:獲取大國數據,省市數據合并,剔除無記錄日期數據。由于疫情各國發展情況(開始時間,數據記錄起始點)不同,所以將各個國家的數據的起始值的時間平移對齊后,再對各國進行相似性分析。
(3)增長率序列:本文提出使用增長率序列來進行疫情趨勢分析,剔除了數據單位本身的影響,更能找到數據背后的發展趨勢。
(4)綜合相似度分析:綜合多個數據維度,以及多個相似度測量指標,進行數據分析。
3? 相似性分析算法
3.1? 增長率序列
為了讓南非借鑒其他大國的疫情治理經驗,應該按照疫情發展趨勢的相似度來做相似性評價,所以本文將每日疫情數據序列轉換為疫情增長率序列。
每日疫情數據序列為離散時間序列為:
其中S表示時間序列;ai,i∈(1,2,3,…,n)表示每日的疫情數據。本文一共使用了四個時間序列,分別為累計確診、累計死亡、累計治愈、現存確診。
疫情增長率序列定義:
其中R表示增長率序列;bi表示每日比昨日的疫情數據的增長率。
3.2? 相似性指標
本文使用三個相似性指標,分別為倒數歐氏距離、余弦系數、塔尼莫特系數。
倒數歐式距離公式如下,X和Y是兩個增長率序列,歐式距離是i維空間中兩個點之間的真實距離,而倒數歐式距離便是歐氏距離的倒數。當倒數歐式距離越接近于1,則表明這兩個序列越相似。
余弦系數的計算公式如下,cos(θ)通過計算兩個向量夾角的余弦值,來衡量它們的相似性,它的取值范圍是[0,1],當它越接近1,則表明這兩個向量越相似。
塔尼莫特系數的計算結果取值范圍是[0,1],其越接近1,說明兩個序列越相似。
3.3? 綜合相似性評價
每個國家有四個不同的增長率序列,為了求兩個國家之間的相似度,本文計算出兩個國家對應的增長率序列的倒數歐氏距離、余弦系數和塔尼莫特系數,并求出四個不同的增長率序列的這些值的平均值。由于三個系數的取值范圍都是[0,1],且都是取值越接近1說明兩個序列越相似,所以本文使用的最后的相似性是這三個系數平均值的平均值。
如表1所示,Sac1、Sac2、Sac3和Sac4是國家1的四個維度的不同的增長率序列,Scn1、Scn2、Scn3和Scn4是國家2的四個維度的不同的增長率序列。
表1? 實驗中使用的數據集的例子
具體計算過程分為以下4個步驟:
(1)計算兩個國家的四個不同增長率序列的余弦系數的平均數。
(2)計算兩個國家的四個不同增長率序列的倒數歐氏距離的平均值。
(3)計算兩個國家的四個不同增長率序列的塔尼莫特系數的平均值。
(4)計算以上三個相似性度量平均值的平均值,得到兩個國家的綜合相似性。
4? 實驗
本文分別用南非與中國、美國、加拿大、法國和英國這些國家在不同維度上,使用不同的相似度評價指標進行相似度對比。將各個國家的數據的起始值的時間平移對齊后,得到的數據如圖3所示。
從圖3中可以看出,原始數據時間序列曲線圖難以看出各國的增長趨勢與不同國家的相似度。但是通過增長率序列,就更容易看出增長趨勢。
從累計死亡這個維度來看,南非的增長率序列與法國相似度更高;但是從現存確診這個維度來看,南非的增長率序列與中國相似度更高。因此,不能單純根據一個維度來判斷相似度,所以本文提出綜合相似度評價指標,它能綜合多個相似性指標進行更準確的相似性度量,根據計算,中國和南非的相似度最高。
5? 結? 論
本文提出了基于多維時間序列綜合相似性度量的南非疫情數據分析算法,并根據最新的全球疫情數據,對南非與全球其他國家的疫情發展相似性進行了分析。實驗驗證了本文算法的有效性,并找出了與南非疫情發展趨勢比較相似的一些大國,這些大國的疫情治理經驗,可以為南非提供指導。
參考文獻:
[1] 靳英輝,蔡林,程真順,等.新型冠狀病毒(2019-nCoV)感染的肺炎診療快速建議指南(標準版) [J].解放軍醫學雜志,2020,45(1):1-20.
[2] ANDERSON R M,MAY R M. Infectious Diseases of Humans:Dynamics and Control [M]. Oxford:Oxford University Press,1992.
[3] LEE S D,KIM D. Bayesian Inferences and Forecasting in Spatial Time Series Models [C]//2010 Ninth International Conference on Machine Learning and Applications,Washington,D.C.:IEEE,2010:767-770.
[4] 冀俊忠,劉椿年,沙志強.貝葉斯網模型的學習、推理和應用 [J].計算機工程與應用,2003(5):24-27+47.
[5] GHALWASH M F,RAMLJAK D,OBRADOVI? Z. Early classification of multivariate time series using a hybrid HMM/SVM model [C]// 2012 IEEE International Conference on Bioinformatics and Biomedicine. Philadelphia:IEEE,2012:1-6.
[6] 許朝霞,王憶勤,顏建軍,等.基于支持向量機和人工神經網絡的心血管疾病中醫證候分類識別研究 [J].北京中醫藥大學學報,2011,34(8):539-543.
[7] 相曉敏,顧君忠,王永明.一種基于分割K-最近鄰算法的傳染病預測方法 [J].計算機工程,2016,42(1):163-167.
作者簡介:張卓妮(2001—),女,漢族,湖南臨湘人,本科,研究方向:大數據。