李卓香 付春龍



摘要:新冠病毒威脅著人類的生命安全,研究全球各國的疫情防控能力對控制疫情有著重要的意義。本文搜集了與疫情防控相關的特征數據,然后對這些特征進行了皮爾遜相關性分析,得出感染人數、死亡人數、治愈人數最能反映國家的疫情防控能力。運用了因子分析法,主成分分析法,熵值法,獨立性權重法,信息量權重法計算影響疫情控制因素的權重,然后對這些權重進行取均值得到特征的最終權重。最后利用疫情防控公式計算得到各國的疫情防控能力排名。
關鍵詞:新型冠狀病毒;特征分析 ;特征權重;疫情防控
1 引言
冠狀病毒名為COVID-19,是一種新型呼吸道病毒,于2019年起,該病毒在全球傳播了200多個國家和地區,威脅著人們的生命安全。
在控制和消除新型冠狀病毒的研究領域,Ball S等人基于機器學習時間序列方法對Covid-19數據進行了短期累積病例預測[1]。Malki Z等人在研究溫度、濕度與新冠病毒傳播的關系中發現,溫度越高死亡率越低[2]。Atchaya K等人使用支持向量機、邏輯回歸對未來疫情數據進行了預測,發現邏輯回歸具有較好的預測效果[3]。
目前關于新冠病毒研究主要圍繞藥物、傳播、預測等方面的研究,沒有對疫情的防控進行一個全面的分析和解讀。本文從全球疫情控制的角度出發,對全球的疫情控制能力進行定量研究。因此我們對2021年7月21日不同國家對疫情的控制力進行研究,并為各國的控制力大小進行排名。疫情防控能力的排名可以充分的反應全球的疫情控制的總體情況,這對全球共同協助抗擊疫情有非常重要的意義。它不僅可以反應一個國家控制疫情的力度,還可以反應各國在國際上發布的疫情數據與實際的疫情情況是否存在偏差,為疫情情況提供參考,以便能及時的采取相應的抗疫措施。
2 數據處理及特征篩選
2.1數據獲取及處理
為了研究哪些因素是影響疫情防控的主要因素,本文對新型冠狀病毒的傳播和治愈過程進行了分析。從疫情傳播角度出發,可能影響疫情傳播的因素有該國人口密度,能直接反映疫情傳播的數據有新冠感染人數。從治愈上來看,可能影響新冠患者死亡和治愈的因素有該國醫療水平和患者自身治療新冠的儲蓄,以及該國GDP發展是否能為患者提供充足的醫療物資,能直接反映疫情治愈情況的數據有新型冠狀病毒的治愈人數和死亡人數。
綜上所述,影響疫情防控的因素有人口密度、人均儲蓄、GDP、醫療水平、新冠感染人數、新冠治愈人數、新冠死亡人數。
數據來源:2021年7月21日21時的累計治愈人數、累計感染人數、累計死亡人數源于GitHub。2021年7月最新人口總數源于ModelWhale。人口密度,GDP,儲蓄源于World Bank Open Data。醫療水平HAQ指數,源于《柳葉刀》發布全球醫療質量排行[4]。HAQ指數是通過對32項評估指標計算出具體醫療質量和可及性指數(Healthcare Access and Quality Index,以下簡稱HAQ),分值在0-100之間。分數越高說明醫療質量和可及性越好。疫情防控研究范圍包含了143個感染人數,治愈人數和死亡人數不為零的國家,由于部分國家地區的新冠疫情數據不完整,本文未對所有國家及地區進行統計。
2.2相關性分析
為了研究全球各國對疫情防控能力的一個現狀,通過前面的分析,本文選取了如下特征:GDP,HAQ指數、總儲蓄、人口密度、累計感染人數、累計死亡人數和累計治愈人數。為了確定數據間的相關性,本文對各指標進行皮爾遜相關分析去度量兩個變量之間的相關程度,其公式如下:
其中 為X與Y的協方差, 為X的方差, 為Y的方差。根據該公式可以計算得到各特征之間的相關性,其結果通過熱力圖展示,參見圖1。
圖1中Y代表醫療水平,C代表儲蓄,M代表平均人口密度,S代表累計死亡人數,Z代表累計治愈人數,G代表累計感染人數。使用Pearson相關系數去研究特征之間的相關性強度,其反映了兩個特征相關系數值,當相關系數值大于0則呈現正相關。Pearson相關系數顯著性檢驗方法所得到的p值能反映某一事件發生的可能性大小,在線性回歸中,p<0.05表示兩個特征顯著線性相關。
結果分析:由相關性分析可知兩個特征相關系數值大于0.8的有S與G、Z與G、Z與S、C與GDP,呈現正相關。兩個特征p值小于0.05的有S與G、Z與G、Z與S 、C與GDP、G與GDP、 S與GDP,呈現顯著性。因此可知GDP、醫療水平、總儲蓄、平均人口密度對疫情防控影響作用不大。能反映疫情防控的主要特征是累計死亡人數、累計治愈人數、累計感染人數,可用這些特征來研究疫情防控。
3 疫情防控分析
3.1特征權重
為了確定疫情控制中死亡人數,感染人數和治愈人數分別占的比重,本文分析8種確定權重的方法,分別是:因子分析法、主成分分析、AHP層次法、優序圖法、熵值法、CRITIC權重、獨立性權重、信息量權重法[5]。
其中AHP層次法和優序圖法是通過為指標的重要性打分來確定權重,其結果包含太多主觀因素,因此在研究過程中排除。CRITRC權重方法在結果檢驗中出現異常值,也排除。最后確定研究權重的方法為剩下5種,并使用SPSS軟件進行數據分析分別計算累積感染人數,累積死亡人數和累積治愈人數在疫情防控的權重。為了確保權重信息更具有代表性,需再求5種方法的權重均值,權重均值是我們研究疫情防控的重要數據,最終結果見表2。
3.2防控能力排名
研究全球疫情防控能力,首先計算了143個國家的累計感染人數、累計死亡人數、累計治愈人數與權重相乘的結果。接著對各國感染率、死亡率、治愈率進行排名。其中感染率為累計感染人數除以總人口數,死亡率為累計死亡人數除以感染總人數,治愈率為累計治愈人數除以感染總人數。感染率越小,排名越靠前。治愈率越大,排名越靠前。死亡率越小,排名越靠前。最終排名越靠前,說明疫情防控越好。
設某個國家疫情控制力排名為 ,感染率排名為 ,治愈率排名為 ,死染率排名為 。累計感染人數權重為 ,累計治愈人數權重為 ,累計死亡人數權重為 。各國疫情防控能力的排名公式如下,通過計算得到最終的排名結果見表3。
4 結論
本文對全球的疫情防控能力進行定量研究,充分的反應疫情控制的總體情況,這對全球共同抗擊疫情有非常重要的意義。在實驗中,相關性分析檢驗排除對疫情防控影響力較小的特征。權重分析和排序解決了特征總數不同帶來的影響,得到準確的疫情防控的排名。由表6可見,排名靠前的有很多是發展中國家,而排名靠后的也有很多發達國家。結合前人對新冠病毒藥物、傳播、預測等方面的研究,可證明疫情防控與國家發達程度關系不大,與各國的氣候、文化、防控措施、民眾配合度有較大的關系。
參考文獻
[1]Ball S . Data Analysis of Covid-19 Pandemic and Short-Term Cumulative Case Forecasting Using Machine Learning Time Series Models[J]. Chaos Solitons & Fractals, 2021, 142:110512.
[2]Malki Z , ?Atlam E S , ?Hassanien A E , et al. Association between Weather Data and COVID-19 Pandemic Predicting Mortality Rate: Machine Learning Approaches[J]. Chaos Solitons & Fractals, 2020, 138:110137.
[3]Atchaya K , ?Darshinii M , ?Harini R , et al. Administered Machine Learning Models for Covid-19 Future Forecasting[J]. Journal of Physics: Conference Series, 2021, 1916(1):012157 (6pp).
[4]Measuring performance on the Healthcare Access and Quality Index for 195 countries and territories and selected subnational locations: a systematic analysis from the Global Burden of Disease Study 2016[J]. Lancet, 2018, 391(10136):2236-2271.
[5]金新政, 厲巖. 優序圖和層次分析法在確定權重時的比較研究及應用[J].中國衛生統計, 2001, 018(002):119-120.
基金項目:四川大學錦江學院2020年青年教師科研基金項目“基于 Matlab 的疫情傳播研究與算法設計”(項目編號:QNJJ-2020-A02)。
作者簡介:付春龍,男,通訊作者,碩士,研究方向:人工智能、機器學習;李卓香,女,本科,研究方向:人工智能、數據挖掘。