李慶禧,賈云濤,林俊鋒,羅星怡
(北京理工大學珠海學院數理與土木工程學院,廣東 珠海519088)
研究目的為填補國內外新冠肺炎(COVID-19)疫情死亡率與天氣因素研究的空白,幫助決策者做出正確的決策,減少新冠肺炎的死亡人數,在實現人道主義的同時減少資源的浪費。
首先確定了有關天氣的幾項關鍵因素,如氣壓、濕度與溫度等。接著,為了減少不同醫療條件、不同防疫政策帶來的差別,選擇搜集同一時間段內、同一地區的各個因素的具體數據與對應的新冠肺炎死亡率。緊接著為了避免因為數據量綱不同帶來的差距,對因變量進行標準化,接著進行回歸分析,在分析中,需要判斷回歸方程是否存在違背基本假設的情況,最后根據回歸方程確定影響腦卒中發病的關鍵天氣因素。研究思路如圖1 所示。
本文數據為2020-01—2020-04 美國疫情較為嚴重的27個州的數據,其中天氣數據為該時間段中各因素的平均數據,死亡率為該時間段的死亡率。數據主要來源于Kaggle 競賽平臺。數據結構包含八項天氣數據(平均氣溫、平均站壓、平均氣壓、相對濕度、平均露水、平均風速、總降水量、晝夜溫差)和新冠肺炎死亡率。
不同因素之間的量綱水平并不相同,這種差別會給后續研究帶來一定的影響。為了消除這種影響,對數據進行無量綱化的處理。

圖1 研究思路圖
數據可視化如圖2 所示。

圖2 數據可視化
根據圖2,可以得出新型冠狀病毒死亡率在美國有從南到北遞增的趨勢。
為了確定天氣因素與死亡率之間是否存在關系,首先求解平均氣溫、平均站壓等天氣因素與死亡人數的偏相關系數,并對偏相關系數進行顯著性檢驗。得到結果如圖3 所示,可以發現有部分因素與死亡人數有顯性的相互關系。但在多元變量的情況下,兩個變量之間的關系還可能受到其他因素的影響,因此我們進行回歸分析,進行下一步探討。

圖3 相關系數檢驗表
在確定了各因變量與自變量之間有一定關系后,可以利用R 語言建立回歸模型。但為了排除無關變量的影響,同時保留關鍵變量,進行逐步回歸。得到的方程結果如下:

模型方差分析如表1、表2 所示。
叢書選題契合“五位一體”總體布局和“四個全面”戰略布局。各卷撰寫過程中,正值黨的十九大召開,各卷作者深入學習十九大報告,內容敘述有了更新。主編還適時調整選題,特別增設生態文明卷,直接呼應了黨的十九大明確把“堅持人與自然和諧共生”作為新時代中國特色社會主義的基本方略之一的重要精神。如此,各卷記述內容也力求用習近平新時代中國特色社會主義思想印證和觀照我國改革開放40年的歷史發展。

表1 模型方差分析表1

表2 模型方差分析表2
得到方程后,進行顯著性檢驗。首先進行回歸方程的顯著性檢驗,從方差分析表可以得到,大部分的誤差來自回歸方程,即回歸模型造成的誤差。將回歸平方和的均方誤差和殘差平方和的均方誤差構造F統計量,進行F檢驗,求得F統計量為13.208 4,大于檢驗統計量2.494,拒絕原假設,證明死亡率與各天氣因素有顯著的線性關系,即回歸方程是顯著的。
接著進行回歸系數的顯著性檢驗,利用R 語言計算每個回歸系數的t統計量,并進行t檢驗。得到平均氣壓和相對濕度都是顯著的,即對死亡率有顯著的影響情況。
得到回歸模型后,進行擬合優度檢驗。從方差分析表中得到回歸方程的樣本決定系數R2=0.524 4,復相關系數R=0.724 2。考慮到樣本容量與自變量的個數,可以接受這樣的回歸效果。同時,在自變量個數為2,自由度為27,顯著性水平為0.05 的條件下,檢驗的系數為0.446。復相關系數遠大于檢驗系數,因此可以認為方程具有較好的擬合效果。
為了判斷方程是否存在違背馬爾科夫基本假設的情況,使用R 語言分別針對三種情況進行檢驗。首先是多重共線性的情況,用擴大因子法,得到VIF值如表3 所示。

表3 各系數VIF 值
可以看出各自變量的VIF值明顯小于10,即沒有存在的多重共線性。接著用特征根判定法,得到x6與x7的特征根都顯然大于0,最后再用條件數法,得到Kappa值等于1.390 647,小于100,認為設計矩陣X沒有多重共線性。
接著進行自相關性的檢驗,進行DW 檢驗,得到方程的DW 值為1.34,P值等于0.27,大于顯著性水平0.05,因此認為殘差不存在自相關。
最后進行異方差檢驗,利用R 語言ncvTest 函數進行檢驗,得到對應P值等于0.514 46,大于顯著性水平0.05,即不存在異方差,因此認為方程不存在違背馬爾可夫基本假設的情況。
殘差分析圖如圖4所示。從圖4看出殘差基本在直線e=0附近隨機變化,并在變化幅度不大的一個區域內,顯然殘差和估計值基本是無關的。從Normal Q-Q 圖中發現殘差基本符合正態分布,因此模型沒有出現違背基本假設的情況。然后看到Scale-Location 圖,發現方差基本是一個常數,也可同樣判斷殘差和估計值基本是無關的。從Residuals VS Leverage 圖中可以檢查數據中是否有特別極端的點。這里發現共有兩個數據的Cook 距離大于0.5,可以判定為異常值,因此在后續中,需要著重討論這兩個異常值。
在得到有效的回歸方程后,可以對方程結果進行解釋。在四個變量中,只有平均氣壓(Slp)與相對濕度(Rh)通過了t檢驗,因此主要對這兩個因素進行分析。平均氣壓的回歸系數為負,說明新冠肺炎的死亡率與平均氣壓呈負相關。從現實的角度看,氣壓對人體生理方面的影響主要是人體內氧氣的供應,氣壓低時,人體容易出現頭暈、頭痛、惡心、嘔吐和無力等癥狀,神經系統也會發生障礙,甚至會發生肺水腫和昏迷等癥狀,而新冠肺炎的癥狀中,絕大多數患者死于呼吸衰竭,即因為肺里有大量的黏液,氧氣無法進入肺泡進行氣體交換,導致窒息而死。因此,有一定理由相信氣壓會影響新冠肺炎的死亡率。其中,氣壓越低,死亡率越高;氣壓越高,死亡率越低。

圖4 殘差分析圖
相對濕度的系數為負,說明新冠肺炎的死亡率與平均氣壓呈負相關。空氣中的相對濕度主要影響人們的舒適感,在較高的相對濕度中,容易使人煩燥、疲倦、食欲不振,較低的相對濕度,易引起上呼吸道粘膜感染。對于新冠肺炎,典型癥狀包括咽痛鼻塞等上呼吸道感染癥狀。同時,新冠肺炎最初爆發在武漢時,也是在天氣較為寒冷、濕度較小的季節。因此有一定理由相信相對濕度會影響新冠肺炎的死亡率。其中,濕度越大,死亡率越低;濕度越小,死亡率越高。
可將天氣因素數據結合回歸模型應用到實際的場景中,對死亡率進行分析,提出可行的醫療方案,針對不同的患者設置合適的生存環境。對于醫療機構中新冠肺炎(COVID-19)所涉及到的醫療方案,都能做出適當的風險評估。