999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LSTM模型的新冠病情預測和影響因素分析

2021-10-16 16:01:54胡海文
現代信息科技 2021年7期
關鍵詞:特征因素疫情

摘要:篩選出對病情發展有重要影響的因素,對新增確診人數和新增死亡人數做出預測。通過隨機森林的特征重要性篩選出對疫情發展影響最大的因素,使用LSTM(Long Short Term Memory Network)建立預測模型。機場的繁忙程度對確診人數影響最大,人口密度與死亡人數的關聯性最大。美國地區的人口密度和機場交通情況對感染人數影響較大,從而影響年齡在80歲以上老人的死亡率,但分析結果顯示美國疫情發展已基本趨于穩中下降的態勢。

關鍵詞:COVID-19;影響因素;LSTM;感染數;死亡數

中圖分類號:R318;TP183? ? 文獻標識碼:A? ? 文章編號:2096-4706(2021)07-0091-04

Disease Prediction and Influencing Factors Analysis of COVID-19

Based on LSTM Model

HU Haiwen

(School of Mathematics and Physics,Lanzhou Jiaotong University,Lanzhou? 730070,China)

Abstract:To screen out the factors that have an important impact on the development of the disease,and to predict the number of new confirmed cases and new deaths. Based on the importance of random forest characteristics,the most influential factors were screened out,and the LSTM(Long Short Term Memory Network)was used to establish the prediction model. The business of the airport has the greatest impact on the number of confirmed cases,and the population density has the greatest correlation with the number of deaths. The population density and airport traffic conditions in the United States have a great impact on the number of infected people,thus affecting the mortality of the elderly over 80 years old. However,the analysis results show that the development of the epidemic situation in the United States has basically tended to a steady decline.

Keywords:COVID-19;influencing factor;LSTM;number of infections;number of deaths

收稿日期:2021-03-11

基金項目:國家自然科學基金(61863022)

0? 引? 言

2019年底暴發的新冠肺炎疫情(COVID-19)給全世界的醫療健康、經濟發展帶來了巨大影響。由于早期對病毒(SARS-CoV2)缺乏相應的認知,未能做到及時采取有力的應對措施,導致全球的感染人數急速增長。隨著對病毒了解程度的加深,各國政府先后采取各種非藥物干預(non-pharmaceutical interventions,NPIs)措施,例如公共場所佩戴口罩、保持社交距離、對外來人員實行集中管控及隔離等措施,在很大程度上抑制了病毒的傳播,使得疫情得到有效的控制。但由于超級傳播者和無癥狀感染者的存在,使該地區的感染人數在短期內會迅速增加,這在一定程度上加大了疫情防控的難度。據世界衛生組織公布的數據,截至2021年4月29日,全球新冠確診病例達到149 197 928例,死亡病例為3 146 119例。需要注意的是,當傳播概率一定時,即使疫苗注射普及率很高,但疫苗的有效性較低,仍會有極大可能發生感染大爆發,光靠疫苗注射控制疫情的效果可能不如采取嚴格的非藥物干預措施[1]。所以,針對新冠傳染情況比較嚴重的地區,進行傳染因素和影響病情發展因素的分析,對有針對性地控制疫情發展具有重要作用,此外,對疫情發展的有效預測,對后期疫情的管控和預防意義重大。

美國作為新冠疫情的重災區,確診病例高達3千多萬例,雖然目前已經開發出疫苗,但早期感染數量較大,同時病毒不斷變異,病情還是有很大可能會繼續惡化下去。本文分析了疫情發展過程中導致患者感染和死亡的主要因素,通過對疫情發展的預測,為后期更有針對性地實施防御保護措施提供支撐,同時也可以為后續類似呼吸疾病的預防和管控提供寶貴的參考經驗。

1? 數據、特征選擇與方法

1.1? 數據來源與特征選擇

本文從紐約時報、美國勞工統計局、美國人口普查局等網站獲取了2020年美國各個州的靜態特征數據[2],包括各州的GDP、面積、人口密度、人口分布情況等,具體如表1所示。此外,從Johns Hopkins University Center for Systems Science and Engineering(JHU CSSE)[3]中獲取了美國新冠發展的具體數據,其中包括從美國確診第一例新冠病毒開始,到2021年5月為止的每日新增確診數和死亡數、7日平均新增病例數以及總感染人數和死亡數。其中,靜態數據可以更好地體現各州的綜合情況,能直接反映出受新冠病毒影響最嚴重的群體,同時可得出新冠病毒的發展與哪些靜態穩定的因素有關[4-6]。因為該數據集涵蓋的因素過多,直接用所有特征進行相關性分析會比較繁瑣耗時,所以本文首先對近100多個相關的因素進行特征篩選,采用隨機森林的重要性評分方法進行重要性評估,得到對新冠感染人數和死亡人數影響最大的前10個因素,然后再對較重要的因素進行相關性分析,得到影響程度比較大的因素。疫情預測所使用的數據來源于JHU CSSE在GitHub上公開的開源數據,數據質量較好,沒有空白數據,因為每日新增病例更能看出疫情整體的發展變化趨勢,所以預測的重點在于新增病例的情況。

1.2? 理論方法

1.2.1? 隨機森林

隨機森林作為一種監督式分類算法,可以學習數據特征與標簽的關系,它通過自助法(bootstrap)重采樣技術,不斷從原始訓練樣本集N中有放回地反復隨機抽取n個樣本,生成一個新的訓練樣本集合,最終用來訓練決策樹,多次重復后就得到了多棵樹組成的隨機森林。而通過隨機森林的重要性評估可以實現對結果影響最大的特征選擇,達到壓縮模型所用的特征數的作用[6]。計算公式為:

(1)

其中,袋外數據誤差為errOOB1,在計算過程中,隨機地為袋外數據加入噪聲干擾,會得到新的袋外數據誤差errOOB2,N為隨機森林樹的個數。如果在特征中隨機加入噪聲后,袋外準確率呈現較大幅度的降低,則代表該特征對樣本分類結果影響很大,該特征的變動會極大程度地影響分類結果,即證明其重要性程度比較高。

1.2.2? LSTM

長短時記憶網絡(Long Short Term Memory Network,LSTM)為改進后的循環神經網絡(Recurrent Neural Network,RNN)。它能解決RNN對短期的輸入敏感的問題,此外,LSTM在RNN的基礎上增加了一個狀態結構和三個門結構,如圖1所示,即:單元狀態(cell state)、遺忘門、輸入門和輸出門。其中,遺忘門通過函數控制之前信息的輸入程度,輸入門控制當前信息的輸入程度,輸出門則用來控制最終輸出[7-9]。LSTM能夠綜合處理長期和短期的輸入,非常適合處理時間序列的預測問題。

遺忘門會讀取ht-1和xt的信息,當ft=0時,該部分被遺忘,當ft=1時,信息會保留,ft的計算公式為:

(2)

第二個過程是要將新信息存放在長期狀態里,此過程包含三個部分:首先是tanh層創建一個新的候選值向量,然后輸入門層it控制對候選向量的哪些元素進行更新,最后新信息被加入到長期狀態中[10],此過程的計算公式為:

(3)

(4)

(5)

輸出門則基于細胞的狀態,確定最后輸出的值。首先通過sigmoid層確定輸出的信息,然后通過tanh層對長期狀態進行處理,將其與經過輸出門過濾的信息相乘,得到最終的ht,計算公式為:

(6)

(7)

1.2.3? 度量指標

本文使用R2的大小來衡量模型的預測精度[11]。R2的計算公式為:

(8)

其中,為預測值,y(i)為真實值,為平均值,有用模型的R2范圍一般是在0到1之間,R2越接近于1,表示模型的預測效果越好,越接近于0,表示模型的預測效果越差,如果R2為負數,則表明模型擬合的預測誤差過大。

2? 結果

2.1? 特征篩選結果

通過隨機森林中的特征重要性對所有特征進行重要性評分,然后對結果排序,取出前十個數據,結果如表2所示。通過計算結果可以得出,新冠肺炎的確診人數與年齡在25~29歲、50~54歲和85歲以上、距紐約的距離、機場繁忙程度、地區GDP、亞裔、流浪者人數、封鎖天數有比較大的關系,而死亡人數與年齡在55~59歲、80歲以上、距紐約州、紐澤西州的距離、機場繁忙程度、地區GDP、人口密度和封鎖前的檢測人數有關。

進一步對選出的因素做相關的關系分析,結果如圖2所示。

得出結論:確診人數主要與地區機場的繁忙程度、地區GDP水平、年齡在50~59歲、80~84歲、85歲以上、人口密度和流浪者人數有較大的關系,可以推測,某地區GDP水平比較高時,該地區的人口密度較高,交通會比較繁忙,所以當某地區的人流較大時,新冠肺炎確診的人數會比較多,老年群體,尤其是年齡在80歲以上的老人,更有可能被確診感染新冠病毒。死亡人數與人口密度、地區機場的繁忙程度、年齡在80歲以上的老人人數相關性較大,當人口密度高、交通繁忙時,會使病毒傳染更快,確診人數的增加,加之老年人的抵抗能力較弱,使得死亡病例更多集中在80歲以上的老年群體中,且死亡率沒有呈現種族偏好。

2.2? LSTM預測結果

預測采用的數據是從2020年1月22日美國出現第一例確診病例開始,到2021年3月1日為止,全美國每日出現的確診病例和死亡人數。由于數據從0開始增加到萬,為減少量綱對預測結果的影響,對數據進行歸一化處理。模型輸入層為1層,隱藏層為6層,可以達到較佳的擬合情況,優化器選擇了隨機梯度下降(SGD),能夠有效避免陷入局部最優,同時也能加快收斂速度。預測時,采用了的間隔取數,避免局部數據的影響。最終得到模型的R2=0.830 3,最終的預測模型擬合情況如圖3、圖4所示。從預測圖中可以看出,美國每日新增確診和死亡人數已基本穩定且不斷減少,疫情得到緩解。

3? 結? 論

本文首先對影響美國疫情發展的一些靜態數據指標進行了分析,篩選出比較重要的特征后進行確診病例和死亡病例的相關性分析,發現美國新冠的確診人數與年齡在85歲以上、地區的交通繁忙程度和GDP發展水平等因素的相關性最大,而死亡人數則與人口密度和年齡在80歲以上的相關性最大。得到此結論后,本文采用了LSTM建立模型,對美國疫情的每日發展情況進行了預測,通過預測結果可以看出,美國的疫情目前已經趨穩,確診人數和死亡人數都在不斷下降。

參考文獻:

[1] TANG B,ZHANG X,LI Q,et al. The minimal COVID-19 vaccination coverage and efficacy to compensate for potential increase of transmission contacts,and increased transmission probability of the emerging strains [J/OL].BNE Public Health,2021:[2021-02-24].https://www.researchsquare.com/article/rs-140717/v1.

[2] CDC. Covid data tracker [EB/OL].[2021-03-01]. https://covid.cdc.gov/covid-data-tracker/#datatracker-home.

[3] Johns Hopkins University & Medicine. COVID-19 Dashboard by the Center for Systems Science and Engineering (CSSE) at Johns Hopkins University (JHU) [EB/OL].[2021-03-01].https://coronavirus.jhu.edu/map.html.

[4] RANDHAWA G,SOLTYSIAK M,EL ROZ H,et al. Machine learning using intrinsic genomic signatures for rapid classification of novel pathogens:COVID-19 case study [J/OL].PLOS One,2020,15(4):[2021-03-01].https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0232391.

[5] 胡小亮,路方紅,劉振東,等.原發性高血壓患者血壓晨峰與心血管疾病危險因素相關性分析 [J].中國循環雜志,2012,27(2):95-98.

[6] 湯正義,李向利,張煒,等.2型糖尿病神經病變的發病情況與有關因素相關性分析 [J].中華內科雜志,2003(12):47-48.

[7] 黃梅,朱焱.基于隨機森林特征重要性的K-匿名特征優選 [J].計算機應用與軟件,2020,37(3):266-270.

[8] 李俊卿,李秋佳,石天宇,等.基于隨機森林重要性的LSTM網絡風電功率缺失數據補齊 [J].電器與能效管理技術,2018(13):47-52+58.

[9] 歐陽紅兵,黃亢,閆洪舉.基于LSTM神經網絡的金融時間序列預測 [J].中國管理科學,2020,28(4):27-35.

[10] ALIMADADI A,ARYAL S,et al. Artificial intelligence and machine learning to fight COVID-19 [J].Physiological Genomics,2020,52(4):200-202.

[11] WANG P P,ZHENG X Q,LI J Y,et al. Prediction of epidemic trends in COVID-19 with logistic model and machine learning technics [J/OL].Chaos,Solitons & Fractals,2020,139:[2021-03-01].https://doi.org/10.1016/ j.chaos.2020.110058.

作者簡介:胡海文(1995—),女,漢族,甘肅嘉峪關人,碩士研究生在讀,研究方向:應用統計。

猜你喜歡
特征因素疫情
腹部脹氣的飲食因素
中老年保健(2022年5期)2022-08-24 02:36:04
戰疫情
群眾路線是百年大黨成功之內核性制度因素的外在表達
當代陜西(2021年12期)2021-08-05 07:45:46
抗疫情 顯擔當
人大建設(2020年5期)2020-09-25 08:56:22
疫情中的我
疫情期在家帶娃日常……
37°女人(2020年5期)2020-05-11 05:58:52
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
短道速滑運動員非智力因素的培養
冰雪運動(2016年4期)2016-04-16 05:54:56
主站蜘蛛池模板: 国产精品2| 国产在线拍偷自揄拍精品| 99热最新网址| 国产精品丝袜在线| 成人另类稀缺在线观看| 亚洲有码在线播放| 欧美三级自拍| 性网站在线观看| 欧美激情第一区| jizz国产视频| 最新国产麻豆aⅴ精品无| 亚洲V日韩V无码一区二区| 国产精品男人的天堂| 无码高潮喷水专区久久| 久久香蕉国产线看观看精品蕉| 精品人妻一区二区三区蜜桃AⅤ| 亚洲欧美自拍中文| 996免费视频国产在线播放| AV色爱天堂网| 日韩欧美视频第一区在线观看| 综合色天天| 91国内在线观看| 国产成人综合在线视频| 欧美a级在线| 国产日韩丝袜一二三区| 久久超级碰| 亚洲成人动漫在线观看| 精品国产乱码久久久久久一区二区| 18禁影院亚洲专区| 高清国产在线| 亚洲国产成人精品无码区性色| 国产粉嫩粉嫩的18在线播放91| 欧美区一区| 一本大道无码日韩精品影视| 欧美一区福利| 成人亚洲视频| 看你懂的巨臀中文字幕一区二区| 国产综合色在线视频播放线视| 国产18在线| 毛片免费高清免费| 欧美在线国产| 喷潮白浆直流在线播放| 九九热这里只有国产精品| 国产精品区网红主播在线观看| 波多野结衣的av一区二区三区| 人人妻人人澡人人爽欧美一区| 综合天天色| 亚洲精品成人片在线播放| 国产第八页| 亚洲人成色在线观看| 欧美亚洲国产精品久久蜜芽| 久草视频中文| 国产欧美日韩18| 美女国产在线| 国产又粗又猛又爽| 中文字幕乱码二三区免费| 99热国产这里只有精品无卡顿"| 国产精品va免费视频| 国产精品深爱在线| 欧美一区二区啪啪| 色综合色国产热无码一| 99re热精品视频中文字幕不卡| 91av国产在线| 亚洲AV无码一区二区三区牲色| 免费高清自慰一区二区三区| 三级毛片在线播放| 中文字幕有乳无码| 精品国产aⅴ一区二区三区| 免费高清a毛片| 亚洲国产日韩欧美在线| 香蕉久久永久视频| 国产成人综合久久| 毛片一级在线| 国产亚洲精久久久久久久91| 狠狠操夜夜爽| 精品国产美女福到在线不卡f| 欧美成人精品一级在线观看| 国产一区免费在线观看| 嫩草国产在线| 中文字幕精品一区二区三区视频 | 毛片免费网址| 亚洲男人天堂2018|