

摘 要:針對新冠肺炎疫情,本文運用2020年1月20日-2月25日的全國及湖北省累計確診人數、累計治愈人數和累計死亡人數等數據,分析了病毒傳播擴散的數據特征,建立了深度學習的長短期記憶模型(LSTM),通過PYTHON實現了模型高精度的擬合和預測。
關鍵詞:新冠肺炎;深度學習;動態監測
中圖分類號:D9???? 文獻標識碼:A????? doi:10.19311/j.cnki.1672-3198.2020.20.081
0 引言
2020年伊始,出現了新冠肺炎,相關專家經過科學分析確定這是一種新型冠狀病毒引起的肺炎(Novel Coronavirus Pneumonia,簡稱NCP,下同),并經過不斷醫學臨床分析和演化,得出病毒的傳染性很強,具有持續人傳入的特性。在NCP疫情出現后,我國高度重視、迅速部署、果斷采取了聯防聯控機制等措施,武漢封城、全國各地禁行限出,全國各省區市、全軍都派出醫護人員對口支援湖北武漢和各地市州,有力的保障了疫情沒有大規模的爆發,堅決遏制了疫情蔓延的勢頭。根據國家衛生健康委員會官方網站疫情通報情況,截至2020年2月25日24時,全國累計報告確診病例78064例,累計治愈出院病例29745例,累計死亡病例2715例。面對這種傳染性強、人群易感的新型病毒,防控策略的具體實踐依然面臨著嚴峻挑戰。此外,NCP疫情對我國經濟社會造成較大的方方面面的沖擊,面臨著有序復工復產,恢復正常的生產生活秩序。這都需要對NCP疫情后期的演變趨勢做出分析和預判。鑒于此,本文嘗試搜集2020年1月20日至2020年2月25日共37天的全國各省區市網絡直報的新型冠狀病毒疫情數據,建立了相關的LSTM模型對疫情的累計確診人數進行動態監測。
1 深度學習模型選取及介紹
對NCP疫情變化趨勢分析是對已經發生病例的傳染、治療、死亡等等情況的回顧,目的是總結梳理除NCP演變的規律,更為重要的是能夠基于前期特征而對未來疫情發展提供可靠的預測。
1.1 深度學習的LSTM模型
在疫情發展到有防護的阻隔傳播的第二階段,中央和各省區市以及地市州官方疫情指揮部以及各類官方媒體、自媒體都在發布、釋放與疫情相關的各種各樣的海量信息。這些信息公開、透明和傳播一方面有助于疫情的防控,另一方面中的數據包含著巨大帶挖掘的價值,NCP的傳染性、破壞力,人們采取的防控措施都可以從數據中反映出來。對數據信息的合理擬合就可比較準確的預測出NCP后期走勢。對于數據維度多、沒有可靠數學模型指導下的擬合與預測預警,深度學習算法是一種最可行的選擇。
深度學習(Deep Learning)是從深度神經網絡發展變化而來,其核心是對學習樣本數據的內在規律和表示層次,通過“學習”過程中獲得的信息對諸如數據、文字、圖像和聲音的演變特征和規律,目的是讓機器系統能夠像人一樣具有分析學習能力。深度學習是一個復雜的機器學習算法,在語音和圖像識別方面取得的非常明顯的效果,超過先前相關技術。目前正逐步應用在生產生活的方方面面。根據NCP疫情的趨勢預測主要是時間序列,再結合深度學習的特征,本文選取當前深度學習在序列信息中應用最為廣泛的是長短記憶模型(Long Short-Term Memory,簡稱LSTM)。基于LSTM模型的長期記憶能力以及其廣泛的適用,本文選取LSTM模型進行深度學習模型的搭建,以更好地從數據中提取信息。
1.2 疫情數據選擇
在眾多口徑的數據中,本文選用累計確診人數、累計死亡人數、累計治愈人數作為特征變量納入LSTM模型之中。累計確診人數:該特征是最受關注的,能夠較為全面的反映疫情信息,前一天的累計確診人數能夠從整體上反映出疫情擴散狀況及防控效果,是影響后續累計確診人數變化最有效的特征。累計死亡人數:該特征在一定程度上反映了新冠肺炎病毒的破壞力,特征數據的增減反映了醫護水平、藥物療法等對于患者的治療及護理是否起到作用。累計治愈人數:該特征與累計死亡人數是相對的,從相反的方面反映了醫護人員對于病毒的控制能力。
2 疫情未來演變趨勢動態監測
2.1 數據處理
本文選取了共30天的疫情數據作為LSTM模型的訓練集,2020年2月19日之后的數據作為測試集。按照LSTM模型對數據要求,也是為了提高模型精度,消除計量單位對預測結果的影響,輸入的數據需要標準化處理,具體是對訓練集中的每一列數據進行標準化處理。本文按照公式如下進行處理:
y=x-mean(x)std(x)
式中,x為原始數據,mean(x)為原始數據的均值,std(x)為原始數據的標準差。
2.2 疫情變化趨勢擬合
經過反復調試,本文LSTM深度學習模型確定如下:模型分為兩層,輸入層和輸出層。其中,輸入層為LSTM層,神經元個數為128,激活函數為“ReLU”函數;輸出層為全連接(Dense)層,輸出值為全國第二天累計確診人數;迭代次數為3000。
基于上述調試得出的最優深度學習LSTM模型,本文對近7天的全國數據進行了動態追蹤,收集了全國每一天的特征信息,并將其輸入模型以預測第二天的全國確診人數。其后,將新一天的實際數據加入原數據集形成新的數據集,再對未來一天的全國確診人數作出新的預測,以此類推進行動態追蹤預測擬合,預測擬合結果如表1所示。
從表1中可以看出:當確診人數達到7萬以上的量級時,通過深度學習LSTM模型的構建,對第二天的預測精度達到了正負600例以內,甚至最低的正負差達到了個位數,平均絕對預測誤差為237,誤差率都在正負1%以下,這是傳統模型所無法達到的精度。但是從21日開始,由于之前近一個月的全民自我隔離行動,使得在近兩個病毒潛伏期過后,疫情得到了極為有效的控制,確診人數增長速度急劇下降,雖然通過動態的追蹤每一天的新信息輸入模型,已經監測到了感染人數增長幅度的下降,一些數據無法反應的防控措施依然使得預測正負差越拉越大。即使疫情自2月19日后得到有效控制,超出預期,本文所建立的模型在后面數天的動態監測中依靠強大的擬合能力,縮小了模型預測正負差。
3 結論
本文通過對新型冠狀病毒肺炎(NCP)在2020年1月20日到2月25日在我國的傳播情況進行分析,收集整理了期間的累計確診人數、累計死亡人數、累計治愈人數等多維度數據,選用深度學習的長短記憶期模型(LSTM),通過PYTHON程序,對NCP累計確診人數進行了為期一周的趨勢預測,預測有一定精度和可信度。針對預測得出結論,建議在復產復工中嚴格落實中央要求和各省區市的具體部署,嚴防NCP疫情拐點的反復,確保早日取得NCP疫情阻擊戰的全面勝利。
參考文獻
[1]CHEN N S, ZHOU M, DONG X, et al. Epidemiological and clinical characteristics of 99 cases of 2019 novel coronavirus pneumonia in Wuhan, China: a descriptive study[J]. The Lancet,2020(Pre-publis).
[2]LU R J, ZHAO X, LI J, et al. Genomic characterization and epidemiology of 2019 novel coronavirus: implications for virus origins and receptor binding[J]. The Lancet,2020(Pre-publis).
[3]LIU L, OZA S, HOGAN D, et al. Global, regional, and national causes of child mortality in 2000-13, with projections to inform post-2015 priorities: an updated systematic analysis[J]. The Lancet,2015,385(9966):430-440.
[4]VOLKOVA S, AYTON E, PORTERFIELD K, et al. Forecasting influenza-like illness dynamics for military populations using neural networks and social media[J]. PloS one,2017,12(12):e0188941.
[5]HE F, HU Z, ZHANG W, et al. Construction and evaluation of two computational models for predicting the incidence of influenza in Nagasaki Prefecture, Japan[J]. Scientific reports,2017,7(1):7192.
[6]馬知恩,周義倉,王穩地,等.傳染病動力學的數學建模與研究[M].北京:科學出版社,2004.
[7]楊雨琦,孫琦,王悅欣,等.重慶市新型冠狀病毒肺炎(NCP)疫情分析與趨勢預測[J/OL].重慶師范大學學報(自然科學版):1-6[2020-02-27].
[8]范如國,王奕博,羅明,等.基于SEIR的新型肺炎傳播模型及拐點預測分析[J/OL].電子科技大學學報:1-6[2020-02-27].
[9]王志心,劉治,劉兆軍.基于機器學習的新型冠狀病毒(2019-nCoV)疫情分析及預測[J/OL].生物醫學工程研究:1-9[2020-02-27].
[10]呂秋瑩,單芙香,謝旭,等.2005—2016年深圳市乙型病毒性肝炎疫情分析與趨勢預測[J].應用預防醫學,2018,24(01):6-9,85.作者簡介:趙行健(1993-),男,漢族,江蘇溧陽人,碩士研究生,重慶理工大學,研究方向:金融資產評估。