馬思婕,黃珈銘,印英東,曾楚儀
(廣州大學數學與信息科學學院,廣東 廣州 510006)
2019年末,新冠突襲無疑是人類史上的一大災難,短短幾日便讓人們看到了它的“威力”。2020年3月11日,世衛組織將新冠肺炎疫情認定為全球大流行。實際上,全球大流行并不是第一次出現,西班牙流感、H1N1豬流感、西非埃博拉疫情……這也側面告訴人們:在以往經歷中吸取經驗,尋求合適的預測模型進行科學防疫尤為重要。
在疫情早期便有許多學者開始了與COVID-19相關的研究,不過早期的數據、現象還不夠成熟,過早過快地下結論會造成較大偏差。本文在相對成熟的數據及現象下進行了分析預測,對疫情走勢進行有效預測及傳染力判斷,希望通過對COVID-19的研究,得到較成熟的模型,為日后類似突發情況提供幫助。
在考慮居家隔離、醫學隔離、入院治療等防疫政策和醫學干預的情況下,本文對各艙室人群的流動情況進行了分析(見圖1)。

圖1 人群流動變化
在模型建立的過程中,為了排除其他因素干擾,將不考慮非COVID-19所引起的人口變化,如自然死亡等。在將模型實踐到具體地區時,假設該地區在所研究時間段內人口恒定,系統內各類人口總和不發生改變。浦江創新論壇系列活動“特別對話:科技創新與全球健康共治”[1]中,復旦大學附屬華山醫院感染科主任張文宏表示:在現實中存在復陽、二次感染情況,但屬于極小概率事件,故在模型中將不考慮二次感染情況,即被感染者人群痊愈后歸入康復者類中,不再流動轉變。
根據1.1中各類人群的流動分析,可建立如下各類人群關聯性的微分方程:

該模型中引進了一些參數以表現群體的變化流動。式中:c代表一個暴露的具有感染力的患者的接觸率;β代表每次接觸的傳播概率;q代表接觸者被追蹤到隔離的概率;σ代表受感染個體轉向受感染類的轉化率;λ代表隔離的未感染接觸者被釋放到更廣泛的社區的速度;δI代表有癥狀的感染者轉變為住院患者的比率;δq代表隔離易感人群轉變為住院患者的比率;θ代表無癥狀感染者相對于有癥狀感染者傳播力的比值;γI代表未住院有癥狀感染者的康復率;γA代表無癥狀感染者的康復率;γH代表住院患者的康復率;α代表死亡率。
本文分別以北京市總人口、武漢市總人口為初始易感人群作為研究對象,通過北京市衛生健康委員會網站[2]、湖北省衛生健康委員會網站[3]公開發布的官方數據為原始數據,收集2020年1月23日—3月17日的疫情信息并對所獲得的數據進行處理與篩選。數據處理與篩選后出現數據缺失的情況,因此在得到正確的實驗數據前本文進行了數據的缺失度檢驗,發現數據缺失度為1.37%,缺失度較低。經分析可知缺失部分為MAR隨機缺失,可直接選用模型方法對數據進行填補。對于處理后得到的理想數據進行去噪處理與匯總,得到兩城市較準確的COVID-19感染人數變化數據,為本文模型的訓練預測擬合提供重要基礎。
(1)由疫情防控指南了解到[4],一般隔離周期為14 d,故可得到隔離的未感染接觸者被釋放到更廣泛社區的速度λ=1/14。
(2)由世衛組織的相關研究[4]可知,COVID-19的平均潛伏期為7 d,故可得到受感染個體轉向受感染類的轉化率σ=1/7。
(3)其他參數的估測方法。對于SEIR模型中的參數估計,本文采用基于分支過程的Monte-Carlo算法[5],通過建立隨機并基于分支過程描述COVID-19的傳播過程(見圖2),從而對數據進行預測(見表1)。

表1 參數的計算估計取值

圖2 分支過程
根據分支過程理論,病毒傳播過程中人與人接觸產生的傳播是隨機獨立的。對這種大量隨機行為的描述符合計算機Monte-Carlo算法的應用要求。
本文以收集到感染人數數據的前80%作為訓練集擬合目標函數,后20%作為參數估計集用于優化函數中的參數取值。為了增強算法應用的準確性,本文在執行模型的過程中,不斷調整步長以求得較優的參數取值。對實際數值和模擬數值用最小二乘法衡量其相似程度,不斷優化參數取值。由多種參數的取值并兼顧疫情發展帶來的參數變化,進行疫情發展過程模擬。模擬結果與實際數據進行對比,發現模擬的貼合度達到91.49%,有理由認為算法擬合出的模擬情況從概率意義上表明了未來實際疫情的發展趨勢。
由于疫情暴發中經歷了醫療資源不足以及相關隔離政策頒布的過程,因此COVID-19傳播前期的R0與傳播后期的R0有較大區別[6]。根據現實情況可知,由于醫療資源供應在2020年2月13日左右充足,因此本文以2020年2月13日為分界點,對兩城市的R0進行前期和后期計算,得到結果,如表2所示。

表2 R0分界計算結果
通過上文中相關參數的估計,對后續感染者的數據走勢進行了預測,預測情況,如圖3所示。

圖3 預計累計感染人數與實際情況比對
為研究本模型是否能較為靈敏地進行預測,且誤差是否會對模型結果造成顯著影響,本文通過改動在SEIR模型中對傳染影響較大的兩個參數c,q,以觀察最終擬合曲線的改變情況,結果如圖4所示。

圖4 基于參數c,q的模型靈敏度分析
改動參數c,即暴露的具有感染力的患者的接觸率發生了改變,這是對疫情下防疫政策的直觀體現。觀察圖4可以看到,模型預測的累計感染人數產生較大波動,但參數變化造成的預測值變化在合理范圍內。表明本模型在進行預測時對于參數c的變動感應較為靈敏,可以依據不同的防疫政策、措施進行合理預測,適用度較廣泛。
同時,本文在保持c取值為14.8的情況下,對參數q進行靈敏度分析。
改動參數q,即接觸者被追蹤到隔離的概率,這是對防疫體系成熟與否的直觀鑒定,相對成熟的防疫體系下,參數q自然相對較高,反之則較低。觀察圖4可以看到,改變參數q的值,參數變化造成的預測值變化在合理范圍內。表明本模型在進行預測時對于參數q的變動感應較靈敏,再次驗證本模型可以為不同的情境、防疫體系進行合理預測。
綜上可知,在不同病毒、不同的防疫防護政策下,模型反應靈敏,具有時效性,可為不同類型傳染性病毒、不同地區及國家不同的防疫政策、措施提供模型基礎。
針對COVID的傳染力研究,本文建立了改進的SEIR病毒模型,并且以醫療資源以及相關隔離政策頒布情況前后進行分析。以2020年2月13號作為分界日期,2月13號之前為前期,之后為后期,將模型實踐到北京市及武漢市,得到北京市前期基本再生數R0=2.135 0、北京市后期R0=1.973 0;武漢市前期R0=3.127 0、武漢市后期R0=2.429 0。同時,本文研究結果表明,北京市的疫情高潮會在2020年2月3日左右到來,武漢市的疫情高潮將會在2020年2月6日左右到來,該段時間病毒傳播的概率最高,要注意防控,嚴防嚴控才能有效降低病毒的傳染力。