王志心,劉治,劉兆軍
(山東大學信息科學與工程學院,青島 266237)
2019年12月起,湖北省武漢市開始出現原因不明的肺炎病例,2020年1月7日,首次檢測出一種新型冠狀病毒(COVID-19)[1-2]。該病毒主要通過飛沫和接觸傳播。隨著春運的到來,新型冠狀病毒肺炎(簡稱“新冠肺炎”)很快波及全國。
在1個多月的時間內,新冠肺炎確診患者和疑似患者的數量不斷創出新高,說明該病毒的傳染性較強。
模型把新冠肺炎傳播分為兩個階段,第一階段是對疫情不夠重視的自由傳播階段,等價于疾病傳播的SIR過程[4-7],在此階段,新感染的患者數量以再生數R0呈現出指數型增長的趨勢。第二階段是政府介入后,媒體對新冠肺炎的報道使人群采取自我保護行為,如待在家中或佩戴口罩出行等,阻斷病毒傳播渠道。在此階段,疾病傳播再生數下降至小于1,呈現出新增感染患者數量下降的趨勢。
在無外界干預的情況下,假設第一天的感染患者數量為n,基本再生數為k,那么第二天新增的感染患者數量為nk,第三天為nk2,以此類推,可以得到在第t天的感染患者數量為:
(1)
其中,k為基本再生數,n為初始感染人數,t為天數。
利用式(1)對2020年1月13日-2月3日公布的確診感染數據進行擬合,結果見圖1。由圖1可知,曲線可以較好地擬合實際數據。

圖1 1月13日至2月3日確診患者數量與擬合曲線
2.2.1控制手段干預后的模型 對傳染病的控制在于控制傳染源,切斷傳播渠道,保護易感人群,這些都可歸結為人為地降低基本再生數k。
由SIR傳播理論可知,只有當再生數小于1時,傳染病才可被控制。當采取的控制手段力度大時,干預后再生數下降大,當采取的控制手段力度小時,干預后再生數下降小。在此,我們討論干預后再生數小于1的情況。
假設在第t0天,再生數小于1,那么在t0天之前,傳染病感染患者數量以指數型增長,此后總確診患者數量呈現下降的趨勢,由此可以得出:
(2)



回歸算法是機器學習中最常見也是使用最廣的一種算法,是一種有監督學習的算法。在這里我們使用最小二乘準則(least square error,LSE)和梯度下降算法對數據進行非線性回歸,尋找天數與確診患者數量的非線性關系。
2.3.1最小二乘準則 最小二乘準則提供了一種損失函數的表達方法,基本思路是使得所有樣本點到曲線或一面的距離最小。通過最小二乘準則可以很容易地寫出損失函數,即:
(3)
其中,J(θ)為損失函數,yi為樣本觀測值。
2.3.2梯度下降法 梯度下降算法在機器學習中的應用十分廣泛,主要通過迭代找到目標函數的極小值,但多數情況下,其較難找到全局最優解,一般只能找到局部最優解,因此,對模型預測參數的準確性可能會產生一定的影響。
首先,我們對θ進行隨機初始化,然后沿著負梯度的方向進行迭代,使得更新后的θ令J(θ)更小,公式如下:
(4)
其中θ為參數,J為損失函數,η為學習率。
當θ下降到某個無法下降的點或者某個定義的極小值時,停止下降,并將得到的θ代入損失函數中,得到極小值,完成對參數的估計,見圖2。
由式(5)求損失函數J(θ)對θi的偏導數:
(5)
2.3.3計算數據與擬合結果 為求解擬合系數,所需的數據如下:

圖2 梯度下降示意圖
X=[x1,x2,…,xn]
(6)
Y=[y1,y2,…,yn]
(7)
(8)
(9)

根據上述步驟計算出擬合值后,便可對確診患者數量進行預測,結果見圖3。由圖3可知,在拐點到來后20天左右,由于干預強度逐漸增大,疫情開始趨于穩定,最終確診患者數量在75 000人左右。

圖3 基于1月13日至2月3日確診人數擬合數據的預測曲線
根據上述模型對部分省市的感染規模做簡單推算,表1為2020年1月20日至2月2日部分省市衛生健康委員會發布的確診患者數量。

表1 各省市衛健委發布的累計確診患者數量
對表1數據用模型進行擬合,然后對各省市最終感染患者數量進行預測,結果見圖4。




圖4 各省市確診患者數量預測曲線
由圖4可以得出各省市的預計感染患者數量,將其與本省市人口進行對比,確定確診患者數量在本省市的占比,以此評估各省市新冠肺炎的嚴重程度,見表2。由表2可知,湖北預估確診人數最多,其次是浙江和廣東,這與當前疫情嚴重程度相吻合。
本研究通過對新型冠狀病毒肺炎的傳播模型進行建模,并根據時間節點等數據預測了拐點出現的時間。結果表明,疫情在2020年1月25日后16~18天左右將會出現拐點,在一個月左右確診患者數量將會趨向平穩,新增確診患者數量將很少。從預估確診患者數量在各省市中占比來看,湖北的嚴重程度為第一梯隊,浙江、廣東、河南、湖南、安徽、重慶、江西為第二梯隊,如果生活在以上幾個省市應盡量減少外出,外出時應避免前往人群聚集的地方,并采取自我防護措施,注意佩戴口罩。

表2 各省市預估確診患者數量在本省市人口的占比