劉擁民 羅皓懿 胡 珊
1(中南林業(yè)科技大學(xué)計(jì)算機(jī)與信息工程學(xué)院 湖南 長(zhǎng)沙 410004) 2(長(zhǎng)沙市中心醫(yī)院結(jié)核病診療中心 湖南 長(zhǎng)沙 410004)
2019年在武漢市爆發(fā)的新型冠狀病毒肺炎(Corona Virus Disease,COVID-19)給全體中國(guó)人民帶來(lái)了驚恐與災(zāi)難。已經(jīng)有許多研究人員對(duì)COVID-19的特征與傳播規(guī)律進(jìn)行了深入的研究與探討,提出了諸如隨機(jī)森林算法[1]、基于時(shí)變參數(shù)的SIR模型法[2]、元胞自動(dòng)機(jī)模型算法[3]及神經(jīng)網(wǎng)絡(luò)逼近規(guī)律函數(shù)[4]等方法,對(duì)COVID-19的傳播規(guī)律進(jìn)行仿真預(yù)測(cè)。以上方法均具有較高的預(yù)測(cè)準(zhǔn)確率,但其中文獻(xiàn)[2]對(duì)人群的分類(lèi)不夠細(xì)致,模型沒(méi)有引入反饋機(jī)制,且微分方程組求解較為困難,對(duì)初值比較敏感;文獻(xiàn)[3]中元胞具有規(guī)則一致的形狀,這并不符合實(shí)際情況,且元胞狀態(tài)更新規(guī)則中的因素過(guò)于單一,沒(méi)有考慮宏觀作用因素;文獻(xiàn)[1-3]僅僅考慮了COVID-19的確診人數(shù)這一簡(jiǎn)單的數(shù)據(jù);文獻(xiàn)[4]雖然考慮了政府的管控措施等其他影響因素,但是僅僅將這些影響因素做了簡(jiǎn)單的設(shè)定,即取固定的常數(shù)處理,因此在仿真過(guò)程中預(yù)測(cè)值與實(shí)際值存在誤差。
本研究認(rèn)為出現(xiàn)上述情況主要是因?yàn)闆](méi)有充分考慮到要將新增感染人數(shù)、媒體宣傳力度、政府隔離強(qiáng)度及公共場(chǎng)所消毒程度等因素作為動(dòng)態(tài)信息來(lái)進(jìn)行分析,具體如下:
(1) 急劇增加的新增感染人數(shù)。武漢是一個(gè)東西貫通、南來(lái)北往的重要樞紐,其西連成都、南連廣州和深圳、東連南京和上海、北連北京。中國(guó)交通網(wǎng)絡(luò)的迅猛擴(kuò)張,特別是航空和高鐵在春節(jié)假期來(lái)臨之際,一定程度上加速了疫情的傳播。
(2) 媒體宣傳力度不足。公眾沒(méi)有足夠重視和地方政府對(duì)公共健康問(wèn)題反應(yīng)能力不夠,本來(lái)中國(guó)的城市化就已經(jīng)造成人口的大規(guī)模聚集,如大都市圈,人口密度高和流動(dòng)性大,進(jìn)一步加快了病毒在人群中的傳播速度。
(3) 政府隔離強(qiáng)度。疫情初期,許多受感染患者仍未意識(shí)到自己已被感染,政府也尚未采取嚴(yán)厲的對(duì)應(yīng)強(qiáng)制舉措,造成了疫情初期像火山爆發(fā)式的傳播。
(4) 由于氣候和環(huán)境本身的變化。氣候變暖,冰川與凍土融化,不斷有新發(fā)現(xiàn)的病毒產(chǎn)生,而且多年前的舊病毒也都可能會(huì)變異和進(jìn)化[5]。
本文基于前人的研究成果,考慮了控制措施在疾病的傳播過(guò)程中造成的重要影響,利用Elman神經(jīng)網(wǎng)絡(luò),主要是以武漢市的COVID-19數(shù)據(jù)為例,對(duì)COVID-19的傳播規(guī)律進(jìn)行預(yù)測(cè)。結(jié)果顯示,采用該方法所預(yù)測(cè)的COVID-19的每日新增確診感染人數(shù)與實(shí)際值十分接近,預(yù)測(cè)的準(zhǔn)確率較高,相比其他預(yù)測(cè)方法而言,能更真實(shí)準(zhǔn)確地反映疫情的實(shí)際情況。
Elman神經(jīng)網(wǎng)絡(luò)[6]是一種典型的動(dòng)態(tài)遞歸神經(jīng)網(wǎng)絡(luò),由Elman于1990年提出。與傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)不同,除了輸入層、隱含層和輸出層以外,還于隱含層增加一個(gè)特殊的承接層,作為延時(shí)算子,起到記憶的作用,其結(jié)構(gòu)如圖1所示。這使系統(tǒng)具備適應(yīng)時(shí)變特性的能力,使得網(wǎng)絡(luò)的全局穩(wěn)定性得到了增強(qiáng),且與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,其具有更強(qiáng)的計(jì)算能力。
承接層的輸入輸出關(guān)系如式(1)-式(3)所示。
x(k)=f(w1xc(k)+w2(u(k-1)))
(1)
xc(k)=x(k-1)
(2)
y(k)=g(w3x(k))
(3)
式中:k代表某時(shí)刻;y為輸出向量;x為中間層節(jié)點(diǎn)向量;u為輸入向量;xc為反饋狀態(tài)向量;w1、w2、w3分別為隱含層到輸出層、輸入層到隱含層、連接層到隱含層的連接權(quán)值矩陣;f(·)為隱含層神經(jīng)元的傳遞函數(shù);g(·)為輸出層的傳遞函數(shù)。
Elman神經(jīng)網(wǎng)絡(luò)的中間層使用S形神經(jīng)元,輸出層使用線性神經(jīng)元。這種神經(jīng)網(wǎng)絡(luò)對(duì)于歷史狀態(tài)十分敏感,且相比于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò),其動(dòng)態(tài)建模的能力更為強(qiáng)大。
COVID-19目前感染源仍不明確,可能的傳播途徑有飛沫傳播和接觸傳播。2020年1月7日21時(shí),研究人員在患者標(biāo)本中檢出一種新型冠狀病毒;1月10日24時(shí),該病毒完成病原核酸檢測(cè)[8];2月11日,世衛(wèi)組織將新型冠狀病毒感染的肺炎命名為COVID-19。文獻(xiàn)[9]發(fā)現(xiàn)了第二代病例的存在,并指出該病毒存在人傳人現(xiàn)象,同時(shí),針對(duì)武漢市金銀潭醫(yī)院中的患者進(jìn)行研究,研究指出,存在未曾到訪華南海鮮市場(chǎng)但被確診患病的病例。
病毒:新型冠狀病毒。
傳染源:野生動(dòng)物。
傳播途徑:主要通過(guò)接觸性傳播以及呼吸道飛沫傳播,同時(shí)也可通過(guò)消化道傳播。
易感人群:所有人群均易感,老年人感染后病重概率較大。
潛伏期:一般為3~7天,最長(zhǎng)有可能超過(guò)14天,潛伏期內(nèi)存在傳染性。
由于COVID-19的新增確診患病人數(shù)在2020年2月12日到達(dá)頂峰,此日確診的人由于各自社會(huì)活動(dòng),部分人在其處于潛伏期時(shí)就已被其感染,但因病毒處于潛伏期,自身未出現(xiàn)患病癥狀而未被確診,按潛伏期14天計(jì)算,在2020年2月26日時(shí),這些當(dāng)時(shí)被感染但未確診的人均因發(fā)病被確診,即在2月26日之后,全國(guó)累計(jì)確診人數(shù)仍會(huì)繼續(xù)增加,但患病人數(shù)的增幅會(huì)明顯降低。由于該疾病在全國(guó)爆發(fā)于湖北,并廣泛存在大量從湖北輸出至全國(guó)的病例,因此湖北的病例全國(guó)最多,廣東、河南、湖南與浙江同樣存在大量病例。
由圖2可知,全國(guó)新增確診從1月19日開(kāi)始,直至2月4日均是持續(xù)走高趨勢(shì),2月4日之后由于政府隔離措施與醫(yī)療系統(tǒng)的完善,新增確診總體呈下降趨勢(shì),2月12日開(kāi)始將臨床診斷病例加入確診標(biāo)準(zhǔn),因此2月12日的新增確診突增到15 152人,2月12日之后新增趨勢(shì)均持續(xù)走低。
由圖3可知,全國(guó)與湖北的新增確診病例基本相似,2月12日達(dá)到新增確診病例的高峰,并于2月12日之后整體呈下降趨勢(shì),而非湖北地區(qū)新增確診病例1月27日至2月19日整體走低,于2月20日劇增到261人達(dá)到高峰,2月20日之后新增趨勢(shì)整體走低。
COVID-19的傳播與發(fā)展具有動(dòng)態(tài)性、非線性與非平穩(wěn)性,傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)無(wú)法滿足該模型預(yù)測(cè)的要求,針對(duì)具有這一特性的模型,許多研究人員引入Elman神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)。例如,針對(duì)股市收盤(pán)價(jià)這一動(dòng)態(tài)非線性模型,吳曼曼等[10]將連續(xù)五天的數(shù)據(jù)作為輸入向量,第六天的數(shù)據(jù)作為輸出向量,預(yù)測(cè)股票收盤(pán)價(jià)趨勢(shì);針對(duì)網(wǎng)絡(luò)流量這一動(dòng)態(tài)非線性模型,章濤等[11]將氣壓、氣溫等因素作為輸入向量,流感樣病例作為輸出向量,對(duì)流感進(jìn)行了準(zhǔn)確預(yù)測(cè)。因此,針對(duì)動(dòng)態(tài)非線性非平穩(wěn)的數(shù)據(jù)模型,使用Elman神經(jīng)網(wǎng)絡(luò)算法進(jìn)行預(yù)測(cè)是合適的。
將COVID-19的每日新增確診數(shù)據(jù)作為時(shí)間序列處理,設(shè)有序列x={x1|xi∈R,i=1,2,…,L},當(dāng)用過(guò)去N天的數(shù)據(jù)預(yù)測(cè)未來(lái)M天的數(shù)據(jù)時(shí),可有規(guī)律地將數(shù)據(jù)劃分為K個(gè)數(shù)據(jù)段,每一個(gè)數(shù)據(jù)段均可以作為訓(xùn)練神經(jīng)網(wǎng)絡(luò)的一個(gè)樣本,這樣就可以得到眾多前N個(gè)值作為網(wǎng)絡(luò)的輸入,后M個(gè)值作為網(wǎng)絡(luò)的輸出的樣本(見(jiàn)表1)。Elman神經(jīng)網(wǎng)絡(luò)通過(guò)這些數(shù)據(jù)進(jìn)行學(xué)習(xí),從而實(shí)現(xiàn)從RN到RM的映射,以達(dá)到數(shù)據(jù)預(yù)測(cè)的目的。

表1 數(shù)據(jù)的劃分方法
以武漢市的COVID-19感染人數(shù)數(shù)據(jù)為例,武漢市的數(shù)據(jù)[12-13]是2020年1月10日至3月24日,其數(shù)據(jù)見(jiàn)表2。

表2 武漢市COVID-19新增確診數(shù)據(jù)

續(xù)表2
由于1月10日前,每日新增確診感染人數(shù)不足10人,不加以考慮。在1月20日左右,確診感染人數(shù)急劇增多,所以將數(shù)據(jù)從1月20日起。
在網(wǎng)絡(luò)設(shè)計(jì)中采用的數(shù)據(jù)是從1月20日至3月24日,共64天。在訓(xùn)練Elman神經(jīng)網(wǎng)絡(luò)時(shí),將三天作為訓(xùn)練的一個(gè)周期,前三天的日新增確診數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的輸入向量,后一天的日新增確診數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的輸出向量。此外,每日新增確診感染人數(shù)還與和疫情發(fā)展相關(guān)的控制措施[14-16]息息相關(guān),如:公共場(chǎng)所消毒程度y1、政府隔離強(qiáng)度y2及媒體宣傳力度y3。因此,還需要將這些措施量化為成為可供神經(jīng)網(wǎng)絡(luò)訓(xùn)練的特征參數(shù),取阿里指數(shù)中消毒物資的相關(guān)數(shù)據(jù)以及新浪微指數(shù)中關(guān)于COVID-19疫情的相關(guān)數(shù)據(jù)作為量化公共場(chǎng)所消毒程度y1以及媒體宣傳力度y3的標(biāo)準(zhǔn),并根據(jù)武漢在COVID-19疫情發(fā)生后采取的一系列關(guān)鍵核心事件(例如封城、采用重大突發(fā)公共衛(wèi)生事件一級(jí)響應(yīng)等),將眾多關(guān)鍵事件整理為時(shí)間軸,以此為依據(jù)將各數(shù)據(jù)量化為政府隔離強(qiáng)度y2,見(jiàn)表3。

表3 COVID-19控制措施表
將特征參數(shù)也作為網(wǎng)絡(luò)的輸入變量,此時(shí)輸入變量是一個(gè)維數(shù)為6的向量,包括三天的新增感染人數(shù)、公共場(chǎng)所消毒程度、政府隔離強(qiáng)度及媒體宣傳力度。輸出向量是后一天的新增確診數(shù),即輸出向量是一個(gè)維數(shù)為1的向量。綜上,Elman神經(jīng)網(wǎng)絡(luò)輸入層的神經(jīng)元數(shù)量m=6,輸出層的神經(jīng)元數(shù)量n=1。隱含層節(jié)點(diǎn)數(shù)通常采用試湊法確定,此處利用最常用的隱含層公式輔助確定節(jié)點(diǎn)數(shù):
(4)
式中:l為隱含層節(jié)點(diǎn)數(shù);m為輸入層節(jié)點(diǎn)數(shù);n為輸出層節(jié)點(diǎn)數(shù);α為1~10之間的常數(shù)。
神經(jīng)網(wǎng)絡(luò)輸入層神經(jīng)元6個(gè),由式(4)可知網(wǎng)絡(luò)隱含層節(jié)點(diǎn)可以取6個(gè),承接層1個(gè),輸出層神經(jīng)元1個(gè)。網(wǎng)絡(luò)訓(xùn)練參數(shù)設(shè)定見(jiàn)表4。

表4 訓(xùn)練參數(shù)
所構(gòu)建的Elman神經(jīng)網(wǎng)絡(luò)具體形式如圖4所示。
利用MATLAB編程對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,結(jié)果如圖5所示。在預(yù)測(cè)全國(guó)新增確診患病人數(shù)時(shí),神經(jīng)網(wǎng)絡(luò)使用訓(xùn)練集的數(shù)據(jù)對(duì)模型進(jìn)行18 710次完整訓(xùn)練后,網(wǎng)絡(luò)誤差達(dá)到要求。網(wǎng)絡(luò)訓(xùn)練完成后,利用訓(xùn)練好的網(wǎng)絡(luò)對(duì)疫情數(shù)據(jù)進(jìn)行仿真預(yù)測(cè),可以得到神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測(cè)值與疫情實(shí)際值之間的比較。
網(wǎng)絡(luò)訓(xùn)練好以后,還需用其他數(shù)據(jù)對(duì)其進(jìn)行測(cè)試。用表2中的1月21日—1月23日三天、1月28日—1月30日三天、2月2日—2月4日三天,2月6日—2月8日三天、2月20日—2月22日三天及2月24日—2月26日三天等共12組數(shù)據(jù)作為網(wǎng)絡(luò)的測(cè)試樣本,來(lái)分別預(yù)測(cè)全國(guó)與武漢市1月24日、1月31日、2月5日、2月9日、2月23日、2月27日等共15天及非武漢市1月24日、1月31日等共14天的日新增感染人數(shù)。
利用Elman神經(jīng)網(wǎng)絡(luò)分別對(duì)全國(guó)、武漢市以及非武漢市新增確診患病數(shù)進(jìn)行仿真與預(yù)測(cè),并對(duì)網(wǎng)絡(luò)輸出值與預(yù)測(cè)值進(jìn)行對(duì)比,仿真結(jié)果如圖6、圖7、圖8所示。圖6為全國(guó)新增患病數(shù)預(yù)測(cè)結(jié)果,圖7為武漢市新增確診患病數(shù)預(yù)測(cè)結(jié)果,圖8為非武漢市其他城市新增確診患病數(shù)預(yù)測(cè)結(jié)果。
網(wǎng)絡(luò)輸出結(jié)果顯示,Elman神經(jīng)網(wǎng)絡(luò)對(duì)全國(guó)患病人數(shù)預(yù)測(cè)的效果最好,對(duì)武漢市即非武漢市地區(qū)的預(yù)測(cè)均有明顯誤差,但網(wǎng)絡(luò)輸出結(jié)果與實(shí)際值已經(jīng)很接近。同時(shí),可以看出,全國(guó)的預(yù)測(cè)與武漢的預(yù)測(cè)發(fā)展趨勢(shì)十分接近,這主要是因?yàn)镃OVID-19疫情是以武漢為中心向全國(guó)范圍內(nèi)擴(kuò)散,且武漢病例在全國(guó)總病例中所占比重也很大,因此武漢的預(yù)測(cè)與全國(guó)的預(yù)測(cè)與控制有著比較緊密的聯(lián)系。
進(jìn)一步利用BP神經(jīng)網(wǎng)絡(luò)對(duì)全國(guó)新增患病數(shù)進(jìn)行預(yù)測(cè),并將其與Elman神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果進(jìn)行對(duì)比。BP神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果如圖9所示。
可以看出,BP神經(jīng)網(wǎng)絡(luò)對(duì)全國(guó)新增患病人數(shù)預(yù)測(cè)的誤差明顯大于Elman神經(jīng)網(wǎng)絡(luò),Elman神經(jīng)網(wǎng)絡(luò)相比BP網(wǎng)絡(luò)表現(xiàn)出更好的預(yù)測(cè)趨勢(shì)和預(yù)測(cè)精度。即對(duì)具有動(dòng)態(tài)性且非線性非平穩(wěn)的COVID-19日新增患病數(shù)進(jìn)行預(yù)測(cè)時(shí),Elman動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)更合適[17]。
相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)僅用前幾日數(shù)據(jù)作為輸入?yún)?shù)預(yù)測(cè)數(shù)據(jù),本文新增了政府的相關(guān)措施、媒體的宣傳手段以及生活環(huán)境的消毒程度三個(gè)數(shù)據(jù)作為輸入?yún)?shù),接下來(lái)將新增輸入?yún)?shù)與未新增輸入?yún)?shù)的神經(jīng)網(wǎng)絡(luò)針對(duì)全國(guó)新增確診患者數(shù)的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,如圖10所示。
網(wǎng)絡(luò)輸出結(jié)果顯示,將媒體宣傳力度、政府隔離強(qiáng)度及公共場(chǎng)所消毒程度這三個(gè)對(duì)疫情傳播有較大影響的因素作為輸入?yún)?shù),可以使網(wǎng)絡(luò)預(yù)測(cè)更為準(zhǔn)確。
上述仿真網(wǎng)絡(luò)輸出結(jié)果和實(shí)際值的對(duì)比如表5所示,Elman神經(jīng)網(wǎng)絡(luò)訓(xùn)練誤差為0.001,Elman神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)相對(duì)誤差如表6表示。

表5 測(cè)試結(jié)果與實(shí)際值對(duì)比表

表6 Elman神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)相對(duì)誤差表
可以看出,Elman神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)值與實(shí)際值十分接近,且Elman神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的誤差在可接受范圍之內(nèi),如果訓(xùn)練神經(jīng)網(wǎng)絡(luò)的樣本進(jìn)一步增多,則神經(jīng)網(wǎng)絡(luò)輸出值的誤差會(huì)更小,即Elman神經(jīng)網(wǎng)絡(luò)可以更為準(zhǔn)確地輸出疾病的傳播規(guī)律。
截至2020年3月23日,大部分地區(qū)現(xiàn)有確診患者已經(jīng)控制在100人以內(nèi),許多地區(qū)已實(shí)現(xiàn)“零確診”,其中政府出臺(tái)的相關(guān)措施、媒體的不斷宣傳、人們生活中對(duì)消毒的重視以及對(duì)生活環(huán)境的及時(shí)消毒,起到了重要作用。仿真實(shí)驗(yàn)證明,將政府的相關(guān)措施、媒體的宣傳手段及生活環(huán)境的消毒程度作為網(wǎng)絡(luò)的輸入?yún)?shù)訓(xùn)練網(wǎng)絡(luò)是可行且有效的。
本文基于Elman神經(jīng)網(wǎng)絡(luò)對(duì)COVID-19的新增確診患病數(shù)進(jìn)行預(yù)測(cè)。在疫情的發(fā)展過(guò)程中,政府的相關(guān)措施、媒體的宣傳手段及生活環(huán)境的消毒程度,均對(duì)防止疫情擴(kuò)散起到了重要作用,因此本文對(duì)這三個(gè)屬性進(jìn)行量化,聯(lián)合前三天的新增確診患病數(shù),共六個(gè)特征作為網(wǎng)絡(luò)的輸入?yún)?shù),對(duì)Elman神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練與仿真,以此來(lái)預(yù)測(cè)現(xiàn)在的確診患病人數(shù)。實(shí)驗(yàn)結(jié)果表明,應(yīng)用該方法訓(xùn)練的網(wǎng)絡(luò)所預(yù)測(cè)的新增確診患病數(shù)與實(shí)際情況的新增確診患病數(shù)十分接近,即該網(wǎng)絡(luò)可以準(zhǔn)確預(yù)測(cè)疫情的發(fā)展,且可以較準(zhǔn)確地展示該疾病的傳播規(guī)律。
通過(guò)BP神經(jīng)網(wǎng)絡(luò)與Elman神經(jīng)網(wǎng)絡(luò)對(duì)全國(guó)COVID-19新增確診患病數(shù)進(jìn)行預(yù)測(cè)的對(duì)比實(shí)驗(yàn),可得出以下結(jié)論:對(duì)具有動(dòng)態(tài)性且非線性非平穩(wěn)的數(shù)據(jù)預(yù)測(cè)而言,Elman神經(jīng)網(wǎng)絡(luò)相比傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的適應(yīng)性與預(yù)測(cè)準(zhǔn)確性。
科學(xué)數(shù)據(jù)和信息共享是國(guó)際合作的前提[18]。目前,國(guó)外COVID-19的病例數(shù)與日俱增,2020年3月15日塞爾維亞總統(tǒng)向中國(guó)發(fā)出求助,截至2020年3月19日,已有西班牙、意大利、美國(guó)等35個(gè)國(guó)家因COVID-19進(jìn)入國(guó)家緊急狀態(tài),該方法對(duì)這些已經(jīng)出現(xiàn)COVID-19病例國(guó)家預(yù)測(cè)疫情、控制疫情也有一定的參考意義。同時(shí),該方法也同樣可用于其他傳染病的預(yù)測(cè)與控制。