孫進,劉今,孫明麗,劉宇琦,姜玥,吳偉
(中國醫(yī)科大學 1.公共衛(wèi)生學院,沈陽 110122;2.第二臨床學院,沈陽 110004;3.附屬盛京醫(yī)院婦產(chǎn)科,沈陽 110004;4.第一臨床學院,沈陽 110001;5.公共衛(wèi)生學院流行病學教研室,沈陽 110122)
手足口病(hand-foot-mouth disease,HFMD)是一種常見的兒童急性傳染病,主要臨床癥狀為手、足、口、臀部的皮疹、斑疹等,重癥患者常因出現(xiàn)嚴重的循環(huán)系統(tǒng)、神經(jīng)系統(tǒng)并發(fā)癥而死亡[1]。導致HFMD的病毒為柯薩奇病毒A16型和腸道病毒71型,通過咳嗽或帶菌者接觸患者或其物品傳播,學校、日托中心和運動隊是感染以上病毒的常見環(huán)境[2]。河南省HFMD發(fā)病率總體呈上升趨勢,尤其是2008年至2009年發(fā)病人數(shù)居全國前10%[3]。因此,對HFMD發(fā)病數(shù)進行精準的預測可為疾控部門提供必要的支持。
目前,HFMD的預測研究中最常用的模型為自回歸移動平均模型(autoregressive integrated moving average model,ARIMA)[4]。在其基礎(chǔ)上,還有應用小波分析[5]與加入氣象因素[6]的ARIMA模型,以及ARIMA-BP組合模型[7]、ARIMA-GRNN模型[8]、灰色預測模型GM(1,1)[9]、ARIMA-RBF模型[10],預測效果超過一般的ARIMA模型,也已廣泛應用于HFMD的預測。長短期記憶(long short term memory,LSTM)網(wǎng)絡(luò)模型作為循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)中優(yōu)秀的變體模型,預測效果良好,優(yōu)于常用的ARIMA模型與分布滯后非線性模型(distributed lag non-linear model,DLNM)[11-12]。本研究采用LSTM模型結(jié)合氣象因素與經(jīng)濟因素預測鄭州市HFMD的發(fā)病趨勢,旨在為HFMD的疫情防控工作提供理論支持。
根據(jù)鄭州市疾病預防控制中心收集的HFMD相關(guān)數(shù)據(jù),對2010年1月至2019年12月鄭州市HFMD逐月發(fā)病人數(shù)繪制時序圖,獲取發(fā)病規(guī)律及發(fā)病高峰期。
從中國氣象數(shù)據(jù)網(wǎng)(http://data.cma.cn)采集鄭州市平均氣溫、降水量、極大風速等氣象數(shù)據(jù),并進行統(tǒng)計描述。
社會消費品零售總額能反映居民的消費水平,并作為國民經(jīng)濟核算的重要指標之一,反映消費過程中最重要的需求情況。由于春節(jié)效應[13],1月與2月社會消費品零售總額數(shù)據(jù)是合并值,使用MATLAB中分段3次Hermite插值的方法求得1月至2月數(shù)據(jù)。將鄭州市當月社會消費品零售總額數(shù)據(jù)除以中國當月社會消費品零售總額數(shù)據(jù),所得的數(shù)值作為數(shù)據(jù)變量進行分析,將該數(shù)據(jù)在本研究中定義為“經(jīng)濟比值”。從鄭州市統(tǒng)計局官網(wǎng)(http://tjj.zhengzhou.gov.cn)收集鄭州市社會消費品零售總額數(shù)據(jù),從國家統(tǒng)計局官網(wǎng)(http://www.stats.gov.cn)收集中國社會消費品零售總額數(shù)據(jù)。
采用Spearman相關(guān)性分析探討HFMD發(fā)病人數(shù)與氣象及經(jīng)濟因素的相關(guān)性[14-15]。
LSTM是RNN模型的一種變體模型,可很好地彌補RNN模型梯度消失、梯度爆炸以及長期記憶能力不足等問題[16]。其外部結(jié)構(gòu)與傳統(tǒng)的RNN結(jié)構(gòu)大致相同,不同點在于其隱藏層,使LTM模型具備了遺忘和選擇記憶的功能。典型的LSTM神經(jīng)網(wǎng)絡(luò)由輸入門、遺忘門、輸出門組成[17](圖1)。

圖1 LSTM模型示意圖Fig.1 Schematic diagram of LSTM model
LSTM模型計算公式如下:
it為輸入門,ft為遺忘門,ot為輸出門。h t-1為先前的隱藏狀態(tài),wi1,wi2,wf1,wf2,wo1,wo2,xt為權(quán)重矩陣,bi,bf,bo為偏差向量。ct表示記憶細胞的狀態(tài),gt為候選信息。ht為最終的內(nèi)存單元的輸出[17]。
本研究將鄭州市2010年1月至2018年12月的HFMD逐月發(fā)病數(shù)作為訓練集,2019年的數(shù)據(jù)作為測試集。采用Python 3.9軟件建立LSTM神經(jīng)網(wǎng)絡(luò),對數(shù)據(jù)進行歸一化處理,根據(jù)數(shù)據(jù)的特征選擇最佳時間步為21,神經(jīng)元數(shù)目為10,迭代次數(shù)為60。
采用SPSS 26.0專家建模器完成傳染病預測常用的ARIMA模型,為ARIMA(1,0,0)(0,1,1)12,將其與LSTM模型結(jié)果進行對比,以進一步驗證本研究所構(gòu)建的LSTM模型的有效性。用平均絕對誤差(mean absolute error,MAE)和均方誤差平方根(rooted mean squared error,RMSE)作為衡量模型的評價指標。MAE和RMSE的數(shù)值越小,說明模型的預測效果越好。
繪制2010年1月至2019年12月鄭州市HFMD發(fā)病人數(shù)時序圖,結(jié)果如圖2所示,HFMD逐月發(fā)病人數(shù)波動較大,存在明顯的季節(jié)性流行規(guī)律,發(fā)病高峰期多出現(xiàn)于每年5月。

圖2 2010年1月至2019年12月鄭州市HFMD逐月發(fā)病人數(shù)時序圖Fig.2 Time sequence diagram of monthly incidence of hand-foot-mouth disease in Zhengzhou City from January 2010 to December 2019
如表1所示,鄭州市平均氣溫為(16.06±9.70)℃,平均降水量為(50.42±58.03)mm,平均經(jīng)濟比值約0.011 1。

表1 鄭州市氣象因素與經(jīng)濟因素統(tǒng)計Tab.1 Statistics of meteorological and economic factors in Zhengzhou City
Spearman相關(guān)分析結(jié)果如表2所示,平均氣溫與發(fā)病人數(shù)呈正強相關(guān)性,降水量與發(fā)病人數(shù)呈中等相關(guān),經(jīng)濟比值與發(fā)病人數(shù)呈弱相關(guān)性。因此,本研究選取這3個因素納入LSTM模型。最終共建立6種模型,其中,LSTM模型為不添加影響因素建立的模型,LSTMT、LSTMP、LSTME、LSTMPT、LSTMEPT分別為模型中加入平均溫度、降水量、經(jīng)濟比值、平均溫度與降水量,以及同時加入這3種影響因素。

表2 影響因素與HFMD發(fā)病人數(shù)秩相關(guān)系數(shù)矩陣表Tab.2 Correlation coefficients between the influential factors and the rank of HFMD
LSTM模型數(shù)據(jù)結(jié)果如表3所示,加入某種單一氣象因素或經(jīng)濟因素均能提高LSTM模型的預測效果。其中加入經(jīng)濟因素的結(jié)果不亞于單獨加入氣象因素的結(jié)果,同時加入3種影響因素的結(jié)果最好,并且其優(yōu)于2種氣象因素加入的模型。LSTM模型的訓練集效果見圖3。LSTM模型在2019年的預測效果見表4、表5、圖4。

表4 2019年HFMD發(fā)病數(shù)與LSTM、LSTMP、LSTME模型預測值Tab.4 HFMD incidence and LSTM,LSTMP,LSTME predicted value in 2019

圖3 LSTM模型訓練集結(jié)果圖Fig.3 LSTM model training set result diagram

圖4 2019年LSTM模型的預測結(jié)果圖Fig.4 LSTM model forecast results in 2019
為了驗證模型的有效性,對比LSTM模型與ARIMA模型預測結(jié)果,如表6所示,LSTM模型的預測結(jié)果優(yōu)于ARIMA模型,提示LSTM模型更加具有普遍性與適用性。

表6 ARIMA模型與LSTM模型擬合與預測結(jié)果Tab.6 Fitting and prediction results of ARIMA model and LSTM model
我國于2008年起將HFMD納入丙類傳染病管理,它是我國發(fā)病率最高、死亡人數(shù)最多的丙類傳染病。近年來,HFMD的研究主要集中于病原體[18-19]、流行病學特征[20-21]、發(fā)病預測模型[22]等領(lǐng)域。HFMD具有季節(jié)性流行病學特征,如開學季、節(jié)假日、人口流動特點、氣象因素[23-24]等多種因素都可能對HFMD的季節(jié)性流行特征造成影響。研究表明,氣溫[25-28]、相對濕度[28]、光照時長、降雨量[24]都可能影響HFMD的發(fā)病。HFMD的發(fā)病情況還與社會經(jīng)濟因素相關(guān)。LIAO等[29]研究發(fā)現(xiàn),在四川省經(jīng)濟條件較好的地區(qū),溫度是HFMD發(fā)病的主要危險因素,而在四川省經(jīng)濟條件較差的縣,國內(nèi)生產(chǎn)總值則是HFMD發(fā)病的主要危險因素。有HFMD的調(diào)查問卷研究[30-31]表明,居民收入是HFMD發(fā)病情況的影響因素之一,居民收入越高,HFMD的發(fā)病率越低。本研究采用LSTM模型結(jié)合氣象因素與經(jīng)濟因素預測鄭州市HFMD的發(fā)病情況。結(jié)果顯示,加入氣象因素與經(jīng)濟因素均使HFMD預測結(jié)果更加精確,再次證明氣象因素與經(jīng)濟因素對HFMD發(fā)病情況具有一定的影響。
目前神經(jīng)網(wǎng)絡(luò)模型在傳染病預測方面的應用日益增多。高秋菊等[11]與WANG等[32]發(fā)現(xiàn),應用LSTM模型對HFMD的發(fā)病情況進行預測的效果優(yōu)于ARIMA模型或NAR模型,但所用LSTM模型納入因素較少。馬停停等[15]應用LSTM模型結(jié)合氣象因素對濟南市HFMD的發(fā)病情況進行預測,結(jié)果發(fā)現(xiàn)LSTM模型中同時加入溫度與濕度因素能夠取得最好的預測效果。本研究結(jié)果也驗證了氣象因素對HFMD發(fā)病情況的影響。此外,本研究還在預測模型中納入了經(jīng)濟指標,結(jié)果證明納入該指標再次提高了LSTM模型的預測精度,改進了經(jīng)濟指標這一影響因素在預測模型中的應用。此外,LSTM模型的應用遠不止于HFMD一種疾病,LSTM模型或其組合模型還可應用于瘧疾、肺結(jié)核、猩紅熱、腎綜合征出血熱等多種疾病[33-37]。
HFMD的發(fā)病情況受到多種因素影響,如地域、飲食習慣、城鎮(zhèn)化程度、疾病的防控措施以及重大突發(fā)事件的發(fā)生等,均可能影響HFMD的發(fā)生與傳播。另外,本研究僅針對鄭州市的HFMD發(fā)病情況進行預測,但河南省作為中國人口大省,市級的空間分辨率較大,在區(qū)縣級方面的應用可能稍顯不足。HFMD作為丙類傳染病中發(fā)病人數(shù)最多的傳染病,對兒童造成的傷害尤為巨大,其疫情防控極其重要,了解和監(jiān)測HFMD的發(fā)生,在疫情高峰期做好應對措施,是公共衛(wèi)生專家以及臨床醫(yī)生必需重視的工作。