999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

SARIMA模型和LSTM神經網絡在預測深圳市寶安區手足口病疫情中的應用

2022-11-08 09:00:56陳春艷陳億雄趙執揚李淑珍
山西醫科大學學報 2022年10期
關鍵詞:模型

陳春艷,陳億雄,趙執揚,李 靜,李淑珍*

(1山西醫科大學公共衛生學院流行病學教研室,太原 030001;2深圳市寶安區疾病預防控制中心傳防科;*通訊作者,E-mail:lszlym@163.com)

手足口病(hand-foot-mouth disease, HFMD)是由多種腸道病毒感染引起的常見急性傳染病,常見于5歲以下兒童[1]。臨床上以手、足和口腔等部位出現皰疹、斑丘疹為主要癥狀[2]。多數患者癥狀較輕,可自愈,少數重癥患者可出現中樞神經系統和/或心血管系統并發癥如肺循環衰竭、腦膜炎等[3],甚至死亡。手足口病傳播途徑復雜、防控難度大,我國于2008年將其列為法定報告的丙類傳染病[4]。

時間序列分析[5]是將某種現象某一個統計指標在不同時間上的各個數值,按時間先后順序排列而形成的序列,旨在預測未來事件發展的趨勢和規律,現已被各領域廣泛應用。時間序列分析中的季節性差分自回歸移動平均模型(seasonal autoregressive integrated moving average model, SARIMA)能夠分析發病數據的趨勢性、季節性、周期性以及隨機性的波動,最常用于預測疾病的發生及發展規律[6,7],但SARIMA模型要求其時間序列服從平穩性,當序列不平穩時往往需要通過差分等方法將其變為平穩序列,因此會損失一定的信息造成預測準確性降低。近年來,隨著深度學習理論的出現和數值計算能力的提升,基于循環神經網絡(recurrent neural networks, RNN)改進的一種算法即長短時記憶神經網絡(long short term memory, LSTM)逐漸成為時間序列的分析方法之一[8,9]。

廣東省深圳市是手足口病的高發城市[10,11]。寶安區是深圳市人口數最多的區,達447萬人[12],是深圳市手足口病的高發地區[13]。因為受新冠疫情的影響,2020—2021年通過“中國疾病預防控制信息系統”報告的深圳市寶安區的HFMD發病數與往年相比,數據質量穩定性受到影響,容易導致構建的模型具有較大的預測誤差。為減少誤差,本文選取2009年1月至2019年12月深圳市寶安區的HFMD發病數據資料進行研究。通過應用SARIMA模型和LSTM神經網絡構建深圳市寶安區手足口病時間序列模型,預測發病趨勢,為今后HFMD的預防和控制提供理論依據。

1 資料與方法

1.1 一般資料

2009年1月至2019年12月深圳市寶安區人口數資料來源于深圳市寶安區統計局,2009年1月至2019年12月深圳市寶安區手足口病發病數據來源于“中國疾病預防控制信息系統”。本研究以2009年1月至2018年12月的HFMD月發病率作為訓練集分別構建SARIMA模型和LSTM神經網絡,預測2019年1—12月的HFMD月發病率。

1.2 研究方法

1.2.1 SARIMA模型 由于手足口病具有季節性波動,本研究構建季節性差分自回歸移動平均模型(seasonal autoregressive integrated moving average model, SARIMA),即SARIMA(p,d,q)(P,D,Q)s。構建SARIMA模型的步驟為:首先進行自相關圖檢驗、單位根檢驗法(augmented dickey-fullert,ADF)判斷數據是否平穩(P<0.05代表序列平穩),若序列不平穩則需差分直至成為平穩序列。隨后對該序列進行白噪聲檢驗即Ljung-Box檢驗,當序列成為非白噪聲時,則可構建SARIMA模型。本研究采用Python網格搜索來自動擬合SARIMA模型,根據赤池信息(AIC最小)準則,采用條件最小二乘法估計模型參數,并對模型參數進行統計學檢驗,選擇相對最優模型,通過模型殘差白噪聲檢驗判斷模型是否擬合成功(Ljung-Box檢驗中P>0.05,表示殘差為白噪聲)。

1.2.2 LSTM神經網絡 LSTM神經網絡是由Hochreiter提出并由Graves改進的一種常見的循環神經網絡[14]。一個LSTM單元結構的核心在于它的神經元狀態(cell state)。LSTM包括3個門控結構[8],即“遺忘門”“輸入門”和“輸出門”。這3種門控結構可選擇性地控制信息通過,信息傳遞順序為:先輸入ht-1、xt和Ct-1,根據sigmoid、tanh函數和下列公式[8]計算ft、it、ot,其中ht-1代表t-1時刻的輸出值,xt代表t時刻的輸入值,Ct-1代表t-1時刻的單元狀態,ft、it、ot分別代表遺忘門狀態、輸入門狀態、輸出門狀態[15]。

遺忘門狀態:ft=σ(Wf·[Ct-1,ht-1,xt]+bf)

輸入門狀態:it=σ(Wi·[Ct-1,ht-1,xt]+bi)

輸出門狀態:ot=σ(Wo·[Ct-1,ht-1,xt]+bo)

單元輸入狀態:

隱藏層輸出狀態:ht=ot×tanh(Ct)

其中W是權重矩陣,b是偏倚項,σ表示sigmoid函數。

1.3 模型性能評價

運用均方誤差(mean squared error, MSE)、均方根誤差(root mean squared error, RMSE)、平均絕對誤差(mean absolute error, MAE)、平均絕對百分比誤差(mean absolute percentage error, MAPE)比較兩種模型對深圳市寶安區HFMD發病趨勢的擬合及預測效果。

1.4 統計分析

采用SPSS 22.0軟件對數據進行描述性分析,采用χ2檢驗進行率的比較,檢驗水準ɑ=0.05;采用python3.10軟件分別構建SARIMA模型和LSTM神經網絡。

2 結果

2.1 發病率分析

2.1.1 年發病率分析 2009—2019年深圳市寶安區累計報告手足口病82 632例,年均發病率為291.93/10萬,2017年(575.34/10萬)及2018年(699.84/10萬)的HFMD發病率較高(見表1)。

2.1.2 月發病率分析 除2009—2012年外,其他年份的HFMD月發病率均呈現典型的雙峰模式。病例從每年的3月開始增多,到第4—7月達到第1個峰值,隨后第9—11月達到第2個峰值(見圖1),即多發于夏秋季節,夏季較秋季高發,具有明顯的季節性。

表1 2009—2019年深圳市寶安區手足口病發病的分布Table 1 Distribution of incidence of HFMD in Bao’an district of Shenzhen city in 2009—2019

圖1 2009—2019年深圳市寶安區手足口病月發病率分布Figure 1 Distribution of monthly incidence of HFMD in Bao’an district of Shenzhen city in 2009—2019

2.2 SARIMA模型

2.2.1 平穩性檢驗和白噪聲檢驗 對原始序列依次進行平穩性檢驗和白噪聲檢驗,經ADF檢驗發現,序列存在單位根(χ2=-0.018,P>0.05,見表2),對原始序列的自相關圖、偏自相關圖進行分析,自相關系數超過2倍標準差(見圖2),綜合考慮上述結果,認為原始序列為不平穩序列。對序列進行季節性差分得到平穩序列(χ2=-3.091,P<0.05),隨后對該序列進行Ljung-Box檢驗,序列滿足非白噪聲要求(χ2=15.841,P<0.05,見表2)。

2.2.2 模型優化 根據序列的差分次數確定非季節性與季節性差分的值,即d為0,D為1,初步選用SARIMA(p,0,q)(P,1,Q)12模型。根據既往文獻經驗[16]p、q、P及Q取值范圍為0~2,采用Python網格搜索自動擬合SARIMA模型,根據AIC最小原則和解釋變量盡可能有意義,最終選擇SARIMA(0,0,2)(0,1,2)12為相對最優模型(AIC=752.094,BIC=764.066),對模型的殘差序列進行Ljung-Box檢驗,結果為白噪聲(P=0.510,見表3),說明該模型數據提取完全,效果滿意。

表2 序列的平穩性及白噪聲檢驗Table 2 Stationarity of sequences and Ljung-Box test

圖2 原始序列及差分序列的自相關圖與偏自相關圖Figure 2 ACF and PACF of original sequence and difference sequence

表3 SARIMA(0,0,2)(0,1,2)12模型參數估計和擬合優度統計量結果Table 3 Parameter estimation and goodness-of-fit statistics for SARIMA(0,0,2)(0,1,2)12 models

2.3 LSTM神經網絡

因為手足口病的數據周期為12個月,因此LSTM神經網絡的窗口長度設置為12,即輸入層節點數為12,預測下個月手足口病發病率,輸出層節點數為1。

本文在單隱層的結構下以隱藏層節點數為2的冪次方進行試驗,當隱藏層節點數為1 024時,模型的RMSE、MAE、MSE 3個評價指標均最小(見表4)。

固定隱藏層節點數為1 024,設置隱藏層層數為1~5逐個進行試驗,結果見表5。當隱藏層層數設置為1時,LSTM神經網絡的誤差值均最低。

綜上,本文設置時間步長為12、隱藏層層數為1、隱藏層節點數為1 024、迭代次數為50時,構建LSTM神經網絡。

表4 隱藏層節點數對模型預測性能的影響Table 4 The influence of the number of hidden layer nodes on the prediction performance of the model

2.4 兩種模型擬合及預測深圳市寶安區HFMD發病的效果評價

在本研究中,采用SARIMA(0,0,2)(0,1,2)12和LSTM神經網絡分別對2010年1月至2018年12月深圳市寶安區的HFMD月發病率進行擬合。兩種模型對2019年1—12月深圳市寶安區的HFMD月發病率進行預測,SARIMA的預測值出現了雙峰分布,而LSTM的預測值呈單峰分布且與實際月發病率基本吻合(見圖3)。

表5 隱藏層層數對模型預測性能的影響Table 5 The influence of the number of hidden layers on the prediction performance of the model

為客觀評價模型擬合及預測性能,使用MSE、RMSE、MAE及MAPE對兩模型進行比較,在擬合性能中LSTM模型的MSE、RMSE均高于SARIMA模型,而MAE、MAPE均低于SARIMA模型(見表6),表明兩種模型的擬合性能基本一致;而在預測性能中LSTM模型的MSE、RMSE、MAE及MAPE 4個指標均低于SARIMA模型。因此,LSTM神經網絡的預測性能高于SARIMA模型,表明LSTM神經網絡能更好地預測深圳市寶安區HFMD發病趨勢。

黑色虛線左側為兩種模型的擬合效果,右側為兩種模型的預測效果圖3 SARIMA和LSTM模型對2010年1月至2018年12月深圳市寶安區的HFMD月發病率擬合及預測效果的比較Figure 3 Comparison of the performance of fitting and predicting monthly incidence rate of HFMD in Bao’an district of Shenzhen city in 2010—2018 between SARIMA model and LSTM model

表6 兩種模型的擬合及預測性能的誤差值對比Table 6 Comparison of fitting and prediction errors between the two models

3 討論

自2008年我國將手足口病納入丙類傳染病管理以來,手足口病的發病率一直位于我國丙類傳染病的首位[17]。手足口病是由不同腸道病毒感染所致,不同病原體之間存在差異,易在托幼機構及學校呈暴發流行,這類聚集性疫情的發生給國家和地區的衛生保健系統造成較大的經濟負擔[18]。本研究中,深圳市寶安區2014—2019年手足口病發病率顯著高于2009—2013年,可能原因跟該地區傳染病疫情監測系統逐漸完善、外來人口數增多、人口流動性強等密切相關。因此,了解手足口病流行趨勢,構建恰當的手足口病預測模型,可為相關部門制定手足口病防控策略提供科學依據。

本研究構建SARIMA模型時,先對原始序列進行平穩性及白噪聲檢驗,判斷原始序列是否滿足平穩非白噪聲,其次觀察序列的ACF、PACF圖確定模型的參數范圍,通過Python網格搜索自動擬合較佳參數,最后運用AIC最小原則,選取了SARIMA(0,0,2)(0,1,2)12為相對最優模型。用該模型分別對深圳市寶安區的HFMD月發病率進行擬合及預測時,誤差指數較小,擬合及預測原始序列的趨勢性和周期性的效果較好,表明SARIMA模型預測深圳市寶安區HFMD發病趨勢的效果尚佳,與韓玲等[19]使用河北省HFMD發病數建立SARIMA(1,1,1)(0,1,1)12模型、劉濤等[20]使用山東省HFMD發病數建立SARIMA(1,0,1)(0,1,0)12模型的研究結果一致。

本研究對LSTM神經網絡的隱藏層層數及節點數進行了參數的調整,設置時間步長為12、隱藏層層數為1、隱藏層節點數為1 024、迭代次數為50時構建的LSTM神經網絡為較優模型,該模型對深圳市寶安區HFMD月發病率的擬合及預測性能較好,與馮一平等[21]研究認為LSTM神經網絡能較好地預測HFMD發病一致。但是,選擇最佳參數構建最優LSTM神經網絡較難實現,即使部分參數可以根據數據及疾病特征進行大致估計,但構建最佳模型的幾率仍然較小,后續將進一步深入研究該問題。

本文中SARIMA模型預測性能的MSE、RMSE、MAE、MAPE均大于LSTM神經網絡,可能原因[22]在于構建SARIMA模型的前提是要求原始序列平穩,當原始序列不平穩時,需要進行差分直至成為平穩非白噪聲序列,導致SARIMA模型對HFMD發病數據提取不充分,故造成信息利用不充分而產生預測誤差,而LSTM神經網絡對數據本身是否平穩并無要求,并且其對長期的序列具有較好的預測效果[23]。本研究表明LSTM神經網絡能更好地預測深圳市寶安區HFMD發病趨勢,與高秋菊等[24]預測石家莊市HFMD發病趨勢的研究結果一致。但本文存在一定的局限性,手足口病發病易受多種因素影響,本文僅使用了手足口病監測資料,在后續構建模型過程中應納入影響手足口病的其他因素,進一步提高模型的準確度,進而提高手足口病發病預測的效果,為手足口病的防控提供更可靠的理論依據。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美亚洲第一页| 亚洲成人77777| 国产一级毛片高清完整视频版| 热思思久久免费视频| 国产国产人在线成免费视频狼人色| 亚洲精品男人天堂| 九色国产在线| 色偷偷综合网| 日本精品影院| 国产精品极品美女自在线| 国内精品伊人久久久久7777人| 午夜激情婷婷| 亚洲综合色区在线播放2019| 99热这里都是国产精品| 久久天天躁狠狠躁夜夜2020一| 69国产精品视频免费| 亚洲一级色| 1024你懂的国产精品| 成人国产一区二区三区| 国内嫩模私拍精品视频| 中文字幕亚洲电影| 中文字幕人成人乱码亚洲电影| 2021国产在线视频| 亚洲精品国产综合99| 少妇精品久久久一区二区三区| 亚洲国产清纯| 久久91精品牛牛| 91原创视频在线| 1769国产精品免费视频| 91亚瑟视频| 亚洲毛片在线看| 欧美高清视频一区二区三区| 激情成人综合网| 久久无码免费束人妻| 9久久伊人精品综合| 欧美性色综合网| 亚洲第一视频免费在线| 国产在线一区二区视频| 萌白酱国产一区二区| 天堂中文在线资源| 3344在线观看无码| 色欲国产一区二区日韩欧美| 好紧太爽了视频免费无码| 国产美女无遮挡免费视频网站| 久久国产精品电影| 国产精品手机在线播放| 久久福利网| 亚洲AV永久无码精品古装片| 99视频全部免费| 精品国产自在在线在线观看| 亚洲欧美日韩中文字幕在线一区| 久久精品66| 2022国产91精品久久久久久| 91丨九色丨首页在线播放| 91色在线观看| 亚洲美女视频一区| 亚洲人成网址| AⅤ色综合久久天堂AV色综合| 欧美狠狠干| 国产精品污视频| 91精品视频在线播放| 欧美成人区| a级毛片免费在线观看| 午夜福利免费视频| 一本久道久综合久久鬼色 | 激情综合激情| 日韩精品一区二区三区免费在线观看| 2021天堂在线亚洲精品专区| 国产亚卅精品无码| 免费a在线观看播放| 亚洲视屏在线观看| 午夜性刺激在线观看免费| 免费国产高清视频| 国产福利在线观看精品| 午夜福利在线观看入口| 国产亚洲精品va在线| 无码高清专区| 激情网址在线观看| 高清色本在线www| 在线看国产精品| 三上悠亚一区二区| 国产精欧美一区二区三区|