黃 璐,孫 娜,許小珊,田 野,馬 潔,杜澤玉,孟維靜,王素珍,石福艷
濰坊醫學院公共衛生與管理學院 山東濰坊 261053
過去預測傳染病時,往往將許多數學模型引入醫學領域進行分析預測,如時間序列模型、灰色預測模型、多元線性回歸模型等[1]。這些模型均為線性模型,但傳染病的相關數據具有突發性且有受各種因素的影響不斷變化的特點,通常是非線性的[2],因此這類數據宜采用非線性模型預測。人工神經網絡(artificial neural network,ANN)是數學模型的一種,具備模擬生物神經網絡的功能,包含多個神經元,通過權值相連和非線性映射逼近處理非線性問題[3]。ANN在醫學診斷、臨床決策、預后和生存分析等領域中已得到了廣泛的應用。廣義回歸神經網絡(generalized regression neural network, GRNN)基于徑向基神經元和線性神經元建立,是ANN的一種。GRNN最后將收斂于樣本量集聚較多的優化回歸面上[1],在學習效率和函數逼近上優于徑向基神經網絡,同時容錯性和魯棒性很高[4],訓練過程中不需要迭代[5],其網絡訓練參數只有一個,在參數保持一定的前提下,預測能力穩定;若不影響預測結果,則允許誤差的存在。GRNN在解決數據較少的非線性問題時,也能保證預測效果。本研究基于我國布魯氏菌病月發病人數,建立GRNN,預測布魯氏菌病的發病情況,為布魯氏菌病的防控提供科學依據。
1.1資料本研究數據資料來自國家疾病預防控制局(http://www.nhfpc.gov.cn/)發布的全國法定傳染病疫情概況。研究收集了2010年1月到2017年12月的布魯氏菌病月發病人數。


圖1 GRNN模型結構圖

模型建立過程中只有一個參數,即spread。通過交叉驗證法來獲取最優spread,使函數的逼近精確。隨機抽取2010至2016年任意2個月的月發病人數作為測試集數據,將最小均方根誤差(RMSE)[6]所對應的spread作為最優spread。
1.4模型檢驗采用平均相對誤差及決定系數R2檢驗其預測和擬合效果[7]。R2=(SS實-SS誤)/SS實,SS實為實際值的方差,SS誤為誤差(殘差)的方差。
2.1布魯氏菌病的基本特征該數據為2010年1月到2017年1月布魯氏菌病在全國的月發病人數。布魯氏菌病為我國乙類法定傳染病的一種,發病有明顯的季節性,如圖2所示,發病呈周期性遞增趨勢,集中在夏季。

圖2 2010年至2017年布魯氏菌病月發病人數
2.2模型檢驗結果見圖3。由圖3知,當spread=0.02時,RMSE值最小,逼近誤差小,逼近能力較強,此時模型的R2為0.64,擬合效果較好。

圖3 不同spread對應的RMSE值
2.3布魯氏菌病預測利用GRNN模型對2017年9至12月的數據進行預測,真實值和預測值的誤差較小,平均相對誤差為10.75%。結果見圖4、表1。

圖4 2017年9至12月布魯氏菌病月發病人數的預測圖

月份真實值預測值誤差相對誤差/%92 7812 970-1897101 9532 045-925112 4272 2881396122 5492 00354627
布魯氏菌病是我國乙類法定傳染病之一,通過建立布魯氏菌病疫情的預測模型,對該病的發生及發展趨勢進行適當的預測,可為制定布魯氏菌病的防控策略以及預防措施提供重要參考。
在對傳染病的預測中,過去常借鑒數學模型,如自回歸積分移動平均模型、灰色預測模型及馬爾科夫鏈模型。不同的模型適用條件不同,各有利弊。線性模型預測(如灰色模型和時間序列模型等)對非線性的數據并不適用, 而非線性系統的數學模型又存在結構特定、辨識困難、處理復雜等問題[8],實際應用困難。
ANN是模擬生物神經網絡結構形成的非線性復雜網絡系統。它能夠逼近任意的非線性關系, 具有良好的泛化能力,能夠學習和適應不確定的動態系統,從而更有效地解決醫學中模糊、不確定的信息[9]。此外,ANN沒有任何對變量的假設要求,不需考慮協變量間是否獨立,因變量是否滿足正態性。BP神經網絡是目前應用最多的ANN,其工作原理運用已十分成熟,但也存在訓練速度慢、局部最優等缺點[10]。GRNN徑向基層通過高斯函數作為傳遞函數。高斯函數作為一種局部分布對中心徑向對稱衰減的非負非線性函數[11],對輸入信號在局部產生響應,即當輸入信號靠近基函數的中央范圍時,隱含層結點將產生較大的輸出,所以這種網絡具有局部逼近能力,學習速度也更快,解決了BP神經網絡的問題,能夠保證預測的效果。
GRNN是ANN的一種,作為一種數據處理方法,主要從數據上反映疾病的發展變化趨勢[12]。本研究基于2010年1月到2017年8月的布魯氏菌病月發病人數建模,預測2017年9至12月的數據。由于布魯氏菌病的發病受畜牧、環境及個人防護等因素的影響,收集的資料數據是非線性的,而GRNN模型對資料的分布沒有要求,結果顯示,用25%的數據進行預測,真實值和預測值的誤差較小,平均相對誤差為10.75%,R2為0.64,模型的擬合效果較好,泛化能力較強,可為布魯氏菌病的防控提供依據。另外,也可考慮將GRNN推廣應用于其他傳染病的預測,為傳染病的防控提供科學依據。