胡紅萍,孫 強,白艷萍
(中北大學 理學院,太原 030051)
流行性感冒是一種由流感病毒引起的高傳染性的急性呼吸道疾病。類流感疾病(Influenza-like illness,ILI)定義為除了流感外沒有任何已知原因的發燒(體溫為100 ℉[37.8 ℃]或更高)、咳嗽和喉嚨痛。每年許多美國家庭遭受流感并承受因醫療費用增長而帶來的經濟負擔。有效預測流感爆發的初期將使政府機構和衛生組織能夠采取適當的行動來控制和治療流感。
在美國,作為國家的健康保護機構的疾病控制和預防中心(CDC)提供流感監測系統以保護人們免受健康和安全威脅[1-2]。CDC的ILI數據提供了國家和地區ILI患者的數量、流感活動的加權值和非加權值。ILI的有效預測對于制定預防措施,幫助臨床和醫院管理者做出最佳的人員配置和儲備決策是至關重要的。
已提出方法實現美國ILI活動的實時估計。過去幾年最廣泛使用的非傳統方法是數字疾病監測系統:谷歌流感趨向(GFT)[3]。但GFT在2015年8月已關閉了,因此,需要新穎可靠的方法去預測流感,谷歌和其他研究者已提出了GFT的很多更新模型[2,4-9]。例如文獻[2]采用自回歸電子健康記錄支持向量機(ARES)實現實時fILI(非加權類流感患者人數占某一區總患者數的百分比)的估計,與GFT和動態自回歸模型相比較,ARES的性能有了很大的提高。
近年來,已經在股票市場和醫藥領域等時間序列預測方面采用了很多技術。人工神經網絡是的廣泛應用于很多領域的方法之一,例如BP神經網絡[10-11],Elman神經網絡[12-13],徑向基神經網絡[14-15],小波神經網絡[16-17]。但人工神經網絡的初始參數是任意的,這可能造成較大的誤差。一些群智能算法被用來優化人工神經網絡的參數以獲得更高的準確率,例如粒子群(PSO)[18],人工蜂群算法(ABC)[19],鯨優化算法(WOA)[20]和多元優化器(MOV)[21].
本文取前3個星期的fILI作為Elman神經網絡的輸入,第4個星期的fILI作為Elman神經網絡的輸出,并采用改進的MVO(IMVO)優化Elman神經網絡(IMVO-ERNN)的參數預測fILI.通過比較,IMVO-ERNN在預測ILI方面具有較好的性能。
2015年SEYEDALI et al受Multi-verse理論啟發提出了多元優化器(Multi-verse optimizer,MVO).MVO算法也是一種基于種群的算法,其搜索過程分為勘探與開發兩個階段。Multi-verse理論的3個主要概念是白洞、黑洞和蟲洞用來實現這些階段,其中白洞和黑洞實現勘探搜索空間,并與蟲洞輔助MVO開發搜索空間。
在MVO算法中,每個解類比于一個宇宙,解中的每個變量是宇宙中的物體。每個解分配一個正比于該解適應度函數值的膨脹率。

(1)

由于宇宙的多樣性,每個宇宙有蟲洞去任意的通過空間運輸物體實現MVO算法的勘探階段。基于每個宇宙的局部變化和提高膨脹率的高概率,在宇宙和最好的宇宙之間建立了蟲洞通道,如下式(2)所示:
(2)
式中:Xj是最好宇宙的第j個參數;lbj和ubj分別是第j個參數的下界和上界;r2,r3,r4分別是小于1的任意非負數;RTD是行駛距離率;PWE是蟲洞存在概率。PWE和RTD分別定義為
(3)
(4)
式中:PWE,min和PWE,max分別是PWE的最小值和最大值;l和L分別表示當前的迭代次數和總迭代次數;p定義為在所有的迭代中勘探準確數。
詳細的MVO算法的偽代碼見文獻[21].
在上述MVO算法的基礎上,RTD是非線性遞減函數,PWE是線性遞增函數。本文中提出如下非線性遞減函數代替式(4)所定義的RTD:
(5)
式中:l和L分別表示當前的迭代次數和總迭代次數;m是介于0和1之間的數。圖1表示m從0.1到1、步長為0.1的RTD的變化情況。本文中,以m=0.5為例。這樣MVO算法得到了改進,記為IMVO.

圖1 m從0.1到1、步長為0.1的RTD的變化情況Fig.1 Varying condition of RTD with m from 0.1 to 1 and the step 0.1
本文所采用的數據來源于網址https:∥gis.cdc.gov/grasp/fluview/fluportaldashboard.html下載的美國從2002年第40周至2017年第36周共780周的由Health and Human Services(HHS)定義的10個區域的CDC類流感疾病(ILI)數據。從該網址上,可以看到每個區域的fILI,年齡分別在0~4歲,5~24歲,25~49歲,50~64歲,>65歲的ILI患者數,總的ILI患者數和該區域的受檢查的總人數。
本文對10個區的fILI進行預測。采用前3天的fILI預測第4天的無加權的%ILI.
評價預測性能的指標有Pearson相關性(cpearson)[22],均方差誤差(EMS)[15],相對均方差誤差(ERMS)[15],平均絕對百分比誤差(EMAP)[15],分別定義為:
(6)
(7)
(8)
(9)
式中,yi和xi分別表示實際值和預測值。
在實驗中預測fILI的訓練數據為2002年第40周到2015年第40周的數據,測試數據為2015年第41周到2017年第36周的數據。
將MVO的參數RTD修改獲得的改進的MVO(IMOV)優化ERNN的參數,得到模型IMOV-ERNN,用以準確預測美國CDC定義的10個區的實時fILI.利用多元線性回歸模型(MLR),ERNN,MOV-ERNN和IMVO-ERNN進行比較,說明本文所提出的模型IMVO-ERNN是有效的。為方便討論,分別將MLR、ERNN、MOV-ERNN和IMVO-ERNN成為model 1,model 2,model 3和model 4.
如表1所示的是10個區4個模型的預測值與實際CDC的fILI之間的評價指標EMS,ERMS,EMAP和Cpearson.表1還表明model 4適合區1、區2、區4、區5、區7、區8和區10的fILI預測,且具有最小的EMS,

表1 4個模型的美國10個區的評價指標Table 1 Evaluation index of four models for 10 regions of USA

將MVO的參數RTD修改獲得的改進的MVO(IMOV)優化ERNN的參數,用以準確預測美國CDC定義的10個區的實時fILI.用前3個星期的fILI預測第4個星期的fILI.通過與MLR,ERNN和MVO-ERNN進行比較,IMVO-ERNN在預測流感方面是有效的。這也就說明了,可以改進很多群智能算法或提出新的群智能算法優化人工神經網絡的權值和偏差,預測傳染病、股票指數、空氣質量指數,同時也可以應用于醫學、工程、模式識別等方面。

表2 4個模型下美國10個區的平均評價指標Table 2 Verage evaluation index of four models across 10 regions of USA