周伴群 戴曉捷 尹錫玲 李德云 肖峻峰
廣東省珠海市疾病預防控制中心公共衛生與健康研究所,廣東珠海 519000
把復雜的監測數據轉換為淺顯易懂的風險等級模式,并附以針對性的防控建議,不僅有效地宣傳了健康知識,而且對促進市民健康行為有巨大的公共衛生意義。目前部分地區已經開展了指數預警預報等有益的探索,開發了直接服務于公眾的公共衛生產品,如深圳市流感指數[1]、登革熱風險指數[2]和傳染病指數[3]等,以及其他一些地區對流感、其他感染性腹瀉和手足口病等傳染病進行了預警研究[4-6]等。但開發綜合多個指標的綜合指數研究較少。本研究旨在利用統計過程控制(Statistical Process Control,SPC)及長短時記憶神經網絡模型(long and short-term memory network model,LSTM)等方法構建傳染病指數,目的在于向公眾反饋主要傳染病風險動態的變化過程,提高公眾健康意識、同時便于決策部門發現薄弱環節,開展風險管理。
病例比例數據來源于流感監測信息系統;手足口病及其他感染性腹瀉數據來源于傳染病報告管理信息系統;數據涵蓋時間為2014—2018年1~14 周。 布雷圖指數監測數據來源于蚊媒密度現場快速評估,數據涵蓋2014—2018年1~14 周。 常住人口數來源于2016年免疫規劃年報表(全市1954 553 人口)。
傳染病指數綜合評價方法采用熵權法計算評估指標權重。熵權法的基本思路是根據指標變異性的大小來確定客觀權重。 若某個指標的信息熵越小,表明指標值的變異程度越大,提供的信息量越多,在綜合評價中所能起到的作用也越大,其權重也就越大。
1.3.1 觀察指標 以典型性、重要性及敏感性為依據共篩選4 項評估指標。 流感樣病例比例(%)(X1);手足口病發病率(/10 萬)(X2);其他感染性腹瀉發病率(/10 萬)(X3);布雷圖指數(X4)。
1.3.2 評價標準 SPC 是利用統計技術對過程中的各個階段進行控制, 從而達到改進與保證質量的目的。SPC 強調以全過程的預防為主,不僅能將數值以曲線形式表示出來,以觀其變異之趨勢,而且能顯示變異系屬于機遇性或非機遇性,區分變差的特殊原因和普通原因,以指示某種現象是否正常,而采取適當之措施。利用移動極差圖將全市2014~2017年以周次為時間計量單位的流感樣病例比例、手足口病及其他感染性腹瀉發病率的統計過程控制的控制下限(lower control limit,LCL)、中線和控制上限(upper control limit,UCL)劃分風險等級。 其中質量控制圖的中線、LCL 和UCL分別為,LCL=-md3б,UCL=R+md3б,其中,Ri=|xi-xi-1|,m 為控制誤報可能性的乘數(通常設為3)。
布雷圖指數風險等級判定標準參考:在5 及以下,則屬于安全范圍;如果該指數高于5、10 或者20,則認為處于不同風險范圍。
1.3.3 構建傳染病指數 對照指標分級標準判定風險等級及分數,根據指標權重計算傳染病指數[1 分(安全);2 分(較安全);3 分(低風險);4 分(高風險)]。 傳染病指數=ROUND(權重系數1×流感樣病例比例指數+權重系數2×手足口病風險指數+權重系數3×其他感染性腹瀉風險指數+權重系數4×布雷圖指數風險指數)。
1.4.1 長短時記憶神經網絡模型預測 LSTM 神經網絡屬于循環神經網絡的一種演變,能夠學習長期的依賴關系,并將長時間的信息記憶作為默認值。LSTM 神經網絡通過三個門的結構控制傳輸狀態,記住需要長時間記憶的,忘記不重要的信息,分別為輸入門、遺忘門和輸出門(圖1)。 LSTM 已經在多個領域有了多種應用[7],例如,基于LSTM 可以翻譯語言、進行圖像及文本分析、氣象預測、疾病預測等[8-9]。

圖1 LSTM 基本結構圖
LSTM 神經網絡的模型訓練包括模型前向傳播和誤差反向傳播兩個過程,前向計算過程如下:

其中,ft、it、ot分別為遺忘門、輸入門、輸出門;ct為t 時刻的細胞狀態;為輸入的候選狀態;ht為t 時刻的隱藏狀態;Wf、Uf、Wi、Ui、Wa、Wo、Uo和bf、bi、ba、bo分別為權重系數和偏置量;б 為對應的激活函數;xt為當前時刻的輸入。
LSTM 循環神經網絡訓練過程采用時間反向傳播算法計算各神經元輸出值與真實值的誤差項,包括按時間和網絡層級2 個傳播方向,根據誤差項計算每個權重的梯度,應用梯度優化算法。 模型的評價指標根據均方誤差(mean squared error,MSE)和均方根誤差(root mean squared error,RMSE):

其中,yi為實際值,預測值。
1.4.2 ARIMA 模型預測方法 布雷圖指數數據量較小,則采用時間序列自回歸移動平均模型(autoregressive integrated moving average model,ARIMA)進行預測。
將數據標準化后,70%作為訓練集, 其余作為測試集。 以52 周的數據作為預測下一步所需要的時間步。以2014—2018年1~14 周手足口病發病率、其他感染性腹瀉發病率、 流感樣病例比例數據預測2018年15~19 周情況。 以2014—2018年1~14 周布雷圖指數預測2018年15~19 周情況。
以周次為時間計量單位的傳染病風險評估指標分級參考標準詳見表1。

表1 風險評估指標分級參考標準
傳染病指數=ROUND(0.33 流感樣病例比例指數+0.47 手足口病風險指數+0.10 其他感染性腹瀉風險指數+0.10 布雷圖指數風險指數)。
2.3.1 手足口病模型 珠海市手足口病發病率LSTM模型中,測試集MSE 為9.044 1,RMSE 為3.007 3,訓練集MSE 為1.181 2,RMSE 為1.086 8。 模型在訓練集和測試集均表現良好,沒有出現過擬合現象。 運用LSTM 模型對珠海市手足口病發病率2018年15~19周數據進行預測,見表2、圖2(封四)。


表2 2014—2018年1~14 周預測15~19 周珠海市手足口病發病率預測值與實際值
2.3.2 其他感染性腹瀉模型 珠海市其他感染性腹瀉發病率LSTM 模型中, 測試集MSE 為5.280 6,RMSE為2.298 0,訓練集MSE 為9.403 8,RMSE 為3.066 6。運用LSTM 模型對珠海市其他感染性腹瀉發病率2018年15~19 周數據進行預測,模型在訓練集和測試集均表現良好, 沒有出現過擬合現象, 見表3、圖3(封四)。


表3 2014—2018年1~14 周預測15~19 周珠海市其他感染性腹瀉預測值與實際值
2.3.3 流感樣病例比例模型 珠海市流感樣病例比例(%)LSTM 模型中, 測試集MSE 為0.160 5,RMSE 為0.400 6,訓練集MSE 為0.370 3,RMSE 為0.608 6。運用LSTM 模型對珠海市流感樣病例比例2018年15~19周數據進行預測,模型在訓練集和測試集均表現良好,沒有出現過擬合現象,見表4、圖4(封四)。


表4 2014—2018年1~14 周預測15~19 周珠海市流感樣病例比例預測值與實際值
2.3.4 布雷圖指數ARIMA 模型 采用ARIMA 模型對珠海市布雷圖指數的時間序列進行預測,預測值與實際值趨勢基本相符(表5)。

表5 2014—2018年1~14 周預測15~19 周珠海市布雷圖指數預測值與實際值
對照風險評估指標分級標準判定風險并分別賦值(1~4),根據指標權重公式計算相應指數,與實際值進行對比預測一致率為96.0%(表6)。

表6 風險等級預測與實際值對比
預測傳染病在一定地區和時間是否出現流行及流行速度、規模,以便有針對性地采取防疫措施,控制流行,減少發病與死亡,是貫徹預防為主的一項重要工作。有研究應用移動百分位數法進行傳染病預警閾值篩選,對5 種傳染病開展基于某市本地疫情的預警研究,使傳染病預警系統的應用更高效更靈活[10]。 深圳市設計了以流感指數為代表的四類重點傳染病指數,該指數體系的建立讓復雜的監測數據有效轉化為簡單易懂的風險等級,不僅有效地宣傳普及了健康知識,而且促進和培養了市民的健康行為,具有明顯的社會和經濟效益[11]。 北京市應用流感樣病例數、流感病毒核酸檢測陽性率和流感聚集性疫情數資料,經標準化處理整合為綜合指數, 結合移動流行區間法(moving epidemic method,MEM) 估計流行閾值和分級強度閾值, 并應用交叉驗證法評價預警效果或計算每周流感綜合指數并劃分評價等級[12-13]。 對有上升趨勢可能引起暴發流行的急性傳染病的預測, 在高發前做出預測分析和預報, 便于提出針對性預防對策的建議和具體防制措施。 將健康風險轉換為易于理解的數值,易于為群眾所接受。 利用綜合評價指數評估, 將專業性和復雜性的指標值轉變成易于理解的綜合性指數,便于向決策者和公眾進行定期發布,預測結果的形式易于為決策者或群眾所接受, 可及時、有效地傳遞給公眾當前及短期健康風險的信息,并為及時制定健康促進計劃提供可行性思路, 對于提高政府及公眾意識、促進“全民共建共享大健康”具有積極意義。
有研究通過病毒學監測、 氣候和空氣污染等數據,運用LSTM 模型預測流感趨勢[14-15]。 Zhu 等[16]設計了一種多通道LSTM 神經網絡用于預測中國廣州的實時流感樣疾病發病率(ILI%),并且通過將模型與不同的神經網絡結構和其他最新方法進行比較來評估模型的性能,認為該模型具有較強的競爭力。 既往有研究在百分位數法劃分風險等級的基礎上,通過熵權法和ARIMA 模型來計算傳染病指數[17]。 但Chae 等[18]預測傳染性疾病時發現LSTM 的預測表現比ARIMA模型更優。 本研究利用LSTM 模型等方法構建傳染病指數, 構建的傳染病指數模型對流感樣病例比例、手足口病發病率、其他感染性腹瀉發病率和伊蚊密度指數各項指標預測效果良好,模型在訓練集和測試集中均表現良好,沒有出現過擬合現象,預測值與實際值趨勢基本相符,尤其是模型對指標的近期水平預測效果較好,研究顯示構建預測模型可行。 預測值與實際值進行對比預測一致率為96.0%,提示存在實際應用價值。
研究報告中以典型性、 重要性及敏感性為依據,僅篩選了流感、手足口病、其他感染性腹瀉和布雷圖指數共4 項評估指標,在指標的選取方面存在一定局限性。由于傳染病種類多樣,影響面廣,影響因子復雜多變,不同地區致病因子與居民健康的暴露反應關系并不完全相同,有必要選擇更多有代表性的指標對疾病風險作出預測評估。 綜合指數由于評價的目的、對象、指標性質與數量的不同,其評價模型具有多樣性,難以找到較為理想與公認的一般表達形式。報告中構建的傳染病指數僅從時間、地區特征進行預測,由于不同的人群、 不同的環境接觸傳染源的機會不盡相同,傳染病的發病情況也不同,如年齡、性別、職業等人群特征都是影響傳染病的發生發展的重要因素。因此,報告中構建的模型是否能夠完全真實反映傳染病流行,還有待進一步的探討。 但是在現有的常規監測條件下,通過利用常規的監測數據,每周對外發布傳染病指數, 同時做好傳染病的流行的預報預警工作,是一種值得探索的思路。