賈子舟,張鈺嘉,榮書玲,李 保
冠心病(coronary heart disease,CHD)是指因動脈粥樣硬化斑塊形成及破裂導致冠狀動脈管腔狹窄或閉塞,阻斷心肌的血供,進而引起心絞痛、心肌梗死等心肌缺血表現的疾病。隨著我國人口老齡化加劇及人們生活方式的改變,冠心病人數持續增加,目前,我國冠心病患病人數約為1100萬人[1]。據報道,全球冠心病年死亡人數超過700萬人,在全球死亡率單一疾病中排首位[2]。Zhou等[3]2016年在Lancet雜志發表的研究表明,冠心病是中國居民第二大死亡原因。冠心病嚴重危害我國居民身體健康和生命安全,帶來極大的社會及經濟負擔。目前,關于冠心病發病情況已進行了相關研究[4-7],但是對月度入院數是否具有變化趨勢研究證據較少。隨著深度學習的發展,已有部分學者將深度學習LSTM模型應用于傳染病預測[8-10]。LSTM模型本質上是一種循環神經網絡模型,在擬合和預測傳染病時序數據時有較好的效果,但還未有學者將該深度學習模型應用于預測冠心病入院人數。本研究基于太原市某三級甲等綜合醫院的冠心病月入院人數數據,探究冠心病月入院數的趨勢及變化特征,進一步應用深度學習LSTM模型對冠心病月入院人數的時序數據進行訓練和預測,并將LSTM模型的預測效果與傳統預測模型ARIMA[11]和GM(1,1)模型[12]的預測性能進行對比,驗證LSTM模型對冠心病月入院人數預測的有效性,為落實冠心病防治措施提供幫助,同時也為醫院合理配置醫療資源、提高救治能力提供科學依據。
1.1 資料來源 將太原市某三級甲等綜合醫院心血管內科2015年1月—2021年3月冠心病月入院數作為研究數據,詳見表1、圖1。

表1 數據集信息

圖1 2015年1月—2021年3月冠心病月入院人數變化圖
1.2 LSTM模型介紹 LSTM深度學習模型是非線性模型循環神經網絡(RNN)的一種形式,LSTM在RNN的基礎上增加了3個Gate結構,即Input Gate、Output Gate、Forget Gate。Gate結構的出現解決了RNN在層數較多時出現梯度消失的問題。 LSTM的具體組成結構見圖2。

圖2 LSTM模型組成結構圖
LSTM具體計算公式如式①~式⑥所示。
t=sigmoid(Wf·[ht-1,xt]+bf)
①
it=sigmoid(Wi·[ht-1,xt]+bi)
②
ot=sigmoid(Wo·[ht-1,xt]+bo)
③

④
ct=t·ct-1+it·
⑤
ht=ot·tanh(ct).
⑥
式①~式⑥中,it為Input Gate,ot為Output Gate,t為Forget Gate,t為t時刻Cell中輸入的值,ct為t時刻Cell中的更新值,hi為儲存了t時刻以及之前時刻隱藏信息的向量; sigmoid、tanh均為激活函數;Wf、Wt、Wc、Wo均為權重矩陣,bf、bi、bc、bo為對應Wf、Wi、Wc、Wo的偏置,具體各個神經元模型結構圖詳見圖3。

圖3 非線性數學模型LSTM各單元結構圖
1.3 仿真實驗
1.3.1 評價指標選取 為檢驗LSTM模型對冠心病月入院數預測的效果,選取平均絕對誤差(MAE)指標作為評估的標準,指標計算公式如式⑦所示。

⑦

1.3.2 建模 應用python軟件對LSTM進行建模,建模時首先對數據進行z-score標準化預處理,擬合該模型核心用的到庫為tensorflow、keras、sklearn以及pandas。該非線性模型有3層結構,即Input、Output、Hidden層,將非線性數學模型LSTM的epochs設置為500,units設置為128。采用Mini-Batch法來訓練非線性數學模型LSTM。其中,batch_size設置為1,loss函數設置為均方誤差即mean_squared_error,優化器設置為Adam(Adaptive Moment Estimation),Adam一般形式如式⑧所示。
mt=β1mt-1+(1-β1)gt
vt=β2vt-1+(1-β2)gt2


⑧

2.1 模型擬合及預測效果 運用LSTM模型對表1中數據進行擬合,此時,該模型的loss值為0.016 4,預測集的MAE值為50.368,模型擬合效果以及預測效果見圖4、圖5。可以看出,LSTM模型有較好的擬合效果以及預測性能,能夠較準確地預測出冠心病月入院數的趨勢以及人數。

圖4 LSTM模型擬合效果圖[藍線代表Raw data(原始數據);黃線代表Fitted data(擬合數據)]

圖5 LSTM模型預測效果圖
2.2 模型對比 為進一步驗證LSTM模型在冠心病月入院數預測中的算法性能,將LSTM模型預測性能與傳統預測模型ARIMA及GM(1,1)模型進行對比。3個模型的訓練集均為2015年1月—2020年12月數據,預測集為2021年1月—2021年3月數據,采用MAE評價預測的效果。詳見表2。從表2可以看出,LSTM模型預測性能最佳,ARIMA模型預測性能次之,GM(1,1)模型預測性能最差。

表2 模型對比結果
在我國冠心病人數整體呈上升趨勢,對冠心病月入院數的準確預測能夠為該病的防控工作提供一定的科學理論指導。本研究根據太原市某三級甲等綜合醫院心血管內科2015年1月—2021年3月冠心病月入院數,將LSTM模型應用到冠心病月入院數的預測中。結果表明,冠心病月入院數呈長期持續上升趨勢,而且存在季節波動性,11月、12月是冠心病病人入院的高峰期。
總體上看,當前我國冠心病入院數仍處于上升階段,本研究結果與全國趨勢保持一致。 隨著我國國民經濟快速發展,人們行為生活方式發生極大改變,導致肥胖、高血壓病、高血脂、糖尿病等患病率明顯上升,這些均被證實與冠心病密切相關[13-14]。另外,吸煙、飲食結構、身體活動等是明確與冠心病發生相關的因素[1],共同促進冠心病發生發展。
心血管疾病有明顯的季節性,冬季較冷的月份入院率最高[15]。本研究結果提示,冠心病月度入院數在11月、12月呈高峰,呈季節波動性。主要考慮與溫度有關,在寒冷的環境下,交感神經系統激活,兒茶酚胺分泌增加,通過增加心率和外周血管阻力增加心肌氧耗,進而導致心絞痛或心肌梗死發生。另外,血清膽固醇水平升高已被證實與冠心病發展和死亡的風險增加有關;許多研究報道血漿膽固醇水平呈現顯著季節性變化,在冬季水平最高,夏季水平最低[16]。同時,血漿纖維蛋白原水平和凝血因子活性的升高與冠心病入院密切相關,而兩者濃度在寒冷月份達到峰值。這些機制綜合作用于冠心病的發生發展,在其季節性變化規律中起著重要作用。本研究發現2020年2月冠心病月入院數呈現斷崖式下降,考慮受新冠肺炎疫情影響,我國嚴格執行居家隔離政策導致冠心病入院人數大幅下降所致。
綜上所述,冠心病入院人數變化受環境、季節等多方面的影響,具有一定的周期性和季節性。另外,研究發現LSTM模型有較好的擬合效果,并且LSTM模型的預測性能優于ARIMA 乘積季節模型及灰色GM(1,1)預測模型,可用于冠心病入院數的短期預測。在未來醫療資源配置時,應了解季節和其他因素的影響,參考入院數預測值,優化資源分布,合理利用有限的醫療資源。
利益沖突所有作者均聲明不存在利益沖突