石勝源,朱 磊,葉 琳,羅鐵清
(湖南中醫藥大學 信息科學與工程學院,長沙410208)
隨著中國經濟的發展和人民生活水平的提高,人們的飲食結構和生活方式發生了很大的改變,這也給健康帶來了很多問題,而健康問題是促進人的全面發展的必然要求,是經濟社會發展的基礎條件[1]。慢性病是嚴重威脅中國居民健康的一類疾病,已成為影響國家經濟社會發展的重大公共衛生問題[2]。
慢性病是指不構成傳染、具有長期積累形成疾病形態損害的疾病的總稱。有報告顯示,70%國人有過勞死危險,76%的白領處于亞健康狀態,20%國人患慢性病[3]。其中,中國心腦血管病現患人數2.9億,心血管疾病仍占城鄉居民總死亡原因首位[4]。具體情況見圖1所示。

圖1 中國心腦血管病現患人數Fig.1 Number of cardiovascular disease patients in China
在心血管病領域,疾病的診斷或是病情的轉歸原本就十分復雜,更需要依托現代計算機技術來對疾病進行準確評估和預測[5]。
Ambale-Venkatesh等對比研究了隨機生存森林法和傳統危險因素對多種族動脈粥樣硬化的6種心血管事件的預測差異[6];Li等利用SVM來構建預測心血管疾病的模型,研究對象為甲狀腺功能正常且非糖尿病的538位患者,并挖掘疾病影響變量[7];鄭曉燕基于機器學習的算法,建立了心血管疾病預測模型并開發了相對應的預測Web系統[8];李孝虔利用卷積神經網絡構建了心臟病預測模型[9];王振飛等提出了一種自適應模塊化神經網絡結構模型,采取聚類的方法預測心血管疾病[10]。
基于心血管疾病數據維數高和數據之間關系復雜的特點,且已有研究利用隨機森林在其它疾病的預測上取得了良好的效果,本文提出采取隨機森林來預測心血管疾病,從而防止模型過擬合,并進一步提高預測的穩定性和準確率。……