999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于EasyEnsemble和XGBoost的冠心病預(yù)測模型研究

2023-04-29 00:00:00彭昊申艷光李焰
計算機時代 2023年12期

摘" 要: 針對醫(yī)療樣本不平衡的問題,使用集成采樣EasyEnsemble算法和XGBoost算法結(jié)合,搭建冠心病預(yù)測模型,來提高患病樣本識別準(zhǔn)確率。選用公開弗雷明翰冠心病數(shù)據(jù)集,對數(shù)據(jù)預(yù)處理后,先采用EasyEnsemble算法平衡數(shù)據(jù)集,后采用極端梯度提升算法XGBoost作為基分類器進(jìn)行訓(xùn)練,調(diào)整各項實驗參數(shù),并采用準(zhǔn)確率、召回率、ROC曲線下面積(AUC)等指標(biāo)評價模型。實驗結(jié)果表明,相較于XGBoost、過采樣SMOTE+XGBoost、欠采樣TomekLinks+XGBoost三種方法,EasyEnsemble+XGBoost模型極大地提高了召回率。

關(guān)鍵詞: 冠心?。?疾病預(yù)測; XGBoost; SMOTE; EasyEnsemble

中圖分類號:TP181;R54" " " " " 文獻(xiàn)標(biāo)識碼:A" " "文章編號:1006-8228(2023)12-64-04

Research on coronary heart disease prediction model based on EasyEnsemble and XGBoost

Peng Hao1, Shen Yanguang1, Li Yan2

(1. School of Information & Electrical Engineering, Hebei University of Engineering, Handan, Hebei 056000, China;

2. Affiliated Hospital of Hebei Engineering University)

Abstract: In response to the issue of imbalanced medical samples, the integrated sampling EasyEnsemble algorithm and XGBoost algorithm are combined to build a coronary heart disease prediction model to improve the accuracy of disease sample recognition. Selecting the publicly available Framingham coronary heart disease dataset and after preprocessing the data, the EasyEnsemble algorithm is used to balance the dataset, and then the extreme gradient boosting algorithm XGBoost is used as the base classifier for training. Various experimental parameters are adjusted, and the model is evaluated using indicators such as accuracy, recall, and AUC (area under ROC curve). The experimental results show that compared to the three methods of XGBoost, oversampling SMOTE+XGBoost, and undersampling TomekLinks+XGBoost, the EasyEnsemble + XGBoost model greatly improves the recall rate.

Key words: coronary heart disease; disease prediction; XGBoost; SMOTE; EasyEnsemble

0 引言

據(jù)不完全統(tǒng)計,截至2018年,我國的心血管疾病患者數(shù)量高達(dá)3.3億[1]。心血管疾病死亡率高居城鄉(xiāng)居民總死亡率首位,其中農(nóng)村居民為46.66%,城市居民為43.81%。

近年來人工智能輔助診療技術(shù)成為熱門研究方向,基于機器學(xué)習(xí)的輔助醫(yī)療技術(shù)也不斷成熟。就心血管疾病而言,其重要的行為風(fēng)險是吸煙、酗酒、不健康飲食、缺乏鍛煉等。行為風(fēng)險因素的影響在個體中表現(xiàn)為血壓高、血糖高、血脂高、超重和肥胖等。這些表現(xiàn)是可以量化的,根據(jù)這些影響結(jié)果的量化數(shù)據(jù)做數(shù)據(jù)分析,識別出易患病、已患病的人群,讓其早日接受治療,有助于提高人民群眾健康水平。

醫(yī)療預(yù)測應(yīng)著重觀察患病樣本的預(yù)測準(zhǔn)確性。實際情況中,醫(yī)療類數(shù)據(jù)集存在數(shù)據(jù)不平衡的情況,即健康樣本多于患病樣本。故使用人工智能方法做預(yù)測時,可以采用數(shù)據(jù)平衡算法、引入注意力機制等方法,來提高患病樣本的識別準(zhǔn)確率。

以冠心病為例,林加侖[2]等人使用邏輯回歸LR、支持向量機SVM、極端梯度提升XGBoost算法進(jìn)行預(yù)測;洪韻[3]等人使用SMOTE+logisitic、SMOTE+XGBoost算法預(yù)測,分別取得了67%、76%的準(zhǔn)確度;Hoda[4]使用KNN算法,取得了66.7%的準(zhǔn)確度;蔣林甫[5]使用PCHD-TABNET算法預(yù)測,雖然只取得了60%的準(zhǔn)確度,但患病樣本的識別準(zhǔn)確率卻有極大提升。

綜上,本文以冠心病預(yù)測為主題,結(jié)合患病人群和正常人群的醫(yī)療數(shù)據(jù),運用過采樣、欠采樣和集成采樣三種算法來平衡數(shù)據(jù)集,使用XGBoost算法進(jìn)行模型訓(xùn)練,建立對應(yīng)的冠心病的預(yù)測模型,為冠心病高危人群的防治提供參考。

1 數(shù)據(jù)預(yù)處理

1.1 數(shù)據(jù)來源

本文數(shù)據(jù)集來是國外機器學(xué)習(xí)競賽Kaggle網(wǎng)站的馬薩諸塞州弗雷明翰鎮(zhèn)居民的心血管研究數(shù)據(jù)集。該數(shù)據(jù)集可預(yù)測患者在未來十年內(nèi)是否會患冠心病。數(shù)據(jù)集包含4240例樣本、15項特征屬性、一項結(jié)果。樣本當(dāng)中,十年內(nèi)發(fā)病患者644例,不發(fā)作3596例,二者數(shù)量差接近六倍,存在數(shù)據(jù)不平衡現(xiàn)象。特征屬性當(dāng)中Sex(性別)、Education(教育水平)、BPmeds(是否服用降壓藥)、Currentsmoke(是否吸煙)、Diabetes(糖尿?。revalentstroke(中風(fēng))、prevalentHyp(高血壓)、CigsPerDay(吸煙數(shù)量)為離散型變量,Totchol(血清總膽固醇)、BMI(體重指數(shù))、Glucose(血糖)、Heartrate(心率)、Age(年齡)、Sysbp(收縮壓)、Diabp(舒張壓)為連續(xù)型變量。TenYearCHD(未來十年內(nèi)是否患?。┯涗浗Y(jié)果,其中0為負(fù)例代表健康樣本,1為正例代表患病樣本。

1.2 數(shù)據(jù)處理

1.2.1 缺失值處理

本文采用的數(shù)據(jù)集中,有七項特征存在缺失現(xiàn)象,依次為Glucose、Education、Bpmeds、Totchol、CigsPerDay、BMI、Heartrate,分別缺失9.15%、2.48%、1.25%、1.18%、0.68%、0.45%、0.02%,含有缺失值數(shù)據(jù)總占比15.21%。數(shù)據(jù)缺失會增加分析預(yù)測的難度,提高運算時間,降低結(jié)果準(zhǔn)確性。因此,本文對Education、BPMeds采用眾數(shù)填補,對Glucose、TotChol、CigsPerDay、BMI、Heartrate采用均值填補。

1.2.2 離群值處理

醫(yī)療樣本中,必然存在一些特征中的數(shù)據(jù)遠(yuǎn)超正常范圍。數(shù)據(jù)分析時發(fā)現(xiàn),Totchol、SysBP、Glucose等特征存在大量離群值。為了減小異常值對訓(xùn)練的影響,在盡量保留數(shù)據(jù)特征的情況下,本文將上述存在離群值的特征范圍上界修正為當(dāng)前最大值的75%,超出該范圍的數(shù)據(jù)修改為范圍上界。

數(shù)據(jù)處理完畢后,將數(shù)據(jù)集按照8:2劃分訓(xùn)練集和測試集。訓(xùn)練集3392例,其中健康樣本2877例,患病樣本515例;測試集848例,其中健康樣本719例,患病樣本129例。后續(xù)所有采樣算法均只在訓(xùn)練集上操作。

2 模型搭建

2.1 XGBoost算法原理

XGBoost是一種Boosting集成樹模型,核心思想是將多個弱分類器集成成為一個強分類器。并且具有預(yù)測精度高、訓(xùn)練速度快、靈活性強、支持自定義損失函數(shù)等優(yōu)點。

XGBoost算法中,第t棵樹的預(yù)測總值為前t-1棵樹的預(yù)測值加上第t棵樹的預(yù)測值。即:

[y(t)i=y(t-1)i+ftxi]" ⑴

XGBoost的目標(biāo)函數(shù)為:

[L(t)=i=1nlyi,yt-1i+ftxi+Ωft+c]" ⑵

其中,[l(*)]為損失函數(shù);[yt-1i]為前t-1顆樹對樣本的預(yù)測值;[xi]為輸入;t為訓(xùn)練過程的第t次迭代;[Ωft]為正則化的懲罰項,用來限制模型的復(fù)雜程度;c為常數(shù)項。

對目標(biāo)函數(shù)進(jìn)行二階泰勒展開,即得:

[L(t)≈i=1nlyi,yt-1i+giftxi+12hi(ft(xi))2+Ωft] ⑶

其中,[gi]和[hi]為標(biāo)量,定義為:

[gi=?yt-1il(yi,yt-1i)]

[hi=?2yt-1il(yi,yt-1i)]

由于[l(yi,yt-1i)]為前t-1棵樹得預(yù)測誤差,與第t次迭代所得模型無關(guān),因此,可以將其從目標(biāo)函數(shù)中刪掉,則有:

[L(t)≈i=1ngiftxi+12hi(ft(xi))2+Ωft]" ⑷

2.2 EasyEnsemble算法原理

EasyEnsemble算法[6-7]是一種基于集成思想的欠采樣方法,用于解決類別不平衡數(shù)據(jù)的有監(jiān)督學(xué)習(xí)中的信息缺失問題。該算法將多數(shù)類樣本集分成N個子集,并且每個子集的樣本數(shù)與少數(shù)類樣本數(shù)相同。然后,將多數(shù)類樣本子集依次與少數(shù)類樣本進(jìn)行組合,形成N個新的訓(xùn)練集,用于訓(xùn)練多個分類器。所有的分類器通過Bagging算法集成,形成最終的分類器。在集成過程中,將N個基分類器的預(yù)測概率進(jìn)行相加,然后通過sign函數(shù)來決定分類。

通過集成多個分類器,可以有效降低單一分類器的過擬合風(fēng)險,提高少數(shù)類樣本的影響;同時通過對概率的集成和sign函數(shù)的運用,可以更好地處理類別不平衡問題。

2.3 冠心病預(yù)測模型構(gòu)建

醫(yī)療類樣本存在一定的不平衡性,若僅考慮識別準(zhǔn)確率,將本文所有實驗數(shù)據(jù)均判斷為多數(shù)情況,整體準(zhǔn)確率也能高達(dá)84.8%(719/848=0.848)。顯然,這類僅關(guān)注準(zhǔn)確率的模型毫無意義。醫(yī)療預(yù)測更加需要關(guān)注患病樣本的識別準(zhǔn)確性,多數(shù)學(xué)者采用以SMOTE算法為主的平衡算法處理數(shù)據(jù),來擴(kuò)大少數(shù)類樣本的影響力。但是過采樣算法生成數(shù)據(jù)普遍會引入噪聲,欠采樣算法刪除數(shù)據(jù)會使部分特征丟失。而EasyEnsemble集成采樣算法合理使用了數(shù)據(jù)集中的全部數(shù)據(jù),并可以多次訓(xùn)練集成結(jié)果。

XGBoost算法具有高效準(zhǔn)確等優(yōu)點,也是醫(yī)療預(yù)測中常用且效果好的一種算法。綜上,本文以EasyEnsemble算法平衡數(shù)據(jù),以XGBoost算法,分類預(yù)測,構(gòu)建如圖1所示的EasyEnsemble+XGBoost模型作為冠心病預(yù)測模型。

該算法的主要流程:

⑴ 重新劃分訓(xùn)練集。給定少數(shù)類樣本,樣本量P,給定多數(shù)類樣本,樣本量Q。從多數(shù)類樣本中隨機抽樣,抽出樣本量為P的子集N個,將少數(shù)類樣本和多數(shù)類子樣本組合,生成樣本量為2P的新訓(xùn)練集N個。

⑵ 訓(xùn)練基分類器模型。在新訓(xùn)練集中訓(xùn)練XGBoost分類器。

[Hix=sign(j=1Siαi,jhi,jx-θi)]" ⑸

其中,[Hi]為第i個基分類器XGBoost模型;[αi,j]為相應(yīng)基分類器的權(quán)重;[hi,j]為第i個XGBoost的第j個基分類器;[θi]為集成閾值。

⑶ 將基分類器集成。

[Hx=sign(i=1Nj=1Siαi,jhi,jx-i=1Nθi)]" ⑹

其中,H(x)為集成后EasyEnsemble模型。

3 實驗結(jié)果分析

3.1 參數(shù)設(shè)置

本文設(shè)置四個對比實驗,分別為無采樣處理的XGBoost模型,過采樣處理的SMOTE+SGBoost模型,欠采樣處理的TomekLinks+XGBoost模型,集成采樣的EasyEnsemble+XGBoost模型。

在上述對比實現(xiàn)中,采用貝葉斯優(yōu)化算法分別調(diào)整各個模型中XGBoost算法的四個參數(shù):n_estimator最大生成樹目、learning_rate迭代步長、max_depth最大深度和min_child_weight葉子最小權(quán)重。

XGBoost中,n_estimator=167、learning_rate=0.09、max_depth=2、min_child_weight=7。

SMOTE+XGBoost中,n_estimator=513、learning_

rate=0.46、max_depth=8、min_child _weight=0.4。

TomekLinks+XGBoost中,n_estimator=73、learning_

rate=0.14、max_depth=3、min_child_weight=1。

因為EasyEnsemble算法中,各個小樣本與欠采樣樣本相似,故選用了TomekLinks+XGBoost的參數(shù)進(jìn)行實驗。

3.2 評價指標(biāo)

為了評估各個模型的性能,使用了準(zhǔn)確率(ACC)、精確率(PRE)、召回率(REC)ROC曲線下面積(AUC)、精確率和召回率的調(diào)和均值(F1)等多個評價指標(biāo)進(jìn)行評估。

[ACC=TP+TNTP+TN+FP+FN]" ⑺

[PRE=TPTP+FP]" ⑻

[REC=TPTP+FN]" ⑼

[F1=2*PRE*RECPRE+REC]" ⑽

其中,TP表示正例識別正確;TN表示負(fù)例識別正確;FP表示負(fù)例識別錯誤;FN表示正例識別錯誤。

3.3 結(jié)果分析

混淆矩陣(見表1)可直觀看到各類模型訓(xùn)練完畢后的測試集測試結(jié)果。其中負(fù)例為健康樣本,正例為患病樣本。相較于XGBoost算法,SMOTE+XGBoost算法的少數(shù)類識別率提升了2.00%,EasyEnsemble+ XGBoost算法提升了8.61%,TomekLinks+ XGBoost算法則是在整體識別率未出現(xiàn)明顯變化的情況下,對少數(shù)類樣本識別率小幅提高。

表2中給出了各類模型的量化結(jié)果,XGBoost、SMOTE+XGBoost、TomekLinks+ XGBoost模型的ACC值均超過了80%,但其REC值普遍偏低,均未超過30%。而EasyEnsemble+XGBoost模型,雖然ACC值僅為62%,但是REC值達(dá)到了64%,相較于XGBoost模型提高了近八倍,相較于SMOTE+XGBoost模型提高了約三倍。

同時,本文的SOMTE+XGBoost模型結(jié)果相較于蔣林甫[5]的同名算法,雖數(shù)據(jù)處理方式略有出入,但結(jié)果基本一致。相較于PCHD-TABNET這種引入注意力機制的算法,本文EasyEnsemble+XGBoost模型PRE指標(biāo)上表現(xiàn)略優(yōu),可以更加精確的預(yù)測患病樣本。

4 結(jié)束語

本文針對醫(yī)療數(shù)據(jù)集不平衡的問題,提供了一種數(shù)據(jù)采樣和集成學(xué)習(xí)相結(jié)合的冠心病預(yù)測模型,使用集成采樣EasyEnsemble算法平衡數(shù)據(jù)集,將XGBoost算法作為基分類器,以ACC、REC、F1、AUC等多個指標(biāo)作為模型性能的評價標(biāo)準(zhǔn)。在公開數(shù)據(jù)集弗雷明翰冠心病數(shù)據(jù)集中進(jìn)行模擬,結(jié)果表明,該模型多個指標(biāo)優(yōu)于傳統(tǒng)的SMOTE+XGBoost模型,顯著改善了少數(shù)類識別準(zhǔn)確率低的問題,提高了預(yù)測模型的召回率,對用戶了解自身患病風(fēng)險有極大幫助。

但是該模型整體識別準(zhǔn)確率有一定程度的下降,后續(xù)工作需要在保證少數(shù)類預(yù)測準(zhǔn)確的情況下,提升整體的準(zhǔn)確率??梢試L試通過修改模型的代價敏感函數(shù)等的方法進(jìn)行試驗,使得模型性能進(jìn)一步提升。

參考文獻(xiàn)(References):

[1] 盧文婷,姚遠(yuǎn),熊靜,等.機器學(xué)習(xí)在心血管疾病輔助診斷模型

中的效果[J].中華全科醫(yī)學(xué),2023,21(1):112-117.

[2] 林加論,余洋鑫,許磊,等.基于機器學(xué)習(xí)的冠心病預(yù)測模型

研究[J].中國數(shù)字醫(yī)學(xué),2023,18(01):48-52.

[3] 洪韻,馬勇,陳榕,等.基于機器學(xué)習(xí)算法的冠心病風(fēng)險預(yù)測及

其特征分析模型[J].廣東醫(yī)科大學(xué)學(xué)報,2023,41(1):53-57.

[4] Elsayed H A G , Syed L .An automatic early risk

classification of hard coronary heart diseases using framingham scoring model[C]//the Second International Conference,2017.

[5] 蔣林甫.基于深度學(xué)習(xí)的冠心病風(fēng)險分層[D].杭州:杭州

師范大學(xué),2022.

[6] 陳毓,陳亮,汪琰,等.基于EasyEnsemble和XGBoost算法的焊縫

超聲波檢測結(jié)果預(yù)測模型[J].船舶工程,2022,44(4):134-139.

[7] 張青周,高龍,胡穎迪,等.EasyEnsemble算法在金融風(fēng)控不均衡

數(shù)據(jù)集建模中的應(yīng)用[J].金融科技時代,2023,31(1):41-46.

主站蜘蛛池模板: 国产精品一区在线麻豆| 国产一区二区三区精品欧美日韩| 成人午夜视频网站| 四虎影院国产| 国产sm重味一区二区三区| 萌白酱国产一区二区| 午夜福利免费视频| 国产日产欧美精品| 国产综合在线观看视频| 综合网久久| 亚洲va视频| 亚洲av无码人妻| 天天躁狠狠躁| 亚洲人成色77777在线观看| 久久国语对白| 日韩国产综合精选| 久久久91人妻无码精品蜜桃HD| 综合色天天| 日本午夜网站| 亚洲国内精品自在自线官| 无码区日韩专区免费系列 | 亚洲爱婷婷色69堂| 亚洲国产午夜精华无码福利| 国产精品福利在线观看无码卡| 人妻丰满熟妇AV无码区| 亚洲精品国产乱码不卡| 青青草国产在线视频| 波多野结衣亚洲一区| 国产乱子伦一区二区=| 91无码网站| 久久精品一品道久久精品| 精品国产美女福到在线不卡f| 亚洲男人天堂久久| 久久精品国产精品青草app| 国产伦精品一区二区三区视频优播 | 婷婷六月色| 1769国产精品视频免费观看| 精品伊人久久大香线蕉网站| 午夜无码一区二区三区| 亚洲美女一区二区三区| 婷婷色在线视频| 亚洲精品国产自在现线最新| 亚洲一级毛片在线播放| 五月六月伊人狠狠丁香网| 天天综合亚洲| 国产精品无码久久久久AV| 日韩小视频网站hq| 欧美日韩第二页| 午夜影院a级片| 青青操国产| 亚洲精品无码抽插日韩| 亚洲美女高潮久久久久久久| 亚洲午夜片| 亚洲精品视频在线观看视频| 亚洲啪啪网| 六月婷婷激情综合| 99精品欧美一区| 久久77777| 在线看片免费人成视久网下载| 欧美中文字幕在线视频| 久久综合AV免费观看| 永久免费精品视频| 久久久四虎成人永久免费网站| 色偷偷一区| 亚洲中文字幕国产av| 免费观看成人久久网免费观看| 小说 亚洲 无码 精品| 国产精品美女免费视频大全| 国产人在线成免费视频| 久久国产精品波多野结衣| 九九这里只有精品视频| 国产丝袜啪啪| 国产美女在线观看| 岛国精品一区免费视频在线观看 | 精品欧美日韩国产日漫一区不卡| 国产成人亚洲欧美激情| 91亚洲精选| 91青青草视频| 日韩经典精品无码一区二区| 亚洲人成影院在线观看| 2021国产精品自产拍在线观看| 国产午夜精品一区二区三|