999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TPE_XGBoost的冠心病風險評估與致病因素研究

2023-05-29 10:19:46郎許鋒周作建李紅巖萬澤宇朱金陽何佳怡鄭永明胡孔法
軟件導刊 2023年5期
關鍵詞:冠心病特征優化

黃 敏,郎許鋒,周作建,李紅巖,萬澤宇,王 銳,程 俊,朱金陽,何佳怡,鄭永明,胡孔法,3

(1.南京中醫藥大學 人工智能與信息技術學院,江蘇 南京 210046;2.南京中醫藥大學附屬連云港中醫院,江蘇 連云港 222000;3.江蘇省中醫藥防治腫瘤協同創新中心,江蘇 南京 210046)

0 引言

《中國心血管健康與疾病報告2021》指出,目前心血管疾病高居我國居民總死亡原因的榜首,且冠心病的死亡率和患病率仍在增加[1]。冠心病的病因構成十分復雜,通常是由多種危險因素引起的。因此,對冠心病患者進行風險評估,盡早干預,通過消除危險因素可預防或延遲冠心病的發生或死亡。另外,對健康人群進行風險評估,及時根據評估報告調整飲食、作息等習慣,也可以有效預防冠心病的發生。

近年來,機器學習被許多研究人員運用于心血管病、腎病、乳腺癌、代謝疾病等領域的風險預測中,其對臨床疾病的診斷具有積極作用。齊俊鋒等[2]采用隨機梯度下降、logistic 回歸等6種算法構建湖北省心血管疾病風險預測模型,其中LightGBM 模型最優,預測性能最好,前4 個危險因素依次為收縮壓、脈壓差、舒展壓、年齡,但其對所有心血管疾病一起進行研究,存在一定局限;宋亞男等[3]利用解放軍總醫院糖尿病數據,對比隨機森林、logistic 回歸、XGBoost(Extreme Gradient Boosting)3 種算法,得出最優算法——XGBoost 算法,并構建2 型糖尿病患者并發視網膜病變預測模型,得到危險因素為合并腎病、糖化血紅蛋白、血尿素水平;李慧等[4]基于公開數據集,采用SMOTE 算法平衡數據集,再使用lasso 算法進行特征選擇,最后利用隨機森林構建乳腺鉬靶鈣化灶的良惡性預測模型,具有一定可靠性,但精確率不高。

目前,利用機器學習進行冠心病風險預測被廣泛應用,雖具備較好性能,但可解釋性較差,對疾病的防治意義有限。此外,由于真實臨床數據量小,一般來說,機器學習算法優于深度學習算法[5]。因此,本文選用經典機器學習中的XGBoost 方法進行建模來預測冠心病,同時利用SHAP 算法分析不同特征對冠心病的重要程度,提升模型的可解釋性。與上述研究相比,本文使用了真實數據集,具有較高可靠性,且僅研究了心血管疾病的一個分類,具有針對性,同時具有較強的可解釋性。

1 模型構建方法

基 于TPE_XGBoost(Tree-structured Parzen Estimator_Extreme Gradient Boosting)的冠心病風險評估及基于SHAP 的特征解釋模型構建流程如圖1 所示,其構建過程包括數據預處理、基于TPE_XGBoost 的風險評估模型構建與優化、基于SHAP 的特征解釋模型構建。

首先,由于原始體檢數據中部分生化指標缺失嚴重,因此首先通過特征選擇、缺失值處理、數據標準化對體檢數據進行預處理;然后,利用該數據建立XGBoost 預測模型,因XGBoost 模型的超參數眾多,故針對此模型進行基于TPE 的貝葉斯優化,以自動優化其超參數,從而提升TPE_XGBoost 冠心病風險評估模型的性能;最后,通過SHAP 解釋模型對特征進行分析,獲得不同特征對模型預測的貢獻度,提高模型的可解釋性。

1.1 XGBoost模型

XGBoost 是一種能夠實現分類與回歸的Boosting 集成學習算法[6],由多個弱學習器迭代學習實現強學習器。XGBoost 目標函數包括損失函數和正則項兩部分,本質是對梯度提升決策樹的改進[7-8]。XGBoost 對損失函數使用二階泰勒展開,可以有效控制模型過擬合,提高預測精度[9-11]。正則項可以提升單顆樹的泛化能力。

1.2 貝葉斯優化

貝葉斯優化(Bayesian Optimization,BO)是一種基于概率分布的全局優化算法[12],用于解決最優化問題[13],以求得XGBoost的超參數最優解,如式(1)所示。

其中,x表示d維決策向量,X表示決策空間,f表示目標函數。在本文中,x為XGBoost 預測算法的超參數組合,f(x)為準確率高低的測度。貝葉斯優化主要包含兩個核心部分:概率代理模型和采集函數[14-15]。本文的概率代理模型為樹形概率密度估計[16]。

1.3 SHAP解釋模型

SHAP(Shapley Additive Explanations)是 由Lundberg等[17]提出的用于解釋黑箱模型的一種解釋框架,廣泛應用于解釋醫療和社會現象[18]。SHAP 基于博弈論和局部解釋,通過計算每個特征的Shapley value,以此衡量每個特征對預測結果的貢獻度[19]。如式(2)所示,其中g表示解釋模型,M表示特征數目,z表示該特征是否存在,φ為每個特征的Shapley value。當φi>0,說明該特征對模型結果有正向作用,反之,說明該特征對模型結果有負面影響。

2 模型構建及對比實驗

2.1 實驗環境

本文使用人工智能實驗室服務器進行訓練與測試,具體配置如表1所示。

Table 1 Specific configuration of experimental environment表1 實驗環境具體配置

2.2 評價指標

為了評估本文構建模型的優劣,采用5 項常用的機器學習分類指標,分別為:準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1 值(F1-score)及AUC 值(Area Under Curve,AUC)。準確率、精確率、召回率和F1 值可通過混淆矩陣進行表示,如表2所示。

Table 2 Confusion matrix表2 混淆矩陣

這些評價指標的相關公式如式(3)-(8)所示。

2.3 數據及其特征工程

2.3.1 數據來源及納入規則

本文的數據集來自南京中醫藥大學附屬連云港中醫院的體檢數據,該數據集包含2017-2021 年體檢人群的基本信息、體檢項目、體檢報告、體檢問卷等信息,包括58 602例健康人群和674 例冠心病患者。數據共包含216 個特征和1個標簽,是否患冠心病是一個二分類問題,為處理缺失特征、選擇高相關性特征、提高模型泛化能力,本文采用特征選擇、缺失值處理和數據標準化方法進行預處理。

健康人群雖某次體檢未有異常,但是存在既往病史,例如患甲亢、糖尿病在服藥等情況。既往病史的復雜背景或其接受過的治療可能影響研究結果的準確性,故刪除有既往病史的人群,總共有16例。

2.3.2 特征選擇

為了方便大眾隨時隨地都可得知自己將來是否會患有冠心病,選取不用去醫院即可測得的數據,分別為收縮壓、舒張壓、體重指數、低密度膽固醇、高密度膽固醇、總膽固醇、空腹血糖、甘油三酯和尿酸,同時納入人口統計學變量:性別和年齡。

2.3.3 缺失值處理

分別將未患冠心病和患冠心病的數據進行缺失值的可視化,如圖2、圖3 所示。白色線條越多,說明數據缺失越多。從圖2、圖3 可以得知,除性別和年齡外,其他特征都有缺失。其中,患冠心病的人群特征缺失較少,缺失最多的是體重指數,達到8.2%,未患冠心病的人群特征缺失較為嚴重。由于部分病人的重要特征缺失,采用算法自動進行填充可能對分析結果造成較大影響,因此本文直接將生理指標缺失嚴重的樣本刪除。

Fig.2 Feature absence of individuals without coronary heart disease圖2 未患冠心病人群特征缺失情況

Fig.3 Feature absence of individuals with coronary heart disease圖3 患冠心病人群特征缺失情況

2.3.4 數據標準化

根據醫院體檢系統里給定的參考范圍對數據進行劃分,劃分標準如表3 所示。其中,a為參考范圍中的最小值,b為參考范圍中的最大值,x為特征值。

2.4 與其他機器學習模型對比

為了更好地驗證本文模型的優越性,將本文模型與9個機器學習模型進行對比,各模型均使用默認參數,并使用準確率、精確率、召回率、F1 值、AUC 值5 個指標對模型進行評估。將預處理后的數據集劃分為訓練集和測試集,比例為7∶3。

各個模型實驗結果如表4 所示。由實驗結果可知,本文所用模型的評價指標均優于9 個對比模型,準確率、精確率、召回率、F1值、AUC值分別為0.974 5、0.970 6、0.990 0、0.980 2、0.968 7,所以XGBoost模型是最優模型。

Table 3 Data standardization表3 數據標準化

Table 4 Comparison results with other machine learning models表4 與其他機器學習模型對比結果

2.5 基于TPE的貝葉斯優化

XGBoost 模型的超參數較多,因此參數設置是否合理會影響模型精度。僅使用默認參數進行測試,并不能得出最優結果,因此需要對XGBoost 進行超參數優化。常用的調參方法為網格搜索、隨機搜索、貝葉斯優化等[20-21],本文使用基于TPE 的貝葉斯優化進行超參數優化,以準確率的十折交叉驗證平均值作為目標函數,從而獲得最佳參數。

XGBoost 共有3 類參數:一般參數、提升參數、學習參數。本文選擇影響力較大的超參數進行優化,為了找到最優的超參數組合,首先設置合理的超參數空間,如表5所示。

通過不斷迭代,得出12 個超參數的最優組合。尋找最優參數的結果如圖4 所示。圖中,圓點表示超參數不同取值對應的準確率,五角星表示模型達到最高準確率時該超參數的取值。準確率最高為0.993 7,此時n_estimators為77,learning_rate為0.38,colsample_bytree為0.47,colsample_bynode為0.1,max_depth為9,gamma為5.3,subsample為0.77,reg_lambda為0.08,min_child_weight為9.58,objective為binary:logistic,rate_drop為0.38,reg_alpha為0.18。

經貝葉斯優化后的模型TPE_XGBoost 在5 個評價指標上均有所提升,準確率、精確率、召回率、F1 值、AUC 值分別為0.993 7、0.992 9、0.998 1、0.995 5、0.998 3,比采用默認參數的XGBoost 性能提升約0.81%~2.97%,原因是尋找到的最優超參數組合與本文的數據集更加匹配,降低了復雜性,可防止產生過擬合,從而提升了模型性能。調參后的模型與其他算法比較如表6所示。

Table 5 Hyperparameter selection表5 超參數選擇

3 基于 SHAP 的模型解釋性分析

利用SHAP 模型對基于TPE_XGBoost 的冠心病預測模型的實驗結果進行特征分析,圖5 為SHAP 摘要圖,該圖縱軸代表特征重要性排序,橫軸代表特征對模型的影響。由圖5 可知,AGE(年齡)、體重指數、低密度膽固醇、舒張壓、甘油三脂、高血壓等特征對模型的影響較大。SHAP 得出最重要的特征為年齡,隨著年齡的增大,患冠心病的風險也會增加;體重指數對患冠心病也有較大影響,體重指數越高,患冠心病的風險越大;舒張壓越高,患冠心病風險越大;若患有高血壓,則患冠心病的風險也較大;在相似的條件下,男性患冠心病的風險大于女性;尿酸越高,患冠心病的風險也越大。

利用SHAP 繪制前4 個重要特征的依賴圖,如圖6 所示。隨著年齡、體重指數、舒張壓的增加,SHAP 的值也增加,說明這些特征的值越大,患冠心病的風險則越大;SHAP 的值隨著低密度膽固醇值的增大而減小,說明該特征在正常范圍內對冠心病具有反向影響。

利用SHAP 對某個預測為患冠心病和未患冠心病的個體進行分析,分析結果分別如圖7、圖8 所示。紅色指將模型分數變高的特征,藍色指將模型分數變低的特征,箭頭長度越長,代表該特征對模型結果的影響越大。由圖7 可知,被預測為患冠心病的原因包括年齡較大、收縮壓與舒張壓較高、低密度膽固醇較低等。由圖8 可知,被預測為未患冠心病的原因包括年齡較小、未患高血壓、舒張壓正常以及體重指數、甘油三脂較低等。

Fig.4 Finding the optimal parameter result圖4 尋找最優參數結果

Table 6 Comparison of model after parameter tuning with other algorithms表6 調參后的模型與其他算法比較

Fig.5 SHAP summary graph圖5 SHAP摘要圖

SHAP 解釋模型、XGBoost 模型的特征重要性排序如圖9、圖10 所示,可以看出,特征排名并不完全一樣,但這兩個模型都將年齡排在首位,故年齡是冠心病的重要風險因素,另外低密度膽固醇、舒張壓、體重指數是影響患病的關鍵因素。

4 結語

當前冠心病的患病率逐年攀升,且年輕化趨勢明顯。為減少醫療診斷開支,提高冠心病診斷的準確率,輔助臨床決策,將機器學習算法運用于冠心病風險評估中,對降低冠心病的患病概率有著重要意義。本文基于機器學習算法,使用醫院的體檢數據,首先對該數據進行預處理,構建的XGBoost 模型比其他9 種模型更優;然后經過TPE 對XGBoost 預測模型的優化,性能提升約0.81%~2.97%,準確率達到0.993 7;最后通過SHAP 模型對各個特征的重要性進行合理解釋,得出年齡、體重指數、低密度膽固醇、舒張壓等是影響冠心病患病的關鍵因素。

本文實驗模型所采用的數據獲取更加方便,節約了大眾去醫院檢查的時間和費用,便于其自行分析和調整身體狀態。此外,由于本文納入的特征較少,可能會忽略部分重要特征。在下一步研究中,將納入更全面的特征,如是否吸煙、飲食習慣、作息和運動規律等,進一步分析相關特 征對冠心病的影響,指導大眾健康生活。

Fig.6 SHAP important features dependency diagram圖6 SHAP重要特征依賴圖

Fig.7 An analytical plot that predicts coronary heart disease圖7 預測為患冠心病的分析圖

Fig.9 SHAP feature importance ranking圖9 SHAP特征重要性排名

Fig.10 TPE_XGBoost model feature importance ranking圖10 TPE_XGBoost模型特征重要性排名

猜你喜歡
冠心病特征優化
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
ADAMTs-1、 CF6、 CARP在冠心病合并慢性心力衰竭中的意義
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
茶、汁、飲治療冠心病
警惕冠心病
智慧健康(2019年36期)2020-01-14 15:22:58
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 日韩欧美国产中文| 伊人久久综在合线亚洲91| 无码高清专区| 99久久免费精品特色大片| 福利姬国产精品一区在线| 久久久精品国产SM调教网站| 免费在线色| 九色91在线视频| 天天视频在线91频| 九九九精品视频| 国产男人天堂| 丰满人妻久久中文字幕| 日本亚洲国产一区二区三区| 精品免费在线视频| 成人a免费α片在线视频网站| a毛片在线播放| 色综合热无码热国产| 欧美全免费aaaaaa特黄在线| 欧美a在线| 亚洲人在线| 极品尤物av美乳在线观看| 综合色在线| 亚洲综合色婷婷| 国产成人精品优优av| 久久一本精品久久久ー99| 99手机在线视频| 亚洲另类国产欧美一区二区| 国产精品第页| 欧美激情伊人| 日韩欧美成人高清在线观看| 中日无码在线观看| 色天天综合| 国产精品免费电影| 国产日韩欧美中文| 久久99国产视频| 日韩无码白| 国产女人在线| 一级高清毛片免费a级高清毛片| 精品国产乱码久久久久久一区二区| 国产白浆在线观看| 中文字幕有乳无码| 久久国产精品夜色| 伊人蕉久影院| 天天爽免费视频| 亚洲视频色图| 国产成人AV综合久久| 国产微拍一区| 国产自在线播放| 亚洲码在线中文在线观看| 日韩高清中文字幕| 国产精品免费露脸视频| 国产一区免费在线观看| 国产精品视频999| 2019年国产精品自拍不卡| 中文字幕 欧美日韩| 欧美视频在线不卡| 亚洲一区二区约美女探花| 成人午夜久久| 午夜毛片福利| 国产不卡一级毛片视频| 欧美日本在线播放| 日韩欧美国产三级| 亚洲国产亚综合在线区| 国产无码精品在线播放 | 亚洲色精品国产一区二区三区| 制服无码网站| 日本一区中文字幕最新在线| 久久人搡人人玩人妻精品| 亚洲精品va| 日韩在线播放中文字幕| 亚洲区第一页| 亚洲天堂日韩av电影| 亚洲天堂色色人体| 天天综合色天天综合网| 综合网天天| 中国国语毛片免费观看视频| 亚洲全网成人资源在线观看| 日韩东京热无码人妻| 国产精品.com| 久久伊人色| 99这里只有精品6| 91青青视频|