999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TPE_XGBoost的冠心病風險評估與致病因素研究

2023-05-29 10:19:46郎許鋒周作建李紅巖萬澤宇朱金陽何佳怡鄭永明胡孔法
軟件導刊 2023年5期
關鍵詞:冠心病特征優化

黃 敏,郎許鋒,周作建,李紅巖,萬澤宇,王 銳,程 俊,朱金陽,何佳怡,鄭永明,胡孔法,3

(1.南京中醫藥大學 人工智能與信息技術學院,江蘇 南京 210046;2.南京中醫藥大學附屬連云港中醫院,江蘇 連云港 222000;3.江蘇省中醫藥防治腫瘤協同創新中心,江蘇 南京 210046)

0 引言

《中國心血管健康與疾病報告2021》指出,目前心血管疾病高居我國居民總死亡原因的榜首,且冠心病的死亡率和患病率仍在增加[1]。冠心病的病因構成十分復雜,通常是由多種危險因素引起的。因此,對冠心病患者進行風險評估,盡早干預,通過消除危險因素可預防或延遲冠心病的發生或死亡。另外,對健康人群進行風險評估,及時根據評估報告調整飲食、作息等習慣,也可以有效預防冠心病的發生。

近年來,機器學習被許多研究人員運用于心血管病、腎病、乳腺癌、代謝疾病等領域的風險預測中,其對臨床疾病的診斷具有積極作用。齊俊鋒等[2]采用隨機梯度下降、logistic 回歸等6種算法構建湖北省心血管疾病風險預測模型,其中LightGBM 模型最優,預測性能最好,前4 個危險因素依次為收縮壓、脈壓差、舒展壓、年齡,但其對所有心血管疾病一起進行研究,存在一定局限;宋亞男等[3]利用解放軍總醫院糖尿病數據,對比隨機森林、logistic 回歸、XGBoost(Extreme Gradient Boosting)3 種算法,得出最優算法——XGBoost 算法,并構建2 型糖尿病患者并發視網膜病變預測模型,得到危險因素為合并腎病、糖化血紅蛋白、血尿素水平;李慧等[4]基于公開數據集,采用SMOTE 算法平衡數據集,再使用lasso 算法進行特征選擇,最后利用隨機森林構建乳腺鉬靶鈣化灶的良惡性預測模型,具有一定可靠性,但精確率不高。

目前,利用機器學習進行冠心病風險預測被廣泛應用,雖具備較好性能,但可解釋性較差,對疾病的防治意義有限。此外,由于真實臨床數據量小,一般來說,機器學習算法優于深度學習算法[5]。因此,本文選用經典機器學習中的XGBoost 方法進行建模來預測冠心病,同時利用SHAP 算法分析不同特征對冠心病的重要程度,提升模型的可解釋性。與上述研究相比,本文使用了真實數據集,具有較高可靠性,且僅研究了心血管疾病的一個分類,具有針對性,同時具有較強的可解釋性。

1 模型構建方法

基 于TPE_XGBoost(Tree-structured Parzen Estimator_Extreme Gradient Boosting)的冠心病風險評估及基于SHAP 的特征解釋模型構建流程如圖1 所示,其構建過程包括數據預處理、基于TPE_XGBoost 的風險評估模型構建與優化、基于SHAP 的特征解釋模型構建。

首先,由于原始體檢數據中部分生化指標缺失嚴重,因此首先通過特征選擇、缺失值處理、數據標準化對體檢數據進行預處理;然后,利用該數據建立XGBoost 預測模型,因XGBoost 模型的超參數眾多,故針對此模型進行基于TPE 的貝葉斯優化,以自動優化其超參數,從而提升TPE_XGBoost 冠心病風險評估模型的性能;最后,通過SHAP 解釋模型對特征進行分析,獲得不同特征對模型預測的貢獻度,提高模型的可解釋性。

1.1 XGBoost模型

XGBoost 是一種能夠實現分類與回歸的Boosting 集成學習算法[6],由多個弱學習器迭代學習實現強學習器。XGBoost 目標函數包括損失函數和正則項兩部分,本質是對梯度提升決策樹的改進[7-8]。XGBoost 對損失函數使用二階泰勒展開,可以有效控制模型過擬合,提高預測精度[9-11]。正則項可以提升單顆樹的泛化能力。

1.2 貝葉斯優化

貝葉斯優化(Bayesian Optimization,BO)是一種基于概率分布的全局優化算法[12],用于解決最優化問題[13],以求得XGBoost的超參數最優解,如式(1)所示。

其中,x表示d維決策向量,X表示決策空間,f表示目標函數。在本文中,x為XGBoost 預測算法的超參數組合,f(x)為準確率高低的測度。貝葉斯優化主要包含兩個核心部分:概率代理模型和采集函數[14-15]。本文的概率代理模型為樹形概率密度估計[16]。

1.3 SHAP解釋模型

SHAP(Shapley Additive Explanations)是 由Lundberg等[17]提出的用于解釋黑箱模型的一種解釋框架,廣泛應用于解釋醫療和社會現象[18]。SHAP 基于博弈論和局部解釋,通過計算每個特征的Shapley value,以此衡量每個特征對預測結果的貢獻度[19]。如式(2)所示,其中g表示解釋模型,M表示特征數目,z表示該特征是否存在,φ為每個特征的Shapley value。當φi>0,說明該特征對模型結果有正向作用,反之,說明該特征對模型結果有負面影響。

2 模型構建及對比實驗

2.1 實驗環境

本文使用人工智能實驗室服務器進行訓練與測試,具體配置如表1所示。

Table 1 Specific configuration of experimental environment表1 實驗環境具體配置

2.2 評價指標

為了評估本文構建模型的優劣,采用5 項常用的機器學習分類指標,分別為:準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1 值(F1-score)及AUC 值(Area Under Curve,AUC)。準確率、精確率、召回率和F1 值可通過混淆矩陣進行表示,如表2所示。

Table 2 Confusion matrix表2 混淆矩陣

這些評價指標的相關公式如式(3)-(8)所示。

2.3 數據及其特征工程

2.3.1 數據來源及納入規則

本文的數據集來自南京中醫藥大學附屬連云港中醫院的體檢數據,該數據集包含2017-2021 年體檢人群的基本信息、體檢項目、體檢報告、體檢問卷等信息,包括58 602例健康人群和674 例冠心病患者。數據共包含216 個特征和1個標簽,是否患冠心病是一個二分類問題,為處理缺失特征、選擇高相關性特征、提高模型泛化能力,本文采用特征選擇、缺失值處理和數據標準化方法進行預處理。

健康人群雖某次體檢未有異常,但是存在既往病史,例如患甲亢、糖尿病在服藥等情況。既往病史的復雜背景或其接受過的治療可能影響研究結果的準確性,故刪除有既往病史的人群,總共有16例。

2.3.2 特征選擇

為了方便大眾隨時隨地都可得知自己將來是否會患有冠心病,選取不用去醫院即可測得的數據,分別為收縮壓、舒張壓、體重指數、低密度膽固醇、高密度膽固醇、總膽固醇、空腹血糖、甘油三酯和尿酸,同時納入人口統計學變量:性別和年齡。

2.3.3 缺失值處理

分別將未患冠心病和患冠心病的數據進行缺失值的可視化,如圖2、圖3 所示。白色線條越多,說明數據缺失越多。從圖2、圖3 可以得知,除性別和年齡外,其他特征都有缺失。其中,患冠心病的人群特征缺失較少,缺失最多的是體重指數,達到8.2%,未患冠心病的人群特征缺失較為嚴重。由于部分病人的重要特征缺失,采用算法自動進行填充可能對分析結果造成較大影響,因此本文直接將生理指標缺失嚴重的樣本刪除。

Fig.2 Feature absence of individuals without coronary heart disease圖2 未患冠心病人群特征缺失情況

Fig.3 Feature absence of individuals with coronary heart disease圖3 患冠心病人群特征缺失情況

2.3.4 數據標準化

根據醫院體檢系統里給定的參考范圍對數據進行劃分,劃分標準如表3 所示。其中,a為參考范圍中的最小值,b為參考范圍中的最大值,x為特征值。

2.4 與其他機器學習模型對比

為了更好地驗證本文模型的優越性,將本文模型與9個機器學習模型進行對比,各模型均使用默認參數,并使用準確率、精確率、召回率、F1 值、AUC 值5 個指標對模型進行評估。將預處理后的數據集劃分為訓練集和測試集,比例為7∶3。

各個模型實驗結果如表4 所示。由實驗結果可知,本文所用模型的評價指標均優于9 個對比模型,準確率、精確率、召回率、F1值、AUC值分別為0.974 5、0.970 6、0.990 0、0.980 2、0.968 7,所以XGBoost模型是最優模型。

Table 3 Data standardization表3 數據標準化

Table 4 Comparison results with other machine learning models表4 與其他機器學習模型對比結果

2.5 基于TPE的貝葉斯優化

XGBoost 模型的超參數較多,因此參數設置是否合理會影響模型精度。僅使用默認參數進行測試,并不能得出最優結果,因此需要對XGBoost 進行超參數優化。常用的調參方法為網格搜索、隨機搜索、貝葉斯優化等[20-21],本文使用基于TPE 的貝葉斯優化進行超參數優化,以準確率的十折交叉驗證平均值作為目標函數,從而獲得最佳參數。

XGBoost 共有3 類參數:一般參數、提升參數、學習參數。本文選擇影響力較大的超參數進行優化,為了找到最優的超參數組合,首先設置合理的超參數空間,如表5所示。

通過不斷迭代,得出12 個超參數的最優組合。尋找最優參數的結果如圖4 所示。圖中,圓點表示超參數不同取值對應的準確率,五角星表示模型達到最高準確率時該超參數的取值。準確率最高為0.993 7,此時n_estimators為77,learning_rate為0.38,colsample_bytree為0.47,colsample_bynode為0.1,max_depth為9,gamma為5.3,subsample為0.77,reg_lambda為0.08,min_child_weight為9.58,objective為binary:logistic,rate_drop為0.38,reg_alpha為0.18。

經貝葉斯優化后的模型TPE_XGBoost 在5 個評價指標上均有所提升,準確率、精確率、召回率、F1 值、AUC 值分別為0.993 7、0.992 9、0.998 1、0.995 5、0.998 3,比采用默認參數的XGBoost 性能提升約0.81%~2.97%,原因是尋找到的最優超參數組合與本文的數據集更加匹配,降低了復雜性,可防止產生過擬合,從而提升了模型性能。調參后的模型與其他算法比較如表6所示。

Table 5 Hyperparameter selection表5 超參數選擇

3 基于 SHAP 的模型解釋性分析

利用SHAP 模型對基于TPE_XGBoost 的冠心病預測模型的實驗結果進行特征分析,圖5 為SHAP 摘要圖,該圖縱軸代表特征重要性排序,橫軸代表特征對模型的影響。由圖5 可知,AGE(年齡)、體重指數、低密度膽固醇、舒張壓、甘油三脂、高血壓等特征對模型的影響較大。SHAP 得出最重要的特征為年齡,隨著年齡的增大,患冠心病的風險也會增加;體重指數對患冠心病也有較大影響,體重指數越高,患冠心病的風險越大;舒張壓越高,患冠心病風險越大;若患有高血壓,則患冠心病的風險也較大;在相似的條件下,男性患冠心病的風險大于女性;尿酸越高,患冠心病的風險也越大。

利用SHAP 繪制前4 個重要特征的依賴圖,如圖6 所示。隨著年齡、體重指數、舒張壓的增加,SHAP 的值也增加,說明這些特征的值越大,患冠心病的風險則越大;SHAP 的值隨著低密度膽固醇值的增大而減小,說明該特征在正常范圍內對冠心病具有反向影響。

利用SHAP 對某個預測為患冠心病和未患冠心病的個體進行分析,分析結果分別如圖7、圖8 所示。紅色指將模型分數變高的特征,藍色指將模型分數變低的特征,箭頭長度越長,代表該特征對模型結果的影響越大。由圖7 可知,被預測為患冠心病的原因包括年齡較大、收縮壓與舒張壓較高、低密度膽固醇較低等。由圖8 可知,被預測為未患冠心病的原因包括年齡較小、未患高血壓、舒張壓正常以及體重指數、甘油三脂較低等。

Fig.4 Finding the optimal parameter result圖4 尋找最優參數結果

Table 6 Comparison of model after parameter tuning with other algorithms表6 調參后的模型與其他算法比較

Fig.5 SHAP summary graph圖5 SHAP摘要圖

SHAP 解釋模型、XGBoost 模型的特征重要性排序如圖9、圖10 所示,可以看出,特征排名并不完全一樣,但這兩個模型都將年齡排在首位,故年齡是冠心病的重要風險因素,另外低密度膽固醇、舒張壓、體重指數是影響患病的關鍵因素。

4 結語

當前冠心病的患病率逐年攀升,且年輕化趨勢明顯。為減少醫療診斷開支,提高冠心病診斷的準確率,輔助臨床決策,將機器學習算法運用于冠心病風險評估中,對降低冠心病的患病概率有著重要意義。本文基于機器學習算法,使用醫院的體檢數據,首先對該數據進行預處理,構建的XGBoost 模型比其他9 種模型更優;然后經過TPE 對XGBoost 預測模型的優化,性能提升約0.81%~2.97%,準確率達到0.993 7;最后通過SHAP 模型對各個特征的重要性進行合理解釋,得出年齡、體重指數、低密度膽固醇、舒張壓等是影響冠心病患病的關鍵因素。

本文實驗模型所采用的數據獲取更加方便,節約了大眾去醫院檢查的時間和費用,便于其自行分析和調整身體狀態。此外,由于本文納入的特征較少,可能會忽略部分重要特征。在下一步研究中,將納入更全面的特征,如是否吸煙、飲食習慣、作息和運動規律等,進一步分析相關特 征對冠心病的影響,指導大眾健康生活。

Fig.6 SHAP important features dependency diagram圖6 SHAP重要特征依賴圖

Fig.7 An analytical plot that predicts coronary heart disease圖7 預測為患冠心病的分析圖

Fig.9 SHAP feature importance ranking圖9 SHAP特征重要性排名

Fig.10 TPE_XGBoost model feature importance ranking圖10 TPE_XGBoost模型特征重要性排名

猜你喜歡
冠心病特征優化
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
ADAMTs-1、 CF6、 CARP在冠心病合并慢性心力衰竭中的意義
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
茶、汁、飲治療冠心病
警惕冠心病
智慧健康(2019年36期)2020-01-14 15:22:58
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: P尤物久久99国产综合精品| 波多野结衣在线一区二区| 青青国产成人免费精品视频| 99在线观看免费视频| 高清久久精品亚洲日韩Av| 成人在线观看一区| 国模私拍一区二区三区| 亚洲综合狠狠| 尤物精品国产福利网站| 国产精品一区二区国产主播| a毛片免费观看| 一级片一区| 一级毛片在线播放| 成人综合网址| 强乱中文字幕在线播放不卡| 欧美精品三级在线| 国产成人91精品| 国产视频欧美| 影音先锋亚洲无码| 午夜国产理论| 免费一极毛片| 亚洲人在线| 激情亚洲天堂| 综合社区亚洲熟妇p| 97se亚洲综合不卡| 青青青视频91在线 | a级毛片在线免费| 国产网友愉拍精品| 呦系列视频一区二区三区| 黄色网址免费在线| 人人妻人人澡人人爽欧美一区| 71pao成人国产永久免费视频| 国产亚洲高清在线精品99| 国产精品免费电影| 久久免费成人| 亚洲毛片网站| 久热re国产手机在线观看| 久久综合丝袜长腿丝袜| 亚洲精品无码不卡在线播放| 免费观看国产小粉嫩喷水| 亚洲第一天堂无码专区| 亚洲精品国产综合99久久夜夜嗨| 国内精品自在自线视频香蕉| 欧美午夜在线播放| 国产人碰人摸人爱免费视频| 四虎在线观看视频高清无码 | 九九热在线视频| 日韩大片免费观看视频播放| av在线人妻熟妇| 日本欧美一二三区色视频| 99r在线精品视频在线播放| 国产伦精品一区二区三区视频优播| 男人天堂伊人网| AⅤ色综合久久天堂AV色综合| 国产高潮视频在线观看| 亚洲第一黄片大全| 99精品在线看| 国产福利一区在线| 国产成年无码AⅤ片在线| 国产精品大白天新婚身材| 欧美综合中文字幕久久| 91综合色区亚洲熟妇p| 国产成人福利在线视老湿机| 精品99在线观看| 国产精品手机视频| 她的性爱视频| 亚洲精品亚洲人成在线| 国产精品林美惠子在线观看| 国产成人精品视频一区二区电影| 国产在线高清一级毛片| 69国产精品视频免费| 午夜久久影院| 国产一二视频| 99re视频在线| 黄片一区二区三区| 国产成人亚洲欧美激情| 狠狠色成人综合首页| 国产成人精品2021欧美日韩| 亚洲乱伦视频| 欧美在线黄| 亚洲成A人V欧美综合天堂| 成人毛片在线播放|