999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合隨機(jī)森林與SHAP 的心臟病預(yù)測(cè)及其特征分析研究

2023-02-28 16:10:26程祉元張博良蔡雨晨馬雨生邵澤國劉巧紅
關(guān)鍵詞:特征模型

程祉元,張博良,蔡雨晨,馬雨生,邵澤國,劉巧紅

(上海健康醫(yī)學(xué)院醫(yī)療器械學(xué)院,上海 201318)

0 引 言

人的循環(huán)系統(tǒng)包括心臟、血管以及調(diào)節(jié)血液循環(huán)的神經(jīng)體液組織,而循環(huán)系統(tǒng)疾病(心血管病)包括了上述所有組織器官的疾病,而心臟病在其中最為多見,也常見于內(nèi)科疾病,會(huì)導(dǎo)致患者的勞動(dòng)力嚴(yán)重喪失。 隨著生活水平的提高,人們對(duì)自己的生活質(zhì)量,尤其是身體健康有著更高的要求。 然而,根據(jù)《中國心血管健康與疾病報(bào)告2020》,心血管疾病約有3.3 億人,包括1 300 萬腦卒中,1 139 萬冠心病,500 萬肺源性心臟病,4 530 萬下肢動(dòng)脈疾病以及2.45億高血壓[1]。 心血管病給社會(huì)帶來的經(jīng)濟(jì)負(fù)擔(dān)日益加重,已成為重大的公共衛(wèi)生問題。

研究可知,心臟病因其多樣復(fù)雜的發(fā)病類型、極高的死亡率,成為了醫(yī)學(xué)上多年來想要攻克的難題[2]。 現(xiàn)階段心臟疾病的診斷更多依賴于醫(yī)生對(duì)各類檢查生成的醫(yī)學(xué)影像的閱片以及患者的生活環(huán)境、家族病史、生理指標(biāo)等因素的綜合診斷。 最終的診斷結(jié)果易受到醫(yī)生經(jīng)驗(yàn)和診斷方式等主觀因素影響,不同醫(yī)生的診斷結(jié)果常常不一致,甚至出現(xiàn)誤診和漏診等現(xiàn)象[3]。 近年來,隨著人工智能在醫(yī)療領(lǐng)域逐步深入的應(yīng)用,人們發(fā)現(xiàn)利用機(jī)器學(xué)習(xí)算法針對(duì)醫(yī)療健康數(shù)據(jù)建立模型,輔助醫(yī)生對(duì)于疾病的診斷,增強(qiáng)評(píng)估的客觀性,可以大大提高診斷準(zhǔn)確率。同時(shí),還可降低醫(yī)生由于自身臨床經(jīng)驗(yàn)不足及疲勞工作而導(dǎo)致的誤判風(fēng)險(xiǎn),提高診斷效率,以及解決現(xiàn)階段普遍存在的醫(yī)療診斷滯后性的問題,做到早發(fā)現(xiàn)、早干預(yù)。 例如,林志遠(yuǎn)[2]采用了決策樹算法構(gòu)建了心臟病預(yù)測(cè)模型,分析了ID3 和CART 的區(qū)別。李嶺海[4]對(duì)比SIFT、 SURF、 KAZE,發(fā)現(xiàn)深度學(xué)習(xí)可以提高分類超聲心電圖的準(zhǔn)確率,對(duì)心臟病的分類效果更好。 石勝源等學(xué)者[5]的實(shí)驗(yàn)結(jié)果表明,隨機(jī)森林算法在心血管疾病預(yù)測(cè)中準(zhǔn)確率為73.55%,具有較大的優(yōu)勢(shì),并且性能優(yōu)于其他算法,對(duì)心血管疾病的預(yù)測(cè)研究和早期病人的及時(shí)有效治療具有重要意義。 陳洞天等學(xué)者[6]利用Xgboost 模型預(yù)測(cè)心臟病,準(zhǔn)確率為76.5%,且利用了指標(biāo)分析法對(duì)預(yù)測(cè)模型的進(jìn)行特征分析。 Krithiga 等學(xué)者[7]利用貝葉斯分類器應(yīng)用于冠心病的早期預(yù)測(cè),取得了不錯(cuò)的效果。 王健等學(xué)者[8]提出了一種基于特征組合和卷積神經(jīng)網(wǎng)絡(luò)的方法預(yù)測(cè)心臟病,準(zhǔn)確率為89.9%,但缺少該預(yù)測(cè)方法的可解釋性,即不能說明該算法的內(nèi)部預(yù)測(cè)過程及其是否與臨床診斷方法吻合。

本文基于集成學(xué)習(xí)隨機(jī)森林算法,以克利夫蘭心臟病數(shù)據(jù)集作為研究對(duì)象,在對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理、模型訓(xùn)練、超參數(shù)優(yōu)化、模型性能分析、可解釋性等工作的基礎(chǔ)上,建立了性能優(yōu)越的預(yù)測(cè)模型。 本文的主要工作體現(xiàn)在以下2 個(gè)方面:

(1)提出使用隨機(jī)森林模型預(yù)測(cè)心臟病,并通過網(wǎng)格搜索技術(shù)進(jìn)行參數(shù)優(yōu)化提高模型性能,采用準(zhǔn)確率、查準(zhǔn)率、查全率、F1 值、AUC值等5 種指標(biāo)評(píng)價(jià)預(yù)測(cè)效果,混淆矩陣、AUC可視化分析預(yù)測(cè)效果,與線性邏輯回歸、K -最近鄰、決策樹等模型對(duì)比,驗(yàn)證了本文模型性能的優(yōu)越性。

(2)在保證隨機(jī)森林模型預(yù)測(cè)性能的基礎(chǔ)上,引入SHAP 可解釋性模型來增強(qiáng)隨機(jī)森林模型的可解釋性,對(duì)影響心臟病的關(guān)鍵因素進(jìn)行了特征分析,為心臟病的臨床診斷和決策提供了可參考的依據(jù)。

1 方法及原理

1.1 隨機(jī)森林算法

隨機(jī)森林算法的本質(zhì)是利用集成理論將多個(gè)弱分類器(決策樹)通過訓(xùn)練之后生成多棵獨(dú)立分布的決策樹并將決策樹集成一體,形成強(qiáng)分類器(隨機(jī)森林)。 算法有效地解決了單棵決策樹存在的不穩(wěn)定性、無法保證全局最優(yōu)及過度擬合等問題。 這是Bootstrap 與決策樹算法的結(jié)合,方法是先從原始數(shù)據(jù)集D中采用Bootstrap 重采樣技術(shù),采用放回式取樣抽取一定數(shù)量的訓(xùn)練樣本集,生成對(duì)應(yīng)數(shù)量的決策樹;決策樹訓(xùn)練過程中,每個(gè)節(jié)點(diǎn)的特征都是從該決策樹數(shù)據(jù)集特征中按照特定比例地?zé)o放回隨機(jī)抽取新的特征子集[9];最后,從新特征子集中選出能使信息增益率最大化的特征,并以其為分割點(diǎn)。信息增益公式如下:

其中,Gain() 表示信息增益;Ent() 表示信息熵;D表示原始數(shù)據(jù)集;a表示新特征子集中某個(gè)特征;v表示使用特征a有v個(gè)可能的分支節(jié)點(diǎn)。 最終分類結(jié)果,由所有獨(dú)立決策樹的結(jié)果投票決定,公式如下:

其中,H(x)表示對(duì)樣本x的包外預(yù)測(cè);k表示弱分類器的迭代次數(shù);h() 表示基學(xué)習(xí)器;Y表示某個(gè)樣本特征的標(biāo)簽;I表示示性函數(shù)。 這種方式保證了輸入每棵決策樹的訓(xùn)練集的隨機(jī)性以及每個(gè)劃分節(jié)點(diǎn)的隨機(jī)性。 優(yōu)勢(shì)在于其能夠處理高維度數(shù)據(jù)集,實(shí)現(xiàn)比較簡(jiǎn)單,訓(xùn)練速度快,還可以將不平衡數(shù)據(jù)集的誤差縮小,并對(duì)于存在大量缺失值的數(shù)據(jù)樣本也能較好地處理。

1.2 SHAP 模型解釋

隨機(jī)森林預(yù)測(cè)模型雖然可以得到較高的準(zhǔn)確率,但其“黑盒”性質(zhì)決定了對(duì)結(jié)果的解釋力很弱,例如很難解釋為什么算法可以準(zhǔn)確預(yù)測(cè)患者是否罹患特定的疾病。

SHAP (SHapley Additive exPlanation)能夠觀察到某一個(gè)樣本的預(yù)測(cè)中各個(gè)特征對(duì)預(yù)測(cè)結(jié)果產(chǎn)生的影響,對(duì)隨機(jī)森林模型的單個(gè)預(yù)測(cè)做出解釋。 SHAP模型的原理是給每個(gè)單獨(dú)的預(yù)測(cè)樣本都生成一個(gè)預(yù)測(cè)值,而單個(gè)樣本中對(duì)應(yīng)其特征分配的數(shù)值表現(xiàn)為SHAP value。假設(shè)第i個(gè)樣本的第j個(gè)特征為xij,模型對(duì)該樣本的預(yù)測(cè)值為yi,模型的基線( 默認(rèn)所有樣本目標(biāo)變量的均值為基線) 為ybase,那么SHAP value 服從以下公式:

其中,f(xij) 表示第i個(gè)樣本的第j個(gè)特征對(duì)樣本預(yù)測(cè)值yi的貢獻(xiàn)度。 當(dāng)f(xij)>0,表示該特征使得預(yù)測(cè)值升高,有積極的影響;反之,則說明該特征使得預(yù)測(cè)值降低,有消極的影響[6]。 SHAP value的優(yōu)勢(shì)在于SHAP 能反映出每一個(gè)樣本中各特征的影響力以及影響力的正負(fù)性,并且特征本身在模型內(nèi)部還有交互作用。 本文利用SHAP 來解釋隨機(jī)森林算法內(nèi)部是如何預(yù)測(cè)結(jié)果的。

2 分類模型構(gòu)建

2.1 模型構(gòu)建

心臟病分類預(yù)測(cè)模型的設(shè)計(jì)思路主要包含數(shù)據(jù)探索,對(duì)數(shù)據(jù)集的統(tǒng)計(jì)分布進(jìn)行可視化展示,觀察數(shù)據(jù)的分布情況;特征工程,完成數(shù)據(jù)預(yù)處理,如數(shù)據(jù)變換、數(shù)據(jù)標(biāo)準(zhǔn)化等,保證數(shù)據(jù)的質(zhì)量;模型構(gòu)建,構(gòu)建隨機(jī)森林的心臟病預(yù)測(cè)模型;超參數(shù)優(yōu)化,采用網(wǎng)格搜索技術(shù)對(duì)隨機(jī)森林算法的超參數(shù)進(jìn)行優(yōu)化調(diào)參,提高模型的預(yù)測(cè)能力;模型訓(xùn)練,利用十折交叉驗(yàn)證將數(shù)據(jù)集隨機(jī)地劃分為訓(xùn)練集和測(cè)試集進(jìn)行驗(yàn)證,提高模型的泛化能力;可解釋性分析,采用SHAP 對(duì)模型中的心臟病的影響因素進(jìn)行解釋分析,增強(qiáng)模型的可解釋性。 整個(gè)基于隨機(jī)森林的心臟病風(fēng)險(xiǎn)預(yù)測(cè)及特征分析模型的構(gòu)建流程如圖1 所示。

圖1 心臟病風(fēng)險(xiǎn)預(yù)測(cè)及特征分析模型流程圖Fig. 1 Flow chart of heart disease risk prediction and characteristic analysis model

2.2 數(shù)據(jù)探索

本研究采用kaggle 平臺(tái)提供的數(shù)據(jù)集,其來源于University of California,Irvine(UCI)機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的the Cleveland database 數(shù)據(jù)集,此數(shù)據(jù)庫包含76 個(gè)屬性,但所有已發(fā)布的實(shí)驗(yàn)都引用并使用其中14 個(gè)屬性的子集,即克利夫蘭心臟病數(shù)據(jù)集。

該數(shù)據(jù)集中一共有303 個(gè)樣本,每個(gè)樣本有14個(gè)特征,其中13 個(gè)特征為自變量,描述樣本的基本患病信息,最后1 個(gè)特征“Target”為因變量,表示患者是否患有心臟病,所有的特征及其含義見表1。

表1 克利夫蘭心臟病數(shù)據(jù)集的基本特征Tab. 1 Basic characteristics of the Cleveland heart disease data set

通過對(duì)數(shù)據(jù)質(zhì)量的探索和數(shù)據(jù)特征的分析,觀察數(shù)據(jù)樣本和特征的數(shù)量、數(shù)據(jù)類型及數(shù)據(jù)概率分布等信息,用于指導(dǎo)預(yù)測(cè)模型建立。 根據(jù)對(duì)心臟病原始數(shù)據(jù)的描述性統(tǒng)計(jì)分析發(fā)現(xiàn),未患病人群中男性所占比例遠(yuǎn)超女性,而患病人群中男性占比仍多于女性。 將年齡對(duì)患病情況的影響繪制出的柱狀統(tǒng)計(jì)分布如圖2 所示。 由圖2 可知,中年患病幾率較大。

圖2 根據(jù)年齡分析患病情況Fig. 2 Analysis of prevalence by age

圖3 是心臟病數(shù)據(jù)集中14 個(gè)特征的單變量分布密度圖,從圖3 中可以看出每個(gè)特征的數(shù)據(jù)類型及取值分布,其中age、trestbps、chol、thalach和oldpeak五個(gè)特征為連續(xù)型特征,sex、cp、fbs、restecg、exang、slope、ca、thal和target九個(gè)特征為非連續(xù)型特征,需要進(jìn)行數(shù)據(jù)預(yù)處理操作。

圖3 單變量特征統(tǒng)計(jì)分布Fig. 3 Statistical distribution of univariate characteristics

2.3 特征工程

2.3.1 特征相關(guān)性

圖4 給出了能夠反映特征之間關(guān)系的熱力圖,通過熱力圖來發(fā)掘特征之間的關(guān)系。 熱力圖表示了2 個(gè)數(shù)據(jù)之間的相關(guān)性,數(shù)值范圍是-1 到1 之間,大于0 表示2 個(gè)數(shù)據(jù)之間是正相關(guān)的,小于0 表示2個(gè)數(shù)據(jù)之間是負(fù)相關(guān)的,等于0 就是不相關(guān)。 由圖4 可知,cp、thalach和slope這3 個(gè)特征與target之間正相關(guān)且系數(shù)大,表明其與是否患病的關(guān)系較為密切。

圖4 各項(xiàng)特征之間的相關(guān)性熱力圖Fig. 4 Thermodynamic diagram of correlation between features

2.3.2 非連續(xù)型數(shù)值轉(zhuǎn)換

經(jīng)過數(shù)據(jù)探索和特征相關(guān)性分析發(fā)現(xiàn),cp、thal和slope為不連續(xù)的多分類特征,該類型的數(shù)據(jù)不適合作為分類器輸入,因此,首先將cp、thal和slop三個(gè)特性轉(zhuǎn)換成獨(dú)熱編碼的形式參與模型訓(xùn)練。 原始特征cp轉(zhuǎn)換為4 個(gè)代表不同取值的特征cp_0、cp_1、cp_2 和cp_3,原始特征thal轉(zhuǎn)換為4 個(gè)代表不同取值的特征thal_0、thal_1、thal_2 和thal_3,原始特征slope轉(zhuǎn)換為3 個(gè)代表不同取值的特征slope_0、slope_1 和slope_2,并將原始特征刪除。 經(jīng)過數(shù)據(jù)轉(zhuǎn)換處理后的特征維度由原始數(shù)據(jù)的14 增加到了22。

2.3.3 數(shù)據(jù)歸一化

為了消除數(shù)據(jù)之間的量綱影響,減小數(shù)據(jù)集中數(shù)據(jù)的差異性,對(duì)數(shù)據(jù)進(jìn)行了歸一化處理,將數(shù)據(jù)統(tǒng)一歸一化到[-1,1]之間。 原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化處理后,處于同一數(shù)量級(jí),能夠有效地提升模型精度和收斂速度。

2.4 參數(shù)優(yōu)化

隨機(jī)森林模型涉及到多個(gè)參數(shù)選擇,參數(shù)值的選擇影響到模型的性能。 具體的參數(shù)取值見表2。對(duì)于表2 中的6 個(gè)核心參數(shù),本文采用了網(wǎng)格搜索技術(shù)進(jìn)行調(diào)參。 網(wǎng)格搜索在規(guī)定的參數(shù)取值范圍內(nèi)逐步調(diào)整參數(shù),用調(diào)整后的參數(shù)對(duì)隨機(jī)森林模型進(jìn)行訓(xùn)練,使得模型性能最優(yōu)的參數(shù)確定為最佳參數(shù)。

表2 隨機(jī)森林算法參數(shù)意義及取值Tab. 2 Meaning and value of random forest algorithm parameters

3 實(shí)驗(yàn)分析

3.1 模型性能度量

為了客觀評(píng)價(jià)該算法的有效性,采用了F1 值、準(zhǔn)確率、查準(zhǔn)率、查全率和AUC值這5 種評(píng)價(jià)指標(biāo)對(duì)模型性能進(jìn)行度量。

(1)準(zhǔn)確率(Accuracy)。 表示所有樣本中被預(yù)測(cè)正確的樣本的比率。 可由如下公式計(jì)算求值:

(2)查準(zhǔn)率(Precision)。 表示預(yù)測(cè)樣本中預(yù)測(cè)為真陽性的概率。 可由如下公式計(jì)算求值:

(3)查全率(Recall),真陽性率(True Positive Rate,TPR),靈敏度(Sensitivity)。 表示陽性樣本被預(yù)測(cè)為真陽性的概率。 可由如下公式計(jì)算求值:

(4)F1 值(F1-score)。 用來衡量二分類模型精確度的一種指標(biāo),可以看作是模型查準(zhǔn)率和查全率的一種加權(quán)平均。 該指標(biāo)同時(shí)兼顧了分類模型的查準(zhǔn)率和查全率,最大值是1,最小值是0。 可由如下公式計(jì)算求值:

其中,真陽性(True Positive,TP) 表示樣本中正確識(shí)別的數(shù)量;假陽性(False Positive,F(xiàn)P) 表示樣本中錯(cuò)誤識(shí)別的數(shù)量;真陰性(True Negative,TN)表示正確識(shí)別為錯(cuò)誤的樣本數(shù);假陰性(False Negative,F(xiàn)N) 表示錯(cuò)誤識(shí)別為正確的樣本數(shù)。 除了上述指標(biāo)之外,還使用了ROC曲線和AUC值。

3.2 模型性能評(píng)估

3.2.1 模型對(duì)比

為驗(yàn)證本文的隨機(jī)森林模型的有效性,與邏輯回歸、K-最近鄰、決策樹等常用模型進(jìn)行比較分析。為了提高模型之間對(duì)比的公平性及可靠性,實(shí)驗(yàn)中采用了十折交叉驗(yàn)證方法進(jìn)行性能評(píng)估。 各種模型在準(zhǔn)確率、查準(zhǔn)率、查全率、F1 值和AUC值這5 項(xiàng)指標(biāo)上的對(duì)比結(jié)果見表3,各種模型的ROC曲線對(duì)比如圖5 所示。 從表3 和圖5 的實(shí)驗(yàn)結(jié)果可以看出,本文的集成學(xué)習(xí)模型隨機(jī)森林的預(yù)測(cè)準(zhǔn)確率為86%,查準(zhǔn)率為85%,查全率為83%,F(xiàn)1 值為84%,AUC值為0.89,均高于其它對(duì)比的方法。 隨機(jī)森林模型的ROC曲線(紅色)下方面積比邏輯回歸模型、K-最近鄰模型、決策樹模型的面積大,由ROC曲線的性質(zhì)可知,曲線下方面積(AUC) 越大、準(zhǔn)確率越高,體現(xiàn)了本文模型的優(yōu)越性。

表3 不同分類模型對(duì)陽性樣本的預(yù)測(cè)能力Tab. 3 The predictive ability of different classification models for positive samples

圖5 四種模型的ROC 曲線Fig. 5 ROC curves for the four models

各種模型的訓(xùn)練時(shí)間和測(cè)試時(shí)間的對(duì)比見表4。 隨機(jī)森林模型作為一種集成學(xué)習(xí)算法,模型復(fù)雜度本身高于其它幾種對(duì)比的方法,同時(shí)采用網(wǎng)格搜索技術(shù)的參數(shù)優(yōu)化較為耗時(shí),因此在訓(xùn)練時(shí)間上相對(duì)較長(zhǎng)。 圖6 還給出了本文模型的混淆矩陣,可以看出預(yù)測(cè)結(jié)果中,測(cè)試集中非心臟病被預(yù)測(cè)為非心臟病有27 例,心臟病被預(yù)測(cè)為心臟病有36 例,非心臟病被預(yù)測(cè)為心臟病有8 例,心臟病被預(yù)測(cè)為非心臟病有5 例。 顯而易見的是,隨機(jī)森林模型的真陽性和真陰性數(shù)量高,而假陽性和假陰性的值較低,因此,本文提出的模型有較好的分類性能。

表4 各模型時(shí)間性能比較Tab. 4 Comparison of time performance of each model

圖6 隨機(jī)森林的混淆矩陣Fig. 6 Confusion matrix of random forests

3.2.2 相關(guān)研究對(duì)比

為了進(jìn)一步驗(yàn)證本文模型的優(yōu)越性,與文獻(xiàn)[8]、文獻(xiàn)[10]、文獻(xiàn)[11]和文獻(xiàn)[12]等相關(guān)工作進(jìn)行了對(duì)比實(shí)驗(yàn)。 所有文獻(xiàn)都針對(duì)克利夫蘭心臟病數(shù)據(jù)集進(jìn)行研究,文獻(xiàn)[8]首先采用特征組合增強(qiáng)樣本的屬性關(guān)聯(lián),再利用卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,在準(zhǔn)確率上獲得了高達(dá)90%的預(yù)測(cè)精度。 文獻(xiàn)[10]與本文模型相似,但其樣本量在克利夫蘭心臟病數(shù)據(jù)集的基礎(chǔ)上增加到573 個(gè),且在網(wǎng)絡(luò)搜索優(yōu)化參數(shù)上僅優(yōu)化了n_estimators、max_depth、max -Leaf_nodes三個(gè)參數(shù)。 文獻(xiàn)[11]使用未優(yōu)化的隨機(jī)森林模型訓(xùn)練獲得了85%的準(zhǔn)確度。 文獻(xiàn)[12]基于聚類和XGBoost 算法進(jìn)行預(yù)測(cè)分析,準(zhǔn)確率達(dá)到83%。

不同方法的準(zhǔn)確率比較見表5。 從表5 可以看出,本文模型的預(yù)測(cè)結(jié)果優(yōu)于文獻(xiàn)[10]、[11]和[12],但略低于文獻(xiàn)[8]。 然而本文與其它文獻(xiàn)的最大區(qū)別之處在于,本文在模型訓(xùn)練后,引入了SHAP 可解釋性模型,對(duì)模型進(jìn)行可解釋增強(qiáng),識(shí)別出臨床實(shí)際中影響心臟病的主要因素,為臨床上的診斷和決策提供了有利的參考。

表5 不同方法的準(zhǔn)確率比較Tab. 5 Comparison of accuracy of different methods

3.3 基于SHAP 的模型可解釋性分析

圖7 是隨機(jī)森林模型的特征重要性排序圖。 圖7 中,縱坐標(biāo)是從上到下按照特征重要性排序的各個(gè)特征,橫坐標(biāo)是平均SHAP值。 圖7 中顯示特征重要性排序前六的特征分別是thal_2(固定缺陷型地中海貧血癥)、cp_0(典型心絞痛)、ca(大血管數(shù)量)、thal_3(可逆轉(zhuǎn)缺陷型地中海貧血癥)、oldpeak(運(yùn)動(dòng)高峰的心電圖ST段)、thalach(最大心率),可見這6 個(gè)因素是影響是否患有心臟病的最關(guān)鍵因素。

圖7 基于SHAP value 的特征重要性排序Fig. 7 Sorts by features importance based on SHAP value

圖8 顯示了SHAP 摘要圖,該圖對(duì)影響心臟病患病的因素重要性進(jìn)行了排序。 圖8 中的一個(gè)點(diǎn)表示一個(gè)樣本,樣本點(diǎn)的顏色從藍(lán)色到紅色表示樣本特征值從小到大,縱坐標(biāo)的各特征標(biāo)簽不僅顯示了特征重要性排序,還顯示了各個(gè)特征值與SHAP值的關(guān)系與分布。 圖8 中繪制了重要性排序前10 的特征對(duì)預(yù)測(cè)結(jié)果的影響,其中thal_2(固定缺陷型地中海貧血癥)、thalach(最大心率) 對(duì)預(yù)測(cè)結(jié)果有正向貢獻(xiàn),cp_0( 典型心絞痛)、ca( 大血管數(shù)量)、thal_3(可逆轉(zhuǎn)缺陷型地中海貧血癥)、oldpeak(運(yùn)動(dòng)高峰的心電圖ST段) 對(duì)模型預(yù)測(cè)為心臟病的輸出結(jié)果有負(fù)向貢獻(xiàn)。

圖8 SHAP 特征分析Fig. 8 SHAP feature analysis

4 討論與分析

臨床上,診斷心臟病的常規(guī)檢查主要有常規(guī)心電圖(ECG)與動(dòng)態(tài)心電圖(DCG),心電圖異常可提示心肌梗死、心肌缺血、心肌炎、心室肥厚等病癥。相關(guān)研究對(duì)于各類心臟疾病的診斷有如下常見的標(biāo)準(zhǔn):

(1)心電圖ST 段趨勢(shì)的改變可以作為重要參考依據(jù),指標(biāo)過高可能是冠心病,指標(biāo)過低則有可能是心肌缺血等病癥,還用以診斷確定心室是否肥大[13-15]。

(2)心肌缺血在ECG 的診斷標(biāo)準(zhǔn)為在同一導(dǎo)聯(lián)上,T波小于R波的十分之一,同時(shí),ST段水平下移0.05 mV及以上;在DCG 的診斷標(biāo)準(zhǔn)為與等電位線比較,ST段下斜或壓低0.1 mV 及以上并持續(xù)下移大于1 min[16]。

(3)冠心病、肥厚型心肌病常伴有心絞痛等癥狀,分為典型心絞痛和非典型心絞痛,主要的病因?yàn)樾募∪毖?/p>

(4)熒光顯色主要血管數(shù)目越少(數(shù)目與血糖、膽固醇相關(guān))證明血液流動(dòng)越通暢,血管腔狹窄會(huì)使患冠心病的風(fēng)險(xiǎn)大大增加[17-18]。 臨床常選擇冠脈造影這種有創(chuàng)性檢查,作為判斷動(dòng)脈狹窄程度的“金標(biāo)準(zhǔn)”。

(5)地中海貧血癥是先天性貧血癥影響紅細(xì)胞的壽命,易導(dǎo)致紅細(xì)胞數(shù)量不足,使得體內(nèi)鐵超載,從而加重心臟負(fù)擔(dān),長(zhǎng)期的慢性貧血會(huì)誘發(fā)心絞痛,會(huì)造成心力衰竭[19-20]。

本文通過對(duì)原始數(shù)據(jù)集的預(yù)處理,構(gòu)造了一個(gè)包括22 個(gè)影響心臟病患病可能的特征,并將這些特征作為隨機(jī)森林模型的輸入,結(jié)合網(wǎng)格搜索技術(shù)的調(diào)優(yōu)和十折交叉驗(yàn)證的模型訓(xùn)練,取得了高達(dá)86%的準(zhǔn)確率。 進(jìn)一步利用SHAP 模型對(duì)所有特征進(jìn)行了事后解釋分析,通過特征分析發(fā)現(xiàn)thal(地中海貧血類型)、ca(主要血管數(shù)目)、cp(心絞痛)、oldpeak(心電圖ST段趨勢(shì)的改變)、thalach(最大心率)、exang(心絞痛型胸痛) 等指標(biāo)都是影響心臟病患病的重要因素。 對(duì)于地中海貧血,綜合觀察thal_2、thal_3,可以看出固定缺陷型地中海貧血與心臟病風(fēng)險(xiǎn)顯著正相關(guān),即會(huì)明顯增加風(fēng)險(xiǎn);而可逆轉(zhuǎn)缺陷型對(duì)風(fēng)險(xiǎn)的增加不明顯。 對(duì)于心絞痛,綜合觀察cp_0、cp_2 以及exang,可以看出心絞痛、無論典型心絞痛還是非典型心絞痛,亦或是運(yùn)動(dòng)誘發(fā)的心絞痛對(duì)風(fēng)險(xiǎn)的增加不明顯;而非心絞痛型的胸痛與心臟病風(fēng)險(xiǎn)呈正相關(guān),會(huì)明顯增加風(fēng)險(xiǎn);究竟哪些非心絞痛型的胸痛明顯增加心臟病風(fēng)險(xiǎn)還需進(jìn)一步探討。 從ca指標(biāo)可以觀察到,大血管數(shù)量越少,心臟病風(fēng)險(xiǎn)系數(shù)越高;同樣,oldpeak值(即相對(duì)于休息的運(yùn)動(dòng)引起的ST值) 越低,心臟病風(fēng)險(xiǎn)系數(shù)越高。從thalach指標(biāo)可以很明顯地看到最大心率值越大,心臟病風(fēng)險(xiǎn)系數(shù)越高。 綜合觀察slope_1、slope_2,可見運(yùn)動(dòng)高峰ST段的坡度持平與心臟病風(fēng)險(xiǎn)成正相關(guān),ST段的坡度向上傾斜與心臟病風(fēng)險(xiǎn)成負(fù)相關(guān),這與心電圖運(yùn)動(dòng)試驗(yàn)陽性診斷標(biāo)準(zhǔn)條件之一“運(yùn)動(dòng)中或運(yùn)動(dòng)后ST段程水平或下斜型壓低≥0.10 mV”相吻合。

5 結(jié)束語

本文基于集成學(xué)習(xí)的隨機(jī)森林算法構(gòu)建了心臟病預(yù)測(cè)模型,同時(shí)引入了SHAP 對(duì)預(yù)測(cè)模型做進(jìn)一步增強(qiáng)解釋。 首先針對(duì)Kaggle 平臺(tái)提供的心臟病數(shù)據(jù)集進(jìn)行數(shù)據(jù)變換、標(biāo)準(zhǔn)化等預(yù)處理后,采用網(wǎng)格搜索技術(shù)對(duì)模型的參數(shù)進(jìn)行優(yōu)化,并對(duì)處理后的數(shù)據(jù)集進(jìn)行十折交叉驗(yàn)證訓(xùn)練模型;然后,采用查準(zhǔn)率、查全率、F1 值、混淆矩陣、AUC值等指標(biāo)對(duì)模型進(jìn)行評(píng)估,與邏輯回歸、K-最近鄰、決策樹等機(jī)器學(xué)習(xí)模型的結(jié)果進(jìn)行對(duì)比,驗(yàn)證了隨機(jī)森林具有較強(qiáng)的泛化能力、更好的分類效果;最后,還引入SHAP 模型對(duì)隨機(jī)森林模型做進(jìn)一步解釋,識(shí)別出影響心臟病患病的主要因素,并解釋這些特征與臨床診斷的關(guān)系。 模型增加了可解釋說明,從而提高了模型的分類識(shí)別效率,為臨床決策服務(wù),具有重要的實(shí)用價(jià)值。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 五月天在线网站| 国内精自视频品线一二区| 国产网站免费| 亚洲日本www| 国产欧美日韩资源在线观看 | 亚洲小视频网站| 国产成人综合久久精品下载| 精品无码一区二区三区在线视频| 国模视频一区二区| 爱做久久久久久| 一本大道香蕉中文日本不卡高清二区| 青青青视频蜜桃一区二区| 999国产精品永久免费视频精品久久 | 国产区人妖精品人妖精品视频| aa级毛片毛片免费观看久| 国产爽爽视频| 毛片免费观看视频| 97视频精品全国免费观看| 国产一级二级三级毛片| 国产一级二级在线观看| 天天婬欲婬香婬色婬视频播放| 在线视频亚洲色图| 九九久久精品免费观看| 在线无码av一区二区三区| 国产尤物视频网址导航| 在线精品亚洲一区二区古装| 熟妇无码人妻| 亚洲色图欧美在线| 亚洲精品777| 亚洲成人免费在线| 91久久精品日日躁夜夜躁欧美| jizz国产视频| 97在线观看视频免费| 首页亚洲国产丝袜长腿综合| 亚洲高清国产拍精品26u| 亚洲浓毛av| 国产成人综合亚洲网址| 一级毛片免费的| 国产精品白浆无码流出在线看| 日日拍夜夜嗷嗷叫国产| 亚洲乱码在线播放| 国内精品久久久久久久久久影视| 日韩精品无码免费一区二区三区 | 456亚洲人成高清在线| 欧美激情视频二区三区| 欧美成在线视频| 人妻免费无码不卡视频| 综合亚洲色图| 国产一级毛片高清完整视频版| 在线视频一区二区三区不卡| 国产精品自在拍首页视频8| 日韩欧美高清视频| 人妻丰满熟妇AV无码区| 91青青草视频在线观看的| 福利国产微拍广场一区视频在线| 亚洲黄网在线| 99热最新网址| 久久精品免费看一| 日本成人不卡视频| 国产精品久久自在自线观看| 国产精品无码一二三视频| 欧美高清三区| 欧美a在线| 国产午夜一级淫片| 亚洲三级视频在线观看| 欧美天堂久久| 九九久久精品国产av片囯产区| 亚洲swag精品自拍一区| 久久99热66这里只有精品一 | 亚洲综合色婷婷| 九九热精品视频在线| 成人在线天堂| 制服丝袜无码每日更新| www中文字幕在线观看| 中文字幕在线观看日本| 亚洲自偷自拍另类小说| 婷婷六月综合| 无码福利日韩神码福利片| 欧美三级视频在线播放| 亚洲国产成人超福利久久精品| 国产一区在线视频观看| 美女视频黄频a免费高清不卡|