999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

從SHAP到概率*
——可解釋性機(jī)器學(xué)習(xí)在糖尿病視網(wǎng)膜病變靶向脂質(zhì)組學(xué)研究中的應(yīng)用

2023-10-18 14:04:22金東鎮(zhèn)郭城楠趙淑珍李慧慧夏喆錚車明珠王亞楠張澤杰毛廣運(yùn)
中國衛(wèi)生統(tǒng)計(jì) 2023年4期
關(guān)鍵詞:高血壓特征糖尿病

金東鎮(zhèn) 郭城楠 彭 芳 趙淑珍 李慧慧 夏喆錚 車明珠 王亞楠 張澤杰 毛廣運(yùn),2△

【提 要】 目的 基于可解釋性機(jī)器學(xué)習(xí)算法構(gòu)建糖尿病視網(wǎng)膜病病變(diabetic retinopathy,DR)的早期識別模型,并探討SHAP(SHapley Additive exPlanations)在脂質(zhì)組學(xué)數(shù)據(jù)中的應(yīng)用。方法 基于本項(xiàng)目組的DR靶向脂質(zhì)組學(xué)數(shù)據(jù),通過可解釋性機(jī)器學(xué)習(xí)的方法進(jìn)行特征篩選;在建立糖尿病視網(wǎng)膜病變的早期識別模型后,通過全局、特征和個(gè)體三個(gè)層面對模型進(jìn)行解釋,并將SHAP值轉(zhuǎn)換成概率以增強(qiáng)可解釋的能力。結(jié)果 本研究篩選出了5種內(nèi)源性脂質(zhì)代謝物,構(gòu)建了一個(gè)性能較為優(yōu)秀的糖尿病視網(wǎng)膜病變的早期識別模型,并成功使用SHAP及概率解鎖了模型。結(jié)論 脂質(zhì)代謝物質(zhì)可以應(yīng)用于糖尿病視網(wǎng)膜病變的早期識別;SHAP在進(jìn)行黑盒模型的解鎖時(shí)表現(xiàn)出色,且有較高的實(shí)踐應(yīng)用價(jià)值。

糖尿病視網(wǎng)膜病變(diabetic retinopathy,DR)是以視網(wǎng)膜新生血管性增殖為特征的一種致盲性眼病,是糖尿病(diabetes mellitus,DM)最常見、最主要的并發(fā)癥之一,也是勞動年齡人口失明的主要原因之一[1-2]。隨著糖尿病的患病率增加、治療手段進(jìn)步、糖尿病患者壽命延長,伴有DR的患者急劇增加,預(yù)計(jì)在2030年全球糖尿病視網(wǎng)膜病變的患者將達(dá)到1.91億人[3]。DR的經(jīng)濟(jì)影響巨大,相比于普通糖尿病患者,DR患者的醫(yī)療花費(fèi)增加了兩倍[4-5],視力障礙和失明也會對個(gè)人生活質(zhì)量以及他們所生活的社會經(jīng)濟(jì)狀況造成毀滅性的影響。早期識別對疾病的有效預(yù)防和控制至關(guān)重要且意義重大[6],同時(shí)有研究表明血脂異常與DR的發(fā)生發(fā)展密切相關(guān)[7],可能是DR發(fā)生發(fā)展的早期信號。而脂質(zhì)組學(xué)(lipidomics)作為代謝組學(xué)的一個(gè)重要分支,已經(jīng)被認(rèn)為是有效識別潛在脂質(zhì)生物標(biāo)志物的優(yōu)勢技術(shù)。

隨著機(jī)器學(xué)習(xí)(machine learning,ML)技術(shù)的蓬勃發(fā)展,ML目前已成為高維度大數(shù)據(jù)分析的主流技術(shù)。相較于傳統(tǒng)的組學(xué)分析方法,機(jī)器學(xué)習(xí)方法如隨機(jī)森林(random forest,RF)和支持向量機(jī)(support vector machines,SVM)已經(jīng)在復(fù)雜的組學(xué)數(shù)據(jù)分析中顯現(xiàn)出明顯的優(yōu)勢[8]。然而正是對預(yù)測結(jié)果精確程度的追求,機(jī)器學(xué)習(xí)算法所構(gòu)建的模型往往較為復(fù)雜,犧牲了一定的可解釋性[9],即由于復(fù)雜模型只能給出輸出而常被稱為“黑匣子模型”。為了解鎖復(fù)雜的機(jī)器學(xué)習(xí)模型,SHAP(SHapley Additive exPlanations)作為一種解釋個(gè)體預(yù)測特征貢獻(xiàn)的方法在2017年被提出[10],并且發(fā)展迅速。簡單來說,SHAP解釋方法根據(jù)聯(lián)盟博弈理論計(jì)算某個(gè)個(gè)體不同特征的SHAP值(可以表示貢獻(xiàn),值越大貢獻(xiàn)越大),來解釋個(gè)體的預(yù)測,其中個(gè)體的特征值充當(dāng)聯(lián)盟中的參與者。在此基礎(chǔ)上,SHAP創(chuàng)新性地將SHAP值的解釋表現(xiàn)為一種可加的特征歸因方法,可表現(xiàn)為:

yi=ybase+f(xi1)+f(xi2)+f(xi3)+…+f(xik)

yi:表示模型的預(yù)測;f(xik):表示第i個(gè)樣本第k個(gè)特征對最終預(yù)測的貢獻(xiàn),即對應(yīng)的SHAP值。

相較于其他模型解釋方法,SHAP源于博弈論,有堅(jiān)實(shí)理論基礎(chǔ);由于其所具有局部準(zhǔn)確性(local accuracy)、缺失(missingness)以及一致性(consistency)等優(yōu)良性質(zhì),可以通過SHAP值聚合獲取模型全局的解釋而廣受歡迎[11]。

本文在課題組前期研究的基礎(chǔ)上,將機(jī)器學(xué)習(xí)方法應(yīng)用于糖尿病視網(wǎng)膜病變的靶向脂質(zhì)組學(xué)數(shù)據(jù)分析中,在構(gòu)建早期識別模型的同時(shí),使用SHAP解鎖模型并進(jìn)一步將SHAP轉(zhuǎn)換成概率,以獲得其生物學(xué)和醫(yī)學(xué)的解釋,為DR早期診斷提供科學(xué)依據(jù)。

資料與方法

1.數(shù)據(jù)來源

該數(shù)據(jù)來自本項(xiàng)目組“基于代謝組學(xué)技術(shù)的糖尿病視網(wǎng)膜病變早期識別研究”,以糖尿病視網(wǎng)膜病變(DR)者為病例,以2型糖尿病(T2D)患者為對照,基于年齡、性別、體質(zhì)指數(shù)(body mass index,BMI)、血壓分級和糖化血紅蛋白(glycosylated hemoglobin,HbA1c),采用傾向性評分匹配(propensity score matching,PSM)法,按1∶1的比例匹配出69對研究對象。所有受試者均接受詳細(xì)的全身檢查,包括身高、體重、坐位血壓(blood pressure,BP)、空腹血糖等常規(guī)檢查以及相關(guān)眼科檢查等;而人口學(xué)指標(biāo)通過詳細(xì)的問卷調(diào)查獲取,問卷均由統(tǒng)一受過標(biāo)準(zhǔn)化操作流程(standardized operation procedures,SOP)培訓(xùn)的研究者對受試者或其家屬進(jìn)行一對一的詢問。脂質(zhì)組學(xué)數(shù)據(jù)主要包含了22種本課題組的前期研究中被證實(shí)是差異性脂類代謝物,本項(xiàng)目通過進(jìn)一步的靶向脂質(zhì)組學(xué)分析對其進(jìn)行分析。

2.統(tǒng)計(jì)分析

統(tǒng)計(jì)分析主要包括數(shù)據(jù)預(yù)處理、特征選擇、模型的構(gòu)建及評估、模型的解釋四個(gè)方面。

(1)數(shù)據(jù)預(yù)處理

缺失值的存在會對數(shù)據(jù)挖掘結(jié)果產(chǎn)生較大偏倚,降低統(tǒng)計(jì)分析的效率,因此需要對缺失數(shù)據(jù)進(jìn)行合理的刪減和填補(bǔ)。考慮到組學(xué)數(shù)據(jù)缺失的三種原因[12],本研究在刪除缺失比例超過20%的特征以后,一般資料用多重填補(bǔ)的方式進(jìn)行填補(bǔ),而脂類物質(zhì)用最小值的一半進(jìn)行填補(bǔ)[13]。

(2)特征選擇

對于一般資料來說,定量資料使用獨(dú)立樣本t檢驗(yàn)或Wilcoxon秩和檢驗(yàn)比較兩組間的差異;定性資料則用卡方檢驗(yàn)或Fisher精確概率法進(jìn)行組間的比較。兩組之間存在統(tǒng)計(jì)學(xué)差異的特征被認(rèn)為可以被納入模型。而在進(jìn)行脂質(zhì)物質(zhì)的篩選時(shí),我們使用了lightGBM模型并通過SHAP獲取各種脂質(zhì)物質(zhì)的重要性排序,隨后按照特征重要性排序?qū)⒅|(zhì)依次進(jìn)入模型并計(jì)算其曲線下面積(area under the curve,AUC),并考慮奧卡姆剃刀原理[14],選取數(shù)量合適的脂質(zhì)物質(zhì)作為特征納入模型。

(3)模型的構(gòu)建

依據(jù)上述方式選擇的一般特征以及脂質(zhì)特征,基于訓(xùn)練集構(gòu)建了DR的早期識別模型——lightGBM,并進(jìn)行了參數(shù)優(yōu)化。

(4)模型的評估和解釋

為了驗(yàn)證模型的泛化能力,本研究基于驗(yàn)證集或使用10折交叉驗(yàn)證的方式對模型的預(yù)測價(jià)值進(jìn)行判斷。在10折交叉驗(yàn)證中,將數(shù)據(jù)集拆分成為10個(gè)不同的子集,每次用9個(gè)作為訓(xùn)練集,剩余1個(gè)作為測試集對模型性能進(jìn)行驗(yàn)證,最后獲得10個(gè)模型性能的平均表現(xiàn)作為10折交叉驗(yàn)證的結(jié)果。另外,我們也使用了HL(Hosmer-Lemeshow)擬合優(yōu)度檢驗(yàn)對模型的預(yù)測概率的效果進(jìn)行評估。最后通過SHAP對用于早期識別的lightGBM模型進(jìn)行解釋。然而,相較于概率而言,SHAP值對那些不了解的人來說也并不友好,于是我們將SHAP值通過一元插值法轉(zhuǎn)換成了概率并加以展示使其更加方便理解[15]。

結(jié) 果

1.特征篩選

(1)人口學(xué)特征及實(shí)驗(yàn)室指標(biāo)

如表1所示,兩組人群在經(jīng)過傾向性評分匹配之后,無論是在訓(xùn)練集還是驗(yàn)證集中,年齡、性別、BMI、空腹血糖(FPG)、糖化血紅蛋白等指標(biāo)在兩組間的差異均未達(dá)到顯著性水平(P>0.05),而糖尿病病程無論是在訓(xùn)練集或驗(yàn)證集中兩組水平均顯示有差異(P<0.05),而高血壓史在訓(xùn)練集中表現(xiàn)出差異(P<0.05)。因此我們在人口學(xué)特征及實(shí)驗(yàn)室指標(biāo)中選擇糖尿病病程以及高血壓史進(jìn)入模型。

表1 研究對象的人口學(xué)和臨床特征等一般情況

圖1A顯示了22種脂質(zhì)物質(zhì)在模型中的重要性排序,22種脂質(zhì)的特征重要性是從上到下依次排列的,其排列的方式主要由模型中某一特征的平均SHAP絕對值所決定。隨后我們按照圖1A所示的特征重要性排續(xù)依次將脂質(zhì)物質(zhì)納入模型,并對不同數(shù)量的脂質(zhì)物質(zhì)所構(gòu)建模型的AUC進(jìn)行評估,發(fā)現(xiàn)不管是在驗(yàn)證集或交叉驗(yàn)證中,當(dāng)納入前五種脂質(zhì)時(shí)AUC達(dá)到較為穩(wěn)定的狀態(tài)。再考慮到臨床實(shí)際應(yīng)用和奧卡姆剃刀原理,最后我們選取了前5的特征進(jìn)行模型的構(gòu)建,依次為:OxPC_2[OxPC 34∶2+1O(OxPC 16∶0-18∶2+1O)]、LPG[LPG 18∶1]、FA_3[FA 18∶1]、Acar_1[ACar 16∶2]、Acar_2[ACar 8∶0]。

圖1 脂類物質(zhì)的篩選過程

2.模型構(gòu)建及評價(jià)

根據(jù)上述的選擇標(biāo)準(zhǔn),我們最終選擇了OxPC_2[OxPC 34∶2+1O(OxPC 16∶0-18∶2+1O)]、LPG[LPG 18∶1]、FA_3[FA 18∶1]、Acar_1[ACar 16∶2]、Acar_2[ACar 8∶0]、糖尿病病程以及高血壓史共7種特征在訓(xùn)練集中構(gòu)建lightGBM模型。為了評價(jià)已構(gòu)建模型的性能,我們使用了各項(xiàng)評價(jià)標(biāo)準(zhǔn)對其進(jìn)行評估。如圖2所示,在訓(xùn)練集中構(gòu)建的lightGBM模型的ROC曲線下面積為0.92,在測試集中同樣表現(xiàn)出較好的區(qū)分能力,AUC為0.84。除此之外,如表2所示,模型在訓(xùn)練集中的Accuracy、Precision、Recall、F1-score分別為0.823、0.776、0.918、0.841,而在驗(yàn)證集中分別為0.810、0.800、0.800、0.800,在10折交叉驗(yàn)證中分別為0.861、0.769、0.779、0.846,均顯示出了較為優(yōu)秀的分類能力。并且我們對模型的預(yù)測概率進(jìn)行了HL擬合優(yōu)度檢驗(yàn),在訓(xùn)練集中卡方值為10.07(P=0.359),測試集中卡方值為5.54(P=0.854),表示該模型具有較好的校準(zhǔn)度。

圖2 lightGBM在訓(xùn)練集和驗(yàn)證集中的ROC曲線分析

表2 lightGBM模型性能的評估

3.模型解釋

(1) 全局的解釋

圖3是對模型全局的解釋,根據(jù)圖3A所示,左側(cè)縱坐標(biāo)表示了各種特征在模型中的重要性排序,而右側(cè)的黑色柱狀圖則根據(jù)平均SHAP值所得出的每種特征的具體重要程度,由此可見在lightGBM中期重要性依次為:LPG[LPG 18∶1]、OxPC_2[OxPC 34∶2+1O(OxPC 16∶0-18∶2+1O)]、Acar_2[ACar 8∶0]、Acar_1[ACar 16∶2]、FA_3[FA 18∶1]、高血壓史[HYPERTENSION]以及糖尿病病程[DM_duration]。橫坐標(biāo)表示了每一個(gè)個(gè)體,相對應(yīng)上方的f(x)則是表示每個(gè)個(gè)體的SHAP值,由此可見在LPG[LPG 18∶1]的SHAP值較低時(shí)多數(shù)人相較于平均水平患DR的風(fēng)險(xiǎn)下降。而圖3B不僅特征重要性的同時(shí),可以觀察到每個(gè)特征SHAP值的分布而進(jìn)一步了解特征對結(jié)局的影響是正相關(guān)還是負(fù)相關(guān)。如LPG[LPG 18∶1]的值越小而SHAP值增大,說明了LPG[LPG 18∶1]的增加可能發(fā)生DR的概率下降,Acar_2[ACar 8∶0]、Acar_1[ACar 16∶2]、FA_3[FA 18∶1]與LPG[LPG 18∶1]相類似,而OxPC_2[OxPC 34∶2+1O(OxPC 16∶0-18∶2+1O)]、高血壓史則相反。

圖3 lightGBM模型的全局解釋

(2) 特征的解釋

上述的圖形只能表示特征對結(jié)局的影響方向,為進(jìn)一步探究特征如何對結(jié)果產(chǎn)生影響的,我們繪制了SHAP依賴圖對某一特征的邊際效應(yīng)進(jìn)行描述。然而由于文章篇幅的限制,本文僅選取了FA_3[FA 18∶1]進(jìn)行展示。如圖4A所示,隨著FA_3[FA 18∶1]的增大,SHAP值降低,也就是說,隨著FA_3[FA 18∶1]的上升,發(fā)生DR的概率下降。然而,正如上文中提到的,相對于概率來說SHAP值對于多數(shù)人來說并不友好,因此本文在此基礎(chǔ)上,將SHAP值轉(zhuǎn)換成概率(如圖4B所示),相較于A圖來說,我們可以清楚知道,在FA_3[FA 18∶1]的值為75以下,DR發(fā)生的概率增大,并且在FA_3[FA 18∶1]值達(dá)到100以上時(shí),其邊際效應(yīng)保持在了-0.18%左右,繼續(xù)增大也并未起到較好的效果。

圖4 FA_3[FA 18∶1]在模型中的邊際效應(yīng)

同時(shí),為了探究FA_3[FA 18∶1]與高血壓史[HYPERTENSION]是否存在交互作用,通過對高血壓的分層,我們繪制了特征交互圖。由圖5可知,有高血壓史的人相較于無高血壓史的人患有DR的風(fēng)險(xiǎn)較高,而黃色和藍(lán)色兩條曲線并無相交,說明了FA_3[FA 18∶1]與高血壓史[HYPERTENSION]不存在交互作用。

圖5 FA_3[FA 18∶1]和高血壓史[HYPERTENSION]在模型中的交互

(3)個(gè)體的解釋

我們通過SHAP解釋某一特征的同時(shí),想具體了解某一個(gè)體在模型中的預(yù)測結(jié)果及其被預(yù)測正確或錯誤的原因,因此我們針對不同的個(gè)體繪制了SHAP解釋力圖。如圖6所示,A、B、C分別顯示了三個(gè)不同的個(gè)體在模型中的表現(xiàn)。其中圖6A表示了被模型預(yù)測為低風(fēng)險(xiǎn)的個(gè)體,由于其LPG=0.01492導(dǎo)致其預(yù)測有DR的概率下降的最大,而OxPC_2=0.1431則增加了這個(gè)個(gè)體被模型判定為發(fā)生DR的概率;而圖6B則是被模型預(yù)測為高風(fēng)險(xiǎn)的個(gè)體,其中導(dǎo)致他被預(yù)測為高風(fēng)險(xiǎn)的原因是LPG=0.00669;圖6C則是一個(gè)被模型預(yù)測為中等風(fēng)險(xiǎn)的個(gè)體。而其中值得一提的是,f(x)在下圖中的解釋是模型的輸出概率的對數(shù),因此其產(chǎn)生了負(fù)值。

圖6 SHAP解釋力圖:不同的個(gè)體在模型中的表現(xiàn)

討 論

首先,本文在這項(xiàng)基于PSM的多中心病例對照研究中,成功篩選出5種差異內(nèi)源脂類代謝物質(zhì)與DR發(fā)生風(fēng)險(xiǎn)顯著相關(guān),可作為糖尿病病人中早期識別DR病人的標(biāo)志物。另外,我們將5種差異性特征代謝物結(jié)合糖尿病病程、糖尿病史構(gòu)建DR早期識別模型,經(jīng)過模型評估后驗(yàn)證了其良好的分類效果,為糖尿病視網(wǎng)膜病變的早期識別提供新思路。其次,本文使用了一種可解釋的機(jī)器學(xué)習(xí)框架對黑盒模型進(jìn)行解鎖,主要從全局解釋,特征的邊際效應(yīng)以及個(gè)體層面的解釋三個(gè)不同的角度解釋模型,完整地介紹了SHAP。最后,本文在SHAP的基礎(chǔ)上,將SHAP值轉(zhuǎn)換成了概率,不僅進(jìn)一步增強(qiáng)了機(jī)器學(xué)習(xí)的可解釋性,同時(shí)也量化了某一特征對結(jié)局的影響程度。

近年來,機(jī)器學(xué)習(xí)已經(jīng)被廣泛應(yīng)用于生物醫(yī)學(xué)領(lǐng)域,然而由于其較難解釋的特性,在臨床環(huán)境中的應(yīng)用仍然有限,而SHAP能解鎖黑盒子模型的能力將會極大推動機(jī)器學(xué)習(xí)模型在臨床的實(shí)際應(yīng)用。另外,SHAP中針對個(gè)體可解釋能力不僅能推動模型應(yīng)用于臨床實(shí)際工作中,而且將會成為精準(zhǔn)醫(yī)療和個(gè)體化醫(yī)療的重要決策依據(jù)。

(致謝:感謝所有項(xiàng)目組成員的支持和幫助,感謝溫州醫(yī)科大學(xué)公共衛(wèi)生學(xué)院預(yù)防醫(yī)學(xué)系代謝組學(xué)研究團(tuán)隊(duì)的奉獻(xiàn)和辛勤工作,感謝2021年浙江省大學(xué)生科技創(chuàng)新活動計(jì)劃暨新苗人才計(jì)劃、國家重點(diǎn)研發(fā)計(jì)劃等項(xiàng)目的支持。)

猜你喜歡
高血壓特征糖尿病
糖尿病知識問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識問答
中老年保健(2022年1期)2022-08-17 06:14:56
全國高血壓日
糖尿病知識問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識問答
如何表達(dá)“特征”
不忠誠的四個(gè)特征
如何把高血壓“吃”回去?
高血壓,并非一降了之
抓住特征巧觀察
主站蜘蛛池模板: www.亚洲一区| 在线观看国产精品第一区免费 | 在线亚洲小视频| 区国产精品搜索视频| 极品尤物av美乳在线观看| 国产91在线|日本| 国产在线观看91精品亚瑟| jijzzizz老师出水喷水喷出| 亚洲国产精品VA在线看黑人| 免费A∨中文乱码专区| 制服丝袜一区| 免费全部高H视频无码无遮掩| 亚洲欧美成人网| AV天堂资源福利在线观看| 免费a在线观看播放| 久久国产精品麻豆系列| 欧美在线一级片| 免费不卡视频| 婷婷开心中文字幕| 国产精品分类视频分类一区| 四虎永久免费地址| 久青草网站| 韩日无码在线不卡| 日韩毛片在线播放| 国产高清在线观看91精品| 九色国产在线| 2048国产精品原创综合在线| 欧美成人午夜影院| 一本久道久综合久久鬼色| 天堂网亚洲系列亚洲系列| 这里只有精品在线| 欧美激情综合一区二区| 久久精品一卡日本电影| 亚洲一级毛片免费观看| 亚洲三级电影在线播放| 久久精品丝袜| 青青极品在线| 特黄日韩免费一区二区三区| 国产精品hd在线播放| 国产美女无遮挡免费视频网站| 国产一区二区色淫影院| 国产精品13页| 国产情侣一区二区三区| 在线国产毛片手机小视频| 久久免费视频播放| 四虎在线观看视频高清无码| 在线精品亚洲国产| 日韩第一页在线| 动漫精品中文字幕无码| 亚洲成人动漫在线观看| 国产免费a级片| 久久久久亚洲Av片无码观看| 成人免费一区二区三区| 在线观看亚洲人成网站| 成人在线亚洲| 丰满的少妇人妻无码区| 99在线观看国产| 国产人人射| 久久精品视频一| 国产精品久久久久无码网站| 国产Av无码精品色午夜| 日韩美一区二区| 99热在线只有精品| 午夜欧美在线| 国产成人综合日韩精品无码首页| 婷婷亚洲最大| 亚洲天堂高清| 伊人欧美在线| 在线观看的黄网| 九九热视频精品在线| 国产精品成人观看视频国产 | 精品国产香蕉伊思人在线| 亚洲综合中文字幕国产精品欧美| 高清欧美性猛交XXXX黑人猛交| 国产三级韩国三级理| 狠狠综合久久久久综| 亚洲三级成人| 久草国产在线观看| 久久综合色88| 成人午夜天| 日韩高清无码免费| 国产精品福利导航|