999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVGD分類預(yù)測(cè)的梯度提升機(jī)與隨機(jī)森林的性能比較*

2019-11-12 12:24:36鞏曉文鳳思苑李長(zhǎng)平劉媛媛
關(guān)鍵詞:分類模型

鞏曉文 鳳思苑 崔 壯△ 高 靜 李長(zhǎng)平 劉媛媛 劉 寅 馬 駿

【提 要】 目的 采用梯度提升機(jī)與隨機(jī)森林法對(duì)在天津市胸科醫(yī)院行CABG手術(shù)后出現(xiàn)復(fù)發(fā)缺血性癥狀的患者是否會(huì)發(fā)生SVGD進(jìn)行預(yù)測(cè),并評(píng)價(jià)兩種模型的分類性能。方法 將606例研究對(duì)象按7:3比例隨機(jī)分為訓(xùn)練集和測(cè)試集進(jìn)行模型訓(xùn)練和測(cè)試。用NRI和IDI評(píng)價(jià)兩種集成算法對(duì)CART基分類器的提升程度,并采用診斷試驗(yàn)評(píng)價(jià)指標(biāo)對(duì)模型的分類性能進(jìn)行評(píng)價(jià)。結(jié)果 以CART基分類器為參照,梯度提升機(jī)的NRI和IDI分別為0.31和0.15,而隨機(jī)森林NRI和IDI分別為0.08和0.08。在測(cè)試集上GBM的AUC和ACC分別為0.89和0.83高于RF 0.80和0.73。二者篩選出的最重要的5個(gè)臨床指標(biāo)相同,依次為橋齡、左室舒張期徑長(zhǎng)、VLDL、隱靜脈橋支數(shù)和心臟病類型。結(jié)論 梯度提升機(jī)和隨機(jī)森林法均能提升基分類器的分類性能,且前者優(yōu)于后者。梯度提升機(jī)比隨機(jī)森林有更好的泛化能力,更適合對(duì)外部數(shù)據(jù)的分類預(yù)測(cè)。

隱靜脈移植血管(saphenous vein graft,SVG)解剖部位表淺,且有足夠的長(zhǎng)度,因此常被用作冠脈動(dòng)脈旁路移植術(shù)(coronary artery bypass grafting,CABG)的搭橋血管,據(jù)文獻(xiàn)報(bào)道[1],SVG被廣泛應(yīng)用到約70%的CABG中。然而,隱靜脈移植血管疾病(saphenous vein graft disease,SVGD)是臨床上面臨的一大難題。CABG術(shù)后1個(gè)月約10%的SVG發(fā)生閉塞性病變;術(shù)后1年約20%的SVG發(fā)生慢性阻塞性病變;術(shù)后5~10年內(nèi)約25%~50%的SVG發(fā)生狹窄或者閉塞性病變;而10年后約50%的SVG發(fā)生閉塞病變,未閉塞的SVG也發(fā)生嚴(yán)重的彌漫性狹窄病變。行CABG手術(shù)患者往往因?yàn)閺?fù)發(fā)缺血性癥狀而再入院進(jìn)行冠狀動(dòng)脈造影(coronary arteriography,CAG)等相關(guān)檢查,由此造成了較大的經(jīng)濟(jì)負(fù)擔(dān)。

隨著計(jì)算機(jī)性能的提升,boosting和bagging等集成算法相繼出現(xiàn),其中boosting算法的典型代表是Adaboost和梯度提升機(jī)(gradient boosting machine,GBM),bagging算法的典型代表是隨機(jī)森林(random forest,RF)[2]。本文選取了RF和GBM兩種模型對(duì)CABG術(shù)后患者是否發(fā)生靜脈移植血管病變進(jìn)行分類預(yù)測(cè),以期幫助臨床醫(yī)生對(duì)病人進(jìn)行早期風(fēng)險(xiǎn)管理。同時(shí)比較二者對(duì)CART基分類器性能的提升程度,并用一系列診斷試驗(yàn)指標(biāo)來評(píng)價(jià)兩種模型的分類預(yù)測(cè)性能。

對(duì)象與方法

1.研究對(duì)象

本研究收集了在2015年3月至2017年12月期間,在天津市胸科醫(yī)院行CABG手術(shù),由于出現(xiàn)復(fù)發(fā)性缺血性癥狀而再入院的863名患者的數(shù)據(jù)。SVGD的診斷標(biāo)準(zhǔn):經(jīng)CAG檢查患者至少有1個(gè)SVG出現(xiàn)顯著的狹窄(狹窄程度≥50%)。納入標(biāo)準(zhǔn):CABG術(shù)后出現(xiàn)復(fù)發(fā)性缺血性癥狀而再入院檢查的患者。排除標(biāo)準(zhǔn):嚴(yán)重瓣膜病、急性代償失調(diào)性心衰、惡性腫瘤、腎或肝功能缺陷、急性或慢性感染和/或炎癥、貧血、血液疾病或慢性阻塞性肺病。最終有606例患者符合納入排除標(biāo)準(zhǔn)。本研究收集的數(shù)據(jù)包括患者的人口學(xué)信息、并發(fā)癥、家族史、CABG前血管造影/PCI資料、以及再入院時(shí)的臨床、實(shí)驗(yàn)室數(shù)據(jù)。

2.研究方法

(1)基本原理

梯度提升機(jī)基本原理:Friedman[3]在1999年提出梯度提升模型,它的基本思想是每一次新的迭代都是為了減少上一次迭代的殘差,使模型沿著殘差減小最快的方向進(jìn)行,由此產(chǎn)生一系列弱分類器,每個(gè)弱分類器都是一棵二叉樹,最終將這些弱分類器組合形成能使損失函數(shù)達(dá)到極小的模型。為了避免模型學(xué)習(xí)太快出現(xiàn)過擬合(over-fitting),因此模型引入收縮性參數(shù)(shrinkage),該參數(shù)越小,模型學(xué)習(xí)越“充分”,但同時(shí)會(huì)帶來模型的時(shí)間復(fù)雜度增加的問題[4]。在梯度提升機(jī)中,每棵樹之間的關(guān)系是垂直且相關(guān)的。

隨機(jī)森林基本原理:隨機(jī)森林是基于大量決策樹集成的分類或回歸算法,所謂“隨機(jī)”包含兩層含義:一是樣本的隨機(jī),通過Bootstrap抽樣隨機(jī)抽取樣本,二是變量的隨機(jī),即每個(gè)節(jié)點(diǎn)只選取部分特征進(jìn)行分裂[5]。在分類問題時(shí),所有擬合的樹通過“投票”決定該觀測(cè)所屬的類別。在隨機(jī)森林中,每棵樹之間的關(guān)系是獨(dú)立且平行的。

(2)模型評(píng)價(jià)方法

表1簡(jiǎn)要描述了本研究用于模型分類性能評(píng)價(jià)的8個(gè)指標(biāo)的意義及計(jì)算公式[6]。其中,TP、FP、TN和FN分別代表混淆矩陣中的真陽性、假陽性、真陰性和假陰性例數(shù)。準(zhǔn)確率、靈敏度、特異度、陽性預(yù)測(cè)值和陰性預(yù)測(cè)值是評(píng)價(jià)模型分類效果的單一指標(biāo),而ROC曲線下面積(AUC)、幾何均值和F1得分為模型評(píng)價(jià)分類效果的綜合指標(biāo)。此外,本研究使用重分類改善指數(shù)(net reclassification improvement,NRI)和綜合判別改善指數(shù)(integrated discrimination improvement,IDI)來比較梯度提升機(jī)和隨機(jī)森林作為集成算法對(duì)單分類器(以CART為參照)性能的改善程度[7-8]。

表1 分類模型常用的評(píng)價(jià)指標(biāo)

(3)統(tǒng)計(jì)學(xué)方法

本研究定性資料用頻數(shù)(構(gòu)成比)描述,定量資料用M(Q1,Q3)表示。對(duì)定性和定量資料分別采用卡方檢驗(yàn)、秩和檢驗(yàn)進(jìn)行單因素分析,檢驗(yàn)水準(zhǔn)為α=0.05。采用有統(tǒng)計(jì)學(xué)意義或臨床意義的指標(biāo)構(gòu)建模型。分別使用R 3.4.4中的rpart,gbm和randomForest軟件包實(shí)現(xiàn)CART,GBM隨機(jī)森林三種模型。

結(jié) 果

1.一般情況及單因素分析

將研究對(duì)象按7∶3比例隨機(jī)分成訓(xùn)練集合測(cè)試集,分別對(duì)收集的臨床指標(biāo)進(jìn)行單因素分析。表2僅展示了單因素分析有意義或認(rèn)為有臨床意義的指標(biāo),即:橋齡、左室舒張期徑長(zhǎng)、VLDL、LP(a)、左室射血分?jǐn)?shù)、心臟病類型、原位病變血管支數(shù)和隱靜脈橋支數(shù),這些指標(biāo)將用于模型構(gòu)建。

2.CART決策樹模型

通過10折交叉驗(yàn)證進(jìn)行確定最優(yōu)復(fù)雜度參數(shù)(CP=0.02),并進(jìn)行剪枝。最終模型納入四個(gè)指標(biāo),分別為左室舒張期徑長(zhǎng)、橋齡、左室射血分?jǐn)?shù)和VLDL,出現(xiàn)如下三種情況可判定為SVGD:①左室舒張期徑長(zhǎng)≥52.50mm。②左室舒張期徑長(zhǎng)<52.50mm,橋齡≥5.5年,VLDL≥0.38mmol/L。③左室舒張期徑長(zhǎng)<52.50mm,橋齡<5.5年,左室射血分?jǐn)?shù)<57.50%。其余情況判定為非SVGD。詳見表3。

3.梯度提升機(jī)模型

表2 建模指標(biāo)在非SVGD和SVGD人群中的分布

*:定量資料用M(Q1,Q3)表示,定性資料用n(%)表示。

表3 CART決策樹結(jié)果

*:CART決策樹的預(yù)測(cè)結(jié)果

圖1 GBM和RF中各指標(biāo)的相對(duì)重要性

4.隨機(jī)森林模型

根據(jù)是否為SVGD這一變量進(jìn)行分層bootstrap有放回抽樣,每次分裂時(shí)候選變量的個(gè)數(shù)(mtry)為總變量目的開方。結(jié)合袋外誤差調(diào)整模型參數(shù),最終選擇葉節(jié)點(diǎn)的例數(shù)(nodesize)為15,樹的數(shù)目(ntree)為500。與梯度提升機(jī)類似,用Gini不純性的平均下降值衡量變量的相對(duì)重要排序。結(jié)果如圖1所示。

5.模型分類效果對(duì)比

NRI和IDI兩個(gè)指標(biāo)定量的給出GBM和RF對(duì)CART基分類器的提升程度。通過bootstrap法得到表1中各指標(biāo)的點(diǎn)估計(jì)值及95%CI。為了方便比較將CART基分類器的結(jié)果也展示在內(nèi)。就訓(xùn)練集而言,RF模型的ACC、SE、SP、PPV、NPV、AUC、G-mean和F1-score稍高于GBM。但在訓(xùn)練集上,GBM分類效果優(yōu)于CART和RF。結(jié)果詳見表4。

討 論

上述模型結(jié)果表明,橋齡、左室舒張期徑長(zhǎng)、VLDL、隱靜脈橋支數(shù)和心臟病類型這五個(gè)指標(biāo)對(duì)于預(yù)測(cè)判斷患者是否為SVGD重要的臨床意義。且橋齡越大、左室舒張期徑長(zhǎng)越長(zhǎng)、VLDL越高、隱靜脈橋支數(shù)越多越有可能發(fā)生SVGD,且心臟病類型為ACS的患者更容易發(fā)生SVGD。國(guó)內(nèi)李麗[11]等一項(xiàng)關(guān)于2010-2015年92例CABG術(shù)后癥狀復(fù)發(fā)而再入院檢查研究結(jié)果表明,SVGD與冠心病傳統(tǒng)危險(xiǎn)因素?zé)o明顯關(guān)聯(lián),這一結(jié)論與本研究的結(jié)果基本一致。國(guó)外有研究表明橋齡是SVGD發(fā)生的危險(xiǎn)因素,與本研究結(jié)果一致[12]。此外,有研究初步發(fā)現(xiàn)了許多潛在的SVGD的生物標(biāo)志物如淋巴單核細(xì)胞比、維生素D、血小板比積、IL-6、CRP等[13],本研究尚未發(fā)現(xiàn)此結(jié)果,這些危險(xiǎn)因素及生物標(biāo)志物能夠用于中國(guó)人群SVGD仍需要進(jìn)一步研究。

表4 CART,GBM與RF分類效果對(duì)比

*:NRI和IDI均以CART基分類器為參照計(jì)算,大于0表示正提升,小于0表示負(fù)提升。

CART決策樹作為一種基學(xué)習(xí)器,其學(xué)習(xí)能力比較弱,為此一系列集成算法如隨機(jī)森林和梯度提升機(jī)相繼出現(xiàn)。Sotiris K一項(xiàng)關(guān)于集成算法性能的研究納入了34個(gè)不同數(shù)據(jù)集,當(dāng)以決策樹作為基分類器時(shí),boosting算法在19個(gè)數(shù)據(jù)集上準(zhǔn)確率高于bagging算法[14]。劉玉堯利用梯度提升算法建立了早期腫瘤發(fā)生的預(yù)測(cè)模型,并發(fā)現(xiàn)其預(yù)測(cè)性能優(yōu)于隨機(jī)森林[15]。這提示兩種算法性能可能與具體應(yīng)用場(chǎng)景有關(guān)。在本研究中,RF和GBM均可改善CART的分類性能,且在測(cè)試集上GBM優(yōu)于RF。GBM在測(cè)試集上的表現(xiàn)與訓(xùn)練集相差無幾,表明GBM有更好的泛化能力,這可能與GBM算法內(nèi)部設(shè)置學(xué)習(xí)率來避免模型過擬合有關(guān)。而RF雖然在訓(xùn)練集上表現(xiàn)略好于GBM,但在更具有推廣意義的測(cè)試集上遜色于GBM。SVGD是臨床上面臨的一大難題,本文旨在通過機(jī)器學(xué)習(xí)算法對(duì)曾行CABG的患者是否會(huì)發(fā)生SVGD進(jìn)行分類預(yù)測(cè),從而協(xié)助臨床醫(yī)生進(jìn)行早期干預(yù)。通過研究發(fā)現(xiàn)GBM的分類性能優(yōu)于RF。本研究的局限在于樣本例數(shù)相對(duì)較少,且納入的研究對(duì)象是出現(xiàn)復(fù)發(fā)缺血性癥狀如胸痛進(jìn)而到醫(yī)院進(jìn)一步檢查的患者。今后仍需更大的樣本來驗(yàn)證結(jié)果的外推性。總之,GBM為SVGD的分類預(yù)測(cè)開拓了新的思路,其優(yōu)良的預(yù)測(cè)性能可為臨床決策提供有價(jià)值的信息。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 国产va在线| 一本久道久综合久久鬼色| 一级全黄毛片| 无码网站免费观看| 国产极品美女在线播放| 亚洲成人www| 国产精品妖精视频| 真实国产精品vr专区| 亚洲自偷自拍另类小说| 国产精品极品美女自在线网站| 国产拍揄自揄精品视频网站| 亚洲视频欧美不卡| AV天堂资源福利在线观看| 国产99视频在线| 免费国产好深啊好涨好硬视频| 亚洲bt欧美bt精品| 欧美精品亚洲精品日韩专| 日韩免费中文字幕| 直接黄91麻豆网站| 无码国产偷倩在线播放老年人| 国产主播在线一区| 国产美女人喷水在线观看| 日本高清免费不卡视频| 亚洲日本一本dvd高清| 国产视频a| 亚洲毛片网站| 欧美va亚洲va香蕉在线| aⅴ免费在线观看| 亚洲欧美综合精品久久成人网| 97国产在线播放| 国产91高跟丝袜| 日韩av手机在线| 在线永久免费观看的毛片| 精品福利视频导航| 免费女人18毛片a级毛片视频| www.亚洲一区| 欧美啪啪网| 欧美第二区| 免费欧美一级| 久久6免费视频| 激情六月丁香婷婷| 欧美一区二区三区欧美日韩亚洲| 国产精品免费露脸视频| 美女一级毛片无遮挡内谢| 国产在线视频欧美亚综合| 成人在线天堂| 99手机在线视频| 亚洲男人天堂2018| 欧美69视频在线| 尤物成AV人片在线观看| 日本精品αv中文字幕| 国产一区自拍视频| 91在线视频福利| 日本欧美在线观看| 美女视频黄频a免费高清不卡| 日韩欧美中文在线| 精品一区二区三区波多野结衣| 伊人网址在线| 国产在线精品香蕉麻豆| 熟女成人国产精品视频| 波多野结衣亚洲一区| 精品无码专区亚洲| 久久一级电影| 色偷偷一区| 国产一二三区视频| 久久精品一卡日本电影| 国内精品久久人妻无码大片高| 青青草国产精品久久久久| 久久久久亚洲精品成人网| 国产呦视频免费视频在线观看| 免费av一区二区三区在线| 欧美一级黄片一区2区| 亚洲无码91视频| 五月六月伊人狠狠丁香网| 欧美精品不卡| 精品国产一区二区三区在线观看| 国产麻豆va精品视频| 天堂成人av| 色AV色 综合网站| 国产精品jizz在线观看软件| 不卡视频国产| 日本免费一级视频|