999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Logistic回歸與XGBoost構(gòu)建缺血性卒中院內(nèi)復(fù)發(fā)風(fēng)險(xiǎn)預(yù)測模型的初步比較研究

2020-07-07 06:06:58谷鴻秋王春娟李子孝王伊龍王擁軍姜勇
中國卒中雜志 2020年6期
關(guān)鍵詞:模型研究

谷鴻秋,王春娟,李子孝,王伊龍,王擁軍,姜勇,3

中國是卒中終身風(fēng)險(xiǎn)最高的國家,全球疾病負(fù)擔(dān)研究顯示,中國卒中終身風(fēng)險(xiǎn)高達(dá)39.3%,將近全球平均水平的1.6倍[1]。在國內(nèi),卒中在單病種死因順位排名自2010年后一直位居第一[2-3]。卒中的高患病率、高死亡率及高致殘率給中國的醫(yī)療保健系統(tǒng)造成了沉重的負(fù)擔(dān)。缺血性卒中是卒中的主要類型,約占80%以上[4]。缺血性卒中的預(yù)后不穩(wěn)定,易復(fù)發(fā),且早期復(fù)發(fā)風(fēng)險(xiǎn)最高。據(jù)氯吡格雷用于急性非致殘性腦血管事件高危人群的療效(Clopidogrel in High-Risk Patients with Acute Nondisabling Cerebrovascular Events,CHANCE)研究顯示,超過80%的卒中復(fù)發(fā)發(fā)生在14 d內(nèi)[5]。因此,利用預(yù)測模型準(zhǔn)確預(yù)測卒中早期復(fù)發(fā)風(fēng)險(xiǎn),提升患者的精準(zhǔn)風(fēng)險(xiǎn)分層與管理、優(yōu)化醫(yī)療資源配置、降低院內(nèi)卒中復(fù)發(fā)是卒中二級(jí)預(yù)防中不可忽視的環(huán)節(jié)。

關(guān)于缺血性卒中院內(nèi)復(fù)發(fā)風(fēng)險(xiǎn)的預(yù)測,目前缺乏特異性的工具。傳統(tǒng)的風(fēng)險(xiǎn)預(yù)測模型,主要是基于Logistic回歸或者Cox回歸模型構(gòu)建,但機(jī)器學(xué)習(xí)算法在處理高維變量,以及變量間復(fù)雜的交互作用、非線性關(guān)系上具有獨(dú)特的優(yōu)勢,尤其是XGBoost[6]。本文利用中國國家卒中登記Ⅱ(China National Stoke Registry Ⅱ,CNSRⅡ)數(shù)據(jù)[7],分別利用傳統(tǒng)的Logistic回歸和機(jī)器學(xué)習(xí)算法XGBoost構(gòu)建缺血性卒中院內(nèi)復(fù)發(fā)風(fēng)險(xiǎn)預(yù)測模型,并進(jìn)行初步比較,探討兩種模型的預(yù)測價(jià)值,以期為后續(xù)建立更加完善的缺血性卒中院內(nèi)復(fù)發(fā)風(fēng)險(xiǎn)預(yù)測模型提供借鑒。

1 研究對(duì)象與方法

1.1 研究隊(duì)列與人群 本研究的研究對(duì)象來源于CNSRⅡ項(xiàng)目。CNSRⅡ納入2012年5月-2013年1月全國219家醫(yī)院發(fā)病7 d內(nèi)的急性卒中住院患者。本研究患者納入標(biāo)準(zhǔn):①年齡>18歲;②缺血性卒中患者;③患者出院方式為醫(yī)囑離院(考慮到轉(zhuǎn)院或非醫(yī)囑離院的患者可能因?yàn)樵谠簳r(shí)間短暫,院內(nèi)復(fù)發(fā)事件難以被觀測捕捉到)。排除標(biāo)準(zhǔn):血液檢測指標(biāo)缺失。

1.2 預(yù)測因子與結(jié)局 結(jié)合急性缺血性卒中早期管理指南[8]、文獻(xiàn)報(bào)道的相關(guān)評(píng)分預(yù)測模型[9]及CNSRⅡ數(shù)據(jù)特點(diǎn),確定備選的預(yù)測因子包括人口學(xué)特征(性別、年齡、教育程度、家庭月收入、吸煙、飲酒),卒中嚴(yán)重程度(入院NIHSS評(píng)分、發(fā)病前mRS評(píng)分),既往病史(卒中、高血壓、糖尿病、血脂異常、心房顫動(dòng)、周圍血管疾病、心肌梗死/冠心病),用藥史(抗血小板藥、抗凝藥、降壓藥、降脂藥、降糖藥)以及臨床測量指標(biāo)(TC、TG、LDL-C、HDL-C、收縮壓、舒張壓)。結(jié)局為院內(nèi)的卒中復(fù)發(fā)事件,包括缺血性卒中和出血性卒中。

1.3 模型構(gòu)建方法

1.3.1 Logistic回歸 Logistic回歸是預(yù)測結(jié)局變量為二分類變量時(shí)最為常用的統(tǒng)計(jì)模型,其通用形式為:

其中x1,x 2,…,x m即為預(yù)測因子,b1,b2,…,bm為m個(gè)預(yù)測因子的回歸系數(shù)。①式經(jīng)過簡單變換,可得預(yù)測事件的概率P。

1.3.2 XGBoost XGBoost是基于決策樹使用梯度提升框架的集成機(jī)器學(xué)習(xí)算法,由華人學(xué)者陳天奇博士于2016年提出[6]。XGBoost的思想是先從初始訓(xùn)練集訓(xùn)練出一個(gè)基學(xué)習(xí)器,再根據(jù)基學(xué)習(xí)器的表現(xiàn)對(duì)訓(xùn)練樣本分布進(jìn)行調(diào)整,使得先前基學(xué)習(xí)器做錯(cuò)的訓(xùn)練樣本在后續(xù)受到更多關(guān)注,然后基于調(diào)整后的樣本分布來訓(xùn)練下一個(gè)基學(xué)習(xí)器;如此重復(fù)進(jìn)行,直至基學(xué)習(xí)器數(shù)目達(dá)到事先指定的值T,最終將這T個(gè)基學(xué)習(xí)器進(jìn)行加權(quán)結(jié)合。XGBoost的基學(xué)習(xí)器就是一棵樹分類器。XGBoost的簡要算法的數(shù)學(xué)描述:假設(shè)有k棵樹,則模型的表達(dá)式為:

其中F表示回歸森林中的所有函數(shù)空間。fk(xi)表示第i個(gè)樣本在第k棵樹中落在葉子的權(quán)重。目標(biāo)函數(shù)為:

其中,L是損失函數(shù),用來估計(jì)預(yù)測值??與真實(shí)值yi的差距,正則項(xiàng)Ω,可以懲罰模型的復(fù)雜度,避免過擬合。

1.4 統(tǒng)計(jì)學(xué)方法 本研究的所有統(tǒng)計(jì)分析均在R(3.6.2版)中完成。Logistic回歸采用stats包的glm函數(shù),XGBoost采用XGBoost包(1.0.0.1版)的xgb.train函數(shù)。超參數(shù)的調(diào)整優(yōu)化采用mlr包(2.17.1版),并采用隨機(jī)搜索算法。符合本研究要求的數(shù)據(jù)集將按7∶3的比例隨機(jī)拆分為訓(xùn)練集與測試集,訓(xùn)練集用來擬合預(yù)測模型,測試集用來評(píng)價(jià)模型效果。為防止過擬合,提高模型預(yù)測性能,Logistic回歸預(yù)測模型中,通過赤池信息準(zhǔn)則(Akaike information criterion,AIC)篩選訓(xùn)練集中的最優(yōu)模型。XGBoost預(yù)測模型中,采用10折交叉驗(yàn)證法,將訓(xùn)練集進(jìn)一步細(xì)分為10份,循環(huán)抽取其中的一份作為驗(yàn)證集,用于調(diào)整XGBoost的超參數(shù)。Logistic預(yù)測模型中預(yù)測因子的效應(yīng)通過回歸系數(shù)或者OR值及其95%CI體現(xiàn),XGBoost預(yù)測模型中,預(yù)測因子的重要性通過SHAP(Shapley Additive Explanation)值體現(xiàn),SHAP值越高,預(yù)測因子越重要[10]。模型的預(yù)測性能將從區(qū)分度和校準(zhǔn)度兩個(gè)方面進(jìn)行比較和評(píng)價(jià)。區(qū)分度指標(biāo)采用受試者工作特征曲線下面積(area under the curve,AUC),AUC值越高,表明模型的區(qū)分度越高。校準(zhǔn)度指標(biāo)采用校準(zhǔn)截距、校準(zhǔn)斜率以及Brier得分[11],并繪制校準(zhǔn)度曲線。校準(zhǔn)截距和Brier得分越趨近0,校準(zhǔn)斜率越趨近1,模型的校準(zhǔn)度越好。P<0.05為差異具有統(tǒng)計(jì)學(xué)意義。

2 結(jié)果

2.1 人群基本特征 納入CNSRⅡ項(xiàng)目中按醫(yī)囑離院的急性缺血性卒中患者總計(jì)18 142例,剔除了血液檢測指標(biāo)缺失病例915例,17 227例進(jìn)入最終分析。平均年齡64.72±11.84歲,女性6317例(36.7%),發(fā)病前mRS評(píng)分為0或1分的病例14 482例(84.1%),入院NIHSS評(píng)分4(2~6)分。6095例(35.2%)有卒中病史,伴有高血壓、糖尿病及血脂異常病史的患者,分別為13 153例(76.4%)、4493例(26.1%)和6120例(35.5%)。服用抗血小板、降壓、降糖及降脂藥的患者分別為3338例(19.4%)、7749例(45.0%)、2965例(6.7%)和1156例(15.6%)。總計(jì)444例(2.6%)的患者院內(nèi)復(fù)發(fā)卒中。各特征在訓(xùn)練集和測試集的數(shù)據(jù)上非常接近(表1)。

2.2 預(yù)測模型構(gòu)建 Logistic回歸預(yù)測模型中,最終納入年齡、家庭月收入、發(fā)病前mRS評(píng)分、入院NIHSS評(píng)分、卒中史、心房顫動(dòng)、心肌梗死/冠心病、抗血小板、降壓藥、LDL-C、收縮壓及舒張壓12個(gè)預(yù)測因子,具體的回歸系數(shù)及相對(duì)效應(yīng)見表2。其中,發(fā)病前mRS評(píng)分、心房顫動(dòng)及卒中史是前三位強(qiáng)預(yù)測因子。XGBoost預(yù)測模型,由8棵決策樹組合而成,其中第一棵決策樹如圖1所示。XGBoost構(gòu)建的預(yù)測模型中,前三位強(qiáng)預(yù)測因子為發(fā)病前mRS評(píng)分、心房顫動(dòng)及TC,具體如圖2所示。

表1 研究對(duì)象基本特征

2.3 預(yù)測模型性能比較 在訓(xùn)練集中,Logistic回歸預(yù)測模型的AUC低于XGBoo s t預(yù)測模型(0.67,95%CI0.64~0.70vs0.72,95%CI0.69~0.76,P=0.0176);在測試集中,與XGBoost預(yù)測模型差異無統(tǒng)計(jì)學(xué)意義(0.63,95%CI0.58~0.68vs0.64,95%CI0.59~0.68,P=0.9229)(圖3)。

Logistic預(yù)測模型在訓(xùn)練集中的校準(zhǔn)截距、校準(zhǔn)斜率以及Brier得分分別為0.00、1.00、0.02;在測試集中,分別為-0.81、0.76、0.03。XGBoost預(yù)測模型在訓(xùn)練集中校準(zhǔn)截距、校準(zhǔn)斜率及Brier得分分別為3.31、3.90、0.35;在測試集中分別為-1.37、1.20、0.38。Logistic預(yù)測模型的校準(zhǔn)度要好于XGBoost預(yù)測模型,尤其是在訓(xùn)練集數(shù)據(jù)中(圖4)。

3 討論

本研究基于CNSRⅡ項(xiàng)目中按醫(yī)囑離院的缺血性卒中病例,分別采用了傳統(tǒng)的Logistic回歸和機(jī)器學(xué)習(xí)方法XGBoost構(gòu)建缺血性卒中院內(nèi)復(fù)發(fā)的預(yù)測模型。結(jié)果顯示,Logistic回歸與XGBoost方法在預(yù)測性能上非常接近,XGBoost方法在訓(xùn)練集上AUC更高,而Logistic回歸的校準(zhǔn)度更高,尤其是在訓(xùn)練集數(shù)據(jù)上。

相較于傳統(tǒng)Logistic回歸或者Cox比例風(fēng)險(xiǎn)回歸模型,機(jī)器學(xué)習(xí)算法在處理高維變量,以及變量間復(fù)雜的交互作用、非線性關(guān)系上具有獨(dú)特的優(yōu)勢。XGBoost是機(jī)器學(xué)習(xí)中的一種梯度提升算法,其軟件包有其獨(dú)特的優(yōu)點(diǎn),比如:支持并行計(jì)算,可調(diào)用計(jì)算機(jī)的所有內(nèi)核同時(shí)運(yùn)算;支持正則化,可防止模型過擬合;自帶交叉驗(yàn)證及缺失值處理機(jī)制;靈活支持個(gè)性化目標(biāo)函數(shù)和評(píng)估指標(biāo)。因此,XGBoost在預(yù)測模型中,受到越來越多的關(guān)注和研究,例如,基于國際多中心注冊研究的急性心肌梗死預(yù)測研究[12],基于醫(yī)院電子健康檔案的卒中后肺炎預(yù)測[13],基于患者病史和分診時(shí)收集的信息預(yù)測住院患者人數(shù)[14]以及癌癥患者化療后的短期死亡預(yù)測等[15]。由于各研究中具體的研究問題、研究設(shè)計(jì)及數(shù)據(jù)不同,XGBoost預(yù)測模型的表現(xiàn)也不盡相同,和傳統(tǒng)Logistic回歸預(yù)測模型相比,有些情形下兩者相當(dāng),有些情形下XGBoost更優(yōu)。

表2 基于Logistic回歸的預(yù)測模型

本研究個(gè)案結(jié)果顯示,相比Logistic回歸,XGBoost預(yù)測模型并未顯示出特別的優(yōu)越性。這可能與研究的數(shù)據(jù)有較大的關(guān)系。研究數(shù)據(jù)的維度(變量的個(gè)數(shù),變量的種類)、性質(zhì)(是否包含了真正有預(yù)測作用的變量)、數(shù)據(jù)量(樣本量)均有可能影響預(yù)測模型的效能。本研究中,預(yù)測變量維度和數(shù)量有限,這可能在一定程度上限制了機(jī)器學(xué)習(xí)算法的優(yōu)勢。一些強(qiáng)預(yù)測因子,比如氧化低密度脂蛋白、中性粒細(xì)胞計(jì)數(shù)、應(yīng)激性高血糖等血液指標(biāo)[16-20],梗死模式、狹窄程度等影像指標(biāo)均未采集[21],無法納入預(yù)測模型中。

圖2 XGBoost構(gòu)建的預(yù)測模型中預(yù)測因子SHAP值

圖3 Logistic與XGBoost構(gòu)建的預(yù)測模型的ROC曲線

圖4 Logistic與XGBoost構(gòu)建的預(yù)測模型的校準(zhǔn)度

考察預(yù)測模型的好壞,不僅需要評(píng)估其預(yù)測性能,還需考慮數(shù)據(jù)采集的成本、開發(fā)的難易度以及應(yīng)用的便利性。一個(gè)預(yù)測性能良好的預(yù)測模型,只有真正普及應(yīng)用到臨床,才能對(duì)患者實(shí)現(xiàn)精準(zhǔn)風(fēng)險(xiǎn)分層管理,優(yōu)化資源配置、改善患者結(jié)局,提高醫(yī)療質(zhì)量。傳統(tǒng)的Logistic回歸旨在盡可能用最少的預(yù)測變量獲得最佳的預(yù)測效能,因此,一般來說數(shù)據(jù)采集成本較低,且其原理清晰易理解,開發(fā)方便,后期也便于制作評(píng)分系統(tǒng)、列線圖或者顏色打分卡等不需要電子設(shè)備支持即可應(yīng)用于臨床的實(shí)用工具[22]。機(jī)器學(xué)習(xí)算法XGBoost原理較為復(fù)雜,開發(fā)過程長(比如數(shù)據(jù)需要轉(zhuǎn)換為稀疏矩陣、需要對(duì)超參數(shù)進(jìn)行調(diào)整等),在預(yù)測變量多、關(guān)系復(fù)雜、數(shù)據(jù)量大時(shí),旨在盡可能用當(dāng)下所有的預(yù)測變量獲得最佳的預(yù)測效能,若能將其嵌于臨床診療系統(tǒng)中,整合在在臨床實(shí)踐中,則數(shù)據(jù)收集和應(yīng)用將更為方便,如此方能體現(xiàn)其優(yōu)勢。

傳統(tǒng)的Logistic回歸與XGBoost方法,在預(yù)測模型的構(gòu)建中,各有優(yōu)劣。研究者可依據(jù)具體的研究問題、研究數(shù)據(jù),并考慮到后續(xù)的推廣使用的成本和便利性,綜合決定。隨著大數(shù)據(jù)相關(guān)的基礎(chǔ)設(shè)施和技術(shù)的普及,機(jī)器學(xué)習(xí)算法構(gòu)建的預(yù)測模型,將會(huì)有廣闊的應(yīng)用前景。

猜你喜歡
模型研究
一半模型
FMS與YBT相關(guān)性的實(shí)證研究
2020年國內(nèi)翻譯研究述評(píng)
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統(tǒng)研究
新版C-NCAP側(cè)面碰撞假人損傷研究
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产成人精品视频一区二区电影| 无码av免费不卡在线观看| 日韩欧美中文字幕在线韩免费| 无码内射在线| 亚洲第一成年网| 免费人成在线观看成人片| 欧美高清国产| 久久这里只有精品66| 午夜少妇精品视频小电影| 99久久精品视香蕉蕉| 美女无遮挡免费网站| 国产自产视频一区二区三区| 国产夜色视频| 在线国产欧美| 女人爽到高潮免费视频大全| 亚洲AV无码一区二区三区牲色| 成人精品区| av午夜福利一片免费看| 国产无码制服丝袜| 在线无码九区| 91久久偷偷做嫩草影院电| 美女无遮挡免费视频网站| 国产精品视屏| 99青青青精品视频在线| 亚洲一级毛片| 国产永久免费视频m3u8| 国产精品无码一区二区桃花视频| swag国产精品| 黄色网在线| 波多野结衣的av一区二区三区| 日本草草视频在线观看| 狠狠色综合网| 十八禁美女裸体网站| 亚洲综合二区| 国产精品久久久久鬼色| 久久大香伊蕉在人线观看热2| 99久久性生片| 亚洲无码高清免费视频亚洲| 国产美女91视频| 欧美一道本| 丁香婷婷激情网| 2020国产精品视频| 99re在线观看视频| 欧美午夜在线播放| 不卡无码h在线观看| 啊嗯不日本网站| 永久天堂网Av| 亚洲视频在线网| 一级爆乳无码av| 欧美精品在线看| 欧美三级自拍| 国产精品粉嫩| 中国丰满人妻无码束缚啪啪| 欧洲欧美人成免费全部视频| 四虎亚洲国产成人久久精品| 在线播放精品一区二区啪视频| 91精品国产丝袜| 亚洲AⅤ永久无码精品毛片| 国产91导航| 亚洲天堂精品在线| 91免费观看视频| 亚洲娇小与黑人巨大交| 亚洲一区二区约美女探花| 美女被躁出白浆视频播放| 2020极品精品国产 | 欧美精品v欧洲精品| 亚洲精品无码日韩国产不卡| 国产在线自乱拍播放| 国产尹人香蕉综合在线电影| 久久人搡人人玩人妻精品一| 亚洲欧美成人综合| 九九这里只有精品视频| 91福利一区二区三区| 91在线视频福利| 91口爆吞精国产对白第三集| 久久黄色毛片| 国产精品任我爽爆在线播放6080 | 一级爆乳无码av| 欧美a级完整在线观看| 四虎永久免费地址在线网站| 精品一区二区三区波多野结衣| 久久99国产精品成人欧美|