999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習算法構建缺血性卒中3個月死亡預測模型研究

2020-07-07 06:09:12陳思玎劉歡黃馨瑩李皓琳谷鴻秋姜勇
中國卒中雜志 2020年6期
關鍵詞:模型研究

陳思玎,劉歡,黃馨瑩,李皓琳,谷鴻秋,姜勇,2

卒中是全球第二大死因,在中國近年來已經成為人群死亡的首要原因,缺血性卒中占全部卒中的80%,具有高致殘率、高致死率及高復發率等特點[1]。根據我國卒中流行病學調查研究推算,目前每年約有240萬人新發卒中,每年110萬人死于卒中,現存的卒中患者1100多萬[2]。在國內,卒中單病種死因順位排名自2010年上升到第一位后,仍未改變[3-5]。因此,探討缺血性卒中死亡的預測具有重要意義。隨著大數據時代的到來,在醫療領域中各種繁雜的醫療信息被整合為大數據,為將機器學習引入醫療領域創造了條件。本研究旨在比較機器學習模型和傳統統計學模型對缺血性卒中患者發病3個月死亡預測效果,以期為后續建立更加完善的缺血性卒中死亡預測提供借鑒。

1 研究對象與方法

1.1 研究對象 CNSR為全國范圍內前瞻性及觀察性急性卒中登記研究,其數據庫資料連續記錄了2007年9月-2008年8月全國27個省和4個直轄市(包括香港)132家醫院的急性卒中患者信息。本研究納入CNSR數據庫中基線和隨訪數據齊全且明確診斷為缺血性卒中的住院患者進行數據分析與研究。

1.2 結局與變量初步篩選 基于CNSR數據庫資料,總變量有1219個,本研究結局變量是缺血性卒中患者發病3個月死亡。結合臨床知識,將與死亡結局強相關的變量(如癌癥是否轉移)以及和卒中結局不相關的變量(如是否做2次MRI)進行人工篩選剔除。經過人工篩選后確定438個變量,包括人口學特征(性別、年齡等)、既往病史(高血壓、糖尿病、血脂異常等)、用藥史、首發癥狀(失語癥、感覺障礙、吞咽困難等)、并發癥(消化道出血、肺炎、泌尿道感染等)、實驗室檢測指標和評分指標等。

1.3 模型構建方法 將總數據集按7∶3隨機分為訓練集和測試集,訓練集用于構建預測模型,測試集用于評價模型效果。1.3.1 XGBoost預測模型 XGBoost算法是集成學習boosting方法的一種,兼具線性規模求解器和樹學習算法。XGBoost是對損失函數做了二階的泰勒展開,并在目標函數之外加入了正則項,整體求最優解,用于權衡目標函數的下降和模型的復雜程度,避免過擬合,提高模型的求解效率。SelectFromModel是一個通用轉換器,如果相應的coef或feature_importances值低于提供的閾值參數,則認為這些特性不重要并將其刪除。

XGBoost模型通過SelectFromModel對全部變量(438個)進行特征篩選,篩選時變量逐步增加,步長為1時,發現選取20個變量代價最低,故而篩選出相應預測變量。XGBoost對訓練集采用5折交叉驗證法,在訓練集內進行5折交叉驗證調參數,模型參數learning_rate為0.1,n_estimators為40,max_depth為3,min_child_weight為5,seed為0,subsample為0.6,colsample_bytree為0.6,gamma為0.1,reg_alpha為0.1,reg_lambda為0.05。

1.3.2 Logistic回歸預測模型 Logistic回歸模型適合于預測結局變量為二項分類的情況,Logistic模型是一種概率模型,該模型參數估計是采用經典算法——最大似然估計法。在訓練集中,對全部變量采用非條件Logistic回歸,建立預測模型,選擇納入模型的預測指標。首先采用單因素Logistic回歸,以P<0.1為納入多因素分析的標準;將單因素分析選擇出的危險因素納入多因素分析,采用逐步回歸法,以P<0.05為最終納入多因素模型的標準,建立缺血性卒中發病后3個月死亡預測模型。

1.3.3 缺失值處理 缺失值分三種類型處理:①跳轉變量:如果一級變量選否,二級變量自動補0;②刪掉缺失值超過30%的變量;③剩余缺失值,分類變量用99填充缺失值;連續變量用均值填補缺失值。

1.4 統計學方法 本研究應用SAS 9.4統計軟件進行Logistic回歸模型的建立,使用逐步回歸法。應用Python3.6.8進行XGBoost機器學習模型建立,XGBoost調用xgboost API,采用scikit-learn中GridSearchCV函數做參數遍歷選擇,matplotlib API提供作圖支持,繪制預測的ROC曲線。兩種模型的預測性能采用ROC曲線下面積(area under the curve,AUC)表示,AUC越高表明模型預測性能越好。P<0.05為差異具有統計學意義。

2 結果

2.1 一般資料 CNSR數據庫共22 216例急性卒中患者,排除1765例從其他非登記醫院轉入患者、314例基線信息不完整患者、120例最終診斷不明確患者、1437例未同意隨訪患者及6165例非缺血性卒中患者后,有缺血卒中患者12 415例。基于研究需要,保留其中收入院的病例11 327例,再去掉缺失結局觀測和隨訪相關變量后,最終納入10 645例缺血性卒中患者。患者平均年齡65.18±12.23歲,女性4045例(38.0%),入院NIHSS評分4(2~9)分,3個月死亡患者447例(4.48%)。其中訓練集7451例,3個月死亡334例;測試集3194例,3個月死亡143例。

2.2 預測模型變量篩選結果 XGBoost模型最終篩選出20個變量納入預測模型,Logistic回歸預測模型最終納入27個變量,兩個模型預測因子大多數屬于基線特征變量。兩種模型篩選出的變量有3個相同,分別為入院NIHSS評分、健康教育和住院總天數。具體其他變量如表1所示。2.3 預測模型效果比較 訓練集與測試集中,XGBoost與Logistic回歸預測模型的AUC差異均無統計學意義(0.9001vs0.8933,P=0.3420;0.8539vs0.8278,P=0.0835),其余結果如表2所示,測試集ROC曲線如圖1所示。

3 討論

傳統Logistic回歸模型[6]作為一種有效的數據處理方法,廣泛應用于醫學、生物信息處理等領域。而XGBoost是美國華盛頓大學陳天奇[7]于2016年開發的Boosting庫,其兼具線性規模求解器和樹學習算法。XGBoost算法是集成學習boosting方法的一種,具有運行速度快、分類效果好、有效避免過擬合、支持自定義損失函數等優點,在機器學習領域受到追捧和青睞[8]。現如今越來越多的學者將機器學習模型預測結果作為一種臨床輔助醫師判斷手段,為臨床診療提供參考意見,以適應實際臨床應用環境。現階段,在臨床診療方面已有一些嘗試,如基于國際中心注冊的急性心肌梗死預測研究[9]、癌癥患者化療后的死亡預測[10]及卒中后肺炎預測等[11]。

本研究基于CNSR項目的缺血性卒中病例,分別采用了傳統的Logistic回歸和機器學習XGBoost算法,來構建缺血性卒中3個月死亡結局預測模型。考慮到兩種模型的底層結構不同,因而各自篩選變量以適應各自模型,采用分別進行變量篩選的方法來進行預測模型評價,也保證了對比的公平性,是本研究的優勢,與既往研究不同[12]。

在本研究中,總數據集10 645例,3個月死亡477例。對于類似這種大樣本、大批量數據而言,相比傳統Logistic模型,機器學習模型XGBoost有眾多優點:首先,支持并行計算,可調用計算機的所有內核同時運算,節省運算時間;同時采用L1+L2的正則化方法可防止因維度過高而帶來的過擬合問題;自帶交叉驗證及缺失值處理機制;靈活支持個性化目標函數和評估指標。其次,Logistic回歸分析假設中各特征之間是相互獨立的,并且模型只有線性的分割面,而應用XGBoost算法構建預測模型時能夠保留特征之間的相關性,使得預測效果更準確[13]。由于各研究中具體研究問題、研究設計及數據不同、XGBoost預測模型的表現也不盡相同,與傳統Logistic回歸預測模型相比,有些情形下兩者相當,有些情形下XGBoost更優。在類似數據量大、預測變量多、關系復雜時,機器學習模型更能凸顯其優勢。

未來如果要進一步提高機器學習模型(算法)的準確性,可以嘗試通過改變分類閾值提高靈敏度或陽性預測值,或結合更優的選擇算法來提高精準預測的能力[14]。其次,在本研究中應用特征篩選,最大限度地從原始數據中提取特征以供模型使用。數據清理和特征篩選都是特征工程的一部分,特征工程是數據分析中最耗時間和精力的一部分工作,它不像算法和模型那樣是確定的步驟,更多是臨床和工程上的經驗和權衡,因此沒有統一的方法,但它是必須且特別重要的一項工作,本研究在特征工

程上還需進一步探索。

表1 兩種預測模型變量篩選結果

表2 兩種預測模型效果比較

本研究的局限性在于進行預測模型評價時所用方法單一,主要考慮模型在AUC方面的表現。在評價預測模型時未來可以考慮綜合多種指標,常用的如Brier分數、F1-score等指標[15]。未來將會進一步探究不同模型對于缺血性卒中的適應條件,在預測因子、模型開發以及預測性能方面進行全面研究,以期為后續建立更加完善的缺血性卒中死亡預測提供更全面的借鑒。

圖1 兩種預測模型的測試集ROC曲線

[9] AL'AREF S J,MALIAKAL G,SINGH G,et al. Machine learning of clinical variables and coronary artery calcium scoring for the prediction of obstructive coronary artery disease on coronary computed tomography angiography:analysis from the CONFIRM registry[J]. Eur Heart J,2020,41(3):359-367.

[10] ELFIKY A A,PANY M J,PARIKH R B,et al. Development and application of a machine learning approach to assess short-term mortality risk among patients with cancer starting chemotherapy[J/OL]. JAMA Netw Open,2018,1(3):e180926[2020-02-20]. https://doi.org/10.1001/jamanetworkopen.2018. 0926.

[11] GE Y Q,WANG Q H,WANG L,et al. Predicting post-stroke pneumonia using deep neural network approaches[J]. Int J Med Inform,2019,132:103986.

[12] 王孟,覃露,王春娟,等. 基于機器學習算法的腦出血相關肺炎預測模型研究[J]. 中國卒中雜志,2020,15(3):243-249.

[13] 許源,馬健勇,葛艷秋,等. XGBoost模型對缺血性腦卒中出院后90 d內復發再入院風險的預測效果分析[J]. 中華神經醫學雜志,2018,17(8):813-818.

[14] 劉澤文. 基于機器學習的腦卒中復發預測模型研究[D]. 長沙:湖南大學,2015.

[15] POWERS D M W. Evaluation:from precision,recall and F-measure to ROC,informedness,markedness and correlation[J]. J Mach Learn Tech,2011,2(1):37-63.

猜你喜歡
模型研究
一半模型
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲欧洲日本在线| 99视频在线看| 综合网天天| 午夜视频免费一区二区在线看| 国产激爽爽爽大片在线观看| 国产精品制服| 国产成人免费高清AⅤ| 91精品啪在线观看国产91| av在线5g无码天天| 日本在线国产| 97精品伊人久久大香线蕉| 成年网址网站在线观看| 日本成人一区| 欧美精品v欧洲精品| 国产精品妖精视频| 中文字幕无码制服中字| h网址在线观看| 国产成人喷潮在线观看| 午夜国产不卡在线观看视频| 91丝袜在线观看| 国产不卡一级毛片视频| 无码免费视频| 国产产在线精品亚洲aavv| 国产在线视频福利资源站| 亚洲精品桃花岛av在线| av大片在线无码免费| 高潮毛片无遮挡高清视频播放| 亚洲欧洲日产无码AV| 奇米精品一区二区三区在线观看| 精品剧情v国产在线观看| 免费无码又爽又刺激高| 啊嗯不日本网站| 99精品国产电影| 久久精品国产91久久综合麻豆自制| 欧美日韩一区二区三区四区在线观看| 欧美第一页在线| 日韩麻豆小视频| 中文字幕亚洲另类天堂| 欧美专区在线观看| 欧美亚洲国产视频| 114级毛片免费观看| 在线观看91香蕉国产免费| 午夜精品国产自在| 亚洲综合色婷婷| 成年网址网站在线观看| 一本大道东京热无码av | 亚洲一区无码在线| 久久国产精品电影| 色婷婷国产精品视频| 午夜免费视频网站| 午夜小视频在线| 国产又爽又黄无遮挡免费观看| 久久免费视频6| 最新亚洲人成无码网站欣赏网| a毛片免费在线观看| 乱人伦中文视频在线观看免费| 久久国产精品嫖妓| 国产丝袜无码一区二区视频| 伦精品一区二区三区视频| 国产精品漂亮美女在线观看| 国产在线91在线电影| 啊嗯不日本网站| 国产打屁股免费区网站| 一级毛片免费不卡在线| 欧美全免费aaaaaa特黄在线| 青草视频久久| 日韩黄色精品| 麻豆国产在线观看一区二区| 国产不卡网| 婷婷五月在线| 中文字幕免费在线视频| 亚洲天堂网站在线| 国产成人精品一区二区| 亚洲无线视频| a在线亚洲男人的天堂试看| 国产亚洲精久久久久久久91| 精品99在线观看| 国产精品女主播| av无码一区二区三区在线| 亚洲人成影视在线观看| 日本成人一区| 黄色污网站在线观看|