999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

決策樹模型在臨床研究數(shù)據(jù)分析中的應(yīng)用

2024-06-21 00:00:00沈范玲子王瑞平
上海醫(yī)藥 2024年5期
關(guān)鍵詞:臨床研究

摘 要 決策樹模型是一種有監(jiān)督的機器學(xué)習(xí)方法,分類規(guī)則通常采取IF-THEN形式,分析結(jié)果常以樹形圖呈現(xiàn),具有可解釋性強、易于理解的優(yōu)勢,在災(zāi)害預(yù)測、環(huán)境監(jiān)測、臨床診療決策等領(lǐng)域均有廣泛的應(yīng)用。本文從決策樹模型概念入手,介紹了決策樹模型的一般構(gòu)建步驟、分類與回歸樹(classification and regression tree, CART)決策樹模型在臨床研究數(shù)據(jù)分析中的應(yīng)用,并應(yīng)用SPSS軟件示例CART決策樹模型的構(gòu)建過程和實現(xiàn)方法,以期為臨床研究者采用決策樹模型進行數(shù)據(jù)分析提供參考。

關(guān)鍵詞 決策樹 臨床研究 CART算法 SPSS軟件

中圖分類號:G304; R-3 文獻標志碼:C 文章編號:1006-1533(2024)05-0014-05

引用本文 沈范玲子, 王瑞平. 決策樹模型在臨床研究數(shù)據(jù)分析中的應(yīng)用[J]. 上海醫(yī)藥, 2024, 45(5): 14-18.

基金項目:上海市衛(wèi)生健康委員會衛(wèi)生行業(yè)臨床研究專項(202240371);上海申康醫(yī)院發(fā)展中心第二輪促進市級醫(yī)院臨床技能與臨床創(chuàng)新三年行動計劃——研究型醫(yī)師創(chuàng)新轉(zhuǎn)化能力培訓(xùn)項目(SHDC2022CRS053);上海市皮膚病醫(yī)院引進人才科研基金項目(2021KYQD01);上海人才發(fā)展基金資助項目(2021SHRCFZ01);上海市醫(yī)院協(xié)會醫(yī)院管理研究基金項目(X2022117)

Application of decision tree modeling in clinical research data analysis

SHEN Fanlingzi1, WANG Ruiping1,2

(1. School of Public Health, Shanghai University of Traditional Chinese Medicine, Shanghai 201203, China; 2. Clinical Research Innovation Center, Shanghai Skin Disease Hospital, Shanghai 200443, China)

ABSTRACT Decision tree model is a supervised machine learning method and its classification rules usually take the form of IF-THEN, the analysis results are often presented in the form of tree diagrams, with the advantages of solid interpretability and ease understanding, and it has been widely used in the fields of disaster prediction, environmental monitoring, clinical diagnosis and treatment decision-making. This article starts from the concept of decision tree model, introduces the general construction steps of decision tree model, the application of classification and regression tree (CART) decision tree model in the analysis of clinical research data, and the construction process and realization method of CART decision tree model using the SPSS software example, so as to provide a better solution for clinical researchers to use decision tree model for data analysis.

KEY WORDS decision trees; clinical research; CART algorithm; SPSS software

臨床醫(yī)學(xué)研究中,在探討多個自變量和因變量之間關(guān)系時,常采用多元線性回歸、logistic回歸、Cox回歸分析、廣義線性模型等經(jīng)典統(tǒng)計分析方法。近年來,隨著臨床研究的深入和數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,機器學(xué)習(xí)已成為臨床研究數(shù)據(jù)分析的重要工具,以解決不同數(shù)據(jù)特征之間存在復(fù)雜相互作用問題。決策樹模型是機器學(xué)習(xí)中的一種重要算法,具有可解釋性強、易于理解的優(yōu)勢,被廣泛應(yīng)用于分類、預(yù)測、規(guī)則提取等領(lǐng)域[1]。在臨床研究中,決策樹模型常應(yīng)用于疾病預(yù)測和診斷、危險因素篩查、治療方法選擇等研究,其能較好地為研究人員提供科學(xué)的決策依據(jù)[2]。本文以上海地區(qū)銀屑病患者治療效果影響因素分析為例,介紹決策樹模型在臨床研究數(shù)據(jù)分析中的應(yīng)用,以及其在統(tǒng)計分析軟件SPSS 26.0中的實現(xiàn)方法。

1 決策樹模型簡介

決策樹模型是樹模型的一種類型,是一種非參數(shù)有監(jiān)督的機器學(xué)習(xí)方法,是數(shù)據(jù)挖掘機器學(xué)習(xí)領(lǐng)域常用模型。迭代二叉樹3代(iterative dichotomiser 3, ID3)、C4.5、分類與回歸樹(classifi cation and regression tree, CART)、卡方自動交互檢測(chi-squared automatic interaction detector, CHAID)、快速無偏高效統(tǒng)計樹(quick unbiased effi cient statistical tree, QUEST)算法均是常見的決策樹模型算法。如圖1所示,一棵決策樹由一個根節(jié)點、若干個決策節(jié)點和若干個葉節(jié)點組成。根節(jié)點是決策樹的第一個選擇點,包含整個數(shù)據(jù)集;決策節(jié)點代表決策過程中所考慮的特征,根據(jù)特征取值將數(shù)據(jù)集進一步劃分;葉節(jié)點表示分類或預(yù)測的結(jié)果,將不再繼續(xù)分割。在相連的兩個節(jié)點中,更靠近根節(jié)點的是父節(jié)點,另一個則是子節(jié)點,父節(jié)點是子節(jié)點的直屬上級節(jié)點[3]。

決策樹模型的構(gòu)建一般包括3個步驟:特征的選擇、決策樹的生成和決策樹的剪枝[4]。首先,特征的選擇是最重要的環(huán)節(jié),其目標在于找到最能區(qū)分不同類別的特征,從而提升決策樹的分類效果。實際應(yīng)用時,不同的決策樹算法有不同的特征衡量標準。例如,在ID3算法中使用“信息增益”作為特征選擇標準,C4.5算法中使用“信息增益率”作為特征選擇標準,而CHAID算法中則使用“卡方檢驗結(jié)果”作為特征選擇標準。其次,決策樹的生成采用自上而下的遞歸方式進行,計算機會根據(jù)所選擇的特征的不同取值向下劃分,最終形成一棵決策樹。最后,決策樹的剪枝是為了防止過擬合現(xiàn)象發(fā)生,提高決策樹的泛化能力,剪枝方法有預(yù)剪枝和后剪枝2種類型[5]。

2 CART決策樹算法

CART是一種經(jīng)典的決策樹算法,由Leo Breiman等于1984年正式提出,廣泛應(yīng)用于分類或回歸問題[3]。CART算法使用“基尼指數(shù)”作為特征選擇標準,基尼指數(shù)越小則代表所選擇的特征越好。基于CART算法生成的決策樹是一棵二叉樹,具有清晰的層級結(jié)構(gòu),易于理解和解釋。同時,CART算法在構(gòu)建決策樹模型時既能處理分類變量也能處理連續(xù)變量,適用范圍大,目前正逐步在臨床研究中得到廣泛應(yīng)用。

3 CART決策樹在臨床研究數(shù)據(jù)分析中的應(yīng)用

3.1 數(shù)據(jù)來源

本文以“吸煙飲酒對銀屑病患者治療效果的影響研究”數(shù)據(jù)集為例,闡述如何應(yīng)用CART決策樹模型探討銀屑病患者治療效果的影響因素。該數(shù)據(jù)集中包含8個變量(年齡、性別、文化程度、慢性病史、銀屑病家族史、吸煙史、飲酒史和治療效果),共512條數(shù)據(jù)記錄。因變量為銀屑病治療8周的臨床效果,包括“治療成功”和“治療不成功”2個分類。本研究將患者治療8周后銀屑病皮損面積和嚴重程度指數(shù)(psoriasis area and severity index, PASI)較基線改善程度≥75%的患者定義為“治療成功”,而PASI較基線改善程度<75%的患者定義為“治療不成功”。除治療效果外,其余7個變量均可視為影響治療效果的特征,為分類變量(年齡“<50=1,≥50=2”;性別“男性=1,女性=2”;文化程度“初中及以下=1,高中=2,大學(xué)及以上=3”;慢性病史“有=1,無=2”;銀屑病家族史“有=1,無=2”;吸煙史“有=1,無=2”;飲酒史“有=1,無=2”)。

3.2 SPSS軟 件操作說明

將銀屑病患者數(shù)據(jù)集轉(zhuǎn)為SPSS格式并導(dǎo)入SPSS軟件后,進行參數(shù)設(shè)置。選擇“分析→分類→決策樹”,在彈窗中,可以單擊“定義變量屬性”對變量進行定義,如已在“變量視圖”中進行定義,可以選擇“確定”按鈕進行后續(xù)操作(圖2)。

如圖2所示,將“治療效果”放入因變量列表框,單擊“類別”,在復(fù)選框中選擇一個(或多個)感興趣的目標類別。在本文中,可先將“治療成功”作為感興趣的目標變量,單擊“繼續(xù)”返回主對話框;再把年齡、性別、文化程度、慢性病史、銀屑病家族史、吸煙史和飲酒史等7個變量放入自變量列表框;最后在“生長法”欄目中選擇“CRT”方法。

在主對話框的右側(cè)有“輸出”“驗證”“條件”“保存”和“選項”等5個按鈕:單擊“輸出”,可以對輸出的樹形圖、生成分類規(guī)則等進行設(shè)置;單擊“驗證”,可以選擇驗證方法;單擊“條件”,可以對最大樹深、父節(jié)點和子節(jié)點的最小樣本數(shù)量等進行設(shè)置;單擊“保存”,可以選擇保存終端節(jié)點數(shù)、預(yù)測值、預(yù)測概率等;單擊“選項”,可以對缺失值、錯誤分類成本等進行設(shè)置。本文選擇了以“表和圖表”的形式輸出決策樹模型,勾選輸出自變量對模型的重要性;采用隨機分割驗證,70%的數(shù)據(jù)用于訓(xùn)練集,30%的數(shù)據(jù)用于測試集;設(shè)置最大樹深為4層,設(shè)置父節(jié)點和子節(jié)點的最小樣本數(shù)量分別為50和10;勾選保存終端節(jié)點數(shù)、預(yù)測值、預(yù)測概率,單擊“繼續(xù)”返回主對話框。由此,單擊“確定”,得到?jīng)Q策樹模型,可在查看器中雙擊圖片,對圖片進行編輯。參數(shù)設(shè)置如圖3所示,輸出結(jié)果如圖4所示。

3.3 結(jié)果描述

決策樹結(jié)果顯示“吸煙史”是模型的根節(jié)點,也是影響治療效果最重要的影響因素,不吸煙的銀屑病患者治療成功率明顯高于吸煙的銀屑病患者。其他變量根據(jù)重要性依次為飲酒史、性別、文化程度以及銀屑病家族史。決策樹模型共有9個葉節(jié)點,即可提取9條分類規(guī)則。如表1所示,節(jié)點15的分類規(guī)則為IF“吸煙史=無”AND“飲酒史=無”AND“文化程度=高中;大學(xué)及以上”AND“銀屑病家族史=無”THEN“治療效果=治療成功”,該節(jié)點人群治療成功的百分比為79.2%。

3.4 預(yù)測效果評價

使用受試者工作特征(receiver operating characteristic, ROC)曲線對模型進行評價。如圖5所示,選擇“分析→分類→ROC曲線”,在檢驗變量框中放入之前保存的預(yù)測概率變量,狀態(tài)變量框中放入治療效果變量,設(shè)置狀態(tài)變量值,再在“顯示”一欄中勾選需要的參考線和數(shù)據(jù),單擊“確定”,即可生成ROC曲線圖。此外,可在查看器中雙擊圖片,對圖片進行編輯。本文決策樹模型的ROC曲線結(jié)果如圖6所示。

參考文獻

[1] 張良均, 謝佳標, 楊坦, 等. R語言與數(shù)據(jù)挖掘[M]. 北京:機械工業(yè)出版社, 2016.

[2] 張燕. 基于決策樹的老年心血管疾病住院患者衰弱預(yù)測模型構(gòu)建[D]. 汕頭: 汕頭大學(xué), 2021.

[3] 黃智瀕. 現(xiàn)代決策樹模型及其編程實踐:從傳統(tǒng)決策樹到深度決策樹[M]. 北京: 機械工業(yè)出版社, 2022.

[4] 汪靖翔. 決策樹算法的原理研究和實際應(yīng)用[J]. 電腦編程技巧與維護, 2022(8): 54-56; 72.

[5] 賴春廷. 決策樹分類算法研究[J]. 信息與電腦(理論版), 2020, 32(14): 59–62.

猜你喜歡
臨床研究
平竇膏治療濕熱毒瘀型肛隱窩炎40例
口干是否類風(fēng)濕關(guān)節(jié)炎中醫(yī)陰虛證候關(guān)鍵指標的臨床研究
碳酸氫鈉溶液關(guān)節(jié)腔持續(xù)沖洗治療痛風(fēng)性膝關(guān)節(jié)炎的臨床研究
黃芝通腦絡(luò)膠囊治療糖尿病周圍神經(jīng)病變的臨床觀察
小兒院前急救及急診心肺復(fù)蘇的臨床研究
動態(tài)X光片在頸椎病早期診斷中的臨床研究
血漿置換聯(lián)合血漿吸附治療慢性重型肝炎的臨床研究
復(fù)方硼酸含漱液的藥理毒理學(xué)研究
缺血性腦血管病患者腦動脈狹窄的分布
主站蜘蛛池模板: 亚洲欧美在线看片AI| 亚洲国产亚综合在线区| 国产欧美精品专区一区二区| 人妻21p大胆| 九色91在线视频| 激情综合婷婷丁香五月尤物| 91视频区| 日韩中文无码av超清| 激情综合网址| 国产理论一区| 无码AV高清毛片中国一级毛片| 人妻丰满熟妇啪啪| 国产成熟女人性满足视频| 成人91在线| 国产乱人乱偷精品视频a人人澡 | 国产精品区视频中文字幕| 国产91麻豆免费观看| 久久特级毛片| 中文成人无码国产亚洲| 国产毛片片精品天天看视频| 亚洲日韩国产精品综合在线观看| 中文字幕 91| 人妻中文字幕无码久久一区| 亚洲综合久久成人AV| 国产va在线观看免费| 日本一区二区不卡视频| 91蝌蚪视频在线观看| 波多野结衣爽到高潮漏水大喷| 91无码视频在线观看| 亚洲视频三级| 国产一区二区三区免费观看 | 手机在线国产精品| 亚洲中文精品久久久久久不卡| 91在线播放免费不卡无毒| 国产国产人成免费视频77777 | 中文天堂在线视频| 福利在线不卡| 免费一看一级毛片| 色综合久久88| 成人免费网站久久久| 亚洲综合18p| 精品人妻AV区| 亚洲第一国产综合| 国产毛片基地| 欧美在线三级| 国产微拍精品| 中文字幕免费播放| 九九久久精品免费观看| 国产91无码福利在线| 国产视频欧美| 在线看片免费人成视久网下载| 久久伊伊香蕉综合精品| 日本国产精品一区久久久| 99久久国产自偷自偷免费一区| 免费AV在线播放观看18禁强制| 亚洲精品色AV无码看| 亚洲女人在线| 极品性荡少妇一区二区色欲| 精品一区二区三区视频免费观看| 一区二区三区四区精品视频 | 综合色区亚洲熟妇在线| 97狠狠操| 国产亚洲欧美另类一区二区| 免费又黄又爽又猛大片午夜| 99伊人精品| 亚洲av色吊丝无码| 午夜性刺激在线观看免费| 天天综合网色中文字幕| 97国产一区二区精品久久呦| 日韩一级二级三级| 国产精品亚洲一区二区在线观看| 午夜老司机永久免费看片| 狠狠色综合久久狠狠色综合| 五月婷婷精品| 国产对白刺激真实精品91| 在线免费观看AV| 国产亚洲第一页| 国产在线麻豆波多野结衣| 欧美午夜久久| 美美女高清毛片视频免费观看| 999福利激情视频| 国产欧美性爱网|