




摘? 要:通過利用加州大學歐文分校數據庫的心臟病數據集,通過建立logistic模型和決策樹模型分析確診心臟病的危險因素。采用ROC曲線和AUC面積作為標準來評價模型預測效果,結果顯示兩種模型對于數據的擬合都表現不錯。與此同時兩種模型顯示胸痛類型、靜息血壓、熒光染色法測定的主要血管數和是否患地中海貧血癥對于最終是否確診心臟病有顯著影響。
關鍵詞:邏輯回歸;決策樹;logistic模型
中圖分類號:TP391;O212.1? ? 文獻標識碼:A? 文章編號:2096-4706(2023)07-0117-04
Abstract: By using the heart disease data set of the University of California Irvine database, the risk factors of diagnostic heart disease are analyzed by establishing the Logistic Regression model and Decision Tree model. The ROC curve and AUC area are used as criteria to evaluate the prediction effect of the model. The results show that the two models perform well in fitting the data. At the same time, the two models show that the type of chest pain, resting blood pressure, the number of main blood vessels measured by fluorescent staining and whether or not suffering from thalassemia has a significant impact on whether the final diagnosis of heart disease occurs.
Keywords: Logistic Regression; Decision Tree; logistic model
0? 引? 言
心臟病是由于心臟發生病變的而引起的心臟功能受損或異常的一種疾病,心臟病輕則影響各器官功能異?;蛏眢w的相關疾病,重則出現心臟性猝死危及生命,因此對心臟病的診斷則顯得至關重要[1]。傳統的對于心臟病的診斷主要是心電圖和彩超兩種方式,王敏紅和尹巧綿[2]追蹤了2006年—2009年首都醫科大學附屬兒童醫院2016孕婦的彩色多普勒超聲心動圖和新生兒先天性心臟病的情況,發現彩色多普勒超聲心動圖對于先天性兒童心臟病能起到早期診斷的效果。陳井英[3]采用同樣的技術彩色多普勒超聲心動圖與心電圖檢查進行比較,對比得到彩色多普勒超聲心動圖對于診斷心臟病比心電圖更有效。相比于傳統法式,謝金華和陳冠民[4]用Logistic回歸模型對糖尿病并發心臟病的危險因素進行分析,結果顯示體重指數大、心理評分較高、舒張壓高及血脂高,其發生心臟病的風險增加。程穎等[5]利用PCA的決策樹算法對心臟病診斷進行了研究。在此基礎上,文章利用常規的身體檢查例如血清膽汁和空腹血糖等建立Logistic回歸模型與決策樹模型,分析確診心臟病的危險因素。
1? 資料與方法
1.1? 資料來源
心臟作為人體最重要的器官之一,對于心臟的檢查必須慎之又慎,醫生的工作便是根據
檢查的結果作出正確的醫學判斷并給出相應的治療方案。文章是引用加州大學歐文分校數據庫的心臟病數據集,通過對數據清洗與整理后得到了303個樣本,每個樣本包括13個相對應的變量。
1.2? 資料處理
在獲得的303個疑似心臟病患者的檢測樣本中,由于有6個樣本中存在缺失數據[6],可以先進行刪除,確診心臟病的有137例,占總人數的46.13%;未患病的有160例,占總人數的53.87%。在每個樣本中已經對每個疑似心臟病患者進行了13項統計和檢測,其中包括:年齡、性別、胸痛類型、靜息血壓、血清膽汁、空腹血糖、靜息心電圖結果、達到的最大心率、是否有運動心絞痛、運動引起的ST下降、峰值運動ST段的斜率、熒光染色法測定的主血管數以及是否患有地中海貧血癥。
1.3? 研究方法
事實上預測是否患心臟病的方法有很多,但預測的結果有時與真實情況卻是大相徑庭,這事關患者能否得到及時的醫治甚至事關患者生命,故作出正確的預測或者判斷對于患者至關重要。本研究通過采用Logistic回歸和決策樹[7-9]兩種方法對上述取得的資料中的樣本進行對應的處理,通過兩種模型擬合得到的結果進行比對分析,比較兩種模型的擬合效果等,進而得到確診心臟病的主要影響因素。其次對于Logistic模型和決策樹模型的擬合分析選用的輔助軟件為R軟件。
2? 邏輯回歸(Logistic Regression)
2.1? 模型概述
邏輯回歸屬于概率型回歸模型,屬于廣義線性模型的一種,被廣泛的用于概率預測與分類[10,11],主要用于二分類問題或多分類問題與一組解釋變量之間的關系,在解釋變量中,解釋變量可以是二分類變量或者多分類變量,也可以是連續變量或者離散變量。在本模型當中就是通過13項體檢結果對病人是否患有心臟病這一二分類問題進行估計。
式中的Y表示被解釋變量,具體在Logistic回歸模型中表示是否確診心臟病,X表示解釋變量,在模型中具體表現為對是否患有心臟病的影響因素,例如是否患地中海貧血癥或者靜息血糖等,β為待估計的參數,它的大小和符號表征影響因素對于被解釋變量的貢獻程度以及作用方向。
2.2? 變量賦值
在所選取的變量中,既包括年齡和心率等連續型的變量,也包括是否罹患地中海貧血癥和峰值運動ST段的斜率等離散型變量,因此需針對模型中所涉及的相關變量進行賦值,具體賦值情況如表1所示。
2.3? 重要變量解釋
血清膽汁:血清膽汁為人體膽汁中的重要組成部分,是膽固醇經肝組織代謝的最終產物,測定血清膽汁對于肝臟疾病的診斷有重要作用。
峰值運動ST段的斜率:指心電圖結果中的一段特殊階段的變化情況,一般心電圖ST段變化都預示著心臟部位存在一定的問題,常見的有ST段斜率為上坡、平緩和下坡三種情況,而上坡常見于急性心肌梗死和心肌缺血的患者,下坡常見于穩定心絞痛患者。
地中海貧血:地中海貧血又稱珠蛋白生成障礙性貧血,是一種遺傳性的血液疾病,大體上可以分為正常、可逆缺陷與固定缺陷三種類型?;嫉刂泻X氀獣绊懷t蛋白的正常合成,并發后會伴隨著典型的一些貧血癥狀,例如頭暈、乏力、胸悶、氣短和氣促等,患者由于溶血會間接引起膽紅素升高,就會出現黃疸等一些臨床表現。
2.4? 因變量統計
對因變量即數據中心心臟病確診的相關情況進行了簡單的描述性統計分析,具體分析情況如表2所示。
2.5? Logistics回歸結果
通過將13個影響心臟病判定的因素納入自變量,然后進行二項Logistics回歸,回歸結果整理后如表3所示,表3給出了參數β的估計值,以及β對應自變量的均方誤差,除此之外還給出了p值和OR值,其中當p<0.05時我們認為該影響是顯著的(注:由于篇幅原因僅將顯著的變量歸納于表3中),OR值為某一事件發生的概率與不發生概率的比值,在本文中表現為在某一自變量下確診心臟病與未確診心臟病的比值,最后在給出OR值的同時還給出了OR值在置信度為95%下的置信區間。
2.6? Logistics回歸結果解讀
由表3的回歸結果可知:性別、胸痛類型、是否患有地中海貧血癥、熒光染色法測定的主血管數、峰值運動ST段的斜率和靜息血壓對于最終確診心臟病有統計學意義(p<0.05),是最終確診心臟病的危險因素。相反年齡、血清膽汁、空腹血糖是否>120 mg/dl、靜息心電圖結果、達到的最大心率、運動誘發心絞疼和運動引起的ST下降對于最終是否確診心臟病無顯著影響(p<0.05),不是最終確診心臟病的危險因素。
根據Logistic回歸的結果顯示性別對于最終確診心臟病有顯著影響,即男性確診心臟病相較于女性更容易確診心臟病,這可能與男性和女性不同的生活方式有關,例如男性抽煙酗酒的比例遠大于女性等;根據回歸系數的正負可得到,胸痛類型為1(典型心絞痛)、2(非典型心絞痛)和3(非心絞痛)時,對于確診心臟病作用方向為負,即有上述癥狀反而不易確診心臟??;此外靜息血壓、峰值運動ST段的斜率為平緩、熒光染色法測定的主血管數和有可逆性的地中海貧血癥對于確診心臟病有正向的作用,即有上述癥狀會在不同程度的影響最終心臟病的確診。
以Logistic回歸模型的預測值為狀態變量作出的ROC曲線如圖1所示,曲線顯示在截斷值為0.296時,Logistic回歸的特異度達到了0.863,靈敏度為0.825,決策樹模型的ROC曲線下面積為0.866,說明在Logistic回歸模型對于本文中所用的心臟病數據具有非常不錯的預測效果,對于后續用于相關病例數據的預測具有指導意義。
3? 決策樹模型
3.1? 決策樹模型介紹
決策樹模型最早由Hunt等人于1966年提出的一種既可用于分類又可用于回歸的一種監督機器學習方法,決策樹模型相對于其他模型的原理更容易理解且建模時容易實現,并且能夠在短時間內對大數據進行很準確的分析與預測。
3.2? 建立決策樹模型
利用相關數據和建模規則構建的確診心臟病風險預測圖如圖2所示。
該樹形圖總計有4層,共13個節點,7個終端節點。根據決策樹模型可知地中海貧血癥、胸痛類型、熒光染色法測定的主血管數、靜息血壓和運動引起的ST下降是影響最終是否確診心臟病的重要影響因素。
3.3? 決策樹模型解讀
1)當胸痛類型<1(即為無癥狀),熒光染色法測定的主血管數≥1時確診心臟病的概率達到了95%。
2)當胸痛類型<1(即為無癥狀),熒光染色法測定的主血管數<1,運動引起的ST下降≥1.6時,確診心臟病的概率達到了88%。
3)當胸痛類型<1(即為無癥狀),熒光染色法測定的主血管數<1,運動引起的ST下降<1.6,靜息血壓≥141時,確診心臟病的概率為71%。
4)當胸痛類型≥1(即為典型心絞痛、非典型心絞痛和非心絞痛),地中海貧血癥檢查顯示為可逆缺陷,峰值運動ST段的斜率為2和3(即為平或下坡)時,確診心臟病概率達到63%。
決策樹模型的ROC曲線如圖3所示,曲線顯示在以0.562為截斷值時,決策樹模型的特異度為0.925,靈敏度為0.759,決策樹模型的ROC曲線下面積為0.883,具有很好的預測效果,能夠很好的對于后續心臟病診斷提供有別于Logistic回歸的另外一種估計方法,也可兩種方法同時使用,提高預測結果的可信度。
4? 結? 論
文章利用Logistic回歸和決策樹兩種不同的模型對影響心臟病的13個變量進行建模分析,兩種模型都顯示是否患地中海貧血癥、胸痛的類型、熒光染色法測定的主血管數和靜息血壓是心臟病確診的危險因素。根據兩種模型的ROC曲線下面積可知,兩種模型對于心臟病的預測都有不錯的表現,這對于臨床上患者心臟病的診斷有十分重要的指導意義。最后在基于兩種模型預測的基礎上若能結合心電圖和彩色多普勒超聲心動圖對病情進行進一步分析,相信能為醫生和患者爭取到寶貴的時間挽救病人的生命。
參考文獻:
[1] BARKHUIZEN M,ABELLA R,VLES J S H,et al. Antenatal and Perioperative Mechanisms of Global Neurological Injury in Congenital Heart Disease [J].Pediatr Cardiol,2021,42(1):1-18.
[2] 王敏紅,尹巧綿,孫艷麗,等.胎兒及新生兒先天性心臟病的篩查經隨訪后的確診和結局 [J].中國醫刊,2012,47(12):72-74.
[3] 陳井英.心臟彩色多普勒超聲在高血壓心臟病診斷工作中的應用分析 [J].中國實用醫藥,2022,17(16):103-105.
[4] 謝金華,陳冠民,陳華.Ⅱ型糖尿病并發心臟病危險因素的logistic回歸分析 [J].醫學新知雜志,1999(3):124-125+148.
[5] 程穎,崔運濤.基于PCA的決策樹算法在心臟病診斷中的應用 [J].計算機與數字工程,2009,37(10):171-174.
[6] 曹雨,王峰,黃沃,等. 應用統計學 [M]. 北京:人民郵電出版社,2013:246.
[7] 任海燕,梁雨,左彭湘.基于logistic回歸與決策樹模型的母乳喂養影響因素分析 [J].中國衛生統計,2019,36(4):532-534.
[8] 劉兵,李蘋,朱玫燁,等.決策樹模型與logistic回歸模型在胃癌高危人群干預效果影響因素分析中的應用 [J].中國衛生統計,2018,35(1):70-73.
[9] AMINI P,AHMADINIA H,POOROLAJAL J,et al. Evaluating the high risk groups for suicide:a comparison of logistic regression,support vector machine,decision tree and artificial neural network [J].Iran J Public Health,2016,45(9):1179-1187.
[10] 張宇瑤,葛榕榕,孫剛.基于二元logistics回歸的患者過度醫療檢查認知及影響因素研究 [J].中國衛生事業管理,2020,37(12):893-895+899.
[11] 嚴進錦,鄔海,韓斌德.結核性膿胸術后殘腔形成的危險因素多因素Logistics回歸分析 [J].中國醫學創新,2020,17(18):128-131.
作者簡介:張小胡(1995—),男,漢族,四川宜賓人,碩士研究生,研究方向:數理統計。