王洪濤 余文華 盛燕
(1天津醫科大學腫瘤醫院醫務處 國家腫瘤臨床醫學研究中心 天津市腫瘤防治重點實驗室,天津 300000;2 School of Public Health & Preventive Medicine, Monash University;3天津醫科大學總醫院婦產科)
臨床上已經試圖通過心電圖(ECG)的 ST-T 異常改變,靜息時最大心率及血壓、總膽固醇、心絞痛類型等危險因素進行綜合冠心病(CHD)診斷,在提高疾病診斷效率的同時為病人減少花費,減輕痛苦〔1〕。ECG 出現持續性或動態 ST-T 改變一直被認為是慢性冠狀動脈供血不足的重要診斷依據,并作為以往診斷 CHD 的常用依據,但臨床實際應用中以 ECG的ST-T改變為依據診斷CHD的假陰性率及假陽性率都相對較高,近年有學者對此提出質疑〔2,3〕。眾多前瞻性流行病學研究證實靜息心率與CHD的發病率和死亡率相關〔4~7〕。本文通過探討靜息心電圖 ST-T 改變及靜息時心率與CHD嚴重程度的關系,并采用數據挖掘技術中的決策樹方法與傳統Logistic回歸方法做比較,尋找影響冠狀動脈疾病嚴重程度的相關因素為醫院開展相關衛生技術評估提供理論依據。
1.1研究對象 2007年1月至2014年6月在①Cleveland Clinic Foundation(Cleveland.data),②Hungarian Institute of Cardiology, Budapest (Hungarian.data),③V.A. Medical Center, Long Beach, CA (long-beach-va.data),④University Hospital, Zurich, Switzerland (Switzerland.data)醫院心內科住院疑似診斷為CHD并初次進行CAG診斷患者,男725例〔年齡(53.79±9.40)歲〕,女193例〔年齡(52.50±9.52)歲〕;CAG陽性508例(CHD組),陰性410例(非CHD組),見表1。
1.2診斷標準 高血壓的診斷采用最新的《中國高血壓指南》,把血壓值分為正常、高血壓1級、2級和3級。同時檢測患者總膽固醇(TC)、餐后8 h空腹血糖及疼痛發作時的臨床表現。心電圖檢測:心電圖儀器為美國GE公司所產出的15導聯心電圖機,患者在靜息狀態之下采取平臥姿勢,記錄患者ST段下移及抬高幅度及最高、最低導聯,T波異常狀況,Q 波時間和幅度及最寬最深的導聯,V1 及 V5 導聯的電壓變化幅度,心律、心率、電軸傳導阻滯類型及有無左室肥厚等情況。冠狀動脈造影:由心內科專業醫師操作完成,入路途徑為常規經股動脈或橈動脈途徑。左冠狀動脈至少投照4個體位,右冠狀動脈至少投照2個體位,必要時加其他體位至冠狀動脈各段能夠充分顯示。冠狀動脈狹窄直徑≥50%病變累及主要冠狀動脈支數為病變支數,分為0、1、2、3支病變,累及左主干時以同時累及左前降支和左回旋支計算。診斷標準以≥50%狹窄病變累及主要冠狀動脈即診斷為CHD。
1.3統計方法 利用SPSS17.0軟件進行t檢驗或方差分析,運用SAS 9.2企業數據挖掘模塊對數據進行預處理,隨機選取樣本量的67%作為訓練集,分別構建多因素Logistic回歸(逐步法)分析及CHAID決策樹,其他選項均選擇為默認設置,其余樣本作為驗證集驗證模型的優劣。并通過繪制受試者工作特征(ROC)曲線,比較不同模型ROC曲線下面積(AUC),探討影響CHD的因素并比較2種分類模型的預測效果。

表1 CHD與非CHD組臨床資料比較(n)
1)數據例數有缺失
2.1靜息心電圖ST-T改變與CHD嚴重程度的關系 靜息心電圖ST-T改變診斷CHD的敏感性為65.4%,特異性為44.5%,陽性預測值為 48.7%,陰性預測值為61.4%,一致性檢驗Kappa值為0.093(P<0.05)。心電圖ST-T改變與CAG(44.66%)診斷的陽性率差異有統計學意義(P<0.000 1)。通過病變血管數量進行分層衡量CHD嚴重程度,探討靜息心電圖ST-T改變與CHD嚴重程度的關系,如表2所示,不同CHD嚴重程度在靜息心電圖ST-T改變率上有統計學差異(P=0.028),血管病變數量越多,出現靜息心電圖ST-T改變的可能性越大。

表2 靜息心電圖狀態與CHD嚴重程度關系(n)
2.2靜息時最大心率與CHD嚴重程度的關系 由表1可以看出,靜息時最大心率與有無患CHD疾病的差異有統計學意義(P<0.05)。0、1、2、3支病變血管CHD患者靜息時最大心率分別為(140.250 0±22.349 73)、(136.717 4±24.537 19)、(142.151 5±22.803 67)、(130.882 4±16.799 86)次/min,可以看出最大心率在不同CHD血管病變嚴重程度之間,尚不能發現差異有統計學意義(P=0.205)。
2.3CHD多因素Logistic回歸分析 把所有患者納入分析,以是否患CHD為因變量,以年齡、性別、心絞痛類型、休息時血壓、總膽固醇等為自變量構建Logistic回歸模型,采用逐步回歸法,并對方程式作假設檢驗,似然比檢驗χ2=361.092,P<0.001,回歸方程成立。表3可見年齡、性別、心絞痛類型、心電圖ST-T改變、最大心率、運動型心絞痛、ST斜率和病變血管數量為患CHD的影響因素(P<0.05)。
2.4CHD影響因素決策樹分析 本研究把所有自變量納入后選出對CHD診斷有意義的變量,并按照變量的重要性(Importance)大小排序。結果發現決策樹葉子數為3時訓練集和驗證集的錯分率迅速下降,當葉子數為8時,訓練集錯分率達到最低。決策樹分析顯示,CHD影響因素主要為心絞痛類型(Importance值=1),ST段斜率(Importance值=0.412 7),病變血管數量(Importance值),運動型心絞痛(Importance值=0.309 6)和最大心率(Iwfhg=0.161 6)。
2.5兩種判別模型的比較 在通過兩種模型探索CHD影響因素的基礎上,對Logistic回歸模型與CHAID決策樹兩種模型的模擬結果做比較。如表4和表5所示,兩模型均較好地擬合了數據模型,其中以決策樹和回歸模型的錯分率分別為:0.209 8和0.245 5。比較模型受試者工作特征(ROC)曲線,回歸模型的ROC曲線下面積(AUC)為0.78,決策樹的AUC為0.82,二者差異有統計學意義(t=5.695,P<0.05),說明決策樹模型判別效果比Logistic回歸模型要優。

表3 多因素非條件Logistic回歸模型結果

表4 模型擬合結果比較

表5 兩種判別模型對訓練集和驗證集的分類結果
冠心病發生多決定于兩個或兩上以上的危險因素的協同作用。鄭凌飛等〔8〕認為,CHD的危險因素主要包括:性別﹑年齡、高血壓、糖尿病、吸煙史及血清、三酰甘油(TG)、總膽固醇(TC)、低密度脂蛋白膽固醇(LDL-C)、高密度脂蛋白膽固醇(HDL-C)等。本研究Logistic回歸顯示,年齡、性別、心絞痛類型、靜息心電圖ST-T改變、靜息時最大心率、運動型心絞痛、ST斜率和病變血管數量為是否患CHD的主要影響因素;決策樹分析也顯示,CHD影響因素主要為心絞痛類型,ST段斜率、病變血管數量、運動型心絞痛和靜息時最大心率。
近年來通過靜息心電圖 ST-T 的改變為依據診斷CHD一直存在較大的爭議。林繼華等〔9〕認為在老年CHD的診斷中,如果用常規靜息心電圖 ST-T 的改變作為診斷標準,其診斷可能會出現較大偏差。王曉雅等〔10〕發現對于臨床有典型心絞痛癥狀的患者心電圖持續性ST-T改變的診斷價值較高;而當患者不具有典型心絞痛的癥狀時,心電圖持續性 ST-T改變的診斷價值非常低。本研究也顯示心電圖ST-T的改變與冠狀動脈造影在CHD中的診斷陽性率差異顯著,心電圖診斷的敏感性為65.4%,特異性為44.5%,陽性預測值為 48.7%,陰性預測值為61.4%。這可能與心電圖記錄的是患者瞬間心電變化情況,獲得的心電信息較少,診斷冠心病敏感性及特異性均較低有關〔11〕。但本研究也發現不同CHD嚴重程度在心電圖ST-T改變率上有統計學差異,說明血管病變數量越多,出現心電圖ST-T改變的可能性越大。因此心電圖在一定程度上是排除CHD診斷的手段,雖然假陽性率比較高,但可以起到一定的指示作用,確診CHD還需要結合其他檢測結果和臨床特征進行綜合分析。
靜息心率加快不僅與CHD相關,而且還與糖尿病、心力衰竭及高血壓等心血管疾病有關,既是心血管疾病的原因,又是心血管疾病的結果,但其影響仍然在被臨床醫生忽視。我們通過分析靜息時最大心率與CHD嚴重程度的關系,認為在有無患CHD疾病組間,靜息時最大心率差異有統計學意義,但靜息時最大心率在不同CHD血管病變嚴重程度之間,尚不能發現有統計學差異。通過Logistic回歸分析及決策樹分析也顯示靜息時最大心率是CHD的主要危險因素之一,這與BRH、Framingham、NHANES及CASS等研究〔5~7〕認為心率增快是CHD及心力衰竭的獨立危險因素的結論相吻合。
決策樹是一種經典的數據挖掘方法之一,對原始數據類型要求較低,可以同時處理分類和連續變量,且其模型的分類結果靈敏度、特異度較高,越來越得到臨床分析的認可和應用。在分類判別分析中,與傳統Logistic回歸相比,決策樹模型的生成過程是通過對大量數據進行特征抽取處理,對訓練集反復訓練分組,據其規律建立初始樹,進行適當的剪枝使之成為分類預測新的參數的最佳模型〔12〕。本文結果認為多因素Logistic回歸分析及決策樹方法分析影響冠狀動脈疾病嚴重程度的因素,均較好地擬合了數據模型,其中決策樹方法與Logistic回歸方法相比,各項評價指標均優于Logistic回歸分析,與相關報道一致〔13〕,體現了數據挖掘方法相對傳統回歸分析方法的優勢。