左雨露,吳 宇,楊錦鵬,趙夢夢
(惠州市中大惠亞醫院心血管內科,廣東 惠州 516081)
據《中國心血管健康與疾病報告2021》顯示,2019 年我國農村、城市心血管病分別占死因的46.74%和44.26%。每5 例死亡中就有2 例死于心血管病。推算心血管病現患人數3.3 億,其中冠心病1139 萬。減少心血管疾病的發病率及死亡率重在預防,預防的關鍵在于找到合適的干預靶點。既往研究顯示,血脂代謝異常及脂質沉積為冠狀動脈粥樣硬化的啟動因素。改善血脂代謝異常為預防動脈粥樣硬化的重要措施。目前臨床常檢驗的血脂指標有總膽固醇(TC)、低密度脂蛋白膽固醇(LDL-C)、高密度脂蛋白膽固醇(HDL-C)、載脂蛋白B(ApoB)、甘油三酯(TG)、脂蛋白a[Lp(a)]等。LDL-C 為轉運至血管壁的膽固醇,是脂質譜中致動脈粥樣硬化的主要因素,而HDL-C 為逆向轉運的膽固醇,對心血管起保護作用,非高密度脂蛋白膽固醇(N-HDL-C)為TC-HDL-C,常作為控制心血管風險的備選干預靶點。ApoB 是乳糜微粒(CM)、極低密度脂蛋白(VLDL)、LDL、Lp(a)的載脂蛋白之一,每一個CM、VLDL、LDL、Lp(a)顆粒中均含有1 分子Apo B。血液ApoB 含量代表著所有致動脈粥樣硬化顆粒含量。目前使用的血脂數據種類繁多,給臨床工作帶來諸多不便。本研究運用特征工程的思想,構建可解釋的膽固醇指數,以全面的反映膽固醇對冠狀動脈粥樣硬化的影響,并探討運用這一整合了所有血脂數據的單一指標來預測嚴重冠狀動脈粥樣硬化的合理性,現報道如下。
1.1 一般資料 收集2021 年6 月-2022 年6 月惠州市中大惠亞醫院收治的68 例28~82 歲冠狀動脈粥樣硬化患者,排除既往行PCI、CABG 及外周動脈支架植入術患者,排除既往曾長期應用他汀類藥物患者,排除肝功能損害、膽汁淤積、慢性腎臟病CKD3期以上、甲狀腺功能異常等疾病患者,排除合并嚴重全身性疾病患者,排除終末期疾病患者。收集患者血 脂譜中ApoB、N-HDL-C、LDL-C、HDL-C、TC、TG、Lp(a)數據。查看患者冠脈造影結果,采用改良的Gensini 積分[1]方法由2 人共同計算患者Gensini積分。
1.2 方法 通過隨機森林模型分析患者血脂譜對冠狀動脈粥樣硬化嚴重程度的預測價值。構建膽固醇指數,再次通過隨機森林模型,分析加入膽固醇指數后血脂譜對嚴重冠狀動脈粥樣硬化的預測價值。
1.3 觀察指標 運用隨機森林模型繪制ROC 曲線及計算AUC 面積、f1 值、精準度、召回率、準確率,分析血脂譜對冠狀動脈粥樣硬化嚴重程度的預測價值。血脂譜為采集空腹靜脈血,應用雅培16000 生化分析儀運用直接法檢測所得。冠狀動脈Gensini 積分為分析患者冠脈造影結果,采用改良的Gensini 積分方法計算。
1.4 統計學方法 采用Python 3.10、sklearn 工具包、SPSS 20.0 軟件進行數據分析。計量資料以(±s)表示;運用隨機森林模型,繪制ROC 曲線,計算AUC、f1 值、精準度、召回率、準確率,分析血脂譜對嚴重冠狀動脈粥樣硬化的預測價值。P<0.05 表示差異有統計學意義。
2.1 一般資料 68 例患者中男48 例,女20 例,平均年齡為(57.96±11.33)歲,TC 均值(4.94±1.11)mmol/L,LDL-C 均值(2.77±0.87)mmol/L,HDL-C 均值(1.07±0.27)mmol/L,N-HDL-C 均值(3.88±1.03)mmol/L,ApoB 均值(0.96±0.21)mg/L,TG 均值(1.76±0.87)mmol/L,Lp(a)均值(294.40±272.94)mg/L,Gensini 積分均值(23.47±26.38)分。采用Python split函數將病例隨機分為訓練集和測試集,75%為訓練集,共51 例,25%為測試集,共17 例。訓練集和測試集的年齡、性別、嚴重冠狀動脈粥樣例數、TG、Lp(a)、TC、LDL-C、HDL-C、N-HDL-C、ApoB、膽固醇指數比較,差異無統計學意義(P>0.05),見表1。
表1 訓練集和測試集一般資料比較(±s,n)

表1 訓練集和測試集一般資料比較(±s,n)
2.2 原始血脂譜對嚴重冠狀動脈粥樣硬化的預測價值 運用隨機森林模型,繪制ROC 曲線,計算AUC面積,將Gensini 積分超過均值23.50 定義為嚴重冠狀動脈病變。根據原始血脂譜數據,隨機森林模型預測嚴重冠狀動脈粥樣硬化病變的AUC 為0.64(95%CI:0.41~0.80),見圖1。

圖1 原始血脂譜ROC 曲線及特征重要性
2.3 構建新特征-膽固醇指數 特征工程為機器學習的數據預處理過程,構建新特征為特征工程的重要內容。此研究新構建的特征膽固醇指數可表示為HDL-C。其解釋為:膽固醇的致動脈粥樣硬化作用為含ApoB 脂蛋白顆粒數與可致動脈粥樣硬化膽固醇總量的共同作用,用(ApoB×(LDL-C+a×(NHDL-C-LDL-C)))表示,而且與HDL-C 呈負相關,用(ApoB×(LDL-C+a×(N-HDL-C-LDL-C)))/HDL-C 表示,為消除單位,分子取平方根。故最終公式為其中a×(N-HDL-C-LDL-C) 表示N-HDL-C 中除LDL-C 外可致冠狀動脈動脈粥樣硬化的膽固醇總量。N-HDL-C 中除低密度脂蛋白膽固醇外,還包括CM 殘余物、中間密度脂蛋白(IDL)等所含膽固醇,上述顆粒只有直徑小于70 nm 才有致動脈粥樣硬化作用,所以N-HDL-C-LDL-C 的系數a 應小于1。通過分析a 取小于1 的不同值時,隨機森林模型預測嚴重冠狀動脈粥樣硬化的AUC,發現當a=0.1時,AUC 達到最大值,見圖2,故取系數a=0.1,膽固醇指數=HDL-C。可以看出,不論系數a 取小于1 的何值,新特征都可提升隨機森林模型的預測價值。

圖2 a 取不同值時的AUC 面積

圖3 膽固醇指數ROC 曲線及特征重要性

表2 使用新特征膽固醇指數后評價指標對比
血脂異常是動脈粥樣硬化性疾病發生的啟動因素。血脂是血漿中的膽固醇、甘油三酯和類脂等的總稱,血脂與特殊的蛋白質即載脂蛋白結合形成脂蛋白溶于血液,被運輸至組織進行代謝。目前臨床常用血脂指標有TC、N-HDL-C、LDL-C、ApoB、HDL-C、TG、Lp(a)等。目前不同血脂指南中涉及的血脂指標種類繁多,2020 年中國心血管病一級預防指南中推薦LDL-C 作為評估ASCVD 風險的指標和治療靶點,同時也建議將N-HDL-C、TC、HDL-C等控制到目標值[2]。中國血脂管理指南(2023 年)的推薦靶目標與之類似[3]。而國外指南如2019ESC/EAS 血脂指南、2021ESC 心血管病預防臨床實踐指南、2021 美國脂質協會關于血脂測量在心血管疾病中運用指南不僅將LDL-C 作為血脂控制的首選靶目標,對TC、HDL-C、N-HDL-C、ApoB、TG 都有相應的診治意見提出[4-6]。多樣的血脂指標給臨床工作帶來不便,本研究致力于將指南推薦的各種血脂指標整合為單一指標。脂蛋白依密度增加為序可分為CM(80~100 nm)、VLDL(30~80 nm)、IDL(25~40 nm)、LDL(20~25 nm)和HDL(8~13 nm)[4]。在血液中,CM殘余物和IDL(也稱為VLDL 殘余物)由CM 和VLDL 水解轉化而來。絕大部分CM 殘余物和少部分VLDL 殘余物被肝臟清除,大部分VLDL 殘余物進一步轉化為LDL。LDL-C 是主要致動脈粥樣硬化的膽固醇,未被清除的CM 殘余物也可致動脈粥樣硬化。上述脂蛋白所含膽固醇包含所有致動脈粥樣硬化性脂蛋白膽固醇。HDL 在肝臟和腸道中合成,脂蛋白為ApoA,不含ApoB[7]。HDL 是血漿中顆粒密度最大的一種脂蛋白,具有抗動脈粥樣硬化作用,可將膽固醇從肝外組織逆向轉運至肝臟代謝成膽汁酸等,后通過膽汁排出體外,現認為其與ASCVD 風險呈負相關。
目前研究表明[8],脂蛋白的致動脈粥樣硬化作用與脂蛋白顆粒密切相關。同時含ApoB 脂蛋白顆粒大小也是滯留動脈壁內的重要因素,所有直徑小于70 nm 的含ApoB 脂蛋白顆粒[CM、VLDL、LDL、IDL、Lp(a)]都可以穿透動脈內膜進而沉積[9]。顯然,膽固醇的致動脈粥樣硬化作用既與含脂蛋白顆粒數量相關,也和脂蛋白顆粒大小相關,當然也和膽固醇總量相關。降脂治療應同時關注到血脂顆粒密度[10]。因所有可致動脈粥樣硬化脂蛋白都含有一分子ApoB,所以ApoB 的量可表示所有含ApoB 顆粒數,N-HDL-C 包含所有可能致動脈粥樣硬化的膽固醇總量,其致動脈粥樣硬化膽固醇為所有LDL-C 和部分直徑小于70 nm 的CM 殘余物、IDL 中所含膽固醇。故ApoB、LDL-C、N-HDL-C 三種指標在致動脈粥樣硬化當中應該是相輔相成的。而HDL-C 與動脈粥樣硬化呈負相關。研究認為[11],現有血脂譜包含的TG、TC、LDL-C,N-HDL-C 和HDL-C 這5 個數據在生理上緊密相連,在統計分析時不應被視為獨立的變量。現有研究表明,HDL 的代表ApoA1 和致動脈粥樣硬化脂蛋白的代表ApoB 的比值和冠狀動脈粥樣硬化嚴重程度相關[12],同時與冠狀動脈粥樣硬化斑塊的不穩定性相關[13]。但上述研究未將膽固醇等數據納入整體指標。整合血脂譜對臨床工作有很大的意義,但在國內外數據庫中尚未查到有關于整合血脂譜的文獻。如能找到一種指標將血脂譜徹底整合,可為動脈粥樣硬化性疾病的防治帶來新的進展。
特征工程正是機器學習中研究特征轉換的重要步驟,是機器學習不可或缺的一環,其用一系列工程化的方式從原始數據中篩選出更好的數據特征,以提升模型的訓練效果。新特征不是隨意生成的一組新數據,其的可解釋性非常重要。新特征的構建既可以運用PolynomialFeatures、Featuretools 等工具構建,也可發揮人腦的創造力構建。在本研究中遵循一定運算規律通過工具批量生成的新特征其可解釋性都不強。所以選擇通過研究膽固醇的代謝特點及在動脈動脈粥樣硬化中的作用來生成新特征。
綜上所述,新特征膽固醇指數可有效的整合膽固醇數據,提升隨機森林模型對嚴重冠狀動脈粥樣硬化的預測價值。本研究為運用單一指標代替血脂譜來預測冠狀動脈粥樣硬化的新嘗試。但本研究存在一些不足:①樣本量不夠;②沒有剔除其它混雜因素;③沒有進行前瞻性隊列研究。希望能有大型的設計嚴謹的前瞻性隊列研究及更加專業的統計分析來驗證這一構想。