張志堅, 陳涵枝, 李 程, 周樂汀, 劉曉斌, 單煒薇, 劉 斌, 王 涼
(南京醫科大學無錫醫學中心/南京醫科大學附屬無錫人民醫院 腎內科, 江蘇 無錫, 214000)
終末期腎病(ESRD)是慢性腎臟病(CKD)的終末階段,屬于世界范圍內的重大公共衛生問題之一[1-2]。維持性血液透析(MHD)是ESRD患者最常用的治療手段,可極大改善預后與生活質量,然而患者仍會面臨眾多并發癥的威脅,如貧血、營養不良、高磷血癥、低鈣血癥和心腦血管意外等[3-4]。貧血和營養不良在MHD患者中相當普遍且與死亡風險升高相關,早期識別并干預可有效改善預后[5]。目前,生物電阻抗分析(BIA)因具有無創、簡單、客觀且快速等優點,已被廣泛用于評估MHD患者的容量情況和營養狀態[6-7]。受人體化學成分和物理成分的影響,生物電阻抗可能與血清生化成分和營養狀況相關,但生物電阻抗矢量分析(BIVA)在評估MHD患者血清生化指標(尤其是貧血和營養狀況指標)中的作用目前尚不明確。白蛋白(Alb)、總膽固醇(TC)、低密度脂蛋白膽固醇(LDL-C)、血紅蛋白(Hb)是反映MHD患者貧血與營養狀況的重要指標。本研究基于BIVA法分析人體成分分析儀(BCM)采集的MHD患者生物電信號數據,建立基于不同機器學習算法的預測模型,以期為MHD患者貧血和營養狀況的評估提供輔助性依據。
本研究共納入1 925例尿毒癥患者,年齡19~85歲,女758例(平均年齡60.3歲),男1 167例(平均年齡59.5歲)。排除標準: 測量前1個月內發生過急性心腦血管事件、嚴重感染者,肝功能異常、肺功能不全、原發性甲狀腺疾病患者,惡性腫瘤或精神疾病患者。收集患者生物電阻抗數據3 742個和血生化指標數據109 234個,后者包括Alb(45 300個)、TC(14 765個)、LDL-C(9 047個)和Hb(40 122個),所有數據于2016年5月—2022年7月獲得。
患者的一般資料于每次阻抗測量前收集,身高H(m)和體質量W(kg)根據國際標準測量,體質量指數(BMI)計算公式為W/H2。于每周第1次透析前為患者采血,使用自動化學分析儀(Beckman Coulter AU5800型號)和自動血液分析儀(Sysmex XN-9000型號)檢測血生化指標水平。使用多頻阻抗分析儀(Fresenius, 上海)在50個頻率上測量阻抗矢量Z(Ω)和相位角φ(度),并導出對應的細胞內電阻Ri(Ω)、細胞內電阻率ρi(Ω/m)、細胞外電阻Re(Ω)、細胞外電阻率ρe(Ω/m)、細胞膜電容Cm(F)、細胞膜介電常數ε(F/m)等,共計106個變量。血生化指標分類標準: ① Hb, <110.0 g/L為低, 110.0~130.0 g/L為正常, >130.0 g/L為高; ② TC, <3.0 mmol/L為低, 3.0~5.7 mmol/L為正常, >5.7 mmol/L為高; ③ LDL-C, <1.6 mmol/L為低, 1.6~3.4 mmol/L為正常, >3.4 mmol/L為高; ④ Alb, <35.0 g/L為低, 35.0~55.0 g/L為正常, >55.0 g/L為高。
本研究通過主成分分析(PCA)對原始106個生物電學指標變量和年齡、身高、體質量進行分析,并通過各主要成分的貢獻率以及方差值實現對原始變量的降維,消除變量冗余特征。選取前8個貢獻率最高的特征作為模型的輸入特征。隨機選擇80%的生化-生物電記錄作為訓練集,其余記錄則作為測試集。
對主要生物電學指標測量值與生化指標測量值進行個體相關性分析,考慮到數據在個體內被多次測量,本研究采用重復測量相關性分析來確定記錄的共同個體內關聯。與簡單回歸相關性分析不同,重復測量相關性分析不違反觀察獨立性假設,且具有更強大的統計能力[8]。
具體流程如下: ① 在主要生物電學指標(Ri、ρi、Re、ρe、Cm、ε)測量值和生化指標(Alb、TC、LDL-C、Hb)測量值間進行線性回歸分析,得到斜率值和殘差自由度值。根據斜率值的正負來判斷生物電學指標測量值與生化指標測量值的相關系數方向。② 將每種生物電學指標變量從模型中刪除后進行線性回歸分析,并分別計算刪除每個變量后的殘差平方和。③ 根據殘差平方和的比較結果,計算出刪除每個變量對應的統計量F值,得出生物電學指標測量值與生化指標測量值的相關系數的P值。
隨機森林模型通過集成學習Bagging的思想將不同參數的樹模型進行集成,并將CART決策樹作為弱學習器。由于隨機森林模型在分類領域中應用廣泛,本研究基于CART分類樹評估MHD患者的營養生化指標(Alb、TC、LDL-C、Hb)。算法過程: ① 用N表示訓練數據集個數,用M表示特征數目,即生物電學指標8維PCA值。② 輸入特征數目m, 用于確定決策樹上一個節點的決策結果,其中m應遠小于M。③ 從N個訓練數據集中以有放回抽樣的方式取樣N次,形成一個訓練集(即bootstrap取樣),并用未抽到的用例(樣本)作預測,評估其誤差。④ 對于每一個節點,隨機選擇m個特征,決策樹上每個節點的決定都基于這些特征確定。根據這m個特征,計算其最佳分裂方式。⑤ 每棵樹都會完整成長而不會剪枝,這有可能在建完一棵正常樹狀分類器后會被采用。⑥ 對于最后的分支節點,采用投票算法得到每個樣本的類別信息。
Adaboost算法是針對同一個訓練集訓練不同的弱分類器,然后將這些弱分類器集合起來,構成一個強分類器。本研究采用CART決策樹作為弱分類器,用于MHD患者的營養生化指標(Alb、TC、LDL-C、Hb)評估。算法過程: ① 用N表示訓練數據集個數,先通過對N個訓練樣本的學習得到CART決策樹作為第1個弱分類器; ② 將被弱分類器分錯的樣本和其他新數據一起構成一個新的N個的訓練樣本,通過對這個樣本的CART決策樹學習得到第2個弱分類器; ③ 將弱分類器1和弱分類器2都分錯了的樣本加上其他新樣本構成另一個新的N個的訓練樣本,通過對這個樣本的CART決策樹學習得到第3個弱分類器; ④ 為幾個弱分類器指定權值,得到最終經過提升的強分類器,某個數據被分為哪一類由各分類器權值決定。
SVM的基本思想是構造一個超平面將訓練數據分開,并且使分隔面與每一類數據點間的距離最大化,即“支持向量”。假設有M個訓練數據點(x1,y1), (x2,y2),…, (xm,ym), 其中xi是特征向量,每個數據點包含由多頻阻抗分析儀中導出的110個生物電學指標變量計算得到的2維PCA值;yi是標記(yi∈{-1, +1}), 每個數據點包含血生化指標的含量分類值(“低”或“正常”或“高”)。因此,支持向量機的問題就是求解超平面w·x+b=0, 使得?i∈{1,2,…,m},yi=(w·xi+b)≥1, 同時使得‖w‖最小化。求解SVM問題的方法是對‖w‖2/2求解拉格朗日乘數,并對乘數進行求解,最終得到w和b。當分類問題存在非線性可分情況時,可以通過在特征空間內使用核函數(如多項式核、高斯核等)構造高維特征,從而解決非線性可分情況。主要步驟: ① 使用核函數將低維的生物電學指標2維PCA值輸入空間映射到高維的特征空間。② 通過上述優化算法,針對血生化指標含量分類值求解出最優的分離超平面,得到w和b。③ 對于新的生物電學指標輸入數據,使用已經得到的最優分離超平面對其對應血生化指標進行預測,即可將其分配到相應類別。
通過常見的評估指標,如準確率、召回率和F1值等,評估并比較基于隨機森林算法模型、基于Adaboost算法模型和基于SVM算法模型的性能。
對主要生物電學指標(Ri、ρi、Re、ρe、Cm、ε)測量值與主要營養指標(血生化指標Alb、TC、LDL-C、Hb)測量值間進行個體相關性分析,結果顯示,生物電學指標與營養指標顯著相關(P<0.05或P<0.01), 提示生物電學指標可用于評估MHD患者相關血生化指標,見表1(男性)、表2(女性)。

表1 男性患者主要生物電學指標與主要營養指標的個體相關性分析結果

表2 女性患者主要生物電學指標與主要營養指標的個體相關性分析結果
經過優化調參,基于SVM、Adaboost和隨機森林算法的各模型參數見表3。基于不同算法的3個模型對Alb、TC、LDL-C、Hb進行分類的結果見表4~表7。總體而言,基于隨機森林算法的模型表現最佳,表明其在相關指標預測方面具有較強的魯棒性(Hb: F1值0.808、召回率0.773、準確率0.904; Alb: F1值0.844、召回率0.827、準確率0.880; LDL-C: F1值0.775、召回率0.710、準確率0.879; TC: F1值0.742、召回率0.664、準確率0.937)。此外,無論男女,基于隨機森林算法的模型均表現出較好的分類準確性,相關結果明顯優于基于AdaBoost算法的模型和基于SVM算法的模型。

表3 基于支持向量機、Adaboost和隨機森林算法的各模型參數

表4 基于不同算法的3種模型對血紅蛋白的分類結果

表5 基于不同算法的3種模型對白蛋白的分類結果

表6 基于不同算法的3種模型對低密度脂蛋白膽固醇的分類結果

表7 基于不同算法的3種模型對總膽固醇的分類結果
基于隨機森林、Adaboost、SVM算法的3種模型對4個血生化指標變量(Alb、TC、LDL-C、Hb)預測性能的混淆矩陣見圖1~圖3, 結果顯示,基于隨機森林算法的模型在對角線上的預測值最高,說明該模型對Alb、TC、LDL-C、Hb這4個變量的預測性能最佳。

A: 白蛋白; B: 血紅蛋白; C: 低密度脂蛋白膽固醇; D: 總膽固醇。

A: 白蛋白; B: 血紅蛋白; C: 低密度脂蛋白膽固醇; D: 總膽固醇。

A: 白蛋白; B: 血紅蛋白; C: 低密度脂蛋白膽固醇; D: 總膽固醇。
近年來,ESRD的發病率逐年上升,己成為世界范圍內影響人類健康的常見疾病。MHD患者常合并不同程度的貧血、營養不良,與其生活質量下降和死亡風險升高密切相關[9-12], 早期識別貧血和營養不良具有重要的臨床意義。然而, MHD患者往往難以接受頻繁的有創檢驗,故亟需探尋可無創且快速評估貧血與營養狀況的方法。生物電阻抗是人體電特性的一種度量指標,由電阻和電抗變量組成,其中電阻主要與體內導電物質的濃度有關,尤其是水和電解質,電抗則主要與人體內細胞膜脂質雙分子層兩側的電容性質有關[13-15]。MULASI U等[16]通過評估臨床人群的肌肉組織,發現了BIA在評估營養狀況方面的準確性和其他優勢。BIVA可以克服傳統BIA受身高和體質量個體差異影響的缺點[17]。ONOFRIESCU M等[18]基于131例MHD患者的隨機對照試驗發現了BIVA在血液透析液體管理中的價值; 趙新菊等[19]通過BIVA評價血液透析患者的干體質量,證實其可作為估計干體質量的敏感輔助工具。生物電阻抗數據目前已被廣泛應用于MHD患者容量負荷的評估中,但其在貧血和營養不良診斷中的作用仍有待進一步研究。本研究基于MHD患者資料分析BIVA與重要血生化指標的關聯,并開發基于BIVA的機器學習算法模型,以期為擴展生物電阻抗的臨床應用范圍提供理論基礎。
由于MHD患者的水含量經常變化,傳統的營養評估方法無法準確評估其營養狀況。本研究發現, BIVA指標與Alb、TC、LDL-C、Hb等指標均存在顯著關聯,表明BIVA指標可在一定程度上反映患者貧血及營養狀況,與既往研究[18]結論相符,這為建立基于BIVA及機器學習算法的預測模型奠定了理論依據。本研究結果表明,通過BIVA對MHD患者進行定期監測和隨訪,有助于臨床醫生及時了解MHD患者的體液、貧血、營養狀態,從而有針對性地指導治療。借助基于隨機森林算法的預測模型,臨床醫師可通過常規生物電測量初步評估相關生化指標情況,實現早期預警和早期干預,這對提高MHD患者生活質量、節約醫療資源具有重要意義。但本研究亦存在一些局限性: 營養不良、貧血和生存質量也可能與患者年齡和原發病有關,并會對統計學結果產生一定影響,未來應基于性別、年齡和健康狀況進行分層研究; 本研究為橫斷面研究,無遠期隨訪觀察結果,未來應進一步深入研究。
綜上所述,本研究基于MHD患者常規隨訪的BIVA數據和3種機器學習算法(隨機森林、SVM和Adaboost算法),建立了針對Alb、TC、LDL-C、Hb這4個血生化指標的3個預測模型。3個預測模型中,基于隨機森林算法的模型表現最優(預測Alb、LDL-C、Hb、TC的準確率分別為0.880、0.879、0.904、0.937), 可為MHD患者貧血和營養狀態的無創評估提供輔助決策意見。