機器學習算法構建慢性腎臟病伴高血壓或糖尿病的預測模型

2024-04-11 03:21:18曾慧娟袁紅伶李冠羲茹國佳

昆明醫科大學學報 2024年3期

曾慧娟，田波，袁紅伶，何杰，李冠羲，茹國佳，許敏，詹東

（1）昆明醫科大學第一附屬醫院腎臟內二科，云南昆明 650032;2）云南省第一人民醫院科研科，云南昆明 650034;3）昆明醫科大學基礎醫學院，云南昆明 650500）

慢性腎臟病（chronic kidney disease，CKD）早期發現和診斷較為困難，隨疾病不斷進展，最后成為終末期腎臟病而使腎功能衰竭[1]。若能早期識別、發現CKD 并準確診斷，便可及早干預和治療[2]。全球約5%～7%的人口患有中等程度CKD，其主要病因為糖尿病和高血壓，尤其發展中國家、貧困地區、少數民族人群中慢性腎病發病率更高[3-4]。此外，CKD 患者治療費用昂貴，給家庭帶來沉重經濟壓力、給醫療保障帶來沉重社會負擔，已成為一個世界性公共健康問題[5]。然而，CKD 的診斷基于回顧性數據，起病隱匿、癥狀不明顯，難以早期發現，延遲治療和干預會增加腎衰竭可能[6]。本研究結合社區問卷調查、基本資料、實驗室檢查、PVT1 基因多態性等多領域交叉，采用4 種機器學習算法構建CKD 預測模型，輔助醫生、患者及家人早識別，為評估提供參照、為診斷提供參考。

1 對象與方法

1.1 一般資料

隨機抽樣4 個昆明市區域中的1 個社區衛生服務中心建檔居民。于2019 年11 月至2023 年11 間招募CKD 患者256 例和健康志愿者1 577 例。CKD 納入標準：（1）CKD 診斷符合《慢性腎臟病早期篩查、診斷及防治指南》[7]；（2）患有血尿、蛋白尿、水腫、高血壓或腎功能異常等臨床表現伴有腎小球濾過率或腎組織學異常、腎臟影像學異常，病程持續3 個月以上;（3）年滿18周歲及以上居民；（4）診斷明確的2 型糖尿病患者，且至少6 個月以上或已建立慢性病健康管理檔案；（5）診斷明確的高血壓病患者，且至少6 個月以上或已建立慢性病健康管理檔案。排除標準：（1）患有其他系統疾病或臟器功能異常者；（2）患有惡性腫瘤者；（3）精神疾病患者；（4）妊娠及哺乳期女性患者。本研究獲得昆明醫科大學第一附屬醫院醫學倫理委員會批準[（2022）倫審L 第264 號]，研究人員嚴格遵照《赫爾辛基宣言》實施。

1.2 研究方法

（1）問卷調查：內容包括一般人口學資料，13 條目患者積極度量表測量（PAM13）[8]，居民個人生活習慣調查（飲食、睡眠、煙酒攝入等）。調查員培訓后上崗，調查員與患者一對一完成問卷。（2）體格檢查：調查員行身高、體重、腰圍、臀圍等測量。（3）實驗室檢查：收集志愿者尿液行尿常規、腎功能、隨機尿微量白蛋白測定等檢查；抽取外周血提取DNA 進行人漿細胞瘤變異易位基因（PVT1）基因進行單核苷酸多態位點（rs1499368、rs1121947/rs2608030、rs11993333、rs2720659 和rs2720660）檢測。（4）構建預測模型：采用Logistic 回歸對變量進行篩選。變量被隨機分為訓練集和測試集，分別占全體數據2/3 和1/3，用于建立預測模型和評價預測模型。歸一化處理，二分類變量取值0 或1，計量資料變量值取值范圍為0～1 之間。分類變量因素不存在賦值0，存在賦值1。使用R 軟件工具包（e1071，caret，nnet 和Neural NetTools）構建基于支持向量機（SVM）、隨機森林（RF）、樸素貝葉斯（N B）和人工神經網絡（ANN）算法的CKD 預測模型。依據構建的CKD預測模型計算結果對檢測集數據進行對比分析，評價指標包括靈敏度、特異度、準確率、原錯率、Kappa 系數、陽性預測值、陰性預測值等。Kappa 系數用于評價模型預測值和真實值間的一致性。若Kappa 系數≤0.2 則認為一致性極低；若0.20.8 則認為幾乎完全一致。采用受試者工作特征曲線（receiver operating characteristic curve，ROC）和精確召回曲線（precision recall curves，PRC）比較各模型性能優劣，并計算各模型曲線下面積（area under curve，AUC）。若AUC 小于0.5 說明模型不具有預測價值；若AUC 值位于0.7～0.5 區間時說明模型真實程度較差；若AUC 值位于0.9～0.7 區間時說明模型真實程度較好；總之，AUC 值越接近1.0，模型預測真實程度越高，見圖1。

1.3 統計學處理

采用R 軟件（版本4.1.3）處理數據。符合正態分布且方差齊的計量資料，行Student’s T 檢驗；不符合正態分布或方差不齊的計量資料則采用Wilcox 檢驗。計數資料比較用卡方檢驗。檢驗水準設置為α=0.05，且雙尾設置。P<0.05 認為差異具有統計學意義。

2 結果

2.1 基線數據特征

對照組共有1267 人納入研究，平均年齡（65.90±9.01）歲；疾病組患單純高血壓344 例，患單純糖尿病96 例，同時患高血壓和糖尿病者126 例，平均年齡（65.67±9.77）歲，2 組間差異無統計學意義（P=0.314）。對照組和疾病組男女比例分別為45.30%、54.70%和41.67%、58.33%，差異無統計學意義（P=0.699）。疾病組患CKD 率為30.41%顯著高于對照組7.58%，差異具有統計學意義（P<0.000 1），見表1。對比訓練集（n=1 222）和測試集（n=611），各項指標差異均無統計學意義，P>0.05。

表1 研究對象分組數據分析[n（%）]Tab.1 Base line data analysis between control group and disease group[n（%）]

2.2 Logistic 回歸篩選CKD 風險指標

采用Logisitc 回歸分析發現13 項指標對判定非CKD 和CKD 具有統計學意義，分別是年齡（P=0.699）、疾病類型（高血壓、糖尿病、高血壓合并糖尿病）（P<0.000 1）、民族（P=0.040）、血尿素氮（P=0.032）、血肌酐（P=0.015）、MDRD 公式計算eGFR≤60 mL/（min·1.73 m2）（P=0.007）、ACR≥30 mg/g（P<0.000 1）、EPI2009 肌酐方程公式計算eGFR≤60 mL/（min·1.73 m2）（P=0.017）、PAM13 量表分數（P=0.001）、睡眠質量調查表（P=0.016）、熬夜情況（P=0.012）、PVT1 基因SNP 位點rs11993333（P=0.026）和rs2720659（P=0.012），見圖2。

圖2 Logisitc 回歸分析熱圖Fig.2 Heatmap of Logistic regression

2.3 模型的建立和評估

13 項指標納入機械學習算法，用于構建模型。PVT1 基因SNP 位點rs11993333 非優勢基因型TC 和TT，位點rs2720659 非優勢基因型AG 和GG。

SVM 算法建立模型的準確率為86.25%（95%CI：83.26%～88.88%）小于原錯率87.23%，差異無統計學意義（P=0.786 3）。該模型的Kappa值為0.081，該模型預測值與真實值間一致性極低，模型預測精度極差。同時，SVM 模型靈敏度為97.75%，而特異度僅為7.69%。陽性和陰性預測值分別為95.29%和33.33%。SVM 模型中ROC 和PRC 的AUC 分別為0.895 7 和0.713 9 均大于0.70，SVM 模型的真實度和精確度較高，見圖3A 和圖3B。

圖3 支持向量機模型ROC 和PRC 的AUCFig.3 AUC of ROC and PRC in Support Vector Machine（SVM）

RF 算法建立模型準確率為88.54%（95%CI：85.75%～90.96%）小于原錯率87.23%，差異無統計學意義（P=0.182 3）。該模型的Kappa 值為0.166 2 <0.2，預測值與真實值間一致性極低，模型預測精度極差。同時，RF 模型靈敏度為100%，而特異度僅為10.26%。陽性和陰性預測值分別為88.29%和100%。RF 模型中，ROC 的AUC 為0.921 0 大于0.90，說明模型準確度較高，見圖4A，但PRC 的AUC 為0.650 2 小于0.7，說明模型精確性較差，見圖4B。

圖4 自由森林模型ROC 和PRC 的AUCFig.4 AUC of ROC and PRC in Random Forest（RF）

NB 算法建立模型的準確率為92.14%（95%CI：89.72%～94.15%）大于原錯率87.23%，差異具有統計學意義（P<0.000 1）。該模型的Kappa 值為0.603 9，大于0.41 而小于0.60，預測值與真實值間一致性中等，模型預測精度尚可。同時，NB模型靈敏度為97.37%，而特異度僅為56.41%。陽性和陰性預測值分別為93.85%和79.86%。

NB 模型中，ROC 的AUC 為0.936 9 大于0.90，見圖5A，說明模型準確度較高，而且PRC 的AUC 為0.779 3 大于0.7，說明模型精確性較也好，見圖5B。

圖5 樸素貝葉斯模型ROC 和PRC 的AUCFig.5 AUC of ROC and PRC in Na?ve Bayes（NB）

ANN 模型輸入層包含15 個神經節點，隱藏層包含11 個神經節點，輸出層為目標疾病，包含1 個神經節點，見圖6A。各變量對建立ANN模型的相對重要性不同，采用Garson 算法評價各變量對ANN 模型的相對重要性見圖6B。相對重要性貢獻最大的是ACR，其次為肌酐creatinine，第三為EPI2009。相對重要性貢獻最小的為疾病類型。ANN 算法建立模型的準確率為94.60%（95%CI：92.50%～96.25%）大于原錯率87.23%，差異具有統計學意義（P<0.000 1）。該模型的Kappa 值為0.729 4，大于0.60，預測值與真實值間一致性較高，模型預測精度較高。同時，ANN模型靈敏度為98.69%，而特異度僅為66.67%。陽性和陰性預測值分別為95.29%和88.14%。ANN模型中，ROC 的AUC 為0.941 8 大于0.90，說明模型準確度較高，見圖6C，而且PRC 的AUC 為0.926 1 大于0.9，說明模型精確性較也高，見圖6D。ANN 模型的準確率、特異性、Kappa 系數和AUC 均高于SVM 模型、RF 模型和NB 模型，然而ANN 模型靈敏度（98.69%）卻低于RF 靈敏度（100%）。

圖6 人工神經網絡評價Fig.6 Evaluation for artificial neuron net（ANN）

3 討論

SVM、RF、NB 和ANN 是目前較常見的機器學習算法用于CKD 診斷。我國學者也采用機器學習建立IgA 腎病的診斷模型，其準確率及可信度高[9]。國外學者采用CKD 患者臨床資料和癥狀建立SVM 模型能夠區分CKD 患者和非CKD 患者，準確率達到99%，明顯好于本研究的SVM 模型準確率（86.25%）[10]。另1 項研究通過對指標進行等級排序算法從25 項指標中選取了15 項建立SVM模型，可提高模型的準確率和Kappa 值[11]。通過篩選算法選取CKD 特征性指標建立SVM 模型，使其準確率提高到98.5%。由此CKD 患者指標的選擇、參數的設置可影響SVM 模型準確率[12]。

本研究中選取了這4 種算法對CKD 患者臨床資料、流行病學特征和分子基因SNP 等建立模型。結果發現建立的ANN 模型準確率高于其他3 種模型，達到94.60%；同時ANN 的Kappa 值大于其他3 種模型，ANN 預測值和真實值間一致性較高，精確度較好。基于前期調查和實驗數據，通過Logistic 回歸分析，發現13 個指標對模型建立起主要作用，分別為年齡、疾病類型（高血壓、糖尿病、同時患高血壓糖尿病）、民族、血尿素氮urine、血肌酐creatinine、MDRD 公式計算eGFR≤60 mL/（min·1.73 m2）、ACR≥30 mg/g、EPI2009肌酐方程公式計算eGFR≤60 mL/（min·1.73 m2）、PAM 量表分數、睡眠質量調查、熬夜情況、PVT1 基因rs11993333 及rs2720659（P<0.05）。納入指標建立SVM、RF、NB 和ANN 模型預測社區衛生服務中心中CKD 患者。結果顯示，在社區糖尿病高血壓人群中，需要通過一些重要的因素早期篩查CKD，這些指標主要為：患者血尿素氮及血肌酐檢測，患者eGFR 測定（主要通過MDRD 公式計算及EPI2009 肌酐方程公式），篩查ACR，PAM 量表分數、睡眠質量、熬夜情況；如能開展基因檢測，可以檢測PVT1 基因rs119-93333 及rs2720659[13-14]。另一方面，ANN 模型各項性能優于其他3 種模型，ANN 模型的準確率和精確率較高、分類效果較好；但特異性欠佳，有待完善特征選擇算法，剔除無關和冗余特征。建立社區CKD 診斷ANN 模型，目的是在社區衛生服務中心為社區醫護提供方便實用的診斷預測模型，讓社區醫護、社區慢性病患者提高對CKD的認識及早期預警，逐步實現篩查、疾病追蹤、診斷疾病及預測疾病預后的社區CKD 管理模型[15]。下一步研究團隊期望繼續開發基于社區衛生服務中心CKD 早期診斷小程序、APP 等，更方便模型的使用，逐步實現CKD 診斷模型、風險預測模型、預測預后模型及評估CKD 進展的一系列模型，最終實現早期發現CKD、延緩CKD 進展，讓更多的人群不走進尿毒癥、減輕醫療負擔。