[摘要]"目的"探討基于機器學習構建高血壓腎病(hypertensive"nephropathy,HN)預測模型研究。方法"納入2023年4月至2024年3月于臺州市第一人民醫院就診的318例高血壓患者,按7∶3比例將患者分為訓練集和驗證集,使用最小絕對收縮和選擇算子算法(least"absolute"shrinkage"and"selection"operator,LASSO)對訓練集進行臨床特征選擇,從18項臨床變量中得到12項有臨床意義的變量。基于Python3.10編程語言,采用訓練集對模型進行訓練,以12項有臨床意義指標為輸入變量,以是否發生HN為結果變量,運用邏輯回歸、支持向量機和人工神經網絡3種機器學習算法構建預測模型,利用驗證集對3種模型進行內部驗證,通過準確率、受試者操作特征曲線下面積、召回率、精確率和F1對模型性能進行比較。結果"在LASSO篩選的12項有臨床意義的變量中,得出胱抑素C與尿蛋白定性最具有預測意義。機器學習構建的邏輯回歸、支持向量機和人工神經網絡預測模型的準確度、受試者工作特征曲線下面積、召回率、精確率和F1值分別為0.94、0.96、0.95、0.87、0.91,0.94、0.97、0.96、0.86、0.91及0.91、0.94、0.93、0.80、0.86。結論"基于機器學習構建的邏輯回歸、支持向量機和人工神經網絡對高血壓患者進展為HN均具有較好的預測效果。三者之間比較,邏輯回歸、支持向量機預測效果相似,優于人工神經網絡預測模型。
[關鍵詞]"機器學習;高血壓;高血壓腎病;預測模型;邏輯回歸;支持向量機;人工神經網絡
[中圖分類號]"R544.1""""""[文獻標識碼]"A""""""[DOI]"10.3969/j.issn.1673-9701.2025.15.002
Construction"of"prediction"models"for"hypertensive"nephropathy"based"on"machine"learning
LIU"Mingming1,"WANG"Hong2,"WANG"Zhecheng3,"CHEN"Dan1
1.Department"of"Traditional"Chinese"Medicine,"Taizhou"First"People’s"Hospital,"Taizhou"318020,"Zhejiang,"China;"2.Department"of"Nephrology,"Taizhou"First"People’s"Hospital,"Taizhou"318020,"Zhejiang,"China;"3.School"of"Information"Engineering,"Taizhou"Vocational"College"of"Science"amp;"Technology,"Taizhou"318020,"Zhejiang,"China
[Abstract]"Objective"To"explore"the"construction"of"a"prediction"model"for"hypertensive"nephropathy"(HN)"based"on"machine"learning."Methods"A"total"of"318"hypertensive"patients"who"visited"Taizhou"First"People’s"Hospital"from"April"2023"to"March"2024"were"included"and"divided"into"a"training"set"and"a"validation"set"at"a"ratio"of"7":"3."Least"absolute"shrinkage"and"selection"operator"(LASSO)"algorithm"was"used"to"select"clinical"features"from"the"training"set,"and"12"clinically"significant"variables"were"obtained"from"18"clinical"variables."Based"on"the"Python"3.10"programming"language,"the"training"set"was"used"to"train"the"model."Taking"the"12"clinically"significant"indicators"were"used"as"input"variables,"and"whether"the"occurrence"of"HN"was"used"as"the"outcome"variable."Three"machine"learning"algorithms,"namely"logistic"regression,"support"vector"machine,"and"artificial"neural"network,"were"used"to"construct"prediction"models."The"test"set"was"used"for"internal"validation"of"three"models."The"performance"of"the"models"was"compared"through"accuracy,"area"under"the"receiver"operating"characteristic"curve,"recall"rate,"precision,"and"F1."Results"Among"12"clinically"significant"variables"screened"by"the"LASSO"algorithm,"cystatin"C"and"urine"protein"qualitative"were"found"to"be"the"most"predictive."The"accuracy,"area"under"the"receiver"operating"characteristic"curve,"recall"rate,"precision,"and"F1"values"of"the"Logistic"regression,"support"vector"machine,"and"artificial"neural"network"prediction"models"constructed"by"machine"learning"was"0.94,"0.96,"0.95,"0.87,"0.91;"0.94,"0.97,"0.96,"0.86,"0.91;"0.91,"0.94,"0.93,"0.80,"0.86,"respectively."Conclusion"Logistic"regression,"support"vector"machine,"and"artificial"neural"network"based"on"machine"learning"all"have"good"predictive"effects"on"the"progression"of"hypertensive"patients"to"HN."Among"them,"the"predictive"effects"of"Logistic"regression"and"support"vector"machine"are"similar"and"better"than"artificial"neural"network"prediction"model.
[Key"words]"Machine"learning;"Hypertension;"Hypertensive"nephropathy;"Prediction"model;"Logistic"regression;"Support"vector"machine;"Artificial"neural"network
高血壓作為常見的慢性疾病,對心臟、大腦、腎臟等重要臟器的結構與功能造成持續損害。研究指出2019年全球有12.8億成年人罹患高血壓,中國成人高血壓患病人數為2.45億,患病率達23.2%,患病率總體呈增高趨勢[1]。
高血壓腎病(hypertensive"nephropathy,HN)是由長期血壓增高引起腎內小動脈及細小動脈病變,造成動脈管腔狹窄,繼發缺血性腎實質損害,并導致腎小球硬化、腎小管萎縮和腎間質纖維化的一種疾病[2]。HN的進展通常較為緩慢,且在疾病早期可能不會出現明顯癥狀。然而,隨著疾病的進展,最終可能導致患者發生終末期腎病,對患者的生命構成重大威脅。
機器學習(machine"learning,ML)是近年興起的涉及概率論、統計學及計算復雜性理論的多領域交叉學科,目前在疾病預測和判斷中有著廣泛的應用[3-4]。本研究旨在運用ML開發一種高效且簡便的預測工具,用于評估高血壓患者進展為HN的風險,以期盡早干預,防止疾病的進展。
1""資料與方法
1.1""臨床資料
納入2023年4月至2024年3月于臺州市第一人民醫院就診的318例高血壓患者。本研究經臺州市第一人民醫院倫理委員會批準(倫理審批號:臺一醫倫審2023研第018號–01),患者均簽署知情同意書。
1.2""診斷和納排標準
1.2.1""診斷標準""高血壓診斷標準:參照《中國高血壓防治指南(2018年修訂版)》[5]。HN診斷標準:參照《高血壓腎病診斷和治療中國專家共識(2022)》[2]。
1.2.2""納入標準""①患者年齡≥35歲并≤75歲;②依據高血壓診斷標準,明確診斷為原發性高血壓病;③患者本人簽署知情同意書。
1.2.3""排除標準""①意識不清或難以準確表達主觀不適癥狀;②確診為原發性腎病,或除高血壓外其他原因引起的繼發性腎臟疾病;③伴有嚴重的呼吸、心血管、消化系統等原發性疾病。
1.3""統計學方法
采用SPSS"26.0統計學軟件對數據進行處理分析。符合正態分布的計量資料以均數±標準差(")表示,比較采用t檢驗;不符合正態分布的計量資料以中位數(四分位數間距)[M(Q1,Q3)]表示,比較采用秩和檢驗。計數資料以例數(百分率)[n(%)]表示,比較采用c2檢驗。通過最小絕對收縮和選擇算子算法(least"absolute"shrinkage"and"selection"operator,LASSO)篩選危險因素,并據此構建邏輯回歸(logistic"regression,LR)、支持向量機(support"vector"machine,SVM)和人工神經網絡(artificial"neural"network,ANN)3個ML預測模型。采用準確率、精確率、召回率、F1得分、受試者操作特征曲線(receiver"operating"characteristic"curve,ROC曲線)下面積(area"under"the"curve,AUC)等指標評價模型的穩定性及預測性能。Plt;0.05為差異有統計學意義。
2""結果
2.1""基本情況
共納入318例高血壓患者,其中HN患者130例(40.88%)。患者年齡36~74歲。男186例,女132例,男女比例1.41∶1。該數據集包括18個變量,其中性別、民族、吸煙、是否合并糖尿病是二分類變量,年齡、體質量指數(body"mass"index,BMI)、肌酐(creatinine,Cr)、丙氨酸轉氨酶(alanine"aminotransferase,ALT)、尿素氮(blood"urea"nitrogen,BUN)、白蛋白(albumin,ALB)、尿酸(uric"acid,UA)、總膽固醇(total"cholesterol,TC)、鉀離子(K+)、甘油三酯(triglyceride,TG)、尿隱血(urinary"occult"blood,OB)、胱抑素C(cystatin"C,Cys-C)、尿蛋白定性(qualitative"determination"of"urine"protein,PRO)、尿白蛋白/肌酐(urinary"albumin/creatinine,ACR)等為連續性變量。
納入的318例高血壓患者按訓練集∶驗證集=7∶3隨機分成訓練集(223例)和驗證集(95例),兩組患者的臨床資料比較差異無統計學意義(P gt;0.05),見表1。
2.2""變量選擇與模型構建
使用LASSO回歸分析對訓練集進行臨床特征選擇,18項臨床變量得到12項有臨床意義的變量,分別為性別、BMI、是否合并糖尿病、ALT、TC、Cys-C、K+、BUN、UA、PRO、OB、ACR,各變量回歸系數見表2,最優α值為0.0139,均方誤差(mean"squared"error,MSE)為0.1093。LASSO相關性分析系數見圖1,LASSO系統路徑圖見圖2,LASSO交叉驗證圖見圖3。
2.3""預測模型的構建與評價
本研究采用訓練集對模型進行訓練,以12項有臨床意義的變量為輸入變量,以是否發生HN為結果變量建立早期診斷模型,利用LR、SVM、ANN3種ML算法構建模型。利用驗證集對建立的LR、SVM、ANN模型進行內部驗證。驗證集3種模型LR、SVM、ANN結果顯示,AUC為0.96、0.97及0.94,ROC曲線圖見圖4。精確率–召回率(precision–recall,PR)曲線的AUC分別為0.95、0.96及0.93,PR曲線見圖5。3種模型預測結果評價見表3。
3""討論
HN在慢性腎臟病中的發病率僅次于糖尿病腎病。據統計,HN的住院患者約占中國慢性腎臟病住院患者的20%,是導致終末期腎病的重要原因[6]。構建HN預測模型,幫助醫務人員在疾病初期及時發現潛在風險,對改善患者預后具有重要臨床意義。
本研究對18項臨床變量通過LASSO回歸分析,最終結果顯示Cys-C與PRO"2項變量最具有預測意義。這與臨床報道一致,如顧薇等[7]研究報道血清Cys-C等可作為HN的早期診斷指標;衛赟雯等[8]研究認為Cys-C對HN發展成終末期腎病的影響較大;王獻春等[9]研究報道Cys-C等可輔助診斷早期HN;崔榮萍等[10]研究認為Cys-C水平等與非杓型高血壓早期腎損害患者的病情程度顯著相關;鄭曉仙等[11]研究報道高血壓分級越高患者的Cys-C等水平越高,且Cys-C等水平越高腎損害程度越嚴重。
同時在HN中,PRO也是一個關鍵指標,其變化與腎臟高血壓損傷程度正相關。徐仕芳[12]研究發現高血壓人群中PRO與動脈硬化明顯相關;青梅等[13]研究認為對PRO進行檢測可對高血壓腎損傷起到良好的輔助診斷作用;黃茂堅等[14]研究表明Cys-C與PRO聯合檢測可有效診斷原發性高血壓患者發生的早期腎損傷。
目前ML在疾病預測、診斷和預后、醫學圖像處理等方面都取得較大的進展。劉奎等[15]應用LightGBM和隨機森林兩種算法建立糖尿病腎病疾病風險預測模型,得出LightGBM的預測模型更優。楊雪柯等[16]應用U-Net深度卷積神經網絡將視網膜血管形態學及結構數字化,得出視網膜微血管形態學特征異常與糖尿病腎病存在關聯。崔偉鋒等[17]分別通過決策樹、隨機森林、SVM和ANN構建4個原發性高血壓的預后預測模型,得出構建的SVM模型預測效能較好。
本研究通過ML的方法構建可預測高血壓進展為HN的預測模型。在模型開發過程中,運用LR、SVM、ANN"3種不同的ML算法對訓練集進行訓練構建預測模型,并通過驗證集進行驗證,得到準確度、AUC、召回率、精確率和F1值分別為0.94、0.96、0.95、0.87、0.91,0.94、0.97、0.96、0.86、0.91及0.91、0.94、0.93、0.80、0.86。3種模型對高血壓患者進展為HN均具有較好的預測效果。三者之間比較,LR、SVM預測效果相似,優于ANN預測模型。
推斷該結果與本研究的數據維度與樣本量有關,本研究數據的維度不是特別高,樣本量較小。LR對維度不高、小樣本量時表現預測良好[18]。同樣在ML模型中SVM在處理高維小樣本數據時優勢明顯[19];而ANN結構復雜,在簡單任務中易產生過擬合,從而影響準確度。
本研究存在一定的局限性。首先本研究為單中心研究,納入患者樣本量和數據變量偏少,同時未能收集更多數據進行外部驗證,未來研究應進一步驗證。以ACR變量為例,在本研究LASSO回歸分析中,該變量為負相關;而在臨床報道中,長期高血壓對腎臟的損害,使腎小球濾過率下降,PRO增加,ACR也隨之升高[20]。歸因于樣本量較小導致數據出現漂移。未來研究中將收集多中心數據、更多的臨床變量和基于更多的ML算法進行模型訓練,以期對HN早期進行更精準診斷。
利益沖突:所有作者均聲明不存在利益沖突。
[參考文獻]
[1] NCD"Risk"Factor"Collaboration"(NCD-RisC)."World"wide"trends"in"hypertension"prevalence"and"progress"in"treatment"and"control"from"1990"to"2019:"A"pooled"analysis"of"1201"population-representative"studies"with"104"million"participants[J]."Lancet,"2021,"398(10304):"957–980.
[2] 高血壓腎病診治中國專家共識組成員."高血壓腎病診斷和治療中國專家共識(2022)[J]."中華高血壓雜志,"2022,"30(4):"307–317.
[3] 馬棟方."面向慢性腎臟病臨床決策支持系統的機器學習研究[D]."杭州:"浙江大學,"2021.
[4] 張育芳."一種用于藥物-靶標相互作用預測的特征表示新方法[D]."上海:"上海交通大學,"2020.