阿不都許克爾·阿不都卡地爾 玉蘇甫·買提努爾 爾西丁·買買提
1.新疆醫科大學公共衛生學院,新疆烏魯木齊 830011;2.新疆維吾爾自治區維吾爾醫醫院,新疆烏魯木齊 830049
類風濕性關節炎(rheumatoid arthritis,RA)是一種以關節炎癥和結構損傷為特征的持續性自身免疫性疾病,影響著世界上大約百分之一的人口[1]。骨質疏松癥(osteoporosis,OP)是以骨量降低和骨組織微結構破壞為特征的代謝性骨病,為RA 常見的并發癥之一[2]。RA 早期可表現為關節周圍骨量下降,與正常人群比較,隨著RA 患者疾病進展,OP 發病率也隨之升高,絕經后女性患者OP 的發病率更是高達50%[3-5]。骨折是OP 最嚴重的不良后果之一[6]。OP 給RA 患者帶來嚴重不良預后,提高了RA 的致殘率和病死率,如何確定危險因素并早期判斷患者預后,是醫學界目前面臨的問題。本研究應用機器學習(machine learning,ML)方法建立RA 合并OP 患者的預后預測模型并通過SHAP 解釋模型找出關鍵預后因素,將RA 合并OP 患者的風險進行個性化預測,為RA 合并OP 患者的臨床研究提供參考依據。
本研究回顧性納入了2021 年6 月至2023 年7月新疆維吾爾自治區維吾爾醫醫院收治的RA 合并OP患者,共194 例。納入標準:符合RA 診斷標準[7];符合《老年骨質疏松診療指南》[8]中OP 診斷標準;至少完成3 個月的隨訪,隨訪資料完整。排除標準:急、慢性感染引起的關節炎;妊娠期或哺乳期;合并惡性腫瘤。本研究通過新疆醫科大學公共衛生學院倫理審查。
出院后以定期復查、視頻電話等方式對RA 合并OP 患者進行為期3 個月的隨訪,在本研究中根據美國風濕學會(American College of Rheumatology,ACR)標準[9]。患者關節疼痛數和關節腫脹數改善≥50%,并且以下5 項中至少3 項改善≥50%,定義為“ACR50”:①視覺模擬評分法評分;②醫師總體病情評估;③患者總體病情評估;④物理功能評估;⑤紅細胞沉降率或C 反應蛋白。本研究將改善程度≤ACR50的患者納入預后不良組(46 例),改善程度>ACR50的患者納入預后良好組(148 例)。
通過單因素比較構建隨機森林(random forest,RF)、支持向量機、樸素貝葉斯、BP 神經網絡、XGBoost預測模型,同時采用多因素logistic 回歸模型分析患者預后的影響因素。通過受試者操作特征(receiver operating characteristic,ROC)曲線及PR 曲線篩選出最佳預測模型,將194 例患者作為總樣本,預測模型均采用70%的訓練集,30%的測試集模式。采用SHAP解釋模型對最佳預測模型進行特征解釋,并隨機抽取1 例患者進行模型評估。
采用SPSS 26.0、Python 3.9 統計學軟件進行數據分析。正態分布的計量資料采用均數±標準差()表示,比較采用t 檢驗;偏態分布的計量資料采用中位數(四分位數間距)[M(Q)]表示,比較采用非參數檢驗。計數資料采用例數和百分率表示,比較采用χ2檢驗。通過測試集數據來評估模型的性能,評估模型預測效能的指標有準確率、靈敏度、特異度、F1 值及ROC、PR 曲線的相關參數。以P<0.05 為差異有統計學意義。
兩組年齡、吸煙史、職業、類風濕因子、抗鏈球菌溶血素、IgM、紅細胞沉降率、谷草轉氨酶、熱鹽包治療情況、針灸治療情況、推拿治療情況、骨質疏松儀治療情況、關節功能狀態分期、患者健康評定量表評分、視覺模擬評分法評分比較,差異有統計學意義(P<0.05)。見表1。

表1 兩組臨床資料比較
將年齡、吸煙史(有=1,無=0)、職業(體力勞動=1,腦力勞動=0)、類風濕因子、抗鏈球菌溶血素、IgM、紅細胞沉降率、谷草轉氨酶、熱鹽包治療(使用=1,未使用=0)、針灸治療(使用=1,未使用=0)、推拿治療(使用=1,未使用=0)、骨質疏松儀治療(使用=1,未使用=0)、關節功能狀態分期(Ⅳ級=3,Ⅲ級=2,Ⅱ級=1,Ⅰ級=0)、患者健康評定量表評分、視覺模擬評分法評分作為自變量,RA 合并OP 患者預后情況為因變量(不良=1,良好=0)進行多因素分析。結果顯示,年齡、職業、是否使用骨質疏松儀治療、關節功能狀態分期、患者健康評定量表評分是RA 合并OP患者預后不良的獨立影響因素(P<0.05)。見表2。

表2 RA 合并OP 患者預后不良的影響因素分析
將年齡、吸煙史、職業、類風濕因子、抗鏈球菌溶血素、IgM、紅細胞沉降率、谷草轉氨酶、熱鹽包治療情況、針灸治療情況、推拿治療情況、骨質疏松儀治療情況、關節功能狀態分期、患者健康評定量表評分、視覺模擬評分法評分預后預測模型中,采用6 種算法進行預后預測,結果顯示,測試集在RF 預測模型的預測性能最好,可信性最高。見圖1~2、表3。

圖1 6 種算法預測模型的受試者操作特征曲線

圖2 6 種算法預測模型的PR 曲線

表3 6 種算法模型在測試集中預測效果比較
SHAP 解釋模型顯示,類風濕因子水平、患者健康評定量表評分、職業等均為類風濕性關節炎合并骨質疏松癥患者預后不良的影響因素。見圖3。患者模型評估結果中藍色代表該特征對預測有負向影響(箭頭朝左),紅色代表該特征對預測有正向影響(箭頭朝右),預測結果顯示類風濕因子水平、職業、患者健康評定量表評分、年齡、是否推拿治療為該例患者預后的主要影響因素。該例患者SHAP 值為0.50,基礎預測值為0.56,提示模型預測其發生預后不良的可能性較小。見圖4。

圖3 隨機森林預測模型的SHAP 解釋模型

圖4 抽取患者的模型評估
RA 會導致關節周圍骨量減少和全身性骨丟失,從而增加OP 的風險[10]。流行病學調查報告顯示,全球每年大約發生900 萬例由OP 引起的脆性骨折,進而導致患者的生活質量下降和死亡風險增加[11]。因此,明確患者預后的影響因素是制訂針對性干預措施的重要前提。
近年來,由于ML 在獲取數據體征與分析復雜數據方面具有顯著優勢,并且能夠快速和高精度的檢測疾病,ML 越來越受到關注[12-14]。本研究將單因素分析中差異有統計學意義(P<0.05)的特征納入XGBoost、RF、支持向量機、樸素貝葉斯、BP 神經網絡、logistic 回歸模型構建RA 合并OP 患者預后預測模型。結果顯示,RF 模型預測效能和可信性最高,可為前瞻性研究提供相應的支持。在后續研究中可開發應用于RA 合并OP 患者預后的預測軟件,預測患者預后情況。
本研究基于RF 算法的RA 合并OP 患者預后預測模型的SHAP 特征解釋結果顯示,類風濕因子、患者健康評定量表評分、年齡、視覺模擬評分法評分、關節功能狀態分期、職業、骨質疏松儀治療是RA 合并OP 患者預后的影響因素,與logistic 回歸預測中的獨立影響因素部分重合。有研究表明,檢測患者血液中特異性因子水平變化可預測患者預后[15]。Li 等[16]研究得出IgA、IgG、IgM 水平是預測RA 風險的有價值指標,其值越高患者發生預后不良的可能性越高。相關研究表明,隨著年齡及RA 病情進展,病程>6 個月的RA 患者中,大約有30%會發展成OP,導致患者預后不佳[17]。早期合理治療對患者的功能狀態和生活質量是至關重要,本研究發現,患者功能狀態分期越高,其預后越差。此外,本研究中發現與腦力勞動者比較,從事體力勞動者會增加RA 預后不良的風險,這與既往研究報道一致[18-20]。Lee 等[21]在研究中得出患者健康評估問卷評分是RA 患者持續緩解的獨立預測因子。推拿等作為中醫特色療法,對RA 合并OP 患者有一定的效果[22-25]。
綜上所述,對RA 合并OP 患者制訂精準、個體化的治療策略,可有效改善預后和生活質量。基于ML算法的RA 合并OP 患者預后不良預測模型能有效地預測患者發生預后不良情況,能夠為患者預后預測及對疾病的預防和干預提供一定的參考。然而,本研究有一定的局限性:①患者數據僅來自一家醫院,數據可能有一定的偏差。②數據樣本量不夠大,但是預測效果較好,這可能跟數據質量、特征選擇等因素有關,因此需要擴大樣本量檢驗模型的泛化能力。今后的研究中可以擴大樣本量,納入不同地區的人群,開展多中心和大樣本量的隊列研究,優化模型的準確性,進一步驗證預測模型的性能。
利益沖突聲明:本文所有作者均聲明不存在利益沖突。