楊玉涵,劉巖,袁如月,胡超越,張曄,張力,楊曉暉
心力衰竭是各種心臟病的終末階段,其具有患病率高、病死率高、再住院率高等特點[1]。2017年,全球心力衰竭患者約有6 430萬例[2],心力衰竭發病后5年內死亡率約為50%[3]。在我國,心力衰竭患者人數約為890萬,約占全球心力衰竭患者總數的13.8%[4]。2型糖尿?。╰ype 2 diabetes mellitus,T2DM)是心力衰竭的獨立危險因素,T2DM患者心力衰竭發生風險較非T2DM患者增加2~4倍[5],心力衰竭住院風險較非T2DM患者增加2倍[6]。T2DM患者合并心力衰竭后臨床癥狀、體征更明顯,心功能、生活質量更差,死亡風險較未合并心力衰竭患者增加10~12倍[7],故T2DM患者心力衰竭風險防控形勢依然嚴峻。近年隨著研究不斷深入,T2DM患者發生心力衰竭的危險因素被不斷發現,且國內外研究者根據危險因素構建了多個T2DM患者發生心力衰竭的風險預測模型,但鮮有研究對這些風險預測模型進行評價,這在一定程度上影響了風險預測模型在醫療決策中的應用。因此,本研究對T2DM患者發生心力衰竭風險預測模型進行系統評價,以期為臨床醫生選擇合適的預測模型提供參考。
1.1 檢索策略 計算機檢索PubMed、Embase、Cochrane Library、中國知網、萬方數據知識服務平臺、維普網及中國生物醫學文獻數據庫中有關T2DM患者發生心力衰竭風險預測模型的文獻,檢索時間從建庫至2022-04-30。采用主題詞和關鍵詞相結合的檢索方式,其中英文檢索詞:“diabetes/diabetes mellitus/type 2 diabetes mellitu/T2DM”“heart failure/cardiac dysfunction/incident heart failure/congestive heart failure”“risk prediction/risk score/risk assessment model/risk prediction model”;中文檢索詞:“糖尿病/2型糖尿病”“心力衰竭/心功能不全”“風險預測/風險評分/風險評估模型”[8]。并手動檢索納入文獻的參考文獻。
1.2 文獻納入與排除標準 納入標準:(1)研究對象:T2DM患者,種族、國籍、T2DM病程不限;(2)研究類型:開發、更新或驗證風險預測模型的研究;(3)結局指標:心力衰竭,包括心力衰竭、再次發生心力衰竭、因心力衰竭住院、因心力衰竭死亡或殘疾。排除標準:(1)以包括心力衰竭在內的復合終點為結局指標的文獻;(2)會議摘要、灰色文獻等非正式發表的文獻;(3)綜述、述評及基于系統評價/Meta分析建立風險預測模型的文獻;(4)基礎實驗;(5)無法獲取全文的文獻。
1.3 資料提取 根據CHARMS清單制定資料提取表[9],提取內容包括納入文獻的基本特征(包括第一作者、發表時間、研究類型、數據來源、模型類型、研究對象、隨訪時間、結局指標)、模型構建情況〔包括樣本量、心力衰竭發生例數、候選變量情況(包括數量和連續變量處理方法)、缺失數據情況(包括數量和處理方法)、建模方法及變量選擇方法〕、模型預測效能〔包括AUC、校準方法、內部驗證和外部驗證(包括作者或其他研究者進行外部驗證)〕情況、模型變量及模型呈現形式。
1.4 偏倚風險與適用性評價 應用預測模型偏倚風險和適用性評估工具(Prediction Model Risk of Bias Assessment Tool,PROBAST)評估模型構建和驗證的偏倚風險[10-11],其中偏倚風險評價內容包括研究對象、預測因素、結局、分析4個領域共20個信號問題,任意一個領域評為高風險或不清楚則為整體偏倚風險高;適用性評價內容包括研究對象、預測因素和結局3個領域,任意一個領域適用性低則為整體適用性低。
1.5 質量控制與數據分析 文獻篩選、資料提取、偏倚風險與適用性評價均由兩位經過培訓的研究者平行完成,并交叉核對結果。若兩人意見存在分歧且經過討論不能達成共識,則尋求第3方意見并達成共識。數據以描述性分析為主,計量資料以M(QR)表示,計數資料以絕對數表示。
2.1 檢索結果 初步檢索相關文獻3 420篇,根據文獻納入與排除標準,最終納入12篇文獻[12-23],均為英文文獻。文獻篩選流程見圖1。

圖1 文獻篩選流程Figure 1 Literature screening process
2.2 文獻基本特征 12篇文獻[12-23]共構建了14個風險預測模型。研究類型為隨機對照試驗5篇[13,17-19,22],隊列研究4篇[12,14,16,21],醫療機構電子數據2篇[20,23],注冊研究1篇[15];數據來源為歐洲4篇[13-16],美洲4篇[17-18,20-21],亞洲2篇[12,23],全球26個國家2篇[19,22];隨訪時間為2.1~17.6年。納入文獻的基本特征見表1。

表1 納入文獻的基本特征Table 1 Basic characteristics of included literature
2.3 模型構建情況 14個模型的樣本量(M=8 756,QR=22 168)和心力衰竭發生例數(M=402.5,QR=976)間的差異較大,候選變量為6~109個。12個模型未提及缺失數據,6個模型未提及缺失數據處理方法。14個模型中建模方法為Cox比例風險回歸模型10個,Weibull比例風險回歸模型2個,機器學習1個,參數比例風險模型1個;14個模型中變量選擇方法為逐步選擇法9個,彈性網正則化1個,隨機生存森林選擇1個,未提及變量選擇方法3個,見表2。

表2 模型構建情況Table 2 Model construction
2.4 模型預測效能、模型變量及模型呈現形式 僅1個模型未提及AUC,13個模型的AUC為0.72~0.87;僅1個模型未提及校準方法,13個模型報告了校準方法;8個模型采用Bootstrap法進行內部驗證,5個模型采用分割樣本法進行內部驗證,1個模型采用交叉驗證法進行內部驗證;8個模型是作者或其他研究者進行外部驗證,6個模型未進行外部驗證;14個模型包含3~16個模型變量,其中最常見的模型變量是年齡(8個模型)、糖化血紅蛋白(glycosylated hemoglobin,HbA1c)(8個模型)及BMI(7個模型);模型最常見的呈現形式為評分分級(6個模型),其次為方程(5個模型),見表3。
2.5 偏倚風險及適用性評價 分別有8、13、3、2個模型在研究對象、預測因素、結局和分析領域被評為低偏倚風險,偏倚風險方面存在的主要問題如下:(1)未說明預測因素的采集時間以致無法確定是否是在不清楚結局數據的情況下評估預測因素(1個模型)及預測因素評估和結局確定的時間間隔是否合理(9個模型);(2)所有研究對象結局的定義可能不相同(2個模型)。14個模型整體均存在高偏倚風險,但整體適用性高,見表4~5。

表4 模型的研究對象、預測因素、結局、分析領域偏倚風險評價結果Table 4 Bias risk assessment results of the research objects,predictors,results and analysis fields of the model

表5 模型的偏倚風險及適用性評價結果Table 5 Evaluation results of bias risk and applicability of the model
2015年,WANG等[24]進行的Meta分析共納入31篇文獻,但其文獻納排標準寬泛,主要研究目的是分析T2DM患者發生心力衰竭的風險。2022年,RAZAGHIZAD等[25]考慮模型的實際應用情況,要求模型有嚴格的納排標準,即提供模型的截距、預測因素系數等關鍵數據,最終納入15篇文獻,該研究有助于研究人員進一步校準、驗證T2DM患者發生心力衰竭的風險預測模型,但臨床醫生仍無法僅憑借相關風險預測模型指導T2DM患者的預防用藥及制定護理措施。為了補充既往Meta分析的不足,本研究評價了T2DM患者發生心力衰竭風險預測模型的偏倚風險及適用性,同時延長了文獻檢索時間,最終納入12篇文獻,共構建了14個T2DM患者發生心力衰竭風險預測模型,其AUC為0.72~0.87,提示T2DM患者發生心力衰竭風險預測模型具有一定區分度。
外部驗證是驗證風險預測模型臨床適用性的必要步驟,但開發模型的研究者在進行外部驗證時可能會傾向于選擇與開發模型的隊列具有相似特征的人群,進而導致對模型的預測效能過于樂觀[26]。本研究中6個模型由開發模型的研究者完成外部驗證,3個模型由其他研究者完成外部驗證。COLLINS等[27]研究發現,由開發模型的研究者進行外部驗證的平均AUC為0.78,高于其他研究者進行外部驗證的0.72。另一方面,考慮實際應用模型的人群可能在基線特征、基線發病風險等方面存在較大差異[28],臨床應用模型前需要多次進行外部驗證以明確其是否具有可推廣性。因此,研究者應注重對現有模型的外部驗證,確定模型的可重復性及可推廣性。
本研究14個模型整體均存在高偏倚風險,偏倚風險方面存在的主要問題如下:(1)未說明預測因素的采集時間以致無法確定是否是在不清楚結局數據的情況下評估預測因素(1個模型)及預測因素評估和結局確定的時間間隔是否合理(9個模型);(2)所有研究對象結局的定義可能不相同(2個模型)。分析主要偏倚風險來源為缺失數據處理方法不當(8個模型)、樣本量不足(6個模型)、連續變量處理方法不當(3個模型)。首先,本研究中12個模型未提及缺失數據,6個模型未提及缺失數據處理方法。在臨床研究中,缺失數據多為非隨機缺失,通常與納入研究的人群或疾病特征相關,故直接排除缺失數據不僅會影響模型的預測效能,還會增加模型的偏倚風險[29-30]。其次,樣本量不足可能會錯誤估計模型的預測效能[31]。樣本量大小通常以結局事件數與協變量個數比(the number of events per variable,EPV)進行衡量。一般認為,模型的EPV<10提示存在過度擬合的可能性較大,偏倚風險高。許多研究者推薦EPV至少應>20以降低模型的潛在偏倚[32-34],而對于使用機器學習建立的預測模型則需要更高的EPV(>200)以減少過度擬合情況[35]。本研究納入研究中近一半研究EPV<20,尤其是SEGAR等[18]采用機器學習建立風險預測模型,但其EPV僅為2.9,導致了高偏倚風險。最后,針對連續變量應首先分析變量分布情況及其與結局指標的關系,最佳處理方法是通過線性或非線性擬合后代入方程[30]。有時考慮實際需求,研究者會將連續變量根據切點轉換為分類變量,但若直接轉換為分類變量,由于數據信息丟失嚴重,會導致模型性能大幅下降且偏倚風險較高;當采用3個或以上切點分割連續變量時,尤其是采用共識或指南中提供的切點時,模型的偏倚風險相對較低[36-37]。本研究中PANDEY等[21]和BERG等[22]將相同的生物學指標作為預測因素,前者選擇單一切點分割連續變量,偏倚風險較高;后者采用4個切點分割連續變量,偏倚風險相對較低。
綜上所述,目前構建的T2DM患者發生心力衰竭風險預測模型的AUC為0.72~0.87,具有一定區分度,但部分模型缺乏外部驗證,且所有模型存在高偏倚風險。未來應積極開展模型的外部驗證及更新,明確模型的可重復性及可推廣性;建立或驗證模型時注重報告的完整性及方法學規范,可參考個體預后或診斷的多變量預測模型透明報告(Transparent Reporting of A Multivariable Prediction Model for Individual Prognosis or Diagnosis,TRIPOD)[38]及PROBAST[10]以降低模型偏倚風險。但本研究仍存在一定局限性:本研究僅納入中文、英文文獻,未檢索灰色文獻,且納入的模型數量較少;因納入文獻的數據來源不同且存在統計學異質性,故未對研究結果進行定量分析。
作者貢獻:楊玉涵、劉巖、楊曉暉進行文章的構思及設計、可行性分析及統計學處理;袁如月、胡超越、張曄負責研究的實施、資料收集;楊玉涵進行資料整理,論文撰寫;劉巖、張力、楊曉暉負責文章的質量控制及審校;楊曉暉對文章整體負責、監督管理。
本文無利益沖突。