鄧宇含,劉爽,王子堯,汪雨欣,劉寶花
卒中是全球最主要的死亡原因和致殘原因之一[1],給社會帶來沉重的經濟負擔[2]。由于人口老齡化速度加快,卒中的高危人群逐漸增加[3],且其發病人群具有年輕化的趨勢[4]。提早識別高危人群,控制其發病的危險因素,對減少疾病負擔以及延長期望壽命意義重大[5]。然而,由于卒中的發病原因復雜[6]、個體差異較大[7],傳統的統計學模型在卒中發病風險預測方面存在一定的局限性[8]。
在大數據時代,數據量的日益擴增和計算機處理能力的快速提升使得機器學習方法的優勢逐步體現[9],機器學習方法由于可以處理變量間的復雜關系且不要求數據遵從統計學假設,被越來越多地應用于疾病的診斷和預測方面[10-11],其中不乏用機器學習方法預測卒中發病風險的研究。雖然目前將機器學習應用于卒中的研究較多,但部分研究是以影像學資料為基礎[12-13],而普通人群進行影像學檢查的成本較高、檢查比例較低,使得這些研究的結果不能在普通人群中廣泛應用。結構化數據具有成本低、易測量、易獲取的特點[14],用結構化數據預測卒中發病風險對于在普通人群中識別出高危個體具有重要意義。
目前,用結構化數據預測卒中發病風險的研究逐漸增加,但尚缺乏相關的綜述性研究,機器學習是否能準確地識別卒中高危人群仍無定論。因此,本研究納入當前用結構化數據預測普通人群卒中發病風險的文獻,旨在評估機器學習模型在卒中發病風險預測中的應用價值和預測性能。
1.1 研究對象 以18歲以上的普通人群作為研究對象。納入標準:①在普通人群中進行預測;②預測卒中首次發病的風險;③采用結構化數據和常規數據,如電子健康檔案、保險索賠數據等建模和預測;④采用預后預測模型對特定時間間隔后的結局進行預測;⑤采用機器學習模型進行預測。排除標準:①采用診斷模型識別卒中患者或對疾病亞型進行分類的研究;②預測住院患者或因卒中相關癥狀在門診就診患者的卒中發病風險的研究。
1.2 文獻檢索策略 檢索PubMed、Web of Science、Scopus、Embase 4個數據庫2021年6月21日之前的所有文獻,以系統評價和meta分析的首選報告項目(preferred reporting item for systematic reviews and meta-analysis,PRISMA)為基礎進行分析[15]。研究方案及檢索策略已在國際化前瞻性系統評價注冊數據庫(international prospective register of systematic reviews,PROSPERO)網站注冊(CRD42021264406)[16]。
1.3 文獻篩選與數據提取 兩位研究者依據納入排除標準獨立對標題和摘要進行篩選,初篩合格者進入全文篩選,全文篩選同樣由2名研究者根據納入排除標準獨立審查。兩位研究者之間存在意見不一致的情況時,交由第三位研究者判定。
對于全文篩選后符合納入標準的文章,由3位研究者參照預測模型數據提取相關研究(critical appraisal and data extraction for systematic reviews of prediction modelling studies,CHARMS)[17]獨立進行數據提取,提取的信息包括期刊來源、研究發表年份、研究進行的國家、數據收集的國家、數據來源、研究類型、預測時間間隔、納入的變量數、變量選擇方法、樣本量、陰性陽性事件比例、類別不平衡的處理、缺失值的處理、機器學習模型類別、超參數調整、內部驗證、外部驗證、實施軟件、模型評估指標、是否開發工具、區分度評價、校準度評價、變量重要性等。
1.4 偏倚評估 以預測模型風險評估工具(prediction model risk of bias assessment tool,PROBAST)[18]為依據對文獻進行偏倚風險評估,分別對研究對象、預測變量、結局和分析方法以及總體偏倚風險(前4個部分)和總體適用性(前3個部分)進行評估,風險分為低、未知、高3個等級。
1.5 模型表現與meta分析 模型表現通過區分度和校準度衡量。區分度衡量模型區分特定事件可能結果的能力,衡量區分度的指標為ROC曲線的AUC,取值范圍為0.5~1,其中,0.5~<0.6表明模型無區分能力,0.6~<0.7表明模型的區分能力較差,0.7~<0.8表明模型的區分能力中等,0.8~<0.9表明模型的區分能力較好,0.9~1表明模型的區分能力極佳。校準度是一種評估模型擬合優度的指標,用于評估觀測結果和預測結果之間的一致性,可以通過校準圖或統計檢驗方法進行評估。
由于僅有極少數研究評估了模型的校準度,因此僅對衡量模型區分度的指標進行meta分析。排除具有高偏倚風險的研究,對中、低偏倚風險的研究中報告了模型的AUC及其95%CI者,用Robert G的方法[19]計算標準誤,采用限制性最大似然估計進行隨機效應meta分析。對于僅報告了模型的AUC,未報告其95%CI及標準誤的研究,采用Hanley和McNeil的方法[20],根據AUC值、樣本量和陰性陽性事件比例估計標準誤,再對AUC進行meta分析。此外,考慮到各個研究之間的異質性,meta分析采用隨機效應模型進行,即對總體參數進行加權平均。通過漏斗圖和統計檢驗方法評估發表偏倚。通過剔除具有極端AUC值的模型,評估異常值對合并后AUC的影響。通過亞組分析解釋研究存在的異質性的來源,具體包括預測時間間隔、算法類型、內部驗證數據劃分方法、是否進行超參數調整、預測變量個數和樣本量大小等。meta分析在MedCalc中進行。
2.1 文獻篩選流程 4個數據庫共檢索出6286篇文獻,其中,重復文獻2252篇,剔除重復文獻后,經題目和摘要篩選,3954篇文獻不符合納入排除標準,對剩余80篇文獻進行全文篩選,最終納入文獻11篇[21-31],文獻篩選流程見圖1。

圖1 文獻篩選流程
2.2 文獻特征描述 多數研究(7篇)在中國進行;數據來源包括電子健康檔案(2篇)、醫療保險數據庫(3篇)、調查數據(4篇)和醫院來源的數據(2篇);中位隨訪時間為3年;納入預測變量數的中位數為26,其中有7篇研究進行了變量選擇,僅有3篇研究描述了預測變量的測量方法,5篇研究提到了對變量的處理。樣本量的中位數為8175。其中,6篇研究所納入的研究對象均存在類別不平衡問題,即未發病者遠多于發病者;有5篇研究描述了類別不平衡問題,其中4篇研究對類別不平衡問題進行了處理。所有研究中,僅有4篇研究對缺失數據進行了描述,4篇研究對缺失數據的處理方法進行了描述。研究用到的機器學習模型包括神經網絡(5篇)、隨機森林(3篇)和支持向量機(5篇)等,其中,有5篇研究對超參數進行了調整。11篇研究中,有3篇研究未進行內部驗證,其余研究中,有4篇研究通過K折交叉驗證的方法對數據集進行劃分,4篇研究對數據集進行了單次隨機劃分;僅有1篇研究進行了外部驗證;有2篇研究未對模型的區分度進行評估,其余研究均評價了模型的AUC;僅有1篇研究對模型的校準度進行了評估;此外,5篇研究對預測變量的重要性進行了評價。11篇文獻數據提取的詳細資料可在PROSPERO網站查詢(CRD42021264406)。
2.3 偏倚評估結果 依據PROBAST進行偏倚風險評估的結果見圖2。在研究對象、預測變量和結局3個部分中,均有8篇為低風險;在分析方法部分中,偏倚風險為“未知風險”的研究有4篇;綜合前4個部分的“未知風險”,致使總體偏倚風險多為“未知風險”。對于適用性問題,偏倚風險為“未知風險”的研究有6篇,仍占多數。
2.4 主要結局與meta分析結果 排除具有高偏倚風險的3篇研究,其余8篇研究建立的33個模型的AUC的變化范圍為0.560~0.925,中位數為0.76 4。其中,5個模型的AUC位于0.5~<0.6,表明無區分能力;2個模型的AUC位于0.6~<0.7,表明區分能力較差;18個模型的AUC位于0.7~<0.8,表明區分能力中等;6個模型的AUC位于0.8~<0.9,表明區分能力較好;2個模型的AUC位于0.9~1,表明具有極好的區分能力。
隨機效應meta分析結果見圖3,異質性I2=99.70%(P<0.001),整合后的AUC為0.745(95%CI0.712~0.778)。

圖2 偏倚風險評估結果
2.5 亞組分析I2和P值顯示多數亞組內均存在異質性,亞組間的比較通過AUC 的95%CI是否重疊進行。預測時間間隔為3年(AUC=0.810,95%CI0.750~0.870)和5年(AUC=0.784,95%CI0.774~0.794)的研究相比于1年(AUC=0.689,95%CI0.621~0.757)和2年(AUC=0.713,95%CI0.708~0.719)的研究模型的區分能力較好。三種機器學習模型預測能力差異較小,其中,隨機森林(AUC=0.755,95%CI0.693~0.818)預測能力較好,但與其他兩種模型的差異無統計學意義。未進行超參數調整的模型的預測能力(AUC=0.762,95%CI0.744~0.780)略優于進行了超參數調整的模型的預測能力(AUC=0.733,95%CI0.678~0.788)。通過交叉驗證方法劃分數據集得到的預測結果(AUC=0.766,95%CI0.731~0.802)相比于隨機劃分數據集得到的預測結果(AUC=0.726,95%CI0.673~0.779)較好。納入的預測變量個數≥100的模型的預測能力(AUC=0.806,95%CI0.774~0.837)顯著高于預測變量個數<100的模型(AUC=0.684,95%CI0.643~0.725)。樣本量較大的模型的預測性能優于樣本量較小的模型的預測能力(表1)。
2.6 發表偏倚與敏感性分析 漏斗圖和Egger檢驗結果(P=0.050)均顯示研究存在發表偏倚(圖4)。剔除具有極端AUC值(AUC=0.560[27],AUC=0.925[25])的模型后,隨機效應meta分析結果為0.746(95%CI0.714~0.777;I2=99.67%,P<0.001)。對比所有模型隨機效應meta分析結果[0.745(95%CI0.712~0.778);I2=99.70%,P<0.001],可見合并后的AUC對異常值不敏感。
由合并AUC可見,機器學習模型預測卒中發病風險的區分能力處于中等水平(AUC 0.745,95%CI0.712~0.778),表明其存在一定的應用價值,但仍需進一步探討不同研究的差異來源,并通過針對性的改進提高模型預測能力。

表1 亞組分析結果

圖4 發表偏倚評估結果
亞組分析可以探討研究的異質性來源。亞組分析顯示,較大的樣本量(≥100 000)和較大的預測變量數量(≥100)可以顯著提高模型的預測能力,這也與機器學習模型能夠處理變量間復雜的相互關系并從大樣本中進行學習相對應[32]。亞組分析結果還顯示,常規的機器學習模型(隨機森林、神經網絡、支持向量機等)之間預測性能的差異不大,這也與已有的研究結果相一致[33]。從不同機器學習模型的應用頻率可見,神經網絡的應用頻率最高,即在不考慮模型可解釋性和過擬合問題的情況下,多數研究傾向于使用較為復雜的模型[34]。然而,納入的部分研究在常規的機器學習模型的基礎上進行了優化和改進,得出了諸如混合深度轉移模型(hybrid deep transfer learning,HDTL)[22]、Dempster-Shafer分類器(Dempster-Shafer classifier)[21]等的新型預測模型,使得其預測性能明顯提升,但由于這些模型尚未廣泛應用,其價值需要進一步探索。亞組分析顯示預測時間間隔對預測性能有一定的影響,其中,預測時間間隔為3年時,模型的預測性能較好,這或許提示了預測卒中患者發病的最佳時間間隔[35]。不同的數據集劃分方法同樣對模型的預測能力有影響,相較于單次隨機劃分,K折交叉驗證在一定程度上彌補了單次劃分的偶然性,因此具有更好的預測性能[36]。此外,進行了超參數調整的模型比未進行超參數調整的模型表現略差,這可能是由于未進行超參數調整的模型采用了其他超參數選擇方法,如借鑒已有的已經過驗證的研究中的超參數等。
偏倚風險評估顯示大多數研究的質量均存在問題,且多數研究存在方法學缺陷,這也與已有的系統綜述結果相一致[37],這可能是由于用機器學習模型進行建模和預測的研究缺乏報告規范[38],因此難以保證研究質量。機器學習的優點之一是可以處理高維變量間的復雜關系[39],因此對樣本量的要求較高,而部分研究納入的樣本量較少。此外,機器學習模型的復雜性使其無法對預測變量與結局之間的關系進行明確的解釋,因此在實際應用時受到限制,而進行預測變量重要程度的衡量可以增加機器學習模型的可解釋性,但是,11篇研究中僅有4篇研究報告了預測變量的重要程度。此外,所納入的研究之間存在較大的異質性,且異質性在多數亞組內同樣存在。由于不同研究的數據類型與來源均不同,雖然本研究將研究對象限定為了普通人群,但由于預測變量的納入通常依賴于當前數據的特征,不同研究所納入的預測變量之間仍存在一定的差異,如Chen等[22]的研究僅納入了實驗室檢查變量作為預測變量;而在Chen等[31]的研究中,雖然實驗室檢查變量納入較少,但卻納入了體格檢查指標、病史和生活方式等變量,部分研究也納入了用藥相關變量[25,29];而預測變量的類型通常對結果具有決定性影響,因此,很難對這種因預測變量而產生的異質性進行消除或弱化。
由發表偏倚漏斗圖可見,數據點呈橫向聚集樣分布,即多數研究AUC的標準誤均無明顯差異,這可能是由于納入的11篇研究均未報告AUC的標準誤,需要通過置信區間和樣本量等推算得出,而用這些方法推算出的AUC的標準誤不能完全代表真實的標準誤,可能存在一定的偏倚,在后續的研究中可以探索用已有的指標進行AUC的合并。
本研究存在一定的局限性:首先,合并后AUC是基于標準誤產生的,而多數研究并未直接提供該指標,也尚未有其他方法可以由文章中已有的指標對AUC進行合并,因此,僅能通過對標準誤進行間接推斷的方法計算合并后AUC,這在一定程度上影響了結果的準確性。其次,并非所有研究都選取AUC作為模型預測效果的評價指標,而諸如準確率、敏感度、特異度等指標也應該納入考慮范圍。再次,由于納入的多數研究在進行時尚未有相應的指南對預后預測模型的建立方法與步驟進行明確規定[40],因此,多數研究均缺少方法學部分的信息,在一定程度上影響了該研究的結果。
綜上所述,用結構化數據和機器學習方法預測人群卒中發病風險的效果一般,且相關研究的質量普遍不高。后續的研究應著重提高研究質量,進而針對性地提高模型的預測能力。