鐘錦佳,李文濤,黃亞芳,吳浩
100069 北京市,首都醫科大學全科醫學與繼續教育學院
近年來,隨著以信息技術和人工智能技術為代表的新興技術的迅速發展,初級保健服務和基本醫療在數字化、智能化、協同化等方面不斷發展、完善[1-3]。與專科醫療機構相比,初級保健服務機構常規登記數據、區域健康醫療數據、健康檔案數據、患者自行報告的數據及移動設備采集的數據體量更為龐大,基于這些數據的臨床研究報告及文獻數量呈現逐漸升高趨勢。在初級保健研究領域,學者開始嘗試借助大數據和人工智能技術,通過機器學習構建預測模型,以輔助醫療決策[4-6]。
廣義上的機器學習是指使用計算機系統對非線性關聯性和復雜交互作用的假設進行數學模型擬合過程[7]。近年來,隨著初級保健領域醫療數據的不斷增多、數據采集系統的逐步規范及算法的優化,通過機器學習開發預測模型相關研究迅速發展,并已有經過驗證的預測模型應用于基層醫療和管理實踐中[8-9]。基于機器學習預測模型研究的設計與方法學質量對醫療實踐具有重要的指導意義[10-11],但目前在初級保健領域尚缺少基于機器學習預測模型研究相關設計與方法學質量評價研究。本研究旨在系統總結、分析初級保健領域基于機器學習預測模型研究的設計特征與方法學質量,以期為人工智能技術在基層的科學、合理應用提供參考。
本研究已在國際前瞻性系統評價注冊數據庫(International Prospective Register of Systematic Reviews,PROSPERO)注冊,注冊號:CRD42022358128,遵循范圍綜述報告的PRISMA擴展版清單(PRISMA extension for scoping reviews,PRISMA-ScR)進行報告[12]。
1996年,STARFIELD[13]對初級保健研究做出定義:在基本保健的環境背景中開展的研究即為初級保健研究,本研究參照該定義對擬納入研究進一步規定如下:數據來源于初級保健/基層醫療衛生機構,或構建的預測模型將應用于初級保健/基本醫療領域。
文獻納入標準:(1)應用機器學習方法進行數據處理或模型構建;(2)有開發、驗證或更新預測模型的過程;(3)數據來源于初級保健/基本醫療機構,或構建的預測模型將應用于初級保健/基本醫療領域;(4)語種為中文或英文。文獻排除標準:(1)綜述、系統評價、會議摘要、研究方案;(2)數據來源于急診室、ICU或普通住院病房;(3)未報告機器學習方法;(4)動物研究。
采用主題詞與自由詞結合方式進行檢索,通過檢索邏輯詞“OR”和“AND”進行自由組合,并針對不同數據庫進行調整(不同數據庫文獻檢索策略掃描本文首頁二維碼查看附錄1);采用計算機檢索PubMed、Embase、中國知網、萬方數據知識服務平臺建庫至2023-02-21發布的相關文獻,同時手工檢索納入文獻的參考文獻。英文檢索詞包括:primary health care,general practice,family practice,machine learning,deep learning,supervised machine learning,unsupervised machine learning,support vector machine,prediction model,risk model;中文檢索詞包括:基本醫療、初級保健、全科醫生、全科醫學、機器學習、隨機森林、支持向量機、預測模型、風險評分、風險模型。
文獻篩選:將檢索到的文獻導入EndNote 20軟件并使用重復識別工具剔除重復文獻。由2名研究人員嚴格按照文獻納入與排除標準先對文題、摘要進行初步篩選,再根據初步篩選結果進行全文閱讀并最終決定是否納入,如遇分歧則討論解決或征詢第3名研究人員意見。
數據提取:由2名研究人員共同參與設計文獻資料提取表并獨立提取相關數據,主要包括納入文獻的基本特征、預測模型類型、樣本量、缺失值處理方法、機器學習算法類型、模型性能評價指標及預測效能、模型驗證方法等。
偏倚風險評估:由2名經過培訓的研究人員根據預測模型偏倚風險評分工具(PROBAST)進行偏倚風險評估,如遇分歧則討論解決或征詢第3名研究人員意見。PROBAST共涵蓋4個領域(分析、結果、預測因子、研究對象)20個問題,各領域均以“低風險”“高風險”“不清楚”進行評價,如至少1個領域被判定為高風險,則總體評價為高風險;如至少1個領域被判定為不清楚,而其他領域為低風險,則總體判定為不清楚;如全部領域被判定為低風險,但預測模型建立后卻沒有進行外部驗證,則總體仍判定為高風險,而若該預測模型是基于大樣本數據建立的并進行了某種內部驗證則總體判定為低風險[14]。
本研究采用敘述性總結和描述方法,無定量綜合分析,結果以頻率、百分比、中位數及四分位數間距(interquartile range,IQR)表示,并通過Wilson評分連續矯正區間計算95%CI。
計算機檢索四大數據庫共獲得6 070篇文獻,手工檢索納入文獻的參考文獻共獲得34篇文獻,經EndNote 20軟件及手工去重共剔除文獻732篇,經閱讀文題、摘要后排除明顯不符合研究主題的文獻4 969篇,經閱讀全文并結合文獻納入與排除標準排除文獻373篇,最終納入30篇文獻(納入文獻掃描本文首頁二維碼查看附錄2)進行范圍綜述,涉及106個預測模型。本研究文獻篩選流程見圖1。

圖1 文獻篩選流程Figure 1 Flowchart of literature screening
納入的30篇文獻發表時間:2021-2023年17篇,2010-2020年13篇,無2010年以前發表文獻;地區分布:美國8篇,英國7篇,瑞典、德國各3篇,荷蘭2篇,巴基斯坦、比利時、芬蘭、韓國、加拿大、羅馬尼亞、以色列各1篇;研究主題:呼吸系統疾病6篇,腫瘤4篇,門診預約3篇,其他17篇(精神疾病、糖尿病、腦卒中、心血管疾病各2篇,退伍軍人10年全因死亡率、傳染病、兒科疾病、感染性疾病、骨質疏松、聲帶疾病、脂肪肝、血液系統疾病、運動系統疾病各1篇);預測模型類型(開發和/或驗證):開發和內部驗證20篇,開發和內、外部驗證5篇,僅開發3篇,僅外部驗證2篇,詳見表1。

表1 納入文獻的基本特征(n=30)Table 1 Basic characteristics of the included literature
樣本量:納入的30篇文獻樣本量:<1 000者4篇,1 000~2 999者6篇,3 000~9 999者4篇,10 000~29 999者5篇,30 000~300 000者5篇,>300 000例6篇,共26篇文獻樣本量>1 000(占86.67%,95%CI=68.36%~95.64%)。16篇樣本量>10 000的文獻中有11篇數據來源于電子健康記錄(eletronic health record,EHR)或電子醫療記錄(eletronic medical record,EMR)。
缺失值處理方法:納入的30篇文獻中使用機器學習方法處理缺失值者7篇,其中使用梯度提升機(gradient boosting machine,GBM)、極端梯度提升(eXtreme gradient boosting,XGBoost)者各2篇,使用貝葉斯網絡、k-近鄰算法(K-nearest neighbor,KNN)者各1篇,同時使用XGBoost和輕量梯度提升機(light GMB)者1篇;使用多重插補方法處理缺失值者3篇;2篇文獻中涉及的連續變量使用均值表示,分類變量使用“未報告或拒絕報告”替代;2篇文獻未報告缺失值處理方法;使用簡單插補方法、不處理缺失值、不納入不完整記錄者各1篇;其余13篇文獻未報告缺失值。
機器學習算法類型:納入的30篇文獻所涉106個預測模型中65個使用基于樹的機器學習算法,其中隨機森林使用頻率最高、GBM次之;20個使用回歸模型,其中最大似然邏輯回歸使用頻率最高;9個使用神經網絡,6個使用支持向量機,使用貝葉斯網絡、k-鄰近算法者各2個,使用樸素貝葉斯、超級學習者集成者各1個,詳見表2。

表2 納入文獻所涉預測模型的機器學習算法類型(n=106)Table 2 Types of machine learning algorithms of the included prediction models
模型評價指標:在區分度方面,納入的30篇文獻所涉106個預測模型中61個使用受試者工作特征(ROC)曲線下面積(AUC)或一致性(C 統計量)作為評價指標(占57.55%,95%CI=47.57%~66.97%);在校準度方面,僅14個報告了校準度指標(占13.21%,95%CI=7.67%~21.50%),其中校準圖14個(占13.21%,95%CI=7.67%~21.50%),校準斜率6個(占5.66%,95%CI=2.32%~12.41%),校準截距6個(占5.66%,95%CI=2.32%~12.41%);在綜合評價方面,47個使用準確度(占44.33%,95%CI=34.80%~54.29%),36個使用F1分數(占33.96%,95%CI=25.22%~43.88%),7個使用Brier分數(占6.60%,95%CI=2.92%~13.60%)。
模型預測效能:納入的30篇文獻所涉106個預測模型多數區分度良好,AUC中位數為0.79(IQR介于0.74~0.83,全距介于0.63~0.92),其中內部驗證的AUC中位數為0.79(IQR介于0.73~0.82,全距介于0.63~0.92),外部驗證的AUC中位數為0.83(IQR介于0.78~0.84,全距介于0.71~0.92);在校準度方面,校準斜率的中位數為1.03(IQR介于1.00~1.06,全距介于0.97~1.18),校準截距中位數為0.02(IQR介于0.00~0.03,全距介于-0.01~0.09)。
模型驗證方法:在內部驗證方面,納入的30篇文獻中19篇(占63.33%,95%CI=43.90%~79.45%)使用了交叉驗證,是最常用的模型驗證方法;6篇使用了簡單隨機拆分驗證(占20.00%,95%CI=8.40%~39.13%);3篇僅進行模型開發而無內部驗證(占10.00%,95%CI=2.62%~27.68%)。在外部驗證方面,納入的30篇文獻中僅7篇(占23.33%,95%CI=10.63%~42.70%)使用獨立數據庫進行了外部驗證。
納入的30篇文獻所涉106個預測模型中總體評估為低風險者13個(占12.26%,95%CI=6.95%~20.40%),高風險者92個(占86.79%,95%CI=78.50%~92.33%),不清楚者1個(占0.94%,95%CI=0.05%~5.90%),見圖2(納入文獻所涉預測模型的偏倚風險評估結果掃描本文首頁二維碼查看附錄3)。預測模型的高偏倚風險主要來自分析領域,常見于連續型預測因子和分類型預測因子是否被恰當地處理、出現缺失值的研究對象是否被恰當地處理、是否恰當地評估了相應的預測模型效能測量指標、預測模型過度擬合和預測模型效能上的樂觀偏差是否被恰當地考量和處理[14]。

圖2 基于PROBAST的預測模型偏倚風險評估結果Figure 2 Risk of bias assessment results of prediction models based on PROBAST
本研究通過范圍綜述與文獻計量方法系統分析了初級保健領域基于機器學習預測模型研究的設計特征與方法學質量,結果顯示:(1)近3年來初級保健領域基于機器學習預測模型研究逐漸增多,研究主題主要涉及呼吸系統疾病、腫瘤、門診預約等;(2)106個預測模型在樣本量、缺失值處理方法等方面存在較大差異;(3)基于樹的機器學習算法在算法類型使用最多,其中隨機森林使用頻率最高、GBM次之,二者約占全部機器學習算法類型的1/2;(4)多數預測模型區分度良好,對區分度的報告率較高,但對校準度的報告率較低;(4)大部分預測模型未進行外部驗證,總體偏倚風險較高。
本研究結果顯示,納入的30篇文獻中有26篇文獻樣本量>1 000,有16篇樣本量>10 000,其中11篇數據來源于EHR或EMR,總體上樣本量偏大,分析其原因如下:(1)初級保健服務機構常規登記數據、區域健康醫療數據、健康檔案數據等體量龐大;(2)基于機器學習預測模型研究需要大量的訓練集數據進行擬合等。分析本研究納入的30篇文獻所涉106個預測模型總體偏倚風險較高的原因為:與回歸模型類似,基于機器學習預測模型研究在方法學、報告方面也存在缺失值處理方法、模型性能評價指標及預測效能、模型過度擬合報告不充分及未使用獨立數據庫進行外部驗證等問題[15-16]。回歸模型常使用均值、眾數進行插補以處理缺失值[17-18],基于機器學習預測模型研究缺失值處理方法更為豐富,可以通過GBM、貝葉斯網絡、KNN等機器學習算法直接處理缺失值[19-21]。SAVAGE等[22]研究指出,GBM包括一種內置輸入缺失數據的方法,可從既有數據中推斷缺失數據,并通過學習集成中的每個決策樹節點與既有數據推斷如何處理缺失數據。
本研究納入的多數文獻數據來源于EHR或EMR,也有一些文獻數據來源于區域健康醫療數據庫,雖然部分文獻來源數據可能并不是為了研究目的而采集或測量的,但本研究設置了較嚴格的文獻納入與排除標準,因此,其在“研究對象”領域的偏倚風險評估結果為低風險。需要指出的是,在初級保健和社區衛生服務領域,大量真實場景下基于常規醫療服務而獲得的數據對于基本醫療和初級保健研究而言既是機遇也是挑戰:學者雖然可以較方便地獲得大樣本量數據,但可能會遭遇數據采集不規范、數據缺失、患者失訪、各個數據收集系統協調性能與融合不足等問題[23-24]。機器學習方法利用數據和經驗使計算機系統自動學習和改進,可基于龐大的訓練集生成越來越可靠的預測結果,且預測結果的可靠性仍主要取決于訓練集的數據質量和樣本量[25]。隨著大數據技術、EMR的迅速發展,醫療數據的記錄越來越規范,機器學習方法在處理EMR及提取數據方面潛力巨大,未來初級保健領域可能會出現更多的基于機器學習預測模型研究。因此,今后基于社區衛生服務機構收集醫療數據并開展研究時可進一步完善采集數據的真實性與規范性,并規范數據納入與排除標準、數據清洗等,而在模型開發及驗證過程中需注重樣本量、缺失值處理方法、模型性能評價指標及預測效能、模型驗證方法等,以進一步降低初級保健領域基于機器學習預測模型研究報告的偏倚風險,促進今后以機器學習為代表的人工智能技術在初級保健的高質量應用。
本研究局限性:(1)提取的數據限于納入文獻的報告,若納入文獻未報告研究所需信息則可能會在一定程度上產生信息偏倚;(2)PROBAST是基于回歸模型研究而開發的,而基于機器學習預測模型研究尚缺乏專門的報告條目指引,不利于進行數據提取及方法學質量評價[26];(3)納入文獻語種僅限中文與英文,納入文獻數量有限,并可能會在一定程度上產生選擇偏倚。
綜上所述,本研究通過范圍綜述與文獻計量方法系統分析了初級保健領域基于機器學習預測模型研究的設計特征與方法學質量,并通過對初級保健研究進行界定、明確研究對象(是基于機器學習預測模型,而非針對人工智能這一較寬泛的概念)等分析了目前初級保健領域基于機器學習預測模型研究的設計特征與方法學質量,結果發現近3年來初級保健領域基于機器學習預測模型研究逐漸增多,研究主題主要涉及呼吸系統疾病、腫瘤、門診預約等;預測模型在樣本量、缺失值處理方法等方面存在較大差異,多數預測模型區分度良好,但大部分預測模型未進行外部驗證,總體偏倚風險較高。
作者貢獻:鐘錦佳負責研究的實施與可行性分析、數據收集與整理、結果分析與解釋、撰寫論文;李文濤負責研究的構思與設計、數據收集與整理;黃亞芳負責研究的構思與設計、修訂論文、文章質量控制及審校,對文章整體負責;吳浩負責研究的構思與設計、研究實施的監督與管理。
本文無利益沖突。