趙雨蕾,蔣 蓉,余 艷,王 蕓,周麗娟,王 芝,李文靜
卒中后抑郁(post-stroke depression,PSD)是腦卒中后常出現的情感功能障礙,以情緒低沉、自責、睡眠障礙、興味索然等為主要特征,常伴隨有軀體癥狀[1, 2]。卒中患者在長期康復過程中的不同階段均有可能罹患PSD[3],有研究表明,我國PSD發生率為34.9%[4]。PSD的高致殘率與高死亡率嚴重影響了腦卒中患者的認知、神經及肢體功能恢復,導致患者的家庭與社會負擔加重、生活質量下降等不良后果[5, 6]。有研究指出,采取針對性措施可改善PSD患者的結局,并在一定程度上改善患者的神經功能狀態[7, 8]。因此,早期預測卒中患者抑郁情況以實施適當干預,對改善卒中患者預后、提高患者生命質量具有積極影響。在醫療領域,機器學習模型可應用于疾病診斷以及并發癥的預測[9],幫助醫護人員早期識別高危人群,為醫護人員制定正確的管理策略和個性化的干預措施提供支持。本文對PSD的機器學習風險預測模型的研究進展進行整理和總結,旨在為PSD的風險預測模型構建與預測模型的臨床應用與研究提供參考與借鑒。
1.1 概述隨著計算機技術的飛速發展,醫療系統進入了大數據和機器學習時代。機器學習是一門多學科交叉專業[10],使用機器學習技術建模可以深入挖掘數據的價值,并在有效利用數據和支持臨床決策方面發揮不可或缺的作用[11]。常用的機器學習算法包括K近鄰、樸素貝葉斯、Logistic回歸、決策樹、支持向量機、深度神經網絡等[12]。風險預測模型作為一種預測工具,可通過數學公式估算個體目前患某種疾病或未來發生某種結局的可能性[13],依據應用目的可將模型分為診斷和預后兩種類型[14]。預后模型指被診斷為某種疾癥后,對未來某一時間段內的并發癥、復發、死亡等發生率進行預測[15],本文研究的PSD風險預測模型屬于預后模型。如今,基于機器學習算法的風險預測模型已在醫療領域獲得廣泛應用與發展,能夠較為精準、高效地進行疾病預測和診斷,識別高危群體,并協助醫務人員及時有效地制定干預措施,進而減少不良結局的發生,提高患者生命品質。
1.2 預測模型的評估目前,研究者常采用鑒別能力來評價預測模型,其主要評判指標包括特異度、靈敏度以及受試者工作特征曲線下面積(area under curve,AUC)等。AUC值也被稱作C-統計值,通常作為綜合性指標評估預測模型的準確性[16, 17],取值在0.5~1,值越大表示該模型鑒別能力越高;靈敏度反映模型篩選陽性患者的能力;特異度反映模型確定陰性患者并將其排除的能力[18]。
1.3 預測模型的驗證由于臨床應用場景與研究對象的變化等因素,患者數據可能會呈現出不同特征,這為模型的預測結果帶來干擾,好的模型應當具備一定的泛化能力來避免這種干擾。因此,完整的預測模型研究需要通過驗證其內部效度及外部效度來評估模型的準確性與泛化能力[15]。Bootstrap重抽樣、交叉驗證等常用作預測模型的內部驗證,內部驗證指測試集和訓練集同源;而外部驗證常收集不同源、不同時間段的數據進行測試和驗證[19]。
PSD的危險因素很多,篩選并確定PSD的高危因素,可以降低建模難度,提高模型預測效果。因此,基于危險因素的研究可為PSD風險預測模型的構建奠定基礎。高春林等[20]總結了PSD的主要影響因素,包括卒中后病殘、卒中前抑郁病史、卒中嚴重程度與認知功能障礙,焦慮和社會家庭支持缺失也對PSD具有一定影響。馬瑾等[21]認為PSD的風險因素涵蓋生理-心理-社會三個層面,具體的因素除與高春林等研究的結果一致外,還應包括腦血管病危險因素、缺氧、個性內向、獨居、家庭負擔重、自理能力差。張亞恒等[22]Meta分析顯示,PSD的高風險因素包括瘦素含量高、高身體質量指數(BMI)、高mRS評分、基底節區梗死、額葉梗死、多病灶、家庭支持缺乏,年齡及女性。這些研究結果可為PSD風險預測模型研究在數據收集以及構建方法等方面提供參考。
3.1 卒中后抑郁Logistic回歸預測模型Logistic回歸是一種有監督的分類學習模型,根據因變量的數量可分為二元分類和多元分類,是反映因變量與多種影響因素之間關系的回歸分析方法[23]。Ginkel等[24]采用前瞻性多隊列研究方法獲得410例卒中患者的社會人口學資料、心腦血管危險因素、既往史、卒中后功能評估資料等,在Logistic回歸分析的基礎上構建模型,內部檢驗得出AUC值為0.78,靈敏度和特異度分別是0.73和0.75,結果顯示該模型具有良好的預測性能。研究表示該模型可協助醫護人員在1周內及時預測患者未來發生PSD的風險。但該模型只進行了內部測試,缺乏外部驗證支持。且該研究收集的是患者中風后1周內的數據資料,病情較重的患者被排除在外。有研究發現[25],病情越嚴重的卒中患者PSD診斷率越高,因此,PSD的實際發生率可能高于此研究結果,這與其他研究者[26, 27]在探究PSD發病率時所忽略的問題一致。
3.2 卒中后抑郁Cox回歸預測模型Cox比例風險回歸模型可對生存結局與生存時間進行分析,并可同時納入多個因素,在流行病學的多因素生存關系分析問題當中得到較好的應用[28]。Leentjens等[29]采用前瞻性研究方法收集190例卒中患者資料,在患者卒中后1個月根據《診斷與統計手冊:精神障礙》以及漢密爾頓抑郁量表行重度抑郁評估。并在第3、6、9和12個月時對患者進行隨訪,通過自評量表再次對患者進行抑郁評估。研究者首先以重度抑郁評估作為結果變量,基于四種社區抑郁癥的危險因素(性別、既往抑郁癥個人史、抑郁癥陽性家族史和非卒中影響的軀體合并癥)構建了Cox回歸模型。而后,又在此基礎上輸入五種潛在危險因素(殘疾,認知功能低下,半球間病變、半球內病變以及全身性血管損傷),結果證明殘疾程度是唯一可以提高該模型預測性能的危險因素。但該研究在構建模型時納入的因素有限,未考慮到其他可能會影響PSD的危險因素,如社會心理因素等。此外,該模型未說明內外部驗證情況,故預測性能與臨床適用性有待進一步評估。
3.3 卒中后抑郁列線圖預測模型列線圖又稱諾莫圖(Nomogram),其基于多因素回歸分析,通過具有刻度的線段依照特定比例在同一平面上描繪指標,以此表示不同變量間的相關性[30]。喬嘉璐等[31]通過回顧性分析篩選出具有建模能力的5個因素,包括日常生活能力量表評分、入院當天美國國立衛生研究院卒中量表評分(national institute of health stroke scale,NIHSS)、左額葉FA值、左顳葉FA值和左前扣帶回FA值。此研究內外部驗證AUC分別為0.8535和0.8972,結果表明該模型具有較好的識別及預測能力,且臨床適用性較好。分析此研究雖進行了驗證,但構建的模型規模較小,訓練數據較少,在后續的研究中還需加大訓練樣本量,規避模型過擬合風險。柯緒芬等[32]通過前瞻性研究法收集了321例卒中患者的資料。結果顯示以下7個獨立危險因素:腦力型職業、額葉病變、基底核區病變、腦干病變、丘腦病變、同型半胱氨酸水平≥15 μmol/L以及NIHSS評分≥6分,訓練集和驗證集的AUC分別為0.826和0.793。此外,該模型還進行內部驗證,證明該模型較好的鑒別能力和預測性能。但未進行外部驗證,且在收集患者資料時未考慮到社會心理因素,后續研究在納入因素時,仍需考慮綜合危險因素。Li等[27]報道了急性缺血性腦卒中患者發病3個月時PSD風險預測列線圖模型。研究者通過Logistic回歸分析確定以下7個強相關因子:年齡,NIHSS評分,改良Rankin評分量表,血清鈣磷產品,教育水平,高血壓病史和心房顫動史。該模型C-統計量為0.81,靈敏度和特異度分別為0.711和0.786,顯示較好的鑒別性能。此模型進行了內部測試并進行校準,但未見外部驗證結果,故今后還需對該模型進行多中心的外部臨床驗證,以增加其預測可靠性與臨床應用價值。
3.4 卒中后抑郁樹模型樹模型能很好地表達非線性關系,適用于分類與回歸任務,且樹狀方法使模型擁有更高、更穩定的精確率及可視化的預測結果,因此,樹模型的使用較為廣泛。決策樹由一系列節點構成,可基于訓練集對實例進行分類或回歸;而隨機森林是以決策樹為基礎分類器,可同時訓練多個決策樹,并綜合分析每個決策樹的結論,最終得出預測結果[12]。
Liu等[25]前瞻性地收集562例患者的資料,在Logistic回歸模型的基礎上轉化為決策樹模型,模型的AUC值為0.85,準確度、靈敏度和特異度分別為0.86、0.70、0.83。研究者認為兩個模型的預測性能差別不大,但是決策樹模型更為簡單直觀,更方便臨床應用。此外,該研究還指出,社會心理因素對于在1個月內識別PSD的風險非常重要,并有助于卒中后康復。但該研究方法存在以下不足:一是該研究未納入實驗室檢查等風險因素,后續研究需結合更多風險因素進行綜合分析;二是未說明模型的內外部驗證情況,其預測性能和臨床適用性尚無法明確。羅曉舟等[33]首先在回顧性研究的基礎上運用單規則算法,判別并提取出688例卒中患者并發抑郁的高危因素:病灶位置、中醫藥干預手段及抑郁家族史。雖然此研究樣本量大,但未詳細說明抑郁結果的判別標準,且病例來自不同醫院,在干預手段數據記錄中無法統一,因此,在做臨床干預時還需進一步思考。再者,該模型仍需外部驗證來為其能否適用于臨床提供依據。錢淑霞等[34]將320例卒中患者作為研究對象,通過構建分類回歸樹模型確定以下危險因素:腦卒中病史、BMI、社會支持評定量表、多倫多述情障礙量表、漢密爾頓焦慮量表及NIHSS。此研究未運用評價指標評估模型,且缺乏外部驗證,模型的預測性能與臨床應用價值尚無法評價。
隨著大數據與機器學習技術的發展與應用,研究者對醫工結合領域的關注度居高不下,國內關于卒中患者PSD的機器學習預測模型也得到了較好的研究與發展。但由于現有研究在危險因素、研究方法、模型評估指標、驗證方法等方面存在差異,無法進行較為客觀的比較,且現有方法仍存在一定局限性,未來需要運用更科學、更全面和更先進的研究方法進行PSD風險預測模型的探索。首先,在納入危險因素時,需要從多角度綜合考量,并在實踐過程中不斷校準和更新,全方位地分析PSD的影響因素,從而為醫務人員有針對性地提出干預對策奠定理論基石;其次,預測模型的準確性及臨床適用性是醫務人員在實際運用模型時需要考慮的指標。因此,在今后的模型構建研究中,為了提高預測穩定性、準確性和適用性,除進行內部驗證外,針對不同群體的多中心的外部驗證也是必要的。預測模型研究的價值除了所構建的模型本身,更重要的是其在臨床中的實用和推廣,這也是研究的出發點和落腳點,故預測模型構建之后的跟蹤研究,需要得到研究人員更多關注。