潘姝丞,俞臻梁,茅亦馨,王 薇*
1.浙江大學醫學院附屬第一醫院,浙江 310003;2.湖州師范學院;3.紹興護士學校
靜脈血栓栓塞癥(venous thromboembolism,VTE)是深靜脈血栓形成(deep vein thrombosis,DVT)和肺栓塞(pulmonary thromboembolism,PTE)的統稱,屬于同種疾病在不同階段的表現形式[1]。研究報道,每年發生VTE約1 000萬例[2],幾乎每千人中就有1人或2人發生靜脈血栓形成[3]。VTE已成為繼缺血性心臟病和腦卒中后的第三大心血管疾病死亡原因[4-6],是全球非傳染性疾病的重大負擔[7]。現對其研究進展進行整理和總結,以促進我國VTE風險預測模型的構建及應用。
風險預測模型是以多風險因子為基礎,按風險高低分層,利用數學公式等計算未來某一事件發生概率的一種統計性評估方式[8-9]。廣義的風險預測模型包含診斷預測模型(diagnostic prediction model,DPM)和預后預測模型(prognostic prediction model,PPM)[10-11]。美國學者最早依據Framingham隊列研究開發了冠心病風險預測模型。有關VTE風險預測模型的研究起步較晚,近年來呈增多趨勢。目前,許多國家都在積極開發及驗證適合本國的VTE風險預測模型。
風險評估是有效預防血栓形成的重要組成部分[12],VTE風險評估模型以評估量表為主。目前為止,已開發較多成熟的VTE風險評估量表,其中以Caprini評分和Padua評分應用較為廣泛。
2.1 Caprini評分 Joseph A.Caprini于1991年首次發布Thrombosis Risk Factor Assessment,該量表是目前應用廣泛的VTE風險評估工具之一。《美國胸科醫師學會(The American College of Chest Physicians,ACCP)抗栓治療與血栓預防臨床實踐指南(第9版)》[13]、《中國普通外科圍手術期血栓預防與管理指南》[14]、《中國骨科大手術靜脈血栓栓塞癥預防指南》[15]、《腫瘤相關靜脈血栓栓塞癥預防與治療中國專家指南(2015版)》[16]均推薦該量表用于病人VTE風險評估。
2.2 Padua評分 意大利學者BARBAR于2010年針對內科住院病人開發了the Padua Prediction Score(PPS)[17],《ACCP抗栓治療與血栓預防臨床實踐指南(第9版)》推薦該量表用于內科住院病人的VTE風險篩選[18]。國內《內科住院病人靜脈血栓栓塞癥預防的中國專家建議(2015)》也推薦了Pudua,同時總結了急性內科疾病住院病人病癥及危險因素[19]。
2.3 其他量表 由于病情的復雜性和特殊性,更多學者根據VTE病人具體情況開發了特異化量表。如2008年,美國學者Khorana等[20]對接受化療的癌癥門診病人進行了一項多中心的前瞻性觀察研究,最終開發了一種適用于腫瘤化療病人VTE風險模型——Khorana評分。該量表得到了美國臨床腫瘤學會(American Society of Clinical Oncology,ASCO)和美國國家綜合癌癥網(the National Comprehensive Cancer Network,NCCN)最新指南更新的認可[21-22]。現將常用量表名稱、發布時間、風險因子及預測能力等要素總結,具體見表1。

表1 常用的VTE風險評估量表
VTE風險評估量表使用簡單方便,但在臨床實際應用過程中,由于病人病情的復雜性,單一的量表有時不能達到最佳預測效果,因此,國內外研究者對量表進行完善,并聯合其中兩個及以上量表構建了新的VTE風險預測模型。早期的VTE風險預測模型多為傳統的數學模型。
3.1 量表的聯合使用與改良 國內學者對于VTE風險預測模型的研究多圍繞現有的量表展開,通過量表的聯合使用或改良進行驗證性研究。劉亞群等[41]為驗證Caprini評分和Padua評分聯合使用在內科住院病人中篩選VTE病人的有效性,納入3 268例住院病人,其中VTE確診病人172例,進行單中心回顧性研究,通過Logistic二分類回歸分析得到Caprini評分和Padua評分聯合使用后的預測概率模型,并采用Delong法比較3種模型的曲線下面積,得出Caprini評分和Padua評分聯合使用后的預測概率模型靈敏度、特異度及AUC均優于Caprini模型和Padua模型。單娟等[42]依據修訂版Caprini風險評估模型,調整其中不適合重癥監護室(ICU)病人疾病特點的條目,綜合醫院醫療專家和護理專家的意見,制定了改良版Caprini風險評估模型,并探究了基于改良Caprini風險評估模型的預見性護理對降低ICU病人VTE發生率的作用。黎凌云等[43]驗證了基于改良版Caprini風險評估模型的預見性護理對降低骨科病人靜脈血栓栓塞發生率的作用。
3.2 其他探索性研究 除驗證性研究外,其他學者還對VTE預測模型進行了更深入的探索性研究。沈忱[44]前期通過大量文獻回顧并結合Caprini風險評估量表,設計了VTE風險預警指標調查表,經多因素Logistic回歸分析后,得到獨立風險預警指標:胸膜性胸痛、勞累后氣促、胸悶氣短、單側下肢疼痛、吸煙、纖維蛋白原降解產物、Caprini評分,這7個變量分別賦值,構成了VTE風險預警模型。該模型經檢驗效能分析,AUC為0.960。該模型外部驗證Youden指數、正確率、靈敏度、特異度分別為0.625,81.8%、77.8%、84.7%,表明該模型在外部人群中具有較高的預測效能。李海燕等[45]利用Logistic回歸模型篩選變量,構建了中老年病人院內發生VTE的風險預測模型。其預測模型的變量為腫瘤史、呼吸道感染/呼吸衰竭、肝腎疾病、飲酒史、D-二聚體濃度、輸血史及Caprini血栓風險等級。趙斌亮[46]采用橫斷面調查研究,建立了DVT病人并發肺栓塞的Logistic回歸模型及評分系統并在外部人群中進行驗證,該評分系統稱為山西大醫院評分(SDH評分)[47],該評分系統與基于國外人群建立的Wells評分和修正的Geneva評分相比,顯示出良好的校準和判別能力,因此更適合國內DVT病人PE風險預測。Pabinger等[48]進行了一項有關癌癥和血栓形成的隊列研究,開發了VTE預測模型,即維也納癌癥和血栓形成研究(cancer and thrombosis study,CATS),并進行了外部驗證。Tareq等[49-50]為檢驗血栓彈力圖(thromboelastography,TEG)能否通過癥狀特征預測急診室病人發生VTE進行了一項前瞻性研究。McCurdy等[51]通過單變量和多變量Logistic回歸模型得出炎性腸病病人住院期間和出院后3個月內VTE的危險因素,創建了VTE風險預測模型,并通過自助抽樣法對模型進行內部驗證。
可以看出,國內學者對構建的VTE風險預測模型多進行較為全面的驗證和評價,特別是對模型的預測能力進行檢驗和外部驗證,且數據較充分。但構建的VTE風險預測模型規模較小,樣本量少,且研究人群較為局限,其對VTE風險因子、風險等級劃分及預防措施缺乏系統化的整理和歸納。而國外學者基于傳統算法所構建的VTE風險預測模型多經內外部驗證,且適用人群較明確,具有一定的特異性,因此所構建的VTE預測模型在一定范圍內具有影響力,但驗證人群較為單一。
與傳統的數學模型相比,機器算法模型結合了計算機、數學、統計、工程等多個學科的相關知識,因此具有更高的靈敏度、特異度,預測能力更強,更易滿足當前精準醫療的需求[52]。結合機器算法可以大大提高VTE風險模型的評估效率和預測能力。
4.1 常用的機器學習算法模型 機器算法在VTE風險預測模型領域開展的研究起步較晚,但近幾年發展迅猛,國外已發表較多研究成果。Ferroni等[53-54]基于支持向量機(support vector machine,SVM)和隨機優化(random optimization,RO)模型等機器學習方法構建了化療的癌癥門診病人VTE風險預測因子,并將它們的綜合性能與當前推薦的Khorana評分進行比較,結果表明其對于化療治療的癌癥門診病人的VTE風險分層具有臨床價值。Emily等[55-56]使用機器學習方法,從電子健康檔案(electronic medical records,EMR)中自動獲取信息以預測病人住院后VTE的風險,其中Sabra等[56]更關注EMR中的敘事信息,并提出了風險因素的語義提取和情感評估框架(semantic extraction and sentiment assessment of risk factors,SESARF)。兩人的研究結果都表明,機器學習方法能夠識別高危病人,且比傳統方法的準確性更高。國內北京協和醫學院施舉紅團隊也進行了機器學習探索性研究。該團隊納入376例病人,其中VTE病人188例,構建VTE風險預測模型,并與Padua模型進行比較。該團隊在模型推導集上訓練了9種常用的機器學習算法,其中隨機森林法(random forest,RF)、Boosting-based方法和Logistic回歸法在試驗集和驗證集均比Padua模型具有更高的特異性,Youden指數、陽性預測值和AUC也具有一定的優越性,但敏感性低于Padua模型[57]。該團隊還嘗試從醫療記錄中挖掘中國VTE病人攜帶的風險因子,構建了一種結合自然語言處理(Natural language processing,NLP)和機器學習(machine learning,ML)技術的VTE風險預測模型的工作流程,即從醫學記錄中提取術語,然后根據SVM權重進行排序,建立較為精確的風險預測模型。
目前,SVM、隨機森林等機器學習模型在VTE領域已取得了較好的研究成果[52]。機器算法可以對病人的臨床資料進行綜合分析,為病人提供無創化的個性化風險評估,減少不必要的超聲檢查[40],從而極大地降低醫療成本,使有限的醫療資源更集中于高風險病人[58]。
4.2 人工神經網絡(artificial neural network,ANN)模型的更新 隨著機器學習算法的不斷更新,神經網絡的進步加速推動了VTE預測模型的變革。人工神經網絡類似于人類大腦中的學習,通過一系列相互作用的“神經元”可以檢測VTE眾多復雜數據的非線性相互作用,速度快且效率高。英國血友病和血栓形成中心學者John Willan與牛津大學學者Harley Katz進行了一項單中心回顧性研究,將人工神經網絡(artificial neural network,ANN)成功運用于改善DVT疑似病人的風險分層[59]。所構建的網絡包含13個維度的輸入層,即性別、年齡、D-二聚體結果和Wells評分的10個風險因子。研究者還提出了牛津神經網絡(Oxford Neural Network,ONN)分數,受試者ONN分數越高,其潛在DVT可能性越大,但ONN分非DVT概率。此外,該團隊還使用相同的數據集對RF和SVM算法進行了訓練,并證實了人工神經網絡算法分析的優越性。
4.3 超級學習者模型成為不斷演化的新工具 美國哈佛醫學院Willan等聯合杜克大學杜克臨床研究所Adrian、斯坦福大學醫學院Robert等納入7 513例急性內科疾病病人,建立了一個超級學習者模型(super learner model,ML),包含VTE相關的68個變量。同時還開發了VTE“簡化版”模型(reduced super learner model,rML),含16個變量。結果表明,ML和rML算法在預測VTE方面優于International Medical Prevention Registry on Venous Thromboembolism(IMPROVE)評分。ML的Hosmer-Lemeshow擬合優度P值為0.06,rM L為0.44,改善得分<0.001。因此,與IMPROVE評分相比,超級學習者模型可以提高急性疾病病人VTE風險識別的能力。但該模型研究的受試者大多是白人,其中70%年齡>75歲,因此該模型對于亞洲人種特別是中青年人群可能不適用[60]。國內學者可借鑒其模型方法,充分利用機器學習超級學習的優勢,對中國人群進行驗證并完善模型。
一直以來,國內臨床上對于VTE的診斷及預測多以Caprini評分和Padua評分等量表評分為主,并結合實驗室檢查、超聲影像等[59]。現有的VTE風險評估量表多發布于20世紀90年代或21世紀初,研究實施的時間甚至更早。由于樣本量的限制及評分模型本身的局限性[27],加上種族和疾病譜的差異[61],量表在時間、空間與人群分布上存在一定的局限性,原有的評分模型不完全適用于國內病人VTE風險預測。因此,VTE風險預測模型需要與時俱進。研究者開展病例對照研究和隊列研究,采用單因素和多因素回歸方法,即傳統的數學模型,得到風險因子后對其賦值,從而建模并進行內部驗證或外部驗證。隨著大數據時代的到來和機器算法的更新,越來越多的研究表明基于計算機技術開發的VTE風險預測模型具有一定優越性,是未來VTE風險預測模型發展的趨勢。本研究從風險評估模型、傳統的數學模型與新型機器算法模型綜述了VTE風險預測模型的研究進展,旨在為國內研究者構建本土化的VTE風險預測模型提供一些思考。