湯 濤 曹 磊 曹 力 劉 強
(南昌大學第一附屬醫院 南昌330006)
靜脈血栓栓塞癥(Venous Thromboembolism, VTE)是我國常見的心血管疾病,具有高發病率、高死亡率和高漏診率的特點[1-2]。據相關統計,每年因VTE死亡的患者占院內死亡的10%;在重癥加強護理病房(Intensive Care Unit,ICU)患者、腦卒中患者及心血管疾病患者中,VTE患病率分別為27.0%、21.7%和4.0%[3-4]。在歐美國家,VTE被視為一種常見病,在一項以美國人群為基礎的研究中,院內VTE患者占入院率的1.7%[5-6],出院后VTE風險持續增加45~60天。多項研究指出國內人群在骨科大手術后的VTE發生率和死亡率與西方人群無差異[7-9]。種種證據表明,VTE不僅嚴重降低患者生活質量,還增加國家醫療成本和社會負擔。
自20世紀90年代初,國外學者[10]致力于研究各類VTE風險評估工具,目前臨床應用較廣泛的有Caprini評估量表、Autar評估量表、Wells評估量表。上述量表主要包括體征數據、手術史、現病史、藥物使用等多方面的評估,涵蓋VTE患病風險的主要因素[11]。因此建立有效的監測預警機制,提高實時分析、集中研判VTE發生的能力,在疾病發生、發展多個環節提前識別并加入臨床干預是有效降低VTE對生命傷害和經濟影響的重要前提。然而目前對VTE的臨床判斷尚基于傳統的Caprini量表[12]打分,醫務工作者評分含主觀因素,誤診漏診導致的VTE干預不及時等問題,使得VTE預判工作耗時、耗力,其高效性和準確性有待提升。
本文擬通過應用BP神經網絡、隨機森林、集成學習等多種機器學習方法,整合南昌大學第一附屬醫院VTE歷史患者診療數據,一方面對VTE潛在危險因素進行挖掘分析,構建VTE危險因素指標評價體系;另一方面搭建VTE實時預警平臺,對患者的VTE風險等級進行實時評估,與醫院診療系統多終端進行快速交互,輔助臨床早期診斷研判,及時采取臨床干預,從而最大限度降低VTE發生率或發展率。本研究首次探索基于多機器學習方法的VTE實時預警平臺搭建,輔助臨床實現VTE早防早治,這對于降低VTE發病率和死亡率、提高患者生命質量具有重要的臨床意義和社會價值。
選取2016年初至2021年6月南昌大學第一附屬醫院共2 068例VTE住院患者的歷史診療數據,包含基本生理情況、基礎疾病、檢查檢驗、手術類型、所服藥物、既往病史等維度。
2.2.1 危險因素初篩 通過文獻評價及專家咨詢方法,對VTE危險因素進行初步篩選,大致分為患者基本生理情況、基礎疾病、檢驗檢查、手術類型、所服藥物5個方面的指標。危險因素初篩能夠提高之后潛在因素挖掘的算法計算效率,同時為潛在危險因素深度挖掘提供有力的參考依據。
2.2.2 潛在因素深度挖掘 潛在危險因素是發現早期VTE患者的重要依據,基于高緯度、自適應能力強等特點的BP神經網絡和隨機森林模型對基礎數據進行深度挖掘,分析出重要度較高的特征指標,結合上一步初篩結果形成最終的高維度VTE危險因素指標評價體系。一是BP神經網絡。具有適應性強、容錯性好的優點,見圖1。其中x1,x1,...,xk表示BP神經網絡的輸入,y1,y1,...,ym表示預測輸出,wij和wjk分別表示關鍵網絡層之間的連接權值矩陣,即可理解為VTE各危險因素的權值矩陣。
從輸入層到隱含層,有:
(1)
式中,σj(·)為隱含層神經元的活化函數。網絡輸出層可以表示為:
(2)

圖1 BP神經網絡架構
BP神經網絡可通過前向傳播和后向反饋的機制,對分類器進行反復訓練及優化,同時構建出最優的危險因素權值矩陣,由此可對特征變量的重要性進行評估。二是隨機森林(Random Forests,RF)。一種利用多棵決策樹對樣本進行訓練并預測的分類器,具有準確度高、快速學習等優勢,同時在構建森林時可以對特征變量重要性進行評估,見圖2。基本計算方法如下:對每個決策樹,通過袋外數據計算誤差,記為errOOB1;隨機對袋外數據樣本特征X加入噪聲干擾,再次計算袋外數據誤差,記為errOOB2; 假設森林中有N棵樹,計算特征X的重要性,記為∑(errOOB2-errOOB1)/N。若加入噪聲干擾后errOOB2上升,則袋外數據準確率大幅度下降,說明該特征對于樣本的預測結果影響較大,特征重要程度較高。三是集成學習。將幾個機器學習算法模型組合為一個更強的分類器模型,以提高分類準確率,即多個決策者共同進行一項決策,見圖3。

圖2 隨機森林模型架構

圖3 集成學習模型架構
平臺采用OracleXE數據庫,基于JavaScript語言及瀏覽器/服務器(Browser/Server, B/S)架構進行實時預警平臺搭建,部署在醫院內網環境中以保證系統及數據的安全性。
3.1.1 特征提取階段 模型共納入1 000余項臨床數據特征,在剔除頻率低、共線性強的特征后,最終選取308項特征變量(如惡性腫瘤史、腫瘤家族史、臥床時長、天門冬氨酸氨基轉移酶等),此特征空間遠大于經典Caprini評分量表的20余項,并且可以表達不同特征間的組合,是模型準確率提升的基礎。
3.1.2 預測模型構建階段 應用BP神經網絡、隨機森林、集成學習等機器學習算法構建一套面向VTE的人工智能(Artificial Intelligence,AI)風險預測模型,顯著提高VTE篩查的靈敏度和特異性。
3.1.3 Caprini評分量表的對比 經過對300份標注數據的驗證,模型的靈敏度為80%,特異性為84%,優于傳統的評分量表效果,可以作為評分量表的有效補充,減少漏診風險,見表1。同時AI預警模型除了輸出VTE風險評分外還提供該患者的危險因素和保護因素,輔助醫生更好地對患者VTE風險進行研判。

表1 Caprini評分表與AI模型性能對比(%)
3.2.1 在不降低準確率的前提下,自動評分效率大幅提高 系統應用后改變了原有的人工手動評分方式,改為機器自動評分+人工審核的方式。經過與人工手動評分對比發現機器在自動評分任務中的準確率、召回率與人工手動評分相當,耗時明顯減少,大幅提升醫生工作效率,見表2。

表2 系統應用前后評分指標對比
3.2.2 針對風險人群的預防措施實施率顯著提升 VTE智能預警平臺大大提升了VTE風險人群的預防措施實施率,同時預防措施更加合理。例如對于出血風險較高患者主要以機械預防措施為主,包括分級加壓彈力襪等;對于出血風險較低的患者以藥物預防或藥物預防聯合機械預防為主,包括使用低分子肝素等,見表3。

表3 預防措施實施率對比
本文基于多機器學習方法,整合近5年VTE患者歷史診療數據,對VTE的潛在危險因素進行深度挖掘,進而基于JavaScript語言及B/S架構進行VTE實時預警平臺搭建,系統上線后使用平穩,在不降低準確率的前提下,自動評分效率大幅提高,針對風險人群的預防措施實施率顯著提升。然而預警平臺仍存在不足,由于VTE患者數量,即模型訓練樣本數量有限,模型準確度仍有提高的空間,隨著VTE患者診療數據不斷引入模型訓練,模型準確性及自適應性將得到更大提升與完善。通過本研究建立的高緯度危險因素指標體系及實時預警平臺,在當前目標人群應用和初步論證其效果后,下一步將應用到下級醫聯體醫院中,輔助醫務人員進行VTE專病早期預防及診療工作。同時隨著分子醫學領域水平不斷提高,對該指標評價體系的科學性、準確性進行評價,持續完善并不斷擴展和探索更多的研究空間。