孫玉萍,宋 崗,張建美,宋云萍
膠州市人民醫院,山東266300
經外周靜脈穿刺中心靜脈置管(peripherally inserted central catheter,PICC)是一種從外周靜脈導入且末端位于中心靜脈的深靜脈置管技術,廣泛應用于惡性腫瘤、胃腸外靜脈營養等病人,有留置時間長、費用低、可減少反復穿刺等優點[1]。但相關并發癥也時有發生,如相關性上肢靜脈血栓形成(upper extremity deep vein thrombosis,UEDVT),據最近的一項臨床研究顯示,PICC相關的UEDVT的發生率約為2%[2],增加了病人的死亡率[3-5]。目前,國際常用的血栓形成風險評估工具包括:①Autar深靜脈血栓風險評估表,主要用于手術骨創傷病人的深靜脈血栓風險評估[6];②Caprini風險評估模型,廣泛用于所有住院病人深靜脈血栓的評估[7];③Wells量表大多用于門診病人深靜脈血栓的篩查[8];④密歇根PICC-DVT風險評估量表[9]。但這些量表只籠統地評估深靜脈血栓形成風險,而特異性地評估UEDVT的工具,應用較為廣泛的有Seeley量表,Seeley量表最初是由美國拉什大學醫學中心的Seeley教授建立,是UEDVT的風險評估工具。該評分系統共涵蓋5個條目并有相應的賦值,分別是長期臥床14分、深靜脈局部壓痛13分、吸煙10分、因骨髓炎而置管20分以及居家或住院期間抗凝9分,總分66分,若總分≥20分則意味著病人住院期間容易發生UEDVT,總分<20分則相反,該評估工具陰性預測值98.9%,陽性預測值27.3%,陽性預測值偏低[7]。該量表未在大樣本人群中驗證,尚缺乏普適性和針對性[8]。因此,構建新型工具評估PICC相關UEDVT,有助于提升PICC相關UEDVT預測的準確性。
機器學習(ML)是人工智能的一種,是數據統計與計算機科學的結合,通常包括訓練集和測試集,訓練集用來學習的樣本集,通過匹配一些參數來建立一個分類器,對所輸入的信息進行學習。測試集是為了測試已經訓練好的模型的樣本集,可以找出輸入信息的特征與輸出信息之間的關聯。目前在醫學領域已經有較廣泛的應用[9-10]。本研究采用ML的方法,對PICC置管前后所有受試者進行信息采集,將采集的信息輸入訓練集,訓練集對采集的信息進行特征提取,通過測試集對訓練集結果進行進一步驗證,檢驗ML對PICC相關性UEDVT風險做出相對精準的評估和預測的可行性。

1.2.1 臨床資料的采集
PICC置管前,對所有受試者進行了血常規、凝血檢查,并全面收集病人基本信息,包括性別、年齡、體重指數(BMI)、吸煙、飲酒、營養風險篩查(Nutrition Risk Screening 2002,NRS 2002)、血栓形成家族史、化療史、糖尿病、導管移位和D-二聚體(≥0.5 mg/L)等。PICC置入時,由專科護士采用超聲引導下改良Seldinger技術在肘上穿刺貴要靜脈置入三向瓣膜單腔4Fr或5Fr PICC導管。由專科護士記錄穿刺情況,導管的長短和內腔,插入的部位等導管相關的數據。置管當天開始,每周對置管上肢行常規超聲檢查,持續4周。對常規超聲判斷困難者行超聲造影,并由超聲專業醫師協助判斷血栓形成情況。UEDVT的診斷以常規超聲檢查或者超聲造影檢測上肢靜脈血栓的形成為標準。
1.2.2 ML模型構建

首先,比較了Seeley量表和ML模型(ML-LASSO,ML-Seeley-LASSO)的訓練集結果。在訓練集中,常規超聲檢查或者超聲造影檢測發現UEDVT 38例,Seeley量表預測PICC相關UEDVT高風險的有33例,ML-LASSO預測PICC相關UEDVT為陽性結果有37例,ML-Seeley-LASSO預測PICC相關UEDVT為陽性結果有38例,ML-Seeley-LASSO預測與實際結果一致。在訓練集中,ML-Seeley-LASSO的敏感性、特異性、PPV和NPV均為1.000 0,展現出完美的性能。而ML-LASSO的模型的敏感性、特異性、PPV和NPV分別為0.965 5,0.873 5,0.652 8,0.973 1,表現次于ML-Seeley-LASSO的訓練結果。因為在Seeley量表只標記陽性結果,所以PPV項無結果標記,并且其特異性始終為1.000 0。詳見表1。

表1 Seeley量表和ML模型的訓練集結果比較
隨后,對Seeley量表、ML-LASSO模型,ML-Seeley-LASSO模型的測試集結果進行比較。在測試集中,常規超聲檢查或者超聲造影檢測發現UEDVT病人38例,Seeley量表預測PICC相關UEDVT高風險44例,ML-LASSO預測PICC相關UEDVT為陽性的結果有36例,ML-Seeley-LASSO預測PICC相關UEDVT為陽性的結果有38例,ML-Seeley-LASSO預測與實際結果一致。同訓練集類似,Seeley量表特異性始終為1.000 0,PPV項無結果標記,并且與ML模型相比,性能較差。在ML-LASSO模型中,敏感性、特異性、PPV和NPV分別為0.761 9,0.721 3,0.651 0,0.678 2。而在ML-Seeley-LASSO模型中,敏感性、特異性、PPV和NPV則分別為0.543 0,0.548 8,0.983 2,0.983 4。從整體來看,ML-LASSO模型在測試集結果的表現優于ML-Seeley-LASSO模型。詳見表2。

表2 Seeley預測工具和ML模型的測試集結果比較
進一步進行了ROC曲線分析,并計算了AUC。對于ML-LASSO模型而言,AUC為0.856,95%置信區間(CI)[0.782,0.931]。對于ML-Seeley-LASSO模型而言,AUC為0.799,95%CI[0.711,0.887]。Seeley標記為reference line,AUC為0.500。由此可見,2個ML模型的AUC均>0.5,提示ML-LASSO模型和ML-Seeley-LASSO模型在都具有優越的預測性能。詳見圖1。

圖1 ML模型(ML-LASSO、ML-Seeley-LASSO)的ROC曲線分析
在ML-LASSO、ML-Seeley-LASSO模型中,分別排列出整個數據集中得分最高的預測因子及其得分。在ML-LASSO模型中,最重要的預測UEDVT的發生的因子包括體質指數、吸煙、深靜脈血栓家族史、NRS 2002評分等。在ML-Seeley-LASSO模型中,最重要的預測UEDVT的發生因子則為糖尿病、體質指數、導管的位置、D-二聚體(≥0.5 mg/L)等。詳見表3。

表3 不同ML模型中UEDVT發生的預測因子
隨著惡性腫瘤化療藥物的不斷發展,腫瘤病人中PICC的使用日漸普遍[12]。惡性腫瘤病人一方面由于血液成分發生改變,血液處于高凝狀態;另一方面,PICC置管可致血管內皮損傷,增強黏附分子反應,誘發血栓形成[13]。在使用過程中相關血栓的發生率也日漸增多[14]。近年來,PICC相關性UEDVT的發生率呈現逐年增高的趨勢[15-17]。 眾所周知,血栓形成有三大因素,即血液高凝狀態、靜脈壁損傷和血流緩慢[18]。通常UEDVT包括有癥狀和無癥狀2種類型,其中有癥狀靜脈血栓常表現為皮溫升高,局部發紅腫脹,導管置入部位肢體感覺或者功能障礙,嚴重者伴有觸痛;無癥狀者上肢可無上述表現,但是進行彩色多普勒血流顯像檢查時發現靜脈內有血栓形成[19-20]。在本研究中,采用隊列研究,以電子病歷的方式記錄UEDVT的發生及其他相關臨床特征,隨訪四周,以超聲檢查或超聲造影檢測確定是否有上肢靜脈血栓形成。
ML方法是強大的分析工具,其理論和方法已被廣泛應用于解決工程應用和科學領域的復雜問題,當然亦可應用于醫學研究的領域。先前有研究將ML應用于靜脈血栓評估,并取得了一定成果。Kawaler等[8]于2012年提出用ML的方法識別,并提出了用此方法預測深靜脈血栓較傳統模型更為優越。Narain[21]將自然語言處理系統(natural language processing,NLP)與ML相結合,來加強深靜脈血栓的識別率。此外,Perroni等[22]運用ML方法對進行化療的門診癌癥病人進行靜脈血栓栓塞的風險評估,基于支持向量和隨機優化(RO)模型的多核學習(MKL)進行靜脈血栓形成的風險預測。Liu等[23]將ML運用于PICC相關靜脈血栓形成的評估中。以上均是ML運用于血栓形成風險評估及預測的實例,但是尚未有研究將ML運用于PICC相關UEDVT形成風險評估中。本研究中采用2個ML模型,以現有評估模型Seeley為基礎,建立ML-LASSO和ML-Seeley-LASSO模型。樣本被隨機分為訓練集和測試集,并將訓練及測試結果與現有評估量表Seeley進行比較。在訓練集結果中,Seeley預測工具與ML模型比較,ML-LASSO和ML-Seeley-LASSO都較Seeley工具更為優越。在測試集結果中,與Seeley相比,ML-LASSO和ML-Seeley-LASSO工具也更為優越,且ML-LASSO的優越性高于ML-Seeley-LASSO。進一步對2個ML模型ML-LASSO和ML-Seeley-LASSO進行了ROC曲線分析,其AUC分別為0.856和0.799,表明ML-LASSO模型和ML-Seeley-LASSO模型在對PICC相關UEDVT形成都具有優越的預測性能。
傳統的預測模型Seeley包括的預測因子有5個,分別為最近臥床不起、深靜脈局部壓痛、吸煙、骨髓炎和抗凝劑等。另外,近年來國內護理領域對PICC相關性血栓形成危險因素方面的研究也比較多。如裘成莉等[24]對食管癌化療病人PICC相關性血栓的危險因素進行回歸分析,結果顯示:食管癌TNM分期、靜脈血栓史、放療史、PICC導管類型與PICC相關性血栓的發生相關。陳江瓊等[5]構建PICC相關性上肢靜脈血栓風險評估模型并進行評價,Logistic回歸分析顯示,肥胖、糖尿病、血栓史、化療史和D-二聚體(≥0.5 mg/L)為獨立危險因素。本研究應用的ML模型為PICC相關UEDVT形成的預測因素和危險因素提供了一些指示。在模型中,最重要的預測UEDVT的發生的因子包括體質指數、吸煙、深靜脈血栓家族史、NRS 2002評分、糖尿病、導管的位置和D-二聚體(≥0.5 mg/L)等。之前的相關研究僅使用線性模型(邏輯回歸)來擬合數據,而不是ML使用測試集來衡量模型的性能,ML與回歸模型相比,可以處理許多的自變量(也稱預測因子),以非線性的方式整合,更適用于分析真實世界中數據,而非線性回歸所擬合的結構化數據。并且測試集基于訓練集的結果,能更好預測UEDVT的發生,在預測性能上具有明顯的優越性。然而本研究也存在一定的局限性,如所有的樣本均來自1所醫院,未進行相關時間序列的分析,隨著信息化的普及,將來可擴大樣本量,進行時間序列分析,以獲取更準確的信息。