鄭繼盛,蘇 云,宮淑萍,趙曉敏*
1.濱州醫學院,山東 264003;2.煙臺市中心血站
胰十二指腸切除術(pancreaticoduodenectomy,PD)是治療胰腺壺腹部、胰頭部等部位惡性腫瘤的首選手術類型,同時也是普外科復雜手術之一[1]。隨著醫療水平的提高,胰腺手術死亡率已降至2%以下[2-3],而術后胰瘺(pancreatic fistula,PF)發生率(3%~45%)卻居高不下[4],導致病人住院時間延長、醫療費用增加、死亡率上升等一系列問題[5-7]。因此,早期采取有效措施預防高危人群發病非常重要。風險預測模型可以通過多個預測變量判斷結局事件的發生概率[8],胰瘺風險預測模型可以幫助醫護人員提前識別可能發生胰瘺的高危病人,從而制定適當的醫療、護理決策[9]。現對國內外胰十二指腸切除術后胰瘺風險預測模型的構建、驗證及呈現等進行綜述,以期為臨床實踐與后續模型開發提供參考。
1.1 胰十二指腸切除術 胰十二指腸切除術是指部分胰腺(主要指胰頭部)、臨近十二指腸、部分胃、空腸近端、膽管十二指腸球后段以下部分的切除以及膽腸吻合、胰腸吻合、胃腸吻合、腸腸吻合的消化道重建。該手術是腹部外科操作技術復雜、創傷較大的手術之一,是治療胰頭部、壺腹部、遠端膽道惡性腫瘤的首選治療方式[10]。
1.2 胰瘺 胰瘺是胰腺導管上皮與其他上皮表面的異常通道,內有源自胰腺富含酶類的液體。術后胰瘺(postoperative pancreatic fistula,POPF)的診斷標準依據國際胰腺外科研究小組2016 年發布的關于臨床相關胰瘺(clinically relevant postoperative pancreatic fistula,CR-POPF)的定義[4]:術后≥3 d 任意量的引流液中淀粉酶濃度高于正常血清淀粉酶濃度上限3 倍以上,同時病人有相應臨床表現。該定義僅包括B 級和C 級胰瘺,去除了國際胰瘺分類研究小組在2005 年胰瘺定義中的無相關臨床表現的A 級胰瘺(生化瘺)[11]。
1.3 臨床預測模型 臨床預測模型是指將多個與臨床結局變量的危險因素相關聯,從而構建可以得出臨床結局事件發生概率的函數公式[12]。預測模型包括診斷模型與預后模型,POPF 風險預測模型為診斷模型,通常通過Logistic 回歸構建模型。模型性能可以通過C 統計量、校準圖、Hosmer-Lemeshow 擬合優度檢驗(H-L 檢驗)以及臨床決策曲線等進行評價[13]。模型的呈現方式包括公式、風險評分系統、列線圖、網頁計算器等,其中風險評分與列線圖更便于臨床應用[14]。
1.4 臨床預測模型報告指南 預測模型構建研究數據提取和質量評價清單(checklist for critical appraisal and date extraction for systematic reviews of prediction modelling studies,CHARMS)[15],個體預測或診斷用多變量預測模型透明報告(the transparent reporting of a multivariable prediction moder for individual prognosis or diagnosis,TRIPOD)[15],臨床預測模型偏倚風險和適用性的評估工具(prediction model risk of bias assessment tool,PROBAST)[16]分別在2014 年、2015 年和2019 年發布。TRIPOD 作為報告準則多用于原始研究,CHARMS 作為數據提取指南、PROBAST 作為質量評價指南用于臨床預測模型的系統評價,三者對于了解臨床預測模型以及臨床預測模型研究撰寫規范有著重要指導意義。
2.1 瘺管風險評分(Fistula Risk Score,FRS) FRS由國外學者Callery 等[17]開發,是中華醫學會外科學分會胰腺外科學組推薦的預測CR-POPF 的風險評分模型[18]。該模型基于國際胰瘺分類研究小組在2005 年公認的CR-POPF 的危險因素(小導管、軟胰腺、高危病理、失血過多)[11]創建。研究構建了3 個風險評分模型:模型1 為通過4 個危險因素構建的0~4 分的風險評分模型;模型2 根據其建模后的回歸系數進行加權,通過OR 值倍數確定分數,風險評分范圍為4~22 分;模型3 類似于模型2 但是對其進行了簡化,不再通過OR 值對其連續資料進行加分,而是進行了等級資料遞增后的分數調整,分數區間為0~10 分。模型3 相較于模型1、模型2 來說,更易理解與接受,臨床實用性更強。且模型3 經過內部驗證后的表現也優于其他模型,受試者工作特征曲線下面積(area under curve,AUC)為0.942(模型3)>0.938(模型2)>0.936(模型1)。模型3 的風險評分標準:0 分表示不會發生CR-POPF,9~10 分表示必然會發生CR-POPF,超過7 分幾乎都會發生CR-POPF。故該模型分為4 個風險層次:0 分為可忽略風險,1 分或2 分為低風險,3~6 分為中風險,7~10 分為高風險。國內外多項研究表明,該風險評分模型有著較強的預測能力及臨床實用性[19-22]。但也存在一些潛在不足之處:①模型的時效性亟待探討,該模型采用的是2009 年—2011 年的數據,模型中預測因子是否需要增減,研究人群的人口學特征是否發生變化有待考證;②失血量的預測效能不足,彭斌等[19-23]在其研究中沒有觀察到FRS 中重要預測因子失血量的統計學差異,Grendar 等[24-25]的研究也同樣證明失血量與CR-POPF 的發生缺乏關聯。
2.2 替代瘺管風險評分(Alternative Fistula Risk Score,a-FRS) 2019 年,Mungroop 等[26]構建了a-FRS,該風險預測模型由3 個預測因子組成:胰腺質地、胰管直徑、體質指數(body mass index,BMI)。該研究基于兩個大型數據庫進行建模與內部驗證,并通過兩個機構的數據進行外部驗證。模型內部驗證的C 統計量為[0.75,95%CI(0.71,0.78)],外部驗證的C 統計量為[0.78,95%CI(0.74,0.82)],展現出較好的預測效能與可泛化性。評價a-FRS 模型離不開與原FRS 模型進行比較,作者分別基于2005 年與2016 年的POPF 定義將驗證數據集用FRS 與a-FRS 進行POPF 的風險評估,結果表明在2005 年的POPF 定義中a-FRS 模型較FRS 模型性能有所改善,而在2016 年的CR-POPF 定義中a-FRS 模型與FRS 模型表現相當。除此之外,國內外其他學者也對上述兩個模型進行了比較研究。沈健等[27]研究發現,FRS 模型對CR-POPF 的預測價值大于a-FRS 模型;韓國學者Ryu 等[28]比較了FRS 和a-FRS 在韓國人群中的差別,結果表明兩風險評分模型都具有一定的預測效能,但部分指標(a-FRS 的胰腺質地和FRS 的估計出血量)統計學效能低。
2.3 更新的替代胰瘺風險評分(Updated Alternative Fistula Risk Score,ua-FRS) Mungroop 等[29]于2021 年基于a-FRS 構建了ua-FRS,該模型同樣是使用大型數據庫進行的更新與驗證,但參與人群變為接受微創胰十二指腸切除術的病人(minimally invasive pancreatoduodenectomy,MIPD)。 ua-FRS 在原有a-FRS3 個預測因子的基礎上添加了性別變量,其內部驗證的C 統計量為0.75,并基于2005 年和2016 年定義分別對數據庫進行了外部驗證,其C 統計量分別為0.73,0.76,表明模型預測效能表現較好,其校準圖也表現出了較好的校準水平。該模型的呈現除公式外,還構建了網頁計算器,更方便了CR-POPF 風險概率的計算。作者同樣基于訓練集數據庫對FRS 和a-FRS 進行了驗證,其C 統計量分別為0.69,0.68,預測效能均低于ua-FRS。但學者Hayashi 等[30]對FRS、a-FRS、ua-FRS 模型的單中心外部驗證顯示,三者在C統計量上并未表現出統計學差異。
2.4 其他POPF 風險預測模型
2.4.1 基于術前指標的POPF 風險預測模型Yamamoto 等[31]于日本國立癌癥中心醫院構建的術前POPF 風險預測系統,被稱為NCCH 預測系統。與FRS 和a-FRS 模型不同的是,該預測系統是基于病人手術前指標來預測病人術后胰瘺的發生,可以在術前對病人可能存在的術后問題進行評估,以采取更合適的手術方式或送往更高級的胰腺外科研究中心進行手術治療。NCCH 預測系統通過5 個術前因子來預測CR-POPF,包括男性(1 分)、主胰管指數<0.25(2 分)、CT 示遠離門靜脈(2 分)、非胰腺癌(1 分)、腹內厚度>65 mm(1 分)共7 分。該模型的C 統計量為0.808,同時該風險預測系統在驗證組預測B 級和C 級胰瘺時具有較好的表現(C 統計量為0.834)。國內學者黃強等[32-33]使用該模型進行了臨床應用驗證,C 統計量分別為0.946 與0.910,模型表現較好。Roberts 等[34]也進行了類似的術前指標構建模型,得到兩個預測因子:BMI和胰管寬度,C 統計量為0.832。有研究通過9 所醫療中心的1 898 例病人對Callery 等[17]、Mungroop 等[26]和Roberts 等[34]構建的模型進行外部驗證,其C 統計量分別為0.61,0.64 和0.63,并得出上述3 個模型在韓國隊列中表現較差的結論。
2.4.2 基于機器學習算法的POPF 風險預測模型 機器學習算法目前正在變得越來越流行[35],已在眾多風險預測研究中展示出優異表現[36-38]。機器學習算法對待數據更加包容,對特征的處理及篩選更加靈活,故其對結局事件的預測更加精確。在POPF 風險預測模型研究中,機器學習算法研究較少。Perri 等[39]通過機器學習算法構建CR-POPF 回歸樹模型,根據主胰管直徑和BMI 兩個預測因子將病人劃分為低、中、高3 個風險組,其訓練集與驗證集中3 個風險組的CR-POPF 實際發生情況不同,表明該回歸樹風險分層能較好地區分不同CR-POPF 風險的病人,從而可以依此指導臨床決策。Han 等[40]也利用機器學習算法中的隨機森林(random forest,RF)和神經網絡(neural network,NN)探索更高預測效能的POPF 風險預測模型,其中作者使用遞歸特征消除法(recursive feature elimination,RFE)進行最優特征的選擇,對模型中可能存在的過度擬合問題做出了較好的處理,最后通過RFE 篩選出16 個變量所構建的神經網絡模型表現出最大的C 統計量(0.74),表明該模型擁有較好的臨床預測性能,且作者基于神經網絡模型構建了網頁計算器,使預測CR-POPF 更加方便與易獲取。
相較于國外的POPF 預測研究,國內的POPF 預測模型研究相對較少,多數研究僅停留在POPF 的危險因素分析,并未進一步建模研究。相較于國外研究,國內學者的研究具有人群代表性較好、危險因素本土化的優點,更加適合中國人群。在國內的POPF 風險預測模型中,比較有代表性的有李軻等[41-43]的研究。李軻[41]分析了296 例行胰十二指腸切除術的病人,其中訓練集222 例,驗證集74 例,對收集的22 個建模指標進行統計學分析后構建回歸模型,結果表明年齡≥65 歲、術前清蛋白<30 g/L、術中出血量≥600 mL、胰腺質地軟以及胰管直徑<3 mm 是胰十二指腸切除術術后發生CR-POPF 的獨立危險因素。該模型在驗證集的C 統計量為0.862,H-L 檢驗結果顯示,χ2=2.837,P=0.725,表明模型的區分度與校準度良好。徐西伯等[42]研究發現,BMI>25 kg/m2、術中探查主胰管直徑<3 mm 和術后首日腹腔積液淀粉酶>2 651 U/L 是發生CR-POPF 的獨立危險因素,而曹昕彤等[42]也在研究中指出術后第1 天腹腔引流液淀粉酶水平、腹腔引流液細菌培養結果和血清清蛋白水平是發生CR-POPF 的獨立危險因素,兩研究所構建的模型區分度分別為0.868 和0.911,模型表現較好。但曹昕彤等[43]的研究中未設置驗證集,無法證明模型的外推性等問題;李珂與徐西伯的驗證集人數均低于PROBAST 標準[16]的100 個參與者,在樣本量方面表現出較高的偏倚風險。Xia 等[44-45]單中心研究以2009 年1 月—2015 年10 月225 例胰十二指腸切除術病人作為訓練集,進一步選擇2015 年11 月—2017 年11 月136 例胰十二指腸切除術病人作為驗證集,兩組病人術前準備、手術方式及術后管理措施一致。經多元Logistic 回歸建模得出胰腺質地、主胰管直徑、是否擴大淋巴清掃以及術后第1 天血清清蛋白是影響CR-POPF 的獨立危險因素,其公式代入驗證組后C 統計量為0.777,模型預測效能較好。作者還將其各獨立危險因素的回歸系數值進行加權賦值,構建了胰瘺風險評分系統,總分為6 分,該風險評分系統在訓練集和驗證集中表現均較好,C 統計量分別為0.813 和0.806。該模型擁有較好的性能與臨床實用性,未來可以進一步設計獨立外部驗證研究來證明該模型的普適性。
國內外POPF 風險預測模型報告均具有較好的預測效能和臨床使用價值,但還存在模型研究中數據來源與處理等報告不全、建模統計方法可能會造成較高偏倚等問題。今后研究中應當在模型構建過程中使用TRIPOD 報告準則規范報告及PROBAST 偏倚評價工具進行自檢,并通過交叉驗證或正則化等統計學方法以及大樣本量或外部驗證等解決模型的過度擬合問題,以構建更優化的POPF 臨床預測模型,為CR-POPF的早期篩查與早期醫療護理決策提供更可靠的理論依據。