施昊旻, 燕 速, 喬夢夢, 楊惠蓮
(1. 青海大學 醫學部公共衛生系, 青海 西寧, 810001; 2. 青海大學附屬醫院 胃腸外科, 青海 西寧, 810001)
淋巴結轉移是胃癌疾病進展的重要決定因素,且無遠處轉移的胃癌分期根據浸潤深度和淋巴結轉移程度而確定[1]。預防性淋巴結清掃可在一定程度上治愈胃癌,因此術前診斷淋巴結轉移是制訂胃癌患者手術治療計劃的重要步驟[2]。基于胃癌診斷影像判斷淋巴結轉移存在一定局限性,若淋巴結轉移可從原發病變狀態推斷出來,則可能彌補診斷成像的不確定性。列線圖能夠根據患者概況進行個體風險評分,進而預測事件發生概率,有助于為臨床決策提供參考信息[3], 已有研究[4]基于臨床病理因素等構建列線圖預測早期胃癌患者淋巴結轉移的可能性。隨著人工智能技術的不斷進步,機器學習(ML)算法被越來越廣泛地應用于醫學領域,其能夠處理醫學領域中比較高維、復雜的數據,已成為近年來的研究熱點[5]。LIU W C等[6]構建了隨機森林(RF)ML模型,可準確預測甲狀腺癌患者的骨轉移風險。另有研究[7]比較6種ML算法后建立了最佳的XGBoost模型,可預測甲狀腺乳頭狀癌患者中心淋巴結轉移風險,從而更好地確定手術范圍。ML算法的潛在能力是可以提高臨床工作的效率和準確性,例如可在分析數百萬個臨床數據后構建出預后判斷、篩查和診斷模型[8]。相關研究[9]顯示, ML算法模型在預測早期結直腸癌淋巴結轉移方面的表現優于傳統方法。本研究分析并比較4種ML算法(邏輯回歸、隨機森林、K-鄰近算法、支持向量機)對胃癌淋巴結轉移的預測效能,篩選出適用于臨床工作的最優算法構建風險預測模型,以期更好地指導臨床診斷和治療決策,現報告如下。
選取青海大學附屬醫院2013年12月—2020年1月收治的胃癌患者作為研究對象。納入標準: ① 接受胃癌標準D2根治術治療者; ② 術后病理學檢查證實胃癌,且未發生遠處器官或腹膜轉移者。排除標準: ① 術前接受放療、化療、內鏡治療者; ② 既往有胃大部切除術史者; ③ 合并其他惡性疾病者; ④ 殘胃癌患者; ⑤ 術前1個月內有輸血治療史者。
通過醫院電子病歷系統收集患者的臨床信息: ① 基本資料,包括年齡、民族、體質量指數、高血壓史、糖尿病史、白蛋白; ② 臨床病理特征,包括腫瘤最大徑、胃腫瘤位置、大體分型、分化程度、脈管侵犯、神經侵犯、腫瘤浸潤深度; ③ 腫瘤標志物水平,包括癌胚抗原(CEA)、糖類抗原199(CA199)、糖類抗原125(CA125)和甲胎蛋白(AFP)。

根據納入標準和排除標準,本研究共收集531例患者的臨床資料,按3∶1比例將患者隨機分為訓練集399例和測試集132例。訓練集中, 216例患者出現淋巴結轉移,轉移率為54.1%; 測試集中, 72例患者出現淋巴結轉移,轉移率為54.5%。訓練集與測試集患者的臨床資料比較,差異無統計學意義(P>0.05), 見表1。

表1 訓練集與測試集患者臨床資料比較[n(%)][M(P25, P75)]
根據是否出現淋巴結轉移,將531例患者分為淋巴結轉移組288例與無淋巴結轉移組243例。淋巴結轉移組的CA125、大體分型、脈管侵犯、神經侵犯和T分期情況與無淋巴結組比較,差異均有統計學意義(P<0.05), 故將這5個指標作為特征選擇變量,見表2。

表2 無淋巴結轉移組與淋巴結轉移組患者臨床資料比較[n(%)][M(P25, P75)]
采用Spearman相關性檢驗對5個特征選擇變量進行分析,相關系數的絕對值>0.5表示存在強相關。熱圖結果顯示,變量之間無顯著相關性,不太可能存在多重共線性,見圖1。訓練集納入特征選擇變量用于構建模型,測試集用于驗證模型,并采用10折交叉驗證,以保持模型的穩定性。每種算法模型在訓練集中的混淆矩陣和ROC曲線見圖2,每種算法模型在測試集中的混淆矩陣和ROC曲線見圖3。各算法模型的準確度、靈敏度和AUC見表3, 其中隨機森林算法模型顯示出最優的預測性能。




表3 不同機器學習算法模型在訓練集和測試集中的預測效能
變量重要性排序結果顯示,雖然4種ML算法模型的變量重要性排名不同,但脈管侵犯和T分期在各模型中均排名前列,提示其可能對胃癌淋巴結轉移具有更重要的預測作用; 最優的隨機森林模型中,重要性排序前3位的變量分別為CA125、脈管侵犯和T分期(T2分期),見圖4。

將有無淋巴結轉移作為因變量,將隨機森林模型中變量重要性排名前3位的CA125、脈管侵犯和T分期作為自變量,構建列線圖模型(圖5),該列線圖模型可簡單直觀地預測胃癌患者的淋巴結轉移風險。

ROC曲線分析結果顯示,列線圖模型在訓練集和測試集中預測胃癌患者淋巴結轉移風險的AUC分別為0.721和0.776, 提示該模型具有良好的區分能力,見圖6。校準曲線分析結果顯示,列線圖模型的校準能力(擬合效果)在訓練集和測試集中均較好,見圖7A、7B。決策曲線分析結果顯示,當模型的閾值概率為20%~80%時,其超過了“全”和“無”線,提示該模型的凈收益較好,表明該列線圖模型可用于臨床決策,見圖7C、7D。


2020年世界衛生組織全球癌癥統計數據顯示,胃癌的發病率和致死率分別在全球排名第5位和第4位,嚴重威脅人類身心健康[10]。手術是所有可切除胃癌的標準治療方法,其中根治性胃切除術與淋巴結切除術是目前公認的最合適的手術治療方法[11]。良好的篩查程序有利于早期確診胃癌,而胃癌通過淋巴管向區域淋巴結擴散,因此淋巴結受累情況具有重要的預后價值[12-13]。
目前,胃癌淋巴結轉移已被證實與腫瘤浸潤深度、病理學類型、淋巴管侵犯、脈管侵犯相關[14]。本研究基于單因素分析,篩選出胃癌淋巴結轉移的特征選擇變量分別為CA125、大體病理分型、脈管侵犯、神經侵犯、T分期,與上述研究[14]結論基本一致。近年來有研究[15-16]基于早期胃癌患者發生淋巴結轉移的危險因素(腫瘤大小、腫瘤分級、浸潤深度、神經浸潤和潰瘍)建立預測模型,然而由于數據的復雜性和大規模以及模型計算方法之間的差異,這些因素在預測模型和預測性能中的重要性存在顯著差異。本研究從年齡、民族、體質量指數、高血壓史、糖尿病史、白蛋白、腫瘤直徑、胃腫瘤位置、大體分型、分化程度、脈管侵犯、神經侵犯、腫瘤浸潤深度、CEA、CA199、CA125和AFP等指標中篩選預測變量,這些指標來源于患者基本資料、腫瘤臨床病理特征和實驗室生物標志物,在臨床實踐中很容易收集。
傳統的統計方法大多基于參數回歸模型,該模型需假設變量與結果之間存在線性關系[17-18],然而大多數變量與結果之間不僅僅是線性相關的。隨著人工智能技術的快速發展, ML算法在腫瘤診斷和預后評估中發揮著越來越重要的作用。ML算法具有許多優點,包括可防止過擬合和處理不平衡數據。本研究基于AUC、準確度、靈敏度、特異度等綜合比較了4種ML算法模型的性能,最終確定隨機森林模型為最優算法模型。隨機森林由許多決策樹組成,每棵決策樹具有樹狀結構特征,該算法可處理具有許多預測變量的數據集,且預測性能較好,當用于預測建模時,其還可以獲得變量的重要性排序[19]。本研究隨機森林算法的變量重要性排序結果提示, CA125、脈管侵犯和較高的T分期是胃癌淋巴結轉移的關鍵。CA125為腫瘤非特異性抗原,其表達水平與胃癌的TNM分期、腫瘤直徑和淋巴結轉移有關[20]。本研究通過納入特征選擇變量使ML算法的特征具備良好的差異性和較低的特征間相關性[21], 不僅可提升ML算法的性能,還可用最優算法構建出有價值的診斷模型,使其更具可解釋性。與傳統的統計方法相比,ML算法具有基于數據的適應能力和自我改進能力,能夠更加準確地進行預測。在今后的研究中,研究者可將更多的因子組合納入ML算法模型,從而為臨床探尋疾病影響因素和設計ML算法預測模型提供新的解決思路。
綜上所述,本研究基于真實世界臨床數據構建4種ML算法模型,其中隨機森林模型為最優ML算法模型,進一步基于隨機森林模型中變量重要性排名構建列線圖模型,該模型可良好地預測胃癌患者淋巴結轉移風險,從而幫助臨床醫師更加準確及時地制訂胃癌患者的手術及治療計劃。本研究局限性包括: ① 本研究納入樣本數量較少,導致ML算法存在一定局限性; ② 本研究為回顧性研究,樣本選擇可能存在偏差; ③ 本研究未區分早期及進展期胃癌患者,列線圖模型對不同分期胃癌患者淋巴結轉移風險的預測效能可能存在差異。