[摘要] 目的:探討基于CT增強掃描的深度遷移學習特征和傳統影像組學特征的聯合模型術前預測結直腸癌患者脈管侵犯狀態的應用價值。方法:回顧性收集323例經手術病理證實的結直腸癌患者,按8∶2的比例隨機分成訓練集258例和驗證集65例。從靜脈期CT圖像中提取與脈管侵犯狀態相關的傳統影像組學特征及深度遷移學習特征,采用最小絕對收縮和選擇算子(LASSO)算法進行特征選擇,采用極限梯度提升算法(XGBoost)、光照梯度增強機(LightGBM)和梯度提升算法(GB)構建傳統影像組學模型及聯合特征預測模型。采用ROC曲線評價各預測模型的診斷效能。采用DeLong檢驗比較各模型的預測能力。采用決策曲線分析(DCA)評估模型的臨床實用性。結果:驗證集中傳統影像組學XGBoost模型的AUC為0.576(95%CI 0.434~0.718),LightGBM模型AUC為0.628(95%CI 0.491~0.766),GB模型AUC為0.625(95%CI 0.488~0.763)。驗證集中,聯合4個傳統影像組學特征與2個深度遷移學習特征構建的XGBoost模型AUC為0.737(95%CI 0.611~0.863),LightGBM模型AUC為0.692(95%CI 0.563~0.820),GB模型AUC為0.645(95%CI 0.508~0.783)。DeLong檢驗顯示,聯合深度遷移學習特征和傳統影像組學特征的XGBoost模型、LightGBM模型與傳統影像組學XGBoost模型AUC比較,差異均有統計學意義(均P<0.05)。DCA顯示,聯合深度遷移學習特征和傳統影像組學特征模型更具臨床實用性。結論:聯合深度遷移學習特征和傳統影像組學特征預測模型對結直腸癌脈管侵犯的術前預測效能良好。
[關鍵詞] 結直腸癌;脈管侵犯;影像組學;深度學習;遷移學習;體層攝影術,X線計算機
Integrating deep transfer learning and conventional radiomics from contrast-enhanced CT for preoperative prediction of lymphovascular invasion in colorectal cancer
HAO Huiting QU Hang ZHAO Yi ZHOU Yi YAN Xiaohui WANG Wei
1Department of Imaging,Affiliated Hospital of Yangzhou University,Yangzhou 225000,China;2Dalian Medical University,Dalian 116000,China.
[Abstract] Objective:To develop and validate an integrated predictive model combining deep transfer learning (DTL) features with conventional radiomics from contrast-enhanced CT for preoperative assessment of lymphovascular invasion in colorectal cancer. Methods:This retrospective study analyzed 323 patients with colorectal cancer,randomly allocated into training (258 cases) and validation (65 cases) cohorts (8∶2 ratio). Venous-phase CT images were processed to extract conventional radiomics features and DTL signatures. Feature selection was performed using least absolute shrinkage and selection operator (LASSO) algorithm. XGBoost,LightGBM,GB were implemented to construct the conventional radiomics models and the integrated models combining radiomics and DTL features. ROC curve was used to evaluate the diagnostic efficiency of each model. DeLong test was used to compare the predictive ability of the models,and decision curve analysis (DCA) was used to evaluate the clinical applicability of the models. Results:In the validation cohort,the conventional radiomics models demonstrated moderate performance,the AUCs of XGBoost,LightGBM,and GB models were 0.576(95%CI 0.434—0.718),0.628(95%CI 0.491—0.766),and 0.625(95%CI 0.488—0.763),respectively. While the integrated models showed improved performance,the AUCs of XGBoost,LightGBM,and GB models were 0.737(95%CI 0.611—0.863),0.692(95%CI 0.563—0.820),0.645(95%CI 0.508—0.783),respectively. DeLong test showed that the AUCs had significant differences between XGBoost integrated model and XGBoost conventional model,and between LightGBM integrated model and XGBoost conventional model (both Plt;0.05). DCA showed that the integrated models were more clinically useful. Conclusion:The integrated model combining DTL and conventional radiomics features demonstrates superior diagnostic performance for preoperative prediction for lymphovascular invasion in colorectal cancer.
[Key words] Colorectal cancer;Lymphovascular invasion;Radiomics;Deep learning;Transfer learning;Tomography,X-ray computed
結直腸癌是全球第三大常見惡性腫瘤,也是癌癥相關死亡的第二大類型。復發和轉移是結直腸癌患者死亡的主要原因[1]。脈管侵犯是指腫瘤區域及周圍的小血管和淋巴管的管壁受侵、破壞或管腔內有腫瘤細胞,包括淋巴管癌栓和血管癌栓[2],是腫瘤微環境中擴散轉移的早期關鍵步驟及預后不良的因素[3-5]。臨床上脈管侵犯主要通過術后標本診斷,術前輔助化療或放療可降低其發生率,提高脈管侵犯陽性結直腸癌患者的無病生存期和總生存期[6-7]。
美國國立綜合癌癥網絡(national comprehensive cancer network,NCCN)指南[8]及《國家衛健委中國結直腸癌診療規范(2023版)》均推薦CT作為結直腸癌的術前常規檢查方法[9]。常規CT檢查無法有效識別結直腸癌的脈管侵犯狀態。影像組學是通過高通量定量特征將醫學圖像轉換成高維、可擴展客觀數據的過程,近年來得到了廣泛研究[10-12]。少數研究表明基于CT的傳統影像組學能預測結直腸癌脈管侵犯[13-14]。最近,卷積神經網絡(convolutional neural network,CNN)在醫學成像的圖像分類和識別中表現良好[15-16]。訓練CNN參數需很大的樣本量,基于遷移學習的特征提取方法可克服這一局限性。遷移學習重用預先訓練的模型,以處理新的研究問題和數據集[17]。目前尚無深度學習在結直腸癌脈管侵犯的相關應用研究,因此,本研究旨在探討基于CT增強掃描的深度遷移學習特征和傳統影像組學特征聯合模型用于結直腸癌脈管侵犯術前預測的價值。
1" 資料與方法
1.1" 一般資料
回顧性收集揚州大學附屬醫院2021年1月至2023年6月經術后病理證實的結直腸癌患者323例,男66例,女157例;年齡32~89歲,平均(61.7±17.0)歲。納入標準:經病理學證實為結直腸癌,已評估其脈管侵犯狀態;術前2周內行腹部CT增強掃描;臨床資料完整。排除標準:圖像質量較差,難以勾畫ROI;術前接受過化療、放療或其他治療。323例按8∶2的比例隨機分成訓練集258例和驗證集65例。訓練集用于建立預測模型,驗證集用于評估模型的性能。
收集年齡、性別、腫瘤部位、術前糖類抗原19-9(CA19-9)水平(正常值0~37 kU/L)、術前癌胚抗原(CEA)水平(正常值0~5 μg/L)及術后病理脈管侵犯狀態等臨床資料。本研究經揚州大學附屬醫院倫理委員會審批(批號:2023-YKL09-001),免除患者知情同意。
1.2" 儀器與方法
所有患者均行全腹部CT增強掃描。采用Siemens Somatom Definition AS 64排128層CT、Siemens Somatom Force CT及Toshiba Aquilion TSX-101A 64排螺旋CT掃描儀進行掃描。掃描參數:120 kV,120~250 mAs,層厚5 mm。采用高壓注射器經肘靜脈注射碘克沙醇(碘濃度320 mg/mL),劑量1.5 mL/kg體質量,流率3.0~3.5 mL/s,腹主動脈監測、閾值100 HU、監控觸發法確定動脈期掃描時間,40 s后行靜脈期掃描。薄層重建圖像層厚1.5~2 mm。因結直腸癌病灶在靜脈期顯示清晰,因此選擇靜脈期圖像作為標注對象[18]。
1.3" 圖像分割
通過PACS獲取患者CT圖像,以DICOM格式將門靜脈期薄層CT圖像導入開源軟件ITK-SNAP3.8.0,調整為軟組織窗,手工分割門靜脈橫斷面CT圖像中腫瘤的感興趣區。在連續層面上沿病變輪廓勾畫3D感興趣區,注意避開腸腔內氣體、液體及腸壁周圍脂肪等(圖1)。
1.4" 圖像預處理及特征提取
對圖像行預處理,將灰度范圍設定到統一范圍內。
1.4.1" 傳統組學特征提取" 使用基于python的pyradiomics工具包提取圖像的一階特征、形狀特征和紋理特征,紋理特征包括灰度共生矩陣(gray level co-occurrence matrix,GLCM)、灰度區域大小矩陣(greylevel size zone matrix,GLSZM)、灰度游程長度矩陣(gray level run length matrix,GLRLM)、灰度依賴矩陣(gray level dependence matrix,GLDM),共提取208個傳統影像組學特征。
1.4.2" 深度學習特征提取" 在ImageNet數據集上預先訓練的CNN模型(GoogLeNet)用于遷移學習。全連接層的大小從1 000改變為2,用于結果分類。選擇顯示腫瘤最大感興趣區的CT切片作為原始圖像,將其分辨率歸一化至224×224以適應網絡的輸入。模型訓練通過使用交叉熵損失函數更新網絡權值來完成。實現了一個自適應矩估計優化器,學習率為0.1,訓練迭代500次,批量大小64。訓練完成后對網絡參數進行固定,并將固定的模型作為特征提取器。最終從經過調整的GoogLeNet倒數第2層提取2 048個深度遷移學習特征,還獲得了反映脈管狀態的特征圖,用于特征可視化。
1.5" 特征篩選及聯合
利用最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)算法,通過構造懲罰系數λ使回歸系數變為0,將穩定的傳統影像組學特征納入LASSO算法分析中。通過10次交叉驗證確定基于最小值標準的最佳λ值。根據λ最優值所對應的模型,篩選出非零系數的傳統影像組學特征及其權重。
采用主成分分析對深度遷移學習特征進行降維,將深度遷移學習特征從2 048降維至32個,以提高模型的泛化能力,降低過擬合風險。
將選擇的傳統影像組學特征和深度遷移學習特征聯合后,采用Z評分法對所有聯合特征進行標準化,計算各列特征的均值和方差。通過減去均值除以方差,將每一個特征轉化為標準的正態分布。使用LASSO算法篩選系數非零的特征,對聯合特征進行篩選,找到最優聯合特征。
1.6" 模型建立
經過特征聯合和篩選后,使用scikitlearn機器學習庫構建機器學習分類模型。機器學習分類模型包括極限梯度提升算法(XGBoost)、光照梯度增強機(LightGBM)、梯度提升算法(GB)。
1.7" 統計學分析
采用SPSS 26.0軟件行統計分析。計量資料以x±s表示,組間差異比較采用獨立樣本t檢驗或Mann-Whitney U檢驗;計數資料以百分比表示,組間比較采用χ2檢驗。采用R統計軟件(version:3.5.0)建立ROC曲線分析各模型的分類效能。采用DeLong檢驗比較各模型AUC的差異。通過決策曲線分析(decision curve analysis,DCA)評價各模型的臨床實用性[19]。以P<0.05為差異有統計學意義。
2" 結果
2.1" 一般資料比較
訓練集及驗證集中有無脈管侵犯患者的年齡、性別、腫瘤部位、術前CEA水平、CA19-9水平差異均無統計學意義(均P>0.05)(表1)。
2.2" 特征提取、篩選
采用LASSO算法對傳統影像組學特征進行降維,共選取13個傳統影像組學特征,包括2個一階特征、6個形狀特征、5個紋理特征。采用LASSO算法對深度遷移學習特征進行降維,最終篩選特征聯合后,保留4個傳統影像組學特征和2個深度遷移學習特征(圖2)。
2.3" 模型效能評估
驗證集中,傳統影像組學XGBoost模型預測脈管侵犯的AUC、準確率分別為0.576(95%CI 0.434~0.718)、0.615,LightGBM模型分別為0.628(95%CI 0.491~0.766)、0.631,GB模型分別為0.625(95%CI 0.488~0.763)、0.631(表2,圖3)。
聯合深度遷移學習特征和傳統影像組學特征XGBoost模型預測脈管侵犯的驗證集AUC、準確率分別為0.737(95%CI 0.611~0.863)、0.754,LightGBM模型分別為0.692(95%CI 0.563~0.820)、0.662,GB模型分別為0.645(95%CI 0.508~0.783)、0.646(表3,圖4)。
DeLong檢驗顯示,驗證集中各傳統影像組學模型AUC間差異均無統計學意義(均P>0.05);各聯合特征模型間AUC差異均無統計學意義(均P>0.05)。聯合深度遷移學習特征和傳統影像組學特征的XGBoost模型、LightGBM模型與傳統影像組學XGBoost模型AUC之間差異均有統計學意義(P=0.012,0.043),深度學習特征聯合傳統影像組學特征提高了模型的預測性能。
2.4" DCA應用
在驗證集中,各聯合模型DCA的AUC高于傳統影像組學模型,表示聯合模型比傳統影像組學模型更具臨床實用性(圖5,6)。
3" 討論
本研究探討了基于CT增強掃描的深度遷移學習特征聯合傳統影像組學特征在術前預測結直腸癌脈管侵犯狀態的應用價值,結果顯示構建的聯合預測模型可用于術前預測結直腸癌脈管侵犯,最佳模型在驗證集的AUC為0.737,且聯合模型的效能優于傳統影像組學預測模型,表明聯合深度遷移學習特征提高了對結直腸癌脈管侵犯的預測能力。DCA顯示,聯合模型的臨床收益高于傳統影像組學模型,可為結直腸癌患者提供更準確的術前脈管侵犯狀態預測。
脈管侵犯是指腫瘤細胞存在于淋巴管或血管內皮細胞組成的管腔間隙內[4],肉眼僅可辨別出CT圖像中腫瘤形態學的差異,無法分辨組織細胞層面的變化。影像組學及深度學習通過將圖像信息轉換為可挖掘的定量數據參數,可提供肉眼無法辨識的海量微觀信息。本研究中,傳統影像組學模型及聯合模型中選取的影像組學特征中權重較高的特征為GrayLevelNon-Uniformity,其來自于GLSZM,GLSZM在表征紋理一致性、非周期性或斑點狀紋理時效果顯著,反映了腫瘤內部的均質性。脈管侵犯提示腫瘤具有更強的強襲性,侵襲性強的腫瘤往往內部更不均勻。與常規影像診斷方法相比,影像組學及深度學習挖掘了CT圖像的肉眼無法獲取的信息,可為結直腸癌脈管侵犯狀態判斷提供支持。
Li等[13]比較了2D和3D感興趣區影像組學模型對結直腸癌脈管侵犯預測效能的差異,訓練集3D和2D影像組學模型的AUC分別為0.82(95%CI 0.75~0.89)和0.74(95%CI 0.66~0.82);驗證集分別為0.75(95%CI 0.64~0.86)和0.57(95%CI 0.45~0.69),3D影像組學模型的AUC、準確率、敏感度和特異度均高于2D影像組學模型。基于此,本研究選擇3D感興趣區用于傳統影像組學模型的建立,傳統影像組學模型在驗證集中AUC低于Li等研究,這可能是因為特征篩選、模型構建的組學算法不同所致。Ge等[14]評估了在門靜脈期CT圖像上從腫瘤體積和腫瘤周圍組織體積2個不同的容積感興趣區中提取的特征建立的影像組學模型對結直腸癌脈管侵犯預測效能的差異。雖然該研究顯示腫瘤周圍組織感興趣區影像組學模型的AUC高于腫瘤組織感興趣區影像組學模型(0.85 vs. 0.68),但腫瘤周圍組織感興趣區的勾畫目前無標準,本研究依據《結直腸癌CT和MRI標注專家共識(2020)》[18],仍選擇了腫瘤組織感興趣區的勾畫。
傳統的影像組學分析方法存在以下缺陷:①傳統影像組學特征利用預定義的數學方程從醫學圖像中提取,公式的相似性導致影像組學特征之間具有高度的相關性,若某一特征與某一臨床結果顯著相關,則其他高度相關的特征也可能顯著相關。雖然增加高維特征(即更多的特征變量)使得預測模型更加復雜,但并未顯著提升模型性能[20]。②傳統影像組學特征具有通用性,針對各種病變,缺乏針對性及特異性,如在結直腸癌中,有些特征就很難應用[21]。利用深度學習和CNN的最新進展,可提高預測模型的性能。深度學習算法從其優化模型中提取與特定任務相關的高級特征。與預定義的傳統影像組學特征所顯示圖像信息的一些共同維度相比,精細調整模型的特征可補充自定義信息,從而提高模型的性能。Paul等[15]發現,從CT圖像中提取的深度學習特征結合傳統影像組學特征,在肺癌患者中具有潛在的淋巴結轉移預測能力。本研究經提取篩選得到了2個深度學習特征,表明CNN能提取到反映結直腸癌脈管侵犯的相關定量信息,且聯合模型的表現也優于傳統影像組學模型,表明聯合深度學習特征可補充診斷信息,提高診斷效能。
本研究存在的局限性:數據來自單一機構,雖研究結果在一定程度上反映了深度學習特征的預測能力,但未來需多中心進一步驗證結果的通用性;為回顧性研究,樣本的選擇可能存在偏倚,未來還需更多的前瞻性數據來驗證模型的有效性;深度學習方法提取的深度學習特征目前是難以解釋的。后續應加強對特征可解釋性的研究,以進一步提高其臨床應用價值。
綜上所述,本研究初步建立了基于CT增強掃描的深度遷移學習特征與傳統影像組學特征聯合模型,可用于術前結直腸癌脈管侵犯的預測;與基于傳統影像組學特征的模型相比,該模型提高了對結直腸癌脈管侵犯的預測能力。
[參考文獻]
[1] SIEGEL R L,MILLER K D,WAGLE N S,et al. Cancer statistics,2023[J]. CA Cancer J Clin,2023,73(1):17-48.
[2] HARRIS E I,LEWIN D N,WANG H L,et al. Lymphovascular invasion in colorectal cancer:an interobserver variability study[J]. Am J Surg Pathol,2008,32(12):1816-1821.
[3] LI S,LI Q. Cancer stem cells,lymphangiogenesis,and lymphatic metastasis[J]. Cancer Lett,2015,357(2):438-447.
[4] JIANG H H,ZHANG Z Y,WANG X Y,et al. Prognostic significance of lymphovascular invasion in colorectal cancer and its association with genomic alterations[J]. World J Gastroenterol,2019,25(20):2489-2502.
[5] ZHONG J W,YANG S X,CHEN R P,et al. Prognostic value of lymphovascular invasion in patients with stage III colorectal cancer:a retrospective study[J]. Med Sci Monit,2019,25:6043-6050.
[6] GOPAL P,LU P,AYERS G D,et al. Tumor deposits in rectal adenocarcinoma after neoadjuvant chemoradiation are associated with poor prognosis[J]. Mod Pathol,2014,27(9):1281-1287.
[7] DU C Z,XUE W C,CAI Y,et al. Lymphovascular invasion in rectal cancer following neoadjuvant radiotherapy:a retrospective cohort study[J]. World J Gastroenterol,2009,15(30):3793-3798.
[8] LEUFKENS A M,VAN DEN BOSCH M A,VAN LEEUWEN M S,et al. Diagnostic accuracy of computed tomography for colon cancer staging:a systematic review[J]. Scand J Gastroenterol,2011,46(7-8):887-894.
[9] 國家衛生健康委員會醫政司,中華醫學會腫瘤學分會. 國家衛健委中國結直腸癌診療規范(2023版)[J]. 中國實用外科雜志,2023,43(6):602-630.
[10] AERTS H J,VELAZQUEZ E R,LEIJENAAR R T,et al. Decoding tumour phenotype by noninvasive imaging using a quantitative radiomics approach[J]. Nat Commun,2014,5:4006.
[11] GILLIES R J,KINAHAN P E,HRICAK H. Radiomics:images are more than pictures,they are data[J]. Radiology,2016,278(2):563-577.
[12] LAMBIN P,RIOS-VELAZQUEZ E,LEIJENAAR R,et al. Radiomics:extracting more information from medical images using advanced feature analysis[J]. Eur J Cancer,2012,48(4):441-446.
[13] LI M,GU H,XUE T,et al. CT-based radiomics nomogram for the pre-operative prediction of lymphovascular invasion in colorectal cancer:a multicenter study[J]. Br J Radiol,2023,96(1141):20220568.
[14] GE Y X,XU W B,WANG Z,et al. Prognostic value of CT radiomics in evaluating lymphovascular invasion in rectal cancer:diagnostic performance based on different volumes of interest[J]. J Xray Sci Technol,2021,29(4):663-674.
[15] PAUL R,HAWKINS S H,BALAGURUNATHAN Y,et al. Deep feature transfer learning in combination with traditional features predicts survival among patients with lung adenocarcinoma[J]. Tomography,2016,2(4):388-395.
[16] DONG D,FANG M J,TANG L,et al. Deep learning radiomic nomogram can predict the number of lymph node metastasis in locally advanced gastric cancer:an international multicenter study[J]. Ann Oncol,2020,31(7):912-920.
[17] FACHANTIDIS A,PARTALAS I,TSOUMAKAS G,et al. Transferring task models in reinforcement learning agents[J]. Neurocomputing,2013,107(5):23-32.
[18] 中華醫學會放射學分會醫學影像大數據與人工智能工作委員會,中華醫學會放射學分會腹部學組,中華醫學會放射學分會磁共振學組. 結直腸癌CT和MRI標注專家共識(2020)[J]. 中華放射學雜志,2021,55(2):111-116.
[19] VICKERS A J,HOLLAND F. Decision curve analysis to evaluate the clinical benefit of prediction models[J]. Spine J,2021,21(10):1643-1648.
[20] ZHANG Y,LOBO-MUELLER E M,KARANICOLAS P,et al. Improving prognostic performance in resectable pancreatic ductal adenocarcinoma using radiomics and deep learning features fusion in CT images[J]. Sci Rep,2021,11(1):1378.
[21] SUZUKI K. Overview of deep learning in medical imaging[J]. Radiol Phys Technol,2017,10(3):257-273.
(收稿日期" 2024-02-26)