楊鏡玉 ,許 寧 ,張雨濤 ,黃鳳昌 ,蔣元明 ,殷 亮
(1)昆明醫科大學第一附屬醫院腫瘤科;2)影像科,云南 昆明 650032)
在最新發布的中國惡性腫瘤流行報告中,結直腸癌是我國第二大常見癌種,占總病例數的10.04%,每年有超過40.80 萬人被診斷為結直腸癌,其中超過半數是局部進展期直腸癌(locally advanced rectal cancer,LARC)[1?2]。目前對于LARC 患者,新輔助同期放化療(neo-adjuvant chemoradiotherapy,nCRT)聯合全直腸系膜切除術(total mesorectal excision,TME)是標準管理模式。大約15%~27%的患者在接受了nCRT 后達到病理完全緩解(pathologic complete response,pCR)[3],此部分患者可以選擇“等待-觀察”治療策略,對于有強烈保肛要求的低位直腸癌患者以及無法耐受手術的患者來說,顯然是更優的選擇;而對于不能從nCRT 治療中獲益的患者,可以考慮選擇免疫治療或全程化療[4]。因此在新輔助同期放化治療前評估和預測腫瘤反應將有助于患者治療。
隨著人工智能及可視化運用技術的進步,可以從圖像中提取定量特征,通過研究這些特征與潛在病理變化的關系為臨床決策提供依據,這種方法被稱為影像組學[3]。機器學習(machine learning,ML)是人工智能領域的一個分支,是利用計算機算法學習回顧性數據中非線性關聯,用于預測及估計產生特定結果的概率[5]。目前大型成像數據集的影像組學分析聯合機器學習已經成功應用于腫瘤學領域,在腫瘤預后預測和療效評估中起重要作用。至于基于核磁共振成像的定量紋理數據為什么能夠預測治療反應的確切原因仍是未知的。目前普遍認為,腫瘤的生物學行為,包括治療敏感性,在很大程度上可能還是由其潛在的分子分型決定的。依靠機器學習從影像中提取出深層特征,使微觀結構模式改變在宏觀影像中有所呈現,可以反映人體微觀水平的變化[6]。目前研究表明,基于紋理的放射建模可以評估腫瘤異質性,并可以將腫瘤學中的放射學前沿發現與潛在的基因組和生物學特征(包括預后和治療反應)聯系起來[7?8]。
已有基于MRI 的影像組學預測模型被應用于預測直腸癌放化療后的腫瘤反應的報道[3,9?10]。然而不同的研究采用的目標圖像序列和預測模型構建方法不同,哪類模型在評估nCRT 后病理完全緩解方面效果最佳還沒有定論。因此需要通過對不同序列的不同模型來評估腫瘤反應。
本研究旨在基于基線T2WI 影像組學數據,采用3 種不同模型構建方法構建3 種預測模型,以預測患者nCRT 后pCR 率,并比較這些預測模型在本數據集中的表現,探索最穩定的預測模型臨床運用價值。
1.1.1 患者資料本研究得到了昆明醫科大學第一附屬醫院倫理委員會的批準,免除了知情同意的要求。根據以下納入和排除標準,在2017 年1月至2021 年12 月期間接受手術治療的201 名患者納入本研究。
納入標準[9,11]:(1)經病理活檢證實的原發性直腸腺癌;(2)初始MRI 評估后確定為局部進展期直腸癌;(3)均接受完全新輔助放化療,且nCRT 前未接受過任何治療;(4)nCRT 結束后均接受TME 手術,術后經術后病理檢查證實;(5)使用相同的3-T 磁共振掃描儀獲得基線MRI 數據,即高分辨率T2WI 軸位圖。
排除標準[9,11]:(1)未完成新輔助放化療;(2)未在本院接受手術,或未經術后病理確證;(3)缺乏高分辨率T2WI 數據;(4)MRI 質量不足,無法獲得測量結果(如運動偽影);(5)TME 后病理證實為粘液腺癌。
經篩選共有131 名符合納入標準的患者納入本研究,患者根據4∶1 的比例被分配到訓練集和測試集;其中104 名患者被分配到訓練集,27 名患者被分配到測試集。
1.1.2 新輔助放化療方案所有患者在手術前均接受規范長程同期放化療,放療總劑量為50.6 Gy(GTV)/41.8 Gy(CTV),每周5 次,療程為30 d。GTV 定義為包括直腸系膜在內的原發腫瘤的體積。CTV 定義為原發腫瘤區、直腸系膜區、骶前區、直腸系膜淋巴結、側方淋巴結、髂內淋巴結和盆壁區域。放療期間同時口服卡培他濱治療,口服劑量825 mg/m2,每日2 次。放療完成后予以2 個周期的XELOX(卡培他濱+奧沙利鉑)方案鞏固性化療。放療結束后8~11 周行TME 手術。
1.1.3 病理完全緩解的評估手術切除的標本由經驗豐富的病理科醫師進行組織病理學檢查和分析,并由胃腸道病理學家進行進一步檢查,雙方都對MRI 數據不可見;病理完全緩解(pCR)的定義是原發腫瘤和淋巴結中沒有存活的腫瘤細胞(圖1A、圖1B)。

圖1 患者基線軸位T2WI 圖上ROI 繪制、病理學表現和病理完全緩解病理學表現Fig.1 ROI on patient baseline T2WI、pathological manifestations and pathological complete response of pathological manifestations
所有患者在新輔助放化療開始前1 周內均進行了基線MRI 檢查。采用德國飛利浦公司3.0-T磁共振掃描儀,采用8 通道相控陣線圈,掃描時將髂前上棘連線水平作為定位線。患者在檢查前需禁飲、禁食4~6 h。所有患者均接受常規直腸MRI 檢查,包括軸位、冠狀位、矢狀位和垂直于直腸長軸T2WI 圖像,本研究涉及直腸MRI 掃描序列參數見表1。

表1 直腸癌MRI 掃描序列及參數Tab.1 MRI scan series and parameters of rectal cancer
1.3.1 圖像分割由1 名接受過腫瘤成像培訓且具有3 a 以上影像診斷學經驗的放射科醫生使用AK 軟件(Analysis Kit,GE Healthcare)對初始軸位T2WI 圖上逐層繪制感興趣區(region of interest,ROI),包括整個腫瘤,但不包括腸腔及腸內容物(圖1C),繪制中為提高準確性,同時可參考患者其它掃描序列,如T1WI、DWI。然后由1 名具有5 a 直腸MRI 診斷經驗的放射科醫師分別按照上述規則,獨立審查分割圖像,對有異議的圖像分割進行討論達成一致。
1.3.2 影像特征提取和 統計分析使用AK 軟件(Analysis Kit,GE Healthcare)從手動分割的ROI治療前T2WI 數據中進行特征提取,從T2WI 序列中提取1308 個量化特征,所有特征提取算法均使用AK 軟件實現。
1.3.3 特征篩選、模型建立及統計學處理為了盡量減低小樣本量影像組學模型過擬合問題,運用雙樣本t檢驗+LASSO 回歸對訓練集(104 例)患者影像組學特征進行特征篩選,根據特征權重系數選擇對模型貢獻大的特征,分別構建3 種預測模型:支持向量機(support vector machine,SVM)、邏輯回歸(logistic regression,LR)、隨機森林(random forest,RF)學習模型。每個模型都使用了相同的篩選特征構建模型。將訓練集隨機均分為5 份,每次抽取1 份作為驗證集,余下4 份作為訓練集,即5 折交叉驗證。訓練集數據集分別用于構建3 種機器學習模型,完成模型構建后,分別將同組驗證集數據代入構建模型,并運用隨機搜索命令,最終確定模型最佳超參數(C 值、gama 值)設置。本研究最終使用ROC 曲線,分析評估不同學習模型的診斷性能,并將測試集數據代入最終模型評價模型性能。計算ROC 曲線下面積(area under curve,AUC)、特異度、準確度、靈敏度。依據3 個模型在測試集上的準確度、靈敏度、特異度表現,來選擇一個最優模型。以上所有過程都是通過Python(https://www.python.org/)實現的。其中讀取、整理、清洗數據使用python 中numpy、pandas、scipy 數據庫中函數完成;繪圖使用matplotlib、seaborn 數據庫中函數完成;構建模型、交叉驗證、隨機搜索使用sklearn 數據庫中函數完成。
本研究中男性43 例,女性88 例,其中治療后達pCR 的患者26 例,未達pCR 的患者105 例。按4∶1 的比例分為訓練集(104 例)和測試集(27 例),訓練集和測試集2 組間臨床特征、分化程度、MRI 腫瘤T 分期、N 分期無統計學意義(P>0.05)(表2)。
表2 臨床流行病學特征[( )/n(%)]Tab.2 Clinical epidemiological characteristics [()/n(%)]

表2 臨床流行病學特征[( )/n(%)]Tab.2 Clinical epidemiological characteristics [()/n(%)]
首先采用雙樣本t檢驗對組學特征進行初步篩選,所有特征按P值遞增順序進行排序,并將沒有顯著差異的特征(P>0.05)排除;然后通過LASSO 回歸獲得12 個最優影像特征(圖2)。利用篩選出的影像特征進行模型構建,表3 展示了Lasso 回歸篩選出的特征及其權重系數,圖3 展示了特征篩選后最優12 個特征的特征權重圖(A)及特征相關性熱圖(B)。

表3 Lasso 回歸篩選特征及其權重系數Tab.3 Lasso regression screening features and their weight coefficients

圖2 LASSO 回歸篩選特征參數系數圖Fig.2 LASSO regression screening feature parameter coefficient map

圖3 影像特征及影像組學標簽Fig.3 Image features and radiomics labels
本研究利用篩選的最優影像特征,探索了3種模型算法:支持向量機(SVM)、隨機森林(RF)、邏輯回歸(LR)學習模型。依據交叉驗證及隨機搜索結果,獲取模型最佳參數,繪制ROC 曲線(圖4)。3 種模型的預測效能,見表4。在本數據集中,邏輯回歸(LR)模型預測效能最佳。

圖4 基線T2WI 預測LARC 患者nCRT 治療后達pCR預測模型ROC 曲線Fig.4 Baseline T2WI predicts the ROC curve of the pCR prediction model for LARC patients after nCRT treatment
雖然既往有不少研究構建了基于MRI 預測nCRT 治療后pCR 的模型,且取得了不錯的預測效能[11?13]。但與這些研究中納入模型的許多特征是來自于新輔助治療后的MRI[13]不同的是,本研究利用新輔助治療前MRI,旨在探索是否能夠在nCRT 治療前就篩選出對nCRT 治療敏感的患者,避免使那些無法從放療獲益的病人,因分期較晚而進入nCRT 治療。其次,本研究僅使用了T2WI 單序列進行預測模型構建,雖然沒有多序列研究信息豐富,但仍有不錯的預測效能。這可能歸因于2 方面原因:(1)T2 加權像成像清晰,更有助于影像科醫師準確勾畫ROI,與功能序列得到的圖像(如擴散加權圖像)相比,該序列得到的圖像具有較好的穩定性和易獲取性;(2)更多成像序列的納入,意味著更多需要統一的成像協議,納入多序列影像特征,經過數據標準化、歸一化處理,可能引入更多偏差,改變數據真實權重分布。本研究僅利用基線T2WI 單序列數據進行影像組學分析,分別構建邏輯回歸、隨機森林、支持向量機3 種模型對LARC 患者nCRT 治療后能否達到pCR 進行預測。
通過對比3 個模型預測效能。本模型與已報道的模型相比,展現出良好的預測效能[14–17]。首先,筆者的研究可以證明利用影像組學結合機器學習方法,具有在患者基線水平上對nCRT 治療反應進行預測的潛力,本研究所構建的3 個模型在測試集上,AUC 分別為0.8810(SVM)、0.7579(RF)、0.9206(LR),均展現出不錯的預測效能。相比之下,Shaish 等[16]回顧性分析了2 中心共132 例LARC 患者基線T2WI,構建邏輯回歸預測模型,其中pCR 的最佳AUC 為0.80(95%CI,0.74~0.85)。該研究特別之處在于ROI 繪制區域不僅僅局限于病灶,還涵蓋腸系膜筋膜區域,為ROI 繪制提供了新思路。Horvat 等[15]回顧性分析了114 例LARC 患者的基線T2WI 和DWI,構建隨機森林預測模型,其中pCR 最佳AUC 為0.93(95%CI0.87-0.96)。Antunes 等[17]回顧性分析了3 中心共104 例LARC 患者基線T2WI,構建隨機森林預測模型,其中pCR 最佳AUC 在外部驗證集為0.712。雖然該研究沒有取得很好的預測效果,卻為研究模型泛化提供了更多實據。Yi等[14]回顧性分析了單中心共134 例LARC 患者基線T2WI,構建隨機森林和支持向量機的集成預測模型,其中預測pCR 的最佳AUC 為0.9078(95%CI: 0.83~0.98)。該模型能獲得上佳的預測性能主要得益于其自研的集成模型,為模型構建提供了新的思路。筆者的優勢在于運用了3 個模型,并對模型預測性進行了比較;且沒有納入臨床信息參與模型構建,模型仍然展現出不錯的預測性。縱觀以往研究,3 種機器學習方法都被不同研究者選用,且展現出不錯的預測效能,說明這3 種方法都可以較好的處理這類二分類問題,但并沒有哪種方法取得了絕對的優勢。就本測試集上預測結果而言,邏輯回歸預測模型展現出更佳的預測效能,這也恰好體現出邏輯回歸擅長概率預測的特性,并可以直接計算出預測概率。而支持向量機模型在本數據集中并沒有發揮出對多維數據處理的優勢,原因可能是特征分布分散,沒有找到合適的核函數。而隨機森林模型則受限于樣本量小,也沒有因其投票特性獲得更佳的預測效能。這也反應出隨機森林模型因其生成決策樹的隨機性,有時并不會實現預測效能的加成。綜上,對于二分類問題,3 種模型都值得嘗試;其中邏輯回歸模型可以直接輸出預測概率,易于實現,但對多變量特征處理能力有限;支持向量機模型,可以解決高維特征問題,但有時難以找到合適的核函數;隨機森林模型,抗擬合能力強,可不用做特征篩選,但由于其生成決策樹隨機,生成過多相似決策樹,可能會掩蓋真實結果。因此,筆者的研究對于針對同一預測任務的不同模型比較篩選,提供了一些解決思路以及一些開源數據。
本研究仍存在一些不足之處,首先作為一個回顧性研究,可能存在選擇偏差;且研究樣本量有限,其中pCR 樣本占比較少,可能會影響預測模型的準確性和穩定性;其次本研究所構建的預測模型及模型驗證都使用的是單中心數據,在外部驗證集中的預測效能有待進一步評價;最后本研究僅將pCR 作為nCRT 治療敏感的終點指標,臨床實踐中,TRG 降期也能一定程度說明對nCRT 治療敏感,這個指標有待后續研究評價。