胡鴻博,趙升,姜昊,姜慧杰*,藺雪,張瑩
有文獻報道,13.0%~22.2%接受新輔助放化療(neoadjuvant chemoradiotherapy, nCRT)的局部進展期直腸癌(locally advanced rectal cancer,LARC)患者可以獲得病理完全緩解(pathological complete response, pCR)[1]。對于在根治性手術前已經達到pCR 的患者,因其局部無腫瘤細胞殘留,故可以在嚴格隨訪下采取“觀察等待”的治療策略,從而避免根治性手術帶來的吻合口漏、永久性造口、排尿障礙、性功能障礙等風險[2-3]。因此,直腸癌新輔助治療后pCR 相關因素的探究及精準預測則成為近年來直腸癌領域研究的熱門話題。目前CT 或MRI影像學檢查結果是新輔助治療效果判斷的重要依據[2,4-5]。
近年來,影像組學已經發表了大量的研究,其目的是通過從腫瘤圖像中提取可挖掘的數據來量化腫瘤的異質性[6-7]。先前的影像組學研究表明,從不同醫學圖像中提取的圖像特征可以預測直腸癌患者的nCRT 反應[1,8-9]。基于對影像特征的研究,大量的機器學習算法被應用于影像特征的選擇和分類。作為一種新方法,機器學習在皮膚、頭頸部和結直腸癌等不同的放射研究中顯示出巨大的潛力[10-11]。目前已經有研究者將機器學習及深度學習應用在LARC的化療敏感性的預測上[1-2],但是還沒有研究比較不同的機器學習方法(包括CNN、NN、SVM、NB)的效能。這對于未來臨床上選擇精準的模型是一個缺陷。機器學習根據研究變量類型的不同,通常分為分類和回歸的研究,在本研究中,我們利用不同的機器學習算法提取直腸MRI放射特征,構建影像組學模型預測LARC治療療效,我們旨在比較不同的個體機器學習算法構建的影像組學模型預測效能,以找到最佳的預測模型,為臨床上根據影像水平制訂LARC 治療方案提供重要基礎。
本研究為回顧性研究,遵守《赫爾辛基宣言》,并經哈爾濱醫科大學倫理委員會審核通過,免除受試者知情同意,倫理批文號:sydwgzx2020-094。對2021 年9 月至2023 年1 月在我院確診為直腸癌的患者病例資料進行回顧性分析。納入標準:(1)經結腸鏡活檢確診的直腸癌患者;(2)治療前經影像學檢查診斷為LARC 的患者;(3)手術治療前接受nCRT 治療。排除標準:(1)在nCRT之前接受其他抗腫瘤治療的患者;(2)臨床數據不完整;(3)圖像不清晰,影響分析結果;(4)患者有其他并發癥者;(5)特殊類型的直腸癌、黏液腺癌排除。
所有患者均接受直腸MRI掃描,為患者佩戴隔音耳塞,避免對聽力造成不必要的損壞。為了避免金屬偽影的干擾,叮囑患者將所有金屬物品移除,包括內衣上的金屬物,盡量保證圖像不受外界因素干擾。
使用3.0 T GE Discovery MR 750w MRI 儀掃描,相控陣體部線圈采集圖像。掃描序列及參數詳見表1。
表1 MRI序列及參數Tab.1 Summary of MRI sequences and parameters
對所有患者進行了5周的調強的放射治療,并伴有每天口服卡培他濱(1650 mg/m2)的同步化療。所有患者均在CT模擬器上進行了模擬。兩名專門從事臨床腫瘤學和放射治療的物理學家與一名具有10年工作經驗的正高職稱放射科醫生一起參與了目標區域的劃分。使用臨床檢查、結腸鏡檢查、骨盆MRI 和CT 檢查的所有信息定義總腫瘤體積。總腫瘤體積覆蓋了直腸病變和任何可疑的轉移性淋巴結。對于低位直腸腫瘤,臨床靶區還包括坐骨神經直腸窩,以涵蓋陰部和直腸下結。計劃靶區被定義為超出臨床靶區范圍1.0 cm,局限性處于危險中的器官如下:膀胱V50≤50%;小腸V20≤50%;Dmax≤50 Gy;雙側股骨頭V50≤5%。化療方案使用卡培他濱(放療期間每天兩次,兩次800 mg/m2)。所有患者接受nCRT 后采取全直腸系膜切除術。
術后標本由高年資病理科醫師取材、核片。根據腫瘤退縮分級(tumor regression grading, TRG)進行評分:TRG 0為無退縮發生;TRG 1為腫瘤組織基本未發生形態學改變;TRG 2為中度退縮;TRG 3為明顯退縮;TRG 4 為完全退縮。根據TRG 將nCRT 后的LARC患者分為pCR組和non-pCR組[12]。
將上述高分辨T2WI 原始的DICOM 格式圖像導入后處理平臺(Radcloud,大數據智能分析云平臺,慧影醫療科技有限公司,北京)。對圖像進行標準化預處理,采用Z-score標準化方法先計算出原始圖像的像素矩陣的均值和標準差,然后再進行數據的標準化。兩名具有5年以上經驗的影像科醫師采用手動方式在T2WI 圖像上共同沿病變邊緣逐層勾畫全部病灶的感興趣區(region of interest, ROI),計算機自動生成病灶的三維容積感興趣區(volume of interest,VOI)。使用上述獲取到的ROI 自動提取影像組學特征,包含兩類特征。(1)基于特征類:①一階統計量特征,如峰值、均值、方差等;②形狀特征;③紋理特征,包括灰度共生矩陣、灰度游程矩陣、灰度區域大小矩陣和領域灰度差分矩陣,可以量化所選區域的異質性。(2)基于過濾器類:對圖像進行指數濾波變換、平方濾波變換、平方根濾波變換、對數濾波變換、局部二進制模式和小波變換等多種濾波器變換后的特征。總計提取了1409個影像組學特征。
采用最小絕對收縮和選擇算子(least absolute shrinkage and selection operator, LASSO)算法進行特征值降維,選擇出對鑒別新輔助治療療效有價值的特征。將篩選得到的9個影像組學特征及其相應的回歸系數加權線性組合,構建影像組學標簽。影像組學評分(radiomics score, Radscore)是根據模型計算的評分,反映每位患者影像組學綜合結果,Radscore=∑Ni= 1ωi·xi+β,其中N 為特征的數量,ωi是第i 個特征的權重,xi是第i個特征的值,β為偏置項[1]。
將納入研究的160 例病例按照8∶2 比例隨機分為訓練集及驗證集。使用Python scikit-learn 統計建模。首先對紋理特征參數篩選,行正態檢驗(Kolmogorov-Smirnov檢驗)和方差齊性檢驗(Bartlett檢驗)。對于連續變量采用t檢驗,用Fisher 精確檢驗或卡方檢驗比較組間分類變量。特征子集的選擇、機器學習算法模型的創建以及二次采樣檢驗,通過此過程建立預測模型使其能夠對LARC nCRT療效進行有效的預測。對于每一個機器學習組合,使用交叉驗證在訓練集中訓練模型,計算受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under the curve, AUC)、準確率、特異度和敏感度。
將患者病例根據化療效果分類標準分為non-pCR和pCR兩組,分別使用四個單獨的分類器:支持向量機(support vector machines, SVM)、樸素貝葉斯(naive Bayes, NB)、神經網絡(neural network,NN)、卷積神經網絡(convolutional neural networks,CNN)(表2)。所有分類均用SPSS軟件包進行,預測性能評估使用AUC評估,驗證集圖像信息用于模型驗證。
表2 患者分組及基線資料統計Tab.2 Patient grouping and baseline data statistics
使用SPSS 22.0 軟件對預測結果進行統計學分析。以病理結果為金標準,繪制ROC曲線,并計算AUC值,從而評估模型預測效能,在訓練集中采用陽性預測值、陰性預測值、準確度、F1 值、AUC 值及DeLong 檢驗評估4種模型的預測性能,所有指標的結果均以均值及其95%CI表示。對于訓練集和驗證集,利用t檢驗評估兩組成像參數的差異。P<0.05 認為差異具有統計學意義。
本研究最終選取符合標準的160 例LARC 患者的數據,其中男83 例,女77 例,年齡(62.4±15.5)歲。按照8∶2 的比例分為了訓練集(128 例)及驗證集(32 例)。訓練集中反應良好82 例,反應不良46 例,驗證集中反應良好21 例,反應不良11 例。患者組間基線資料差異均無統計學意義(P>0.05)。納入病例臨床特征詳見表2。
將影像組學特征中提取得到的1409個組學特征采用LASSO 算法進行特征值降維(圖1A、1B),共篩選得到9 個系數不為零的特征納入后續分析。圖1C 為最終優化的特征子集及其對應的權重系數示意圖。
圖1 LASSO篩選與新輔助放化療治療相關的組學特征。1A:通過五折交叉驗證尋找最優的超參數λ值使模型偏差最小;1B:不同紋理特征系數隨λ變化的關系圖;1C:篩選得到的特征中LASSO 系數值,其中特征值包括相異度(Dissimilarity)、灰度特征平均值(SumAverge)、對比度(Contrast)、反差分矩陣(InverseDifferentialMoment),內矩(InterQuartleRange)、集群突出物(ClusterProminence)、集群趨勢(ClusterTendency)。LASSO:最小絕對收縮和選擇算子。Fig.1 The histological characteristics related to LASSO screening and neoadjuvant chemoradiotherapy treatment.1A: Searching for the optimal hyperparameter through 5-fold cross validation λ, the value minimizes the model deviation; 1B: The variation of different texture feature coefficients with λ a graph of changes; 1C:The LASSO coefficient values among the selected features, including Dissimilarity, SumAverge, Contrast, InverseDifferentialMoment, InterQuartleRange,ClusterProminence, ClusterTendency.LASSO: least absolute shrinkage and selection operator.
通過LASSO降維后得到的9個組學特征與nCRT反應高度相關。分別為:相關性(Correlation),反映了局部灰度相關性;相異度(Dissimilarity),反映灰度差異性;灰度特征平均值(SumAverge)、對比度(Contrast),反映像素間灰度值差別;反差分矩陣(Inverse Differential Moment, IDM),反映紋理的清晰程度和規則程度;內矩(InterQuartleRange),指兩個四分位數之差;集群突出物(ClusterProminence),指圖像中紋路與紋案反差;集群趨勢(ClusterTendency),指具有相似灰度值的體素分組的度量。基于這些特征利用進入法logisitc模型分別對nCRT 治療效果進行評估,其診斷性能如圖2 所示:AutoCorriation 具有最高的診斷性能,AUC=0.70;其他特征診斷性能分別為InterQuartleRange的AUC=0.66、CluterTendendcy 的AUC=0.63、IDM 的AUC=0.62、SumAverge的AUC=0.62。
圖2 與新輔助放化療相關的特征診斷效能評估。AUC:曲線下面積。Fig.2 Evaluation of feature diagnosis effectiveness related to neoadjuvant chemoradiotherapy.AUC: area under the curve.
經過LASSO 算法共篩選出9 個與化療效果相關的特征,包括一階統計特征,灰度共生矩陣特征等。對比每個特征在pCR 和non-pCR 組間的差異發現,雖然兩組之間的特征存在差異,但差異不具有統計學意義(P>0.05)(圖3)。
圖3 與新輔助放化療(nCRT)相關的特征在病理非完全緩解(non-pCR)和病理完全緩解(pCR)組中的差異分析,縱坐標為相關性值。Fig.3 Differences in features related to neoadjuvant chemoradiotherapy (nCRT) in non-pathological complete response(non-pCR) and pathological complete response (pCR) groups.The vertical axis is the relevant statistical value.
CNN、NB、NN、SVM 四種分類器訓練集和驗證集的ROC 曲線見圖4。四種分類器訓練集的AUC 分別為0.8735、0.7834、0.9038、0.9150,驗證集的AUC 分別為0.8020、0.7790、0.5900、0.7330。其中SVM分類器在訓練集的AUC 為0.9150,敏感度為73.6%,特異度為75.3%,95%CI為0.695~0.995(表3),較其他三種模型有更好的診斷效能。不同分類器模型組間DeLong檢驗結果顯示,SVM分類器與其他的分類器有顯著性差異(P均<0.05)。
圖4 四種不同分類器方法對新輔助放化療響應診斷效能比較。CNN:卷積神經網絡;NB:樸素貝葉斯;NN:神經網絡;SVM:支持向量機。Fig.4 Comparison of the diagnostic performance of four different classifier methods for neoadjuvant chemoradiotherapy response.CNN:convolutional neural networks; NB: naive Bayes; NN: neural network;SVM: support vector machines.
表3 訓練集及驗證集的AUC值Tab.3 The AUC of each classifier in training set and validation set
在本研究中,我們分析了影像組學特征與LARC nCRT療效之間的相關性,發現2個灰度尺寸區域矩陣特征,4個鄰域灰度差分矩陣特征,2個灰度依賴矩陣特征,1個灰度共生矩陣特征與LARC的nCRT療效具有相關性。根據這些紋理特征的定義,鄰域灰度差分矩特征描述的是同質性區域的特征,可以量化圖像中的灰度級區域,與腫瘤組織侵犯高度相關,說明在局部尺度上反映了腫瘤的特性。灰度尺寸區域矩陣是可以描述圖像亮度的二變量條件概率密度,對腫瘤邊界具有很好的區分潛能。灰度依賴矩陣可以對圖像進行分隔和識別,對腫瘤識別具有重要意義。灰度共生矩陣不僅反映亮度的分布特征,也反映具有同樣亮度或接近亮度的像素之間的位置分布特性,可以對腫瘤內細小的灰階變化做出敏感的應答。不同于傳統機器研究方法,我們使用灰度共生矩陣紋理特征取得最佳的病理反應預測效能。并且使用LASSO對特征進行進一步篩選,選取了9個特征,全部來自灰度共生矩陣紋理特征。這使得最終納入研究的變量具有更加強的魯棒性。可輔助臨床制訂更加精準的治療策略。
現今,影像組學對直腸癌的研究成為熱點,國內外很多學者把目光都聚焦在腫瘤紋理特征的提取、直腸良惡性病變的鑒別、直腸癌術前的評估、直腸癌淋巴結轉移的認定[13-17]。SONG等[18]利用148個直腸病例的紋理分析對直腸良惡性病變進行鑒別,得到了很高的敏感性及特異性。另外還有學者利用LASSO模型直腸癌患者術前影像資料進行特征分析,獲得的組學特征可以區分早期直腸癌與進展期直腸癌,得到的AUC值十分理想,說明了影像組學可以有助于直腸癌的術前分期[19-21]。除了上述對腫瘤分期的預測,也有研究聚焦在預測nCRT 響應效率上。這對于制訂個體化的治療方案尤其重要。YI等[22]通過SVM分類器建立了預測pCR的MRI影像組學模型,AUC值達到0.91。揭示了影像組學模型在預測pCR中的價值。此外,既往研究中往往只使用一種分類器來進行建模,而對性能表現最佳的分類器沒有共識,為了評估不同分類器的預測性能,本研究利用不同的機器學習算法提取直腸MRI放射特征,構建影像組學模型預測LARC治療療效,發現SVM、NB、NN、CNN 分類器模型可以對直腸癌nCRT療效進行評估,其中SVM分類器模型診斷效能最佳。本研究的結果與DEIST 等[23]的研究并不一致,該研究收集了不同腫瘤治療部位的12個數據集,并比較了不同分類器的預測能力。他們發現,隨機森林(random forest, RF)分類器在識別放化療結果比其他分類器具有更高的性能。這可能是由于建模所用患者人種不同,也可能與所納入模型的特征不同有關,總之本研究的結果提示在不同的樣本中,分類器的效能可能會有所差別。未來可以通過納入更多中心的樣本來進一步評估,也可以通過薈萃分析進行整體的評估。本研究為明確分類器效能提供了重要的數據基礎。對比NIE等[24]從T1/T2WI、DWI和DCE-MR圖像中提取的放射特征可以增強術前nCRT對LARC病理反應的預測能力,本研究更能具體體現不同的特征在直腸癌治療效果評估方面的價值。
周彥汝等[25]研究構建了3 種機器學習模型:RF、SVM、邏輯回歸(logistic regression, LR),在預測LARC nCRT 治療后pCR 方面有可觀的準確率,其中采用LR方法建立的機器學習模型較其他機器學習模型診斷效能更高,有潛力應用于臨床實踐。說明不同模型在預測效能上具有一定差別。梁納[26]的研究中證實基于治療前MRI T2WI序列的影像組學研究在治療前對LARC nCRT敏感性的預測有一定參考價值,對臨床醫師治療前篩選適合放化療的患者有一定幫助。在劉恩瑞[27]的研究中證實影像組學對新輔助治療的病理反應有較準確的預測作用,其中RF 算法表現最好,預測精度最優。與機器學習的相似的模型還有深度學習,所用的數據量更大,LIU 等[28]的多中心研究表明深度學習在區別LARC 化療敏感度的AUC值為0.747。其他通過深度學習構建模型的研究AUC值也均在0.7左右[29-30]。這表明機器學習的區別效能不弱于深度學習,具有臨床參考價值。本研究首次基于多種MRI 機器學習方法來預測直腸癌nCRT 反應,并證明了這些方法在預測治療反應方面的有效性。本研究結果顯示,所有機器方法AUC均超過70%;還發現在單個方法中,SVM是預測最佳模型。
本研究同樣存在局限性,主要反映在以下幾個方面:第一,本研究中ROI的分割采用手動勾畫,很難避免誤差的產生,同時摻雜了主觀因素的影響,如果是半自動或者自動分割可能效果更好,自動分割更適合大規模的數據處理;第二,我們的影像組學研究部分對圖像的分割處理沒有進行一致性檢驗,其準確性可能受到影響,分割方法的自動化可能是未來的熱點方向;第三,本研究病例數較少且分布欠均勻,沒有包括未行手術治療、無病理結果的患者;第四,為了盡量避免偏差,本研究都為同一所醫院,使用同樣的設備進行采集,但是這樣可能會存在缺少多中心病例的數據,不能反映疾病的整體性及普遍性的問題,今后可以加入多中心影像組學特征提取的研究,從而進一步進行外部驗證;第五,影像組學部分的研究特征提取,并沒有結合臨床的實驗室檢查指標,如CA125、CA199等指標,可以在今后的研究中進行補充。
綜上所述,基于治療前MRI 影像組學方法預測LARC患者nCRT后pCR有一定的價值,在不同的機器學習建模方法中,SVM 分類器的效能最佳。為臨床治療決策提供更充足的依據,隨著精準醫療和大數據時代的來臨,相信我們可以利用影像組學為個性化的臨床決策提供方案,可以為臨床治療提供新的思路。
作者利益沖突聲明:全體作者均聲明無利益沖突。
作者貢獻聲明:姜慧杰設計本研究的方案,對稿件重要內容進行了修改,獲得了國家自然科學基金面上項目資助;胡鴻博起草和撰寫稿件,獲取、分析或解釋本研究的數據;趙升,姜昊,藺雪,張瑩獲取、分析或解釋本研究的數據,對稿件重要內容進行了修改;全體作者都同意發表最后的修改稿,同意對本研究的所有方面負責,確保本研究的準確性和誠信。