董詩潔,胡曉欣,王 葳,楊 孟,岳 磊,童 彤,顧雅佳
復旦大學附屬腫瘤醫院放射診斷科,復旦大學上海醫學院腫瘤學系,上海200032
子宮頸癌是婦科常見的三大惡性腫瘤之一。以往子宮頸癌高發年齡在50~55歲,目前,子宮頸癌患者已經呈現年輕化的趨勢,高發年齡已降到40~45歲。子宮頸癌病因主要與人乳頭瘤病毒(human papillomavirus,HPV)感染有關,早婚、早產和免疫力低下等普通人群都容易發生感染而患上子宮頸癌[1~2]。
早期子宮頸癌患者的常見癥狀為性接觸出血,經期延長和經量增多,出現不規則的陰道出血,而一些內生型、頸管型的子宮頸癌患者直到中晚期也可能未出現明顯癥狀。晚期子宮頸癌患者會出現尿急、尿頻和鄰近組織受累等表現,預后不良,并且影響著放療野的范圍。目前子宮頸癌的治療方案主要是基于國際婦產科聯盟(International Federation of Gynecology and Obstetrics,FIGO)制定的2018年子宮頸癌分期系統[3]。在2018年子宮頸癌FIGO分期系統中,首次將淋巴結轉移納入了FIGO分期系統的ⅢC期,其中盆腔淋巴結轉移為ⅢC1期,主動脈淋巴結轉移為ⅢC2期。若子宮頸癌患者診斷為淋巴結轉移,則放化療為首選的治療方式,目前比較權威的是美國國立綜合癌癥網絡(National Comprehensive Cancer Network,NCCN)指南,推薦使用CT、MRI或者PET/CT來評估子宮頸癌淋巴結轉移,其中PET/CT的準確率可達75%,但是費用較高[4]。CT和MRI是目前比較常規的評估手段,但是判斷淋巴結假陽性率為24%,對于小于1 cm的轉移淋巴結假陽性率更是達 到60%[5]。
傳統的影像學診斷主要是根據形態學來進行形態特征分析,評估子宮頸癌病變,缺乏準確的組織病理學信息和分化程度的判斷。針對淋巴結轉移的診斷標準,通常是以淋巴結直徑大小來判別是否發生轉移。但是這種標準會導致特異度高和靈敏度低。隨著科學技術的不斷進步,人工智能和大數據分析已經成為各個領域的熱點[6]。在醫學影像領域,影像組學技術可通過提取醫學圖像中大量的特征數據信息,經過數據處理和建模后,可對子宮頸癌淋巴結轉移與否進行預測分析,可為子宮頸癌的診斷提供更多的信息[7]。本文研究利用影像組學分析來確定子宮頸癌患者是否發生淋巴結轉移。
回顧性分析2015年6月—2019年9月在復旦大學附屬腫瘤醫院經術后病理學檢查證實的子宮頸癌非淋巴結轉移患者和子宮頸癌淋巴結轉移患者共202例的臨床資料,每例患者都符合2018年FIGO公布的最新子宮頸癌分期系統標準,子宮頸癌非淋巴結轉移患者為ⅠA2~ⅡB期,子宮頸癌淋巴結轉移患者為ⅢC期。所有患者在治療前都經過MRI檢查和后期進行了盆腔淋巴結清掃手術,并獲得病理學檢查結果,一共排除20例患者。排除標準:①術前進行過放療或化療。② 患有其他惡性腫瘤。③病灶過小,無法進行準確勾畫,導致無法正常進行影像組學特征的提取。經過復旦大學附屬腫瘤醫院倫理委員會批準,并得到患者知情同意。
將符合標準的182例患者按照7∶3的比例隨機分成2組。131例患者被分到訓練集,51例患者被隨機分到驗證集。根據病理學檢查結果,訓練集包括72例淋巴轉移患者和59無例淋巴結轉移患者。
所有患者都經過術前MRI檢查。本文使用3.0T GE磁共振掃描儀(GE HD 3T),使用4通道相控陣線圈。①T2WI序列掃描方案:橫斷位和矢狀位(TE/TR,82.9 ms/3336 ms),視野FOV 288 mm×288 mm,層厚4 mm,層間0.5 mm。采用快速自旋回波FSE序列進行掃描。② T1C+序列增強掃描方案:橫斷位和矢狀位(TR/TE,4.5 ms/7.5 ms),視野FOV 390 mm×312 mm,層厚4 mm,層間1 mm,采用LAVA序列動態增強掃描。MRI增強對比劑采用Gd-DTPA,劑量為0.2 mmol/kg,采用高壓注射器經手背靜脈注入,流率為2.5 mL/s,其后以同樣流率注入15 mL 0.9%NaCl溶液沖洗管內殘留的Gd-DTPA。
使用美國GE公司PACS中存檔的常規矢狀位和橫斷位T2WI序列圖像、矢狀位和橫斷位T1C+序列圖像,將這些圖像導出,格式為DICOM。由于影像組學的分析是以病灶的圖像為本體,所以子宮頸癌病變區域的精準分割非常重要[8]。本文的ROI分割圖像分別由具有15年資質的放射科醫師手動分割,使用的分割軟件為ITKSNAP,并且以nⅡ格式輸出三維ROI圖像。進行ROI勾畫時需要注意:①勾畫時應注意病灶的大小、形態和邊緣等,盡量勾畫腫瘤區域侵犯的邊界。② 只勾畫子宮頸腫瘤所侵犯的范圍,不勾畫子宮體、陰道、直腸等受累區域。③子宮頸癌病灶中若出現壞死和囊變等,ROI勾畫時也要避免這些區域。④ 勾畫ROI時要盡量避開子宮頸癌內的黏液。

圖1 女性患者,子宮頸鱗狀細胞癌ⅡB級 Fig.1 Female patients with cervical squamous cell carcinoma of the level type ⅡB
采用Pyradiomics分別從10種圖像類型和6種不同特征體系來提取每例患者的影像組學特征[9]。其中10種圖像類型分別為:①原始圖像類型;② 小波變換濾波器類型;③高斯-拉普拉斯濾波器類型;④ 平方濾波器類型;⑤ 平方根濾波器類型;⑥ 對數濾波器類型;⑦ 指數濾波器類型;⑧ 梯度濾波器類型;⑨ 二維局部二值模式類型;⑩ 三維局部二值模式類型。6種特征體系分別為一階特征體系、形狀特征體系、灰度共生矩陣特征體系、灰度區域大小矩陣特征體系、灰度行程矩陣特征體系和灰度相關矩陣特征體系[10]。對T2WI和T1C+序列而言,一階特征體系提取324個特征,形狀特征體系提取240個特征,灰度共生矩陣特征體系提取432個特征,灰度區域大小矩陣特征體系提取320個特征,灰度行程矩陣特征體系提取253個特征,灰度相關矩陣特征體系提取264個特征,鄰域灰度差矩陣提取90個特征。對T2WI-T1C+聯合序列而言,提取特征數為T2WI和T1C+序列的總和。
1.5.1 臨床特征
在單變量分析中,Mann-WhitneyU檢驗用于連續變量的檢驗,卡方檢驗用于分類變量的檢驗,以檢驗臨床特征和潛在預后結果的表現。獲得知情同意后,從患者臨床記錄中獲取臨床資料。本文所有患者的臨床特征包括年齡、妊娠次數、分娩次數、流產次數、首次性交年齡、月經狀態、癌癥家族史。
1.5.2 數據預處理和特征篩選
從T2WI序列、T1C+序列和兩者聯合序列提取的醫學影像組學特征[11],特征篩選步驟為:⑴ 去除掉數據中的無效數據,如文本信息、無效數字和空數據等,其中T2WI序列和T1C+序列去除無效數據后,分別提取了1831個特征,聯合序列一共提取3659個特征。⑵ 去除無效數據后,再將數據分為訓練集和測試集。⑶ 采用隨機上采樣、隨機下采樣和SMOTH方法來實現訓練集的數據平衡,避免數據集中的樣本比例不平衡。⑷ 數據歸一化。方法包括:①Normalize to unit;② Normalize to 0-center;③Normalize to unit with 0-center。⑸ 特征選擇:①多變量方差分析法(analysis of variance,ANOVA);② 遞歸特征消除法(recursive feature elimination,RFE);③Relief算法。⑹ 數據降維:使用皮爾森相關系數(Pearson correlation coefficient,PCC)降維方法,通過遍歷所有影像組學特征,兩兩計算皮爾森相關系數,當系數大于閾值0.86時,隨機去除其中一個,使得降維后的特征不具有高相似度。⑺ 分類方法:支持向量機(support vector machine,SVM)分類算法。⑻ 交叉驗證:對訓練數據進行拆分,分為訓練集和驗證集,本文選取的是五折交叉驗證(5-folder)法。
1.5.3 模型比較與評估
本研究建立的3個影像組學模型分別為T2WI序列影像組學模型、T1C+序列影像組學模型和T2WI+T1C影像組學模型。所有模型采用AUC值、95% CI下AUC值、準確率、真陽性和假陽性來評估各自模型的性能,并顯示不同特征的特征貢獻度。
根據病理學檢查結果將患者分成淋巴結轉移組和非淋巴結轉移組。在訓練集和驗證集中,將淋巴結轉移組和非淋巴結轉移組進行單變量分析,結果顯示,差異均無統計學意義(P>0.05,表1)。

表1 訓練集及驗證集患者的臨床特征Tab.1 Clinical characteristics of patients in the training set and test set
建立模型之前,我們選取一小部分數據,其中2例子宮頸癌淋巴結轉移女性患者,2例子宮頸癌非淋巴結轉移女性患者和3位正常子宮頸女性。對未經過任何濾波器處理的影像組學特征值進行可視化處理,可發現各個特征之間的相關性,并且都被分到各自的一組中[12]。使用聚類和降維分析可初步觀察影像組學特征,判斷子宮頸癌淋巴轉移的效能,結果發現,分類效果顯著(圖2)。

圖2 影像組學特征聚類分析圖 Fig.2 Radiomic image feature cluster analysis diagram
經過數據預處理和特征篩選后,在AUC和特征數的比較上,通過生成AUC值得方差,利用minimum criteria和standard error of the minimum criteria選擇最優特征數,即在最高AUC值下一個標準差范圍內,選擇最小特征數[13]。
黑點代表當各自模型的最適合的特征個數。T2WI-T1C+聯合序列模型選取這16個特征時,為最適合的特征個數,這些特征將使T2WI-T1C+聯合序列模型訓練線性SVM模型具有最高的AUC值。綜合比較,可見采用的圖像序列不同,利用影像組學方法建立的模型的預測性能也不同,基于T2WI-T1C+聯合序列建立的SVM算法模型較T2WI序列建立的SVM算法模型和T1C+序列建立SVM算法模型而言,其AUC、靈敏度和特異度整體較高,模型性能也較佳(圖3)。

圖3 3個模型最佳特征數Fig.3 The best number of features for three models
T2WI序列模型提取了14個影像組學特征(圖4),T1C+序列模型提取了16個影像組學特征(圖5),T2WI-T1C+聯合序列模型提取了16個影像組學特征(圖6)。對各個模型的特征系數的權重取其絕對值,可以更加直觀地反映排名情況。在各自序列的采用受試者工作特征(receiver operating characteristic,ROC)曲線中,T1C+序列模型的16個影像組學特征訓練集AUC=0.819,測試集AUC=0.781(圖7、表2)。T2WI序列模型的14個影像組學特征訓練集AUC=0.810,測試集AUC=0.773。T2WI-T1C+聯合序列模型提取的這16個特征用于訓練線性SVM模型,具有最高的訓練集AUC=0.841,測試集AUC值=0.803。在各個特征前添加了T2序列前綴T2WI和T1C+序列前綴T1C+。T2WI-T1C+聯合序列模型提取的T2序列影像組學特征8個,分別為T2WI_LBP-3D_firstorder_RootMeanSquared、T2WI_Wavelet-LLH_firstorder_Skewness、T2WI_LBD-3D_glszm_LargeDependenceEmphasis、T2WI_Exponential_glszm_SizeZoneNonUniformity、T2WI_Wavelet-HHH_glszm_SmallAreaLowGrayLevelEmphasis、T2WI_Wavelet-HLH_firstorder_AbsoluteDeviation、T2WI_Log-sigma-5-0-mm-3D_firstorder_Kurtosis、T2WI_Log-sigma-3-0-mm-3D_glcm_Informal Measure of Correlation 2。在T1C+序列中提取的影像特征有8個,分別為T1C+_LBP-3D_glcm_ClusterTendency,T1C+_Exponential_glcm_DifferenceEntropy、T1C+_Wavelet-HHH_glcm_Difference Average、T1C+_Wavelet-HLH_glcm_ClusterProminence、T1C+_wavelet-LHH_firstorder_Kurtosis、T1C+_Exponential_firstorder_RobustMean、T1C+_Logsigma-3-0-mm-3D_gldm_DependenceVariance、T1C+_Wavelet-LHL_glcm_Average Intensity。

圖4 T2WI模型特征系數權重Fig.4 Weight feature coefficients of the T2WI model

圖5 T1C+模型特征系數權重Fig.5 Weight feature coefficients of the T1C+model

圖6 T2WI-T1C+模型特征系數權重Fig.6 Weight feature coefficients of the T2WI-T1C+model

圖7 3個模型的訓練集和驗證集ROC曲線 Fig.7 ROC curves of training set and verification set of the three models

表2 各組模型比較Tab.2 The comparison of each model group
本研究建立了一種術前個體化預測子宮頸癌淋巴結轉移的T2WI序列模型、T1C+序列模型和T2WI-T1C+聯合序列模型。在SVM算法模型下,利用minimum criteria和standard error of the minimum criteria選擇最優特征數,在最高AUC值下的標準差范圍內,T2WI序列模型提取了14個特征,T1C+序列模型提取了16個特征,T2WIT1C+聯合序列模型提取了16個特征。在3個模型中,T2WI-T1C+聯合序列模型預測淋巴結轉移的訓練集和驗證集的準確率最高,分別為0.831和0.785,可作為無創的影像標志物輔助臨床醫師進行子宮頸癌淋巴結轉移的預測。
對于T2WI序列模型,T2WI序列與水的含量關系密切,對水的靈敏度較高,也能反映腫瘤壞死囊變的信息[14]。提取的14個特征中,提取的一階統計特征體系特征有7個,一階統計特征體系與淋巴結轉移的權重總系數為8.0897。紋理特征體系提取了7個特征,其中灰度區域大小矩陣體系提取了5個,與淋巴結轉移的權重總系數為4.3602。灰度共生矩陣特征體系提取了2個,與淋巴結轉移的權重總系數為1.5641。T2WI序列以一階統計特征體系為主,權重總系數要大于紋理特征體系。
對于T1C+序列模型而言,與T2WI序列模型相比,AUC較高的原因可能是加入了對比劑后,腫瘤區域的異質性相關的信息更為豐富,包括囊變、壞死和鈣化等,而且T1C+序列主要反映的是組織中新生血管的通透性,腫瘤級別越高,相對應的新生血管就越多,增加了血管的通透性,加重了增強程度,組織的壞死囊變顯示更清晰[15]。提取的16個特征中,一階統計特征體系特征有7個,一階統計特征體系與淋巴結轉移的權重總系數為6.5657。紋理特征體系提取了9個特征,灰度級共生矩陣體系提取了7個,與淋巴結轉移的權重總系數為7.061。灰度區域大小矩陣體系提取了2個特征,與淋巴結轉移的權重總系數為0.8902。T1C+序列以紋理特征體系為主,權重總系數大于一階統計特征體系,說明增強后紋理特征更加顯著。一階統計特征體系提取的特征可能反映腫瘤壞死囊變的信息。T1C+模型中灰度共生矩陣特征體系提取的特征權重排名第一,而在T2WI序列模型中,無灰度共生矩陣體系特征,說明灰度共生矩陣體系特征可能反映新生血管的通透性。
T2WI-T1C+聯合序列模型的一階統計特征和紋理特征對子宮頸癌淋巴結轉移的分類預測具有較大的價值。在提取的16個特征中,一階統計特征有6個,其淋巴結轉移權重總系數為8.1938。紋理特征體系提取了10個特征,灰度級共生矩陣提取了6個,灰度相關矩陣特征體系與淋巴結轉移權重總系數為8.3413。灰度區域大小矩陣體系提取了3個,灰度區域大小矩陣體系與淋巴結轉移權重總系數為3.1471。灰度區域大小矩陣體系提取了1個,灰度區域大小矩陣體系與淋巴結轉移權重總系數為1.0433。在T2WI-T1C+聯合序列模型中,一個特征來自于T2WI序列模型,兩個特征來自于T1C+序列模型,其中LBP-3D_firstorder_RootMeanSquared特征在T2WI序列模型提取的特征中排名位居第2,在T2WI-T1C+聯合序列模型提取特征中位居第1。T1C+模型的T1C+_Exponential_glcm_DifferenceEntropy、T1C+_LBP-3D_glcm_ClusterTendency特征排名分別為第2位和第3位,在T2WI-T1C+聯合序列模型提取特征中排到第6位和第2位。T2WI_LBP-3D_firstorder_RootMeanSquare、T1C+_LBP-3D_glcm_ClusterTendency、T1C+_Exponential_glcm_DifferenceEntropy可能是子宮頸癌淋巴結轉移預測的重要參數。LBP-3D_firstorder_RootMeanSquared特征和LBP-3D_glcm_ClusterTendency特征是三維局部二值模式濾波類型的一階特征體系提取的均方根和聚類趨勢,Exponential_glcm_DifferenceEntropy是指數濾波類型提取的差異信息熵[16]。對于T2WI-T1C+聯合序列模型,其預測子宮頸癌淋巴結轉移的AUC和準確率是最高的,說明多序列建立的影像組學模型有助于子宮頸癌淋巴結轉移的判斷,主要原因可能是多序列模型可以進行互相補充圖像信息,進而可以更加全面、客觀地反映腫瘤的異質性[16]。
Kan等[17]基于143例子宮頸癌患者的MRI圖像,利用T2WI和DCE序列紋理特征去區分淋巴結是否轉移,提取出970個放射組學特征及7個臨床特征,并且在訓練集中使用最小冗余最大相關方法(minimum redundancy maximum relevance,MRMR)排序特征,進而將排名前10位的放射組學特征用于訓練線性SVM模型。其中放射組學特征區分淋巴結是否轉移在試驗組AUC為0.753,在驗證組中AUC為0.754,特征主要包括灰度共生矩陣特征和灰度區域大小矩陣特征。本文除了特征提取方法與特征排序方法不同外,建立的算法模型也是SVM模型。其中本文T2WI-T1C+聯合序列模型提取的特征數為3846個,T2WI-T1C+聯合序列模型的試驗組AUC與驗證組AUC都要高,分別為0.841和0.803。由此可見,提取特征類型和數目越多,可能在一定程度上提升模型區分淋巴結是否轉移的準確率。
本文研究局限在于:①本研究屬于單中心研究,樣本量不多。② 本文屬于回顧性研究,當時的常規盆腔MRI未加入彌散序列,故我們只提取了T2WI和T1C+序列的特征。后續還可以結合更多序列特征[如彌散序列(apparent diffusion coefficient,ADC)],可能會提取更多有價值的特征。③作為回顧性研究,在患者選擇上可能存在一定偏倚。
本研究采用不同的圖像序列,利用影像組學方法建立的模型預測性能也是不同的。在我們建立的3個序列模型中,T2WI-T1C+聯合序列模型預測子宮頸癌淋巴結轉移的效能最優,所提取的MRI影像組學特征參數對輔助臨床醫師進行子宮頸癌淋巴結判斷具有一定的預測價值。