劉祎,文戈,董天發,唐文艷,陳柳冰,宋亭
宮頸癌(cervical cancer,CC)是世界上女性第四大常見的癌癥,發病率不斷上升,死亡率高,發病年齡較小[1]。現有研究表明[2],Ki-67可誘導腫瘤相關組織蛋白酶的活性,促進腫瘤增殖和侵襲能力。并且,有研究證明Ki-67在晚期宮頸癌中高表達,其表達與腫瘤大小、淋巴轉移和宮頸癌分期密切相關[3,4]。同時,Ki-67也與患者的預后密切相關,表明Ki-67表達是宮頸癌預后的一個指標。腫瘤生長分數的測量為預測臨床行為提供了一種潛在的有價值的方法,也能有助于放射治療劑量的擬定。
鑒于Ki-67在腫瘤不同區域的增殖狀態不同,傳統的侵襲性免疫組織化學方法只評估組織小樣本的活檢標本,不能反映腫瘤的整體異質性[5]。影像組學不同于傳統的僅使用醫學圖像進行視覺解釋的做法,它是通過高通量提取基于形狀、強度、大小或體積等的豐富定量特征,將數字醫學圖像轉換為可挖掘的數據[6,7]。
MRI影像組學已經在其他腫瘤,比如肝細胞癌、軟組織肉瘤的Ki-67狀態評估中應用[8,9]。據筆者所知,目前還沒有研究檢測基于磁共振成像(magnetic resonance imaging,MRI)的影像組學與宮頸癌Ki-67狀態之間的相關性。因此,本研究旨在研究基于MRI的影像組學分類器是否可以無創預測宮頸癌患者Ki-67狀態。
1.研究對象
本研究為回顧性分析獲得了倫理批準,并取消了知情同意的要求。本研究回顧性分析2016年1月-2021年9月兩家三級甲等醫院的343例經病理確診的宮頸癌患者。納入標準:①行子宮根治術及盆腔淋巴結清掃術;②MRI檢查前未接受任何治療;③術前15天內進行MRI檢查;④有T2/SPAIR、增強T1WI、ADC圖像。排除標準:①術前接受治療(新輔助化療、放療或錐化);②T2/SPAIR、增強T1WI、ADC上均未見病變;③患者在檢查過程中的移動以及結腸和直腸內氣體的化學位移偽影等導致的圖像質量較差;④患有其他罕見類型的宮頸腫瘤。
2.圖像采集及設備參數
MRI檢查設備為Philips Achieva 3.0T TX MR掃描儀和1.5T Siemens MR掃描儀。采集參數多采用快速自旋回波序列,包括橫軸面T1WI,橫軸面、斜冠狀面、矢狀面T2頻率衰減反轉恢復序列(spectral attenuation with inversion recovery,SPAIR)、橫軸面增強T1WI(contrast-enhanced T1-weight imaging,CE T1WI)。兩個中心機器參數各異,分別為:T1WI(TR 320~680 ms,TE 7.5~18 ms),T2/SPAIR(TR 2725~3528.9 ms,TE 78.5~80 ms),CE T1WI(TR 3~4.1 ms,TE 1.25~1.95 ms),各序列層厚2.5~6 mm,層間距2.5~6 mm,層數16~22層。自旋平面回波成像(echo planar imaging,EPI)序列獲得橫向擴散加權圖像,參數為:TR 5075~10100 ms;TE 50~80 ms;層厚3~4 mm;層間距1~3 mm。b值平均為0和1000 s/mm2。
本研究只選取MRI方案包括橫軸面T2/SPAIR、CE-T1WI、ADC圖像。所有影像圖像以醫學數字成像和通信(digital imaging and communications in medicine,DICOM)格式從醫院影像歸檔和通信系統(picture archiving and communication system,PACS)工作平臺獲取。
3.Ki-67 的測量
在手術切除后一周內通過免疫組化檢查進行Ki-67的測量。Ki-67評分的百分比是通過記錄陽性染色的惡性細胞來記錄的。Krtinic等[10]研究結果中Kaplan-Meier生存分析證實,Ki-67 PI值超過60%的患者的平均生存率較Ki-67 PI值≤60%的患者長,且差異具有統計學意義(P<0.001)。所以,筆者經免疫組織病理學染色后,篩選出有Ki-67結果的患者,Ki-67≤60%為低表達組,Ki-67>60%為高表達組。
4.影像組學方法
感興趣區分割:筆者從PACS系統中獲取橫軸面T2/SPAIR、CE T1WI和ADC(DICOM)原始圖像。在3D slicer軟件(https://www.slicer.org)由同一位有9年婦科影像診斷經驗的醫生在每位患者T2/SPAIR、CE T1WI和ADC圖像上緊貼腫瘤邊緣逐層手動勾畫整個腫瘤輪廓,包括壞死和囊性區域(圖1)。勾畫者在所有圖像勾畫完成后進行ROI二次確認和修改,對于不確定的病灶,請教另一位高年資醫生進行指導勾畫。

圖1 使用3D Slicer軟件進行勾畫的界面示意圖。
特征的提取和篩選:由于本組病例來自兩家不同的三甲醫院,圖像參數及機型有所差異,所以筆者在使用3D Slicer軟件對特征提取時,將圖像進行1 mm×1 mm×3 mm重采樣處理。同時對圖像進行濾波及高斯拉普拉斯算子(LoG)的預處理。每位患者的每個序列(T2/SPAIR、CE T1WI和ADC)各提取了1130個原始特征。
特征選擇是在R和Rstudio軟件(開源軟件,ht-tps://www.r-project.org/,https://rstudio.com/)實現的。影像組學特征從不同角度反映腫瘤信息,但并非所有的特征都與Ki-67相關。首先,為填補訓練集和驗證集中生成的特征值中的空缺,筆者對缺失值進行填充處理。其次,為了使兩個數據集結果落入一個小的特定區間,消除量綱和量級的影響,對數據進行z-score標準化處理。
為了避免維度災難和減少建模時影像組學特征的偏差,采用了兩個步驟來選擇訓練組中的特征。第一步,去除不穩定特征后余下特征都通過獨立樣本t檢驗Mann WhitneyU檢驗來選擇主要隊列的潛在重要特征。第二步,采用最小絕對收縮和選擇算子(least absolute shrinkage selection operator,LASSO)通過執行變量選擇和正則化來進行降維和特征選擇,以提高產生的統計模型的預測精度和可解釋性[11]。最小λ值被用來調整正則化參數(λ)和使用10倍交叉驗證的特征選擇。最后,對LASSO選擇的特征計算Spearman相關系數,以避免潛在的嚴重線性依賴建立相關系數的強度。在本研究中,筆者認為具有非常高正相關(0.90~1.00)的特征具有嚴格的線性依賴性。
影像組學模型構建及評估:特征選擇后,筆者嘗試了三種機器學習建模方法,包括Logistic回歸、決策樹、支持向量模型(support vector model,SVM),根據所選擇的特征識別臨床病理指標。影像組學特征的預測準確性通過訓練集和驗證集的受試者操作特征(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)來量化。之后,選擇驗證集AUC值最高的模型類別。根據模型篩選的關鍵特征與其相應權重系數乘積的線性組合建立影像組學標簽,同時計算出基于患者上述標簽的影像組學風險評分(Radiomics score,Rad-score)。計算公式:
Rad-score=β0+β1X1+β2X2+β3X3+……βnXn
(1)
Xn代表模型篩選出的最佳影像學特征,βn代表相應特征的權重系數。
5.統計學分析
患者的臨床病理特征評估訓練和驗證數據集中患者之間以及每個數據集中Ki-67高表達和Ki-67低表達患者的年齡差異,采用Mann WhitneyU檢驗或獨立樣本t檢驗。采用卡方檢驗來識別訓練數據集和驗證數據集之間Ki-67狀態的差異。
僅對訓練集進行特征選擇和模型構建,驗證集僅用于評估模型性能。為了分別評價基于T2/SPAIR、CE T1WI、ADC圖像的影像組學分類器的識別能力,筆者在訓練數據集中采用ROC曲線分析評價診斷敏感度、特異度及AUC。LASSO分析采用R統計軟件(版本3.6.1,http://www.rproject.org),使用“glmnet”軟件包進行。ROC曲線使用“pROC”軟件包繪制ROC曲線。所有檢驗均為雙尾檢驗,以P<0.05為差異具有統計學意義。
1.一般臨床資料
按照納入和排除標準最終收集具有臨床病理資料和影像數據的患者91例(表1)。

表1 整個隊列的臨床和腫瘤特征 [例(%)]
其中,Ki-67低表達組(Ki≤60%)27例,占29.7%。Ki-67高表達組(Ki-67>60%)64例,占70.3%。91例患者平均年齡51.02±9.67歲,其中Ki-67低表達組41~58歲(平均50.11±9.67歲),Ki-67高表達組44~57歲(平均51.43±9.72歲),兩組間年齡差異無統計學意義(P=0.550)。
2.訓練組和驗證組臨床臨床資料
不同Ki-67狀態訓練組和試驗組的臨床病理特征差異無統計學意義。經正態性檢驗,訓練組、驗證組連續型變量不符合正態分布,所以檢驗組間差異采用非參數型檢驗的曼-惠特尼檢驗。分類變量采用卡方檢驗或Fisher檢驗。
兩家醫院總共收集到具有Ki-67免疫組化結果的宮頸癌患者91例。Ki-67≤60%的患者27人,Ki-67>60%的患者64人。按照7:3的比例隨機分配為訓練組、驗證組。在訓練數據集和驗證數據集中Ki-67高表達組和低表達組年齡差異沒有統計學意義(P=0.311、0.784)。訓練數據集和驗證數據集的Ki-67高表達組和Ki-67低表達組患者年齡差異沒有統計學意義(P=0.421)。在訓練數據集和驗證數據集中, Ki-67低表達患者的比例分別為31.3%和33.3%,差異無統計學意義(P=0.926)。
3.影像組學結果
特征提取及篩選:分別從T2/SPAIR、CE T1WI、ADC中提取1130個原始影像組學特征。對T2/SPAIR、CE T1WI及ADC影像提取的原始數據進行單因素分析及LASSO的降維處理后分別得出4、6、5個對腫瘤Ki-67狀態區分最重要的特征。
基于T2/SPAIR圖像對Ki-67≤60%組和Ki-67>60%組區分的影像組學分數(Rad-score T2/SPAIR),計算公式:
Rad-score T2/SPAIR=0.57180983-0.07838715×log.sigma.1.5.mm.3D.ngtdm_Busyness-0.02143699×wavelet.LLH.firstorder_Mean-0.38996466×wavelet.HHH.glszm_LargeAreaLowGrayLevelEmphasis+0.39211683×wavelet.HHL.glcm_Imc2
(2)
基于CE T1WI圖像對Ki-67≤60%組和Ki-67>60%組區分的影像組學分數(Rad-score CE T1WI),計算公式:
Rad-score CE T1WI=0.27275754-0.03218521×log.sigma.1.5.mm.3D_glszm_SmallAreaLowGrayLevelEmphasisv-00.15269483×wavelet.LHL_firstorder_Mean+0.21122807×wavelet.LHH_firstorder_Median-0.07965290×wavelet.HHH_glrlm_ShortRunLowGrayLevelEmphasis+0.37589105×wavelet.HHL_glcm_Imc2+0.27886053×wavelet.HHL_glszm_ZoneEntropy
(3)
基于ADC圖像對Ki-67≤60%組和Ki-67>60%組區分的影像組學分數(Rad-score ADC),計算公式:
Rad-score ADC=1.415592702-0.269291095×wavelet.LLH.firstorder_Mean-0.673123228×wavelet.HLH.glcm_Imc1-0.001642142×wavelet.HHH.firstorder_Median+0.038702281×wavelet.HHL.gldm_DependenceVariance-1.272663858×wavelet.LLL.glcm_MCC
(4)
組學模型建立及性能評估:本試驗對T2/SPAIR、CE T1WI及ADC三個序列采用了回歸模型、決策樹模型和SVM模型,選擇驗證組AUC值較高的模型(表2)。

表2 兩個分類器的性能與四個評估指標
影像特征在訓練組和驗證組中都表現出滿意的預測性能,T2/SPAIR序列在回歸模型下表現最佳,AUC為0.801(95%CI:0.6771~0.9257),在驗證隊列中為0.716(95% CI:0.5118~0.9209),見圖2。CE T1WI序列在SVM模型中表現最佳,訓練組AUC為0.856(95% CI:0.7381~0.9749),在驗證隊列中為0.731 (95%CI:0.5235~0.9384),見圖3。ADC序列在回歸模型中表現最佳,訓練組AUC為0.819(95% CI:0.6964~0.9423),在驗證組中AUC為0.719(95% CI:0.5098~0.9288),見圖4。將三個序列聯合起來的模型顯示,訓練組AUC明顯改善(AUC=0.961),而驗證組未見明顯改善(AUC=0.596)。兩個序列聯合模型T2/SPAIR+ADC、CE T1WI+ADC、T2/SPAIR+CE T1WI在訓練組AUC 分別為0.872、0.939、0.953,均低于三個序列聯合模型,在驗證組AUC分別為0.389、0.658、0.544,均低于單個序列模型效果。
增殖相關的Ki-67抗原與細胞周期密切相關,直接反映細胞增殖,與腫瘤進展密切相關。增殖標記Ki-67已被反復證明是乳腺癌和其他腫瘤的獨立預測和預后因素[12]。目前,臨床應用中最常用的定量Ki-67表達的方法是免疫組織化學。活檢獲取了部分腫瘤樣本組織,Ki-67指數的值準確性是有限的,因為它忽略了整個腫瘤的異質性。然而,功能成像可以在術前提供腫瘤組織的整體解剖和功能特性。
2012年,影像組學的概念是由荷蘭學者Lambin提出的,其思想起源于腫瘤異質性[7]。與傳統的蛋白質組學和基因組學方法相比,影像組學可以無創評價腫瘤的微環境和預測腫瘤遺傳異質性。在本研究中,筆者使用影像組學來定量提取腫瘤內部散在的特征,從而重構腫瘤內部結構的非均勻特征。有研究表明,影像組學可以提供更詳細的信息,說明圖像與Ki-67表達水平之間的相關性。因此,使用MRI提供無創檢查方式可能會更全面和有代表性地確定Ki-67狀態;這可能對未來為患者更好地管理提供幫助,同時,對實施精準醫學具有潛在的意義。
在本研究中,筆者開發并驗證了基于原發腫瘤特征的無創影像學模型,以預測宮頸癌Ki-67的表達。Liang等[13]和Ma等[14]報道,基于T2WI和DCE-MRI的影像組學分類器是乳腺癌患者Ki-67指數的重要預測因子,準確性分別為0.729和0.757。本研究在訓練集中的準確性為0.762、0.873,超過了上述兩項研究結果的準確性值,但驗證集稍低于上述值(0.536、0.571)。但在上述研究中,他們只對最大的切片進行了二維分析,這可能不能完全評估整個腫瘤的異質性。在本研究中,筆者對整個腫瘤進行了三維分析,這可以充分考慮到腫瘤的異質性。
Zhang等[15]基于ADC序列的影像組學回歸模型表現出良好的識別能力,訓練組AUC為0.75±0.08,訓練集的準確率為0.710,測試集的AUC為0.720,準確率為0.700。本研究ADC序列采用同樣為回歸模型,展現的模型效果較該研究好,訓練組AUC為0.819,驗證組為0.719,訓練組準確率為0.810,驗證集準確率的為0.714。李建等[16]研究結果顯示ADC值與Ki-67表達程度呈負相關。本研究選擇在ADC圖上計算影像組學特征的原因是評估水分子運動的能力在具有相同場強度和相同b值范圍的不同MRI系統之間顯示出良好的再現性[17,18]。這一特征表明,雖然各中心掃描儀通常不同,但ADC圖像在多中心影像組學研究中是有價值的。同時,MRI常規序列與功能成像結合影像組學在宮頸癌異質性分析方面的應用逐漸廣泛,對于宮頸癌病灶檢出、療效預測及評估,并指導臨床決策[19]。
本研究對象中缺少FIGO Ⅳ期的患者,可能導致評價偏移。同時,本研究的局限性在于患者數量不夠大。由于數據不足,無法進行外部驗證,診斷準確性可能被高估。必須強調的是,即使一個影像組學分類器對少數患者顯示出良好的結果,它必須用更大的樣本進行驗證,然后才能擴展到臨床使用。 然而,筆者認為這些數據提供了足以促使更大的基于Ki-67指數臨床研究的影像學價值,從而能夠更好地決定術前預測指征。最后,需要未來的研究來使用更大的樣本來評估影像組學生物標志物在獨立和前瞻性驗證隊列中的價值和特征可重復性。
人工智能在醫學中的應用是高度發展的。正如有研究證明,人工智能在臨床診斷方面表現出與人類專家相當的高準確性和能力[20]。然而,挑戰仍然存在,例如診斷準確性的提高[21]。本研究提出的模型包含了所有的特征類型,非小波特征和小波變換特征都在預測Ki-67狀態方面獲得了一定的分類性能。已有研究證明,影像組學可能有助于預測分子特征,并為膠質瘤的靶向治療和個性化治療提供信息[22,23]。因為目前還沒有關于影像組學對宮頸癌Ki-67的預測,希望本研究對Ki-67預測的方法能對未來宮頸癌個性化治療方案的擬定提供有用的信息。