王進,李智慧,沈浮,陸建平
直腸癌是世界范圍內最常見的惡性腫瘤之一。在我國,隨著人們生活習慣的改變及人口的老齡化,直腸癌發病率逐年增高,全國結直腸癌發病率及死亡率均位列第五位[1]。直腸癌患者最佳治療方案的選擇是一個非常復雜的過程,準確的術前評估是指導治療決策的重要依據。腫瘤的精確分期可以提示患者治療后的局部復發和遠處轉移風險,從而制定合理的治療方案,達到最佳的個體化治療策略。但目前傳統影像學方法一般僅在形態學上對腫瘤進行術前評估,缺乏定量評估。基于精準醫療的要求,傳統的影像醫學模式亟待改變,必須與分子生物學、分子病理學結合,必須與新型治療模式、預后判斷和康復結合[2]。放射組學(radiomics)應用大量的自動化數據特征化算法,將影像興趣區(region of interest,ROI)的影像數據轉化為具有高分辨率的、可發掘的特征空間數據,具有數據維度高、定量分析等優點,可與傳統影像學與分子生物學、分子病理學、信息科學相整合,采用大數據分析方法將其用于影像診斷、療效評估、預后預測等,有望成為精準影像醫學的重要基石[3-5]。因此本研究基于磁共振高分辨率T2WI圖像,結合影像組學的方法,希望得到直腸癌術前T分期的影像組學特征,探討基于高分辨率T2WI的影像組學方法對直腸癌特定病理特征的應用價值,并建立和驗證影像組學直腸癌術前診斷模型。
1.患者資料
回顧性分析2017年1月-2018年12月在上海長海醫院經手術病理證實且術前行直腸高分辨率T2WI檢查的直腸癌患者的病例資料,獲取原始DICOM數據并記錄術后病理報告結果。排除標準:①圖像質量差,如明顯的偽影導致病灶顯示欠清,無法準確勾畫VOI;②患者手術前或MRI檢查前后接受過任何的全身或局部治療。根據美國癌癥聯合委員會(American Joint Committee on Cancer,AJCC)第七版的分類標準進行病理診斷,記錄患者術后病理T分期,將T1~T2期分為未突破肌層組,T3~T4期分為突破肌層組。
2.檢查方法
磁共振掃描采用Siemens MAGNETOM Skyra 3T磁共振成像系統。所有患者檢查前4 h禁食。檢查前囑患者使用一支開塞露(20 mL甘油)清潔腸道。采用腹部相控陣線圈。掃描序列均采用常規直腸MRI及高分辨率T2WI序列。常規序列包括矢狀面T2WI脂肪抑制序列,橫軸面T1WI及增強掃描、DWI。高分辨T2WI為斜橫斷面,掃描平面垂直于病灶所在腸管的長軸。掃描參數:TR 4000 ms,TE 108 ms,FOV 18 cm,矩陣320 × 320,層厚3 mm,層間距0,層數28層,反轉角度150°,帶寬108 Hz/像素。無脂肪抑制,GRAPPA并行采集模式,加速因子為3,平均累加次數2,回波鏈長度16,掃描時長為4分10秒。
3.影像組學方法
①病灶VOI分割和特征提取:將獲取到的高分辨率T2WI原始DICOM圖像導入后處理平臺(大數據智能分析云平臺,慧影醫療科技有限公司,北京),一名放射科醫師采用手動方式在T2WI圖像上沿病變邊緣逐層勾畫興趣區(region of interest,ROI),計算機自動生成病灶的三維容積興趣區(volume of interest,VOI),另一名高年資放射科醫師檢查勾畫結果。將VOI使用上述平臺自動提取影像組學特征,分為強度統計特征(19個)、形狀特征(15個)、紋理特征,其中紋理特征包括灰度共生矩陣(gray level co-occurrence matrix,GLCM)27個、灰度游程矩陣特征(gray level run length matrix,GLRLM)16個及灰度區域矩陣(gray level size zone matrix,GLSZM)16個;以及對圖像進行對數濾波、指數濾波、平方濾波、平方根濾波、小波變換(wavelet)等8種方式處理后再提取強度特征和紋理特征,共1029個放射組學特征。
②特征選擇及降維:將上述獲取到的全部特征采用LASSO算法(Least absolute shrinkage and selection operator,即最小絕對收縮算子)進行特征值降維,篩選各個特征在最佳平均最小誤差時的變量系數(圖1),選擇對直腸癌術后T分期診斷有價值的特征。
③機器學習:將特征降維所獲得的影像組學特征與術后T分期構建支持向量機(support vector machine,SVM)分類器模型。將全部樣本分為訓練集和驗證集,隨機選取70%病例作為訓練集進行機器學習(machine learning,ML),并采用5折交叉驗證方式進行驗證以得出穩定的結果,利用剩余的30%病例作為驗證集進行驗證。使用受試者工作曲線(receiver operating characteristic curve,ROC)曲線下面積(area under the curve,AUC)以及敏感度和特異度評估機器學習模型的預測能力。

圖1 LASSO算法系數解路徑圖。

圖2 SVM分類器訓練集ROC曲線(5折交叉驗證)。 圖3 SVM分類器驗證集ROC曲線。
1.臨床資料
共納入154例患者,男92例,女62例,年齡32~78歲,平均(56.5±10.2)歲,其中T1期26例,T2期41例,T3期76例,T4期11例。未突破肌層組共67例,突破肌層組共87例。經組織病理證實直腸腺癌142例,黏液腺癌10例,印戒細胞癌2例。全部手術病例均為單發病灶,環周切緣(circumferential resection margin,CRM)均為陰性。按7:3的比例隨機分為訓練集和驗證集,其中訓練集106例(其中未突破肌層組46例,突破肌層組60例),驗證集48例(其中未突破肌層組21例,突破肌層組27例)。
2.影像組學特征
本組病例共生成的VOI為154個,共提取到1029個影像組學特征。通過LASSO算法篩選后,最終得到與T分期鑒別相關的特征5個:original_shape_size、waveletHLH_firstorder_medianvalue、waveletLLL_glszm_SZE、waveletLLL_glszm_SZLGE和waveletHHL_glcm_svarh。
3.分類器預測表現
上述5個影像組學特征與T分期構建的SVM分類器,訓練集的平均ROC曲線的AUC、95% CI、敏感度及特異度為0.768、0.696~0.860、73.3%和73.9%(圖2);驗證集的AUC、95%CI、敏感度及特異度為0.730、0.583~0.848、73.1%和66.7%(圖3)。
直腸癌的術前診斷對于臨床制定合理的個體化治療決策是尤為重要的依據,依賴于精準的術前分期,包括腫瘤的浸潤深度(T分期)等反應腫瘤侵襲性及影響預后的因素。術前推薦采用MRI進行評估,但目前依靠傳統影像學方法一般僅在形態學上進行評估,有一定的主觀性,缺乏定量評估。T2期/T3期的分期錯誤是較為常見的,通常T3期提示較高的局部復發及遠處轉移風險,因此很多文獻強調T2期與T3期鑒別診斷[6]。兩者在MRI上最重要的鑒別標準是病灶是否突破固有肌層,周圍系膜脂肪是否受到侵犯,而腸周線狀或索條狀的信號因局部纖維化或炎癥也可有類似的表現,文獻認為有時很難區分真正的腫瘤浸潤與結締組織增生性反應[7],因此對T2期和早期T3期腫瘤常常很難鑒別。
現有研究證實影像組學可以為影像診斷提供新的思路和工具[8],影像組學(radiomics)方法是指對 CT、MRI和PET等大量醫學圖像高通量的提取定量影像學特征并進行分析,找到疾病的影像學標識物,從而實現對疾病的精準預測、診斷及預后評估等[4]。非侵入性的影像組學對于腫瘤的整體評估具有巨大的潛能,可對患者進行無損傷和可重復性檢查[5]。目前,國內外學者對結直腸腫瘤的研究主要集中在病灶紋理特征提取、腫瘤與非腫瘤性病變的鑒別、結直腸癌術前分期、淋巴轉移評估等方面[9-12]。
本研究對154例直腸癌病變的T2WI高分辨率圖像進行特征提取,初始共1029個特征,包含兩類特征?;谔卣黝悾孩僖浑A統計量特征(first order statistic),描述與ROI內的體素強度分布有關的特征,不包含它們之間相互的空間作用。②形狀特征(shape based),包括描述VOI大小、形態等特征,例如體積、表面積、直徑、致密度、偏心度、球形度等。③紋理特征(texture),是描述體素空間分布強度等級的特征,被視為一個灰度級,是一種視覺感知的圖像局部特征的綜合,描述同質性與異質性之間關系,包括:灰度級共生矩陣(gray level co-occurrence matrix,GLCM)、灰度級長度矩陣(gray level run length matrix,GLRLM)、灰度級形狀矩陣(gray level size zone matrix,GLSZM)和領域灰度差分矩陣(neighborhood gray-tone difference matrix,NGTDM)?;谶^濾器類:小波變換(wavelets)、拉普拉斯轉換(laplacian transforms)、平方根(square root)、平方值(square)、對數特征(logarithm)、指數特征(exponential)等,表示通過不同濾波器的變換,可以表現出一些原圖無法表現出的特征。
針對腫瘤是否侵犯突破肌層的判斷,本研究根據術后病理結果將T1~T2期分為未突破肌層組,T3~T4分為突破肌層組,經LASSO算法降維后最終得到與直腸癌T分期鑒別相關的特征5個。機器學習結果顯示SVM分類器驗證集的AUC為0.730,敏感度73.1%,特異度66.7%,表明該分類器有優秀的判斷腫瘤浸潤是否突破肌層的能力。
SVM屬于監督式學習,在對給定的數據進行逼近的精度與逼近函數的復雜性相結合來尋求最佳比例,以便取得最好的泛化能力。SVM算法簡單地說,就是升維和線性化。升維有可能會引起“維數災難”,人們很少問津,但是SVM方法通過應用核函數的展開定理巧妙地解決了因低維空間向高維空間做映射而增加計算復雜性這個難題:不需要知道非線性映射的顯式表達式;由于是在高維特征空間中建立線性學習機,所以與線性模型相比,不僅幾乎不會增加計算的復雜性,還會在某種程度上規避了“維數災難”,這一方面核函數的展開和計算理論功不可沒。
目前文獻報道該模型應用于不同類型肺腺癌的鑒別[13]、膀胱癌分級評估[14]以及前列腺癌的檢測[15]等方面?;贛RI的影像組學技術,通過提取醫學圖像中的大量影像學特征并進行高通量數據分析,建立分類模型,不僅規避了觀察者本身對于圖像解讀的主觀偏向,還能深度挖掘并整合圖像中大量的人眼無法識別和區分的數字化信息,從而提高術前直腸癌分期的診斷效能,擁有了能夠量化分析腫瘤異質性的能力。
本研究的局限性主要在于:第一,影像組學特征是從手動勾畫的VOI中提取,很難避免腸壁形變對VOI產生的影響,且容易出現主觀錯誤,這可能會影響紋理特征的準確性;第二,本研究屬于回顧性研究,可能存在選擇偏倚,沒有納入部分未行手術無病理結果的患者,這導致建立模型的樣本量仍不夠大且分布欠均衡,需擴大樣本量以減少數據量對模型準確性的影響;第三,本研究是利用影像組學SVM模型對直腸癌的初步探索,尚未對N分期及遠處轉移進行分析,今后還需進一步研究。
綜上所述,基于磁共振高分辨T2WI的影像組學SVM模型有助于判斷腫瘤浸潤是否突破固有肌層,對直腸癌術前T分期的診斷具有價值,可以作為直腸癌術前評估的有效手段。