唐興,白國艷,王虹,印弘,張艱,徐肖攀,康曉偉
肺腺癌(lung adenocarcinoma)是肺癌中的常見病理類型,半數以上的患者在確診前已發生轉移[1],5年生存率僅為2%[2]。既往研究發現腫瘤在發生、增殖、分化和擴散的過程中獲得了一系列具有特征性的分子生物標志物[3]。肺腺癌最常見的基因突變是表皮生長因子受體(epithelial growth factor receptor,EGFR)突變[4]。EGFR在細胞生長、增殖、分化、血管生成和轉移等多種病理生理過程的調節中發揮著重要作用[5],已成為靶向治療的重要預測指標。對EGFR的基因檢測需要基于有創的手術或穿刺活檢,耗費巨大,而且存在一定程度的誤診率[6]。近年來,影像組學在定量表征和預測腫瘤組織病理學類型與腫瘤分子標記物方面得到廣泛應用[7-11],其中,基于CT的影像組學已應用于肺癌基因表型的預測和療效評估[12-13]。與CT相比, MRI在反映腫瘤異質性和組織學差異方面具有明顯優勢,同時具有無創、無輻射等優點。因此,本研究擬基于多序列MRI影像組學構建肺腺癌EGFR突變的預測模型,探討影像組學在預測肺腺癌EGFR基因表型中的應用價值。
1.研究資料
將2015年1月-2018年12月在本院行肺部MRI檢查且病理證實為肺腺癌的患者納入初始樣本庫。納入標準:(1)MRI檢查2個月之內有手術病理結果或穿刺活檢病理結果;(2)無其它惡性腫瘤病史;(3)直徑大于8 mm的實性腫塊,不包括磨玻璃病灶;(4)有EGFR檢測結果。排除標準:(1)已對肺癌進行過治療(如化療、放療);(2)圖像偽影重,不能進行數據測量及分析;(3)有磁共振檢查禁忌證(如人工耳蝸、心臟起搏器)。最終共納入符合標準的患者74例,其中EGFR突變型32例,野生型42例。
2.MRI掃描方法
使用Siemens Magnetom Aera 1.5T磁共振成像系統和體部線圈。患者取仰臥位,行胸部MRI平掃及DWI檢查,掃描序列和參數如下。(1)橫軸面T2WI:采用加脂肪抑制刀鋒(BLADE)序列,TR 2200 ms,TE 86 ms,層厚5.00 mm;層間距1.00 mm,視野350 mm×350 mm,矩陣320×284,激勵次數1;(2)DWI:b=50、800 s/mm2,TR 6800 ms,TE 63 ms,層厚5.00 mm,層間距0.25 mm,視野400 mm×400 mm,矩陣156×156,激勵次數4。掃描定位時應保證橫軸面T2WI和DWI序列所有層面一致。
3.圖像分割方法
使用MATLAB共享軟件包進行影像組學分析。首先,對腫瘤進行手動分割。在T2WI及DWI圖像中選取腫瘤最大截面積所在層面,當病灶多發時選取最大病灶;然后,使用多邊形工具沿腫瘤邊緣手動勾選ROI,注意避開胸壁、血管和縱隔等解剖結構;最后,將DWI圖上勾畫的ROI映射到ADC圖上(圖1)。

圖1 腫瘤ROI勾畫方法。a)選取腫瘤最大截面的橫軸面T2WI圖像,使用多邊形工具手動勾畫ROI; b) 選取腫瘤最大截面的橫軸面DWI圖像,使用多邊形手動勾畫ROI; c) 將DWI圖上的ROI映射到ADC圖。
4.影像組學特征提取
在每個序列圖像上自每個腫瘤的ROI分別可提取8個直方圖特征、39個灰度共生矩陣(gray level co-occurrence matrices,GLCM)特征、33個灰度游程矩陣(gray level run length matrix,GLRLM)特征、5個鄰域灰度差分矩陣(neighborhood gray-tone diffe-rence matrix,NGTDM)特征和15個灰度區域大小矩陣(gray level size zone matrix,GLSZM)特征。將勾畫了ROI的T2WI、DWI和ADC圖進行灰度離散化,歸一化為8、16、32、64和128共5個灰度級,則每個序應統計量為t、Z和χ2值。最長徑為橫軸面圖像中病灶最大截面所在層面上腫瘤最大直徑;垂直徑為與腫瘤最長徑垂直的徑線。
列圖像上可提取8個直方圖特征、195個(39×5)GLCM特征、165個(33×5)GLRLM特征、25個(5×5)NGTDM特征和75個(15×5)GLSZM特征,共468個影像組學特征。最終,自3個序列(T2WI、DWI和ADC)的圖像上共提取1404個個特征,然后,進行線性歸一化處理,將特征值的取值范圍調整為-1~1。
5.組學特征的優選和預測性能的評估
采用Student′st檢驗比較EGFR突變組與野生組之間各個影像組學特征的差異。隨后,采用基于非線性支持向量機的遞歸特征消除(support vector machine-based recursive feature elimination,SVM- RFE)方法篩選最優特征子集。然后,利用10折交叉驗證法,每折時將原始樣本劃分為10個子樣本,將其中9個子樣本的數據對模型進行訓練,1個子樣本的數據用于模型的驗證;對每個子樣本進行交叉驗證,取10個交叉驗證的平均值。應用受試者工作特征(receiver operator characteristic curve,ROC)曲線評估影像組學模型 的預測能力,計算曲線下面積(area under curve,AUC)和預測符合率 ,評估分類器的性能。
6.統計分析
使用SPSS 19.0軟件進行統計學分析。采用Kolmogorov Smirnov檢驗對定量資料進行正態性檢驗,符合正態分布的數據以均數±標準差來表示,組間比較采用獨立樣本t檢驗,不符合正態分布的數據以中位數(上、下四分位數)表示,采用Wilcoxon秩和檢驗。組學特征的優選和預測性能的評估采用R3.4.4版統計軟件進行分析。采用受試者工作特征(receiver operator characteristic curve,ROC)曲線,并計算曲線下面積(area under curve,AUC)評價預測模型的效能。以P<0.05為差異有統計學意義。
1.臨床特點
EGFR突變組和野生組的基線臨床資料見表1。統計分析結果顯示,除性別(P=0.001)和腫瘤分型(P=0.034)之外,其余指標在兩組之間的差異無統計學意義(P>0.05)。

表1 兩組患者基線臨床資料的比較
2.特征優選及預測性能
Studentt檢驗結果顯示,提取的1404個影像組學特征中,318個組學特征在兩組間的差異有統計學意義。利用SVM-RFE方法進一步對這些顯著特征進行優選,最終選取16個最優特征(圖2a),其類別分布見表2、圖2b。利用SVM分類器,將EGFR突變型賦值為-1,EGFR野生型賦值為1,利用16個最優特征構建的影像組學模型 對EGFR突變進行預測,預測敏感度為53.1%,特異度為92.9%,符合率為75.7%,AUC為0.826(圖2c)。進一步擬合性別因素構建聯合診斷模型,其預測符合率達78.9%。

圖2 特征優選及性能預測分析圖。a)基于SVM-RFE的特征選擇策略曲線圖(橫坐標表示特征的個數;縱坐標表示曲面下面積)。將318個顯著性特征的重要程度按降序排序,選擇曲面下面積最大的前16個特征作為最優特征。紅線代表各特征的曲線下面積,藍線代表準確性;b)16個最優紋理特征在不同MRI序列和不同特征類別中分布情況的柱狀圖(橫坐標表示不同MRI序列的名稱和不同紋理特征類別的名稱;縱坐標表示特征個數);c)16個最優影像組學特征構建的影像組學模型預測EGFR突變的ROC曲線圖,曲線下面積為0.826。

表2 16個最優組學特征的來源MRI序列和類別
近年來,肺癌的突變基因和基于突變基因的靶向治療成為新的研究熱點。腫瘤的基因分類可以指導治療策略和預后評估。其中,肺腺癌占到肺癌的一半以上[14],而且大部分(約58.6%)在確診時已處于臨床晚期階段[15]。病理檢查能準確來區分和鑒別肺癌的組織學分類。但是,明確肺癌的EGFR等基因的突變類型則需要進一步行分子檢測。研究表明,以EGFR為靶點的酪氨酸激酶抑制劑(tyrosine kinase inhibitors,TKIs)可以抑制腫瘤細胞的生長和增殖[16],與標準一線化療藥物相比,可延長EGFR突變患者的無進展生存期(progression-free survival,PFS)[17],已被美國國家綜合癌癥網絡(national comprehensive cancer network,NCCN)推薦為肺腺癌的一線治療藥物。此外,EGFR突變型患者對EGFR-TKIs的應答率(60%~80%)顯著高于EGFR非突變型或未知突變型患者(10%~20%)[18]。因此,早期、無創和精準評估EGFR突變情況對于肺腺癌患者的個體化治療具有重要意義。
DWI相關參數可提示腫瘤性病變中的細胞密集程度[19],一般情況下,惡性腫瘤的ADC值明顯低于良性腫瘤[20-22]。在肺腺癌中,ADC與細胞密集程度和增殖能力呈負相關[23-25]。近年來,肺癌的高發病率和CT薄層三維重組的普及,產生了大量高品質的肺癌相關CT數據,使得肺癌的影像組學研究數量相對較多。然而,由于肺部MRI檢查的普及率較低,且對設備和技術的要求高,目前對肺癌的MRI相關研究還很少。磁共振成像特有的高軟組織對比度和多序列優勢有利于反映更多的腫瘤內部微觀信息,已有學者利用基于DWI的影像組學指標來預測肺癌腦轉移瘤的組織學分型和EGFR基因突變類型[26]。
本研究以磁共振T2WI、DWI和ADC圖為基礎,探討影像組學特征和組學模型對預測分子標記物EGFR表型的可行性。本研究的前期階段,經過反復調試,確定單層動態勻場技術(integrated specific slice dynamic shim,ISHIM)為采集肺部DWI圖像的最優序列,該序列不僅可以動態調整局部敏感區的場強、提高磁場均勻度,同時還可縮短掃描時間、減小運動偽影,從而提高DWI圖像質量。本研究中,DWI圖像提取的最優組學特征的數量最多,提示DWI圖像所包含的紋理信息能更好地反映肺腺癌EGFR表型的差異。雖然ADC值能更真實地反映腫瘤擴散受限的程度,可為腫瘤的診斷、鑒別和療效評估提供定性和定量數據[27]。然而,本研究結果顯示,DWI較ADC在肺腺癌的EGFR基因表達預測的應用中更有價值,筆者認為這與肺腺癌的病理分級(高、中、低分化)有關,肺腺癌的病理分級會影響ADC的預測結果,但對DWI的影響較小[27]。
筆者選取的16個最優影像組學特征中,以GLRLM的特征最多,達9個。GLRLM特征捕捉的是圖像紋理的變化,可以量化圖像上體素的空間關系,對腫瘤組織區域異質性變化較敏感[12]。腫瘤分子細胞和遺傳的異質性導致了空間異質性的改變,如腫瘤密度、血管生成和壞死,而傳統的紋理分析方法很難捕捉到這種異質性。
近期,Tu等[28]基于CT圖像的影像組學方法提取9個特征組成特征集用于區分肺癌級別,訓練組和驗證組的AUC分別為0.763和0.782,符合率為68.7%和71.2%。本研究基于MR圖像的影像組學模型預測肺腺癌EGFR基因表型的符合率為75.5%,進一步擬合性別因素構建聯合診斷模型,預測符合率略有提升,達到78.9%,提示基于MRI的組學特征在預測肺腺癌EGFR基因型方面是可行的。
本研究作為單中心的回顧性研究,具有一定的局限性,尚需進行前瞻性的多機構研究來提高模型的泛化能力和優化模型。其次,采用人工分割感興趣區的方法,主觀性強、耗時較長,半自動或自動分割法尚需進一步改進。另外,本研究僅選取了T2WI、DWI和ADC三種圖像進行研究,首先是基于前期相關文獻的研究結果,即T2WI、DWI和T1WI診斷惡性結節的符合率分別是85.9%、87.5%和66.3%[29];同時,我們在臨床工作中發現T1WI序列受呼吸運動偽影的影響比較明顯;因此,本研究中未將T1WI序列納入優化后的掃描序列中。有文獻提示超短回波時間(ultrashort time of echo,UTE)、3D-T1WI具有較高的預測價值,可作為進一步研究的備選序列[30-31]。
綜上所述,本研究構建的基于多序列MR影像組學模型可一定程度預測LUAD患者EGFR的基因表型,可為術前肺腺癌患者EGFR突變的個體化風險分層提供參考。