黃錦祥,陳杰云
非小細胞肺癌(non-small cell lung cancer,NSCLC)是肺癌中最常見的病理學類型,發病率約占80%~85%[1],因癥狀不明顯和篩查方法缺乏,約75%的患者確診時就已屬于晚期[2],顱腦轉移是肺癌患者致死的主要因素之一[3]。表皮生長因子受體(epithelial growth factor receptor, EGFR)與腫瘤的衍生、增殖和凋亡密切相關[4],相比于EGFR 野生型,酪氨酸激酶抑制劑(tyrosine kinase inhibitors, TKIs)對突變型患者療效更卓越,可顯著提高患者存活率[5],EGFR 突變狀態在NSCLC 腦轉移患者的整體預后和指導靶向治療中扮演著重要角色。
病理活檢可能因腫瘤的異質性、發病部位、身體狀況及主觀意愿等原因難以進行確診。傳統影像學是肺癌的診斷、分期、療效評價方面的首要檢查手段。有研究表明EGFR 突變型腦轉移瘤較EGFR 野生型更多表現為多發,瘤周水腫和強化程度更輕[6],但傳統影像學特征存在主觀性、半定量的局限性。影像組學相比于傳統影像學,可以客觀、全面地挖掘影像圖像中人眼所不能感知的高通量特征,建立包括腫瘤的診斷、預測和分子分型等模型[7-8]。目前關于影像組學與NSCLC 的EGFR 基因突變相關性的研究主要集中在原發病灶的CT影像組學方向[9],然而晚期的原發灶常常合并肺炎導致難以勾畫感興趣容積(volume of interest, VOI)[10],且CT 影像組學特征受標準化CT 掃描參數如切面厚度等影響[11],使用非侵入性的MRI 影像組學來預測原發灶EGFR 突變狀態是必要的,目前相關研究還較少。JIANG 等[12]基于多參數脊柱MRI 的影像組學方法術前預測肺腺癌EGFR突變狀態,但MRI脊柱轉移瘤的勾畫缺乏自動或半自動分割方法,導致勾畫VOI時容易產生主觀性誤差且煩瑣耗時。因此本研究探討NSCLC 腦轉移瘤MRI 影像組學在預測原發灶EGFR 突變狀態的應用,使用半自動方法勾畫VOI,建立準確預測EGFR突變狀態的影像組學模型,并通過影像組學中未參與建模的測試組數據對預測模型效能進行評估,提高預測的準確性和模型的穩定性,幫助臨床醫生做出更準確的診斷和更合理的個體化治療方案。
本研究遵守《赫爾辛基宣言》,經福建醫科大學附屬泉州市第一醫院醫學倫理委員會批準,免除受試者知情同意,編號:2021-231。回顧性分析2015年9 月至2021 年11 月泉州市第一醫院97 例NSCLC(91 例為腺癌,6 例為鱗癌)腦轉移患者的頭顱MRI 影像資料,EGFR突變型50例(17例外顯子19缺失突變、33 例21 L858R 點突變),EGFR 野生型47 例,男65 例,女32例,年齡62.00±11.66(41~85)歲,所有病例按照8∶2 比例隨機分組至訓練組和測試組。納入標準:(1)患者治療前行常規頭顱MRI平掃和增強掃描;(2)病理證實為NSCLC,并行聚合酶鏈式反應(polymerase chain reaction, PCR)檢測EGFR 基因結果;(3)圖像質量滿足診斷要求,腦轉移瘤數目≤10 個;(4)病灶最大層面直徑需≥5 mm,以免病灶太小影響分割。排除標準:患者影像資料不全。
掃描機器為德國SIEMENS Avanto 1.5 T 超導MRI掃描儀,增強掃描包括橫斷位、冠狀位及矢狀位圖像,用常規頭顱線圈掃描,所有病例均行常規T1WI、T2WI、T2 液體衰減反轉恢復(T2 fluid attenuation inversion recovery, T2-FLAIR)序列、擴散加權成像(diffusion-weighted imaging, DWI)及T1WI 增強掃描,患者取仰臥位。MRI 平掃采用T1WI-SE 和T2WI-TSE序列,T1WI-SE序列掃描參數:TR/TE=1400 ms/8.4 ms,FOV 23 cm×23 cm,平均次數為1,層厚6 mm,層間距1 cm;T2WI-TSE 序列掃描參數:TR/TE=3330 ms/100 ms,FOV 23 cm×23 cm,平均次數為2,層厚6 mm,層間距1 cm;T2-FLAIR序列掃描參數:TR/TE=5000 ms/89 ms,FOV 23 cm×23 cm,平均次數為1,層厚6 mm,層間距1 cm;軸位DWI 采用平面回波掃描,掃描參數:b 值設定為0 及1000 s/mm2,TR/TE=2900 ms/100 ms,FOV 23 cm×23 cm,層 厚6 mm,層間距1 cm,自動獲得表觀擴散系數(apparent diffusion coefficient, ADC)圖像;MRI增強掃描序列及參數與T1WI-SE 序列相同,掃描橫軸位、冠狀位及矢狀位,對比劑采用釓特酸葡胺注射液(江蘇恒瑞醫藥股份有限公司),注射劑量0.1~0.2 mmol/kg,注射速率1.5 mL/s。
對患者經支氣管鏡、經皮肺穿刺或手術活檢病理所獲取的組織標本進行實時熒光PCR基因檢測,采用北京鑫諾美迪公司生產的EGFR基因突變檢測試劑盒,儀器為Mx3000P 熒光定量PCR 分析儀,檢測操作步驟依照試劑盒說明書,將檢測結果分為EGFR 突變型(突變含量1%~100%)和EGFR 野生型(陰性或低于檢測下限,突變含量<1%)。
選取T1WI 增強橫斷位、冠狀位、矢狀位圖像,在腫瘤各個層面沿腫瘤邊緣采用半自動結合手動的方法勾畫VOI,不包括腫瘤周圍水腫區,將VOI導入匯醫慧影公司Radcloud 平臺,按8∶2 比例隨機分為訓練組和測試組,為了保證結果的可重復性和模型的泛化能力,平臺自動對圖像的體素大小、強度進行歸一化。所有VOI的勾畫由一名具有6年頭顱MRI診斷經驗的影像科主治醫生在不了解患者的臨床信息情況下于3D Slicer軟件上完成,勾畫完成后由一名具有20 年工作經驗的主任醫生檢查所有輪廓,如果差異≥5%,則由高年資影像科醫生決定腫瘤邊界。
從圖像上所勾畫的每個VOI 中提取1409 個定量影像特征,包括一階統計特征126 個、形狀學特征14個、紋理特征525個、高階統計特征744個。
特征選擇方法包括方差選擇法(VarianceThreshold)、單變量選擇法(SelectKBest)及最小絕對收縮和選擇算子(least absolute shrinkage and selection operator, LASSO)。VarianceThreshold留下了方差大于0.8 的特征值;SelectKBest 留下P<0.05 的特征;LASSO 使用L1 正則化器作為成本函數,交叉驗證的誤差值為5,最大迭代次數為1000。
使用SPSS 25.0 軟件對臨床基線資料進行統計分析。性別以例(%)的形式表示,組間比較采用χ2檢驗,年齡采用±s表示,組間比較采用獨立樣本t檢驗,統計結果以P<0.05 為差異有統計學意義。本研究采用支持向量機(support vector machines,SVM)、邏輯回歸(logistic regression, LR)2種分類器構建影像組學預測模型,并利用訓練組5折交叉驗證提高模型的有效性。通過對各模型的受試者工作特征(receiver operating characteristic, ROC)曲線進行評估預測效能,得出最優模型,通過DeLong檢驗分析各模型間的差異性(流程見圖1)。
圖1 技術路線流程。Fig.1 Technical route process.
97 例NSCLC 腦 轉 移 患 者 中,EGFR 突 變 型50 例(51.50%),包括17 例外顯子19 缺失突變、33 例21 L858R 點突變,EGFR 野生型47 例(48.50%)。在訓練組中,女性EGFR 基因突變率(81.48%,22/27)遠大于男性 EGFR 基因突變率(35.29%,18/51),差異有統計學意義(P<0.001)。而年齡在EGFR突變型與野生型中差異無統計學意義(P>0.05)(表1)。
表1 訓練組臨床基線特征與EGFR(突變型、野生型)的關系Tab.1 Relationship between clinical baseline characteristics and EGFR (mutant, wild type) in the training group
基于T1WI增強橫斷位、冠狀位、矢狀位及聯合序列圖像分析,使用VarianceThreshold、SelectKBest、LASSO降維和篩選,最后分別得出7、12、10、13個最優特征(圖2)。
圖2 最小絕對收縮和選擇算子(LASSO)的圖像特征和相關系數。2A:T1WI 增強橫斷位;2B:T1WI 增強冠狀位;2C:T1WI增強矢狀位;2D:聯合序列。Fig.2 Image features and correlation coefficients for least absolute shrinkage and selection operator (LASSO).2A: T1WI enhanced transverse; 2B: T1WI enhances coronal position; 2C: T1WI enhanced sagittal position; 2D: Joint sequence.
降維、篩選后的特征使用SVM、LR分類器建模,結果顯示:基于T1WI增強橫斷位、冠狀位、矢狀位的SVM和LR 分類器模型預測效果表現優良,大部分AUC 均大于0.60,且聯合模型預測效能AUC較單序列模型均有提升,其中聯合序列LR分類器預測效能最佳:測試組AUC 0.84,敏感度80%,特異度78%,準確率80%。(表2、3,圖3)。DeLong 檢驗顯示聯合序列AUC 與單序列差異均無統計學意義(P>0.05)(表4、5)。
表2 SVM模型在訓練組與測試組中的預測效能Tab.2 The predictive performance of SVM models in the training and test groups
表3 LR模型在訓練組與測試組中的預測效能Tab.3 The predictive performance of LR models in the training and test groups
表4 測試組SVM分類器聯合序列和單序列預測效能DeLong檢驗結果Tab.4 The results of the DeLong test of the combined sequence and single sequence prediction performance of the SVM classifier
表5 測試組LR分類器聯合序列和單序列預測效能DeLong檢驗結果Tab.5 The results of the DeLong test of the combined sequence and single sequence prediction performance of the LR classifier
圖3 測試組的支持向量機(SVM)、邏輯回歸(LR)分類器的受試者工作特征(ROC)曲線。3A:SVM 分類器的T1WI增強橫斷位(Tra)模型、冠狀位(Cor)模型、矢狀位(Sag)模型和聯合模型;3B:LR分類器的T1WI增強橫斷位(Tra)模型、冠狀位(Cor)模型、矢狀位(Sag)模型和聯合模型。AUC:曲線下面積。Fig.3 The receiver operating characteristic (ROC) curves of support vector machines (SVM) and logistic regression (LR) classifiers in the test group.3A: T1WI enhanced transverse (Tra), coronal (Cor), sagittal (Sag)and joint models using SVM classifiers; 3B: T1WI enhanced Tra, Cor, Sag and joint models using LR classifiers.AUC: area under the curve.
本研究對97例NSCLC腦轉移瘤的T1WI增強橫斷位、冠狀位、矢狀位影像組學特征進行降維、篩選,使用SVM 和LR 分類器建立模型,結果顯示基于T1WI 增強橫斷位、冠狀位、矢狀位及聯合序列均取得了良好預測效能,雖然各模型間差異無統計學意義,但聯合序列AUC較單序列有所提升,說明聯合序列模型預測效能優于單序列。本研究創新性地通過腦轉移瘤MRI影像組學來預測原發灶的基因突變類型,T1WI增強上腦轉移瘤邊界顯示清晰,使用半自動分割方法降低勾畫難度并提高魯棒性,減少人眼判斷的主觀性限制,聯合多序列并使用不同分類器建立模型,幫助臨床醫生通過模型快速準確地預測EGFR突變的類型,指導臨床個性化的靶向治療。
以往有研究表明EGFR突變型肺癌較野生型的紋理更細膩,灰度整體分布更規律[13],但也有研究發現病灶紋理紊亂程度越大,越趨于EGFR 突變型[14],矛盾原因可能是樣本量和種族差異,肺腺癌中白種人和東亞人EGFR突變率分別為20%和40%[15]。本研究中預測效能最佳的聯合T1WI橫斷位、冠狀位、矢狀位模型篩選出的影像組學特征包括一階特征(幅度、峰度、偏度)、灰度共生矩陣(簇突)、灰度大小區域矩陣(小區域高灰度重點)、灰度游程長度矩陣(長游程高灰度重點、長游程低灰度重點)、灰度依賴矩陣(依賴熵)、鄰近灰度差矩陣(粗糙度),與WANG等[16]和PARK等[17-18]的研究篩選出的特征相似。上述特征描述的是腫瘤的灰度強度及分布情況、體素及其周圍空間鄰域的分布狀態,可反映腫瘤的異質性大小[19-20],其中最具相關性的是峰度和小區域高灰度強調。峰度反映圖像灰度峰尖的尖度,值越大灰度分布越陡峭,值越小則灰度分布越平坦。本研究中EGFR突變型的峰度大于野生型,表明突變型的NSCLC腦轉移瘤的灰度分布更陡峭,這與DIGUMARTHY 等[21]的發現相符合,他們還認為峰度有預示血管生成的作用,而血管生成跟腫瘤侵襲性、預后有關,因此峰度可能是評價EGFR突變陽性患者抗血管生成藥物療效的指標之一,小區域高灰度重點是測量圖像小區域高灰度體素分布的程度,值越大圖像紋理越細膩,反之紋理越粗糙,本研究中EGFR 突變型的小區域高灰度重點小于野生型,可理解為EGFR 突變型的NSCLC 腦轉移瘤比野生型的紋理更紊亂、粗糙。總而言之,EGFR 突變型比野生型灰度分布更陡峭、更不均,紋理更紊亂、更粗糙,原因可能是EGFR突變更容易導致腫瘤內部血管生成,引起腫瘤內部微觀結構的改變。本研究的T1WI增強冠狀位模型篩選出一個形態學特征——最大2D直徑,說明EGFR突變型腦轉移瘤冠狀位的最大徑小于EGFR野生型,HSIAO等[22]發現EGFR突變與肺部CT病灶體積較小有關,YIP 等[14]亦發現EGFR 突變與組學特征緊密性2 密切相關,緊密性2 是描述腫瘤形狀相較于球體的緊實程度的,其認為EGFR突變型的瘤體更小,內部排列更緊密。遺憾的是,本研究中還有許多影像組學特征與EGFR基因突變狀態的關系尚不明朗,難以通過現有的原理解釋清楚,有待后續具體深入研究。
既往亦有許多基于T1WI增強橫斷位、冠狀位、矢狀位的影像組學研究,YANG 等[23]研究了紋理分析在預測膠質母細胞瘤的分子亞型和12個月生存狀態方面的性能,結果表明橫斷位對經典型預測最佳,冠狀位對前神經型及12個月生存狀態最具預測效能。有研究探討基于T1WI 增強(橫斷位、矢狀位)的深度學習模型在鑒別高、低級別腦膜瘤中的應用價值,共篩選出15 個特征(10 個來自橫斷位,5 個來自矢狀位),最佳模型的訓練組和測試組AUC 分別為0.988 和0.935[24]。本研究T1WI 增強三個方位單序列模型中,冠狀位和矢狀位的預測效果大部分均好于橫斷位,原因可能是大部分數據的冠狀位和矢狀位增強掃描時間稍晚于橫斷位,增強延遲掃描能顯示更清晰、更豐富的信息[25],有待后續進一步納入延遲T1WI 增強橫斷位序列以驗證該猜想。
與單序列相比,多序列聯合分析可能會發掘出更多相互獨立又互補的信息,對于提升腫瘤的生物學行為的預測效能具有積極意義。李順等[26]結合T1WI 增強三個平面的紋理特征鑒別腦膿腫與膠質母細胞瘤,當紋理特征峰度的截斷值取0.207時效果最好,AUC、敏感度和特異度分別為0.754、88.0%和54.1%。李笑然等[27]分別基于T1WI、T2WI、T2WI 抑脂序列及聯合以上序列,構建樸素貝葉斯模型預測宮頸鱗癌的病理組織類型,聯合模型在四種模型中預測效能最高,測試組AUC 為0.860。本研究中的聯合序列LR模型預測效能最佳,訓練組AUC、敏感度、特異度和準確率分別為0.86、74%、75%和76%,測試組分別為0.84、80%、78%和80%,但與單序列模型相比,差異并不是很顯著,還存在進一步探索的空間。過多序列聯合建模有過擬合和魯棒性減弱的風險,實際應用中應視具體情況而定,本研究依次使用VarianceThreshold、SelectKBest和LASSO共3種特征篩選方法,以及5折交叉驗證來盡量避免上述的風險。
本研究應用了LR、SVM兩種分類器,其中聯合序列的LR 分類器預測效能最佳,測試組AUC 為0.84,敏感度80%,特異度78%,準確率80%。每個分類器都有各自的特點,如LR通過擬合變量系數來預測二分類概率的分對數轉換,有較準確和穩定的預測能力;SVM通過尋找超平面來劃分不同類別的樣本,能夠解決高維問題,可擴展性較好,且不依賴于整個樣本數據,即使訓練樣本的數量很少,其學習算法也能夠具有良好的泛化以及分類能力[28]。目前還沒有被廣泛認可的最佳分類器,因為在實際應用中,結果表現好的分類器,可能在某些方面效果不佳,而效能較弱的分類器可能在別的特定問題中表現較優,如YANG等[23]用隨機森林分類器研究T1WI 增強和T2-FLAIR 的紋理特征預測高級別膠質瘤的分子亞型,結果T1WI 增強對經典型預測最佳(AUC=0.72),T2-FLAIR 對間質型和神經元型預測最佳(AUC 分別為0.70 和0.75),而CHEN 等[29]聯合T1WI 增強和T2-FLAIR 序列,采用隨機森林分類器預測肺癌腦轉移瘤的EGFR、ALK、KRAS 基因突變狀態,AUC 值分別達到0.858、0.845 和0.928。也有研究納入多種分類器分析,用以評價模型對于數據和結果的適用性,AHN 等[30]和REN 等[31]分別研究腦轉移瘤和胸椎轉移瘤的增強T1WI 影像組學預測肺癌EGFR 突變狀態的價值,均運用了多個分類器建模,前者預測能力最強的分類器是隨機森林(AUC=0.868),后者的是LR(AUC=0.803)。故在實際情況下,應具體問題具體分析,盡可能納入多種分類器以探索最佳的分類器,達到更滿意的預測或診斷效果。
本研究仍存在一定的局限性。首先,本研究為回顧性研究,樣本量過小且來自單一機構,后續應納入更大、更多中心、更多序列的樣本。其次,本研究中只納入了突變型與野生型,沒有進一步分析突變亞型的預測價值,且所提取的影像組學特征與EGFR突變的關系尚不明朗,將來應進一步研究突變亞型之間的預測和分析具體影像組學特征的關系。最后,本研究應用的降維方法、分類器種類較少,今后爭取采用更多降維方法及分類器種類,增加模型的穩定性。
綜上所述,基于T1WI 增強橫斷位、冠狀位、矢狀位的影像組學模型可以預測EGFR 突變狀態,聯合T1WI增強橫斷位、冠狀位、矢狀位的LR分類器模型預測效能最佳,有助于指導臨床合理選擇靶向藥物治療及實現個體化精準醫學。
作者利益沖突聲明:全體作者均聲明無利益沖突。
作者貢獻聲明:陳杰云設計本研究的方案,對稿件重要內容作批評性審閱、修改,獲得了福建省自然科學基金的資助;黃錦祥起草和撰寫稿件,獲取、分析和解釋本研究的數據;全體作者都同意發表最后的修改稿,同意對本研究的所有方面負責,確保本研究的準確性和誠信。