周見遠, 鄒思娟, 湯明, 朱小華
肺癌是中國乃至世界范圍內最為致命的腫瘤之一,其中非小細胞肺癌(non-small cell lung cancer,NSCLC)占比超過85%。NSCLC的生存期主要取決于初診時的腫瘤分期,其晚期5年生存率低于5%[1]。因此,早期診斷和準確分期對于NSCLC治療尤為重要。在諸多非侵入性檢查方法中18F-FDG PET/CT是NSCLC診斷和分期的重要手段[2],然而,在NSCLC臨床實踐中仍存在諸多假陽性[3,4]。其中,結節性或腫塊性肺結核(pulmonary tuberculosis,PTB)可能表現出類似NSCLC的形態學和FDG代謝特征,使二者鑒別診斷存在困難。據報道在結核流行地區PTB使得NSCLC的假陽性率高達57.1%~92%[5]。由于最大標準化攝取值(maximum standarduptakevalue,SUVmax)在結核和惡性病變之間存在重疊且難以反映腫瘤內部豐富的空間代謝信息,限制了18F-FDG PET/CT的診斷特異性。影像組學從醫學圖像中高通量提取信息,量化病灶特征,從而成為影像學標志物[6]。近期多篇基于CT影像組學的研究嘗試區分良惡性肺結節[7,8],不過利用FDG PET影像組學鑒別PTB與NSCLC研究報道有限[9]。
本研究探討PTB和NSCLC的FDG代謝差異的影像組學特征,以提高對PTB和NSCLC的鑒別助力臨床治療決策。
回顧2017年7月至2020年8月本院行18F-FDG PET/CT的肺結節或腫塊患者2854例。納入標準:①首發癥狀為肺結節或腫塊;②病歷資料保留;③疾病診斷明確為NSCLC(腺癌和鱗癌)和PTB。初步篩選1304例患者,隨后排除以下病例:①肺內多發結節或腫塊(682例);②肺部病灶直徑<1cm(156例);③純磨玻璃結節(99例);④PET/CT前行抗腫瘤治療(134例);⑤伴發其他系統腫瘤(13例);⑥肺癌合并肺結核(2例)。最終共218例NSCLC(n = 178)和PTB(n = 40)納入研究。本研究符合《赫爾辛基宣言》原則。
以歐洲核醫學協會(European Association of Nuclear Medicine,EANM)腫瘤成像程序2.0版指南作為標準圖像采集協議[10]。使用GE Discovery Elite 690型 PET/CT行全身PET/CT 斷層顯像。檢查前患者空腹6 h以上,血糖≤11.1 mmol/L。每位患者靜脈注射3.7MBq/kg18F-FDG(由住友回旋加速器及FDG合成模塊制備,放化純>95%),注射藥物無外滲,靜息60 min后顯像。掃描范圍自顱底至股骨中段,5~7個床位,2 min/床位,重建矩陣128×128。PET圖像行衰減校正及迭代法重建。CT掃描參數:管電壓120 kV,管電流120 mA,層厚3.75 mm,重建矩陣512×512。兩位有經驗核醫學醫師行18F-FDG PET/CT圖像處理。勾畫出肺部病灶ROI,采用固定閾值法,以SUVmax 40%作為閾值,在橫斷面、矢狀面及冠狀面上對病灶進行容積分割得出原發病灶SUVmax。
利用3D slicer軟件(www.slicer.org)對18F-FDG PET圖像實現半自動分割,勾畫出原發病灶3D感興趣區。兩名研究者進行感興趣區勾畫和特征提取,檢驗感興趣勾畫和特征提取可靠性。隨機選擇50個病例進行感興趣區勾畫,其中第二名研究者在>2周的時間間隔內分別進行前后兩次勾畫。隨后,通過組內相關系數(intraclass correlation coefficient,ICC)分別計算觀察者間和觀察者內一致性,評估其可靠性。
利用Python(www.radiomics.io)軟件提取影像組學特征。首先,使用wavelet 和LoG(Laplacian of Gaussian)濾波器分別對原始圖像進行處理,進一步從PET原始圖像和衍生圖像中分別提取影像組學特征。其中,形狀特征僅能從原始圖像中提取,而其他類型特征則可同時從原始圖像和衍生圖像中分別提取。特征包括一階特征(first order statistics)、形狀特征(shape)、灰度共生矩陣(gray level cooccurrence matrix,GLCM)、灰度游程長度矩陣(gray level run length matrix,GLRLM)、灰度區域大小矩陣(gray level size zone matrix,GLSZM)、灰度依賴矩陣(gray level dependece matrix,GLDM)。
先后通過最大相關性最小冗余算法(maximum relevance minimum redundancy,mRMR)和最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)進行數據降維,減少冗余特征,優化擬合模型。①利用mRMR算法對訓練集中每個特征的相關性和冗余性進行綜合排序,選取前50個最重要特征作為候選特征。②對上述50個特征進行LASSO回歸運算,隨著調節參數lambda(λ)的增加變量系數絕對值降低直至為零,選取變量隨之減少。③基于訓練集LASSO回歸結果構建影像組學標簽(radiomics signature score,Rad-score)。④利用多因素logistic回歸篩選獨立影響因素進一步構建復合模型。
利用受試者工作特征(receiver operator characteristics analysis,ROC)曲線評估和比較SUVmax、模型或變量辨別病理類型的能力。根據Rad-score和臨床變量數據勾畫列線圖直觀反映個體化預測模型并進一步使用校正曲線和Hosmer-Lemeshow test檢驗預測模型擬合優度。
所有數據統計分析通過R語言(http://www.r-project.org)實現。使用“mRMRe”包進行mMRM分析;“glmnet”包實現LASSO回歸分析;“pROC”包實現 ROC曲線分析。使用組內ICC評價觀察者間和觀察者內一致性;組間差異使用Mann-WhitneyU或卡方檢驗;多因素logistics回歸分析各變量與病理類型的關系;ROC曲線計算模型曲線下面積(area under curve,AUC)、靈敏度、特異性。Delong test比較不同模型之間AUC值是否存在顯著性差異。以P<0.05為差異有統計學意義。

表1 納入人群基線臨床特征
共納入PTB和NSCLC患者218例,其中男132(60.55%)例,女86(39.45%)例;年齡57(26~82)歲;
癌胚抗原(carcinoma embryonic antigen,CEA):2.8(0.5~1512) ng/mL(參考值范圍0~5 ng/mL),其中PTB:2.07(0.8~6.84) ng/mL,NSCLC:3.02(0.5~1512) ng/mL;鱗狀細胞癌抗原(squamous cell carcinoma antigen,SCCAg):0.9(0.2~18.8) g/mL(參考值范圍≤1.5 g/mL),其中PTB:0.8(0.3~1.4) g/mL,NSCLC:0.9(0.2~18.8) g/mL;病理類型:PTB 40(18.35%)例,NSCLC 178(81.65%)例[腺癌126(57.80%)例,鱗癌52(23.85%)例]。按照1:1比例將數據隨機分為訓練集(總計109例;PTB 21例;NSCLC 88例)和驗證集(總計109例;PTB 19例;NSCLC 90例)。
總計提取1132個PET影像組學特征。對觀察者間和觀察者內特征提取的一致性進行評估,結果顯示ICC值范圍分別0.951~0.999和0.976~0.999,表明具有較強可靠性和可重復性。mRMR算法綜合排序并保留前50個特征作為候選特征。在LASSO回歸算法中筆者通過10折交叉驗證選擇lambda(λ), 隨著log(λ)從-10減小至0,進入模型的變量數減少。
當λ=0.0759、log(λ)為-2.578時,LASSO回歸模型表現出最佳的預測性能(圖1),選擇具有非零系數的兩個特征log.sigma.2.0.mm.3D_glcm_Correlation、wavelet.HLL_glcm_Correlation。二者均為為灰度共生矩陣中的紋理特征。NSCLC的上述兩個組學特征值均顯著高于PTB(P<0.05,表2)。

表2 基于LASSO回歸選擇影像組學特征在PTB和NSCLC之間的差異

圖1 使用LASSO回歸進行影像組學特征選擇。a) 通過10折交叉驗證來選擇lambda(λ)。隨著log(λ)從-10變為0,進入模型的變量數減少,變量系數的絕對值向零下降。當λ等于0.0759、log(λ)為-2.578時,LASSO回歸模型表現出最佳的預測性能, 此時2個影像組學特征被選擇; b) 50個候選影像組學特征的LASSO系數納入路徑圖。 圖2 數據集中每位患者影像組學標簽評分。總體而言,非小細胞肺癌患者標簽評分顯著高于肺結核患者(P<0.001)。
基于上述選擇的兩個影像組學特征,計算每位患者Rad-score,其公式如下:
Rad-score=-2.667698+wavelet.HLL_glcm_Correlation×1.055339+log.sigma.2.0.mm.3D_glcm_Correlation×8.918025
總體而言,PTB比NSCLC具有較低的Rad-score值(訓練集:Z=-5.878,P<0.001;驗證集:Z=-5.711,P<0.001;圖2、表2)。圖3~5顯示典型的PTB和NSCLC(鱗癌和腺癌)患者PET/CT圖像和灰度直方圖。其中,圖3為肺結核患者圖像,具有較低的影像組學評分和欠均勻的灰度分布。圖4為肺鱗癌患者圖像,具有較高的影像組學評分和較為均勻的灰度分布。圖5為肺腺癌患者圖像,同樣具有較高的影像組學評分和均勻的灰度分布。ROC曲線分析顯示Rad-score在訓練集和驗證集的AUC分別為0.914 (95%CI,0.845~0.959)和0.918 (95%CI,0.850~0.962)。與此相比,年齡的AUC值鑒別能力較低,分別為0.811(訓練集)、0.740(驗證集),其余臨床變量的AUC值低于年齡,分別為[訓練集:AUC(性別、吸煙、SCCag、CEA)=0.487、0.525、0.554、0.704;驗證集:AUC(性別、吸煙、SCCag、CEA)=0.428、0.494、0.594、0.637]。

圖3 肺結核患者18F-FDG PET/CT顯像及對應灰度直方圖。患者,男,38歲,病理診斷為肺結核,18F-FDG PET/CT顯像左肺上葉腫塊(箭),放射性攝取增高,SUVmax 9.7,Rad-score 0.603,灰度直方圖分布不均勻。a) E & I MIP圖; b) F & J PET圖; c) G & K 融合圖; d) H & L 病灶灰度直方圖。

圖4 肺鱗癌患者18F-FDG PET/CT顯像及對應灰度直方圖。患者,男,71歲,病理診斷為肺鱗癌,18F-FDG PET/CT顯像右肺下葉軟組織腫塊(箭),SUVmax:20.3,Rad-score:3.210,灰度直方圖分布較為均勻。a) MIP圖; b) PET圖;c) 融合圖;d) 病灶灰度直方圖。 圖5 肺腺癌患者18F-FDG PET/CT顯像及對應灰度直方圖。患者,男,68歲,病理診斷為肺腺癌,18F-FDG PET/CT顯像右肺下葉軟組織腫塊(箭),SUVmax 8.1,Rad-score 2.867,灰度分布較為均勻。a) MIP圖; b) PET圖; c) 融合圖; d) 病灶灰度直方圖。
利用ROC曲線計算SUVmax區分NSCLC和PTB的最佳臨界值為4.4,靈敏度85.39%,特異度57.5%。與之相比,影像組學診斷效能高于SUVmax(Z=3.953,P<0.001)。
將訓練集Rad-score和臨床變量納入多因素logistic回歸研究病理類型影響因素,結果表明僅Rad-score(P<0.001)和年齡(P=0.006)是病理類型的獨立影響因素(表3),而性別(P=0.588)、吸煙史(P=0.659)等因素均不是獨立影響因素。

表3 預測病理類型多因素logistic回歸
綜合影像組學標簽和臨床變量(年齡、CEA)構建復合模型。復合模型區分PTB和NSCLC的AUC值分別為[訓練集:AUC=0.955 (95%CI,0.897~0.985);驗證集:AUC=0.928 (95%CI,0.862~0.969)],其余模型或變量診斷效能見表4。根據Delong檢驗結果,訓練集和驗證集復合模型AUC值均顯著高于SUVmax(訓練集:Z=3.930,P<0.001;驗證集:Z=2.512,P=0.012)、臨床變量(訓練集:Z=3.528,P<0.001;驗證集:Z=2.926,P<0.003)。進一步勾畫列線圖和校正曲線,直觀反映個體化預測模型;圖6繪制了訓練集和驗證集組學列線圖的校正曲線。Hosmer-Lemeshow檢驗模型的擬合優度為訓練集χ2=3.478,P=0.901;驗證集χ2=4.093,P=0.849。

表4 不同變量和模型辨別PTB和NSCLC的能力

圖6 a) 通過訓練集構建的影像組學列線圖,經統計分析得出列線圖由組學標簽、年齡、CEA組成,可以預測肺病灶病理類型; b、c) 訓練集和驗證集影像組學列線圖預測非小細胞肺癌的校正曲線。
18F-FDG PET/CT被公認為是NSCLC診斷和分期的重要工具[11]。然而,感染與非感染性炎癥也往往表現出18F-FDG高攝取[12]。尤其在結核病流行地區,PTB是NSCLC假陽性診斷的重要原因。Li等[13]應用FDG PET診斷肺結節良惡性發現超過一半的假陽性源于PTB。Sathekge等[14]認為肺癌的代謝特征難以與PTB進行區分,使用SUVmax 2.5閾值診斷特異度僅為25%。古等[15]證實無論使用定性指標(是否高于縱隔血池)或定量指標(SUVmax 2.5)均難以區分結節/腫塊型PTB和肺癌。本研究中利用ROC曲線獲得SUVmax的最佳臨界值4.4,靈敏度85.39%,特異性57.5%。與此相比,影像組學診斷效能優于SUVmax(Z=4.026,P=0.0001)。另外,SUVmax難以反映腫瘤內空間代謝狀況,通過肉眼也很難準確識別結核和肺癌的代謝異質性,而本研究影像組學特征能夠有效捕捉這些表型差異,并進行量化。
目前,多個基于CT圖像的影像組學研究能夠有效鑒別良惡性肺結節[7,8],Du等[9]運用FDG PET/CT影像組學能有效區分孤立性PTB和腺癌(AUC=0.861、 0.889)。但是,單獨運用PET影像組學診斷效能如何,腺癌和鱗癌一并是否可以取得類似的鑒別效能仍不明確。本研究組學標簽由wavelet.HLL_glcm_Correlation和log.sigma.2.0.mm.3D_glcm_Correlation兩個特征組成。glcm_Correlation通過計算圖像中一定距離和方向灰度之間相關性,度量局部灰度相似程度,值越大同質性程度越高。本研究中PTB的glcm_Correlation顯著低于NSCLC, 表明NSCLC局部灰度相似程度更高,而PTB具有較高的代謝異質性。PTB的異質性特征可能與其病理形成機制和細胞組成有關[16]。研究表明陽性顯像的PTB是以增殖性病變為主,且巨噬細胞和淋巴細胞是結核肉芽腫18F-FDG高攝取的主要原因[5]。隨著疾病發展病灶中央出現干酪樣物質,邊緣有炎癥細胞浸潤及包膜形成。干酪樣壞死和病灶邊緣肉芽組織的比例和空間分布將影響FDG代謝模式,干酪樣壞死呈現低代謝特征,而周圍上皮樣細胞、炎性細胞等邊緣肉芽組織則為顯著高代謝,從而可能造成PET圖像上PTB局部灰度異質性增高。本研究納入的40例PTB病例中36例病理表現為典型的慢性肉芽腫性炎,其中, 26/36出現了明顯的干酪樣壞死、纖維化、玻璃樣變性等組織改變,這將引起結核肉芽腫局部高、低代謝不同的異質性表現,而這些異質性表現則可能造成glcm_Correlation特征值的降低。雖然肺癌病灶內也可因腫瘤中心缺血、缺氧和壞死而形成FDG代謝異質性,但更多出現在大體積鱗癌,而本研究中僅2/52鱗癌病理出現大量壞死。
本研究中影像組學標簽在訓練集和驗證集均有良好的鑒別診斷能力,AUC值超過0.9,初步表明影像組學標簽在單中心研究中取得了優異的辨別能力。另外,復合模型進一步提高了診斷效能(AUC=0.954、0.928),其較高的特異度(95.24%、100.00%)有望降低結核引起的PET/CT診斷NSCLC高假陽性率的限制。總之,影像組學標簽和復合模型能提升影像鑒別的準確性,有效區分結節性或腫塊性PTB和NSCLC且具有較好的模型泛化能力。
本研究為單中心回顧性分析,有限的PTB樣本量可能造成統計學偏倚,難以進行不同大小病灶分層分析,且尚需要進行外部驗證。今后將利用深度學習、卷積神經網絡、隨機森林等算法,進一步挖掘和利用病歷、影像學資料,優化診斷模型。