唐彩銀,李通,段紹峰,張繼
1. 泰州市人民醫院 影像科,江蘇 泰州 225300;2. GE(中國)醫療精準醫學院,江蘇 南京 210000
肺癌是我國乃至全世界相關死亡的主要原因,以活檢或手術切除為基礎的病理檢查是鑒別的金標準,但其應用主要受到固有的侵入性操作和取樣誤差的限制[1],因此亟需一種無創、有效的方法來幫助準確診斷肺腺癌(Lung Adenocarcinoma,ADC)和肺鱗狀細胞癌(Squamous Cell Carcinoma,SCC)。多層螺旋CT是一種常規的、廣泛應用于肺部疾病篩查的檢查技術,但在大多數的情況下,ADC和SCC患者在增強圖像上會表現出相似的視覺形態特征,這給放射科醫師的診斷帶來了困難,影像組學分析可以更
回顧性分析89例病理診斷為ADC或者SCC的患者的影像資料,其影像資料來源于泰州市人民醫院PACS系統。所有病例均應符合以下納入標準:① CT掃描后行腫瘤切除或活檢獲得ADC或SCC的組織病理學證據;② 所有患者均接受CT增強掃描;③ 所有病灶均顯示實性腫塊,其短軸直徑至少為10 mm以保證感興趣區(Region of Interest,ROI)有足夠的面積;④ 在CT掃描前沒有接受任何治療。排除標準:① 接受過腫瘤任何治療或病變短軸直徑小于10 mm的患者;② 組織病理證實為其他類型肺癌者。最后排除掉2例小細胞肺癌和2例腺鱗癌,共有85例患者參與本研究,其中51例ADC(年齡30~83歲,男性29例,女性22例),34例SCC(年齡38~77歲,男性19例,女性15例)。
所有病例采用西門子FORCE CT進行掃描,掃描范圍由肺尖至雙側腎上腺水平。掃描參數:球管電壓120 kV,管電流110~240 mA,開啟實時動態曝光劑量調節(Care-Dose 4D),準直×層數為0.6 mm×128,球管旋轉時間0.5 s/圈。螺旋因子0.9,掃描層厚5 mm。增強對比劑采用碘海醇(350 mgI/mL),增強CT在注入造影劑60 s后進行掃描,靜脈團注70 mL,流速2.5 mL/s。
1.3.1 圖像分割
采用ITK-SNAP(Version 3.40)軟件在增強圖像上勾畫ROI,因為腫瘤在增強圖像上顯示出更好的輪廓和邊緣,將增強后的DICOM格式圖像分別導入ITK-SNAP軟件,選擇病灶的最大橫截面勾畫2D的ROI。所有的病灶勾畫采用雙盲法,由1位具有10年以上呼吸系統腫瘤影像診斷經驗的高年資醫師及1位研究生獨立完成,出現分歧時協商解決。沿著腫瘤薄層CT增強圖像中最大層面瘤體邊緣內側1~2 mm處手動勾畫ROI,選擇標準:選擇腫塊實質區,避免鈣化、壞死和空泡。對于那些腫瘤與鄰近組織粘連或伴有肺葉和節段性肺不張者,勾畫醫師需避免將粘連組織或肺組織納入ROI。
1.3.2 數據預處理
數據集被隨機分配到訓練集或驗證集中,其比例為7:3。訓練集中的所有病例用于訓練預測模型,而驗證集中的病例用于獨立評估模型的性能。分析前,將方差為零的變量好地檢測出亞顯微組織的變化,并可以利用醫學影像的灰度分布特征來評價病變內部的異質性[2]。因此,對CT圖像進行更詳細的組學分析是十分必要的,有助于放射科和腫瘤科醫師提高基于影像的疾病診斷的準確性,更好地了解ADC和SCC之間差異[3]。本研究利用CT增強掃描獲取靜脈期圖像,再進行影像組學分析,探討CT影像組學特征在鑒別SCC與ADC中的臨床價值。排除在分析之外,然后用中值填充方法替換需要填充的缺失值和異常值。最后,用標準化方法對數據進行標準化。
1.3.3 紋理特征提取和模型建立
將勾畫的ROI與原始圖像導入AK軟件(版本3.2.0,GE醫療中國)提取影像組學特征,AK軟件基于pyradiomics開發,所提取的特征均符合ISBI標準。將生成的影像組學特征,通過相關性檢驗、單因素方差分析或秩和檢驗、單因素Logistic回歸檢驗、隨機森林算法進行組學特征的篩選。在相關性檢驗中,設置相關性系數為0.7、單因素Logistic回歸分析檢驗中P值為0.05,在建立訓練數據集最優特征子集的基礎上,建立基于多元素Logistic回歸和貝葉斯機器學習算法的Rad score評分模型。
通 過 受 試 者 操 作 特 征(Receiver Operating Characteristic,ROC)曲線來確定機器學習模型的性能,并計算靈敏度、特異度、準確率和曲線下面積(Area Under the Curve,AUC)。本研究的所有統計分析均使用R軟件(版本3.5.1)和Python軟件(版本3.5.6)進行。P<0.05為兩組試驗數據差異有統計學意義。
ADC和SCC患者的典型影像學表現如圖1所示。

圖1 ADC和SCC患者的典型影像學表現
經過單因素方差分析或秩和檢驗、單因素Logistic回歸分析、相關性檢驗、隨機森林算法對所提取的280個紋理特征的高維數據進行降維,篩選得到8個影像組學特 征( 圖2):① wavelet-HHL_glszm_SmallAreaEmphasis;② wavelet-HHH_firstorder_Kurtosis;③ wavelet-HLL_firstorder_Skewness;④ waveletLHL_glcm_Correlation;⑤ wavelet-LHH_glcm_Correlation; ⑥ log-sigma-1-0-mm-3D_firstorder_90Percentile; ⑦ log-sigma-4-0-mm-3D_gldm_De pendenceNonUniformityNormalized;⑧ wavelet-LLH_glrlm_LongRunHighGrayLevelEmphasis。

圖2 相關特征在Logistic建模中訓練集和驗證集中的相關系數
根據這8個特征通過Logistic回歸分析方法建立模型,通過ROC曲線計算訓練集的AUC為0.97、靈敏度83.3%、特異度97.1%、準確率91.5%;驗證集的AUC為0.89、靈敏度80.2%、特異度73.3%、準確率84.6%(表1、圖3)。

表1 訓練集和測試集在Logistic和貝葉斯模型的預測效能

圖3 基于Logistic回歸模型中訓練集和驗證集ROC曲線
根據這個8個紋理特征以及對應的權重,構建影像組學標簽,Rad score=4.5391×特征①+1.3817×特征②+[-2.5380×特征③]+2.2218×特征④+[-1.5687×特征⑤]+[-2.5499×特征⑥]+0.8153×特征⑦+0.4616×特征⑧。訓練集和驗證集的每例患者的影像組學評分的分布情況如圖4所示,Rad score在兩組患者中有明顯的分布差異。

圖4 Rad score對模型的評價
影像組學的方法能將圖像信息轉化為高維度的定量特征數據,全面描述腫瘤內部的異質性,能夠彌補傳統診斷模式的不足。本研究探討CT增強圖像影像組學特征在鑒別SCC和ADC中臨床價值,結果顯示基于多因素Logistic回歸機器學習算法計算的訓練集和驗證集的AUC分別為0.97和0.89,高于基于貝葉斯機器學習算法模型的計算值,表明基于多因素Logistic回歸機器學習算法的CT靜脈期增強圖像影像組學在鑒別SCC和ADC中有較大的臨床應用價值。
本研究結果顯示,基于多因素Logistic回歸機器學習算法預測模型來鑒別SCC與ADC的效能最佳。本研究通過使用相關性檢驗、單因素方差分析或秩和檢驗、單因素Logistic 回歸分析、隨機森林算法四種降維方法最終篩選出8個定量影像組學特征,包括6個小波特征、2個高斯拉普拉斯變換特征,其中waveletLHL_glcm_Correlation、wavelet-LHH_glcm_Correlation中correlation反映了圖像中局部灰度的相關性。有研究指出correlation對鑒別肺腫瘤有一定價值[4-5],本研究顯示correlation在ADC和SCC中存在明顯差異,進一步提示影像組學特征correlation在評價肺癌分型中的潛在價值。通過圖像變換之后提取出影像組學特征能夠有效地表達腫瘤的信息[6]。直方圖是灰度級圖像的函數,通過定量方式比較反映腫瘤內部異質性的生物指標:① 峰度(Kurtosis),表征概率密度分布曲線在平均值處峰值高低的特征數;② 偏度(Skewness),代表像素灰度值相對于平均值分布的不對稱程度。眾所周知,沒有一個影像組學特征是一致的、有利的,研究中需要合理地經過圖像的變換如小波變換、高斯拉普拉斯變換[7]來提取紋理特征,提高紋理分析的分類精度。上述特征在一定程度上解釋了模型采用何種特征來做分類的,這些特征也可應用于其他類型的研究(如疾病術后預測)和疾病鑒別診斷等[8]。訓練集中AUC值比較高,預測效果比較好,但因為整體的數據量不大,可能會出現過擬合的現象。但通過獨立的驗證集驗證,驗證效能效果比較好,可以排除過擬合的情況發生。通過Rad score評價模型可以看出,驗證集的效能整體要比訓練集低,進一步說明了該方法驗證的有效性。影像組學特征與腫瘤血管的生長是密切相關的,本研究可進一步證實影像組學標簽與組織病理學相關性。使用增強的CT圖像進行分型的原因,主要考慮增強后的圖像對病灶的范圍勾畫更加準確,結合腫瘤定位特征可以進一步提高準確率[9]。后續的研究會增加其他期相的對比。
本研究比較多因素Logistic回歸和貝葉斯機器學習方法的預測效果,發現多因素Logistic回歸機器學習方法對AUC、準確度和特異度指標的預測效果好,而在靈敏度方面貝葉斯機器學習方法預測效果較好。多因素Logistic回歸模型能夠準確預測靜脈期CT增強圖像影像組學特征來鑒別ADC和SCC。ADC和SCC患者術前的準確鑒別診斷,對腫瘤的治療至關重要。CT影像組學特征與各種腫瘤的組織病理學特征及臨床結果的相關性被認為是一種豐富的診斷信息來源[10]。多項研究表明,影像組學分析可以定量評估SCC與ADC內部紋理特征的不同,從而有助于做出鑒別診斷[11-12]。如LIU等[13]回顧性分析了87例患者的薄層CT圖像,提取了5個影像組學特征,并用此特征建立預測鑒別SCC和ADC模型,準確率為95.4%,但后者沒有通過驗證集來進一步驗證模型的可靠性,其結果的可重復性及可靠性有待進一步驗證。羅婷等[14]研究采用熵總值、聚類萌及球面不對稱性3個紋理特征建立模型,其鑒別非浸潤性腺癌與浸潤性腺癌的靈敏度、特異度、準確度分別為77.8%、91.7%和83.3%。盡管影像組學定量特征是用數學的模式表示的,但這些定量特征和傳統影像特征存在一定相關性。隨著影像組學在肺癌鑒別診斷中的廣泛應用,影像組學預測模型有望成為一種無創鑒別肺癌病理類型的手段[15-16]。
局限性與展望:本研究屬于回顧性分析,具有以下局限性:① 本研究訓練集和驗證集的樣本量比較小,特別是驗證集,需要多中心臨床研究進行可重復性驗證;② 本研究僅對增強后的靜脈期圖像進行比較,未比較平掃及動脈期時相的優劣;③ 圖像的分割,本研究采取二維最大病灶ROI,可能三維勾畫能夠提供更豐富的信息。
基于CT增強掃描靜脈期定量特征構建影像組學標簽預測SCC與ADC具有良好的預測效能,這將有助臨床醫師進行術前的無創鑒別。