樊夢思,趙 紅*,曹捍波,余業洲,鄒立巍,段紹峰
(1.安徽醫科大學第二附屬醫院放射科,安徽 合肥 230601;2.浙江大學舟山醫院放射診斷中心,浙江 舟山 316000;3.GE醫療,上海 210000)
肺隱球菌病(pulmonary cryptococcosis, PC)是由新型隱球菌和格特(Gattii)隱球菌等引起的亞急性/慢性肺部真菌感染性疾病,主要發生于免疫功能受損者,也可見于免疫正常人群[1-2],后者常表現為單發或多發腫塊或結節[3]。PC患者臨床癥狀缺乏特異性,血清隱球菌莢膜多糖抗原(cryptococcal capsular polysaccharide antigen, CrAg) 檢測對血清HIV檢測陰性的PC患者敏感性不高[4]。影像學上結節/腫塊型PC與周圍型肺癌、肺結核(tuberculosis, TB)存在部分重疊,臨床易發生誤診。隱球菌對腦膜及神經組織有明顯親和性,可透過血腦屏障造成嚴重中樞神經系統感染,因此及早確診非常重要。影像組學采用人工智能提取數據特征化算法,將包含反映潛在病理生理特征的圖像轉變為高維度數據,之后對數據進行分析,以尋找能綜合評價腫瘤表型的相關特征信息[5-6],已廣泛用于腫瘤診斷、分級、預后評估及預測復發等[7-10]。本研究觀察以影像組學預測模型鑒別診斷結節/腫塊型PC與肺腺癌、肺TB的可行性。
1.1 一般資料 回顧性分析2016年10月—2019年5月28例經病理證實的結節/腫塊型PC(PC組)、30例病理確診肺腺癌(肺腺癌組)及26例肺TB(TB組)患者的胸部CT平掃資料。PC組男18例,女10例,年齡15~81歲,中位年齡53歲;血清HIV均為陰性。肺腺癌組男14例,女16例,年齡31~82歲,平均(61.9±12.7)歲。肺TB組男20例,女6例,年齡20~71歲,中位年齡52.5歲;經穿刺活檢病理證實為肉芽腫性病變,結合抗酸染色、實驗室檢查及臨床資料確診為肺TB。所有患者接受胸部CT檢查前均未經任何治療。
1.2 儀器與方法 采用GE LightSpeed 64排VCT掃描儀,管電壓120 kV,管電流164~320 mA,采用螺旋掃描模式,螺距1.2,準直128×0.625 mm;重建層厚5 mm,層間隔5 mm,行胸部CT平掃。
1.3 特征提取 將CT平掃軟組織窗(窗寬350 HU,窗位50 HU)圖像導入ITK-SNAP(www.itk-snap.org)軟件,于病變較大層面手動勾畫ROI,面積1.0~2.5 cm2,盡量避免鈣化、空洞、壞死區域(圖1~3)。將原始圖像及ROI導入A.K(Artificial Intelligence Kitl Version V3.2.0.R)后處理軟件,調整體素為1 mm×1 mm×1 mm,之后采用線性插值法對其重采樣,以高斯濾波函數去噪、灰度離散化,對原始圖像進行標準化重建及融合。計算病灶ROI的紋理特征,提取包括灰度直方圖(Histogram)、灰度共生矩陣(gray level co-occurrence matrix, GLCM)、游程矩陣(run length matrix, RLM)、灰度區域大小矩陣(gray level size zone matrix, GLSZM)及Haralick特征在內的共386個特征。

圖1 患者女,53歲,PC 軸位平掃CT圖(紅色為ROI) 圖2 患者女,40歲,肺腺癌 軸位平掃CT圖(紅色為ROI) 圖3 患者女,54歲,肺TB 軸位平掃CT圖(紅色為ROI)
1.4 圖像和統計學分析 采用R軟件3.5.1版(www.r-project.org)歸納上述數據,刪除異常值所在列。按7∶3比例將所有樣本分為訓練集和測試集,訓練集中含19例PC、21例肺腺癌、18例肺TB,測試集分別為9、9、8例。以單因素方差分析和秩和檢驗(ANOVA+MW)、Spearman相關系數、最小絕對收縮和選擇算子(least absolute shrinkage and selection operator, Lasso)回歸3種方法聯合進行特征選擇和降維,2特征的Spearman相關系數設為0.9,獲得PC組與肺腺癌組、PC組與肺TB組之間存在顯著差異的較優特征參數。采用隨機森林法分別建立基于影像組學特征的預測模型,并以訓練集進行評估,之后于測試集進行驗證;繪制相應的ROC曲線,以AUC、敏感度、特異度及準確率評價其鑒別效能。
本組實性病變直徑約1~5 cm,圖像均無明顯呼吸及光束硬化偽影干擾。
經特征選擇獲得針對PC與肺腺癌的7個較優特征,分別為Histogram的第10百分位數(Percentile10)、GLCM的逆差距(inverse difference moment)、逆差距_所有方向_步長1_標準差(inverse difference moment all direction_offset1_SD)、熵_所有方向_步長7(entropy_all direction_offset7)、熵_所有方向_步長7_標準差(entropy_all direction_offset7_SD)、集群陰影_角度135_步長1(cluster shade_angle135_offset1)及RLM的長行程優勢_角度135_步長7(long run emphasis_angle135_offset7)。采用隨機森林法建立預測模型,并進行評估和驗證,ROC曲線(圖4A)示AUC為0.96[95%CI(0.87,1.00)],截斷值0.97,鑒別PC與肺腺癌的敏感度1.00、特異度0.78、準確率0.89(表1)。隨機森林模型自變量重要性排序見圖5A。

圖4 預測模型鑒別PC與肺腺癌(A)及PC與肺TB(B)測試集的ROC曲線
經特征選擇,針對PC與肺TB獲得4個較優特征參數,即Histogram的第10百分位數,GLCM的相關性_角度90_步長4(correlation_angle90_offset4),RLM的長行程優勢_所有方向_步長1(long run emphasis_all direction_offset1),長行程優勢_角度0_步長1(long run emphasis_angle0_offset1)。隨機森林建模后于訓練集進行評估,于測試集進行驗證, ROC曲線(圖4B)示AUC為0.99[95%CI(0.93,1.00)],截斷值0.57,鑒別PC與肺TB的敏感度0.88、特異度0.89、準確率0.88(表1)。隨機森林模型自變量重要性排序見圖5B。

圖5 隨機森林模型自變量重要性示意圖 A.PC組與肺腺癌組; B.PC組與肺TB組

表1 測試集中隨機森林模型鑒別診斷PC與肺腺癌及PC與肺TB的效能
PC主要為通過呼吸道吸入隱球菌孢子至肺泡后引起,易感人群多為獲得性免疫缺陷綜合癥(acquired immune deficiency syndrome, AIDS)、器官移植術、長期服用廣譜抗生素及免疫力低下者等,也可發生于免疫功能正常人群,近年來發病率呈上升趨勢,尤其在無免疫功能缺陷或基礎疾病人群中[1-2]。血清CrAg檢測對于HIV陰性PC患者的敏感度僅為25%~56%[4],導致診斷困難。PC臨床癥狀及影像學表現均缺乏特異性,免疫功能正常者多以結節或腫塊為主,多發于兩肺下葉外周帶,易誤診為肺腺癌。PC早期病理學表現為膠樣病變,免疫功能正常者后期進一步形成肉芽腫性病變,易誤診為TB性肉芽腫[11]。對于肺腺癌,治療方式主要包括手術、放射及化學治療,而肺TB一般需6~8個月抗結核治療,對免疫功能正常PC患者則需要應用氟康唑或伊曲康唑進行3~12個月的長效治療[12],且隱球菌易侵入中樞神經系統,導致隱球菌性腦膜炎,病程長,預后差。
目前用于建立基于影像組學特征的預測模型的常用機器學習方法有隨機森林、logistic回歸模型、支持向量機、人工神經網絡、聚類分析及“leave-one out”交叉驗證等。隨機森林是機器學習中的一個決策樹概念,表示假設為連續的“if-than”,訓練時生成大量決策樹,結合每棵樹的個體決策獲得最優分類,具有相對較低的過度擬合傾向,在影像組學機器模型中的穩定性和預測性較高[13-14]。
本研究采用隨機森林法以較優特征參數分別建立預測模型并于訓練集數據進行訓練,再于測試集數據進行驗證,結果示模型鑒別PC與肺腺癌的AUC、敏感度、特異度、準確率分別為0.96、1.00、0.78及0.89,鑒別PC與肺TB時分別為0.99、0.88、0.89及0.88,表明基于隨機森林的CT平掃圖像影像組學可用于鑒別結節/腫塊型PC與肺腺癌、肺TB性肉芽腫,并具有較好的診斷性能。經篩選可用于鑒別PC與肺腺癌、肺TB的7個較優特征包括Histogram的第10百分位數,GLCM的熵、逆差距、集群陰影、相關性以及RLM的長行程優勢。第10百分位數指樣本觀測灰度列中有10%的灰度值小于或等于該值。熵描述共生矩陣的復雜性,其值越大表示共生矩陣越復雜,提示病灶越復雜、異質性越大。逆差矩指病灶的同質性,其值越大則變化越小、局部越均勻。集群陰影與GLCM的一致性和偏度有關,其值越小,偏度越小,即差異性較小。相關性度量GLCM元素的線性依賴關系,若矩陣元素值相差很大,則相關性值小。長行程優勢描述圖像粗糙度或平滑度,在光滑圖像上其值較大。本研究PC組第10百分位數高于肺腺癌組及肺TB組,意味著CT圖像中表現為低灰度值的病灶炎性壞死區域相對較少,即低值區灰度值對PC有一定提示作用。PC組逆差距、長行程優勢高于肺腺癌組,而熵、集群陰影低于肺腺癌組,提示肺腺癌圖像灰度不均勻。PC組相關性、長行程優勢高于TB組,說明PC密度較TB病變更均勻,其局部像素灰度級相差小。本研究結果示PC病灶實性部分的圖像灰度較肺腺癌和肺TB更均勻、集中,可能與PC肉芽腫病灶內細胞呈彌漫性分布、很少形成結節,且壞死不徹底、存在網狀纖維支架有關[15]。本研究基于CT平掃圖像,未采集CT增強圖像紋理特征,結果顯示基于隨機森林的影像組學方法具有較好的鑒別診斷效能,有利于患者免于接受增強CT,從而減低輻射劑量。
綜上所述,基于隨機森林的影像組學方法可用于鑒別診斷結節/腫塊型PC與肺腺癌、肺TB,為臨床準確診斷和個體化治療提供依據。本研究尚存不足:①樣本量少;②僅采集平掃軟組織窗單層局部病變圖像,難以提取病變全部信息;③去除特征冗余時僅選擇組間差異最大的特征,可能遺漏有潛在價值的特征參數。