張力,于淑靖,張迎,馬建楠,付蘭,姚麗
木村病又稱嗜酸性淋巴肉芽腫,是一種相對少見的、原因未明的慢性炎癥性疾病。1948年日本學者木村(Kimura)對該病進行系統描述,稱之為木村病[1]。該病主要臨床表現為頭頸部多發無痛性結節及腫塊,常累及大涎腺和周圍淋巴結。腫大淋巴結在CT上邊界清晰、無明顯液化壞死及鈣化、且無明顯融合趨勢,但該病仍難以與其他引起淋巴結腫大的疾病鑒別,易誤診為淋巴瘤等惡性腫瘤,臨床上需結合病史和病理組織學檢查來提高診斷準確性[2,3]。
近幾年來,影像組學作為一項新興的疾病診斷和輔助檢測技術成為臨床醫學和生物醫學工程領域的研究熱點[4,5]。影像組學在腫瘤良惡性鑒別、腫瘤分期、分子分型以及基因突變等領域應用廣泛[6,7]。作為一種醫學輔助工具,影像組學分類效果或高于傳統的臨床因子和評分系統[8],組學特征與其他傳統診斷方法相結合顯示出較高的診斷價值[9]。本研究基于增強CT掃描圖像,探討影像組學鑒別頭頸部木村病淋巴結病變和淋巴瘤的可行性,并對建立的邏輯回歸診斷模型進行驗證,以期為該病的鑒別診斷提供有效、無創的參考。
1.病例資料
回顧性分析河北滄州市中心醫院2011年7月-2018年8月經手術病理或穿刺活檢證實的頭頸部木村病和淋巴瘤患者的CT檢查資料。本研究獲得河北省滄州市中心醫院倫理委員會批準。納入標準:①均行頭頸部增強CT檢查;②有多發腫大淋巴結,淋巴結短徑均≥1.0 cm,且有組織病理學檢查結果;③腫大淋巴結均無明顯液化、壞死及鈣化,且無明顯融合趨勢;④病灶邊界清晰且無明顯偽影干擾。最終納入研究的頭頸部木村病患者14例,淋巴瘤患者27例。14例頭頸部木村病患者中,男12例,女2例,年齡26~66歲,平均年齡41.7歲。每例選取2~3枚腫大淋巴結,共38枚淋巴結。淋巴結位于Ⅰ區8枚,Ⅱ區10枚,Ⅲ區1枚,Ⅴ區2枚,Ⅷ區17枚。27例淋巴瘤患者中(霍奇金淋巴瘤7例,非霍奇金淋巴瘤20例),男13例,女14例,年齡17~81歲,平均年齡55.6歲。每例選取1~2枚腫大淋巴結,共37枚淋巴結。淋巴結位于Ⅰ區6枚,Ⅱ區7枚,Ⅲ區11枚,Ⅳ區1枚,Ⅴ區11枚,Ⅷ區1枚。淋巴結分組采用新版頭頸部腫瘤頸部淋巴結分區指南[10]。
2.CT檢查方法
采用美國GE Light Speed 64/16層螺旋 CT掃描儀進行橫軸面掃描,患者取仰臥位,掃描范圍從顱底至胸骨切跡水平。管電壓120 kV,自適應管電流。層厚2.5 mm,層間隔2.5 mm,螺距1.375。對比劑為碘海醇(350 mg I/mL,1.5 mL/kg),采用高壓注射器經肘靜脈以3.5 mL/s流率團注,動脈期及靜脈期掃描時間分別為注射后25~30 s和60~70 s。
3.數據收集、特征選擇和模型構建
考慮到所有病灶在靜脈期顯示最清晰,為避免誤差,只選擇靜脈期進行腫大淋巴結勾畫。將病灶所有層面的CT靜脈期圖像導入開源ITK-SNAP軟件(www.itksnap.org),采用軟組織窗觀察圖像(窗寬400 HU,窗位35 HU)。淋巴結病變區域由一名具有10年工作經驗的影像科主治醫生沿病變邊緣內側1~2 mm逐層手動勾畫,另一名高年資影像科醫師進行核查,出現異議時,兩名醫師經商討達成共識。軟件將勾畫的所有層面ROI自動融合成立體感興趣區(volume of interest,VOI)(圖1、2)。采用GE artificial intelligence kit(AK)軟件提取VOI內定量影像特征參數,共獲得包括直方圖特征、形態學特征和紋理特征在內的396個特征。由于病例數較少,本研究僅探討病變在紋理特征中的差異,剔除和形態學相關的特征,對387個特征進行數據分析。
首先對提取的特征值進行預處理,用平均值替換異常值和缺失值;然后將數據標準化,以消除量綱的影響;最后按7:3的比例將病變隨機分為訓練組與驗證組。38枚木村病腫大淋巴結中,訓練組24枚,驗證組14枚;淋巴瘤37枚腫大淋巴結中,訓練組29枚,驗證組8枚。對訓練組和驗證組的樣本分布進行卡方或Fisher精確檢驗。采用方差分析+秩和檢驗、一般線性模型(GLM)和Lasso算法進行特征降維,減少特征冗余,最終從387個特征中篩選出5個影像組學特征,并以此構建邏輯回歸模型,采用5折交叉驗證方法驗證模型精度,避免模型過擬合。對模型擬合優度進行Hosmer-Lemeshow 檢驗。建立ROC曲線、決策曲線和臨床影響曲線評價模型鑒別性能。ROC曲線下面積(AUC)、敏感性和特異性越大說明模型越可靠。最后建立模型列線圖,實現模型應用。
4.統計學方法

表1 5個影像組學特征的描述性分布統計和組間差異比較
本研究的數據預處理、特征降維采用AK軟件完成。采用RStudio(1.1.463)進行數據分析和建立邏輯回歸模型。使用IBM SPSS Statistics 22.0統計學分析軟件。對定量資料進行正態分布檢驗(Shapiro-Wilk)和方差齊性檢驗(Levene)。組間差異采用獨立樣本t檢驗或Mann-Whitney U非參數檢驗。定性數據采用卡方檢驗或Fisher精確檢驗。P<0.05為差異有統計學意義。
1.影像組學特征
兩組樣本在訓練組和驗證組的頻數分布均無統計學差異(訓練組:P=1;驗證組:P=1)。通過Lasso模型降維(圖3),最終從387個特征中篩選出5個特征,包括3個灰度共生矩陣和2個灰度游程矩陣特征。對木村病和淋巴瘤中的5個特征分布進行Mann-WhitneyU非參數檢驗,P值均<0.05(表1)。
不同CT圖像數據在兩組間的分布無統計學差異(χ2=1.090,P=0.296)。對5個特征在不同CT型號間的分布進行非參數檢驗,結果顯示GLCMEntropy_AllDirection_offset1_SD和Inertia_angle135_offset1在兩種CT型號間的分布具有統計學差異(P均<0.05);ShortRunEmphasis_AllDirection_offset4_SD、ShortRunEmphasis_angle0_offset4和ShortRun-HighGreyLevelEmphasis_AllDirection_offset4_SD均無統計學差異(P均>0.05)。

表2 邏輯回歸模型相關參數
5個特征對模型鑒別性能的貢獻度見圖4。Inertia_angle135_offset1在本研究建立的模型中,對鑒別診斷的貢獻度最大。
2.模型建立
用篩選的5個影像組學特征建立邏輯回歸模型,為避免模型過擬合,進行5折交叉驗證。5折交叉驗證將數據集分成5份互斥子集,輪流將其中4份作為訓練集,剩下1份數據作為驗證集,交叉驗證重復5次,得到5個訓練集模型的平均準確率,作為對算法精度的估計(平均值:0.945,值分布:1,0.818,0.909,1,1)。確定模型的最優參數后,建立影像組學標簽公式,并根據該公式算出每位患者的組學標簽值(Radscore),通過Sigmoid函數轉換進而得出患者的陽性患病概率。邏輯回歸模型各參數見表2。
3.模型評價
對模型進行Hosmer-Lemeshow檢驗,結果顯示模型具有較好的擬合優度(χ2=4.812,P=0.777),表明該模型接近實際鑒別模型。繪制Hosmer-Lemeshow檢驗的可視化校準曲線(圖5),訓練組:均方誤差=0.042,絕對誤差的90%分位數=0.088;驗證組:均方誤差=0.092,絕對誤差的90%分位數=0.151。建立訓練組和驗證組的ROC曲線(圖6)。模型在訓練組中概率截斷值為0.629,鑒別效能的AUC為0.987(95%置信區間:0.9648~1),敏感度為0.966,特異度為0.958;在驗證組中概率截斷值為0.363,AUC為0.938(95%置信區間:0.8433~1),敏感度為1,特異度為0.786。采用Delong檢驗對訓練組和驗證組的AUC進行比較發現,兩組間的AUC無統計學差異(P=0.323),說明邏輯回歸模型在訓練組和驗證組間鑒別診斷木村病和淋巴瘤的性能無統計學差異。
建立模型的決策曲線(圖7)和臨床影響曲線(圖8)。閾值概率為0~1之間時,采用列線圖進行決策所獲得的標準凈收益最大。閾值概率越小,收益成本比越大。臨床影響曲線使用模型模擬鑒別1000人,紅色曲線表示在各個閾概率下,被模型劃分為陽性(高風險)的人數,藍色曲線為各個閾概率下真陽性人數,在95%置信區間內,當閾值概率為0~1之間時模型的預測值近似真實值。
4.影像組學列線圖的應用
基于訓練集數據的Radscore值并建立列線圖(圖9)。根據Radscore值中位數(0.798)將病例分為高Radscore組和低Radscore組,低Radscore組患淋巴結病變的比例(59.46%,22/37)明顯高于高Radscore組(39.47%,15/38)。可見,Radscore值可作為鑒別頭頸部木村病淋巴結病變與淋巴瘤的風險因子。圖1、2分別為木村病和淋巴瘤患者。兩位患者的5個特征值和Radscore值以及最終的患(淋巴瘤)病概率見表3。木村病患者的患病概率(38%)遠低于淋巴瘤患者(68%),表明Radscore值具有較好的風險預測能力。

表3 兩名木村病和淋巴瘤患者的列線圖評分
注:Radscore為邏輯回歸模型計算的組學標簽;total points為列線圖中通過Radscore所得到的總評分;probability為列線圖中通過總評分得到的患淋巴瘤的風險概率。
木村病發病率低,國內外報道多為個案報道,其影像表現文獻報道較少[11,12]。頭頸部木村病在CT上有以下3種表現:(1)多發結節型,表現為多發結節,邊界清晰,增強掃描呈明顯均勻強化;(2)彌漫腫塊型,常位于頜面部皮下脂肪間隙內,表現為皮下彌漫性腫塊,邊界模糊,鄰近皮膚增厚,增強掃描呈輕中度不均勻強化;(3)混合型,同時具有結節及腫塊特點。多數患者伴有頸部淋巴結腫大,由于該病表現為皮下腫瘤樣結節且伴大涎腺和局部淋巴結受累,故易誤診為惡性腫瘤,尤其是以多發無痛性腫大淋巴結為體征的淋巴瘤,即使是CT、MRI也不能很好的將兩者鑒別[13]。木村病的治療方法與惡性腫瘤不同,不需根治性手術切除,所以術前明確診斷非常必要[14]。雖然有國內外學者總結出一些頭頸部木村病的影像學特點,但其表現還是缺乏特征性,且準確率不高,需結合臨床及實驗室檢查綜合判斷來提高診斷準確率。
2012年,Lambin等[15]首次提出影像組學的概念,即從影像圖像中提取大量影像學特征,通過高通量定量分析,將影像圖像轉化為具有高分辨率的、可發掘的空間數據。通過獲得的高保真目標信息綜合評價病變,尤其是利用圖像中不被肉眼識別的紋理特征來揭示組織內在異質性,反映不同組織間的細微差別,亦可與CT圖像表現相結合,進一步提高對病變的鑒別診斷能力[16]。本研究采用的影像組學分析軟件(AK軟件),已應用于多項國內外研究報道中[17-19]。
由于木村病是一種少見病,但病例中受累的腫大淋巴結常為多發,因此本研究選取病變淋巴結作為研究對象,使用AK軟件進行特征提取和降維。共提取396個影像組學特征,篩選出5個紋理特征對木村病和淋巴瘤進行鑒別,并以此建立邏輯回歸模型,對模型進行5折交叉驗證以評估模型算法的精度,避免模型過度擬合,5折交叉驗證的準確度平均值為0.945。本研究中,訓練組數據模型鑒別的AUC為0.987,敏感度為0.966,特異度為0.958;驗證組AUC為0.938,敏感度為1,特異度為0.786,結果表明該模型具有較高的鑒別效能,且訓練組和驗證組的AUC無統計學差異。對5種特征在木村病和淋巴瘤間的分布進行差異性檢驗,結果顯示5種特征值在組間分布顯著不同,在特征重要性圖中,以Inertia_angle135_offset1對模型分類的貢獻度最大。Inertia_angle135_offset1屬于高階的灰度共生矩陣特征,是一種慣性特征,反映圖像的清晰度和紋理溝紋深淺的程度,值越大表示圖像分布越不均勻[20]。最終篩選的5個特征在兩種CT圖像間分布的非參數檢驗結果提示,不同CT機型圖像的特征差異性程度以及這種差異對影像組學模型的影響還需要進一步的研究。模型的決策曲線和臨床影響曲線表明,在特定的閾值概率范圍內(0~1),使用模型作為決策依據,凈收益大于對所有患者進行治療和所有患者均不進行治療的標準凈收益。列線圖是模型的重要應用之一,通過列線圖可對每一位患者的患病風險進行預測[21-22]。本研究采用訓練組的Radscore值作為評分建立列線圖,以Radscore值中位數將患者分為高Radscore組和低Radscore組,結果發現低Radscore組患淋巴結病變的比例(59.46%,22/37)明顯高于高Radscore組(39.47%,15/38),表明Radscore值可作為鑒別木村病和淋巴瘤的可靠因子。
本研究存在局限性。①由于木村病較罕見,可獲得的影像資料樣本量較小。②本研究沒有將臨床特征、基因數據或免疫組化的數據納入研究,因此獲得的模型可靠性存在很大的提升空間。③本研究沒有進行外部驗證。后續研究可開展多中心、多序列或圖像轉換、加入免疫組化數據、開展影像基因組學等研究以增加樣本量或特征量,獲得更加可靠的模型。
綜上所述,影像組學可以對圖像信息進行深層次的挖掘獲得高通量的特征集,并通過統計分析的方式有效鑒別木村病淋巴結病變和淋巴瘤。