閆小凡,邵碩,鄭寧*,崔景景,苑子茵,李森
多形性腺瘤(pleomorphic adenoma, PA)是唾液腺最常見的良性腫瘤,常見于中青年人,女性好發[1];在組織學上其由上皮組織、黏液和軟骨樣組織構成,亦稱為“混合瘤”[2]。基底細胞腺瘤(basal cell adenoma,BCA)在唾液腺良性腫瘤中位居第三位,約占唾液腺全部上皮源性腫瘤的1%~2%[3];組織學上,BCA 由基底細胞樣細胞排列的基底細胞層和基底膜樣結構構成,缺乏黏液軟骨樣基質,根據細胞的生長模式可將其分為4種病理亞型:梁狀型(60%)、管狀型(30%)、實性型及膜性型[4];臨床及影像上對該病認識不足,則易與多形性腺瘤混淆。手術切除是治療唾液腺腫瘤最有效的方法,選擇術式主要依賴于腫瘤類型及其生物學特性。多形性腺瘤易復發、會惡變,據報道其術式選擇單純瘤體切除術,復發率高達70%,故多采用根治性外科手術[5-7];而基底細胞瘤的術式及預后與PA不同[8],只采用單純瘤體切除術或部分腺葉切除術,可達到低復發、預后好的效果。因此,術前準確定性PA和BCA對臨床醫生制訂手術方案具有指導意義。在臨床工作中,一些可觀察到的常規影像征象,如密度/信號、邊緣和病變形態,可能有助于唾液腺腫瘤的診斷,但有時PA和BCA的影像學表現存在部分重疊,且人工閱片具有主觀差異,部分病例鑒別困難[9-11]。影像組學[12]是指從CT、MRI或正電子發射計算機斷層顯像(positron emission tomography, PET)等圖像中高通量地挖掘人眼無法觀測到的潛在影像特征,并轉換為可視化數據進行量化分析,具有無創、可重復性操作等優勢,近年來已用于頭及頸部疾病的研究中[13],并且已有多位學者[14-16]對唾液腺良惡性腫瘤或最常見的兩種良性腫瘤(多形性腺瘤和腺淋巴瘤)開展了相關紋理分析或影像組學研究,但目前尚未有在唾液腺良性腫瘤中的第三大常見類型(基底細胞腺瘤)方面的磁共振影像組學研究。因此本研究基于表觀彌散系數(apparent diffusion coefficient,ADC)圖、T1WI及T2WI序列構建影像組學模型,以探討其鑒別唾液腺多形性腺瘤和基底細胞腺瘤的診斷價值。
本研究回顧性分析濟寧市第一人民醫院2015年1 月至2021 年10 月177 例經術后病理證實的唾液腺上皮源性良性腫瘤患者資料,且通過了濟寧市第一人民醫院倫理委員會批準,免除受試者知情同意,批準文號:2022倫審研第(005)號。
納入標準:(1)所有患者的ADC、T1WI及T2WI 圖像均在同一臺MRI掃描儀上獲得,且采用相同的成像參數;(2)臨床信息及影像學資料完整;(3)MRI 掃描前未接受任何有創性檢查(穿刺、放化療等);(4)經病理學檢查證實為原發性PA 或BCA。排除標準:(1)圖像質量差(圖像存在明顯的運動偽影或圖像變形等),影響數據分析;(2)病灶最大直徑小于1.0 cm,難以精準勾畫病灶感興趣區。
所有ADC、T1WI 及T2WI 原始圖像均來自于濟寧市第一人民醫院影像歸檔和通信系統(picture archiving and communication system, PACS)。采用Siemens Trio 3.0 T 超高場MRI 掃描儀,線圈為頭部專用12 通道線圈與頸部專用4 通道線圈。常規MRI 中T1WI 掃描參數:TE 23 ms,TR 689 ms;T2WI 掃描參數:TE 75 ms,TR 5280 ms。DWI掃描參數:b值選擇為0 s/mm2和1000 s/mm2,TE 94 ms,TR 4200 ms,FOV 24 cm×24 cm,NEX 3,矩陣192×173,層厚3 mm,層間距0.3 mm,總采集時間102 s。將所有病例圖像以DICOM格式存入硬盤。
將符合標準的圖像導入ITK-SNAP 開源軟件(美國賓夕法尼亞大學賓州圖像計算與科學實驗室;http://www.ITK-SNAP.org),由2 名分別具有2 年、15 年頜頸部影像診斷工作經驗的住院醫師、副主任醫師在橫斷位ADC、T1WI 及T2WI 圖像上沿病灶邊緣逐層(應至少包含3 個連續層面)手動勾畫感興趣區域(region of interest,ROI),并生成腫瘤的三維容積感興趣區域(volume of interest,VOI)。醫師A 隨機選擇的一部分圖像進行ROI 勾畫,2 周后重復勾畫該部分圖像以評估觀察者內部的可重復性;醫師B 勾畫與醫師A 相同的圖像,來評估觀察者間的可重復性。組內相關系數(intraclass correlation coefficient, ICC)大于0.75 則認為可重復性較好。由醫師A 繼續勾畫剩余圖像。勾畫ROI 時應注意:(1)病灶的大小、邊緣及形態等,只勾畫腫瘤侵犯的區域,避開正常組織;(2)不需避開病灶內的出血和囊變壞死區。將所有VOI 圖像整理后導入uAI Research Portal平臺(中國上海聯影智能醫療科技有限公司;http://urp.united-imaging.com:8080/#/),去掉無效數據(如文本信息、空數據和無效數字等)后分別 得 到 了2600 個ADC 特 征、2600 個T1WI 特 征 及2600個T2WI特征信息,聯合序列(ADC+T1WI+T2WI)一共提取了7800 個特征。通過uAI Research Portal平臺對全部特征進行選擇,使用mRMR 法剔除掉冗余或不相關特征。首先,采用Z-Score方法對特征進行標準化;隨后,利用方差閾值法,選擇0.8為閾值,篩選出方差大于0.8的特征參數;其次,以用于單變量特征選擇的SelectKBest 方法,用方差分析(analysis of variance,ANOVA)選出P<0.05的最佳特征;最后,在最小絕對收縮與選擇算法(least absolute shrinkage and selection operator,LASSO)過程中使用5 折交叉驗證選出在最佳Alpha時的特征;整理篩選出的特征建立邏輯回歸(logistic regression,LR)與支持向量機(support vector machine,SVM)2 種機器學習模型。將病例數據以8∶2 的比例隨機劃分為訓練集(n=141)與測試集(n=36),使用訓練集進行特征的選擇與機器學習模型的構建,使用測試集對模型進行驗證。繪制受試者工作特征曲線(receiver operating characteristic curve, ROC),并計算曲線下面積(area under the curve,AUC)、準確率、敏感度及特異度,以評估不同影像模態中LR 模型與SVM 模型鑒別診斷PA和BCA的效能。
采用SPSS 23.0軟件進行全部統計學數據分析。計量資料中符合正態分布的組間差異分析采用獨立樣本t檢驗,以(±s)表示,不符合正態分布的組間差異分析采用非參數檢驗(Mann-WhitneyU檢驗),以M(Qn)表示,計數資料的組間差異分析采用χ2檢驗,以頻數表示;P<0.05 均表明差異具有統計學意義。運用ROC 曲線分析PA 和BCA 的ADC 平均值,并得出二者的ADC 平均值診斷閾值及該閾值下的AUC 值、敏感度及特異度。ICC 用于評價同一位醫師先后兩次及兩位醫師之間勾畫病灶ROI 的可重復性。繪制ROC 曲線來評估模型鑒別PA 和BCA 的效能。此外,使用Delong Test 對各模型間ROC 曲線進行比較,使用決策曲線及校準曲線對模型進行評價。
本研究包括129 例多形性腺瘤[男58 例,女71 例,年 齡10~76(45.67±15.75)歲](圖1)和48 例基底細胞腺瘤[男21 例,女27 例,年齡27~76(55.15±10.02)歲](圖2),其中位于腮腺155 例,下頜下腺21 例,小涎腺1 例。PA 組和BCA 組的年齡、形狀及ADC 平均值差異具有統計學意義(P<0.01),比較發現PA 的好發年齡稍低于BCA,PA 形態為淺分葉的概率高于BCA,PA 的ADC 平均值高于BCA;但二者間性別比例和長徑的差異均無統計學意義(表1)。繪制ROC曲線,當ADC平均值診斷閾值為1.31×10-3mm2/s時,鑒別PA和BCA的效能最優,相應AUC值為0.843,敏感度為78.3%,特異度為75%(圖3)。
圖2 女,49 歲,左側腮腺基底細胞腺瘤。2A:橫斷位T1WI示左側腮腺橢圓形低信號影;2B:T2WI呈稍低信號,其內見點片狀長T2 信號,邊界清晰,周圍見短T2線樣包膜影;2C:表觀彌散系數約為1.13×10-3 mm2/s;2D:鏡下見腫瘤由較單一的基底樣細胞構成,大小較一致,細胞呈圓形、梭形,腫瘤團外圍的細胞核深染,呈柵欄狀排列,局部細胞豐富,呈片狀實性生長,可見核分裂像;間質為纖維組織。Fig. 2 Female, 49 years old, left parotid gland basal cell adenoma. 2A:Axial T1WI shows oval low signal shadow of left parotid gland; 2B:T2WI shows slightly low signal,with patchy long T2 signal,clear boundary,and short T2 linear envelope shadow can be seen around;2C:The apparent diffusion coefficient(ADC)value is about 1.13×10-3 mm2/s; 2D: Microscopically, the tumor is composed of single basal like cells with uniform size. The cells are round and spindle shaped. The nuclei at the periphery of the tumor mass are deeply stained and arranged in a fence shape.Local cells are rich and grow in flake solid growth.Mitotic images can be seen.The stroma is fibrous tissue.
表1 唾液腺多形性腺瘤和基底細胞腺瘤患者的臨床資料比較Tab.1 Comparison of clinical data between pleomorphic adenoma and basal cell adenoma of salivary gland
圖3 唾液腺多形性腺瘤和基底細胞腺瘤的表觀彌散系數(ADC)診斷閾值的受試者工作特征(ROC)曲線。當閾值為1.31×10-3 mm2/s 時,診斷多形性腺瘤時的曲線下面積為0.843,敏感度為78.3%,特異度為75%。Fig. 3 The receiver operating characteristic curve of apparent diffusion coefficient (ADC) value diagnostic threshold of salivary pleomorphic adenoma and basal cell adenoma.When the threshold is 1.31×10-3 mm2/s,the area under the curve of pleomorphic adenoma (PA) is 0.843, the sensitivity is 78.3%,and the specificity is 75%.
使用一致性檢驗,醫師A 先后兩次、醫師A 與醫師B 之間對病灶進行手動分割的ICC 范圍分別為0.771~0.933、0.759~0.906,可重復性均較好。
于uAI Research Portal 平臺(上海聯影智能醫療科技有限公司),對從ADC、T1WI、T2WI 及聯合序列圖像中提取的特征進行降維與篩選,最終分別得到15、3、15及23個有效特征(圖4)。
圖4 圖像特征及相關系數。4A:表觀彌散系數(ADC);4B:T1WI;4C:T2WI;4D:聯合序列(ADC+T1WI+T2WI)。Fig. 4 Image features and correlation coefficient. 4A:Apparent diffusion coefficient (ADC); 4B: T1WI; 4C: T2WI; 4D: Combined sequence (ADC+T1WI+T2WI).
表3 支持向量機模型在訓練集與測試集中的診斷效能Tab.3 Diagnostic efficiency of support vector machine model in the training and test sets
圖6 分別基于表觀彌散系數(ADC)、T1WI、T2WI及聯合序列構建的邏輯回歸與支持向量機模型的決策曲線。6A:ADC模型訓練集;6B:ADC模型測試集;6C:T1WI模型訓練集;6D:T1WI模型測試集;6E:T2WI模型訓練集;6F:T2WI模型測試集;6G:聯合序列模型訓練集;6H:聯合序列模型測試集。Fig. 6 The decision curves of logistic regression and support vector machine models based on apparent diffusion coefficient (ADC), T1WI, T2WI and combined sequence respectively.6A:The training sets of the ADC models;6B:The test sets of the ADC models;6C:The training sets of the T1WI models;6D:The test sets of the T1WI models;6E:The training sets of the T2WI models;6F:The test sets of the T2WI models;6G:The training sets of the combined sequence models;6H:The test sets of the combined sequence models.
圖7 分別基于表觀彌散系數(ADC)、T1WI、T2WI及聯合序列構建的邏輯回歸與支持向量機模型的校準曲線。7A:ADC模型訓練集;7B:ADC模型測試集;7C:T1WI模型訓練集;7D:T1WI模型測試集;7E:T2WI模型訓練集;7F:T2WI模型測試集;7G:聯合序列模型訓練集;7H:聯合序列模型測試集。Fig.7 The calibration curves of logistic regression and support vector machine models based on apparent diffusion coefficient (ADC),T1WI,T2WI and combined sequence respectively.7A:The training sets of the ADC models;7B:The test sets of the ADC models;7C:The training sets of the T1WI models;7D:The test sets of the T1WI models;7E:The training sets of the T2WI models;7F:The test sets of the T2WI models;7G:The training sets of the combined sequence models;7H:The test sets of the combined sequence models.
結果顯示,在訓練集中,基于ADC 圖構建的LR 與SVM模型的AUC值分別為0.955、0.961;基于T1WI圖構建的LR與SVM模型的AUC值分別為0.812、0.813;基于T2WI 圖構建的LR 與SVM 模型的AUC 值分別為0.939、0.949;基于聯合序列構建的LR與SVM模型的AUC值分別為0.994、0.995,其中LR模型的準確率、敏感度及特異度分別為98.7%、98.4%及98.8%,SVM 模型的準確率、敏感度及特異度分別為98.6%、96.4%及99.4%。在測試集中,基于ADC、T1WI、T2WI及聯合序列圖像構建的LR 模型鑒別診斷PA 和BCA 的AUC 值分別為0.906、0.780、0.868 及0.972,SVM 模 型 的AUC 值 分 別 為0.924、0.783、0.847及0.959;其中聯合序列構建的LR模型的準確率、敏感度及特異度分別為91.6%、89.8%及92.3%,SVM 模型的準確率、敏感度及特異度分別為93.3%、85.6%及96.1%(表2、3、圖5~7)。Delong Test顯示:基于聯合序列影像組學模型優于基于T1WI或T2WI影像組學模型(P<0.05),與基于ADC影像組學模型差異無統計學意義(P>0.05);在測試集中,各模型間的AUC值均無顯著性差異(P>0.05)。
表2 邏輯回歸模型在訓練集與測試集中的診斷效能Tab.2 Diagnostic efficiency of logistic regression model in the training and test sets
圖5 分別基于表觀彌散系數(ADC)、T1WI、T2WI 及聯合序列構建的邏輯回歸與支持向量機模型的受試者工作特征(ROC)曲線。5A:ADC 模型訓練集;5B:ADC 模型測試集;5C:T1WI模型訓練集;5D:T1WI模型測試集;5E:T2WI模型訓練集;5F:T2WI模型測試集;5G:聯合序列模型訓練集;5H:聯合序列模型測試集。Fig.5 The receiver operating characteristic(ROC)curves of logistic regression and support vector machine models based on apparent diffusion coefficient(ADC),T1WI,T2WI and combined sequence respectively.5A:The training sets of the ADC models;5B:The test sets of the ADC models;5C:The training sets of the T1WI models; 5D: The test sets of the T1WI models; 5E: The training sets of the T2WI models; 5F: The test sets of the T2WI models; 5G: The training sets of the combined sequence models;5H:The test sets of the combined sequence models.
本研究旨在探討多模態磁共振影像組學模型在唾液腺基底細胞腺瘤中的應用價值。結果顯示,在訓練集中,聯合序列模型的診斷效能優于T1WI 或T2WI模型;而聯合序列影像組學模型與ADC影像組學模型的AUC間的差異無統計學意義,但聯合序列模型的準確率、敏感度及特異度均較高于ADC影像組學模型,提示多序列圖像聯合能提供更多腫瘤內部特征。在測試集中,由于樣本量較少,聯合序列影像組學模型與基于ADC、T1WI或T2WI影像組學模型的AUC之間的差異無統計學意義,但各影像組學模型在鑒別PA與BCA時均具有較好的診斷價值。
在最近的幾項研究中,鄭韻琳等[17]基于多期CT增強構建影像組學模型鑒別腮腺PA和BCA,得出動脈期的影像組學模型及與臨床資料建立的聯合模型的AUC 值為0.968~0.973,與本研究聯合序列模型及ADC 影像組學模型診斷效能相似。與鄭韻琳等增強CT 研究相比,本研究使用無電離輻射、多參數和軟組織分辨率更高的磁共振檢查,多參數成像能提供更多的腫瘤內部特征,且不需要使用增強對比劑,避免對比劑過敏風險。彭媛媛等[18]對腮腺多形性腺瘤和腺淋巴瘤患者的增強T1WI 圖像進行定量紋理分析,使用費希爾參數法+最小分類誤差與最小相關系數法+協同信息法聯合法,篩選出30個對鑒別診斷有顯著效能的紋理參數,其中P50、P90、WavEnLL_s-2 及WavEnLL_s-3 的鑒別診斷能力最佳,相應的AUC 值分別為0.858、0.864、0.901 及0.905;吳艷 等[19]基于99例腮腺腫瘤患者的T2WI圖像上的最大層面去勾畫二維ROI 提取特征,采用兩種降維方法(最小冗余最大相關算法和LASSO 回歸分析)先后對特征進行處理,最終篩選出8 個最佳特征并建立影像組學標簽,將臨床資料與影像組學標簽聯合構建LR模型以鑒別腮腺多形性腺瘤和腺淋巴瘤,最終聯合模型在訓練集和驗證集的AUC值分別為0.90、0.96。與以上研究相比,本研究是在多序列圖像上勾畫腫瘤三維ROI來構建影像組學模型且將組學應用于鑒別診斷PA 和BCA,比紋理分析或單序列模型所提取的特征數量及類型更多,可以對圖像信息相互補充,從而更全面地反映出腫瘤內部的異質性[20]。以上研究均證實影像組學模型鑒別診斷唾液腺良性腫瘤的可靠性及價值。
本研究收集的圖像均來自于同一臺MRI掃描儀,先進行圖像預處理以降低采集誤差與個體差異的影響,手動勾畫腫瘤區域的三維ROI 并進行特征的提取,最終篩選出4 類特征參數,即:一階統計學特征,形態學特征,紋理特征中的灰度共生矩陣(gray level cooccurence matrix, GLCM)、灰度游程矩陣(gray level run length matrix, GLRLM)、灰度區域大小矩陣(gray level size zone matrix,GLSZM)、灰度相關矩陣(gray level dependence matrix,GLDM)、鄰域灰度差分矩陣(neighbouring gray tone difference matrix,NGTDM),以及小波特征。既往已有研究[21-23]表明圖像灰度數據信息能定量分析腫瘤內部的異質性,由此表明影像組學模型在腫瘤預測方面的客觀性。
近年來,機器學習分類器模型被大量引入,合適的機器學習算法能夠提升模型的預測效能及穩定性。有學者推斷[24]邏輯回歸與支持向量機分類器適用于小數據集分析,構建的模型均較為穩定,本研究構建的正是小樣本模型,結果顯示測試集與訓練集的擬合度較佳,且LR 模型與SVM 模型鑒別診斷唾液腺PA 和BCA 時均具有良好的性能,診斷價值無顯著差異(P>0.05)。既往研究報道了兩分類器在臨床其他方向的應用,有學者推測LR 分類器的效能低于SVM,也有學者推測兩者效能具有可比性[25-26]。
此外,ADC值稍低提示為基底細胞腺瘤。本研究得出的鑒別PA和BCA的ADC值診斷閾值(1.31×10-3mm2/s),AUC值為0.843,與Mukai等[27]報道的結果(1.31×10-3mm2/s)一致;且基于ADC 圖構建的影像組學模型與ADC 平均值鑒別兩者的診斷效能均較好(P>0.05)。
本研究仍存在的局限性:(1)本研究為單中心性研究,模型缺乏外部驗證,存在過擬合及穩定性等問題,且對于影像組學相關研究,病例數仍相對較少且分布欠均衡,可進一步擴充樣本量,并進行多中心性研究;(2)本研究對影像組學特征的提取僅基于ADC、T1WI 及T2WI 序列,后續將進一步結合臨床資料構建模型,觀察其診斷價值。
綜上所述,基于ADC、T1WI 及T2WI 序列構建影像組學模型對唾液腺PA 和BCA 的鑒別診斷提供了一種潛在方法,有助于術前準確定性。
作者利益沖突聲明:全體作者均聲明無利益沖突。