楊椿雪,原夢,張金玲*,王天佐
作者單位:1.哈爾濱醫科大學附屬第二醫院CT室,哈爾濱 150000;2.哈爾濱醫科大學附屬第六醫院放射科,哈爾濱 150000
腦膜瘤是成年人最常見的顱內腫瘤,約占顱內原發性腫瘤的三分之一[1-2]。WHO 等級是腦膜瘤重要的預后因素,可影響治療策略的選擇[3]。低級別腦膜瘤(grade Ⅰ)預后良好,手術即可獲得良好的治療效果[4-6]。高級別腦膜瘤(grade Ⅱ、Ⅲ)侵襲性更高,預后也更差,五年復發率高達50%~90%[7]。如果在術前能夠以非侵入的方式預測腦膜瘤級別,就可以為治療方案制定和預后評估提供更多信息。MRI 是腦膜瘤評估的重要手段,然而主觀評價模式在術前預測腦膜瘤病理分級的能力方面存在爭議[8-9]。近年來,機器學習在影像診斷領域應用日益廣泛,國內外研究者在此方面已經取得了不錯的成果[10-12]。目前通過影像組學模型術前預測腦膜瘤病理等級的相關研究只使用軸位圖像,大多也未處理類別不平衡、特征可重復性差等問題。因此我們完善研究方法,嘗試用軸位和矢狀位T1WI增強圖像構建模型,并測試其表現。
回顧性連續收集2017 年1 月至2020 年12 月,在哈爾濱醫科大學附屬第二醫院術前行MRI檢查腦膜瘤患者的MRI圖像(153例)。納入標準:(1)病理明確診斷為腦膜瘤;(2)病理等級明確(2016版WHO中樞神經系統腫瘤分類);(3)序列包含軸位和矢狀位增強T1WI。排除標準:(1)圖像質量不佳、存在偽影;(2) MRI檢查前接受過腦膜瘤手術或放療;(3)多發腦膜瘤。本研究經哈爾濱醫科大學附屬第二醫院倫理委員會批準(倫理審查批件號:KY2021-335),免除受試者知情同意。
采用GE Signa HDxt MRI以及GE Discovery MR750w 掃描儀進行檢查。GE Signa HDxt 1.5 T MRI 掃描儀成像序列參數:軸位T1WI 增強圖像(TR:26 ms,TE:2063 ms,FOV:512 mm×512 mm,層 厚:6 mm,矩陣:256×160)、矢狀位T1WI 增強圖像(TR:10 ms,TE:1729 ms,FOV:512 mm×512 mm,層 厚:6 mm,矩陣:288×160)。GE Discovery MR750w 3.0 T MRI 掃描儀成像序列參數:軸位T1WI 增強圖像(TR:29 ms,TE:2242 ms,FOV:512 mm×512 mm,層 厚:6 mm,矩陣:288×288)、矢狀位T1WI 增強圖像(TR:23 ms,TE:1507 ms,FOV:512 mm×512 mm,層 厚:6 mm,矩陣:256×192)。掃描前自動勻場,使用機器配套高壓注射器,由肘靜脈團注扎噴酸葡胺(Gd-DTPA),劑量為0.1 mmol/kg,注射速度為3.5 mL/s,隨后以相同速率注射20 mL生理鹽水沖刷。
研究流程見圖1。在圖像分割前,從PACS獲取圖像,使用N4 偏置場矯正消除低頻強度不均勻性。腫瘤分割流程見圖2。由兩名具備兩年以上神經影像學經驗的影像醫生(A,B)獨立進行圖像分割,軟件為ITK-SNAP (v3.8.0,http://www.itksnap.org/)。沿病灶邊緣勾畫感興趣區,盡可能避開其他組織,拋棄頂部以及底部因容積效應所致模糊層面。在勾畫完成一周后,由影像醫生A再次勾畫感興趣區。
圖1 研究流程圖。Fig.1 study flowchart.
圖2 腫瘤分割流程圖。Fig.2 tumor segmentation flowchart.
使用Python 的pyradiomics 庫(v3.0,https://pyradiomics.readthedocs.io/)提取影像組學特征,并對圖像進行圖像標準化與重采樣(1 mm×1 mm×1 mm)。開啟的濾波器包括:local binary pattern、gradient、exponential、logarithm、square、squareroot、wavelet。每個序列可提取特征數為1688,軸位和矢狀位兩個序列共可提取3376個特征。提取的特征包括:648 個一階特征(firstorder)、28 個形狀特征、864 個灰度共生矩陣(gray level co-occurrence matrix,GLCM)、576 個 灰 度 游 程 矩 陣(gray level run length matrix,GLRLM)、576 個灰度區域大小矩陣、180 個鄰域灰度差矩陣(neighbourhood gray tone difference matrix,NGTDM)、504 個灰度相關矩陣(gray level dependence matrix,GLDM)。特征命名方式如下:濾波器_特征類型_特征名_序列。將數據以8∶2按原有高、低級別腦膜瘤比例隨機劃分為兩組,訓練集105例,測試集27例。
使用訓練集數據進行特征可重復性評估。首先,計算影像醫生A、B獲得數據的觀察者間組內相關系數(intra-class correlation coefficient,ICC)。之后,計算醫生A 兩次勾畫圖像獲得數據間的觀察者內ICC。在醫生A 第二次提取的特征中,僅觀察者間ICC與觀察者內ICC同時大于0.9被選用。
對訓練集數據進行標準化,標準化公式為z=(x-均數)/標準差,再用訓練集特征的均數與標準差對測試集數據進行標準化。為消除類別不均衡的影響,我們對訓練集數據采用少數類過采樣技術(synthetic minority over-sampling technique,SMOTE)。
使用Scikit-learn 庫(v0.24,https://scikit-learn.org/stable/)進行特征篩選、建模、測試。首先,采用f_classif 進行方差分析,保留P值小于0.05 的特征。之后利用SelectFromModel 計算各個特征的重要性,保留排名前30 的特征,再采用帶有5 折交叉驗證的套索算法(least absolute shrinkage and selection operator,LASSO)選擇最優的特征組合。最后,使用RBF核支持向量機算法構建軸位、矢狀位、綜合模型,再進行網格搜索(帶有5 折交叉驗證)選擇最優超參數。
根據訓練集模型受試者工作特征曲線計算約登指數,其最大值所對應閾值即為最優閾值。使用測試集數據檢驗模型,通過曲線下面積(area under the curve,AUC)、敏感度、特異度、準確度評估模型表現,敏感度、特異度、準確度為最優閾值下分類結果計算獲得。
在153 例患者中,有21 例被排除,其中圖像質量不佳、存在偽影者4例,MRI檢查前接受過腦膜瘤手術或放療者8 例,多發腦膜瘤者9 例。最終納入患者132 例(女93 例,男39 例,年齡18~84 歲,中位年齡56 歲),高級別腦膜瘤49 例(女26 例,男23 例,年齡22~84 歲,中位年齡55 歲),低級別腦膜瘤83 例(女67例,男16例,年齡18~69歲,中位年齡56歲)。
初步從感興趣區提取3376個特征,觀察者內ICC和觀察者間ICC均大于0.9的特征有2534個,1289個特征來自軸位圖像,1245 個來自矢狀位圖像。使用SMOTE 的綜合模型特征篩選過程如下:2534—方差分析—308—模型選擇—30—LASSO—21,最終獲得21個特征構建模型,其類型及名稱見表1。
表1 應用少數類過采樣技術構建綜合模型的特征名稱Tab.1 Selected features of combined model with synthetic minority over-sampling technique
模型的腦膜瘤分級結果見表2。綜合模型的表現優于單序列模型。在使用SMOTE 后,各個模型的AUC 均有提升,矢狀位、綜合模型在分類準確度方面也有提升。在眾多模型中,使用SMOTE的綜合模型表現最為優秀,在AUC 與準確度方面均高于其他模型。使用SMOTE 的綜合模型最優閾值為0.512,在閾值下測試分類準確度為0.963,僅有一例高級別腦膜瘤被錯誤分為低級別。
表2 模型的腦膜瘤分級結果Tab.2 The results of the models for meningiomas grading
腦膜瘤是成年人最常見的原發性顱內腫瘤,高級別腦膜瘤預后差、易復發,術前了解病理分級有助于臨床決策的制定,具有重要的意義[13]。MRI 是腦膜瘤非侵入評估的主要手段,然而常規序列仍然有一些局限,尤其是在術前預測腦膜瘤病理分級方面[14]。Kawahara等[15]研究表明,不清晰的腫瘤邊界和不均勻強化在高級別腦膜瘤出現的頻數更高,有助于預測腦膜瘤病理分級。但這些表現缺乏特異性,低級別腦膜瘤也可出現。在一項擁有更大樣本量(n=184)的研究中,Ke等[8]發現腫瘤位置、數量、大小、邊緣、強化等級、強化模式、硬膜尾長度、顱骨侵犯、靜脈竇形態、中線移位距離、瘤周水腫在高級別與低級別腦膜瘤間差異無統計學意義。盡管已有相關研究應用彌散成像相關技術鑒別腦膜瘤病理分級,但是其效果存在一些爭議[16]。隨著技術的進步,機器學習相關方法逐步應用于影像學,大量研究已經證實機器學習在某些疾病診斷、鑒別方面優于傳統的主觀診斷。Ugga等[17]的一項診斷性meta分析表明,影像組學在腦膜瘤病理分級方面表現出色,其AUC為0.88。
目前,機器學習技術在腫瘤影像鑒別的應用主要可以分為兩類,一是影像組學,二是卷積神經網絡[18-19]。Banzato等[10]收集了117例腦膜瘤患者圖像,使用ADC圖像訓練Inception v3卷積神經網絡預測腦膜瘤病理分級,留一交叉驗證分數為0.94,樣本量的限制導致其并未拿出額外獨立數據測試模型表現。大部分醫學影像數據樣本量都相對較小,在一定程度上限制了卷積神經網絡的應用[20]。在樣本較小的情況下訓練卷積神經網絡進行疾病分類任務容易發生過擬合,導致泛化能力差[21]。回顧近期相關研究,我們可以發現影像組學對樣本量需求更低,表現也十分優秀[10,12,22-23]。因此,本研究選擇影像組學的方法構建模型。
本研究共構建6 個模型,其中使用SMOTE 的綜合模型表現最為優秀,測試AUC及準確度分別為0.982、0.963。Coroller 等[11]收集175 例腦膜瘤,先使用主成分分析,之后計算特征的方差和相關系數進行特征篩選,最終得到的影像組學模型測試AUC為0.779。與其他相關研究比,其模型表現不佳,這可能是特征工程方面的問題所導致,主成分分析可能會損失部分特征的有用信息。在特征篩選前,本研究計算各個特征的重要性,選擇前30 個特征。這種方法既提高了計算效率,也避免保留過多特征導致模型表現不佳的可能。Chu等[24]收集98 例腦膜瘤(訓練集70 例,測試集28 例),從軸位T1WI 增強圖像中提取影像組學特征,使用Logistic 回歸構建模型,其測試AUC 和準確度分別為0.948、0.929 (26/28)。盡管我們應用了非線性的RBF核支持向量機算法,但未使用SMOTE 的軸位模型的AUC 和準確度仍然低于Chu 等的模型。本研究的圖像并非來自同一臺機器,掃描參數存在差異,可能影響會模型的表現[8]。但在加入矢狀位特征與SMOTE后,模型表現有所提高。這可能是因為矢狀位T1WI 增強圖像含有與軸位T1WI 增強圖像不同的信息,兩者結合可以更好地呈現不同級別腦膜瘤的異質性。此外,通過下采樣增加高級別腦膜瘤的樣本量,讓兩種級別樣本量更均衡。這兩項改進在一定程度上提高了模型表現。
本研究仍然存在幾點不足:(1)由于grade Ⅱ、Ⅲ腦膜瘤發病率較低,所以將兩類合并為高級別腦膜瘤。(2)樣本量相對有限,結果仍需要更大規模的研究進行驗證。(3)本研究的圖像并非來自同一型號機器。(4)盡管增強使用對比劑都是Gd-DTPA,但來自不同公司。
綜上所述,本研究表明基于軸位和矢狀位T1WI增強圖像的影像組學模型可以在術前預測腦膜瘤病理分級,具備優秀性能,有助于臨床決策的制訂,有一定的臨床價值。
作者利益沖突聲明:全體作者均聲明無利益沖突。