胡小洋, 劉 穎, 倪春霞, 陳 淑, 董彬彬
(1.上海理工大學健康科學與工程學院, 上海 200093;2.上海伽瑪醫院放療科, 上海 200235;3.上海伽瑪醫院放射科, 上海 200235)
橋小腦角區(Cerebellopontine Angle,CPA)是顱內腫瘤好發的部位之一,發病率約占顱內腫瘤的10%[1]。橋小腦角區的結構復雜,病變的組織來源較多,常見的腫瘤有聽神經瘤和腦膜瘤。其中,聽神經瘤約占橋小腦角區腫瘤的80%,腦膜瘤占10%~15%[2]。磁共振影像(Magnetic Resonance Imaging,MRI)可以準確地顯示解剖結構,反映組織病理學特征,并具有高軟組織對比度和無顱骨偽影影響的特點,在橋小腦角區腫瘤診斷中發揮的作用尤為突出。橋小腦角區聽神經瘤和腦膜瘤的MRI表現和臨床表現相似,所以對病變的診斷有一定的難度,高度依賴臨床醫生的經驗和知識。
隨著深度學習技術的發展,已有大量的基于醫學圖像的分析處理網絡模型[3-5]。VGG-net由牛津大學的Visual Geometry Group提出,表明增加網絡深度可以在一定程度上提升網絡性能,VGG-net是在圖像特征提取、分類性能中表現良好的網絡結構[6]。目前,對基于深度學習診斷橋小腦角區腫瘤的研究不多,利用深度學習技術實現對橋小腦角區腫瘤的分類,可以為臨床診斷提供幫助,提升臨床診斷的準確率和工作效率。本研究基于VGG-net的優點,構建s-VGG深度學習分類模型,采用橫斷位T1WI(T1 Weighted Imaging)增強圖像和T2WI(T2 Weighted Imaging)圖像,完成對橋小腦角區聽神經瘤和腦膜瘤的分類任務。在分類模型結果的基礎上,集合放射科及放療科臨床醫生的診斷結果,建立深度學習輔助臨床診斷模型;該診斷模型綜合深度學習與臨床的診斷結果,給出最終的腫瘤診斷,可以降低腫瘤誤診率,提升診斷的準確率和臨床工作的效率。
本研究的腫瘤影像數據采集于上海某醫院放射科,回顧性地收集了2015—2018年的經病理或臨床診斷確診為橋小腦角區聽神經瘤和腦膜瘤的病例,共收集聽神經瘤427例和腦膜瘤116例,本研究過程中遵守國家生物醫學研究倫理標準。
所有病例的MRI圖像采集均使用美國GE公司的SignaHDxt 1.5 T磁共振掃描儀,采用單通道頭部線圈,T1WI增強序列的掃描參數如下:掃描層厚2 mm,層間距為0 mm,重復時間(Repetition Time,TR)為580 ms,回波時間(Echo Time,TE)為8 ms,矩陣大小為256×256,掃描視野(Field Of View,FOV)為280 mm×280 mm,激勵次數為2,回波鏈長度(Echo Train Length,ETL)為3,帶寬(Bandwidth,BW)為25 kHz。對比劑使用釓噴酸葡胺注射液(北京北陸藥業股份有限公司生產),注射劑量為0.2 ml/kg,通過肘前靜脈以1.5 ml/s的速率注入。T2WI序列的掃描參數如下:掃描層厚2 mm,層間距為0 mm,TR為5 000 ms,TE為100 ms,矩陣大小為256×256,FOV為280 mm×280 mm,激勵次數為2,ETL為3,BW為25 kHz。
收集的病例通過影像歸檔和通信系統(Picture Archiving and Communication System,PACS)中導出,利用MicroDicom軟件讀取病例圖像,剔除不含有病灶或顯示不清楚的圖像,篩選后導出并以JPG格式儲存。共收集聽神經瘤T1WI增強圖像、T2WI圖像各2 725張,腦膜瘤T1WI增強圖像、T2WI圖像各909張。
使用MATLAB軟件對圖像進行預處理。根據圖像的旋轉不變性,對圖像進行旋轉以擴充數據集,采用imrotate函數對圖像進行旋轉批處理,分別設置旋轉參數為90°、180°、270°,得到旋轉后的圖像。如圖1所示,圖1(a)為原圖像,圖1(b)為90°旋轉圖像,圖1(c)為180°旋轉圖像,圖1(d)為270°旋轉圖像。經處理后,數據集共包含聽神經瘤T1WI增強圖像、T2WI圖像各10 900張,腦膜瘤T1WI增強圖像、T2WI圖像各3 636張。

(a)原圖像

(b)90°旋轉圖像

(c)180°旋轉圖像

(d)270°旋轉圖像
使用T1WI增強圖像和T2WI圖像制作深度學習數據集,共建立T1WI增強和T2WI兩個深度學習數據集,分別按照8∶1∶1的比例劃分為訓練集(training set)、驗證集(validation set)和測試集(test set)。對于T1WI增強數據集和T2WI數據集,訓練集中有聽神經瘤圖像8 720張、腦膜瘤圖像2 910張,驗證集中有聽神經瘤圖像1 090張、腦膜瘤圖像363張,測試集中有聽神經瘤圖像1 090張、腦膜瘤圖像363張。其中,training set的作用是訓練模型,validation set的作用是在訓練中驗證模型,對模型參數進行調整,test set的作用是在模型訓練結束后,評估模型指標,測試模型性能。
VGG-net相比以往的神經網絡,改進之處在于使用了小卷積核,堆疊采用3×3的卷積核代替較大的卷積核,兩個3×3的卷積核串聯相當于一個5×5的卷積核,三個3×3的卷積核串聯相當于一個7×7的卷積核,串聯的3×3卷積核相比大卷積核使用了更小的參數量,并且擁有更多的非線性變化,使網絡對圖像的特征學習能力更強;VGG-net使用了更小的2×2的池化層,小池化層更容易捕捉圖像中梯度的變化,能提升對局部信息差異性的感知,使模型能更好地學習圖像邊緣的細節信息。小卷積核增大了特征圖通道數,小池化層縮小了特征圖的高和寬,使VGG-net可以建立更深層次的網絡模型,在一定程度上提升了模型性能;VGG-net采用了全連接層,并剔除了作用不明顯的局部響應歸一化層(Local Response Normalization,LRN)。
圖2為VGG-net網絡示意圖。如圖2所示,VGG-net的數據處理流程如下:①輸入圖像先通過2層64×3×3卷積,經過ReLU激活;②最大池化層,2層128×3×3卷積,ReLU激活;③最大池化層,3層256×3×3卷積,ReLU激活;④最大池化層,3層512×3×3卷積,ReLU激活;⑤最大池化層,3層512×3×3卷積,ReLU激活;⑥經最大池化層后,2層1×1×4 096的全連接層,ReLU激活;⑦經1×1×1 000的全連接層,由Softmax函數輸出1 000個分類結果。

圖2 VGG-net網絡示意圖Fig.2 Sketch map of VGG-net network
VGG-net的缺點是參數量過大,導致計算資源耗費大,模型訓練時間長,參數調整難度大。因此,本文構建了s-VGG網絡模型。
s-VGG模型借鑒VGG-net的優點,使用小卷積核和小池化層,減少計算量的同時增加了網絡深度。s-VGG添加了dropout層,參數為0.25,作用是隨機切斷當前神經網絡層節點與下一神經網絡層節點間的連接,概率為25%,隨機切斷的過程幫助網絡降低了過擬合的可能性;使用Batch Normalization(BN)層對數據進行批標準化處理,在神經網絡訓練過程中使每一層的神經網絡的輸入保持相同的分布,可以在一定程度上緩解深層網絡中“特征分布彌散”的問題,提高模型訓練速度并加快模型的收斂。BN層采用類似正態分布歸一化的方法對數據進行批標準化處理,公式如下:
(1)
其中:X為原批處理數據,X*為BN層處理后的數據,μ為批處理數據的均值,σ2為批處理數據的方差,ε為避免除數為0而添加的微小正數;因歸一化后的數據基本被限制在正態分布下,使網絡的表達能力下降,故引入參數γ和β解決上述問題,γ為尺度因子,β為平移因子,這兩個參數由模型在訓練中得到。
s-VGG采用Sigmoid函數輸出,訓練中使用Binary cross entropy二元交叉熵損失函數Loss,公式如下:
其中:yi表示二元標簽0或1,p(yi)表示輸出屬于yi的概率。
本研究構建的s-VGG的網絡示意圖如圖3所示。網絡在每個卷積層后增加一個BN層進行數據的批標準化處理。在池化層后添加Dropout層,按照25%的概率隨機切斷神經網絡節點的連接。

圖3 s-VGG網絡示意圖Fig.3 Sketch map of s-VGG network
本研究模型環境為Windows 10操作系統,Intel(R) Core(TM) i5-9400F CPU,32.0 GB內存,編譯軟件為PyCharm,編譯環境為Python 3.7。使用s-VGG網絡分別訓練橋小腦角區聽神經瘤和腦膜瘤的T1WI增強數據集和T2WI數據集。將訓練得到的模型記為s-VGG-T1、s-VGG-T2。
為驗證s-VGG-T1、s-VGG-T2兩個分類模型的精度,采用精確率(precision,P)、召回率(recall,R)、特異性(specificity,S)三個指標進行評估。
在測試集中對兩個分類模型進行評估。設定以聽神經瘤為正樣本,腦膜瘤為負樣本。TP(True Positive)為聽神經瘤分類正確,TN(True Negative)為腦膜瘤分類正確,FP(False Positive)為腦膜瘤被分類為聽神經瘤,FN(False Negative)為聽神經瘤被分類為腦膜瘤。
P、R、S的計算公式如下:
(3)
(4)
(5)
s-VGG-T1和s-VGG-T2分類模型訓練的epochs為100,學習率(Learning Rate,LR)為1e-3。如圖4所示,圖4(a)為s-VGG-T1模型訓練中train set和validation set的loss曲線,圖4(b)為s-VGG-T2模型訓練中train set和validation set的loss曲線,train set和validation set的loss曲線在圖4中表示為train_loss和val_loss。兩個模型的loss曲線均收斂良好。

(a)s-VGG-T1模型loss曲線

(b)s-VGG-T2模型loss曲線圖4 兩個模型的loss曲線Fig.4 Loss curve of two models
表1中的數據為s-VGG-T1和s-VGG-T2兩個分類模型的評價指標,可以看到s-VGG-T1的P、R、S指標分別為0.937、0.839、0.829,s-VGG-T2的P、R、S指標分別為0.925、0.810、0.802,兩個模型均具有較好的分類指標。

表1 兩個模型的評價指標
s-VGG-T1和s-VGG-T2兩個分類模型的橋小腦角區聽神經瘤和腦膜瘤的分類結果如圖5所示。其中:圖5(a)為s-VGG-T1分類的聽神經瘤,圖5(b)為s-VGG-T1分類的腦膜瘤,圖5(c)為s-VGG-T2分類的聽神經瘤,圖5(d)為s-VGG-T2分類的腦膜瘤。標簽an表示聽神經瘤(Acoustic Neuroma),標簽mg表示腦膜瘤(Meningioma),數值表示此標簽出現的概率。

(a)s-VGG-T1分類的聽神經瘤

(b)s-VGG-T1分類的腦膜瘤

(c)s-VGG-T2分類的聽神經瘤

(d)s-VGG-T2分類的腦膜瘤
醫學影像的臨床診斷工作中,主要的診斷方法仍是依賴臨床醫生人工閱片,并不能滿足當前影像數據的增長速度。在面對大量的影像數據時,人工判斷方式很可能出現偏差,得出錯誤的結論。
聽神經瘤的治療方式中,立體定向放射治療(Stereotactic Radiosurgery,SRS)目前已成為聽神經瘤的有效治療方式,表現出良好的腫瘤控制率和較低的副作用,可以作為手術的替代治療技術,表現出巨大的優勢和潛力[7]。腦膜瘤的最佳治療方式是顯微手術治療(Microsurgery,MS),但在臨床中,橋小腦角區腦膜瘤毗鄰重要組織結構而難以手術,所以對聽神經瘤和腦膜瘤的治療,會有放射治療(Radiotherapy,RT)的參與,放療科醫生對兩種腫瘤的診斷意見也比較重要。
多學科診療(Multi-Disciplinary Team,MDT)是由多學科資深醫生以共同討論的方式,為患者診療提出個體化方案[8]。傳統對于腫瘤患者的診療受限于臨床各科室的專業分工,科室間的聯系不足,患者的綜合治療難以實施或綜合治療的效果難以保證。多學科診療模式可以聚合各科室專家討論患者的診療方向,為患者提供規范化、個體化的綜合腫瘤治療方案。MDT模式的優勢在于集中各科室專家討論診斷結果,提高了診斷的準確性,并降低醫生誤診的可能性,有利于各科室間資源整合,實現資源共享。
本研究基于深度學習結果,仿照MDT模式構建深度學習輔助診斷模型DL-MDT(Deep Learning based Multi-Disciplinary Team)。診斷模型中集合了s-VGG-T1分類結果、s-VGG-T2分類結果、放射科醫生診斷意見、放療科醫生診斷意見。分類模型的結果由腫瘤識別圖得出,腫瘤識別圖對某一類別的識別概率大于等于50%時,即為分類模型的結果。臨床醫生的診斷意見基于腫瘤的T1WI增強圖像、T2WI圖像和臨床癥狀,通過對MRI圖像多方位的閱片并結合臨床表現,給出當前圖像的腫瘤診斷。DL-MDT模型流程如圖6所示。

圖6 DL-MDT模型流程圖Fig.6 Flow chart of DL-MDT model
針對分類模型和臨床醫生的診斷結果,將診斷為聽神經瘤的結果記為1、診斷為腦膜瘤的結果記為0,最終模型的輸出是兩個分類模型結果和放射科、放療科醫生診斷結果的加權求和結果,各個診斷結果的權重值之和為1,所以最終的輸出結果是0~1的一個值。若最終結果大于等于0.5,則認為模型最終診斷為聽神經瘤,反之為腦膜瘤。加權求和公式如下:
Result=RT1×wT1+RT2×wT2+Rro×wro+Rrt×wrt
(6)
RT1表示s-VGG-T1的分類結果,RT2表示s-VGG-T2的分類結果,Rro表示放射科醫生的診斷結果,Rrt表示放療科醫生的診斷結果;w為各結果對應的權重值,經與臨床醫生的綜合決定,將wT1、wT2、wro、wrt的權重值均定為0.25。
DL-MDT模型對10例腫瘤病例進行診斷,結果見表2。從表2中結果可知,病例2和病例6中s-VGG-T2的分類出現錯誤,病例5和病例7中臨床醫生的診斷出現錯誤,但DL-MDT模型最終給出的診斷正確率為100%,表明DL-MDT模型可以輔助臨床診斷,降低誤診率。

表2 DL-MDT模型診斷結果
橋小腦角區是顱內腫瘤的好發部位之一,其中聽神經瘤和腦膜瘤是常見的兩種腫瘤。聽神經瘤和腦膜瘤患者會患有橋小腦角區綜合征,出現頭痛、耳鳴、聽力下降、走路不穩等臨床表現。兩種腫瘤的MRI表現和臨床癥狀類似,對腫瘤的診斷有一定的難度,易導致誤診。
基于深度學習的醫學影像是當下的熱點研究領域。HERENT等[9]基于深度學習對乳腺MRI中的腫塊進行分類評估,共分為乳腺、良性病變、浸潤性導管癌和其他惡行病變四類,模型評估結果AUC值為0.816,表現出良好的分類能力。趙尚義等[10]提出3D CNN網絡對MRI圖像的膠質瘤進行分類,在BraTS 2018數據集中的低級別膠質瘤和高級別膠質瘤的分類準確率達到91.67%,說明此模型在低級別膠質瘤和高級別膠質瘤分類領域取得了良好的成果。本文構建的s-VGG網絡,在借鑒VGG-net網絡優點的同時增加了Dropout層和BN層,降低了訓練過程中過擬合現象的發生,提升了模型訓練速度及收斂速度。對T1WI增強數據集和T2WI數據集的訓練得到s-VGG-T1和s-VGG-T2兩個分類模型,在測試集的評估中,s-VGG-T1的P、R、S值分別為0.937、0.839、0.829,s-VGG-T2的P、R、S值分別為0.925、0.810、0.802,對橋小腦角區聽神經瘤和腦膜瘤的分類達到了較好的效果。
在分類模型結果的基礎上,本文依照MDT的模式構建了橋小腦角區聽神經瘤和腦膜瘤的深度學習輔助診斷模型DL-MDT,在對10例腫瘤的診斷中,診斷模型的準確率為100%。在病例2和病例6中,s-VGG-T2的分類結果錯誤,可能是腫瘤T2WI圖像的特征不如T1WI增強圖像明顯,導致s-VGG-T2的性能低于s-VGG-T1,分類錯誤率高。在病例5、病例7中,臨床醫生的診斷出現錯誤。聽神經瘤患側的聽神經束相比健側會明顯增粗并與腫瘤相連,聽神經束的改變是聽神經瘤的特征性表現,有研究表明此改變約占聽神經瘤的96%[11];腦膜瘤在MRI增強后,T1WI增強會出現腦膜尾征,產生的機制是腦膜瘤細胞侵入硬腦膜,致使鄰近的腫瘤充血、血管增生擴張及結締組織增生[12];腦膜瘤內鈣化的發生率較高,聽神經瘤內鈣化的發生率較低。病例5、病例7中,聽神經瘤和腦膜瘤的MRI圖像特征性表現不明顯,致使臨床醫生出現不同程度的誤診。但是,分類模型s-VGG-T1、s-VGG-T2的分類結果正確,證明通過DL-MDT給出的診斷結果正確。以上結果表明,深度學習輔助臨床診斷,可以降低臨床工作中出現誤診、漏診的概率。本文提出的深度學習輔助診斷模型DL-MDT具有良好的診斷性能,可提升臨床診斷的準確性和臨床工作的效率。
本文在對VGG-net網絡進行優化和改進的基礎上構建s-VGG網絡,采用橋小腦角區聽神經瘤和腦膜瘤的T1WI增強圖像和T2WI圖像,分別訓練s-VGG-T1和s-VGG-T2模型。測試集中s-VGG-T1與s-VGG-T2的P、R、S指標分別達到0.937、0.839、0.829與0.925、0.810、0.802,證明模型具有良好的分類性能。在分類模型結果的基礎上,結合放射科與放療科的臨床診斷結果,構建深度學習輔助臨床診斷模型DL-MDT,該診斷模型在10例腫瘤中的診斷準確率為100%,表明了本文構建的DL-MDT模型具有良好的診斷性能,可以在臨床工作中提升診斷的準確性和臨床工作的效率。