朱 婷,王 瑜,肖洪兵,邢素霞
(北京工商大學 a.計算機與信息工程學院; b.食品安全大數據技術北京市重點實驗室,北京 100048)
目前,成人最常見的原發性腦腫瘤包括原發性中樞神經系統淋巴瘤以及膠質瘤,其中,后者占比大約為80%[1]。近期的研究結果表明,腦腫瘤的磁共振成像(Magnetic Resonance Imaging,MRI)特征能夠輔助臨床診斷及治療方案制定[2]。此外,由于多模態MRI協議產生的不同的圖像對比度,能夠提供重要的互補信息,因此常被用來評價腦腫瘤細胞結構的完整性。比較典型的腦腫瘤核磁共振協議包括FLAIR(Fluid Attenuation Inversion Recovery)、T1(spin-lattice relaxation)、T2(spin-spin relaxation),以及釓增強的T1c(T1-contrasted),這些多模態MRI圖像[3]具有很大的診斷價值。
目前,有監督的卷積神經網絡(Convolutional Neural Network,CNN)在多種視覺任務中取得了較好效果,受到眾多研究者的青睞。文獻[4]研究用深度CNN進行圖像去噪,文獻[5]采用CNN實現中文情感分析,文獻[6]將CNN應用于手勢識別。在2015年的多模態腦腫瘤分割挑戰賽上,文獻[7]用CNN進行腦腫瘤分割并取得了優異效果。與傳統的有監督機器學習方法相比,基于深度學習的方法不依賴手動提取的特征,能夠自動從數據中學習不同復雜度的特征[8],因此,研究者們逐漸采用CNN實現腦腫瘤分割。如文獻[9]采用多尺度的CNN分割腦腫瘤,文獻[10]利用CNN提取的圖像塊特征對中央像素的類別進行預測。
在使用深度學習方法解決圖像分割問題中,文獻[11]提出全卷積神經網絡(Fully Convolutional Neural Network,FCN)。FCN的跳躍結構將圖像高層表示與圖像外觀表示相結合,以完成精細的分割任務。但是FCN易丟失上下文信息,為解決該問題,文獻[12]提出金字塔池化模塊,并使用預訓練的ResNet[13]提取原始輸入圖像的特征。網絡越深,該方法獲得的特征表達能力越強。然而,ResNet的殘差塊雖然能夠訓練非常深的網絡模型,但可能導致衰減特征重用。為此,文獻[14]建立寬殘差網絡(Wide Residual Networks,WRN)模型,其通過加寬系數使較淺的網絡模型獲得與深度模型相近的性能。此外,文獻[15]發現一旦圖像的解剖信息被提取出以后,最終的分割結果將會在很大程度上受到特定體素信號強度的影響(相對于紋理特征或者其他高階特征而言),因此,他們在網絡的倒數第3層再次引入原始圖像,以提高網絡的分割性能。
受到上述基于FCN方法的啟發,本文建立一種新的寬殘差金字塔池化模型WRN-PPNet,用于腦腫瘤分割。通過WRN模塊提取原始圖像的特征,利用金字塔池化模塊獲得圖像不同范圍的上下文信息,再融合原始輸入圖像的超本地化特征,最后由模型直接輸出神經膠質瘤分割結果,完成全自動端到端的多模態MRI神經膠質瘤分割任務。
FCN克服了傳統CNN網絡進行圖像語義分割時內存需求大、計算效率低、圖像塊尺寸限制感知區域大小的缺陷,其利用現存的CNN做視覺模型學習分層特征,再將分類網絡最后的全連接層改為全卷積層,然后輸出特征圖,最終對這些特征圖進行反卷積后產生稠密像素級標記的輸出圖,即圖像的語義分割結果。該方法在用深度學習方法實現圖像語義分割方面取得了較好效果。
FCN只含卷積層,可以接受任意尺寸的輸入圖像,對CNN學習到的特征進行反卷積操作后這些特征能恢復到原輸入圖像的尺寸,從而可以預測每個像素的類別,保留原始圖像中的空間信息,實現對圖像像素級的分類。最終網絡的輸出就是分割好的圖像,該過程實現了真正意義上的端到端分割。本文結合FCN方法,建立一種WRN-PPNet模型,對多模態MRI神經膠質瘤進行全自動分割,模型輸出就是對腫瘤區域的分割結果。
采用MRI的軸向切片訓練WRN-PPNet模型并獲得分割模型,該過程包括3個步驟:數據前期處理,建立WRN-PPNet模型并訓練,測試模型分割性能。
腦腫瘤的MRI圖像是3D結構,其像素尺寸為240×240×155。3D結構計算復雜度高,本文先取切片,將其轉化成2D結構后再用于WRN-PPNet模型訓練,該過程如圖1所示。

圖1 3D MRI數據取切片實例
4種模態相同序列的切片需要進行如式(1)、式(2)所示的標準化處理后再合并在一起。

(1)
X=X/Xstd
(2)

本文在FCN語義分割模型的基礎上,建立一種多模態MRI神經膠質瘤全自動分割模型WRN-PPNet。該模型包含2個模塊:WRN模塊和PPNet模塊,模型結構如圖2所示。其中,(A)表示某個病人4種模態的MRI圖像切片,(B)表示由WRN模塊提取的特征,(C)表示WRN模塊提取的特征與PPNet模塊提取的特征相融合的特征,(D)表示反卷積5的輸出與原始輸入的超本地化特征進行融合,(E)表示由WRN-PPNet模型分割出的腦腫瘤區域,(F)表示專家標注的腦腫瘤區域。(1)、(2)、(3)構成WRN-PPNet模型,其中,(1)表示WRN模塊,(2)表示PPNet模塊,(3)表示尺寸恢復部分。

圖2 WRN-PPNet模型結構
2.2.1 WRN模塊
由于在CNN中,越深層次的特征越抽象,表達能力也越強,因此增加網絡深度有利于提高網絡模型的性能。然而,隨著網絡模型的加深,會出現梯度消失或者爆炸、模型逐漸退化的現象。為此,文獻[13]提出ResNet,以解決該問題。ResNet使模型參數更少,網絡更深。其中,殘差塊的結構如圖3(a)所示,在殘差塊中存在恒等映射,殘差塊輸入xl與輸出xl+1之間的關系如式(3)所示。
xl+1=xl+F(xl,Wl)
(3)
其中,F(·)表示殘差函數,Wl表示殘差塊的參數。由式(3)可知,殘差網絡由殘差塊堆疊而成。
雖然具有恒等映射的殘差塊能夠訓練非常深的網絡模型,但可能會使網絡中的梯度流無法通過殘差塊權重,從而導致只有少量殘差塊學習到有用的特征,也即很多殘差塊共享非常少的信息,使它們對最終的目的貢獻甚少,這被稱為衰減特征重用問題。為解決該問題,文獻[14]提出寬殘差塊的概念,并通過大量實驗證明,適當增加殘差塊寬度比、增加殘差網絡深度更能提高殘差網絡的性能。非常淺的寬殘差網絡能夠獲得非常深的殘差網絡性能,且參數量相當時,寬殘差網絡的訓練速度更快。寬殘差塊結構如圖3(b)、圖3(c)所示,在每個卷積層之前均有一個批標準化(Batch Normalization,BN)層,BN層的作用是將激活層輸出的均值和方差規范為一致,其有利于加快網絡收斂速度并抑制梯度爆炸。

圖3 殘差塊結構示意圖
本文提出的網絡模型使用WRN模塊提取原始輸入數據的特征,其寬殘差塊加寬系數為3(k=3),每個殘差塊組中包含4(N=4)個殘差塊。WRN模塊第1個殘差塊組conv2中的寬殘差塊結構如圖3(b)所示,第2、第3個寬殘差塊組conv3、conv4中第1個寬殘差塊的結構如圖3(c)所示,其余寬殘差塊如圖3(b)所示。
2.2.2 PPNet模塊
在多模態的MRI腦腫瘤切片中,神經膠質瘤出現的位置、大小、形狀、尺寸等都不確定,其與周圍正常組織邊界模糊、互相滲透,因此,全局先驗信息對腦腫瘤各區域的分割至關重要。
傳統FCN方法缺少對不同特征的感知,這限制了其在具體問題中的應用,且由于固有的空間不變性,導致該方法不能很好地利用上下文信息。由于全局平均池化是一種較好的獲取全局上下文信息的方法,為盡可能減少上下文信息的損失,本文采用分層結構的金字塔池化模塊來獲得不同尺度的全局先驗信息,其結構如圖2中的模塊(2)所示。
本文使用的金字塔池化模塊包含3個不同大小的池化核,尺寸分別是4×4、2×2、1×1,池化類型均為平均池化,這構成了3個池化通路。對于池化核為4×4的池化通路,池化過后,FMs的尺寸大小為該模塊原始輸入FMs尺寸大小的1/4,然后通過2個依次連接的conv3×3-conv3×3-deconv結構,將FMs的尺寸恢復至該模塊原始輸入FMs的大小,這里conv3×3表示卷積核為3×3的卷積層,deconv是反卷積(上采樣)層,上采樣層的作用是將FMs的大小恢復至原始輸入FMs的大小。在反卷積層之前使用卷積是為了獲得前一層FMs的優化組合。同樣,在池化核為2×2的通路上,池化過后是一個conv3×3-conv3×3-deconv結構,池化核為1×1的通路上,池化過后只有2個卷積核為3×3的卷積層,且在該模塊中,每個卷積層和反卷積層輸出的FMs個數均為128。最后,在金字塔池化模塊之后,將該模塊中由3個通路獲得的不同尺度的全局上下文先驗與該模塊的輸入特征相融合,如圖2中模塊(C)所示。
2.2.3 尺寸恢復模塊
WRN-PPNet模型最后一部分主要將FMs的尺寸恢復至模型原始輸入的大小,如圖2中模塊(3)所示。該部分包含2個conv3×3-conv3×3-deconv結構,且每個卷積層和反卷積層輸出的FMs個數均為64,模型深層網絡特征與原始數據的超本地化特征相融合,如圖2中模塊(D)所示。一旦從圖像中提取出上下文解剖信息后,最后的分割結果將會在很大程度上受到特定體素信號強度的影響。同理,一旦確定腦腫瘤的大致位置后,各區域的邊界位置幾乎會由體素的亮度來確定,因此,本文WRN-PPNet模型在最后分割層之前的最后一個上采樣層上,再次將原始輸入圖像引入模型,以獲得超本地化特征。
為驗證本文模型的效果,初步設計實驗過程,包括訓練數據擴展、模型參數確定、模型訓練,以及模型對腦腫瘤的初步分割過程。實驗環境為Ubuntu 16.04LTS,Python3,WRN-PPNet網絡模型由深度學習框架Tensorlayer搭建,模型在一塊顯存為12 GB的GPU (NVIDIA Titan X(Pascal))上訓練。
2.3.1 模型相關參數
在WRN-PPNet模型中,WRN模塊的參數如表1所示。其中,M×M為原始輸入圖像的尺寸,本文中M=240,殘差塊加寬系數k=3,每組殘差塊個數N=4,B(3,3)表示殘差塊中2個卷積核為3×3的卷積層。PPNet模塊中所有層的節點數均為128,所有卷積層的卷積核大小均為3×3。在尺度恢復模塊中,最后一層節點數為1,其余層的節點數均為64,最后一個卷積層的卷積核大小為1×1,其余所有卷積層的卷積核大小均為3×3。模型中最后一層的激活函數為Sigmoid,其余所有層的激活函數均為ReLU。

表1 WRN模塊結構參數
在模型訓練過程中,代價函數采用軟Dice量(Soft Dice metric),優化算法為自適應矩估計法(Adaptive moment estimator,Adam)。Adam方法利用梯度的第一、第二階矩更新和矯正當前梯度的移動平均值,這里Adam優化器的學習率為0.001,最大訓練次數為100,并在訓練過程中采用Earlystopping方法監督訓練,驗證集損失超過可容忍區間時停止訓練。在該過程中,按照正態分布初始化所有的權值,且初始化后權值的平均值為0,標準方差為0.01,所有偏移量初始化為0。
2.3.2 模型評價指標
模型訓練完成后,用測試數據評估模型性能,定量評估參數包括Dice系數、靈敏度(Sensitivity)系數、陽性預測率(Predictive Positivity Value,PPV)系數[16]。其中,Dice系數表示模型分割結果與專家分割的真實結果之間的重疊程度,靈敏度表示分割正確的腫瘤區域占腫瘤真實區域的比率,PPV表示模型分割正確的腦腫瘤區域占模型分割的腦腫瘤總區域的比率,三者計算公式如式(4)~式(6)所示。
(4)
(5)
(6)
其中,P為預測結果,T為真實結果,“∧”表示取交集,“+”表示取并集。
本文算法在操作過程中分為5個步驟:
1)對MRI數據取切片并標準化切片。
2)利用數據擴展法增加訓練集數據。
3)建立WRN-PPNet腦腫瘤分割模型,模型包括WRN模塊、PPNet模塊以及尺度恢復模塊。
4)設置模型訓練的相關參數和策略。
5)用測試集數據驗證模型的分割性能,并采用客觀評測方法評估模型。
在本次實驗中,病人的MRI數據來源于Virtual Skeleton數據庫(Virtual Skeleton Dataset,VSD)[17],該數據庫來自2015年多模態腦腫瘤分割挑戰賽。從數據中隨機抽取60個病人的4種模態數據,將其中50個病人的數據作為訓練數據,10個病人的數據作為測試數據,切片化后可以得到7 750×4張訓練切片和1 550×4張測試切片。其中,乘數4表示圖像模態數,4種模態的切片如圖4所示。

圖4 4種模態的切片圖像
為提高模型的分割性能,本文使用數據擴展法增加訓練數據的數量和模式。數據擴展法具體如表2所示,其中,簡單的轉換方法包括翻轉、旋轉、平移、縮放以及彈性畸變。對于一張切片,擴展后的形態示例如圖5所示。

表2 數據擴展法

圖5 擴展前后的圖像形狀和模式示例
為驗證本文WRN-PPNet模型的有效性,將其進行模型訓練。實驗使用深度學習框架Tensorlayer搭建WRN-PPNet模型,在一個GPU(NVIDIA Titan X(Pascal))上訓練模型。設置最大訓練迭代次數為100,訓練集與驗證集的數據量之比為9∶1。驗證集不參與訓練,只用于監督模型訓練過程,當驗證集的精確度不再提高時,訓練過程會提前終止。訓練好的模型對4種模態切片的處理過程如圖6所示。

圖6 網絡模型中間層輸出可視化示例
實驗中對隨機抽取的4個病人的切片圖像進行腦腫瘤分割,結果如圖7所示。從圖6、圖7可以看出,WRN-PPNet模型能精準分割出腦腫瘤區域,且神經網絡的淺層可以提取原始圖像中能夠大致確定腦腫瘤位置、輪廓等的外觀特征,較深層網絡提取的特征更抽象,這表明淺層網絡能夠提取精細的外觀特征,深層網絡能夠提取粗糙的語義信息。換言之,深度學習網絡的淺層就相當于很多小的邊緣濾波器組合,隨著網絡層數的加深,網絡提取特征對應的原始輸入圖像中的感受野越大,此時越偏向于提取整體的語義信息。因此,深層特征更復雜,表達能力也更強,這對以后的模型設計將是一個啟發。

圖7 切片圖像腦腫瘤分割結果
為探究不同深度的WRN模塊提取的特征對腦腫瘤分割結果的影響,本文對WRN模塊中殘差塊個數N進行多次取值,以改變網絡模型的深度,實驗結果如表3所示。其中,T表示分割一個病人腦腫瘤的時間。從表3可以看出,當N=4時,WRN-PPNet模型對腦腫瘤的分割效果最好。

表3 寬殘差塊個數N對分割效果的影響
為突出本文算法的有效性,將其與文獻[7-8,10]算法進行對比,定量評估結果如表4所示。從表4可以看出,本文算法的3種定量評估指標值均超過對比算法。此外,本文算法完整分割出一個病人的腦腫瘤區域的平均時間為0.85 min,少于3個對比算法。可以看出,本文算法無需復雜的前后期處理以及專家的人工干預,可以完成全自動的腦腫瘤分割任務。

表4 不同算法的分割結果對比
在進行腦腫瘤分割時,FCN方法易丟失上下文信息,ResNet深度網絡可能出現衰減特征重用問題。為此,本文在FCN的基礎上建立WRN-PPNet模型,用于多模態MRI腦腫瘤圖像分割。該模型增加金字塔池化模塊用于保留上下文信息,采用WRN模塊通過較淺網絡獲得與深度網絡相近的性能,在模型最后階段重新引入原始輸入切片,以提高模型的分割性能。實驗結果表明,該模型能夠在獲得較好分割效果的同時減少分割時間。但本文主要針對整個腦腫瘤區域分割進行研究,今后將探索分割性能更好的深度學習網絡模型,以分割出包括腫瘤核區域、水腫區域、增強區域等腦腫瘤子區域。