張相芬,劉艷,袁非牛
(上海師范大學信息與機電工程學院,上海 201400)
醫學圖像分割能夠最大程度地為醫生提供患者的信息,對疾病的診斷和治療手段的選擇具有重要意義。人腦圖像分割是根據強度同質性等特征將腦組織分割成白質(WM)、灰質(GM)和腦脊液(CSF)。受腦組織復雜特征的限制,腦組織的分割面臨極大的挑戰。
現有的腦組織分割方法主要分為基于傳統算法的分割方法和基于深度學習的分割方法[1]。基于傳統算法的腦組織分割方法包括基于區域增長、邊緣、聚類和閾值的分割方法。其中,SOMASUNDARAM等[2]根據不同腦組織的強度信息自動選取種子點,并進行多種子點的區域生長,最終得到分割結果。LI等[3]使用K-means 聚類方法實現對腦組織的分割,方法簡單且分割速率較快。SALMAN等[4]提出一種結合K-means、聚類、分水嶺變換等多種傳統分割算法的邊緣檢測分割網絡,分階段地完成圖像分割。但傳統分割方法易受噪聲影響,導致分割精度降低。基于深度學習的分割方法[5]多借助端到端的網絡,這種網絡不易受噪聲影響,能更好地學習圖像特征,因此廣泛應用在醫學圖像分割任務中。例如,RONNEBERGER等[6]提出U-Net 網絡,該網絡能夠提取單層二維圖像的上下文信息,但不能獲得醫學圖像的三維空間信息。CICEK等[7]設計3D U-Net 網絡模型,將3D 的卷積、池化、反卷積等操作引入到U-Net 中,從而獲取醫學圖像的3D 空間信息,但僅依靠單一模態提供的信息,存在局限性問題。此外,受上采樣、下采樣操作的影響,深度學習網絡不能準確表達輸出特征,進一步影響分割精度。LONG等[8]提出MSCD-UNet 網絡,采用多分支池化信息提取器緩解最大池化方法存在的信息丟失問題,使得分割精度得到一定程度的提升,但是其網絡結構過于復雜,導致參數量增加、分割效率降低。
針對以上問題,本文提出基于深度學習的醫學圖像分割網絡MCRAIP-Net。以3D U-Net作為基礎網絡,為充分融合多模態特征信息,構建多模態編碼器模塊(Multi-modality Encoder Module,MEM)和雙通道交叉重構注意力(Dual-channel Cross Reconstruction Attention,DCRA)模塊,此外,設計倒金字塔解碼器(IPD)模塊,以融合多模態圖像的特征,解決解碼器最后一層輸出特征表達不準確的問題。
3D U-Net[7]是一個具有對稱編碼器和解碼器的神經網絡。3D U-Net 中編碼器和解碼器通過跳躍連接將同等分辨率的特征相連接,以提供較高的分辨率特征。此外,3D U-Net 結構設計中將3D 醫學圖像數據作為輸入并使用3D 卷積、3D 最大池化和3D 反卷積來實現特征提取和特征恢復。這種方式可以捕獲圖像的3D 空間特征以提高分割精度。SUN等[9]基于3D U-Net 提出一種改進的具有體積特征重新校準層的3D U-Net,稱為SW-3D-Unet,以充分利用切片間的空間上下文特征。HUANG等[10]提出的3D RU-Net,從編碼器的區域特征中切出多級感興趣區域(Region of Interest,ROI),從而擴大了3D RU-Net適用的體積大小和有效感知領域。
上述自動分割方法在醫學圖像分割方面具有較優的性能,但多數忽略了單一模態數據信息的局限性。因此,本文引入注意力機制,設計多模態交叉重構的倒金字塔分割網絡,以3D U-Net 為基礎,在輸入層引入雙通道交叉注意力機制和多模態融合策略,從而提高圖像的分割精度。
在人們感知中,從不同感官獲得的信息會被注意力機制加權[11]。這種注意力機制允許人們選擇性地關注重要信息。受此啟發,Google DeepMind 團隊在執行圖像分類任務時提出注意力機制,從而掀起了注意力機制研究的熱潮。例如,SENet[12]通過顯式建模通道之間的連接關系,以自適應地重新校準通道特征響應。殘差注意力網絡[13]是通過堆疊注意力模塊構建的,這些注意力模塊生成注意力感知特征。SENet 和殘差注意力網絡分別是采用通道注意力模塊和空間注意力模塊的代表。CBAM[14]是一種輕量級的通用模塊,同時采用空間和通道注意力來提高深度神經網絡的性能。除了通道注意力和空間注意力之外,一些研究人員還使用其他注意力機制。例如,為了提取相關的空間圖像特征,SUN等[15]提出一種用于左心室分割的新堆棧注意U-Net。
多種方法利用注意力機制進行醫學圖像分割。YANG等[16]提出用于舌下小靜脈分割的協同注意網絡,它可以自動學習靜脈目標結構。KAUL等[17]提出將注意力整合到全卷積網絡中的FocusNet,通過卷積編碼器生成的特征圖實現醫學圖像分割。受這些注意力機制的啟發,本文設計雙通道交叉注意力模塊以獲得更多相關特征,并將這一思想與多模態融合機制相結合以關注更多的大腦細節信息。
在醫學圖像分析中,由于多模態(如T1、T1-IR、T2-FLAIR 等)數據可以為醫學研究提供互補信息,因此多模態的融合信息被廣泛用于腦組織分割[18]和病變分割[19]。根據醫學圖像分割的深度學習網絡[20],基于多模態的圖像分割網絡分為層級融合網絡、決策級融合網絡和輸入級融合網絡。在層級融合網絡中,將每個模態的圖像作為輸入來訓練個體增強網絡,這些學習到的個體特征表示在網絡層中進行融合。層級融合網絡可以有效地集成和充分利用多模態圖像[21]。在決策級融合網絡[22]中,以每個模態圖像作為單個分割網絡的單一輸入,將各自的分割結果相結合得到最終的分割結果。輸入級融合網絡[23]通常在通道維度上將多模態圖像疊加得到融合特征,用于訓練分割網絡。
本文考慮到輸入級融合網絡可以最大限度地保留原始圖像信息并學習圖像內在特征,采用輸入級融合網絡來充分利用多模態圖像的特征表示。為了更加關注重要信息,本文在輸入級融合網絡中添加了雙通道交叉注意力機制,既能夠融合多模態特征又能關注到其中的大腦細節信息。
本文引入注意力機制,提出一種新穎的多模態交叉重構倒金字塔網絡MCRAIP-Net,實現醫學腦圖像的分割,該網絡主要包含多模態交叉重構編碼結構和倒金字塔解碼器結構兩個部分。
由于不同模態的MRI 圖像能夠表征不同的信息,因此有效地融合多模態信息對于實現高質量的分割具有重要意義。本文使用并行前饋編碼器結構提取不同模態的特征,并在每個分辨率上進行融合,該融合過程主要分為兩個步驟:1)在多模態編碼器模塊中進行初步融合;2)將初步融合的特征送入雙通道交叉重構注意力模塊中進一步融合。
在初步融合過程中,本文將T1、T1-IR 和T2-FLAIR三個模態的MRI 數據作為輸入,采用最大池化對每個模態的數據獨立地進行下采樣,從而有效捕獲3D 圖像的上下文信息。將同一分辨率級的特征按像素級相加,這樣的設計不僅能夠提高網絡的表達能力,還可以減少參數量。多模態編碼器模塊結構如圖1 所示。假設第l層的三個模態特征在初步融合后得到的特征為Featurel_1 和Featurel_2,其中l∈1、2、3,至此,完成多模態的初步融合。

圖1 多模態編碼器模塊結構Fig.1 Structure of multi-modality encoder module
第二步融合是對初步融合的特征進行交叉重構融合。雙通道交叉重構注意力模塊結構如圖2所示。

圖2 雙通道交叉重構注意力模塊結構Fig.2 Structure of dual-channel cross reconstruction attention module
DCRA 模塊的輸入是第一步的融合特征Featurel_1 和Featurel_2。兩個融合特征的大小均為I×J×K,其中,I、J、K分別表示特征圖的長、寬、高。首先,分別對兩個輸入進行一次卷積,其目的是充分融合每個輸入中包含的兩個模態信息,在卷積之后得到特征F1、F2;然后,將特征F1、F2 按像素級相加得到特征fl,ch;最后,使用全局平均池化對特征fl,ch沿軸向、冠狀和矢狀方向進行空間信息壓縮,以獲得空間統計信息,其中ch 表示第ch 個通道,ch ∈[1,Ch]。的計算過程如式(1)~式(3)所示:



其中:ωl,ch(i,j,k)表示空間像素(i,j,k)的權重值。
每個像素通道的加權張量是使用所有模態的空間信息產生的,這樣能夠增強網絡對圖像特征信息的表達。本文將特征F1和F2 分別與重構的三維權重相乘并按像素級相加,得到重構注意的特征,該特征能更好地表達多模態的三維特征信息。
本文提出一種基于3D U-Net的MCRAIP-Net網絡,其網絡結構如圖3 所示,在圖中每個特征上都標記了通道數量。

圖3 多模態交叉重構的倒金字塔網絡結構Fig.3 Structure of inverted pyramid network with multi-modality cross reconstruction
為了對當前分辨率下的特征向量進行重構加權,本文對編碼器每一個分辨率級的特征都使用了雙通道交叉重構注意力模塊,以捕獲更有效的特征,將雙通道交叉重構注意力模塊的輸出特征跳轉連接到同一分辨率級的解碼器中,降低下采樣時信息丟失對分割精度的影響。在深度神經網絡中,通常僅對網絡最后一層的輸出特征進行分類,該特征經過多次連續的下采樣和上采樣后得到,在一定程度上存在表達不準確的問題。為解決該問題,本文采用倒金字塔解碼器(如圖3 中虛線框所示),將解碼器中每一層的特征都參與到最后的分類任務中。具體做法是:將低分辨率特征通過雙線性插值的方法恢復到輸入圖像大小,再將這些特征進行拼接并通過3×3×3 的卷積來實現融合,對融合特征進行1×1×1 卷積,最后采用Sigmoid 函數對卷積結果進行判決,最終完成分割任務。
本文實驗均在Tensorflow 開源框架下實現,訓練和測試的平臺 是Intel?Xeon?處理器,兩塊NVIDIA GeForce GT1080ti顯卡(顯 存8 GB)的windows(64 位)系統。網絡權重更新迭代次數設為5 000 次,網絡模型的初始學習率為0.001,權重每更新1 000 次學習率下降1/2。
本文為了更好地評價所提的網絡模型,在兩個主流的醫學腦圖像數據集MRBrainS13 和IBSR18 上進行實驗。MRBrainS13 數據集是對不同程度白質病變的糖尿病患者采集獲得的,該訓練數據集有5 個研究對象(2 個男性、3 個女性),對每個成像受試者進行掃描,獲取多模態的MRI 大腦數據,數據包括T1、T1-IR 和T2-FLAIR 三種模態,每種模態數據的大小為240×240×240。在實驗中,本文將數據的80%作為訓練集,10%作為驗證集,10%作為測試集。所有的圖像都經過了偏差矯正,其目標分割圖像由醫學專家手工分割獲得。IBSR18 數據集包含18 個T1 MRI 數據,大小均為256×256×128,MRI掃描圖像和醫學專家手工分割結果由馬薩諸塞州綜合醫院的形態測量分析中心提供。
為了評價本文算法的有效性和可靠性,本文使用最常用的三個評價指標來評估網絡對腦組織(WM、GM和CSF)的分割性能。這三個指標分別是Dice系數(Dice Coefficient,DC)、絕對體積差(Absolute Volume Difference,AVD)和豪斯多夫距離(Hausdorff Distance,HD),其表達式如式(5)所示:

其中:P表示預測模型的分割圖像;G表示人工分割的真實圖像;VP表示預測分割結果的體積;VG表示真實分割圖像的體積。h(P,G)和h(G,P)的表達式分別如式(6)和式(7)所示:

Dice 系數越大表示分割越準確,HD 和AVD 值越小表示分割性能越好。
本文基于MRBrainS13 數據集進行實驗,以驗證所提各模塊的有效性,實驗結果如表1 所示。

表1 在MRBrainS13 數據集上的消融實驗結果Table 1 Results of ablation experiments on the MRBrainS13 dataset
將未嵌入MEM 模塊、DCRA 模塊和IPD 模塊的3D U-Net 作為基礎網絡。在逐步將MEM、DCRA 和IPD模塊添加到3D U-Net 之后,網絡的分割性能也相應得到提高。在3D U-Net 中加入MEM 模塊后(網絡模塊表示為3D U-Net+MEM),在9 個評價指標中,除了CSF的AVD 指標以外,相比3D U-Net 其他8 項指標都有所提升,尤其是WM 和GM 的Dice 指標,分別提升了2.03和2.39 個百分點。在3D U-Net+MEM 框架基礎上加入DCRA 模塊后(網絡模塊表示為3D U-Net+MEM+DCRA),相比3D U-Net+MEM 又有6 個指標得到提升,其中,WM 和GM 的Dice 指標分別從90.89%和87.83%提高到91.57%和88.44%,說明本文構造的雙通道交叉重構注意力模塊能夠有效提取不同模態的特征,從而提高網絡的分割性能。
為驗證IPD 模塊的有效性,本文算法基于3D U-Net+MEM+DCRA+IPD 框架做了第四組實驗。從表1 可以看出,3D U-Net+MEM+DCRA+IPD 框架取得了最優的分割結果。因此,本文提出的算法具有更好的特征提取和分割性能,所提的分割網絡模型在分割精度上較3D U-Net 有明顯的提升,但是其參數量比3D U-Net 網絡增加了將近一倍,因此其運行效率低于3D U-Net 網絡。
加入不同模塊后模型所需的參數量以及對每個32×32×32 三維圖像的運行時間對比如表2 所示。從表2 可以看出,雖然MCRAIP-Net 所需參數量和運行時間較3D U-Net 更多,但表1 數據已表明MCRAIPNet 的分割精度最高。

表2 不同模型的參數量和運行時間對比Table 2 Parameters quantity and running time comparison among different models
本文消融實驗結果如圖4 所示,本文給出三個分割實例的實驗結果對比,分別為例1、例2、例3。Ground-Truth 代表真實分割圖像,從圖中方框標記的腦組織細節信息可以看出,與真實分割結果對比,本文提出的算法對細節特征的分割更加準確,進一步驗證本文所提的MEM 模塊、DCRA 模塊以及IPD 模塊的有效性。

圖4 消融實驗的分割結果Fig.4 Segmentation results of ablation experiment
實驗結果表明,本文提出的MCRAIP-Net 可以有效地對多模態數據進行訓練,并且獲得更優的分割結果。
本文將MCRAIP-Net 算法與四種目前最先進的醫學腦圖像分割算法進行對比,包括3D U-Net[7]、HyperDense-Net[24]、MMAN[25]和SW-3D-Unet[9]。實驗統計數據如表3 所示。從表3 可以看出,在除了CSF 的Dice 系數和AVD 以及CSF 的AVD 三個指標之外,本文提出的MCRAIP-Net 算法的6 個指標均優于其他算法,本文提出的深度網絡模型的分割效果總體優于其他算法。以GM 的分割為例,本文算法得到的Dice 系數比SW-3D-Unet 提高2.39 個百分點。從表3 可以看出,本文算法的分割性能相比于3D U-Net 和HyperDense-Net 均有較大的提升,以WM為例,相較于3D U-Net 的Dice 系數平均提升了2.81 個百分點,相較于HyperDense-Net 的Dice 系數平均提升2.21 個百分點。因此,本文算法能更準確地完成腦部圖像分割任務。

表3 在MRBrainS13 數據集上不同算法的分割結果Table 3 Segmentation results among different algorithms on MRBrainS13 dataset
在MRBrainS13 數據集上不同算法的實驗結果對比如圖5 所示。

圖5 在MRBrainS13 數據集上不同算法的實驗結果對比Fig.5 Experimental results comparison among different algorithms on MRBrainS13 dataset
從圖5 可以看出,相較于其他四種算法,本文算法分割圖像的整體形態與真實標簽最接近,對腦組織分割也更準確,特別是在圖中方框標記的區域。本文算法在測試集上的多模態分割示例如圖6 所示。本文算法分割出的腦組織邊界十分清晰,也證明了本文算法在腦組織分割任務中具有較好的分割性能。

圖6 在測試集上本文算法的多模態分割示例Fig.6 An example of multi-modality segmentation of the proposed algorithm on test dataset
為驗證本文提出的網絡架構也適用于分割單模態數據,本文在IBSR18 數據集上進行對比實驗,將本文所提算法與U-Net[6]、Residual U-Net[26]、Inception U-Net[27]、SegNet[28]和MhURI[29]的分割結果進行對比。不同算法的圖像分割評價指標如表4 所示。以Dice 系數為例,從表4 可以看出,本文算法的Dice 系數分割指標總體高于其他對比算法。實驗結果表明,本文算法在只有單模態情況下也能取得較好的分割結果。

表4 在IBSR18 數據集上不同算法的分割結果Table 4 Segmentation results comparison among different algorithms on IBSR18 dataset
本文提出一種新穎的深度學習網絡,用于實現人腦磁共振圖像的分割。將T1、T1-IR 和T2-FLAIR三種模態的數據作為輸入,通過多模態交叉重構編碼器對各模態數據進行下采樣實現特征提取,并對同一分辨率級的特征進行兩級融合,其中在雙通道交叉重構注意力模塊中不僅充分融合了三模態的特征,還對特征進行重構加權和細化。基于解碼器各分辨率級的特征,利用倒金字塔解碼器實現腦組織的分割,有效提升圖像的分割精度。實驗結果表明,本文算法不僅具有較優的細節特征提取能力,而且能有效融合不同模態的信息。后續將引入邊緣檢測注意力模塊來定位待分割組織的邊界,并利用正則化方法進行深度監督,進一步提升網絡模型的分割精度和訓練效率。