彭 璟,羅浩宇,趙淦森,林成創,易序晟,陳少潔
1.華南師范大學 計算機學院,廣州510663
2.廣州市云計算安全與測評技術重點實驗室,廣州510663
圖像分割與圖像分類、目標檢測同為圖像處理技術在計算機視覺應用下的重要研究分支。圖像分割,具體可分為語義分割與非語義分割兩大類。語義分割,也稱像素級分類,是將屬于同一對象類的圖像部分聚集在一起的任務。相反,非語義分割僅基于單個對象類的一般特征將像素聚集在一起[1]。圖像分割技術通常用于定位圖像中目標和邊界的位置,為圖像內容的進一步理解打下良好的基礎。
傳統的圖像分割技術包括基于閾值的方法、基于邊緣的方法、基于區域的方法、基于特定理論的方法等[2]。受限于計算機的硬件設備限制,傳統的圖像分割技術僅能對灰度圖像進行處理,后期才逐漸發展到可以對RGB 圖像進行處理的階段,但在分割的精度和效率上仍難以達到實際應用的要求。
近些年來,隨著集成電路上可容納的電子元器件數目不斷翻倍,GPU的運算性能越來越強,受益于此的深度學習技術也因此迅猛發展,結合深度學習技術的圖像分割算法逐漸成為該領域的主流算法,被廣泛應用于移動機器人、自動駕駛、無人機、醫學診斷等實際場景中。目前有部分綜述研究對基于深度學習的圖像分割技術進行了總結。例如文獻[3-4],對現有的基于深度學習的圖像分割方法做出了綜述,為后來的研究者提供了很好的幫助,但是文獻[3-4]主要集中于圖像分割整個領域,缺乏對某個實際應用場景的單獨綜述性講解。文獻[5]概述了基于深度學習的醫學影像分割算法及其網絡架構、訓練技巧和難點,但對深度學習技術應用于其中的最新研究成果有失詳盡。
因此,針對計算機視覺結合深度學習技術在醫學影像分割領域的應用,還缺乏全面的綜述性研究,本文撰寫的主要目的是嘗試對當前深度學習下的醫學影像分割算法進行綜述,為相關研究提供參考。本文首先敘述了計算機視覺下醫學影像分割研究的任務和難點,隨后根據深度學習下醫學影像分割算法的發展歷程和所采用的骨干網絡,從基于全卷積神經網絡的方法、基于U-Net網絡及其變體的方法和基于特定設計思想的方法三個分類進行了歸納和總結,重點闡述了每種算法的網絡架構并分析了存在的不足。其次,介紹了醫學影像分割算法常用的評價指標和數據集。最后,指出了醫學影像分割領域未來的研究方向。
醫學影像分割是醫學影像分析中的重要領域,也是計算機輔助診斷、監視、干預和治療所必需的一環,其關鍵任務是對醫學影像中感興趣的對象(例如器官或病變)進行分割,可以為疾病的精準識別、詳細分析、合理診斷、預測與預防等方面提供非常重要的意義和價值。受深度學習技術在多個領域成功應用的推動,醫學影像分割的研究人員將基于深度學習的方法應用于大腦[6-8]、肝臟[9]、胰腺[10]、前列腺[11]和多器官[12]分割等方面。相比傳統方法,這些基于深度學習的方法,在醫學影像分割任務中取得了卓越的性能。
與自然圖像相比,醫學影像除了具有分辨率低、對比度低、目標分散等自身特性外,對分割算法結果的準確性和穩定性也有著更高的要求。自然圖像分割更重視像素點的多分類信息,往往對多個類別進行分割,對分割細節要求不高。而對于醫學影像分割而言,一般不需要進行多分類,只需要進行病灶或器官的區分即可,但醫學影像的分割細致程度要求較高,不正確或是不穩定的分割將會直接影響病人后續的診斷和治療,從而失去了對醫學影像分割的本來意義。在醫學影像分割任務中,目前主要存在以下幾個難點:
(1)標注數據少[13]。造成該問題的一個重要的原因是收集標注困難,手工標注醫學影像是一個費時費力的過程,標注質量的好壞很大程度上取決于專家的臨床經驗和耐心程度,而這個標注過程在實際的臨床實踐中可能并不需要。
(2)傳感器噪聲或偽影[14]。現代醫學影像最基本的成像模態有XR(X光)、US(超聲)、CT(電子計算機斷層掃描)和MRI(磁共振成像)等,用于成像的醫學設備會存在物理噪聲和圖像重建誤差,而醫學影像模態和成像參數設定的差別則會造成不同大小的偽影。在此基礎上,dicom(醫學數字成像和通信)的歷史標準不統一、醫學設備性能不一致等問題,給醫學影像分割任務帶來了更大的挑戰。
(3)分割目標形態差異大[15]。患者之間存在胖或瘦、高或矮、成年人或小孩等體型差異,且病變的大小、形狀和位置可能存在巨大差異,因此解剖結構上會有差異。不同的分割部位也存在差異,以血管和腫瘤的分割為例,目標都非常小,而且極其不規則,因此不同模態、不同分割部位往往需要不同的算法,有時還需要考慮到先驗知識的加入。
(4)組織邊界信息弱[16]。人體內部的一些器官都是具有相似特征的軟組織,它們相互接觸且邊界信息非常弱,而胰腺腫瘤、肝腫瘤、腎臟腫瘤等邊界不清楚的腫瘤往往還非常小,導致很難被識別到。
(5)維度信息豐富[17]。自然圖像是二維的,醫學影像絕大多數都是三維的,直接將自然圖像分割算法遷移到醫學影像分割中無法充分的利用維度信息,雖然有不少系統性的工作,但三維的圖像分割技術遠遠沒有二維那么趨于成熟。
早期的圖像分割算法建立在傳統方法上,例如邊緣檢測濾波器等數學方法。然后,依靠手工提取特征的機器學習方法在很長一段時間內成為了一種占據主導地位的技術,設計和提取特征的復雜性制約了此種技術的發展。與人工規則構造特征的方法相比,基于深度學習的方法能夠刻畫出數據更豐富的內在信息,從而逐漸成為了圖像分割領域的首選方法。本章按照深度學習下的醫學影像分割算法的發展歷程和所采用的骨干網絡,將其劃分為基于全卷積神經網絡、基于U-Net網絡及其變體和基于特定設計思想3類醫學影像分割算法,分別介紹了3類分割方法的基本思想、代表性網絡架構以及優缺點等。
在CNN 卷積神經網絡模型用于圖像分類時,末尾的全連接層會將原始圖像中的二維矩陣信息壓縮,導致圖像的空間信息丟失,這對卷積神經網絡模型用于圖像分割會產生很大影響。全卷積神經網絡[18]的問世開創了卷積神經網絡用于圖像分割的先河,其網絡架構如圖1所示。它的基本思想是將傳統卷積神經網絡模型中的全連接層替換成卷積層,接著使用反卷積操作在最后輸出的特征圖上進行上采樣,并引入跳躍連接改善上采樣粗糙的像素定位,將AlexNet[19]、VGG16[20]、GoogLeNet[21]等用于圖像分類的卷積神經網絡,改造成了可以實現圖像分割的密集預測網絡,且在PASCAL VOC 等圖像分割數據集上獲得了顯著的分割精度提升。

圖1 FCN網絡架構
Ben-Cohen 等人[22]首次探索了使用FCN 來完成CT影像中肝臟和腫瘤的分割任務,與基于固定尺寸輸入的CNN 卷積神經網絡模型相比,FCN 可以接受任意大小的輸入,并通過有效地推理和學習產生相應大小的輸出,因此可以消除網絡的冗余計算并取得接近于人工分割的結果。Yuan等人[23]利用19層深度的FCN訓練了一種端到端的皮膚黑色素瘤分割方法,為了解決皮膚鏡圖像中的類別不平衡問題,作者還設計了新的基于Jaccard距離的損失函數,在ISBI 2016 數據集上獲得了當時最佳的分割效果。Dasgupta 等人[24]首次將FCN 引入到視網膜圖像的血管分割問題,并結合結構化的預測方法,在DRIVE數據庫上的實驗結果表明了FCN網絡的卓越性能。
雖然FCN 的輸入可為任意尺寸大小的圖像,且可以輸出和輸入大小一致的分割圖,但通過簡單的上采樣操作而得到的結果還是不夠精細,分割的輸出圖仍比較模糊和平滑,對圖像中的細節不敏感[25],因此目前主要應用在雷達圖像分割[26-28]等工業實踐中。
FCN 網絡結構為圖像分割技術提供了能夠達到像素級分割的基礎,更為后來的研究人員提供了一種全新的思路和探索方向。研究人員以全卷積神經網絡為基礎提出了SegNet[29]、Deeplab[30]、RefineNet[31]、DANet[32]等一系列用于圖像分割的神經網絡模型,在分割的精度和效率上不斷提升,但由于自然圖像和醫學影像的差異性,在目前的醫學影像分割領域中,基于U-Net 網絡及變體的網絡架構被廣泛使用,本節闡述了這些用于醫學影像分割的代表性算法。
2.2.1 U-Net
U-Net 是醫學影像分割領域最著名的一個網絡架構,在2015年由Ronneberger等人[33]參加ISBI Challenge提出的一種基于FCN的分割網絡。經過修改和擴展后的U-Net能夠適應很小的訓練集,并且輸出更加精確的分割結果。如圖2所示,U-Net的上采樣過程中依然有大量通道,這使得網絡將上下文信息向更高分辨率傳播,且其擴展路徑與收縮路徑對稱,形成了一個U型的形狀段,并通過跳躍連接的方式融合來自不同階段的特征圖。

圖2 U-Net網絡架構
U-Net 網絡架構一經提出,就在醫學影像分割領域吸引了很多研究者的注意,如Gordienko 等人[34]使用U-Net 網絡進行胸部X 光影像的肺分割實驗,獲得的結果表明U-Net 網絡能進行快速且精準的醫學影像分割。當面對醫學影像分割任務時,U-Net這種擴展路徑和收縮路徑所組成的編碼-解碼的網絡架構成為了首選,同時在新技術的推動下研究人員基于U-Net網絡開發了很多變體。
2.2.2 加入密集連接的U-Net算法
密集連接的思想來自于DenseNet[35],在DenseNet出現之前,卷積神經網絡的進化一般通過層數的加深或者加寬進行,DenseNet通過對特征的復用提出了一種新的結構,不但減緩了梯度消失的現象同時模型的參數量也更少。
U-Net++網絡架構在2018年被Zhou等人[36]提出,創新點在于將密集連接加入U-Net網絡,從而引入深度監督[37]的思想,并通過重新設計的跳躍連接路徑把不同尺寸的U-Net 結構融入到了一個網絡里。如圖3 所示,在原始的U-Net網絡架構上,UNet++加入了更多的跳躍連接路徑和上采樣卷積塊,用于彌補編碼器和解碼器之間的語義鴻溝。中間隱藏層使用的深度監督一方面可以解決U-Net++網絡訓練時的梯度消失問題,另一方面允許網絡在測試的階段進行剪枝,減少模型的推斷時間。

圖3 U-Net++網絡架構
Huang 等人于2020 年提出U-Net3+[38],它的網絡結構如圖4所示。針對U-Net++沒有從多尺度中提取足夠的信息這一不足之處,U-Net3+利用全尺度的跳躍連接和深度監督來改善該問題。全尺度的跳躍連接把來自不同尺度特征圖中的高級語義與低級語義結合,而深度監督則從多尺度聚合的特征圖中學習層次表示。此外,U-Net3+還進一步提出了一種混合損失函數,并設計了一個分類引導模塊來增強器官邊界和減少非器官圖像的過度分割,從而獲得更準確的分割結果。

圖4 U-Net3+網絡架構
U-Net++和U-Net3+網絡架構的第一個優勢就是精度的提升,這個是它整合了不同層次的特征所帶來的,第二個是靈活的網絡結構配合深度監督,讓參數量巨大的深度神經網絡在可接受的精度范圍內大幅度地縮減參數量。但是因為多次跳躍連接操作,同樣的數據在網絡中會存在多個復制,模型訓練時的顯存占用相對較高,需要采用一些顯存優化技術來更好地訓練模型。
2.2.3 融合殘差思想的U-Net算法
神經網絡因為寬度和深度的增加,就會面臨梯度消失或梯度爆炸引起的網絡退化問題,為此He 等人[39]提出了殘差網絡(ResNet)。如圖5所示,殘差塊的輸入通過殘差路徑直接疊加到殘差塊的輸出之中,殘差塊會嘗試去學習并擬合殘差以保證增加的網絡層數不會削弱網絡的表達性能。

圖5 ResNet殘差學習塊
2019 年Ibtehaz 等人[40]借鑒了ResNet 提出了Multi-ResUNet網絡,MultiResUNet運用殘差思想改造了U-Net中的卷積塊和跳躍連接。如圖6(a)所示,MultiResNet使用一系列3×3卷積核來模擬5×5卷積核和7×7卷積核的感受野,卷積塊的輸入經過1×1 卷積核后經由殘差路徑直接與卷積后的輸入疊加,作者稱之為MultiRes block,在減少網絡計算量的同時可以提取不同尺度的空間特征。作者同時提出了Res Path 來減少跳躍連接過程中所丟失的空間信息,如圖6(b)所示,Res Path 由一系列的3×3卷積、1×1卷積和殘差路徑組成,編碼器的輸入特征圖經過Res Path與解碼器特征圖連接,一方面減少了語義鴻溝,另一方面增強了網絡的學習能力。

圖6 MultiResUNet的MultiRes block和Res Path
ResUNet 由Zhang 等人[41]提出,該模型在U-Net 網絡中融合了殘差思想,被設計用于航拍圖像的道路檢測,2019 年Jha 等人[42]在其基礎上增加了SE(Squeezeand-Excitation)模塊[43]和空洞空間金字塔池化(ASPP)模塊[44],提出了用于結腸息肉分割的ResUNet++網絡。SE模塊通過全局平均池化操作將圖像每個通道的特征壓縮為1個值,再由全連接層將通道的激勵映射到[0,1]范圍,最后將其與輸入圖像的每個通道相乘,能有效地建模通道間的相關性。ASPP 模塊的設計來自于He 等人提出的空間金字塔池化網絡,該模塊將不同大小的空洞卷積核堆疊,可以有效地提取同一特征圖上的不同尺度信息。雖然ResNet殘差學習塊結構確實有助于網絡精度的提升,但同時也增加了網絡的訓練時間。
2.2.4 基于循環神經網絡的U-Net算法
2018 年Alom 等人[45]提出了R2U-Net 網絡架構,該網絡架構整合了U-Net、ResNet、RCNN[46]的結構,在血管、肺部、視網膜等多個醫學影像分割任務上都獲得了很好的實驗結果。RCNN 將卷積神經網絡和循環神經網絡結合,能讓神經網絡記憶序列化的輸入信息,在隱式地增加了原始CNN 深度的同時,增強了模型捕獲特征長期依賴的能力。R2U-Net 中的循環殘差卷積單元(RRCU)如圖7 所示,通過將原始U-Net 網絡架構中的每個卷積單元替換成RRCU,融合了編碼-解碼、殘差連接、循環卷積的設計思想,使得R2U-Net 網絡能夠提取到更好的特征,在擁有相同模型參數量的情況下可以獲得更好的表現。

圖7 R2U-Net循環殘差卷積單元
BCDU-Net由Azad等人[47]于2019年提出,是在U-Net網絡中應用循環神經網絡的另一種策略。LSTM[48]是一種特殊的RNN,主要是為了解決長序列訓練過程中的梯度消失和梯度爆炸問題。ConvLSTM[49]是CNN和LSTM的結合體,BCDU-Net通過在跳躍連接路徑中加入雙向的ConvLSTM,以非線性方式合并編碼和解碼階段對應的特征圖,以產生更精細的分割結果。作者還在U-Net最后一個編碼階段加入了密集連接,以產生更多樣化的特征來增強模型的表達能力。
盡管循環神經網絡能更好地捕捉到序列數據中的語義信息,但因其狀態計算固有的特性難以并行化拓展,并且基于RNN 的醫學影像算法更適合于分割跨越多個切片的病變或器官,對于單一切片的分割任務相比其他算法可能并不具有優勢。
2.2.5 集成注意力機制的U-Net算法
2018 年Oktay 等 人[50]提出了Attention U-Net 網絡架構。注意力機制借鑒了人類的注意力思維方式,最初被應用于基于RNN 循環神經網絡模型的圖像分類[51]、自然語言處理[52]、圖像說明[53]等深度學習任務中并取得了顯著成果,隨后Yin等人[54]對于在CNN卷積神經網絡模型中使用注意力機制做了探索性工作,如何在CNN中使用注意力機制也成為了研究的熱點。
如圖8 所示,Attention U-Net 在對擴展路徑每個階段上的特征圖與收縮路徑中對應特征圖進行拼接之前,使用了一個注意力門抑制無關區域中的特征激活來提高模型的分割準確性,在達到高分割精度的同時而無需額外的定位模塊。與U-Net 和相比,Attention U-Net 在胰腺和腹部多器官分割數據集上,提升了分割的精度同時減少了模型訓練和推理的時間。

圖8 Attention U-Net網絡架構
2020 年Li 等人[55]通過在U-Net++網絡的跳躍連接中嵌入注意力門提出了ANU-Net 網絡架構。如圖9 所示,ANU-Net網絡中的注意力門的兩個輸入分別為上采樣信號g和編碼器特征f,g作為門控信號可以從f中進行選擇,經過卷積、批規范化和激活等運算后將得到的注意力圖α與f相乘從而產生注意力門的輸出,再與解碼器對應階段的特征進行拼接。同時,為了充分利用U-Net++網絡中的全分辨率特征信息,ANU-Net參考Dice loss、Focal loss[56]和二進制交叉熵損失,設計了一個新穎的混合損失函數,以緩解數據不平衡問題并使模型將注意力傾向于相對更難分割的樣本。

圖9 ANU-Net網絡中的注意力門
由于注意力門為特征圖的每一個元素都重新賦予了一個權重,因此可以靈活地捕捉全局特征和局部特征的聯系,同時增加了模型的可解釋性,但潛在的問題是有可能破壞網絡深層的特征信息,影響模型的學習能力。
2.2.6 面向3D影像的U-Net算法
3D U-Net[57]網絡架構是原始U-Net 網絡架構的一個簡單擴展,由U-Net的研究團隊在2016年提出并應用于三維圖像分割。因為電腦屏幕上只能展示二維的切片,所以直接在三維層面上標注分割標簽比較困難。與此同時,相鄰的二維切片往往包含了近似的圖片信息?;谏鲜鰞蓚€事實,作者提出了只需要稀疏標注的二維圖像進行訓練的3D U-Net 網絡架構。3D U-Net 通過將U-Net原來的2D卷積、池化、上采樣操作替換成對應的3D操作,并加入Batch normalization層[58]實現了對三維醫學影像的直接分割。
如圖10所示,應用3D U-Net網絡架構進行醫學影像分割有兩種方式。圖10(a)的輸入是三維醫學影像的稀疏標注,只標注了其中的一部分二維切片,3D U-Net經過訓練可以輸出三維醫學影像的密集分割結果。圖10(b)假定需要分割的三維醫學影像有類似的代表性訓練集,經過訓練的3D U-Net 在不帶標注的三維醫學影像上計算并輸出分割圖。

圖10 3D U-Net應用場景
2016 年Milletari 等人[59]提出了V-Net 網絡架構,是原始U-Net 網絡架構的另一種3D 實現。V-Net 相比3D U-Net最大的亮點在于吸收了ResNet的思想,在網絡拓展路徑和收縮路徑的每個階段中都引入殘差學習的機制。同時,受Springenberg 等人[60]研究的啟發,V-Net 以步長為2的2×2×2卷積核取代拓展路徑里的池化操作來降低特征圖的分辨率。為了解決醫學影像中分割目標和背景的類別不平衡問題,V-Net還設計了新的Dice目標函數。
V-Net 和3D U-Net 都是針對三維醫學影像所直接構建的端到端的深度卷積神經網絡,目的是運用3D 卷積從三維進行編碼,以良好的分割某些在二維沒有明顯表征的病理。3D分割算法在利用醫學影像的三維組織連通性方面具有優勢,但相較2D 分割算法其參數量更多,訓練和推理過程對設備的算力要求更高。
2.2.7 自適應數據集的U-Net算法
醫學影像分割領域每年有大量的新方法被提出,但在某個器官或病理分割任務中表現優秀的網絡,往往無法良好地應用在其他器官或病理的分割任務上,一個重要的原因是由于醫學數據集之間的數據規模、圖像大小和灰度表示等方面差別很大,導致了模型推廣的失敗。
nnU-Net 是Isensee 等人[61]于2018 年提出的一個基于U-Net和3D U-Net的醫學影像分割算法框架。nnUNet沒有設計新的網絡架構,僅對U-Net和3D U-Net在網絡的細節上進行了修改,著重于網絡訓練技巧的優化。nnU-Net對模型的輸入數據進行裁剪、重采樣、標準化預處理和數據增強后,基于數據集的屬性自動設置batch size、patch size等超參數,分別在U-Net、3D U-Net和兩個3D U-Net級聯模型中彼此獨立地進行五折交叉驗證訓練,得到的5個網絡則被用于在模型測試時進行集成推理。
Perslev 等人[62]于2019 年提出了一種基于多視圖數據增強的MPUNet分割模型,訓練完成后無需進行超參數調整即可準確地完成13個醫學影像分割任務。如圖11 所示,通過從醫學3D 影像的多個視圖進行各向同性采樣,獲取到大量與訓練相關的解剖學圖像,進行數據增強后輸入到6 個2D U-Net 網絡中進行分割訓練,最后對6 個網絡的分割結果進行交叉驗證以完成模型的融合。MPUNet 既考慮了醫學影像的3D 性質,又保持了2D 模型的分割效率,且只進行了很少的預處理和后處理,就能很好地適應不同大小、形狀和空間分布的目標分割任務。

圖11 MPUNet模型概述
nnU-Net 和MPUNet 通過簡單地使用U-Net 與3D U-Net網絡架構,可以動態地適應不同的醫學影像數據集,在大部分醫學影像分割任務中取得了非常好的成績,證實了該類算法框架的魯棒性,但目前來說該類網絡的訓練時間過長,離最終的臨床應用目標有所偏離。
2.2.8 基于神經網絡架構搜索的U-Net算法
深度神經網絡模型被廣泛應用在計算機視覺任務中并取得了很大成功,然而神經網絡架構的輕量化仍然是一個巨大的挑戰。針對這一問題,模型壓縮技術引起了研究人員的廣泛關注,相關的研究包括手工設計輕量化網絡模型[63-64]、知識蒸餾[65]、深度壓縮[66]和神經網絡架構搜索[67](NAS)等。其中由于NAS 可模塊化應用的特點,被較多地運用在U-Net算法的改進上。NAS是一種自動化機器學習技術,通過定義搜索空間、搜索策略和性能評估策略,旨在讓網絡自動發現運行效率更高的輕量化架構。早期的NAS 研究,搜索空間為整個網絡架構,搜索策略包括強化學習、進化算法和貝葉斯優化等方式,因此需要非常高的算力支撐。隨后的NAS 研究主要集中于對神經網絡結構塊Cell[68],用權重共享、梯度下降等方式進行搜索來加速NAS的過程。
2019年Weng等人[69]首次將NAS應用于醫學影像分割,通過用NAS搜索到的Cell替換U-Net網絡中的對應模塊,得到了NAS-UNet 網絡架構。如圖12 所示,Cell的內部結構為一個有向無環圖,每一個Cell的輸入為前兩個Cell 的輸出,圖的邊代表了搜索空間,分別為下采樣操作集、上采樣操作集與普通卷積操作集。NAS的搜索過程轉化成了一個有向無環圖里面選擇子圖的過程,而子圖權重共享的方式能有效地加速NAS,完成搜索后將各個中間節點的輸出疊加作為Cell 的輸出。以Cell堆疊構成的NAS-UNet 網絡,參數量僅為U-Net 網絡的6%,卻在多個醫學影像數據集上取得了更高的分割精度。

圖12 NAS-UNet中Cell的結構圖
Zhu等人[70]于2019年提出的V-NAS網絡架構,進一步將NAS的搜索空間限定于預先定義的3種卷積操作,分別為2D、3D 和偽3D 卷積,對應了3 種不同的卷積內核。作者利用NAS 對V-Net 中所有的卷積操作以梯度下降的方式進行搜索,讓模型自動找到最佳的卷積操作組合,相比V-Net或是其他單一卷積操作的網絡,更好地平衡了模型參數量和實際分割表現。
雖然基于神經網絡架構搜索的U-Net 算法在一些分割任務上性能表現突出,但目前NAS 搜索的Cell 大多是相對簡單的網絡操作與激活函數的排列組合,且無法解釋特定網絡架構表現良好的原因。
U-Net 網絡架構自發表以來,成為了大多數醫學影像分割算法的基線模型,啟發了大量研究者去思考U型分割網絡,與此同時也有部分研究者針對醫學影像分割中的實際難點,在融合了特定設計思想的基礎上,探索并提出了一些不同于U-Net的新型網絡架構,本節從相關醫學影像分割算法的設計思想出發,對其中的研究工作做了介紹,旨在為研究者拓寬思路。
2.3.1 基于多任務學習的算法
當前大多數機器學習任務都是單任務學習,對于復雜的學習問題一般分解為簡單且相互獨立的子問題來求解,然后再合并結果得到最初復雜問題的結果,這樣做忽略了問題之間的關聯信息,削弱了模型的泛化效果。多任務學習是一種推導遷移學習方法,主任務使用相關任務的訓練信號來提升主任務的泛化效果[71],針對醫學影像分割任務而言能幫助緩解數據標注稀疏而引發的模型過擬合問題。
2018年Mehta等人[72]提出了Y-Net網絡架構,在乳腺活檢圖像的分割任務中,加入乳腺癌圖片的分類任務。如圖13所示,Y-Net在U-Net的基礎上,引入了殘差網絡的殘差連接以幫助改善分割效果,同時添加了第二個分支用于乳腺癌圖片的分類。首先以分割為目標對Y-Net網絡進行預訓練,然后附加第二條分支共同訓練分割和分類任務。

圖13 Y-Net網絡架構
Murugesan 等人[73]提出了一個適用于醫學影像分割的多任務學習模塊Conv-MCD,該模塊很容易集成到現有的基于深度學習的分割網絡模型中。Conv-MCD 模塊的三個并行學習分支,分別負責分割預測、輪廓提取和距離圖估計,分割預測和輪廓提取屬于分類任務,而距離圖估計屬于回歸任務。Conv-MCD 利用多任務學習能有效地處理醫學影像的類平衡問題并減輕結構信息的丟失,并且沒有引入額外的標注成本。
一般情況下,多任務學習能作為一種正則化方式約束模型從而緩解過擬合問題,但是不合理的任務設計可能導致模型的訓練被某些任務主導,異常任務帶來的負面影響則會降低模型的性能。
2.3.2 基于多模態融合的算法
在醫學影像學研究中,通常會結合使用不同的核磁共振成像模式來克服單一成像技術的局限性。以大腦的分割研究為例,T1 加權的影像能使灰質組織和白質組織產生良好的對比度,而T2 加權的影像能有助于組織異常病變的可視化,因此考慮多種核磁共振成像方式對于獲得準確的診斷結果至關重要。
2019 年Dolz 等人[74]在前人的工作基礎上,提出了HyperDenseNet 網絡架構,通過融合多模態圖像進行醫學影像分割。如圖14所示,HyperDenseNet將密集連接的概念拓展到多模態,網絡的輸入為T1加權和T2加權的三維核磁共振影像,每個成像模態都有一條路徑,密集連接不僅存在于同一路徑的各層之間,而且可以跨越不同路徑,以前饋方式將前一層直接連接到后續所有層,減少模型過擬合的風險。

圖14 HyperDenseNet網絡架構
Kumar 等人[75]在2019 年為融合來自多模態圖像的互補信息,提出了一個用于肺癌PET 和CT 圖像分割的多模態融合網絡。通過兩條不同的編碼路徑,得到CT圖和PET 圖2D 切片的相關圖像特征,然后經過共同學習中間層導出多模態融合圖PET-CT,以加權不同位置特定于模態的特征,最后由重建組件集成來自編碼器不同尺寸的特征圖從而轉化為分割圖。
HyperDenseNet等基于多模態的醫學影像分割算法考慮了不同模態數據之間的互補信息,從而有助于網絡更好地實現病變或器官的分割,但多模態的融合效果和分割的精度仍然有待提升。
2.3.3 基于多階段級聯的算法
現有的醫學影像分割算法大多數都是單階段算法,通過訓練最小化損失函數來直接將器官或病變等目標從圖像中分割出來,而由于醫學影像目標形態差異大、組織邊界信息弱等特點,會導致相對較小的目標在其邊界附近出現不準確的分割。
2018 年Roth 等人[76]提出了一種多階段級聯的3D U-Net,使模型更多地關注分割目標的邊界區域,輸出更精細的分割圖。如圖15所示,作者采用了3D U-Net作為模型的骨干網絡,第一階段3D U-Net 使用基于形態學方法分割出的候選區域C1 進行訓練,以輸出粗粒度分割圖,粗粒度分割圖經過前景擴張后生成候選區域C2,用于第二階段3D U-Net 的訓練從而輸出最終的精細分割圖。

圖15 多階段級聯的3D U-Net訓練流圖
Wang 等人[77]提出的級聯各向異性卷積神經網絡,實現了對腦腫瘤的多階段分割。如圖16 所示,該分割框架由三個級聯的卷積神經網絡組成,作者稱之為W-Net、T-Net和E-Net。W-Net從患者的3D影像中提取出整個腫瘤的邊界框,基于邊界框對輸入圖像進行裁剪后作為T-Net的輸入,以得到腫瘤核心區域的邊界框,進而輸入到E-Net 分割出腫瘤的核心區域。網絡通過將3×3×3的卷積核分解為3×3×1和1×1×3的切片內核,利用了各向異性卷積結合多視圖融合的方法,以解決腫瘤的過度分割問題。

圖16 多階段級聯的腦腫瘤分割框架
這類由粗到細的多階段級聯網絡,相比單階段算法雖然在檢測小目標方面更具優勢,但增加了額外的計算成本,在檢測的實時性上需要改善。
2.3.4 基于特征增強的算法
U-Net 編碼-解碼的體系結構推動了醫學影像分割的發展,但相似的低級特征在多個尺度上被多次提取,導致了特征的冗余使用。其次,無法有效地將最佳的特征表示與每個分割類別相關聯。
2020 年Sinha 等人[78]提出的MS-Dual-Guided 網絡,自適應地集成了局部特征和全局依賴以進行特征增強。如圖17 所示,MS-Dual-Guided 中的位置注意力模塊(PAM)和通道注意力模塊(CAM)分別模擬空間和通道維度中的語義依賴性。位置注意力模塊中的前兩個分支計算位置間的相關性矩陣,再與第三條分支相乘得到空間注意力圖來指導輸入。通道注意力模塊與位置注意力模塊類似,但其輸入不經過卷積層,以保持通道間的相對特征,最后將兩個注意力模塊的輸出匯總,以獲得更好的像素級預測結果。

圖17 MS-Dual-Guided中的注意力模塊
針對卷積和池化操作可能導致的空間特征丟失問題,2019 年Gu 等人[79]提出了一種上下文編碼網絡CENet,來保留特征的空間信息并捕獲更多高級特征。如圖18 所示,CE-Net 主要包含三個組件:特征編碼器模塊、上下文提取模塊和特征解碼器模塊。特征編碼器模塊由預訓練的ResNet 組成,上下文提取模塊由密集空洞卷積塊(DAC)和殘差多核池化塊(RMP)組成??斩淳矸e塊能夠提取各個尺寸的目標特征,殘差多核池化塊使用四個不同大小的池化核并聯以檢測不同大小的目標。特征解碼器模塊用于恢復特征編碼器中的高分辨率特征,輸出與輸入圖像大小相同的分割圖。

圖18 CE-Net網絡架構
基于特征增強的醫學影像分割算法較好地保留了輸入圖片的原始特征,并且通過特定的網絡設計最大化提取了特征信息,存在的缺點是人工痕跡太明顯,且無法良好地泛化到不同類型的分割任務中。
從網絡架構的主要思想、關鍵技術、優缺點及其主要功能對上述算法框架的綜合總結如表1所示。

表1 醫學影像分割領域的代表性算法
在醫學影像分割領域的實踐中,大部分情況下一個網絡模型的訓練需要許多已標注數據的輸入,而不同的算法框架也需要一個共同的數據集來判斷性能的優劣。現實中,個人收集一個較大且有標注的醫學影像數據集難度很大,一方面需要大量的時間和專業領域的知識,另一方面醫療機構出于隱私保護等問題很少會開放相關醫學影像數據,因此可供研究人員利用的數據集大部分是知名研究團隊聯合有關醫療機構開源發布的。表2 從數據集的所屬器官部位、開放年份、具體內容和成像模態等方面,對醫學影像分割領域常用的數據集進行了劃分整理。
從成像模態的角度,相機成像一般只適用于可以非創傷直接觀察的器官部位,是深度學習早期應用于醫學影像分割任務的主要成像方式。X光和CT對以骨質及肺臟等空腔臟器的成像效果很好,同時成像速度快,器官部位的運動偽影較小。MRI 與CT 比較,其主要優點是對軟組織的分辨更加清晰,更容易明確腫瘤等一類小的病灶,但成像速度慢,所以對于大腦、前列腺等相對靜止的器官部位應用更多。
從器官部位的角度,視網膜血管和皮膚黑色素瘤的分割目標相對分散,但由于其成像比較準確直觀,因此其分割難度相對較低,基于編碼解碼的FCN和U-Net算法就可以較為理想地分割出目標。前列腺和心臟的分割任務為對器官部位的提取,目標相對較大,其中前列腺的成像邊界相對模糊、強度分布不均勻,而心臟是一個不停運作的器官,其內部解剖結構復雜且相位會產生變化,因而考慮到注意力機制和特征增強的算法會取得更好的分割效果。乳腺、肺、肝臟、脾臟、腎臟和大腦等器官部位主要是對腫物或病灶的分割,分割目標相對病變的器官部位來說占比較小,往往形狀不規則、形變較大且會跨越多個切片,因此應用多階段分割、多模態融合、RNN 和3D 分割的算法能夠更精細地分割出目標,模型也會更加復雜。胰腺和多器官的分割是目前更具挑戰性的問題,盡管胰腺附近的腹部器官已經可以被分割得較好,但由于胰腺沒有包膜所以邊界很不清楚,多器官分割的難點則在于需要分割的目標尺寸不一致、相鄰器官的空間界限難以確認以及不同器官分割訓練時存在的對抗性,考慮到多視圖信息、模型融合的數據集自適應算法是目前解決這類問題的主流算法。

表2 醫學影像分割領域常用數據集
為了公平地比較圖像分割領域中的不同算法,必須有標準的、被廣泛認可的指標用于評估。常用的醫學影像分割算法評估標準有精確率(accuracy)、召回率(recall)、特異率(specificity)、Dice系數(Dice coefficient)和Jaccard指數(Jaccard index)。
以圖19 為例進行說明,A 為一張醫學影像的真實標注,B 為分割模型的預測結果,則準確率AC、召回率SE、特異率SP、Dice 系數DSC 和Jaccard 指數JAC 分別表示為:


圖19 醫學影像分割結果示例
準確率是預測正確的像素占總像素的百分比,在類別不平衡的情況下,并不能作為很好的指標來衡量分割結果。召回率又稱敏感率(sensitivity),只關注真實標注被正確預測的比例,而特異率的關注則剛好相反,這兩種指標對分割目標的大小比較敏感。Dice 系數是醫學影像分割任務中最常用的評價指標,能較好地規避醫學影像領域中普遍存在的類別不平衡問題。Jaccard 指數又稱交并比(IoU),它與Dice系數的關系為:

實際應用中,往往會根據需求對上述評價指標進行取舍,從多個維度證明分割算法的準確性和穩定性。
本文闡述了醫學影像分割的任務及其難點,對于深度學習下的醫學影像分割算法進行了綜述,介紹了醫學影像分割領域的研究現狀、相關評價指標和數據集。總的來說,基于深度學習的醫學影像分割在未來將發揮實質性的作用,但該技術的落地還存在以下亟待研究的問題:
(1)分割網絡架構的輕量化。對于現階段的醫學影像分割網絡架構來說,進行模型壓縮以減少對硬件設備的算力需求是需要考慮的實際問題。模型壓縮現有的研究方向包括手工設計、知識蒸餾、深度壓縮和神經網絡架構搜索等,醫學影像分割領域也有針對模型壓縮的部分研究工作,如使用3D 空洞卷積的多尺度腦腫瘤分割[80]、基于知識蒸餾的腦腫瘤分割[81]、基于權重量化的腺體細胞分割[82]和基于神經網絡架構搜索的頭頸腫瘤分割[83]等,但這些研究尚處于起步階段,神經網絡模型在嵌入式設備上的存儲與計算仍然是一個未解決的難點。在保證準確率和穩定性的同時壓縮模型,實現醫學影像的實時分割將會是未來研究的重點。
(2)分割結果的不確定性分析。不確定性分析目的是讓模型給出分割結果的同時,指出哪些是不確定的分割,需要人工介入修正。雖然有少數研究工作[84]探索了不確定性分析在醫學影像分割中的作用,但現階段的大多數醫學影像分割算法只輸出確定性的分割圖。允許醫生能夠根據模型預測的不確定性分割結果進行修改,提升分割的結果和質量,這是理論與實際場景結合的重要環節,也是醫學影像分割算法值得進一步研究的問題。
(3)稀疏標注下的弱監督學習。盡管深度學習下的醫學影像分割算法不斷達到更高的分割精度,但仍然離不開大規模的高質量標注數據集支持,因此有不少研究人員嘗試利用未標注和稀疏標注的數據進行弱監督學習,如基于著色還原的皮膚分割[85]、基于點注釋的細胞核分割[86]等,但完成的分割任務相對簡單且算法無法擴展到其他分割任務。如何實現大量標注不完善的數據集的弱監督學習,在自然圖像和醫學影像未來的研究中都尤為重要。
(4)小數據集下的數據增強。克服醫學影像標注稀缺的另一種手段就是數據增強,為深度模型擴充訓練集。傳統的方法包括幾何變換、顏色變換、仿射變換和高斯噪聲等,這類方法取得的效果相對有限?;谏疃葘W習的生成對抗網絡[87]在自然圖像的生成任務中表現突出,也有部分研究工作[88]將其應用于醫學影像分割模型的數據增強中,其他方法還有基于超像素的數據增強[89]、基于無監督的數據增強[90]等,但該類方法都存在生成的數據分布差、算法適用范圍有限等缺點。因此,設計合理且泛化效果好的醫學影像數據增強算法,將會是未來發展的趨勢。
(5)融合先驗知識的分割算法設計。醫學影像分割不同于自然圖像分割,即使是同一張醫療影像,不同經驗的專家也可能給出不同的診斷,有經驗的專家更能快速地找出器官和病變,這表明先驗知識在醫學診斷中占了很大比重。針對這個現象,根據醫學影像中不同對象的灰度分布情況、解剖知識和空間幾何關系以及不同成像設備的特點,融合先驗知識指導模型結構和損失函數設計,應當是未來的研究方向。