


















摘 要: 多模態醫學影像分割是醫學影像分析領域的研究熱點之一。有效利用不同模態影像的互補信息,從多種層面提供病灶區域及其周圍區域的更多信息,可提高臨床診斷的準確性。為了分析深度學習在多模態醫學影像分割領域的研究現狀及發展方向,對該領域近些年的分割方法進行了整理和研究。在分析它們的特點及存在的問題的基礎上,對未來研究方向進行了展望,可幫助相關研究者全面、快速地了解該領域的研究現狀、存在的問題和未來研究方向。
關鍵詞: 深度學習; 醫學影像; 多模態; 分割
中圖分類號: TP391"" 文獻標志碼: A
文章編號: 1001-3695(2022)05-003-1297-10
doi:10.19734/j.issn.1001-3695.2021.10.0424
Survey of multi-modal medical image segmentation based on deep learning
Yang Hongjie1, Xu Qiaozhi1, Yu Lei2
(1.College of Computer Science amp; Technology, Inner Mongolia Normal University, Hohhot 010022, China; 2. People’s Hospital of Inner Mongolia Autonomous Region, Hohhot 010020, China)
Abstract: Multi-modal medical image segmentation is one of the research hotspots in the field of medical image analysis.Effectively using the complementary information of different modal images to provide more information about the focus area and its surrounding area from multiple levels can improve the accuracy of clinical diagnosis.In order to analyze the research status and development direction of deep learning in the field of multi-modal medical image segmentation,this paper sorted and stu-died the segmentation methods in this field in recent years.Based on the analysis of their characteristics and existing problems,this paper prospected the future research direction,which could help relevant researchers comprehensively and quickly understand the research status,existing problems and future research direction in this field.
Key words: deep learning; medical image; multi-modal; segmentation
醫學影像分割作為許多疾病診斷、治療和定期復查的關鍵步驟,是醫學影像分析領域的研究熱點之一。在傳統臨床工作中,醫生需手動對醫學影像中的病灶區域進行分割,消耗了大量人力資源。基于閾值、區域和邊界的半自動分割方法雖然可以輔助醫生進行病灶分割[1~3],但這類方法依賴人工制作的特征,并不適合處理大規模影像數據。近年來,基于深度學習的醫學影像分割研究進展迅速,一些性能良好的分割模型被相繼提出,例如ResNet[4]、FCN[5]、U-Net[6]等。相比手動分割,基于深度學習的醫學影像分割模型精確度更高,速度更快,能夠大幅度降低臨床醫生的工作負擔。基于深度學習的醫學影像分割,已成為計算機視覺領域的重要研究分支之一,受到國內外研究者的廣泛關注。多模態醫學影像相比單模態醫學影像,可從多個層面提供病灶區域及其周圍區域的更多信息,從不同角度顯示病灶特征,是近年患者進行腫瘤診斷的重要手段。但是多模態醫學影像中病灶的分割及診斷對醫生的技術要求較高,耗時耗力。利用深度學習技術對多模態醫學影像中的病灶進行自動分割,可減輕醫生的工作負擔,加快診斷速度,是近年醫學影像分割領域的研究熱點,并取得了一些成果,但距離臨床應用仍有一定距離,還有一些問題尚未解決,需要繼續研究和探索。
近年來,也有一些研究者對多模態醫學影像分析的相關研究進行了分析和總結,例如,范立南等人[7]對多模態醫學影像的融合技術進行了整理,但所涉及的都是基于傳統方法的圖像融合技術,沒有對深度學習技術下的圖像融合技術進行分析。彭璟等人[8]總結和概括了近年基于深度學習的醫學影像分割方法、常用評價指標和數據集,但針對的都是單模態醫學影像。張萍等人[9]綜述了深度學習技術在多模態PET/CT醫學影像分析中的應用,但對于PET/CT影像的融合方式沒有進行介紹。李伊寧等人[10]總結了多模態、深度學習以及多模態融合的應用領域,但沒有分析多模態醫學影像的融合方式和分割方法。本文對近年基于深度學習的多模態醫學影像分割研究進行了調研、分析和總結。相比以上綜述,本文依次介紹了多模態醫學影像的類型、特點以及常用數據集,隨后介紹了多模態醫學影像分割中常用的深度學習模型以及利用深度學習技術對多模態醫學影像進行分割的相關研究,以幫助研究者更全面、更快速地了解基于深度學習技術的多模態醫學影像分割的研究現狀、存在的問題和未來的研究方向。
1 多模態醫學影像簡介
磁共振成像(magnetic resonance imaging,MRI)和正電子發射斷層掃描/計算機斷層掃描(positron emission tomography/computed tomography,PET/CT)技術是目前醫學臨床上最常見的兩種多模態醫學影像技術,也是大部分針對多模態醫學影像研究的主要對象。
1.1 磁共振成像MRI
MRI技術可以提供不同對比度(即模態)的圖像,是一種非侵入、性能良好的軟組織對比成像方式[11]。MRI影像可提供器官和病灶的形狀、大小、位置等信息,在疾病分析和診斷中起著關鍵作用。一個完整的MRI影像包含T1加權(T1)、T1增強對比度(T1c),T2加權(T2)和T2流體衰減反轉恢復(Flair)四種模態。
如圖1所示,每種模態各自對應一幅圖像,分別捕獲了基礎解剖學信息的特定特征,通過組合多種模態能夠提供高度綜合的信息,以便分析器官和病灶的不同子區域。其中,T2和Flair圖像適于檢測病灶周圍的水腫情況,T1和T1c則適于檢測病灶的核心。一般來說,Flair圖像中的病灶區域和正常組織的灰度存在明顯差異,而T1c圖像中病灶區域的邊界特征比較明顯。MRI目前主要用于檢測顱腦、脊柱和脊髓等部位的疾病。
1.2 PET/CT圖像
CT[12]是一種結構成像技術,利用病灶和非軟組織之間強度不同的特點,可以清晰顯示病灶區域,但區分病灶與周圍軟組織的能力稍遜。PET是一種核成像技術,可以顯示體內代謝過程,但其空間分辨率較低,致使圖像中的病灶邊界比較模糊[13]。PET/CT是一種集成影像,同時包含PET的代謝信息和CT的解剖信息,具有較高的清晰度,并且對病灶區域和正常組織有優良的區分能力。三種成像技術的應用實例如圖2所示。PET/CT目前已被廣泛應用于癲癇定位、肺癌和腦血管疾病,與單純使用PET或CT相比,準確率更高。
1.3 多模態醫學影像數據集簡介
基于深度學習的視覺任務往往需要較大的數據集來訓練網絡模型,然而醫學影像涉及病患隱私,且標注難度較大,因此研究者很難收集或獲得一線的臨床數據,而是利用公開發布的數據集開展研究工作。本文從開放年份、病灶部位、具體內容和模態類型等方面整理了目前最常用的MRI和PET/CT公開數據集,其統計結果如表1所示。從表1中可以發現,多模態醫學影像數據集普遍較小,這是因為多模態醫學影像技術沒有單模態醫學影像技術的應用范圍廣泛,而且多模態醫學影像數據集的獲取、標注等所面臨的難度更大;在這些數據集中,MRI圖像數據集相對較多,主要針對頭、頸部,PET/CT圖像數據集則較少,主要針對肺部區域,這與它們在醫院的應用領域有關。
2 醫學影像分割常用的深度學習模型
深度學習模型通常由多層非線性處理單元的神經網絡構成,每個神經網絡包含一個輸入層、一個輸出層和多個隱藏層,可以從數據中提取復雜的特征信息[14]。在醫學影像分割領域,常用的深度學習模型有AlexNet[15]、ZFNet[16]、VGG[17]、GoogleNet[18]、ResNet[4]、DenseNet[19]、FCN[5]、U-Net[6]、GAN[20]和Transformer[21]等,它們都具有較強的特征提取能力,其中,FCN、U-Net、GAN和Transformer在醫學影像分割和分類方面表現出更好的性能,受到醫學影像領域的廣泛關注,很多研究者基于它們衍生出一些改進模型。
2.1 全卷積神經網絡(FCN)
FCN(fully convolutional networks)是典型的編碼器—解碼器結構,可以接收任意大小的輸入并生成相同大小的輸出。其中,編碼器生成帶有語義信息的特征圖,解碼器將編碼器輸出的低分辨率特征圖像映射為輸入圖像的尺寸,以進行逐像素的分類。FCN的核心思想是將卷積神經網絡模型中的全連接層替換為卷積層,同時使用反卷積進行上采樣操作,其架構如圖3[5]所示。
FCN能夠將深層語義信息與淺層外觀信息結合,生成較準確的分割結果。在FCN中,訓練圖像和測試圖像可以是不同尺寸,避免了使用像素塊帶來的重復存儲和卷積計算,但是FCN的上采樣結果比較模糊,對圖像中的細節敏感性低,沒有充分考慮像素與像素之間的關系,缺乏空間一致性,導致分割精度不是非常理想,因此很多后續研究對FCN進行了改進,其中最典型的是U-Net[6],下文將對U-Net的結構和特征進行介紹。
2.2 U-Net
U-Net在FCN的基礎上增加了上采樣操作的次數和跳躍連接,使用跳躍連接將解碼器的輸出特征與編碼器的語義特征融合,提高了分割精度,改善了FCN上采樣不足的問題,如圖4所示。U-Net中沒有全連接層,通過互連卷積與反卷積過程中的特征,將上下文信息傳遞到更高層,實現了信息補充;另外,其網絡深層的卷積特征圖中包含了分割的抽象特征,有利于像素分類,具有語義分割模型的端對端特點。U-Net具有數據量需求小和訓練速度快的特點,在標記數據稀缺的醫學影像分割領域得到了廣泛應用。然而,僅使用U-Net不能滿足對小病灶分割精度的需求,因此,一些研究以U-Net作為基準模型,通過增加新模塊、改進結構等方法,提高模型的分割精度。
1)注意力模塊 注意力模塊可以使網絡專注于感興趣區域,抑制其他不相關部分,突出需分割的病灶區域。常見的注意力模塊有通道注意力、空間注意力、門控注意力和自注意力等,可以加入U-Net的跳躍連接、編碼器塊、解碼器塊等位置,以提高網絡分割的精度。例如,文獻[22]將注意力模塊SE(squeeze-and-excitation)[23]嵌入U-Net的低級和高級特征串聯之后,用于MRI影像的腦膠質瘤分割。文獻[24]在U-Net的跳躍連接處增加門控注意力模塊,用于MRI影像中腦腫瘤的分割。實驗結果均表明,注意力模塊的加入能夠有效提高U-Net的分割性能。
2)多尺度特征金字塔模塊 Lin等人[25]于2017年提出特征金字塔網絡(feature pyramid network,FPN)用于目標檢測,在U-Net中加入特征金字塔模塊,能夠提取和融合多尺度特征信息,進而提高模型精度。例如,Lin等人[26]提出的PAU-Net就是一種自底向上的由路徑聚合編碼器(PA)、增強型解碼器(ED)和有效特征金字塔(EFP)組成的路徑聚集U-Net,在MRI影像的腦腫瘤分割中取得了較好的性能。
3)殘差連接 一般來說,隨著網絡層數的增加,可以提取到更復雜的特征,但也可能會引起梯度消失或爆炸,加劇模型訓練的困難性。文獻[4]利用短路機制,提出殘差卷積神經網絡(residual convolution neural network,ResNet),有效解決了網絡退化問題。一些研究將ResNet與U-Net結合,把U-Net每個卷積塊的第一個卷積層的輸入與第二層的輸出以元素相加的方式,增加短路連接,形成殘差學習,可以加強模型訓練過程中梯度的反向傳播,其結構如圖5所示。另外,ResNet用全局平均池化層代替了卷積神經網絡中的全連接層,當特征圖大小降低一半時,其產生的特征圖數量增加一倍,保持了網絡復雜度。
ResNet可解決網絡深度增加導致的梯度消失和網絡退化問題,提高分割精度,但其中的短路機制,會使網絡中某些層被選擇性丟失,造成信息阻塞和冗余。此外,ResNet中前向傳播和梯度的反向傳播比較復雜,會增加網絡的訓練時間。
4)密集連接 為解決U-Net無法有效利用下采樣的深層特征和淺層特征的問題,Zhou等人[27]將DenseNet中密集連接的思想用于U-Net的跳躍連接,提出了U-Net++,通過引入密集連接機制,將每一層都與前面所有層在通道維度上進行連接,并作為下一層的輸入,如圖6所示。直接連接來自不同層的特征圖,可實現特征重用,提升模型效率,增強梯度的反向傳播,并使網絡更容易訓練。例如,張曉宇等人[28]基于3D U-Net++對多模態MRI影像的腦膠質瘤分割,與3D U-Net相比,分割精度提高了7.66%。
2.3 生成對抗網絡(generative adversarial nets,GAN)
GAN由文獻[20]于2014年提出,包含生成器和鑒別器兩部分,其中生成器生成圖片并輸入鑒別器,由鑒別器判斷輸入圖片是標簽圖還是生成圖,二者基于對抗性過程進行訓練。GAN一般被用于數據增強。2018年,Hung等人[29]對GAN進行修改,用語義分割網絡替代生成器,FCN替代鑒別器,在圖像語義分割任務中取得了較好的分割性能,其架構如圖7所示。后來,一些研究嘗試利用GAN進行醫學影像分割。例如,文獻[30]提出一種對抗性訓練網絡U-Net-GAN,將U-Net作為生成器,FCN作為鑒別器,用于胸部CT圖像的多器官分割。Jiang等人[31]提出一種腦組織提取模型WGAN+O-Net,其中生成器O-Net以雙路徑跳躍連接替換了U-Net的跳躍連接,并加入注意力模塊,同時判別器網絡使用殘差結構,以提高網絡的非線性表達能力。實驗結果表明,該模型能夠穩定地輸出高精度的腦組織提取圖像,且偽影和灰度不一致性的影響較小。
2.4 Transformer架構
基于Transformer在自然語言處理領域所取得的成功,Dosovitskiy等人[32]將其遷移到計算機視覺領域,提出vision transformer(ViT),在圖像分類任務上獲得了良好的性能,其架構如圖8所示。之后一些基于ViT的改進模型被陸續提出,用于目標檢測、圖像分割、圖像生成等,均取得了較好的效果。部分研究者根據醫學影像的特點,將Transformer架構引入到醫學影像分割任務中,也得到了優異的分割性能。Chen等人[33]將Transformer和U-Net相結合,提出TransUNet,用于CT圖像的多器官分割,與R50-U-Net相比,分割精度提高了2.16%。文獻[34]對SwinTransformer[35]進行改進,增加了對稱的解碼器和跳躍連接,用于心臟和多器官分割任務,相比TransUNet,分割精度提高了1.65%。
3 基于深度學習的多模態醫學影像分割研究
基于深度學習的多模態醫學影像分割能夠充分利用不同模態影像的特征信息,提高病灶分割精度。但由于多模態影像的稀缺性和新穎性,現有模型所取得的分割精度仍不能滿足實際臨床需求,下文將對該領域中提出的代表性研究進行介紹和分析,旨在分析現有研究存在的問題,并探討未來可能的研究方向。
為提高分割精度,深度學習模型必須盡可能充分地提取多模態醫學影像中各個模態所蘊涵的豐富特征,并以最優方式將這些特征融合。根據融合操作在深度學習模型中發生的位置,可以分為輸入級融合、層級融合和決策級融合[36]。輸入級融合表示需要先對各模態圖像進行特征融合,然后送入模型提取特征并分割;層級融合表示首先將各模態圖像送入分割網絡,分別進行特征提取,然后對所得特征進行融合,最后輸出分割結果;決策級融合表示則在最后的分割步驟才對各模態圖像的特征進行融合。本文根據融合操作發生的位置將基于深度學習的多模態醫學影像分割的相關研究分為三類,并介紹每類研究的經典模型及其特點。
3.1 基于輸入級融合策略的多模態醫學影像分割研究
輸入級融合是目前大多數多模態醫學影像分割網絡采用的方法,輸入級融合策略將各個模態的圖像逐通道進行特征融合,以產生多通道輸入,然后輸入分割網絡進行訓練,以獲得最終的分割結果,如圖9所示。
采用輸入級融合策略的研究一般會為每種模態的圖像分配單獨的通道,然后逐通道融合為多通道輸入,再送入分割網絡模型進行訓練。目前,大部分研究以U-Net作為分割網絡的基礎架構,并對其進行改進。
Noori等人[22]在MRI影像膠質瘤分割任務中,將注意力模塊SE(squeeze-and-excitation)[23]嵌入U-Net的低級和高級特征串聯之后,使SE模塊可以自適應加權每個通道,有效防止了模型混淆。SE模塊是目前比較典型的基于通道的注意力模型,可以通過特征重標定的方式自適應調整通道之間的特征。另外,文獻[22]還提出多視圖融合技術,在2D模型上獲得了3D圖像的上下文信息。與原始U-Net相比,該模型的分割精度提高了1.6%,缺點是增加了參數量。
為了更好整合不同尺度上的特征,Yuan等人[37]在U-Net中嵌入多尺度通道注意力模塊SA(scale attention),以分割頭、頸部PET/CT圖像中的腫瘤。該網絡利用多尺度跳躍連接來提取特征,并通過SA模塊捕獲所有尺度的低級特征與高級語義特征,以使每個特征通道的權重能自適應調整,并抑制不重要的尺度信息。實驗結果表明,SA模塊將分割性能提高了2.25%,并降低了參數量。
Zhang等人[24]提出了注意力門控殘差網絡AgresU-Net,用于MRI影像中腦腫瘤的分割。該模型在U-Net的跳躍連接處增加了門控注意力模塊,以突出局部特征,同時消除無關和嘈雜特征。實驗結果表明,AgresU-Net不僅可提取豐富的語義信息,提高特征學習的能力,還可以檢測到小尺寸腦腫瘤信息,缺點是對MRI影像中各種模態的互補信息利用不充分,仍有提升空間。
上述研究表明,在多模態醫學影像分割中,引入通道注意力模塊能增強特征信息,抑制無用信息,但缺乏對特征圖空間信息的關注。Liu等人[38]提出基于空間注意力的殘差網絡DraNet,用于MRI影像分割。該網絡將殘差塊嵌入U-Net的編碼—解碼器結構以緩解梯度消失問題;同時利用空間注意力模塊代替U-Net中的跳躍連接,有效防止了特征信息的丟失問題。實驗結果表明,DraNet中的空間注意力模塊將分割性能提高了2.88%,缺點是對小尺寸病灶的分割質量有待提高。
針對醫學影像數據集少、類別不平衡等導致分割困難的問題,董陽等人[39]引入一種小樣本方法PU-Net,用于腦腫瘤MRI影像分割。該網絡對圖像空間位置進行逐像素分類,獲得病灶區域的類概率圖和分割結果,并通過自適應權重交叉熵損失函數來解決類別不平衡問題。與最新小樣本分割方法PANet和A-MCG相比,各項評價指標均有提升。
多模態醫學影像通常是三維圖像,處理二維圖像的網絡往往無法充分利用三維圖像切片之間的上下文信息。因此,文獻[40]提出了應用于三維圖像分割的3D U-Net。Zhou等人[41]對3D U-Net進行改進,提出3D殘差神經網絡ERV-Net,用于MRI影像中腦腫瘤的分割。該網絡在3D U-Net的解碼器中加入殘差塊,避免網絡退化,同時在編碼器中加入輕量級網絡ShuffleNetV2[42]以降低計算復雜性。該網絡在訓練階段將交叉熵損失函數與骰子損失函數融合,用于解決網絡收斂和數據不平衡問題。實驗結果表明,ERV-Net與Brats2018挑戰賽最先進的模型相比,分割性能更優,參數量更少,缺點是未考慮解碼器的輕量化。Cheng等人[43]在3D U-Net中增加了殘差注意力模塊,提出了從MRI影像中分割多級膠質瘤的RAAU-Net模型。其中的殘差注意力模塊將主干分支和軟掩膜分支的輸出進行殘差操作,然后通過兩個卷積層和sigmoid激活函數對輸出特征圖標準化,與3D U-Net相比,該注意力模塊將分割精度提高了2.08%,缺點是可能會產生一定噪聲。Zhang等人[44] 提出的RSANET通過在3D U-Net中增加空間注意力模塊SA,對MRI影像中的多發性硬化癥腦病變進行分割。SA模塊將MRI影像分為三個切片,分別送到不同方向的注意力中,得到特征圖M1、M2和M3,將M1和M2通過矩陣乘法和softmax操作得到注意力圖A,再與特征圖M3和特征圖M進行逐像素乘法得到最終特征圖,從而可獲取不同切片之間的遠程依賴性。實驗結果表明,與3D U-Net相比,該網絡的分割精度可提高2.1%,同時降低了計算成本和GPU內存使用。
文獻[45]在3D U-Net解碼器的每個階段引入一個通道空間并行的混合注意力模塊,用于分割MRI影像中的腦腫瘤。實驗結果表明,該網絡比3D U-Net具有更高的分割精度,但網絡模型非常復雜。Wang等人[46]提出的TRANSBTS在3D U-Net中融入Transformer模塊[32],用于MRI影像中的腦腫瘤分割。該模型首先通過卷積塊將輸入特征編碼為低分辨率特征表示,再將其送入Transformer編碼器中學習全局特征,然后執行漸進式上采樣得到分割圖。其中,Transformer的編碼器層由多頭自注意力、歸一化和前饋神經網絡組成,能夠捕獲全局特征。實驗結果表明,該網絡的分割精度比使用通道和空間注意力的3D U-Net提高了2.97%,缺點是Transformer帶來了過多的參數。Lei等人[47] 在3D U-Net中增加自注意力模塊和金字塔下采樣模塊,構建了一個雙聚合網絡,用于MRI影像中的腦腫瘤分割。其中,自注意力模塊將遠程依賴性集成在空間和通道兩個維度的特征映射中,有效提高了模型的表示能力和區分能力;金字塔模塊解決了下采樣過程中空間信息丟失的問題,在降低分辨率的同時有效保存了局部特征。實驗結果表明,該網絡的分割精度比3D U-Net提高了3.6%。
以上基于U-Net的分割模型都是單階段算法,即通過訓練一個網絡模型直接將器官或者病灶等目標從多模態圖像中分割出來,但是不同多模態醫學影像的目標形態差異較大,病灶邊界比較模糊,可能會導致小目標病灶的邊界分割不準確。為解決上述問題,Li等人[48]基于3D U-Net,提出一種基于混合級聯網絡和注意力模塊的分割模型,用于分割MRI影像中的腦腫瘤。該模型的結構如圖10所示,在第一階段,模型初步分割并提取感興趣區域,在第二階段,模型通過并行分割子網獲得最終分割結果。實驗證明,分階段網絡模型能夠有效提高病灶的分割精度,缺點是過程繁瑣,訓練時間較長。
沈鎮炯等人[49]提出一種級聯3D U-Net分割模型,用于CT和MRI影像中的頭頸癌視交叉分割,該網絡第一階段采用基礎3D U-Net對腫瘤初步分割,減少背景類信息,得到視交叉的三維中心,第二階段在3D U-Net上加入深度監督機制,提高了網絡訓練效率。實驗結果表明,在該方法采用多模態圖像相比單模態圖像,分割精度提高了9.3%。除U-Net外,一些基于其他深度卷積神經網絡的多模態醫學影像分割研究,也獲得了較好的分割性能。為解決腦腫瘤圖像邊緣信息模糊和類不平衡問題,文獻[50]在深度卷積神經網絡中加入選擇性注意力機制,用于分割MRI影像中的膠質母細胞腦腫瘤。這種注意力機制能夠在連續的層中使用不同大小的感受野提取場景中的關鍵特征。實驗結果表明,該模型提供了較為準確的分割結果,消耗時間較少。Huang等人[51]提出了一種由特征表示階段和得分圖重建階段組成的深度卷積神經網絡,用于PET和CT影像中頭頸癌腫瘤的分割。在特征表示階段,通過組合低級特征和具有語義信息的高級特征來提取PET/CT影像的特征信息,在得分圖重建階段,通過上采樣操作,將分數圖重建為輸入圖像的大小。模型在兩個階段之間加入跳躍連接,將特征表示階段捕獲的多尺度上下文信息與得分重建階段進行拼接融合以提高分割的準確性。實驗結果表明,該網絡針對多模態圖像取得了較好的分割性能,但對小病灶的分割效果不佳。
為了解決多模態數據缺失問題,陳浩等人[52]通過CNN將多模態圖像映射到同一特征空間提取特征,并通過全連接層將特征融合,以實現MRI影像中的腦腫瘤分割。實驗結果表明,該方法有效解決了模態缺失問題,并獲得了較好的分割結果,但層特征融合方式還有待研究。Guo等人[53]所提出的頭頸癌腫瘤分割框架,采用密集連接卷積神經網絡作為骨干網絡,充分利用從PET和CT影像中提取的特征,解決了3D卷積的計算量大、梯度消失和過擬合問題。實驗結果表明,該網絡比傳統網絡具有更好的性能,比3D U-Net提高了8%的分割精度。
以上分割模型都屬于單任務模型,即一個任務訓練一個神經網絡,這種方法忽略了多模態圖像之間的關聯信息,減弱了分割模型的性能。因此,針對多器官分割和多腫瘤分割任務,一些研究者提出了多任務分割模型。Zhang等人[54]針對MRI圖像的多任務腦腫瘤分割,提出了TSBTS模型,如圖11所示。該網絡由三個推斷模塊組成,前一個推斷模塊的輸出作為下一個推斷模塊的輸入,同時引入三個特征感知嵌入模塊來提取對應模態腫瘤區域的模態感知特征,以推斷模態數據權重的重要性。實驗結果表明,該網絡具有良好的分割性能,計算成本也較低。
本文對上述研究從研究區域、數據集和最佳性能結果等方面進行了總結,如表2所示。通過分析,可以發現,基于輸入級融合策略的多模態醫學影像分割模型可以最大程度地保留原始圖像信息,使模型可以學習圖像的固有特征。大部分研究以編碼器—解碼器結構的U-Net作為基礎架構,通過引入通道注意力、空間注意力、自注意力或混合注意力等以提高病灶分割精度。但是這種路線仍然存在以下問題:a)在輸入級對不同模態的圖像進行融合,不能充分展示各種模態之間的互補性,會產生較多的冗余數據,繼而加大分割模型的計算量和訓練時間;b)注意力模塊可以有效提升分割模型的精度,但是也極大增加了模型的復雜度和計算量,導致模型訓練時間較長;c)分割模型的精度提升依賴于數據集的大小,而目前公開的多模態數據集都比較小,在訓練模型時,可能會出現過擬合問題。
因此,本文認為基于輸入級融合的多模態醫學影像分割模型未來應著重解決以下問題:a)融合過程中冗余數據的消除方法;b)輕量級注意力模塊的設計;c)基于小數據集的分割模型的構建等。
3.2 基于層級融合策略的多模態醫學影像分割研究
采取層級融合策略的模型首先將各個不同模態的圖像分別輸入相同的分割網絡進行特征學習,然后將學習到的個體特征融合到網絡的各個層次,最后將融合結果送入決策層獲得最終分割結果,如圖12所示。相比輸入級融合,層級融合的分割網絡可以更有效地整合多模態影像的特征。
在基于層級融合策略的多模態醫學影像分割中,為充分利用多模態醫學影像的特征,大部分研究采用了并行編碼器—解碼器結構或多編碼器—單解碼器結構。
并行編碼器—解碼器結構由多個并行分支組成,每種模態的圖像作為輸入,被分別送入一個對應的分支進行特征提取,然后用于訓練分割網絡。其中,各個分支之間的連接可以捕獲不同模態圖像之間的復雜關系,以便融合每層的特征。
Wang等人[55]提出一個端到端的模態配對學習模型,用于MRI影像中腦腫瘤的分割,如圖13所示,其中的并行編碼器—解碼器可提取不同模態的特征,一系列層連接可捕獲各模態特征之間的復雜關系并進行融合。該模型使用一致性損失函數來最小化兩個分支之間的預測方差,并采用學習率預熱、多種模型集合等策略來提高分割性能。實驗表明,學習率預熱策略可有效解決訓練不穩定和過擬合問題,與Vanilla U-Net相比,分割精度提高了1.5%,缺點是模型的結構過于復雜,訓練難度大。
為充分利用PET影像對腫瘤的高敏感性來指導分割,Fu等人[56]在并行編碼器—解碼器之間增加了空間注意力模塊MSAM,用于PET/CT影像中肺腫瘤的分割。MSAM作用于第一分支的輸入PET影像時,可推斷出空間注意圖,引導腫瘤定位,抑制正常區域。然后模型將來自PET的空間注意圖與解碼器不同階段產生的CT特征圖融合,CT特征將集中來自PET影像最強的空間注意力以產生最終分割區域。實驗結果驗證了MSAM模塊的有效性,與文獻[57]提出的肺腫瘤分割方法相比,分割精度提高了7.6%。基于并行編碼器—解碼器結構的分割模型可充分利用不同模態的互補信息,但結構過于復雜、參數量過大,無法提取超過兩種模態的圖像特征,因此,一些研究采用多編碼器—單解碼器為基礎結構。多編碼器—單解碼器結構由多個編碼器和一個共同的解碼器組成。該結構將不同模態的圖像分別輸入到各自對應的編碼器中,以分別提取它們的特征,然后通過跳躍連接和特征融合模塊將各模態圖像的特征融合,再將多個編碼器與共同解碼器進行連接,最終由解碼器輸出分割結果。Zhou等人[58]提出一種基于混合注意力機制的多模態MRI影像分割網絡,用于腦腫瘤分割,如圖14所示。該網絡分別從四種模態中獨立提取特征,再將四種模態的特征融合,最后通過解碼器分割腫瘤。特征融合模塊由并行的通道和空間注意力模塊組成,可重新校準模態特征,強調有用特征。該網絡還在跳躍連接中增加了殘差塊,以獲得多尺度特征,有助于提高分割精度。與U-Net相比,分割精度提高了8.6%,缺點是模型的復雜度和參數量均比較大。
Jiang等人[59]基于U-Net提出了最大融合網絡MFU-Net,用于MRI影像中心臟的自動分割。該模型利用三個編碼器分別提取三種模態圖像的特征,然后在跳躍連接處利用最大融合操作將不同編碼器在各階段的圖像特征進行融合,再與解碼器的對應階段進行拼接并輸出分割結果。為提高網絡對小病灶區域的分割性能,該網絡還在單解碼器的每層都增加了空間注意力塊。實驗結果表明,該空間注意力模塊不僅將分割性能提高了3.9%,還解決了類不平衡問題。Chen等人[60]提出一種MRI影像特征融合的模型MMFNET,用于鼻咽癌病灶的分割。該模型中的多個編碼器被用于捕獲不同模態圖像的特征,單解碼器用于獲取MRI病灶分割的融合信息。該模型中,包含一個由3D混合注意力模塊(3D-CBAM)[61]和殘差塊組成的特征融合模塊,可有效融合來自各個模態的特征信息。其中,CBAM模塊可重新校準從各模態編碼器捕獲的低級特征,突出顯示感興趣的特征和區域,殘差塊可有效保持低級特征和高級特征之間的平衡。實驗結果表明,與使用單模態圖像的3D U-Net相比,分割精度提高了12.26%,但參數量過大,訓練時間過長。
Jia等人[62]提出一種用于3D多模態醫學影像分割的多路徑編碼—解碼器模型,用于MRI影像中腦腫瘤的分割。為了利用不同模態之間的互補信息,該模型在跳躍連接處增加了多模態感知卷積自注意力模塊MMSA,通過對不同模態圖像和不同癥狀給予不同關注來提高分割性能,與加入SE模塊的U-Net相比,該方法的分割精度提高了2.12%,缺點是參數較大,復雜度高。Li等人[63]提出一種多模態聚集網絡MMAN,用于MRI影像中腦腫瘤的分割,該網絡利用空洞卷積提取各模態圖像的多尺度特征,然后將每個尺度的特征進行拼接,再利用多模態MRI影像中的互補信息進行分割。實驗結果表明,基于不同模態的組合特征的分割性能優于使用單模態影像的分割模型。Zhang等人[64]提出一種通道注意力引導網絡AG-Net,通過融合多尺度輸入的圖像特征,避免了圖像細節特征的丟失,如圖15所示。該模型用注意力引導濾波器取代了U-Net中的跳躍連接和上采樣層,可消除背景噪聲并解決上采樣引起的邊界模糊問題。與U-Net、M-Net[65]相比,該方法在提高分割性能的同時降低了時間復雜度。
本文對上述研究從研究區域、數據集和最佳性能結果等方面進行了總結,如表3所示。相比輸入級融合策略,層級融合網絡利用不同層之間的連接可捕獲模態之間的復雜關系,從而可以更充分地利用多模態影像的特征表示,但模型的結構復雜度和訓練難度也相應提升。在層級融合的相關研究中,為了能夠對多種模態信息進行特征融合,大多數研究采用了多編碼器的方法,并通過嵌入注意力模塊提升分割精度,但此類模型的普遍缺點是復雜度過高,計算量過大,訓練時間長,所以采用本策略對多模態圖像融合,需要探索將模型輕量化的方法和途徑。
3.3 基于決策級融合策略的多模態醫學影像分割研究
采取決策級融合策略的模型將各種模態的圖像分別輸入各自的分割網絡并進行訓練,然后將各網絡的輸出進行融合以獲得最終的分割結果,如圖16所示。決策級融合網絡旨在從不同模態中獨立學習各自的特征信息,然后在決策層將不同模態的特征信息進行融合,得到最終的分割結果。
大多數采用決策層融合的分割模型使用并行編碼—解碼器作為基礎,并對其進行改進。Zhao等人[66]提出一種基于三維FCN的多模態分割網絡,如圖17所示,該網絡采用兩個獨立的V-Net架構,分別從PET和CT影像中提取高維特征。該架構中包含一個級聯卷積塊構成的特征融合模塊,可將PET和 CT特征圖進行融合,再使用softmax函數獲得腫瘤掩膜作為網絡輸出。該網絡可充分利用PET影像的高對比度和CT影像的高空間分辨率,與僅使用PET或CT影像的CNN方法相比,分割性能和分割速度都顯著提高,缺點是模型復雜度較高。
Zhang等人[67]提出一種由跨模態特征過渡模塊CMFT和跨模態特征融合模塊CMFF組成的并行編碼—解碼器網絡,用于MRI影像中的腦腫瘤分割。在跨模態特征過渡模塊中,利用生成對抗學習加強跨越不同模態的特征轉換,同時捕獲每種模態的特征表示。在跨模態特征融合模塊,通過單模塊化的預測結果指導特征融合過程,不僅可傳遞CMFT模塊中學到的特征,還能學習豐富的融合特征,并分割所需的腦腫瘤區域。與2018BraTS挑戰賽其他分割模型相比,該網絡獲得了較好的分割性能,但計算成本和時間消耗具有較高的復雜性。
針對MRI影像病灶存在模糊性和特異性的問題,肖小嬌等人[68]提出一種用于MRI肝腫瘤分割的Mt-C-Mmf模型,通過空洞卷積提取不同模態的多尺度特征,在決策層將多模態特征融合,進而完成病灶分割,實驗結果表明,相比U-Net,分割精度提高4.13%。張小兵等人[69]在2D-CNN的基礎上融入密集連接思想,用于MRI腦膠質瘤分割。該網絡將多模態圖像分別送入三個并行的密集連接2D-CNN得到粗分割結果,再對其進行融合得到最終分割結果。實驗結果表明,通過多個并行的密集連接2D CNN可獲得接近三維分割網絡的效果,但融合分割結果的方法還需進一步改進。
Han等人[70]提出一種用于MRI和CT影像分割的無監督自適應并行編碼—解碼器網絡。該網絡由一個分割子網和兩個對稱的遷移子網組成。在兩個遷移子網中,通過共享編碼器和各自解碼器引入雙向對齊方案,將特征與源域和目標域同時對齊,有效減少了源域和目標域之間的差異。該網絡利用遷移學習有效提高了分割性能,但對目標域特征的提取能力還有待提高。
Ma等人[71]提出一種多模態卷積神經網絡M-CNN,該網絡可以學習CT和MRI兩種模態的特征相關性和分割誤差,在決策層融合來自CT和MRI影像的互補信息,進行鼻咽癌腫瘤分割。實驗結果表明,M-CNN可針對特定模態細化分割結果,比使用單一模態性能更好。但是,圖像配準的難度較大,即使完美配準,不同模態圖像中的腫瘤輪廓也會因成像機制不同而發生變化。
2015年,Hinton等人[72]提出模型蒸餾算法,通過將預訓練好的大網絡當作教師向小網絡傳遞先驗知識,以提升小網絡性能。模型蒸餾算法需提前預訓練大網絡,只能對小網絡單向傳遞知識,難以從小網絡中得到反饋信息來優化訓練過程。Zhang等人[73]提出一種深度互學習策略,同時訓練多個分割網絡,在訓練過程中每個網絡通過真實標簽的監督和同伴網絡的學習經驗來提高網絡的泛化性。多個分割網絡在訓練過程中互相分享學習經驗,共同進步。基于蒸餾算法的思想,Li等人[74]針對具有相同解剖結構的多模態數據,提出一個圖像對齊模塊IAM,用于縮小輔助模態數據與目標模態數據之間的外觀差距,如圖18所示。同時還提出一種相互知識蒸餾方案,從一個模態學習的先驗知識在另一個模態上進行指導,以充分利用模態的共享特征來促進目標分割。該方法有效地提高了病灶的分割精度,與X-shape[75]方法相比,分割精度提高2.59%,但訓練時間較長。
本文對上述研究從研究區域、數據集和最佳性能結果等方面進行了總結,如表4所示。采用決策級融合策略的多模態影像分割網絡大多數采用并行編碼器—解碼器結構,使得模型可以訓練多個分割網絡,以充分利用不同模態的圖像之間復雜且互補的特征信息。但是此類模型占用內存較多,參數量和計算量較大,如何降低模型復雜度和計算量將是采用此策略的相關研究后續應該探討的方向。
4 研究展望
綜上所述,基于深度學習技術對多模態醫學影像中的病灶進行自動分割如今正受到計算機視覺領域的高度關注,一些研究者在該領域進行了初步探索并取得了一定進展和成果,但距離實際應用仍有一定差距,仍存在許多問題需要進一步研究、探討和解決。目前,基于深度學習的多模態醫學影像的融合策略主要包括輸入級融合策略、層級融合策略和決策級融合策略。輸入級融合策略可以最大程度地保留原始圖像信息,并學習固有的圖像特征,但不能充分展示和利用模態之間的互補特征信息,容易產生數據冗余。層級融合策略能夠充分利用多模態影像之間互補的特征信息,但同時也會損失部分信息。決策級融合策略將多個分割網絡的輸出進行融合,充分利用了多模態復雜且互補的特征信息,但增加了模型結構的復雜度和訓練難度。下面將從多模態醫學影像的特點入手,分析現有解決方法的不足并展望未來研究方向。
1)多模態醫學影像的小樣本性 從表1可以發現,多模態醫學影像相比單模態醫學影像,數據集的規模較小,這是由兩方面的原因造成的:a)MRI和PET/CT等多模態醫學影像技術大多用于對惡性腫瘤的確診,相比其他疾病,腫瘤患者的比例相對較少,導致臨床數據比單模態醫學影像少;b)多模態醫學影像中的病灶識別和標注對醫生的技術水平要求更高,耗時也較長,相關領域高水平醫生的缺乏導致多模態醫學影像的標注數據集較小。
深度學習模型的性能與數據集的規模有極大關系,但是在現有研究中,很少考慮多模態醫學影像的小樣本性,所設計的模型的泛化性和魯棒性存在挑戰。文獻[76,77]提出了小樣本學習的概念,相關研究已取得很大進展。但是,現有的小樣本學習方法,都需要在大量的源數據集上對模型進行預訓練,而醫學影像的缺乏致使現有的小樣本學習方法面臨挑戰,所以后續應該探索不依賴預訓練模型,而是利用其他先驗知識,或者融合主動學習、強化學習[78,79]等框架,嘗試從根本上解決問題。
2)多模態醫學影像融合的復雜性 由于不同模態的影像具有不同的特征,要充分利用各種模態的信息,需要在適合的階段,采取適合的方法對這些特征進行融合。目前基于深度學習的多模態醫學影像的融合有輸入級融合、層級融合和決策級融合,這些方法能夠捕獲各模態醫學影像的特征,利用不同模態之間的互補信息,取得較好的分割精度。但是輸入級融合不能充分發現各個模態之間的互補信息,而層級融合和決策級融合的網絡模型過于復雜,訓練難度大,還可能會丟失圖像的原始細節信息。由于存在的這些問題,導致現有研究和模型距離實際應用還有一定距離。本文認為,后續針對多模態醫學圖像的研究,首先應該繼續探索不同模態圖像的有效融合方式,例如,將傳統圖像融合技術融入深度學習模型,既能捕獲不同圖像的細節特征,又能發現它們的互補特點;其次,應該探索模型輕量化的有效途徑,例如,在模型中引入知識蒸餾、空洞卷積的思想,嘗試在保證分割精度和穩定性的同時輕量化網絡模型,使得多模態醫學影像分割能夠達到臨床實踐要求。
3)多模態醫學影像分割的精度較低 通過分析現有研究可以發現,目前多模態醫學影像的分割精度仍比較低,尤其是對小病灶的分割。大多數研究嘗試引入了注意力機制以提高分割精度,實驗結果也證明,注意力機制在提升分割精度方面發揮了重要作用,但是也大幅增加了模型的復雜度和訓練時間。因此,本文認為輕量級注意力機制的探索是十分有必要的,如何在提高精度的同時降低計算量和資源使用量是未來需要研究和探索的領域。
4)多模態醫學影像的類不平衡問題 在多模態醫學影像分割領域,病灶通常具有不同的形狀和大小,出現的位置不固定,尤其是小病灶只出現在整個圖像中非常小的一個區域內,具有明顯的類不平衡問題,導致訓練數據的過擬合、訓練分割網絡不穩定等問題。目前,解決類不平衡問題的方法主要集中于數據、模型兩個方面。在數據方面使用過采樣、欠采樣和合成采樣方法[80~82],但會丟棄大量數據并存在過擬合問題,不適用于小樣本的數據集。文獻[50,59]都使用采樣的方法解決類不平衡問題,均取得了較好的效果。在模型方面最常用的是決策樹方法,文獻[83]通過決策樹方法提高少數類的權重,解決了數據不平衡問題,但更傾向于類別少的數據。另外,還有一些研究通過選擇合適的損失函數來解決類不平衡問題,文獻[41]將交叉熵損失函數與骰子損失函數融合,用于解決類不平衡問題,取得了較好的效果。因此,本文認為如何解決類不平衡問題依然值得研究者持續探索。
5 結束語
近年來,基于深度學習的多模態醫學影像分割受到計算機視覺領域的關注,并取得了一些研究成果。本文首先對這些研究進行了調查、研究和總結,證明了深度學習模型在多模態醫學圖像分割方面的有效性。然而多模態醫學影像的小樣本性和復雜性使其面臨著比單模態醫學影像和自然圖像更大的挑戰,現有研究距離實際應用仍有一定距離。本文在分析現有模型不足的基礎上,從多模態醫學圖像分割的特點出發,提出了后續應該解決的問題,并展望了未來的研究方向。基于深度學習技術,對多模態醫學影像中的病灶進行細粒度分割,對于減輕醫生負擔,加快疾病診斷速度和精度具有非常重要的意義,是未來需要關注的重要研究領域。
參考文獻:
[1]Otsu N.A threshold selection method from gray-level histograms[J].IEEE Trans on Systems Man and Cybernetics,1979,9(1):62-66.
[2]Adams R,Bischof L.Seeded region growing[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1994,16(6):641-647.
[3]Lakshmi S,Sankaranarayanan D V.A study of edge detection techniques for segmentation computing approaches[J].International Journal of Computer Applications,2010,1:35-41.
[4]Huang Gao,Liu Zhuang,Van Der Maaten L,et al.Densely connected convolutional networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2017:2261-2269.
[5]Long J,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2015:3431-3440.
[6]Ronneberger O,Fischer P,Brox T.U-Net:convolutional networks for biomedical image segmentation[M]//Navab N,Hornegger J,Wells W,et al.Medical Image Computing and Computer-Assisted Intervention.Cham:Springer,2015:234-241.
[7]范立南,王晶,王銀玲,等.多模態醫學圖像融合技術綜述[J].沈陽大學學報,2009(3):96-100. (Fan Linan,Wang Jing,Wang Yinling,et al.Review of multi-modal medical image fusion[J].Journal of Shenyang University,2009(3):96-100.)
[8]彭璟,羅浩宇,趙淦森,等.深度學習下的醫學影像分割算法綜述[J].計算機工程與應用,2021,57(3):44-54. (Peng Jing,Luo Haoyu,Zhao Gansen,et al.Medical image segmentation algorithms based on deep learning[J].Computer Engineering and Applications,2021,57(3):44-54.)
[9]張萍,徐巧枝.深度學習技術在PET/CT醫學影像中的應用綜述[J].內蒙古師范大學學報:自然科學版,2021,50(2):118-126. (Zhang Ping,Xu Qiaozhi.Application of deep learning technology in PET/CT medical images[J].Journal of Inner Mongolia Normal University:Natural Science Edition,2021,50(2):118-126.)
[10]李伊寧,王弘熠,王天任,等.基于深度學習的多模態融合的臨床應用[J].醫學理論與實踐,2021,34(10):1654-1662. (Li Yi-ning,Wang Hongyi,Wang Tianren,et al.Clinical application of multimodal fusion based on deep learning[J].Medical Theory amp; Practice,2021,34(10):1654-1662.)
[11]Havaei M,Davy A,Warde-Farley D,et al.Brain tumor segmentation with deep neural networks[J].Medical Image Analysis,2017,35:18-31.
[12]孫衛紅.CT成像技術的發展及技術特點[J].醫療裝備,2007(6):19-20. (Sun Weihong.Development and technical characteristics of CT imaging technology[J].Medical Equipment,2007(6):19-20.)
[13]Chen Wei.Clinical applications of PET in brain tumors[J].Journal of Nuclear Medicine,2007,48(9):1468-1481.
[14]LeCun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521(7553):436-444.
[15]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.
[16]Zeiler M D,Fergus R.Visualizing and understanding convolutional networks[M]//Fleet D,Pajdla T,Schiele B,et al.Computer Vision.Cham:Springer,2014:818-833.
[17]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[EB/OL].(2015-04-10).https://arxiv.org/ abs/1409.1556.
[18]Szegedy C,Wei Liu,Yangqing Jia,et al.Going deeper with convolutions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1-9.
[19]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Identity mappings in deep residual networks[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2016:630-645.
[20]Goodfellow I J,Pouget-Abadie J,Mirza M,et al.Generative adversarial nets[C]//Proc of the 27th International Conference on Neural Information Processing Systems.2014:2672-2680.
[21]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.2017:6000-6010.
[22]Noori M,Bahri A,Mohammadi K.Attention-guided version of 2D UNet for automatic brain tumor segmentation[C]//Proc of the 9th International Conference on Computer and Knowledge Engineering.Piscataway,NJ:IEEE Press,2019:269-275.
[23]Hu Jie,Shen Li,Albanie S,et al.Squeeze-and-excitation networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2020,42(8):2011-2023.
[24]Zhang Jianxin,Jiang Zongkang,Dong Jing,et al.Attention gate Res-UNet for automatic MRI brain tumor segmentation[J].IEEE Access,2020,8:58533-58545.
[25]Lin T Y,Dollár P,Girshick R,et al.Feature pyramid networks for object detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2017:936-944.
[26]Lin Fengming,Wu Qiang,Liu Ju,et al.Path aggregation U-Net model for brain tumor segmentation[J].Multimedia Tools and Applications,2021,80(15):22951-22964.
[27]Zhou Zongwei,Siddiquee M M R,Tajbakhsh N,et al.UNet++:redesigning skip connections to exploit multiscale features in image segmentation[J].IEEE Trans on Medical Imaging,2020,39(6):1856-1867.
[28]張曉宇,王彬,安衛超,等.基于融合損失函數的 3D U-Net+腦膠質瘤分割網絡[J].計算機科學,2021,48(9):187-193. (Zhang Xiaoyu,Wang Bin,An Weichao,et al.Glioma segmentation network based on 3D U-Net++ with fusion loss function[J].Computer Science,2021,48(9):187-193.)
[29]Hung W C,Tsai Y H,Liou Y T,et al.Adversarial learning for semi-supervised semantic segmentation[EB/OL].(2018-07-24).https://arxiv.org/abs/1802.07934.
[30]Dong Xue,Lei Yang,Wang Tonghe,et al.Automatic multiorgan segmentation in thorax CT images using U-Net-GAN[J].Medical Phy-sics,2019,46(5):2157-2168.
[31]Jiang Shaofeng,Guo Lanting,Cheng Guangbin,et al.Brain extraction from brain MRI images based on Wasserstein GAN and O-Net[J].IEEE Access,2021,9:136762-136774.
[32]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image is worth 16×16 words:transformers for image recognition at scale[EB/OL].(2021-06-03).https://arxiv.org/abs/2010.11929.
[33]Chen Jieneng,Lu Yongyi,Yu Qihang,et al.TransUNet:transformers make strong encoders for medical image segmentation[EB/OL].(2021-02-08).https://arxiv.org/abs/2102.04306.
[34]Cao Hu,Wang Yueyue,Chen J,et al.Swin-UNet:UNet-like pure transformer for medical image segmentation[EB/OL].(2021-05-12).https://arxiv.org/abs/2105.05537.
[35]Liu Ze,Lin Yutong,Cao Yue,et al.Swin transformer:hierarchical vision transformer using shifted windows[EB/OL].(2021-08-17).https://arxiv.org/abs/2103.14030.
[36]Poh C,Van Genderen J L.Multisensor image fusion in remote sen-sing:concepts,methods and applications[J].International Journal of Remote Sensing,1998,19(5):823-854.
[37]Yuan Yading.Automatic head and neck tumor segmentation in PET/CT with scale attention network[C]//Proc of 3D Head and Neck Tumor Segmentation in PET/CT Challenge.Berlin:Springer,2020:44-52.
[38]Liu Liangliang,Kurgan L,Wu Fangxiang,et al.Attention convolutional neural network for accurate segmentation and quantification of lesions in ischemic stroke disease[J].Medical Image Analysis,2020,65:101791.
[39]董陽,潘海為,崔倩娜,等.面向多模態磁共振腦瘤圖像的小樣本分割方法[J].計算機應用,2020,41(4):1049-1054. (Dong Yang,Pan Haiwei,Cui Qianna,et al.Small sample segmentation me-thod for multimodal magnetic resonance brain tumor images[J].Journal of Computer Applications,2020,41(4):1049-1054.)
[40]iek ,Abdulkadir A,Lienkamp S S,et al.3D U-Net:learning dense volumetric segmentation from sparse annotation[C]//Proc of International Conference on Medical Image Computing and Computer-Assisted Intervention.Berlin:Springer,2016:424-432.
[41]Zhou Xinyu,Li Xuanya,Hu Kai,et al.ERV-Net:an efficient 3D resi-dual neural network for brain tumor segmentation[J].Expert Systems with Applications,2021,170:114566.
[42]Ma Ningning,Zhang Xiangyu,Zheng H T,et al.Shufflenet v2:practical guidelines for efficient CNN architecture design[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:122-138.
[43]Cheng Jianhong,Liu Jin,Liu Liangliang,et al.Multi-level glioma segmentation using 3D U-Net combined attention mechanism with atrous convolution[C]//Proc of IEEE International Conference on Bioinformatics and Biomedicine.Piscataway,NJ:IEEE Press,2019:1031-1036.
[44]Zhang Hang,Zhang Jinwei,Zhang Qihao,et al.RsaNet:recurrent slice-wise attention network for multiple sclerosis lesion segmentation[C]//Proc of International Conference on Medical Image Computing and Computer-Assisted Intervention.Berlin:Springer,2019:411-419.
[45]Islam M,Vibashan V S,Jose V J M,et al.Brain tumor segmentation and survival prediction using 3D attention UNet[C]//Proc of International MICCAI Brainlesion Workshop.Berlin:Springer,2019:262-272.
[46]Wang Wenxuan,Chen,Ding Meng,et al.TransBTS:multimodal brain tumor segmentation using transformer[C]//Proc of International Conference on Medical Image Computing and Computer-Assisted Intervention.Berlin:Springer,2021:109-119.
[47]Lei Zhihao,Qi Lin,Wei Ying,et al.Infant brain MRI segmentation with dilated convolution pyramid downsampling and self-attention[EB/OL].(2020-03-28).https://arxiv.org/abs/1912.12570.
[48]Li Yitong.Brain tumor segmentation algorithm based on attention mechanism and hybrid cascaded network[C]//Proc of International Conference on Urban Intelligence and Applications.Berlin:Springer,2020:107-114.
[49]沈鎮炯,彭昭,孟祥銀,等.基于級聯3D U-Net的CT和MR視交叉自動分割方法[J].中國醫學物理學雜志,2021,38(8):950-954. (Shen Zhenjiong,Peng Zhao,Meng Xiangyin,et al.Automatic segmentation method of CT and MR visual intersection based on cascaded 3D U-Net[J].Chinese Journal of Medical Physics,2021,38(8):950-954.)
[50]Akil M,Saouli R,Kachouri R.Fully automatic brain tumor segmentation with deep learning-based selective attention using overlapping patches and multi-class weighted cross-entropy[J].Medical Image Analysis,2020,63:101692.
[51]Huang Bin,Chen Zhewei,Wu Poman,et al.Fully automated delineation of gross tumor volume for head and neck cancer on PET-CT using deep learning:a dual-center study[J].Contrast Media amp; Molecular Imaging,2018,2018:article ID 8923028.
[52]陳浩,秦志光,丁熠.基于同一特征空間的多模態腦腫瘤分割方法[J].計算機應用,2020,40(7):2104-2109. (Chen Hao,Qin Zhiguang,Ding Yi.Multimodal brain tumor segmentation method based on the same feature space[J].Journal of Computer Applications,2020,40(7):2104-2109.)
[53]Guo Zhe,Guo Ning,Gong Kuang,et al.Gross tumor volume segmentation for head and neck cancer radiotherapy using deep dense multi-modality network[J].Physics in Medicine amp; Biology,2019,64(20):205015.
[54]Zhang Dingwen,Huang Guohai,Zhang Qiang,et al.Exploring task structure for brain tumor segmentation from multi-modality MR images[J].IEEE Trans on Image Processing,2020,29:9032-9043.
[55]Wang Yixin,Zhang Yao,Hou Feng,et al.Modality-pairing learning for brain tumor segmentation[C]//Proc of International MICCAI Brainlesion Workshop.Berlin:Springer,2020:230-240.
[56]Fu Xiaohang,Bi Lei,Kumar A,et al.Multimodal spatial attention module for targeting multimodal PET-CT lung tumor segmentation[J].IEEE Journal of Biomedical and Health Informatics,2021,25(9):3507-3516.
[57]Kumar A,Fulham M,Feng Dagan,et al.Co-learning feature fusion maps from PET-CT images of lung cancer[J].IEEE Trans on Medical Imaging,2020,39(1):204-217.
[58]Zhou Tongxue,Ruan Su,Guo Yu,et al.A multi-modality fusion network based on attention mechanism for brain tumor segmentation[C]//Proc of the 17th International Symposium on Biomedical Imaging.Piscataway,NJ:IEEE Press,2020:377-380.
[59]Jiang Haochuan,Wang Chengjia,Chartsias A,et al.Max-fusion U-Net for multi-modal pathology segmentation with attention and dynamic resampling[C]//Proc of Myocardial Pathology Segmentation Combining Multi-Sequence CMR Challenge.Berlin:Springer,2020:68-81.
[60]Chen Huai,Qi Yuxiao,Yin Yengxiang,et al.MMFNet:a multi-modality MRI fusion network for segmentation of nasopharyngeal carcinoma[J].Neurocomputing,2020,394:27-40.
[61]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[M]// Ferrari V,Hebert M,Sminchisescu C,et al.Computer Vision.Cham:Springer,2018:3-19.
[62]Jia Xibin,Liu Yunfeng,Yang Zhenghan,et al.Multi-modality self-attention aware deep network for 3D biomedical segmentation[J].BMC Medical Informatics and Decision Making,2020,20(suppl 3):119.
[63]Li Jingcong,Yu Zhuliang,Gu Zhenghui,et al.MMAN:multi-modality aggregation network for brain segmentation from MR images[J].Neurocomputing,2019,358:10-19.
[64]Zhang Shihao,Fu Huazhu,Yan Yuguang,et al.Attention guided network for retinal image segmentation[C]//Proc of International Conference on Medical Image Computing and Computer-Assisted Intervention.Berlin:Springer,2019:797-805.
[65]Fu Huazhu,Cheng Jun,Xu Yanwu,et al.Joint optic disc and cup segmentation based on multi-label deep network and polar transformation[J].IEEE Trans on Medical Imaging,2018,37(7):1597-1605.
[66]Zhao Xiangming,Li Laquan,Lu Wei,et al.Tumor co-segmentation in PET/CT using multi-modality fully convolutional neural network[J].Physics in Medicine amp; Biology,2018,64(1):015011.
[67]Zhang Dingwen,Huang Guohai,Zhang Qiang,et al.Cross-modality deep feature learning for brain tumor segmentation[J].Pattern Re-cognition,2021,110:107562.
[68]肖小嬌,趙文婷,趙涓涓,等.聯合多模態特征的無造影劑MRI圖像中肝腫瘤的分割和檢測[J].太原理工大學學報,2021,52(3):411-416. (Xiao Xiaojiao,Zhao Wenting,Zhao Juanjuan,et al.Segmentation and detection of liver tumors in contrast free MRI images combined with multimodal features[J].Journal of Taiyuan University of Technology,2021,52(3):411-416.)
[69]張小兵,田海龍,王志剛,等.基于多個密集連接型2D-CNNs的腦膠質瘤MRI三維分割[J].光學技術,2020,46(5):603-612. (Zhang Xiaobing,Tian Hailong,Wang Zhigang,et al.Three dimensional MRI segmentation of glioma based on multiple densely connected 2D CNNs[J].Optical Technology,2020,46(5):603-612.)
[70]Han Xiaoting,Qi Lei,Yu Qian,et al.Deep symmetric adaptation network for cross-modality medical image segmentation[J].IEEE Trans on Medical Imaging,2022,41(1):121-132.
[71]Ma Zongqing,Zhou Shuang,Wu Xi,et al.Nasopharyngeal carcinoma segmentation based on enhanced convolutional neural networks using multi-modal metric learning[J].Physics in Medicine amp; Biology,2019,64(2):025005.
[72]Hinton G,Vinyals O,Dean J.Distilling the knowledge in a neural network[EB/OL].(2015-03-09).https://arxiv.org/abs/1503.02531.
[73]Zhang Ying,Xiang Tao,Hospedales T M,et al.Deep mutual learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.2018:4320-4328.
[74]Li Kang,Yu Lequan,Wang Shujun,et al.Towards cross-modality medical image segmentation with online mutual knowledge distillation[EB/OL].(2020-10-04).https://arxiv.org/abs/2010.01532.
[75]Valindria V V,Pawlowski N,Rajchl M,et al.Multi-modal learning from unpaired images:application to multi-organ segmentation in CT and MRI[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2018:547-556.
[76]Jankowski N,Duch W,Grbczewski K.Meta-learning in computational intelligence[M]//Kacprzyk J.Studies in Computational Intelligence.2011:97-115.
[77]Lake B M,Salakhutdinov R,Tenenbaum J B.One-shot learning by inverting a compositional causal process[C]//Proc of the 26th International Conference on Neural Information Processing Systems.2013.2526-2534.
[78]Cohn D A,Ghahramani Z,Jordan M I.Active learning with statistical models[J].Journal of Artificial Intelligence Research,1996,4(1):129-145.
[79]Kaelbling L P,Littman M L,Moore A W.Reinforcement learning:a survey[J].Journal of Artificial Intelligence Research,1996,4(1):237-285.
[80]Jang J,Eo T,Kim M,et al.Medical image matching using variable randomized undersampling probability pattern in data acquisition[C]//Proc of the 13th International Conference on Electronics,Information,and Communication.2014:1-2.
[81]Douzas G,Bacao F.Effective data generation for imbalanced learning using conditional generative adversarial networks[J].Expert Systems with Applications,2018,91(C):464-471.
[82]Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research,2002,16(1):321-357.
[83]Sahin Y,Bulkan S,Duman E.A cost-sensitive decision tree approach for fraud detection[J].Expert Systems with Applications,2013,40(15):5916-5923.