

















摘 要:為了解決現有腦提取網絡結構復雜、參數量大且推理速度不高的問題,受UNeXt啟發,提出一種基于3D卷積、3D多層感知機(multilayer perception,MLP)和多尺度特征融合的輕量級快速腦提取網絡3D UNeXt,極大地減少了參數和浮點運算量,取得了令人滿意的結果。3D UNeXt以U-Net為基本架構,在編碼階段使用3D卷積模塊獲取局部特征;在瓶頸階段通過3D MLP模塊獲取全局特征和特征之間的遠程依賴;在解碼階段借助多尺度特征融合模塊高效融合淺層特征和深層特征。特別地,3D MLP模塊在三個不同特征軸向進行線性移位操作,以獲取不同維度特征的全局感受野并建立它們之間的遠程依賴。在IBSR、NFBS和HTU-BrainMask三個數據集上進行實驗,以和先進網絡進行對比。實驗結果表明,3D UNeXt在網絡參數、浮點運算量、推理精度和速度等方面顯著優于現有模型。
關鍵詞:腦提取; 深度神經網絡; U-Net; 多尺度特征融合; 3D MLP
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2024)06-040-1876-06
doi:10.19734/j.issn.1001-3695.2023.09.0405
3D UNeXt: lightweight and efficient network for effective brain extraction
Abstract:In order to solve the drawbacks of existing brain extraction network, i.e., complex network structure, large amounts of parameters and low inference speed, this paper proposed a novel network 3D UNeXt for fast and effective brain extraction. 3D UNeXt greatly reduced parameters and the number of floating point operators(FLOPs), and achieved promising results with the combination of 3D convolution, 3D MLP and multi-scale feature fusion. 3D UNeXt used U-Net as the basic architecture and employed 3D convolutional modules to obtain local features in encoding stage. Specifically, the proposed 3D MLP module at the bottleneck stage enhanced the extraction of global features and long-range dependencies among them. In decoding stage, this paper designed a lightweight multiscale feature fusion module to effectively fuse multiscale low-level features and high-level counterparts. In detail, the 3D MLP module performed linear shift operations in three different axes to obtain global receptive fields from different dimension features and establish long-range dependencies among them. This paper compared 3D UNeXt with other counterparts on three datasets:IBSR, NFBS, and HTU-BrainMask. Experimental results show that the 3D UNeXt is superior over other baselines in terms of network parameters, FLOPs, inference accuracy, and inference speed.
Key words:brain extraction; deep neural network; U-Net; multi-scale feature fusion; 3D MLP
0 引言
腦提取是腦神經影像臨床分析和診斷的基礎,為腦圖像配準[1]、腦區分割、腦體積測量和腦神經外科手術方案制定等提供診斷和決策依據[2,3]。腦提取的精度和速度決定著腦神經影像臨床分析和診斷的效果。腦提取的臨床金標準由影像科醫生以半手工方式得到:他們首先使用FSL[4,5]等軟件自動得到人腦的初始提取掩碼,之后再手工對掩碼進行修正。一名有經驗的影像科醫生完成一例腦提取操作通常需要花費30~40 min。顯然該過程存在著勞動強度大、依賴專家和效率低下等問題。
隨著計算機視覺和深度學習研究的進展,深度神經網絡被廣泛應用到醫學圖像分類和分割等領域[6]。以卷積神經網絡(convolutional neural network,CNN)為代表的深度神經網絡[7],使用卷積提取圖像特征,能夠從大量訓練樣本中學習到高層語義。這使得CNN成為早期應用于腦提取的首選網絡架構[8,9]。
傳統CNN的網絡結構復雜、參數量大,在網絡訓練和推理階段需要消耗大量的計算資源,并且隨著網絡深度的增加,CNN容易丟失淺層網絡的信息。這影響了CNN的分割效率和精度。U-Net[10]設計了編碼器和解碼器架構,并在對應的編碼單元和解碼單元之間引入跳躍連接。編碼單元和解碼單元的卷積層分別進行下采樣和上采樣,以提取醫學圖像的低級特征和高級特征;跳躍連接將對應的低級特征和高級特征進行殘差連接,以降低梯度消失對網絡性能的影響,并實現特征融合。
近年來,基于U-Net的多種網絡變體被相繼提出。Ibtehaz等人[11]設計了MultiResUNet,它將帶殘差連接的MultiRes模塊與U-Net結合,表現出較好的分割性能。Wang等人[12]提出的Non-local U-Net將注意力機制、編碼器和解碼器相結合,以獲取更大的感受野,解決卷積操作存在的全局信息缺失問題。3D U-Net[13]是U-Net在3D體數據上的拓展,它使用3D卷積和反卷積分別替換2D卷積和反卷積。3D U-Net借助較小的3D卷積核學習3D體數據的局部特征,通過多層卷積的疊加實現對全局特征的提取。王磐等人[14]在3D U-Net的基礎上提出DA 3D-UNet,在解碼器的最后兩層加上空間和通道雙注意力模塊以學習更大范圍的全局特征,提高分割精度。Jin等人[15]為3D U-Net引入殘差注意力模塊[16],提出了混合殘差和注意機制的RA-UNet。該網絡使用堆疊的殘差模塊,在增加網絡深度并細化對圖像細節關注的同時,解決梯度消失的影響。
為獲得特征之間的遠程依賴,基于注意力機制的Transformer[17]被集成到U-Net,Chen等人[18]提出的TransUNet融合了Transformer和U-Net,該網絡使用Transformer對輸入信息進行編碼,以保留圖像分割結果的細節。Cao等人[19]提出的SwinUNet將Transformer和U-Net架構結合,以學習特征之間的遠程依賴。Xu等人[20]在LeViT[21]的基礎上提出LeViT-UNet,將Transformer和2D卷積的優勢結合,在提高分割精度的同時不顯著消耗計算資源。Wang 等人[22]設計一種新的注意力模塊Mixed Transformer,以同時學習單個訓練樣本和所有訓練樣本之間的關聯信息,提高U-Net的分割精度。然而,Transformer的復雜運算導致這些網絡的參數量和浮點操作(floating points operators,FLOPs)數量很大,在訓練和推理階段消耗更多的計算資源。這使得這些方法很難被部署在計算資源受限的臨床環境[23,24]。
最近,MLP[25]開始被視覺領域關注和研究。MLP通過全連接層和非線性激活函數學習不同位置特征之間的遠程依賴;其中的線性操作消耗更少的計算資源。Lian等人[26]設計了包含一種軸向移位策略的AS-MLP,以學習不同位置特征之間的遠程依賴。Valanarasu等人[27]提出的UNeXt融合了2D卷積和MLP;在網絡淺層使用2D卷積學習局部特征,在網絡深lRS0Y4MGAMBoANVfyBIkuSeDLF6YpkbvpCBl+LL6KYU=層使用MLP學習特征間的遠程依賴。Yu等人[28]提出僅包含MLP模塊的S2-MLP,該網絡僅在通道方向對特征進行MLP操作,以實現圖像塊之間的信息交互并減少計算開銷。Pang等人[29]提出混合Transformer和MLP的3D Shuffle-Mixer。該網絡使用Transformer和MLP分別學習空間上下文信息和全局信息。Tu等人[30]提出多軸門控MLP將輸入特征分為兩路,使用MLP分別提取它們蘊涵的局部特征和全局特征。MLP有效減少了UNeXt的參數數量,克服了現有基于CNN和Transformer的2D網絡參數過多和計算復雜度過高的不足。
以U-Net為骨干的卷積網絡使用多層卷積,擴大感受野以學習高層語義信息。然而隨著卷積層的疊加,這類網絡的參數量不斷增加、計算復雜度顯著提高。將Transformer引入U-Net架構,雖然能夠提高其對特征遠程依賴的學習能力,但是帶來了更多的計算開銷。UNeXt將CNN和MLP集成到U-Net框架,實現了對2D醫學圖像的快速和準確分割。但是,腦提取的處理對象為3D體數據,使用UNeXt直接進行腦提取時只能將3D體數據劃分為2D切片送入網絡。這存在兩個問題:a)2D切片的劃分破壞了原始3D體數據包含的空間信息,造成腦提取精度下降;b)UNeXt僅使用跳躍連接融合同一尺度的淺層特征和深層特征,不能融合蘊涵不同語義級別信息的多尺度特征,也不能進一步提高腦提取的精度。
針對上述問題,本文對UNeXt進行改進,設計一種新的面向3D體數據的輕量級快速腦提取網絡3D UNeXt。其主要貢獻如下:a)提出一種新的3D MLP模塊,該模塊在網絡深層,沿寬度、高度和深度三個不同軸向對特征張量進行移位,以線性計算開銷融合不同位置的特征,之后使用尺寸較小的全連接層獲取特征之間的遠程依賴;b)設計一種融合不同尺度和不同層次特征的多尺度特征融合模塊,該模塊通過3D卷積和三線性插值實現不同尺度特征之間的尺寸對齊,之后通過小尺寸3D卷積實現特征之間的高效融合;c)提出一個輕量級快速腦提取網絡3D UNeXt,并在公有和私有數據集上進行了充分實驗,對比3D UNeXt和其他主流方法用于腦提取時的性能,結果表明,3D UNeXt的腦提取精度不低于當前先進網絡,其計算復雜度也顯著優于這些網絡。
1 3D UNeXt
1.1 網絡結構
圖1展示了3D UNeXt的基本架構和關鍵模塊。該網絡包括編碼器、網絡瓶頸和解碼器三部分。編碼器使用3D卷積提取醫學影像體數據的局部特征;網絡瓶頸使用3D MLP學習特征間的遠程依賴;解碼器使用多尺度特征融合模塊對不同尺度的特征進行融合。
編碼器包含五個模塊:從上到下,前三個模塊均由一個3D卷積層、一個批次規范化層(batch normalization, BN)和一個最大池化層(max pooling)組成。后兩個模塊均由一個3D卷積層、一個3D MLP層和一個規范化層(layer normalization,LN)組成。輸入的3D 醫學影像體數據經過前三個模塊進行下采樣,得到局部特征表達。接著,這些特征通過后兩個模塊以提取它們之間的遠程依賴。最大池化層的引入提高了模型的泛化能力,并縮小了特征圖的尺寸,從而減小計算開銷。每經過編碼器的一個模塊,特征圖的尺寸減少一半、通道數增加一倍。
解碼器由五個模塊組成,并與編碼器的五個模塊一一對應。從下至上,前兩個模塊均由一個3D卷積層、一個BN層、一個三線性插值層、一個3D MLP模塊和一個LN層組成。后三個模塊均由一個3D卷積層、一個BN層和一個三線性插值層組成。上述各模塊增加了修正線性單元(rectified linear unit, ReLU)以增強解碼器的泛化性能。每經過一個模塊,特征圖的尺寸增加一倍、通道數減少一半。
網絡瓶頸包括編碼器底部和解碼器底部的各兩個模塊。如前所述,網絡瓶頸的每一個模塊由一個3D卷積層、一個3D MLP層和一個LN層組成。相比于輸入圖像的原始尺寸,網絡瓶頸的輸入特征圖尺寸顯著減少,并包含更多的全局信息和高層語義信息。其中3D卷積層用于平滑特征圖的噪聲并提取全局特征,3D MLP層則通過線性移位操作和全連接進一步挖掘特征間的遠程依賴。
圖1(c)展示了本文設計的特征融合模塊。為高效融合不同尺度的淺層特征和深層特征且不增加網絡復雜度,該模塊被放置到編碼模塊和對應的解碼模塊之間。對前四個編碼模塊進行輸出,該特征融合模塊通過一個3×3×3的3D卷積和三線性插值,將這些輸出恢復到輸入圖像原始尺寸;之后,將恢復的特征圖與解碼模塊輸出的特征圖進行拼接;最后,拼接后的特征圖經過一個1×1×1的3D卷積進行融合。
1.2 3D MLP
如圖1(a)所示,3D MLP模塊包含五部分,即嵌入層(embedding)、深度卷積層(depth-wise convolution,DWConv)、移位層(shift)、線性層(linear)和高斯誤差線性單元(Gaussian error linear units,GELU)[31]。嵌入層使用核為3×3×3的3D卷積提取特征并對其進行規范化。對于所得特征的每一個通道,DWConv層分別使用一個獨立的2D卷積提取單通道的深層語義信息。與通常的3D卷積相比,這種方式顯著減少了參數數量和計算開銷。移位層分別沿高度、寬度和深度三個軸向對特征圖進行移位。圖2顯示了在高度軸向上的移位操作:首先將特征圖平均切分為5個分區;之后將每個分區沿高度軸方向分別移動-2、-1、0、1、2個位置;最后拼接移動后的分區并得到新的特征圖。拼接后的特征圖經過線性層獲取不同空間位置特征之間的遠程依賴。GELU層為3D MLP模塊引入非線性激活機制,以提高模型的泛化能力。
3D MLP模塊的末端包含一個殘差連接、一個LN層和ReProject層。殘差連接將原始輸入特征和末端輸出的特征進行相加以對抗梯度消失;LN層對相加特征進行歸一化;ReProject層將特征圖從底維空間投影至原始高維空間,以恢復其蘊涵的空間信息。
1.3 損失函數
二元交叉熵(binary cross entropy,BCE)和骰子損失(dice loss,DL)被用作損失函數。BCE損失函數的計算式為
DL損失函數的計算式為
總損失函數L為LBCE與LDL的加權和為
L=LBCE+αLDL(3)
其中:α>0為超參數,本文實驗取α=0.4。
1.4 腦提取流程
對于一例頭部3D體數據,本文提出如圖3所示的腦提取流程,共包含四個步驟:a)原始塊劃分,將頭部3D體數據均勻劃分為大小相等的體數據塊,本文取體數據塊的大小為128×128×128;b)逐塊分割,將原始塊送入3D UNeXt,分別進行腦提取;c)得到初始結果,得到各個圖像塊的腦提取結果;d)結果合并,將各個圖像塊的腦提取結果對齊到原始頭部3D影像,得到最終的腦提取結果。
2 實驗
2.1 數據集
實驗使用三個數據集:IBSR(https://www.nitrc.org/projects/ibsr)、NFBS(http://preprocessed-connectomes-project.org/NFB_skullstripped)和HTU-BrainMask。
IBSR包含18例T1加權的頭部3D醫學影像及對應的人腦標簽。其中每例影像的尺寸為256×256×128、分辨率為1 mm×1 mm×2 mm。NFBS包含125例T1加權的頭部3D醫學影像及其對應的人腦標簽。其中每例影像的尺寸為192×256×256、分辨率為1 mm×1 mm×1 mm。HTU-BrainMask是本文收集的私有數據集,包含482例T1加權的頭部3D醫學影像,這些影像從IXI數據集(https://brain-development.org/ixi-dataset)選取。其中每例影像的尺寸為256×256×150、分辨率為0.9 mm×0.9 mm×1.2 mm。首先使用FSL對這些影像進行腦提取,之后由放射科醫師手工修正提取結果以得到最終的人腦標簽。
2.2 數據預處理
使用FSL將原始數據投影到MNI(montreal neurological institute)標準空間[32],并將其分辨率轉換為1 mm×1 mm×1 mm。在訓練階段,使用隨機裁剪進行數據增強:對同一訓練批次的每例影像,一個128×128×128的塊被隨機裁出并送入網絡。在推理階段,使用滑動窗口將每例影像劃分為多個128×128×128的重疊塊并依次送入網絡。之后組合所有重疊塊的分割結果以得到最終結果。
2.3 實驗環境
使用PyTorch實現本文網絡,在一臺配有一塊NVIDIA A100 GPU、一塊Intel Xeon Gold 6348 @ 2.60 GHz CPU的計算機上進行實驗。使用Adam優化器,初始學習率為0.003,權重衰減系數為2E-6,訓練批次為4。每50輪驗證一次,若網絡連續500輪不優化則結束訓練。
2.4 評價指標
使用Dice、MSD、HD95和HD99對不同方法的腦提取結果進行評價。
Dice的計算式為
MSD的計算式為
HD的計算式為
2.5 結果對比
在上述三個數據集上分別進行三折交叉驗證,對比本文方法與其他主流網絡的性能。
2.5.1 計算復雜度
表1比較了3D UNeXt與其他主流網絡的參數量、FLOPs和平均CPU推理時間。對于UNeXt,本文將3D體數據劃分為2D切片,之后將這些切片逐個送入網絡。從表中可以看出,UNeXt的訓練參數、FLOPs和CPU推理時間均最小,分別為1.47 M、0.31 G和2.22 s。本文網絡的FLOPs和CPU推理時間次之,分別為8.77 G和2.54 s。這是因為UNeXt使用了2D卷積和2D MLP。因為過多使用3D卷積或Transformer模塊,3D U-Net、Modified-UNet、UNETR和MSMHA-CNN的FLOPs和CPU推理時間均明顯大于本文網絡。相反,本文網絡使用較少的3D卷積,代之以3D MLP模塊,從而顯著降低了FLOPs和CPU推理時間。特別地,與經典的3D U-Net相比,本文網絡的FLOPs下降98.58%、CPU推理時間縮短91.5%。
2.5.2 定量結果
表2~4分別定量比較了3D UNeXt和其他主流方法在三個不同數據集上的腦提取精度。在IBSR數據集上,本文網絡的Dice、MSD、HD95和HD99分別為0.979 2、1.010 8 mm、2.799 2 mm和5.763 5 mm,均優于其他方法。在NFBS數據集上,本文網絡的Dice、MSD、HD95和HD99分別為0.989 2、0.518 0 mm、1.321 1 mm和2.513 7 mm,在所有方法中均為最優。在HTU-BrainMask數據集上,本文網絡的Dice、MSD、HD95和HD99分別為0.980 6、0.750 5mm、2.033 4 mm和3.573 6 mm,均接近或優于其他網絡。這是因為本文網絡在網絡深層使用3D MLP模塊獲取特征之間的遠程依賴,在解碼階段使用多尺度特征融合模塊實現淺層特征和深層特征的高效融合,從而顯著提高了腦提取精度。UNeXt的輸入為2D切片,丟棄了3D體數據蘊涵的空間信息,這導致其顱腦剝離效果最差,雖然其計算復雜度最低。3D U-Net、Modified-UNet、UNETR和MSMHA-CNN采用3D卷積或Transformer獲取局部特征或特征間的遠程依賴,取得了較好的剝離效果,但是這些方法并沒有充分獲取上述信息,并且它們的FLOPs和平均CPU推理時間都顯著大于本文網絡。
2.5.3 定性結果
圖4~6分別展示了3D UNeXt和其他先進網絡在IBSR、NFBS和HTU-BrainMask數據集上的腦提取可視化結果。從中可以看出,本文網絡的剝離結果沒有明顯噪聲且腦邊緣平滑程度最好,腦提取結果最接近于真實標簽。這是因為3D MLP模塊和多尺度特征融合模塊能夠充分學習特征之間的遠程依賴并充分融合淺層特征與深層特征。UNeXt的剝離結果存在明顯空洞,因為其丟失了3D體數據包含的空間信息和遠程依賴信息。3D U-Net、Modified-UNet、UNTER和MSMHA-CNN的剝離結果存在邊緣噪聲且提取出的腦邊緣平滑程度較差。這是因為這些方法雖然能夠獲取豐富的局部細節信息,但不能充分學習特征之間的遠程依賴以剔除非腦部區域產生的噪聲。
2.6 消融實驗
為驗證3D MLP模塊和多尺度特征融合模塊的有效性,本文進行以下兩組消融實驗。消融實驗1,移除3D MLP模塊;消融實驗2,移除多尺度特征融合模塊。在三個數據集上的消融實驗結果如表5~zwQKeKwOuYSLVRLpiQ8HtA==7所示。從中可以看出,3D MLP模塊和多尺度特征融合模塊在3D UNeXt中具有重要作用。
3 結束語
腦提取的結果對實驗室分析和臨床診斷產生重要影響,因此研究準確和高效腦提取的模型具有重要的理論意義和應用價值。本文提出的3D UNeXt是一種全新的用于腦提取的輕量級網絡。該網絡能夠在普通CPU上快速運行,有效解決了現有主流網絡參數量大和推理速度慢的問題。3D UNeXt在網絡淺層使用3D卷積提取豐富的局部特征信息,在網絡深層使用3D MLP模塊,借助移位操作在不同軸向實現特征間的交互、表征間的遠程依賴。移位操作為線性操作,從而有效降低了3D UNeXt的計算復雜度并提高了網絡的推理速度。解碼階段的多尺度特征融合模塊有效融合了不同尺度的淺層特征和深層特征,進一步提高了網絡的腦提取精度。
本文僅在三個數據集上進行實驗,這些數據集的樣本數量相對較少并且成像模態較為單一。這可能產生一定的統計誤差,不能非常全面地評估3D UNeXt的泛化能力。后期可以在更多數據集上進行實驗,充分驗證本文網絡。
參考文獻:
[1]田梨梨, 程欣宇, 唐堃, 等. 集成注意力增強和雙重相似性引導的多模態腦部圖像配準[J]. 中國圖象圖形學報, 2021, 26(9): 2219-2232. (Tian Lili, Cheng Xinyu, Tang Kun, et al. Multimodal brain image registration with integrated attention augmentation and dual similarity guidance[J]. Journal of Image and Graphics, 2021, 26(9): 2219-2232.)
[2]Isensee F, Schell M, Pflueger I, et al. Automated brain extraction of multisequence MRI using artificial neural networks[J]. Human Brain Mapping, 2019,40(17): 4952-4964.
[3]Monteiro M, Newcombe V F, Mathieu F, et al. Multiclass semantic segmentation and quantification of traumatic brain injury lesions on head CT using deep learning: an algorithm development and multicentre validation study[J]. The Lancet Digital Health, 2020,2(6): e314-e322.
[4]Woolrich M W, Jbabdi S, Patenaude B, et al. Bayesian analysis of neuroimaging data in FSL[J]. NeuroImage, 2009,45(1): S173-S186.
[5]Jenkinson M, Beckmann C F, Behrens T E, et al. FSL[J]. NeuroImage, 2012, 62(2): 782-790.
[6]Litjens G, Kooi T, Bejnordi B E, et Xon81kjJ8Wf8AGzvoPXL4OR/EaUC7nf4yLhvavdMyDA=al. A survey on deep learning in medical image analysis[J]. Medical Image Analysis, 2017,42: 60-88.
[7]Shin H C, Roth H R, Gao Mingchen, et al. Deep convolutional neural networks for computer-aided detection: CNN architectures, dataset characteristics and transfer learning[J]. IEEE Trans on Medical Imaging, 2016,35(5): 1285-1298.
[8]Dou Qi, Chen Hao, Jin Yueming, et al. 3D deeply supervised network for automatic liver segmentation from CT volumes[C]//Proc of the 19th International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin: Springer, 2016: 149-157.
[9]Kleesiek J, Urban G, Hubert A, et al. Deep MRI brain extraction: a 3D convolutional neural network for skull stripping[J]. Neuro-Image, 2016,129: 460-469.
[10]Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//Proc of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin: Springer, 2015: 234-241.
[11]Ibtehaz N, Rahman M S. MultiResUNet: rethinking the U-Net architecture for multimodal biomedical image segmentation[J]. Neural Networks, 2020,121: 74-87.
[12]Wang Zhengyang, Zou Na, Shen Dinggang, et al. Non-local U-Nets for biomedical image segmentation[C]//Proc of the 34th AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press, 2020: 6315-6322.
[13]iek , Abdulkadir A, Lienkamp S S, et al. 3D U-Net: learning dense volumetric segmentation from sparse annotation[C]//Proc of the 19th International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin: Springer, 2016: 424-432.
[14]王磐, 強彥, 楊曉棠, 等. 基于雙注意力3D-UNet的肺結節分割網絡模型[J]. 計算機工程, 2021, 47(2): 307-313. (Wang Pan, Qiang Yan, Yang Xiaotang, et al. Network model for lung nodule segmentation based on double attention 3D-UNet[J]. Engineering with Computers, 2021, 47(2): 307-313.)
[15]Jin Qiangguo, Meng Zhaopeng, Sun Changming, et al. RA-UNet: a hybrid deep attention-aware network to extract liver and tumor in CT scans[J]. Frontiers in Bioengineering and Biotechnology, 2020, 8: 605132.
[16]Wang Fei, Jiang Mengqing, Qian Chen, et al. Residual attention network for image classification[C]//Proc of the 30th IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 3156-3164.
[17]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. (2021-06-03) . https://doi. org/10.48550/arXiv.2010.11929.
[18]Chen Jieneng, Lu Yongyi, Yu Qihang, et al. TransUNet: transfor-mers make strong encoders for medical image segmentation[EB/OL]. (2021-02-08) . https://doi.org/10.48550/arXiv.2102.04306.
[19]Cao Hu, Wang Yueyue, Chen J, et al. Swin-UNet: UNet-like pure transformer for medical image segmentation[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2022: 205-218.
[20]Xu Guoping, Zhang Xuan, He Xinwei et al. LeViT-UNet: make faster encoders with transformer for medical image segmentation[C]//Proc of Chinese Conference on Pattern Recognition and Computer Vision. Singapore: Spinger Natide Singapore, 2023:42-53.
[21]Graham B, El-Nouby A, Touvron H, et al. LeViT: a vision transformer in convnet’s clothing for faster inference[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 12259-12269.
[22]Wang Hongyi, Xie Shiao, Lin Lanfen, et al. Mixed Transformer U-Net for medical image segmentation[C]//Proc of the 47th IEEE International Conference on Acoustics, Speech and Signal Processing. Pisca-taway, NJ: IEEE Press, 2022: 2390-2394.
[23]張航, 王雅萍, 耿秀娟, 等. 等強度嬰兒腦MR圖像分割的深度學習方法綜述[J]. 中國圖象圖形學報, 2020, 25(10): 2068-2078. (Zhang Hang, Wang Yaping, Geng Xiujuan, et al. Review of deep learning methods for isointense infant brain MR image segmentation[J]. Journal of Image and Graphics, 2020, 25(10): 2068-2078.)
[24]何康輝, 肖志勇. LRUNet: 輕量級腦腫瘤快速語義分割網絡[J]. 中國圖象圖形學報, 2021, 26(9): 2233-2242. (He Kanghui, Xiao Zhiyong. LRUNet: a lightweight rapid semantic segmentation network for brain tumors[J]. Journal of Image and Graphics, 2021,26(9): 2233-2242.)
[25]Pinkus A. Approximation theory of the MLP model in neural networks[J]. Acta Numerica, 1999, 8: 143-195.
[26]Lian Dongze, Yu Zehao, Sun Xing, et al. AS-MLP: an axial shifted MLP architecture for vision[EB/OL]. (2022-03-17) . https://doi.org/10.48550/arXiv.2107.08391.
[27]Valanarasu JMJ, Patel VM. UNeXt: MLP-based rapid medical image segmentation network[C]//Proc of the 25th International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2022: 23-33.
[28]Yu Tan, Li Xu, Cai Yunfeng, et al. S2-MLP: spatial-shift MLP architecture for vision[C]//Proc of the 22nd IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2022: 3615-3624.
[29]Pang Jianye, Jiang Cheng, Chen Yihao, et al. 3D Shuffle-Mixer: an efficient context-aware vision learner of transformer-MLP paradigm for dense prediction in medical volume[J]. IEEE Trans on Medical Imaging, 2023, 42(5): 1241-1253.
[30]Tu Zhengzhong, Talebi H, Zhang Han, et al. MAXIM: multi-axis MLP for image processing[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5769-5780.
[31]Hendrycks D, Gimpel K. Gaussian error linear units(GELUs)[EB/OL]. (2023-06-06). http://doi.org/10.48550/arXiv.1606.08415.
[32]Feindel W. The montreal neurological institute[J]. Journal of Neurosurgery, 1991,75(5): 821-822.
[33]Isensee F, Kickingereder P, Wick W, et al. Brain tumor segmentation and radiomics survival prediction: contribution to the brats 2017 challenge[C]//Proc of the 20th International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Sprin-ger, 2018: 287-297.
[34]Hatamizadeh A, Tang Y, Nath V, et al. UNETR: transformers for 3D medical image segmentation[C]//Proc of the 22nd IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2022: 574-584.
[35]Sun Liang, Shao Wei, Zhu Qi, et al. Multi-scale multi-hierarchy attention convolutional neural network for fetal brain extraction[J]. Pattern Recognition, 2023, 133: 109029.