

















摘 要:傳統的醫學圖像分割網絡參數量大、運算速度緩慢,不能有效應用于即時檢測技術。為解決該問題,提出了一種輕量化的醫學圖像分割網絡SPTFormer。該網絡構建了自分塊Transformer模塊,其通過自適應的分塊策略重塑特征圖,利用并行化計算在提高Attention運算速度的同時關注局部細節特征;還構建了SR-CNN模塊,使用平移加復位操作提升對局部空間信息的捕獲能力。在ISIC 2018、BUSI、CVC-ClinicDB和2018 data science bowl四個模態數據集上進行了實驗,與基于Transformer的TransUNet網絡相比,所提網絡SPTFormer精度分別提高了4.28%、3.74%、6.50%和1.16%,GPU計算耗時降低58%。該網絡在醫學圖像分割應用中具有更優的性能,可以良好地兼顧網絡精度和復雜度,為計算機即時輔助診斷提供了新方案。
關鍵詞:醫學圖像分割; 輕量化網絡; Transformer
中圖分類號:TP391.41 文獻標志碼:A
文章編號:1001-3695(2024)11-044-3502-07
doi:10.19734/j.issn.1001-3695.2023.11.0634
Medical image segmentation network based on self-partitioning lightweight Transformer
Zhang Wenjiea,b, Song Yantaoa,b?, Wang Keqia,b, Zhang Yueb
(a.Institute of Big Data Science amp; Industry, b.School of Computer amp; Information Technology, Shanxi University, Taiyuan 030006, China)
Abstract:The traditional medical image segmentation network has a large number of parameters and slow computing speed, and cannot applies effectively to the real-time detection technology. To address this issue, this paper proposed a lightweight medical image segmentation network called SPTFormer. Firstly, this network constructed a self-blocking Transformer module, which reshaped the feature map through an adaptive blocking strategy and utilized parallel computing to improve the attention operation speed while paying attention to local detail features. Secondly, this network constructed an SR-CNN module, which used the shift-restored operation to improve the ability to capture local spatial information. By experimenting on ISIC 2018, BUSI, CVC-ClinicDB and 2018 data science bowl, compared with the TransUNet model based on Transformer, the accuracy of the proposed network improves by 4.28%, 3.74%, 6.50%, and 1.16%, respectively, the GPU computation time reduces by 58%. The proposed network has better performance in medical image segmentation applications, which can well balance the network accuracy and complexity, and provides a new solution for real-time computer-aided diagnosis.
Key words:medical image segmentation; lightweight network; Transformer
0 引言
醫療成像解決方案在疾病診斷和治療中發揮著關鍵作用。醫學圖像分割是醫學成像應用中的一個重要任務,通過自動檢測、提取重要信息和準確分割病變區域,為醫學診斷提供可靠支持[1],至今已有多種分割網絡涌現。以U-Net為代表的CNN架構網絡和以ViT(vision Transformer)為代表的Transformer網絡都致力于通過引入更多的參數和復雜操作來提高分割精度。
近年來隨著即時檢測(point-of-care-testing,POCT)[2]技術的不斷完善,對計算機輔助診斷的響應時間提出了較高要求,基于手機攝像頭的圖像也被用于皮膚狀況的檢測和診斷[3]。例如,Google Lens推出了實時圖像的皮膚健康檢測功能[4],如圖1(a)所示用戶只需要通過智能手機拍攝照片來識別皮膚上的痣或皮疹,而無須提供文本描述。此外,即時超聲(point-of-care ultrasound,POCUS)[5]作為一種床邊診斷設備已成為急性醫學的有力工具。例如,飛利浦公司推出了便攜式超聲設備Lumify[6],如圖1(b)所示用戶只需下載App并連接探頭,即可在需要的地點和時刻進行快速超聲掃查診斷。因此,醫學輔助診斷設備正朝著小型化、輕量級、多場景應用的即時診斷方向發展。然而大部分網絡需要幾秒鐘的時間才能在Tesla P100-PCIE顯卡上處理一張普通圖像,POCUS和手機等設備沒有足夠的硬件資源部署如此巨大的算法模型,這嚴重阻礙著即時檢測技術的進步。
為此,業界涌現出許多輕量化的網絡,這些網絡大多采用深度可分離卷積(depthwise separable convolution,DSC)[7]和基于MLP(multilayer perceptron)等技術,以減少網絡復雜度與參數量。盡管這些方法已經取得了一定的成功,但依舊不能良好地平衡網絡的性能和參數量。為提升網絡精度和降低復雜度,充分利用CNN的局部性和Transformer的全局性,本文提出了一種基于CNN+Transformer架構的輕量化網絡(self-partitioning Transformer,SPTFormer)。該網絡在模型復雜度、參數量和運算速度等方面比基于CNN和Transformer的網絡更輕量,良好地兼顧了網絡精度和復雜度,為計算機即時輔助診斷提供了新方案。
1 相關工作
自2012年AlexNet[8]憑借CNN(convolutional neural network)贏得ImageNet競賽以來,CNN已成為計算機視覺領域的主流方法,在醫學圖像分析中也取得了顯著成就。其中,U-Net[9]采用對稱編碼器-解碼器架構,通過卷積層進行特征提取和上采樣,并借助跳躍連接來提高分割精度,被廣泛應用于醫學圖像分割中,其擴展網絡如U-Net++[10]、RCAR-UNet[11]、FANet[12]以及DCSAU-Net[13]等被相繼提出。其中,U-Net++[10]通過抓取不同層次的特征進行整合配合深監督在醫學圖像分割任務中取得較好結果。RCAR-UNet[11]將粗糙通道注意力和殘差UNet相結合,在眼底視網膜分割中取得較好結果。FANet[12]利用不同訓練階段的信息來改善卷積網絡的分割性能,在多個醫學圖像分割任務中取得較好結果。DCSAU-Net[13]則通過多尺度和深度卷積提取有用特征,在皮膚病等多個醫學圖像數據集上獲得了較好的分割性能。雖然CNN已經取得了巨大成功,但受限于局部感知的特性,往往需要犧牲模型復雜度來捕獲更大的感受野和長距離依賴,這嚴重限制了其在醫學圖像分割問題中的臨床應用。
近期,受到Transformer在自然語言處理領域成功的啟發[14],谷歌團隊將Transformer引入計算機視覺任務中提出了ViT網絡[15],其彌補了CNN在全局感受野和長距離依賴性上的局限性。隨后,Chen等人[16]率先將Transformer應用于醫學分割任務,發現Transformer擅長對全局上下文進行建模,但它在捕獲細粒度細節方面顯示出局限性,因此采用CNN+Transformer架構來彌補細節信息,并在多器官和心臟數據集上取得了良好的分割結果。TransBTS網絡[17]將Transformer與3D CNN有效結合實現了3D腦腫瘤三維分割。DermoSegDiff網絡[18]提出了一種結合邊界信息的CNN+Transformer架構,并將其應用在皮膚病檢測領域,取得了較好的效果。MT-UNet[19]提出一種混合Transformer模塊,通過學習樣本內和樣本間的關系,在多器官分割中取得較好性能。Li等人[20]率先將Transformer應用在上采樣中,通過關注淺層網絡中的局部細節,在大腦和心臟數據集中取得了比較好的結果。然而,目前基于Transformer的網絡仍存在計算量大、position embedding質量低、容易忽略局部信息的缺點,另一方面,醫學圖像由于其自身的成像原理、使得圖像表現出一定的模糊性,且各組織之間邊界不明確,因此使用基于Transformer的醫學圖像分割網絡往往由于其對邊緣信息的忽略導致未能有效提取病灶區域特征,制約了分割精度。
為了降低模型復雜度,谷歌團隊提出的MobileNet[7]使用深度可分離卷積來構建輕量化深度神經網絡,已成為輕量化卷積的經典方法。李朝林等人[21]提出的多尺度注意力輕量網絡模型在眼底圖像多分類任務中取得了優異結果。Yang等人[22]通過引入兩個增強的注意力機制提出了LVT輕量化變壓器網絡,以提升Transformer的運算速度。MLP Mixer網絡[23]使用MLP代替傳統CNN中的卷積操作和Transformer中的自注意力機制(self-attention),將卷積和自注意力機制相融合,取得了與ViT相當的性能。隨后,AS-MLP[24]對特征圖的軸向移動幫助MLP獲得CNN的局部感受野,在圖像分割任務中使用更少的參數達到了同Transformer相似的性能。S2-MLP網絡[25]提出一種無參數的空間位移來實現特征融合,進一步提高了圖像任務的計算效率。UNeXt網絡[26]成功將MLP架構應用于醫學分割領域,用較少的參數在皮膚病和乳腺超聲數據集上取得較好性能,為計算機即時輔助診斷提供了可行性。PHNet[27]提出了一種高效的多層置換感知器模塊,通過保留位置信息來增強原始的MLP,并借助CNN提取局部信息的能力,在多器官和肺炎數據集中取得了較好性能。盡管這些方法在降低模型復雜性方面已經取得了一定的成功,但由于其結構簡單在捕捉局部特征和長距離特征方面存在局限性,導致大多數方法不能良好平衡網絡的性能和復雜度。例如,文獻[13]提出了深度可分離卷積的DCSAU-Net網絡,并進行了一定優化與改進,其參數量僅為2.6 M,但處理一張圖片卻需要934 ms;基于MLP架構的UNeXt[26]參數量僅為1.47 M,處理速度僅8 ms,但其在精度方面表現效果不佳。
綜上,當前流行的醫學圖像分割網絡雖然取得了較大進展,但不能良好地平衡網絡復雜度和分割精度,限制了即時檢測技術在臨床的應用。因此,本文提出了一種輕量的基于自分塊Transformer的醫學圖像分割網絡SPTFormer,并在四種不同模態的醫學圖像分割領域驗證了該網絡模型的優越性和魯棒性。首先,提出了一種自分塊Transformer結構,根據輸入特征圖的尺寸自適應沿空間維度進行分組,通過矩陣變換的方式將空間與通道維度降維到新的特征圖中,從而實現運算加速。其次,使用線性平移CNN(shift-restored CNN,SR-CNN)模塊代替傳統CNN模塊進行特征提取,使其在深度卷積和點卷積的混合結構上進一步增大感受野,并引入一種平移+回滾的操作提升模塊對局部結構信息的捕獲能力。實驗結果表明,SPTFormer在準確度、平均交并比、精度和召回率四個關鍵指標上均優于對比網絡。
2 本文網絡
圖2為本文網絡的整體架構,該網絡采用編碼器-解碼器的網絡結構,在采樣過程中構造了SR-CNN模塊和自分塊Transformer模塊,此外還采用通道注意力模塊(squeeze and excitation block,SE-Block)增強特征的表示能力。具體來說,整個網絡包含4個編碼器,每個編碼器模塊將特征分辨率降低一半。第一個編碼器模塊后插入SE-block模塊,通過對特征的通道維度進行加權增強特征的判別性。在其他的編碼器后插入SR-CNN模塊,通過引入一種平移+回滾的操作提升模塊對特征信息的捕獲能力。為了增強網絡對特征全局關系的建模能力,在第三和四個編碼器之后插入了自分塊Transformer模塊。其中,自分塊Transformer和SR-CNN模塊將分別在2.1節和2.2節進行詳細介紹。解碼器部分,使用與編碼器數量對應的解碼器,每個解碼器將特征分辨率提高1倍。第一個解碼器后插入了SR-CNN模塊和自分塊Transformer模塊,使之形成類似金字塔的結構。
2.1 自分塊Transformer
對于以ViT為代表的網絡來說,首先將輸入圖像X∈?H×W×C重塑為Xp∈?N×(P2C)的patch塊,其中,H、W表示原始圖像的分辨率,C表示通道數量,P為每個patch塊內的分辨率,N為patch塊的數量。然后使用Transformer模塊學習patch間的關系。其直接作用于整張圖像,能夠較好地捕獲長距離依賴關系,因此在需要大感受野的檢測、分割等視覺任務中表現出色。但此類網絡忽略了空間局部性,在醫學圖像任務中容易丟失特有的微小病灶信息,且將輸入圖像patch化的過程中,圖像內部結構信息容易被破壞。同時Transformer中的self-attention計算量大,復雜度高,因此基于Transformer的醫學圖像分割網絡往往需要消耗巨大硬件資源與更多的數據集才能達到較好的效果。
為了克服以上問題,本文提出了一種自分塊Transformer結構,網絡結構如圖3所示。首先對輸入圖像在attention操作之前引入分塊策略,沿著空間,即“寬高”維度進行分塊,具體如圖4所示。其中圖4(a)為輸入的特征圖,圖4(b)為本文網絡的分組特征圖,數字表示所標記特征圖的序號。其分塊公式計算如下:
g=2「log2(max(log2(H×WC),1))?(1)
其中:g是針對原始圖像分辨率維度的分塊數量,此時輸入圖像X∈?H×W×C依據尺寸動態重塑為Xg∈?G×HWG×C。其目的是對輸入圖像在空間維度上進行分塊和降維,盡可能使得“寬高”維度與通道維度相接近,即將一個大的輸入特征拆分成多個“正方形”特征進而有效減少attention中乘法運算的矩陣尺寸,從而加速運算。而且,通過分塊能阻隔塊間的特征計算,從而幫助自分塊Transformer關注局部信息。此外,這種分塊和降維的策略還能夠限制每個塊內的特征數量,因而無須對圖像patch化,可以避免信息的丟失。
當“寬高”維度小于等于通道維時,自分塊Transformer結構將不再對“寬高”維度進行分塊,轉而對通道維度進行分塊,即類似于multi-head attention策略,但是會動態地對頭數heads進行調整,在保留傳統Transformer捕獲全局依賴特性的同時提高運算速度。動態頭數heads的計算公式如下:
h=max(CH×W,1)(2)
其中:h表示動態頭數。隨后,將分塊后的特征圖輸入到self-attention中,如式(3)所示。
self-attention(Q,K,V)=softmax(QKTdk)V(3)
接下來,使用兩個全連接層將特征放大3倍后還原,以豐富特征表示。此外,本文還在每個自分塊Transformer的末尾插入了SE-block模塊,如圖2所示。SE-block[28]是一種用于CNN中的注意力機制模塊,該模塊通過特征的通道維度進行加權,進一步增強特征的判別性,有助于提高SPTFormer的表現力和泛化性能。該網絡中的自分塊Transformer模塊會在空間維度進行分組,在通道維度進行計算,因此在模塊末尾加入通道注意力比空間注意力更有意義,而且SE-block十分輕量,幾乎不會為網絡增加額外的計算成本。綜上,自分塊Transformer的計算流程如算法1所示。
算法1 自分塊Transformer
輸入:特征圖(F)(batch_size,channel,height,width)。
輸出:特征圖(F′) (batch_size,channel,height, width)。
a) 根據式(1)計算分塊數量g
b) 根據式(2)計算頭數h
c) if 寬高維度 gt;= 通道維度
d)F更新為(batch_size, (G_h G_w), (height weight), channel)
e) else if寬高維度 lt; 通道維度:
f)F更新為(batch_size, heads, (height weight), channel)
g) for 每個組 do
h)計算Q,K,V
i)根據式(3)計算self-attention(Q,K,V)
j)通過feed forward進行兩次線性變換
k)F更新為(batch_size, channel, height, width)
l)計算通道注意力SE-block,并與特征圖殘差連接
m)return F'
得益于這種動態的分塊策略,本文提出的分塊Transformer可以輕易地嵌入任何一層。經過多次實驗,本文將自分塊Transformer模塊嵌入到網絡模型第三和四層中。第三層中的自分塊Transformer通過式(1)捕獲塊內全局特征,第四層中的自分塊Transformer通過式(2)捕獲圖像的全局特征。
為了進一步分析網絡模型的有效性,對比了自分塊后self-attention與傳統方法中Q、K、V計算的復雜度,假設輸入特征圖Xf∈?H×W×C,其復雜度對比情況如表1所示。
通過表1得知,當輸入圖像的尺寸H、W與通道數C之間的差異越大時,自分塊Transformer降低模型復雜度的效果就越顯著。醫學圖像通常具有高分辨率且分割目標較少的特點,自分塊Transformer的應用有助于網絡在有限的特征中獲取高質量的信息。此外,降低通道數量是降低模型復雜度的關鍵因素。因此,自分塊Transformer更適用于設計輕量高效的醫學分割網絡,尤其在需要即時檢測技術的場景中能充分發揮其優勢。
2.2 SR-CNN
CNN固有的歸納偏置平移不變性和局部相關性是視覺Transformer結構所缺少的特性,這導致了Transformer通常需要更大的數據量才能超越CNN,基于此,SPTFormer使用CNN作為基礎的特征提取器。受Google提出的深度可分離卷積[7]的啟發,本文提出了基于深度可分離卷積結構SR-CNN,使用DSC代替傳統卷積,并通過滑動窗口兩次平移操作捕獲位置和局部結構信息,最后引入h-swish激活函數。SR-CNN作為網絡的基礎模塊更側重于捕獲局部特征,這些局部特征將在后續的自分塊Transformer模塊中被全局分析,具體結構如圖5所示。
與DSC類似,SR-CNN同樣采用了深度可分離卷積結構,將逐通道卷積(depthwise convolution,DW)提取的高層級特征與逐點卷積(pointwise convolution,PW)提取的低層級特征相結合,相比于普通卷積具有較高的計算效率。此外,為了捕獲位置信息,SR-CNN模塊在兩次DW卷積操作之前,增加了兩個線性平移操作,即沿著空間維度對特征圖進行平移。a)第一次平移是錯位平移:將特征圖分成5組,向不同方向平移,新的特征圖為后續的DW卷積提供了位置信息和相鄰的特征信息,這有助于網絡識別病灶邊緣,對醫學圖像分割任務十分重要;b)第二次平移是復位平移,這次平移可以保證卷積模塊的平移不變性不被破壞。特別說明的是,移動會對特征圖造成一定程度的位置擾動,其擾動程度取決于平移量和所在網絡層級。在深層網絡中,經過多輪的下采樣,即使平移量設置為1或2,對特征圖的影響也可能是巨大的,因此在本文網絡中,為了泛化不同數據集的性能,將平移量設計為超參數。同時,大尺寸DW卷積核可以保證CNN的局部相關性得到更充分的發揮,并且對網絡運算速度影響較小。為此本文網絡在DW卷積中使用了較大的7×7卷積核,并使用h-swish激活函數代替ReLU。其中,h-swish是swish的一種計算高效的近似方法,但比ReLU具有更好的性能。
3 實驗結果與分析
3.1 數據集描述
為了驗證本文網絡的有效性,在四種不同模態的公開醫學圖像數據集上進行實驗,皮膚?。↖SIC 2018)[29]、乳房超聲圖像(BUSI)[30]、息肉(CVC-ClinicDB)[31]和細胞核(2018 data science bowl)[32]數據集。ISIC 2018由2 594個皮膚癌樣本組成,每個樣本包含皮膚病學圖像和相應的皮膚病變區域分割圖。BUSI由正常、良性和惡性乳腺癌癥病例的超聲圖像以及相應的分割圖組成,本文使用了其中良性和惡性的圖像共647例。CVC-ClinicDB包含612個來自29個不同的內窺鏡視頻片段中的息肉圖像,結腸直腸息肉是結腸和直腸中的癌癥前兆之一,它大大增加了通過早期檢測避免致命癌癥的機會。2018 data science bowl包含670個自動化細胞核圖像,該數據集有利于發現細胞對各種治療方法的反映,了解潛在生物學過程。在實驗中首先將圖像分辨率調整為256×256。隨后,將數據集按8∶1∶1的比例隨機拆分為訓練集、測試集和驗證集。最后,根據樣本數量不同,從隨機亮度、對比度、高斯噪聲、銳化、平移、旋轉和縮放等數據增強中隨機選取幾種對訓練集進行增廣。具體如表2所示。
3.2 實驗設置及評價標準
本文實驗基于PyTorch框架實現,開發環境為Ubuntu并配備1張Tesla P100-PCIE顯卡。設置batch size為30,從頭開始訓練300個epoch。所有網絡的初始學習率為0.005,本文采用AdamW優化器來訓練網絡,每次迭代的衰減為0.000 1。將數據集中的給定分割圖作為標準分割結果,使用dice和交叉熵的混合損失,損失函數L定義為
L=0.5BCE(,y)+dice(,y)(4)
其中:y是標準值;是預測值。
采用dice系數(dice coefficient)、IoU(intersection over union)、精度(precision)和召回率(recall)作為網絡性能的評價依據。各指標計算公式具體如下:
dice=2TP2TP+FP+FN(5)
IoU=TPTP+FP+FN(6)
precision=TPTP+FP(7)
Recall=TP/TP+FN(8)
其中:TP(true positive)為預測正確的正樣本;TN(true negative)為預測正確的負樣本;FP(1 positive)為預測錯誤的正樣本;FN(1 negative)為預測錯誤的負樣本。
3.3 實驗結果
3.3.1 網絡精度對比
首先,選擇在即時檢測設備上得到廣泛應用的ISIC 2018和BUSI數據集上與不同架構的骨干網絡進行比較。分別選用了基于CNN骨干網絡的U-Net[9]、FANet[12]、DCSAU-Net[13]、MSRF-Net[33],基于Transformer和MLP的骨干網絡分別選擇了前沿的TransUNet[16]、DermoSegDiff[18]和UNeXt[26]。其中,FANet、DCSAU-Net、DermoSegDiff是專門針對ISIC 2018數據集開發的最新網絡。
在ISIC 2018數據集上的對比結果如表3所示。其中,黑色加粗字體表示最優結果,下畫線字體表示次優結果。從表3中可以看出,SPTFormer在分割性能方面優于所有基線網絡,在dice、IoU、precision和recall得分方面分別優于第二名1.15、1.10、1.66、0.61百分點。
上述網絡在ISIC 2018上的分割結果如圖6所示。其中,第一列是輸入圖像,第二列是真實分割結果,最后一列為本文網絡分割結果,中間其余列則展示了不同網絡的分割結果。本文通過紅色線條勾勒了真實分割結果的輪廓,通過綠色線條描繪了網絡預測的分割結果輪廓(參見電子版)。當真實輪廓和預測輪廓重疊時,使用較亮的灰白色來填充分割背景。由圖6可以看出,在第一和二行皮膚病變圖像中,即使病變區域的邊緣輪廓模糊不清,本文所提出的網絡依舊展現出了較高的水準,分割結果與標準分割結果更為接近。
由于FANet和DCSAU-Net是專門為ISIC 2018設計的網絡,所以在BUSI數據集的對比實驗中,將其替換為新的基線網絡U-Net++[10]和專門為BUSI數據集設計的CMU-Net[34]。結果如表4所示,與表3類似采用黑色加粗字體表示最優結果,下畫線字體表示次優結果。從表4可以看出,SPTFormer在細分性能方面同樣優于所有基線網絡。在dice、IoU、precision和recall得分方面,與第二名相比,SPTFormer分別提高了3.74、3.52、3.77和4.89百分點。
表4中各網絡在BUSI數據集上的分割結果如圖7所示。其中,第一行乳腺病變圖像中,基于CNN的網絡架構容易受到感受野的限制,從而無法充分考慮病變區域,相比之下,本文網絡可以充分考慮全局信息,從而較好地分割出病變區域。在第二行圖像中,基于Transformer的TransUNet由于過度關注全局信息,導致誤判的可能性增加。而SPTFormer不僅可以通過增大卷積核來彌補CNN模塊感受野不足的問題,還通過動態限制Transformer模塊的感受野來解決局部信息不足的挑戰,這使得網絡能夠更完整地分割出病變區域。
為進一步驗證網絡的泛化性能,本文在CVC-ClinicDB和2018 data science bowl兩種不同模態的數據集上進行了進一步的對比實驗,結果如表5所示。需要特別指出的是,UACANet[35]是一種專門針對息肉設計的分割網絡。
從表5可以看出,SPTFormer在新的數據集中依舊表現出較高水平。在CVC-ClinicD數據集上,本文網絡在dice和IoU指標上分別優于第二名專門針對該數據集的網絡UACANet 2.31和1.99百分點,驗證了本文網絡在該數據集上的有效性。在2018 data science bowl數據集上,本文網絡同樣取得了較好的分割結果,在dice、IoU和recall指標上分別領先第二名0.34、0.25和0.46百分點,進一步驗證了本文網絡的泛化性和魯棒性。
3.3.2 網絡復雜性分析
為了驗證SPTFormer在模型復雜度方面的優勢,對網絡的參數量、復雜度和GPU運算速度進行了實驗,結果如表6所示。
運算速度(time)是通過向網絡輸入100組256×256的三通道隨機矩陣,統計在GPU下的平均運算速度。由表6可知,在模型復雜度方面,本文網絡僅次于基于MLP架構的UNeXt,但是遠高于基于CNN和Transformer的網絡架構網絡,對比同架構的TransUNet,本文網絡的參數量下降了97%,計算耗時降低58%。這是由于MLP架構省去了Q、K、V的計算,所以在復雜度方面表現更好,但由于缺乏長距離依賴,導致其性能表現不佳。綜合考慮可知,SPTFormer在模型復雜度方面與MLP架構相當,在分割精度方面遠高于MLP架構的網絡,能夠更好地平衡算法的性能與復雜性。
4 結束語
針對CNN和Transformer在醫學圖像中分割精度低且算法復雜度高的問題,本文將CNN和Transformer相結合,提出了一種基于自分塊Transformer的輕量化醫學圖像分割網絡SPTFormer。在自分塊Transformer中,通過分塊并行計算的方式,在加速運算的同時幫助Transformer捕獲局部信息;在SR-CNN中,通過平移加復位的滑動窗口操作,進一步提升網絡對局部空間信息的捕獲能力。對比實驗結果表明,本文SPTFormer在捕獲全局信息和局部病灶方面具有優勢,在多種模態的醫學圖像數據集上均展現了較高的分割精度,驗證了本文網絡的泛化性。通過實驗證明了SPTFormer具有與MLP相當的運算速度,考慮到即時超聲和手機攝像頭等多種即時輔助診斷設備,如何有效整合不同設備獲得的信息,提高網絡在多場景應用中的性能,探索多模態信息的融合,是未來工作的重要研究內容。
參考文獻:
[1]Deheyab A O A, Alwan M H, Rezzaqe I A, et al. An overview of challenges in medical image processing[C]//Proc of the 6th International Conference on Future Networks amp; Distributed Systems. New York: ACM Press, 2022: 511-516.
[2]張利偉, 朱立紅, 樊綺詩. POCT的發展及臨床應用[J]. 診斷學理論與實踐, 2004(4): 89-90. (Zhang Liwei, Zhu Lihong, Fan Qishi. Development and clinical application of POCT[J]. Diagnostics Theory and Practice, 2004(4): 89-90.)
[3]熊月玲, 葉明全, 姚傳文, 等. 基于移動醫療的皮膚病輔助診斷系統[J]. 中國數字醫學, 2019, 14(11): 21-23. (Xiong Yue-ling, Ye Mingquan, Yao Chuanwen, et al. Dermatology auxiliary diagnosis system based on mobile medicine[J]. Digital Medicine in China, 2019, 14(11): 21-23.)
[4]Peggy B M, Liu Yuan. Google lens[EB/OL]. (2021-05-18). https://blog.google/technology/health/ai-dermatology-preview-io-2021/.
[5]徐崢嶸, 張娜雯, 張耀. 肺部超聲POCUS方案監測肺水腫的可行性評價[J]. 中國循證心血管醫學雜志, 2018, 10(6): 702-705. (Xu Zhengrong, Zhang Nawen, Zhang Yao. Evaluation of the feasibility of the pulmonary ultrasound POCUS protocol for monitoring pulmonary edema[J].Chinese Journal of Evidence-based Cardio-vascular Medicine, 2018, 10(6): 702-705.)
[6]Butterfly Network Inc.. Connected medicine[EB/OL]. [2024-01-09]. https://www.butterflynetwork.com/iq.
[7]Howard A G, Zhu Menglong, Chen Bo, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. (2017-04-17). https://arxiv.org/abs/1704.04861.
[8]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[9]Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//Proc of Medical Image Computing and Computer-Assisted Intervention. Berlin: Springer, 2015: 234-241.
[10]Zhou Zongwei, Siddiquee M M R, Tajbakhsh N, et al. UNet++: redesigning skip connections to exploit multiscale features in image segmentation[J]. IEEE Trans on Medical Imaging, 2020, 39(6): 1856-1867.
[11]孫穎, 丁衛平, 黃嘉爽, 等. RCAR-UNet: 基于粗糙通道注意力機制的視網膜血管分割網絡[J]. 計算機研究與發展, 2023, 60(4): 947-961. (Sun Ying, Ding Weiping, Huang Jiashuang, et al. RCAR-UNet: retinal vascular segmentation network based on coarse channel attention mechanism[J]. Computer Research and Deve-lopment, 2023, 60(4): 947-961.)
[12]Tomar N K, Jha D, Riegler M A, et al. FANet: a feedback attention network for improved biomedical image segmentation[J]. IEEE Trans on Neural Networks and Learning Systems, 2023, 34(11): 9375-9388.
[13]Xu Qing, Ma Zhicheng, He Na, et al. DCSAU-Net: a deeper and more compact split-attention U-Net for medical image segmentation[J]. Computers in Biology and Medicine, 2023, 154: article ID 106626.
[14]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[15]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. (2020-10-22). https://arxiv.org/abs/2010.11929.
[16]Chen Jieneng, Lu Yongyi, Yu Qihang, et al. TransUNet: transfor-mers make strong encoders for medical image segmentation[EB/OL]. (2021-02-08). https://arxiv.org/abs/2102.04306.
[17]Wang Wenxuan, Chen Chen, Ding Meng, et al. TransBTS: multimodal brain tumor segmentation using Transformer[C]//Proc of Medical Image Computing and Computer Assisted Intervention. Berlin: Springer, 2021: 109-119.
[18]Bozorgpour A, Sadegheih Y, Kazerouni A, et al. DermoSegDiff: a boundary-aware segmentation diffusion model for skin lesion delineation[C]//Proc of International Workshop on Predictive Intelligence In Medicine. Cham: Springer, 2023: 146-158.
[19]Wang Hongyi, Xie Shiao, Lin Lanfen, et al. Mixed Transformer U-Net for medical image segmentation[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2022: 2390-2394.
[20]Li Yijiang, Cai Wentian, Gao Ying, et al. More than encoder: introducing Transformer decoder to upsample[C]//Proc of IEEE International Conference on Bioinformatics and Biomedicine. Piscataway, NJ: IEEE Press, 2022: 1597-1602.
[21]李朝林, 張榮芬, 劉宇紅. 融入多尺度雙線性注意力的輕量化眼底疾病多分類網絡[J]. 計算機應用研究, 2022, 39(7): 2183-2189,2195. (Li Chaolin, Zhang Rongfen, Liu Yuhong. Lightweight fundus disease multi-classification network with multi-scale bilinear attention[J]. Application Research of Computers, 2022, 39(7): 2183-2189,2195.)
[22]Yang Chenglin, Wang Yilin, Zhang Jianming, et al. Lite vision Transformer with enhanced self-attention[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 11998-12008.
[23]Tolstikhin I O, Houlsby N, Kolesnikov A, et al. MLP-Mixer: an all-MLP architecture for vision[J]. Advances in Neural Information Processing Systems, 2021, 34: 24261-24272.
[24]Lian Dongze, Yu Zehao, Sun Xing, et al. AS-MLP: an axial shifted MLP architecture for vision[EB/OL]. (2021-07-15). https://arxiv.org/abs/2107.08391.
[25]Yu Tan, Li Xu, Cai Yunfeng, et al. S2-MLP: spatial-shift MLP architecture for vision[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2022: 297-306.
[26]Valanarasu J M J, Patel V M. UNeXt: MLP-based rapid medical image segmentation network[C]//Proc of Medical Image Computing and Computer Assisted Intervention. Cham: Springer, 2022: 23-33.
[27]Lin Yi, Fang Xiao, Zhang Dong, et al. Boosting convolution with efficient MLP-Permutation for volumetric medical image segmentation [EB/OL]. (2023-05-23). https://arxiv.org/abs/2303.13111.
[28]Hu Jie, Shen Li, Sun Gang. Squeeze-and-excitation networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 7132-7141.
[29]Codella N C F, Gutman D, Celebi M E, et al. Skin lesion analysis toward melanoma detection: a challenge at the 2017 international symposium on biomedical imaging(ISBI), hosted by the international skin imaging collaboration(ISIC)[C]//Proc of the 15th International Symposium on Biomedical Imaging. Piscataway, NJ: IEEE Press, 2018: 168-172.
[30]Al-Dhabyani W, Gomaa M, Khaled H, et al. Dataset of breast ultrasound images[J]. Data in Brief, 2020, 28: article ID 104863.
[31]Bernal J, Sánchez F J, Fernández-Esparrach G, et al. WM-DOVA maps for accurate polyp highlighting in colonoscopy: validation vs. saliency maps from physicians[J]. Computerized Medical Imaging and Graphics, 2015, 43: 99-111.
[32]Caicedo J C, Goodman A, Karhohs K W, et al. Nucleus segmentation across imaging experiments: the 2018 data science bowl[J]. Nature Methods, 2019, 16(12): 1247-1253.
[33]Srivastava A, Jha D, Chanda S, et al. MSRF-Net: a multi-scale residual fusion network for biomedical image segmentation[J]. IEEE Journal of Biomedical and Health Informatics, 2021, 26(5): 2252-2263.
[34]Tang Fenghe, Wang Lingtao, Ning Chunping, et al. CMU-Net: a strong convmixer-based medical ultrasound image segmentation network[C]//Proc of the 20th International Symposium on Biomedical Imaging. Piscataway, NJ: IEEE Press, 2023: 1-5.
[35]Kim T, Lee H, Kim D. UACANet: uncertainty augmented context attention for polyp segmentation[C]//Proc of the 29th ACM International Conference on Multimedia. New York: ACM Press, 2021: 2167-2175.