








摘 "要: 前列腺超聲圖像在臨床中的準(zhǔn)確分割對(duì)后續(xù)診斷具有重要影響。因此,通過深度學(xué)習(xí)輔助實(shí)現(xiàn)前列腺邊界的快速、準(zhǔn)確分割非常必要。為此,文中提出了一種改進(jìn)的前列腺分割網(wǎng)絡(luò)(DA?Segformer)。利用Transformer、深監(jiān)督和注意力機(jī)制,快速準(zhǔn)確地分割前列腺超聲圖像。引入MAG模塊提高網(wǎng)絡(luò)對(duì)特征圖和像素關(guān)聯(lián)性的理解能力,以及對(duì)前景像素的敏感度。采用深監(jiān)督策略,在解碼過程中引入損失函數(shù),優(yōu)化梯度傳播,增強(qiáng)網(wǎng)絡(luò)對(duì)關(guān)鍵特征的學(xué)習(xí)表征能力。實(shí)驗(yàn)結(jié)果顯示,在前列腺超聲圖像數(shù)據(jù)集上,DA?Segformer模型的mIoU、Dice系數(shù)、準(zhǔn)確率和召回率等指標(biāo)均優(yōu)于其他主流語義分割模型。該方法有效解決了前列腺超聲圖像手工分割的難題,為臨床診斷提供了有價(jià)值的計(jì)算機(jī)輔助工具。
關(guān)鍵詞: 醫(yī)學(xué)圖像分割; 超聲圖像分割; Transformer; 門控注意力; 深監(jiān)督; 擴(kuò)張卷積; 梯度下降; 多尺度特征
中圖分類號(hào): TN911.73?34; TP391.41 " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A " " " " " " " " 文章編號(hào): 1004?373X(2024)15?0065?08
Prostate ultrasound image semantic segmentation algorithm
based on improved Segformer
SHI Yongtao1, 2, LIU Di1, 2, GAO Chao1, 2, DU Wei1, 2, QIU Kangqi1, 2
(1. College of Computer and Information Technology, China Three Gorges University, Yichang 443002, China;
2. Hubei Key Laboratory of Intelligent Vision Monitoring for Hydroelectric Engineering, China Three Gorges University, Yichang 443002, China)
Abstract: Accurate segmentation of prostate ultrasound images in clinical settings plays a significant role in subsequent diagnosis. Therefore, it is essential to rapidly and accurately segment the prostate boundary with deep learning assistance. To this end, a novel prostate segmentation network named DA?Segformer is proposed. In this network, the Transformer, deep supervision and attention mechanism are utilized to segment prostate ultrasound images rapidly and accurately. Additionally, the MAG module is introduced to enhance the network′s understanding of feature maps and pixel correlations, so as to improve its sensitivity to foreground pixels. A deep supervision strategy is employed. A loss function is introduced into the decoding process to optimize gradient propagation, so as to enhance the network′s ability to learn and represent the key features. Experimental results demonstrate that the mIoU (mean intersection over union), Dice coefficient, accuracy rate and recall rate of the DA?Segformer model on the prostate ultrasound image dataset are superior to those of the other mainstream semantic segmentation models. The proposed method effectively addresses the challenge of manual segmentation of prostate ultrasound images, and provides valuable computer?aided tools for clinical diagnosis.
Keywords: medical image segmentation; ultrasound image segmentation; Transformer; gated attention; deep supervision; dilated convolution; gradient descent; multi?scale feature
0 "引 "言
前列腺位于男性膀胱下方和直腸前方,是男性生殖系統(tǒng)的重要組成部分。近年來,隨著城市化進(jìn)程和社會(huì)節(jié)奏的加快,不良生活習(xí)慣導(dǎo)致前列腺相關(guān)疾病發(fā)病率迅速上升[1]。醫(yī)學(xué)成像是醫(yī)生進(jìn)行疾病診斷的重要手段之一,利用專業(yè)儀器對(duì)病人進(jìn)行掃描以獲取病變位置信息。醫(yī)學(xué)圖像的解讀主要依賴于放射科醫(yī)生的經(jīng)驗(yàn)和主觀判斷。然而,這種方式既費(fèi)時(shí)費(fèi)力,又存在不同醫(yī)生經(jīng)驗(yàn)差異導(dǎo)致同一圖像可能得出不同解讀的問題。鑒于此,利用計(jì)算機(jī)輔助醫(yī)生進(jìn)行圖像處理顯得尤為必要[2]。但是目前實(shí)現(xiàn)前列腺邊緣輪廓的精準(zhǔn)分割還存在不少困難。前列腺邊界存在大量的陰影、偽音等噪聲點(diǎn),給分割帶來極大的困難[3]。因此,通過計(jì)算機(jī)技術(shù)實(shí)現(xiàn)對(duì)前列腺邊界的精準(zhǔn)分割十分迫切和必要,不僅能夠協(xié)助醫(yī)生提高分割精度,還能幫助醫(yī)生從繁瑣的手工標(biāo)注任務(wù)中解放出來,釋放醫(yī)療資源,提升醫(yī)院整體的醫(yī)療效率。
醫(yī)學(xué)圖像相對(duì)于自然圖像而言,背景環(huán)境更為復(fù)雜,具體表現(xiàn)為形狀更為多變,邊緣結(jié)構(gòu)更為模糊,紋理結(jié)構(gòu)更為豐富,這極大地提升了醫(yī)學(xué)圖像分割的挑戰(zhàn)性[4]?;诰矸e神經(jīng)網(wǎng)絡(luò)(CNN)的分割模型已經(jīng)成功地應(yīng)用在醫(yī)學(xué)圖像分割任務(wù)中。例如前列腺分割、腦腫瘤分割、肺分割、視網(wǎng)膜血管分割等。文獻(xiàn)[5]提出U?Net網(wǎng)絡(luò),改善了醫(yī)學(xué)圖像分割的性能,采用編碼器?解碼器的結(jié)構(gòu)和跳躍連接的設(shè)計(jì)模式,將淺層特征和深層特征進(jìn)行了融合,能夠在保留完整特征的同時(shí)定位清晰邊界,解決因?yàn)檎Z義相似引起的分割問題,獲得良好的分割性能,隨后一系列基于Unet的改進(jìn)網(wǎng)絡(luò)模型被提出。文獻(xiàn)[6]提出了Attention Unet,將Attention Gate(AG,門控注意力)機(jī)制與Unet相結(jié)合,注意力機(jī)制根據(jù)解碼器中的上一層特征圖和編碼器中對(duì)應(yīng)層特征圖之間的相似度,為編碼器特征圖分配不同的權(quán)重,使解碼器更加關(guān)注于當(dāng)前分割任務(wù)相關(guān)的特征,從而更好地利用特征信息,提高分割的準(zhǔn)確性。之后XIAO等人針對(duì)視網(wǎng)膜血管本身成像的限制以及光源干擾問題,提出了Res?Unet,該模型將殘差網(wǎng)絡(luò)Res?net和Unet進(jìn)行了融合,通過增加網(wǎng)絡(luò)的深度防止過擬合,提高了模型的準(zhǔn)確度[7]。文獻(xiàn)[8]受到DenseNet[9]的啟發(fā),提出了Unet++模型,使用密集的跳躍連接,通過特征疊加的方式整合不同的特征,并且引入輔助損失函數(shù),衡量該層級(jí)的預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽之間的差異,是一種深度監(jiān)督的編碼器?解碼器網(wǎng)絡(luò)。文獻(xiàn)[10]提出了Unet3+,表示U?net++雖然使用了密集的跳層連接,但未充分利用多尺度的特征圖提取到足夠的信息,因此Unet3+中提出了全尺度跳層連接,精度較U?net++有一定的提升。雖然這些方法在一定程度上提高了醫(yī)學(xué)圖像的分割精度,但是因卷積運(yùn)算固有的局限性,CNN在局部建模方面存在歸納偏差,缺乏對(duì)圖像長期相關(guān)性的解釋,無法建立上下文信息連貫的全局建模,全局信息提取不足等問題。
文獻(xiàn)[11]提出的Transformer模型集成了全局注意力機(jī)制,可捕獲長距離的依賴特征,在自然語言處理方面取得了廣泛的成功。文獻(xiàn)[12]將Transformer應(yīng)用到了CV領(lǐng)域,提出ViT(Vision Transformer)用于分類,但是ViT模型通常需要大量的計(jì)算資源和參數(shù)量來處理輸入圖像,這對(duì)于尺寸較大的圖像分割任務(wù)來說,可能會(huì)導(dǎo)致非常高的計(jì)算成本。文獻(xiàn)[13]提出了Swing Transformer,通過設(shè)計(jì)一種滑動(dòng)窗口機(jī)制、層級(jí)下采樣的操作,并引入局部注意力機(jī)制,有效地減少了模型的計(jì)算復(fù)雜度,可以更有效地處理大尺寸圖像,同時(shí)降低計(jì)算成本。文獻(xiàn)[14]提出的TransUnet在圖片輸入階段大幅降低圖片尺寸,對(duì)于醫(yī)學(xué)圖像數(shù)據(jù)集來說,這丟失了太多的語義信息,導(dǎo)致分割效果不理想。隨后,產(chǎn)生了一系列基于Transformer Block的輕量化語義分割網(wǎng)絡(luò),如Seaformer[15]、Topformer[16]、Segmenter[17]等。
基于Transformer架構(gòu)的語義分割模型在目前的研究中尚存若干問題:
1) 多層感知器(MLP)在不借助預(yù)訓(xùn)練模型的情況下,由于缺乏針對(duì)視覺任務(wù)的先驗(yàn)知識(shí),對(duì)于復(fù)雜醫(yī)學(xué)影像數(shù)據(jù)集的分割性能不盡如人意。特別是在邊緣信息的特征提取上表現(xiàn)欠佳,實(shí)驗(yàn)結(jié)果表明,前列腺邊緣區(qū)域的分割結(jié)果顯著不規(guī)則,頻繁出現(xiàn)邊緣區(qū)域的欠分割和誤分割現(xiàn)象。
2) Transformer模型在各個(gè)處理階段主要關(guān)注全局上下文信息的建模,忽視了精確定位信息,這導(dǎo)致在低分辨率特征中缺少細(xì)節(jié),并且這些低分辨率特征無法通過直接上采樣恢復(fù)到全分辨率,從而導(dǎo)致邊界信息的丟失。
為了應(yīng)對(duì)上述挑戰(zhàn),本文首先針對(duì)多層感知器(MLP)在邊緣區(qū)域因缺乏先驗(yàn)知識(shí)而出現(xiàn)的明顯欠分割與誤分割現(xiàn)象,提出了一種結(jié)合MLP與門控注意力的多尺度線性特征融合機(jī)制(MAG),結(jié)合了MLP優(yōu)異的學(xué)習(xí)能力和門控注意力的局部增強(qiáng)能力,專注于分割目標(biāo)區(qū)域,增強(qiáng)了局部信息的表征,考慮到更多的語境和相關(guān)信息,提高了分割的準(zhǔn)確性,改善了在前列腺超聲圖像上邊緣分割效果不佳的問題??紤]到本網(wǎng)絡(luò)模型有四層架構(gòu),并且針對(duì)解碼器中使用了上采樣操作從而導(dǎo)致的語義信息丟失的問題,本文引入了改進(jìn)的深監(jiān)督策略,通過對(duì)編碼過程中得到的多尺度特征圖采用不同擴(kuò)張率的深度可分離卷積以及上采樣操作,對(duì)中間層的特征引入損失函數(shù),使梯度更好地進(jìn)行反向傳播,提高了對(duì)特征的利用率,減少了解碼過程中的語義信息丟失問題,提高了分割精度,同時(shí)加快了模型的收斂速度。
通過在前列腺超聲圖像數(shù)據(jù)集上進(jìn)行測(cè)試驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,相比于經(jīng)典的CNN分割模型Unet、Attention Unet、Unet++,以及以Transformer Block為主的輕量化語義分割模型Seaformer、Topformer、Segmenter,本文所提出的DA?Segformer模型取得了最佳的實(shí)驗(yàn)結(jié)果。
1 "方 "法
1.1 "基本原理
針對(duì)前列腺超聲圖像分割,本文結(jié)合Transformer、MLP、深監(jiān)督(Deep Supervision)和門控注意力,提出了一種基于Segformer改進(jìn)的分割模型(DA?Segformer),其模型結(jié)構(gòu)如圖1所示。
該網(wǎng)絡(luò)結(jié)構(gòu)以Transformer Block和CNN作為主體,并嵌入了MAG(多尺度線性特征融合)模塊和深監(jiān)督模塊。MAG模塊的設(shè)計(jì)是為了幫助網(wǎng)絡(luò)更好地理解特征圖的特征以及像素之間的相關(guān)性,增加了模型對(duì)前景像素的敏感度。在用該模型進(jìn)行訓(xùn)練時(shí),通過抑制模型學(xué)習(xí)與任務(wù)無關(guān)的部分,減少網(wǎng)絡(luò)對(duì)噪聲和不相關(guān)信息的關(guān)注,同時(shí)加重學(xué)習(xí)與任務(wù)有關(guān)的特征,從而提高模型的性能和效率。深監(jiān)督模塊則對(duì)MAG模塊得到的特征圖進(jìn)行損失計(jì)算,幫助梯度更好地傳播,使網(wǎng)絡(luò)能夠更快地學(xué)習(xí)更豐富、更有用的特征表示,提高了模型的泛化能力,加快了模型的收斂速度。最后模型會(huì)融合不同層次的邊界信息,為最終的分割效果提供大量的邊界補(bǔ)充信息,使分割精度提升明顯,模型的詳細(xì)信息如下所述。
1.2 "Transformer Block編碼器
如圖2所示,在編碼器部分采用了高效的多頭自注意力模塊,自注意力估計(jì)為:
[Attention(Q,K,V)=SoftmaxQKTdheadV] (1)
式中[Q]、[K]、[V]具有同樣的大小。在自注意力的基礎(chǔ)上,通過Reshape和Linear層減小了[N](特征)的長度,這樣做的好處是減小了計(jì)算復(fù)雜度,通過如下公式實(shí)現(xiàn):
[K=ReshapeNR,C?R(K)] (2)
[K=Linear(C?R,C)(K)] (3)
Mix?FFN通過引入一種不同的前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提供了一種更加靈活的特征提取方式。傳統(tǒng)的FFN在每個(gè)位置上都采用相同的非線性變換,而Mix?FFN則允許在不同位置使用不同的非線性變換,從而增加了模型的表達(dá)能力。具體來說,Mix?FFN使用了兩種不同的前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):全局前饋神經(jīng)網(wǎng)絡(luò)和局部前饋神經(jīng)網(wǎng)絡(luò)。全局FFN是一個(gè)具有較大感受野的前饋神經(jīng)網(wǎng)絡(luò),能夠更好地捕捉全局上下文信息。而局部FFN是一個(gè)具有較小感受野的前饋神經(jīng)網(wǎng)絡(luò),能夠更好地捕捉局部細(xì)節(jié)信息。通過同時(shí)使用全局FFN和局部FFN,Mix?FFN能夠在處理不同位置的特征時(shí)更加靈活和準(zhǔn)確。全局FFN可以幫助模型捕捉到更長范圍的依賴關(guān)系和語義信息,而局部FFN則可以更好地處理局部細(xì)節(jié)和細(xì)微變化。Mix?FFN可以表示為:
[Xout=MLP(GeLU(Conv3×3(MLP(Xin))))+Xin] (4)
式中[Xin]是來自自注意力模塊的特征。
1.3 "解碼器
Segformer網(wǎng)絡(luò)整合了一個(gè)主要由MLP結(jié)構(gòu)組成的解碼器部分。首先,不同層的特征圖通過一個(gè)線性層使它們的通道維度一致化。然后,這些特征圖被上采樣至[14]分辨率,4張?zhí)卣鲌D通過Concat操作融為一體,并分別通過兩個(gè)線性層用于融合特征圖和預(yù)測(cè)結(jié)果。這種設(shè)計(jì)簡化了整個(gè)解碼結(jié)構(gòu),只使用了線性層,避免引入復(fù)雜操作。然而,在噪聲大、數(shù)據(jù)少的前列腺超聲圖像數(shù)據(jù)集上訓(xùn)練變得異常困難,為了改善分割效果,對(duì)此提出了如下改進(jìn)方法。
1.3.1 "多尺度線性特征融合模塊(MAG)
在編碼器中得到了4個(gè)不同尺度的特征圖像[X1],其尺寸分別為輸入特征圖的[14]、[18]、[116]、[132],淺層特征具有豐富的細(xì)節(jié)特征,紋理特征更為豐富,高層特征則具有更多的語義信息,Segformer的解碼器全部由MLP層組成,由于沒有先驗(yàn)知識(shí),考慮到前列腺超聲圖像數(shù)據(jù)集噪聲大、體量小的特殊性,這樣的解碼器很可能會(huì)導(dǎo)致模型收斂慢、精度差、擬合不好數(shù)據(jù),而卷積神經(jīng)網(wǎng)絡(luò)加了偏置項(xiàng),在小數(shù)據(jù)集上擬合能力更好。因此,提出了MAG模塊,如圖3所示。該模塊首先通過多層感知機(jī)(MLP)對(duì)輸入的特征圖[Xi]和[Xi-1]進(jìn)行線性化,使其從四維變成一維的數(shù)據(jù),然后通過Reshape將其變?yōu)閏hannel都為256的多尺度特征圖[X′i]、[X′i-1],一方面能使多尺度特征圖的通道數(shù)對(duì)齊,其次可以學(xué)習(xí)到更加抽象的特征。通過將[X′i]使用雙線性插值方法進(jìn)行上采樣,使其與[Xi-1]具有相同的尺寸,將[X′i]與[X′i-1]進(jìn)行并行處理,分別使用1×1的卷積及批歸一化(BN)操作,再將其對(duì)應(yīng)的元素相加進(jìn)行特征融合,得到更為豐富的語義特征圖。之后進(jìn)行ReLU(Rectified Linear Unit)操作以及1×1的卷積操作,再使用BN、Sigmoid激活函數(shù)得到通道數(shù)為1的注意力權(quán)重[α],令其與[X′i-1]相乘,得到channel數(shù)為256的注意力特征圖,再將其與[X′i]進(jìn)行Concat操作,通過一個(gè)CBL(Conv、BN、ReLU)模塊將通道數(shù)從512還原成256,并得到具有豐富語義信息的特征圖[Y]。上述過程可由式(5)~式(10)表示。
[X=Reshape(MLP(X))] (5)
[Attention_Weights=σ(Wa*X+ba)] (6)
[Adjusted_Context=Attention_Weights*C] (7)
[Y=ReLU(Wy*(Adjusted_Context⊕X)+by)] (8)
[Y=Y?X] (9)
[Y=ReLU(BN(Conv(Y)))] (10)
式中:[X]表示輸入特征圖;[Wa]代表注意力權(quán)重矩陣;[ba]代表注意力偏置;[σ]表示Sigmoid激活函數(shù);“*”表示乘法;[Wy]是輸出權(quán)重矩陣;[by]是輸出偏置;“[⊕]”表示逐元素相加;“[?]”為逐元素相乘(Element?wise Multiplication);[Y]為最終的輸出圖。
1.3.2 "深監(jiān)督模塊
本文在解碼器中考慮到前列腺超聲圖像的數(shù)據(jù)量較小以及醫(yī)學(xué)圖像本身的復(fù)雜性,引入了深監(jiān)督策略,如圖4所示。在解碼過程中,針對(duì)不同階段的特征圖[Y],引入損失函數(shù),在訓(xùn)練期間,這些輔助分支與主要分支共同生成預(yù)測(cè)結(jié)果,并與真實(shí)標(biāo)簽計(jì)算損失,將與標(biāo)簽做損失得到的梯度直接回傳到中間層,這樣一來,網(wǎng)絡(luò)在不同深度處都可以接收來自損失函數(shù)的梯度信號(hào),從而更好地學(xué)習(xí)特征,減少模型的過擬合現(xiàn)象,并提高分割精度,加快網(wǎng)絡(luò)的收斂速度。首先將解碼階段得到的中間層特征圖[Y]進(jìn)行上采樣操作,與Mask的尺寸進(jìn)行對(duì)齊,其次本文在進(jìn)行深監(jiān)督時(shí),同時(shí)注意到了高級(jí)特征和低級(jí)特征,采用不同擴(kuò)張率的深度可分離卷積獲取不同的特征信息。通過擴(kuò)張率為1和3的卷積獲得局部特征信息,擴(kuò)張率為5和7的卷積獲得全局特征信息。將取得的局部特征信息和全局特征信息相加,進(jìn)行特征提取,并將通道數(shù)調(diào)整為2,通道數(shù)和尺寸都與mask對(duì)齊,通過損失函數(shù)計(jì)算損失,并且將梯度數(shù)據(jù)回傳,監(jiān)督每個(gè)分支的輸出。本文高效地利用了中間層的特征,保留更多的多尺度特征信息。實(shí)驗(yàn)表明,深監(jiān)督策略使網(wǎng)絡(luò)可以更好地理解數(shù)據(jù),從而學(xué)習(xí)更復(fù)雜的特征表示,加快模型的收斂速度,從而改進(jìn)模型的性能。
2 "實(shí) "驗(yàn)
2.1 "數(shù)據(jù)集及其預(yù)處理
為了驗(yàn)證本文方法的可靠性,本次實(shí)驗(yàn)所采用的超聲圖像全部來自某家醫(yī)院的前列腺檢查數(shù)據(jù),一共133張。在去除掉病人的隱私后,圖片的分辨率為512×512 pixel,其中訓(xùn)練集有80張圖片,驗(yàn)證集有27張圖片,測(cè)試集有26張圖片。為了方便訓(xùn)練,在訓(xùn)練的時(shí)候縮放成256×256 pixel,并且由經(jīng)驗(yàn)豐富的放射科醫(yī)生為每幅圖像手工標(biāo)注分割標(biāo)簽,方便對(duì)后續(xù)的實(shí)驗(yàn)結(jié)果進(jìn)行性能評(píng)估。
2.2 "實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)是基于Windows 11專業(yè)版的操作系統(tǒng),使用1塊NVIDIA GeForce GTX 1660s的設(shè)備對(duì)上述數(shù)據(jù)集進(jìn)行訓(xùn)練,使用Python 3.8作為開發(fā)語言,開發(fā)框架為PaddlePaddle 2.9。實(shí)驗(yàn)的batch size設(shè)為4,epoch設(shè)為50,選擇AdamW作為優(yōu)化器,權(quán)重衰減系數(shù)(weight_decay)設(shè)為0.01,初始學(xué)習(xí)率(learning_rate)設(shè)為0.001,學(xué)習(xí)率調(diào)度器為PolynomialDecay,指數(shù)衰減率為1,根據(jù)epoch和learning_rate之間的關(guān)系,線性下降學(xué)習(xí)率。本文采用CrossEntropyLoss作為損失函數(shù),損失函數(shù)權(quán)重coef設(shè)為1。
2.3 "評(píng)價(jià)指標(biāo)
本文主要采用Dice相似系數(shù)(Dice Similarity Coefficient, DSC)、平均交并比(Mean Intersection over Union, mIoU)、準(zhǔn)確率(Precision)、召回率(Recall)作為評(píng)價(jià)指標(biāo)來評(píng)估模型對(duì)前列腺超聲圖像分割性能。
mIoU通過計(jì)算兩個(gè)集合的交集及其并集的重合比來表征模型性能,定義如下:
[mIoU=TPFN+TP+FP] (11)
Dice系數(shù)用于衡量類別真實(shí)值與預(yù)測(cè)結(jié)果之間的相似度,定義如下:
[Dice=2TPFN+2TP+FP] (12)
準(zhǔn)確率(Precision)是指分類器在預(yù)測(cè)為正例的樣本中,真正為正例的比例,定義如下:
[Precision=TPTP+FP] (13)
召回率(Recall)是在所有真正為正例的樣本中成功預(yù)測(cè)為正例的比例,定義如下:
[Recall=TPTP+FN] (14)
式中:FN為分類器預(yù)測(cè)結(jié)果為負(fù)樣本,實(shí)際為正樣本,即漏報(bào)的正樣本數(shù)量;TP為分類器預(yù)測(cè)結(jié)果為正樣本,實(shí)際也為正樣本,即正樣本被正確識(shí)別的數(shù)量;FP為分類器預(yù)測(cè)結(jié)果為正樣本,實(shí)際為負(fù)樣本,即被誤報(bào)的負(fù)樣本數(shù)量。
2.4 "對(duì)比實(shí)驗(yàn)
為了客觀評(píng)估本文所提出方法的性能,在相同實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集下,將本文提出的模型DA?Segformer與優(yōu)秀的CNN醫(yī)學(xué)圖像分割網(wǎng)絡(luò)Unet、Attention Unet、Unet++,以及以Transformer為骨干的模型Segmenter、Topformer、Seaformer的測(cè)試結(jié)果進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表1所示。
由表1可見,本文以Unet前列腺分割模型作為對(duì)比模型,其余的模型較此均有一定的提升。其中Attention Unet相比Unet模型,Recall系數(shù)提升最為顯著,提升了1.81%。而Unet++在Unet的基礎(chǔ)上融合了深監(jiān)督策略,精度提升明顯,mIoU提升了2.91%。實(shí)驗(yàn)數(shù)據(jù)表明,在加入AG和深監(jiān)督策略之后,模型的性能得到了顯著的提升,因此在本文的模型設(shè)計(jì)過程中考慮到了AG和深監(jiān)督的融入,并加以改進(jìn),提出了MAG模塊和深監(jiān)督模塊。本文提出的DA?Segformer在mIoU、Dice系數(shù)、Recall這三個(gè)指標(biāo)上都取得了最優(yōu)的結(jié)果,其中相比同樣以Transformer為骨干的輕量化網(wǎng)絡(luò)Segmenter、Topformer、Seaformer,mIoU分別提高了1.56%、2.8%、0.52%,DA?Segformer的前景分割平均交并比達(dá)到了0.952 5,表明本文模型的分割結(jié)果與真實(shí)值高度相似。Recall系數(shù)達(dá)到了0.975 7,相比Segmenter、Topformer模型提升了1.05%、2.05%,表明DA?Segformer模型能夠較準(zhǔn)確地識(shí)別前景部分,同時(shí)Dice系數(shù)達(dá)到了0.983 0,Precision達(dá)到了0.975 6。綜上所述,本文提出的分割模型的分割精度與真實(shí)值相似度較高,能夠較好地分割前景和背景,分割性能優(yōu)于以上提出的6種模型,有效地提升了前列腺超聲圖像的分割精度。
將本文模型與表1的其他6種分割模型結(jié)果進(jìn)行了更為直觀的對(duì)比和展示,用訓(xùn)練好的模型對(duì)測(cè)試集進(jìn)行測(cè)試。選取部分?jǐn)?shù)據(jù),將其結(jié)果同輸入圖像及標(biāo)簽進(jìn)行對(duì)比,如圖5所示。
從圖5的分割結(jié)果來看,其他6種模型均存在分割效果不足的問題,特別是實(shí)線方框內(nèi)部的區(qū)域,在分割細(xì)節(jié)上缺乏一定的敏感度,未能有效地提取圖像的全局信息,對(duì)圖像邊緣信息的忽略導(dǎo)致前列腺邊緣區(qū)域模糊、前列腺邊界極其不規(guī)則。
具體的分割細(xì)節(jié)如圖6所示。
圖6中,序號(hào)為1的箭頭指向?yàn)镚round Truth,序號(hào)為2的箭頭指向?yàn)樵娴腟egformer所得到的邊緣分割信息,序號(hào)為3的箭頭指向則為本文提出的DA?Segformer模型的分割效果圖??梢郧逦乜吹?,圖6a)原本的Segformer模型存在明顯的欠分割現(xiàn)象,對(duì)本是前列腺的區(qū)域未能識(shí)別出來;圖6b)則存在誤分割現(xiàn)象,在真值邊緣信息不規(guī)則的情況下,錯(cuò)誤地將本不屬于前列腺的區(qū)域劃分為了前列腺區(qū)域;而在本文提出的模型的分割結(jié)果上顯示,在添加了MAG模塊和深監(jiān)督策略之后,加強(qiáng)了對(duì)前列腺區(qū)域的識(shí)別能力,在解碼過程中的語義信息和紋理信息得到了很好的保留,欠分割問題和誤分割問題大大減少,Recall系數(shù)和Precision系數(shù)要優(yōu)于原本的Segformer模型,分割結(jié)果更接近標(biāo)簽,分割性能更好。
2.5 "基于Segformer的消融實(shí)驗(yàn)
由表1可知,本研究引入的MAG模塊和深監(jiān)督模塊都在不同程度上對(duì)原本的Segformer模型進(jìn)行了優(yōu)化,分割精度上漲明顯,為了具體地了解MAG和深監(jiān)督對(duì)模型的影響程度,以Segformer為基準(zhǔn),設(shè)置了相應(yīng)的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。
本實(shí)驗(yàn)分別對(duì)原版的Segformer,以及分別添加MAG、深監(jiān)督以及預(yù)訓(xùn)練的模型進(jìn)行了實(shí)驗(yàn)結(jié)果對(duì)比,實(shí)驗(yàn)結(jié)果表明,Segformer的mIoU為0.922 9,Dice系數(shù)為0.972 0,召回率為0.955 5。在添加了深監(jiān)督策略以后,分割精度上漲了0.83%,Dice系數(shù)、Precision指標(biāo)、召回率分別上漲了0.31%、0.81%、0.10%。隨后又對(duì)只添加MAG模塊的Segformer網(wǎng)絡(luò)進(jìn)行了測(cè)試,mIoU上漲了1.34%,Dice系數(shù)、Precision指標(biāo)、召回率分別上漲了0.5%、0.7%、0.74%。實(shí)驗(yàn)結(jié)果表明,在分別加入AG和深監(jiān)督策略之后,精度上都有1%左右的提升,所以將MAG和深監(jiān)督同時(shí)添加到本文的解碼器之中,將兩種策略的結(jié)果進(jìn)行融合得出最后表2中DA?Segformer的實(shí)驗(yàn)結(jié)果。mIoU分割精度有較大的提升,相比于原本的Segformer模型提升了2.96%,相比分別添加深監(jiān)督和MAG網(wǎng)絡(luò)的分割精度分別提升了2.13%、1.62%,而且在其他所有指標(biāo)上也都有一定的提升,可知在加入MAG和深監(jiān)督的模塊之后,增強(qiáng)了對(duì)顯著特征的提取能力,分割性能得到了明顯的提升,并且相對(duì)于添加預(yù)訓(xùn)練模型的Segformer,DA?Segformer的mIoU也提升了0.32%,Dice系數(shù)、召回率也分別提升了0.12%、0.61%,說明DA?Segformer的魯棒性較強(qiáng),也不需要大量的數(shù)據(jù)來訓(xùn)練,正好契合醫(yī)學(xué)圖像數(shù)據(jù)集的特性。
2.6 "損失函數(shù)對(duì)比實(shí)驗(yàn)
本文采用深監(jiān)督策略用于解決前列腺超聲圖像特征復(fù)雜、數(shù)據(jù)量小的問題,通過在解碼器中間層引入損失函數(shù),將梯度及時(shí)回傳,增強(qiáng)了對(duì)特征的提取能力,同時(shí)提高了精度,因此損失函數(shù)的選擇至關(guān)重要。為了進(jìn)一步測(cè)試損失函數(shù)的重要性,本文在同樣的權(quán)重參數(shù)下,設(shè)置了相應(yīng)的消融實(shí)驗(yàn),經(jīng)過實(shí)驗(yàn)表明,CrossEntropyLoss為最佳損失函數(shù),性能效果最好,實(shí)驗(yàn)結(jié)果如表3所示。
2.7 "深監(jiān)督對(duì)模型性能的影響
圖7為本文模型有無深監(jiān)督模塊的訓(xùn)練曲線圖。
從圖7可知,針對(duì)數(shù)據(jù)量較小的前列腺超聲圖像數(shù)據(jù)集,沒有嵌入深監(jiān)督策略的模型收斂速度較慢,且由于上采樣過程中語義信息的丟失,精度也不如DA?Segformer。本文的深監(jiān)督策略起到了不錯(cuò)的效果,對(duì)上采樣語義信息的丟失問題進(jìn)行了改善,很好地保留了前列腺邊緣特征,提高了分割精度,同時(shí)加快了模型的收斂速度。
3 "結(jié) "論
本文結(jié)合Segformer、MAG和深監(jiān)督策略,提出了一種基于Segformer的改進(jìn)分割模型DA?Segformer,實(shí)現(xiàn)了對(duì)前列腺超聲圖像的全自動(dòng)分割。DA?Segformer使用Transformer作為骨干的編碼器,原本以MLP架構(gòu)為主的解碼器精度不足,僅僅通過一個(gè)以MLP為主的解碼器模塊對(duì)多層次特征圖進(jìn)行邊緣特征提取,這種解碼方式在醫(yī)學(xué)圖像小數(shù)據(jù)集上存在分割效果不佳的問題。本文改變了其解碼架構(gòu),在解碼器中嵌入了MAG模塊,加強(qiáng)對(duì)顯著目標(biāo)區(qū)域的特征提取,并且抑制無關(guān)區(qū)域;再對(duì)多級(jí)特征圖在解碼時(shí)引入深監(jiān)督策略,對(duì)淺層特征也進(jìn)行分類,并計(jì)算損失,使梯度能夠及時(shí)回傳。實(shí)驗(yàn)結(jié)果表明,本文模型相較于其他6種模型,取得了最高的分割精度,有效地提高了對(duì)前列腺超聲圖像的分割效果。緩解了目前前列腺超聲圖像需要大量醫(yī)生進(jìn)行手工分割的難題。
原版的Segformer以及本文提出的模型在少數(shù)前列腺超聲圖像分析中均出現(xiàn)了對(duì)于肉眼可明顯識(shí)別為非目標(biāo)區(qū)域的噪聲進(jìn)行錯(cuò)誤分割的現(xiàn)象,將這些噪聲誤判為前列腺目標(biāo)區(qū)域并對(duì)其執(zhí)行了分割。此現(xiàn)象表明,現(xiàn)有模型設(shè)計(jì)尚存在改善空間,針對(duì)此問題的優(yōu)化將成為后續(xù)研究的焦點(diǎn)。
注:本文通訊作者為石勇濤。
參考文獻(xiàn)
[1] 司明俊.磁共振彌散峰度成像鑒別診斷前列腺癌與良性前列腺增生的臨床價(jià)值及參數(shù)分析[J].影像研究與醫(yī)學(xué)應(yīng)用,2023,7(24):25?27.
[2] MERJULAH R, CHANDRA J. Segmentation technique for medical image processing: A survey [C]// International Conference on Inventive Computing and Informatics. New York: IEEE, 2017: 1055?1061.
[3] 石勇濤,高超,李偉,等.雙態(tài)形狀重構(gòu)及其在前列腺超聲圖像分割中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2023,40(3):954?960.
[4] 胡帥,李華玲,郝德琛.改進(jìn)UNet的多級(jí)邊緣增強(qiáng)醫(yī)學(xué)圖像分割網(wǎng)絡(luò)[J].計(jì)算機(jī)工程,2024,50(4):286?293.
[5] RONNEBERGER O, FISCHER P, BROX T. U?Net: Convolutional networks for biomedical image segmentation [C]// Proceedings of 18th International Conference on Medical Image Computing and Computer?assisted Intervention. Heidelberg, Germany: Springer, 2015: 234?241.
[6] OKTAY O, SCHLEMPER J, FOLGOC L L, et al. Attention U?Net: Learning where to look for the pancreas [EB/OL]. [2018?05?20]. https://arxiv.org/abs/1804.03999.
[7] DIAKOGIANNIS F I, WALDNER F, CACCETTA P, et al. ResUNet?a: A deep learning framework for semantic segmentation of remotely sensed data [EB/OL]. [2019?04?24]. http://arxiv.org/abs/1904.00592.
[8] ZHOU Z W, SIDDIQUEE M M R, TAJBAKHSH N, et al. UNet++: A nested U?Net architecture for medical image segmentation [C]// 2018 4th International Workshop on Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Heidelberg, Germany: Springer, 2018: 3?11.
[9] HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 2261?2269.
[10] HUANG H M, LIN L F, TONG R F, et al. UNet 3+: A full?scale connected UNet for medical image segmentation [C]// 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New York: IEEE, 2020: 1055?1059.
[11] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017. [S.l.: s.n.], 2017: 5998?6008.
[12] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale [EB/OL]. [2021?01?12]. https://openreview.net/forum?id=YicbFdNTTy.
[13] LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: Hierarchical vision Transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2021: 9992?10002.
[14] CHEN J N, LU Y Y, YU Q H, et al. TransUNet: Transformers make strong encoders for medical image segmentation [EB/OL]. [2021?04?12]. https://arxiv.org/abs/2102.04306.
[15] WAN Q, HUANG Z L, LU J C, et al. SeaFormer: Squeeze?enhanced axial Transformer for mobile semantic segmentation [EB/OL]. [2023?10?27]. https://openreview.net/pdf?id=?qg8MQNrxZw.
[16] ZHANG W Q, HUANG Z L, LUO G Z, et al. TopFormer: Token pyramid Transformer for mobile semantic segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2022: 12073?12083.
[17] STRUDEL R, PINEL R G, LAPTEV I, et al. Segmenter: Transformer for semantic segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2021: 7242?7252.
作者簡介:石勇濤(1978—),男,湖北天門人,博士,教授,碩士生導(dǎo)師,主要研究方向?yàn)獒t(yī)學(xué)圖像處理、模式識(shí)別、最優(yōu)化方法。
柳 "迪(1997—),男,湖北宜昌人,碩士研究生,主要研究方向?yàn)樯疃葘W(xué)習(xí)、醫(yī)學(xué)圖像分割。
高 "超(1995—),男,廣東深圳人,碩士研究生,主要研究方向?yàn)樯疃葘W(xué)習(xí)、醫(yī)學(xué)圖像處理。
杜 "威(1998—),女,遼寧本溪人,碩士研究生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、圖像處理。
邱康齊(1998—),男,湖北孝感人,碩士研究生,主要研究方向?yàn)獒t(yī)學(xué)圖像處理。