





摘" 要:精準的醫(yī)學影像分割對臨床診斷具有重要價值。然而,病灶在醫(yī)學影像中常呈現(xiàn)形狀不規(guī)則、邊緣模糊等特征,給快速篩查與精準診斷帶來了極大挑戰(zhàn)。為此,該研究提出基于多尺度減法機制的網(wǎng)絡模型M2SNet,并將其應用于醫(yī)學影像中的息肉檢測。在五個息肉數(shù)據(jù)集上,與U-Net、Attention-UNet、TransUNet和ResUNet等主流模型進行對比實驗,結果顯示,M2SNet展現(xiàn)出更優(yōu)的分割性能。M2SNet的核心創(chuàng)新在于,通過多尺度減法單元有效濾除特征冗余,強化不同層級特征間的互補性,進而實現(xiàn)病灶的精準定位與邊界清晰分割。相較于傳統(tǒng)U-Net,該模型在保持結構簡潔性的同時,顯著提升了邊緣細節(jié)的刻畫能力。
關鍵詞:醫(yī)學影像分割;M2SNet;結直腸息肉圖像;機器學習
中圖分類號:TP391.4" 文獻標識碼:A" 文章編號:2096-4706(2025)03-0037-07
Colorectal Polyp Image Segmentation Based on M2SNet
LIU Lei1, ZHOU Mengyu2
(1.Chinese People's Armed Police Force Sichuan Provincial Corps Hospital, Leshan" 614000, China;
2.Sichuan Province Zigong Fushun County Maternal and Child Health Hospital, Zigong" 643200, China)
Abstract: Accurate medical image segmentation is of great value for clinical diagnosis. However, lesions often present irregular shapes, blurred edges and other features in medical images, posing great challenges to rapid screening and accurate diagnosis. To this end, this study proposes a network model M2SNet based on the multi-scale subtraction mechanism and applies it to polyp detection in medical images. On five polyp datasets, it conducts comparative experiments with mainstream models such as U-Net, Attention-UNet, TransUNet, ResUNet, and so on. The results show that M2SNet shows better segmentation performance. The core innovation of M2SNet is to effectively filter out feature redundancy through multi-scale subtraction units, strengthen the complementarity between different levels of features, and then achieve accurate positioning and clear boundary segmentation of lesions. Compared with the traditional U-Net, this model significantly improves the ability to depict edge details while maintaining structural simplicity.
Keywords: medical image segmentation; M2SNet; colorectal polyp image; Machine Learning
0" 引" 言
隨著高新技術的不斷發(fā)展,精確、快捷的醫(yī)學影像分割已成為現(xiàn)代醫(yī)學診斷的重要技術之一,能夠為醫(yī)生的臨床治療提供重要的可靠依據(jù)。結直腸癌是全球高發(fā)的下消化道惡性腫瘤,疾病負擔極為嚴重,并且由于發(fā)病機制尚不明確,這給早期預防帶來了巨大的挑戰(zhàn)[1]。根據(jù)國家癌癥中心的估計,我國2022年的結直腸癌新診斷和死亡的人數(shù)分別為59.2萬和30.9萬人,增長十分顯著,相應地,對于結直腸癌的早期篩查和防治的需求也在不斷提高[2]。通常,結直腸癌是由消化道內(nèi)異常息肉生長引起的。根據(jù)解剖結果,息肉的表面可以是平坦的、升高的或帶梗的,可通過顏色、大小和表面類型與正常黏膜區(qū)分開來。臨床數(shù)據(jù)顯示,晚期結直腸癌的5年生存率僅為10%,而早期診斷和治療下的5年生存率高達90%[3]。因此,結合醫(yī)學影像精準地識別消化道內(nèi)的息肉是當前篩查和防止癌變的主要方法。然而,醫(yī)學影像的識別需要大量的專業(yè)技能和人力投入,常受到人為誤判的影響,從而貽誤最佳治療時機[4]。隨著人工智能技術的發(fā)展,計算機輔助能夠高效準確醫(yī)學影像中地分離正常黏膜和息肉,這能夠極大地降低了內(nèi)鏡醫(yī)師主觀性帶來的分割錯誤發(fā)生率,有效提高了醫(yī)學影像在診斷和治療中發(fā)揮的作用。
目前,針對息肉的分割方法主要分為傳統(tǒng)的分割方法和基于深度學習分割方法。傳統(tǒng)的分割方法又可大致分為:閾值和區(qū)域生長法、聚類法、活動輪廓模型、基于數(shù)學模型[5-8]。基于深度學習的分割方法分為2D分割網(wǎng)絡和3D分割網(wǎng)絡[9]。盡管傳統(tǒng)的分割方法無須大量標簽數(shù)據(jù)與模型訓練,但其性能容易受到數(shù)據(jù)集的影響,且往往需要進一步人工干預。這種方法主要基于圖像的灰度、紋理等淺層特征信息實現(xiàn)息肉的分割。而基于深度學習的方法能夠根據(jù)預訓練模型快速有效的從醫(yī)學圖像中分割出息肉。卷積神經(jīng)網(wǎng)絡利用卷積提取醫(yī)學圖像的特征,最初的卷積神經(jīng)網(wǎng)絡為全卷積神經(jīng)網(wǎng)絡(Fully Convolution Net-work, FCN)[10],F(xiàn)CN被提出后被廣泛應用于圖像分割的各個領域,但是沒有考慮全局上下文信息,對圖像的細節(jié)不夠敏感,不利于醫(yī)學圖像的分割。Ronneberger等[11]在FCN的基礎上提出適用于醫(yī)學圖像分割的U-Net網(wǎng)絡。如圖1所示,U-Net通過跳躍連接將低分辨率信息和高分辨率信息結合,更有利于分割邊界模糊的醫(yī)學圖像,其中低分辨率信息用于目標識別,高分辨率信息用于分割的定位。因此,U-Net作為基礎模型衍生出多種改進算法。Zhou等[12]在U-Net的基礎上提出了UNet++,利用密集的跳躍連接,使網(wǎng)絡可以進一步地獲取不同層次的特征,達到多尺度融合。Huang等[13]提出全尺度分割網(wǎng)絡UNet3+,通過全尺度跳躍連接,將不同尺度的低級特征與高級特征相結合,提高分割精度。因為注意力機制通過改變通道的權重來突出目標區(qū)域抑制無關區(qū)域[14-16]。為了更好地對小目標區(qū)域進行分割,將U-Net與注意力機制結合。SE block[17]自動計算每個特征通道的權重,Wang等[18]將擠壓-激勵模塊嵌入U-Net的解碼器中,將解碼器的特征圖進行通道注意力計算,再與解碼器對應的特征圖相結合,成功應用于肝臟分割。Oktay等[19]設計注意力門使解碼器的特征對相應編碼器的特征進行監(jiān)督,重新調(diào)整跳躍連接的輸出對肝臟進行分割。但是由于卷積計算的局限性,基于CNN的方法通常在建模遠程關系時存在局限性[20],而Transformer[21]在全局上下文建模展現(xiàn)出強大的能力。因此,將純Transformer應用于圖像補丁序列編碼[22],再逐級的上采樣恢復圖像分辨率實現(xiàn)語義分割[23],由于直接通過上采樣恢復分辨率會導致空間定位信息的缺失,不利于小目標的分割。然而,Transformer對圖像沒有感應偏置,在醫(yī)學圖像數(shù)據(jù)集中無法體現(xiàn)其優(yōu)越的性能,為了解決這一問題,UTNet[24]將自我注意力集成到卷積神經(jīng)網(wǎng)絡中,用于增強醫(yī)學圖像分割。UTNet在編碼器和解碼器中都應用了自我注意模塊,以最小的開銷捕獲不同規(guī)模的遠程依賴。然而,密集的跳躍連接會削弱重要特征的表達,不同層次的特征具有不同的特性,簡單的級聯(lián)易導致病灶邊緣無法被精細化。同時,Transformer的加入會增加算法的復雜度。
因此,針對以上不足,Zhao等人[25]提出M2SNet,該算法是在一種基于U-Net結構的新多尺度減法網(wǎng)絡。旨在解決融合不同層次特征而產(chǎn)生冗余信息,從而導致病灶邊緣模糊的問題。首先,M2SNet設計了一個減法單元(Subtraction Unit, SU),用于突出特征之間的有用差異信息,并消除了冗余部分的干擾。其次,在多尺度減法模塊中,利用提出的多尺度方法提取多尺度極值信息。對于層間多尺度信息,通過級聯(lián)多個減法單元來捕獲大跨度的信息。然后,聚合特定級別的特征和多路徑跨級別差分特征,在解碼器中生成最終的預測。對于層內(nèi)多尺度信息,通過一組不同核大小的濾波器將單尺度減法單元改進為多尺度減法單元,在不引入額外參數(shù)的情況下實現(xiàn)自然的多尺度減法聚合。
1" 研究方法介紹
1.1" M2SNet與UNet的區(qū)別
M2SNet[25]的網(wǎng)絡結構如圖2所示,UNet的網(wǎng)絡結構如圖3所示,M2SNet與UNet相似,M2SNet包含編碼器塊(Ei,i∈{1,2,3,4,5}),一個多尺度減法模塊(MMSM)和四個解碼器塊(D i,i∈{1,2,3,4,5}),使用ResNet-50[26]作為主干網(wǎng)絡提取五個不同層次的特征,提取的特征作為MMSM的輸入,MMSM輸出五個互補增強的特征,最后經(jīng)過Di生成預測結果。在訓練階段,LossNet以標簽與預測結果作為輸入,達到實時檢測的目的。
1.2" 多尺度減法模塊
FA和FB表示相鄰的特征圖,經(jīng)過ReLU激活的處理。文獻[25]提出了一種基礎減法單元(SU),其形式如式(1)所示:
(1)
這里?表示逐元素相減,|?|表示取絕對值,Conv(?)表示卷積操作。傳統(tǒng)的單尺度減法只在單個像素層面建立差異關系,忽視了病灶的區(qū)域聚集特性。相比早期版本的MSNet中使用的單尺度減法單元,SU優(yōu)化了MSNet成為M2SNet。利用不同尺寸(1×1、3×3和5×5)的多尺度卷積濾波器來處理特征差異。通過這些具有權重和為1的固定濾波器,能夠在像素與區(qū)域?qū)用娌蹲蕉喑叨鹊募毠?jié)和結構差異,這種方法無須增加額外的參數(shù),也能夠高效訓練,因此M2SNet在計算量不增加的情況下,提升了模型的精度。多尺度減法過程如式(2)所示:
(2)
其中,F(xiàn)ilter(?)n×n表示尺寸為n×n的固定濾波器。MSU不僅可以捕捉FA與FB之間的差異,還能從多角度、多層次提供豐富的特征信息。為了進一步獲取多層特征之間的高階互補信息,將多個MSU在不同維度上拼接,生成了具有不同感受野和順序的差異特征。
1.3" LossNet
訓練的總損失如式(3)所示:
(3)
其中,表示加權IoU損失,表示加權的二值交叉熵(BCE)損失,這兩者在分割任務中已被廣泛應用。該損失函數(shù)引入了一個額外的LossNet來從細節(jié)到整體優(yōu)化分割結果。采用了在ImageNet上預訓練的分類網(wǎng)絡,如VGG-16分別提取預測結果和真實標簽的多尺度特征。接著,計算它們的特征差異,作為損失,其表示式如式(4)所示:
(4)
其中,和分別表示從預測和真實標簽中提取的第i層特征圖。通過計算它們的歐式距離(L2損失)來獲取(如式(5)所示),并在像素級別上進行監(jiān)督:
(5)
2" 實驗分析
實驗使用五個不同彩色結腸鏡成像數(shù)據(jù)集用于評價M2SNet模型:CVC-300[27]、CVC-ColonDB[28]、CVC-ClinicDB[29]、ETIS[30]和Kvasir-Seg[31]。60%的圖像用于訓練,20%用于驗證,20%用于測試。在數(shù)據(jù)集訓練階段,batchsize=16,最大迭代次數(shù)=50,SGD作為優(yōu)化器,初始學習率為0.05,動量為0.9,衰減率為5×10-4,為了防止過擬合,對該數(shù)據(jù)集進行圖像增廣、隨機翻轉(zhuǎn)、隨機裁剪、隨機旋轉(zhuǎn)、隨機更改亮度、對比度和飽和度等處理數(shù)據(jù)。所有實驗代碼由Python 3.7在PyTorch 1.11.0中實現(xiàn),模型的訓練是在Ubuntu 20.04+AMD 5900HX+NVIDIA GeForce RTX 3080 Laptop GPU中完成。
2.1" 評價指標
醫(yī)學影像分割常用平均Dice、平均mIoU、加權F-measure()[32]、S-measure(Sα)[33]、E-measure[34]和平均絕對誤差(MAE)作為評價指標,這些評價指標被廣泛地用于息肉分割。其中MAE的值越低越好,其他值越高越好。計算式如下:
(6)
(7)
(8)
其中,TP、TN、FP、FN分別表示真陽性、真陰性、假陽性、假陰性。、表示不同位置和鄰域信息,ω表示不同的誤差分配的權重。β表示對Recall(R)的重視程度。
2.2" 實驗結果
為了評價M2SNet對息肉分割的性能,本文與U-Net[11]、Swin-UNet[29]、TransUNet[20]、Attention-UNet[19]、UTNet[24]、SAR-UNet[18]、UNet3+[13]進行對比實驗和分析。從表1可見,綜合考慮每個網(wǎng)絡對各個數(shù)據(jù)集的分割結果得分,M2SNet的性能最佳。盡管TransUNet、UNet3+和UTNet在某些情況下提供了更好的結果,但M2SNet始終提供最佳結果。M2SNet對UNet的改進是因為不同層次的特征具有不同的特點,直接使用逐元素加法或級聯(lián)來融合不同層次的特征會損失不同級別特征的差異,會產(chǎn)生冗余信息,從而減少真正有用特征的表達[25]。
由圖4可知,Swin-UNet很難分割出病灶區(qū)域,因為Swin-UNet的編碼器由TransFomer構成,而TransFormer與CNN相比,需利用大型圖像數(shù)據(jù)集訓練(比如ImageNet)才能突出TransFormer的優(yōu)勢。醫(yī)學影像的數(shù)據(jù)集不但難制作,還需要專業(yè)醫(yī)學人員標記,極大地增加了人工成本,因此,醫(yī)學影像的數(shù)據(jù)集較小,可能不適合TransFormer結構的網(wǎng)絡。TransUNet利用ResNet提取特征,通過TransFormer改善CNN遠程依賴受限的問題,UTNet是利用卷積層來提取局部強度特征,以避免Transformer的大規(guī)模預訓練,同時使用自注意力機制來捕獲長距離關聯(lián)信息。因此,TransUNet與UTNet相對于Swin-UNet能夠獲得更好的結果。UNet3+因為其粗暴的特征融合方式,導致其網(wǎng)絡結構復雜,訓練時間更長,在結直腸息肉分割的表現(xiàn)上,較UNet的提升不明顯,與M2SNet也相差較遠。M2SNet在沒有使用TransFormer優(yōu)化CNN的情況下,依然取得最好的結果,這表明,提取多尺度特征之間的差異信息,為編碼器提供高效的目標特征是一種簡單高效的方法。TransUNet和UTNet被證明,TransFormer和CNN的結合,能夠增強網(wǎng)絡細性能,因此,將自注意力加入減法單元可能會進一步提升病灶區(qū)域的識別率。
3" 結" 論
在本文中,我們對M2SNet在結直腸息肉圖像分割方面的性能進行了定量分析。在UNet中使用多尺度減法單元,比標準的UNet架構以及其他幾種最先進的方法提供了更高的性能。多尺度減法單元能夠提取不同層次特征之間的互補信息,并與其他層次特征有效結合,增強多尺度特征的表示,凸出和學習更加有效的信息。我們建議可以將M2SNet應用在其他結直腸分割、肺結節(jié)分割、細胞分割等醫(yī)學圖像分割任務。
參考文獻:
[1] 何家镠,朱永敬,范習康,等.消化道腫瘤發(fā)病風險的系統(tǒng)流行病學研究進展 [J].中國腫瘤,2024,33(10)871-878.
[2] 黃彥欽,蔡善榮,張?zhí)K展.結直腸癌人群防治實踐若干問題探討 [J/OL].科學通報2025:1-7[2025-02-12].http://kns.cnki.net/kcms/detail/11.1784.N.20240416.1443.004.html.
[3] YUAN L,XU Z Y,RUAN S M,et al. Long Non-Coding RNAs Towards Precision Medicine in Gastric Cancer: Early Diagnosis, Treatment, and Drug Resistance [J].Molecular Cancer,2020,19(1):1-22.
[4] DZOBO K,ADOTEY S,THOMFORD N E,et al. Integrating Artificial and Hu-man Intelligence: A Partnership for Responsible Innovation in Biomedical Engi-neering and Medicine [J].Omics: A Journal of Integrative Biology,2020,24(5):247-263.
[5] BRUNTHA P M,JAISIL R D,SHRUTHI A T,et al. Application Of Selective Region Growing Algorithm in Lung Nodule Segmentation [C]//2018 4th Internation-al Conference on Devices, Circuits and Systems(ICDCS).Coimbatore:IEEE,2018:319-322.
[6] SANGAMITHRAA P B,GOVINDARAJU S. Lung Tumour Detection and Classifica-tion Using EK-Mean Clustering [C]//2016 International Conference on Wireless Communications, Signal Processing and Networking (WiSPNET).Chenai:IEEE,2016:2201-2206.
[7] KHAN S A,NAZIR M,KHAN M A,et al. Lungs Nodule Detection Framework from Computed Tomography Images Using Support Vector Machine [J].Microscopy Research and Technique,2019,82(8):1256-1266.
[8] KOSTIS W J,REEVES P A,YANKELEVITZ D F,et al. Three-Dimensional Seg-mentation and Growth-Rate Estimation of Small Pulmonary Nodules in Helical CT Images [J].IEEE Transactions on Medical Imaging,2003,22(10):1259-1274.
[9] XIE H T,YANG D B,SUN N N,et al. Automated Pulmonary Nodule Detection in CT Images Using Deep Convolutional Neural Networks [J].Pattern Recognition: The Journal of the Pattern Recognition Societ,2019,85:109-119.
[10] SHELHAMER E,LONG J,DARRELL T. Fully Convolutional Networks for Se-mantic Segmentation [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(4):640-651.
[11] RONNEBERGER O,F(xiàn)ISCHER P,BROX T. U-net: Convolutional Networks for Biomedical Image Segmentation [J/OL].arXiv:1505.04597 [cs.CV].[2024-08-18].https://arxiv.org/abs/1505.04597.
[12] ZHOU Z W,SIDDIQUEE M M R,TAJBAKHSH N,et al. Unet++: A Nested U-Net Architecture for Medical Image Segmentation [C]//In Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support.Spain:Spring,2018:3-11.
[13] HUANG H M,LIN L F,TONG R F,et al. Unet 3+: A full-scale connected unet for medical image segmentation [C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Barcelon:IEEE,2020:1055-1059.
[14] HOU Q B,ZHOU D Q,F(xiàn)ENG J S. Coordinate Attention for Efficient Mobile Network Design [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Nashville:IEEE,2021:13708-13717.
[15] WOO S,PARK J,LEE J Y. CBAM: Convolutional Block Attention Module [J/OL].arXiv:1807.06521 [cs.CV].[2024-08-18].https://arxiv.org/abs/1807.06521.
[16] ZHANG Q L,YANG Y B. SA-Net: Shuffle Attention for Deep Convolutional Neural Networks [C]//ICASSP 2021-2021 IEEE International Conference on Acous-tics, Speech and Signal Processing (ICASSP).Toronto:IEEE,2021:2235-2239.
[17] HU J,LI S,SUN G. Squeeze-and-Excitation Networks [J].IEEE Conference on Computer Vision and Pattern Recognition,2018:7132-7141.
[18] WANG J K,LV P Q,WANG H Y,et al. SAR-U-Net: Squeeze-and-Excitation Block and Atrous Spatial Pyramid Pooling Based Residual U-Net for Automatic Liver Segmentation in Computed Tomography [J].Computer Methods and Programs in Biomedicine,2021,208:106268.
[19] OKTAY O,SCHLEMPER J,F(xiàn)OLGOC L L,et al. Attention U-Net: Learning Where to Look for the Pancreas [J/OL].arXiv:1804.03999 [cs.CV].[2024-08-18].https://arxiv.org/abs/1804.03999.
[20] CHEN J N,LU Y Y,YU Q H,et al. Transunet: Transformers Make Strong Encoders for Medical Image Segmentation [J/OL].arXiv:2102.04306[cs.CV].[2024-08-18].https://arxiv.org/abs/2102.04306?context=cs.
[21] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is All You Need [EB/OL].[2024-08-18].https://xueqiu.com/3993902801/284722170.
[22] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale [J/OL].arXiv:2010.11929 [cs.CV].[2024-08-18].https://arxiv.org/abs/2010.11929v2.
[23] ZHENG S X,LU J C,ZHAO H S,et al. Rethinking Semantic Segmentation From a Sequence-to-Sequence Perspective With Transformers [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Nashville:IEEE,2021:6877-6886.
[24] GAO Y H,ZHOU M,METAXAS D. UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation [J/OL].[2024-08-19].https://arxiv.org/abs/2107.00781?context=cs.CV.
[25] ZHAO X Q,JIA H P,PANG Y W,et al. M2SNet: Multi-Scale in Multi-Scale Subtraction Network for Medical Image Segmentation [EB/OL].[2024-08-19].https://arxiv.org/pdf/2303.10894v1.
[26] HE K M,ZHANG X Y,REN S Q,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recogni-tion(CVPR).Las Vegas:IEEE,2016:770-778.
[27].BERNAL J,SANCHEZ J,VILARINO F. Towards Automatic Polyp Detection With A Polyp Appearance Model [J].Pattern Recognition,2012,45(9):3166-3182.
[28] TAJBAKHSH N,GURUDU S R,LIANG J. Automated Polyp Detection in Colon-oscopy Videos Using Shape and Context Information [J].IEEE Transactions on Med-ical Imaging,2015,35(2):630-644.
[29] BERNAL J,SANCHEZ F J,ESPARRACH G F,et al. WM-DOVA Maps for Accurate Polyp Highlighting in Colonoscopy: Validation vs Saliency Maps from Physicians [J].Computerized Medical Imaging and Graphics CMIG,2015,43:99-111.
[30] SILVA J,HISTACE A,ROMAIN O,et al. Toward Embedded Detection of Polyps in WCE Images for Early Diagnosis of Colorectal Cancer [J].International Journal of Computer Assisted Radiology and Surgery,2014,9:283-293.
[31] JHA D,SMEDSRUD P H,RIEGLER M A,et al. Kvasir-seg: A Segmented polyp dataset [C]//MultiMedia Modeling.Daejeon:Springer,2020:451-462.
[32] MARGOLIN R,ZELNIK-MANOR L,TAL A. How to Evaluate Foreground Maps [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:248-255.
[33].FAN D P,CHENG M M,LIU Y,et al. Structure-measure: A New Way to Evaluate foreground Maps [J/OL].arXiv:1708.00786 [cs.CV].[2024-08-19].https://arxiv.org/abs/1708.00786.
[34].FAN D P,GONG C,CAO Y,et al. Enhanced-alignment Measure for Binary Foreground Map Evaluation [J/OL].arXiv:1805.10421 [cs.CV].[2024-08-19].https://arxiv.org/abs/1805.10421.
作者簡介:劉磊(1995—),男,漢族,四川峨眉山人,主管護師,本科,研究方向:計算機與醫(yī)學。