









摘" 要:醫學圖像是臨床診斷的重要參考,如何快速且準確地分割出醫學圖像中的病灶區域,受到了人們的廣泛關注。當前,利用深度學習進行圖像處理已成為主流,醫學圖像分割因其獨特的應用場景,成為深度學習在圖像處理領域應用的成功范例。U-Net網絡憑借其特有的U型結構,在醫學圖像分割領域取得了不錯的性能,但該網絡仍存在精度不夠高等問題。文章對基于優化U-Net模型的醫學圖像自動分割方法展開研究,將CBAM(Convolutional Block Attention Module)和SE(Squeeze-and-Excitation)模塊與U-Net網絡結構相結合,實現了對人體器官的高度準確分割。在眼球數據集上的實驗結果表明,優化后的U-Net網絡相較于單純的U-Net網絡,準確率更高(0.905)。該研究具有重要的臨床應用前景,能夠對人體器官、病變區域等目標進行有效分割,為醫療實踐帶來積極影響。
關鍵詞:U-Net神經網絡;圖像分割;醫學圖像;注意力機制
中圖分類號:TP391.4;TP18" 文獻標識碼:A" 文章編號:2096-4706(2025)04-0047-06
Application of Medical Image Segmentation Based on Optimized U-Net Neural Network Model
ZHANG Xiaoxu, SHAO Yinglong, YAN Menghui, WANG Jianqing
(Zhejiang Chinese Medical University, Hangzhou" 310053, China)
Abstract: Medical images are important references for clinical diagnosis. How to segment the lesion areas in medical images quickly and accurately has received extensive attention. At present, the use of Deep Learning for image processing has become the mainstream. Medical image segmentation has become a successful example of Deep Learning in the field of image processing due to its unique application scenarios. With its unique U-shaped structure, the U-Net network has achieved good performance in the field of medical image segmentation, but the network still has problems such as insufficient accuracy. This paper studies the automatic segmentation method of medical images based on the optimized U-Net model. The CBAM and SE modules are combined with the U-Net network structure to achieve highly accurate segmentation of human organs. The experimental results on the eyeball dataset show that the optimized U-Net network has higher accuracy (0.905) than the simple U-Net network. This study has important clinical application prospects, which can effectively segment human organs, lesion areas and other targets, and has a positive impact on medical practice.
Keywords: U-Net neural network; image segmentation; medical image; Attention Mechanism
0" 引" 言
醫學影像技術在當今醫學領域占據著日益重要且不可或缺的關鍵地位,已成為疾病診斷、治療規劃以及療效評估的重要基石[1]。然而,在影像學廣泛應用的背后,有一個不容忽視的挑戰,即病灶區域的精準標注。長期以來,這一任務依賴資深醫生手工操作,既耗時又費力。雖然醫生憑借豐富的臨床經驗,能夠相對高效地定位病灶,但這種高度依賴人工的方式,也存在顯著風險。例如,長時間高強度工作容易導致醫生出現判斷失誤[2],這不僅可能延誤患者的治療時機,還可能加劇醫患之間的誤解與沖突[3]。
隨著深度學習的迅猛發展,利用深度學習進行醫學圖像分割已成為醫學圖像分割領域的主流方法[4-5]。醫學圖像分割作為醫學圖像處理與圖像分割技術的交叉領域,具有獨特性,其處理的樣本較為特殊,這使得諸多在普通圖像分割中廣泛應用的技術,難以直接遷移并應用于醫學圖像分割領域,存在不完全適用的情況。
U-Net網絡[6]憑借在醫學圖像處理中的卓越性能脫穎而出。它的出現極大地推動了醫學圖像分割技術的進步,是當前醫學圖像分割領域極為熱門的方法。然而,若僅使用原始U-Net進行訓練,會出現梯度消失、特征利用率低等問題,最終致使模型的分割準確率難以提升[7]。此后,研究者基于U-Net提出了許多改進方案,這些改進后的網絡也相繼在醫學圖像分割領域取得了較好的分割效果。
因此,基于優化U-Net的醫學圖像分割方法研究極具意義。針對原始U-Net存在的問題,將注意力機制、稠密模塊、特征增強等深度神經網絡領域的最新技術,融入基于U-Net的基礎結構,成為廣泛采用的改進手段。這些改進工作有的面向不同優化目標,有的通過結構改進、添加新模塊等方式,致力于提高醫學影像分割的準確性、運算效率和適用范圍[8]。
Milletari等人[9]提出了V-Net網絡,其整體構造與U-Net極為相似,但V-Net直接運用3D卷積處理圖片,省去了將三維圖像轉換為二維圖像的復雜過程。后來,Zhou等人[10]提出U-Net++分割網絡,首次對U-Net網絡的跳躍連接部分進行改進,為后續網絡設計提供了新思路,進一步提升了性能。基于ResNet的思想,Ibtehaz等人[11]將殘差連接與U-Net相結合,提出多尺度殘差U-Net(Multi-scale Residual U-Net, MultiResUNet),通過建立殘差連接避免過擬合對網絡性能的影響,以此提高分割精度。此外,Vaswani等人提出了結合Transformer技術[12]的TransUNet[13],雖然TransU-net在提取全局信息方面具有優勢,但容易導致局部細節信息丟失,在醫學圖像數據集上難以取得良好的分割性能。總體而言,改進U-Net網絡模型在醫學圖像分割領域具有巨大潛力。
綜上所述,本研究在原有U-Net網絡結構基礎上,針對其存在的不足,分別加入SE[14]和卷積塊注意力模塊(Convolutional Block Attention Module, CBAM)[15],以增強特征,進而提高醫學圖像分割的準確率。
1" 相關理論介紹
1.1" U-Net神經網絡
U-Net是一種專門為圖像分割而設計的卷積神經網絡(Convolutional Neural Network, CNN),由Ronneberger等人[6]于2015年提出,最初應用于生物醫學圖像處理領域。U-Net的架構呈對稱的U形,主要包含編碼路徑、中心部分和解碼路徑,其結構如圖1所示。U-Net的核心思想是采用編碼器-解碼器結構。在編碼器部分,網絡通過一系列卷積層和最大池化層,逐步提取圖像特征,同時降低圖像的空間分辨率。這一過程不僅能夠捕捉圖像的上下文信息,還能有效減少計算量。在解碼器部分,網絡則通過上采樣操作,逐步恢復圖像的空間分辨率。為了在恢復圖像分辨率的同時保留圖像細節信息,U-Net創新性地采用了跳躍連接。即在上采樣的過程中,將編碼器中相應層的特征圖直接拼接至解碼器的對應層。這種跳躍連接能夠讓網絡在進行上采樣時,充分利用低層特征,從而有效提高了分割邊緣的準確性。此外,U-Net網絡在上采樣部分還運用了卷積層,以進一步融合特征。并且在每個上采樣層之后,使用兩個3×3的卷積層對特征圖進行調整。最終,通過一個1×1的卷積層,輸出所需的分割結果。
1.2" 損失函數
損失函數用于衡量模型預測結果與真實結果之間的差異,常被用于評估模型性能。其核心意義在于提供一個數值化指標,能量化模型預測的準確程度或誤差大小,進而指導模型在訓練過程中進行參數更新,使其能更好地逼近真實目標。通過最小化損失函數,模型在訓練數據上的表現得以提升,在未見過的數據上的泛化能力也會增強,從而提高模型的實用性和可靠性。
在深度學習領域,常見的損失函數包括交叉熵損失函數(Cross-Entropy Loss)、Dice損失函數、Jaccard損失函數(也稱作IoU損失函數)以及Tversky損失函數等[16]。交叉熵損失函數通常應用于分類任務,在多類別分類問題中,它衡量的是模型預測概率分布與真實標簽分布之間的差異。Dice損失函數和Jaccard損失函數則常用于圖像分割任務,它們在像素級別比較模型預測結果與真實分割結果的重疊程度,以此衡量分割的準確性。Tversky損失函數[17]是結合了Dice損失函數和Jaccard損失函數的一種形式,旨在平衡模型對正負樣本的關注度,適用于處理不平衡數據集的情況。
總體而言,選擇合適的損失函數對模型的訓練和性能起著關鍵作用。由于不同的任務和數據特點可能需要使用不同的損失函數來進行訓練和優化,所以在實際應用中,需依據具體情況靈活選擇損失函數,以實現最佳的模型性能。基于本文數據集的特點,實驗研究選取了二元交叉熵損失函數(Binary Cross-Entropy, BCE),BCE損失函數的定義如下:
(1)
1.3" 注意力機制(Attention Mechanism)
注意力機制的概念最初由Treisman等人提出,他們的研究為后續發展奠定了基礎[12]。該機制模擬人腦的注意力模式,旨在揭示人類如何在眾多視覺刺激中,優先處理某些關鍵信息。注意力機制的一個關鍵特性是,它可被視為一種組合函數,能夠對輸入信息進行加權與整合。在深度學習領域,注意力機制Attention模型能夠獲取全局信息。人類在觀察事物時,會有選擇性地關注重要信息,這一過程被稱為注意力。視覺注意力機制在提升信息處理的效率與準確性方面,發揮著重要作用。深度學習中的注意力機制,通過模仿人類處理視覺信息的方式,能夠有選擇性地聚焦于特定輸入信息。這種機制的核心功能在于,將注意力集中在與當前任務最為相關的重要信息上,同時忽略不重要或無關的信息。就如同人類視覺系統的運作方式一樣,這種注意力機制使系統能夠更高效地處理海量數據,減少信息冗余,進而加快計算進程,提高決策的準確性。在深度學習領域,注意力機制的設計與應用,受到人類對環境生理感知過程的啟發。在日常生活中,人類借助視覺注意力機制,能夠快速識別和處理環境中的關鍵信息,比如識別危險或者尋找食物,同時忽略背景中的次要細節。與之類似,深度學習中的注意力機制賦予網絡在處理輸入數據時更大的靈活性,使其能夠在復雜任務中提取最相關的信息,并基于這些信息做出準確判斷。
1.3.1" CBAM模塊
CBAM是一種卷積神經網絡模塊,其目的是通過引入注意力機制,提升網絡的表示能力,CBAM結構如圖2所示。
空間注意力(Spatial Attention)[18]能夠讓網絡聚焦于對分類或檢測任務具有重要意義的圖像像素區域,進而忽略那些無關區域。這種機制通過對每個像素位置進行加權處理,突出圖像中的關鍵區域,使模型能夠更精準地識別目標區域的特征。
通道注意力(Channel Attention)[19]則著眼于特征圖各通道之間的關系。它通過學習每個通道的重要性權重,對特征圖的通道進行調整,讓模型能夠更好地利用對分類或檢測任務有用的特征。
混合域注意力機制將空間注意力和通道注意力相結合,形成了一個綜合性的注意力機制,即CBAM。由于CBAM被精心設計為輕量級模塊,在大多數情況下,它幾乎不會帶來額外的參數和計算開銷。CBAM注意力模塊可廣泛應用于提升卷積神經網絡在多種任務中的表現能力。圖2的CBAM網絡結構圖中,Channel Attention Module主要關注輸入數據中有意義的內容,其計算式為:
(2)
而Spatial Attention Module主要關注哪些位置是有意義的,其計算式為:
(3)
1.3.2" SE模塊
SE Block是深度學習中的一個模塊化子結構,能夠嵌入到各類分類或檢測模型之中,以此提升模型性能。其核心思路是通過學習特征權重,強化有效特征,弱化無效特征,進而優化模型的輸出結果。
具體操作過程如下:首先,對輸入特征圖執行全局平均池化操作(Global Average Pooling, AP),將每個通道的空間維度壓縮成一個單一數值。接著,把壓縮后的特征送入兩個全連接層進行處理。最后,利用得到的權重對原始特征進行重新標定。也就是說,將原始特征圖每個通道的值與對應的權重相乘,從而放大重要特征,抑制無效或次要特征[20]。SE結構如圖3所示。
Ftr可以看作一個標準的卷積算子,計算式為:
(4)
Fsq就是使用通道的全局平均池化,計算式為:
(5)
為了利用壓縮操作中匯聚的信息,我們接下來通過Excitation操作來全面捕獲通道依賴性,計算式為:
(6)
Scale操作就是將前面得到的注意力權重加權到每個通道的特征上,計算式為:
(7)
2" 實驗與分析
2.1" 數據集說明
本研究的數據來源于開源數據集Drive[21]。Drive數據集于2004年發布,其目的是支持荷蘭糖尿病視網膜病變的篩查研究。該數據集包含40張彩色眼底圖像及其對應的標注圖像,為糖尿病視網膜病變的檢測與分析提供了寶貴資源。每張圖像的尺寸為565×568像素。原始圖像取自400名年齡在25至90歲之間的糖尿病受試者,最終從中隨機選取40張圖像用于本研究。其中,33張圖像顯示無糖尿病視網膜病變跡象,7張圖像顯示有輕度早期糖尿病視網膜病變跡象。
這40張圖像被分為訓練集和測試集,兩個集合均包含20張圖像。每張圖像都帶有由兩個專家組手動分割的標記結果。圖4展示了Drive數據集的原始圖像和手工標注圖像。
2.2" 模型評價指標
2.2.1" 混淆矩陣
在醫學圖像分割領域,尤其是針對人體器官的分割任務,混淆矩陣是評估模型性能的重要工具。混淆矩陣以矩陣形式呈現了模型對測試數據在像素級別上的分類結果與真實標簽之間的關系[13],這在分割任務中至關重要。以眼球分割為例,其混淆矩陣如表1所示,各單元格含義如下:真正例(True Positive, TP),血管區域的像素預測為血管;假負例(False Negative, FN),將血管區域的像素標記為非血管;假正例(False Positive, FP),非血管區域的像素標記為血管;真負例(True Negative, TN),在分割任務中,通常沒有真負例的概念,因此該單元格在混淆矩陣中不會出現[13]。混淆矩陣能夠直觀地展示模型在血管和非血管區域的分割準確性及錯誤情況,有助于指導模型的優化與改進,進而提高眼球分割結果的準確性和穩定性,為臨床診斷和治療提供更可靠的支持。
2.2.2" 常見評價指標
通過分析混淆矩陣,能夠計算出多種評估指標,如精準率(Precision)、召回率(Recall)、交并比(IoU)、像素準確率(Pa),以此定量地評估模型在分割任務中的性能。
精準率(P)用于衡量模型預測為正樣本的實例中,真正屬于正樣本的比例。在圖像分割任務里,它代表了模型在所有像素上預測正確的比例。召回率(R)體現了模型能夠準確找到實際正樣本的能力。交并比是一個用于衡量模型預測結果與真實結果之間重疊程度的重要指標。像素準確率則衡量了模型預測正確的像素在總像素中所占的比例。其計算式如下:
(8)
(9)
2.3" 實驗過程
2.3.1" 實驗設備
本文實驗所使用的硬件設備為:AMD Ryzen 7 5800H with Radeon Graphics 3.20 GHz CPU,機帶RAM16 GB,顯卡為NVIDIA GeForce RTX 3070 Laptop GPU。本模型基于PyTorch實現,Python 3.10,PyTorch 1.31。模型訓練采用RMSProp優化器,訓練周期Epoch為40,學習率(Learning Rate)為0.000 01,采用BCE損失函數來反應模型分割的準確性。
2.3.2" 實驗結果及對比分析
在本研究中,選取了傳統的圖像分割模型U-Net、Nested_Unet,以及分別加入CBAM模塊與SE模塊的U-Net模型開展對比實驗,以評估它們在眼球圖像分割任務中的性能表現。
如圖5所示,在訓練初期,所有模型均出現了損失快速下降的情況,這表明網絡正在快速學習并適應數據分布。然而,隨著訓練的持續進行,各模型呈現出不同的收斂趨勢。其中,CBAM_U-Net模型憑借其最低且最為穩定的損失曲線脫穎而出。這一結果表明,在整個訓練過程中,該模型不僅能夠有效地降低損失,還能始終保持良好的穩定性,這或許得益于其融入注意力機制后強大的特征提取能力。
從表2可以看出,SE_U-Net展現出最高的精確度(0.905),這意味著在模型預測為正類的樣本中,實際為正類的比例最高。同時CBAM_U-Net的精確度也略高于U-Net,而Nested U-Net精確度最低。對于Recall值,傳統的U-Net模型表現最佳。
基于控制變量法,選用上述精確度最高的SE_U-Net來驗證,其驗證集的分割情況如圖6所示。由圖可知,SE_U-Net在分割邊緣細小血管區域時,血管分割結果較好,分割的血管具有完整的脈絡結構,對血管細小分支也有較好的分割效果,進一步提高了模型對血管的分割性能。
3" 結" 論
視網膜圖像的醫學分析中,細小血管的結構復雜且精細,這給圖像分割帶來了難題。為解決該問題,我們提出一種改進的U-Net醫學圖像分割算法。該算法結合了注意力機制中的SE模塊和CBAM模塊,成功實現了對血管的精確分割。相較于傳統模型,結合后的模型在準確率上有一定提升。通過優化傳統的U-Net網絡模型,能夠提高人體器官、病變區域等目標分割的精確率,使其發揮出更大潛力。
盡管本研究在眼球分割方面取得了一定成果,但仍存在一些局限性。首先,本研究使用的是開源數據集Drive,樣本量小,需要擴大數據集規模或使其多樣化;其次,網絡結構的設計可能需要進一步優化,以提高分割效果和性能;最后,還需要進一步提高模型的對抗性和魯棒性,以應對不同醫學圖像的分割需求。
參考文獻:
[1] PECK P V. New Medical Imaging Technology [C]//Proceedings of a Special Symposium on Maturing Technologies and Emerging Horizons in Biomedical Engineering.New Orleans:IEEE,1988:113-114.
[2] WIESTLER B,MENZE B. Deep Learning for Medical Image Analysis: A Brief Introduction [J].Neuro-Oncology Advances,2020,2(Supplement_4):iv35-iv41.
[3] FOURCADE A,KHONSARI R H. Deep Learning in Medical Image Analysis: A Third Eye for Doctors [J].Journal of Stomatology,Oral and Maxillofacial Surgery,2019,120(4):279-288.
[4] ROTH H R,SHEN C,ODA H,et al. Deep Learning and its Application to Medical Image Segmentation [J].Medical Imaging Technology,2018,36(2):63-71.
[5] WANG J,ZHU H,WANG S H,et al. A Review of Deep Learning on Medical Image Analysis [J].Mobile Networks and Applications,2021,26(1):351-380.
[6] RONNEBERGER O,FISCHER P,BROX T. U-Net: Convolutional Networks for Biomedical Image Segmentation [C]//Medical Image Computing and Computer-Assisted Intervention(MICCAI 2015).Munich: Springer International Publishing,2015:234-241.
[7] 史健婷,崔閆靖,常亮.基于優化U-Net網絡的乳腺腫瘤區域分割方法 [J].計算機技術與發展,2021,31(8):156-161.
[8] 殷曉航,王永才,李德英.基于U-Net結構改進的醫學影像分割技術綜述 [J].軟件學報,2021,32(2):519-550.
[9] MILLETARI F,NAVAB N,AHMADI S A. Local Background Enclosure for RGB-D Salient Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:565-571.
[10] ZHOU Z W,SIDDIQUEE M M R,TAJBAKHSH N,et al. UNet++: A Nested U-Net Architecture for Medical Image Segmentation [C]//Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support.Granada:Springer,2018:3-11.
[11] IBTEHAZ N,RAHMAN M S. MultiResUNet: Rethinking the U-Net Architecture for Multimodal Biomedical Image Segmentation [J].Neural networks,2020,121:74-87.
[12] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is All You Need [J].Advances in Neural Information Processing Systems,2017,30:5998-6008.
[13] CHEN J N,LU Y Y,YU Q H,et al. TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation [J/OL].arXiv:2102.04306 [cs.CV].[2024-06-16].https://arxiv.org/abs/2102.04306.
[14] HU J,SHEN L,ALBANIE S,et al. Squeeze-and-Excitation Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(8):2011-2023.
[15] WOO S,PARK J,LEE J Y,et al. CBAM: Convolutional Block Attention Module[C]//Computer Vision-ECCV 2018.Munich:Springer,2018:3-19.
[16] PRIYA R M,VENKATESAN P. An Efficient Image Segmentation and Classification of Lung Lesions in PET and CT Image Fusion Using DTWT Incorporated SVM [J/OL].Microprocessors and Microsystems,2021,82:103958[2024-06-10].https://doi.org/10.1016/j.micpro.2021.103958.
[17] TANG Z X,ZHANG J Y,BAI C L,et al. Dense Swin-UNet: Dense Swin Transformers for Semantic Segmentation of Pneumothorax in CT Images [J/OL].Journal of Mechanics in Medicine and Biology,2023,23(8):2340069[2024-06-10].https://doi.org/10.1142/S0219519423400699.
[18] FU J L,ZHENG H L,MEI T. Look Closer to See Better:Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recognition [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:4476-4484.
[19] HU J,SHEN L,SUN G. Squeeze-and-Excitation Networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7132-7141.
[20] 溫靜,李智宏.基于帶Squeeze-and-Excitation模塊的ResNeXt的單目圖像深度估計方法 [J].計算機應用,2021(1):221-225.
[21] STAAL J,ABRàMOFF M D,NIEMEIJER M,et al. Ridge-based Vessel Segmentation in Color Images of the Retina [J].IEEE Transactions on Medical Imaging,2004,23(4):501-509.
作者簡介:張筱旭(2003.01—),女,漢族,河南周口人,本科在讀,研究方向:計算機視覺;通信作者:王健慶(1975.12—),男,漢族,河北唐山人,副教授,博士研究生,研究方向:計算機視覺、模式識別、醫學影像分析與處理。
收稿日期:2024-07-26