












摘 要:隨著醫療需求的持續增長,深度學習技術在醫學圖像自動分割領域展現出巨大的潛力。空間數據智能的發展為醫學圖像的精確分割提供了新的解決思路。UNet 作為醫學圖像分割領域最具影響力的網絡架構,自2015 年提出以來在各類醫學影像任務中得到了廣泛應用,其獨特的編碼器-解碼器結構設計不僅為后續研究奠定了基礎范式,更催生了大量改進網絡。系統梳理了UNet 架構的重要發展里程碑:ResUNet 通過殘差連接解決了深層網絡訓練困難的問題,AttentionUNet 引入自適應注意力機制提升了在跳躍連接中的特征選擇精確度,而TransUNet 和SwinUNet 則代表了將現代Transformer引入醫學圖像分割的2 個關鍵階段,展現了卷積神經網絡(Convolutional Neural Network,CNN) 與Transformer 融合的巨大潛力。通過分析這些代表性網絡的架構創新和性能突破,揭示了醫學圖像分割技術從純CNN 架構向CNNTransformer 混合架構演進的發展趨勢。此外,探討了現有技術面臨的挑戰,對未來空間數據智能的發展方向提供了見解,為該領域的進一步研究提供了參考。
關鍵詞:深度學習;UNet;醫學圖像分割;神經網絡結構
中圖分類號:TN929. 5 文獻標志碼:A
文章編號:1003-3106(2024)12-2765-15
0 引言
近年來,國家高度重視人工智能技術的應用與發展,積極推動人工智能、大數據、互聯網、5G、區塊鏈、物聯網等新一代信息技術在醫療健康領域的深度融合。這一政策導向有效促進了醫學人工智能的快速發展,并在我國逐步落地應用[1]。當前,隨著人口老齡化程度加劇以及高血壓、糖尿病等慢性病發病率逐年上升,醫療衛生資源的總量相對不足且分布不均衡成為亟待解決的問題。在政策支持下,醫學人工智能的發展為解決這些問題提供了新的技術途徑,正在逐步改變傳統的疾病預防、檢測和治療模式,推動衛生健康領域的創新與進步。
在醫療健康領域,醫學圖像的分析是臨床診斷和治療的核心環節之一。隨著影像技術的發展,CT、MRI 以及超聲等醫療影像數據量迅速增加,如何高效、準確地從海量醫學圖像中提取關鍵信息,成為當前醫療實踐中的一大挑戰[2]。醫學圖像分割作為影像分析的重要步驟,自動或半自動地將目標區域從背景中精確分割出來,能夠為臨床醫生提供重要的定量分析信息,顯著提升診斷效率和精度。在這一技術發展進程中,空間數據智能的崛起為醫學圖像分析帶來了新的突破。空間數據智能通過整合空間信息處理、深度學習和知識推理等技術,能夠更好地理解和利用醫學圖像中的空間特征和上下文關系。這種智能化的空間數據處理方法不僅提升了醫學圖像分割的準確性,還為復雜自動醫療結構的精確識別提供了新的解決方案。特別是在處理器官之間的復雜空間關系和病變區域的精確定位方面,空間數據智能展現出了獨特的優勢。
自2012 年深度學習技術取得突破以來,神經網絡結構不斷推陳出新,各類網絡在不同領域得到了廣泛應用。在醫學圖像分割領域,2015 年提出的UNet[3]是不可忽視的代表性網絡。
UNet 的設計受到全卷積網絡(FullyConvolutional Network,FCN)的啟發[4],其基于卷積神經網絡(Convolutional Neural Network,CNN),使用創新性的網絡設計,實現了當時較好的醫學圖像分割效果。其將對稱的“U”型編碼器-解碼器結構與跳躍連接相結合,使得高分辨率的局部信息和低分辨率的全局語義信息能夠有效融合,極大地提升了分割任務的精度與效率。此后,基于UNet 架構,許多研究人員相繼提出了改進的變體網絡,如UNet++[5]、ResUNet[6]等,這些變體在不同場景中進一步優化了分割性能,推動了醫學圖像分割技術的持續發展。
2017 年,Transformer 結構被提出,最初主要用于解決自然語言處理(Natural Language Processing,NLP)中的問題,并在該領域取得了顯著成效[7]。隨著Transformer 在NLP 領域的成功,研究者們逐漸將這一架構引入到視覺任務中,催生了Vision Transformer(ViT)模型[8]。在此基礎上,許多研究開始探索CNN 與Transformer 的結合,產生了大量新的網絡架構。這種結合的趨勢也影響到了醫學圖像分割領域,UNet 與Transformer 的融合網絡應運而生。這種結合進一步提升了模型對全局和局部特征的捕捉能力,為復雜的醫學影像處理提供了更為強大的工具[9]。
基于以上背景,本文主要討論UNet 及其網絡變體設計,梳理UNet 的網絡發展脈絡,把握未來網絡結構的發展趨勢大多基于CNN 與Transformer 或其他網絡比如mamba[10]等的有機結合,為推動醫療智能化發展提供理論參考和實踐指導。
1 經典UNet 結構
在醫學圖像分割領域,UNet 憑借其簡潔而高效的網絡架構取得了廣泛的應用,圖1 為自提出以來各類網絡的研究文獻數量餅狀圖,可以看出,UNet 占比75. 6% ,FCN 占比9. 2% ,SegNet 網絡占比2. 5% ,DeepLab 網絡占比1. 7% ,UNet+ +與DeepLabv3 網絡有著相同的占比,為1. 6% ,最后是其他網絡占比7. 8% 。
UNet 的設計采用了對稱的編碼器-解碼器結構,通過逐層卷積提取特征,同時結合跳躍連接將高分辨率的細節信息從編碼器傳遞到解碼器部分,以確保空間信息的保留與重建。這樣的結構使得UNet 在處理小樣本醫學圖像時,仍能夠取得良好的分割效果。