基于深度學習的圖像分割研究綜述

2025-08-17 00:00:00馬慧

電腦知識與技術 2025年19期

摘要：圖像分割是計算機視覺領域的一項重要任務，基于深度學習的圖像分割研究在近年來取得了顯著進展并廣泛應用于各個領域。該文首先總結了圖像分割的各種方法，其次對圖像分割常用的數據集和評價指標進行了總結，最后探討了當前的熱點問題，并對未來研究方向進行了展望。

關鍵詞：深度學習；圖像分割；CNN；Transformer

中圖分類號：TP311" " " " 文獻標識碼：A

文章編號：1009-3044（2025）19-0042-03

開放科學（資源服務）標識碼（OSID）

0 引言

計算機視覺發展日漸成熟，廣泛應用于各領域。圖像分割作為計算機視覺的基礎任務，對理解圖像內容至關重要。傳統的圖像分割方法依賴于低層特征[1]，受算力限制且需要人工干預，難以滿足復雜場景的需求[2]。而今，隨著計算機軟硬件的更新換代以及深度學習技術的日益強大，圖像分割可實現端到端的操作，直接輸入數據，輸出圖像的多級特征分類，從而實現分割效果。

基于深度學習的圖像分割技術在近幾年已經逐漸成為計算機視覺的研究熱點。Taghanaki等[3]對圖像分割技術進行了全面的綜述；Aljabri等[4]總結了在醫學圖像分割領域中應用的深度學習模型，強調了不同學習架構的特殊貢獻。本文對圖像分割方法進行分類總結，重點研究了基于深度學習的圖像分割方法，特別是CNN模型和Transformer模型，并對經典深度學習算法模型、常用數據集和評價指標進行了概述，旨在為后續研究提供理論基礎。

1 圖像分割

1.1 概念

作為計算機視覺三大基礎任務（圖像分類、目標檢測和圖像分割）之一，圖像分割旨在將數字圖像劃分為互不相交且連通的像素集，以簡化圖像表示，使其更易于分析和理解[5]。

1.2 分類

從發展歷程上看，圖像分割可分為基于傳統方法和基于深度學習的方法；從實際分割任務內容上看，圖像分割又有語義分割、實例分割和全景分割[6]之分，后者也常常與基于深度學習方法結合起來進行圖像分割。

1.2.1 基于傳統方法的圖像分割方法

傳統的圖像分割方法是基于灰度值的不連續和相似的性質對圖像進行超像素分割，分割主要基于圖像的低層特征，如灰度值、顏色和紋理等。常見的傳統方法包括：

1）區域分割法：是以直接尋找區域為基礎的分割技術，即將圖像分割成若干個區域，而后對每個區域進行進一步處理，包括區域生長、區域分裂與合并、分水嶺算法[7]。

2）邊緣檢測：這種方法是通過檢測圖像中亮度變化明顯的邊緣來識別對象，常用的邊緣檢測算子有Sobel、Canny等[8]。

3）閾值分割算法：是區域分割算法中代表性的分割算法，通過選定一個閾值將圖像轉換為二值圖像，從而分割出目標區域。常用的有全局閾值、基本自適應閾值方法、動態閾值方法和基于熵的二值化方法[9]。

4）基于聚類的圖像分割算法：是一種將圖像中的像素依據相同特征而劃分為幾個不同組的方法[10]，常見的方法有K-means、均值漂移、基于密度的聚類。

1.2.2 基于深度學習的圖像分割方法

基于深度學習的圖像分割方法依據學習方法劃分，有全監督學習和弱監督學習兩種類型。

1）全監督學習：即完全監督學習，指完備數據集下預測模型的學習過程。完備數據包括訓練樣本中的兩部分，一個是用向量、矩陣表示的事件或目標的實例，還有一個是指示真實情況的標簽。

2）弱監督學習：即數據集中標簽信息不完備，不能完全對應預測任務。據信息不完備情況，又分不完全監督、不精確監督和不正確監督學習三類。①不完全監督學習，即半監督學習，指學習過程中使用完全標注或者未標注的數據。②不精確監督學習，即給出粗粒度標簽。粗粒度標簽是對一個圖像定位、檢測的理想情況，對每個預測的目標標注其位置大小和輪廓，但花費的人力成本都較高，很多數據集只提供圖像級標簽這樣的粗粒度標注，即圖像中是否出現某目標。③不正確監督學習，即數據中有因人為造成的不正確的標簽，比如對物體輪廓的描繪，人工無法做到完全無誤差。

基于深度學習的圖像分割方法通常采用不同的網絡架構，其中最具代表性的是卷積神經網絡CNN和Transformer模型。

1）基于CNN模型：卷積神經網絡CNN于1980年因研究者對貓腦皮層的神經元的啟發而提出，后被學者改進演變而成。CNN核心架構包括輸入層、卷積層、池化層、輸出層。

2）基于Transformer模型：Transformer模型于2017年被提出，初期主要被用于自然語言領域，后因谷歌研究人員提出ViT模型，被應用于圖像領域。在圖像領域Transformer需要將二維圖像分割成塊，打包后線性嵌入，對位置和類別標識，后將數據在編碼器中訓練以分類。ViT更適用于大規模數據集，但與CNN相比，其在卷積操作中不能很好地歸納偏置，難以捕捉低層特征，需要大規模數據彌補，所以Transformer模型對提取全局視野的特征更具優勢。

除此之外，深度學習還有基于循環神經網絡（RNN）、生成對抗網絡（GAN）、殘差網絡（ResNet），長短時記憶網絡（LSTM）等網絡架構的模型。

1.2.3 基于分割實際內容的圖像分割方法

1）語義分割：語義分割即是把每個像素都打上標簽，區分類別但不區分類別中具體單位。語義分割的方法往往與各網絡架構相結合進行，如基于全卷積網絡（FCN）、深度解碼網絡（DeepLab）、U-Net、Mask R-CNN等。

2）實例分割：此種分割方法不僅區分類別，還區分類別中每一個個體。與語義分割類似，實例分割不僅標記像素所屬的類別，還標記屬于不同物體實例的像素。

3）全景分割：全景分割任務中包含不可數物體（如草）和可數的實例（如人、車等），可理解成語義分割和實例分割的結合，即每個像素都分配一個語義標簽和一個實例ID，語義標簽和實例ID都相同的像素被認為是屬于同一個對象。

2 深度學習

2.1 概念

深度學習是一種起源于神經網絡的自主化學習策略，通過構建多層神經網絡，自動學習數據中復雜特征的表示，以實現對數據的有效分析和理解。

2.2 深度學習的發展歷史

深度學習是一種較為復雜的基于神經網絡的方法。神經網絡是于1943年由數學家Walter Pitts等提出的MP模型而誕生，6年后心理學家Donald Olding Hebb構建了新的數學模型——海布規則模型，提出了正向傳播算法。

1959年，Widrow等引入了ADALINE，標志著神經網絡第一個黃金時代的開始。

1969年，Marvin Minsky等提出單層感知器的嚴重局限性。此后的十多年被稱為“神經網絡的第一個黑暗時代”。

20世紀80年代末到20世紀90年代初，是神經網絡第二個黃金時代，這得益于相關技術的誕生和成熟，如1969年后的自動微積分、微積分鏈式法則，1986年反向傳播算法、1989年通用近似定理以及反向傳播、通用逼近定理（UAT）。

20世紀90年代初到21世紀初，神經網絡領域經歷了“第二個黑暗時代”。因計算限制等挑戰，許多研究人員將注意力轉移，導致該領域出現了一段停滯期[11]。

21世紀00年代末和21世紀10年代初，神經網絡領域又經歷了一次復興，原因是深度學習架構（CNN、Transformers、Diffusion Models）、硬件（GPU等）、大規模數據集（ImageNet、COCO等）、訓練算法（SGD等）等方面的發展進步[12]。

2.3 深度學習的算法模型

自1998年CNN被提出后，學者在此基礎上研究并提出了很多經典的網絡算法模型，如AlexNet、GoogLeNet、VGG、ResNet等：

1） AlexNet：2012年由多倫多大學和Hinton團隊的Alex Krizhevsky提出，是首個應用于圖像分類的卷積神經網絡變體。AlexNet采用ReLU激活函數，徹底解決了“梯度消失”的問題[13]。

2） GoogLeNet：由谷歌系列論文提出，獲得2014年ImageNet冠軍。該模型提出Inception模塊以結合不同尺度的卷積，在專注于加深網絡結構的同時，增加網絡的寬度，減少參數量并防止過擬合[14]。

3） VGG：2014年由牛津大學提出，在當年ImageNet挑戰賽中的定位和分類賽中分別獲得冠軍和亞軍。VGG開啟了3×3卷積堆疊時代，卷積核變小，可捕捉更復雜和抽象的高層語義特征，提升了分類性能。

4） ResNet：2015年由何凱明團隊及微軟亞洲研究院提出，獲得了2015年的ImageNet冠軍。此模型及其恒等映射機制的設計是為了解決深度學習中的退化現象，即神經網絡會隨著層數的增加，性能反而下降的問題[15]。

5） DenseNet：是CVPR 2017年最佳論文提出的模型。該模型摒棄了通過寬度和深度來提升性能的策略，轉而采用密集連接結構作為網絡的核心，讓每一層能與前面所有層短路相連，從而最大化特征的重用。DenseNet在加強了特征傳播、減少參數的同時提升了模型效率，廣泛用于圖像分類[16]。

3 數據集

深度學習需要大量的數據進行訓練和測試。本文對幾個常用的數據集進行介紹：

1） PASCAL VOC數據集：常用于檢測和識別以及圖像分割等任務。該數據集包含來自20個不同類別的物體的圖片和對應的標注信息，如人、貓、狗等，同時還包含了大量的難以識別的背景圖片。

2） Cityscapes數據集：是用于城市場景理解的大規模數據集，取景于50個不同的歐洲城市，包括圖像和視頻，涵蓋道路、建筑物、車輛、行人等類別內容。

3） CamVid數據集：包含了701個圖像序列，涵蓋了多種交通場景，包含32個不同的類別，如道路、建筑物、車輛、行人等。

4） COCO數據集：涵蓋了80個不同類別的實例級注釋的標簽集，包括人、動物、家具等。

5）標準實例分割數據集LVIS：LVIS是一個包含164K圖像、超過1000類的數據集，具有200多萬個高質量的分割實例，是基準數據集。

4 評價指標

評價指標是衡量圖像分割效果的重要參照和標準。以下為幾個常用指標：

1） MIoU（Mean Intersection over Union）：IoU是一種常用的評價指標，用以判斷分割結果與真實標注之間的重合程度。均交并比MIoU即為所有類別IoU的平均值，用于衡量模型在像素級別上預測結果與真實標注的重疊程度，對多類別分割、不平衡數據分割友好。

2） ACC（Accuracy）：即準確率，表示正確分類樣本數量所占模型預測總樣本數量的比例。

3）精確率（Precision）：Precision表示模型預測為正例的所有樣本中，預測正確樣本的占比[17]。

4）召回率（Recall）：Recall表示所有真實標簽為正的樣本中，有多大百分比被預測出來[18]。

5） F1值：召回率和精確率的調和均值，適用于不平衡數據集，但在樣本比例不同時可能不適用。

此外，還有均像素精度（MPA）、特異性（SPE）、靈敏度（SEN）、Dice系數等指標來度量模型之間的算法性能差異，評估算法的性能。

5 結束語

基于深度學習的圖像分割在生活中應用廣泛。在醫學影像領域中，它能自動地判斷病灶，輔助診斷病情，突破人力的瓶頸；在自動駕駛領域，它能幫助車輛判斷紅綠燈、行人和道路，從而實現自動駕駛；在安防監控領域，它能識別可疑人員和行為；在圖像編輯領域，它能實現摳圖、替換背景等功能。但深度學習中不同的算法模型需要針對不同的場景情況進行選擇，從而提升圖像分割的準確性。本文對基于深度學習的圖像分割方法進行了細致的研究和綜述，為未來基于CNN和Transformer相結合的圖像分割方法夯實了理論基礎，也為此方面的研究充實了內容。

參考文獻：

[1] 劉永勝.基于深度神經網絡的弱監督學習方法在圖像領域的研究[D].成都：電子科技大學，2020.

[2] 楊甜甜，郭大波，孫佳.基于多殘差網絡的遙感圖像語義分割方法[J].測試技術學報，2021，35（3）：245-252.

[3] ASGARI TAGHANAKI S，ABHISHEK K，COHEN J P，et al.Deep semantic segmentation of natural and medical images：a review[J].Artificial Intelligence Review，2021，54（1）：137-178.

[4] ALJABRI M，ALGHAMDI M.A review on the use of deep learning for medical images segmentation[J].Neurocomputing，2022，506：311-335.

[5] 李東明.醫學顯微細胞圖像分割研究[D].長春：長春理工大學，2021.

[6] 王磊，歐陽世波，鄭宇，等.3D視覺引導的多品規物料機器人拆垛系統設計[J].物流技術與應用，2022，27（2）：113-116.

[7] 趙洋.基于深度學習的道路環境感知研究[D].石家莊：石家莊鐵道大學，2022.

[8] 唐璐，趙英.基于深度學習的圖像分割技術研究綜述[J].電腦知識與技術，2023，19（23）：30-32.

[9] 羅昊.米粒圖像識別關鍵技術研究[D].北京：北京郵電大學，2021.

[10] 胡聰.基于注意力機制的弱監督行為檢測與識別研究[D].徐州：中國礦業大學，2021.

[11] 塔娜.基于邊界感知和特征互補的醫學圖像分割算法研究[D].長春：吉林大學，2023.

[12] 呂春旭，徐陽.深度學習技術發展歷程[J].中國安防，2023（3）：32-36.

[13] 蔡靖，谷承睿，劉光達，等.基于改進AlexNet卷積神經網絡人臉識別的研究[J].電子技術應用，2024，50（11）：42-46.

[14] 段函作，潘溢洲，寇嘉銘，等.基于改進ResNet18模型的駕駛員面部表情識別方法[J].傳感器與微系統，2025，44（6）：29-32，37.

[15] 胡俊英，孫凱，劉軍民，等.人工神經網絡模型設計案例[M].西安：西北大學出版社，2024.

[16] 付明凱，王少紅，馬超.基于Densenet模型的步態相位識別研究[J].電子測量技術，2025，48（1）：119-128.

[17] 龐鎧.基于雙支路并行結構的土地覆蓋分割算法研究[D].南京：南京信息工程大學，2023.

[18] 于冰冰，李清，趙桐德，等.基于SSA-SVM的巷道頂板空頂沉降量預測模型[J].煤炭學報，2024，49（S1）：57-71.

【通聯編輯：代影】