



摘要:圖像語義分割旨在對圖像中每個像素進行語義類別的預測。文章系統綜述了傳統圖像語義分割算法,基于深度學習的以FCN、DeconvNet和HRNet為代表的經典CNN網絡,以及基于視覺Transformer的ViTs和HVTs架構的語義分割網絡,并分析了語義分割常用的公開數據集、模型評價指標及語義分割相關的研究趨勢。
關鍵詞:語義分割;高分辨率分割;FCN;DeconvNet;HRNet;ViTs;HVTs
中圖分類號:TP391" "文獻標識碼:A
文章編號:1009-3044(2025)12-0090-05
開放科學(資源服務) 標識碼(OSID)
0 引言
圖像語義分割對圖像中每個像素進行語義類別的預測,以識別物體所在的區域;實例分割還需要識別圖像中同一類別的不同對象實例進行標注(如對每一個人都進行標記) ;而全景分割則同時對圖像中的所有像素進行分類和實例標注。語義分割任務能夠快速識別城市建筑、道路及交通標志以及行人、車輛,從而提高駕駛安全;輔助醫生定位腫瘤、器官等結構,提高疾病診斷的準確性,廣泛應用于無人駕駛、遙感影像、醫學影像等領域。語義分割的難點在于從復雜的圖像背景中識別和感知不同尺度或被遮擋的物體,并能夠對物體邊緣進行精確切割。尤其在圖像中存在大量小物體、物體間相似且難以區分,以及物體類別分布不均衡時,提升分割的精度和魯棒性具有較大挑戰。
早期傳統的圖像分割算法需要結合專業知識進行先驗算法設計,通過圖像的顏色、紋理信息和空間結構等特征將圖像分割成不同的區域[1],其分割性能提升空間有限。隨著人工智能技術的發展,基于深度學習的圖像分割任務通過設計復雜的卷積神經網絡,從大量數據中學習特征提取能力和語義理解能力,實現端到端的語義分割。圖像語義分割方法的分類如圖1所示,主要分為傳統圖像分割方法和深度學習分割方法。深度學習模型包括基于卷積神經網絡(CNN) 的分割架構以及基于Transformer架構的視覺語義分割經典網絡。此外,本文還分析了語義分割在不同領域常用的公開數據集、模型評價指標及相關研究趨勢。
1 傳統圖像分割方法
傳統圖像分割方法包括:1) 基于閾值的分割算法,根據像素的灰度或顏色信息將圖像劃分為不同區域,如全局閾值法、局部閾值法、多閾值法和自適應閾值法;2) 基于區域的分割算法,將圖像分成若干區域,使每個區域具有相似的顏色、紋理或亮度等特征,如區域生長法、分裂合并法、分水嶺算法;3) 基于邊緣檢測的分割算法,利用相鄰區域像素值的不連續性獲取不同區域的邊緣以實現分割,如Roberts、Prewitt、Sobel等一階微分算子,以及Laplace和Kirsch等二階微分算子;4) 基于特定理論的分割算法,如K-Means聚類分析、FCM模糊集理論、小波變換、基因編碼等。這些傳統圖像分割方法擁有較為成熟的理論體系和實現方法,在工業質量檢測和缺陷識別、醫療影像增強處理等特定領域廣泛應用,但存在算法通用性差、計算效率低等不足。隨著深度學習的興起,基于CNN的語義分割方法展現出更強大的性能。
2 基于CNN深度學習的分割架構
基于CNN的深度學習語義分割方法可歸納為三類:學習低分辨率表示的方法、恢復高分辨率表示的方法和保持高分辨率表示的方法。學習低分辨率表示的方法直接對主干網絡編碼層下采樣后輸出的低分辨率像素進行分類,但在恢復原圖尺寸時,目標邊緣細節丟失較多,屬于圖像粗分割。圖像精細分割需要更高的邊緣精度,可以通過對編碼層的低分辨率表示進行上采樣,恢復為高分辨率后再進行像素分類和尺寸恢復,從而提高目標邊緣的平滑度;也可以通過并行使用低分辨率表示來增強編碼層的特征輸出,使編碼層保持高分辨率表示后進行像素分類。
2.1 學習低分辨率表示的方法
學習低分辨率表示的方法是通過對原始圖像下采樣得到低分辨率特征圖,先對像素進行分類,再恢復到原圖尺寸。Long J[2]等人創新性地提出使用全卷積網絡(Fully Convolutional Networks, FCN) 解決圖像語義級別分割問題,采用ResNet-18預訓練模型提取圖像特征,并通過1×1卷積層將通道數轉換為類別數,然后利用反卷積(Transpose Convolution,亦稱轉置卷積) 的上采樣操作,將特征圖的高和寬恢復到與輸入圖像相同的尺寸,最終輸出每個空間位置像素的類別預測。如圖2所示,FCN網絡多層特征圖融合示意圖中,FCN網絡具有FCN-32s、FCN-16s和FCN-8s三種上采樣規格。FCN-16s和FCN-8s通過跳躍連接結構對特征進行加和操作(sum) ,實現多層特征圖的融合。FCN-8s提高了分割準確性,但對物體細節的處理仍不充分,分割邊緣表現出模糊或平滑,且容易產生背景混亂的問題。
2.2 恢復高分辨率表示的方法
恢復高分辨率表示的方法通過下采樣得到強語義信息,再通過上采樣恢復高分辨率的位置信息后進行像素分類,如圖3(a) 所示。基于FCN改進的DeconvNet[3]、SegNet[4]、U-Net[5]采用編碼-解碼結構恢復圖像高分辨率的策略,分割精度較FCN有所提升。編碼器作為整個網絡的特征提取器,通過卷積層和池化層進行下采樣,對原始圖像進行壓縮并逐步提取富含高級語義信息的低分辨率特征圖。解碼器在上采樣的同時,與下采樣過程中的特征進行concat堆疊操作,將低分辨率特征圖映射到原始圖像的尺寸,最終使用1×1卷積將特征向量映射到所需的語義類別。在U-Net的對稱結構基礎上,改進的U-Net++、U-Net3+等系列模型增強了分割性能,但在上采樣和下采樣過程中仍會丟失部分細節,導致語義分割精度存在不足。
為應對編碼過程中圖像分辨率降低和信息丟失的問題,標準卷積中引入了擴張率(Dilation Rate) 參數,用以控制卷積核中相鄰元素間的距離,使得同尺寸的卷積核能夠獲得更大的感受野,該技術稱為空洞卷積(Dilated Convolution) ,亦稱擴張卷積(Atrous Convolution) 。采用空洞卷積的DeepLab[6]通過擴大感受野和多尺度特征融合,更好地捕捉圖像中的上下文信息。DeepLab系列不斷引入新技術和改進,代表作有DeepLabV3[7]和DeepLabV3+[8],其引入多尺度金字塔池化(ASPP) ,采用4種不同尺度的感受野以獲取最終特征圖中不同大小的物體;此外采用Xception編碼器-解碼器結構和深度可分離卷積實現更高效的特征提取,顯著提升了語義分割的精度。
2.3 保持高分辨率表示的方法
在整個網絡過程中保持高分辨率表示,通過連接多個從高分辨率到低分辨率的并行卷積,并通過并行卷積之間的信息交換增強語義信息表征能力,如圖3(b)所示。Sun K[9-10]提出的HRNet和HRNetV2在整個過程中始終保持高分辨率表示,由多個平行的子網絡構成,每個子網絡對應一種分辨率的表示,不同子網絡之間進行信息交互(fusion) 和多尺度信息融合(采用concat方式) ,最終預測時僅使用高分辨率子網絡的輸出。信息交互策略包括:同分辨率的特征圖層直接復制;需升分辨率的采用上采樣和1×1卷積將通道數統一;需降分辨率的采用帶步長的3×3卷積(strided 3×3 convolution) 。在這種融合的高分辨率表示特征圖上,能夠更精確地定位不同尺度的物體。
3 基于Transfromer的分割架構
基于CNN的深度學習語義分割性能取決于網絡感受野的大小。全卷積網絡中的有效感受野有限,且在提取特征并恢復高分辨率時會損失部分信息,從而限制了網絡性能的進一步提升。而Transformer在計算機視覺任務中無須進行下采樣即可實現特征提取,保留了更多圖像信息,能夠保持輸入和輸出空間分辨率不變,并能有效捕捉全局上下文信息。將其應用于語義分割必然帶來顯著進步。基于Transformer的分割方法可歸納為Vision Transformers(ViTs) 和Hybrid Vision Transformers(HVTs) 兩種架構。圖4為基于Transformer架構的語義分割網絡結構示意圖。
3.1 視覺Transformer(ViTs) 方法
S Zheng等人(2020) 提出的SETR模型[11]是首個實現Transformer用于語義分割的模型。SETR采用與ViT相近的編碼器,使用標準的Transformer結構,如圖4(a) 所示。首先將H×W的圖像按照16×16大小劃分為圖像塊,然后通過1 024個16×16卷積將其轉化為H×W/256個長度為1 024的塊編碼,加入位置編碼后送入多頭注意力疊加的編碼器部分。SETR支持三種解碼器模式:直接雙線性插值的SETR-Naive解碼器、漸進式上采樣的SETR-PUP解碼器及多層次特征融合的SETR-MLA解碼器,用于將特征圖恢復至原圖尺寸。R Strudel等人(2021) 提出的Segmenter[12]模型,其編碼器部分與SETR一致,但解碼器直接采用MLP結合上采樣的方法,性能相對于SETR略有提升。
3.2 混合視覺Transformer(HVTs) 方法
隨著ViTs在圖像分割領域的應用,越來越多研究將卷積神經網絡(CNN) 的歸納偏差集成到ViTs架構中,由此產生了CNN-transformer,也稱為混合視覺Hybrid Vision Transformers(HVTs) 。HVTs架構結合了ViTs的多尺度自注意力機制(MSA) 與CNN的卷積操作,以捕獲圖像中的局部相關性和全局信息。TransUNet[13]在編碼器階段采用HVT架構,解碼器階段則使用級聯上采樣器,如圖4(b) 所示。該模型結合了ViT和U-Net的優勢,既能捕捉輸入圖像的局部相關性,也能捕獲長期依賴關系,從而實現準確的分割結果。MaxViT-UNet[14]則通過多軸注意力機制改進了ViT-UNet的解碼器,能夠更好地捕捉圖像中全局與局部信息,特別是在復雜醫學圖像處理中表現出色。
ViTs模型通過Transformer的自注意力機制突破了CNN局部操作的限制,更加關注圖像中的全局關系,但其性能容易受到輸入數據中物體位移、尺度和形變的影響,且處理大尺寸圖像時計算復雜度較高。HVTs結合了Transformer和CNN兩種網絡結構優勢,使得ViTs能夠捕獲全局上下文信息,CNN負責提取局部特征,同時兼備良好的位移、尺度和形變不變性,提升了性能并降低了計算復雜度,但模型復雜性的增加導致訓練時需要更多數據。
4 數據集、模型評價及研究方向
4.1 公開數據集
常用于訓練語義分割模型的公開數據集包括PASCAL VOC 2012增強數據集、CIHP、GID、Gould、ADE20k等。圖像語義分割的標注是通過人工分割并識別圖像內容后,采用顏色對不同類別進行區分標注,如圖5所示。
1) PASCAL VOC 2012增強數據集(PASCAL VOC 2012 Augmented Dataset) 是目前語義分割領域最常用且最基礎的benchmark數據集,由PASCAL VOC 2012和Semantic Boundaries Dataset(SBD) 兩個數據集合并制作而成。用于語義分割的圖片數量分布為訓練集10 582張、驗證集1 449張、測試集1 456張,共包含21個不同的語義類別。
2) 高分影像數據集(Gaofen Image Dataset, GID) [15]是一個大規模土地利用分類和精細土地覆蓋分類數據集。大規模分類集包含150個帶有像素級注釋的GF-2圖像,精細分類集由30 000個多尺度圖像塊及10個帶有像素級注釋的GF-2高分辨率圖像組成。數據集基于5個類別的訓練和驗證圖像,重新標注為15個類別的訓練和驗證數據。
3) ADE20k(ADE20K Scene Parsing Challenge) 數據集包含超過20 000個帶標注的場景圖像,涵蓋從室內到室外、自然到城市等多種場景,包含150個不同的語義類別。利用ADE20k數據集可以實現對圖像中不同物體和場景的精確識別與分割,為多種應用提供基礎支持。由于圖像中場景復雜多樣,分割任務在ADE20k上具有較大挑戰性,需要處理不同尺度、遮擋、光照等問題。訓練集、驗證集和測試集分別包含25 574、2 000和3 000幅圖像。
4) 斯坦福背景數據集(Stanford Background Dataset) 由Gould等人引入,包含從公共數據集中選取的715張戶外場景圖像,分辨率約為320×240像素,圖像中至少包含一個前景物體。
5) Crowd Instance-level Human Parsing(CIHP) 數據集包含38 280張多人圖像,圖像具有精細注釋、高外觀變異性和復雜性,適用于人體部分分割任務。
4.2 實驗性能評價指標
為了衡量語義分割算法的性能,需要使用通用且客觀的評測指標以保證評價的公正性。運行時間、顯存占用和準確率是3種常用的算法評測指標。
1) 平均執行時間。設共預測K張圖片,每張圖片的檢測耗時為[TK]秒,[(K=1...k)],則平均執行時間t可由式(1)表示。
[t=1kK=1kTK]" " " " " " "(1)
在運行時間相同的情況下,記錄算法運行狀態下顯存占用的極值和均值具有重要意義,有助于評價算法的資源效率。
2) 像素精度(Pixel Accuracy,PA) :預測結果中正確分類的像素占總像素的比例,定義如式(2)所示。
[PA=i=0kpiji=0kj=0kpij]" " " " " " "(2)
3) 均像素精度(Mean Pixel Accuracy,mPA) :計算每個類別中被正確分類的像素數占該類別總像素數的比例,再對所有類別取平均,表示如式(3)。
[mPA=1k+1 i=0kpiij=0kpij]" " " " " (3)
4) 均交并比(Mean Intersection over Union,mIOU) :首先計算每個類別的交并比(IOU) ,即預測區域與真實區域的重疊程度,再對所有類別的IOU取平均,定義如式(4)所示。
[mIOU=1k+1 i=0kpiij=0kpij+j=0kpji-pii]" " (4)
式中:pij表示真實類別為i被預測為類別i的像素數量,pij表示真實類別為i被預測為類別j的像素數量,k是類別總數。
4.3 相關研究方向
隨著語義分割的不斷發展,研究熱點進一步轉向多尺度高分辨率分割和統一圖像分割架構等方向,這些研究方向具有更大的挑戰性。
1) 多尺度高分辨率視覺Transformer:通過多分支高分辨率架構增強多尺度表示能力,將高分辨率保持特性與Transformer架構相融合設計的方法。如Facebook提出的HRViT[16](High-Resolution Vision Transformer) 是一個專為語義分割任務設計的新型視覺Transformer骨干網絡。在保持模型性能的同時,通過多種分支塊協同優化技術,顯著提升了模型的效率。HRViT在ADE20K和Cityscapes數據集上分別取得了50.20%和83.16%的mIoU,超越了當前最先進的MiT和CSWin骨干網絡,平均提升了+1.78 mIoU,同時減少了28%的參數和21%的FLOPs。HRViT高分辨率特性使得模型在捕捉小物體和細節方面能力顯著,強大且靈活的設計使得HRViT在城市規劃的高分辨率圖像分析、自動駕駛實時路面對象識別、醫療影像的病變檢測等高精確區域分割任務場景中展現出色的能力,也可適應更多未來可能出現的復雜視覺任務。
2) 統一圖像分割任務模型:盡管語義、實例和全景分割任務之間存在潛在的聯系,但之前主要集中在為每個任務設計特定的框架,逐步出現將語義分割、實例分割和全景分割任務統一到一個框架中。如Facebook提出的Mask2Former[17]是一個通用的圖像分割模型,主干特征提取器提取低分辨率特征、像素解碼器對低分辨率特征上采樣產生高分辨率表示和Transformer解碼器層三個核心部分組成。通過引入掩碼注意力(Masked Attention) 將交叉注意力約束在預測的掩碼區域來提取局部特征,利用特征金字塔將低分辨率和高分辨率并存,高效的多尺度策略在保持高分割精度的同時,提高了計算效率和訓練速度。在COCO全景分割上達到了57.8 PQ的SOTA水平,在COCO實例分割上達到了50.1 AP,在ADE20K語義分割上達到了57.7 mIoU,達到或超過了特定框架模型精度。該模型通過創新的結構設計和優化策略,在全景分割、實例分割和語義分割等多個任務上取得了顯著突破,為圖像分割領域帶來了新的機遇和挑戰。
5 結論
語義分割是計算機視覺領域的重要研究方向,深度學習的出現顯著提高了語義分割模型的能力和準確性。語義分割任務仍面臨諸多技術挑戰,特征提取過程中容易丟失細節信息,導致分割較為模糊;小目標的細節特征分類準確度有待進一步提升;當背景與目標差異不大時,像素級分割難度加大。隨著人工智能技術的不斷進步和算力的日益豐富,圖像語義分割模型將在更多行業發揮重要作用。未來,研究者們可以進一步對模型結構進行迭代升級、提高訓練效率、提升模型精度,推動圖像分割技術向更高水平發展。
參考文獻:
[1] 徐婷婷.基于深度學習的圖像分割研究[D].北京:華北電力大學,2021.
[2] LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 7-12,2015,Boston,MA,USA.IEEE,2015:3431-3440.
[3] NOH H,HONG S,HAN B.Learning deconvolution network for semantic segmentation[C]//2015 IEEE International Conference on Computer Vision (ICCV).December 7-13,2015,Santiago,Chile.IEEE,2015:1520-1528.
[4] BADRINARAYANAN V,KENDALL A,CIPOLLA R.SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495.
[5] RONNEBERGER O,FISCHER P,BROX T.U-Net:convolutional networks for biomedical image segmentation[C]// Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015.Cham:Springer International Publishing,2015:234-241.
[6] YU F,KOLTUN V.Multi-scale context aggregation by dilated convolutions[EB/OL].[2024-12-20].ArXiv e-Prints,2015:arXiv:1511.07122.
[7] CHEN L C,ZHU Y K,PAPANDREOU G,et al.Encoder-decoder with atrous separable convolution for semantic image segmentation[EB/OL].[2024-12-20]. https://arxiv.org/abs/1802.02611v3.
[8] CHEN L C,ZHU Y K,PAPANDREOU G,et al.Encoder-decoder with atrous separable convolution for semantic image segmentation[C]// Computer Vision – ECCV 2018.Cham:Springer International Publishing,2018:833-851.
[9] SUN K,XIAO B,LIU D,et al.Deep high-resolution representation learning for human pose estimation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019,Long Beach,CA,USA.IEEE,2019:5686-5696.
[10] SUN K,ZHAO Y,JIANG B R,et al.High-resolution representations for labeling pixels and regions[J].ArXiv e-Prints,2019:arXiv:1904.04514.
[11] ZHENG S X,LU J C,ZHAO H S,et al.Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 20-25,2021,Nashville,TN,USA.IEEE,2021:6877-6886.
[12] STRUDEL R,GARCIA R,LAPTEV I,et al.Segmenter:transformer for semantic segmentation[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV).October 10-17,2021,Montreal,QC,Canada.IEEE,2021:7242-7252.
[13] CHEN J N,LU Y Y,YU Q H,et al.TransUNet:transformers make strong encoders for medical image segmentation[EB/OL].[2024-12-20].ArXiv e-Prints,2021:arXiv:2102.04306.
[14] KHAN A R,KHAN A.MaxViT-UNet:multi-axis attention for medical image segmentation[EB/OL].[2024-12-20].ArXiv e-Prints,2023:arXiv:2305.08396.
[15] TONG X Y,XIA G S,LU Q K,et al.Land-cover classification with high-resolution remote sensing images using transferable deep models[EB/OL].[2024-12-20].https://arxiv.org/abs/1807.05713v3.
[16] GU J Q,KWON H,WANG D L,et al.HRViT:multi-scale high-resolution vision transformer[EB/OL].[2024-12-20].10.48550/ arXiv.2111.01236.
[17] CHENG B W,MISRA I,SCHWING A G,et al.Masked-attention mask transformer for universal image segmentation[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 18-24,2022,New Orleans,LA,USA.IEEE,2022:1280-1289.
【通聯編輯:唐一東】