圖像處理中基于深度學習的圖像語義分割綜述

2024-06-19 07:23:45陳惠民

科技資訊 2024年6期

開放科學（資源服務）標識碼（OSID）：DOI：10.16661/j.cnki.1672-3791.2311-5042-5346作者簡介：陳惠民（2003—），男，本科，研究方向為信息安全。

摘要：圖像語義分割（Semantic Segmentation）是計算機視覺領域的熱點研究課題，圖像語義分割不僅預測一幅圖像中的不同類別，同時還定位不同語義類別的位置，具有重要的研究意義和應用價值，這些方法被用于人工智能當中，應用在無人駕駛，遙感影像檢測，醫療影像研究等方面。全卷積神經網絡的快速崛起推動了圖像語義分割領域的發展，兩者的融合取得了顯著的成就。本文將從語義分割的介紹出發，對近幾年的代表性工作進行闡述，并對未來的研究方向進行展望。

關鍵詞：圖像處理 ??語義分割 ??計算機視覺 ??人工智能 ??深度神經網絡

中圖分類號：TP391.41;TP18

圖像語義分割是計算機視覺領域的關鍵研究方向，通過精確劃分圖像中不同物體和區域的語義信息，為無人駕駛、遙感影像檢測、醫療影像等應用領域提供了重要支持。本文綜述了基于深度學習的圖像語義分割方法的演進，重點介紹了FCN、U-Net、DeepLab等經典算法，以及最新基于Transformer的方法，如ViT-Adapter和Lawin Transformer。同時還關注了幾個常用的語義分割數據集，如PASCAL VOC2012、Microsoft COCO和Cityscapes，為讀者提供了全面了解語義分割領域的數據資源的機會。綜上所述，旨在為研究者提供對圖像語義分割領域的深入了解，并展望未來的研究方向。隨著計算機視覺技術的不斷發展，圖像語義分割將繼續在多個應用領域發揮關鍵作用。

1語義分割算法

傳統圖像分割算法

傳統圖像分割算法是一組基于傳統計算機視覺和數字圖像處理技術的方法，用于將圖像分割成不同的區域或對象。這些算法通常不依賴于深度學習或神經網絡，而是使用傳統的數學、統計學和信號處理技術來實現分割。在后續研究中，與基于神經網絡的語義分割算法進行比較是至關重要的，以深入研究它們在各個方面的性能和適用性。傳統的圖像分割算法同樣具有重要意義，為語義分割在后續研究中奠定了基礎。以下是4個傳統圖像分割的介紹：閾值分割法、馬爾可夫機場模型、邊緣檢測法、地域法。

閾值分割法

閾值分割法是傳統圖像分割中最基礎的技術之一，也是應用最廣泛的技術。它通過設定不同的閾值來劃分圖像中不同灰度級別的像素點，從而實現目標與背景的分割。

在該方法中，最重要的是選取合適的閾值。尋找合適的閾值可以提高圖像的分割精度，提高分割效果。常用的閾值劃分方法有3種：雙峰法、最大類間方差法（OTSU）、自適應閾值法（AdaptiveStrike）。

邊緣檢測法

邊緣檢測是一種非常有效的方法，它能準確地確定圖像的邊界，并且具有較高的計算速度。邊緣是圖像中物體與背景灰度出現突然變化的部位，將灰度差值大的點作為邊緣點。通過對所有邊緣點的識別和連接，構造出連貫的輪廓，然后再使用圖像分割，圖像被分割為不同的地帶。

地域法

以地區為單位的方法的原理是把具有相似性或性質特征相同的像素點組合成同一地區的圖像分割方法。區域法分為兩種子法，第一種是區域生長，區域生長是一種串行區域技術，其基本思想是從一個種子像素點開始，逐步合并鄰域像素點（pixel）中相似的點，直到找不到相似的像素點或相似度不夠的地方才進行合并。

馬爾可夫隨機場模型算法

馬爾科夫隨機場模型（?MRF-Markov Random Field，MRF）通過對圖像進行局部分割的方法，對經過分類后的圖像進行算法統計和學習。通過分析圖像中各像素點之間的相互關系，我們能夠有效地確定先驗概率。這一核心理論基于馬爾科夫隨機場模型（MRF）以及貝葉斯理論（Bayes），為我們提供了一種方法，使信息重復率降低，從而對圖像特征和結構進行深入理解。為我們提供了一種深入理解圖像特征和結構的方法，從而降低了信息的重復率。這兩個重要的概念，在影像處理領域，理論上都提供了必要的支撐。在圖像分割中，通過優化算法找到最大概率分布，通過建立多個約束條件的目標函數，將分割問題轉換成 MRF優化問題。其中最大后驗（Maximum A Posteriori，MAP）概率是一個使用較多的優化指標。

卷積神經網絡下的語義分割算法

基于深度學習的卷積神經網絡語義分割算法，能夠在傳統圖像分割算法的基礎上，更好地提取圖像中高層語義信息。傳統的圖像分割算法通常基于低層圖像特征（如形狀、邊緣、紋理等）進行像素級別的分割，無法準確捕捉到目標的高級語義信息，圖像分割效果不好。卷積神經網絡下的語義分割計算方法可以實現對圖像中的每一個像素進行分類，從而在圖像中實現對物體和實體（substruction）的精確分割。提供更高的分割精度和語義理解能力。

FCN全卷積神經網絡

FCN網絡[1]是CVPR2015會議的最佳論文，其成功發表被譽為深度學習在語義分割領域的重大創新。其核心思想是將傳統的卷積神經網絡AlexNet、 VGNet中的全連通層替換為全卷積，建立端級、像素級的語義劃分網絡。FCN網絡具有如下突出的特點。

（1）卷積化（Convolutional）。對于一個包含八層的CNN網絡，其中前五層為卷積層，會用卷積層去轉換后三層。這個轉換的重要性在于，整個連接層會把二維圖像壓縮成一個一維的向量，從而造成丟失空間信息。全卷積層的使用，可以將圖像的空間信息保存下來，從而幫助語義的分割更加精確。

（2）上采樣（Upsample）。上采樣亦被稱為反卷積操作，一般應用于網絡末端。在多次卷積操作導致特征圖尺寸減小的情況下，上采樣操作旨在使最終分割結果與原始圖像尺寸相匹配，以確保空間信息的一致性。

（3）跳躍結構（Skip Layer）。跳躍結構被引入了FCN網絡，它會采樣不同的池化層的結果，通過逐元素相加（Element-wise Add）的方式結合在一起。這種跳躍式結構的設計使網絡可以將包括8倍、16倍、32倍上在內的特征信息進行整合，從而提高語義分割的性能。

U-Net 醫療U型神經網絡

U-Net網絡[2]是2015年MICCAI大會上首次提出的一種在醫學圖像處理領域廣泛應用的深度學習架構。U-NET是在全卷積神經網絡（FCN）的基礎上改進而來的，該方法的獨特之處在于采用了一種創新的結構設計，即U型的Encoder和Decoder結構，并結合了skip-connection機制。這一設計有助于充分綜合利用圖像的底層和高層信息，使得在醫療領域的圖像處理方面得到廣泛應用。

U-Net網絡可以分為Encoder和Decoder兩個主要部分。

Encoder負責進行特征提取，其任務是進行特征提取并執行4次下采樣操作，總共下采樣16倍。這個過程的主要目的是捕獲圖像的底層信息和上下文語義信息，為進行像素級的類別分類提供有力的支持。

Decoder?負責執行上操作，在每次完成后，通過與對應的通道數（即?SKIP-CONECTION）相同的特征圖進行融合。這一過程的主要目的是對圖像進行高層次的信息提取，以達到更精細的特征定位。

在特征融合上，U-Net采用了一種新穎的方式，即在通道維度上，而不是像FCN那樣，以點帶面的方式進行特征拼接融合。這種方法可以幫助特征信息得到更好的保留和利用，網絡的性能也會因此得到提升。

谷歌DeepLab系列

DeepLab[3，4]是谷歌團隊基于 CNN開發的語義分割模型。Deeplab家族迭代已經經歷了四個版本，即V1、V2、V3、V3+。

DeepLabV1?是?DCNN?針對?DCNN?面臨的兩大圖像分割任務難題的改進版深度卷積神經網絡。首要問題是如何解決由于反復的池化操作和下采樣操作而導致的分辨率下降，降低清晰度。通過引入Atrous（或空洞）卷積來增加感受野，以保留更多的位置信息。通過增加分割精度來細化信息的細節，DeepLabV1 采用了全連接條件隨機場（Conditional Random Field，CRF），通過增加分割精度來細化信息細節，從而增加了信息的詳細分割結果。DeepLabV1?引入?ATROUS?卷積和全連接條件隨機場（CRF），采用?VG-16?作為骨干網絡（Backbone）。全連接條件隨機場（CRF）在圖像分割中的使用是為了圖像的信息分割進度的上升。它通過綜合考察像素本身的位置及其周圍像素的值，以及整個圖像的全局信息，對局部信息進行了更新。這種方法有助于使圖像分割結果更加精確，尤其在捕捉圖像輪廓等細節方面表現更為出色。

DeepLabV2是在V1的基礎上進行了網絡架構的進一步改進，使多尺度物體分割的挑戰得到了更有效的解決。它改善了細節信息的分割，通過減少池化操作，使用了空洞的卷積，繼續使用全連接的CRF。此外，DeepLabV2還引入了用于處理多尺度物體存在的空間金字塔池化（ASPP）模塊。ASPP模塊在給定的特征層上使用多個平行的不同的空洞卷積重新采樣，再將特征融合。更好地獲取了不同尺度的信息。

DeepLabV3在V2的基礎上進行了重要的改進，放棄了全連接條件隨機場（CRF）的使用，轉而專注于更深層次的Atrous（或稱為Dilated）卷積結構，并對ASPP模塊進行了改進。串聯具有不同膨脹率的Atrous卷積有助于在不同尺度上捕獲圖像特征，使網絡能夠更好地理解不同尺度下的結構和語義信息。同時，DeepLabV1還通過并行具有不同膨脹率的空洞卷積來優化空洞空間卷積池化金字塔（Atrous Spatial Pyramid?Pooling，ASPP）模塊。

DeepLabV3+和V3一樣不再使用全連接CRF，在此基礎上，DeepLabV3+將深度可分卷積轉化為編碼器，并在其基礎上增加 Decoder模塊，從而構造出深度可分卷積。我們將交叉可分卷積與深度可分卷積分別用于 ASPP與 Decoder，并設計了一種基于深度可分卷積的深度可分卷積算法。該模型將空間金字塔池化（SPP）與編碼器（Encoder-Decoder）兩種模式有機地融合，前者可以獲取更多的尺度信息，后者則可以用來恢復目標的邊界。

基于Transformer的圖像分割

Transformer最早用于自然語言處理，而后被首先被用于圖像分類，在語義分割領域使用Transformer的歷史并不長，目前新出爐的使用Transformer進行語義分割的方法有南京大學的ViT-Adapter[5]以及北京郵電大學的Lawin?Transformer[6]。

ViT-Adapter

ViT[7]（Vision Transformer）是一款將Transformer架構應用于圖像分類任務的模型，由Google團隊于2020年提出。雖然不是第一個將Transformer用于視覺任務的研究，但它因其簡單的模型結構、出色的性能，以及可擴展性（模型規模越大，性能越好）而成為了Transformer在計算機視覺領域的重要里程碑，激發了后續相關研究的熱潮。

不同于最近的趨勢，即在Vision Transformer（ViT）架構中引入視覺特定的歸納偏差，ViT本身由于缺乏圖像領域的先驗信息，在密集預測任務上表現較差。為了應對這一問題，本文提出了一種名為Vision Transformer適配器（ViT-Adapter）的解決方案。ViT-Adapter通過引入額外的架構來彌補ViT的不足，使其在性能上能夠媲美專門針對視覺任務設計的模型。

Lawin?Transformer

通過大窗口注意改進具有多尺度表示的語義分割。多尺度表示對于語義分割至關重要。目前見證了利用多尺度上下文信息的語義分割卷積神經網絡（Convolutional Neural Networks，?CNN）的蓬勃發展。由于視覺Transformer （ViT）在圖像分類方面的強大功能，最近提出了一些語義分割 ViT，其中大多數取得了令人印象深刻的結果，但以計算經濟為代價。

2??語義分割數據集

語義劃分所用的數據是由多個維度組成的，數量龐大。2 D影像領域的研究熱點包括PASCALVOC2012系列、微軟 COCO系列、Cityscapes、?SYNTHIA、CamVid、?KITTI等。以下是三組使用較多的資料。

2.1 PASCAL VOC2012數據集

PASCAL VOC 2012是Pascal系列中被廣泛選用進行語義分割任務的重要數據集，深受研究者們的高度評價。該數據集涵蓋了三大板塊，訓練板塊收錄了1 464張圖像，驗證板塊收錄了1 449張圖像，測試板塊收錄了1 456張圖像。訓練集規模進一步擴大，達到?10 582?幅圖像，通過巧妙應用數據增強技術。VOC2012數據集涵蓋了人、動物、交通工具和室內物品等四大類共20個不同類別的物品和一個可劃分為21個類別的背景類別，未修改圖像（JPG格式），圖像分類分割（PNG格式，特定的物體分割顏色），圖像生成具有不同物體輪廓，隨機填充顏色的圖像物體分類分割（PNG格式）。VOC2012 數據集文件中有 5 個文件夾，對應圖像的 XML 信息保存在 Annotations 文件夾中，3個 TXT文件在 ImageSets 文件夾中的 Segmentation 為圖像分割標記圖像， JPEGIMAGES 文件夾用于保存原始圖像。PNG圖像包含在SEGMANTIONCL文件夾中進行圖像分割分類，PNG圖保存在SegmentationObject文件夾中是用于不同物體分割。

2.2 Microsoft COCO數據集

在情景理解中，微軟 COCO （Common Objects in Context）是一種十分重要的數據集，包含91個不同物體類別的數據集，捕捉了復雜背景下的生活場景。COCO數據集規模宏大，從32.8萬張圖像里標注了250萬張以上的實體實例，因而被公認為最龐大的語義分割數據集之一。

COCO 數據集的獨特之處彰顯在其專注解決圖像場景理解的3個核心問題上：目標分類、目標檢測和場景語義標注。每張 COCO 圖像平均涵蓋了3.5個不同的物體類別和7.7個物體實例，這使得該數據集展現出更為多樣和復雜的特性，為深度學習模型提供了更具挑戰性的訓練和評估場景。此外，COCO的評估標準相對嚴格，因此它成為了許多研究者用來評估模型性能和質量的首選數據集。

2.3 Cityscapes數據集

Cityscapes是語義理解中的重要數據集，以城市街道的景色為中心。這本資料集的影像來自覆蓋不同季節城市街景的?50?多個不同城市，也包括良好天氣下的城市。這些圖像涵蓋了繁雜種類的城市場景的布局，和人物，交通工具等動態對象，是一個復雜且多樣的數據集。

Cityscapes數據庫有被高質量標記的圖片5 000章以上和超過20 000幅粗糙標注的圖像。這些圖像涵蓋了8個主要類別和30個細分類別的語義信息，包括平面、人物、天空、建筑、實體、自然、汽車、虛空八類。這些精細標注的數據不僅可用于訓練深度神經網絡，還可支持各類任務，如語義分割、實例分割和密集像素預測

3 ?結語

本文從語義分割任務的概述開始，詳細介紹了傳統的語義分割算法，重點關注了自2015年以來，隨著卷積神經網絡的引入，出現了一系列新的語義分割方法，探討了最近流行的Transformer在語義分割領域的應用，以及對這些方法的潛在影響，還介紹了3個與語義分割相關的重要數據集，這有助于讀者更全面地了解語義分割領域的數據資源。

參考文獻

LONG J ，SHELHAMER E， DARRELL T. Fully convolutional networks for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）， Boston， MA， USA， 2015：3431-3440.

周濤，董雅麗，霍兵強，等. U-Net網絡醫學圖像分割應用綜述[J].中國圖象圖形學報，2021，26（9）： 2058-2077.

CHEN LC， Papandreou?G， Kokkinos?I，?et al. Deeplab： Semantic image segmentation with deep convolutional nets， atrous convolution， and fully connected crfs[J]. IEEE transactions on pattern analysis and machine intelligence， 2018，40（4）：834-848.

CHEN?LC， ZHU Y?，Papandreou G，et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[J]. Proceedings of the European conference on computer vision （ECCV）. 2018，ECCV（7）：801-818.

CHEN Z，DUAN Y C，WANG W H，et al. Vision Transformer Adapter for Dense Predictions[J]. arXiv preprint，2022：arXiv：2205.08534.

YAN H T，ZHANG C，WU M，?Lawin transformer： Improving semantic segmentation transformer with multi-scale representations via large window attention[J]. arXiv preprint，2022：arXiv：2201.01615.

Dosovitskiy A，Beyer L， Kolesnikov?A，?et al. An image is worth 16x16 words： Transformers for image recognition at scale[J]. arXiv preprint arXiv：2010.11929 （2020）.