田啟川,孟 穎
1(北京建筑大學電氣與信息工程學院,北京100044)
2(建筑大數據智能處理方法研究北京市重點實驗室,北京100044)
圖像語義分割是通過計算機將圖像分割為若干個視覺上有意義或感興趣區域的技術,其目標是對圖像中每個像素進行語義信息標注,以不同顏色對分割出的區域進行標記,進而確定每個分割區域所屬的類別.目前,圖像語義分割在無人駕駛、醫療影像、目標檢測、地理遙感、時尚搭配等領域都擁有廣闊的應用前景.例如,無人駕駛領域通過語義分割對車體前方道路、行人等進行定位,幫助無人車自動判別路況;醫療影像領域通過病灶的自動分割實現計算機的輔助診斷.圖像語義分割具有巨大的應用價值和研究價值.
目前國內外的專家學者對語義分割方法進行了大量研究,但是,語義分割技術依舊面臨以下幾個問題:
1)由于拍攝視角、運動等發生幾何形變或圖像背景層次復雜導致物體的誤分割問題;
2)同類物體間的相異性和不同類物體的相似性引起的誤分類問題;
3)物體的尺度過小導致的細節信息丟失問題.
為了解決上述問題,傳統的圖像分割方法往往采用基于閾值、邊緣檢測或區域的分割算法,這些方法不僅需要通過人工設計的特征對圖像進行分割,還需要與其他方法相結合,具有很大的局限性.而基于卷積神經網絡的語義分割方法利用神經網絡自動提取圖像中每個像素的語義信息,實現端到端的識別與分類,目前已被廣泛地應用于語義分割任務.
國內一些文獻對基于深度學習的圖像語義分割方法進行了綜述.文獻[1-3]對現有方法進行了總結,但總結不全面,且缺少方法間的對比.文獻[4-6]對語義分割方法綜述較全面,但對算法分類的標準不夠明確.
本文以直觀的分類方法對主流的圖像語義分割算法進行綜述,針對不同應用背景,介紹相關數據集和性能評價標準,并對具有代表性的算法進行比較研究.
圖像分割作為計算機視覺中有關圖像識別和分析的關鍵技術,用于把圖像分成若干個特定的、具有獨特性質的區域并提取出感興趣的目標[7],而圖像語義分割是通過逐像素分類,將分割出的區域賦予語義信息的過程.
圖像語義分割的發展主要經歷了三個時期[5].
1)傳統方法時期:采用閾值法、邊界檢測法、區域法等對圖像進行分割,這些方法只能利用圖片中邊緣、顏色、紋理等低級特征,分割結果并不精確.
2)傳統分割方法和CNN 相結合的時期:先利用傳統算法處理圖像,再利用CNN 模型訓練分類器,雖然帶來了分割精度的提升,但依舊受到傳統方法的限制.
3)基于CNN 時期:全卷積神經網絡(FCN)的出現開啟了圖像語義分割領域的新篇章[8].FCN 將CNN 中的全連接層轉換為卷積層,首次實現了端到端的、像素級的分類.FCN的提出為研究人員提供了全新的研究思路,在CNN 和FCN的基礎上,U-Net[9]、SegNet[10]、DeconvNet[11]、RefineNet[12]、EncNet[13]等模型相繼出現,為語義分割領域的發展做出了杰出貢獻.
CNN 的流行促進了圖像語義分割的發展.現有的基于CNN 的圖像分割技術以經典的 VGG[14]、GoogLeNet[15]、Res-Net[16]、DenseNet[17]網絡結構或它們的變體為基礎.
VGG 網絡模型由 Simonyan 等人提出,其在 LeNet-5[18]模型結構上,采用小尺度的卷積核不斷加深網絡結構,反復堆疊3×3 的卷積核和2×2 的池化核對數據集進行訓練和預測,減少模型參數,增強模型的表征能力.研究者通過實驗證明網絡達到一定深度會引發過擬合,并提出網絡層次為16-19層時,模型性能最佳.
GoogLeNet 網絡模型由Szegedy 等人提出,通過Inception模塊堆疊 1×1、3×3 和 5×5 三種尺度的卷積核,提取并融合圖像多尺度特征,提高了模型預測分類的準確率,同時,通過1×1 的卷積核對特征圖進行降維,降低模型的參數量,提高了計算效率.
ResNet 網絡模型是由何凱明等人提出的一種跨層連接的網絡結構.ResNet 在VGG 模型的基礎上搭建殘差網絡學習模塊,將淺層網絡與深層網絡跨越連接,使深層訓練誤差可以反向傳播至淺層,解決了網絡結構過深引起的梯度彌散問題,實現了訓練更深層次網絡模型的目的.
DenseNet 是由黃高等人提出的稠密連接神經網絡.DenseNet 以ResNet 為基礎,通過 Dense Block 模塊和 transitionlayer 實現高效地特征提取與重用.Dense Block 模塊中的每一層都可以從前面的所有層獲得額外輸入,并將本層特征映射傳遞到后續所有層,這種方式不僅可以使網絡的每一層都應用到淺層信息,還可將梯度從最后一層反向傳遞至淺層,減輕梯度消失和過擬合問題,加快網絡的收斂速度.
全監督圖像語義分割是指利用經過人工精確標注的數據集進行網絡模型的訓練和預測.由于不同方法的提出致力于改善網絡模型不同的功能,因此以網絡模型的功能為分類標準,從特征提取、復原、融合和優化四個方面對全監督的圖像語義分割方法進行綜述.
卷積神經網絡通過卷積層和池化層實現圖像特征的提取.卷積層中每個卷積核對應為某一類特征提取器,通過卷積運算可以學習圖像中各種特征和像素間的空間關系,而池化層可以對輸入的特征圖進行壓縮,不僅可以提取主要特征,還可以簡化網絡計算的復雜度.不同卷積層和池化層的組合方式構造了多種特征提取方式.
3.1.1 利用串行空洞卷積增加感受野
空洞卷積是由Fisher 等人提出的可用于密集預測的卷積層,又名擴張卷積[19].空洞卷積在普通卷積的基礎上引入擴張率,即在計算時將卷積核中間插入一個或多個零值,使卷積核以不同的間距處理數據.空洞卷積可以增大感受野,避免了池化層引起的圖像分辨率降低問題.卷積與空洞卷積對比圖如圖1 所示.

圖1 普通卷積與擴張率為2 的空洞卷積對比圖Fig.1 Comparison of convolution and 2-dilated convolution
DeepLabV1 網絡模型由 Chen 等人于 2014 年提出[20].DeepLabV1 創新性地將空洞卷積應用到VGG16 網絡,通過將VGG16 的全連接層轉換為卷積層,并將VGG 模型第四個和第五個池化層之后的所有卷積層分別變換為擴張率為2 和4 的空洞卷積,使感受野的范圍恢復至原圖像大小,提升了模型分割的準確率.
ENet 是由Adam Paszke 于2016 年提出的實時語義分割模型[21].該模型借鑒 ResNet 的思想提出了 bottleneck 模塊,利用bottleneck 模塊串行不同擴張率的空洞卷積增加感受野,緩解了模型過度下采樣導致的特征分辨率降低問題.其參數少,計算速度快等特性使實時語義分割技術成為可能.
DRN 網絡模型由 Fisher Yu 等人于2017 年提出[22].DRN以ResNet 為基礎,利用空洞卷積替換普通卷積,保持原有網絡的感受野和圖像空間的分辨率.DRN 將ResNet 最后的兩組卷積層分別替換為擴張率為2 和4 的空洞卷積,增強了空間信息,通過移除最大池化層、移除殘差操作等方法解決了反復使用空洞卷積帶來的“棋盤效應[23]”,利用全局平均池化[24]和全卷積得到逐像素的分類輸出.
上述方法都采用串行不同擴張率的空洞卷積增大感受野,提取空間性更強的語義特征.但過多地使用空洞卷積會導致棋盤效應和小目標特征丟失,也會占用大量計算機內存,因此有很多方法在空洞卷積的基礎上做了改進[26-37].
3.1.2 利用空間金字塔池化模塊提取全局語義特征
空間金字塔池化模塊(SPP)由何凱明等人于2014 年提出[25].SPP 采用不同窗口和步長的最大池化層,將輸入的特征圖轉換為不同尺度的特征后進行拼接,從而得到固定維度的特征.SPP 的優勢在于,可以將任意尺度的輸入轉換為相同尺度的輸出,且不同尺度特征的提取和拼接可以提高任務精度和網絡模型的魯棒性.基于SPP 的思想,又出現了許多特征提取方式,提高了語義分割的精度.
DeepLabV2 由 Chen 等人于 2014 年提出[26].DeepLabV2利用帶洞空間金字塔池化模塊(ASPP)提取全局語義信息,增強了對多尺度物體的識別能力.在DeepLabV1 的基礎上,ASPP 模塊采用四個并行的、擴張率分別為 6,12,18,24 的空洞卷積分支得到4 張特征圖,利用融合層將4 張特征圖相加獲取多尺度特征.該方法雖然帶來了一定的精度提升,但是ASPP 模塊的加入導致參數大幅增加,而且模塊中特征圖簡單的相加操作并沒有充分利用提取出的多尺度特征.
Chen 等人隨后提出了 DeepLabV3 網絡模型[27].Deep-LabV3 在ASPP 模塊中增加1* 1 的卷積層和全局平均池化以獲取更優的特征圖,將串行連接的空洞卷積與ASPP 模塊相結合,獲取更加豐富的全局語義信息.實驗結果表明,Deep-LabV3 在不加入全連接的條件隨機場的情況下,可以取得比DeepLabV1 和DeepLabV2 更高的準確率.
雖然ASPP 模塊可以獲取多尺度特征,但Maoke Yang 等人認為其在尺度軸上的特征分辨率不夠密集,實際的感受野不能滿足任務需要,為此提出了DenseASPP 網絡模型[28].該模型以DenseNet 和ASPP 為基礎,通過密集連接,使網絡的每一層既能利用前面所有層的信息,也能將本層信息映射至后面所有層,實現了更為密集的多尺度特征提取.在 Cityscapes 數據集上的均交并比(mIoU)達到80.6%,相較于很多經典的分割網絡取得了優異的性能.
PSPNet[29]網絡模型由 Zhao 等人于 2016 年提出,該模型提出了金字塔池化模塊以獲取不同子區域和不同尺度的特征,同時結合空洞卷積和全局平均池化的優點,使輸出的特征圖包含豐富的上下文信息.金字塔池化模塊將特征圖以4 種尺度分成不同層級,每個層級具有不同大小的子區域,通過池化層獲取每個區域的特征后,再將不同層級的特征與原始特征進行拼接.最后將拼接的特征圖上采樣回到輸入圖像大小進行分類.實驗證明該方法對大物體的分割準確率更高.
將多種擴張率的空洞卷積串行或并行連接引發的棋盤效應會導致局部信息完全丟失和語義信息不連續的問題,因此文獻[23]提出利用混合空洞卷積(HDC)消除棋盤效應的影響,論文設計了鋸齒波空洞率的串行卷積序列,即將不同擴張率的空洞卷積串行連接獲取特征圖,避免了感受野中存在空洞的現象,有效地消除了網格.文獻[30]提出利用平滑擴張卷積解決棋盤效應,該研究的優勢體現在利用可分離和共享的卷積平滑空洞卷積,避免堆疊過多卷積層,極大地減少了網絡結構的復雜性.
以上所論述的網絡模型都是利用單一網絡結構提取全局語義特征,也是主流的特征提取方法.為了提取全局語義特征,也有研究者利用多種網絡結構提取多種語義特征進行融合[31-32]或是利用多分辨率的分支網絡提取多尺度特征進行融合[33-35],這些方法豐富了特征的提取方式,為語義分割領域的科研人員提供了有價值的參考.
特征復原是指利用雙線性插值、反池化、反卷積等操作對特征圖進行上采樣,恢復特征圖的分辨率和空間信息.不同的上采樣方法會產生不同效果,根據不同的任務需求選取合適的上采樣方法,更有助于分割精度的提升.
雙線性插值是語義分割領域應用較為廣泛的上采樣方法,其利用原圖像目標點四個最鄰近的像素值來共同確定目標位置的像素值,計算簡單,適用于沒有明確邊界的連續數據集分割.文獻[20,23,26]等很多經典語義分割方法均采用雙線性插值恢復圖像的分辨率,可以產生平滑的輸出.
反池化是指在最大池化層記錄最大值的位置信息,之后在上采樣階段使用該信息擴充特征圖.Vijay Badrinarayanan等人2015 年提出SegNet 網絡模型利用反池化的方法恢復特征圖的空間信息.SegNet 是一個對稱的編碼-解碼結構,在編碼階段利用改進的VGG16 提取特征,在解碼階段利用反池化恢復下采樣損失的信息,可以得到更平滑和精細的輸出.反池化示意圖如圖2 所示.

圖2 反池化示意圖Fig.2 Schematic diagram of unpooling
2010 年,Zeiler 等人首次提出反卷積的概念,不僅可以替代雙線性插值恢復特征圖的信息,還可以實現特征圖可視化[38].2014 年文獻[39]首次提出利用反卷積和上池化實現特征圖可視化,通過可視化的特征圖調整網絡結構,提高了分割精度.2015 年,HyeonwooNoh 等人提出 DeconvNet 網絡模型,在上采樣階段利用反卷積代替雙線性插值,并利用上池化記錄最大池化索引,有助于克服物體大小變化引起的分割問題.相較于雙線性插值和反池化,反卷積過程中卷積核的參數是可學習的,可以增加細節信息的復原能力.
近年來,也提出了一些新型的特征復原方法用于提高語義分割的性能.文獻[23]提出了利用密集上采樣模塊(DUC)恢復圖像的空間分辨率,其優勢在于通過學習一組上采樣濾波器來放大低分辨率的特征圖,捕獲丟失的細節信息.文獻[40]提出了利用DUpsample 模塊進行上采樣的方法,該模塊可以建立每個像素之間預測的相關性,減少模型對特征圖分辨率的依賴,并且極大地減少了運算量.文獻[41]提出聯合金字塔上采樣模塊(JPU),該模塊創新性地并行不同擴張率的空洞卷積以恢復圖像分辨率,不僅可以提升分割精度,還顯著提升了模型的計算速度.文獻[42]提出的DRINet 網絡模型通過Unpooling 模塊對合成路徑的特征圖進行級聯和上采樣,可以更有效地利用特征圖信息.文獻[43]提出了上下文解卷積網絡,利用空間上下文模塊對像素間的空間依賴關系進行建模,從而使像素在某些局部區域上更具表現力.
特征融合是指將提取出的特征圖進行相加或拼接融合.在特征提取階段,需要對多尺度的特征進行融合使特征圖的語義信息更加豐富,在特征的利用階段,需要對不同層級的特征進行融合以利用全局有效信息,提高分割進度.特征融合方法主要分為層級融合和加權融合.
3.3.1 層級融合
層級融合是指利用跳躍連接或稠密連接機制,將不同層級提取的淺層特征和復雜特征相加或拼接,整合不同層級的上下文信息,提高模型性能和語義分割準確率.
FCN 由Lonjong 等人在2014 年提出,是圖像語義分割領域的開篇之作.該模型將分類識別網絡結構的全連接層改為卷積層,首次實現了端到端的、像素級的預測.采用遠程跳躍連接的思想,將第五個池化層得到的特征圖分別進行32、16和8 倍的上采樣,并將16 倍和8 倍上采樣得到的特征圖分別與第四個和第三個池化層得到的特征圖融合,充分利用淺層信息,提高模型的語義分割能力.但網絡中多次重復的下采樣和反卷積會導致圖像信息損失.
U-Net 是由Olaf 等人2015 年構建的適用于較少訓練集進行端到端訓練的網絡結構.其在FCN 基礎上,采用經典的編碼-解碼結構,利用編碼器生成低維到高維的金字塔型抽象特征,利用解碼器生成與特征金字塔對應層級的特征圖,通過跳躍連接將下采樣得到的低分辨率抽象特征圖和上采樣生成的與特征金字塔對應層級的特征圖相融合,既包含了復雜抽象的特征,還引入了各層級中低維特征的細節信息,提高了分割準確率.U-Net 網絡結構示意圖如圖3 所示.

圖3 U-Net 網絡結構示意圖Fig.3 Schematic diagram of U-Net
2017 年,RefineNet 在U-Net 跳躍連接的基礎上增加殘差連接,使梯度信息更有效地傳遞至整個網絡,在PASCAL VOC 數據集上取得了優越的性能.2018 年,周縱葦[44]等人在U-Net 的基礎上提出了UNet++網絡模型,他指出U-Net 直接將淺層特征和高層抽象特征融合會帶來語義鴻溝,因此設計實現了基于稠密連接機制的融合方法,反復融合各個層級的特征,通過特征再利用獲取更加精確的語義信息.2019 年,董榮生等人提出的 DenseU-Net[45]利用 DownBlock 模塊融合不同層級特征,實現了淺層細節特征和深層抽象特征的融合,有助于提高小尺度目標分割的準確率.文獻[46]利用自適應融合機制將不同特征提取路徑提取出的特征圖進行融合,實現特征的最佳組合.文獻[47]在 U-Net 結構的基礎上提出MultiResUNet 網絡模型,該模型通過MultiRes 模塊以殘差連接的方式獲取更豐富的語義空間信息,同時構建編碼器與解碼器之間的Res Path 路徑減少語義鴻溝.
3.3.2 加權融合
特征加權融合指對輸入特征圖進行加權求和,使網絡通過學習的方式自動獲取每個特征通道的重要程度.由于層級融合沒有綜合考慮特征圖各個位置的聯系和相關性,因此采用特征加權融合的方式可以增強全局特征,提高分割精度.
SENet 由 Momenta 公司發表于 2017 年[48].SENet 從特征通道之間的關系入手,采用全新的“特征重標定”策略,建模特征通道之間的相互依賴關系.這種方法可以使模型通過學習的方式自動獲取每個特征通道的重要程度,然后依照這個重要程度增強有用的特征并抑制對當前任務用處不大的特征,自適應地重新校準通道的特征響應.
DANet 由Jun Fu 等人于2018 年提出的自注意力機制模型[49].模型通過自注意力機制捕獲上下文的依賴關系.位置注意力機制通過所有位置的特征加權總和選擇性地聚集每個位置的特征,通道注意力機制通過整合所有通道圖中的相關特征,有選擇地強調相互關聯的通道圖,最后將兩種注意力機制的輸出相加,使網絡模型可以捕獲全局特征的依賴關系和空間特征的相關性.
CCNet 由 Huang 等人于 2018 年提出[50],作者指出 SPP、ASPP 等模塊忽視了像素間的長依賴關系.CCNet 通過縱橫交錯注意模塊,利用特征加權建立像素間的聯系,在水平和垂直方向聚合遠程像素間的上下文信息,提升分割精度的同時,大幅節省了計算機內存.2019 年,李夏等人提出了基于期望最大化的EMANet[51],將期望最大化算法引入注意力機制,以最大化迭代的方式對注意力圖進行更緊湊的估計.文獻[52]提出的雙路徑密集卷積網絡(DP-DCN)在FuseNet 的基礎上修改路徑融合策略,利用支持密集連接的融合模塊融合兩個路徑提取的有效特征,增加模型功能的多樣性.文獻[53]通過構建全局特征捕獲模塊(GFCM)來提高分割性能.GFCM由全局編碼模塊(GEM)和空間注意模塊(SAM)組成,其中GEM 利用字典學習、殘差編碼和全局平均池化等操作提取上下文信息,SAM 則利用特征加權建立全局空間的依賴性.文獻[54]在deepLabV3+的基礎上,重構神經網絡模型,采用加權融合的方式融合不同尺度的輸出特征圖.
特征優化是指利用條件隨機場(CRF)或馬爾科夫隨機場(MRF)對語義分割的預測結果進行優化.傳統的使用CRF或MRF 作為后處理的操作方式通過將低層圖像信息和系統輸出的逐像素的類別得分相結合,以提高模型捕獲細粒度的能力,但是這類方法會占用大量計算機內存.現階段的優化方式主要是把CRF 或MRF 整合到神經網絡中,讓網絡中的所有參數同時訓練,形成一個端到端的系統.
文獻[55]提出的CRF-RNN 模型將CRF 與神經網絡相結合,在不影響網絡模型前后向傳播的基礎上,充分考慮圖像中每個像素與其他像素的關系.2015 年,Liu 等人提出了基于CRF 的深度解析網絡(DPR)[56].DPR 在 CRF 能量函數公式的二元勢函數上加入描述圖像上下文信息的懲罰因子,獲取了更充足的局部信息.另外,將CRF 構造成與卷積神經網絡共同訓練的形式,可以通過一次的前向推理得到輸出結果,簡化了計算過程.2016 年,文獻[57]提出利用卷積神經網絡分別對條件隨機場中的一元勢函數和二元勢函數進行訓練,并利用局部相似性約束方法優化最終的預測結果,提高了分割準確率.2018 年,文獻[58]通過制定基于CNN 的成對勢函數將CNN 與CRF 相結合,捕獲語義信息間的相關性.文獻[59]構建的深度解析網絡,通過MRF 對特征進行優化,減少了反向傳播過程中迭代的次數.2019 年以來,很多研究者采用將CRF 或MRF 與CNN 相結合的思想優化特征,在多個應用領域的研究中取得了較高的性能[60-63].
全監督語義分割方法要對數據集進行精準標注,會耗費大量時間成本和人力成本,因此圖像語義分割領域衍生出了非全監督圖像語義分割方向.非全監督圖像語義分割包括弱監督和半監督的圖像語義分割.弱監督語義分割是指利用邊框、線條、圖像標簽等弱標注訓練語義分割模型;半監督語義分割指利用少量像素級標注數據和大量弱標注數據訓練語義分割模型.下面按照不同標注方式對弱監督和半監督的語義分割方法進行綜述.圖4 為強標注和弱標注示意圖.

圖4 強標注和弱標注示意圖Fig.4 Schematic diagram of strong and weak annotations
邊框級標注是指利用包含整個物體的矩形區域提供標注信息.文獻[64]提出的BoxSup 網絡模型在FCN 模型的基礎上,首先利用MCG[65]算法確定初步目標候選區域,然后利用該區域作為監督信息送入FCN 模型進行優化,將輸出的結果反復在FCN 模型中迭代,直至模型最終收斂.文獻[66]結合交互式語義分割方法,將物體框內部和外部的像素作為前景和背景信息,使用估計的分割掩碼作為標簽訓練語義分割模型.文獻[67]基于 GrabCut[68]算法提出 DeepCut 算法,在 CNN 中不斷迭代,并利用CRF 優化輸出,逐步提升分割準確率.
線條級標注是指通過任意形式的線條獲取物體位置和范圍的稀疏信息作為圖像的標簽.文獻[69]提出的ScribbleSup方法首先根據線條對圖像生成像素塊,再利用GraphCut 算法建模,實現圖像自動標記,最后將標記的圖像送入FCN 中進行訓練,獲取分割結果.文獻[70]在U-Net 的基礎上,提出了一種利用稀疏注釋的立體數據訓練三維分割網絡的方法,主要分為兩個階段:第一階段利用單個稀疏標注的數據集進行訓練并預測該數據集上其他未被標注的像素,第二階段利用多個稀疏標注的數據集進行訓練,預測新的數據并進行三維分割.2018 年,文獻[71]通過構造一種原則性損失函數來解決標準損失函數不能區分種子區域和誤標注像素的問題,利用紋理、顏色、位置等淺層信息作為分割標準評估網絡輸出,取得了和強監督學習接近的性能.
圖像標簽級標注是指使用圖像的類別標簽作為訓練標注,這種標注方式效率高、工作量小,需要通過網絡模型來建立圖像類別標簽和像素之間的關聯,并自動推斷物體在圖像中的位置.文獻[72]首先通過假設感知分類生成基于可靠假設的定位圖,再通過這些定位圖以有監督的方式訓練分割網絡.文獻[73]提出利用STC 框架進行弱監督的語義分割,該框架包括初始分割網絡和增強分割網絡兩部分.首先通過顯著性檢測技術獲取大量簡單圖片對應的顯著圖,并利用顯著圖構建語義標簽跟像素點的關系來訓練初始分割網絡,將初始網絡預測的結果作為增強網絡的標簽進行訓練,最后利用增強網絡進行預測以獲取更精確的輸出.文獻[74]則是通過對抗擦除的方法不斷擦除待分割物體上最具判別力的一部分區域,從而使分類網絡發現物體其它更多的區域,提高分割的準確率.
半監督圖像語義分割面臨的主要問題是使用不平衡的、異構的標注數據訓練網絡模型.為了解決上述問題,2015 年Hong等人采用深層編碼器-解碼器解耦網絡將語義分割解耦成分類和分割兩個子網,獨立訓練[75].分類網絡從圖像級標簽標注的數據中學習;分割網絡從像素級標注的數據中學習,顯著提高了半監督語義分割的性能.文獻[76]提出一種可轉移的半監督語義分割方法.該方法包括標簽傳輸網絡(L-Net)和預測傳輸網絡(P-Net),L-Net 通過跨類別共享的方法,將學習的分割知識從強標注傳遞到弱標注的圖像,并生成粗糙的像素級語義圖;P-Net 通過對抗學習策略產生精度更高的分割結果.2019年,Mostafa 等人提出了一種具有自我校正功能的半監督模型[77].該方法先通過輔助模型為弱監督圖像生成初始分段標簽,再利用自校正模塊訓練主分段模型,在PASCAL VOC 2012數據集上取得了近似于全監督語義分割模型的成果.
圖像語義分割技術在自動駕駛[78]、室內外場景理解[79,80]、醫學圖像[81-85]、遙感圖像[86-88]等多個領域都擁有廣闊的應用前景.不同應用領域數據集的特點、標注質量和評價指標均不同,下面分別進行介紹.
5.1.1 數據集
CamVid 數據集由劍橋大學的研究人員于2009 年發布[89].CamVid 由車載攝像頭拍攝得到的5 個視頻序列組成,提供了不同時段701 張分辨率為960×720 的圖片和32 個類別的像素級標簽,包括汽車、行人、道路等.數據集中道路、天空、建筑物等尺度大,汽車、自行車、行人等尺度小,待分割物體尺度豐富.
KITTI 是目前國際上最大的用于自動駕駛場景的算法評測數據集,可進行3D 物體檢測、3D 跟蹤、語義分割等多方面研究[90].該數據集包含市區、鄉村、高速公路等真實圖像數據,一張圖像最多達15 輛車和30 個行人,每張圖像中有各種程度的遮擋與截斷,研究者可根據個人需求自行構建數據集.
Cityscapes 由奔馳公司于2015 年推動發布,專注于對城市街景的語義理解[91].它包含50 個城市不同場景、不同季節的5000 張精細標注圖像和20000 張粗略標注圖像,提供30個類別標注.數據集提供了像素為2048×1024 的高分辨率圖像,圖像中街道背景信息復雜且待分割目標尺度較小.此數據集可用于實時語義分割研究.
5.1.2 評價指標
自動駕駛領域的性能評價指標主要包括像素精度(PA),均像素精度(MPA)、均交并比(mIoU)和運行時間.其中PA、MPA、mIoU 的定義和公式如式(1)-式(3)所示.
①PA 是指正確分割的像素數量占圖像總像素數量的百分比.

②MPA 是指每個類內正確分類的像素數量占該類所有像素數量的百分比.

③mIoU 用來計算真實值和預測值兩個集合的交集和并集,也就是計算預測結果與原始圖像中真值的重合程度.

其中k 表示標簽標記的類別,k+1 表示包含空類或背景的總類別,pii表示實際為i 類預測為i 類的像素數量,pij表示實際為i 類但預測為j 類的像素數量,pji表示實際為j 類但預測為i 類的像素數量.
④運行時間表示分割一張圖像所消耗的時間.
5.1.3 算法性能對比
表1 給出了基于Cityscapes 數據集的算法性能對比結果.可以看出,在自動駕駛領域,研究者主要通過改進特征提取和融合方式實現提取并利用多尺度的上下文語義信息.近年來,通過特征加權融合訓練注意力機制的網絡模型可以在簡化特征提取的基礎上獲得優越的分割性能,是一個值得關注的研究方向.特征的優化方法雖然可以帶來精度的提升,但是由于自動駕駛需要考慮網絡模型的實時性,近年的研究方法逐步減少了對CRF 和MRF 的使用.

表1 基于Cityscapes 數據集的算法性能對比Table 1 Performance comparison of algorithms based on Cityscapes dataset
5.2.1 數據集
SiftFlow 是2011 年由劉策等人收集的室外場景理解數據集[92].SiftFlow 提供包含背景的 34 類語義標簽和 2688 張像素為256×256 的訓練圖像,包含8 種不同戶外場景,如街道、山脈、海灘、城市等,適用于室外場景理解.
PASCAL VOC 2012 是由國際計算機視覺挑戰賽發布的用于圖像分類、物體檢測或語義分割的權威數據集之一[93].PASCAL VOC 2012 提供了20 個物體對象和1 個背景的類別標簽,包括人、動物、室內生活用品等.原始的數據集提供了1464 張用于語義分割的訓練圖像.2014 年,該數據集的增強版(PASCAL VOC 2012+)又重新標注了8498 張用于訓練的圖像.數據集中圖片的尺寸不固定,每張圖片包含不同數量的物體,物體尺度不一且存在遮擋現象.
Microsoft COCO 是由微軟團隊2014 年建立的用于圖像識別和語義分割的數據集[94].Microsoft COCO 提供了包含背景信息的81 種類別標簽,328000 張圖像和2500000 個物體實例.數據集中的圖像來源于日常的室內外場景,目前主要用于對卷積神經網絡進行預訓練以提高模型的性能.
SUNRGB-D 是2015 年發布的室內物體語義分割數據集[95],擁有 10335 張 RGB-D 圖像和 37 個語義類別.該數據集在四個RGB-D 傳感器獲取的圖像的基礎上結合多個數據集集合而成,在二維和三維空間均有密集的標注,提供了更加復雜的物體尺度信息和背景信息.
ADE20K 是2017 年發布的大規模的場景解析、分割、多物體識別和語義理解數據集[96].該數據集提供的場景種類更豐富,標記內容更詳細,總共包括151 個語義類別的標簽和超過20000 張訓練圖像.數據集要求對圖像中的物體和背景進行語義分割.
5.2.2 評價指標
室內外場景理解的性能評價指標主要包括像素精度(PA),均像素精度(MPA)和均交并比(mIoU).公式同5.1.2 節.
5.2.3 算法性能對比
表2 給出了基于PASCAL VOC 2012+數據集的不同算法性能對比結果.根據表2 可以看出,室內外場景理解領域主流的語義分割方法和自動駕駛領域具有一定的重合性.

表2 基于PASCAL VOC 2012+數據集的算法性能對比Table 2 Performance comparison of algorithms based on PASCAL VOC 2012+dataset
醫學圖像分割涉及人的眼部、腦部、胸部、肺部、心臟等眾多領域,本文以人的眼底視網膜圖像為代表,分析語義分割技術在醫學圖像領域的應用.
5.3.1 數據集
STARE 是由Hoover 等人于2000 年公開的用于視網膜血管分割的彩色眼底圖像數據集[97].它包括20 幅眼底圖像,其中10 幅有病變,分辨率為605×700,每幅圖像以2 個專家手動分割的結果作為標簽,是常用的眼底圖像標準庫之一.
DRIVE 是由Niemeijer 團隊在2004 年根據荷蘭糖尿病視網膜病變篩查工作建立的彩色眼底圖庫[98].數據來自453 名糖尿病受試者通過光學相機拍攝得到的視網膜圖像,從中隨機抽取40 幅,其中7 幅含有早期糖尿病視網膜病變.訓練集和測試集分別包含20 張像素為565×584 的圖像,每幅圖像都以專家手動分割血管的二值圖像作為標簽.
DIARETDB1 是由Tomi Kauppi 等人于2007 年創建的糖尿病性視網膜病變數據集[99].它包含89 幅由眼底相機拍攝的彩色眼底圖像,分辨率為1500×1152,由4 名專家手動標注的病變位置作為標簽.數據集中含有84 幅病變圖像和4 種病變標注.但數據集的標簽只涵蓋病變區域,病變邊界不清晰,需要通過標簽中標記的亮度確定病變位置.
5.3.2 評價標準
視網膜圖像分割采用準確率(accuracy)、特異性(specificity)、靈敏度(sensitivity)和作為評價指標,計算公式如式(4)-式(6)所示.

其中預測為正、真實為正的像素點數目稱作真陽性TP;預測為正、真實為負的像素點數目稱作假陽性FP;預測為負、真實為正的像素點數目稱作假陰性FN;預測為負、真實為負的像素點數目稱作真陰性TN.

圖5 ROC 與 AUC 示意圖Fig.5 Schematic diagram of ROC and AUC
AUC 表示 ROC(Receiver OperatingCharacteristic)曲線下方的面積,面積越接近1,說明語義分割算法的性能越好.圖5表示ROC 曲線和 AUC 示意圖.
5.3.3 算法性能對比
表3 給出了基于DRIVE 數據集的不同算法性能對比結果.根據表3 可以看出,醫學圖像的語義分割方法往往在FCN 和U-Net 的基礎上進行改進.雖然改進特征提取方法可以提取更加豐富的語義信息,提高分割的準確率,但是不同特征提取方法間的準確率差異微小,這是由于醫學圖像更注重小尺度特征的提取,多尺度卷積、空洞卷積等增大感受野的方法對醫學圖像的分割沒有明顯效果.同時,在特征的利用方式上,通過跳躍連接融合淺層和深層特征的方法并不能實現對已提取特征的有效利用.可以從如何提取小尺度特征和如何更好地利用已提取特征的角度提高醫學圖像的分割準確率.

表3 基于DRIVE 數據集的算法性能對比Table 3 Performance comparison of algorithms based on DRIVE dataset
5.4.1 數據集
Massachusetts Roads dataset 是 由 Volodymyr Mnih 等 人2013 年公布的道路分割數據集[100].它提供了來自馬薩諸塞州各城市和郊區的1171 張航拍圖像,覆蓋面積2.25 平方公里.每張圖像的分辨率為1500×1500,提供背景和道路2 類標簽.
ISPRS Vaihingen 2D 是由國際攝影測量與遙感學會2015年公布的遙感圖像數據集[101].它包括33 幅在德國Vaihingen地區拍攝得到的高分辨率(大于2000×2000)正射影像.其中只有16 幅圖像被標注,標注類別包括道路、草地、建筑物、車輛、樹木和雜類地物6 類.
Inria Aerial Image Labeling Dataset(IAILD)數據集是由Maggiori 等人于 2016 年發布的遙感圖像數據集[102].IAILD數據集涵蓋了奧斯汀、芝加哥等地區形狀、大小、建筑風格不同的建筑物航空遙感圖像.該數據集提供180 張5000×5000像素的彩色圖像和對應的二值圖像作為訓練集和標簽,提供180 張彩色圖像作為測試集,但測試集不含標簽.
衛星影像 AI 分類與識別數據集是由中國計算機協會2017 年在大數據與計算機智能大賽中公開的數據集[103].該數據集拍攝于中國南方某地區,提供人工標記的高分辨率遙感圖像5 幅,標簽包括植被、道路、建筑、水體及其他類別共5 種.
WHU building dataset 數據集是由季順平等人于2019 年公開的高分辨率遙感影像數據集,適用于建筑物提取[104].該數據集包括航空建筑物數據集和衛星建筑物數據集兩部分.航空建筑物數據集涵蓋了新西蘭市不同風格、用途、尺度和顏色的22 萬棟建筑.衛星數據集包含衛星數據集Ⅰ和Ⅱ.衛星數據集Ⅰ包含204 張分辨率為512×512 的圖像,拍攝自全球不同區域的不同城市.數據集Ⅱ包含6 張相鄰的、色彩差異明顯的衛星遙感圖像,主要用于驗證算法對數據源不同、建筑物類型相似的樣本的泛化能力.
5.4.2 評價標準
遙感圖像的評價標準主要包括準確率、均交并比和F1 Score.
F1 Score 的定義如公式(7)所示.

其中,

5.4.3 算法性能對比
表4 給出了基于IAILD 數據集的不同算法性能對比結果.由表4 可知,在遙感圖像領域,基于FCN、U-Net 等網絡結構進行改進的語義分割方法取得了優越的性能.遙感圖像更加注重空間和位置信息,因此增大空間感受野的特征提取方法可以帶來精度的提升.同時,利用特征加權融合訓練注意力機制的網絡模型也開始在遙感圖像領域嶄露頭角.表5對各個領域常用的語義分割數據集進行了匯總,總結了用于不同場景下數據集的分類數量、分辨率、訓練集、驗證集、測試集等信息,并且綜合闡述了不同領域數據集的特點,對從事圖像語義分割方向的研究具有十分重要的參考價值.

表4 基于IAILD 數據集的算法性能對比Table 4 Performance comparison of algorithms based on IAILD dataset

表5 常用語義分割數據集匯總表Table 5 Summary table of commonly used semantic segmentation datasets
圖像語義分割是圖像理解分析的重要研究內容,論文通過分析圖像語義分割領域的文獻,認為該領域目前具有挑戰性的研究方向主要有:
1)特征上采樣方法:現有圖像語義分割方法主要是對特征提取和融合方式進行創新,忽略了特征復原的方法,因此豐富特征上采樣方式是一個十分值得研究的方向.
2)非全監督圖像語義分割方法:非全監督圖像語義分割可以采用弱標注的數據集進行研究,大大減少了手工標注的成本,這類技術將會是未來的發展趨勢.
3)實時圖像語義分割技術:深度學習模型由于層數多,參數量大,嚴重降低了方法的實時性,如何改進網絡結構以提升分割的速度是一個有待解決的難題.
4)注意力機制:訓練注意力機制可以在簡化特征提取方式的基礎上提升模型性能,非常具有研究價值.