張 鑫,姚慶安,趙 健,金鎮君,馮云叢
長春工業大學 計算機科學與工程學院,長春 130102
語義分割是將場景圖像分割為若干個有意義的圖像區域,并對不同圖像區域分配指定標簽的過程。然而語義分割的難點主要體現在兩個方面:一是類內實例間的相異性和類間物體的相似性;二是復雜的背景大幅度提高了語義分割的難度。
圖像語義分割的傳統方法是利用圖片中邊緣、顏色、紋理等特征將圖片分割成不同的區域。如基于閾值[1-4]、邊緣[5-8]、聚類[9-12]、圖論[13-16]等常用的經典分割方法。由于計算機的硬件設備限制,圖像分割技術僅能對灰度圖像進行處理,后期才逐漸發展到對RGB圖像進行處理的階段。隨著GPU的飛速發展,深度學習(deep learing,DL)[17]技術為語義分割技術的發展提供有效的支撐。研究人員使用卷積神經網絡(convolutional neural network,CNN),通過端到端的訓練方式推理每個像素的語義信息并實現有意義圖形區域的分類。由于CNN特征學習和表達能力的優勢明顯,使其成為圖像語義分割領域優先考慮的方法。
2015年IEEE國際計算機視覺與模式識別會議(IEEE Conference on Comper Vision and Pattern Recognition),Long等人提出了全卷積神經網絡(fully convolutional network,FCN)[18],至此圖像語義分割進入了全卷積神經網絡時期。全卷積神經網絡在深度學習中表現出強大的潛能,逐漸成為解決圖像語義分割問題的首選。對比前兩個時期,全卷積神經網絡通過像素級到像素級的訓練方式,能夠獲得更高的精度和更好的運算效率,已經成為圖像語義分割的研究熱點。然而隨著對該領域研究的深入,如何有效提高不同應用場景下圖像語義分割的精確度一直是該領域的研究痛點。
目前存在的文獻綜述[19-23],雖然對圖像語義分割進行了總結,但是普遍缺乏對于應用場景的深刻了解,如文獻[19]僅對語義分割進行整體概述介紹;文獻[20]將語義分割分為傳統方法和深度學習的方法展開分析;文獻[21]將語義分割進一步細化為全監督和弱監督學習方法進行闡述;文獻[22]從語義分割研究領域入手進行梳理;以及文獻[23]側重于主流語義分割算法的總結。但是這些綜述文獻都未能根據不同應用領域有針對性地對精度需求和創新方向進行詳細的解釋,因此對全卷積神經網絡圖像語義分割方法進行綜述必不可少。經過總結和整理了相關研究后得到,如圖1所示。從語義分割常用神經網絡引入。按照圖像語義分割模型的應用場景不同,分為經典語義分割方法、實時性語義分割方法和RGBD語義分割方法,對每類具有代表性的方法進行敘述總結,并對不同應用場景下的方法進行延展。

圖1 全卷積神經網絡圖像語義分割方法分類Fig.1 Classification of semantic segmentation methods for fully convolutional neural network images
2012年Krizhevsky等人提出的AlexNet[24]架構以絕對優勢在ImageNet競賽中以84.6%的準確率奪得冠軍,掀起CNN在各個領域的研究熱潮。AlexNet網絡結構共8層,包括5個卷積層和3個全連接層[23]。其網絡采用Relu激活函數,局部響應歸一化(local response normalization,LRN)提高模型的泛化能力,應用重疊池化(overlapping)和隨機丟棄(dropout)預防過擬合。
2014年由牛津大學計算機視覺組合和Google Deep-Mind公司提出的VGGNet[25],在ImageNet競賽中以精確度92.7%獲得亞軍。它與AlexNet[24]網絡相比,主要創新是疊加使用3×3濾波器將網絡深度提升到16~19個權重層,使其在感受野不變的條件下,減少參數計算,同時網絡深度增加有效地改善網絡對語義信息的提取。
2014年Szegedy等人提出的GoogLeNet[26]以精確度93.3%取得ImageNet競賽中的冠軍。它采用比VGGNet[25]更深的網絡結構,共22層,最亮眼的是提出Inception模塊。Inception將不同感受野的濾波器對輸入圖進行卷積和池化,通過1×1卷積降維后拼接輸出。GoogLeNet將這些模塊堆疊在一起形成一個抽象的網絡結構。同時拋棄全連接層。Inception的引入不僅削減網絡復雜性,而且還考慮到內存和計算成本。
2015年由微軟研究院提出的ResNet[27]以精度96.4%成為ImageNet競賽的冠軍。其殘差模塊,能夠成功地訓練高達152層深的網絡結構,殘差結構通過引入跳躍連接來解決梯度回傳消失的問題,真正解決網絡深層架構的問題。
全卷積神經網絡對圖像語義分割具有里程碑的意義。按照應用場景不同,從高分割精度的經典語義分割方法、高效率的實時性語義分割方法和復雜場景的RGBD語義分割方法三個方面進行闡述。表1對這三類方法從方法特點、優缺點等幾個方面進行了分析和比較。下面對其進行詳細的介紹。

表1 圖像語義分割方法分析與總結Table 1 Analysis and summary of image semantic segmentation methods
經典語義分割在應用中具有里程碑的意義。從經典網絡模型FCN[18]、U-Net[28]、SegNet[29]、DeepLab[30-33]和方法延展展開詳細的敘述。
2.1.1FCN
2015年Long等人提出全卷積網絡(FCN)[18],首次實現任意圖片大小輸入的像素級語義分割任務,其結構如圖2所示。FCN將CNN模型中的全連接層替換為全卷積層以實現像素級的密集預測,使用反卷積對特征圖進行上采樣,并提出跳層連接充分融合全局語義信息和局部位置信息,實現精確分割。同時FCN微調常用經典網絡的預訓練權重來加快網絡收斂速度。

圖2 FCN結構圖Fig.2 Structure diagram of FCN
盡管FCN實現了分類網絡到分割網絡的轉換,但是FCN也有許多不足:(1)上采樣過程粗糙,導致特征圖語義信息丟失嚴重,嚴重影響分割精度;(2)跳躍連接未能充分利用圖片的上下文信息和空間位置信息,導致全局信息和局部信息的利用率低;(3)網絡整體規模龐大,參數多,導致計算時間過長。正是FCN的提出與不足,才為全卷積神經網絡的發展奠定了里程碑的基礎。
2.1.2U-Net
2015年Ronneberger等人提出的用于醫學圖像分割的U-Net[28],是一個對稱編解碼網絡結構,如圖3所示。U-Net的獨特之處是使用鏡像折疊外推缺失的上下文信息,補充輸入圖片的語義信息,通過跳躍連接將編解碼器中的特征圖直接拼接,有效地融合了深層細節信息和淺層語義信息。

圖3 U-Net網絡架構Fig.3 Network architecture of U-Net
同時U-Net提出一個加權交叉熵損失函數,如公式(1)所示:

其中,ω是一個權重圖譜,通過形態學操作的計算方式計算獲得,如公式(2)所示:

損失函數的目的是緊密細胞間的分割。此外,U-Net網絡采用了自適應權重初始化方法:標準方差為 2/N(N為神經元輸入結點的數量)的高斯分布初始化權重。
顯然U-Net網絡編解碼器同層間直接進行跳躍連接,特征圖之間語義差別大,不可避免地增加了網絡學習的難度。因此基于U-Net出現了一系列改進的網絡結構,如UNet++[40]、UNet3+[41]、Attention UNet[42]等,目的是充分利用深淺層語義信息,稠密特征圖融合,提高語義分割精度。
2.1.3SegNet
SegNet[29]將對稱編解碼結構推向高潮,其結構如圖4所示。SegNet沒有跳層結構,使用批標準化(batch normal,BN)加快收斂抑制過擬合,其最大的創新是上采樣使用最大池化(max-pooling)方法[22],即編碼階段的下采樣過程中保留最大池化值和對應索引值,在解碼階段利用最大池化索引對輸入的特征圖進行上采樣,最后經過卷積層得到稠密的特征圖。SegNet使用極少數據量保存索引值卻將低分辨率特征映射到輸入分辨率中,實現對邊界特征的精確定位。

圖4 SegNet網絡架構Fig.4 Network architecture of SegNet
SegNet充分考慮內存占用問題,在空間復雜度上具有優勢,然而除非存儲量十分有限,SegNet就其網絡本身,優勢并不明顯。
2.1.4Deep Lab系列
2016年Chen等人提出的DeepLab v1[30],拋棄VGG16[25]的全連接層,將最后兩次池化步長改為1,深度卷積網絡(deep convolutional neural network,DCNN)的部分卷積層替換為空洞卷積(atrous convolution),通過增大感受野來獲得更多的語義信息。同時提出全連接條件隨機場(connditional random field,CRF)的后處理方法對分割結果圖進行細節增強,但是易丟失圖片中詳盡的細節信息。
2017年,Chen等人對DeepLab v1進行擴展提出了DeepLab v2[31],使用網絡為ResNet[27]并提出帶孔空間金字塔池化(atrous spatial pyramid pooling,ASPP)模塊,實現多尺度目標的處理。多尺度特征提取的采樣率(rate)分別為6,12,18,24。同時DeepLab v2仍然需要CRF做后處理。
同年12月,Chen等人在DeepLab v1、v2的基礎上提出DeepLab v3[32],如圖5所示。使用ResNet[27],在級聯ASPP模塊中增加了全局平均池化和1×1的卷積層,有效處理多尺度分割目標的任務,同時引入批標準化batch normal(BN)。DeepLab v3在丟棄CRF后處理的情況下,取得比DeepLab v1和DeepLab v2更高的精確值。

圖5 DeepLab v3模型結構Fig.5 DeepLab v3 model structure
2018年Chen等人提出DeepLab v3+[33],結合編解碼結構設計了一種新的編解碼模型,如圖6所示。以DeepLab v3為編碼器結構提取豐富的上下文信息,簡單有效的解碼器用于恢復語義對象邊界信息,同時在ASPP模塊和解碼網絡中添加深度可分離深度卷積(depth wise separable convolution),提高了網絡的運行速率和魯棒性,大幅度提升了分割準確度。

圖6 DeepLab v3+模型結構Fig.6 DeepLab v3+model structure
DeepLab系列盡管成果斐然,但就其網絡而言,存在細節分割丟失嚴重、計算量大、上下層語義信息關聯性差等問題。因此基于DeepLab網絡結構以及針對網絡某個問題提出很多新的網絡結構,如文獻[43-44]等,有針對性地完善網絡結構,解決多尺度目標的分割任務。
2.1.5方法延展
Lin等人提出了多路徑細化網絡(RefineNet)[45]。RefineNet用于解決空間信息丟失問題,首先輸入來自ResNet[27]網絡中4個不同尺度、不同分辨率的特征圖,然后把4個特征圖分別送入由殘差卷積單元構成的4個精細化模塊(RefineNet block)中求和,充分利用下采樣過程中的所有可用信息,有效地實現高分辨率的預測任務。
Zhao等人提出金字塔場景解析網絡(PSPNet)[46],提出一個金字塔池化模塊。該模塊級聯多個具有不同步長的全局池化操作來聚合更多的上下文信息實現高質量的像素級場景解析,同時提出深度監督優化策略,降低模型優化的難度。
Peng等人提出GCN[47]。GCN提出對于輸入圖片進行分類和定位操作時有效的感受野至關重要,提出GCN模塊采用大的卷積核替代通常小卷積核堆疊的方法來提高感受野,使用邊界細化模塊細化邊界信息。論文作者提出當卷積核大小為11時效果最好。
Yu等人提出DFN[48]網絡。DFN從宏觀角度出發針對類內不一致和類間不一致的問題,提出平滑網絡(smooth network,SN)和邊界網絡(border network,BN)。前者通過引入注意力機制和全局平均池化選擇更具區分性的類別特征信息,后者通過深度語義邊界監督來區分不同類別的特征。同時還有改編于U-Net[28]的網絡Fusionnet[49]用于自動分割連接組學數據中的神經元結構,它在網絡中引入基于求和的跳躍連接,用更深的網絡結構來實現更精確的分割。DeconvNet[50]的解碼器部分將反卷積和反池化組成上采樣組件,逐像素分類完成分割任務。還有針對視頻的語義分割的文獻[51-53]。文獻[51]提出將靜態圖像語義分割的神經網絡模型轉換為視頻數據的神經網絡技術,主要原則是使用相鄰幀的光流來跨時間扭曲內部網絡表示,提高性能的端到端訓練。文獻[52]提出基于時空變壓器門控遞歸單元
STGRU(spatio-temporal transformer gated recurrent unit)的GRFP模型,結合多幀未標注信息來提高分割性能。以及文獻[53]采用類似生成對抗網絡(generative adversarial networks,GAN)[54]的網絡結構。通過預測未來幀學習判別特征,與單幀的簡單分割相比,語義分割效果顯著。由此可知,經典模型發展相對飽和,橫向領域研究將會為其精度提升注入新的血液。
實時執行像素級語義分割的能力在延時滿足的應用中至關重要,針對這一應用場景,實時性語義分割應運而生。通過具有代表性的實時性網絡架構ENet[34]與LinkNet[35]、BiseNet[36]、DFANet[37]展開闡述,并對模型優化方向提出方法延展。
2.2.1ENet與LinkNet
2016年Paszke等人提出ENet[34],次年Chaurasia等人提出LinkNet[35]。其中ENet針對低延遲操作的任務提出適合的網絡模型結構,采用較大的編碼結構和較小的解碼結構,大大削減參數數量。同時采用PReLUs激活函數確保分割精度。LinkNet則是直接將編碼器和解碼器對應部分連接起來提高準確率,在不增加額外操作同時保留編碼層丟失的信息,減少計算量。然而編解碼網絡的簡化,不可避免丟失空間分辨率,減弱分割精度。如何平衡語義分割精度和分割效率,成為實時性分割模型的重要突破口。
2.2.2BiSeNet
2018年Yu等人提出BiSeNet[36],分為空間分支路徑(spatial path,SP)和上下文分支路徑(context path,CP),如圖7所示。SP共三層,每層包括一個步長為2的3×3的卷積,BN層和Relu層,有效地保留原始圖片的空間尺寸并編碼豐富的空間信息。CP采用輕量級網絡Xception和平均池化來兼顧感受野和實時性。同時模型加入注意力機制模塊(ARM)來引導特征學習,最后使用特征融合模塊(FFM)將全局特征和局部特征進行有效融合。

圖7 BiSeNet模型結構Fig.7 BiSeNet model structure
BiSeNet證實了實時分割中雙路徑網絡的有效性能,但是不可避免造成算法耗時增加。STDC[55]重新思考BiSeNet,進一步縮短了實時推理時間,削減網絡冗余,也為網絡瘦身提供新的研究思路。
2.2.3DFANet
2019年Li等人提出DFANet[37],如圖8所示,DFANet開啟了在主流移動端處理器上做高清視頻級應用的可能性。其中編碼器是3個改進的輕量級Xception網絡,由網絡級特征聚合和階段級特征聚合連接在一起。作者保留全連接層增加感受野,并和1×1卷積組成注意力模塊。解碼器是將編碼器3個階段的特征圖采用雙線性差值的方式上采樣后融合細化語義信息。

圖8 DFANet模型結構Fig.8 DFA model structure
DFANet改進輕量級網絡的思想,刷新了實時語義分割的計算量的記錄。但是優化計算成本、內存占用會損失分割精度,因此如EsNet[56]、DFPNet[57]等網絡的提出很好地平衡了實時性網絡中速度和精度的追求。
2.2.4方法延展
Light-Weight RefineNet[58]在RefineNet[45]基礎上,將網絡改編為更加緊湊的架構,使其適用于在高分辨率輸入圖片上實現更快速率的分割任務。類似于將網絡模型輕量化的模型壓縮方法有模型裁剪、模型量化、知識蒸餾[59]、神經結構搜索(neural architecture search,NAS)[60]等,其中模型裁剪按照裁剪規則和敏感度分析對參數進行重要性分析,剪掉不重要的網絡連接。模型量化是將浮點數映量化到最低位數,使得參數計算量和模型體積減少,從而加快模型的推理速度。知識蒸餾將復雜網絡的知識遷移到小網絡,通常的實現過程是用復雜網絡監督小網絡的訓練,從而提高小網絡的精度。以及NAS是通過模型大小和推理速度力約束來設計更高效的網絡結構。因此,有效的模型瘦身和輕量化網絡結構會促進實時性語義分割性能,實現對高分辨率圖像的精準快速分割。
隨著室內復雜場景分割問題的顯露,提出RGDB語義分割。主要思想是使用深度圖(deep image)對RGB圖進行語義信息的補充。其中深度圖也叫距離影像,指將從圖像采集器到場景中各點的距離(深度)作為像素值的圖像。首先從RedNet[38]、RDFNet[39]來介紹RGBD語義分割。然后針對其算法融合階段進行方法延展。
2.3.1RedNet
2018年,Jiang等人提出的RedNet[38]網絡,如圖9所示。RedNet使用殘差模塊作為基本塊應用于編碼解碼結構中,深度圖和彩色圖使用相同下采樣方式。網絡先短跳進行深度圖和彩色圖融合,再將融合結果通過遠跳和同尺寸的解碼器模塊融合,并提出一種金字塔監督的監督訓練方法來提高復雜場景的分割精度。

圖9 RedNet模型結構Fig.9 RedNet model structure
然而,彩色圖和深度圖本身差異明顯,如何讓深度圖有效地給彩色圖以語義補充,提高模型分割精度,是復雜場景下RGBD語義分割追求的目標。目前有文獻[61-62]對深度圖進行有效處理。
2.3.2RDFNet
2017年Park等人提出的RDFNet[39],編碼部分使用多模態特征融合模塊(multi-modal feature fusion,MMF),如圖10所示。該模塊充分利用彩色圖和深度圖之間的互補特征提取語義信息。解碼器特征優化模塊與RefineNet[45]一樣,采用多個級別學習融合特征的組合,以實現高分辨的預測。

圖10 RDFNet模型結構Fig.10 RDFNet model structure
RDFNet網絡提出MMF模塊對彩色圖和深度圖進行處理,通過考慮深度信息來實現更好的分割性能。目前,有效使用深度信息仍然是值得深入思考的問題,如ACNET[63]、MCA-Net[64]等網絡的提出,為RGBD語義分割在復雜場景下的應用提供了新的創新思路。
2.3.3方法延展
通過RedNet[38]和RDFNet[39]可知,RGBD模型的關鍵是彩色圖和灰度圖的有效融合。Li等人[65]提到RGBD模型可分為早期、中期和晚期融合,根據中期融合又細分為淺層中期融合和深層中期融合。然而早期融合與淺層中期融合的網絡雖然在融合過程中很好地保留了空間線索,但是RGDB圖像中的視覺信息和深度圖中的幾何信息在底層沒有得到矯正,特征信息較少。而后期融合與深層中期融合,他們融合了表示語義信息的高級特征,在不同模式下得到的結果更加兼容,但是兩者互補的空間線索被大大削弱。因此,如文獻[66-67]對深度圖進行詳細介紹,文獻[68-71]通過對RGBD模型融合方式進行創新來提高分割精度。合理應用深度圖對RGB圖進行補充,一定會有效提高RGBD語義分割的分割精度。
根據全卷積語義分割方法應用場景的不同,整理了語義分割的常用公共數據集,分為2D數據集和2.5D數據集,如表2所示。

表2 常用分割數據集Table 2 Popular segmentation datasets
3.1.12D數據集
PASCAL Visual Object Classes[72](簡稱PASCAL VOC):數據集由一個國際計算機挑戰賽提供,從2005年一直發展到2012年,由于每年發布帶標簽的圖像數據庫并開展算法競賽而產生一系列高質量的數據。目前數據集PASCAL VOC 2012最為常用。數據集包含20種類別(人、動物、交通工具、室內物品等),圖片大小不固定,背景復雜多變。
PASCAL Context[73]:數據集由PASCAL VOC數據集擴展得到,總共有540個類,包含10 103張語義標注的圖像。該數據集類別繁多且許多類比較稀疏,因此在評估語義分割算法性能時,通常使用前59個類作為分割評判標準。
Semantic Boundaries Dataset[74](簡稱SBD):數據集由斯坦福大學建立,繼承了PASCAL VOC中的11 355張語義標注圖像,其中訓練集8 498張圖像,驗證集2 857張圖像,圖片大多數為戶外場景類型,實際應用中已逐漸替代PASCAL VOC數據集。
Microsoft Common Objects in Context[75](簡稱COCO):數據集由微軟公司開源和推廣,包含80個圖像實例,82 782張訓練圖片,40 504張驗證圖片和81 434張測試圖片,其中測試圖片分為四類用于不同的測試。數據集中圖像類別豐富,大多數取自復雜的日常場景,圖中的物體具有精確的位置標注。
Cityscapes[76]:數據集由奔馳公司于2015年推行發布,專注于對城市街景的語義理解。提供了50個不同城市街景記錄的立體視頻序列,包含20 000張弱注釋圖片和5 000張的高質量的強注釋的圖片,涵蓋了各種時間及天氣變化下的街道動態物體,同時提供了30個類別標注,像素為2 048×1 024的高分辨率圖像,圖像中街道背景信息復雜且待分割目標尺度較小。此數據集可用于實時語義分割研究。
CamVid[77]:數據集由劍橋大學的研究人員于2009年發布,CamVid由車載攝像頭拍攝得到的5個視頻序列組成,提供了不同時段701張分辨率為960×720的圖片和32個類別的像素級標簽,包括汽車、行人、道路等。數據集中道路、天空、建筑物等尺度大,汽車、自行車、行人等尺度小,待分割物體尺度豐富。
KITTI[78]:目前國際上最大的用于自動駕駛場景的算法評測數據集,可進行3D物體檢測、3D跟蹤、語義分割等多方面研究。數據集包含鄉村、城市和高速公路采集的真實數據圖像,原始數據集沒有提供真實的語義標注,后來Alvarez等人[79-80]、Zhang等人[81]和Ros等人[82]為其中部分圖添加了語義標注。
Sift Flow[83]:數據集是LabelMe數據集的子集,包含33個類別和2 688張分辨率為256×256的訓練圖像,提供8種不同戶外場景,包括山脈、海灘、街道、城市等,圖片都具有像素級標注。
Standford background[84]:數據集由斯坦福大學2009年發布,主要來自LabelMe、MSRC、PASCAL VOC等公共數據集。包含715張圖片,分辨率為320×240。包括道路、樹木、草、水、建筑物、山脈、天空和前景物體共8個類別。
3.1.22.5D數據集
NVUDv2[85]:數據集大都來自微軟Kinect數據庫,提供了1 449個RGBD圖像,捕獲了464種不同的室內場景,并附有詳細的標注,能夠驗證3D場景的提示和推斷,實現更好的對象分割內場景,并附有詳細的標注,能夠驗證3D場景的提示和推斷,實現更好的對象分割。
SUN3D[86]:數據集由美國普林斯頓大學研究小組2013年發布,包含使用Asus Xtion傳感器捕獲的415個RGBD序列,是一個具有攝像機姿態和物體標簽的大型RGBD視頻數據庫。每一幀均包含場景中物體的語義分割信息以及攝像機位態信息。
SUNRGBD[87]:數據集由4個RGBD傳感器獲取而得和NYU depthv2、SUN3Dd等數據集組成。包含了10 335張室內場景、146 617個二維多邊形標注、58 657個三維邊界框標注以及大量的空間布局信息和種類信息。
RGB-D Object Dataset[88]:數據集由美國華盛頓大學的研究小組2011年發布,包括11 427幅人工手動分割的RGBD圖像組成,包含300個對象,分為51個類別。另外,還提供了22個帶注釋的自然場景視頻序列,用于驗證過程以評估性能。
為了衡量分割算法的性能,需要使用客觀評價指標來確保算法評價的公正性,運行時間、內存占用和精確度是常用的算法評價指標[89]。
3.2.1運行時間
運行時間包括網絡模型的訓練時間和測試時間。由于運行時間依賴硬件設備及后臺的實現,某種情況下,提供確切的運行時間比較困難。但是提供算法運行硬件的信息及運行時間有利于評估方法的有效性,以及保證相同環境下測試最快的執行方法。
3.2.2內存占用
內存占用是分割方法的另一個重要的因素。圖像處理單元(graphics processing unit,GPU)具有高效并行特征以及高內存帶寬,但是相比于傳統的中央處理器(cencer processing unit,CPU),時鐘速度更慢以及處理分支運算的能力較弱。在某些情況下,對于操作系統及機器人平臺,其顯存資源相比高性能服務器并不具優勢,即使是加速深度網路的GPU,顯存資源也相對有限。因此,在運行時間相同的情況下,記錄算法運行狀態下內存占用的極值和均值都是有意義的。
3.2.3精確度
精確度包括像素精度(pixel accuracy,PA)、均像素精度(mean pixle accuracy,MPA)、均交并比(mean intersection over union,MIOU)、頻率加權交并比(frequency weighted intersection over union,FWIoU),常使用MIoU來衡量語義分割模型的性能。
像素準確度(PA)是語義分割中最簡單的像素級評價指標,僅需計算機圖像中正確分類的像素占圖像中總像素比值,如公式(3)所示:

其中,pii表示正確分類的像素個數,pij表示本應屬于第i類卻被分為第j類的像素個數,n是類別數。
平均準確度(MPA)表示圖像中所有物體類別像素準確率的平均值,如公式(4)所示:

平均交并比(MIoU)是分割結果真值的交集與其并集的比值,按類計算后取平均值,如公式(5)所示:

頻率加權交并比(FWIoU)是對MIoU改進后的新的評價標準,旨在對每個像素的類別按照其出現的頻率進行加權,如公式(6)所示:

不同應用場景下語義分割方法在不同數據集上的實驗結果對比如表3所示。選用分割領域標準數據集VOC 2012、Cityscapes、CamVid、SUNRGBD和NYUDv2對經典語義分割方法,實時性語義分割方法和RGBD語義分割方法進行實驗結果分析和對比。
針對高精度追求的應用場景經典語義分割方法,多用于室外場景數據集,從表3可知,在VOC 2012數據集上DeepLab v3+的精度高達89.0%,在數據集Cityscapes是可達到82.1%的精度;針對延時滿足要求高這一應用場景,實時性語義分割網絡DFANet和Light-weight RefineNet在數據集Cityscapes和VOC 2012分別達到71.3%和81.1%的準確率,并且后者每秒傳輸幀數需要2 055 frame/s;而針對復雜場景下RGBD語義分割方法,對室內復雜場景分割效果要優于經典語義分割和實時性語義分割的模型。

表3 不同語義分割方法在不同數據集上的性能Table 3 Performance of different semantic segmentation methods on different datasets
隨著全卷積神經網絡在圖像語義分割領域的應用,如何提高分割精度成為目前研究的難點和痛點。本文從不同應用場景,針對不同場景下的經典網絡結構展開分析總結,發現該領域仍然存在許多未知的問題值得深入探究。
(1)實時性語義分割
現階段語義分割在實時性網絡分割任務上,依舊不夠完善,如何平衡語義分割精度和效率依舊是一個必不可少的研究方向。
(2)RGBD語義分割
RGBD網絡模型目前的難點依舊是如何充分利用深度信息,有效地融合兩者互補的模態,目前依舊是一個懸而未解的問題。
(3)三維場景的語義分割技術
深度圖的引入讓研究開始關注三維場景。盡管3維數據集難以獲取,且標注工作很難,但是3維數據集比2維數據集包含更多的圖像語義信息,使得3維場景語義分割有較高的研究價值和廣闊的應用前景。
(4)應用于視頻數據的語義分割
可用的視頻序列數據集較少,導致針對視頻語義分割的研究進展緩慢。更多高質量的視頻數據的獲取和視頻中時空序列特征的分析,將是語義分割領域的重要研究方向。
(5)弱監督和無監督語義分割技術
隨著基于目標邊框、基于圖像類別便簽、基于草圖等弱監督方法的出現,降低了標注成本。但是分割效果并不理想,所以弱監督和無監督的語義分割需要進一步的研究。