999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的圖像語義分割方法綜述?

2019-03-05 03:45:54萱,王亮,丁
軟件學報 2019年2期
關鍵詞:語義特征信息

田 萱,王 亮,丁 琪

(北京林業大學 信息學院,北京 100083)

當前,計算機視覺領域的核心研究包括圖像分類、物體檢測和圖像語義分割(image semantic segmentation,簡稱ISS)等,其中,ISS是一門涉及計算機視覺、模式識別與人工智能等研究領域的交叉學科,是數字圖像處理與機器視覺的研究重點.ISS在虛擬現實、工業自動化、視頻檢測等不同領域有廣泛的應用,具有重要的研究意義和應用價值.ISS由Ohta等人首次提出,其定義是:為圖像中的每一個像素分配一個預先定義好的表示其語義類別的標簽[1].與傳統的圖像分割相比,ISS在其基礎上為圖像中的目標或前景加上一定的語義信息,能夠根據圖像本身的紋理、場景和其他高層語義特征來得出圖像本身需要表達的信息,更具實用價值.近年來,國內外眾多科研機構相繼開展了針對該領域的學術研究,人工智能、模式識別以及計算機視覺方面的國內外學術會議都會對該領域和相關研究成果做重點討論.這些機構和組織有效地推動了ISS技術的發展.

近年來,深度學習(deep learning,簡稱 DL)技術[2]迅猛發展,基于深度學習的圖像語義分割方法(image semantic segmentation based on deep learning,簡稱 ISSbDL)也日新月異.鑒于目前國內還沒有全面細致論述ISSbDL方法的綜述文獻[3,4],我們總結并整理了相關研究后得到本文.如圖1所示,按照ISS的方法特點和處理粒度,將 ISSbDL方法分為基于區域分類的圖像語義分割方法(ISS based on the regional classification,簡稱ISSbRC)和基于像素分類的圖像語義分割方法(ISS based on the pixel classification,簡稱ISSbPC),對每類方法按照處理特點又細分為若干種不同的子方法.

Fig.1 A taxonomy of ISSbDL圖1 基于深度學習的圖像語義分割方法分類

本文第1節介紹DL與ISS的相關背景及ISSbDL的早期研究.第2節對ISSbRC方法進行詳細介紹和總結.第3節對ISSbPC方法進行分析和總結,并根據處理特點進一步分類,詳細介紹每類子方法的基本思想和優缺點.第4節對 ISS相關實驗進行分析與比較,并介紹常用公共數據集和算法性能評價指標.第5節總結討論ISS未來的發展方向和發展趨勢.

1 相關背景及早期研究介紹

DL的概念由Hinton等人[2]在2006年首次提出,是機器學習中一種基于對數據進行表征學習的方法.DL技術能夠有效地提取圖像中的低級、中級和高級語義信息,并結合分類器輔助進行像素分類,提高了ISS方法的分割準確率.目前,主流的 DL模型有卷積神經網絡(convolutional neural network,簡稱 CNN)[5]、循環神經網絡(recurrent neural network,簡稱RNN)[6]和生成對抗網絡(generative adversarial network,簡稱GAN)[7]等.

其中,CNN的基本結構由輸入層、卷積層、池化層、全連接層及輸出層組成.輸入圖像經過CNN多個卷積操作和池化操作進行特征提取,將低層粗糙特征逐步轉變為高層精細特征,高層特征再經過全連接層和輸出層后進行分類.CNN由于其特殊的網絡結構,特別適合處理圖像數據,對平移、伸縮、傾斜等圖像形變具有較高的不變性.RNN由一連串重復的神經網絡模塊序列組成,序列中的每個元素都執行相似的任務,圖像上下文(image context)之間的連續信息可合理利用.當前,具有代表性的RNN包括傳統的RNN序列模型、長短期記憶神經網絡(long short-term memory,簡稱LSTM)[8]以及門控遞歸單元(gated recurrent unit,簡稱GRU)[9].GAN由一個生成器網絡(generator network)和一個判別器網絡(discriminator network)組成,其基本思想是:從訓練庫中獲取大量訓練樣本進行學習,生成器網絡不斷產生人造樣本,判別器網絡不斷對人造樣本進行判斷,訓練時,讓兩組網絡相互對抗、相互提高.

在 ISS領域,CNN因其高效的學習性能和良好的應用效果,受到研究者更多的青睞,成為研究熱點.除CNN外,RNN因其遞歸處理歷史信息和建模歷史記憶的特點,特別適合處理與時空序列有關的信息,也常被一些研究者用于捕獲圖像上下文信息.此外,GAN模型避免了一些傳統生成模型在實際應用中的困難,具有新穎性和良好的適應性,在ISS研究中也正逐漸得到重視.總的來說,DL技術利用深層模型來學習圖像特征,促進了ISS領域中相關研究的發展,掀起了一股ISSbDL的研究熱潮.

2013年,文獻[10]嘗試使用DL技術對室內場景進行語義分割:利用CNN對RGB-D圖像進行特征提取的同時,將RGB圖像聚類得到超像素,然后使用分類器對超像素進行分類,完成ISS任務.文獻[11]則在上述工作的基礎上,利用深層CNN提取、整合不同分辨率圖像的特征,并使用分割樹對粗糙圖像塊中的超像素進行平滑預測處理.這些早期的ISSbDL方法[10,11]出現在ISS由傳統的機器學習方式向深度學習方式過渡的階段,先使用聚類操作生成超像素,再用 CNN等分類器對超像素進行分類.圖像分割過程分階段進行,耗時、費力,分割過程無法有效利用圖像的全局語義特征,分割結果比較粗糙.

隨著DL技術的發展,研究者又進一步改進,先將圖像劃分為一系列目標候選區域,再用DL技術對目標區域進行分類,避免生成超像素,提高了分割效率,本文第 2節所介紹的基于區域分類的圖像語義分割方法即為此類改進.另一些研究者則直接利用深度神經網絡(deep neural network,簡稱DNN)以像素分類的方式進行分割,將分割過程改為端到端(end-to-end)的模式,避免了預先生成圖像塊所帶來的問題,提高了分割準確率,本文將在第 3節中介紹這類基于像素分類的圖像語義分割方法.基于這些改進,我們將ISSbDL的處理流程概括為特征提取、語義分割和后期處理這3個核心步驟,如圖2所示,其中,實線表示一般處理步驟,虛線表示選擇使用環節.

Fig.2 Workflow for ISSbDL圖2 基于深度學習的圖像語義分割方法的一般處理流程

2 基于區域分類的圖像語義分割方法

在ISSbDL方法中,基于區域分類的圖像語義分割方法把傳統圖像處理算法與DNN相結合,先將原始圖像劃分成不同的目標候選區域,得到一系列圖像塊(image patch),再利用DNN對圖像塊或圖像塊中的每個像素進行語義分類,最后根據分類結果對原始圖像進行標注,得到最終分割結果.因為圖像塊的質量直接決定分割結果的好壞,ISSbRC方法的關鍵在于如何從原始圖像產生不同目標區域的圖像塊.根據區域生成算法和圖像塊劃分標準不同,下面將 ISSbRC方法劃分為兩類:基于候選區域的方法和基于分割掩膜的方法.表1對這兩類方法從方法特點、優缺點和處理流程等幾個方面進行了分析與比較.下面對其進行詳細介紹.

Table 1 Comparison of ISSbRC表1 基于區域分類的圖像語義分割方法對比

2.1 基于候選區域的方法

該類方法首先利用相應的算法生成大量候選區域并篩選出合理的候選區域,再運用CNN對每個候選區域提取圖像特征和語義信息,接著利用分類器對候選區域中的圖像塊或像素進行分類,最后輸出分割結果.因為每個候選區域都有可能包含圖像中潛在的目標物體,候選區域的質量不但影響CNN捕獲圖像特征的能力,而且影響分類器對候選區域進行分類的精度.

2014年,文獻[12]在 CNN 的基礎上提出了區域卷積神經網絡(regions with CNN features,簡稱 RCNN).RCNN將選擇搜索(selective search,簡稱SS)算法產生的候選區域與CNN產生的視覺特征相結合,可同時完成目標檢測和ISS兩項任務.RCNN的處理流程如圖3所示,首先,使用SS算法抽取約2 000個候選區域;再用CNN提取每個候選區域的特征;最后,根據捕獲的特征,使用 SVM(support vector machine)對每個候選區域中的目標物體分類.但RCNN也存在嚴重依賴候選區域、產生圖像變形、分割精確度不夠高和速度不夠快等缺點,其綜合性能仍有待提高.

文獻[13]在RCNN的基礎上提出了SDS(simultaneous detection and segmentation)方法.與RCNN方法相比,SDS方法使用MCG(multi-scale combinatorial grouping)[19]算法在CNN中獨立地從候選區域和區域前景中提取特征,再將這兩部分特征進行聯合訓練,然后使用非極大值抑制(non-maximum suppression,簡稱NMS)算法進行區域增強,分割性能有顯著提升.

由于 RCNN存在著生成的候選區域數量過多、網絡運算量大且候選區域形狀不規則等局限性,一些研究者開始探索產生高質量候選區域的方法.文獻[20]中的 SPPNet網絡將空間金字塔池化層(spatial pyramid pooling player,簡稱SPP player)插入到RCNN卷積層的后面,減少了特征提取過程中的重復計算.文獻[21]中的Fast-RCNN網絡將候選區域映射到CNN的卷積特征圖上,通過ROI Pooling層,將每個候選區域生成固定尺寸的特征圖,提升了生成候選區域的速度.文獻[22]中的Faster-RCNN網絡在Fast-RCNN網絡的基礎上加入區域建議網絡(region proposal network,簡稱RPN),能夠快速生成高質量的候選區域.

Fig.3 Workflow for RCNN[12]圖3 RCNN的處理流程[12]

2016年,文獻[14]以SDS方法為基礎,使用不同大小的滑動窗口對原圖進行卷積、池化等操作,得到多尺度特征圖,再通過尺度對齊將不同尺度的特征圖歸一化到同樣大小,并將其做并行處理,提出了能夠完成定位、分類和分割這3個任務的MPA(multi-scale path aggregation)方法[14].MPA方法通過組合不同尺度的特征圖,能夠綜合圖像中多個不同部位的局部信息,有效地避免了物體理解的歧義,使分割結果更具魯棒性.

2017年,文獻[15]在Faster-RCNN基礎網絡中加入ROI Align層和分割子網,提出了能夠實現目標檢測和實例級圖像語義分割(即實例分割)兩個任務的Mask-RCNN網絡.Mask-RCNN由兩個分支子網組成:第1個分支子網繼承自 Faster-RCNN,用于對候選區域進行分類和回歸,可有效地檢測出圖像中的目標物體;第 2個分支子網使用一個微型全卷積網絡進行高質量的實例分割.Mask-RCNN能夠完成分類、回歸和分割這3項任務,并保留目標對象的空間結構信息,促進了ISS的發展.

2.2 基于分割掩膜的方法

基于分割掩膜(segmentation mask)的方法重點關注如何有效生成與目標候選區域相對應的分割掩膜,大致可分為兩個核心步驟.

(1)首先,在圖像中檢測出所有潛在的目標候選對象,將原圖像劃分為一系列大小不等的圖像塊,每個圖像塊包含一個潛在的目標候選對象.

(2)將產生的圖像塊送入CNN進行處理,其每個像素經過“是否屬于該目標候選對象”的二分類判斷后得到分割掩膜,再將多張分割掩膜進行優化處理得到最終分割結果.

文獻[16]基于CNN提出用于生成目標建議(object proposal)的DeepMask模型.該模型直接從原始圖像中生成與目標候選對象對應的圖像塊,再根據這些圖像塊為每個目標候選對象生成分割掩膜.DeepMask模型使用前饋網絡在整張圖像中生成目標對象的分割掩膜,所產生的掩膜邊界粗糙,不能精準對齊.文獻[17]在 DeepMask的基礎上將淺層網絡中的低級特征與深層網絡中的高級特征相結合,并且自下而上進行圖像處理,提出了SharpMask模型.SharpMask模型先通過DeepMask模型對每個輸入產生一個粗糙的分割掩膜,再將該粗糙分割掩膜傳入不同的精煉模塊,然后結合不同尺寸的特征圖,以自下而上的方式重新生成精細化的分割掩膜.文獻[18]以 Fast-RCNN 為基礎,提出了 MultiPath模型.該模型使用跳躍連接(skip connection)、中心凹區域(foveal region)和一個積分損失函數(integral loss function)對分割掩膜中的對象再次識別并分類,能夠解決物體檢測過程中尺度、遮擋和集群等問題,分割掩膜生成過程中的定位精度有顯著提升.

3 基于像素分類的圖像語義分割方法

ISSbRC方法取得了一定的分割效果,但也存在圖像分割精度不高和分割速度不夠快等問題,因此,一些研究者提出直接在像素級別上進行圖像語義分割,產生了基于像素分類的圖像語義分割方法.ISSbPC方法利用DNN從帶有大量標注的圖像數據中提取出圖像特征和語義信息,再根據這些信息來學習、推理原始圖像中像素的類別,通過端到端訓練的方式對每個像素進行分類,以像素分類的方式達到語義分割的目標.ISSbPC方法無需產生目標候選區域,直接為圖像中的每個像素進行分類,原始圖像經過一個端到端模型后直接輸出分割結果,是一種從訓練數據出發,貫穿整個模型后直接輸出結果的新模式.ISSbPC方法將原始圖像、標注圖像以及弱標注(weak label)圖像等海量數據作為訓練樣本,可以捕獲更豐富的圖像特征,不僅增加了模型的整體契合度,而且提高了學習效率,有效提升了分割準確率.

根據標注類型和學習方式不同,我們將 ISSbPC方法主要分為兩類:全監督學習圖像語義分割方法(ISS based on fully supervised learning,簡稱 ISSbFSL)和弱監督學習圖像語義分割方法(ISS based on weakly supervised learning,簡稱ISSbWSL).ISSbFSL方法使用經過人工精確加工的像素級標注作為訓練樣本,其分割流程為:先對圖像中的每個像素預先給定一個語義標簽得到標注數據,然后利用標注數據對 DNN進行訓練,再將訓練好的DNN用于圖像語義分割.ISSbWSL方法則使用弱標注數據作為樣本對DNN進行訓練,再用訓練后的DNN對圖像進行語義分割.這兩類方法按照改進特點不同又可分為若干類子方法,其分類示意如圖4所示.下面進行具體介紹和分析.

Fig.4 A taxonomy of ISSbPC圖4 基于像素分類的圖像語義分割方法分類

3.1 全監督學習圖像語義分割方法

經過人工精確標注的圖像樣本能夠提供大量細節信息和局部特征,有利于提高網絡訓練效率和分割精確度,因此,目前的ISSbDL方法大多是全監督學習類型.ISSbFSL方法在訓練階段會利用DNN從大量帶有像素級標注的圖像中提取豐富的視覺特征和語義信息,再利用這些特征和信息對圖像像素進行分類.

針對早期ISSbRC方法存在的存儲開銷大、計算效率低等問題,Long等人[23]于2014年設計了一種兼容任意尺寸圖像、以全監督學習方式進行圖像語義分割的全卷積網絡(fully convolutional network,簡稱FCN).如圖5所示,FCN在VGG-16網絡[24]基礎上進行改進,使用卷積層替換傳統CNN中的全連接層,使用跨層(skip layer)方法組合中間卷積層產生的特征圖,再通過雙線性插值(bilinear interpolation,簡稱 BI)算法進行上采樣(upSample),將粗糙的分割結果轉換為細密的分割結果.FCN采用跨層方法,既同時兼顧全局語義信息和局部位置信息,又能從抽象特征中恢復出像素所屬的類別,把圖像級別的分類進一步延伸到了像素級別的分類,成功地將原本用于圖像分類的網絡轉變為用于圖像分割的網絡.

FCN在分割過程中能夠恢復像素所屬的類別,極大地推動了ISS的發展.然而該領域仍然存在兩個問題:一是圖像經過池化操作后,特征圖的分辨率不斷降低,部分像素的空間位置信息丟失;二是分割過程未能有效地考慮圖像上下文(image context)信息,無法充分利用豐富的空間位置信息,導致局部特征和全局特征的利用率失衡.FCN未能有效地解決這兩個問題,致使分割結果粗糙、分割邊界不連續.針對這兩個問題,在FCN的基礎上,研究者又提出了一系列新方法,根據這些方法的改進特點不同,我們將其劃分為7類:基于FCN的方法、基于優化卷積結構的方法、基于編碼器-解碼器的方法、基于概率圖模型的方法、基于特征融合的方法、基于 RNN的方法和基于GAN的方法.表2從方法特點、優缺點、關鍵技術和主要功能這幾個方面對這7種方法進行了歸納總結.下面將詳細介紹這7類方法.

Fig.5 Framework for FCN[23]圖5 FCN框架結構[23]

Table 2 Comparison of fully-supervised image semantic segmentation algorithm based on pixel classification表2 基于像素分類的全監督學習圖像語義分割方法對比

Table 2 Comparison of fully-supervised image semantic segmentation algorithm based on pixel classification(Continued)表2 基于像素分類的全監督學習圖像語義分割方法對比(續)

3.1.1 基于FCN的方法

FCN在進行圖像語義分割時沒有充分考慮像素與像素之間的關系,缺乏空間一致性,對圖像中的細節不夠敏感,導致分割結果不夠精細.文獻[25]在 FCN的末端增加全連接條件隨機場(fully connected conditional random field,簡稱FCCRF),對粗糙分割圖進行邊界優化,并使用帶孔卷積(atrous convolution)擴大特征圖的感受野(receptive field,簡稱 RF),提出了 DeepLab網絡.DeepLab的處理流程如圖6所示,首先,將圖像送入到結合了Hole算法的FCN中進行處理,得到粗略的特征圖,再使用BI算法對FCN的輸出結果進行上采樣操作得到粗糙分割圖像;然后,使用 FCCRF對粗糙分割圖像進行結構化預測,并對圖像中的像素點進行建模、求解,平滑處理粗糙分割圖像的邊緣;最后得到一個完整的圖像語義分割結果.

Fig.6 General framework for DeepLab[25]圖6 DeepLab基本框架[25]

2016年,文獻[26]在DeepLab網絡的基礎上提出了DeepLab-V2網絡,對特征圖分辨率變小、定位精度過低等問題進行改進.與DeepLab網絡相比,DeepLab-V2網絡不僅使用帶孔卷積作為上采樣濾波器進行稠密特征提取,而且將帶孔卷積與空間金字塔池化方法(spatial pyramid pooling method)[20]相結合后,提出帶孔空間金字塔池化(atrous spatial pyramid pooling,簡稱ASPP),并利用ASPP整合多尺度特征,最后,再用FCCRF優化分割圖像,在不增加過多參數的情況下,增大了感受野、提高了分割精度.

2017年,文獻[27]基于上述兩種方法[25,26]級聯多個帶孔卷積模塊,并在空間維度上對 ASPP進行改進,提出了Deeplab-V3網絡.Deeplab-V3網絡以并行方式將4個不同孔洞率(atrous rate)的帶孔卷積并聯,組成一個改進版的ASPP,再以串行方式將多個帶孔卷積模塊與改進后的ASPP串聯在一起,構成一個端到端處理圖像的網絡.Deeplab-V3結合串行方式與并行方式的帶孔卷積后,能夠多尺度(multiple scale)地分割物體,獲取多尺度的圖像信息.實驗結果表明,Deeplab-V3在無需加入FCCRF的情況下,分割準確率仍然優于文獻[25,26]中的方法.

由于文獻[25,26]只是簡單地把FCCRF加在FCN的末尾,需要分別訓練FCN和FCCRF,導致FCN的粗分割操作與FCCRF的精分割操作沒有過多的交互聯系.文獻[28]在文獻[25]的基礎上提出了CRFasRNN網絡,訓練時,運用BP(back propagation)算法將CRFasRNN網絡放在FCN的末尾,進行端到端處理.CRFasRNN網絡的基本思路是:把條件隨機場(conditional random field,簡稱CRF)的學習、推理、求解等過程迭代建模為RNN的相關運算,通過迭代mean field算法把該過程嵌入到CNN中,從而將CNN與CRF的學習過程統一在一個完整的網絡中,提升了分割效果.

3.1.2 基于優化卷積結構的方法

在使用 CNN 進行圖像語義分割過程中,池化操作能夠增大特征圖的感受野,并匯合圖像的背景信息,但也帶來了特征圖分辨率不斷降低、部分像素的空間位置信息丟失等問題.一個解決該問題的思路是對神經網絡中的卷積結構進行優化,使用經過優化的卷積結構來代替傳統的卷積、池化等操作.

文獻[29]對普通的卷積操作進行優化,從中引入不同的擴張率(dilation rate),提出了擴張卷積(dilated convolution).擴張卷積是在正常連續的卷積操作中加入不同的間隔,間隔大小由擴張率決定,可以在不損失分辨率、不增加計算量的情況下使感受野呈指數增長,并可捕獲圖像的多尺度局部特征和保留大部分像素的空間位置信息,提升了分割準確率.事實上,這里的擴張卷積也是一種帶孔卷積[23],兩類卷積操作的具體結構和計算方式基本一致,只是名稱略有不同.

在ISS過程中,使用擴張卷積能夠更有效地提取圖像特征、增加感受野,并保留一部分像素的空間位置信息.但擴張卷積在操作過程中易產生空間間隙,會出現信息丟失、信息不相關和局部信息之間的連續性被打斷等問題.2017年,文獻[30]使用混合擴張卷積(hybrid dilated convolution,簡稱HDC)代替擴張卷積,并使用稠密上采樣卷積(dense upsampling convolution,簡稱DUC)替換BI算法.HDC由一系列不同擴張率的擴張卷積模塊組成,既能增加感受野,又能保持局部信息的相關性,有效地避免了上述問題.

雖然上述方法[29,30]可以增加感受野的大小,但其固定形狀的卷積核對幾何變換的模擬能力不強,對圖像中一些未知形變的適應性較差,不利于提取形狀不規則物體的特征.文獻[31]將帶有偏移量的采樣操作代替原來位置固定的采樣操作,在卷積處理的作用區域上加入一個可學習的偏移量,使卷積操作的卷積核具有可變的形狀,提出了可變形卷積(deformable convolution).可變形卷積既能增大感受野的范圍,又有利于DNN學習圖像中的感興趣區域,增強了ISS過程中對幾何變換的適應性,提高了分割準確率.

3.1.3 基于編碼器-解碼器的方法

在ISS領域,要解決“池化操作后特征圖分辨率不斷降低、部分像素空間位置信息丟失”等問題,除了對卷積結構進行優化外,另一類方法是使用編碼器-解碼器(encoder-decoder)結構.該類方法是一種利用對稱網絡結構進行圖像語義解析的機制,其本質是利用DL技術中的卷積、池化等操作所構成的編碼器來編碼被捕獲的像素位置信息和圖像特征,再利用反卷積(deconvolution)或上池化(unpooling)等操作所構成的解碼器來對其進行解析,還原圖像的空間維度和像素的位置信息.

2015年,文獻[59]利用編碼器-解碼器結構在編碼過程中進行下采樣(subsampled)操作,逐步減少特征圖的分辨率,在解碼過程則進行上采樣(upsampled)操作,逐步恢復物體細節和圖像分辨率,提出一種對生物醫學圖像進行語義分割的 U-net網絡.文獻[60]以解決自動駕駛汽車和智能機器人的 ISS問題為目標,提出了 SegNet-Basic網絡.SegNet-Basic網絡基于先驗概率計算每個像素點的分類,是一個類似編碼解碼過程的對稱結構網絡,其基本結構如圖7所示.該網絡的左邊是一個由全卷積網絡構成的編碼器,通過卷積、池化等操作進行下采樣處理;右邊是一個由反卷積網絡構成的解碼器,利用轉置卷積和上池化操作進行上采樣處理.針對先驗概率無法給出分類結果置信度的問題,文獻[32]基于SegNet-Basic網提出了Bayesian SegNet網絡.Bayesian SegNet在每個卷積層后面增加了一個DropOut層,可有效防止權重過度擬合并增強網絡的學習能力;同時,還引入貝葉斯網絡(Bayesian network)和高斯過程,基于后驗概率計算像素類別,使網絡在ISS過程中能更合理地模擬事件概率.

Fig.7 Framework for SegNet-Basic[60]圖7 SegNet-Basic網絡框架[60]

文獻[33]在FCN的基礎上提出一個完全對稱的DeconvNet網絡.該網絡用反卷積替換BI算法,建立了一種完全對稱機制;同時,將反卷積操作與上池化操作結合起來,在一定程度上避免了細節丟失和邊界模糊等現象,更好地反映了物體的細節,提高了分割效果.

文獻[32,33,60]雖然能夠取得較好的分割結果,但在網絡訓練中也存在參數權重過多、計算量過大等問題,導致分割速度難以達到實時處理的要求.2016年,文獻[34]基于編碼器-解碼器結構提出一種高效神經網絡Enet(efficient neural network).ENet在執行分割任務時采用分解濾波器策略,使用低階近似(low-rank approximation)將卷積操作分解為更簡單的操作,在保證分割精度的同時,顯著降低了計算量,是一種可完成像素標注、場景解析等任務的實時分割網絡.ENet中編碼部分的網絡比解碼部分復雜很多,是一種不對稱的編碼器-解碼器結構.

文獻[35]使用帶有大型卷積核(large kernel)的卷積層代替CNN中的全連接層,提出了全局卷積網絡(global convolution network,簡稱GCN).該方法使用ResNet構建編碼器,使用GCN和反卷積構建解碼器,并且網絡中加入了用于邊界優化的簡單殘差塊,能夠在像素相對集中的小面積區域捕獲圖像信息,使得物體的分割邊界更清晰、分割準確率更高.

3.1.4 基于概率圖模型的方法

“未能充分考慮圖像的上下文信息,以及局部特征和全局特征的利用率失衡”是ISS在發展過程中所面臨的另一個問題,而將概率圖模型(probabilistic graphical model,簡稱PGM)[61]用于CNN的后期處理,則能有效地捕獲圖像上下文信息,并且平衡局部特征與全局特征的利用率.PGM 建模時以像素點作為節點,像素點與像素點之間的概率相關關系作為邊.PGM可有效地獲取各像素點之間的依賴關系,捕捉圖像全局信息和像素級語義信息,進而為語義分割過程提供豐富的圖像上下文信息.該類方法的處理流程如圖8所示,先用CNN對原始圖像進行特征提取,得到粗糙分割結果;再將其送入 PGM 中用于捕獲語義信息和像素依賴關系,對粗糙分割結果進行邊緣細化、精度加工等優化,從而得到精細化的分割結果.圖8虛線框的內容是使用PGM對圖像進行建模的過程.常用的PGM包括馬爾可夫隨機場(Markov random field,簡稱MRF)、條件隨機場、貝葉斯網絡等.

Fig.8 Workflow for ISS based on PGM圖8 基于概率圖模型的圖像語義分割方法的處理流程

基于上述思想,文獻[38]引入MRF來捕捉ISS中復雜的上下文信息,將CNN與MRF結合,提出一種端到端訓練的深度解析網絡(deep parsing network,簡稱DPN).DPN將高階關系(highorder relation)、標簽信息和語義信息結合在MRF中,通過CNN中的基礎網絡層來近似模擬MRF的一元項(unary term),通過MRF的額外層來近似估計 MRF的成對項(pairwise term),其反向傳播過程不需要額外的迭代計算便能夠在 GPU(graphics processing unit)中進行并行加速處理,從而減少了計算量,提高了分割效率.

文獻[62]以CRF為基礎設計了一個目標團勢函數(object clique potential),提出一個能夠有效地檢測并分割物體的新模型.文獻[36]則綜合利用CNN與CRF的優勢來探索圖像中復雜的上下文信息,提出一種深度結構化模型(deep structured model,簡稱DSM).DSM在建模CRF后,利用相鄰圖像塊之間的語義關系來捕獲“區域-區域上下文(path-path context)”;通過滑動金字塔池化技術連接由CNN輸出的多尺度特征圖,以此來捕獲“區域-背景上下文(path-background context)”;最后,綜合利用兩種不同的圖像上下文信息進行語義分割,提高了分割準確率.文獻[63]基于上述思想[36],將 CNN與 CRF組合在一起用于結構化預測,直接在消息的傳遞推理過程中預測消息,避免了大量計算梯度,是一種運行速度更快、運算量更小的DSM.文獻[37]對傳統的CRF改進后將其嵌入到CNN中,提出一個從粗糙分割到精細分割逐步轉變的網絡模型.該網絡[37]在粗糙分割階段,使用FCN提取圖像的空間特征后進行特征組合,再用“語境 CRF(context CRF)”重構經過組合的特征;在精細分割階段,用“指導CRF(guidance CRF)”根據輸入圖像的邊界來描繪物體輪廓,精細化分割對象的邊界.

文獻[36,37,63]在進行圖像語義分割后續優化處理時,只將粗糙分割圖像輸入CRF的一元項和成對項進行結構化預測,忽略了對CRF中高階勢能項(higher order potential,簡稱HOP)[64]的有效利用,在捕獲全局特征和圖像上下文信息時存在一定的不確定性和誤差.文獻[42]將兩種不同的HOP加入到CRF后,將其與CNN結合,提出一種新的ISS模型,避免了上述缺陷.文獻[40]設計了一個基于目標檢測的HOP和一個基于超像素[65]的HOP,并將這兩種HOP嵌入到CNN中進行端到端訓練,提高了ISS的分割準確率.

文獻[41]嘗試用高斯條件隨機場(Gaussian conditional random field,簡稱GCRF)代替傳統CRF執行對分割結果的后續優化任務,通過固定次數的迭代高斯平均場(Gaussian mean field,簡稱 GMF)提出高斯平均場網絡(Gaussian mean fieldnetwork,簡稱GMF network),再將GCRF、GMF network與CNN結合在一起,共同處理ISS問題,得到一種端到端語義分割的高斯條件隨機場網絡(Gaussian conditional random fields network,簡稱GCRF network).文獻[39]使用CNN分別學習GCRF的一元勢函數和二元勢函數,提出一種端到端訓練參數的二次優化(quadratic optimization,簡稱QO)模型,提高了ISS后續優化處理的效率.

3.1.5 基于特征融合的方法

“利用CRF等概率圖模型作為CNN的后期處理”能夠有效地捕獲圖像上下文信息,提高全局特征的利用率,但概率圖模型方法在學習、推理過程中仍存在計算量過大、訓練時間較長、嚴重消耗內存等缺點.特征融合是整合圖像上下文信息并提高全局特征利用率的另一種策略,基于特征融合的方法主張兼顧圖像的全局特征、局部特征以及高、中、底等各層次特征,通過融合不同層次特征、不同區域特征來捕獲圖像中隱含的上下文信息,可有效地避免使用概率圖模型導致的問題.

文獻[66]將提取的全局特征經過上池化處理后加入到局部特征中,兩種特征融合后獲得圖像的上下文信息,再將上下文信息與融合后的特征一起用于下一層網絡的處理.文獻[43]通過拉普拉斯金字塔(Laplacian pyramid)算法[67]將不同卷積層提取的低層特征進行重構,提出了 LRR(Laplacian pyramid reconstruction and refinement model)模型.LRR模型把特征圖表示為一組基函數的線性組合,使用跨層方法[23]引入邊界信息后,將低層特征與高層特征進行融合,可有效地捕獲圖像的上下文信息,并對粗糙分割結果求精.

文獻[48]將原始圖像進行尺度變換后并行輸入 FCN,并引入注意力模型(attention model)[68],對不同尺度的目標物體賦予不同的權重,再分別學習其對應的特征圖,最后,融合多尺度特征進行像素分類.文獻[44]提出一種能夠進行多級并行處理的級聯式RefineNet網絡,其框架結構如圖9所示.在該網絡中,原始圖像首先經過CNN處理得到 1/4、1/8、1/16和 1/32尺度的 4種不同分辨率特征圖,這些特征圖再送入與之對應的精細模塊(RefineNet block)融合.如此迭代數次,通過多路徑優化處理,不同層次、不同分辨率的特征圖融合得到優化的分割結果.RefineNet中的精細模塊由一系列經過殘差連接的組件構成,每個組件對低分辨率特征圖進行上采樣處理后再融合高分辨率特征圖,可有效整合不同尺度、不同層次的特征,對圖像上下文信息的利用更充分、合理.

Fig.9 Framework for RefineNet[44]圖9 RefineNet網絡框架[44]

文獻[45]使用卷積核大小不同的4種CNN來捕捉局部特征和全局特征,對圖像特征進行級聯處理,將多個同一層次的圖像特征進行融合,提出了PSPNet網絡.PSPNet的處理流程如圖10所示:圖像經過CNN處理后獲得粗糙特征圖,然后再通過空間金字塔池化(spatial pyramid pooling)[20]模塊對特征圖進行級聯處理,將4種不同尺度的特征圖進行融合,得到完整的特征表達,能夠分別獲取不同區域的上下文信息,進一步提升了分割精度.文獻[46]基于PSPNet網絡,在兼顧分割精度的同時,為保證實時性,提出了能夠實時分割的圖像級聯網絡(image cascade network,簡稱ICNet).ICNet對不同尺寸的輸入圖像進行下采樣操作,將低分辨率圖片通過整個CNN網絡后得到粗糙分割圖,然后利用級聯特征融合單元(cascade feature fusion unit,簡稱CFF)來融合高分辨率圖片的特征,從而提高分割速度.

Fig.10 Workflow for PSPNet圖10 PSPNet網絡的處理流程

文獻[47]借鑒文獻[69-71]的思想,使用區域卷積(region convolution)對每個階段的感興趣區域進行處理,而默認忽略其他不感興趣的區域,提出了端到端訓練的深層級聯(deep layer cascade,簡稱LC)方法.LC方法具有一定的自適應能力和自主學習能力,能夠將不同復雜度的圖像區域分別放在不同深度的網絡層進行處理,可以有針對性地處理不同難易程度的像素.

除上述圖像特征融合方式外,一些學者主張將上一階段卷積網絡提取的圖像特征融入到下一階段卷積網絡提取的特征中,將不同卷積網絡提取的不同圖像特征進行融合.基于這種思想,文獻[72]在 VGG-16網絡中加入一系列不同尺度的卷積操作,從圖像中提取出不同尺度的特征信息后,將上一階段特征融入下一階段的特征中進行卷積處理,設計出一種能夠捕獲高層和低層特征的多尺度深度卷積神經網絡(multi-scale deep convolutional neural network).文獻[49]在文獻[50]的基礎上增加了3個不同尺度的子網絡,采用“先進行聯合訓練、后進行階段訓練”的策略,可獨立完成深度估計、法向量估計和 ISS這 3個任務.文獻[73]從結構上對上面的多尺度CNN[49,50]進行改進,將其擴展為4個子網,并利用其中一個子網進行粗糙分割,其余3個子網進行精細分割.文獻[74]則在 FCN的基礎上增加多個不同尺度的卷積層,提出了多尺度全卷積網絡(multi-scale fully convolutional network).

3.1.6 基于RNN的方法

針對“無法充分利用圖像上下文信息、局部特征和全局特征的利用率失衡”等問題,另一種解決思路是:利用RNN可遞歸處理歷史信息和建模歷史記憶的特點,在分割圖像過程中使用RNN來捕獲圖像上下文信息和全局特征.RNN不僅可以學習當前時刻的信息,還可以依賴之前的序列信息,有利于建模全局內容和保存歷史信息,促進了圖像上下文信息的利用.基于RNN的方法進行圖像語義分割時,將RNN layer嵌入到CNN中,在卷積層提取圖像的局部空間特征,在 RNN layer提取像素序列特征.其一般處理流程如圖11所示,首先,輸入圖像經過CNN處理后得到特征圖;然后,將特征圖輸入RNN中獲取圖像上下文信息,用RNN layer序列化像素、分析各像素的依賴關系后得到全局語義特征,再使用反卷積層進行上采樣處理;最后,得到分割結果.

Fig.11 Workflow for ISS based on RNN圖11 基于循環神經網絡的圖像語義分割方法處理流程

文獻[51]借鑒 RNN 的循環思想,將泛化后的 RNN 應用于 ISS領域.文獻[53]利用 DAG(directed acyclic graph)的特性來彌補分割過程中“RNN無法直接應用于UCG(undirected cyclic graph)結構圖像”的缺陷,使RNN能夠直接對圖像中的每個像素進行分類.文獻[52]綜合利用CNN與RNN的優點,使用RNN的衍生網絡ReNet處理圖片數據,提出了ReSeg網絡.ReSeg使用4個傳統的RNN序列模型替代CNN中卷積層的卷積和池化操作,在水平與垂直兩個方向分別切割圖像并對其空間依賴關系建模,其框架結構如圖12所示,輸入圖像經過VGG-16網絡后得到圖像的局部特征,然后將特征圖送入ReNet網絡逐步提取出圖像的全局特征和上下文信息,最后使用由反卷積網絡組成的上采樣層逐步恢復特征圖的分辨率,輸出分割結果.同時,ReSeg還使用GRU來平衡內存占用率和計算負載能力,具有很高的靈活性和適應性.文獻[54]用4個不同方向的RNN子網來完成圖像標注任務:輸入圖像被劃分為多個非重疊窗口送入4個獨立且不同方向的LSTM記憶塊,在沒有其他附加條件的情況下,捕獲局部特征和全局特征.文獻[75]則利用光度和深度 2種不同類型的數據來建模全局特征,使用LSTM從多種途徑獲取上下文信息再將其整合到CNN中,增強了語義特征的表達效果.

Fig.12 Framework for ReSeg[52]圖12 ReSeg網絡的框架結構[52]

傳統的RNN序列模型在訓練過程中容易出現梯度爆炸或梯度消失等問題,使用其衍生網絡LSTM或GRU配合梯度截斷(gradient clipping)、批標準化(batch normalization)等策略則可避免該問題[76,77].LSTM和GRU利用某些特定的方法來規則遍歷二維圖像,圖像上下文的關聯性可轉化為結構化的循環依賴關系,易于建模像素序列以及圖像空間域的依賴關系[52].在利用 LSTM 或 GRU對圖像進行建模并將其平滑為像素序列的過程中,需盡量保存圖像的時間序列特征,并盡量避免丟失其高級語義信息和像素依賴關系,以提升分割效果[78,79].

3.1.7 基于GAN的方法

“使用帶有高階勢能項的CRF進行結構化預測”存在著模型復雜、計算量大、訓練時間長、內存占用率高等問題,此外,HOP也需要預先人工設置,不易實現.在ISS過程中,使用GAN代替CRF捕獲圖像上下文信息,不但能夠避免上述問題,還可在不增加模型復雜度和訓練時間的情況下增加長距離空間標簽的連續性,具有較強的空間一致性.

基于 GAN的方法進行圖像語義分割時,基本框架結構如圖13所示.該類方法一般使用 FCN,SegNet或PSPNet等分割網絡作為生成器網絡,輸入圖像經過生成器網絡處理后得到預測分割圖像,將預測分割圖像作為人造樣本、真實標簽圖像(ground truth)作為真實樣本輸入判別器網絡,判別器網絡學習真實樣本和人造樣本的區別,并基于博弈思想進行對抗訓練.待輸出樣本數據的真假后,其內部的反饋機制會對生成器網絡與判別器網絡進行調節,經過數次迭代訓練后,生成器網絡的分割準確率和判別器網絡的鑒別能力不斷提高.圖13中,虛線表示 GAN利用判斷結果進行反饋微調;菱形標志表示選擇“真實標簽圖像”或“預測分割圖像”兩者中的一種作為判別器網絡的輸入.當判別器網絡的輸入組合為“原始圖像”與“預測分割圖像”時,輸出“假”代表正確結果;當輸入組合為“原始圖像”與“真實標簽圖像”時,輸出“真”代表正確結果.

2016年,文獻[55]首次將GAN引入ISS領域,提出一種圖像分割的新方法,原始圖像在由CNN構成的分割網絡中轉變為分割結果,分割結果輸入對抗網絡后被判斷出真假,兩組網絡進行對抗學習、彼此競爭,經過迭代訓練后,逐步提高分割網絡的分割準確率.文獻[56]基于 FCN,將 GAN與領域適應性(domain adaptation)思想結合,將源域與目標域共享標記空間,并通過最優化目標損失函數來減少全局偏移和特定偏移的影響,提出用于ISS的領域適應性框架.文獻[57]通過 GAN來實現分割網絡的參數規則化,使用未進行標注的圖像訓練分割網絡(生成器網絡).文獻[58]則利用條件生成對抗網絡(conditional generative adversarial network,簡稱CGAN)[80]產生人造樣本進行對抗訓練.

Fig.13 Framework for ISS based on GAN圖13 基于GAN的圖像語義分割方法的基本框架

GAN模型擁有不斷生成數據和辨別數據真假的能力,在一定程度上可減少CNN、FCN等網絡在圖像語義分割過程中帶來的問題.同時,GAN引入判別器來解決數據域分布不一致問題,通過對抗學習來近似不可解的損失函數,具有較好的分割效果[81].但 GAN模型的優化過程不穩定,訓練時容易坍縮到一個鞍點上,在處理大規模圖像數據時,其可解釋性和延展性有待提高[82].

3.2 弱監督學習圖像語義分割方法

利用CNN、FCN等神經網絡進行全監督學習的分割方法在ISS領域獲得了較好的效果,但ISSbFSL方法在訓練階段所需要的像素級精確標注圖像制作過程費時、費力,難以大批量獲取.因此,一些學者開始研究以弱監督學習的方式進行圖像語義分割,形成了一系列的ISSbWSL方法.ISSbWSL方法使用經過粗略標記的弱標注圖像進行訓練,減少了標注時間和標注成本.在 ISS領域,目前常見的弱標注數據大致有圖像級標注、邊框級標注和涂鴉級標注.如圖14所示,邊框級標注泛指一些人工標記的邊界框(bounding box),涂鴉級標注泛指一些人工隨機涂鴉的點或線條,圖像級標注則把圖像中的物體種類標簽作為標注.

Fig.14 Examples of different image labeling圖14 不同類型的圖像標注示例

與像素級標注數據相比,弱標注數據無需過多人工操作,更容易獲取.根據弱標注數據的不同類型,我們將ISSbWSL方法分為 4類:基于邊框級標注的方法、基于涂鴉級標注的方法、基于圖像級標注的方法和多種弱標注數據混合的方法.下面進行詳細介紹.

3.2.1 基于邊框級標注的方法

在ISSbWSL領域,基于邊框級標注的方法使用邊框級標注圖像作為訓練樣本.與ISSbFSL方法相比,該類方法在標注邊界框過程中時間成本較低,可節省大量人力物力;同時,其分割性能與同等條件下的全監督學習方法近似.

文獻[83]以FCN為基礎網絡,用邊框級標注的圖像作為訓練樣本,通過循環迭代方式不斷提高分割準確率,提出了BoxSup網絡.BoxSup的框架結構如圖15所示,首先,用MCG算法[19]得到初步的目標候選區域;然后,將該目標候選區域作為已知的監督信息輸入到FCN中進行優化和更新;待FCN輸出具有更高精度的候選區域后,再將輸出的目標候選區域又重新輸入FCN中進行訓練.如此重復迭代,直到準確率收斂.文獻[84]在GrabCut算法[85]的基礎上加入CRF和 CNN,提出了DeepCut方法.DeepCut使用邊框級標注的圖像作為訓練樣本,通過在CNN中進行迭代訓練,逐步提高圖像的分割精度.

Fig.15 Framework for BoxSup圖15 BoxSup網絡的框架結構

3.2.2 基于涂鴉級標注的方法

基于涂鴉級標注的方法使用涂鴉級標注的圖像作為訓練樣本,分割過程較為簡單,訓練樣本易于獲取,降低了人工標注的工作量.

文獻[86]用多個像素標注圖像中的物體,提出了用隨機涂鴉的點作為監督信息的點監督(point supervision)方法.該方法將監督信息與CNN模型中的損失函數相結合,取得了較好的分割效果.文獻[87]使用涂鴉方式進行圖像標注,將帶有涂鴉線條的圖像作為訓練樣本,提出了ScribbleSup方法.ScribbleSup方法分為自動標記階段和圖像訓練階段:自動標記階段首先根據涂鴉線條對圖像生成像素塊,然后將每個像素塊作為圖模型中的一個節點,再用GraphCut算法建模自動完成對所有訓練圖像的標注;圖像訓練階段則是將上一階段完成的標注圖像送入FCN中訓練,得到分割結果.

3.2.3 基于圖像級標注的方法

與其他類型的標注相比,圖像級標注使用類別標簽作為訓練標注,不需要進行像素標注,制作更簡單、工作量更小,因而受到研究者更多的關注,成為 ISSbWSL方法的主流.但是圖像級標注只提供了物體種類信息,缺少位置、形狀等信息,在分割過程中也面臨諸多挑戰.

文獻[88]將多示例學習(multiple instance learning,簡稱MIL)[89]應用在ISSbWSL,以構建圖像標注與像素語義之間的關聯;同時,還使用超像素、候選框和MCG算法等技術作為后續處理,取得了一定的分割效果.文獻[90]使用約束卷積神經網絡(constrained convolutional neural network,簡稱CCNN)進行圖像語義分割,CCNN將圖像級標注作為限制條件,通過內部的損失函數來預測像素類別,把訓練過程看作是限制條件的最優化過程.文獻[91]使用復合形式的損失函數進行圖像語義分割,提出了SEC(seed,expand and constrain)方法.SEC方法中的復合損失函數由3個不同的目標損失函數組成,訓練CNN時,3個不同的目標損失函數分別完成不同的分割任務.

文獻[92]提出一種可將分割結果由簡單到復雜逐步轉變的STC(simple to complex)方法.該方法首先利用顯著性目標檢測(salient object detection)算法檢測出顯著性區域,進行區域特征融合和構建像素間的語義關系后,由 CNN產生一組顯著性區域圖.接著,再由一套迭代機制從簡單到復雜地重復數次該過程,逐步提升分割精度.文獻[93]在循環迭代的訓練過程中引入增強反饋(augmented feedback)思想,先使用選擇搜索算法和MCG算法進行目標定位,再根據反饋信息逐步提升分割能力,可在一定程度上避免 ISSbWSL存在的誤差累積問題.文獻[94]基于CNN和期望值最大化(expectation maximization,簡稱EM)算法,使用顯著性目標檢測算法和注意力圖(attention maps)對圖像進行分割,分割效果較好.文獻[95]基于 FCN,采用弱監督學習方式識別出圖像中多個不同的顯著性區域(discriminative localization)后,捕獲不同區域的局部特征,再利用局部特征對圖像中的物體進行定位和分割.文獻[96]采用圖像級標注圖像對分類網絡進行訓練,使用分類網絡按照主次順序逐步獲取目標對象的顯著性區域,并利用一種逐步擦除顯著性區域、不斷提高像素分類精度的方法來處理圖像的顯著性區域,使得分割精度迅速提升.

3.2.4 多種弱標注數據混合的方法

以上3種使用弱標注圖像進行訓練的分割方法極大地推動了ISSbWSL的發展,但由于弱標注圖像的局限性,單純使用某種圖像級標注的訓練效果較差,如果混合多種弱標注圖像則可能取得較好的效果.多種弱標注數據混合的方法將多種弱標注圖像與像素級標注圖像相互混合,通過混合訓練的方式進行半監督學習.

文獻[97]引入半監督學習思想,將分類和分割相結合,提出了由分類網絡和分割網絡組合而成的DecoupledNet網絡.訓練時,DecoupledNet先用大量的圖像級標注訓練分類網絡,再用少量的像素級標注訓練分割網絡.這種方法沒有循環迭代過程,不必考慮迭代收斂,因而具有較好的擴展性.文獻[98]在DeepLab網絡的基礎上,將邊框級標注與圖像級標注一起用于訓練,對于給定的邊框級標注圖像,先使用 CRF對其做自動分割,再在分割結果上做全監督學習.同時,該方法[98]還嘗試將少量的像素級標注圖像和大量的弱標注圖像結合訓練,并使用EM算法來預測未標記像素的類別,其分割結果與進行全監督學習的DeepLab網絡十分接近.

總的來說,ISSbWSL方法嘗試在大量弱標注數據中找到圖像的高級特征,允許計算機在無人指導的情況下進行學習,可使ISS擺脫對大量像素級標簽數據的依賴.但目前大部分ISSbWSL方法沒有充分考慮噪聲干擾下弱標注圖像分布的不確定性和復雜性,其分割性能與 ISSbFSL方法相比仍有較大差距.如何靈活運用弱標注圖像數據來提高分割準確率和抗干擾性,并減少大量弱標注圖像所帶來的計算復雜性,是該類方法目前亟需解決的問題.

4 圖像語義分割實驗分析與對比

在進行圖像語義分割實驗時,要對每種方法進行公平、客觀的評價,就必須使用權威的數據集和統一的評價指標.本節將介紹一些在 ISS實驗中常用的公共數據集以及衡量算法性能的指標,并對前文中一些經典方法的實驗結果進行系統的分析和對比.表3總結了圖像語義分割的常用公共數據集.

Table 3 Common datasets for image semantic segmentation表3 常用的圖像語義分割數據集

4.1 常用公共數據集

(1)PASCAL Visual Object Classes(簡稱PASCAL VOC)[99].PASCAL VOC是一個國際計算機視覺挑戰賽,該組織提供了領域內知名度最高的圖像測試數據集和計算機視覺領域的基準測試.2005年~2012年間,該組織每年都發布帶標簽的圖像數據庫并開展算法競賽,由此產生了一系列數據集.目前,該系列最常用的數據集是PASCAL VOC 2012.該數據集涉及物體共21種,包括人類、動物、交通工具和室內物品等,圖片大小不固定,背景復雜多變.

(2)PASCAL-CONTEXT[100].PASCAL-CONTEXT數據集由PASCAL VOC 2010數據集改進和擴展而來,里面增加了更多的物體標注和場景信息,總共包含540個語義類別的圖像標注.在算法評估時,一般選取前59類作為分割評判標準.

(3)PASCAL-PART[101].PASCAL-PART數據集中的圖片大都出自PASCAL VOC 2010,分為訓練集、驗證集和測試集這 3個部分,每部分中的圖像都含有像素級標注,能夠提供豐富的細節信息.PASCAL-PART每張圖像中,目標物體的不同部位都有精確標注,可為物體解析和 ISS任務提供詳細標注的樣本.

(4)Microsoft Common Objects in Context(簡稱MS COCO)[102].MS COCO數據集早先是微軟公司進行圖像測試的一個大型數據庫,后來,微軟公司將其開源和推廣.MS COCO數據集總共包含81種類別(包括背景)、328 000張圖像、2 500 000個物體實例和100 000個人體關鍵部位標注,大部分圖片從復雜的日常場景中獲取,圖中的物體具有精確的位置標注.

(5)ImageNet Large Scale Visual Recognition Challenge(簡稱ILSVRC)[103]).ILSVRC也是一個著名的國際計算機視覺挑戰比賽,提供的ImageNet數據集有1 400多萬幅圖片,涵蓋2萬多個類別,其中,超過百萬的圖片有明確的類別標注和物體位置標注.數據集文檔詳細,有團隊維護,使用方便,在圖像研究領域應用廣泛,被稱為圖像算法性能檢驗的另一標準數據集.

(6)Karlsruhe Institute of Technology and Toyota Technological Institute(KITTI)[104].KITTI是目前國際上用于自動駕駛場景檢測的最大評測數據集,主要用于評測車載環境下路面分割、目標檢測、目標跟蹤等技術.KITTI數據集包含市區、鄉村和高速公路等真實場景圖像,每張圖像中含有不同程度的遮擋現象.

(7)Cityscapes Dataset(簡稱Cityscapes)[105].Cityscapes主要提供無人駕駛環境下的圖像分割數據,用于評估算法在城區場景語義理解方面的性能.Cityscapes包含 50個城市不同環境、不同背景、不同季節的街道場景,提供5 000張精細標注的圖片、20 000張粗略標注的圖片和30種標注物體.

(8)Sift Flow[106].該數據集以戶外場景解析類的圖片為主,包含街道、山脈、城市、海灘和建筑等8種戶外類型場景,共有2 688張圖片、33種語義類目標和3種地理類目標.圖片都具有像素級標注,分辨率為 256×256.

(9)Stanford background dataset(簡稱SBD)[107].SBD由斯坦福大學建立,用于衡量語義級場景解析算法的性能.該數據集包含725張圖片,分別從LabelMe、PASCAL VOC等數據集中抽取而來.圖片大多為戶外場景類型,大小較為規整,每張圖片至少包含1個前景對象.

(10)NYU Depth Dataset V2(簡稱NYUDv2)[108].NYUDv2中的圖片大都出自微軟Kinect數據庫,分為RGB圖像、深度圖像和RDB-D圖像這3個子數據集.該數據集由一系列表示各種室內場景的視頻序列組成,總共包含1 449張RDB-D圖像、26種場景類型、464種室內場景和407 024幀經過標記的圖像數據.

(11)SUN-RGBD[109].SUN-RGBD中的圖像大多由4個不同的RGB-D圖像傳感器捕獲而得,共包含10 000張RGB-D圖像、146 617個多邊形標注、58 657個邊界框標注以及大量的空間布局信息和種類信息.

4.2 實驗性能評價指標

在 ISS領域,常用的性能評價指標主要包括平均召回率(average recall,簡稱 AR)[110]、平均精度(average precision,簡稱AP)[110]、平均精度均值(mean average precision,簡稱mAP)[110]、像素準確率(pixel accuracy,簡稱PA)[23]、平均準確率(mean accuracy,簡稱MA)[23]、平均交并比(mean intersection over union,簡稱mIoU)[23]和帶權交并比(frequency weighted intersection over union,簡稱FWIoU)[23].在結果評價時,一般選取PA、MA和mIoU這3種評價指標綜合分析.其中,mIoU表示分割結果與其真值的重合度,是目前ISS領域使用頻率最高和最常見的評價指標.PA、MA和mIoU的具體定義及計算公式如公式(1)~公式(3)所示.

(1)PA用于計算正確分割的像素數量與圖像像素總量的比例,其具體計算方法如公式(1)所示.

(2)MA表示所有類別物體像素準確率的平均值,其具體計算方法如公式(2)所示.

(3)mIoU表示分割結果與原始圖像真值的重合程度,其具體計算方法如公式(3)所示.

其中,N代表圖像像素的類別數量;Ti代表第i類的像素總數;Xii代表實際類型為i、預測類型為i的像素總數;Xji代表實際類型為i、預測類型為j的像素總數.

4.3 實驗結果分析與對比

為便于說明算法效果,本節將按照圖1中的分類對ISSbRC、ISSbFSL和ISSbWSL這3類方法的實驗結果分別進行分析對比.事實上,隨著計算機硬件技術的發展和數據處理能力的提高,當前 ISSbDL領域中,大多數研究都以提升算法的“分割準確率”為研究重點,而對“計算性能”關注不多.特別是上述3類方法中的ISSbRC方法和ISSbWSL方法,由于其功能側重點、應用場景和改進方式等原因,相關研究大都忽略了對算法“計算性能”的實驗考察.因此,本節對這兩類方法的效果僅從算法“分割準確率”方面進行分析對比.部分ISSbFSL方法因涉及到動態場景解析或實時圖像語義分割等研究領域,比較重視算法的“計算性能”指標.因此,針對ISSbFSL方法,本節將從算法“分割準確率”與“計算性能”兩個方面進行實驗結果分析.

4.3.1 ISSbRC方法的實驗對比分析

ISSbRC方法的實驗對比見表4,主要比較因素有關鍵技術、實驗數據集和評價指標等.

Table 4 Experimental comparison of ISSbRC表4 基于區域分類的圖像語義分割方法實驗對比

從表4中可以看到,ISSbRC方法大多選用PASCAL VOC和MS COCO數據集作測試數據集,因為這兩種數據集更有權威性和說服力.在基于候選區域的方法中,RCNN[12]的mIoU雖然不高,但因其提出時間最早、性能平穩、代碼開源,已被實用化.其他算法,如SDS[13]、MPA[14]、Mask-RCNN[15]等,其框架結構都是在RCNN的基礎上改進而來,因此分割準確率逐步提升.基于分割掩膜的方法使用RCNN中的技術得到候選區域后,再對像素進行二分類處理生成分割掩膜,分割效果較好.在該類方法中,SharpMask[17]和 MultiPath[18]分別對 DeepMask[16]進行改進,分割性能有較大的提升.其中,SharpMask將 DeepMask生成的粗略分割掩膜輸入精細模塊,進行逐步優化后最終生成精細的分割掩膜,其平均召回率比DeepMask提高了近1倍.

4.3.2 ISSbFSL方法的實驗對比分析

(1)針對ISSbFSL方法分割準確率的實驗結果對比見表5,主要比較因素有基于的基礎網絡、關鍵技術、是否使用PGM方法、實驗數據集和評價指標等.

Table 5 Experimental comparison of segmentation accuracy for ISSbFSL表5 基于像素分類的全監督學習圖像語義分割方法的分割準確率實驗對比

從表5中可以看到,根據算法的應用場景和分割特色不同,選用的數據集也不同.當對常規靜態圖像進行圖像語義分割時,大多選用PASCAL VOC 2012作為測試數據集;當進行動態場景解析或實時圖像語義分割時,大多選用CityScapes作為測試數據集.

該類方法中,DeepLab-V3[27]、PSPNet[45]、RefineNet[44]、DUC+HDC[30]、LC[47]、GCN+[35]和 QO[39]等算法在PASCAL VOC 2012數據集上的mIoU都超過了80%,對圖像中不同尺度的物體有較好的識別效果,分割結果的邊界比較接近真實分割邊界,是最具代表性的圖像語義分割算法.其中,DeepLab-V3算法因為集成了FCN[23]、PSPNet和DeepLab-V2等眾多網絡的優點,其mIoU指標目前排名最高.而PSPNet與RefineNet通過多路徑、多尺度方式對圖像特征進行融合,可有效捕捉圖像中豐富的上下文信息,在mIoU指標上分別排名第二和第三.

CRFasRNN[28]、Dilation10[29]、DeepLab-V1[25]和 DeepLab-V2[26]等算法則是基于 FCN 進行改進,在 PASCAL VOC 2012數據集上的mIoU都超過70%,在分割準確率方面與FCN相比有較大提升.其中,DeepLab-V2由于具有代碼開源時間早、性能穩定和分割準確率高等優點,在工業界備受青睞,被廣泛用于分割靜態圖像,其 mIoU達到了79.7%.

其中,SegNet[32]、ENet[34]和 ICNet[46]這 3種算法由于主要用于無人自動駕駛、在線視頻處理等領域,故而選擇在滿足實時圖像語義分割性能測試的CityScapes數據集進行實驗.實驗結果表明,這3種算法的mIoU都超過了 50%,分割精度基本滿足對街道場景圖像進行語義分割的要求.其中,ICNet將不同尺度的圖像放在不同深度的神經網絡中處理,并使用級聯特征融合單元融合不同分辨率的特征圖,在 CityScapes上的 mIoU為 69.5%,分割準確率相對于SegNet和ENet有明顯提升,分割性能突出.

(2)針對算法的計算性能,基于Cityscapes基準測試和PASCAL VOC基準測試中的有關內容[99,105]以及相關參考文獻[23,46],我們從ISSbFS方法中選擇了代表性較強、相關度較高的幾種經典算法進行分析對比.各算法計算性能的實驗測試均在Cityscapes數據集中進行,其測試結果見表6,主要比較因素有算法名稱、發表年份、運行時間和每秒幀數等,其中,“運行時間”代表分割一張圖像所消耗的時間,“每秒幀數”代表每秒能夠分割的圖像總數量.

Table 6 Experimental comparison of computational performance for ISSbFSL表6 基于像素分類的全監督學習圖像語義分割方法的計算性能實驗對比

從表6中可以看到,各類具體算法的分割速度有較大差異.其中,ENet[34]、ICNet[46]和SegNet[32]這3種算法的運行時間分別為 0.013s、0.033s和 0.06s,分割速度較快,實時性強,適用于實時圖像分割;而 FCN[23]由于在使用雙線性插值算法進行上采樣過程中耗時較長,導致分割速度不高,其運行時間為 0.5s,無法滿足實時圖像分割的需求;DeepLab-V1[25]和DeepLab-V2[26]由于在利用PGM對圖像進行結構化預測過程中計算較為復雜、耗時較長,導致其分割速度較低,也無法滿足實時圖像分割的需求;其他算法的分割速度都比 FCN要低,也同樣無法滿足實時圖像分割的需求,不適用于在線視頻處理和動態場景解析等任務.

4.3.3 ISSbWSL方法的實驗對比分析

ISSbWSL方法的實驗結果對比見表7,主要比較因素有關鍵技術、監督信息、是否使用CRF方法、實驗數據集和評價指標等.在這些方法中,BoxSup[83]、ScribbleSup[87]和WeaklySemi[98]這3種方法在PASCAL VOC 2012數據集上的mIoU都超過了70%,分割準確率較高,是以弱監督學習方式進行圖像語義分割的典型算法.而基于圖像級標注的方法因為僅僅使用帶有種類標注的弱標注數據進行弱監督訓練,分割效果不明顯,分割邊界粗糙且不連續,mIoU都普遍較低.

Table 7 Experimental comparison of ISSbWSL表7 基于像素分類的弱監督學習圖像語義分割方法實驗對比

5 總結與展望

如今,深度學習技術已經廣泛應用到圖像語義分割領域.本文主要對基于深度學習的圖像語義分割的經典方法與研究現狀進行了較為細致的分類、梳理與總結.根據分割特點和處理粒度不同,將基于深度學習的圖像語義分割方法分為基于區域分類的圖像語義分割方法和基于像素分類的圖像語義分割方法,把基于像素分類的圖像語義分割方法進一步細分為全監督學習圖像語義分割方法和弱監督學習圖像語義分割方法.對每類方法的代表性算法進行了研究、分析和對比,并概括總結了每類方法的技術特點和優缺點.在現有研究成果的基礎上,我們總結ISS研究領域的重點問題和發展趨勢,認為該領域還存在如下一些具有挑戰性的研究方向.

(1)應用于場景解析任務的圖像語義分割

場景解析任務處理的圖像背景復雜、環境多變,現有ISSbDL方法無法有效地捕獲圖像的上下文信息和深度語義信息,在識別和分割圖像中目標物體時仍存在較大的困難.文獻[111]把遷移學習的思想引入場景解析任務,將圖像像素特征與詞匯概念相結合,提出一個開放式詞匯解析網絡(the open vocabulary parsing network,簡稱 OVPN).文獻[112]提出一個針對該任務的語境循環殘差網絡(contextual recurrent residual network,簡稱CRRN),通過繼承序列模型和殘差學習,建模遠程語境依賴、學習視覺特征.這些方法目前都存在難以選擇標注基元量化級別、未充分利用場景幾何深度等問題,如何解決這些場景解析中的問題并實現有效分割是一個挑戰.

(2)實例級圖像語義分割

實例級圖像語義分割,有時也稱為實例分割(instance segmentation,簡稱IS),融合了分割與檢測兩個功能,可以分割出圖像中同類物體的不同實例.文獻[113]將多任務學習(multi-task learning)[114]引入分割領域實現實例分割,其分割過程分為3個能夠共享卷積特征的子任務,將上一任務的輸出作為下一任務的輸入,分割時,能夠區分出不同的實例對象.文獻[13,15]對RCNN進行改進后,既能用于ISS,又能用于IS.文獻[115,116]對FCN進行改進,使用滑動窗口或物體框將不同的位置信息編碼到特征圖中,對每個實例進行語義分割.文獻[117]在圖像中使用聚類的方法構建分割樹,并探索不同的實例.文獻[118]使用多示例學習方法結合弱監督學習進行 IS.文獻[119]使用一個可逆的 RNN處理 IS問題.這些方法在分割準確率和算法綜合性能上都有很大的提升空間,如何平衡分割效果與時間復雜度,也是目前亟需解決的問題.

(3)實時圖像語義分割

實時圖像語義分割以極高的分割速率處理圖像或視頻數據,并分析利用各圖像(幀)之間的時空關系,是一種以高分割速率運行的 ISS機制.文獻[34]基于編碼器-解碼器結構,采用分解濾波器策略,使用低階近似將卷積操作分解為更簡單的操作,降低了計算量,初步實現了實時分割.文獻[46]采用逐步提高分割精度的策略,逐漸減少圖像經過的網絡層數,利用級聯特征融合單元來融合高分辨率與低分辨率圖像的特征,提高了分割速度,基本達到了實時分割.實時圖像語義分割常被應用于視頻跟蹤和多目標定位等任務,有巨大的商業價值,但目前的ISS方法大多無法滿足實時分割的速度要求.探索如何進一步提高實時圖像語義分割的速度與精度,是該領域的一個研究熱點.

(4)應用于三維數據的語義分割

目前,大多數 ISS算法以處理靜態圖片數據為主,而針對點云、多邊形網格等三維數據的分割方法卻較少.文獻[120-122]嘗試使用三維卷積神經網絡(3D convolutional neural network,簡稱3D-CNN)對三維數據進行處理.文獻[123]則對3D-CNN進行改進,設計了一個能夠標注點云數據并進行語義分割的3D-CNN.文獻[124]直接以未排序的點云作為輸入數據,提出一個能夠直接對點云數據進行語義分割的 PointNet網絡.三維數據語義分割技術是近年來興起的一項熱門研究,由于三維數據的無序性和非結構化本質,如何合理離散化和結構化這些數據并有效地保留其空間位置信息,仍是一個有待解決的問題.而且,由于三維數據語義分割任務嚴重依賴大量數據集,如何大規模地獲取三維數據并建立相關公共數據集,也是研究者們要努力的一個方向.

(5)應用于視頻數據的語義分割

視頻語義分割是一種基于三維空間的 ISS問題.目前,針對視頻數據的語義分割方法較少.帶有時間序列的視頻數據在語義分割過程中能充分利用二維圖像中的隱含信息,可更好地顯示二維圖像無法展現的時空特征.文獻[125]基于 FCN提出一種有效利用時空信息進行視頻語義分割的循環全卷積網絡(recurrent fully convolutional network,簡稱 RFCN).文獻[126]將視頻數據中的空間特征融入 FCN,提出一種融合時空特征的時空全卷積網絡(spatio-temporal fully convolutional network,簡稱STFCN).文獻[127]則設計了一個定時全卷積網絡(clockwork FCN),使用自適應時鐘信號操縱定時卷積驅動進行視頻分割.未來,研究如何充分利用視頻豐富的時空序列特征具有重要意義;同時,如何從視頻高效抽取高層語義信息也是一個難點.

致謝在此,我們向對本文提出寶貴修改意見的各位同行及評審專家表示感謝.

猜你喜歡
語義特征信息
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 内射人妻无套中出无码| 国产精品密蕾丝视频| 国产一区二区三区在线无码| 成人午夜福利视频| 91久久夜色精品| 精品91自产拍在线| 国产精品无码翘臀在线看纯欲| 精品国产女同疯狂摩擦2| 国产亚洲精品无码专| a级毛片毛片免费观看久潮| 国产精品片在线观看手机版| www.亚洲色图.com| 自慰高潮喷白浆在线观看| 亚洲天堂.com| 三级国产在线观看| 亚洲欧美日韩动漫| 色婷婷亚洲十月十月色天| 午夜精品久久久久久久2023| 亚洲人成网站18禁动漫无码| 国产内射一区亚洲| 视频二区中文无码| 午夜精品福利影院| 亚洲第一视频免费在线| 欧洲精品视频在线观看| 国产无码高清视频不卡| 亚洲国产看片基地久久1024 | 亚洲中文字幕久久无码精品A| 美女毛片在线| 亚洲欧美激情小说另类| 亚洲欧美成人影院| 91九色国产在线| 就去色综合| 国产性精品| 香蕉eeww99国产在线观看| 第九色区aⅴ天堂久久香| 国产乱子伦视频在线播放| 久久精品无码一区二区日韩免费| 欧美日本视频在线观看| 亚洲成年人网| 2020亚洲精品无码| 亚洲综合激情另类专区| 久久永久精品免费视频| 日韩国产高清无码| 国产99免费视频| 午夜福利在线观看成人| 99一级毛片| 无码精品国产dvd在线观看9久| 亚洲天堂日韩av电影| a亚洲视频| 精品视频在线观看你懂的一区| 欧美午夜视频在线| 久久精品亚洲热综合一区二区| 天堂网亚洲系列亚洲系列| 欧美狠狠干| 91欧美在线| 国模在线视频一区二区三区| 久久99国产综合精品1| 国产成人精品一区二区不卡| 一级毛片a女人刺激视频免费| 福利小视频在线播放| 国产精品久久精品| 一区二区自拍| 青草视频在线观看国产| 99re精彩视频| 免费aa毛片| 国产精品一线天| 国产中文在线亚洲精品官网| 日韩在线观看网站| 人妻精品全国免费视频| 国产精品美人久久久久久AV| 制服丝袜无码每日更新| 亚洲日本www| 免费激情网址| 久久久久久久久久国产精品| 在线观看免费黄色网址| 亚洲无码精彩视频在线观看| 丁香亚洲综合五月天婷婷| 爆乳熟妇一区二区三区| AV无码无在线观看免费| 精品夜恋影院亚洲欧洲| 亚洲国产精品日韩欧美一区| 精品少妇人妻无码久久|