999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度學習的圖像實例分割方法綜述

2021-02-04 13:51:50張繼凱呂曉琪聶俊嵐
小型微型計算機系統 2021年1期
關鍵詞:檢測方法

張繼凱,趙 君,張 然,呂曉琪,聶俊嵐

1(內蒙古科技大學 信息工程學院,內蒙古 包頭 014010) 2(內蒙古工業大學,呼和浩特 010051) 3(燕山大學 信息科學與工程學院,河北 秦皇島,066004)

1 概 述

實例分割是計算機視覺領域的一個經典任務,它將整個圖像分成一個個像素組,然后對其進行標記和分類.分類任務就是識別單個對象的圖像是什么,而分割需要確定對象的邊界、差異和彼此之間的聯系.所以,實例分割既具備語義分割的特點,對圖像中的每一個像素進行分類,也具備目標檢測的一部分特點,定位出圖像中同一類的不同實例.通常實例分割要面對多個物體重疊和復雜的背景,這也是為什么實例分割一直是一項挑戰性的任務.以往,實例分割方法的思路可大體分為兩大類,一類是自上而下的基于檢測的方法,在邊界框中處理實例分割,即在邊界框中分割對象.另一類是自下而上的基于語義分割的方法,此類方法可概括為對像素進行標簽預測然后聚類.而SOLO算法[1]的出現,創造了第3類實例分割方法,直接實例分割方法,通過掩膜標簽,對實例分割進行端到端的優化,突破傳統的局部邊框檢測和像素點聚合方法,直接進行像素級別的實例分割.綜上所述,本文針對近幾年基于深度學習的實例分割方法進行分類梳理,整理如圖1所示.

實例分割和物體檢測非常相關,在物體檢測的基礎上,要求分割出物體的像素,所以在一定意義上,目標檢測的發展也影響著實例分割的性能.目前基于深度學習的目標檢測算法可分為包含兩次目標檢測過程的兩階段檢測算法和包含一次目標檢測過程的單階段檢測算法,兩階段檢測算法的精度普遍高于單階段檢測算法的原因是經過兩次目標檢測提升了算法的準確性,但同時也增加了模型復雜度,制約了模型計算效率的提高.單階段檢測算法結構簡單、計算效率高,能夠方便地進行端到端的訓練,在實時目標檢測領域中有很大的應用潛力.最近的一些為實現實時的實例分割方法進而選擇單階段檢測器作為目標檢測框架,推動了單階段實例分割方法的發展.本文首先介紹了實例分割方法的分類,然后介紹了圖2所示的典型算法,并對其模型進行了深入分析,最后對實例分割方法的發展趨勢進行了展望和總結.

圖1 基于深度學習的圖像實例分割方法Fig.1 Image instance segmentation method based on deep learning

圖2 本文重點闡述的圖像實例分割方法Fig.2 This article focuses on the image instance segmentation method

2 自上而下的基于檢測的方法

自上而下的基于檢測的方法是先檢測再分割,先利用先進的檢測器如Faster R-CNN[2]檢測每個實例的區域,然后在每個區域內分割出實例掩膜.基于檢測的方法通常精度較高且依賴于準確的邊界框檢測,計算量很大.

2.1 Mask R-CNN

實例分割不僅要求能準確識別所有目標,還需要分割出單個實例.2017年He等提出 Mask R-CNN[3]算法,該算法是在Faster R-CNN的基礎上添加一個與分類和邊界框回歸分支并行的掩膜分支來預測分割掩膜.Faster R-CNN是在R-CNN[4]系列算法的基礎上提出RPN網絡來得到準確的候選區域,是一個實現多物體分類與定位的端到端檢測模型.由于Faster R-CNN的輸入輸出網絡采用的是ROIPool,在計算映射坐標時進行了四舍五入,導致ROI與提取的特征不對齊,這對預測像素級的掩膜有很大影響.針對取整誤差,Mask R-CNN提出RoIAlign層來消除RoIPool的量化誤差,使用雙線性插值來更精確地找到每個塊對應的特征,從而正確地將提取的特征與輸入對齊.

繼Mask R-CNN之后,Masklab[5]加入了方向特征用于分割同一類別的實例,利用方向預測估計每個像素與其對應的實例中心的方向,實現分割同一語義類的實例.PANet[6]引入了自底向上的路徑增強、動態特征池化和全連接層融合,以提高實例分割的性能.Yan等使用Mask R-CNN模型提取目標肺結節邊緣像素坐標,并引入Sobel算子來加強邊緣像素點的檢測,然后使用閾值分割的方法進行降噪,增強了模型對細小肺結節的分割效果[7].針對復雜物體分割缺失嚴重,邊緣不清晰等問題,Zhan等提出一種結合多種圖像分割算法的實例分割方案,得到更加精細的分割掩膜[8].雖然Mask R-CNN及其改進在實例分割和檢測精度方面具有很好的效果,該類算法最大缺陷是檢測速度難以滿足實時的需要,其次mask分支的分辨率被固定在一定的尺寸導致其產生的掩膜較粗糙,難以應用在實際中.

2.2 Mask Scroing R-CNN

針對Mask R-CNN算法中采用分類置信度作為評價掩膜的質量分數,但掩膜的分割質量與分類置信度沒有太強的關聯,所以Mask Scroing R-CNN[9]采用預測掩膜與標注掩膜的交并比MaskIoU來描述掩膜的分割質量,并添加一個新的分支MaskIoU Head,將預測的MaskIoU和分類的分數相乘得到掩膜分數,該分數既能識別語義類別,又能識別實例掩膜的完整性.通過掩膜打分從而預測出實際掩膜的質量分數,使網絡優先輸出更完整的掩膜,進而提高實例分割的性能.Mask Scroing R-CNN簡稱MS RCNN,網絡框架如圖3所示.

該方法的改進不同于之前對實例定位或分割掩膜的改進,而是側重于對掩膜進行打分,通過校正掩膜質量和掩膜評分之間的偏差,使網絡優先考慮更準確的掩膜預測.缺點是具有較高分類分數的低質量掩膜會影響重疊對象的分割性能,因為網絡會將重疊部分分配給分類得分較高的掩膜.Liu等受到Mask Scoring RCNN的啟發,設計了一個簡潔的掩膜質量分支,將前景得分圖與ROI特征圖融合來預測掩膜的質量,減輕了預測掩膜質量與分類分數之間的不一致,提高了分割精度[10].Kang等提出了評分掩模,通過假邊界和真邊界之間填充不同值來更有效地學習邊界以提高實例分割的性能[11].雖然給掩膜打分比較新穎,對后續工作也有一定的啟發意義,但新增的打分分支導致掩膜與檢測分支相關,使掩膜受限于box.

2.3 PolarMask

兩階段的實例分割方法精度高但速度較慢,為提高分割速度,單階段的實例分割方法相繼提出.InstanceFCN[12]網絡通過一組實例敏感的得分圖,使用組裝模塊在滑動窗口中生成實例.TensorMask[13]使用結構化的4D張量表示空間域上的掩膜,研究了密集滑動窗口的實例分割范式.相較于逐像素的密集回歸方法,利用極坐標的方法預測輪廓的點來分割實例的方法更簡潔,Schmidt等利用極坐標表示法檢測顯微圖像中的細胞[14],ESESeg[15]方法使用極坐標對實例進行建模.受其上的兩種方法的啟發,Xie等提出單階段實例分割方法PolarMask[16],在無錨框的目標檢測算法FCOS[17]的基礎上進一步細化邊界輪廓,使其適用于掩膜分割任務.該算法基于極坐標系對輪廓進行建模,且輪廓上的點由距離和角度確定,由于預先設置了角度間隔,網絡僅需要預測出射線長度,根據樣本中心和射線長度,計算出相應輪廓點的坐標,然后由樣本中心從0°出發,連接每一個輪廓點,最終得到目標的輪廓及其掩膜如圖4所示.

圖3 Mask Scroing R-CNN網絡結構Fig.3 Mask Scroing R-CNN network structure

圖4 PolarMask輪廓及掩碼生成Fig.4 PolarMask contour and mask generation

該方法是將實例分割轉化為兩個并行任務:實例中心點分類和密集距離回歸來共同預測實例輪廓.為了進一步優化正樣本采樣和密集距離損失函數,提出Polar CenterNess和Polar IoU Loss.Polar CenterNess為預測的極中心點分配權重,權重乘以分類分數來挑選出高質量的正樣本,使射線的回歸距離更加準確.Polar IoU Loss近似計算出預測掩膜與標注掩膜的交并比來優化掩膜的回歸,使掩膜分支快速且穩定收斂.雖然構思巧妙,對后續的實例分割研究有啟發意義,但缺點是使用極坐標預測的多邊形掩膜比真實掩膜要粗糙,且只能描繪出單個實例的輪廓.針對PolarMask對非圓形物體預測的中心居中度低的問題,Benbarka等提出歸一化中心度來保留非圓形物體的位置并增加被預測的可能性[18].受到Polarmask多邊形分割的啟發,Hurtik等提出在特定的邊界框中學習與大小無關的多邊形輪廓,并且多邊形頂點的數量可以動態調整以便精確分割形狀復雜的物體[19].

2.4 YOLACT

計算機視覺中學習模板的方法應用廣泛,文獻[20,21]設計了表示特征的原型模板進行目標檢測,而在實例分割領域中YOLACT[22]也利用不同模板組合進行實例分割.YOLACT類似于SSD[23]和YOLO[24]系列對彌補目標檢測無單階網絡所做的工作,致力于填補實例分割單階段網絡的空白.YOLACT在單階段檢測器上添加一個掩膜分支來分割實例,且不添加特征定位步驟如repooling,得到更為精細的分割掩膜.

YOLACT為每張圖片生成k個原型掩膜并預測k個掩膜系數,一個系數對應于一個原型掩膜.將正/負掩膜系數線性組合原型掩膜得到最后的預測結果.YOLACT網絡結構如圖5所示.為了提高并行分支的運算速度,YOLACT提出了一種Fast NMS算法代替傳統的NMS,使用矩陣表示候選框的得分并同時能刪除多個低于閾值的候選框,對精度影響較小的同時加快了NMS的計算速度.

由于YOLACT的實時性和通用性,Bak等采用YOLACT對電影中的視頻幀先進行語義分割,然后使用CNN[25,26]對鏡頭分類,實現對各種電影的分析與分類[27].Konya等通過YOLACT技術對X射線的腰錐骨進行分割,其分割的準確性較高且視覺效果好并能分割重疊的椎骨,為臨床醫學決策提供支持[28].Zheng等提出完全IoU損失和Cluster-NMS來增強邊界框回歸和非最大抑制中的幾何因素,并在實時分割框架YOLACT中應用,進一步提高平均精度和平均召回率的同時保持實時的推理速度[29].

2.5 YOLACT++

為進一步提高YOLACT的實時精度,作者又提出了YOLACT++方法[30],在進一步提高檢測精度的同時降低了一點速度.從3個方面進行改進:a)主干網絡中引入可變形卷積[31],通過與目標實例對齊來增強網絡對不同尺度、旋轉角度和縱橫比實例的處理能力,實現網絡對特征的靈活采樣;b)優化預測頭,當畫面某個位置存在多個重疊的實例時,為準確地進行實例分割,引入覆蓋更多比例的anchor,以獲得更大的召回率;c)受到Mask Scoring R-CNN的啟發,在網絡中引入了圖6所示的6個卷積層和一個全局池化層構成的fast mask re-scoring分支,將框的質量和掩膜質量結合.來對預測的掩膜進行綜合排序,得到按分割質量排序的掩膜,消除了預測掩膜的排序僅僅依靠于關聯不大的分類置信度.

圖5 YOLACT網絡結構Fig.5 YOLACT network structure

圖6 Fast mask re-scoring網絡結構Fig.6 Fast mask re-scoring network structure

前兩種改進使得YOLACT ++受定位失敗的影響較小,第3種改進使得掩膜的排序更為合適,保證了輸出的目標掩膜具有最佳的質量.在COCO數據集上,該模型以33.5fps的速度達到34.1mAP,達到實時的同時較YOLACT提升了性能.

2.6 BlendMask

BlendMask[32]借鑒了YOLACT方法中的掩碼bases加權求和,結合了自上而下和自下而上的方法的思路,設計了一個blender模塊,將高層特征提供的全局語義信息和較低層特征提供的位置信息融合,使網絡學到了更加豐富的特征表示.在COCO數據集上BlendMask達到了41.3mAP,在精度和速度上都超越了Mask R-CNN.

BlendMask架構包括檢測網絡和mask分支,網絡結構如圖7所示,檢測網絡是采用的基于anchor-free的FCOS目標檢測模型,mask分支包括:底部模塊提取底層的細節特征,預測score maps;top layer用于預測實例的attentions,學習一些實例級信息,指導score maps捕獲位置敏感信息并抑制外部區域,起到實例感知指導的作用;blender module整合分數以及attentions,融合特征以得到高質量的分割掩膜.該方法的優點是簡化了全局特征圖表示,減少了所需的通道數,輸出分辨率不受頂層采樣的限制,產生高質量的掩膜.

圖7 BlendMask 網絡結構Fig.7 BlendMask network structure

3 自下而上的基于語義分割的方法

自下而上的基于分割的方法是先對每個像素的類別標簽進行預測,然后將其分組形成實例分割結果.此類方法是學習一個關聯程度,對每個像素點都賦予一個embedding 向量,該向量能將不同實例的像素點拉開,相同實例的像素點拉近,然后使用聚類后處理方法,將實例區分開來.通常基于分割的方法依賴于逐像素點的embedding學習和聚類后處理.

3.1 SGN 用于實例分割的序列分組網絡

針對實例分割任務的復雜性,SGN[33]將實例分割分解為一系列的子任務,由一系列神經網絡來完成特定的子任務,然后將這些任務組合生成最終的分割掩膜.借鑒分水嶺算法[34]產生與目標實例相對應的連通分量和Kirillov等提出的邊緣輪廓來分割物體[35]的想法,將SGN網絡設計為3個部分,第一個網絡在水平和垂直方向上掃描圖片,將行列的斷點像素連接成水平和垂直分割線.LineNet網絡將水平和垂直分割線合并到屬于同一個標注實例內部連通的實例組件上.MergerNet網絡將線組成的實例部件組合成最終的實例掩膜,對于遮擋造成的實例的切割,將碎片實例合并成目標實例,解決了某一實例的零散碎片被當成單獨實例的分裂問題.網絡結構如圖8所示.

該方法的優點是實現了任務分解,缺點是沒有實現端到端的訓練且每一個子任務都是順序執行,再進行合并生成最終的實例,花費時間的開銷較大.受到任務分解思路的影響,WISE網絡[36]將實例分割分為定位分支和嵌入分支,分別得到每個對象的位置和其屬于的實例,并將像素分組形成完整的實例掩膜.與SGN通過幾個子網分別學習并依靠獨立的步驟來獲得最終結果不同,Gong等提出一個部位分組網絡[37]來分析圖像中的人員,通過語義部位分割來識別像素屬于的人體部位,實例邊緣檢測將分割的人體部位分配給對應的人體,使用統一的網絡以端到端的方式共同優化了兩個相關的任務.

圖8 順序分組網絡Fig.8 Sequential grouping networks

3.2 基于判別損失函數的語義實例分割

在實例分割任務中,度量學習在圖像分類任務中經常用于判斷兩個樣本之間的相似性,如Chopra等通過學習相似性度量來對新樣本進行分類[38],Schroff等提出三元組損失函數[39],該函數利用特征空間上的點的距離對樣本分類.文獻[40-43]使用度量學習來學習嵌入,以確保來自同一實例的像素具有相似的嵌入,對學習到的嵌入執行聚類以獲得最終的實例標簽.其中代表性的是Brabandere等提出一種基于度量學習原理的判別損失函數[43]來代替語義分割中softmax損失,使同實例物體中的像素映射到高維空間后得到的embedding 向量之間的距離相近,不同實例的embedding 向量之間的距離較遠.該損失函數包括:拉力,將同一實例中的所有像素點拉近到嵌入空間中的同一個點,懲罰同一實例中所有元素與其平均值之間的距離;推力,將每一個聚類的中心點推的更遠;正則化,將各聚類的中心點盡可能靠近原點.

該方法的優點是通過對損失函數的優化,使屬于同一實例的像素靠在一起,而不同的實例以較大的間距分開,并可以處理復雜的遮擋且不依賴目標候選區域或遞歸機制.但該方法的缺點是,與一張圖片中只含同一類別的多個實例相比,一張圖片包含多個類別的實例分割效果不佳.隨后,Kulikov等提出訓練著色網絡進行實例分割,同一對象的像素著相同顏色,不同但相鄰實例的像素著不同顏色[44],與文獻[43]相比,使用分類學習和基于連接組件的后處理代替了度量學習和基于聚類的后處理,簡化了流程.Neven等提出聚類損失函數[45]使屬于該對象的像素指向該對象中心周圍的特定區域,并共同學習特定實例的聚類帶寬,從而最大程度地提高了所得實例掩膜的交并比.

3.3 SSAP

基于提議的方法易受邊框預測的準確性的影響,文獻[41,45]采用基于語義分割的無提議方法通過實例嵌入來區分實例,使屬于同一實例的點在嵌入空間中是較接近的,而屬于不同類別的點在嵌入空間中是遠離的,避免了基于提議的方法中的邊界框對實例分割框架的影響.受到Liu等提出的學習實例感知的親和力并通過聚類將像素分組為實例[46]的啟發,Gao等提出一種單階段的無提議實例分割方法SSAP[47],通過學習像素對的親和力金字塔來學習兩個像素屬于同一實例的概率,使用語義分割和親和力金字塔聯合學習生成多尺度實例預測,然后通過級聯圖分區順序生成實例,將兩階段合并為一階段,有效減少計算成本,加快運行速度.網絡結構如圖9所示.

圖9 SSAP網絡結構Fig.9 SSAP network structure

親和力分支學習親和力金字塔,語義分支沿著解碼器網絡的層次結構進行語義分割.親和力金字塔從較高的分辨率圖像中學習近距離的親和力,即學習小實例的預測或大實例的局部預測;從較低分辨率圖像中學習遠距離的親和力,即學習較大實例的預測,進而在不同分辨率下生成的多尺度親和力金字塔.級聯圖分區模塊將圖分區機制與金字塔的層次方法結合,利用親和力金字塔和語義分割聯合學習的多尺度預測,圖分區從親和力金字塔及其相應的語義分割特征圖的最頂層開始逐步完善實例預測,高層的低分辨率特征圖生成的候選區指導低層的高分辨率的實例預測,順序生成實例預測.該方法實現了單階段實例分割,速度和精度都有提升,但每一個分辨率下都產生多尺度預測較占用內存.

3.4 Deep Snake

基于輪廓的圖像分割方法利用對象邊界的頂點組成物體形狀,利用輪廓進行對象分割.傳統的蛇算法如文獻[48-51]通過人工設計的能量函數優化輪廓坐標,將初始輪廓變形到對象邊界.文獻[15,52]提出基于學習的方法不同于迭代優化輪廓的傳統蛇算法,而是嘗試從RGB圖像中回歸輪廓點的坐標,提高了輪廓分割的速度.由于已有的基于輪廓的方法不受到bbox準確性的限制且含有更少的參數量,但無法完整地探索輪廓的空間拓撲結構.Peng等受到Kass傳統蛇算法[48]及蛇算法改進[53]的啟發,提出Deep snake[54]算法提取圖像頂點的特征,回歸出每個頂點處的偏移量以逐步調整輪廓來逼近物體邊界.該算法引入了循環卷積來處理輪廓頂點,基于學習到的特征得到每個頂點需要調整的偏移量以盡可能準確地包圍實例,而后通過迭代得到更為精確的輪廓邊界來提高目標邊緣的預測精度.雖然基于輪廓的方法實現了32.3 fps實時性能,但要迭代3次才能預測出準確的偏移量來提高預測的精度.

圖10 Deep snake 算法分割過程Fig.10 Deep snake algorithm segmentation process

4 直接實例分割法

不像自上而下的方法依賴于準確的邊框檢測,受到錨邊框位置與尺度的限制,也不像自下而上的方法依賴于嵌入學習,需后處理流程,直接實例分割法是直接分割例的掩膜,直接學習實例掩膜的標簽,端到端地預測實例的掩膜與語義類別,無需邊框和聚類操作,實現端到端地優化.

4.1 SOLO算法

不同于自上而下的方法學習邊框中的掩膜和自上而下的方法學習像素對之間的關系,SOLO網絡一次性地對物體進行預測而不需要先用RPN來對建議區域進行提取,預測每個像素所在物體的實例類別,實例類別是量化后的物體中心位置和物體的尺寸,將回歸問題轉化為分類問題,通過固定個數的通道對不同數量的實例進行建模,且不依賴于后處理方法如聚類操作或 embedding 學習,算法更簡單、靈活.

SOLO模型的思想是將圖片劃分成S×S的網格,如果物體的中心落在了某個網格中,那該網格就有兩個任務:a)由分類分支負責預測該物體的語義類別;b)掩膜分支負責預測該物體的實例掩膜.模型框架如圖11所示.SOLO在骨干網絡后面使用了FPN[55],FPN的每一層后都接上述兩個并行分支,進行類別和位置的預測.每個分支的網格數目因實例大小也相應不同,小的實例對應更多的的網格,將所有網格的結果匯總得到該圖像的實例分割結果.該算法的實驗結果也非常可觀,在 COCO 測試集上AP達到了37.8%,在精度上超越了兩階段算法Mask R-CNN和之前所有的一階段算法.針對SOLO算法僅使用2D位置區分不同的實例,對重疊物體的分割性能不佳,Zeng等提出通過預測實例重心和以重心為中心的4D向量來區分對象的重疊部分[56],利用兩物體4D向量表示的邊框不同,通過計算候選對象邊界框的IoU,實現重疊部分的像素分類.

圖11 SOLO模型的框架Fig.11 Framework of SOLO

4.2 SOLOv2

SOLOv2[57]在SOLO算法的基礎上進行了兩點改進,一個是mask分支,另一個是提出了NMS矩陣代替了SOLO算法中的NMS.在SOLO算法中即使將mask 分支頭部解耦,但仍然存在頭部信息參數數量較大且預測結果冗余的問題.所以SOLOv2提出將mask頭部分解為內核分支和特征分支,mask頭部結構如圖12所示.內核分支和特征分支進行卷積提取特征,生成掩膜,掩膜數最多的時候是每個網格都有目標出現.這種卷積方法初步過濾掉一些沒有目標的網格,為后續減少了計算.極大值抑制矩陣計算預測掩膜之間的交并比,根據閾值利用交并比矩陣刪除掩膜分數低的重疊率高的掩膜,并行對多個掩膜進行計算,提高了極大值抑制算法的速度.

圖12 SOLOv2 mask 頭部Fig.12 SOLOv2 mask head

SOLOv2提出的根據輸入動態地學習內核權重的動態頭部和同時處理多個掩膜進而更新多個掩膜分數的矩陣運算,使得SOLOv2在ResNet-101主干網絡中掩膜mAP達到了39.7%.

5 實例分割算法的實驗對比

本節首先介紹一下實例分割算法常用的公開數據集,然后對當前算法常用的性能評估指標進行闡述,最后對比分析當前實例分割算法及其改進算法的性能.

5.1 實例分割相關數據集

在圖像分割領域中,2D數據集數據量豐富、應用廣泛,并帶有像素級標簽,大多數研究也主要使用2D數據集,表1列舉了實例分割算法中廣泛使用的數據集,以便讀者快速瀏覽.但在數據量較小的領域如醫學,常使用數據增強來增加樣本的數量,通過對圖像進行平移、反轉、變形、色彩空間轉換等增加訓練樣本的數量.事實證明,在有限的數據集中(如醫學圖像分析中的數據集)數據增強可以提高模型的性能,有利于加快收斂速度,減少過擬合以及增強泛化能力.表1展示了實例分割算法中常用的公共數據集.

表1 常用的圖像實例分割公共數據集Table 1 Commonly datasets for instance segmentation

5.2 實驗結果分析與對比

目前,實例分割算法的實驗性能可以從多個方面進行評估,比如精度、速度和內存占用.在精度方面采用AP作為評價指標,AP表示掩膜平均精度,取IoU閾值的平均值,不同下標表示在不同計算條件下得到的計算結果,如AP50和AP75分別表示以 IoU 閾值為50%和75%時的計算結果,APS、APM和APL分別表示針對小、中、大物體的計算結果.速度是決定實時應用的重要條件,通常取決于硬件和實驗條件,表2采用fps衡量算法每秒分割圖像的幀數.如果模型用于內存容量有限的設備,則內存占用空間也很重要.

表2 不同算法的分割速度比較Table 2 Speed analysis of algorithms

表2列舉了具有代表性算法的精度和速度,通過對比發現,自上而下的方法的分割精度相對較高,但分割速度有較大差異.硬件設備影響著實驗的速度,為了對各硬件的性能有大致的了解,本文以V100為基準,與其他顯卡進行性能比率的換算,以便讀者了解硬件對速度的影響.通過分析,發現Mask R-CNN及其改進算法、TensorMask、RetinaMask的分割精度較高但其實時性不強,YOLACT和BlendMask算法在保持較高精度的同時加強了網絡的實時性,Box2Pix和EOLO 方法采用了簡潔輕巧的特征提取網絡加快了分割速度但沒有實現高效的分割效果.而自下而上的方法大多采用了后處理技術,其實時性能和精度較差,但最近推出的Deep snake和EmbedMask算法進一步追求精度的同時兼顧速度.直接實例分割方法使用特征圖的通道來直接預測實例蒙版且不依賴于后處理方法,精度和速度具佳.隨著進一步研究的發展,在保持精度的同時其實時性也成為進一步追求的目標.

表3 不同實例分割算法的性能Table 3 Performance of different instance segmentation algorithms

表3展示了實例分割算法在常用數據集上的分割精度,通過對比,在分割大物體方面,算法的分割效果差異不大.在分割小物體方面,由于小物體比大物體更難檢測,算法分割效果不盡相同,其中PANet和BlendMask的精度優于其他算法,主要原因是利用了特征融合來加強了細節特征的表示.綜合來看,Mask R-CNN及其改進算法MS R-CNN、PANet在精度方面依舊保持領先位置,BlendMask使用了多次信息融合進一步提高了準確性,超越了實例分割基準Mask R-CNN.文獻[33]和文獻[43-45]相比于自上而下的方法在精度方面不占優勢,主要原因是過度依賴密集預測的質量,對于類別較多的復雜場景泛化能力有限,需要復雜的后處理技術,但該方面的研究仍在進一步的探索來提高準確率且其構思一直啟發著后續的研究.SOLO系列算法不受錨的位置的影響,引入“實例類別”的概念將實例掩膜分割問題轉換為一個分類問題,在精度方面超越了Mask R-CNN的同時速度也達到了實時,SOLO算法是目前在分割性能和實時性之間達到均衡的最先進的算法.為了更直觀的表述典型算法的核心,表4對典型算法的網絡特點進行了描述,并根據應用場景對算法進行了對比分析,詳細介紹如表4所示.

6 結 語

6.1 總 結

本文從算法特點方面綜述了一些較為突出的圖像實例分割方法,對算法進行了分類、梳理并對比了其在常用數據集上的分割效果.分析結果表明,自下而上的方法的精度要落后于自上而下的方法,尤其當數據集的場景和語義類別非常多樣時,而且自下而上的方法需要非常復雜的后處理技術,這也在一定程度上限制了自下而上的研究工作的發展.直接實例分割方法采用區分位置信息的方式,簡化了實例分割的過程,提高了分割性能.直接實例分割方法未來有很大的進步空間,利用實例的位置信息和尺度信息,來區分出不同的實例,推動了實時實例分割方法的發展,會給物體檢測與實例分割帶來新的突破.面對未來應用需求更加豐富,對基于深度學習的圖像實例分割的探索和研究仍有進一步提升的空間.

表4 不同網絡模型的特點分析Table 4 Analysis of the characteristics of different network models

6.2 展 望

自上而下的實例分割研究比較多,由追求精度的兩階段向追求速度的單階段發展,自下而上的實例分割方法在盡量減少后處理的同時也在追求速度,雖然自下而上的研究相對較少,但其提供了巧妙的思路,對后面的研究有啟發性.直接方法的出現是一種新的思路,有很大的發展與探索空間.針對實例分割問題,仍有待解決的問題值得進一步探究和優化,未來的研究工作可參考如下幾個方面:

1)針對重疊物體的分割

在一些挑戰性的數據集上,圖像中某一區域存在多個重疊的實例時,網絡通過學習但沒有將其正確的分割,盡管有些網絡通過引入覆蓋更多比例的錨點、在主干中應用可變形卷積等以更好地進行特征采樣,但還是不夠精確,所以如何改進網絡對重疊物體的分割有很大的研究意義也是目前研究急需解決的難點之一.

2)針對遮擋而導致對象分裂的問題

由于遮擋使得一個物體被分成多個部分,造成實例的碎片化,比如在Cityscapes數據集上汽車被桿子遮擋造成汽車被分割的情況就很常見.目前的碎片合并方法計算量大,結構復雜又費時,準確性也沒有達到預期的效果,所以針對遮擋造成實例分裂問題,如何提高網絡對實例碎片化處理有進一步的研究價值.

3)針對邊緣輪廓優化問題

針對一些輪廓復雜的特征實例,普遍對邊界區域的分割較為模糊、不夠精細.Alexander學者觀察到分割不準確的部分大多物體的邊緣,提出PointRend網絡[69]對預測出來的mask中選擇Top N個最模糊的點進行預測,以恢復更精細網格上的細節分割,細化了邊緣輪廓的分割.雖然邊緣只占了整個物體中非常小的一部分,但優化物體邊緣對提高分割質量至關重要.精細的分割仍是實例分割所追求的目標,精細的邊緣輪廓分割也是研究的重點之一.

4)針對單階段目標檢測算法性能優化

由于實例分割方法以目標檢測算法為基礎,準確的目標檢測算法有利于實例分割性能的提高,所以目標檢測算法的研究改善也在一定程度上促進了實例分割的發展.但近年來,anchor-free方法的目標檢測網絡容量更小、超參數更少、速度更快、準確率更高,選擇和改進基于anchor-free單階段檢測器的實例分割方法來實現實時性是后續發展的重要方向.

5)信息融合

BlendMask將高層級粗糙的實例信息和低層級的細粒度信息融合起來,使網絡學到了更加豐富的特征表示.高層感受野大,具有豐富的語義信息,低層有很多局部信息,能提供更多的細節信息.所以,信息融合使得分割結果更好.如何更好更簡潔的進行信息融合,讓網絡學習到更好的特征值得進一步研究.

6)針對實例嵌入的優化

對于生成大量的逐像素點的嵌入特征,使用一些聚類等方法來組合特征的策略,優點是通過逐像素點的預測,局部一致性和位置信息很好地保留了下來.其缺點是過于依賴密集預測的質量,造成掩膜的割裂與錯誤連接,導致性能不佳.如何優化實例像素的嵌入進而提高自下而上的方法的精度,對提高模型的性能起重要作用.

猜你喜歡
檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
學習方法
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 欧洲日本亚洲中文字幕| 国产欧美日韩18| 亚洲最大综合网| 精品欧美视频| 亚洲国产清纯| 国产精品国产三级国产专业不 | a毛片免费观看| 蜜臀AV在线播放| 国产欧美性爱网| 免费国产福利| 亚洲中文字幕无码爆乳| 这里只有精品免费视频| 天堂在线www网亚洲| 婷婷99视频精品全部在线观看| 久久伊人久久亚洲综合| 欧美性色综合网| 超级碰免费视频91| 国产一区二区在线视频观看| 亚洲精品在线91| 亚洲天堂日本| 中文字幕亚洲精品2页| 国产精品久久久久久久伊一| 无码电影在线观看| 国产一区二区三区在线观看视频 | 国产一级妓女av网站| 国产农村精品一级毛片视频| 一区二区无码在线视频| 中美日韩在线网免费毛片视频| 欧美福利在线| 丝袜美女被出水视频一区| 国产日韩精品欧美一区灰| 亚洲综合激情另类专区| 激情综合五月网| 国产91精品最新在线播放| 亚洲va在线观看| 欧美一级色视频| 啪啪永久免费av| 91视频99| 国产传媒一区二区三区四区五区| 国产大全韩国亚洲一区二区三区| 青青青视频91在线 | 正在播放久久| 特级精品毛片免费观看| 亚洲人成电影在线播放| 精品国产欧美精品v| 婷婷亚洲最大| 国产成人精品一区二区三区| 尤物视频一区| 欧美一区二区精品久久久| 色婷婷综合激情视频免费看| 久久黄色一级片| 国产精品成人观看视频国产 | 欧美中文一区| 老司机精品久久| 免费国产在线精品一区| 国产乱肥老妇精品视频| 99视频全部免费| 乱人伦视频中文字幕在线| 尤物特级无码毛片免费| 黄色网站不卡无码| 日韩免费毛片视频| 狠狠色狠狠色综合久久第一次| 乱人伦中文视频在线观看免费| 一级爆乳无码av| 欧美一级高清免费a| 亚洲人成在线精品| 国产小视频在线高清播放| 女人18毛片久久| 国产啪在线91| 国产精品漂亮美女在线观看| 亚洲最猛黑人xxxx黑人猛交| 精品国产黑色丝袜高跟鞋| 亚洲国产欧美自拍| 国产亚洲精品97在线观看| 精品自窥自偷在线看| 成人免费午夜视频| 国产一级无码不卡视频| 色综合手机在线| 青草视频网站在线观看| 综合社区亚洲熟妇p| 久久大香香蕉国产免费网站| 激情六月丁香婷婷|