999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于無錨框分割網(wǎng)絡改進的實例分割方法

2022-09-15 06:59:32劉宏哲李學偉
計算機工程 2022年9期
關鍵詞:特征提取特征方法

劉 騰,劉宏哲,李學偉,徐 成

(1.北京聯(lián)合大學 北京市信息服務工程重點實驗室,北京 100101;2.北京聯(lián)合大學 機器人學院,北京 100101)

0 概述

隨著深度學習的發(fā)展,卷積神經網(wǎng)絡受到人們越來越多的關注,并取得一定的進展,基于深度學習的實例分割方法被提出。與目標檢測方法和語義分割方法相比,實例分割方法不僅能預測每個實例的位置,而且可以對目標進行像素級分割,并適用于自動駕駛場景中,為自動駕駛決策提供預處理信息。

實例分割方法主要有兩階段范式、單階段范式、自上向下和自底向上范式。Mask R-CNN[1]及其改進網(wǎng)絡根據(jù)自上向下的兩階段范式,通過候選框來檢測目標區(qū)域并微調候選框,在每個候選框中進行分類以生成邊界框和目標掩膜。兩階段范式能提高分割準確性,但依賴于多個分支和較大的參數(shù)計算,導致實時分割困難。基于錨框的單階段目標檢測方法主要有YOLO[2]和RetinaNet[3],無錨框的檢測方法有FCOS[4]和CenterNet[5]等。單階段實例分割主要在目標檢測網(wǎng)絡的基礎上增加分割分支來實現(xiàn)實例分割,在保證分割速度的同時具有較高的分割精度。

單階段、無錨框的分割方法具有檢測器架構簡單且無需預先生成錨框的特點,大幅加快算法的運行速度。但是該方法存在尺度不對齊、區(qū)域不對齊和任務不對齊的問題。許多無錨框實例分割方法多采用ResNet與特征金字塔(Feature Pyramid Network,F(xiàn)PN)相結合的結構來學習多尺度特征,以實現(xiàn)特征提取的尺度不變性,然而不同尺度的層級特征也有所區(qū)別,造成大目標特征覆蓋小目標特征,導致特征提取不充分。無錨框方法缺少兩階段檢測器中的ROI-Align 操作,因此,無法準確獲取目標區(qū)域,需要從特征圖上直接學習到目標的位置信息和輪廓特征。大多數(shù)無錨框實例分割方法并行通過類別分支和掩膜分支進行圖像分割,分割結果需要平衡兩個分支的任務,容易忽略類別分支對掩膜分支的指導作用。

本文提出基于無錨框分割網(wǎng)絡改進的實例分割方法。通過構建編碼-解碼特征提取網(wǎng)絡,提取高分辨率特征,利用空洞卷積代替普通卷積以擴大感受野,同時采用合并連接方式融合特征。在此基礎上,將注意力機制引入到類別分支中,設計信息增強模塊,并將信息共享給掩膜分支,從而改進網(wǎng)絡的分割效果。

1 相關工作

現(xiàn)有實例分割方法多基于目標檢測方法進行改進,傳統(tǒng)的特征提取網(wǎng)絡結構如圖1 所示。

圖1 傳統(tǒng)的特征提取網(wǎng)絡結構Fig.1 Structure of traditional feature extraction network

1.1 單階段目標檢測方法

主流目標檢測方法包括單階段和兩階段目標檢測。

兩階段目標檢測方法主要有Fast R-CNN[6]、Faster R-CNN[7]、YOLO[8-9]、SSD[10]等。該方法多基于區(qū)域建議網(wǎng)絡提取感興趣的區(qū)域,這種處理限制模型的推理速度。而單階段目標檢測方法直接通過主干網(wǎng)絡提取目標的類別和位置信息,推理速度相較于兩階段目標檢測方法更快。在此基礎上,無錨框目標檢測方法被提出。在YOLO 檢測方法中,圖像被分成S×S的網(wǎng)格,同時預測包圍框和物體的中心,并直接對每一個網(wǎng)格中的潛在目標進行分類和回歸。文獻[11]將YOLO 網(wǎng)絡結構用于行人檢測,通過聚類分析選取初始候選框,利用重組特征圖和擴展橫向候選框數(shù)量構建基于YOLO 網(wǎng)絡的行人檢測器YOLO-P。CenterNet[5]基于關鍵點估計原理對中心點進行預測,并直接回歸出目標的寬、高(W,H)向量來構建目標的邊界框,從而避免在訓練過程中處理大量的候選區(qū)域和計算真值框與預測框的交并比(IoU)所帶來的計算開銷。在此基礎上,通過最大池化提取中心熱圖上的峰值點,以避免采用非最大抑制(NMS)進行后處理。FCOS 是一種基于全卷積網(wǎng)絡(FCN)[12]的逐像素目標檢測方法,并提出以中心點位置來進行檢測的方法。該方法通過一個四維向量定義邊界框,并計算預測中心以及從中心到邊界框左、上、右、下的距離,不僅有助于確定物體的大小,還可以區(qū)分兩個或多個物體之間的重疊部分。

1.2 兩階段實例分割方法

全卷積分割網(wǎng)絡的提出促進了語義分割和實例分割方法的發(fā)展,并基于編碼-解碼特征提取網(wǎng)絡結構,大幅提高網(wǎng)絡的卷積效率。

Mask R-CNN 采用自上而下的方法,在一個建議區(qū)域內確定像素與物體之間的關系,利用Fast R-CNN 進行目標檢測,并通過添加額外的分割分支進行實例分割任務。因此,Mask R-CNN 有分類、坐標回歸和分割三個輸出分支。該方法在目標檢測結果的基礎上對候選區(qū)域的目標進行像素級分割,以提高實例分割的準確性,但采用復雜的特征金字塔結構進行特征提取,增加了網(wǎng)絡的復雜度。FCIS[13]是第一個端到端的實例分割網(wǎng)絡,通過對目標實例的分數(shù)進行映射,以自上而下的方式引入上下文信息,并在分割任務中充分共享上下文信息,提高實例分割的準確性。BlendMask[14]通過FCOS 目標檢測網(wǎng)絡獲得目標的位置后,在對應每一個建議區(qū)域上基于特征注意力機制,將頂層信息和底層信息相結合,最終輸出一個高分辨率的掩膜。該方法在提高分割精度的同時增加了計算復雜度。文獻[15]在Mask R-CNN 的基礎上,采用輕量級骨干網(wǎng)絡減少網(wǎng)絡參數(shù)并壓縮模型體積,通過優(yōu)化FPN 與骨干網(wǎng)絡的卷積結構,使得高層和低層結構之間的特征信息能夠完整傳遞。文獻[16]在Mask R-CNN 基礎上引入自下而上路徑和注意力機制進行目標檢測和分割。

兩階段實例分割方法具有較優(yōu)的分割精度,但是分割速度難以滿足現(xiàn)階段的應用場景要求。

1.3 單階段實例分割方法

兩階段實例分割方法主要是在一個邊界框中進行實例分割,屬于典型的自上而下范式。自上向下和自下向上方法都是在尋找對象與像素之間的關系,即語義與像素之間的關系。近年來,實例分割方法的整體結構趨向于簡單化,在不增加復雜計算量的情況下提高目標分割性能。因此,自底向上的方法應運而生,通過將像素分組到圖像中的一組候選掩膜中,再通過嵌入、聚集和組合來生成最終的實例掩膜。其中特征提取結構采用ResNet 與特征金字塔相結合的傳統(tǒng)結構,如圖1 所示。

Yolact[17]是第一個可以實時進行實例分割的網(wǎng)絡,其結構如圖1(c)所示。該方法在RetinaNet 的基礎上進行改進,通過質子網(wǎng)絡生成每幅圖片的原型掩膜,同時預測每個目標實例和包圍框得到k個線性系數(shù)(掩模系數(shù)),并結合生成的線性系數(shù),采用線性組合的方式生成實例掩膜。但是其特征提取部分仍采用ResNet與FPN 相結合的結構,容易造成小目標特征提取不充分,并且類別分支和掩膜分支的預測結果需要按照系數(shù)進行疊加,存在兩個任務不匹配的問題。

單階段、無錨框實例分割網(wǎng)絡SOLO[18]通過一種新穎的方式表示語義與像素之間的關系。該方法認為實例分割是檢測目標中心點和目標大小的過程,將圖像分成S×S個格子,每個格子表示目標在圖像上的位置,將每個像素的位置信息投影到特征圖的通道維度上,通過對應的通道特征圖預測屬于該類別的實例掩膜。因此,該方法保留了目標的結構化幾何信息,有助于對目標像素進行有效分割。

上述方法將目標的位置預測由回歸問題轉化為分類問題。其意義在于它是一種直觀、簡單的分類方法,并且不依賴于后處理方法,僅通過固定數(shù)量的卷積對不確定數(shù)量的目標實例進行建模,提高分割效率。但是特征提取部分同樣采用簡單的ResNet 與FPN 相結合的結構,存在小目標特征提取不充分的問題。TensorMask[19]采用復雜的滑動窗方法生成目標掩膜,雖然具有較高的掩膜質量,但是產生較大的計算開支。PolarMask/PolarMask++[20-21]把實例分割問題轉化為實例中心點分類問題和密集距離回歸問題,采用極坐標方式把目標中心向左、右、上、下輻射出36 個固定方向的線,將預測的目標邊界作為終點以得到36 個預測點,從而獲得目標的輪廓表示,同時將這些預測點連接起來得到最終的目標輪廓和掩膜。由于目標形狀具有多樣性的特點,并且PolarMask/PolarMask++的類別分支、極坐標中心分支和掩膜生成分支沒有很好的關聯(lián),造成任務不對齊,因此無法解決個別不規(guī)則目標的分割問題。文獻[22]在雙流網(wǎng)絡的基礎上,通過引入先驗知識和改進特征融合模塊,自適應融合來自不同流的特征并送入分割模塊中,達到單階段實例分割的目的。文獻[23]在單階段實例分割網(wǎng)絡的基礎上,通過改進特征提取網(wǎng)絡并引入可變形卷積等方法,提高番茄葉部病害區(qū)域的分割效率。文獻[24]在單階段實例分割網(wǎng)絡的基礎上提出注意力殘差多尺度特征增強網(wǎng)絡,分別從通道和空間角度對特征進行選擇增強,并在特征金字塔基礎上進一步增強尺度跨度較大的特征融合信息,以解決任務不對齊的問題。

因此,單階段實例分割方法具有結構簡單、推理速度快,分割質量可以與傳統(tǒng)兩階段分割方法相媲美的優(yōu)點。但是,此類方法通常使用ResNet 及引入FPN 的方式提取特征,難以有效提取多尺度目標,尤其是小尺度目標的特征。大多數(shù)網(wǎng)絡忽略了類別分支能指導掩膜分支進行目標分割。因此,本文通過引入新的編碼-解碼特征提取網(wǎng)絡,信息增強模塊和增加類別分支、掩膜分支信息共享的方法來解決上述問題。

2 本文方法

單階段實例分割方法通常采用ResNet 和FPN結構相結合的方式提取特征,容易造成小目標特征丟失,導致特征提取不充分。像素級的分割(對像素進行分類預測)對卷積的感受野要求較高,但大多數(shù)網(wǎng)絡采用簡單的卷積操作,無法提供更廣泛的感受野。在處理目標檢測和掩膜生成任務時采用并行的兩個分支,由于未優(yōu)先處理目標檢測任務且沒有進行有效的信息共享,因此忽略了目標檢測任務對整體分割任務的影響。

針對上述問題,本文使用改進的具有編碼-解碼[25]結構的網(wǎng)絡作為特征提取結構,其后有目標類別分支和掩膜分支,并且在類別分支中使用注意力機制增加空間信息和通道信息,并構建信息增強模塊,同時在兩個分支之間進行信息共享。在交通場景下的小目標主要有交通標志牌、遠處的行人和車輛等,具有目標重疊、尺度多樣的特點。改進的編碼-解碼特征提取網(wǎng)絡通過并行的四種尺度提取路徑提取多尺度目標的特征。在該結構中使用可變形卷積[26]、空洞卷積[27]等方法增大卷積時的感受野。在類別分支中利用信息增強模塊來優(yōu)先提高網(wǎng)絡的目標檢測能力,并且與掩膜分支進行信息共享,以指導掩膜分支,從而提高交通場景中目標的掩膜生成能力。本文網(wǎng)絡整體架構如圖2 所示。

圖2 本文網(wǎng)絡整體架構Fig.2 Overall framework of the proposed network

2.1 編碼-解碼特征提取網(wǎng)絡

HRNet[28]用于人體姿態(tài)識別,主要輸出可靠的高分辨率特征。針對人體姿態(tài)檢測和目標檢測問題,傳統(tǒng)的目標檢測方法僅采用高分辨率到低分辨率的特征,再從低分辨率特征中恢復出高分辨率特征的方式,例如特征金字塔結構。特征金字塔可以提取多尺度的特征,但是特征分辨率的降低會導致小尺度目標信息丟失,例如,在人體姿態(tài)識別中,需要定位出人體的解剖關鍵點,如肘部、手腕、各關節(jié)等,都屬于小尺度的目標。傳統(tǒng)方法使用簡單的ResNet進行特征提取,難以回歸出關鍵點的位置,最終導致特征提取不充分。因此,特征提取結構提取出更高分辨率的特征能夠推進后續(xù)任務的有效進行。

在實例分割任務中需要同時對目標進行檢測、識別和分割,并提取更高分辨率的特征。傳統(tǒng)的實例分割方法采用基于FPN 結構的特征提取方式,難以滿足輸出高分辨率特征的要求,存在尺度不對齊的問題,不能很好地適應小目標分割的場景需求。編碼-解碼特征提取網(wǎng)絡結構常用于實例分割網(wǎng)絡中的特征提取。因此,本文采用新的特征提取方法,融合編碼-解碼特征提取結構并提取高分辨率特征,以解決小尺度目標的分割問題,在精度和速度之間實現(xiàn)最佳平衡。

本文采用編碼-解碼的方式,并行連接組成骨干網(wǎng)絡,通過重復融合高到低子網(wǎng)絡產生的高分辨率特征來生成可靠的高分辨率特征。該編碼-解碼特征提取網(wǎng)絡上逐漸增加高分辨率到低分辨率的子網(wǎng)絡,并將多分辨率子網(wǎng)并行連接,包含4 個并行子網(wǎng)的網(wǎng)絡結構,在高分辨率特征中逐漸并行加入低分辨率特征圖的子網(wǎng)絡,實現(xiàn)在不同網(wǎng)絡之間的多尺度融合與特征提取。編碼-解碼特征提取網(wǎng)絡結構如圖3 所示,橫向表示模型深度變化,縱向表示特征圖尺度變化。第一行為主干網(wǎng)絡(特征圖為高分辨率),逐漸并行加入分辨率低的子網(wǎng)絡,將高分辨率特征和低分辨率特征相融合,在各并行網(wǎng)絡之間相互交換信息,實現(xiàn)多尺度特征融合與特征提取。圖3中向上的箭頭表示上采樣操作,向下的箭頭表示下采樣。在上采樣操作中,本文通過可變形卷積代替雙線性插值算法,根據(jù)目標尺度動態(tài)地調整、擴大感受野,有助于提高對小目標特征的提取能力,從而解決多尺度目標分割中尺度不對齊問題。

圖3 編碼-解碼特征提取網(wǎng)絡結構Fig.3 Structure of encoder-decoder feature extraction network

2.2 空洞卷積融合與特征改進

感受野的擴大使得輸出特征圖中包含圖片的全局信息,但是無錨框模型缺少類似Faster-RCNN中的ROI-Align 操作,因此無法根據(jù)邊界框獲取到更精準的小尺度特征,導致內部細節(jié)信息和空間層級化信息丟失。本文將上述問題稱為區(qū)域不對齊問題。這些問題使得分割任務處在瓶頸期,無法繼續(xù)提高分割精度,但是空洞卷積的設計能夠解決上述問題。

卷積核為3×3 的空洞卷積,在不增加計算量的情況下可將卷積的感受野增大到7×7,相當于一個卷積核為7×7 普通卷積。其目的是在沒有池化操作和信息損失的情況下擴大感受野,使得每個卷積的輸出都包含較大范圍的信息。因此,本文使用3×3 空洞卷積,空洞率為2 進行下采樣操作,在不降低卷積速度的同時減少信息的損耗。空洞卷積示意圖如圖4 所示。圖4(a)表示空洞率為1 的3×3 空洞卷積。圖4(b)表示空洞率為2 的3×3 空洞卷積,實際的卷積核還是3×3,感受野相當于7×7 卷積的感受野。圖4(c)表示空洞率為4 的空洞卷積,感受野相當于15×15 的卷積。在編碼-解碼特征提取網(wǎng)絡結構中采用空洞卷積和合并連接的方式,以獲得更精準的多尺度目標特征,從而解決區(qū)域不對齊問題。文獻[29]同樣基于此原理提出基于空洞卷積的分割方法。

圖4 空洞卷積示意圖Fig.4 Schematic diagram of dilated convolution

2.3 空間信息與通道信息增強

無錨框實例分割網(wǎng)絡(SOLO)僅通過類別分支和掩膜分支進行實例分割。其中,類別分支將圖像分成S×S個網(wǎng)格進行處理,物體的中心(質心)落在某個網(wǎng)格中,該網(wǎng)格主要預測該物體的語義類別和實例掩膜。掩膜分支預測物體的語義類別,每個網(wǎng)格預測類別維度為S×S×C,其中,C為目標物體類別的個數(shù)。當每個網(wǎng)格與物體的中心區(qū)域存在大于閾值的重疊時,則認為是正樣本。每個正樣本都會有對應類別的實例掩膜。實驗結果表明,采用這種簡單的兩類分支分別進行目標檢測和圖像分割任務,類別分支能夠對多尺度目標進行檢測。檢測效率的提升能改進整體網(wǎng)絡對多尺度目標的分割效果,尤其是小目標的分割效果。因此,本文在該分支中增加信息增強模塊,提高該分支對目標的回歸能力。

信息增強模塊結構如圖5 所示,包含通道增強模塊(Channel Enhancement Module,CEM)和空間增強模塊(Spatial Enhancement Module,SEM),分別進行通道與空間上的信息增強。該模塊添加在類別分支中,輸出回歸結果。

圖5 信息增強模塊結構Fig.5 Structure of information enhancement module

通道增強模塊結構如圖6 所示。通道增強模塊將輸入的特征圖FH×W×C分別經過基于寬度、高度的全局最大池化和全局平均池化,生成兩個1×1×C的特征圖,并將其分別送入一個兩層的多層感知機(Multilayer Perceptron,MLP)中,將MLP 輸出的特征進行加和操作,再經過Sigmoid 激活操作,生成增強后的通道特征。

圖6 通道增強模塊結構Fig.6 Structure of channel enhancement module

通道增強模塊的計算如式(1)所示:

其中:F為輸入特征圖;AvgPool、MaxPool 分別為平均池化和最大池化;σ、ω為兩個操作的權重,分別取1 和0.5。

空間增強模塊結構如圖7 所示。

圖7 空間增強模塊結構Fig.7 Structure of spatial enhancement module

空間增強模塊將通道增強模塊輸出的特征圖作為輸入的特征圖,首先進行基于通道的全局最大池化和全局平均池化,得到兩個H×W×C的特征圖,然后將這兩個特征圖基于通道信息進行通道拼接操作,經過一個7×7 卷積降維為一個通道,即H×W×1,再經過Sigmoid 激活函數(shù)得到空間增強特征,最后將通道增強和空間增強這兩個模塊以圖5 所示的方式串行連接在一起,達到增強信息的目的。空間增強模塊的計算如式(2)所示:

其中:?為Sigmoid 激活函數(shù);F為輸入特征圖;AvgPool 和MaxPool 分別為平均池化和最大池化。

2.4 損失函數(shù)

本文的損失函數(shù)如式(3)所示:

其中:Lcate為語義類別分類中常用的Focal Loss;Lmask為本文使用的Dice Loss。Dice Loss 如式(4)所示:

其中:A為預測出的所有前景像素集合;B為真值的前景像素集合。

3 實驗與結果分析

3.1 實驗設置

本文實驗設置:Intel?Xeon E5@1.5 GHz,32 GB內存,Ubuntu 18 系統(tǒng),顯卡英偉達GTX Titan V,程序運行python 環(huán)境為python3.6,使用pytorch 1.6,CUDA 10.1。

在訓練過程中,本文使用隨機裁剪(從1 024×2 048到512×1 024),并且在[0.5,2]范圍內通過隨機縮放和隨機水平翻轉進行數(shù)據(jù)增強。本文使用SGD 優(yōu)化器的學習率為0.01,動量為0.9,重量衰減因子為0.000 5,采用冪為0.9 的poly 學習速率策略降低學習速率。

本文在COCO 2017 和Cityscapes 數(shù)據(jù)集上進行訓練與評估。Cityscapes 數(shù)據(jù)集包含5 000 張高質量像素級精細注釋的場景圖像,用于訓練、驗證和測試,共有30 個類別,其中,19 個類別用于評估。COCO 2017 數(shù)據(jù)集是一個大型且豐富的物體檢測、分割和字幕數(shù)據(jù)集。這個數(shù)據(jù)集以scene understanding 為目標,主要從復雜的日常場景中截取得到,圖像中的目標通過精確的語義標注進行位置標定,提供80 個類別,超過330 000 張圖片,其中,200 000 張有標注,整個數(shù)據(jù)集中個體的數(shù)目超過1 500 000 個,是目前語義分割最大的數(shù)據(jù)集。

3.2 實驗結果

不同方法的分割結果對比如圖8 所示(彩色效果見《計算機工程》HTML 版)。從圖8 可以看出,本文對比同樣是無錨框實例分割方法的Yolact 和基準Mask R-CNN 方法。從圖8 可以看出,在第1 行、第3行和第4 行中Yolact 方法出現(xiàn)分割錯誤,并且未分割出棒球、行人、摩托車、汽車等目標,在第2 行中Mask R-CNN 方法存在明顯的漏分割和分割錯誤問題,并且出現(xiàn)檢測錯誤,在4 行中Yolact 方法未分割出遠處的三輛小車。因此,本文方法對小目標的分割有顯著的提升,在分割質量、分割數(shù)量上明顯優(yōu)于Yolact 方法和Mask R-CNN 方法。

圖8 不同方法的分割結果對比Fig.8 Segmentation results comparison among different methods

本文在Cityscapes數(shù)據(jù)集上使用mIoU(mean Intersection over Union)指標表示,不同方法的mIoU對比如表1所示。

表1 在Cityscapes 數(shù)據(jù)集上不同方法的mIoU 對比Table 1 mIoU comparison among different methods on Cityscapes dataset %

從表1 可以看出,相比使用Res-101-FPN 結構的Mask R-CNN 和SOLO 方法,本文方法的mIoU 分別增加了3.2 和1.9 個百分點。

本文在COCO 2017 數(shù)據(jù)集上使用相同的訓練策略和AP(Average Precision)指標表示。不同方法的評價指標對比如表2 所示。與兩階段Mask R-CNN 方法相比,本文方法的AP 值提升了5.4 個百分點。與單階段BlendMask 方法相比,本文方法的AP 值提升了2.7 個百分點,相比使用Res-101-FPN 的SOLO 方法提升了3.3個百分點。因此,本文方法能夠有效提升實例分割的準確率。

表2 在COCO 2017 數(shù)據(jù)集上不同方法的評價指標對比Table 2 Evaluation indexs comparison among different methods on COCO 2017 dataset %

在COCO 2017 數(shù)據(jù)集上,不同方法對交通場景中行人、自行車、車輛等類別的分割AP 值對比如圖9所示。從圖9 可以看出,在以上場景類別中本文方法的分割AP 值均高于單階段的SOLO 方法和兩階段的Mask R-CNN 方法。

圖9 不同方法的分割AP 值對比Fig.9 Segmentation AP values comparison among different methods

3.3 消融實驗

3.3.1 尺度對齊消融實驗

為驗證編碼-解碼特征提取網(wǎng)絡的有效性,在不同的單階段實例分割方法上引入Res-101-FPN和編碼-解碼特征提取網(wǎng)絡的評價指標對比如表3所示。從表3 可以看出,使用編碼-解碼多尺度特征提取、融合的方式能顯著提升交通場景中小目標的分割性能,能有效地解決單階段網(wǎng)絡中尺度不對齊的問題。

表3 不同方法使用和未使用編碼-解碼特征提取網(wǎng)絡結構的評價指標對比Table 3 Evaluation indexs comparison among different methods with and without encoder-decoder feature exaction network structure %

3.3.2 區(qū)域對齊消融實驗

在無錨框方法的特征提取過程中,利用簡單的雙線性插值方法進行上采樣,容易丟失部分信息,造成區(qū)域不對齊。在特征提取模塊中使用普通卷積和空洞卷積進行下采樣的評價指標對比如表4 所示。空洞卷積在基本不增加計算量的情況下,能夠有效擴大感受野,從而優(yōu)化分割效果。在SOLO方法和本文方法中,相比使用普通卷積的特征提取結果,僅用空洞卷積的AP值分別提升了0.3和0.2個百分點。實驗結果表明,空洞卷積代替雙線性插值的方式進行上采樣,不僅適用于本文模型,還可以用于類似的網(wǎng)絡結構中。

表4 不同方法使用普通卷積和空洞卷積的評價指標對比Table 4 Evaluation indexs comparison among different methods with ordinary convolution and dilated convolution %

為充分提取多尺度特征,不同特征提取連接方式對比如圖10 所示,其中,圖10(a)為僅使用特征提取后的最上層特征,圖10(b)為將四層特征進行簡單加和得到融合后的特征,圖10(c)為將四層特征進行合并以得到最終的多尺度特征,即為本文所采用的連接方式。

圖10 不同特征提取連接方式對比Fig.10 Comparison among different connection methods for feature extraction

不同特征提取連接方式的AP 值對比如表5 所示。本文所提的合并連接方式AP 值為41%,相比只取一層特征的方式,提高了4.2 個百分點,相比加和連接方式,提高了1.4 個百分點。因此,該方式能夠更充分地利用多層特征進行多尺度特征融合,改進分割效果,以解決區(qū)域不對齊的問題。

表5 不同特征提取連接方式的AP 值對比Table 5 AP values comparison among different connection methods for feature extraction %

3.3.3 任務對齊消融實驗

本文采用兩個分支分別進行目標回歸、檢測和掩膜生成,在減少計算開銷的同時進行目標分割任務,但是此類方法需要類別分支對掩膜分支進行指導,即提供相應的位置、空間信息。而一般網(wǎng)絡忽略了類別分支的指導作用,存在任務不對齊的問題。本文引入注意力機制,結合通道增強模塊和空間增強模塊,并將其融合到類別分支中,以構建信息增強模塊。本文優(yōu)先提高類別分支的目標檢測能力,并將信息共享給掩膜分支,以提高整體網(wǎng)絡的圖像分割性能。

不同方法使用和未使用信息增強模塊的評價指標對比如表6所示。其中*表示該方法使用信息增強模塊。

表6 不同方法使用和未使用信息增強模塊的評價指標對比Table 6 Evaluation indexs comparison among different methods with and without information enhancement module %

從表6 可以看出,信息增強模塊能夠有效提升原方法和其他同類方法的分割效果。相比原方法,引入信息增強模塊方法的AP 值最高提升1 個百分點。本文對信息增強模塊的輸出結果進行可視化,不同方法的可視化結果如圖11 所示(彩色效果見《計算機工程》官網(wǎng)HTML 版)。

圖11 不同方法的可視化結果Fig.11 Visualization results of different methods

圖中紅色越深表示網(wǎng)絡的注意力越強,藍色越深表示注意力越弱。從圖11 可以看出,在第1 行中,引入信息增強模塊的方法對交通信號燈的注意力強于原方法,在第2 行中原方法的注意力出現(xiàn)偏移,改進方法則將注意力更多地關注在摩托車,在最后一行中,原方法對車輛的注意力明顯少于引入信息增強模塊的方法。因此,信息增強模塊能夠解決任務不對齊的問題。

4 結束語

本文提出基于無錨框分割網(wǎng)絡改進的實例分割方法。通過編碼-解碼特征提取網(wǎng)絡提取高分辨率特征,以解決尺度不對齊的問題,采用空洞卷積和合并連接的方式在增大感受野的同時有效融合高分辨率和低分辨率特征。在類別分支中引入注意力機制,設計結合空間信息和通道信息的信息增強模塊,提高目標檢測能力。實驗結果表明,相比Mask R-CNN、SOLO、Yolact等方法,本文方法能夠有效改進無錨框實例分割效果。下一步將結合自注意力機制,研究類別分支與掩膜分支之間的關系,以提高在遮擋場景下實例分割的準確度。

猜你喜歡
特征提取特征方法
如何表達“特征”
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
基于MED和循環(huán)域解調的多故障特征提取
線性代數(shù)的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲一区二区三区麻豆| 日韩第一页在线| 色综合天天娱乐综合网| 日本国产精品一区久久久| 精品自窥自偷在线看| 亚洲热线99精品视频| 成人精品视频一区二区在线| 精品国产www| 国产成人无码AV在线播放动漫| 四虎在线高清无码| 欧美第一页在线| 日本免费a视频| 国产在线98福利播放视频免费| 日韩精品一区二区三区中文无码| 久久久久亚洲精品无码网站| 亚洲一级毛片| 色综合中文| 欧美国产日产一区二区| 亚洲第一黄色网址| 国产欧美自拍视频| 亚洲色图欧美视频| 超清无码一区二区三区| 久久久久青草线综合超碰| 久久久久久午夜精品| 97青草最新免费精品视频| 亚洲精品无码专区在线观看 | 久久久久夜色精品波多野结衣| 五月天综合网亚洲综合天堂网| 在线观看国产一区二区三区99| 综合亚洲色图| 日韩毛片免费| 欧美不卡视频一区发布| 伊人久久久大香线蕉综合直播| 国产99免费视频| 免费观看男人免费桶女人视频| 亚洲中文制服丝袜欧美精品| 国产精品自在线天天看片| 国产特一级毛片| 国产www网站| 免费精品一区二区h| 青青青国产精品国产精品美女| 国产在线无码av完整版在线观看| 国产精品欧美激情| 国产成人亚洲精品蜜芽影院| 亚洲天堂免费观看| 久久精品国产免费观看频道| 国产成人成人一区二区| 精品一区二区三区水蜜桃| 国产在线八区| 日本不卡在线视频| 国产午夜一级淫片| 色婷婷视频在线| 亚洲va欧美ⅴa国产va影院| 在线观看视频99| 免费毛片全部不收费的| 一级黄色网站在线免费看| 国产亚洲欧美日韩在线一区二区三区| 天天躁夜夜躁狠狠躁图片| 久久国语对白| 国产在线自在拍91精品黑人| 一本视频精品中文字幕| 无码免费视频| 欧美爱爱网| 亚洲第一中文字幕| 亚洲三级成人| 热热久久狠狠偷偷色男同| 国产日韩欧美一区二区三区在线 | 欧美日韩中文国产| 久久久久久久蜜桃| 老司机精品一区在线视频| 欧美啪啪网| 国产鲁鲁视频在线观看| 欧洲欧美人成免费全部视频| 精品视频第一页| 国产成人夜色91| 国产一区二区三区精品欧美日韩| 国产在线精品人成导航| 国产传媒一区二区三区四区五区| 欧美全免费aaaaaa特黄在线| 亚洲综合第一页| 国产美女叼嘿视频免费看| 国产菊爆视频在线观看|