999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多分支網絡的道路場景實時語義分割方法

2023-12-31 00:00:00廖文森徐成劉宏哲李學偉
計算機應用研究 2023年8期

摘 要:針對目前實時語義分割方法存在大目標分割不準確、小目標信息丟失的問題,提出一種基于多分支網絡的實時語義分割算法。首先,對雙邊分割網絡進行優化,設計了金字塔分支擴大感受野,以覆蓋視野內的大目標,充分地將上下文信息結合起來;其次,設計雙邊指導融合模塊,為深層和淺層的特征映射提供指導信息,彌補小目標信息的損失。最后在Cityscapes數據集上進行驗證,實驗結果表明所提模型以

51.3 fps的推理速度使平均交并比達到77.8%,與基準相比,精度提高了2.5個百分點。所提方法采用金字塔分支,在擴大感受野的同時,獲取不同尺度的語義邊緣區域特性,增強對語義邊界的建模能力,且提出的雙邊指導融合模塊可以更有效地融合不同層次的特征,彌補下采樣造成的信息丟失,能夠更好地指導模型學習。

關鍵詞:實時語義分割;輕量級;多分支網絡;特征融合

中圖分類號:TP391.41文獻標志碼:A

文章編號:1001-3695(2023)08-045-2526-05

doi:10.19734/j.issn.1001-3695.2022.11.0644

Research on real-time semantic segmentation of road scene

based on multi-branch network

Liao Wensen Xu Cheng Liu Hongzhe Li Xuewei

(a.Beijing Key Laboratory of Information Service Engineering,b.Institute for Brain amp; Cognitive Sciences,Beijing Union University,Beijing 100101,China)

Abstract:Aiming at the problems of inaccurate large target segmentation and loss of small target information in current real-time semantic segmentation methods,this paper proposed a real-time semantic segmentation algorithm based on multi-branch networks.First of all,this paper optimized the bilateral segmentation network,and designed pyramid branches to expand the receptive field to cover large objects in the field of view and fully combine context information.Secondly,it designed a bilateral guidance fusion module to map deep and shallow features and provided guidance information to make up for the loss of small target information.Finally,this paper verified the proposed method on the Cityscapes dataset.The experimental results show that the proposed model achieves an average intersection ratio of 77.8% at an inference speed of 51.3 fps,and the accuracy is increased by 2.5 percentage points compared with the baseline.The proposed method adopts the pyramid branch to obtain the characteristics of semantic edge regions at different scales while expanding the receptive field,and enhances the modeling ability of semantic boundaries,and the proposed bilateral guidance fusion module can more effectively integrate features of different levels,compensating for the information loss caused by downsampling can better guide model learning.

Key words:real-time semantic segmentation;lightweight;multi-path network;feature fusion

0 引言

語義分割是計算機視覺的一項基本任務,是醫學圖像分割和自動駕駛等應用的基礎工作[1]。在深度學習技術發展迅速的今天,卷積神經網絡在圖像分割中的應用越來越廣泛,它比傳統人工特征提取算法表現出更好的效果,為后來的研究者們提供了一種新的研究角度[2,3]。同時,由于語義分割是一種密集的預測任務,神經網絡需要輸出高分辨率的特征、大感受野的特征圖,以產生令人滿意的結果。

為了使高分辨率的特性得到更精確的恢復,文獻[4,5]采用編碼器獲取深層特征的上下文語義信息,并采用解碼器實現對圖像的淺層次和深層次特征的融合,從而逐漸恢復圖像的空間和細節。此外,文獻[6,7]采用空洞卷積(又稱擴展卷積)代替了深度卷積神經網絡(DCNN)卷積層的一部分,擴大網絡整體的感受野,并且不改變特征圖的分辨率,從而在獲得豐富的上下文信息的同時保留更多的空間和細節信息。高分辨率的特征映射對于自動駕駛的場景解析尤為關鍵,因為自動駕駛需要在非常大的圖像上執行,以覆蓋廣闊的視野。上述方法在推理階段非常耗時,無法直接部署到實際的自主車輛上。

由于對移動設備的部署要求日益提高,實時分割技術成為當前研究的熱點。與編碼器—解碼器范式不同,文獻[8~10]使用由細節分支和語義分支組成的雙邊分割網絡。細節分支利用相對較寬的卷積層來捕獲空間細節,語義分支采用輕量化的網絡模型作主干提取上下文信息。細節分支生成保留了更多空間細節信息的低級特征,而語義分支生成提取了更多上下文信息的高級特征,最后將兩者融合輸出預測。這種雙邊結構比當時的編碼器結構實現了更高的推理速度。但是,雙邊分割網絡采用輕量化的網絡模型做主干(如ResNet18),導致網絡整體的感受野不夠大,不足以覆蓋比較大的對象,如公交車和柵欄等,速度上去了但精度也下降了。另外,低層次的特征具有豐富的空間信息,但是缺少語義信息,而高層次的特征卻恰恰相反。單純的結合很容易忽視這兩者之間的多樣性,不利于恢復小目標在網絡降采樣過程中丟失的特征信息,如電桿和交通指示牌等,從而導致模型性能降低。由于其低層次特征噪聲較大,不能提供高解析度的語義信息。同樣,在較高層次的特征中,其空間信息較少,無法充分發揮其低層次特征的作用。

基于以上觀察,本文提出一種基于多分支的實時語義分割網絡。網絡的創新設計主要包括:a)設計高效的獨特金字塔分支,通過利用分層融合與金字塔結構的組合,獲得豐富的上下文信息,以覆蓋廣闊的視野,在低分辨率的特征映射中,該模塊的執行不會明顯增加網絡的推理時間;b)設計雙邊指導融合模塊,通過在低級特征中引入語義信息,在高級特征中引入高分辨率細節,將會有助于后續的特征融合,該模塊可以彌補低級和高級特征之間的隔閡,并顯著提高整體分割質量。

1 相關工作

1.1 高精度的語義分割

近年來,隨著卷積神經網絡的發展,一系列語義分割方法不斷提升了最先進的性能。這些方法的高精度主要基于兩種方法:a)基于空洞卷積的方法[6,7],刪除部分下采樣操作,采用空洞卷積擴大感受野且不縮減分辨率來提取高分辨率的特征映射,以獲取高性能;b)基于編碼器—解碼器結構的方法[4,5],采用ResNet-101為主干網絡作編碼器獲取密集的特征映射,利用反卷積或線性插值作解碼器并結合跳躍連接恢復高分辨率特征表示。但是,這兩種架構都是針對高精度的語義分割,沒有對運算速度和計算成本進行充分考慮。在基于空洞卷積的方法中,空洞卷積去掉了一部分的降采樣操作,得到分辨率較大的特征圖會占用更多的內存。而編碼器—解碼器體系的方法中,編碼器大多采樣較深的網絡作為主干來獲取密集的特征映射(如ResNet-101),這也就帶來了巨大的計算量。然而,實時語義分割應用需要高效的推理速度。

1.2 實時的語義分割

面對這一需求,現有實時分割的方法主要采用兩種方法來加速模型:a)基于雙邊結構的方法[8~10],細節分支捕獲空間細節生成高分辨率表示,語義分支捕獲高級語義生成低分辨率表示,最后融合低級特征和高級特征并輸出預測;b)基于分解卷積的方法[11~13],采用深度可分離卷積通過將規則卷積一分為二來降低計算復雜度,提高推理速度,或分組卷積通過將信息流封裝在更小的特征映射組中,降低了浮點數和參數數量。盡管兩種算法都可以在一定程度上提升算法的運算效率,但是由于其對數據處理過程中的細節和存儲能力的降低,使得算法的精確性大大降低。所以,要在保證高精度和高效率的前提下,設計一個基于語義的實時分割體系結構,是一項非常有意義的工作。

2 本文方法

2.1 網絡結構

本文提出了用于實時語義分割的多分支網絡(multi-branch network,MBNet),圖1顯示了MBNet的設計細節。

細節分支(detail branch,DB)僅對圖像下采樣三次以保持較大的分辨率,保留更多的空間細節,有利于對行人/交通信號燈等小目標的精確分割;語義分支(semantic branch,SB)采用事先經過訓練的輕量化模型(ResNet-18)快速下采樣提取上下文語義,輸入到金字塔分支,并使用注意力細化模塊[8](attention refinement module,ARM)細化最后兩個階段的輸出特征,用于后續的融合;金字塔分支(pyramid branch,PB)從語義分支中提取三個不同尺度的深層特征進行融合提供更大的感受野,有利于覆蓋視野內的公交車/建筑等大目標。細節分支保留大量的空間信息,語義分支則提取豐富的語義信息,而金字塔分支提供更大的感知范圍和更高層次的特征。它們互相配合,提高了性能。最后,在此基礎上,對各個分支的輸出特性進行逐步融合,以進行最后的預測。該方法既能實時又能保證高準確度。盡管細節分支的特征圖分辨率較大,但是僅有4個卷積層,所以并不需要大量的計算。對于語義分支,本文使用一個輕量級模型(ResNet-18)來快速向下采樣。此外,雖然金字塔分支比細節分支包含更多卷積層和更復雜的融合策略,但由于輸入分辨率僅為圖像分辨率的1/32,所以幾乎不影響推理速度。

2.2 金字塔分支

2.3 雙邊指導融合模塊

一方面,由于卷積運算主要是為了增加感知域,即在空間上進行更多的特征融合。另一方面,簡單的融合低級和高級特征帶來的收益并不高,因為語義層級和空間層級之間有著隔閡,雖然低層特征含有豐富的空間細節,有利于深層特征恢復小目標的細節信息,但其同樣具有大量的噪聲,容易干擾深層特征中的語義信息。因此,本文設計了雙邊指導融合模塊(bilateral guidance fusion module,BGFM),注重信道間的聯系,使模型能夠自主地學習各通道特征的重要性,并用于指導融合有判別力的信息,如圖3所示。這不僅能夠更有效地適應不同層次的特征映射,還能以簡單的方式為各層次的特征映射提供指導信息,能夠有針對性地利用DB中的低級特征恢復在SB和PB連續地下采樣中所丟失的細節特征,利用SB和PB中的高級特征減少DB中的噪聲,有利于低級特征和高級特征的融合,加強模型對小目標的識別能力。

BGFM由兩個指導融合模塊(guidance fusion module,GFM)組成,在保留完整上下文信息的同時,對低級特征的空間細節有選擇地融合特征點;反之,在保留完整空間信息的同時,對高級特征的上下文語義有選擇地融合特征點。圖4顯示了GFM的設計細節。

2.4 深度監督訓練

3 實驗與分析

本章首先介紹實驗設置;其次,將MBNet與其他實時分割算法相比,得到在不同基準上的最終精度和速度結果;最后,研究MBNet的每個組成部分對Cityscapes驗證數據集的影響。

3.1 實驗設置

3.2 實驗結果分析

MBNet采用ResNet-18作為骨干網絡,在雙邊結構基礎上加入了PB,增加了網絡整體的感受野,并且高層次特征圖的分辨率較小,因此額外的分支并不會帶來太多的計算負擔;在網絡的特征融合部分加入了BGFM,能夠更有效地利用來自不同分支的語義信息和細節邊界特征,提高了網絡對于中小尺度目標的分割效果。從表1中可看出,對比其他輕量級圖像語義分割算法,MBNet在保證高精度的前提下仍達到了實時的效果,實現了分割精度和模型參數量之間最優平衡。此外,為更直觀地展現MBNet的優勢,本文選擇了部分原圖的分割結果,并進行了可視化的分析,同時與BiSeNetV1進行可視化對比,結果如圖5所示。從圖5中可以看出,MBNet對于公交車和柵欄之類的大目標可進行更有效的分割,而BiSeNetV1出現了類內不一致情況,將公交車和柵欄的一部分錯誤地分割成汽車和建筑。另外,MBNet在細桿和交通信號牌之類的小目標上同樣可取得更好的分割效果,而BiSeNetV1出現了類間無差別的情況。可見,本文方法能獲得更好的局部分割效果,能更好地處理細微目標,且總體上很少出現類內不一致和類間無差別情況。

3.3 消融實驗

在本節中,本文將驗證MBNet中每個組件的有效性。在后續的實驗中,本文使用BiSeNetV1作為基礎網絡,在Cityscapes驗證數據集上比較PB和BGFM對整個網絡帶來的影響。

如表3所示,加入BGFM和PB后,平均精度值有了明顯的提升,部分可視化結果如圖6所示。其中,采用BGFM時有 1.4個百分點的提升,使用PB時有1.8個百分點的提升。通過引入BGFM,可以對圖像進行逐步的恢復和優化,并能較好地提取出較高層次和較低層次特征的位置和信道信息,確保更有價值的通道和位置特征在特征圖中占據較大比例,更好地恢復小目標的信息特征。從圖6中的第一行可以看出,加了BGFM的baseline能更有效地捕獲到摩托車和交通信號牌這類的小目標。通過加入PB可以增大網絡整體的感受野以覆蓋廣闊的視野,并通過單向融合策略并聯不同尺度邊界信息來獲得每個卷積層的特征圖信息,能夠有效利用不同尺度的信息,提高不同特征圖的信息利用率,增強網絡對大目標的識別能力。從圖6中第二行可以看出,加了PB的baseline對之前分割不太好的建筑和公交車基本都分割準確。最后的實驗結果顯示,在使用兩種模塊的情況下,網絡的性能得到了2.5個百分點的提升,從而使圖像實時的分割精度得到了進一步的提高。

4 結束語

本文針對目前的實時語義分割算法存在的缺陷,提出了一種基于多分支網絡的實時語義分割網絡(MBNet)。首先,通過金字塔分支來獲取不同尺度的語義邊緣區域特性,從而提高了對復雜的語義邊界進行建模的能力,加強對大目標的識別能力。其次,引入新的融合模塊,為各層次的特征映射提供指導信息,對來自細節分支和語義分支的不同級別特征圖進行了高效的融合,提高對小目標細節信息的恢復能力。最后,在Cityscapes上的結果顯示出,本文設計的網絡在速度略微下降的情況下,極大地提高了道路場景實時語義分割的準確率,即使與參數量更大、輸入圖像更大的網絡相比,準確率依然有顯著提升。在語義分割任務上,高精度的網絡模型并不缺乏,但如何能夠在保持原有精度的情況下進一步提高速度是未來研究的重點。

參考文獻:

[1]袁浩賓,趙濤,鐘羽中.融合深層差異特征的RGB-T巢式語義分割網絡[J].計算機應用研究,2022,39(9):2850-2853,2860.(Yuan Haobin,Zhao Tao,Zhong Yuzhong.Nested semantic segmentation network fusing deep difference features[J].Application Research of Computers,2022,39(9):2850-2853,2860.)

[2]宋鑫,張榮芬,劉宇紅.集成RGB-D語義分割網絡的室內語義地圖構建[J].計算機應用研究,2022,39(11):3481-3486.(Song Xin,Zhang Rongfen,Liu Yuhong.Indoor semantic map construction integrated with RGB-D semantic segmentation network[J].Application Research of Computers,2022,39(11):3481-3486.)

[3]劉騰,劉宏哲,李學偉,等.基于無錨框分割網絡改進的實例分割方法[J].計算機工程,2022,48(9):239-247,253.(Liu Teng,Liu Hongzhe,Li Xuewei,et al.Improved instance segmentation method based on anchor-free segmentation network[J].Computer Enginee-ring,2022,48(9):239-247,253.)

[4]Badrinarayanan V,Kendall A,Cipolla R.SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495.

[5]Liu Jianbo,He Junjun,Zhang Jiawei,et al.EfficientFCN:holistically-guided decoding for semantic segmentation[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:1-17.

[6]Chen L C,Papandreou G,Kokkinos I,et al.DeepLab:semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,40(4):834-848.

[7]Takahashi N,Mitsufuji Y.Densely connected multi-dilated convolutio-nal networks for dense prediction tasks[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.2021:993-1002.

[8]Yu Changqian,Wang Jingbo,Peng Chao,et al.BiSeNet:bilateral segmentation network for real-time semantic segmentation[C]//Proc of European Conference on Computer Vision.Berlin:Springer, 2018:334-349.

[9]Yu Changqian,Wang Jingbo,Peng Chao,et al.BiSeNet v2:bilateral network with guided aggregation for real-time semantic segmentation[J].International Journal of Computer Vision,2021,129(11):3051-3068.

[10]Wang Fang,Luo Xiaoyan,Wang Qixiong,et al.Aerial-BiSeNet:a real-time semantic segmentation network for high resolution aerial imagery[J].Chinese Journal of Aeronautics,2021,34(9):47-59.

[11]Romera E,Alvarez J M,Bergasa L M,et al.ERFNet:efficient residual factorized convnet for real-time semantic segmentation[J].IEEE Trans on Intelligent Transportation Systems,2017,19(1):263-272.

[12]Zhao Hengshuang,Qi Xiaojuan,Shen Xiaoyong,et al.ICNet for real-time semantic segmentation on high-resolution images[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:418-434.

[13]Mehta S,Rastegari M,Caspi A,et al.ESPNet:efficient spatial pyramid of dilated convolutions for semantic segmentation[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:561-580.

[14]Cordts M,Omran M,Ramos S,et al.The cityscapes dataset for semantic urban scene understanding[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:3213-3223.

[15]Fan Mingyuan,Lai Shenqi,Huang Junshi,et al.Rethinking BiSeNet for real-time semantic segmentation[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:9711-9720.

[16]Orsic M,Kreso I,Bevandic P,et al.In defense of pre-trained ImageNet architectures for real-time semantic segmentation of road-driving images[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:12599-12608.

[17]Hu Ping,Caba F,Wang O,et al.Temporally distributed networks for fast video semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:8815-8824.

[18]Nirkin Y,Wolf L,Hassner T.HyperSeg:patch-wise hypernetwork for real-time semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:4060-4069.

[19]Kumaar S,Lyu Y,Nex F,et al.CABiNet:efficient context aggregation network for low-latency semantic segmentation[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2021:13517-13524.

主站蜘蛛池模板: 日韩在线2020专区| 亚洲一区二区三区国产精品 | 激情网址在线观看| 亚洲视频免费播放| 欧美亚洲中文精品三区| 日韩免费毛片| 九九热免费在线视频| 亚洲无码精彩视频在线观看| 久久免费精品琪琪| 国产成人乱无码视频| 十八禁美女裸体网站| 久久性妇女精品免费| 91福利免费视频| 一区二区无码在线视频| 国产精品免费电影| 亚洲九九视频| 青青草原国产精品啪啪视频| 亚洲国产清纯| 欧美色综合网站| 国产一级毛片高清完整视频版| 欧美精品1区| AV网站中文| 亚洲精品午夜天堂网页| 激情综合五月网| 在线观看亚洲天堂| 狠狠做深爱婷婷久久一区| m男亚洲一区中文字幕| 国产第三区| 日韩在线网址| 久久精品波多野结衣| 狠狠久久综合伊人不卡| 亚洲毛片一级带毛片基地| 午夜电影在线观看国产1区| a毛片在线播放| jizz国产视频| aaa国产一级毛片| 99视频在线观看免费| 亚洲香蕉久久| 亚洲浓毛av| 国产精品嫩草影院av| 2021国产乱人伦在线播放| 大香网伊人久久综合网2020| 69精品在线观看| 波多野结衣的av一区二区三区| 久久这里只有精品2| 久久精品国产亚洲麻豆| 国产香蕉在线视频| 亚洲a级毛片| 爱做久久久久久| 国产在线视频福利资源站| 国产农村妇女精品一二区| 91免费国产在线观看尤物| 日韩av电影一区二区三区四区| 美女无遮挡免费网站| 成人毛片免费在线观看| 91娇喘视频| 久久精品国产精品一区二区| 自慰高潮喷白浆在线观看| 污污网站在线观看| 精品一区二区无码av| 波多野结衣无码中文字幕在线观看一区二区 | 伊人五月丁香综合AⅤ| 一本大道香蕉高清久久| 成年女人a毛片免费视频| 亚洲女人在线| 伊人成人在线视频| 国产欧美日韩视频一区二区三区| 亚洲区欧美区| 波多野结衣AV无码久久一区| 亚洲乱码在线播放| 欧美日韩国产系列在线观看| 久久综合成人| 99久久无色码中文字幕| 91视频首页| 亚洲av无码成人专区| 野花国产精品入口| 国产精品亚洲天堂| 国产精品亚洲αv天堂无码| 亚洲中文无码h在线观看 | 久久国产毛片| 全部免费毛片免费播放| 一级香蕉视频在线观看|