999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

預指導的多階段特征融合的圖像語義分割網絡

2024-05-24 03:32:56王燕范向輝王麗康
計算機應用研究 2024年3期

王燕 范向輝 王麗康

摘 要:

針對目前語義分割對圖像邊緣和小物體不能進行精確識別,以及簡單融合多階段特征會造成信息冗余、混雜不清等問題,提出了一個預指導的多階段特征融合的網絡(pre-guidanced multi-stage feature fusion network,PGMFFNet),PGMFFNet采用編解碼器結構,編碼階段利用預指導模塊對各階段信息進行指導,增強各階段特征之間的聯系,解決各階段特征在后續融合過程中產生的語義混雜問題。在解碼階段,利用多路徑金字塔上采樣模塊融合高級語義特征,然后使用改進的密集空洞空間金字塔池化模塊對融合后的特征進一步擴大感受野,最后將高低層次的特征信息融合,使得對小物體的分割效果更優。PGMFFNet在CityScapes公開數據集上進行了驗證,得到了78.38%的平均交并比(mean intersection over union,MIoU),分割效果較好。

關鍵詞:語義分割;編解碼器;預指導;金字塔;特征融合

中圖分類號:TP391.41?? 文獻標志碼:A??? 文章編號:1001-3695(2024)03-047-0951-05doi: 10.19734/j.issn.1001-3695.2023.07.0302

Image semantic segmentation network of pre-guidanced multi-stage feature fusion

Wang Yan, Fan Xianghui, Wang Likang

(School of Computer & Communication, Lanzhou University of Technology, Lanzhou 730050, China)

Abstract:

In view of the current semantic segmentation can not accurately identify image edges and small objects, and simple fusion of multi-stage features will cause information redundancy, confusion and other problems, this paper proposed a pre-guidanced multi-stage feature fusion network (PGMFFNet). PGMFFNet employed a encoder-decoder structure, at the encoder stage, which used a pre-guidance module to guide the information in each stage. Strengthened the relationship between the features of each stage, and solved the semantic confounding problems in the subsequent fusion process of the features of each stage. At the decoder stage, which used the multi-path up-pyramid sampling module to fuse high-level semantic features, and then used the improved dense void space pyramid pool module to further expand the sensory field of the fused features, and finally fused the feature information of high and low levels to make the segmentation effect of small objects better. This paper verified PGMFFNet on CityScapes open data set, and the mean intersection over union (MIoU) obtained to 78.38%, showing good segmentation effect. Key words:semantic segmentation; encoder-decoder; pre-guidance; pyramid; feature fusion

0 引言

圖像語義分割是計算機視覺領域重要的任務之一[1],其主要目的是對輸入的圖像進行逐像素密度預測,然后為每一個像素分配一個語義標簽[2]。圖像語義分割在日常生活中應用廣泛。例如,在自動駕駛[3]領域,汽車必須能夠實時地對行駛過程中出現的各種事物作出具體的解析,然后根據不同場景,作出不同的反應。在醫療領域[4],圖像語義分割能夠輔助醫生對患者進行治療。近年來,卷積神經網絡(CNN)發展迅速,在計算機視覺中取得了極大的成功[5]。隨著2015年,Long等人[6]提出全卷積神經網絡FCN,各種基于全卷積神經網絡的架構廣泛應用到語義分割領域當中。

目前,圖像語義分割存在以下問題:a)對于體積較小、形狀相似的物體分割效果不好,比如圖像中存在的路燈燈桿以及遠處的路燈,往往會被忽略,或者分割形狀不完整,對于處在道路旁邊,距離較遠的人行道往往會被分割為道路;b)光照、以及其他物體的影子遮擋等也會對分割產生一定的影響,導致分割錯誤。

出現上述問題的原因主要有兩個:a)未能提取豐富的特征信息;b)對提取的圖像特征信息利用不夠充分。針對以上問題,目前的語義分割有以下幾種研究趨勢:

a)采用基于編解碼器架構的方法。編碼階段不斷地加深卷積層次提取更多的特征信息,解碼階段對編碼階段的高級語義信息進行解碼,并逐漸恢復邊界信息。U-Net[7]采用U型結構、跳躍連接來恢復原圖像信息。SPGNet[8]通過在多級編解碼架構中加入語義預測,重新加權局部特征以提高分割精度。ESegNet[9]在編碼階段下采樣到更深層次來獲取更大的接收域和特征空間,在解碼階段采取更先進的BiFPN來聚合各階段的特征信息。FFNet[10]極簡的編解碼結構上,通過對編碼階段進行微調,從而獲得更大的感受野。

b)利用上下文來捕獲長期依賴關系。Chen等人[11]提出了DeepLab,并在該網絡中提出了空洞空間金字塔池化模塊,該模塊使用幾個包含不同空洞率的并行分支和平均池化生成了不同尺度的特征信息。姚燕等人[12]基于改進 DeepLabV3+網絡的輕量級語義分割算法,使用MobileNetv3降低模型復雜度,并引入注意力機制模塊和組歸一化方法,提升分割精度。Zhao等人[13]提出了PSPNet,該網絡引入了金字塔池化模塊,使用不同大小的池化模塊生成不同區域的特征圖,用于全局信息聚合。DenseASPP[14]采用密集連接的空洞卷積模塊生成更為密集的多尺度特征信息。EncNet[15]將語義上下文編碼到網絡中,并強調類依賴。OCNet[16]提出新的對象上下文聚合方法來增強對象信息,以此獲得更豐富的全局上下文信息。

c)利用注意力機制來增強通道或空間之間的聯系。注意力機制的原理類似人眼機制,通過加強各特征通道之間或空間的聯系,使得網絡能夠關注有用的信息,忽略無效信息,從而進一步提高網絡的分割精度。SENet[17]中提出了擠壓-激勵模塊,在擠壓階段順著空間維度來進行通道壓縮,在激勵階段通過參數來為每個通道生成權重,顯示建模通道間的相關性。ECA-Net[18]是對SENet的一種改進,它避免了SENet中的降維操作,減少了降維會對通道注意力預測產生的消極影響,進一步提高了通道注意力的預測能力。鄭鵬營等人[19]提出了一種基于空間特征提取和注意力機制的雙路徑語義分割算法,在引入空間特征提取模塊的基礎上,采用了一條結合雙階通道注意力的語義上下文進行特征提取,降低了精度損失。

上述各種方法雖然在一定程度上解決了語義分割的挑戰,提高了分割精度,但有些方法只使用單一階段的特征信息,未能充分利用其他各階段的特征信息,有些方法雖然融合了多階段特征,卻對各階段特征之間的聯系處理不夠,造成了后續融合階段的信息冗余、混亂,使得有些像素信息會被拋棄,從而不能對圖像的邊緣以及小物體進行精確識別。因此,本文提出了預指導的多階段特征融合網絡PGMMFNet,以增強各階段特征之間的聯系和充分利用各階段特征信息為原則,通過預指導模塊對編碼階段產生的不同階段特征進行指導,強化各階段特征之間的聯系,解決了后續融合過程中產生的信息冗余、混雜問題,并在解碼過程中擴大感受野,利用多階段的特征信息保留圖像的邊界以及深層次高級語義信息,可以更好地解決上述問題,實現精確分割。

本文的貢獻如下:

a)提出預指導的多階段特征融合網絡PGMMFNet,通過PGM對編碼階段輸出的不同層次的特征進行指導,強化各階段特征之間的關聯,更好地解決后續融合過程中產生的信息冗余、混雜問題;

b)提出多路徑金字塔上采樣模塊MPUM(multi-path pyramid upsample module)以減少高級階段特征融合過程中的信息丟失,使用改進的密集連接空洞空間金字塔池化模塊DCASPPM(dense connect atrous spatial pyramid pooling module)擴大感受野,最后將高低層次的特征信息融合,獲取更豐富的全局上下文信息;

c)在公開的數據集CityScapes[20]上進行了大量的實驗,驗證了PGMFFNet的有效性,并且與經典網絡以及近兩年的先進模型進行了對比。

1 模型結構

PGMFFNet的整體架構如圖1所示,整個架構采用編碼器。編碼階段采用預訓練的ResNet101作為骨干網絡,為了對骨干網絡最后一個階段的輸出同樣使用PGM指導,本文在其后面使用了3層kernel為3,stride為2的卷積,將其稱為Res-7。將骨干網絡各相鄰階段的輸出送入PGM,利用相鄰階段之間的關聯性以及高層次特征包含更多的語義信息來進行指導,使包含邊緣、輪廓的低級語義信息更加細化,語義之間關聯性更強。解碼部分由MPUM和DCASPPM組成。MPUM對高層次特征部分進行融合,并采用多路徑的方式減少融合過程中造成的信息丟失,DCASPPM對融合的高層次特征擴大感受野,提取更多的圖像特征信息。使用多階段特征融合策略將不同層次的特征進行融合,并使用ECA(efficient channel attention)模塊優化融合后通道之間的關系,最后通過雙線性上采樣恢復至原始分辨率。

2.2 實驗環境及參數

本文實驗采用RTX 3090、24 GB的運行環境,程序是在Python3.8的PyTorch 1.8框架下編寫。CityScapes數據集上的實驗所采用的基礎學習率base_lr大小為0.004,具體大小根據lr=base_lr/16×batch_size進行計算。優化函數采用隨機梯度下降法(stochastic gradient descent,SGD),其中momentum為0.9,權重衰減weight_decay為1E-4,損失函數使用交叉熵損失函數,學習率調整策略采用poly策略,具體計算為lr=lr0×(1-iter/max_iter)0.9,其中lr0為具體使用的初始學習率,iter為當前的迭代次數,max_iter為最大的迭代次數。數據的增強策略方面,在訓練過程中本文采用隨機裁剪、0.5~2.0的隨機縮放以及隨機水平翻轉等策略。具體的參數配置如表1所示。

2.3 CityScapes數據集消融實驗

為了驗證PGMFFNet中各模塊的有效性,本文在CityScapes數據集上進行消融實驗,各模塊的消融實驗結果如表2所示。PGMFFNet以預訓練的ResNet101為基準網絡,然后將各模塊與ResNet101進行結合,設計一系列消融實驗來驗證各模塊的有效性。↑MIoU表示與基準網絡的MIoU值相比,所上升的值大小。

通過表2的結果可以看到,在只有ResNet101基準網絡時MIoU值為70.01%,加入PGM對基準網絡的輸出進行指導優化后的MIoU值為73.65%,上升了3.64%,MIoU值的提高是PGM的指導增強了各階段之間的聯系,減少了信息冗余;加入MPUM時,MIoU上升了1.84%,加入DCASPPM時,MIoU上升了5.26%,較多的MIoU值的上升是因為DCASPPM采用了并聯的遞進式大空洞率,進一步擴大了高級語義特征的感受野,以此可以看出加入各模塊后,對基準網絡的性能有顯著的提升。消融實驗部分的可視化結果如圖5所示,框選部分為重點關注區域。從框選中的人的輪廓等可以看出,在只有ResNet101的時候,人的輪廓很不明顯,在加入PGM和DCASPPM以后,輪廓基本能夠看清楚,但在某些軀干部位有些模糊,在各模塊都加入以后,輪廓清晰,軀干部分也有改進,并且在遠方景物還有道路與道路邊草叢的細節處,都可以看到基準網絡和加入各模塊之后的對比效果,改進效果明顯。

2.4 CityScapes數據集實驗結果分析

CityScapes驗證集上進行了ResNet50和ResNet101不同主干的對比,輸入圖像訓練期間分辨率為768×768,驗證采用2 048×1 024的大小,由對比結果選擇了較優的ResNet101為主干,對比的結果如表3所示。

將PGMFFNet在CityScapes驗證集上與經典的以及最近較先進的網絡進行了對比實驗,結果如表4所示。

由MIoU值可以看出,經典網絡DeepLabV3+,以及先進網絡CCNet、SPFNet比PGMFFNet相差兩到三個百分點。造成此差距的原因是上述三種網絡重點處理的是骨干網絡輸出的最后一個階段的特征,對包含圖像邊緣、輪廓等細節信息的第一階段的特征處理不夠,所以分割的圖像邊緣等細節信息不夠清楚,也造成最后的分割MIoU值較低,而PGMFFNet使用PGM對骨干網絡相鄰階段特征進行了指導,增強了各階段特征之間的聯系,彌補了細節處理不夠的問題,并使用DCASPPM進一步擴大感受野,獲得了豐富的語義特征信息,因此最后的分割效果較好,MIoU較高。PGMFFNet與部分對比網絡在CityScapes數據集上的分割如圖6所示,白色邊框選中的是重點關注區域。

從圖中可以看到,DeepLabV3+分割出的交通標志邊緣形狀不清晰,OCNet對路上行人的身體輪廓分割無法辨認,CCNet、SPFNet相較于DeepLabV3+、OCNet分割的交通標志邊緣形狀已大致清晰,但不夠完整;在遠處景物分割方面,OCNet無法識別遠處的燈桿等小物體,SPFNet、CCNet雖然在一定程度上識別了燈桿,但破損處很多,而PGMFFNet對交通標志、行人輪廓,以及遠處的燈桿等識別較為清晰、完整。造成此差距的原因是對比網絡獲取的上下文信息不完整、聯系不夠緊密,而PGMFFNet對基準網絡的各個輸出階段進行了精細化處理,增強了不同層級之間的像素聯系,并且使用MPUM減少了高級語義各階段特征融合過程中的漏采,在融合之后,使用DCASPPM擴大了整體的感受野,使得分割出來的物體邊緣形狀較為完整,整體輪廓更為清晰,效果更好。

3 結束語

本文提出了預指導的多階段特征融合的圖像語義分割網絡PGMFFNet,針對骨干網絡各個階段的輸出,設計了PGM對各階段輸出進行指導,增強了不同階段之間的像素語義關系,解決了后續融合階段產生的語義冗余、混雜問題,使用MPUM將各高級階段的語義特征進行融合,并且采用多路徑金字塔上采樣模塊對融合后的特征盡可能地提取較多的語義信息,DCASPPM采用密集連接的空洞卷積擴大了感受野,獲得了較為豐富的不同尺度的語義特征,最后融合了高層以及低層的語義信息,增強了分割效果。PGMFFNet在CityScapes公開數據集上的平均交并比達到了78.38%,分割的物體邊緣完整,輪廓清晰,整體效果較好,與經典網絡以及當前較為先進的網絡進行對比,分割結果也占有明顯的優勢。在后續的工作中,將進一步優化模型結構,在減少參數量的基礎上得到更好的分割精度。

參考文獻:

[1]張鑫,姚慶安,趙健,等. 全卷積神經網絡圖像語義分割方法綜述 [J]. 計算機工程與應用,2022,58(8): 45-57. (Zhang Xin,Yao Qingan,Zhao Jian,et al. A review of image semantic segmentation methods by full convolutional neural networks [J]. Computer Engineering and Applications,2022,58(8): 45-57.)

[2]Mo Yujian,Wu Yan,Yang Xinneng,et al. Review the state-of-the-art technologies of semantic segmentation based on deep learning [J]. Neurocomputing,2022,493: 626-646.

[3]Rizzoli G,Barbato F,Zanuttigh P. Multimodal semantic segmentation in autonomous driving: a review of current approaches and future perspectives [J]. Technologies,2022,10(4): 90-96.

[4]Jha D,Riegler M A,Johansen D,et al. DoubleU-Net: a deep convolutional neural network for medical image segmentation [C]// Proc of the 33rd IEEE International Symposium on Computer-Based Medical Systems. Piscataway,NJ: IEEE Press,2020: 558-564.

[5]Wang Wenhai,Xie Enze,Li Xiang,et al. Pyramid vision Transformer: a versatile backbone for dense prediction without convolutions [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2021: 568-578.

[6]Long J,Shelhamer E,Darrell T. Fully convolutional networks for semantic segmentation [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3431-3440.

[7]Ronneberger O,Fischer P,Brox T. U-Net: convolutional networks for biomedical image segmentation [C]// Proc of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer,2015: 234-241.

[8]Cheng Bowen,Chen L C,Wei Yunchao,et al. SPGNet: semantic prediction guidance for scene parsing [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 5218-5228.

[9]Meng Tianjian,Ghiasi G,Mahjorian R,et al. Revisiting multi-scale feature fusion for semantic segmentation [EB/OL].

(2022-03-23). https://arxiv.org/abs/2203.12683.

[10]Mehta D,Skliar A,Ben Y H,et al. Simple and efficient architectures for semantic segmentation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2022: 2628-2636.

[11]Chen L C,Zhu Yukun,Papandreou G,et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]// Proc of European Conference on Computer Vision. Cham: Springer,2018: 801-818.

[12]姚燕,胡立坤,郭軍. 基于改進 DeepLabV3+網絡的輕量級語義分割算法 [J]. 激光與光電子學進展,2022,59(4): 100-107. (Yao Yan,Hu Likun,Guo Jun. Lightweight semantic segmentation algorithm based on improved DeepLabV3+ network [J]. Advances in Laser and Optoelectronics,2022,59(4): 100-107.)

[13]Zhao Hengshuang,Shi Jianping,Qi Xiaojuan,et al. Pyramid scene parsing network [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:2881-2890.

[14]Yang Maoke,Yu Kun,Zhang Chi,et al. DenseASPP for semantic segmentation in street scenes [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018: 3684-3692.

[15]Zhang Hang,Dana K,Shi Jianping,et al. Context encoding for semantic segmentation [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:7151-7160.

[16]Yuan Yuhui,Huang Lang,Guo Jianyuan,et al. OCNet: object context for semantic segmentation [J]. International Journal of Computer Vision,2021,129(8): 2375-2398.

[17]Hu Jie,Shen Li,Sun Gang. Squeeze-and-excitation networks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018: 7132-7141.

[18]Wang Qilong,Wu Banggu,Zhu Pengfei,et al. ECA-Net: efficient channel attention for deep convolutional neural networks [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 11534-11542.

[19]鄭鵬營,陳瑋,尹鐘. 基于空間特征提取和注意力機制雙路徑語義分割算法 [J]. 計算機應用研究,2022,39(2): 613-617. (Zheng Pengying,Chen Wei,Yin Zhong. Dual path semantic segmentation algorithm based on spatial feature extraction and attention mecha-nism[J].Application Research of Computers,2022,39(2):613-617.)

[20]Cordts M,Omran M,Ramos S,et al. The CityScapes dataset for semantic urban scene understanding [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 3213-3223.

[21]Huang Zilong,Wang Xinggang,Huang Lichao,et al. CCNet: criss-cross attention for semantic segmentation [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 603-612.

[22]Zhao Hengshuang,Qi Xiaojuan,Shen Xiaoyong,et al. ICNet for real-time semantic segmentation on high-resolution images[C]// Proc of European Conference on Computer Vision.Berlin:Springer,2018:405-420.

[23]Yu Changqian,Wang Jingbo,Peng Chao,et al. BiSeNet: bilateral segmentation network for real-time semantic segmentation [C]// Proc of European Conference on Computer Vision.Berlin:Springer,2018:325-341.

[24]Elhassan M A M,Yang Chunming,Huang Chenxi,et al. SPFNet: subspace pyramid fusion network for semantic segmentation [EB/OL].(2022-04-04). https://arxiv.org/abs/2204.01278.

主站蜘蛛池模板: 国产成人精品在线| 国模沟沟一区二区三区| 国内精品视频| 成人午夜免费观看| 好紧太爽了视频免费无码| 亚洲精品福利网站| 亚洲黄色成人| 91外围女在线观看| 国产亚洲男人的天堂在线观看| 91精品免费久久久| 在线日韩日本国产亚洲| 午夜性爽视频男人的天堂| 伊人狠狠丁香婷婷综合色| 国产福利一区视频| 国产综合日韩另类一区二区| 456亚洲人成高清在线| 日韩经典精品无码一区二区| 欧美一级黄色影院| 亚洲天堂成人在线观看| 亚洲黄网在线| 视频一区亚洲| 中文字幕在线一区二区在线| 在线va视频| 久久精品中文无码资源站| 拍国产真实乱人偷精品| 国产亚洲欧美在线视频| 欧美a在线| 午夜激情福利视频| 国内精品视频区在线2021| 岛国精品一区免费视频在线观看| 久久国语对白| 青青热久麻豆精品视频在线观看| 成人国产免费| 91亚洲精品第一| 国产精品免费电影| 特级欧美视频aaaaaa| 精品无码视频在线观看| 国产系列在线| 国产精品亚洲一区二区三区在线观看| 国产网站在线看| 午夜日本永久乱码免费播放片| 国产男人的天堂| 国产激情无码一区二区免费| 毛片久久久| 久久久久久久蜜桃| 国产乱子精品一区二区在线观看| 成人免费午间影院在线观看| 午夜国产理论| 在线免费无码视频| 在线观看国产精品一区| 亚洲丝袜中文字幕| 亚洲欧洲日产国产无码AV| 萌白酱国产一区二区| 在线中文字幕日韩| 久久久久人妻一区精品色奶水| 91丝袜在线观看| 她的性爱视频| 亚洲中文精品人人永久免费| 秋霞午夜国产精品成人片| 亚洲黄色激情网站| 欧美日本在线观看| 91网站国产| 91在线播放国产| 一本无码在线观看| 免费观看国产小粉嫩喷水 | 99视频国产精品| 色窝窝免费一区二区三区 | 欧美精品三级在线| 国产无套粉嫩白浆| 狠狠久久综合伊人不卡| 国产成人精品日本亚洲77美色| 日韩欧美在线观看| 国产经典三级在线| 99re精彩视频| 狂欢视频在线观看不卡| 亚洲高清国产拍精品26u| 亚洲精品在线观看91| 狠狠操夜夜爽| 茄子视频毛片免费观看| 欧美一级黄片一区2区| 91久久夜色精品国产网站| 欧美日韩激情|