999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機(jī)制和有效分解卷積的實(shí)時(shí)分割算法

2022-09-25 08:42:10唐偉偉熊俊臣
計(jì)算機(jī)應(yīng)用 2022年9期
關(guān)鍵詞:特征信息模型

文 凱,唐偉偉*,熊俊臣

(1.重慶郵電大學(xué)通信與信息工程學(xué)院,重慶 400065;2.重慶郵電大學(xué)通信新技術(shù)應(yīng)用研究中心,重慶 400065)

0 引言

語(yǔ)義分割作為計(jì)算機(jī)視覺(jué)重要任務(wù)之一,目標(biāo)是為圖像中每個(gè)像素分配一個(gè)唯一的類(lèi)標(biāo)簽,可視為像素級(jí)的分類(lèi)任務(wù),與圖像分類(lèi)和目標(biāo)檢測(cè)任務(wù)不同,語(yǔ)義分割融合了兩者的特點(diǎn),兼有識(shí)別和定位的功能,最終輸出具有語(yǔ)義標(biāo)注的預(yù)測(cè)圖像。深度學(xué)習(xí)之前,大多采用傳統(tǒng)的分割算法,如基于閾值的分割、基于邊緣的分割和基于區(qū)域的分割等,這些算法不僅費(fèi)時(shí)費(fèi)力,而且分割性能不佳。隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用,基于深度學(xué)習(xí)的語(yǔ)義分割算法在性能上已有很大突破,現(xiàn)階段分割算法層出不窮,大部分高精度算法模型基于全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)[1],但都專(zhuān)注于提高準(zhǔn)確度,如用于圖像分割的深度卷積編解碼架構(gòu)SegNet(deep convolutional encoder-decoder architecture for image Segmentation)[2]、金字塔場(chǎng)景解析網(wǎng)絡(luò)(Pyramid Scene Parsing Network,PSPNet)[3]和用于高分辨率圖像分割的多路徑精細(xì)網(wǎng)絡(luò)(multi-path Refinement Networks for high-resolution semantic segmentation,RefineNet)[4]等。高精度算法模型普遍參數(shù)量巨大、計(jì)算復(fù)雜、內(nèi)存占用非常高,無(wú)法滿足實(shí)際需求。近年來(lái),語(yǔ)義分割廣泛應(yīng)用于無(wú)人駕駛、醫(yī)療影像和視覺(jué)增強(qiáng)等實(shí)際領(lǐng)域,而真實(shí)場(chǎng)景要求具有較低的計(jì)算成本和內(nèi)存占用,這對(duì)分割算法的實(shí)時(shí)性和準(zhǔn)確性提出了新的挑戰(zhàn),如何在快速識(shí)別和定位圖像中目標(biāo)事物的同時(shí)保持較高的準(zhǔn)確度成為解決該問(wèn)題的關(guān)鍵。當(dāng)前實(shí)時(shí)語(yǔ)義分割算法不是犧牲精度換取較高推理速度,就是在提高精度的同時(shí)增大計(jì)算成本和內(nèi)存占用,進(jìn)而降低了推理速度,無(wú)法兼顧兩者。

為解決上述問(wèn)題,本文基于輕量級(jí)非對(duì)稱(chēng)殘差卷積構(gòu)建了一種單路徑淺層算法——基于注意力機(jī)制和有效分解卷積的實(shí)時(shí)分割算法(Real-time semantic segmentation Network based on Attention mechanism and Effective Factorized convolution,AEFNet),通過(guò)減少下采樣次數(shù)和空洞卷積分別用于提取細(xì)節(jié)信息和增大算法感受野,從而增強(qiáng)算法捕捉上下文信息的能力,并結(jié)合全局上下文注意力模塊補(bǔ)充編碼過(guò)程中折損的細(xì)節(jié)信息,另外,利用輕量級(jí)殘差模塊減少計(jì)算成本,提高實(shí)時(shí)性,進(jìn)而提高整個(gè)算法分割性能。本文主要工作有以下幾點(diǎn):

1)基于分解卷積構(gòu)建輕量化分解卷積模塊(Factorized Convolution Module,F(xiàn)CM),能有效捕捉多尺度特征信息和更好保存空間細(xì)節(jié)信息,進(jìn)一步減少算法參數(shù)和降低內(nèi)存占用同時(shí)保證分割精度。

2)提出了全局上下文注意力模塊(Global Context Attention Module,GCAM),充分提取全局信息和細(xì)化每個(gè)階段特征,進(jìn)一步補(bǔ)充上下文信息,并能有效增強(qiáng)算法模型的學(xué)習(xí)能力。

3)構(gòu)建了一種新型的淺層實(shí)時(shí)分割算法,整合了輕量級(jí)殘差模塊和全局上下文注意力模塊,提高了分割性能。

1 相關(guān)工作

1.1 實(shí)時(shí)語(yǔ)義分割

現(xiàn)階段實(shí)時(shí)分割算法主要通過(guò)裁剪或限定圖像大小降低計(jì)算復(fù)雜度或通過(guò)分解卷積提高實(shí)時(shí)性,但裁剪可能會(huì)帶來(lái)細(xì)節(jié)信息的丟失,因此目前更多使用分解卷積建立輕量級(jí)算法模型;另外空洞卷積和注意力機(jī)制對(duì)精準(zhǔn)識(shí)別和定位圖像中的目標(biāo)也非常重要。當(dāng)前實(shí)時(shí)分割算法提出了多種解決方案用于實(shí)時(shí)語(yǔ)義分割的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)(deep neural network architecture for real-time semantic segmentation,ENet)[5]中,通過(guò)裁剪算法模型通道數(shù)減少了大量的運(yùn)算和降低了內(nèi)存占用。用于圖像分割的輕量級(jí)卷積網(wǎng)絡(luò)(novel Lightweight ConvNet for semantic Segmentation,LiteSeg)[6]中,使用深度空洞空間金字塔池化模塊(Dense Atrous Spatial Pyramid Pooling,DASPP)對(duì)分割性能有一定的提升。深度非對(duì)稱(chēng)瓶頸網(wǎng)絡(luò)(Depth-wise Asymmetric Bottleneck Network,DABNet)[7]中,通過(guò)堆疊深度非對(duì)稱(chēng)模塊(Depth-wise Asymmetric Bottleneck,DAB)構(gòu)建淺層網(wǎng)路,進(jìn)一步提升分割性能。增強(qiáng)非對(duì)稱(chēng)卷積網(wǎng)絡(luò)(Enhanced Asymmetric Convolution Network,EACNet)[8]中運(yùn)用一種雙路徑淺層算法模型,分別提取細(xì)節(jié)信息和上下文信息,并階段性融合,有效地提高了分割精度和推理速度。

1.2 分解卷積

分解卷積的出現(xiàn)很大程度上為解決實(shí)時(shí)性提供了范式,如用于移動(dòng)視覺(jué)應(yīng)用的高效神經(jīng)網(wǎng)絡(luò)(Efficient convolutional neural Networks for Mobile vision applications,MobileNets)[9]中的深度可分離卷積和高效殘差分解卷積網(wǎng)絡(luò)(Efficient Residual Factorized ConvNet,ERFNet)[10]中的一維非瓶頸結(jié)構(gòu)(Non-bottleneck-1D),都能有效減少大量的計(jì)算和降低內(nèi)存占用的同時(shí)保持較高的精度,為建立輕量級(jí)算法模型提供了思路。而在實(shí)現(xiàn)輕量化模型的同時(shí)會(huì)損失空間細(xì)節(jié)信息,因此如何構(gòu)建有效的分割模塊對(duì)提高分割性能有著重要的作用。

1.3 感受野

感受野對(duì)提高分割性能的重要性已在大量文獻(xiàn)中得以證明,增大感受野通常有使用大的卷積核、池化操作和空洞卷積等操作。大卷積核加重了算法的計(jì)算負(fù)擔(dān),不利于實(shí)時(shí)性;池化操作使得圖像尺寸不斷縮小而造成空間細(xì)節(jié)信息丟失;而空洞卷積可在不增加卷積核參數(shù)前提下同時(shí)增大感受野,有利于提取圖像的空間細(xì)節(jié)信息。目前大多算法采用空洞卷積,如深度卷積網(wǎng)絡(luò)(Deep Convolutional network,Deeplab)[11]提出的空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模塊和高效空間金字塔網(wǎng)絡(luò)(Efficient Spatial Pyramid Network,ESPNet)[12]中引入的高效空間金字塔(Efficient Spatial Pyramid,ESP)模塊,都能有效捕捉多尺度感受野,增強(qiáng)算法的表達(dá)能力。本文與上述算法不同,采用堆疊方式逐步增大感受野且利于提取細(xì)節(jié)信息。

1.4 注意力機(jī)制

注意力機(jī)制更關(guān)注一些關(guān)鍵的特征,并通過(guò)權(quán)重標(biāo)識(shí),使得算法能夠?qū)W習(xí)圖片中重要的特征。雙路徑分割網(wǎng)絡(luò)(Bilateral Segmentation Network,BiSeNet)[13]中提出了注意力細(xì)化模塊(Attention Refinement Module,ARM)細(xì)化每個(gè)階段的特征,能夠容易地整合全局上下文信息;雙重注意力網(wǎng)絡(luò)(Dual Attention Network for scene segmentation,DANet)[14]中,提出通過(guò)整合局部信息和全局信息來(lái)捕捉上下文信息,再由注意力機(jī)制獲得特征表達(dá);Hu 等[15]在快速注意力分割網(wǎng)絡(luò)(real-time semantic segmentation Network with Fast Attention,F(xiàn)ANet)中引入了快速注意力機(jī)制,實(shí)現(xiàn)了在精度和推理速度上的雙贏;RGB-D 室內(nèi)語(yǔ)義分割的三流自注意力網(wǎng)絡(luò)(Three-stream Self-attention Network for RGB-D indoor semantic segmentation,TSNet)[16]引入自注意力機(jī)制,并通過(guò)交叉模式蒸餾流細(xì)化深度流和RGB 流的中間特征圖,進(jìn)而提高分割性能;來(lái)自廉價(jià)操作的多功能網(wǎng)絡(luò)(More features from cheap operations network,GhostNet)[17]提出輕量級(jí)Ghost模塊,在小特征圖基礎(chǔ)上使用更為廉價(jià)的卷積操作,生成一系列特征圖,進(jìn)一步減少計(jì)算量。與以上算法不同,本文引入注意力機(jī)制旨在解決編碼過(guò)程中上下文信息不足的問(wèn)題,提高模型的泛化能力。

2 模型設(shè)計(jì)

2.1 分解卷積模塊

由上文所述可知,本文認(rèn)為一些算法模塊設(shè)計(jì)不利于提取空間細(xì)節(jié)信息,如ESPNet[12]的ESP 模塊,模塊內(nèi)使用多個(gè)空洞卷積會(huì)造成一些細(xì)節(jié)信息丟失,同時(shí)加重計(jì)算負(fù)擔(dān),因此本文結(jié)合深度可分離卷積和非對(duì)稱(chēng)殘差卷積進(jìn)行模塊設(shè)計(jì)。深度可分離卷積包括深度卷積和逐點(diǎn)卷積兩個(gè)過(guò)程,其中深度卷積可在每個(gè)通道獨(dú)立地進(jìn)行卷積運(yùn)算;而逐點(diǎn)卷積則是利用1×1 卷積進(jìn)行特征加權(quán),生成新的特征圖。

近年來(lái)為了建立輕量級(jí)模型,涌現(xiàn)出非瓶頸結(jié)構(gòu)(Nonbottleneck)(如圖1(a))、瓶頸結(jié)構(gòu)(bottleneck)(如圖1(b))和一維非瓶頸結(jié)構(gòu)(Non-bottleneck-1D)(如圖1(c))等輕量級(jí)殘差結(jié)構(gòu)。非瓶頸結(jié)構(gòu)隨著算法模型的加深,由于固定的核尺寸導(dǎo)致沒(méi)有足夠的感受野,因此性能會(huì)隨之下降;瓶頸結(jié)構(gòu)隨著卷積層數(shù)的增多,還會(huì)出現(xiàn)退化問(wèn)題;一維非瓶頸結(jié)構(gòu)不僅能加快訓(xùn)練速度,并能有效解決在大而密集的特征層的分割問(wèn)題,保持算法的學(xué)習(xí)能力和較高的精度。基于以上研究,本文構(gòu)建分解卷積模塊(FCM)特征提取單元,其利用原始的一維非瓶頸結(jié)構(gòu)將3×1 和1×3 卷積分別修改為深度可分離卷積和帶孔深度可分離卷積,并引入殘差連接增強(qiáng)算法學(xué)習(xí)能力和使用PRelu 激活函數(shù)和批歸一化操作增加算法的非線性表達(dá)能力,如圖1(d)所示,圖中,“DConv”為深度可分離卷積,“DDConv”為帶孔深度可分離卷積,r為空洞率,“SUM”為元素加法操作。

圖1 輕量級(jí)殘差模塊Fig.1 Lightweight residual module

由1.2 節(jié)可知,在一維非瓶頸結(jié)構(gòu)中,Dk×Dk被分解為Dk× 1 和1 ×Dk,其深度可分離卷積的計(jì)算量為2×(M×其與正常卷積之比就為2×,由此可見(jiàn)深度可分離卷積和一維非瓶頸結(jié)構(gòu)的結(jié)合可進(jìn)一步減少計(jì)算量。修改后的模塊通過(guò)大空洞率以提取具有復(fù)雜的全局特征,而小空洞率更能關(guān)注簡(jiǎn)單的局部特征,相較于固定大小卷積核,分解卷積模塊(FCM)更能有效提取上下文信息和細(xì)節(jié)信息,不僅彌補(bǔ)了固定大小感受野的缺陷而且不會(huì)出現(xiàn)退化問(wèn)題;另外與一維非瓶頸結(jié)構(gòu)比較,F(xiàn)CM 參數(shù)量更少,且特征提取能力更強(qiáng),更能體現(xiàn)實(shí)時(shí)性,在加快算法訓(xùn)練的同時(shí)提高了模塊的兼容性。

2.2 全局上下文注意力模塊

本文認(rèn)為造成淺層算法模型分割性能不佳的一部分原因是卷積過(guò)程中上下文信息的不足,忽略了類(lèi)別之間的邊緣特征。注意力細(xì)化模塊(ARM)如圖2(a)所示,對(duì)輸入依次進(jìn)行平均池化、逐點(diǎn)卷積、批歸一化和sigmoid 映射處理后得到全局特征權(quán)重值,再與輸入特征相乘最終獲得加權(quán)后的特征,該過(guò)程充分考慮全局特征和細(xì)節(jié)特征,在計(jì)算量少的情況下獲得與深層卷積過(guò)程對(duì)應(yīng)的上下文信息,極大地提高了模型的分割能力。因此基于注意力細(xì)化模塊,本文提出全局上下文注意力模塊(Global Context Attention Module,GCAM),如圖2(b)所示,更進(jìn)一步對(duì)每個(gè)階段特征細(xì)化,彌補(bǔ)編碼過(guò)程中欠缺的上下文信息,進(jìn)而提高算法的分割性能,并能有效克服背景信息的干擾。該模塊以初始化特征塊作為輸入,由注意力細(xì)化模塊分別對(duì)平均池化和最大池化后的特征進(jìn)行通道加權(quán),重新調(diào)整特征權(quán)重,得到與其大小對(duì)應(yīng)的權(quán)重圖,再由元素加法操作進(jìn)行特征融合,以極少的計(jì)算量便可獲得更加豐富的全局上下文信息,最后利用3×3 卷積進(jìn)一步增強(qiáng)特征的表達(dá)能力。由于淺層的特點(diǎn)導(dǎo)致算法缺乏足夠的上下文信息,雖然ARM 能夠細(xì)化特征,但終究難以解決該問(wèn)題,添加池化操作后的模塊更有利于增強(qiáng)全局特征提取,由ARM 細(xì)化輸出并融合特征,加強(qiáng)了信息間的交流,并與編碼各階段融合指導(dǎo)特征分類(lèi)預(yù)測(cè),最終提高分割性能。

圖2 注意力細(xì)化模塊和全局上下文注意力模塊Fig.2 Attention refinement module and global context attention module

2.3 整體算法模型

為提高推理速度的同時(shí)保證精度,本文構(gòu)建一個(gè)新型的輕量級(jí)實(shí)時(shí)分割算法——基于注意力機(jī)制和有效分解卷積的實(shí)時(shí)分割算法(Real-time semantic segmentation algorithm based on Attention mechanism and Effective Factorized convolution,AEFNet)。算法框架如圖3 所示。

圖3 AEFNet框架Fig.3 Framework of AEFNet

現(xiàn)階段一些算法通過(guò)連續(xù)下采樣操作和堆疊大量卷積層(100 層以上)構(gòu)建深層卷積網(wǎng)絡(luò)模型,以獲得足夠豐富的語(yǔ)義信息和足夠大的感受野;然而網(wǎng)絡(luò)層數(shù)越深,下采樣次數(shù)越多,空間細(xì)節(jié)信息丟失越嚴(yán)重,不利于恢復(fù)圖像。本文采用3 次下采樣得到1/8 分辨率的特征圖,通過(guò)構(gòu)建有效模塊,發(fā)揮其在少量卷積層上的強(qiáng)大特征提取能力,建立與深層卷積算法同樣有著豐富的語(yǔ)義信息和大感受野的淺層算法模型。在第一階段,首先輸入圖像執(zhí)行3 個(gè)連續(xù)的3×3 卷積得到初始化特征塊,使用較少的參數(shù)訓(xùn)練獲得與7×7 卷積同等大小的感受野,使算法具有更好的學(xué)習(xí)能力。

由步長(zhǎng)為2 的3×3 卷積和2×2 最大池化組成的下采樣器(如圖4 所示)下采樣得到1/4 和1/8 圖像分辨率后,為充分獲取局部特征信息和全局特征信息,進(jìn)一步增大感受野,建立深度卷積模型,階段二堆疊3 個(gè)空洞率為2 的FCM,階段三堆疊6 個(gè)空洞率分別為4、4、8、8、16、16 的FCM,不同空洞率的有效性將在實(shí)驗(yàn)部分進(jìn)行驗(yàn)證分析。為充分提取空間細(xì)節(jié)信息,本文在整個(gè)堆疊模塊引入殘差連接,再由批歸一化和PRelu 激活函數(shù)處理后作為整體輸出。為進(jìn)一步細(xì)化特征,本文采用GCAM(如圖3 中上方實(shí)線所示)和長(zhǎng)連接(如圖3中下方虛線所示)捕捉全局特征信息,并與相應(yīng)階段輸出進(jìn)行連接。最后分類(lèi)器對(duì)階段三的輸出進(jìn)行預(yù)測(cè),由雙線性插值恢復(fù)圖像分辨率。由于非線性層在bottleneck 中使用會(huì)對(duì)算法性能造成一定影響,因此本文在最后1×1 卷積不再使用激活函數(shù)。

圖4 下采樣器Fig.4 Downsampler

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集

本文采用cityscapes 和camvid 兩種自動(dòng)駕駛常用數(shù)據(jù)集對(duì)模型進(jìn)行驗(yàn)證。cityscapes 是城市街景數(shù)據(jù)集,該數(shù)據(jù)集含19 個(gè)類(lèi)別,包括5 000 張精細(xì)標(biāo)注圖片,其中訓(xùn)練集為2 975 張圖片,驗(yàn)證集為500 張圖片,測(cè)試集為1 525 張圖片,每張圖片分辨率為1 024×2 048,另外還有20 000 張粗標(biāo)注的圖片,在本實(shí)驗(yàn)中僅使用精細(xì)標(biāo)注圖片。camvid 為另一個(gè)用于自動(dòng)駕駛的圖片數(shù)據(jù)集,該數(shù)據(jù)集包含11 個(gè)類(lèi)別,共有701 張圖片,其中訓(xùn)練集為367 張圖片,驗(yàn)證集為101 張圖片,測(cè)試集為233 張圖片,每張圖片分辨率為720×960。

3.2 實(shí)驗(yàn)設(shè)置

本實(shí)驗(yàn)在pytorch 平臺(tái)使用單個(gè)GTX 2080Ti GPU 進(jìn)行實(shí)驗(yàn)。AEFNet 訓(xùn)練時(shí)采用批次為8,動(dòng)量為0.9,權(quán)重為0.000 1 的小批次隨機(jī)梯度下降法對(duì)模型進(jìn)行優(yōu)化,訓(xùn)練期間使用“ploy”學(xué)習(xí)策略(如式(1))動(dòng)態(tài)調(diào)整學(xué)習(xí)率,初始學(xué)習(xí)率為0.045,最大epoch 為1 000。數(shù)據(jù)預(yù)處理過(guò)程中使用了數(shù)據(jù)增強(qiáng)策略,如:隨機(jī)水平翻轉(zhuǎn)、隨機(jī)裁剪和均值衰減,隨機(jī)裁剪值為{0.75,1.0,1.25,1.5,1.75,2.0}。本實(shí)驗(yàn)將cityscapes 數(shù)據(jù)集經(jīng)隨機(jī)裁剪后分辨率為512×1 024 作為算法的輸入。另外,本文沒(méi)有采用任何形式的預(yù)訓(xùn)練策略,算法模型從頭開(kāi)始訓(xùn)練。

其中:lrcur為當(dāng)前學(xué)習(xí)率,lrinit為初始學(xué)習(xí)率,epoch為迭代次數(shù),max_epoch為最大迭代次數(shù),power控制曲線形狀,通常設(shè)置為0.9。

3.3 評(píng)價(jià)指標(biāo)

本實(shí)驗(yàn)中所有的精度結(jié)果均采用平均交并比(mean Intersection Over Union,mIOU)進(jìn)行評(píng)價(jià),推理速度采用幀速率(Frames Per Second,F(xiàn)PS)進(jìn)行評(píng)價(jià)。

平均交并比(mIOU)計(jì)算真實(shí)值和預(yù)測(cè)值兩個(gè)集合的交集和并集之比,是分割任務(wù)中評(píng)價(jià)精度的常用指標(biāo),其計(jì)算公式如式(2):

其中:k為類(lèi)別數(shù)量,TP(True Positive)表示預(yù)測(cè)為真正數(shù)量,F(xiàn)N(False Negative)表示預(yù)測(cè)為假負(fù)數(shù)量,F(xiàn)P(False Positive)表示預(yù)測(cè)為假正數(shù)量。

幀速率(FPS)指圖形處理器每秒鐘能夠刷新幾次,F(xiàn)PS 越高,則動(dòng)作顯示越流暢,實(shí)時(shí)性相對(duì)就越高。因此,實(shí)時(shí)分割任務(wù)常用FPS 評(píng)價(jià)算法推理速度,其計(jì)算公式如式(3):

其中:N為圖片數(shù)量,Tj為算法處理第j張圖片時(shí)所需要的時(shí)間。

3.4 消融實(shí)驗(yàn)

為探索多尺度感受野對(duì)算法分割性能的影響,本文針對(duì)階段三設(shè)置3 組不同空洞率的對(duì)比實(shí)驗(yàn),空洞率分別為3、3、7、7、13、13,4、4、4、4、4、4 和4、4、8、8、16、16,實(shí)驗(yàn)結(jié)果如表1 所示,由于固定空洞率大小限制了感受野大小,導(dǎo)致大尺度特征的信息提取不完整,而空洞率為3、3、7、7、13、13時(shí),對(duì)“大而密”的特征圖的信息提取依然缺乏足夠的感受野。本文采用空洞率為4、4、8、8、16、16 的FCM 能獲取更多豐富的細(xì)節(jié)信息和更大的感受野,其分割精度高于其余兩組約1 個(gè)百分點(diǎn),推理速度基本持平,具有更強(qiáng)的泛化能力。

另一方面,為探究解碼器結(jié)構(gòu)對(duì)算法模型的影響,本文采用了ERFNet[10]的解碼器結(jié)構(gòu)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表1所示,解碼器結(jié)構(gòu)在AEFNet 基礎(chǔ)上精度提高了0.3 個(gè)百分點(diǎn),在性能上的提升并沒(méi)有明顯的作用,反而由于解碼器結(jié)構(gòu)帶來(lái)的額外計(jì)算成本,大大限制算法的推理速度,因此解碼器結(jié)構(gòu)在本文模型中不必要。

表1 空洞率和解碼器對(duì)算法性能的影響Tab.1 Influence of dilated rate and decoder on algorithm performance

結(jié)合多尺度語(yǔ)義信息在一定程度上提高了分割性能,但一些邊緣特征分割模糊,引入注意力模塊可細(xì)化每個(gè)編碼階段。為探索GCAM 對(duì)算法性能的影響,本文設(shè)計(jì)了4 組對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2 所示,當(dāng)使用最大池化代替平均池化時(shí),精度提高了0.4 個(gè)百分點(diǎn);當(dāng)全部使用池化操作時(shí),比全部不使用時(shí)精度提高了1.4 個(gè)百分點(diǎn),且比單個(gè)使用的精度都要高,但推理速度少于不使用池化操作時(shí)約7 FPS,但這不影響算法的實(shí)時(shí)性,其他組別的推理速度與本文所提算法基本一致,而本文更注重算法分割精度,由此看來(lái)使用兩種池化更有利于性能的提升。部分實(shí)驗(yàn)結(jié)果如圖5 所示。

圖5 部分實(shí)驗(yàn)結(jié)果Fig.5 Part experimental results

表2 GCAM對(duì)算法性能的影響Tab.2 Influence of GCAM on algorithm performance

在GCAM 的基礎(chǔ)上,本實(shí)驗(yàn)采用長(zhǎng)連接進(jìn)一步特征細(xì)化并彌補(bǔ)下采樣丟失的細(xì)節(jié)信息。為探索長(zhǎng)連接對(duì)算法性能的影響,本實(shí)驗(yàn)采用控制變量法逐步實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3所示,精度與AEFNet 相比,長(zhǎng)連接缺失會(huì)導(dǎo)致算法分割精度略有下降,但都在1 個(gè)百分點(diǎn)以?xún)?nèi),雖然在推理速度上也有所影響,但與AEFNet 基本保持不變,因此在保證實(shí)時(shí)性的前提下,本文算法有著較好的性能。部分實(shí)驗(yàn)結(jié)果如圖5所示。

表3 長(zhǎng)連接對(duì)算法性能的影響Tab.3 Influence of long connection on algorithm performance

從圖5 可以看出:本文以圖5(a)為基準(zhǔn)進(jìn)行對(duì)比,研究算法在不同情況下的實(shí)際效果;圖5(b)由于擁有GCAM,算法對(duì)全局信息提取較為準(zhǔn)確,并接近于完整模型,對(duì)道路、車(chē)和建筑物等分割準(zhǔn)確,但對(duì)遠(yuǎn)處目標(biāo)和一些混合性的物體出現(xiàn)分割錯(cuò)誤,如路旁的自行車(chē)有分類(lèi)錯(cuò)誤和遠(yuǎn)處的教堂分割不全,這可能是由于沒(méi)有足夠的信息,沒(méi)能及時(shí)補(bǔ)充相應(yīng)的細(xì)節(jié);圖5(c)中相較于完整模型缺少最大池化,從效果圖可以看出對(duì)性能影響較大,對(duì)道路、樹(shù)木等相對(duì)較大目標(biāo)分割存在瑕疵,效果圖中出現(xiàn)斑點(diǎn),但圖中物體間界限分明,邊緣特征清晰可見(jiàn),表明雖然缺少最大池化,但GCAM 依然能夠有效捕捉全局上下文信息,指導(dǎo)正確的預(yù)測(cè)分類(lèi);而在圖5(d)中,由于最大池化的作用,使得算法對(duì)目標(biāo)更加關(guān)注,邊緣特征更加明顯,較完整模型來(lái)講,兩者分割最為接近,行人、汽車(chē)和樹(shù)木等都能準(zhǔn)確地識(shí)別,但對(duì)于小目標(biāo)依然存在分類(lèi)錯(cuò)誤和丟失的情況,特別是遠(yuǎn)處的細(xì)小目標(biāo),如遠(yuǎn)處的塔就分割不完整。總體上,細(xì)小目標(biāo)和遠(yuǎn)處部分目標(biāo)的分割不全或丟失的問(wèn)題普遍存在,致使算法分割效果不佳,而金字塔特征提取算法能有效解決該問(wèn)題。

3.5 在速度和精度上的比較

本文使用cityscapes 測(cè)試集對(duì)算法模型進(jìn)行驗(yàn)證,并和目前優(yōu)秀的算法模型進(jìn)行對(duì)比分析,包括金字塔場(chǎng)景解析網(wǎng)絡(luò)(PSPNet)[3]、用于圖像分割的深度卷積編解碼架構(gòu)(SegNet)[2]、用于實(shí)時(shí)語(yǔ)義分割的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)(ENet)[5]、高效空間金字塔網(wǎng)絡(luò)(ESPNet)[12]、高效殘差分解卷積網(wǎng)絡(luò)(ERFNet)[10]、圖像級(jí)聯(lián)網(wǎng)絡(luò)(Image Cascade Network,ICNet)[18]、注意力引導(dǎo)的輕量級(jí)網(wǎng)絡(luò)(Attention-Guided Lightweight Network,AGLNet)[19]、深度非對(duì)稱(chēng)瓶頸網(wǎng)絡(luò)(DABNet)[7]、高效對(duì)稱(chēng)網(wǎng)絡(luò)(Efficient Symmetric Network,ESNet)[20]、深度特征聚合網(wǎng)絡(luò)(Deep Feature Aggregation Network,DFANet)[21]、非局部高效實(shí)時(shí)算法(Light-weighted Network with efficient Reduced non-local operation,LRNNet)[22]、增強(qiáng)非對(duì)稱(chēng)卷積網(wǎng)絡(luò)(EACNet)[8]。實(shí)驗(yàn)結(jié)果如表4 所示,本文提出的AEFNet擁有1.59MB的參數(shù),相較于ENet[5]和ESPNet[12]的參數(shù)量0.36MB,這兩種算法參數(shù)占有明顯優(yōu)勢(shì),但從精度和推理速度上看,ENet 和ESPNet 在精度上與AEFNet 相差約14 個(gè)百分點(diǎn),而在推理速度上ESPNet 低于AEFNet 約7 FPS,由此看來(lái),AEFNet 性能表現(xiàn)較好。相較于EACNet,本文提出AEFNet 精度比其略低0.2 個(gè)百分點(diǎn),但在推理速度上,AEFNet 則表現(xiàn)較為出色,達(dá)到了118.9 FPS,高于上述所有算法。由此可見(jiàn),本文提出的AEFNet 在精度和推理速度上取得較好的平衡,能夠在保證精度較高的同時(shí)提高推理速度。

表4 不同算法在cityscapes測(cè)試集上精度與推理速度的對(duì)比Tab.4 Precision and interference speed comparation of different algorithms on cityscapes test set

相較于一些優(yōu)秀的算法框架,本文構(gòu)建的算法模型在具體類(lèi)別上的精度也表現(xiàn)出優(yōu)越性。如表5 展示了每類(lèi)分割精度值,并且大多數(shù)類(lèi)別分割精度都優(yōu)于其他算法,特別在人行道、柵欄和交通標(biāo)志等分割精度大幅度上升,表明本文提出的算法對(duì)類(lèi)別的一些重要特征(如邊緣特征等)的識(shí)別更加精細(xì),而在植物、天空和大車(chē)等方面分割效果不佳,可能是多種細(xì)小目標(biāo)與其混合所致,但總體性能本文模型更優(yōu),表中:類(lèi)mIOU 表示表示19 個(gè)小類(lèi)類(lèi)精度的平均值,類(lèi)別mIOU 表示7 個(gè)大類(lèi)精度的平均值。

表5 AEFNet在cityscapes測(cè)試集上的每類(lèi)IOU及與其他算法的比較 單位:%Tab.5 Each class IOU of AEFNet and other algorithms on cityscapes test set unit:%

為進(jìn)一步分析,本文在cityscapes 驗(yàn)證集上的分割結(jié)果進(jìn)行了分割可視化,并選取具有代表性的算法進(jìn)行比較相比。實(shí)驗(yàn)結(jié)果如圖6 所示,對(duì)于建筑、馬路和汽車(chē)等簡(jiǎn)單場(chǎng)景的分割,AEFNet 更接近標(biāo)簽圖,類(lèi)別之間的界限分割效果比較明顯,細(xì)化了邊緣特征的分割,如圖6 第一個(gè)場(chǎng)景中的建筑物分割較為準(zhǔn)確。由于遠(yuǎn)處道路場(chǎng)景細(xì)節(jié)復(fù)雜,細(xì)小的目標(biāo)和多種目標(biāo)混合區(qū)域的分割出現(xiàn)分割不全的情況,如圖6 最后一個(gè)場(chǎng)景中單車(chē)上的小孩出現(xiàn)錯(cuò)誤分類(lèi),其原因可能是空洞卷積過(guò)程中造成的細(xì)節(jié)丟失或注意力模塊對(duì)小目標(biāo)關(guān)注度欠缺。

圖6 不同算法在cityscapes驗(yàn)證集上的分割可視化結(jié)果Fig.6 Visualized segmentation results of different algorithms on cityscapes verification set

3.6 在camvid數(shù)據(jù)集上的驗(yàn)證

本文在另一個(gè)用于自動(dòng)駕駛的數(shù)據(jù)集camvid 上進(jìn)行實(shí)驗(yàn),圖片經(jīng)隨機(jī)裁剪后輸入為360×480,訓(xùn)練參數(shù)設(shè)置與在cityscapes 數(shù)據(jù)集上基本保持一致,初始學(xué)習(xí)率重新設(shè)置為0.001,并新增了高效密集對(duì)稱(chēng)卷積網(wǎng)絡(luò)(Efficient Dense modules of Asymmetric convolution Network,EDANet)[25]進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果如表6 所示,本文提出的AEFNet 在camvid測(cè)試集上能夠達(dá)到67.6%的精度,推理速度為123.6 FPS。AEFNet 的精度低于DFANet 3.7 個(gè)百分點(diǎn),但推理速度取得了較大的提升,提高23.6 FPS。推理速度上EDANet[25]高于AEFNet 約40 FPS,但精度略低于本文所提算法1.2 個(gè)百分點(diǎn)。由此可見(jiàn),AEFNet 也能在camvid 數(shù)據(jù)集上獲得良好的性能。

表6 不同算法在camvid測(cè)試集上的性能對(duì)比Tab.6 Performance comparation of different algorithms on camvid test set

4 結(jié)語(yǔ)

為滿足實(shí)時(shí)性要求,本文運(yùn)用了輕量級(jí)非對(duì)稱(chēng)殘差模塊和注意力機(jī)制構(gòu)建了淺層算法,該算法為減少計(jì)算成本和內(nèi)存占用,利用深度可分離卷積和非對(duì)稱(chēng)卷積構(gòu)建輕量級(jí)的FCM,為獲取全局重要信息,細(xì)化每個(gè)階段,利用GCAM 用于提高算法分割性能。為驗(yàn)證算法模型的有效性,AEFNet 在cityscapes 和camvid 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該算法能夠在精度和推理速度之間取得較好的平衡,相較于其他算法而言,本文所提出的算法表現(xiàn)出了良好的性能。

在可視化結(jié)果中,本文所提算法依然存在細(xì)小目標(biāo)分割不完整或丟失、部分邊緣特征界限略有不清晰的情況,針對(duì)以上問(wèn)題,設(shè)計(jì)有效的金字塔特征提取算法和更為精細(xì)的注意力模塊加深對(duì)小目標(biāo)的提取和關(guān)注將是今后研究的重點(diǎn)。

猜你喜歡
特征信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會(huì)信息
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 精品一区二区三区水蜜桃| 国产欧美视频在线| 亚洲天堂精品在线| 国产精品专区第1页| 国产精品毛片一区| 国产在线啪| 久久一日本道色综合久久| 制服丝袜无码每日更新| 亚洲日韩精品无码专区| 在线不卡免费视频| 国产精品思思热在线| 五月婷婷亚洲综合| 亚洲国产av无码综合原创国产| 99国产精品国产| 毛片一区二区在线看| 成人欧美在线观看| 免费观看无遮挡www的小视频| av一区二区人妻无码| 激情午夜婷婷| 免费无码一区二区| 亚洲国产精品人久久电影| 91在线精品麻豆欧美在线| 最新国产你懂的在线网址| 亚洲看片网| 视频国产精品丝袜第一页| 4虎影视国产在线观看精品| 国产办公室秘书无码精品| WWW丫丫国产成人精品| 华人在线亚洲欧美精品| 青青青国产视频| 欧美成人日韩| 国产在线精品99一区不卡| 国产精品冒白浆免费视频| 国产另类视频| 97在线免费| 久爱午夜精品免费视频| 国产亚洲一区二区三区在线| 2021天堂在线亚洲精品专区| 亚洲精品爱草草视频在线| a在线亚洲男人的天堂试看| 精品国产污污免费网站| 国产精品hd在线播放| 一区二区欧美日韩高清免费 | 国产一区三区二区中文在线| 亚洲天堂网在线播放| 国产精品伦视频观看免费| www.youjizz.com久久| 一区二区在线视频免费观看| 超碰91免费人妻| 国产精品尤物在线| 黑人巨大精品欧美一区二区区| 伊在人亞洲香蕉精品區| 国产99精品视频| 香蕉国产精品视频| 999国产精品永久免费视频精品久久 | 成人毛片在线播放| 精品国产成人高清在线| 亚洲综合狠狠| 美女一区二区在线观看| 欧美亚洲国产日韩电影在线| 一级毛片网| 亚洲黄色网站视频| AV不卡无码免费一区二区三区| 国产啪在线91| a色毛片免费视频| 中国美女**毛片录像在线| 中文字幕 91| 2021国产精品自产拍在线| 久久77777| 免费一级毛片在线观看| 无码国产伊人| 精品国产aⅴ一区二区三区| 九色视频最新网址| 丰满人妻一区二区三区视频| 四虎永久免费在线| 国产裸舞福利在线视频合集| 国产主播福利在线观看| 国产呦视频免费视频在线观看| 成人午夜视频免费看欧美| 国产永久在线视频| 26uuu国产精品视频| 美女无遮挡被啪啪到高潮免费|