摘要:針對(duì)實(shí)時(shí)語(yǔ)義分割方法中因忽略其本質(zhì)所導(dǎo)致的分割精度不高的問(wèn)題,提出了一種多級(jí)上下文引導(dǎo)的輕量化網(wǎng)絡(luò)。首先,將深度可分離卷積及非對(duì)稱卷積相結(jié)合,設(shè)計(jì)了基于并行非對(duì)稱卷積的上下文引導(dǎo)模型以學(xué)習(xí)局部特征及其周圍上下文構(gòu)成的聯(lián)合特征;其次,將該模型堆疊于網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)特征的多級(jí)優(yōu)化;最后,通過(guò)通道注意模型篩選出與更高階段語(yǔ)義一致的淺層特征,從而提高分割效果。實(shí)驗(yàn)結(jié)果表明,所提網(wǎng)絡(luò)在Cityscapes數(shù)據(jù)集上以94.7的幀速率獲得了72.4%的平均交并比,并在CamVid數(shù)據(jù)集上取得顯著的性能提升。同當(dāng)前的其他實(shí)時(shí)語(yǔ)義分割方法相比,該網(wǎng)絡(luò)性能更優(yōu)。
關(guān)鍵詞:深度可分離卷積;非對(duì)稱卷積;局部特征;上下文;通道注意
中圖分類號(hào):TP391.41文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2022)04-052-1265-05
doi:10.19734/j.issn.1001-3695.2021.07.0335
Real-time semantic segmentation network based on multi-level context guidance
Wen Kai1a,1b,Xiong Junchen1a,1b,Zou Wei2,Tang Weiwei1a,1b(1.a.School of Communication amp; Information Engineering,b.Research Center of New Telecommunication Technology Applications,Chongqing University of Posts amp; Telecommunications,Chongqing 400065,China;2.Chongqing Productivity Council,Chongqing 400021,China)
Abstract:Aiming at the problem of low segmentation accuracy caused by ignoring its essence in real-time semantic segmentation methods,this paper proposed a multi-level context guided lightweight network.Firstly,it combined the deep-wise separable convolution with asymmetric convolution,and designed a context guided model based on the parallel asymmetric convolution to learn the joint features of local feature and its surrounding contexts.Furthermore,this research not only stacked the model in the network to achieve multi-level feature optimization,but also selected the shallow features consistent with higher-stage semantics by channel attention model,so as to improve the segmentation accuracy.According to the experimental results,the average intersection and union ratio of the proposed network on Cityscapes datasets is 72.4% at 94.7 frame rate,and this network achieves significant performance improvement on CamVid datasets.In comparison to the other current real-time semantic segmentation methods,the performance of the proposed network is better.
Key words:deep-wise separable convolution;asymmetric convolution;local feature;contexts;channel attention
0引言
語(yǔ)義分割的目的是為圖像中的各像素分配語(yǔ)義類標(biāo)簽,它提供包括對(duì)象類別、位置及形狀在內(nèi)的綜合場(chǎng)景描述,因此,其可被視為密集的像素預(yù)測(cè)任務(wù)。作為計(jì)算機(jī)視覺(jué)中一項(xiàng)重要的任務(wù),其被廣泛應(yīng)用于圖像理解[1]、場(chǎng)景解析[2]、自動(dòng)駕駛[3]等領(lǐng)域。以上應(yīng)用需要網(wǎng)絡(luò)能夠產(chǎn)生實(shí)時(shí)的響應(yīng),且具備可靠的精度。然而,現(xiàn)有分割方法大多是從分類網(wǎng)絡(luò)中遷移而來(lái),忽略了語(yǔ)義分割的本質(zhì),導(dǎo)致精度提升受到限制。故設(shè)計(jì)出能正確反映語(yǔ)義分割本質(zhì)的輕量化網(wǎng)絡(luò)具有重要的研究意義。
目前,基于全卷積網(wǎng)絡(luò)[4]的方法極大提高了語(yǔ)義分割的精度和處理效率。例如,Chen等人[5]創(chuàng)造性地將空洞可分離卷積運(yùn)用于編碼—解碼結(jié)構(gòu),改善了分割精度,但其參數(shù)量為54.6 M。Lin等人[6]通過(guò)RCU模塊及大量的跳躍連接來(lái)恢復(fù)上采樣過(guò)程中對(duì)應(yīng)層的特征圖,卻帶來(lái)了過(guò)多的參數(shù)與內(nèi)存訪問(wèn)成本。這些方法涉及大量的計(jì)算量,導(dǎo)致網(wǎng)絡(luò)的推理速度極慢。為解決上述問(wèn)題,ICNet[7]高效地利用低分辨率的語(yǔ)義信息及高分辨率的空間信息,以犧牲微小的推理速度獲得了精度的顯著提高。SegNet[8]去掉全連接層,通過(guò)編碼階段的最大池化索引恢復(fù)解碼階段的空間信息,加快了推理速度。ENet[9]在SegNet的基礎(chǔ)上,采用非對(duì)稱的編碼—解碼結(jié)構(gòu)及通道裁剪,降低了浮點(diǎn)運(yùn)算量。ERFNet[10]將二維卷積替換為一維非對(duì)稱卷積,利用非瓶頸殘差模型,在提高推理速度的同時(shí)獲得了很好的精度。這些方法以分類網(wǎng)絡(luò)為骨干,且在特征提取過(guò)程的編碼階段未考慮特征周圍的上下文對(duì)分割結(jié)果產(chǎn)生的影響。因此,ESPNet[11]通過(guò)有效的空間金字塔擴(kuò)張卷積,在推理速度和精度上都取得了很大的提升。Li等人[12]提出了深度非對(duì)稱瓶頸模塊,以此堆疊的網(wǎng)絡(luò)在減少參數(shù)的同時(shí)改善了分割性能。ESNet[13]采用了一種新型的輕量化編—解碼結(jié)構(gòu)。DFA[14]通過(guò)特征重用增強(qiáng)了特征的表示能力,極大提高了網(wǎng)絡(luò)的推理速度。這些實(shí)時(shí)處理方法均以少量的計(jì)算代價(jià)加快了網(wǎng)絡(luò)的推理速度,但它們都忽略了相鄰階段的特征可能存在語(yǔ)義不一致性等問(wèn)題。
為解決上述問(wèn)題,本文提出了基于并行非對(duì)稱卷積的上下文引導(dǎo)模型CGPA(context guided model based on parallel asymmetric convolution)。其用于網(wǎng)絡(luò)編碼階段提取特征,這使提取到的特征有更強(qiáng)的特征表達(dá)能力。隨后,在網(wǎng)絡(luò)中使用通道注意將相鄰階段特征融合以保證這些特征的語(yǔ)義一致,這對(duì)精度提升有積極作用。總的來(lái)說(shuō),網(wǎng)絡(luò)的設(shè)計(jì)采用輕量化原則,既兼顧了網(wǎng)絡(luò)的推理速度,又提高了網(wǎng)絡(luò)整體分割效果。
1相關(guān)工作
1.1上下文信息
最近的工作表明上下文信息有助于預(yù)測(cè)高質(zhì)量的結(jié)果。文獻(xiàn)[15]采用兩條分支來(lái)分別提取上下文及空間細(xì)節(jié)信息。DeepLab V3[16]采用空間金字塔池去捕獲多尺度的上下文信息。文獻(xiàn)[17]通過(guò)利用全局上下文信息預(yù)測(cè)解析殘差,提出了一種全局殘差優(yōu)化網(wǎng)絡(luò)。相比之下,一些方法直接構(gòu)建信息傳播模型來(lái)獲取上下文信息。例如,PSANet[18]提出采用雙向信息傳播來(lái)自適應(yīng)地學(xué)習(xí)逐點(diǎn)上下文。DeepLab框架[19]使用DenseCRF[20]作為后處理,在此之后的許多方法均在網(wǎng)絡(luò)中結(jié)合了CRF和DCNNS。CCL[21]提出了一種新的上下文對(duì)比局部特征,它不僅利用了信息上下文,還突出了與上下文對(duì)比的局部信息。這些以分類網(wǎng)絡(luò)為骨干的方法在編碼階段忽略了周圍的上下文,為了改善精度,它們僅在解碼階段挖掘上下文信息。盡管這種方式能夠?qū)Ψ指钚Чa(chǎn)生積極的作用,但卻導(dǎo)致網(wǎng)絡(luò)的分割性能局限于小幅度提升。
1.2注意力機(jī)制
注意力機(jī)制最先是自然語(yǔ)言處理中采用的方法,因其良好的性能表現(xiàn),被廣泛用于圖像分類、視頻分類等領(lǐng)域。文獻(xiàn)[22]通過(guò)自適應(yīng)位置注意力和注意力上采樣模塊對(duì)長(zhǎng)距離語(yǔ)義依賴關(guān)系進(jìn)行編解碼,提高了網(wǎng)絡(luò)的分割性能。CGNet[23]通過(guò)注意力機(jī)制同時(shí)學(xué)習(xí)局部特征和全局特征,獲得了很好的上下文紋理。TSNet [24]引入自注意力機(jī)制,通過(guò)交叉模式蒸餾細(xì)化深度流和RGB流的中間特征圖,進(jìn)而提高分割性能。GhostNet [25]提出輕量級(jí)Ghost模型,在小特征圖基礎(chǔ)上使用更為廉價(jià)的卷積操作生成一系列特征圖,進(jìn)一步減少計(jì)算量。DFN[26]學(xué)習(xí)全局上下文并將其作為注意力以改善特征。
1.3輕量化結(jié)構(gòu)
隨著實(shí)時(shí)語(yǔ)義分割應(yīng)用的迫切需要,許多輕量化網(wǎng)絡(luò)采用一些減少計(jì)算復(fù)雜度的方式來(lái)加快網(wǎng)絡(luò)的處理效率。這些方法大致可分為采用深度可分離卷積與非對(duì)稱卷積兩種。深度可分離卷積最先是在Xception[27]和MobileNet[28]中被提出,通過(guò)減少運(yùn)算量使得效率被提升。通常,一個(gè)正常卷積過(guò)程的計(jì)算復(fù)雜度與尺寸大小為R×R的輸入圖像、S×S的卷積核大小、輸入通道數(shù)m及輸出通道數(shù)n有關(guān),且其計(jì)算量為R2×S2×m×n。而深度可分離卷積是將常規(guī)卷積分解為逐深度卷積與逐點(diǎn)卷積兩個(gè)過(guò)程,如圖1所示。
首先,將m個(gè)輸入特征圖與大小為S×S的卷積核進(jìn)行單獨(dú)的深度卷積,然后再用1×1的卷積核對(duì)其進(jìn)行融合。采用深度可分離卷積的運(yùn)算量同正常標(biāo)準(zhǔn)卷積過(guò)程的比值為
1n+1S2(1)
通常n比較大,式(1)中比值主要受卷積核大小影響。故當(dāng)卷積核為3×3時(shí),深度可分離卷積的參數(shù)量?jī)H為常規(guī)卷積的1/9。
另一種方法由文獻(xiàn)[10]提出,即任何二維卷積濾波器均可通過(guò)一維濾波器組合表示。這種非對(duì)稱卷積通過(guò)最小化一維卷積組合的冗余,減少了標(biāo)準(zhǔn)卷積的運(yùn)算量,并提高了其緊致性。但此網(wǎng)絡(luò)未考慮上下文信息對(duì)網(wǎng)絡(luò)性能的影響,忽略了語(yǔ)義分割的本質(zhì),導(dǎo)致分割精度不是很高。
ShuffleNet v2[29]認(rèn)為內(nèi)存訪問(wèn)成本是一個(gè)極其重要的影響因素,而以往的實(shí)時(shí)方法卻將其忽略,并基于大量實(shí)驗(yàn)對(duì)于輕量化模型的設(shè)計(jì)提出了四點(diǎn)合理建議,以保證推理速度和分割精度的平衡。
受ERFNet[10]的影響,本文將深度可分離卷積與非對(duì)稱卷積相結(jié)合來(lái)設(shè)計(jì)模型以加快網(wǎng)絡(luò)的推理速度。與之不同的是,本文模型考慮了使用空洞卷積來(lái)提取上下文信息,克服了編碼階段特征表達(dá)能力不足的缺陷。此外,該模型遵循了ShuffleNet v2中的等通道設(shè)計(jì)原則,并對(duì)提取到的聯(lián)合特征通過(guò)通道混洗來(lái)促進(jìn)了信息交流。
2本文模型及網(wǎng)絡(luò)結(jié)構(gòu)
為了在語(yǔ)義分割預(yù)測(cè)任務(wù)中產(chǎn)生與實(shí)際相符的輸出,設(shè)計(jì)了基于并行非對(duì)稱卷積的上下文引導(dǎo)模型CGPA及通道注意模型CAM(channel attention model)。本文將兩者結(jié)合,設(shè)計(jì)了能正確反映語(yǔ)義分割本質(zhì)的輕量化網(wǎng)絡(luò)CGPANet(lightweight network based on CGPA),其總體設(shè)計(jì)方案如圖2所示。其中,CGPA模型被用于編碼過(guò)程的不同階段以引導(dǎo)不同級(jí)別的特征。隨后,CAM使用深層特征進(jìn)一步引導(dǎo)淺層特征,并在訓(xùn)練學(xué)習(xí)的過(guò)程中篩選出優(yōu)質(zhì)特征以提高最后的預(yù)測(cè)效果。
2.1基于并行非對(duì)稱卷積的上下文引導(dǎo)模型
在模型設(shè)計(jì)過(guò)程中,本文參考了瓶頸殘差結(jié)構(gòu)(圖3(a))與非瓶頸殘差結(jié)構(gòu)(圖3(b))。它們以大致相同的參數(shù)取得了近似的精度。然而,瓶頸結(jié)構(gòu)需要更少的計(jì)算量,隨著網(wǎng)絡(luò)深度的增加,其計(jì)算優(yōu)勢(shì)也越突出。此外,殘差結(jié)構(gòu)在參數(shù)更新時(shí)能將鏈?zhǔn)角髮?dǎo)中的連乘變成連加,避免了梯度消失或梯度爆炸現(xiàn)象。故本文結(jié)合ERFNet中非對(duì)稱卷積(圖3(c))與瓶頸殘差結(jié)構(gòu)的優(yōu)勢(shì)來(lái)設(shè)計(jì)輕量化模型CGPA,如圖4(a)所示。
CGPA的設(shè)計(jì)思想來(lái)源于人類視覺(jué)系統(tǒng)的影響,即依靠上下文信息識(shí)別場(chǎng)景來(lái)正確反映語(yǔ)義分割本質(zhì)。如圖4(b)所示,如若僅通過(guò)雙實(shí)線框圖區(qū)域來(lái)判斷其所屬類別是十分困難的,當(dāng)其周圍的上下文(虛線框圖區(qū)域)被包括進(jìn)來(lái)后(圖4(c)),雙實(shí)線區(qū)域準(zhǔn)確地分配類別將更容易。如果進(jìn)一步捕捉整個(gè)場(chǎng)景的全局上下文(如粗實(shí)線區(qū)域,圖4(d)),那么對(duì)雙實(shí)線區(qū)域進(jìn)行分類具有更高的置信度。
基于上述分析,本文充分考慮了局部特征、其周圍的上下文及全局上下文。首先,在CGPA模型的開(kāi)始將深度可分離卷積運(yùn)用于3×3的非對(duì)稱卷積對(duì)輸入特征圖進(jìn)行特征提取,將其通道數(shù)減半并送入兩條并行的分支。盡管傳統(tǒng)殘差結(jié)構(gòu)(圖3(a))使用的1×1卷積參數(shù)更少,但其主要用于超過(guò)100層的深層網(wǎng)絡(luò)結(jié)構(gòu),以提取更復(fù)雜的特征和增加感受野大小。網(wǎng)絡(luò)過(guò)深會(huì)帶來(lái)大量參數(shù)和內(nèi)存占用,這對(duì)網(wǎng)絡(luò)的推理速度是不利的。因此,本文仍堅(jiān)持使用3×3的卷積來(lái)設(shè)計(jì)模型。
隨后,兩條并行的分支被用來(lái)進(jìn)一步提取局部特征及其周圍的上下文特征。其中,局部特征通過(guò)下分支(圖4(a)雙實(shí)線框)將深度可分離卷積運(yùn)用于3×3的非對(duì)稱卷積來(lái)提取。上分支采用空洞卷積獲取其周圍上下文信息(圖4(a)虛線框)。但當(dāng)空洞率過(guò)大(d=16)時(shí),其相當(dāng)于一個(gè)大卷積核對(duì)特征圖進(jìn)行卷積,會(huì)導(dǎo)致計(jì)算成本增加而降低推理速度。故第二條分支仍結(jié)合深度可分離卷積與非對(duì)稱卷積來(lái)解決該矛盾。為遵守ShuffleNet v2的等通道設(shè)計(jì)準(zhǔn)則,本文采用concat操作來(lái)恢復(fù)支路減半的通道數(shù),并通過(guò)通道混洗以促進(jìn)信息交流。大體來(lái)看,特征提取部分與瓶頸殘差結(jié)構(gòu)相似,充分利用了其優(yōu)勢(shì)。
最后,為引導(dǎo)局部特征及其周圍上下文構(gòu)成的聯(lián)合特征有更好的特征表達(dá),CGPA使用池化后的全局上下文信息生成一組向量,并利用該向量?jī)?yōu)化該聯(lián)合特征,如圖4(a)點(diǎn)畫線框部分所示。
2.2通道注意模型
隨著多尺度引入,對(duì)于確定尺寸的事物,不同階段的特征具有不同程度的辨別能力。其中,更低階段的特征含有豐富的空間細(xì)節(jié)信息,而更高階段的特征有更精準(zhǔn)的語(yǔ)義信息。因此,本文設(shè)計(jì)了一種通道注意力模型(CAM),它能夠利用更高階段的特征引導(dǎo)淺層的特征篩選以進(jìn)一步優(yōu)化預(yù)測(cè)結(jié)果,如圖5所示。
以分類網(wǎng)絡(luò)為骨干的全卷積網(wǎng)絡(luò)[4]中,卷積算子輸出一個(gè)分?jǐn)?shù)圖,它給出了每個(gè)像素屬于各個(gè)類的概率值。在式(2)中,得分圖上的最終分?jǐn)?shù)通過(guò)特征圖在所有通道上求和所得。
yk=F(x;w)=∑Di=1,j=1wi,jxi,j(2)
其中:x表示網(wǎng)絡(luò)的輸出特征;w表示卷積核;k∈{1,2,…,K},K表示通道數(shù)量;D表示像素的位置集合。
δi(yk)=exp(yk)∑Kj=1exp(yj)(3)
其中:δ表示預(yù)測(cè)概率;y表示網(wǎng)絡(luò)的輸出。
如式(2)(3)所示,最終預(yù)測(cè)的標(biāo)簽是概率最大值所對(duì)應(yīng)的類別。如果某一補(bǔ)丁的預(yù)測(cè)結(jié)果是y0,而真實(shí)的標(biāo)簽是y1,那么,可以通過(guò)參數(shù)α將最大概率值從y0改為y1,如式(4)所示。
y=αy=α1
αk·y1yk=α1w1αkwk×x1xk(4)
其中:y表示網(wǎng)絡(luò)新產(chǎn)生的預(yù)測(cè);α=sigmoid(x;w)。
基于以上表述,本文進(jìn)一步探討其實(shí)際意義。在式(2)中,默認(rèn)各通道的權(quán)重是相等的。由于網(wǎng)絡(luò)更高階段特征與淺層特征具有不同語(yǔ)義,故它們的辨別能力會(huì)不一致,導(dǎo)致分類錯(cuò)誤。本文通過(guò)式(4)將α應(yīng)用于特征圖x,它表示使用通道注意篩選出與更高階段語(yǔ)義一致的淺層特征。采用這種設(shè)計(jì)可使網(wǎng)絡(luò)各階段特征具備一致的語(yǔ)義,進(jìn)而獲得更高的精度。
2.3網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)
本文目的是設(shè)計(jì)具備快速推理與可比較精度的輕量化網(wǎng)絡(luò)。基于CGPA模型,設(shè)計(jì)出了多級(jí)上下文引導(dǎo)的單路徑淺層網(wǎng)絡(luò)結(jié)構(gòu)。目前,大多方法將輸入圖像經(jīng)五次下采樣至1/32大小,縮減了分辨率大小并獲取了豐富的語(yǔ)義,但其損失了空間細(xì)節(jié)信息。故本文所提網(wǎng)絡(luò)僅將原始圖像分辨率下采樣至1/8大小來(lái)對(duì)其保留,具體的設(shè)計(jì)細(xì)節(jié)如表1所示。
該網(wǎng)絡(luò)的編碼可分為三個(gè)階段。前三層為第一階段,它由三個(gè)3×3的卷積核構(gòu)成,該網(wǎng)絡(luò)的第一層通過(guò)步長(zhǎng)為2的3×3卷積核來(lái)縮減圖像尺寸,后兩層使用3×3卷積核來(lái)提取初始特征。第二階段由一個(gè)下采樣器和三個(gè)CGPA模型構(gòu)成,該階段將CGPA模型的空洞率設(shè)置為r=2 ,可有效地用于捕捉淺層的局部信息。然后本文將第一階段經(jīng)下采樣操作后的輸出與第二階段的輸出進(jìn)行拼接,作為第三階段的輸入。這樣可以改善第二階段的細(xì)節(jié)信息,同時(shí)也可增強(qiáng)網(wǎng)絡(luò)的傳遞效率。在第三階段,輸入特征圖在進(jìn)行下采樣操作之后經(jīng)過(guò)了六個(gè)CGPA模型。為增強(qiáng)網(wǎng)絡(luò)捕捉全局上下文信息的能力,本文將這六個(gè)CGPA模型的空洞率依次設(shè)置為{4,4,8,8,16,16}。最后,為確保網(wǎng)絡(luò)各階段的語(yǔ)義一致性,CGPANet將第二階段的輸出與第三階段輸出通過(guò)通道注意模型融合,以引導(dǎo)網(wǎng)絡(luò)的第二階段篩選出與第三階段語(yǔ)義一致的特征。受ENet[9]的影響,本文網(wǎng)絡(luò)的所有下采樣均是將一個(gè)步長(zhǎng)為2的3×3卷積核與最大池化進(jìn)行通道拼接操作實(shí)現(xiàn)的,如圖6所示。
此外,研究表明淺層網(wǎng)絡(luò)中使用非線性激活函數(shù)PReLU的效果會(huì)優(yōu)于ReLU激活函數(shù),同時(shí)避免了sigmoid激活函數(shù)帶來(lái)的梯度消失問(wèn)題。故該網(wǎng)絡(luò)結(jié)構(gòu)中所有的激活函數(shù)均采用PReLU。
最后,由于所提網(wǎng)絡(luò)的輸出有足夠的空間細(xì)節(jié)信息,故不必通過(guò)復(fù)雜的上采樣過(guò)程來(lái)恢復(fù)特征。復(fù)雜的解碼器會(huì)增加額外的參數(shù)而減緩?fù)评硭俣龋覍?duì)精度提高影響不大。故本文直接對(duì)編碼階段的輸出進(jìn)行八倍上采樣操作至原始圖像大小。
3實(shí)驗(yàn)與結(jié)果分析
3.1指標(biāo)說(shuō)明
本實(shí)驗(yàn)的精度指標(biāo)均采用平均交并比(MIoU)進(jìn)行評(píng)估,推理速度采用幀速率(FPS)進(jìn)行評(píng)價(jià)。
在語(yǔ)義分割中,平均交并比(MIoU)因其簡(jiǎn)潔、代表性強(qiáng)等特點(diǎn)成為該領(lǐng)域中常用的性能度量指標(biāo)。假定某一數(shù)據(jù)集一共有v個(gè)類別,則平均交并比的計(jì)算公式為
MIoU=1v∑v-1i=0pij∑v-1j=0pij+∑v-1j=0pji-pii(5)
其中:pii表示第i類像素預(yù)測(cè)正確的總數(shù)目;pij表示第i類像素被預(yù)測(cè)為其他類像素的總數(shù)(包括pii);pji表示本屬于其他類卻預(yù)測(cè)為i類像素點(diǎn)數(shù)(包括pjj)。
幀速率指的是圖像處理器每秒鐘刷新的次數(shù),通常FPS越高,則動(dòng)作顯示就越流暢,其實(shí)時(shí)性相對(duì)就越高。為了衡量該網(wǎng)絡(luò)的推理速度,本文選用幀速率作為評(píng)估指標(biāo),其表達(dá)式為
FPS=N∑NjTj(6)
其中:N為圖片數(shù)量;Tj為處理第j張圖片時(shí)所需要的時(shí)間。
3.2數(shù)據(jù)集
為了驗(yàn)證本文模型及網(wǎng)絡(luò)的性能,引入了語(yǔ)義分割中兩個(gè)常用的數(shù)據(jù)集對(duì)其進(jìn)行分析。
Cityscapes是一個(gè)較大的街道場(chǎng)景數(shù)據(jù)集,經(jīng)常用于評(píng)估各種語(yǔ)義分割網(wǎng)絡(luò)。該數(shù)據(jù)集共包括5 000張精細(xì)標(biāo)注圖片,其分辨率大小為1 024×2 048,該數(shù)據(jù)集默認(rèn)一共有19個(gè)類別。
CamVid是另一個(gè)街道場(chǎng)景數(shù)據(jù)集,常用于自動(dòng)駕駛領(lǐng)域的研究。該數(shù)據(jù)集一共有701張圖片,包含11個(gè)類別,其分辨率大小是360×480。
3.3實(shí)驗(yàn)設(shè)置
本文所有實(shí)驗(yàn)都是在1080Ti GPU顯存上執(zhí)行的,PyTorch的配置環(huán)境是CUDA 9.0,cuDNN v7。在訓(xùn)練模型時(shí),批處理大小設(shè)置為8,動(dòng)量為0.9,采用權(quán)重衰減為0.000 1的優(yōu)化器對(duì)模型進(jìn)行優(yōu)化。本文使用poly學(xué)習(xí)率策略(式(3)),初始學(xué)習(xí)率設(shè)置為0.045,動(dòng)量為0.9。
lrcur=lrinit×(1-epochmax_epoch)power(7)
其中:lrcur為當(dāng)前學(xué)習(xí)率;lrinit為初始學(xué)習(xí)率;epoch為當(dāng)前迭代次數(shù);max_epoch為最大迭代次數(shù);power控制曲線形狀,大量文獻(xiàn)中通常將其設(shè)置為0.9。本文從頭訓(xùn)練網(wǎng)絡(luò),epoch大小設(shè)置為1 000。
另外,為提升模型的泛化能力,采用隨機(jī)水平翻轉(zhuǎn)、隨機(jī)放縮等數(shù)據(jù)增強(qiáng)策略,且隨機(jī)縮放因子為{0.75,1.0,1.25,1.75,2}。最后,圖片被隨機(jī)裁剪成512×1 024用于訓(xùn)練。
3.4消融實(shí)驗(yàn)
為驗(yàn)證網(wǎng)絡(luò)設(shè)計(jì)的有效性,本節(jié)通過(guò)一系列實(shí)驗(yàn)對(duì)其進(jìn)行驗(yàn)證,結(jié)果如表2所示。所有的實(shí)驗(yàn)均在Cityscapes數(shù)據(jù)集上進(jìn)行定量分析。
3.4.1特征聯(lián)合引導(dǎo)
本文探究了CGPA模型中聯(lián)合特征引導(dǎo)部分是否有助于網(wǎng)絡(luò)提升性能。在此對(duì)比實(shí)驗(yàn)中并未引入聯(lián)合特征引導(dǎo),本文將其稱為WCG-CGPA(CGPA model without context guidance)。實(shí)驗(yàn)結(jié)果如表2所示,WCG-CGPA所構(gòu)成網(wǎng)絡(luò)的推理速度高達(dá)114.6 fps,其內(nèi)存占用MU(memory usage)僅為7.7 GB,但卻導(dǎo)致分割精度顯著下降。這表明,雖然聯(lián)合特征引導(dǎo)會(huì)帶來(lái)額外的參數(shù)與計(jì)算量,但在不顯著影響推理速度的前提下,網(wǎng)絡(luò)獲得了更好的特征表達(dá)能力,并大幅度改善了網(wǎng)絡(luò)精度。
3.4.2空洞率
本文探討了不同空洞率設(shè)置對(duì)網(wǎng)絡(luò)整體性能的影響。在保持第二階段空洞率大小不變的前提下,在網(wǎng)絡(luò)的第三階段通過(guò)設(shè)置幾組不同的空洞率來(lái)對(duì)其進(jìn)行分析。受文獻(xiàn)[30]的影響,其中一組變體實(shí)驗(yàn)的空洞率設(shè)置為{3,3,7,7,13,13}。實(shí)驗(yàn)結(jié)果如表2所示,本文網(wǎng)絡(luò)產(chǎn)生的精度最高。這說(shuō)明空洞率設(shè)置過(guò)小會(huì)使提取的上下文信息不足,而無(wú)法很好地判別像素的所屬類別;但空洞率過(guò)大會(huì)導(dǎo)致空洞卷積稀疏的采樣輸入特征,使得遠(yuǎn)距離卷積得到的信息之間沒(méi)有相關(guān)性,影響分割精度。故本文網(wǎng)絡(luò)的設(shè)置是合理的。
3.4.3編—解碼結(jié)構(gòu)
為加快網(wǎng)絡(luò)的推理速度,本文在網(wǎng)絡(luò)結(jié)構(gòu)中未使用復(fù)雜的解碼器來(lái)改善精度。為驗(yàn)證其對(duì)網(wǎng)絡(luò)性能的影響,CGPANet增加了ERFNet[10]解碼部分進(jìn)行驗(yàn)證,并使用反卷積恢復(fù)特征圖大小。結(jié)果如表2所示,編—解碼結(jié)構(gòu)網(wǎng)絡(luò)的分割精度提高了0.7%,但其由于過(guò)大內(nèi)存占用(MU)及計(jì)算量增加,導(dǎo)致推理速度顯著下降。說(shuō)明該多級(jí)引導(dǎo)的淺層網(wǎng)絡(luò)輸出的空間細(xì)節(jié)信息足夠,無(wú)須再使用復(fù)雜的解碼器來(lái)恢復(fù)圖像尺寸。
3.4.4通道注意
增加通道注意模型的目的是在保證推理速度的同時(shí),提高語(yǔ)義分割精度。表2給出了未采用通道注意力機(jī)制情況下的實(shí)驗(yàn)結(jié)果,其結(jié)果表明,CGPANet與其在推理速度相差不大的情況下,精度獲得了1.2%的提升。這說(shuō)明通道注意力有效地利用更高階段的特征篩選出了與之語(yǔ)義一致的第二階段特征,改善了網(wǎng)絡(luò)的分割效果。
3.5公共數(shù)據(jù)集上的比較
為驗(yàn)證所提網(wǎng)絡(luò)在兩個(gè)道路場(chǎng)景的優(yōu)勢(shì),本文從推理速度及分割精度兩方面對(duì)其進(jìn)行對(duì)比,結(jié)果如表3~5及圖7所示。
由表3可知,CGPANet的參數(shù)量?jī)H為0.91 M,且在測(cè)試集上取得了72.4%的平均交并比(mIoU)及94.7的幀速率。盡管ENet及ESPNet的參數(shù)量是最低的,但它們的精度不高。ENet在分類網(wǎng)絡(luò)的基礎(chǔ)上通過(guò)通道裁剪及網(wǎng)絡(luò)壓縮減少了參數(shù),卻損失了精度。ESPNet則通過(guò)設(shè)計(jì)空間金字塔型的膨脹卷積獲取多尺度感受野,在取得高推理速度的同時(shí)提高了精度。DABNet及ERFNEet均利用殘差結(jié)構(gòu)的優(yōu)勢(shì)設(shè)計(jì)了淺層網(wǎng)絡(luò)。ERFNet采用輕量化編碼器提取上下文信息,及輕量化解碼器恢復(fù)特征尺寸的方式提升了精度,但其推理速度顯著下降。而DABNet在此基礎(chǔ)上通過(guò)有效的長(zhǎng)、短連接彌補(bǔ)了編碼階段損失的空間細(xì)節(jié)信息,并利用上下文獲得了很高的推理速度和精度。本文所提網(wǎng)絡(luò)充分考慮了上下文信息,并通過(guò)通道注意力模型使得網(wǎng)絡(luò)提取的特征具有一致的語(yǔ)義,從而達(dá)到了更好的分割效果。
表4進(jìn)一步給出了部分網(wǎng)絡(luò)在Cityscapes數(shù)據(jù)集上的各類別精度,結(jié)果表明所提網(wǎng)絡(luò)在15個(gè)類別上的分割精度超過(guò)了其他方法,說(shuō)明網(wǎng)絡(luò)各階段的上下文引導(dǎo)部分有效地提高了網(wǎng)絡(luò)對(duì)各類別的辨別能力。
表5給出了所提網(wǎng)絡(luò)在另一個(gè)數(shù)據(jù)集CamVid上的比較。其以108.1的幀速率獲得了71.7%的平均交并比。總體而言,其性能優(yōu)于其他網(wǎng)絡(luò),證明了該網(wǎng)絡(luò)有良好的泛化能力。
圖7定性地展示了目前幾個(gè)實(shí)時(shí)網(wǎng)絡(luò)及所提網(wǎng)絡(luò)的可視化效果圖。ENet因編碼階段未采用能改善分割效果的措施,導(dǎo)致效果最差。ESNet、DABNet通過(guò)上下文信息使分割效果有所改善,但它們?cè)谝恍╊悇e的邊界處會(huì)出現(xiàn)分割界限模糊的情況,而CGPANet 的分割界限較清晰,這也再次證明本文網(wǎng)絡(luò)的有效性。但它們也存在一些問(wèn)題,即易將圖中的小物體判別為其周圍的其他類別。這是因?yàn)樵谟?xùn)練過(guò)程中,小物體被判別為其周圍像素占比較大的類別所產(chǎn)生的損失極小,且這種誤判幾乎對(duì)精度沒(méi)有影響所導(dǎo)致。
4結(jié)束語(yǔ)
本文針對(duì)忽略語(yǔ)義分割本質(zhì)所導(dǎo)致的精度不高的問(wèn)題,設(shè)計(jì)了多級(jí)上下文引導(dǎo)的輕量化網(wǎng)絡(luò)CGPANet。然后,通過(guò)實(shí)驗(yàn)證明了設(shè)計(jì)網(wǎng)絡(luò)良好的泛化能力,且其在保證推理速度的前提下,提高了網(wǎng)絡(luò)在道路場(chǎng)景下的分割精度。而定性效果圖表明本文網(wǎng)絡(luò)同其他方法一樣,易忽略圖像中小物體且將其判別為其他類。故在未來(lái)的研究中,擬嘗試為各類分配一個(gè)權(quán)重,并結(jié)合損失函數(shù)來(lái)進(jìn)一步關(guān)注不易分割的小物體,以提高分割質(zhì)量。
參考文獻(xiàn):
[1]Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2014:580-587.
[2]Hofmarcher M,Unterthiner T,Arjona-Medina J,et al.Visual scene understanding for autonomous driving using semantic segmentation[M]//Samek W,Montavon G,Vedaldi A,et al.Explainable AI:interpreting,explaining and visualizing deep learning.Cham:Springer,2019:285-296.
[3]Geiger A,Lenz P,Urtasun R.Are we ready for autonomous driving?The KITTI vision benchmark suite[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2012:3354-3361.
[4]Shelhamer E,Long J,Darrell T.Fully convolutional networks for semantic segmentation[J].IEEE Trans on Pattern Analysis Machine Intelligence,2017,39(4):640-651.
[5]Chen L C,Zhu Yukun,Papandreou G,et al.Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proc of European Conference on Computer Vision.2018:801-818.
[6]Lin Guosheng,Milan A,Shen Chunhua,et al.RefineNet:multi-path refinement networks for high-resolution semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:5168-5177.
[7]Zhao Hengshuang,Qi Xiaojuan,Shen Xiaoyong,et al.ICNet for real-time semantic segmentation on high-resolution images[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:418-434.
[8]Badrinarayanan V,Kendall A,Cipolla R.SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495.
[9]Paszke A,Chaurasia A,Kim S,et al.ENet:a deep neural network architecture for real-time semantic segmentation[EB/OL].(2016-06-07).https://arxiv.org/abs/1606.02147.
[10]Romera E,álvarez J M,Bergasa L M,et al.ERFNet:efficient residual factorized convnet for real-time semantic segmentation[J].IEEE Trans on Intelligent Transportation Systems,2018,19(1):263-272.
[11]Mehta S,Rastegari M,Caspi A,et al.ESPNet:efficient spatial pyramid of dilated convolutions for semantic segmentation[C]//Proc of European Conference on Computer Vision.2018:552-568.
[12]Li Gen,Yun I,Kim J,et al.DabNet:depth-wise asymmetric bottleneck for real-time semantic segmentation[EB/OL].(2019-10-01).https://arxiv.org/abs/1907.11357.
[13]Wang Yu,Zhou Quan,Xiong Jian,et al.ESNet:an efficient symmetric network for real-time semantic segmentation[C]//Proc of Chinese Conference on Pattern Recognition and Computer Vision.Berlin:Springer,2019:41-52.
[14]Li Hanchao,Xiong Pengfei,F(xiàn)an Haoqiang,et al.DFANet:deep feature aggregation for real-time semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2019:9514-9523.
[15]秦飛巍,沈希樂(lè),彭勇,等.無(wú)人駕駛中的場(chǎng)景實(shí)時(shí)語(yǔ)義分割方法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2021,33(7):1026-1037.(Qin Feiwei,Shen Xile,Peng Yong,et al.A real-time semantic segmentation approach for autonomous driving scenes[J].Journal of Computer-Aided Design and Computer Graphics,2021,33(7):1026-1037.)
[16]Chen L C,Papandreou G,Schroff F,et al.Rethinking atrous convolution for semantic image segmentation[EB/OL].(2017-12-05).https://arxiv.org/abs/1706.05587.
[17]Zhang Rui,Tang Sheng,Lin Min,et al.Global-residual and local-boundary refinement networks for rectifying scene parsing predictions[C]//Proc of the 26th International Joint Conference on Artificial Intelligence.2017:3427-3433.
[18]Zhao Hengshuang,Zhang Yi,Liu Shu,et al.PSANet:point-wise spatial attention network for scene parsing[C]//Proc of European Conference on Computer Vision.2018:267-283.
[19]Chen L C,Papandreou G,Kokkinos I,et al.DeepLab:semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFS[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,40(4):834-848.
[20]Krhenbühl P,Koltun V.Efficient inference in fully connected CRFS with Gaussian edge potentials[J].Advances in Neural Information Processing Systems,2011,24:109-117.
[21]Ding Henghui,Jiang Xudong,Shuai Bing,et al.Context contrasted feature and gated multi-scale aggregation for scene segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2018:2393-2402.
[22]陳小龍,趙驥,陳思溢.基于注意力編碼的輕量化語(yǔ)義分割網(wǎng)絡(luò)[J].激光與光電子學(xué)進(jìn)展,2021,58(14):225-233.(Chen Xiaolong,Zhao Ji,Chen Siyi.Lightweight semantic segmentation network based on attention coding[J].Laser amp; Optoelectronics Progress,2021,58(14):225-233.)
[23]Wu Tianyi,Tang Sheng,Zhang Rui,et al.CGNet:a light-weight context guided network for semantic segmentation[J].IEEE Trans on Image Processing,2021,30:1169-1179.
[24]Zhou Wujie,Yuan Jianzhong,Lei Jingsheng,et al.TSNet:three-stream self-attention network for RGB-D indoor semantic segmentation[J].IEEE Intelligent Systems,2021,36(4):73-78.
[25]Han Kai,Wang Yunhe,Tian Qi,et al.GhostNet:more features from cheap operations[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:1577-1586.
[26]Yu Changqian,Wang Jingbo,Peng Chao,et al.Learning a discriminative feature network for semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2018:1857-1866.
[27]Chollet F.Xception:deep learning with depthwise separable convolutions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:1800-1807.
[28]Howard A G,Zhu Menglong,Chen Bo,et al.MobileNets:efficient convolutional neural networks for mobile vision applications[EB/OL].(2017-04-17).https://arxiv.org/abs/1704.04861.
[29]Ma Ningning,Zhang Xiangyu,Zheng Haitao,et al.ShuffleNet v2:practical guidelines for efficient CNN architecture design[C]//Proc of European Conference on Computer Vision.2018:116-131.
[30]Wang Panqu,Chen Pengfei,Yuan Ye,et al.Understanding convolution for semantic segmentation[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2018:1451-1460.
收稿日期:2021-07-17;修回日期:2021-09-16基金項(xiàng)目:重慶市技術(shù)預(yù)見(jiàn)與制度創(chuàng)新基金資助項(xiàng)目(cstc2020jsyj-yzysbAX0002)
作者簡(jiǎn)介:文凱(1972-),男,重慶人,正高級(jí)工程師,主要研究方向?yàn)閳D像語(yǔ)義分割、計(jì)算機(jī)視覺(jué)、大數(shù)據(jù);熊俊臣(1997-),男(通信作者),四川渠縣人,碩士研究生,主要研究方向?yàn)閳D像語(yǔ)義分割、深度學(xué)習(xí)(2901959751@qq.com);鄒偉(1987-),男,重慶人,碩士,主要研究方向?yàn)槿斯ぶ悄埽惶苽ィ?993-),男,四川廣安人,碩士研究生,主要研究方向?yàn)閳D像語(yǔ)義分割.