999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

雙向信息交互的道路場(chǎng)景全景分割網(wǎng)絡(luò)

2023-02-23 08:29:20劉博林黃勁松
導(dǎo)航定位學(xué)報(bào) 2023年6期
關(guān)鍵詞:語(yǔ)義信息

劉博林,黃勁松

雙向信息交互的道路場(chǎng)景全景分割網(wǎng)絡(luò)

劉博林,黃勁松

(武漢大學(xué) 測(cè)繪學(xué)院,武漢 430079)

為了進(jìn)一步研究道路場(chǎng)景的全景分割功能,為自動(dòng)駕駛車輛全面感知環(huán)境提供支持,提出一種雙向信息交互的全景分割網(wǎng)絡(luò):通過(guò)主干網(wǎng)絡(luò)進(jìn)行特征提取,并將特征分別輸入到語(yǔ)義分割分支和實(shí)例分割分支;然后在分支間增加實(shí)例增強(qiáng)信息模塊、語(yǔ)義增強(qiáng)信息模塊以增強(qiáng)信息交互;最后采用改進(jìn)的融合算法將語(yǔ)義結(jié)果和實(shí)例結(jié)果融合,得到全景分割的預(yù)測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果表明,設(shè)計(jì)的雙向信息交互模塊能夠提高全景分割網(wǎng)絡(luò)的性能,在Cityscapes數(shù)據(jù)集上采用512×1 024個(gè)像素分辨率的圖像情況下得到了46.8的全景質(zhì)量(PQ)分?jǐn)?shù)。

全景分割;自動(dòng)駕駛;多任務(wù)學(xué)習(xí);信息交互;語(yǔ)義分割;實(shí)例分割

0 引言

全景分割[1]旨在識(shí)別圖像中的所有事物,賦予其類別標(biāo)簽和實(shí)例標(biāo)識(shí)(identification,ID)。在全景分割任務(wù)中,圖像類別標(biāo)簽可分為2類,即things和stuff。things是可計(jì)數(shù)的物體,例如車輛、行人等。而stuff是由剩余類別組成,一般不可計(jì)數(shù),例如天空、道路和水。全景分割可以看作實(shí)例分割和語(yǔ)義分割結(jié)果的融合。語(yǔ)義分割與實(shí)例分割是計(jì)算機(jī)視覺(jué)中的經(jīng)典任務(wù),語(yǔ)義分割任務(wù)是將圖像中的每個(gè)像素分類,賦予每個(gè)像素類別標(biāo)簽,既包含things類,也包括stuff類;實(shí)例分割更關(guān)注圖像中物體級(jí)別的檢測(cè),其目標(biāo)是檢測(cè)每個(gè)物體并用分割掩碼來(lái)表示,實(shí)例分割任務(wù)只關(guān)注圖像中存在的things類,而不考慮stuff類。

隨著圖像處理技術(shù)的發(fā)展,數(shù)字圖像已經(jīng)成為日常生活中不可缺少的媒介,每時(shí)每刻都在產(chǎn)生圖像數(shù)據(jù)。對(duì)圖像中的物體進(jìn)行快速準(zhǔn)確的分割變得愈發(fā)重要[2]。在自動(dòng)駕駛場(chǎng)景中,全景分割的結(jié)果可以為導(dǎo)航定位系統(tǒng)提供豐富的語(yǔ)義信息。通過(guò)將場(chǎng)景分割成不同的語(yǔ)義區(qū)域,可以識(shí)別出道路、建筑物、行人、車輛等重要的道路場(chǎng)景信息。這些信息可以幫助自動(dòng)駕駛車輛全面地感知環(huán)境,從而幫助其進(jìn)行場(chǎng)景理解和語(yǔ)義推理,為進(jìn)行更高級(jí)別的決策和規(guī)劃提供支持。

2018年,文獻(xiàn)[1]首次提出了全景分割概念,使用了一種融合方法,將當(dāng)時(shí)最好的實(shí)例分割網(wǎng)絡(luò)掩碼區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(mask region-convolutional neural network,Mask R-CNN)[3]和語(yǔ)義分割網(wǎng)絡(luò)金字塔場(chǎng)景解析網(wǎng)絡(luò)(pyramid scene parsing network,PSPNet)[4]的結(jié)果合并為全景分割結(jié)果,為后續(xù)研究提供基準(zhǔn)。文獻(xiàn)[5]首次提出了統(tǒng)一的全景分割網(wǎng)絡(luò)框架,引入了公共特征提取網(wǎng)絡(luò)以減少計(jì)算量,在不降低精度的情況下縮短了推斷時(shí)間。全景特征金字塔網(wǎng)絡(luò)(panoptic feature pyramid networks,Panoptic FPN)[6]在實(shí)例分割網(wǎng)絡(luò)Mask R-CNN的基礎(chǔ)上增加了語(yǔ)義分支全卷積網(wǎng)絡(luò)[7](fully convolutional networks,F(xiàn)CN),通過(guò)融合FCN的語(yǔ)義分割結(jié)果和Mask R-CNN的實(shí)例分割結(jié)果得到全景分割結(jié)果。這種利用子網(wǎng)絡(luò)獨(dú)立分割,再對(duì)結(jié)果進(jìn)行融合的方法成為一種十分經(jīng)典的方法。但上述方法未考慮子任務(wù)間存在的相關(guān)性。由于語(yǔ)義分割和實(shí)例分割任務(wù)間存在一定的互補(bǔ)性,一些研究提出利用任務(wù)間的信息交互來(lái)改善全景分割結(jié)果。文獻(xiàn)[8]提出了2個(gè)實(shí)例增強(qiáng)信息模塊,利用實(shí)例分支的物體結(jié)構(gòu)信息補(bǔ)充語(yǔ)義分支,有效利用了實(shí)例分支的背景信息,提升了全景分割質(zhì)量。文獻(xiàn)[9]針對(duì)道路場(chǎng)景提出了一種使用語(yǔ)義信息增強(qiáng)實(shí)例分支的網(wǎng)絡(luò),利用語(yǔ)義分支的像素信息增強(qiáng)實(shí)例分支的識(shí)別能力。文獻(xiàn)[10]提出了一種信息聚合的網(wǎng)絡(luò),利用語(yǔ)義分割和實(shí)例分割間進(jìn)行的特征交流,提升了全景分割效果。文獻(xiàn)[11]設(shè)計(jì)了一個(gè)分支間加入了結(jié)果一致性(things and stuff consistency,TASC)模塊的方法,用實(shí)例分割結(jié)果和語(yǔ)義分割結(jié)果融合來(lái)監(jiān)督任務(wù)的一致性,一定程度上解決了子分支間的沖突問(wèn)題。上述網(wǎng)絡(luò)表明多任務(wù)全景分割網(wǎng)絡(luò)分支間必要的信息交互能有效改善全景分割結(jié)果,但這些方法大多是單向的信息交互方法。一些研究方法從其他方面入手改善全景分割網(wǎng)絡(luò)性能。文獻(xiàn)[12]基于圖卷積網(wǎng)絡(luò)提出了一種全景分割網(wǎng)絡(luò),利用邊界信息來(lái)增強(qiáng)監(jiān)督信息并幫助區(qū)分相鄰對(duì)象。文獻(xiàn)[13]提出一種基于分組卷積進(jìn)行特征融合的全景分割算法,提升了網(wǎng)絡(luò)的運(yùn)算速度。文獻(xiàn)[14]將圖卷積網(wǎng)絡(luò)和傳統(tǒng)全景分割網(wǎng)絡(luò)相結(jié)合,研究前景things和背景stuff的關(guān)系,提出了雙向圖形連接模塊(bidirectional graph reasoning module),它可以在前景物體和背景區(qū)域之間進(jìn)行信息傳遞和交互。文獻(xiàn)[15]提出了一種無(wú)參數(shù)的全景分割頭來(lái)融合語(yǔ)義和姿態(tài)分割預(yù)測(cè)以代替?zhèn)鹘y(tǒng)的啟發(fā)式方法,借助其全景分割頭,產(chǎn)生了一個(gè)高性能的分?jǐn)?shù)。文獻(xiàn)[16]基于文獻(xiàn)[15]在殘差網(wǎng)絡(luò)和特征金字塔之間添加一種三重態(tài)注意力機(jī)制,提升了網(wǎng)絡(luò)性能。文獻(xiàn)[17]提出了空間排序模塊,以解決分?jǐn)?shù)較高的物體對(duì)分?jǐn)?shù)較低物體的覆蓋問(wèn)題。

本文針對(duì)多任務(wù)全景分割網(wǎng)絡(luò)中語(yǔ)義分割和實(shí)例分割子網(wǎng)絡(luò)間的信息交互問(wèn)題,設(shè)計(jì)一種雙向信息交互的全景分割網(wǎng)絡(luò),網(wǎng)絡(luò)通過(guò)引入語(yǔ)義增強(qiáng)信息和實(shí)例增強(qiáng)信息模塊實(shí)現(xiàn)分支間的信息交互。該網(wǎng)絡(luò)并行進(jìn)行語(yǔ)義分割、實(shí)例分割,最終通過(guò)改進(jìn)的融合算法將二者結(jié)果合并為全景分割結(jié)果。

1 網(wǎng)絡(luò)結(jié)構(gòu)

對(duì)于一幅輸入圖像,首先提取特征;然后將提取的特征輸入語(yǔ)義分割與實(shí)例分割的子任務(wù)分支進(jìn)行處理,產(chǎn)生語(yǔ)義分割與實(shí)例分割輸出;最后是子任務(wù)融合,將語(yǔ)義與實(shí)例分支產(chǎn)生的結(jié)果通過(guò)適當(dāng)?shù)牟呗赃M(jìn)行融合,產(chǎn)生最終的全景預(yù)測(cè)。

本文提出的全景分割網(wǎng)絡(luò)包括特征提取部分、實(shí)例分割分支、語(yǔ)義分割分支和融合模塊4部分,為了增強(qiáng)實(shí)例和語(yǔ)義信息之間的交互,在語(yǔ)義分支和實(shí)例分支間引入了實(shí)例增強(qiáng)信息模塊和語(yǔ)義增強(qiáng)信息模塊,實(shí)現(xiàn)了雙向信息傳遞和融合。整體框架結(jié)構(gòu)如圖1所示,圖中RPN為區(qū)域提議網(wǎng)絡(luò)(region proposal networks),ROI為感興趣區(qū)域(region of interest)。

圖1 本文全景分割網(wǎng)絡(luò)框架

輸入圖像首先通過(guò)帶有特征金字塔網(wǎng)絡(luò)(feature pyramid networks,F(xiàn)PN)[18]的主干網(wǎng)絡(luò)殘差網(wǎng)絡(luò)(residual network,ResNet)進(jìn)行特征提取;其次每層的特征圖分別輸入于語(yǔ)義分割分支和實(shí)例分割分支;接下來(lái)先將提取的多尺度特征輸入至RPN輸出ROIs,同時(shí)利用RPN豐富的前景背景信息采用實(shí)例增強(qiáng)信息模塊提取上下文信息,并與語(yǔ)義分支的特征融合,進(jìn)行語(yǔ)義預(yù)測(cè),語(yǔ)義分支采用普通的FCN以實(shí)現(xiàn);然后將語(yǔ)義結(jié)果通過(guò)語(yǔ)義增強(qiáng)信息模塊增強(qiáng)實(shí)例特征表示,實(shí)例分支則遵循經(jīng)典的Mask R-CNN方法進(jìn)行實(shí)例預(yù)測(cè);最后將得到的語(yǔ)義掩碼和實(shí)例掩碼經(jīng)過(guò)改進(jìn)的融合算法得到最終的全景分割結(jié)果。

1.1 實(shí)例增強(qiáng)信息模塊

在Mask R-CNN中,RPN能夠?yàn)闄z測(cè)任務(wù)提供預(yù)測(cè)的二值標(biāo)簽(things和stuff標(biāo)簽)和包圍框(bounding box)坐標(biāo)。這表示在RPN中蘊(yùn)含著豐富的前景和背景信息,這些上下文信息能夠提供額外的語(yǔ)義分割類別信息,減少語(yǔ)義分支的分類錯(cuò)誤。因此設(shè)計(jì)了實(shí)例增強(qiáng)信息模塊來(lái)增強(qiáng)語(yǔ)義分支。

實(shí)例增強(qiáng)信息模塊使用RPN分支的上下文信息和語(yǔ)義分支進(jìn)行信息交互。首先提取RPN的上下文信息,計(jì)算公式為

式中:R為R×"×"維度第層的RPN輸入特征圖,其中R為RPN層通道(channel,C),"、"分別為第層RPN特征圖的寬(width,W)、高(height,H);θ,1θ,2為卷積層的參數(shù);(?)為卷積(convolution,Conv)操作;1為修正線性單元(rectified linear unit,ReLU)激活函數(shù);2為S型(Sigmoid)激活函數(shù);M為RPN的上下文信息權(quán)重。

為了突出第層RPN的上下文信息M對(duì)語(yǔ)義分支的影響,將M與來(lái)自第層的語(yǔ)義特征圖S進(jìn)行計(jì)算。計(jì)算公式為

為了減少無(wú)用的背景層對(duì)語(yǔ)義分割結(jié)果的影響,受文獻(xiàn)[19]啟發(fā),設(shè)計(jì)了一個(gè)重加權(quán)模塊以降低上下文信息M中無(wú)用權(quán)重的影響。重加權(quán)模塊計(jì)算公式為

式中:(?)為全局平均池化(global average pooling,GAP);θ,3、θ,4為卷積層的參數(shù);3為ReLU激活函數(shù);4為Sigmoid激活函數(shù);N為重新加權(quán)的結(jié)果。

最終將重加權(quán)結(jié)果N和實(shí)例增強(qiáng)后的語(yǔ)義特征圖相乘得到語(yǔ)義結(jié)果,計(jì)算公式為

實(shí)例增強(qiáng)信息模塊的整體流程如圖2所示。圖中s為語(yǔ)義分支通道。

圖2 實(shí)例增強(qiáng)信息模塊

1.2 語(yǔ)義增強(qiáng)信息模塊

在針對(duì)某些things的預(yù)測(cè)中,語(yǔ)義分割的預(yù)測(cè)結(jié)果會(huì)優(yōu)于實(shí)例分割對(duì)該things的預(yù)測(cè)結(jié)果;而在本文所示的網(wǎng)絡(luò)結(jié)構(gòu)中,如圖1所示,為避免2個(gè)分支對(duì)things預(yù)測(cè)的沖突,只選擇實(shí)例分割分支的結(jié)果作為things類別的預(yù)測(cè)。因此這種算法會(huì)導(dǎo)致語(yǔ)義分割分支的某些潛在的有價(jià)值信息的損失,從而導(dǎo)致模型性能降低。所以在這些原因的啟發(fā)下,本文添加了一個(gè)額外的模塊,其采用語(yǔ)義分支豐富的上下文信息以提高實(shí)例分支對(duì)things類別預(yù)測(cè)的精度。

提出一個(gè)語(yǔ)義增強(qiáng)實(shí)例模塊來(lái)實(shí)現(xiàn)上述想法。首先在語(yǔ)義分支結(jié)果部分和ROI階段增加了一個(gè)額外的信息交互通道,該通道首先提取語(yǔ)義結(jié)果信息,計(jì)算公式為

然后將第層得到的語(yǔ)義分支權(quán)重W和來(lái)自實(shí)例分支的第層的特征圖P進(jìn)行計(jì)算,計(jì)算公式為

同樣地,考慮到實(shí)例分支只關(guān)注things類別的檢測(cè)和分支,為了減少無(wú)用的背景信息對(duì)實(shí)例分支精度的削弱,設(shè)計(jì)了一個(gè)與1.1節(jié)相同的重加權(quán)模塊以降低W無(wú)用權(quán)重的影響,計(jì)算公式為

語(yǔ)義增強(qiáng)信息模塊的整體流程如圖3所示。

圖3 語(yǔ)義增強(qiáng)信息模塊

1.3 融合模塊

由于本文的網(wǎng)絡(luò)是并行獨(dú)立地輸出語(yǔ)義分割結(jié)果和實(shí)例分割結(jié)果,因此需要進(jìn)行后處理操作以將2種預(yù)測(cè)結(jié)果合并為全景分割結(jié)果。全景分割結(jié)果分為2部分,即類別標(biāo)簽和實(shí)例ID。在進(jìn)行融合時(shí),需要處理2個(gè)問(wèn)題,即重疊問(wèn)題和沖突問(wèn)題。本文在傳統(tǒng)啟發(fā)式方法的基礎(chǔ)上做出改進(jìn)。

重疊問(wèn)題:實(shí)例分割會(huì)出現(xiàn)同一個(gè)像素點(diǎn)可能被多個(gè)實(shí)例或者類別同時(shí)覆蓋的結(jié)果。對(duì)于目標(biāo)檢測(cè)、實(shí)例分割任務(wù)來(lái)說(shuō),像素點(diǎn)的重疊問(wèn)題不會(huì)影響預(yù)測(cè)結(jié)果,而對(duì)于全景分割任務(wù),需要對(duì)于單一像素輸出單一類別及唯一實(shí)例ID,因此掩碼重疊問(wèn)題是全景分割任務(wù)必須解決的問(wèn)題。本文采用文獻(xiàn)[1]提出的基準(zhǔn)方法,該方法流程與非極大值抑制(non-maximum suppression,NMS)方法類似,即按分類置信度分?jǐn)?shù)對(duì)實(shí)例分割結(jié)果進(jìn)行降序排序,選擇分?jǐn)?shù)最高的預(yù)測(cè)結(jié)果,計(jì)算與其他預(yù)測(cè)框的交并比(intersection over union,IOU),當(dāng)IOU大于設(shè)定閾值時(shí),去除該預(yù)測(cè)結(jié)果,直到?jīng)]有剩下的預(yù)測(cè)結(jié)果為止。一般地,閾值設(shè)置為0.5。

沖突問(wèn)題:對(duì)于stuff的類別預(yù)測(cè),僅需要語(yǔ)義分支結(jié)果;對(duì)于things類別的預(yù)測(cè),實(shí)例分支、語(yǔ)義分支都進(jìn)行了不同的預(yù)測(cè),因此2種預(yù)測(cè)結(jié)果不可避免地存在預(yù)測(cè)沖突。而考慮到語(yǔ)義分支的預(yù)測(cè)結(jié)果不能有效區(qū)分同一類別的不同實(shí)例,不能直接對(duì)2種預(yù)測(cè)結(jié)果進(jìn)行比較。本文在文獻(xiàn)[1]的方法上做出改進(jìn),對(duì)于things類別預(yù)測(cè),優(yōu)先選擇實(shí)例分割預(yù)測(cè)而不是語(yǔ)義分割預(yù)測(cè)結(jié)果,同時(shí)為了避免不必要的信息損失,將語(yǔ)義分割預(yù)測(cè)分?jǐn)?shù)最高的things類別替換為預(yù)測(cè)分?jǐn)?shù)最高的stuff類別。

融合策略如圖4所示。對(duì)于實(shí)例分支預(yù)測(cè),首先采用類似NMS的方法去除實(shí)例預(yù)測(cè)重疊,得到實(shí)例掩碼;對(duì)于語(yǔ)義分支預(yù)測(cè),先將所有的things預(yù)測(cè)替換為stuff預(yù)測(cè),最終將二者獲得的預(yù)測(cè)結(jié)果合并,得到全景分割結(jié)果。

圖4 融合策略

1 實(shí)驗(yàn)與結(jié)果分析

1.1 數(shù)據(jù)集、評(píng)價(jià)指標(biāo)及實(shí)驗(yàn)環(huán)境

1.1.1 數(shù)據(jù)集

本文使用自動(dòng)駕駛數(shù)據(jù)集城市景觀數(shù)據(jù)集Cityscapes[20]作為實(shí)驗(yàn)數(shù)據(jù)集。Cityscapes是道路場(chǎng)景的常用數(shù)據(jù)集,包含了50個(gè)歐洲城市,春夏秋3季數(shù)個(gè)月的街道場(chǎng)景,人工選擇出視頻中含有的大量動(dòng)態(tài)物體、不同的場(chǎng)景布局、不同背景的幀,不包含黑夜、惡劣天氣環(huán)境等場(chǎng)景。

數(shù)據(jù)集包括5000張精細(xì)標(biāo)注的全局語(yǔ)義分割圖片(訓(xùn)練集2975張、驗(yàn)證集500張、測(cè)試集1525張)和20000張粗略標(biāo)注的圖片。在本文的實(shí)驗(yàn)中,選擇5000張精細(xì)標(biāo)注的圖片,包括8個(gè)things類別、11個(gè)stuff類別。所有圖像的分辨率均為1024×2048個(gè)像素,實(shí)驗(yàn)中將輸入圖像調(diào)整為512×1024個(gè)像素。本節(jié)的實(shí)驗(yàn)結(jié)果是訓(xùn)練后的網(wǎng)絡(luò)在驗(yàn)證集上的測(cè)試結(jié)果。

1.1.2 評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)使用全景質(zhì)量(panoptic quality,PQ)作為主要評(píng)價(jià)指標(biāo)。PQ可以衡量全景分割結(jié)果的分割準(zhǔn)確度,定義為

在二分類或多分類任務(wù)中,常常需要計(jì)算模型預(yù)測(cè)結(jié)果和真實(shí)標(biāo)簽的差異,可以分為TP、FP、FN、真陰性(true negative,TN)4種,其中TP、FP、FN分別表示預(yù)測(cè)標(biāo)簽和真實(shí)標(biāo)簽中的已匹配部分、不匹配的預(yù)測(cè)部分和不匹配的真值部分。IOU計(jì)算只包含已匹配的部分(即為TP的部分);當(dāng)IOU大于0.5時(shí),一般定義為匹配。如圖5所示為區(qū)分TP、FP、FN的原理。

圖5 TP、FP、FN概念

PQ同時(shí)可以分解為分割質(zhì)量(segmentation quality,SQ)和識(shí)別質(zhì)量(recognition quality,RQ)的乘積,計(jì)算公式為

式中:SQ能體現(xiàn)模型對(duì)正確預(yù)測(cè)的匹配物體實(shí)例分割的準(zhǔn)確度,RQ用來(lái)衡量所有類別物體的檢測(cè)準(zhǔn)確度。

1.1.3 損失函數(shù)

為了實(shí)現(xiàn)單一網(wǎng)絡(luò)的聯(lián)合訓(xùn)練,在訓(xùn)練階段,使用一個(gè)聯(lián)合損失函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化。聯(lián)合損失函數(shù)分為6個(gè)部分,計(jì)算公式為

式中:total為聯(lián)合損失函數(shù);rpn為RPN損失;rpn,obj為RPN類別的交叉熵(crossentropy loss)損失函數(shù);rpn,box為RPN平滑的最小絕對(duì)值偏差損失函數(shù)(smooth1 loss);det為檢測(cè)損失;det,cls為目標(biāo)檢測(cè)任務(wù)的分類損失,使用交叉熵?fù)p失函數(shù);det,box為目標(biāo)檢測(cè)任務(wù)的包圍框回歸損失,使用smooth1 loss;mask為實(shí)例掩碼的二分類交叉熵(binary crossentropy loss)損失函數(shù);seg為語(yǔ)義分割任務(wù)損失,使用交叉熵?fù)p失函數(shù);1、2、3、4、5、6分別表示對(duì)應(yīng)損失函數(shù)權(quán)重。

1.1.4 實(shí)驗(yàn)環(huán)境及設(shè)備

本文基于深度學(xué)習(xí)框架Pytorch1.10實(shí)現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)驗(yàn)以8個(gè)批量大小訓(xùn)練模型,損失權(quán)重根據(jù)式(11)1~6分別設(shè)置為1、1、1、1、1、0.75,優(yōu)化器選擇隨機(jī)梯度下降(stochastic gradient descent,SGD),動(dòng)量(momentum)設(shè)置為0.9,權(quán)重衰減1×10-4,初始學(xué)習(xí)率0.01,迭代100個(gè)歷元,學(xué)習(xí)率在第66、88個(gè)歷元時(shí)衰減10倍。

1.2 消融實(shí)驗(yàn)

為了檢驗(yàn)本文提出的信息交互模塊的效果,在確保相同的實(shí)驗(yàn)環(huán)境和配置的條件下,針對(duì)1.1、1.2節(jié)提出的2個(gè)信息交互模塊設(shè)計(jì)消融實(shí)驗(yàn)以驗(yàn)證其有效性:1)不包含2個(gè)模塊的基準(zhǔn)網(wǎng)絡(luò);2)僅加入語(yǔ)義增強(qiáng)信息模塊;3)僅加入實(shí)例增強(qiáng)信息模塊;4)包含2個(gè)模塊的雙向信息交互網(wǎng)絡(luò)。分別在Cityscapes數(shù)據(jù)集進(jìn)行訓(xùn)練,并在Cityscapes驗(yàn)證集評(píng)估結(jié)果,結(jié)果如表1所示。為了驗(yàn)證各個(gè)模塊對(duì)對(duì)應(yīng)任務(wù)的促進(jìn)作用,另統(tǒng)計(jì)PQth、PQst指標(biāo),其中PQth、PQst分別為PQ在things、stuff類別上的結(jié)果。

如圖6所示為雙向信息交互網(wǎng)絡(luò)的損失函數(shù)和學(xué)習(xí)率隨歷元變化的情況,圖中紅色的曲線表示訓(xùn)練損失變化,左邊的縱坐標(biāo)為損失函數(shù)值,藍(lán)色的線條表示訓(xùn)練學(xué)習(xí)率的變化,右邊縱坐標(biāo)為學(xué)習(xí)率值,橫坐標(biāo)表示訓(xùn)練的歷元個(gè)數(shù)。

圖6 Cityscapes數(shù)據(jù)集上損失函數(shù)收斂曲線

如表1所示為不同模型在Cityscapes驗(yàn)證集中的實(shí)驗(yàn)結(jié)果。對(duì)比基準(zhǔn)網(wǎng)絡(luò),提出的網(wǎng)絡(luò)在PQ分?jǐn)?shù)上得到了3.1%的提高。可以看到語(yǔ)義增強(qiáng)信息模塊、實(shí)例增強(qiáng)信息模塊均有效地提升了網(wǎng)絡(luò)全景分割質(zhì)量。語(yǔ)義增強(qiáng)信息模塊使用了語(yǔ)義分支的結(jié)果信息為實(shí)例分支的目標(biāo)檢測(cè)器提供了更多的細(xì)節(jié)信息,提升了檢測(cè)器對(duì)things類別的分類能力,在things分支的PQ提高了2.2%。實(shí)例增強(qiáng)信息模塊相較于基準(zhǔn)網(wǎng)絡(luò)提升了1.8%,表明該模塊通過(guò)RPN中的二值標(biāo)簽為語(yǔ)義分割任務(wù)提供了更多的上下文信息識(shí)別things和stuff。同時(shí)注意到2個(gè)模塊均使得PQth、PQst獲得了提升,這表明聯(lián)合訓(xùn)練中的信息交互能夠?yàn)榫W(wǎng)絡(luò)訓(xùn)練提供更多的細(xì)節(jié)信息,有效地減少了things和stuff的錯(cuò)誤分類。實(shí)驗(yàn)表明,提出的網(wǎng)絡(luò)有效地利用了多任務(wù)全景分割網(wǎng)絡(luò)的信息間交互,通過(guò)設(shè)計(jì)語(yǔ)義增強(qiáng)信息、實(shí)例增強(qiáng)信息模塊提高了網(wǎng)絡(luò)各分支對(duì)things和stuff的識(shí)別能力。

表1 不同模型在Cityscapes驗(yàn)證集的實(shí)驗(yàn)結(jié)果 %

1.3 結(jié)果分析

如圖7~圖9所示為在Cityscapes驗(yàn)證集上節(jié)選的全景分割可視化結(jié)果對(duì)照。考慮到呈現(xiàn)的全圖結(jié)果圖由于圖片壓縮某些目標(biāo)較小不容易對(duì)比,本節(jié)在展示出全圖可視化結(jié)果的同時(shí),將圖像的部分裁剪出來(lái)以便更直觀地進(jìn)行對(duì)比。可以看到:相比基準(zhǔn)網(wǎng)絡(luò),圖像1裁剪部分中,信息交互網(wǎng)絡(luò)對(duì)交通標(biāo)志、交通燈信息的分割更加細(xì)節(jié)、規(guī)則,同時(shí)檢測(cè)出較小目標(biāo)的自行車,表明提出的網(wǎng)絡(luò)在things和stuff類別的信息交互上均取得了一定的效果;圖像2中對(duì)欄桿的分割更好,同時(shí)行人和路面、欄桿等stuff類別的邊界問(wèn)題處理得更自然;圖像3對(duì)汽車的邊界分割更加精細(xì),還能利用信息交互模塊提供的額外信息檢測(cè)出道路中的行人,這表明網(wǎng)絡(luò)對(duì)于細(xì)節(jié)信息和相鄰物體的邊界問(wèn)題處理得更好,噪聲更小,證明提出的信息交互模塊提供的額外信息能夠有效地提升全景分割效果。

圖7 示例圖1

圖8 示例圖2

圖9 示例圖3

2 結(jié)束語(yǔ)

本文針對(duì)自動(dòng)駕駛車輛全面感知環(huán)境的需求提出了一種基于信息交互的全景分割網(wǎng)絡(luò),網(wǎng)絡(luò)由實(shí)例分割和語(yǔ)義分割2個(gè)任務(wù)組成。考慮到2個(gè)任務(wù)間進(jìn)行信息交互的互補(bǔ)性,提出了語(yǔ)義增強(qiáng)信息、實(shí)例增強(qiáng)信息模塊,通過(guò)RPN、語(yǔ)義分割結(jié)果分別為對(duì)應(yīng)任務(wù)提供了物體級(jí)別和像素級(jí)別的隱式信息,能夠更好地捕捉圖像中的實(shí)例和語(yǔ)義信息。通過(guò)實(shí)驗(yàn)驗(yàn)證了提出的雙向信息交互網(wǎng)絡(luò)能夠有效提高全景分割的性能,獲得更精確的全景分割結(jié)果。對(duì)于多任務(wù)的全景分割網(wǎng)絡(luò),傳遞互補(bǔ)的信息對(duì)于各個(gè)模塊通常是有益的,額外信息能幫助各任務(wù)更好地理解場(chǎng)景。提出的全景分割網(wǎng)絡(luò)更加高效、魯棒和精確,在道路場(chǎng)景中能夠有效識(shí)別出各類信息,這些信息能夠?yàn)樽詣?dòng)駕駛提供更精確的定位、導(dǎo)航等功能,還可應(yīng)用于事后建圖、圖像標(biāo)注等自動(dòng)駕駛相關(guān)領(lǐng)域。

[1] KIRILLOV A, HE K, GIRSHICK R, et al. Panoptic segmentation[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 9404-9413.

[2] 徐鵬斌, 瞿安國(guó), 王坤峰, 等. 全景分割研究綜述[J]. 自動(dòng)化學(xué)報(bào), 2021, 47(3): 549-568. DOI:10.16383/j.aas.c200657.

[3] HE K, GKIOXARI G, DOLLáR P, et al. Mask r-cnn[C]// Proceedings of the IEEE International Conference on Computer Vision. 2017: 2961-2969.

[4] ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2881-2890.

[5] DE GEUS D, MELETIS P, DUBBELMAN G. Panoptic segmentation with a joint semantic and instance segmentation network[J]. arXiv Preprint arXiv:1809.02110, 2018.

[6] KIRILLOV A, GIRSHICK R, HE K, et al. Panoptic feature pyramid networks[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 6399-6408.

[7] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 3431-3440.

[8] LI Y, CHEN X, ZHU Z, et al. Attention-guided unified network for panoptic segmentation[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 7026-7035.

[9] DE GEUS D, MELETIS P, DUBBELMAN G. Single network panoptic segmentation for street scene understanding[C]// 2019 IEEE Intelligent Vehicles Symposium (IV). IEEE, 2019: 709-715.

[10] CHEN Y, LIN G, LI S, et al. Banet:Bidirectional aggregation network with occlusion handling for panoptic segmentation[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 3793-3802.

[11] LI J, RAVENTOS A, BHARGAVA A, et al. Learning to fuse things and stuff[J]. arXiv Preprint arXiv:1812.01192, 2018.

[12] ZHANG Xiaoliang, LI Hongliang, WANG Lanxiao, et al. Real-time panoptic segmentation with relationship between adjacent pixels and boundary prediction[J]. Neurocomputing, 2022, 506: 290-299.

[13] 馮興杰, 張?zhí)鞚? 基于分組卷積進(jìn)行特征融合的全景分割算法[J]. 計(jì)算機(jī)應(yīng)用, 2021, 41(7): 2054-2061.

[14] WU Y, ZHANG G, GAO Y, et al. Bidirectional graph reasoning network for panoptic segmentation[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 9080-9089.

[15] XIONG Y, LIAO R, ZHAO H, et al. Upsnet:A unified panoptic segmentation network[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 8818-8826.

[16] 雷海衛(wèi), 何方圓, 賈博慧, 等. 基于注意力機(jī)制的全景分割網(wǎng)絡(luò)[J]. 微電子學(xué)與計(jì)算機(jī), 2022, 39(1): 39-45. DOI:10.19304/J.ISSN1000-7180.2021.0263.

[17] LIU H, PENG C, YU C, et al. An end-to-end network for panoptic segmentation[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 6172-6181.

[18] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2117-2125.

[19] HU J, SHEN L, SUN G. Squeeze-and-Excitation networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 7132-7141.

[20] CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 3213-3223.

Road scene panoptic segmentation network with two-way information interaction

LIU Bolin, HUANG Jingsong

(School of Geodesy and Geomatics, Wuhan University, Wuhan 430079, China)

In order to further study the panoptic segmentation function of road scenes, supporting for autonomous driving vehicles to fully perceive the environment, the paper proposed a panoptic segmentation network with two-way information interaction: the features were extracted through the backbone network, and input into the semantic segmentation branch and the instance segmentation branch, respectively; then, an instance enhancement information module and a semantic enhancement information module were added between the branches to enhance information interaction; finally, semantic results and instance results were fused by using an improved fusion algorithm, and the prediction results of panoramic segmentation were obtained. Experimental result showed that the proposed bidirectional information interaction module would help improve the performance of the panoptic segmentation network, and a panoptic quality (PQ) score of 46.8 could be gained on the Cityscapes dataset using 512×1024 pixel resolution images.

panoptic segmentation; autonomous driving; multi-task learning; information interaction; semantic segmentation; instance segmentation

劉博林, 黃勁松. 雙向信息交互的道路場(chǎng)景全景分割網(wǎng)絡(luò)[J]. 導(dǎo)航定位學(xué)報(bào), 2023, 11(6): 49-56.(LIU Bolin, HUANG Jingsong. Road scene panoptic segmentation network with two-way information interaction[J]. Journal of Navigation and Positioning, 2023, 11(6):49-56.)DOI:10.16547/j.cnki.10-1096.20230607.

P228

A

2095-4999(2023)06-0049-08

2023-03-13

劉博林(1998—),男,河北唐山人,碩士研究生,研究方向?yàn)樯疃葘W(xué)習(xí)。

黃勁松(1969—),男,湖南長(zhǎng)沙人,博士,副教授,研究方向?yàn)樽灾饕苿?dòng)機(jī)器人技術(shù)。

猜你喜歡
語(yǔ)義信息
語(yǔ)言與語(yǔ)義
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語(yǔ)義模糊
展會(huì)信息
“深+N季”組配的認(rèn)知語(yǔ)義分析
語(yǔ)義分析與漢俄副名組合
修辭的基礎(chǔ)——語(yǔ)義和諧律
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 天天摸夜夜操| 综合天天色| 国产真实乱人视频| 高潮毛片免费观看| 国产免费好大好硬视频| 国产精品亚洲精品爽爽| 亚洲人成在线免费观看| a欧美在线| 2020国产精品视频| 国产久草视频| 国产欧美日韩精品综合在线| 国产永久在线观看| 18禁黄无遮挡网站| 亚洲国产精品日韩av专区| 99热这里只有精品2| 欧美精品亚洲二区| 在线免费看片a| 亚洲欧美不卡中文字幕| 玖玖精品视频在线观看| 国产一级在线播放| 色屁屁一区二区三区视频国产| 亚洲综合亚洲国产尤物| 天天综合色网| 超清人妻系列无码专区| 国内嫩模私拍精品视频| 国产成人调教在线视频| 欧美日韩中文国产va另类| 91在线播放国产| 九色视频在线免费观看| 亚洲最大在线观看| 91娇喘视频| 午夜福利在线观看成人| 亚洲综合日韩精品| 国产一在线| 欧美性爱精品一区二区三区| 九色在线观看视频| 蜜臀AVWWW国产天堂| 亚洲国产精品一区二区高清无码久久| 好吊色国产欧美日韩免费观看| 青草视频网站在线观看| 91精品在线视频观看| 国产成人精品一区二区不卡 | 人妻中文字幕无码久久一区| AV无码一区二区三区四区| 国产精品99久久久久久董美香| 色135综合网| 亚洲精品视频网| 激情六月丁香婷婷四房播| 2020国产免费久久精品99| 亚洲av无码成人专区| 免费观看国产小粉嫩喷水| 在线日韩日本国产亚洲| 国产无码网站在线观看| 免费啪啪网址| 成人av手机在线观看| 欧美有码在线观看| 亚洲成网777777国产精品| 欧美、日韩、国产综合一区| 97超爽成人免费视频在线播放| 日本成人不卡视频| 成人精品免费视频| 欧美成人二区| 亚洲制服中文字幕一区二区 | 国产成年无码AⅤ片在线| 国产伦精品一区二区三区视频优播 | 国产第一页免费浮力影院| 国产av剧情无码精品色午夜| 亚洲色图欧美一区| 九九线精品视频在线观看| 成人自拍视频在线观看| 久久网欧美| 国产一级妓女av网站| 中文字幕在线欧美| 91小视频版在线观看www| 青青国产成人免费精品视频| 婷婷六月在线| www.精品国产| 亚洲香蕉在线| av天堂最新版在线| 国产9191精品免费观看| 97综合久久| 国产资源免费观看|