基于域適應(yīng)互增強(qiáng)的多模態(tài)圖像語義分割

2022-10-01 02:41:34谷小婧

計(jì)算機(jī)工程與設(shè)計(jì) 2022年9期

藍(lán) 鑫，谷小婧

(華東理工大學(xué) 信息科學(xué)與工程學(xué)院，上海 200237)

0 引言

語義分割已廣泛應(yīng)用于自動駕駛領(lǐng)域[1]，無人車輛需要對周圍環(huán)境進(jìn)行感知、預(yù)測，然后計(jì)劃并進(jìn)行決策。僅利用可見光圖像進(jìn)行語義分割無法確保自動駕駛系統(tǒng)的魯棒性，因?yàn)榭梢姽鈭D像的成像會受到周圍環(huán)境的影響，例如大霧等能見度低的場景、夜間等光照亮度低的場景或強(qiáng)曝光的光照度過高的場景。

近年來，部分研究者引入紅外(IR)圖像以彌補(bǔ)僅使用可見光(RGB)圖像造成的缺陷。紅外圖像根據(jù)高于絕對零度的目標(biāo)發(fā)射的熱輻射強(qiáng)度成像，具有不受光照影響、抗干擾能力強(qiáng)等優(yōu)點(diǎn)。Ha等[2]提出基于編碼器-解碼器的MFNet，在解碼器部分進(jìn)行特征融合，由于并未采用預(yù)訓(xùn)練模型，雖然速度具有優(yōu)勢，但是精度較低。Sun等[3]使用預(yù)訓(xùn)練的ResNet[4]作為編碼器，并將可見光模態(tài)和紅外模態(tài)在編碼器部分進(jìn)行特征融合。Sun等[5]又使用DenseNet[6]作為編碼器，進(jìn)一步提升分割準(zhǔn)確性。文獻(xiàn)[3,5]都采用較大的模型作為編碼器，因此參數(shù)量多，計(jì)算量大。Lyu等[7]在解碼器部分使用分組卷積，減少了模型的參數(shù)量。

上述研究并未考慮不同模態(tài)間特征對不齊的問題。本文受域適應(yīng)對齊特征[8,9]啟發(fā)，提出了一種基于域適應(yīng)互增強(qiáng)的RGB-IR圖像語義分割算法。該算法首先利用高效特征增強(qiáng)模塊(efficient feature enhancement module，EFEM)減少編碼器與解碼器之間的語義鴻溝，降低后續(xù)特征對齊的難度，然后使用多級特征聚合對齊模塊(feature aggregation and alignment module，F(xiàn)AAM)聚合并對齊多尺度的模態(tài)內(nèi)特征，再通過RGB和IR圖像的相互轉(zhuǎn)換來實(shí)現(xiàn)模態(tài)間的特征對齊并增強(qiáng)特征。最后，將生成的樣本與真實(shí)樣本混合作為新的輸入再次送入分割網(wǎng)絡(luò)，利用域判別器區(qū)分輸入是何種組合，增強(qiáng)了訓(xùn)練數(shù)據(jù)，進(jìn)一步優(yōu)化分割網(wǎng)絡(luò)。

1 基于域適應(yīng)互增強(qiáng)的RGB-IR道路圖像語義分割

1.1 模型整體架構(gòu)

本文算法整體架構(gòu)如圖1所示，由3個(gè)主要部分組成：編碼器-解碼器網(wǎng)絡(luò)M、判別器D和語義相似性網(wǎng)絡(luò)S。圖中實(shí)線表示訓(xùn)練的第一階段，虛線表示第二階段。其中編碼器-解碼器網(wǎng)絡(luò)M包含編碼器，分割解碼器和轉(zhuǎn)換解碼器，RGB和IR支路具有相同的架構(gòu)。使用ResNet-18作為M和S的編碼器。測試時(shí)僅使用M中的分割編碼器-解碼器部分。Lce、 Ldomain、 Ladv、 Lfm和Lss分別表示網(wǎng)絡(luò)中的不同損失函數(shù)。

圖1 模型整體架構(gòu)

圖2 編碼器-解碼器網(wǎng)絡(luò)M架構(gòu)

(1)

GAN可以生成高保真度和多樣性的圖像[12,13]，因此，本文引入GAN來輔助圖像轉(zhuǎn)換。對于RGB輸入圖像，網(wǎng)絡(luò)將其轉(zhuǎn)換為IR圖像，反之亦然。GAN通常利用判別器來區(qū)分輸入來自真實(shí)圖像還是生成圖像，本文使用兩個(gè)判別器分別對RGB和IR圖像進(jìn)行判別，GAN的訓(xùn)練過程可以看作生成器和判別器之間的零和博弈。

1.2 域適應(yīng)互增強(qiáng)模塊

由于RGB和IR圖像之間存在域差異，部分融合方法需要經(jīng)過精心設(shè)計(jì)，本文工作借鑒域適應(yīng)方法，通過將一個(gè)模態(tài)的特征轉(zhuǎn)換為另一模態(tài)的圖像來強(qiáng)迫其學(xué)習(xí)互補(bǔ)信息，從而減少域間差異，并對齊和增強(qiáng)域間特征。

圖像轉(zhuǎn)換部分如圖2所示，首先將FAAM的特征經(jīng)過一組卷積進(jìn)行變換，然后經(jīng)過一系列殘差塊逐步學(xué)習(xí)圖像細(xì)節(jié)，上采樣使用轉(zhuǎn)置卷積實(shí)現(xiàn)，最終生成轉(zhuǎn)換后的圖像。

(2)

(3)

(4)

域判別器也采用PatchGAN，但是去掉了Instance Normalization，因?yàn)橛蚺袆e器不用于生成圖像。域判別器損失定義為

Ldomain=

(5)

(6)

總損失定義如下

(7)

式中：λadv、λfm、λss和λdomain是各個(gè)損失的權(quán)重，用于控制損失之間的相對重要性。實(shí)驗(yàn)中，對抗損失使用最小二乘損失實(shí)現(xiàn)。

1.3 多級特征聚合對齊模塊

本文模型為了保持輕量，在解碼器部分采用了相加的特征融合策略，對于不同層級的特征，它們之間存在著特征對不齊的情況，直接相加可能會使得模型性能受到影響，因此，本節(jié)提出多級特征聚合對齊模塊(FAAM)，同時(shí)聚合并對齊來自不同層級的特征，具體結(jié)構(gòu)如圖3所示。

圖3 多級特征聚合對齊模塊

將偏移量加到原始坐標(biāo)pl上從而得到新的映射后的坐標(biāo)pl+1，為了使訓(xùn)練穩(wěn)定，偏移量使用長和寬進(jìn)行歸一化，公式如下

(8)

(9)

1.4 高效特征增強(qiáng)模塊

本文使用了編碼器-解碼器架構(gòu)，編碼器和解碼器之間通常采用跳躍連接。低層級特征包含高分辨率的紋理信息，高層級特征包含低分辨率的豐富語義信息。如果將編碼器的低層級特征直接融合到解碼器中，不同層級特征之間的語義鴻溝將限制特征融合的性能。

因此本節(jié)提出EFEM來解決該問題，EFEM可以縮短編碼器和解碼器之間的特征距離，保證特征融合的魯棒性，模塊結(jié)構(gòu)如圖4所示，圖中Hl、Wl和Cl分別表示第l層殘差塊輸出的特征圖的高、寬和通道數(shù)，Conv表示卷積，DWConv表示深度卷積，BN表示批歸一化。考慮到效率和有效性，EFEM首先使用1×1卷積將輸入通道壓縮到64維。利用深度可分卷積的優(yōu)勢，可以將特征先擴(kuò)展到更高維的空間以增加網(wǎng)絡(luò)容量[14]。再使用另一個(gè)3×3深度可分卷積以擴(kuò)大感受野。最后，一個(gè)1×1卷積將深度可分卷積的輸出投影回低維度，以支持跳躍連接。

圖4 高效特征增強(qiáng)模塊設(shè)計(jì)細(xì)節(jié)

1.5 訓(xùn)練及測試策略

圖5 模型訓(xùn)練流程

然后需要更新M的參數(shù)，此時(shí)凍結(jié)S和轉(zhuǎn)換判別器D的參數(shù)，使用真實(shí)圖像和轉(zhuǎn)換圖像計(jì)算損失并更新參數(shù)。最后利用分割結(jié)果計(jì)算交叉熵?fù)p失和域判別對抗損失更新分割網(wǎng)絡(luò)參數(shù)。

由于本文目標(biāo)是實(shí)現(xiàn)語義分割，圖像到圖像轉(zhuǎn)換僅作為多任務(wù)中的輔助任務(wù)，因此，總損失中用于分割的交叉熵?fù)p失權(quán)重設(shè)為1，Dataset1的實(shí)驗(yàn)中其余損失權(quán)重設(shè)為0.1，Dataset2中λadv設(shè)為0.01，其余損失權(quán)重也設(shè)為0.1，以避免輔助任務(wù)對主任務(wù)造成過多影響，從而降低分割性能。

由于圖像轉(zhuǎn)換部分附加在分割部分之后，因此在測試時(shí)可以直接將圖像轉(zhuǎn)換部分直接去掉，在維持分割結(jié)果的情況下使得分割網(wǎng)絡(luò)輕量化。

2 實(shí)驗(yàn)結(jié)果及分析

2.1 數(shù)據(jù)集介紹

本節(jié)實(shí)驗(yàn)主要在兩個(gè)可見光-紅外夜間語義分割數(shù)據(jù)集上展開。第一個(gè)數(shù)據(jù)集是Dataset1，是課題組自行構(gòu)建的包含541張?jiān)谝归g拍攝的城市街景圖像的數(shù)據(jù)集，所用的可見光拍攝設(shè)備為索尼A6000微型單反，紅外熱像儀為FLIR Tau2336相機(jī)。圖像的分辨率為300×400。該數(shù)據(jù)集中有13個(gè)類被標(biāo)記，即汽車、自行車、人、天空、樹、交通燈、道路、人行道、建筑物、欄桿、交通標(biāo)志、柱子和公共汽車。對于場景中不屬于上述物體或難以辨識的物體，將其設(shè)置為空類，即不進(jìn)行標(biāo)注。在模型訓(xùn)練與評估的過程中不包括空類。實(shí)驗(yàn)中將Dataset1分為兩部分。訓(xùn)練數(shù)據(jù)集由400幅圖像組成，其它141幅圖像被分為測試數(shù)據(jù)集。

第二個(gè)數(shù)據(jù)集基于公開的KAIST多波段行人數(shù)據(jù)集，選擇了行人和車輛較多的晚間的3組雙模態(tài)圖像視頻流，從中選出200組RGB-IR圖像對作為原始數(shù)據(jù)。圖像的分辨率為300×400。該數(shù)據(jù)集中有13個(gè)類被標(biāo)記，即汽車、自行車、人、天空、樹、草地、道路、人行道、建筑物、欄桿、交通標(biāo)志、柱子和障礙物。訓(xùn)練數(shù)據(jù)集由150組圖像組成，其它50組圖像被分為測試數(shù)據(jù)集。

2.2 實(shí)驗(yàn)設(shè)置及評價(jià)指標(biāo)

本節(jié)實(shí)驗(yàn)在單個(gè)NVIDIA V100 GPU上進(jìn)行訓(xùn)練、驗(yàn)證及測試，Pytorch版本為1.7，CUDA使用10.1版本，cuDNN使用7.6版本。使用PyTorch提供的預(yù)訓(xùn)練權(quán)重ResNet18初始化網(wǎng)絡(luò)。使用Adam優(yōu)化器訓(xùn)練網(wǎng)絡(luò)，M中的編碼器和分割解碼器學(xué)習(xí)率設(shè)為0.0001，動量設(shè)為0.5和0.999，采用“poly”學(xué)習(xí)策略來逐步降低學(xué)習(xí)速率。M中轉(zhuǎn)換解碼器學(xué)習(xí)率為0.0002，動量設(shè)為0.5和0.999。轉(zhuǎn)換判別器和域判別器的學(xué)習(xí)率都設(shè)為0.0001，動量分別設(shè)為0.5、0.999和0.9、0.99。訓(xùn)練周期設(shè)為100。在訓(xùn)練過程中，每個(gè)訓(xùn)練周期之前輸入被隨機(jī)打亂。使用隨機(jī)水平翻轉(zhuǎn)和隨機(jī)裁剪來執(zhí)行數(shù)據(jù)增強(qiáng)。圖像輸入網(wǎng)絡(luò)前先使用鏡像填充將圖像擴(kuò)大到320×416。本文實(shí)驗(yàn)采用常見的平均交并比(mIoU)來評估語義分割的性能。計(jì)算公式如下

(10)

式中：C是類別的數(shù)量，Pij是屬于第i類被預(yù)測為第j類的像素?cái)?shù)。該評價(jià)指標(biāo)在分割結(jié)果中的得分越高，代表算法分割精度越好。對于圖像生成質(zhì)量的評價(jià)指標(biāo)采用FID[15]分?jǐn)?shù)，F(xiàn)ID越低表示生成圖像的質(zhì)量越高。

2.3 實(shí)驗(yàn)結(jié)果及分析

2.3.1 先進(jìn)算法對比及分析

本文先對比分析了不同先進(jìn)算法的實(shí)驗(yàn)結(jié)果，對比算法包括本文提出的算法、MFNet、PSTNet、RTFNet-50、FuNNet和FuseSeg。對于RTFNet-50，采用ResNet-50作為骨干網(wǎng)絡(luò)，因?yàn)楸萊esNet-50更大的骨干網(wǎng)絡(luò)通常不適合自動駕駛。表1展示了不同網(wǎng)絡(luò)在Dataset1上測試的定量結(jié)果。

表1 不同分割算法在Dataset1上的對比結(jié)果

相比于采用了DenseNet的FuseSeg，本文算法僅使用ResNet-18就在Dataset1上取得了具有競爭力的預(yù)測結(jié)果，在“車”、“欄桿”和“巴士”類別上具有較為明顯的提升。在該數(shù)據(jù)集中，本文算法有7個(gè)類優(yōu)于FuseSeg，整體性能達(dá)到了最先進(jìn)的水平。

此外，本文還對比了不同先進(jìn)算法在Dataset2上的實(shí)驗(yàn)結(jié)果，以展示所提算法的泛化性。具體結(jié)果見表2。本文所提算法在“欄桿”、“路標(biāo)”和“障礙物”等小目標(biāo)上都有較為不錯的分割結(jié)果。在大部分類別中也能取得有競爭力的結(jié)果，且mIoU一項(xiàng)在所有算法中達(dá)到了最高水平。圖6展示了算法在兩個(gè)數(shù)據(jù)集上的定性結(jié)果，圖6(a)、圖6(b)列展示了Dataset1的分割結(jié)果，圖6(c)、圖6(d)列展示了Dataset2的分割結(jié)果。

表2 不同分割算法在Dataset2上的對比結(jié)果

圖7和圖8展示了不同數(shù)據(jù)集通過圖像轉(zhuǎn)換生成的圖像，可以看出，本節(jié)提出的模型可以轉(zhuǎn)換較為明顯的特征。對于夜間亮度過低的圖像，由于圖像本身特征較少，因此轉(zhuǎn)換的圖像質(zhì)量也不高。

圖7 Dataset1真實(shí)圖像與生成圖像對比

圖8 Dataset2真實(shí)圖像與生成圖像對比

2.3.2 模型消融實(shí)驗(yàn)及分析

為了驗(yàn)證本文提出方法的有效性，本節(jié)對提出的模塊在兩個(gè)數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)，如表3和表4所示。基線模型表示不使用域適應(yīng)、EFEM以及FAAM模塊。

表3 Dataset1上的模型消融實(shí)驗(yàn)

表4 Dataset2上的模型消融實(shí)驗(yàn)

首先探究EFEM模塊，EFEM模塊分別在Dataset1和Dataset2上提升了0.6%和1.2%的mIoU，驗(yàn)證了前文討論的編碼器與解碼器之間存在的語義鴻溝，EFEM減少了它們之間的特征距離，有利于特征在解碼器中進(jìn)行特征聚合的操作。

然后研究本節(jié)提出的FAAM，由表中數(shù)據(jù)可知，該模塊為模型在不同數(shù)據(jù)集上都提供了明顯的性能提升，Dataset1中提升了1.7%mIoU，在Dataset2中提升了3.1%mIoU。由此可見，特征對不齊對網(wǎng)絡(luò)性能具有較大的影響。

接著，本節(jié)探究域適應(yīng)對模型的影響，DA表示域適應(yīng)過程，通過將其中一個(gè)模態(tài)轉(zhuǎn)換為另一個(gè)模態(tài)，使得不同模態(tài)之間的特征進(jìn)行對齊，從而優(yōu)化分割結(jié)果。通過域適應(yīng)，模型在不同數(shù)據(jù)集上性能分別提升了0.8%和1.0%。本節(jié)還探究生成圖像再送入模型進(jìn)行第二階段訓(xùn)練的有效性，該想法使用域判別器實(shí)現(xiàn)，利用域判別器判別分割輸出是真或假進(jìn)一步提升分割結(jié)果，表中用DC表示，在Dataset2的實(shí)驗(yàn)中取得了3.2%的較大性能提升。因此，將生成圖像再次送入網(wǎng)絡(luò)可以取得進(jìn)一步的性能提升，有效地利用了生成圖像，在一定程度上實(shí)現(xiàn)了數(shù)據(jù)增強(qiáng)。

如前文所討論的，F(xiàn)AAM用于特征對齊以及聚合。為了驗(yàn)證本節(jié)提出的FAAM是有效的，本節(jié)將FAAM替換為特征相加，再接1×1卷積或3×3卷積的操作，得到的結(jié)果見表5和表6。

表5 Dataset1上FAAM消融實(shí)驗(yàn)

表6 Dataset2上FAAM消融實(shí)驗(yàn)

可以看到，僅使用相加以及卷積的模型性能遠(yuǎn)不如FAAM，通過設(shè)計(jì)特定的特征對齊模塊，可以更有效地對齊特征，提升網(wǎng)絡(luò)的性能。

2.3.3 損失函數(shù)權(quán)重影響分析

由于本文實(shí)驗(yàn)使用了多個(gè)損失進(jìn)行監(jiān)督，因此設(shè)計(jì)對比實(shí)驗(yàn)驗(yàn)證損失函數(shù)權(quán)重對算法分割效果以及圖像轉(zhuǎn)換效果之間的影響。如圖9和圖10所示。

圖9 Dataset1中損失函數(shù)權(quán)重大小對模型性能影響對比

圖10 Dataset2中損失函數(shù)權(quán)重大小對模型性能影響對比

圖中展示了權(quán)重大小和分割性能以及圖像生成效果之間的關(guān)系，權(quán)重使用了0、0.01、0.1、1、5這5個(gè)尺度，實(shí)線表示mIoU(越高越好)，將其作為分割性能的評價(jià)指標(biāo)；虛線表示FID分?jǐn)?shù)(越低越好)，將其作為生成圖像質(zhì)量的評價(jià)指標(biāo)。由圖中可以看出，整體來說，副任務(wù)權(quán)重比主任務(wù)權(quán)重小的情況下，分割可以取得較好的效果，當(dāng)副任務(wù)權(quán)重過小，對主任務(wù)的幫助越小；當(dāng)副任務(wù)權(quán)重過大，影響了主任務(wù)的訓(xùn)練，會導(dǎo)致分割性能下降。

一般來說，當(dāng)分割任務(wù)性能最優(yōu)時(shí)，圖像轉(zhuǎn)換質(zhì)量也處于較好的水平，由此可以得出結(jié)論，圖像質(zhì)量優(yōu)劣對分割性能有著正向影響。

2.3.4 模型復(fù)雜度分析

為了驗(yàn)證本文提出的算法的高效性，本節(jié)實(shí)驗(yàn)比較了本文算法和當(dāng)前先進(jìn)算法之間的FLOPs、FPS以及參數(shù)量，如表7所示。

表7 不同算法復(fù)雜度對比

由于FuseSeg設(shè)計(jì)的特殊性，為了公平比較，本節(jié)選擇480×640作為輸入圖像的分辨率。FLOPs、FPS以及參數(shù)量都在此分辨率基礎(chǔ)上進(jìn)行測試。FLOPs表示處理特定分辨率圖像的浮點(diǎn)操作的數(shù)量。mIoU展示了不同算法在

Dataset1上的分割結(jié)果。從表中數(shù)據(jù)可以看出，本文算法相較于大部分算法都有更少的浮點(diǎn)操作數(shù)，參數(shù)量大大小于FuseSeg，且FPS也處于較高水平，實(shí)驗(yàn)結(jié)果表明了本文算法在準(zhǔn)確性和復(fù)雜性之間取得了很好的平衡，在自動駕駛上相比于其它模型更具有適用性。

3 結(jié)束語

針對多模態(tài)圖像語義分割模態(tài)內(nèi)以及模態(tài)間特征對不齊的問題，本文提出了一種基于域適應(yīng)互增強(qiáng)的RGB-IR圖像語義分割算法。算法將語義分割和域適應(yīng)相結(jié)合，利用域適應(yīng)使分割模型學(xué)習(xí)到不同模態(tài)間的特征，實(shí)現(xiàn)特征對齊并增強(qiáng)特征。提出的高效特征增強(qiáng)模塊有效地減少了編碼器和解碼器之間的語義鴻溝。此外，多級特征聚合對齊模塊可以聚合不同層級的特征并對齊模態(tài)內(nèi)的信息。生成的圖像再次送入網(wǎng)絡(luò)，增強(qiáng)了訓(xùn)練數(shù)據(jù)，進(jìn)一步提升了分割性能。實(shí)驗(yàn)驗(yàn)證了本文算法達(dá)到了當(dāng)前最優(yōu)性能，設(shè)計(jì)的不同消融實(shí)驗(yàn)驗(yàn)證了所提出模塊的有效性，另外還設(shè)計(jì)實(shí)驗(yàn)探究生成圖像與分割性能之間的關(guān)系。本文算法相比于當(dāng)前大部分模型降低了的復(fù)雜度，提升了實(shí)用性。