






中圖分類號(hào):TP391.4
文獻(xiàn)標(biāo)志碼:A
近年來(lái)研究熱點(diǎn)的自動(dòng)駕駛要求對(duì)復(fù)雜城市街道擁有強(qiáng)大的場(chǎng)景理解能力,以做出決策并控制運(yùn)動(dòng)系統(tǒng)1。協(xié)助車輛識(shí)別其周圍環(huán)境的常見方法是對(duì)車輛上安裝的攝像頭拍攝圖像的應(yīng)用語(yǔ)義分割。語(yǔ)義分割將圖像中的所有像素分類為類別標(biāo)簽,是計(jì)算機(jī)視覺中的重要任務(wù)之一,許多方法[2-6被提出來(lái)改進(jìn)性能并取得了驚人的效果。然而,這些方法的關(guān)鍵限制是它們需要大量高質(zhì)量的標(biāo)簽,這需要大量的人力和物質(zhì)資源。例如,來(lái)自Cityscapes[7數(shù)據(jù)集的一張圖像需要一個(gè)人花費(fèi) 90min 來(lái)標(biāo)注。從虛擬圖像引擎中收集的合成數(shù)據(jù)集[8-9被用來(lái)應(yīng)對(duì)這個(gè)限制,因?yàn)檫@些圖像引擎可以自動(dòng)導(dǎo)出圖像和對(duì)應(yīng)標(biāo)簽。然而,由于現(xiàn)實(shí)世界場(chǎng)景和虛擬世界場(chǎng)景之間的外觀差異很大,因此盡管模型在虛擬世界中做出高精度預(yù)測(cè),但將其應(yīng)用于現(xiàn)實(shí)世界圖像的類別標(biāo)簽預(yù)測(cè)仍然困難。
解決有標(biāo)簽的虛擬世界圖像(源域)和沒有標(biāo)簽的現(xiàn)實(shí)世界圖像(目標(biāo)域)之間的領(lǐng)域差異問題的無(wú)監(jiān)督領(lǐng)域自適應(yīng)是關(guān)鍵技術(shù)之一。近來(lái)無(wú)監(jiān)督領(lǐng)域自適應(yīng)通過(guò)對(duì)抗學(xué)習(xí)或者自訓(xùn)練的方法來(lái)減小不同領(lǐng)域之間數(shù)據(jù)分布的差異[10-14]。對(duì)抗學(xué)習(xí)通過(guò)欺騙領(lǐng)域判別器來(lái)實(shí)現(xiàn)源域和目標(biāo)域分布的全局對(duì)齊。自訓(xùn)練則是循環(huán)迭代目標(biāo)域圖像的偽標(biāo)簽并采用置信度估計(jì)、一致性正則化或熵最小化等方法來(lái)提高分割性能,偽標(biāo)簽即高可信度的預(yù)測(cè)。Pan等[15提出領(lǐng)域差異不僅存在于源域和目標(biāo)域之間(稱為域間差異),還存在于目標(biāo)域的不同部分之間(稱為域內(nèi)差異),研究使用基于熵的排序方法將自標(biāo)圖像分為“容易\"或“困難\"兩部分,并實(shí)現(xiàn)了圖像級(jí)域內(nèi)自適應(yīng)。Yan等[16認(rèn)為僅在圖像級(jí)別進(jìn)行域內(nèi)自適應(yīng)是不夠的,因?yàn)檎Z(yǔ)義分割網(wǎng)絡(luò)分配的是像素級(jí)別的類別標(biāo)簽。因此,研究提出了一個(gè)兩步的無(wú)監(jiān)督領(lǐng)域自適應(yīng)方法,以實(shí)現(xiàn)像素級(jí)域內(nèi)自適應(yīng)。具體來(lái)說(shuō),在訓(xùn)練一個(gè)域間自適應(yīng)網(wǎng)絡(luò)AdaptSegNet[12]后,通過(guò)一種類別閾值方法將目標(biāo)域圖像的像素分為“容易\"或“困難\"兩部分。該閾值方法基于來(lái)自AdaptSegNet[12]預(yù)測(cè)的置信度分?jǐn)?shù)為每個(gè)類別選擇閾值,高出這個(gè)閾值的像素為“容易”像素,低于這個(gè)閾值的像素為“困難”像素,利用“容易\"像素的偽標(biāo)簽,將分割網(wǎng)絡(luò)從“困難”像素適應(yīng)到“容易\"像素以提高對(duì)“困難”像素的預(yù)測(cè)精度。然而,像素級(jí)域內(nèi)自適應(yīng)無(wú)法有效地利用圖像的空間位置信息并且對(duì)偽標(biāo)簽的質(zhì)量非常敏感。因?yàn)閭螛?biāo)簽在捕捉空間布局方面存在不足,這導(dǎo)致分割網(wǎng)絡(luò)忽略了關(guān)鍵的空間位置信息。此外,像素級(jí)域內(nèi)自適應(yīng)過(guò)程對(duì)偽標(biāo)簽的依賴性過(guò)高,這意味著帶有噪聲的偽標(biāo)簽可能會(huì)嚴(yán)重阻礙網(wǎng)絡(luò)對(duì)某些類別的有效學(xué)習(xí)。
為了解決上述問題,本文提出了3種方法:首先,提出了一個(gè)多層級(jí)領(lǐng)域自適應(yīng)網(wǎng)絡(luò),旨在同時(shí)減少圖像級(jí)別和像素級(jí)別的分布差異。鑒于圖像中豐富的空間位置信息,本文在像素級(jí)領(lǐng)域內(nèi)自適應(yīng)的基礎(chǔ)上引入了圖像級(jí)領(lǐng)域內(nèi)自適應(yīng)。通過(guò)圖像級(jí)對(duì)抗學(xué)習(xí)策略,促使目標(biāo)域和源域在空間布局上的預(yù)測(cè)趨于一致,從而顯著提升了預(yù)測(cè)的準(zhǔn)確性;其次,提出了一種基于置信度約束的方法,以減輕偽標(biāo)簽對(duì)分割網(wǎng)絡(luò)性能的負(fù)面影響。與之前方法不同,本文不僅將像素分類為“容易\"或“困難”,還記錄了“容易\"類別中像素的置信度值。通過(guò)引入置信度損失函數(shù),有效地約束了網(wǎng)絡(luò)在域內(nèi)自適應(yīng)過(guò)程中對(duì)偽標(biāo)簽的過(guò)度擬合;最后,通過(guò)整合空間先驗(yàn)知識(shí),改進(jìn)了現(xiàn)有的類別閾值方法,以降低偽標(biāo)簽的錯(cuò)誤率。這種方法利用了源域中類別頻率的空間結(jié)構(gòu)相似性,從而提高了偽標(biāo)簽的整體質(zhì)量。
1基于多層級(jí)領(lǐng)域自適應(yīng)網(wǎng)絡(luò)和置信度約束的道路場(chǎng)景語(yǔ)義分割方法
本文使用S表示源域,包含合成圖像 Xs 和標(biāo)簽Ys, ,共有 C 個(gè)不同的類別;用 T 表示目標(biāo)域,其包含真實(shí)圖像 Xt°
1.1像素分離
如圖1所示,為了適應(yīng)域內(nèi)差異,首先將目標(biāo)圖像的像素分為“容易\"和“困難\"兩部分。置信度值可以衡量來(lái)自語(yǔ)義分割模型的預(yù)測(cè) P 的準(zhǔn)確性,具有高置信度值的預(yù)測(cè)往往比置信度值較低的預(yù)測(cè)更準(zhǔn)確。基于這一規(guī)則,許多方法中使用置信度值大于0.9的像素預(yù)測(cè)作為偽標(biāo)簽[17]。由于觀察到源域和目標(biāo)域的空間位置信息上存在顯著的相似性,如圖2(a)所示,源域和目標(biāo)域的圖像在視覺外觀上可能截然不同,但它們?cè)诳臻g位置信息上卻存在顯著的相似性。例如,天空通常位于圖像的頂部,而汽車則總是出現(xiàn)在道路上。為了利用分割中的空間先驗(yàn)知識(shí),本研究統(tǒng)計(jì)源域圖像中每個(gè)類別在空間上的分布,如圖2(b)所示。本文用 Fs(h,w,c) 表示源域圖像中像素(h,w) 處類別 Ψc 的頻率:

其中 Nc(h,w) 是類別 Ψc 出現(xiàn)在像素 (h,w) 處的次數(shù),
表示所有類別出現(xiàn)在像素 (h,w) 處的次數(shù)。本文使用一個(gè) n×n 的高斯核對(duì) Fs(h,w,c) 進(jìn)行平滑處理,將預(yù)測(cè)的置信度分?jǐn)?shù)乘以頻率,并將結(jié)果作為像素分離的參考。為了緩解類別不平衡問題,本文對(duì)每個(gè)類別計(jì)算像素分離的閾值。具體來(lái)說(shuō),給定目標(biāo)域圖像 xt ,將其輸入預(yù)訓(xùn)練模型以獲得預(yù)測(cè)。然后使用二進(jìn)制掩碼 Mxt∈{0,1}H×W 展示了在 xt 中分離像素的結(jié)果:



其中, t(c) 是類別 c 的像素分離閾值。具體而言, r(c) 表示在整個(gè)數(shù)據(jù)集上將類別 c 的置信度分?jǐn)?shù)乘以頻率的所有結(jié)果。 t(c) 被確定為使得 r(c) 中大于 t(c) 的元素?cái)?shù)量等于 α?|r(c)| ,其中 α 表示“容易\"像素的比例, |r(c)| 表示 r(c) 的長(zhǎng)度。 Pxt(h,w) 表示 xt(h,w) 的預(yù)測(cè)。Mxt(h,w)=0 表示像素為\"容易\"部分, Mxt(h,w)=1 表示像素為\"困難\"部分。根據(jù) Mxt(h,w) 分配偽標(biāo)簽
,同時(shí)記錄置信度
,如下:


值得注意的是,為了獲得偽標(biāo)簽和置信度值,需要一個(gè)預(yù)訓(xùn)練模型。為了更好地與PixIntraDA[16進(jìn)行比較,本文使用了與PixIntraDA[6相同的預(yù)訓(xùn)練模型來(lái)生成偽標(biāo)簽。
1.2多層級(jí)領(lǐng)域自適應(yīng)網(wǎng)絡(luò)和置信度約束
為了同時(shí)減小域間差異和域內(nèi)差異,以及避免過(guò)度擬合帶有噪聲的偽標(biāo)簽,本文方法包括多層級(jí)領(lǐng)域自適應(yīng)網(wǎng)絡(luò)和置信度約束。
1.2.1多層級(jí)領(lǐng)域自適應(yīng)網(wǎng)絡(luò)本文的多層級(jí)領(lǐng)域自適應(yīng)網(wǎng)絡(luò)包含像素級(jí)域內(nèi)自適應(yīng)以及圖像級(jí)域間自適應(yīng)。如圖3所示,在源域上,網(wǎng)絡(luò) G 接受一個(gè)帶有標(biāo)簽 yxs 的圖像 xs 作為輸入,并生成預(yù)測(cè) Pxs=G(xs) 。在目標(biāo)域上,由于圖像缺乏真實(shí)標(biāo)簽,本文使用通過(guò)式(3)選定的偽標(biāo)簽
來(lái)監(jiān)督網(wǎng)絡(luò)訓(xùn)練。具體來(lái)說(shuō),網(wǎng)絡(luò) G 接受一個(gè)帶有偽標(biāo)簽
的圖像 xt 作為輸入,并生成預(yù)測(cè) Pxt=G(xt) 。通過(guò)最小化交叉熵?fù)p失Lseg 來(lái)優(yōu)化 G

公式(3)中賦予“none\"值偽標(biāo)簽
表明相應(yīng)的像素不參與分割損失的計(jì)算。由于預(yù)訓(xùn)練模型效果有限,它不可避免地產(chǎn)生許多錯(cuò)誤預(yù)測(cè),這些錯(cuò)誤預(yù)測(cè)不能用作偽標(biāo)簽。為了避免這些錯(cuò)誤預(yù)測(cè)的不良影響,本文為它們分配\"none”值。
為了學(xué)習(xí)源域圖像中類別的空間布局,本文利用對(duì)抗學(xué)習(xí)來(lái)使 Pxt 和 Pxs 的分布對(duì)齊。具體來(lái)說(shuō),Dinter 被訓(xùn)練區(qū)分來(lái)自源域圖像或目標(biāo)域圖像的預(yù)測(cè),而 G 被訓(xùn)練為源域圖像和目標(biāo)域圖像生成的相似預(yù)測(cè),以欺騙 Dinter 。因此, Dinter 和 G 的優(yōu)化問題被表述如下:

此外,為了解決“容易\"和“困難\"像素之間的域內(nèi)差異,按照PixIntraDA[16中提出的像素級(jí)對(duì)抗學(xué)習(xí)方法,域內(nèi)判別器 Dintra 被訓(xùn)練為區(qū)分像素是來(lái)自“容易\"還是\"困難\"部分,而 G 被訓(xùn)練為欺騙 Dintra 。因此,用于優(yōu)化 Dintra 和 G 的像素級(jí)對(duì)抗損失被表述為

其中, 1H 和 1W 分別表示大小為 H×1 和 W×1 的全一向量, J 表示大小為 H×W 的全一矩陣, ? 表示Hadamard積。本文的多層級(jí)領(lǐng)域自適應(yīng)與像素級(jí)域內(nèi)自適應(yīng)PixIntraDA[16的主要區(qū)別:本文通過(guò)對(duì)抗學(xué)習(xí)引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)源域的空間布局和目標(biāo)域“容易”像素的置信度分布,而像素級(jí)域內(nèi)自適應(yīng)僅學(xué)習(xí)“容易\"像素的置信度分布。

1.2.2置信度約束為了避免過(guò)擬合帶有噪聲的偽標(biāo)簽,本文借助置信度
、偽標(biāo)簽
以及目標(biāo)預(yù)測(cè)Pxt 引入置信度損失 Lcon 。具體來(lái)說(shuō),置信度損失定義如下:

其中,
是將
轉(zhuǎn)換為與
相同大小的結(jié)果,對(duì)于所有
(20
因此,用于優(yōu)化 G 的完整損失函數(shù)形式為:
(8)其中, λcon?λinter 和 λintra 分別表示置信度損失 Lcon !域間對(duì)抗損失 LinteradvG 和域內(nèi)對(duì)抗損失 LintraadvG 的權(quán)重。
2 實(shí)驗(yàn)與結(jié)果分析
2.1 實(shí)驗(yàn)部分
2.1.1數(shù)據(jù)集Cityscapes是從50個(gè)不同的城市收集的大規(guī)模數(shù)據(jù)集,包含5000張帶有像素級(jí)語(yǔ)義標(biāo)注的圖像和20000張帶有粗略語(yǔ)義標(biāo)注的圖像。本文使用該數(shù)據(jù)集中來(lái)自訓(xùn)練集的2975張無(wú)標(biāo)簽圖像作為目標(biāo)域,來(lái)自Cityscapes驗(yàn)證集的500張帶有像素級(jí)語(yǔ)義標(biāo)注的圖像來(lái)評(píng)估訓(xùn)練的模型。GTA5[8]包括24966個(gè)分辨率為 1914×1052 的圖形,是由虛擬游戲引擎生成。GTA5和Cityscapes之間有19個(gè)相同類別,因此本文使用這些相同的類別并忽略其他類別來(lái)訓(xùn)練網(wǎng)絡(luò)。SYNTHIA包含9400張帶有高質(zhì)量掩碼的城市場(chǎng)景圖片,是一個(gè)合成數(shù)據(jù)集。在訓(xùn)練時(shí),SYNTHIA有13個(gè)與Cityscapes類兼容的類別。
2.1.2評(píng)估語(yǔ)義分割模型的性能通過(guò)平均交并比(mIoU)指標(biāo)進(jìn)行評(píng)估,這在語(yǔ)義分割的無(wú)監(jiān)督領(lǐng)域自適應(yīng)中經(jīng)常用于與其他模型進(jìn)行比較。
2.1.3網(wǎng)絡(luò)架構(gòu)本文采用了Deeplab-V2作為語(yǔ)義分割的架構(gòu),其架構(gòu)骨干是在ImageNet[18]上預(yù)訓(xùn)練過(guò)的ResNet-101[19],并在訓(xùn)練中進(jìn)行參數(shù)微調(diào);域間自適應(yīng)對(duì)從第5層卷積的輸出特征執(zhí)行自適應(yīng)。與語(yǔ)義分割架構(gòu)相對(duì)應(yīng),加人鑒別器(與DCGAN20]中使用的架構(gòu)相同)執(zhí)行對(duì)抗學(xué)習(xí),以對(duì)齊來(lái)自第5層卷積預(yù)測(cè)的空間分布。在域內(nèi)自適應(yīng)中,為了實(shí)現(xiàn)像素級(jí)對(duì)抗學(xué)習(xí),使用與PixIntraDA[16]中相同的鑒別器,并對(duì)鑒別器生成的輸出進(jìn)行雙線性采樣,使其與輸入圖像的大小相同。
2.1.4算法的實(shí)現(xiàn)細(xì)節(jié)本文所有實(shí)驗(yàn)中使用PyTorch深度學(xué)習(xí)框架,實(shí)驗(yàn)環(huán)境為一塊搭載有24GB內(nèi)存的NVIDIAGeForceRTX3090GPU。在多層級(jí)領(lǐng)域自適應(yīng)中,收集將源域圖像轉(zhuǎn)換為目標(biāo)域風(fēng)格的圖像。同時(shí),本文使用一個(gè)從PixIntraDA[16的域間自適應(yīng)中訓(xùn)練得到的預(yù)訓(xùn)練模型產(chǎn)生偽標(biāo)簽,批量大小為4,在框架中采用多尺度訓(xùn)練和測(cè)試。此外, λintra 設(shè)置為0.05, λinter 設(shè)置為0.01。為了實(shí)現(xiàn)主要適應(yīng)領(lǐng)域內(nèi)差異的目標(biāo),本文根據(jù)
intra=5確定λinter ,與主流方法保持一致[11-12,.5-16], λcon 通過(guò)實(shí)驗(yàn)確定。
2.1.5算法復(fù)雜度算法的時(shí)間、空間復(fù)雜度分別如公式(9)和公式(10)所示:


其中, Ml , Kl 和 Cl 分別代表第 ξl 層網(wǎng)絡(luò)的輸出特征圖大小、卷積核大小和輸出通道數(shù), D 代表網(wǎng)絡(luò)卷積層的數(shù)量。具體來(lái)說(shuō),本文算法模型的浮點(diǎn)運(yùn)算量約為 3.74×1011 次,模型參數(shù)的大小約為 170MB 。此外,模型訓(xùn)練在使用單塊NVIDIAGeForceRTX3090GPU的情況下需要耗時(shí) 20h 。
2.2 結(jié)果分析
2.2.1定量結(jié)果表1和表2所示為本文的方法與其他方法的比較結(jié)果。為了確保公平性和一致性,除了TTA(TestTimeArgumentaction)外,所有方法均采用了Deeplab-V2作為語(yǔ)義分割的基礎(chǔ)架構(gòu)。TTA采用擴(kuò)散模型作為其語(yǔ)義分割架構(gòu),該模型的網(wǎng)絡(luò)規(guī)模超過(guò)了Deeplab-V2。總體而言,本文的方法在任務(wù)“GTA5到Cityscapes\"和“SYNTHIA到Cityscapes\"中mloU分別提高到 52.6% 和 56.0% 。與表1和表2中的基線PLA相比,本文的方法在任務(wù)“GTA5到Cityscapes\"和“SYNTHIA到 Cityscapes\"中mloU分別提高了 6.5% 和 2.8% 。本文方法在有效性上與其他最先進(jìn)的方法也具有相當(dāng)?shù)母?jìng)爭(zhēng)力。由于Cityscapes和SYNTHIA之間在空間布局上存在相對(duì)較大的差異,在任務(wù)“SYNTHIA到Cityscapes\"中沒有使用空間先驗(yàn)知識(shí)。需要注意的是,PixIntraDA[6]包含像素級(jí)對(duì)抗學(xué)習(xí)、連續(xù)索引對(duì)抗學(xué)習(xí)、多一輪訓(xùn)練和Kullback-Leibler正則化4個(gè)部分。由于本文的工作基于像素級(jí)對(duì)抗學(xué)習(xí)部分,而不包含其他3個(gè)部分,為了更好地突顯本文方法的有效性,主要關(guān)注了本文方法與像素級(jí)對(duì)抗學(xué)習(xí)部分的比較。PixIntraDA[16方法中像素級(jí)對(duì)抗學(xué)習(xí)多尺度測(cè)試結(jié)果mloU是 49.4% 。本文通過(guò)圖4所示的分割結(jié)果可視化來(lái)比較本文方法與像素級(jí)對(duì)抗學(xué)習(xí)部分的有效性。
2.2.2消融實(shí)驗(yàn)本文的方法包含3個(gè)部分,多層級(jí)領(lǐng)域自適應(yīng)(Multi-LevelDomainAdaptation,MDA)、置信度正則化(ConfidenceRegularization,CR)和融入空間先驗(yàn)的閾值方法(ThresholdMethod IncorporatingSpatialPrior,TMISP)。與PLA相比,本文方法在3個(gè)方面有所不同:首先,基于PLA,本文提出了MDA來(lái)解決PLA不能有效利用圖像的空間位置信息的問題;其次,CR解決PLA可能過(guò)擬合噪聲偽標(biāo)簽的問題;最后,新的閾值方法來(lái)獲得更好的偽標(biāo)簽。表3驗(yàn)證了所有部分的有效性,可以觀察到本文方法的所有部分都提高了有效性。
2.2.3 超參數(shù)分析本文通過(guò)實(shí)驗(yàn)來(lái)選擇 λcon !α 和 n 的最優(yōu)值,如表4、表5和表6所示。為了確定最優(yōu)的超參數(shù)組合,本文中采用了逐步超參數(shù)優(yōu)化策略。初始 λcon?α 和 n 值分別為10、0.67和69,通過(guò)依次固定兩個(gè)超參數(shù),并優(yōu)化剩余的一個(gè)超參數(shù),使得優(yōu)化過(guò)程更加直接和容易管理。在每一步的優(yōu)化中,記錄了不同配置下的性能指標(biāo),并基于這些數(shù)據(jù)選擇了表現(xiàn)最優(yōu)的超參數(shù)配置。通過(guò)這種逐步調(diào)整的方法,最終確定的超參數(shù)設(shè)置在每一步中均表現(xiàn)最優(yōu),確保超參數(shù)選擇的結(jié)果是3個(gè)參數(shù)的綜合最優(yōu)配置。結(jié)果表明,當(dāng) λcon?α 和 n 分別等于9、0.5和69時(shí),可以獲得最佳結(jié)果。此外, α 等于1意味著所有預(yù)測(cè)都被用作偽標(biāo)簽。因此,這表明對(duì)于不可靠的預(yù)測(cè)賦予“none”值,使相應(yīng)的像素不參與計(jì)算分割損失是必要。



3結(jié)束語(yǔ)
本文提出了一個(gè)多層級(jí)領(lǐng)域自適應(yīng)網(wǎng)絡(luò)以縮小域間差異和域內(nèi)差異;利用置信度約束的方法以緩解噪聲偽標(biāo)簽的影響。為了進(jìn)一步提高偽標(biāo)簽的質(zhì)量,本文將空間先驗(yàn)知識(shí)與現(xiàn)有的閾值方法結(jié)合起來(lái)以選擇偽標(biāo)簽。實(shí)驗(yàn)結(jié)果表明本文方法的性能卓越,這3種方法并非孤立存在,而是相互補(bǔ)充和增強(qiáng)的。置信度約束方法通過(guò)記錄置信度值來(lái)減小潛在錯(cuò)誤偽標(biāo)簽的影響,而改進(jìn)的閾值方法則利用空間先驗(yàn)知識(shí)來(lái)提升偽標(biāo)簽的準(zhǔn)確性。在未來(lái)的工作中,有一些方法可以進(jìn)一步提高分割效果。由于從模型生成的高質(zhì)量偽標(biāo)簽有助于訓(xùn)練域自適應(yīng)網(wǎng)絡(luò),因此使用更有效模型來(lái)獲取更好的偽標(biāo)簽可以進(jìn)一步提高分割結(jié)果。此外,由于選擇用于域內(nèi)自適應(yīng)像素的分離方法也影響偽標(biāo)簽的質(zhì)量,因此找到更好的分離方法提高效果。不同形式的置信度損失可能會(huì)產(chǎn)生不同的效果,因此可以進(jìn)一步研究最佳形式。
參考文獻(xiàn):
[1] YURTSEVERE,LAMBERTJ,CARBALLOA,etal.A survey of autonomous driving:Common practicesand emerging technologies[J].IEEE Access,2020,8:58443- 58469.
[2] CHEN L C,PAPANDREOU G,KOKKINOSI,et al. Deeplab: Semantic image segmentation with deep convolutional nets,atrous convolution, and fully connected crfs[J]. IEEETransactionson Pattern Analysisand Machine Intelligence,2017,40(4): 834-848.
[3] CHEN L C, PAPANDREOU G,SCHROFF F,et al. Rethinking atrous convolution for semantic image segmentation[J/OL]. (2017-06-07)[2017-08-25]. htps://arXiv preprint arXiv: 170605587.
[4]李鈺,袁晴龍,徐少銘,等.基于感知注意力和輕量金字塔 融合網(wǎng)絡(luò)模型的室內(nèi)場(chǎng)景語(yǔ)義分割方法[J].華東理工大 學(xué)學(xué)報(bào)(自然科學(xué)版),2023,49(1):116-127.
[5] 吳駿逸,谷小婧,顧幸生.基于可見光/紅外圖像的夜間道 路場(chǎng)景語(yǔ)義分割[J].華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019,45(2): 301-309.
[6] 夏源祥,劉渝,楚程錢,等.基于子空間多尺度特征融合的 試卷語(yǔ)義分割[J].華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2023,49(3): 429-438.
[7]CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016: 3213-3223.
[8]RICHTER S R, VINEET V, ROTH S, et al. Playing for data: Ground truth from computer games[C]/Proceedings of European Conference on Computer Vision. Heidelberg: Springer,2016: 102-118.
[9]ROS G, SELLART L,MATERZYNSKA J, et al. The synthia dataset: A large collction of synthetic images for semantic segmentation of urban scenes[C]/Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE,2016:3234-3243.
[10] HOFFMAN J,WANG D,YUF, et al. Fcns in the wild: Pixel-level adversarial and constraint-based adaptation [J/OL]. (2016-12-08)[2017-02-21]. https://arXivpreprint arXiv: 161202649.
[11] VU T H, JAIN H, BUCHER M, et al. Advent: Adversarial entropy minimization for domain adaptation in semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA:IEEE, 2019:2517-2526.
[12]TSAI Y H, HUNG W C, SCHULTER S, et al. Learming to adapt structured output space for semantic segmentation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE,2018: 7472-7481.
[13]WANG Y, PENG J, ZHANG Z. Uncertainty-aware pseudo labelrefinery for domain adaptive semantic segmentation [C]/Proceedings of the IEEE International Conference on Computer Vision. USA: IEEE, 2021: 9092-9101.
[14] TIAN Y, ZHU S. Partial domain adaptation on semantic segmentation[J]. IEEE Transactionson Circuitsand Systems for Video Technology,2021,32(6): 3798-3809.
[15] PAN F, SHIN I, RAMEAU F,et al. Unsupervised intradomain adaptation for semantic segmentation through selfsupervision[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE, 2020: 3764-3773.
[16] YANZ,YUX,QINY,etal.Pixel-levelintra-domain adaptation for semantic segmentation [C]//Proceedings of the29th ACM International Conference on Multimedia. NY,USA: IEEE,2021: 404-413.
[17] LIY,YUANL,VASCONCELOSN.Bidirectional learningfor domain adaptation of semantic segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.USA:IEEE,2019: 6936-6945.
[18] DENGJ,DONGW,OCHERR,etal.Imagenet:Alargescalehierarchical image database[C]//Proceedings ofthe IEEEConference on Computer Vision and Pattern Recognition.USA:IEEE,2009:248-255.
[19] HEK,ZHANGX,RENS,etal.Deep residual learning for imagerecognition[C]//Proceedingsof the IEEE Conference onComputer Vision and Pattern Recognition.USA:IEEE, 2016:770-778.
[20] RADFORD A,METZL,CHINTALA S.Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL]. (2015-11-19)[2015-12-28]. https://arXivpreprintarXiv:151106434.
[21] LUOX,CHENW,LIANGZ,etal.Adversarialstyle discrepancyminimizationforunsupervised domainadaptation[J].NeuralNetworks,2023,157:216-225.
[22] KIMM,BYUNH.Learningtexture invariant representation for domain adaptation of semantic segmentation [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).USA:IEEE,2020:12972- 12981.
[23] YANGY, SOATTO S. Fda:Fourier domainadaptation for semantic segmentation[C]//Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE,2020:4085-4095.
[24] GONG R,DANELLJAN M, SUN H,et al. Prompting diffusion representations for cross-domain semantic segmentation[EB/OL]. (2023-07-05)[2023-09-14]. https://arXivpreprint arXiv: 230702138.
Semantic Segmentation Methods for Road Scenes Based on Multi-Level Domain Adaptation Network and Confidence Constraints
WAN Cailu, DU Wei (KeyLaboratoryofSmartManufacturing inEnergy Chemical Process,MinistryofEducation,East China Universityof Science and Technology, Shanghai 200237, China)
Abstract: Semantic segmentation aims to assign a class label to each pixel in an image and has a wide range of applications.Semantic Segmentation needs large numbers of high-quality labels,which requires a lot of manpower and materialresources.Furthermore,a semantic segmentation model trained on one domain cannot generalize well to other domains, which becomes a key problem in its practical applications. Unsupervised pixel-level intra-domain adaptation for semantic segmentation has been proven to be an effective method to address the problem. However,this method cannoteffectivelyexploit spatiallocation information and isadversely affected bynoisypseudo-labels.In this work, we propose a confidence-guided multi-level domain adaptation approach to solve the problem. Specifically, we propose a multi-level domain adaptation framework to reduce the diferences between pixels and spatial location information of imagessimultaneously.Moreover,to avoid that overfiting pseudo-labelsmay degrade the performance of the segmentation network, we construct aconfidence lossfunction to constrain the network training. And we propose a method of selecting pseudo-labels and achieving beter results in acquiring high-quality pseudo-labels than existing methods.We demonstrate the effectiveness ofour approach through synthetic-to-real adaptation experiments. Compared with the unsupervised pixel-level intra-domain adaptation for semantic segmentation,our method leads to 6.5% and 2.8% relative improvements in mean intersection-over-union on the tasks “GTA5 to Cityscapes” and “SYNTHIA to Cityscapes”,respectively.
Key words: road scene;semantic segmentation;unsupervised domain adaptation;self-training;adversarial learning
(責(zé)任編輯:王曉麗)