程 鑫 尹四清,2 崔建功 梁昊然
(1.中北大學(xué)軟件學(xué)院 太原 030051)(2.山西省軍民融合軟件工程技術(shù)研究中心 太原 030051)
(3.中北大學(xué)動態(tài)測試省部共建實(shí)驗(yàn)室 太原 030051)
圖像語義分割是將圖像中每個(gè)像素按照語義信息劃分類別的技術(shù),是計(jì)算機(jī)視覺中重要的課題之一。在無人駕駛,室內(nèi)導(dǎo)航,增強(qiáng)現(xiàn)實(shí)等領(lǐng)域具有廣泛的應(yīng)用場景。在室內(nèi)場景圖像語義分割領(lǐng)域中,由于室內(nèi)場景中顏色和紋理特征差別較小、光照較差、遮擋嚴(yán)重、存在著交錯(cuò)復(fù)雜的物體等具有挑戰(zhàn)性的問題。因此,RGB-D語義分割得到研究者們的廣泛關(guān)注。
在最近幾年,基于超像素分割的RGB-D圖像語義分割一直是關(guān)注的焦點(diǎn)[1~2],然而這種方法使用的是手工制作的特征輸入到分類器中來標(biāo)記每個(gè)區(qū)域。此方法步驟繁多,在計(jì)算和時(shí)間上都是密集的。基于上述的局限性以及深度學(xué)習(xí)的成功引入。尤其是基于FuseNet[3]的室內(nèi)場景語義分割方法,在網(wǎng)絡(luò)的編碼器分支中,對深度通道的中間特征圖與RGB通道的中間特征圖進(jìn)行元素求和。在編碼器-解碼器中使用不同策略的融合方式,例如早期融合[4],后期融合[5],將RGB圖和深度幾何信息圖進(jìn)行融合后作為輸入。深度網(wǎng)絡(luò)模型有助于提取低、中、高級特征。這些方法通常使用的是監(jiān)督機(jī)制,需要大量的標(biāo)注數(shù)據(jù),才能正確分割。
在最近的五年中,生成式對抗網(wǎng)絡(luò)在圖像合成和圖像分割的方面效果顯著。隨著技術(shù)的不斷更新,已經(jīng)有研究者提出了使用對抗網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)方法來提高圖像語義分割的分割精度[6~7]。然而就我們統(tǒng)計(jì)所知,以前沒有任何研究使用生成式對抗網(wǎng)絡(luò)和半監(jiān)督學(xué)習(xí)機(jī)制來研究室內(nèi)場景語義分割。
在這項(xiàng)研究中,我們提出了一種基于生成式對抗網(wǎng)絡(luò)的半監(jiān)督語義分割方法,該方法使用一定數(shù)量的標(biāo)簽數(shù)據(jù)和一定數(shù)量的無標(biāo)簽數(shù)據(jù)。我們還提出了新的損失函數(shù),是基于距離變換和逐像素交叉熵的損失項(xiàng)[8],來改善有監(jiān)督階段的分割結(jié)果。該損失函數(shù)用于對抗式生成網(wǎng)絡(luò)的預(yù)訓(xùn)練分割網(wǎng)絡(luò)中,在訓(xùn)練過程中分割網(wǎng)絡(luò)充當(dāng)生成網(wǎng)絡(luò),鑒別網(wǎng)絡(luò)通過生成置信圖來幫助分割網(wǎng)絡(luò)產(chǎn)生更好的分割效果。并且我們采用稀疏融合的思想,在分割網(wǎng)絡(luò)中融入深度幾何信息分支,來降低類感染。
將生成對抗網(wǎng)絡(luò)首次應(yīng)用在圖像語義分割是在2016年[9],訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分割,在網(wǎng)絡(luò)里充當(dāng)生成器,鑒別器來判斷分割結(jié)果是來自生成器還是來自真實(shí)的標(biāo)簽,并證明了這種對抗性方法可以減少訓(xùn)練中的過度適應(yīng)。在2018年,W.C.Hung等[10]研究出一個(gè)新的鑒別器,利用圖像的分辨率判斷圖像的真假性,為了減少訓(xùn)練時(shí)需要的標(biāo)簽數(shù)據(jù)量,引入了半監(jiān)督機(jī)制;文獻(xiàn)[11]提出了一種基于GAN的半監(jiān)督學(xué)習(xí)模型,他們的創(chuàng)新點(diǎn)在于生成了額外的訓(xùn)練數(shù)據(jù)和一個(gè)鑒別器,鑒別器在類成員之間和生成器圖像中進(jìn)行圖像分類,此方法生成的圖像仍然建立在像素強(qiáng)度上。文獻(xiàn)[12]中提到像素強(qiáng)度并不總是與對象結(jié)構(gòu)的特性相關(guān)聯(lián)。綜上所述,基于生成式對抗網(wǎng)絡(luò)的半監(jiān)督方法研究已經(jīng)逐步拓展。
由Caner Hazirbas等[3]提出了兩種融合策略,稀疏融合策略和密集融合策略。通過研究者的實(shí)驗(yàn)證明提出的兩個(gè)融合策略均優(yōu)于當(dāng)時(shí)已有的大多數(shù)方法,由于本文采用DeepLabv3網(wǎng)絡(luò)作為分割網(wǎng)絡(luò),其網(wǎng)絡(luò)屬于深度網(wǎng)絡(luò)結(jié)構(gòu),為了提高運(yùn)算速度和減少數(shù)據(jù)量,所以本文引用稀疏融合的方法策略。
在FuseNet網(wǎng)絡(luò)中,稱卷積層(Convolutional layer,Conv)和激活函數(shù)(ReLu),批標(biāo)準(zhǔn)化規(guī)則(Batch Normalization,BN)的組合為CBR塊。并在CBR塊與池化層(Pooling)之間插入融合層(Fu?sion)稱之為稀疏融合。如圖1所示。通過融合,將深度幾何特征圖不連續(xù)的加入RGB的分支中,以增強(qiáng)RGB特征圖。經(jīng)過研究者們的證明,顏色域和幾何域中的特征是互補(bǔ)的,可有效地通過其結(jié)構(gòu)來區(qū)分無紋理區(qū)域,通過其顏色區(qū)分無結(jié)構(gòu)區(qū)域。

圖1 稀疏融合框架圖
在本文室內(nèi)場景分割算法中包括語義分割器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò),其中分割器是基于DeepLabv3網(wǎng)絡(luò)的兩個(gè)分支網(wǎng)絡(luò),分別輸入RGB圖像和深度幾何信息,隨著卷積層不斷提取特征,將提取的幾何特征信息融入到RGB特征中,最后結(jié)合使用不同學(xué)習(xí)率的多尺度空洞卷積來擴(kuò)大感受野;鑒別器是基于全卷積網(wǎng)絡(luò),相比傳統(tǒng)GAN網(wǎng)絡(luò),本文的鑒別器輸入圖片尺寸不受限制。
首先向兩個(gè)分支的分割網(wǎng)絡(luò)分別輸入一組尺寸為H×W×3的RGB圖和深度幾何圖,鑒別網(wǎng)絡(luò)接收從分割網(wǎng)絡(luò)或真值標(biāo)簽獲得類別概率圖作為輸入,輸出概率圖的尺寸大小為H×W×1。在訓(xùn)練期間,帶標(biāo)簽和無標(biāo)簽的數(shù)據(jù)都在半監(jiān)督設(shè)置下使用,具有不同的損失函數(shù)。當(dāng)使用帶標(biāo)簽的數(shù)據(jù)時(shí),訓(xùn)練由帶有真值標(biāo)簽的距離圖損失項(xiàng)和對抗性損失來監(jiān)督;對于未標(biāo)記的數(shù)據(jù),從分割網(wǎng)絡(luò)中得到分割預(yù)測后,通過分割預(yù)測來計(jì)算置信圖,該置信圖用作一個(gè)監(jiān)督信號來訓(xùn)練具有掩膜交叉損失。其中置信度表示分割的質(zhì)量,所以置信圖有助于訓(xùn)練期間可信區(qū)域的位置。
本文所述網(wǎng)絡(luò)總結(jié)構(gòu)圖如圖2所示,在訓(xùn)練過程中使用三個(gè)損失函數(shù)對分割網(wǎng)絡(luò)進(jìn)行優(yōu)化:距離圖損失懲罰項(xiàng)Lpm(距離圖是從真值和預(yù)測圖之間的距離,并從ground truth mask中得到),對抗損失Ladv來愚弄鑒別器;半監(jiān)督損失Lsemi是基于鑒別器網(wǎng)絡(luò)輸出的置信圖的損失。其中利用鑒別器損失LD訓(xùn)練鑒別器網(wǎng)絡(luò)。分割網(wǎng)絡(luò)與鑒別網(wǎng)絡(luò)每層參數(shù)如表1和表2所示。

表1 分割網(wǎng)絡(luò)每層參數(shù)

表2 鑒別網(wǎng)絡(luò)每層參數(shù)

圖2 基于GAN的總體結(jié)構(gòu)
傳統(tǒng)的室內(nèi)場景中通過目標(biāo)的顏色和紋理特性來識別,從分割效果上來看,相同紋理或相同顏色的目標(biāo)出現(xiàn)邊界感染,文獻(xiàn)[13]中,研究者通過多次實(shí)驗(yàn)觀察到,深度圖像中存在著對象大量的幾何信息,利用這些幾何信息對具有相似紋理,顏色,特征,位置進(jìn)行語義分割精度有了很大的提高。
結(jié)合上面問題,本文中受到稀疏融合思想的啟發(fā),在分割網(wǎng)絡(luò)中,將給出兩個(gè)分支,同時(shí)提取RGB圖片特征和幾何信息特征,并分別在四個(gè)殘差塊的最后一個(gè)CBL塊(卷積層(Conv)、批處理規(guī)范化(BN)、帶泄露修正線性單元(Leaky-ReLU))后插入深度信息的淺層特征,給出block1中結(jié)構(gòu),如圖3所示。其余三個(gè)殘差塊與此結(jié)構(gòu)相同。將在空間金字塔池化ASPP(Atrous Spatial Pyramid Pooling)后加入CBL塊,塊后也同樣融入深度信息特征到RGB通道。以這種方式將深度圖像上得到的特征映射不連續(xù)的加入到RGB分支中,來增強(qiáng)RGB的特征映射。由于顏色特征會被深度特征覆蓋,所以加入BN層來減少內(nèi)部變量的移位來解決這個(gè)問題。將其融合后,在基礎(chǔ)網(wǎng)絡(luò)的最后一層加入dropout層來進(jìn)一步提高性能。最后,我們利用上采樣層和softmax函數(shù)來匹配輸入圖像的大小。
本文中使用的鑒別器網(wǎng)絡(luò)是受到全卷積網(wǎng)絡(luò)和文獻(xiàn)[14]中鑒別器的結(jié)構(gòu)啟示。由5個(gè)卷積層組成,其中kernel size=4,filter=(64,128,256,512,1)。stride1,2,3,4=2,stride5=1(stride表示第i層卷積層的步數(shù),i=1,2,3,4,5)。并在每層后應(yīng)用Leaky-ReLu激活函數(shù)。最后增加一層上采樣層,將圖像恢復(fù)原尺寸大小。

圖3 殘差塊1中稀疏融合結(jié)構(gòu)圖
輸入給定大小的圖像Xn:H×W×3,Yn為真值標(biāo)簽圖。分割網(wǎng)絡(luò)表示為S(?),圖像Xn經(jīng)過分割網(wǎng)絡(luò)后的輸出表示為S(Xn):H×W×C,這里C為類別數(shù),由于本文中室內(nèi)場景分為14類,所以在這里C取值為14。鑒別器網(wǎng)絡(luò)表示為D(?),它輸入尺寸為H×W×14的分類概率圖,輸出尺寸為H×W×1的可信度區(qū)域圖。
3.4.1 鑒別器網(wǎng)絡(luò)
在訓(xùn)練鑒別器網(wǎng)絡(luò)時(shí),只使用帶有標(biāo)記的數(shù)據(jù)。鑒別器網(wǎng)絡(luò)輸出兩個(gè)結(jié)果,判斷是否來自于真值。鑒別網(wǎng)絡(luò)損失定義如下:

式(1)中:D(Xn)(h,w)表示輸出Xn在位置(h,w)處的可信度區(qū)域圖;D(Yn)(h,w)表示輸出Yn在位置(h,w)處的可信度區(qū)域圖;當(dāng)p=0時(shí),說明結(jié)果來自于分割網(wǎng)絡(luò)輸出的預(yù)測圖像;當(dāng)p=1時(shí),說明結(jié)果來自于熱編碼后的真值標(biāo)簽圖。
3.4.2 分割器網(wǎng)絡(luò)
在訓(xùn)練分割器網(wǎng)絡(luò)時(shí),采用多項(xiàng)損失和約束分割網(wǎng)絡(luò),并使其最小化進(jìn)行調(diào)優(yōu)。分割網(wǎng)絡(luò)損失函數(shù)如下:

式(2)中:Lpm為距離圖損失懲罰項(xiàng);Lsemi為基于鑒別器網(wǎng)絡(luò)輸出的置信圖的損失;Ladv為對抗損失;超參數(shù)λadv和λsemi是為了調(diào)優(yōu)分割網(wǎng)絡(luò)交叉熵的重要因子。由于對抗性損失為了接近地面真值而過度校正預(yù)測值,交叉熵?fù)p失逐步減小,會選擇一個(gè)比標(biāo)記數(shù)據(jù)的λadv小的數(shù)值,對于我們所提出的方法中的超參數(shù)。λadv設(shè)置為0.01,λsemi設(shè)置為0.1。
距離圖損失懲罰項(xiàng)(Distance map loss penalty term),引入此損失項(xiàng)是為了提高RGB圖像中對象的分割邊界的精度。利用基于真值距離變換的損失函數(shù)來懲罰過度分割和稍欠分割。距離變換允許插值每個(gè)像素之間的2D距離到地面真值分割。其定義為

式(3)中:Lpm為距離圖損失懲罰項(xiàng),表示預(yù)測標(biāo)簽和真值標(biāo)簽之間的像素交叉熵;N=H×W;y表示真值,y表示預(yù)測標(biāo)簽;y在坐標(biāo)位置為(h,w)處的像素值為y(h,w);y在坐標(biāo)位置為(h,w)處的像素值為y(h,w)。C表示類別數(shù)目;⊙ 表示哈達(dá)瑪積;?表示距離圖懲罰項(xiàng)。為了計(jì)算?,首先計(jì)算真值的倒數(shù)的距離變換,然后將其反轉(zhuǎn)促使像素更接近邊界,變量γ控制與分類對象邊界的擬合。在這項(xiàng)研究中,將γ設(shè)置為20。然后計(jì)算距離變換的真值,得到分類對象的距離圖。
通過鑒別網(wǎng)絡(luò)與分割網(wǎng)絡(luò)來進(jìn)行對抗學(xué)習(xí),則得到對抗損失,其定義為

式(4)中:D(S(Xn))(h,w)表示由分割網(wǎng)絡(luò)輸出結(jié)果S(Xn)在位置(h,w)處的可信度區(qū)域圖。對抗性損失用于訓(xùn)練分割網(wǎng)絡(luò),使分割預(yù)測結(jié)果更加接近真值,來欺騙鑒別器。
使用未標(biāo)記的數(shù)據(jù)訓(xùn)練時(shí),半監(jiān)督環(huán)境下進(jìn)行對抗性訓(xùn)練,由于此時(shí)沒有標(biāo)簽數(shù)據(jù),則不使用Lpm,但是對抗性損失仍然適用,因?yàn)樗恍枰b別器D(?)。應(yīng)該注意的是,鑒別器網(wǎng)絡(luò)已經(jīng)被訓(xùn)練過了,此時(shí)可以產(chǎn)生置信圖D(S(Xn)),用來描述與真值分布足夠接近的區(qū)域。其定義為

式(5)中:Tsemi是置信圖上的閾值,以突出可信區(qū)域;當(dāng)D(S(Xn))(h,w)>Tsemi時(shí),I(x)=1,否者I(x)=0。在本文中將Tsemi設(shè)置為0.2,低于此閾值時(shí),產(chǎn)生的可信度區(qū)域小,無法在半監(jiān)督的環(huán)境下正確改進(jìn)分割。
NYU-DepthV2室內(nèi)場景RGB-D數(shù)據(jù)集[15],該數(shù)據(jù)集包含646個(gè)不同場景和26種不同場景類型的圖。其中包含有1449個(gè)RGB和深度圖像,這些圖像被分成795個(gè)訓(xùn)練圖像和654個(gè)測試圖像,分辨率為640×480。Gupta S等[16]將這4個(gè)類標(biāo)簽(ground,permanent structures,furniture,props)映射到40個(gè)類標(biāo)簽。本文中是將4分類標(biāo)簽映射到14個(gè)結(jié)構(gòu)化類標(biāo)簽進(jìn)行實(shí)驗(yàn)。語義類別為Bed,Books,Ceiling,Chair,F(xiàn)loor,F(xiàn)urniture,Objects,Pic?ture,Sofa,Table,Tv,Wall,Window,uknw。
實(shí)驗(yàn)方法是采用Pytorch框架實(shí)現(xiàn)的,采用的Pytorch的版本為0.4.1,CUDA9.0,GTX1080ti。選用的優(yōu)化分割網(wǎng)絡(luò)參數(shù)的方法為mini-batch梯度下降算法,輸入圖像的批次batch_size設(shè)為2,設(shè)置學(xué)習(xí)率為0.0007,由于過擬合現(xiàn)象,我們選用權(quán)重衰減率設(shè)為0.0005。選用優(yōu)化鑒別網(wǎng)絡(luò)的方法是使用Adam優(yōu)化器,設(shè)置學(xué)習(xí)率為0.001。最大迭代次數(shù)為20K。
像素精度也稱為全局精度,是真實(shí)分類預(yù)測概率。定義為

平均像素精度表示每個(gè)類別的精準(zhǔn)度平均值,也稱為標(biāo)準(zhǔn)化混淆矩陣的平均值。定義為

對于沒有“void”或“background”標(biāo)簽或者少量像素屬于這些類的數(shù)據(jù)集,這還是一個(gè)不錯(cuò)的評價(jià)標(biāo)準(zhǔn)。
聯(lián)合交并比是預(yù)測值和真值的交集在他們的并集上的平均值,定義為

在本文中有三項(xiàng)超參數(shù),其中是λadv和λsemi用于對多項(xiàng)任務(wù)學(xué)習(xí)的平衡,Tsemi用于衡量半監(jiān)督學(xué)習(xí)的敏感度。通過實(shí)驗(yàn)對比,在表3中列舉出超參數(shù)的實(shí)驗(yàn)數(shù)據(jù),以聯(lián)合交并比最優(yōu)供算法選擇。實(shí)驗(yàn)時(shí)使用1/8的數(shù)據(jù)量。首先設(shè)置相同λsemi條件下,對比不同的λadv,可以看到當(dāng)λadv=0.01時(shí),IoU的值最高。接下來驗(yàn)證在λadv=0.01時(shí),對Tsemi和λsemi的不同取值進(jìn)行對比,得到當(dāng)Tsemi=0.2,λsemi=0.1時(shí),得到最佳的IoU數(shù)值。

表3 超參數(shù)分析表
為了有效評估本文算法的良好特性,通過與基于CNN的FuseNet網(wǎng)絡(luò)、文獻(xiàn)[17]和本文所提出的語義分割方法進(jìn)行結(jié)果對比,采用NYU-DepthV2的驗(yàn)證集來驗(yàn)證實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果如圖4所示。

圖4 NYUDepth V2數(shù)據(jù)集上的語義分割結(jié)果(迭代次數(shù)20K)
圖4(g)與圖4(d)、(e)相比,在視覺效果上逐步有了明顯的提升,是由于引入幾何深度信息以及基于分割鑒別網(wǎng)絡(luò)的對抗性,使得性能有很大的提升。圖4(f)是使用本文方法沒有加入深度信息的純RGB圖語義分割,相比于帶有標(biāo)簽圖4(c)中,床頭燈周邊區(qū)域光照強(qiáng),亮燈部分的輪廓和紋理信息丟失嚴(yán)重,提供了弱邊界信息;而加入深度幾何信息后,可以為場景中提供更多的語義標(biāo)簽上下文信息。綜上比較看來,在文本框架結(jié)構(gòu)中融合幾何深度信息的半監(jiān)督技術(shù),可以帶來更具有魯棒性、判別力強(qiáng)的上下文約束,有更好的視覺效果。
本文網(wǎng)絡(luò)在14分類映射的NYUDepth V2數(shù)據(jù)集上做20K次迭代次數(shù)的實(shí)驗(yàn)結(jié)果,并與FuseNet網(wǎng)絡(luò)方法、Multiscale+depth Convet方法[19]以及其他方法進(jìn)行對比,結(jié)果如表4所示。通過對比發(fā)現(xiàn)本文提出的網(wǎng)絡(luò)模型比FuseNet的IoU提高了3.52%MPixelacc提高了5.25%。與文獻(xiàn)[18]的方法相比,Pixelacc提高了1.95%。與文獻(xiàn)[19]中提出的融合超像素MRF的方法相比,MPixelacc有了明顯的提高。實(shí)驗(yàn)證明本文提出的模型對語義分割具有良好的魯棒性。在本文中只復(fù)現(xiàn)了基于CNN的FuseNet網(wǎng)絡(luò),把原來作者的數(shù)據(jù)集更換為本次使用的數(shù)據(jù)集,其原理沒有發(fā)生改變,并且輸入的批次以及迭代次數(shù)和顯卡運(yùn)算有關(guān),復(fù)現(xiàn)中最好的結(jié)果是36.61%的IoU,比FuseNet中的37.76%的IoU低。

表4 算法比較實(shí)驗(yàn)數(shù)據(jù)表
本文提出了一種基于GAN網(wǎng)絡(luò)并融合深度幾何信息的半監(jiān)督學(xué)習(xí)方法。這種方法有利于加強(qiáng)對象邊界信息內(nèi)容。我們基于距離變換的新?lián)p失函數(shù)在訓(xùn)練階段懲罰了錯(cuò)誤的預(yù)測,并幫助分割網(wǎng)絡(luò)在半監(jiān)督學(xué)習(xí)的階段對未標(biāo)注的圖像進(jìn)行更精確的分割。通過實(shí)驗(yàn)表明,使用有限數(shù)量的注釋數(shù)據(jù),可以獲得準(zhǔn)確的室內(nèi)對象分割。但是,該模型非常依賴圖像質(zhì)量分布。為了進(jìn)行有效訓(xùn)練,它需要在訓(xùn)練集中充分地平衡好標(biāo)簽圖像和不同圖像的質(zhì)量,才能準(zhǔn)確預(yù)測圖像的語義分割。下一步我們將這項(xiàng)工作擴(kuò)展到三維圖形語義分割,將半監(jiān)督的技術(shù)逐步擴(kuò)展到弱監(jiān)督,利用少量標(biāo)簽圖來做訓(xùn)練。