陳武陽 趙于前 陽春華 張 帆 余伶俐 陳白帆
環(huán)境感知作為自動(dòng)駕駛系統(tǒng)的重要環(huán)節(jié),對于車輛與外界環(huán)境的理解、交互起關(guān)鍵作用.然而,真實(shí)情景中的行車環(huán)境感知,需要解決復(fù)雜場景下感知精度不高、實(shí)時(shí)性不強(qiáng)等關(guān)鍵技術(shù)問題.行車環(huán)境感知主要包括目標(biāo)檢測與語義分割[1].語義分割在像素級別上理解所捕獲的場景,與目標(biāo)檢測相比,能夠產(chǎn)生更加豐富的感知信息,并且分割結(jié)果可以進(jìn)一步用來識別、檢測場景中的視覺要素,輔助行車環(huán)境感知系統(tǒng)進(jìn)行判斷.目前,相關(guān)的公共圖像分割數(shù)據(jù)集與語義分割網(wǎng)絡(luò)大多數(shù)都是基于可見光圖像.可見光圖像能夠記錄物體豐富的顏色和紋理特征,但在光照條件不足或光照異常時(shí)(如:暗黑中迎面的大燈照射),可見光圖像的質(zhì)量會(huì)大幅降低,導(dǎo)致網(wǎng)絡(luò)無法正確分割對象,進(jìn)而影響行車環(huán)境感知系統(tǒng)在這些環(huán)境下的準(zhǔn)確性.紅外熱成像相機(jī)與可見光相機(jī)不同,其通過探測物體熱量獲取紅外輻射信息,因此對光線與天氣的變化更加魯棒,缺點(diǎn)在于紅外熱圖像提供的信息量較少,視覺效果模糊.由此可見,若僅依靠單一傳感器,難以精確分割不同環(huán)境下的場景.本文主要研究行車環(huán)境下基于可見光與紅外熱圖像的復(fù)雜場景分割,嘗試?yán)蒙疃葘W(xué)習(xí)技術(shù)挖掘不同傳感器之間的互補(bǔ)信息提升分割性能,使車輛能夠充分感知其周圍環(huán)境.
場景分割作為行車環(huán)境感知的基本技術(shù)需求,一直以來受到研究人員的關(guān)注.目前,絕大部分研究集中在可見光圖像上,分割方法從初期的基于閾值、區(qū)域、邊緣等由人工設(shè)計(jì)特征的傳統(tǒng)算法,向基于深度學(xué)習(xí)的語義分割網(wǎng)絡(luò)過渡;研究內(nèi)容則根據(jù)可見光圖像分割的難點(diǎn)大致從增加分割精細(xì)度、增強(qiáng)網(wǎng)絡(luò)對多尺度的泛化能力和學(xué)習(xí)物體空間相關(guān)性三個(gè)方向提升網(wǎng)絡(luò)性能.如文獻(xiàn)[2]利用膨脹卷積模塊用來保留特征圖中的細(xì)節(jié)信息,預(yù)測更加準(zhǔn)確的結(jié)果;文獻(xiàn)[3]使用一個(gè)共享參數(shù)的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練不同尺度的圖像獲得多尺度特征;文獻(xiàn)[4]利用循環(huán)神經(jīng)網(wǎng)絡(luò)適用于序列數(shù)據(jù)編碼的特性,捕捉物體的空間關(guān)系等.雖然上述研究提高了分割準(zhǔn)確率并解決了某些技術(shù)難題,但大多數(shù)方法只注重提升精度而忽略了網(wǎng)絡(luò)大小和分割速度,導(dǎo)致所提出的方法難以在行車環(huán)境感知系統(tǒng)中落地.此外,基于可見光圖像的分割方法無論如何改進(jìn),其輸入數(shù)據(jù)來源決定了這些方法無法避免因光線不足、分割對象與背景顏色紋理一致等導(dǎo)致的分割誤差.
紅外熱成像相機(jī)由于其能夠全天時(shí)、全天候有效工作的特性,在車輛駕駛領(lǐng)域中的應(yīng)用越來越廣泛[5-6].例如,對紅外圖像中的行人進(jìn)行識別,能提供危險(xiǎn)區(qū)域、安全距離等重要信息,從而輔助行車系統(tǒng)更好地進(jìn)行路徑規(guī)劃,提高其可靠性與魯棒性.一般來說,面向紅外圖像的分割算法都是通過人工設(shè)計(jì)特征來描述前景與背景的差異,如基于閾值、模糊集和最短路徑等方法,但它們通常對場景變化和噪聲很敏感,無法適應(yīng)車輛所處的復(fù)雜環(huán)境.
近年來,有學(xué)者開始關(guān)注基于多種傳感器的感知方法[7],嘗試通過融合多模態(tài)數(shù)據(jù)充分挖掘信息,提高行車感知系統(tǒng)的性能[8].Ha 等[9]首次嘗試結(jié)合可見光與紅外熱圖像進(jìn)行場景分割,提出了基于卷積神經(jīng)網(wǎng)絡(luò)的MFNet 分割模型,并創(chuàng)建了一個(gè)可見光與紅外熱圖像的場景分割數(shù)據(jù)集.RTFNet[10]在MFNet 的基礎(chǔ)上引入殘差結(jié)構(gòu)[11]進(jìn)一步加強(qiáng)了信息的融合,提高了場景分割結(jié)果的準(zhǔn)確性,由于該網(wǎng)絡(luò)結(jié)構(gòu)過于龐大且參數(shù)數(shù)量顯著增加,與行車環(huán)境感知系統(tǒng)需要輕量級、實(shí)時(shí)性高的分割模型相違背,有待進(jìn)一步改進(jìn).在此之前,針對多傳感器感知的研究集中在應(yīng)用點(diǎn)云與可見光融合進(jìn)行目標(biāo)檢測[12-13],可見光與深度圖像進(jìn)行分割[14],以及針對多光譜圖像進(jìn)行目標(biāo)檢測[15-16]等.
本文提出一種基于可見光與紅外熱圖像的復(fù)雜場景分割模型DMSNet (Dual modal segmentation network),該模型通過構(gòu)建輕量級的雙路特征空間自適應(yīng)(Dual-path feature space adaptation,DPFSA)模塊,將紅外熱特征與可見光特征變換到同一空間下進(jìn)行融合,然后學(xué)習(xí)融合后的多模態(tài)特征,并提取這些特征中的低層細(xì)節(jié)與高層語義信息,從而實(shí)現(xiàn)對復(fù)雜場景的分割.實(shí)驗(yàn)結(jié)果表明,該模型可減少由于不同模態(tài)特征空間的差異帶來的融合誤差,即使在光線發(fā)生變化時(shí)也表現(xiàn)出較強(qiáng)的魯棒性,分割結(jié)果相對其他方法也有明顯改進(jìn).
本文所構(gòu)建的模型以復(fù)雜場景的可見光與紅外熱兩種模態(tài)圖像作為輸入,輸出該場景中不同類別物體的分割結(jié)果,我們因此將它命名為雙模分割網(wǎng)絡(luò)(Dual modal segmentation network,DMSNet),總體結(jié)構(gòu)如圖1 所示.

圖1 DMSNet 模型結(jié)構(gòu)圖Fig.1 The architecture of DMSNet
該網(wǎng)絡(luò)主要包括編碼器與解碼器.編碼器使用兩條路徑分別提取可見光與紅外熱圖像特征.兩條路徑除了輸入圖像分別為彩色圖像與灰度圖像外,其余部分結(jié)構(gòu)一致,均包含五組操作.每組內(nèi)包含一到三個(gè)3×3 卷積層,卷積層后緊接著批歸一化(Batch normalization)層[17],用來保持特征在網(wǎng)絡(luò)內(nèi)分布的相對穩(wěn)定,然后是激活層.每組之間采用步長為2 的最大池化層縮小特征圖空間尺寸,同時(shí)增加卷積核數(shù)目,由編碼器的淺層至深層逐步學(xué)習(xí)到圖像內(nèi)更加豐富的語義信息.由于DMSNet 是面向行車環(huán)境感知的輕量級網(wǎng)絡(luò),特征通道數(shù)目在編碼器最深層也未超過96,因此采用leaky-ReLU[18]作為網(wǎng)絡(luò)所有的激活函數(shù),這樣做能夠避免常用的ReLU[19]激活函數(shù)造成大量神經(jīng)元失活的問題.
解碼器負(fù)責(zé)融合兩條編碼路徑學(xué)習(xí)到的特征,依次通過五組操作逐步增加特征圖空間尺寸,并最終得到與輸入圖像尺寸一致的分割結(jié)果.解碼器每組內(nèi)的操作與編碼階段類似,包含卷積層、批歸一化層與激活函數(shù).每組之間以縮放因子為2 的最鄰近插值法進(jìn)行快速上采樣,以逐步恢復(fù)特征圖空間尺寸.進(jìn)行上采樣之前,需要融合來自可見光編碼器與紅外熱編碼器同一尺寸的特征圖.為了縮小不同模態(tài)特征空間存在的差異,本文提出雙路特征空間自適應(yīng)(Dual-path feature space adaptation,DPFSA)模塊,用來自動(dòng)轉(zhuǎn)換兩種模態(tài)特征至同一空間,并對它們進(jìn)行融合.該模塊的詳細(xì)設(shè)計(jì)將在第1.2 節(jié)中闡述.
文獻(xiàn)[13]指出,目前利用激光雷達(dá)數(shù)據(jù)與可見光圖像融合進(jìn)行道路檢測的方法,相對于僅基于可見光圖像的算法,正確率并沒有明顯提升.這種現(xiàn)象主要是由于兩種信息在數(shù)據(jù)空間與特征空間存在差異,進(jìn)而影響了二者的融合.數(shù)據(jù)空間的差異是指激光雷達(dá)數(shù)據(jù)位于三維真實(shí)空間,而可見光圖像定義在二維平面上.特征空間的差異來源于兩種數(shù)據(jù)模態(tài)不同,進(jìn)而導(dǎo)致網(wǎng)絡(luò)提取的特征也位于不同的空間,這些都會(huì)對特征融合造成不利影響.受該研究的啟發(fā),本文將文獻(xiàn)[13] 中的特征空間轉(zhuǎn)換(Feature space transformation,FST)模塊進(jìn)行改進(jìn)并應(yīng)用到DMSNet 中.
FST 模塊將激光雷達(dá)特征全部以逐點(diǎn)相加的方式融進(jìn)可見光特征,導(dǎo)致轉(zhuǎn)換后的特征與未轉(zhuǎn)換的特征發(fā)生混淆,一定程度給激光雷達(dá)信息增加了噪聲,并有可能對可見光特征帶來負(fù)面影響.針對這種不足,本文設(shè)計(jì)了DPFSA 模塊,用來執(zhí)行特征空間的轉(zhuǎn)換.該模塊結(jié)構(gòu)如圖2 所示,相比FST模塊,最大的改進(jìn)在于保留了不同模態(tài)數(shù)據(jù)的特征向量,且增加了預(yù)適應(yīng)步驟(Pre-adaptation)與逆轉(zhuǎn)換層(Reverse layer).其中,預(yù)適應(yīng)步驟是為了增加模型的非線性能力;逆轉(zhuǎn)換層的設(shè)計(jì)則借鑒了文獻(xiàn)[17]中的思想,對轉(zhuǎn)換完成的數(shù)據(jù)進(jìn)一步執(zhí)行卷積操作,從而避免數(shù)據(jù)分布嚴(yán)重改變,同時(shí)可增加模型的靈活性.這些改進(jìn)使得最終的場景分割模型在幾乎不增加網(wǎng)絡(luò)參數(shù)的情況下,性能有了很大的提升.

圖2 雙路特征空間自適應(yīng)模塊(DPFSA)結(jié)構(gòu)圖Fig.2 The architecture of dual-path feature space adaptation module (DPFSA)
該模塊主要包含兩個(gè)功能:針對特征空間的轉(zhuǎn)換,以及將攜帶不同信息的特征進(jìn)行融合.對于特征空間轉(zhuǎn)換,首先使用一個(gè)1×1 卷積層與leaky-ReLU 激活層對紅外熱特征進(jìn)行預(yù)適應(yīng),然后將預(yù)適應(yīng)后的紅外熱特征與可見光特征輸入到轉(zhuǎn)換網(wǎng)絡(luò)(TransNet)學(xué)習(xí)轉(zhuǎn)換參數(shù),最后經(jīng)過逆轉(zhuǎn)換層完成對紅外熱特征空間的轉(zhuǎn)換:

式中fadapt_ther為完成空間轉(zhuǎn)換后的紅外熱特征,Grev代表逆轉(zhuǎn)換層進(jìn)行的操作,逆轉(zhuǎn)換層與預(yù)適應(yīng)的結(jié)構(gòu)相同,僅包含單個(gè)1×1 卷積層與激活層,用來改變特征通道數(shù),同時(shí)增加模型的非線性;fpre_ther是預(yù)適應(yīng)后的紅外熱特征;α與β則代表Trans-Net 輸出的轉(zhuǎn)換參數(shù),它們分別由TransNet 內(nèi)的兩個(gè)轉(zhuǎn)換子網(wǎng)絡(luò)計(jì)算得到:

其中Hα和Hβ分別代表兩個(gè)轉(zhuǎn)換子網(wǎng)絡(luò)計(jì)算α和β的全卷積運(yùn)算,Wα和Wβ則是對應(yīng)的參數(shù),fvis表示可見光特征.
完成對特征空間的轉(zhuǎn)換后,接著進(jìn)行特征間的融合.經(jīng)過轉(zhuǎn)換后的紅外熱特征首先與可見光特征進(jìn)行拼接,再與前一組已經(jīng)融合的結(jié)果進(jìn)行逐點(diǎn)相加達(dá)到融合效果,得到雙路特征.DPFSA 模塊處理過程可表示為:

其中,n代表場景分割模型的第n組,V、T分別為可見光與紅外熱圖像,ffuse代表DPFSA 模塊輸出的雙路特征經(jīng)過解碼器某一組卷積運(yùn)算后的結(jié)果,W泛指該模塊所有參數(shù),Mfuse為逐點(diǎn)相加的融合過程.需要注意,在n=5 時(shí),DPFSA 模塊僅接收兩個(gè)輸入,處理過程變?yōu)榻Y(jié)合圖2 與式(4)可見,DPFSA 模塊不僅保留了兩種模態(tài)信息形成雙路特征,而且該雙路特征經(jīng)過處理后能夠繼續(xù)作為下一個(gè)DPFSA 模塊的輸入,這種方式最大程度地減少了信息的雜糅與損失,增加了對紅外熱圖像的利用率.
考慮到交叉熵?fù)p失在反向傳播中更易優(yōu)化,而Dice[20]損失善于處理數(shù)據(jù)集中的類別不平衡問題,本文構(gòu)建新的損失函數(shù)Lmix如下:

其中LCE表示交叉熵?fù)p失,LDice表示Dice 損失,K為分割類別總數(shù),G代表圖像對應(yīng)的分割標(biāo)簽,N為圖像像素總個(gè)數(shù),將圖像I中第k類像素點(diǎn)i的分割標(biāo)簽映射為獨(dú)熱(one-hot)編碼形式,映射任意數(shù)值到 [0,1] 范圍內(nèi),其計(jì)算公式如下:

本文所有實(shí)驗(yàn)均通過基于CUDA10.0和cuDNN7.6.0 的PyTorch1.2.0 框架實(shí)現(xiàn),使用搭載了Intel Xeon Bronze 3104 CPU (1.70 GHz)和NVIDIA GeForce RTX 2080 Ti (11 GB)硬件的Windows 10 電腦訓(xùn)練.模型初始學(xué)習(xí)速率設(shè)置為0.01,每經(jīng)過一輪迭代學(xué)習(xí)速率減少1 %,模型通過SGD 隨機(jī)梯度下降算法進(jìn)行迭代優(yōu)化,并使用動(dòng)量為0.9、權(quán)重衰減系數(shù)為0.0005 的策略避免模型過擬合.本節(jié)首先介紹實(shí)驗(yàn)使用的數(shù)據(jù)集與評價(jià)指標(biāo),然后通過消融實(shí)驗(yàn)驗(yàn)證DMSNet 中DPFSA 模塊與混合損失函數(shù)的有效性,并分析它們對模型產(chǎn)生的影響及可能原因,最后與其他分割模型進(jìn)行對比.
1)數(shù)據(jù)集
本文主要使用文獻(xiàn)[9]中公開的數(shù)據(jù)集(后面統(tǒng)稱為 “數(shù)據(jù)集A”),一共包含1 569 幅行車環(huán)境下的城市場景圖像,其中820 張拍攝于白天,749 張拍攝于夜晚.該數(shù)據(jù)集使用InfRec R500 紅外熱成像相機(jī)拍攝,該設(shè)備能夠同時(shí)獲取可見光與紅外熱圖像.數(shù)據(jù)集中一共有8 個(gè)類別被標(biāo)注,分別是汽車(Car)、行人(Person)、自行車(Bike)、路緣石(Curve)、車輛停止標(biāo)識(Car stop)、護(hù)欄(Guardrail)、路障(Color cone)和突出物(Bump),不屬于上述類別的物體均以未標(biāo)記(Unlabeled)處理.由于場景中只有少量類別被標(biāo)記,未標(biāo)記像素占據(jù)整體的93 %以上,而已被標(biāo)記的像素中,不同類別像素占比相差達(dá)到43 倍以上.因此,該數(shù)據(jù)集有較嚴(yán)重的類別不平衡問題.在實(shí)際訓(xùn)練中,本文采用了與文獻(xiàn)[9]相同的數(shù)據(jù)劃分策略,50 %的圖像用于訓(xùn)練,25 %用于驗(yàn)證,剩余的用作測試,所有圖像均被縮放至480×640 固定尺寸.
由于面向行車環(huán)境的可見光與紅外熱多模態(tài)圖像公開數(shù)據(jù)集稀缺,本文使用PST900 數(shù)據(jù)集[21](后面統(tǒng)稱為 “數(shù)據(jù)集B”)作為實(shí)驗(yàn)補(bǔ)充.該數(shù)據(jù)集面向機(jī)器人自主環(huán)境感知,共包含894 對720×1 280 大小的可見光與紅外熱圖像,具體有5 個(gè)類別:背景(Background)、滅火器(Fire-extinguisher)、背包(Backpack)、手鉆(Hand-drill)和幸存者(Survivor).數(shù)據(jù)劃分策略與數(shù)據(jù)集A 保持一致.
2)評價(jià)指標(biāo)
本文采用兩個(gè)指標(biāo)衡量分割結(jié)果的性能,分別為正確率(Acc)和交并比(IoU).兩個(gè)指標(biāo)在所有類別上的平均結(jié)果分別以mAcc、mIoU 指代,計(jì)算公式如下:

本文K在數(shù)據(jù)集A、B 上分別取為9和5,即包含了未被標(biāo)注的類別.Pij代表類別為i的像素被預(yù)測為類別j的數(shù)目.在mIoU 的計(jì)算中,由于未被標(biāo)注的像素占據(jù)絕大部分,不同分割模型計(jì)算得到的IoU 值非常接近,因此該類別未被納入考慮.
1) DPFSA 模塊分析為了驗(yàn)證DPFSA 模塊的有效性,現(xiàn)通過調(diào)整該模塊內(nèi)部結(jié)構(gòu)得到另外兩個(gè)模塊,并將它們和MFNet、FuseNet[14]進(jìn)行對比實(shí)驗(yàn).兩個(gè)調(diào)整后的模塊如圖3 所示,其中圖3 (a)是在DPFSA 基礎(chǔ)上去掉逆轉(zhuǎn)換層與預(yù)適應(yīng)步驟,為了表示方便,將之命名為DPFSA-1,該模塊的提出是為了證明對特征空間進(jìn)行轉(zhuǎn)換的思路是可行的;圖3 (b)是在DPFSA 基礎(chǔ)上去除逆轉(zhuǎn)換層(或者說在DPFSA-1的基礎(chǔ)上增加了預(yù)適應(yīng)步驟),將之命名為DPFSA-2,該模塊的提出是為了證明單純增加網(wǎng)絡(luò)參數(shù)或?qū)訑?shù)不一定能提升分割精度.

圖3 調(diào)整DPFSA 內(nèi)部結(jié)構(gòu)得到的另外兩個(gè)模塊Fig.3 The other two modules obtained by adjusting the internal structure of DPFSA
為了保證比較的公平性,排除損失函數(shù)對模型性能的影響,將MFNet 使用的交叉熵?fù)p失函數(shù)作為表1 中DMSNet 及其變種模型的損失函數(shù),并對白天與夜晚所有時(shí)間段內(nèi)的圖像進(jìn)行測試.由表1可知,使用DPFSA-1 模塊的分割結(jié)果優(yōu)于MFNet與FuseNet,表明不同模態(tài)特征空間的差異能夠通過這種方式縮小,對特征空間進(jìn)行轉(zhuǎn)換的思路可行;使用DPFSA-2 模塊的實(shí)驗(yàn)結(jié)果雖然提升了mAcc指標(biāo),但mIoU 指標(biāo)卻有所下降,表明單純通過增加網(wǎng)絡(luò)參數(shù)或?qū)訑?shù)并不能保證模型正確率的提升,更深的模型往往需要更多的訓(xùn)練數(shù)據(jù),且更難收斂.DPFSA 模塊相比于DPFSA-2 模塊,主要的不同在于將轉(zhuǎn)換后的特征進(jìn)一步輸入到逆轉(zhuǎn)換層,由表1可以看出這種方式顯著提升了模型性能,且相比于未改進(jìn)的DPFSA-1,參數(shù)量僅多出了0.18 MB,此外,模型參數(shù)量也只有FuseNet 的12.1 %.這也進(jìn)一步證明,模型性能的提升并非由于訓(xùn)練參數(shù)大量增多引起,而是DPFSA 模塊起了關(guān)鍵作用.

表1 不同模塊在數(shù)據(jù)集A 上的mAcc、mIoU值與參數(shù)量比較Table 1 Comparison of mAcc and mIoU values and parameter values of different modules on dataset A
2)損失函數(shù)分析
本文基于交叉熵(CE)與Dice 構(gòu)建損失函數(shù),為了證明該損失函數(shù)的優(yōu)越性,在DMSNet 上使用了四種不同的損失函數(shù)進(jìn)行訓(xùn)練.表2 列出了不同損失函數(shù)在數(shù)據(jù)集A 上各類別的Acc 結(jié)果與mAcc、mIoU 指標(biāo)值.其中,Focal 損失[22]的提出即為了解決樣本不均衡導(dǎo)致模型準(zhǔn)確率降低的問題,它通過調(diào)制系數(shù)(Modulating factor)減少易分類樣本的權(quán)重,從而使得模型在訓(xùn)練時(shí)更專注難分類的樣本.但從表2 可以發(fā)現(xiàn),Focal 損失在本文所使用的數(shù)據(jù)集上效果并不好,很大程度是由于該數(shù)據(jù)集中不同類別的像素占比相差懸殊,可達(dá)十幾個(gè)數(shù)量級.因此直接通過對難分類樣本學(xué)習(xí),微小的噪聲都將導(dǎo)致?lián)p失偏差嚴(yán)重,影響模型收斂.
單獨(dú)使用Dice 損失函數(shù)效果也較差,主要原因可能是Dice 損失的梯度形式類似于 2π(G)2/(p+π(G))2,在p與π(G) 均很小時(shí),該梯度會(huì)變得異常大,導(dǎo)致整個(gè)訓(xùn)練過程不穩(wěn)定.雖然交叉熵?fù)p失不關(guān)注類別不平衡問題,但其梯度更加簡單、平穩(wěn),并且能夠?qū)W習(xí)到數(shù)據(jù)中主要類別的分布,因此交叉熵?fù)p失相比Dice和Focal 損失更適用于本文數(shù)據(jù)集.
基于以上分析,為了讓模型能學(xué)習(xí)到高頻類別特征的同時(shí)也能兼顧低頻類別,本文使用了交叉熵與Dice 相結(jié)合的混合損失函數(shù).由表2 可知,本文提出的混合損失函數(shù)在mAcc和mIoU 指標(biāo)上均表現(xiàn)最優(yōu),可有效提升模型性能.這在很大程度是由于交叉熵?fù)p失在網(wǎng)絡(luò)訓(xùn)練前期起了主導(dǎo)作用,而Dice 損失作為輔助項(xiàng),進(jìn)一步優(yōu)化了在低頻類別上的分割準(zhǔn)確率.

表2 不同損失函數(shù)在數(shù)據(jù)集A 上的Acc 結(jié)果與mAcc、mIoU 值Table 2 Acc results and mAcc and mIoU values of different loss functions on dataset A
本節(jié)從準(zhǔn)確性和魯棒性角度將DMSNet 分別與SegNet、ENet、MFNet和FuseNet 的分割性能進(jìn)行對比分析.其中SegNet 與ENet 是針對可見光圖像的分割網(wǎng)絡(luò),之所以被選擇為比較對象,是因?yàn)檫@兩種網(wǎng)絡(luò)參數(shù)量適中,并且ENet 是專門針對嵌入式端的高速度分割網(wǎng)絡(luò).其余大多數(shù)網(wǎng)絡(luò)雖然在分割精度上表現(xiàn)更好,卻具有龐大的網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)量(如RTFNet,模型參數(shù)量為980.88 MB),需要的硬件與計(jì)算條件也要求更高,對于行車環(huán)境感知系統(tǒng)甚至可能無法承受.為了確保對比實(shí)驗(yàn)的公平性,分別使用兩種圖像訓(xùn)練并測試SegNet 與ENet.第一種是可見光圖像作為三通道輸入,用3ch 表示;第二種為結(jié)合了可見光與紅外熱信息的圖像,但由于SegNet 與ENet 本身不具備處理多模態(tài)數(shù)據(jù)的網(wǎng)絡(luò)結(jié)構(gòu),因此第二種直接由可見光圖像與紅外熱灰度圖像在色彩維度上拼接作為四通道輸入,用4ch 表示.
表3 展示了不同模型在數(shù)據(jù)集A 上各個(gè)類別的Acc 與IoU 評價(jià)結(jié)果,以及它們的平均值.可以看出,除了個(gè)別類在其他模型上的分割結(jié)果具有優(yōu)勢外,在絕大多數(shù)類別上DMSNet 都更勝一籌,且mAcc 與mIoU 指標(biāo)相對于MFNet 分別高出了7.2 %與5.4 %,相對于FuseNet 則各高出了8.8 %與6.5 %.

表3 不同模型在數(shù)據(jù)集A 上的Acc 與IoU 結(jié)果對比Table 3 Comparison of Acc and IoU results of different models on dataset A
此外,為了驗(yàn)證所提出模型在不同數(shù)據(jù)集上的適用性與魯棒性,表4 展示了各模型在數(shù)據(jù)集B 上的測試結(jié)果.不難發(fā)現(xiàn),文本提出的方法同樣具有較強(qiáng)的分割性能.

表4 不同模型在數(shù)據(jù)集B 上的Acc 與IoU 結(jié)果對比Table 4 Comparison of Acc and IoU results of different models on dataset B
為了深入探究模型是否合理利用了兩種模態(tài)信息,本文進(jìn)一步從時(shí)間角度比較不同模型對光照變化的魯棒性.表5 列出了在白天與黑夜不同光線條件下不同模型在數(shù)據(jù)集A 上的分割結(jié)果對比.可以看出,不經(jīng)過任何處理直接將可見光與紅外熱圖像拼接輸入網(wǎng)絡(luò),一定程度上影響了模型對于可見光數(shù)據(jù)的學(xué)習(xí),特別對于SegNet 而言,四通道輸入相比三通道輸入,在白天的數(shù)據(jù)集上mAcc和mIoU 有明顯下降.反觀本文提出的DMSNet,在任意時(shí)間段的分割性能均有明顯提高,這也進(jìn)一步說明DMSNet 高效利用了兩種模態(tài)數(shù)據(jù)的互補(bǔ)信息,對光照的變化表現(xiàn)出較強(qiáng)魯棒性.

表5 不同模型在數(shù)據(jù)集A 白天與黑夜環(huán)境下的mAcc 與mIoU 結(jié)果對比Table 5 Comparison of mAcc and mIoU results of different models on dataset A in daytime and nighttime
圖4 展示了DMSNet、FuseNet和MFNet 在數(shù)據(jù)集A 中5 組測試圖像上的分割結(jié)果,其中第一行是可見光圖像,第二行是紅外熱圖像,第三行為分割標(biāo)簽,前3 幅拍攝于白天,后2 幅拍攝于夜晚.第四、五、六行分別為FuseNet、MFNet和DMSNet 的分割結(jié)果.可以看出,相比于MFNet和FuseNet,本文提出的DMSNet 對物體類別的判斷更加準(zhǔn)確,如第一列中的路障與第四列中的自行車分割結(jié)果;對邊界細(xì)節(jié)的處理效果也更好,如圖中的行人;另外分割結(jié)果的噪聲也較少,如第三列和第五列中的汽車分割結(jié)果.

圖4 DMSNet、FuseNet和MFNet 在數(shù)據(jù)集A 上的分割結(jié)果對比Fig.4 Comparison of segmentation results of DMSNet,FuseNet and MFNet on dataset A
針對現(xiàn)有場景分割模型大多基于可見光圖像,無法適應(yīng)復(fù)雜環(huán)境變化,且模型參數(shù)量龐大,難以部署在行車環(huán)境感知系統(tǒng)中的問題,本文構(gòu)建了基于可見光與紅外熱圖像的雙模分割網(wǎng)絡(luò)DMSNet.從可見光與紅外熱圖像兩種模態(tài)特征空間存在差異的角度入手,提出了DPFSA 模塊.該模塊以十分輕量的操作對紅外熱圖像特征進(jìn)行轉(zhuǎn)換,縮小了兩種模態(tài)特征空間的距離,從而能夠在幾乎不增加模型參數(shù)的情況下,有效改進(jìn)模型性能.另外,使用本文提出的混合損失函數(shù)也可提升分割精度.不足之處在于,本文使用的數(shù)據(jù)集類別極其不平衡,甚至存在錯(cuò)誤標(biāo)記、對類別劃分標(biāo)準(zhǔn)不一致等情況,導(dǎo)致場景中出現(xiàn)頻率低的物體無法被準(zhǔn)確分割,因此,下一步的工作需要從數(shù)據(jù)增強(qiáng)、模型優(yōu)化等方面解決低頻類別分割難的問題.