張吉友,張榮芬,劉宇紅,袁文昊
(貴州大學 大數據與信息工程學院,貴州 貴陽 550025)
夜間場景語義分割作為計算機視覺的一項基本任務,在自動駕駛方面有著廣泛的應用[1]。由于天氣、光照等原因,自動駕駛面臨的比較嚴峻的問題是環境的多樣性。現有的大多數基于深度學習的語義分割網絡處理的都是RGB 圖像。在光照正常的情況下,RGB 圖像分辨率高,其顏色、紋理和細節信息豐富[2],圖像成像清晰且圖像內的各個物體邊緣分明,這有利于語義分割網絡學習圖像的顏色、紋理和細節等特征[3]。但是RGB 圖像容易受光照影響,在夜間場景下由于可見度和強曝光等問題,導致RGB 圖像提供的信息不能很好地被計算機利用[4]。因此,利用RGB 圖像訓練的語義分割網絡在夜間場景的極端環境下會產生分割不準確的問題[5]。
為了解決只利用RGB 圖像對某些極端環境下進行語義分割效果不好的問題,需要采用多模態圖像來進行圖像信息的融合從而利于網絡獲得更多的特征信息[6]。熱(Thermal)紅外圖像存在邊緣模糊、無顏色紋理信息等缺點,但是其成像原理是基于熱輻射,幾乎不受光照影響,即使在煙霧、強光等能見度較低等極端環境下也能獲得熱紅外圖像。這對于極端環境下的語義分割網絡顯得尤為重要。研究表明,RGB-Thermal(RGB-T)多模態圖像將RGB 圖像和熱紅外圖像組合,無論光照條件如何,其含有兩種模態圖像的特征信息,有利于語義分割模型從兩種模態中提取特征信息并進行特征級信息融合從而提升極端環境下的語義分割性能[7]。此外,隨著熱成像技術的發展和成熟,熱紅外圖像采集越來越容易。將熱成像相機生成的熱紅外圖像作為RGB圖像的信息補充,即使在極端天氣下,熱成像相機也能獲得熱紅外圖像作為RGB 圖像的補充信息源[7]。因此,結合熱紅外圖像特征訓練更加穩定的RGB-T 多模態語義分割網絡成為應對夜間場景下精準語義分割問題的主流方法。
近年來,語義分割算法備受研究者青睞。在單模態圖像分割領域,楊云等人將循環分割對抗網絡算法運用到醫療圖像分割領域對視網膜血管進行分割,獲得了很好的分割效果[8]。趙戰民等人在模糊C 均值框架基礎上設計新算法,即使圖像呈現出灰度分布不均衡的狀況,該算法模型也能快速有效地分割無損檢測圖像[9]。趙為平等人通過在DeepLabv3+編碼器中加入深度可分離卷積后融入改進的池化模塊同時改進其解碼器,有效降低了模型復雜度并提升了分割精度[10]。任莎莎等人在DeepLabv3+的編碼器和解碼器中增加了多級像素空間注意模塊、邊緣提取模塊和小目標提取模塊對熱紅外圖像進行語義分割,提高了邊緣相交區域像素和小目標物體的預測精度[11]。熊海濤等人[7]設計了一種包含多級上下文特征修正模塊和多級邊緣特征增強模塊的算法對熱紅外圖像進行分割,使得分割邊緣更清晰。在RGB-T 多模態語義分割領域,受到FuseNet[12]的兩個對稱編碼器和語義分割解碼器[13]的啟發,MFNet[14]運 用 兩 個 對 稱 編 碼 器 同 時 對RGB 和 熱紅外圖像做特征提取,再進行上采樣后進行語義分 割。RTFNet[15]運 用ResNet[16]提 取RGB 和 熱紅外圖像兩種模態的特征并進行融合,最后通過不同的兩種上采樣模塊不斷恢復分辨率和重構其特征。FuseSeg[17]利用DenseNet[18]作為編碼器的特征提取網絡,分別對RGB 圖像和熱紅外圖像兩種模態圖像進行特征提取后通過相加進行融合,而且在解碼器階段通過上采樣后將其與編碼器下采樣得到的相同大小的特征圖進行拼接。FEANet[19]在RTFNet[15]的 基 礎 上 加 入了FEAM注意力模塊,以互補的方式融合RGB 和熱紅外圖像信息。
雖然各種RGB-T 語義分割網絡在不同程度上都對夜間語義分割場景做出了一定貢獻,但也存在以下問題:(1)由于多層次特征提取和合并策略不考慮層次之間的差異,導致模態特征進行融合時會產生模態沖突;(2)如何同時利用好高級的語義信息和低級的細節信息是語義分割的一大難題。為了更好地提取兩種模態圖像的特征和充分利用好高級的語義信息和低級的細節信息,本文主要貢獻如下:
(1) 利用RGB 圖像和熱紅外圖像搭建了一種穩定的多模態雙編碼器-解碼器語義分割網絡,將RESNet-152 作為特征提取網絡,經過5 層提取后得到的特征圖包含高級的語義信息,分階段上采樣并拼接不同階段的語義特征圖可以兼顧細節信息和語義信息。
(2) 提出了一種輕量化的注意力模塊并將該注意力模塊添加到編碼器的各層中,將熱紅外編碼器提取到的特征圖和RGB 編碼器提取到的特征圖通過相加進行融合從而實現多模態信息的特征融合和互補特征提取。
(3) 在解碼器階段,在相應的每層解碼器中,通過上采樣從上一層解碼器中對特征圖進行上采樣,將得到的特征圖和編碼器提取到的相同大小的特征圖進行拼接融合,再通過兩層卷積對融合的特征圖進行特征提取,然后繼續進行上采樣,通過5 次上采樣后還原成為原圖像大小相同的特征圖。通過融合編碼器階段的特征圖和上采樣的特征圖,解碼層能利用多尺度信息更好地進行語義分割。
本文的總體架構包含兩個編碼器流和一個輸出解碼器流。編碼器流和解碼器流都包含5 個層(Layer 0-Layer 4)和(Upsampling1-Upsampling5)。為了從RGB 圖像和熱紅外圖像中充分挖掘信息線索,本文提出了一種輕量化注意力模塊,并將其有效添加至編碼器中,從而增強多層次特征以獲得更好的分割性能。
如圖1 所示,本文所提出的架構主要包括兩個結構一致的編碼器流和一個解碼器流,編碼器流用于從RGB 圖像和熱紅外圖像中進行特征提取和融合,解碼器流用于進行特征提取和逐漸恢復分辨率。
編碼器流的特征提取框架是ResNet-152,其結構可以大致分為5 個提取層(Layer 0-Layer 4),在每一層之后都加入了輕量化注意力模塊。在特征提取階段,熱紅外圖像編碼器流從單通道熱紅外圖像中提取相關特征,RGB 圖像編碼器流從三通道的RGB 圖像中進行特征提取。兩個編碼器流的各特征提取層將提取到的特征圖通過輕量化注意力模塊細化細節特征。在特征融合階段,各特征提取層中對應的RGB 特征圖和熱紅外特征圖通過元素求和聚合到RGB 編碼器流中。
解碼器流中主要包括3 個模塊:一個上采樣模塊,主要用于逐步還原圖像的分辨率;一個特征圖拼接模塊,主要用于拼接上采樣過后的特征圖和相應的編碼器層產生的特征圖;一個特征提取模塊,主要用于提取拼接后的特征圖的特征信息,將得到的特征圖用于上采樣。
隨著編碼器流的深度不斷加深,所提取到的特征為高級的語義特征,高級語義特征對于捕獲全局上下文起著重要作用,但也會丟失圖像細節特征。解碼器的上采樣運算是對高級語義特征圖進行上采樣,而其缺乏細節信息,輸出的預測邊界將會變得很模糊。所以為了提高輸出預測邊界圖的清晰度,引入輕量化的注意力模塊,使編碼器在下采樣時注重兩種模態的細節信息,在最終的輸出層輸出相對密集的輸出預測。此外,為了能同時兼顧高級的語義信息和低級的細節信息,通過拼接模塊將上采樣的特征圖和相應大小的編碼器階段的特征圖進行拼接后通過兩個卷積層進行特征提取,通過拼接的方式使得解碼器在不斷恢復分辨率時能兼顧語義信息和細節信息[2],有利于最后預測邊界圖的輸出,從而優化語義分割的分割結果。
在編碼器中,熱紅外圖像編碼器和RGB 編碼器結構幾乎相同,然而ResNet-152 是為了三通道的圖像而設計的,不適用于單通道的熱紅外圖像,于是將Layer 0 中的第一個卷積層中的通道數改為單通道以便適用于熱紅外圖像,該編碼器的其余結構與三通道的RGB 編碼器具有相同的結構。
在編碼器中熱紅外圖像編碼器只從熱紅外圖像中提取特征信息,而RGB 編碼器還需要提取將RGB 特征圖和熱紅外特征圖通過元素求和聚合到RGB 編碼器的相關特征。為了更有效地提取兩種不同模態的特征信息和減少參數,源于文獻[19]和文獻[20]的啟發,引入了輕量化注意力模塊并將其添加到兩個模態編碼器的Layer 0-Layer 4 的每個卷積層之后。
輕量化注意力模塊包括通道注意力和空間注意力運算,其運算過程如圖2 所示。通道注意力實現了一種不降維的局部跨通道交互策略,避免因通道維度減少而影響特征提取,而其中的局部跨通道交互的覆蓋范圍k由通道數C決定,兩者之間的關系可表達為[20]:

圖2 注意力模塊運算示意圖Fig.2 Schematic diagram of attention module operation
其中:|t|odd表示離t最近的偶數;γ和b為超參數,分別設為2 和1[20]。通道注意力通過局部跨通道關注卷積層提取到的特征,更加注重全局特征,而空間注意力則關注全局區域,注重細小的物體。兩種注意力結合在一起既能夠把握全局特征又能夠注意細節信息。
解碼器流中主要包括3個模塊:一個上采樣模塊、一個特征圖拼接模塊和一個特征提取模塊。上采樣模塊有兩個卷積塊,其運算示意圖如圖3所示,特征圖通過第一個卷積塊后,其分辨率和通道均無變化。在第二個卷積塊中,CONV1 將保持特征圖的分辨率不變但是通道數變為原來的1/2,TRANSCONV1 將特征圖的分辨率變為原來的2 倍但是保持通道數不變,TRANSCONV2將特征圖通道數減半且分辨率變為原來的2 倍。拼接模塊通過編程實現按通道進行拼接。特征提取模塊依次包含兩個卷積層、正則化層、激活層。解碼器中各模塊的詳細配置如表1 所示。

表1 解碼器中各模塊配置Tab.1 Each module configuration in the decoder

圖3 上采樣模塊中的兩個卷積塊運算示意圖Fig.3 Schematic diagram of two convolution block operations in the upsampling module
通過兩個編碼器的5 層提取后得到了RGB和熱紅外圖像進行相加融合后的最終特征圖S0,此時特征圖的大小為2 048×15×20。在解碼器中,Upsampling1 部分首先對S0通過上采樣模塊進行2 倍上采樣得到上采樣的特征圖S1,其通道數和分辨率與Layer 3 輸出的特征圖S2相同,大小為1 024×30×40。然后通過特征圖拼接模塊將S1和S2進行拼接融合。融合后的特征圖S3相比于S1和S2分辨率不變,但是通道數變為2 倍。隨后通過特征提取模塊對S3進行特征提取得到相應特征圖S4,其大小和通道數與S1和S2相同。通過Upsampling1 部分后,特征圖的大小為1 024×30×40,Upsampling 2~Upsampling 4 也 是 同 樣的運算方式。經過3 次相同的運算后,得到的特征圖的大小變為64×240×320,最后輸出層進行2 倍上采樣,同時將輸出通道變為9,隨后添加了一個softmax 層,得到分割結果的概率圖。通過不斷地拼接具有高級語義信息和低級細節信息的特征圖進行特征提取后,利用多尺度特征進行上采樣可以使最終的語義分割邊界圖更清晰,分割效果更好。
本文中所運用的數據集是MFNet[14]所發布的數據集,其使用INFEREC R500 攝像機拍攝城市街道場景,該數據集不僅包括RGB 圖像,還包括熱紅外圖像,比較適用于夜間場景下的語義分割,主要包含了8 個手動標記類別(汽車、行人、自行車、車道線、停車位、護欄、色錐、地面凸起物)和一個背景類共計9 類,其中820 幅拍攝于白天,749 幅拍攝于夜間,其RGB 圖像和熱紅外圖像的分辨率都是480×640。為了更好地訓練語義分割模型,訓練集由50%的白天圖像和夜間圖像組成,驗證集由25%的白天和夜間圖像組成,剩余的所有圖像用作測試集。
本文基于pytorch1.10.2 架構開展了所有的實驗,利用Python3.8 進行編程,所有程序在Ubuntu16.04 LTS 64-bit 系 統 上 運 行,CPU 為Intel(R) Core(TM) i7-7800X CPU@ 3.50 GHz,GPU 為單卡NVIDIA GeForce 3090Ti。Cuda版本為11.4,cuDNN 版本為8.2,顯卡內存為24 GB。
為了加快訓練速度,在實驗時使用了pytorch提供的ResNet-152 的預訓練權重來訓練本文所提出的模型。由于ResNet-152 的預訓練權重適用于三通道圖像,而熱紅外圖像是單通道數據,所以熱紅外編碼器的第一個卷積層沒有使用預訓練權重。編碼器的第一卷積層以及解碼器中的卷積層和轉置卷積層使用Xavier 方案初始化。在訓練中,選擇隨機梯度相加優化器(SGD)進行優化,動量和權重衰減分別設置為0.9 和0.005,初始學習率設為0.05,且采用指數衰減的方案來逐漸降低學習率,訓練epoch 設置為100。為了更好地訓練模型,利用翻轉操作進行了數據增強,同時在每一個epoch 開始之前將所有數據集隨機打亂。
訓練模型時,損失函數選用Diceloss[21]和Soft-CrossEntropyloss[22]進行加權作為損失函數[19],其損失函數可表示為:
Diceloss 損失函數可表示為:
其中:N表示圖片總像素點個數,pi表示像素點的預測值,gi表示像素點的真實標簽值。
SoftCrossEntropyloss 損失函數可表示為:
其中:n表示batchsize 的大小,在實驗中該數值為5;c表示分類的類別數;若像素點i被正確分類,則表示為1,否則其為0;表示像素點i的歸一化概率。
為了評價本文模型的好壞,引入了準確率(Accuracy,Acc)和交并比(Intersection over Union,IoU)兩個評價指標,其中Acc表示預測正確的像素點占總像素點的比例,IoU 表示每個類別的真實標簽與預測結果的交集。為了更直觀地反映模型的效果,通常會計算平均準確率(mean Accuracy,mAcc)和平均交并比(mean Intersection over Union,mIoU),其計算公式如式(5)、式(6)所示:
其中:nii表示預測正確的像素點個數,nij表示真實類別為i但是預測為j類的像素點,nji表示真實類別為j但是預測為i類的像素點,N表示類別數。
為了更直觀地反映出該模型的實驗結果,將本 文 提 出 的 網 絡 和FuseSeg[17]復現的MFNet[14]、FuseNet[12]、DepthAwareCNN[23]、RTFNet[15]進行了 對 比,同 時 對 比 了FuseSeg[17]和FEANet[19]等相對前沿模型的實驗結果,表2 是系列網絡在MFNet 測試集上的mAcc 和mIoU 的結果對比。由表2 可知,本文所提出的分割網絡在mAcc 和mIoU 兩個指標都取得了最好值,該網絡模型在停車位和地面凸起物檢測上的效果有一定的提升。對于色錐類別,其分割結果雖然略遜色于FEANet[19]網絡,但是效果也很好,其主要得益于注意力機制比較關注圖像中遠景的細小物體,證明了在特征提取網絡融入注意力機制的有效性。對于近景中汽車、行人兩類大尺度目標,得益于RGB 圖像和熱紅外圖像的融合,實驗中所有模型均取得了較好的分割效果。雖然注意力機制對于遠景的小物體效果比較好,但其也有局限性,對于近景的自行車類別,其外觀類似于聚簇結合體,分割效果相對于其他兩類大尺度物體略差。而FuseSeg[17]使 用 稠 密 連 接 的DenseNet161[18]作為特征提取網絡,對于自行車的分割效果相對于其他網絡模型比較好。對于車道線類別,由于其通常呈現白色,而熱紅外相機在夜晚對于白色物體成像略差,所以其總體分割結果相比其他類別物體相對較差。而對于護欄類別,各個網絡模型的分割效果都不是很好,其原因應該是測試集中缺少樣本所導致,因為在測試集的393 對圖像中,只有4 對圖片圖像出現了護欄這個類別。而且訓練集中該類物體在總的像素點中占比也很小,在特征提取過程中,經過多次卷積層提取導致了特征丟失從而影響分割結果。

表2 系列網絡模型在MFNet 測試集上的結果對比Tab.2 Comparison of results of serial network models on MFNet test set
為了進一步研究網絡模型對于不同場景下的分割效果,將MFNet 測試集的圖像拆分為白天圖像測試集和夜間圖像測試集,對比了幾種網絡模型分別在白天和夜間測試集上的實驗結果。由表3 可知,所有的網絡模型在夜間取得了相對好的分割結果,其原因是RGB 和熱紅外圖像之間存在模態沖突,白天場景的RGB 編碼器和熱紅外圖像編碼器都能從相應模態的圖像中提取到很好的特征,將其融合時,兩種模態數據之間會產生時間或空間的信息偏差。但是在夜間場景下,由于沒有豐富的RGB 信息,所提取到的特征圖沒有太多的顏色、紋理和細節信息,引入熱紅外圖像在很大程度上補充了RGB 圖像信息,進行信息融合時模態之間的偏差大幅減小,所以在夜間場景的語義分割效果更好[17,19]。

表3 系列模型晝夜測試集上的性能對比Tab.3 Performance comparison of a series of models on a day-night test set
分析圖4 可知,對于白天的圖像(前三列),無論任何一個網絡模型其分割效果都比較好。后四列的夜間圖像的分割效果得益于熱紅外圖像對于RGB 圖像的信息補充[24]。本文所提出的網絡對于近景的行人和遠景的行人,其分割結果和真實的標簽都非常接近,分割邊界比較清晰。并且,在第六列中只有本文提出的網絡對于行人背后的護欄進行了精準的分割,其余網絡都未對護欄進行分割。這主要是因為在語義分割特征提取網絡中引入注意力機制,使得網絡注重遠景細小物體。其次,拼接高維語義特征圖和低維細節特征圖利用多尺度特征信息進行特征提取,利于分割網絡輸出分割邊界圖。

圖4 部分網絡模型的分割結果可視化對比Fig.4 Visual comparison of segmentation results of some network models
為了驗證所提出的注意力模塊在編碼器中的作用,將注意力模塊從RGB 編碼器流和熱紅外編碼器中都移除,稱其為對照組A;將注意力模塊從熱紅外編碼器中移除,稱其為對照組B;將將注意力模塊從RGB 編碼器中移除,稱其為對照組C;同時設置了將解碼器中的拼接融合變為相加融合,稱其為對照組D;將編碼器中的相加融合用拼接融合取代,并通過一個1×1 卷積來改變通道數,稱其為對照組E。各個對照組的模塊設置以及實驗結果如表4 所示。

表4 對照組實驗配置詳情及結果Tab.4 Control group experimental configuration details and results
分析消融實驗結果可知,如果從編碼器中移除注意力機制,其mACC 和mIOU 都呈現了下降趨勢。對比對照組B 和對照組C 發現,在RGB 編碼器和熱紅外編碼器中分別移除注意力模塊,其mACC 和mIoU 都會呈現一定程度的下降,說明在該語義分割架構中,熱紅外圖像的特征和RGB圖像的特征確實對語義分割結果起到了至關重要的作用。而相比于對照組A,只要編碼器中任何一個模態有注意力機制存在,相對于編碼器中兩種模態都沒有注意力機制的對照組,其mIoU 都會有很大提升,說明注意力機制對語義分割的某些物體定位有著重要的作用。對比對照組D 和本文提出的網絡,說明將各層編碼器提取出具有細節信息的特征圖和具有高級語義信息的特征圖進行拼接后再進行多尺度特征提取能有效兼顧圖像的細節信息和語義信息。對比對照組E 和本文提出的網絡可知,通過相加融合更能夠整合兩種模態圖片的特征信息,所以其分割效果也會更好,選擇相加融合來整合兩種模態的特征信息相比于使用拼接融合更有效。
本文利用ResNet-152 作為編碼器的特征提取網絡分別對RGB 和熱紅外兩種模態的數據進行特征提取,旨在實現白天和夜間場景下的語義分割,以應對極端環境下語義分割的基本要求。通過在兩種模態中的各個特征提取層中添加本文提出的注意力機制后,通過相加將兩種模態數據的特征進行融合能有效融合多模態特征信息。在解碼器部分,一般的語義分割網絡通過不斷采用上采樣來恢復分辨率,而本文提出的模型試圖兼顧高維的語義特征和低維的細節特征,將兩種特征圖先進行拼接后進行特征提取再進行上采樣來還原分辨率。實驗結果表明,本文提出的網絡在相應的測試集上獲得了平均準確率為76.0%,平均交并比為55.7%,獲得了較好的語義分割性能。
本文提出的網絡針對語義分割的編碼器加入了注意力機制并對解碼器結構進行了優化。雖然取得了不錯的效果,但是如何進一步提升多模態RBG-T 圖像語義分割的效果還需要更深入的研究,如在語義分割網絡中融入邊緣檢測算法提取兩種模態的邊緣細節特征從而進一步優化分割邊界,以及結合多標簽監督對損失函數進行優化加速網絡訓練收斂等。