朱 浩,谷小婧,藍 鑫,顧幸生
(華東理工大學信息科學與工程學院,上海 200237)
語義分割是計算機視覺領域的一個熱點研究方向,已廣泛應用于機器人,醫學以及自動駕駛等領域[1-5]。開發可靠的自動駕駛應用是一個具有挑戰性的任務,因為無人車輛需要對周圍環境進行感知、預測,然后計劃并進行決策。僅利用可見光圖像進行語義分割無法確保自動駕駛系統的魯棒性,因為可見光圖像的成像會受到周圍環境的影響,例如大霧等能見度低的場景、夜間等光照亮度低的場景或強曝光的光照度過高的場景。因此,結合多模態的信息來提升分割的魯棒性逐漸受到人們的關注[6-8]。
近年來,部分研究者引入紅外圖像以彌補僅使用可見光圖像造成的缺陷??梢姽獾牟ㄩL范圍在0.4~0.76 μm之間而紅外線的波長范圍在0.1~100 μm之間,補充了絕大部分可見光之外的信息,并且在光照條件較差的情況下,可見光捕捉到的信息將會很少,而紅外圖像根據高于絕對零度的目標發射的熱輻射強度成像,在各種不同的光照條件下都能提供較完整的信息,加入紅外圖像作為可見光圖像的補充可以增加在各種光照干擾條件下輸入信息的完整性。因此,基于可見光-紅外雙波段圖像實現語義分割有望提高自動駕駛系統的魯棒性。
然而,更多模態意味著更多的信息[4],這其中既有互補的信息也有冗余的信息,將什么信息進行融合,何時進行融合,以及如何進行融合是目前RGB-IR雙波段語義分割問題面臨的挑戰。根據何時融合,可以把當前工作的網絡結構分為三類:解碼端融合,編碼端融合,以及編碼-解碼器端融合。解碼端融合的工作包括:Ha等[9]提出的MFNet,網絡在下采樣的過程中用跳躍連接融合了兩個模態的特征,并采用具有空洞卷積的mini-inception模塊構建獨立的編碼器來處理可見光和紅外圖像,隨后在解碼器部分進行特征融合,由于未采用預訓練模型,雖然速度具有優勢,但是精度較低。Lyu等[10]的FuNNet在解碼過程中融合了兩個波段的信息并使用分組卷積,減少了模型的參數量。Liu[11]等提出的PSTNet引入全局語義信息來增強分割效果。編碼端融合的工作包括:Sun等[12]提出的RTFNet使用預訓練的ResNet[13]作為編碼器。Zhou[14]提出的MFFENet使用DenseNet[15]來更好地提升模型精度。Xu[16]提出的AFNet在編碼器的底部對兩個波段的特征圖進行融合,大大減少了模型的參數量。編碼端-解碼端融合的工作包括:Sun[17]提出的FuseSeg在編碼器中將兩個波段的特征圖相加,并且將對應的特征圖和解碼端的特征圖進行融合,使得下采樣的信息不被丟失。
本文提出了一種基于多尺度輪廓增強的RGB-IR雙波段圖像語義分割算法。該算法首先在編碼器之間通過各個尺度的融合特征預測不同尺度的目標輪廓,再利用多尺度輪廓信息來逐步增強特征圖的輪廓信息。在融合了多階段多尺度特征圖的信息之后,我們通過位置注意力和通道注意力來獲得更有價值的像素和通道并對特征進行增強。在公開數據庫上取得了57.2的最高Miou,在自建數據庫上也取得了最好的分割精度。
語義分割模型有多種形式[9,12-14,17-18]。由于含有紋理信息的低層特征在語義分割中起著至關重要的作用,本文考慮在整個下采樣過程中提取不同尺度的語義輪廓信息并進行監督。通過將更精確的語義輪廓信息有效地和特征圖進行融合,提高物體輪廓的精確度。整體架構如圖1所示。

圖1 模型整體架構Fig.1 The architecture of the model
本文模型使用兩個獨立的DenseNet121作為特征提取器,DenseNet[15]網絡中的每一層都直接與其前面的層相連,實現特征的重復利用,同時每一層都非常窄即只學習非常少的特征圖以達到降低冗余性的目的,DenseNet相比于Resnet達到相同精度參數量更小[17]??紤]到RGB圖像的特征比IR圖像的特征更豐富,因此我們采用不對稱網絡結構,一條支路單獨提取RGB波段的特征,另一條支路提取IR和融合波段的特征。我們提取骨干網絡每個DenseBlock的輸出特征,并分別標記為(FRGB,i,i=1,2,3,4),(FIR,i,i=1,2,3,4),相比于輸入圖像分別有(4,8,16,32)的下采樣率。我們將雙波段特征融合之后送入語義輪廓增強模塊(EEFM)來預測并增強融合特征的輪廓。對于最頂層的特征圖,我們使用空洞空間卷積池化金字塔[19](1、6、12,18,24的膨脹系數)來擴大感受野,在較小分辨率的特征圖上提取對整個圖像有指導意義的信息。Fconcat由各個階段不同尺度的特征圖上采樣到相同大小之后級聯在一起獲得,它同時包含有較低層的輪廓信息,較高層的整體語義信息。隨后SAC模塊從像素維度和通道維度對Fconcat進行增強。最后通過四倍的參數可學習的轉置卷積來把特征圖上采樣到原圖大小。
語義分割模型需要分割出不同目標,但當不同目標具有相似顏色或外觀時,通常不能很好地將其分割。因此,如何準確地分割出目標輪廓是分割問題面臨的一個挑戰。
基于以上動機,本節提出語義輪廓增強模塊,結構如圖2所示。利用網絡預測各個尺度的輪廓信息,并通過輪廓標簽進行監督,從而顯式地讓網絡學習輪廓信息,以約束不同尺度融合特征的輪廓。

圖2 輪廓預測模塊Fig.2 Edge enhance fusion module
首先輸入雙波段融合之后的特征圖,通過3×3卷積處理兩個波段融合的特征,增加感受野,接著使用1×1卷積得到一個一通道的特征圖,該特征是否為輪廓的概率由Sigmoid激活函數計算得到。得到的語義輪廓信息與輸入的融合特征圖進行像素點乘來增強特征圖的輪廓,最后將輪廓增強后的特征圖與輸入的特征圖相加形成一個殘差連接來避免信息丟失。
預測得到的輪廓通過真實輪廓標簽進行監督,輪廓標簽可以利用語義標簽得到,語義輪廓監督損失函數使用二元交叉熵,公式如式(1)所示:
(1)

使用這種設計具有兩種好處:(1)通過交叉熵損失進行監督,顯式約束輪廓信息,利用梯度反向傳播優化編碼器的特征。(2)重建后的特征包含有增強過的語義輪廓信息,并且不會丟失特征圖原有的特有信息。
目前有許多研究工作開始從輪廓信息入手通過約束物體的輪廓來改善分割精度。Li[20]等人在提取特征的過程中提取輪廓信息并進行融合,輪廓提取采用預訓練好的輪廓網絡,提取的輪廓并未用標簽進行監督,計算量大。Fan[21]等人在提取特征的過程中,通過標簽對輪廓進行監督,但不重新將提取的輪廓與特征進行融合。J Fontinele[22]等人將輪廓信息作為一條完整的信息支路來傳遞并與特征進行融合,參數量為一條支路的兩倍,計算量大。Zhou[14]等人在輸出層對輪廓進行約束。考慮到經過約束的輪廓含有更準確的輪廓信息,因此可以將其用于增強融合特征的輪廓。與上述文獻不同的是,本文在下采樣過程中預測不同尺度融合特征的輪廓信息并將其送回網絡,對圖像特征的輪廓進行多次增強,以此來提高網絡對物體輪廓的分割精度,并且提出了一個非常輕量的輪廓預測模塊。
注意力機制可以看作一種特征重加權的方式,不僅可以在通道上進行重加權,也可以在空間位置上進行加權[10],從而令網絡更加注意權重大的區域。
為了提高多尺度融合特征圖的精確度,本文受SENet[23]啟發,從位置和通道兩個方面來對特征圖進行加權,提出了一種新的位置和通道注意力模塊SAC來增強多尺度融合特征圖,如圖3所示。

圖3 位置和通道注意力模塊Fig.3 Spatial and channel module
在圖3中,前端網絡產生的特征圖首先會通過位置注意力模塊。位置注意力分為兩條支路,上方的支路提煉信息并直接將通道數降到輸入特征圖通道數的1/4。另一條支路先將通道數降到輸入特征圖的1/2再通過卷積變為輸入特征圖通道數的1/4并通過Sigmoid函數來體現出空間位置上更應該被關注的地方,得到位置信息的權重。隨后將位置信息的權重與上方支路的結果進行點乘來增強特征圖的空間位置信息。同時我們考慮不同的通道所含有的信息應該受到不同程度的關注,因此我們將位置信息增強過后的特征圖送入通道注意力模塊。首先對特征圖進行平均池化來獲得一個大感受野里的代表性信息,之后將其通道數提煉到原有通道數的一半,使用Relu激活函數增加其非線性特性,再通過1×1的卷積重新將通道數增加到原有的數量并通過Sigmoid函數來獲得不同通道的權重分布,最后使用得到的通道權重對通道進行加權。
本章實驗主要在兩個可見光-紅外語義分割數據集上展開。第一個數據集是文獻[4]中發布的一個公開可用的數據集,以下稱為PublicDataset。該數據集包含1569對可見光和紅外圖像,其中包含白天拍攝的820對圖像,夜間拍攝的749對圖像。包括八類物體被標注,即汽車,人,自行車,路沿,汽車站,護欄,路障,和障礙物。未標記的像素占所有像素的大部分。數據集的圖像分辨率為480×640。實驗中遵循文獻[4]中提出的數據集分配方案,50 %的圖像用于訓練,25 %的圖像用于驗證,其余圖像用于測試。
第二個數據集是自建數據集,以下稱為EcustDataset,這是課題組自行構建的包含541對圖像的數據。它是在夜間拍攝的城市街景圖像的數據集,所用的可見光拍攝設備為索尼A6000微型單反,FLIR Tau2336紅外熱像儀相機。圖像的分辨率為300×400。該數據集中有13個類被標記,即汽車、自行車、人、天空、樹、交通燈、道路、人行道、建筑物、欄桿、交通標志、柱子和公共汽車。對于場景中不屬于上述物體或難以辨識的物體,將其設置為空類,即不進行標注。在模型訓練與評估的過程中不包括空類。實驗中將EcustDataset分為兩部分。訓練數據集由400對圖像組成,其他141對圖像被分為測試數據集。
本文實驗環境的基本配置是Intel i7-8700 CPU,一張NVIDIA GTX 2080Ti顯卡,系統為Ubuntu16.04,構建模型使用的PyTorch版本為1.2,CUDA使用10.0版本,cuDNN使用7.6版本。使用PyTorch提供的預訓練權重DenseNet121來訓練網絡。訓練階段使用帶動量的SGD優化器,該優化算法更容易跳出局部最優值或梯度為零的鞍點處。文中所有模型包括對比算法的訓練超參數采用統一的設置,訓練批大小設為4,動量和權重衰減分別設為0.9和0.0005。初始學習率r0=0.01,訓練周期設為tSmax=100。采用“poly”學習策略來逐步降低學習率,如公式(2)所示:
(2)
在訓練過程中,每個訓練周期之前輸入的圖片被隨機打亂。使用隨機水平翻轉和隨機裁剪來進行數據增強。EcustDataset的輸入圖像通過鏡像填充擴大到320×410,PublicDataset的輸入分辨率為原始分辨率。
網絡的主損失函數是交叉熵損失函數,如公式(3)所示:
(3)

Ltotal=Lce+λLedge
(4)
其中,λ表示輪廓監督損失函數的權重。
本文實驗采用平均交并比(mIoU)來評估語義分割的性能。它的計算公式如下:
(5)
其中,N是類的數量,Pij是屬于第i類被預測為第j類的像素數。對于PublicDataset,將未標記的像素也考慮到計算指標中。以上評價指標在分割結果中的得分越高,代表算法分割精度越好。
3.3.1 先進算法對比及分析
本文先對比分析了不同先進算法的實驗結果,對比算法包括本文提出的算法、MFNet[9]、PSTNet[11]、RTFNet[12]、FuNNet[10]和FuseSeg[17]和MFFENet[14]。表1和表2展示了不同網絡在PublicDataset和EcustDataset測試的定量結果。

表1 不同分割算法在PublicDataset上的對比結果Tab.1 Results of different algorithm tested on PublicDataset

表2 不同分割算法在EcustDataset上的對比結果Tab.2 Results of different algorithm tested on EcustDataset
相比于采用了DenseNet161的FuseSeg,本文算法使用參數量更小的DenseNet121在EcustDataset和PublicDataset上取得了具有競爭力的預測結果。我們的模型在“廣告牌”、“自行車”和“建筑物”“圍欄”等輪廓特征較明顯的類別上具有較好的預測能力。對于“路標”等小類別,采用輪廓增強的方法也有助于模型進行分割。其他類別上我們模型的分割結果也具有競爭力。語義分割中常用的評價指標mIoU在所有算法中達到了最高水平。
圖4展示了算法在PublicDataset數據集上的定性結果。第一列中汽車頂部的輪廓更加接近真實標簽,第二列中錯分的像素較少,第三列路障的直線邊緣不合理的彎曲更少,第四列人的頭部輪廓更加合理。圖5展示了算法在EcustDataset數據集上的定性結果。圖中第一列錯分的像素相比其他模型明顯較少,車的輪廓精確,路邊圍欄的輪廓也更加合理,第三列中“自行車”的輪廓最完整,行走路人的腳部細節也被較好的分割出來。第四列中“汽車”的分界也較為明確,證明了輪廓增強的有效性。很顯然我們的模型在分割具有顯著輪廓的物體時,例如路錐的傾斜直線輪廓,汽車的頂部,汽車的輪胎,自行車的輪胎等,具有明顯的分割優勢。

圖4 不同算法在PublicDataset上的定性結果Fig.4 The qualitative results of different algorithm tested on PublicDataset

圖5 不同算法在EcustDataset上的定性結果Fig.5 The qualitative results of different algorithm tested on EcustDataset
在兩個數據庫上比較的具體結果顯示在表1及表2中。對比算法中,MFFENet[14]包含有兩種模型,MFFENet(S)是指只使用語義標注進行監督的結果,MFFENet(M)是指使用語義標注,語義輪廓標注,顯著性標注同時進行監督的結果。實驗中發現,PublicDataset中“護欄”一類有一些0.0的mIoU結果并且結果普遍偏低,正如文獻[9]中討論的一樣,數據集中的類是非常不平衡的?!白o欄”類所占的像素最少,因此可以認為是由于訓練數據不足,導致模型對該類不熟悉。從表1及表2中可以看出,我們的模型使用了較少的語義標注達到了較好的分割水平。“擋車器”、“路錐”和“障礙物”等邊緣較為平直的物體的分割性能相較不使用語義輪廓信息的模型提升明顯,其他類別也能取得有競爭力的結果,評價指標mIoU在所有算法中也達到了最高水平。
3.3.2 模型消融實驗及分析
為了評估本文提出的各個模塊,本節進行了消融實驗,通過移除網絡的不同部分來驗證模塊的有效性。
表3展示了消融實驗結果,我們選擇在PublicDataset上進行消融實驗來驗證我們設計的模塊的有效性?;€模型是一個簡單的U-net形網絡,兩個獨立的DenseNet121提取的特征相加之后直接通過卷積和轉置卷積上采樣到原圖大小。

表3 PublicDataset上的模型消融實驗Tab.3 Ablation studies on PublicDataset
首先研究本文提出的輪廓預測模塊,輪廓預測模塊帶來了大約2.5 %的mIoU提升,可以看出,輪廓監督損失函數通過梯度反向傳播改善了編碼器的特征,提升了網絡性能。然后研究本文提出的位置和通道注意力模塊,通過位置注意力和通道注意力加權,模型性能由54.3 % mIoU提升至56.3 % mIoU。同時我們也探究了只使用位置注意力或通道注意力對模型分割能力的影響,注意力機制不完善使得精度提升不明顯。圖6中我們給出了實驗對比的各個算法的參數量和mIoU的直觀圖示,顯然我們的模型在綜合性能上具有優勢,在相對較少的參數量下取得了最好的分割精度。

圖6 不同算法參數量和mIoU對比Fig.6 The compare of different algorithm on mIoU and parameters
3.3.3 損失函數權重影響分析
由于本文實驗使用了多個損失進行監督,因此設計對比實驗驗證損失函數權重對算法的影響。實驗中保持分割損失權重為1,改變輪廓監督權重λ。觀察不同輪廓監督權重對分割精度的影響,從而得到合理的輪廓監督權重設置。實驗結果如表4所示。通過表4數據可知,當輪廓監督權重過小或過大時,模型分割性能都會有不同程度的下降,可能的原因是權重過小時損失對模型影響不夠充分,權重過大時影響了主任務(分割任務)提取的特征,因此,當有多個損失函數時,相互之間的權重需要找到一個權衡,才能使得模型性能最優。

表4 損失函數權重λ對比實驗Tab.4 Comparison of different weights of λ
針對雙波段圖像語義分割目標輪廓易混淆的問題,本文提出了一種基于多尺度輪廓增強的RGB-IR雙波段圖像語義分割算法,在不同尺度的特征圖上預測不同尺度的輪廓,利用預測的輪廓信息來加權特征圖,增強了雙波段融合特征的輪廓。最后將多尺度融合的特征進行位置信息和通道信息的加權,來獲得更準確地分割結果。通過實驗證明了本文算法的有效。在較小的參數量下在公開數據庫中取得了57.2 %的最優mIoU,綜合性能最優。設計的不同的消融實驗驗證了所提出模塊的有效性。通過改變損失函數權重,分析了分割監督與輪廓監督不同權重下,算法性能的變化。