摘" 要: 語義分割廣泛應用于機器人、醫學成像和自動駕駛等領域,但當前語義分割主要針對可見光圖像。可見光圖像在光照不足或天氣差的情況下成像效果較差,而紅外圖像受光照影響較小。因此,將可見光圖像和紅外圖像聯合使用可以提升模型的魯棒性。通過預測前景輪廓的不確定性并將其作為注意力機制,可以有效地提高模型在前景物體和邊緣輪廓部分的分割能力。本文模型在公開數據庫上取得了57.2的分割精度,綜合性能優秀。
關鍵詞: 語義分割; 不確定性; 注意力機制; 紅外圖像
中圖分類號:TP391.4" " " " " 文獻標識碼:A" " " 文章編號:1006-8228(2023)12-44-05
Semantic segmentation algorithm for RGB-IR dual-band images
based on uncertainty enhancement
Chen Dinglv
(School of Informatics Science and Technology, Zhejiang Sci-Tech University, Hangzhou, Zhejiang 310018, China)
Abstract: Semantic segmentation is widely used in robotics, medical imaging, autonomous driving and other fields. However, the existing methods mainly focus on visible (RGB) images which have low quality under insufficient illumination or bad weather conditions. The infrared (IR) images are less affected by such situations. Therefore, the combination of RGB and IR images can improve the robustness of the model. By predicting the uncertainty of the foreground edge and using it as an attention mechanism, the model's segmentation ability in the foreground object and edge parts can be effectively improved. The proposed model achieves a segmentation accuracy of 57.2 on a public dataset with excellent comprehensive performance.
Key words: semantic segmentation; uncertainty; attention mechanism; IR image
0 引言
語義分割是計算機視覺領域的基礎視覺任務。隨著計算機性能的提高和大規模數據集的出現,模型對環境感知的要求不斷提高。語義分割作為基礎的視覺任務俞發受到研究的關注。在現實中,語義分割已經被廣泛應用于許多領域,如自動駕駛[1-2]、醫療影像分析[3-4]、安防監控[5-6]等。以自動駕駛為例,語義分割可以幫助車輛識別道路、車道、行人、交通信號燈等,從而實現智能駕駛。在醫療領域,語義分割可以幫助醫生自動識別和定位病灶區域,從而提高診斷準確性。然而單波段傳感器所能提供的信息是有限的,例如可見光圖像在黑夜中無法提供較為準確的前景信息,這會大大影響到模型的決策準確度以致于無法確保自動駕駛系統的魯棒性。因此多傳感器融合的模型開始受到人們的關注[7-9]。
然而,更多傳感器意味著更多的信息[10],當產生信息沖突時,模型認為可見光給出的信息可信度高于紅外圖像然而事實卻相反時,該如何解決信息沖突如何對信息進行融合剔除冗余的信息,提取出互補的信息是目前RGB-IR雙波段語義分割問題面臨的挑戰。
Ha等[11]提出基于編碼器-解碼器的MFNet,采用具有空洞卷積的mini-inception模塊來構建獨立的編碼器來處理可見光和紅外圖像,雖然速度具有優勢,但是精度較低。Liu[12]等引入全局語義信息來增強分割效果,Sun等[13]使用預訓練的ResNet[14]作為編碼器,并將可見光波段和紅外波段在編碼器部分進行特征融合。Sun[15]又使用DenseNet[16]作為編碼器,進一步提升分割準確性。然而參數量多,計算量大。Lyu等[17]在解碼器部分使用分組卷積,減少了模型的參數量。
本文提出了一種基于不確定性增強的RGB-IR雙波段圖像語義分割算法。通過預測并增強不確定性區域使得模型分割能力增強,在公開數據庫上取得了57.2的最高Miou,有較好的綜合性能。
1 基于不確定性增強的雙波段語義分割算法
1.1 模型整體架構
語義分割模型有多種形式[11,13-15,18]。通常在雙波段的網絡架構[11,13,15]中,使用兩個預訓練的特征編碼器來編碼兩個波段的信息,參數量大推理速度慢。考慮到網絡復雜度的簡潔性,本文采用單支路的網絡結構,讓編碼器自己編碼雙波段特征的信息,利用特征不確定性來對融合信息的不確定新進行監督并對特征進行重加權。整體架構如圖1所示。
1.2 不確定性增強模塊(UA)
語義分割模型需要分割出不同目標,但紅外圖像的分辨率不高因此導致輪廓不清晰,同時街景場景下存在大量前景重疊場景,因此分割存在大量不確定性。基于以上動機,本節提出不確定性增強模塊,其結構如圖2所示。利用輸入的前景特征來輸出前景,背景,不確定性三個特征的公式如下:
[F=maxm-0.5,0]
[B=max0.5-m,0]" " " " "⑴
[U=0.5-absm-0.5]
對于輸出的前景特征概率,我們認為大于0.5的即為前景,小于0.5的即為背景,而越接近0.5,我們認為其不確定性越大。對于超參數0.5,本文在后續進行消融實驗來進行超參數的選定。
得到前景,背景,不確定性之后將三個特征級聯并于特征圖進行初步的特征增強。隨后將特征圖向量化為Q,K,V。Q代表前景,K代表背景,V代表不確定性區域,通過計算三個特征向量之間的相關性并通過卷積給予相關的權重,隨后重新將三個向量與輸入特征圖進行相乘來增強特征途中不確定性高的部分,最后加入了殘差連接保證輸出的特征不會被過于丟失。
1.3 位置和通道注意力模塊
注意力機制可以看作是一種特征重加權的方式,不僅可以在通道上進行重加權,也可以在空間位置上進行加權[10],從而令網絡更加注意權重大的區域。
為了提高多尺度融合特征圖的精確度,參考了SENet[20],從位置和通道兩個方面來對特征圖進行加權是一種有效的加權方式。因此我們提出了位置和通道注意力模塊來增強多尺度融合特征圖。
首先經過不確定性增強的特征圖只對不確定性區域的像素點進行了權重更新,其他像素區域和通道區域仍然需要注意力機制的權重更新。因此將特征圖通過注意力機制增強。
2 實驗結果及分析
2.1 數據集介紹
本章實驗主要在一個可見光-紅外語義分割數據集上展開。數據集是文獻[11]中發布的一個公開可用的數據集,我們在文中將其命名為MFNetDataset。該數據集包含1569對可見光和紅外圖像,其中包含白天拍攝的820對圖像,夜間拍攝的749對圖像。只有八類物體被標注,即汽車,人,自行車,路沿,汽車站,護欄,路障,障礙物。未標記的像素占所有像素的大部分。數據集的圖像分辨率為[480×640]。實驗遵循文獻[4]中提出的數據集分配方案,50%的圖像用于訓練,25%的圖像用于驗證,其余圖像用于測試。
2.2 實驗設置及評價指標
實驗環境的基本配置是AMD EPYC 7543 CPU,一張NVIDIA GTX 3090顯卡,系統為Ubuntu20.04,構建模型使用的PyTorch版本為1.11,CUDA使用11.3版本。使用PyTorch提供的預訓練權重DenseNet121來訓練網絡。訓練階段使用帶動量的SGD優化器,該優化算法更容易跳出局部最優值或梯度為零的鞍點處。文中所有模型包括對比算法的訓練超參數采用統一的設置,訓練批大小設為8,動量和權重衰減分別設為0.9和0.0005。初始學習率[r0=0.01],訓練周期設為[tmax=100]。采用“poly”學習策略來逐步降低學習率,公式如式⑵所示。
[rt=r01-ttmax0.9] ⑵
在訓練過程中,每個訓練周期之前輸入的圖片被隨機打亂。使用隨機水平翻轉和隨機裁剪來進行數據增強。
通常分割網絡的主損失函數是交叉熵損失函數,公式如下:
[ξcc=-1Ni=1Nc=1Cycilogyci]" "⑶
其中,[N]表示像素數量,[C]表示預測類別數,[yci]表示像素i對類別c的預測概率,[yci]為真實標注。本文中采用Lovasz-loss[21]與交叉熵損失聯合作為總損失函數,公式如下:
[Ltotal=Lce+λLlovasz]" ⑷
Lovasz損失,是直接優化IoU的損失,然而較難收斂,因此將其與交叉熵損失相加權后可以較好的對模型進行監督。
本文實驗采用平均交并比(mIoU)來評估語義分割的性能。它的計算公式如下:
[mIoU=1Ni=1NPiij=1NPij+Pji-Pii]" " "⑸
其中,[N]是類的數量,[Pij]是屬于第i類被預測為第j類的像素數。對于MFNetDataset,將未標記的像素也考慮到計算指標中。以上評價指標在分割結果中的得分越高,代表算法分割精度越好。
2.3 實驗結果及分析
2.3.1 先進算法對比及分析
本文先對比分析了不同先進算法的實驗結果,對比算法包括本文提出的算法、MFNet[11]、PSTNet[12]、RTFNet[13]、FuNNet[17]和FuseSeg[15]。表1展示了不同網絡在MFNetDataset的定量結果。
本文在公開的數據庫上進行實驗,并與其他算法進行比較來展示算法的優勢。表1展示了本文模型在MFNetDataset的定量結果與其他先進模型的對比。可以看出本文模型在“廣告牌”“路沿”和“車障”“圍欄”等輪廓特征較明顯的類別上具有較好的預測能力。分割指標達到了最高,綜合性能優秀。從表1中可以看出,我們的模型使用了較少的語義標注達到了較好的分割水平。邊緣較為平直的物體的分割性能相較不使用語義輪廓信息的模型提升明顯,其他類別也能取得有競爭力的結果,綜合性能優秀。
2.3.2 模型消融實驗及分析
為了評估本文提出的各個模塊,本節進行了幾個實驗,通過移除網絡的不同部分來驗證模塊的有效性。
表2展示了消融實驗結果,我們選擇在公開數據集上進行消融實驗來驗證我們設計的模塊的有效性。
UA模塊中,決定前景像素的超參數設置至關重要,當設置的過小時,大量像素被認為是前景,包括不確定性高的部分,導致模塊失效。而超參數設置的過高導致大量像素被認為是背景,也導致模塊失效,因此0.5是最合適的參數。如表3所示。
表4中展示了本文提出的算法和其他優秀算法在公開數據庫上的對比,可以看出UANet以較小的參數量取得了較高的分割精度,綜合性能優秀。
2.3.3 損失函數權重影響分析
由于本文實驗使用了多個損失進行監督,因此設計對比實驗驗證損失函數權重對算法的影響。實驗中保持分割損失權重為1,改變Lovasz損失函數權重[l]。實驗結果如表5所示,當Lovasz損失權重過小時,起不到什么作用,會導致模型分割性能下降,Lovasz權重過大時,收斂速度慢,影響了模型正常的性能。因此,當有多個損失函數時,其相互之間的權重需要找到一個權衡,才能使得模型性能最優。
3 結論
針對雙波段圖像語義分割存在的紅外圖像分辨率不高,街景場景存在大量重疊場景,輪廓分割不清晰,分割不確定性高等問題。本文提出了一種基于不確定性增強的RGB-IR雙波段圖像語義分割算法,將多尺度融合的特征進行不確定性預測和增強,并通過位置信息和通道信息的加權,來獲得更準確地分割結果。通過實驗證明了本文算法的有效。在較小的參數量下在公開數據庫中取得了57.2%的最優mIoU,綜合性能最優。設計的不同的消融實驗驗證了所提出模塊的有效性。未來會繼續縮小模型參數,在更小的參數下使模型有更高的分割精度。
參考文獻(References):
[1] Teso-Fz-Beto?o D, Zulueta E, Sánchez-Chica A, et al.
Semantic segmentation to develop an indoor navigation system for an autonomous mobile robot[J]. Mathematics,2020,8(5):855.
[2] Cai P, Mei X, Tai L, et al. High-speed autonomous drifting
with deep reinforcement learning[J]. IEEE Robotics Automation Letters,2020,5(2):1247-54.
[3] Jiang F, Grigorev A, Rho S, et al. Medical image semantic
segmentation based on deep learning[J].2018,29:1257-65.
[4] Liu L, Wu F-X, Wang Y-P, et al. Multi-receptive-field
CNN for semantic segmentation of medical images[J]. 2020,24(11):3215-25.
[5] Meenpal T, Balakrishnan A, Verma A. Facial mask
detection using semantic segmentation[C]//2019 4th International Conference on Computing, Communications and Security (ICCCS).IEEE,2019:1-5.
[6] An J, Zhang H, Zhu Y, et al. Semantic segmentation for
prohibited items in baggage inspection[C]//Intelligence Science and Big Data Engineering Visual Data Engineering: 9th International Conference, IScIDE 2019,Nanjing, China, October 17-20,2019, Proceedings, Part I 9.Springer,2019:495-505.
[7] Hazirbas C, Ma L, Domokos C, et al. Fusenet:
Incorporating depth into semantic segmentation via fusion-based cnn architecture[C]//Asian conference on computer vision.Springer,2016:213-28.
[8] Li Z, Gan Y, Liang X, et al. Lstm-cf: Unifying context
modeling and fusion with lstms for rgb-d scene labeling[C]//European conference on computer vision.Springer,2016:541-57.
[9] Valada A, Mohan R, Burgard W. Self-supervised model
adaptation for multimodal semantic segmentation[J]. International Journal of Computer Vision,2020,128(5):1239-85.
[10] Feng D, Haase-Schütz C, Rosenbaum L, et al. Deep
multi-modal object detection and semantic segmentation for autonomous driving: Datasets, methods, and challenges[J]. IEEE Transactions on Intelligent Transportation Systems,2020,22(3):1341-60.
[11] Ha Q, Watanabe K, Karasawa T, et al. MFNet: Towards
real-time semantic segmentation for autonomous vehicles with multi-spectral scenes[C]//2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).IEEE,2017:5108-15.
[12] Liu W, Rabinovich A, Berg A C. Parsenet: Looking wider
to see better[J]. arXiv preprint arXiv:04579,2015.
[13] Sun Y, Zuo W, Liu M. Rtfnet: Rgb-thermal fusion
network for semantic segmentation of urban scenes[J]. IEEE Robotics Automation Letters,2019,4(3):2576-83.
[14] He K, Zhang X, Ren S, et al. Deep residual learning for
image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2016:770-8.
[15] Sun Y, Zuo W, Yun P, et al. FuseSeg: semantic
segmentation of urban scenes based on RGB and thermal data fusion[J]. IEEE Transactions on Automation Science Engineering,2020(3):1000-11.
[16] Huang G, Liu Z, Van Der Maaten L, et al. Densely
connected convolutional networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2017:4700-8.
[17] Lyu Y, Schiopu I, Munteanu A. Multi-modal neural
networks with multi-scale RGB-T fusion for semantic segmentation[J]. Electronics Letters,2020,56(18):920-3.
[18] Fu J, Liu J, Tian H, et al. Dual attention network for
scene segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019:3146-54.
[19] Chen L-C, Papandreou G, Kokkinos I, et al. Deeplab:
Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs[J]. IEEE transactions on pattern analysis machine intelligence,2017,40(4):834-48.
[20] Hu J, Shen L, Sun G. Squeeze-and-excitation
networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2018:7132-41.
[21] Berman M, Triki A R, Blaschko M B. The lovász-
softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2018:4413-21.