






收稿日期:2022-03-14;修回日期:2022-04-21
基金項目:國家重點研發計劃資助項目(2018YFB1307401)
作者簡介:袁浩賓(1997-),男,四川達州人,碩士研究生,主要研究方向為圖像語義分割和視覺SLAM(yyyhya28@163.com);趙濤,男,副教授,博導,博士,主要研究方向為智能機器人控制和模糊控制;鐘羽中,女,助理研究員,碩導,博士,主要研究方向為計算機視覺.
摘 要:針對現存可見光—紅外(RGB-T)圖像語義分割模型分割性能不高的問題,提出一種基于深層差異特征互補融合的巢式分割網絡。具體來說,網絡的編碼和解碼部分通過多級稠密中間路徑相連形成一個嵌套形式的結構,編碼器的深淺特征通過多級路徑供解碼器實現密集的多尺度特征復用,另一方面多模態深層特征通過特征差異性融合策略增強其語義表達能力。實驗結果表明,所提網絡在MFNet數據集上實現了65.8%的平均準確率和54.7%的平均交并比,與其他先進RGB-T分割模型相比,具有更優越的分割能力。
關鍵詞:RGB-T語義分割; 巢式網絡; 特征復用; 融合策略
中圖分類號:TP391.41"" 文獻標志碼:A
文章編號:1001-3695(2022)09-045-2850-04
doi:10.19734/j.issn.1001-3695.2022.03.0083
Nested semantic segmentation network fusing deep difference features
Yuan Haobin, Zhao Tao, Zhong Yuzhong
(College of Electrical Engineering, Sichuan University, Chengdu 610065, China)
Abstract:Considering the existing visible-infrared image (RGB-T) semantic segmentation models have limitations in segmentation performance, this paper proposed a nested semantic segmentation network fusing deep difference features. Specifically, it connected the encoding part and the decoding part of the network by a multi-level dense intermediate path to form a nested structure, and encoder features at various levels achieved densely repeated utilization via multi-stage path while the multi-modal deep feature enhanced its semantic expressiveness by the feature differential fusion strategy. The comparison experiments show that the proposed network achieves an average accuracy of 65.8% and an average intersection over union of 54.7% on the MFNet dataset. Compared with other state-of-the-art RGB-T segmentation models, it has better segmentation ability.
Key words:RGB-T semantic segmentation; nested network; feature reutilization; fusion strategy
語義分割旨在從像素級層面上為圖像劃分所屬類別,在自動駕駛[1]、醫療分析[2]和機器人定位[3]等領域具有廣泛的應用空間。受可見光傳感器成像機制所限[4],當前主流的RGB分割模型在濃霧和暗光等條件下存在不可避免的性能退化[5]。得益于紅外傳感器捕獲熱輻射信息,紅外圖像可以有效補償劣勢環境下RGB圖像中的缺漏信息[6],因而融合這兩種模態圖像進行場景表征具有更強的健壯性。
RGB-T語義分割近幾年備受研究者青睞。MFNet[7]是首個用于自動駕駛的RGB-T實時語義分割網絡,該模型受FuseNet架構[8]啟發,由兩個對稱的低參數編碼器和單個解碼器組成,編碼器末兩層通過微型下采樣感知模塊捕獲更大感受野的多尺度特征。RTFNet[9]利用ResNet[10]作為兩個編碼器的骨干結構整合RGB和紅外圖像信息,解碼部分通過兩種類型的上采樣模塊逐層漸進式的恢復分辨率和重構特征。Xu等人[11]將編碼器改進為帶空洞卷積運算的ResNet網絡以提高對小目標的檢測,并設計了一個共注意力機制模塊來融合提取的多模態特征。Guo等人[12]關注多尺度信息的利用,提出了一個輔助解碼模塊來接收編碼器的各級特征,這種跨尺度特征傳遞的方式實現了更靈活的上下文信息融合。這些研究對RGB-T語義分割作出了不同層面的貢獻,但仍存在改進空間。首先,僅僅依賴深層特征單向傳遞到順序相連的解碼層會因編碼下采樣過程而丟失圖像的部分邊緣細節信息[9,11],而通過跳躍連接在解碼端復用同尺度編碼特征一定程度上緩解了該問題[7],但深淺特征利用方式仍不夠充分。此外,編碼器在特征融合階段未充分考慮到RGB和紅外圖像的特征模態差異存在,例如在黑夜環境下,紅外圖像包含RGB圖像不能感知到的信息內容,通過簡單相加[9]和在通道層面拼接[7],某些情況下會對易辨識的特征造成對沖作用,削弱優勢特征的編碼響應,尤其對高維特征影響更為突出,而采取基于softmax算子的共注意力[11]進行融合的方式缺乏學習能力。
為更加充分復用各級編碼特征和減少模特差異對高維特征的融合影響,本文提出了一種融合RGB和紅外圖像深層差異特征的RGB-T巢式語義分割網絡。其貢獻在于:
a)編碼器深淺特征密集復用方式。編碼器和解碼器通過多級中間路徑相接,來自不同層次的尺度相異的編碼特征通過疊加的方式整合并饋送到解碼端,解碼層能利用到更多的多尺度特征信息幫助語義劃分。
b)深層特征融合策略。在深層特征融合階段,針對RGB和紅外圖像性質的差異性,設計一種特征差異性融合策略完成兩種模特圖像的互補特征提取,從而實現多模態特征更好的信息融合,深層高維抽象特征的語義表征能力因而得到增強。
1 巢式語義分割網絡
巢式連接架構最早由Zhou等人[13]在醫學圖像分割任務中提出,基于不同層次特征對尺寸大小不同的目標對象表現出不同敏感度這一事實,將U-Net網絡[14]中的長跳躍連接替換為上采樣和長短跳躍組合的嵌套巢式連接。圖1為巢式連接的框架結構。
在巢式結構中,深淺層的編碼特征通過上采樣和稠密連接在通道上進行密集拼接和復用,各個不同層次的特征因此得到有效整合。受此啟發,本文將巢式結構引入到RGB-T語義分割任務中,構建能夠充分整合所有尺度特征信息的RGB-T分割網絡。如圖2所示,所提分割模型包含兩個結構一致的編碼器和一個解碼器,左側雙編碼器逐層降采樣提取深淺特征,右側解碼器漸進式的重構特征,編碼部分和解碼部分通過稠密連接的多級中間過渡層相連,整體上形成一個嵌套形式的巢式網絡。相比于現存RGB-T分割網絡,密集的中間信息流通渠道使各級語義特征信息得到有效保留。
1.1 深淺特征編碼多級復用
眾多RGB-T分割模型采用ResNet作為骨干結構,考慮到DenseNet[15]擁有更為密集的信息傳播途徑且參數量更少,本文編碼器的骨干網絡使用DenseNet框架。同時為保留更多的原始空間信息和加強編碼器內部結構的統一性,DenseNet的分類層被舍棄,并在第四個稠密塊之后增補了與其他過渡層結構一致的過渡層。因而,編碼器可以劃分為初始卷積層、最大池化層和4個由稠密塊和過渡層組成的稠密特征單元,其中稠密塊保持特征圖的分辨率不變,剩余部分實現2倍率的下采樣。考慮到紅外圖像為單通道灰度圖,紅外編碼器的初始卷積層的輸入通道數修改為1。對于前5個下采樣過程,RGB和紅外信息通過按元素相加的方式進行特征融合,對于末尾下采樣階段提取的深層高維特征,通過特征差異性融合策略完成融合。
在所提模型中,各層融合特征通過上采樣和中間層進行信息多級回流,回流特征和前一融合特征的輸出密集地堆疊在一起,并傳遞至對應層級的重構層輸入端。和僅使用長跳躍連接相比,網絡編碼層和解碼層間的語義鴻溝能夠通過中間層得到緩解。如圖1所示,上采樣單元類似殘差結構,通過轉置卷積實現特征分辨率倍增,中間層由兩個級聯的卷積層構成,避免了單個卷積的非線性特征提取能力的缺乏。
1.2 深層差異特征互補融合
末尾稠密特征單元傳遞深層信息的渠道僅有一條,在進行解碼重構時存在這樣一個挑戰:深層網絡捕獲到小尺度等較困難目標的梯度信息較小,此時RGB和紅外特征表現出更高維度的抽象語義性,特別是在不利光照環境成像下,RGB圖像攜帶的盲區信息會使其深層特征更難以學習,此時結合紅外信息應當更多地專注在能夠彌補雙方的弱勢特征區域。鑒于RGB和紅外圖像成像原理具有差異性,通過在像素層面上構建雙模態圖像特征的差異性,提出了一種基于特征差異性的互補融合策略,用于增強深層特征的語義表達。
如圖3所示,差異性融合模塊的輸入為RGB和紅外特征圖,在RGB深層特征編碼階段,雙模態特征首先經由卷積運算得到通道壓縮后的特征映射矩陣Qr和Kt,兩個矩陣在空間尺度展開后進行式(1)運算獲取模態特征差異性權重矩陣。
Wrt=1-softmax(QrKTt)(1)
特征圖在像素級層面表現為數值向量矩陣,Qr和KTt相乘反映了RGB和紅外特征的特征相關度。softmax歸一化運算保證相關度矩陣為反映公共特征在全局位置上的權重系數,因而模態特征的差異性可通過其和1的補數表示。接著,RGB特征圖的線性變換矩陣Wrt和Vr進行加權處理獲取RGB特征圖的互補特征:
Featurert=WrtVr(2)
同樣在紅外特征編碼階段通過上述處理獲取紅外特征圖的互補特征Featurert。最后兩個互補特征同輸入雙模態特征相加實現深層特征互補融合增強。
1.3 特征解碼器
解碼器依靠接收的編碼特征進行重構,獲取稠密的像素預測。所提網絡的解碼器包括上采樣、重構層和分類層,詳見圖1,其中分類層由單個卷積層和雙線性插值運算構成,和上采樣模塊功能一致,實現倍增的特征圖分辨率恢復,并完成像素信息的語義歸類。分類層的卷積輸出通道數量設置為語義類別總數。為增強網絡梯度傳播,重構層通過兩個順序相連的卷積層和一個殘差路徑上的1×1卷積構成殘差結構。由于每個重構層接收來自同尺度和低尺度的堆疊特征,重構層的第一個卷積和殘差層保證特征圖通道數縮減為相同層級的編碼層的輸出通道數,第二個卷積維持特征圖分辨率和通道數不變。網絡所有的卷積層后緊跟一個批歸一化和ReLU層。總的來說,解碼器可劃分為五個由上采樣模塊和重構層組成的重構單元和一個分類層,多級別深淺特征復用路徑有效幫助語義預測,漸進形式的特征尺度恢復保證了解碼器和編碼器在結構上的對稱性。
鑒于DenseNet擁有卷積層數相異的變體:DenseNet-121、DenseNet-169、DenseNet-201和DenseNet-161,前三個架構的特征通道增長率為32,末尾的為48,它們的參數復雜度依次遞增。在采用不同變體結構時,各個降采樣階段的特征輸出通道與相應變體對齊,解碼器的重構單元的輸入特征通道數也相應變動。
1.4 損失函數
損失函數同網絡擬合方向和收斂速度密切相關。通常語義分割領域采用交叉熵完成訓練:
LCE=-∑Mc=1yclog(pc)(3)
其中:M為類別數;yc和pc分別表示目標圖像類別劃分屬于c的真值標簽向量和預測概率圖。考慮到圖像的各尺度目標分布不可能完全均衡,交叉熵損失不能很好地平衡這種樣本差異,本文額外引入改進的DiceLoss[16]項增強網絡學習能力:
Ldl=1-2∑Nipigi∑Nip2i+∑Nig2i(4)
其中:pi和gi分別表示目標圖像的像素域N內的第i個像素的二進制預測值和二進制真實標簽值。因而網絡的總損失表示為
Ltotal=12(LCE+Ldl)(5)
由于兩個損失項的值域具有相同數量級,它們各自占有一半的權重。這兩項共同引導網絡學習,彌補了使用單一交叉熵損失項的不足。
2 實驗與分析
2.1 數據集與訓練細節
MFNet發布了首個基于像素級語義標注的RGB-T城市道路場景圖像數據集,其中白天和夜晚采集的RGB-紅外圖像對各有820對和749對,圖像分辨率統一為480×640大小。該數據集手工標記了行車道路上的九個語義類,如汽車(car)、行人(person)、單車(bike)、車道線(curve)、停車位(car stop)、護欄(guardrail)、色錐(color cone)、路面凸起物(bump)和未標記背景區(unlabeled),每個類別的像素數量極其不均衡,尤以停車位和護欄類為甚。本文遵循原始數據集的劃分方案,訓練集和驗證集的圖像數量占比為2∶1,其中晝夜圖片對半,剩余393對圖像用于測試集。
網絡模型部署在PyTorch框架上,使用隨機梯度下降(SGD)策略作為優化器。網絡各層通過Xavier方案[17]進行權重初始化,學習率從1×10-2開始按0.95的衰減權重逐個epoch進行指數衰減。輸入圖像通過像素歸一化至[0,1],并且在每個epoch前隨機翻轉處理以預防網絡過擬合。BatchSize根據骨干網絡變體結構相應調整,DenseNet-161設為2,DenseNet-201和DenseNet-169設為4,DenseNet-121設為6。所有訓練和測試過程均在一臺配備24 GB顯存的NVIDIA GeForce RTX 3090 GPU、32 GB內存和AMD Ryzen 9 5900X CPU的計算機上完成。訓練過程直至損失函數不再減少為止,訓練期間通過驗證集選取最佳權重。測試階段不對輸入作任何處理。
2.2 性能衡量手段
分割性能通過定性定量的手段進行評估,一方面可視化地對比分割結果,另一方面通過平均準確率(mAcc)和平均交并比(mIoU)進行數值指標分析。mAcc衡量目標圖像像素在所有語義類別上正確歸類的平均概率:
mAcc=1N∑Ni=1TPiTPi+FNi(6)
其中:N為類別總數,這里N取9;TPi表示正確預測為第i類的像素個數,即真陽性;FNi表示被錯誤預測為非i類的像素個數,即假陰性。mIoU衡量所有類別上的預測分割和真值標簽的平均重疊率:
mIoU=1N∑Ni=1TPiTPi+FPi+FNi(7)
其中:FPi表示被錯誤預測為第i類的像素個數,即假陽性。兩個指標的數值大小同分割性能正相關。
2.3 實驗結果分析
所提網絡的分割性能通過在MFNet測試集上進行實驗驗證,相關比較方法涉及當前前沿的RGB-T分割模型,所有數據來源于對應文章及其開源代碼。表1和圖4分別提供了定量比較結果和晝夜圖像序列的可視化對比結果供參考。
據表1可知,所提分割網絡在mAcc和mIoU兩個指標上都取得了最佳值。具體而言,汽車和行人的語義歸類擁有全面的最高指標,這很可能得益于嵌套形式的巢式連接和深層差異特征融合策略的共同作用,前者使得大尺度目標和易識別對象的學習能力更強,后者能夠增強具有顯著特征差異目標的深層語義表達,在夜晚具有相對最大特征模態差異的汽車和行人類受此益處最多。對于車道線,由于其白色反光特性在夜晚有著稍遜于熱輻信息的成像優勢,一定程度上增強了自身特征優勢。相對而言,單車類由于在多個場景密集扎堆,聚簇形式的單車結合體在稠密中間層可能被過擬合訓練,削弱了單個單車的尺度分割優勢,分割精度所以未能取得最好。而小尺度對象的色錐則很可能受此益處,這點MFNet和RTFNet可以證明,后兩者網絡模型未有橋接編碼器和解碼器的信息流通渠道,它們對于小尺度對象的特征學習能力不夠。而AFNet和MLFNet分別由于共注意力融合和編碼特征多級跳躍的優勢在一定程度上促進了各個尺度對象的特征處理能力,各自都有著出色的分割能力。對于其他類別,護欄和停車位在測試集中的樣本數過少(護欄在393對圖像中僅有4對出現),各個模型的分割情況都表現欠佳,尤其是MFNet和RTFNet,這可能由于這兩類本不充足的特征信息在缺乏特征復用或調節的網絡訓練過程中丟失過多所致。更多的細節差異可從圖4觀察比較,僅以圖4中第2列和末列為例,單車類具有同真值最接近的分割情況。
為進一步探究模型的分割效能,表2列出了在MFNet測試集上單獨對所有白天圖像和夜間圖像的實驗比較結果。
由表2可知,所有方法均在夜晚取得了更好的分割性能,這可能是因為在光照充足的條件下,RGB圖像已包含易于分割的豐富細節信息,熱輻射信息的融入會給部分優勢特征造成對沖,削弱它們的語義表現。而在夜間,兩種模態特征存在更大的語義鴻溝,這時候紅外信息的融入更易于提高語義劃分結果。
對比晝夜測試序列結果,本文方法在夜晚場景具有更好的平均準確度和平均交并比,這從側面佐證了所提深層差異特征融合策略能夠充分整合RGB和紅外圖像特征,因為紅外圖像天然在夜間具有成像優勢,這時候兩者的特征差異表現得更加突出。
2.3.1 編碼器骨干網絡變體
DenseNet結構的不同變體作為編碼器骨干網絡會帶來不同的分割性能。為探究DenseNet變體結構對分割性能的影響,在只改變骨干網絡變體的條件下重新進行訓練,直至損失函數不再減少為止。圖5為不同變體在MFNet測試集上的表現情況。
圖5中mFPS表示在測試集上的平均每秒分割幀數,為同分割指標值的增長方向保持一致,實際以mFPS的倒數繪線。由圖可知,隨著DenseNet結構變體的復雜度增加,所提網絡在準確率和交并比兩個分割指標上均呈遞增趨勢,相比之下,對應的平均分割每幀圖像所消耗時間可近似視為僅同網絡層數正相關。推測此種原因在于多層架構由于參數量的提升會具備更強的分割學習能力,但網絡推理速度基本只受網絡深度影響。
2.3.2 編碼特征復用方式
在所提模型中,編碼器和解碼器間通過嵌套形式的上采樣和中間層相連,這種巢式連接使得編碼器的深淺特征能夠以一種非常密集的形式得到復用。為了驗證該做法的有效性,本部分去掉編碼部分和解碼部分間的所有信息復用路徑,只保留編碼器末尾層同解碼器相連,這種結構簡稱為U型直連。同樣,在U型結構間增加跳躍連接,用于將編碼器的同層級特征傳遞到對應的解碼器重構層,這種結構簡稱為同層跳躍連接。以DenseNet-161骨干網絡為基準,保證其他條件不做變動,重訓練網絡直至收斂。表3為在MFNet測試集上的分割對比結果。
據表3可知,當解碼器未復用編碼特征時,網絡分割性能急劇衰退。當通過長連接復用同尺度特征時,分割性能得到提升,尤其是準確率。而當多尺度深淺特征通過巢式連接復用時,網絡的準確分割覆蓋率進一步得到提升,但是單像素分割精確度略有退化。總而言之,復用編碼特征會極大地影響分割性能,對深淺特征進行密集復用能最有效地提高平均交并比,但會略微削弱準確率的提高,這可能是稠密中間連接路徑會對部分場景造成分割過擬合。
2.3.3 深層特征融合策略
為驗證深層差異特征融合策略的有效性,本部分對比了兩種融合策略,即Transformer[19]中的自相似性融合單元和基于像素差異性的互補融合。前一策略聚焦于特征圖自身各像素位置在空間位置上的相關性,是一種類似于位置注意力的融合機制,而后者關注多模態特征在像素層面上的語義相關性。相比之下,本文所提融合策略關注RGB和紅外特征圖在向量特征間的語義相關性。表4為這三種融合策略在MFNet測試集上的消融實驗結果。
據表4可知,所提融合策略能提供給RGB和紅外深層特征最佳的融合指導意義。這是因為,在多模態特征融合中,自相似融合策略忽視了相異圖像特征的表達,而基于像素差異性的融合只關注局部的特征相關性,它們在整合有性質差異的多模態圖像的高維特征上存在局限。總而言之,在高維抽象特征融合上,對于成像機制相異的多模態對象而言,通過挖掘它們各自不同的特征,并進行針對性的特征級上的彌補融合能夠得到具有更健壯語義表達的融合特征。
3 結束語
本文設計了一種融合RGB和紅外圖像深層差異特征的巢式語義分割網絡,該模型考慮到來自不同編碼尺度的特征具有各個層面的語義表示,通過構建嵌套形式的中間路徑實現高效的深淺特征密集復用,同時為增強RGB和紅外圖像高維抽象特征的語義表達能力,通過設計深層差異特征融合策略實現特征互補增強。與前沿網絡模型在公共數據集上的對比實驗表明,所提模型在分割性能上具有優越性,并且消融實驗證明了特征密集復用和深層差異特征融合策略的有效性。在未來的工作中,擬聚焦于差異特征融合策略和注意力機制相結合的優化,以期提高對復雜對象的分割準確度。同時考慮將RGB-T分割網絡泛化遷移到能夠適用于其他多模態圖像的語義分割領域。
參考文獻:
[1]Yang Maoke, Yu Kun, Zhang Chi, et al. DenseASPP for semantic segmentation in street scenes[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press,2018:3684-3692.
[2]南麗麗,鄧小英.幾何距優化質心結合隸屬度約束RFCM的腦MRI圖像分割算法[J].計算機應用研究,2019,36(11):3516-3520.(Nan Lili, Deng Xiaoying. Brain MRI image segmentation algorithm based on geometric distance optimized centroid and membership constrained RFCM[J].Application Research of Computers,2019,36(11):3516-3520.)
[3]Yu Chao, Liu Zuxin, Liu Xinjun, et al. DS-SLAM: a semantic visual SLAM towards dynamic environments[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2018:1168-1174.
[4]朱文鵬,陳莉,張永新.基于引導濾波和快速共現濾波的紅外和可見光圖像融合[J].計算機應用研究,2021,38(2):600-604,610.(Zhu Wenpeng, Chen Li, Zhang Yongxin. Infrared and visible image fusion based on guided filtering and fast co-occurrence filtering[J].Application Research of Computers,2021,38(2):600-604,610.)
[5]Wu Xinyi, Wu Zhenyao, Guo Hao, et al. DANNet: a one-stage domain adaptation network for unsupervised nighttime semantic segmentation[EB/OL].(2021-04-22).http://doi.org/10.48550/arxiv.2104.10834.
[6]Jian Lihua, Yang Xiaomin, Liu Zheng, et al. SEDRFuse: a symme-tric encoder-decoder with residual block network for infrared and visible image fusion[J].IEEE Trans on Instrumentation and Mea-surement,2020,70:1-15.
[7]Ha Qishen, Watanabe K, Karasawa T, et al. MFNet: towards real-time semantic segmentation for autonomous vehicles with multi-spectral scenes[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2017:5108-5115.
[8]Hazirbas C, Ma Lingni, Domokos C, et al. FuseNet: incorporating depth into semantic segmentation via fusion-based CNN architecture[C]//Proc of Asian Conference on Computer Vision.Cham:Springer,2016:213-228.
[9]Sun Yuxiang, Zuo Weixun, Liu Ming. RTFNet: RGB-thermal fusion network for semantic segmentation of urban scenes[J].IEEE Robo-tics and Automation Letters,2019,4(3):2576-2583.
[10]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016.
[11]Xu Jiangtao, Lu Kaige, Wang Han. Attention fusion network for multi-spectral semantic segmentation[J].Pattern Recognition Letters,2021,146(6):179-184.
[12]Guo Zhifeng , Li Xu , Xu Qimin, et al. Robust semantic segmentation based on RGB-thermal in variable lighting scenes[J].Measurement,2021,186:110176.
[13]Zhou Zongwei, Siddiquee M, Tajbakhsh N, et al. UNet+: a nested U-Net architecture for medical image segmentation[C]//Proc of International Workshop on Deep Learning in Medical Image Analysis, International Workshop on Multimodal Learning for Clinical Decision Support.Berlin:Springer,2018:3-11.
[14]Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//Proc of International Confe-rence on Medical Image Computing and Computer-Assisted Intervention.Cham:Springer,2015:234-241.
[15]Huang Gao, Liu Zhuang, Laurens V, et al. Densely connected con-volutional networks[EB/OL].(2018-01-28).http://doi.org/10.48550/arxiv.1608.06993.
[16]Milletari F, Navab N, Ahmadi S A. V-Net:fully convolutional neural networks for volumetric medical image segmentation[C]//Proc of the 4th International Conference on 3D Vision.Piscataway,NJ:IEEE Press,2016:565-571.
[17]Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//Proc of the 13th International Conference on Artificial Intelligence and Statistics.2010:249-256.
[18]Lan Xin, Gu Xiaojing, Gu Xingsheng. MMNet: multi-modal multi-stage network for RGB-T image semantic segmentation[J].Applied Intelligence,2022,52(5):5817-5829.
[19]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[EB/OL].(2017-12-06).http://doi.org/10.48550/arxiv.1706.03762.