



















摘要:因長期受反復(fù)荷載作用,高速鐵路鋼軌會產(chǎn)生表面缺陷,為了提升復(fù)雜場景下多類多尺度鋼軌表面缺陷檢測的精度與速度,設(shè)計了一種基于雙模態(tài)融合的鋼軌表面缺陷分割網(wǎng)絡(luò)(DAFNet)。首先構(gòu)建了一個包含可見光和紅外通道的鋼軌表面缺陷數(shù)據(jù)集,并采用改進(jìn)的雙分支網(wǎng)絡(luò)架構(gòu),提高了分割速度;同時,設(shè)計了雙模態(tài)自適應(yīng)融合模塊(BAFM),實現(xiàn)了特征的自適應(yīng)融合,提高了復(fù)雜場景下鋼軌表面缺陷的分割精度;此外,設(shè)計了空間細(xì)節(jié)提取模塊(SDEM)和關(guān)鍵信息增強(qiáng)模塊(KIEM),進(jìn)一步提高了對缺陷邊緣的感知度,解決了復(fù)雜場景下缺陷與背景對比度不高的問題。實驗表明,所設(shè)計網(wǎng)絡(luò)分割的精確度和mIoU分別達(dá)到了68.13%, 59.96%,明顯優(yōu)于其他主流網(wǎng)絡(luò);且FLOPs、參數(shù)量和模型大小分別為17.41 GFLOPs, 1.38 M和5.67 MB,優(yōu)于大多數(shù)主流網(wǎng)絡(luò)。所設(shè)計的網(wǎng)絡(luò)顯著提高了鋼軌表面缺陷的分割精度,并且具有較高分割速度,對保障高鐵的安全運(yùn)營具有重要意義。
關(guān)鍵詞:語義分割;鋼軌表面缺陷;深度學(xué)習(xí);紅外圖像;可見光圖像;雙模態(tài)融合
中圖分類號:U213;TP39 文獻(xiàn)標(biāo)志碼:A
本文引用格式:羅暉,韓岳霖,馬治偉,等. 基于雙模態(tài)融合的鋼軌表面缺陷分割研究[J]. 華東交通大學(xué)學(xué)報,2025,42(1):52-60.
Research on Rail Surface Defect Segmentation
Based on Bimodal Fusion
Luo Hui, Han Yuelin, Ma Zhiwei, Si Chenghao
(School of Information and Software Engineering, East China Jiaotong University, Nanchang 330013, China)
Abstract: Due to the long-term repeated loading, surface defects occur in high-speed railway steel rails. In order to improve the accuracy and speed of surface defect detection for multiple classes and scales of steel rails in complex scenarios, a steel rail surface defect segmentation network based on multimodal fusion (DAFNet) is designed. Firstly, a steel rail surface defect dataset containing visible light and infrared channels is constructed, and an improved dual-branch network architecture is adopted to increase segmentation speed. Simultaneously, a bimodal adaptive fusion module (BAFM) is designed to achieve adaptive feature fusion, improving the segmentation accuracy of steel rail surface defects in complex scenarios. Additionally, a spatial detail extraction module (SDEM) and a key information enhancement module (KIEM) are designed to further enhance the perception of defect edges and address the low contrast between defects and backgrounds in complex scenarios. Experiments show that the accuracy and mIoU" of the designed network segmentation reach 68.13% and 59.96% respectively, which are significantly better than other mainstream networks. Moreover, FLOPs, parameter quantity, and model size are 17.41 GFLOPs, 1.38 M, and 5.67 MB respectively, which are better than most mainstream networks. The designed network significantly improves the segmentation accuracy of steel rail surface defects and has a high segmentation speed, which is of great significance for ensuring the safe operation of high-speed railways.
Key words: semantic segmentation; rail surface defects; deep learning; infrared image; visible light image;bimodal fusion
Citation format: LUO H, HAN Y L, MA Z W, et al. Research on rail surface defect segmentation based on bimodal fusion[J]. Journal of East China Jiaotong University, 2025, 42(1): 52-60.
在長期的重復(fù)荷載影響下,鋼軌的健康狀況和性能會逐漸下降,同時在其表面形成多種類型和尺度的缺陷。當(dāng)前鋼軌表面缺陷檢測主要依賴非破壞性檢測技術(shù)[1]和傳統(tǒng)圖像處理方法[2-3],這些方法效率低,且存在誤檢漏檢的情況,難以確保準(zhǔn)確性和實時性。隨著深度學(xué)習(xí)技術(shù)發(fā)展,目標(biāo)檢測方法被分為圖像級、區(qū)域級和像素級3種。圖像級方法精度較低,無法精確定位傷損;區(qū)域級方法雖能定位,但不足以進(jìn)行精細(xì)分割;相比之下,作為像素級檢測方法的語義分割方法可以精確獲取目標(biāo)的類別特征和位置信息,是鋼軌表面缺陷檢測最有效的方法,對保障高鐵的安全運(yùn)營具有重要意義。
目前,主流的語義分割網(wǎng)絡(luò)主要包括單模態(tài)網(wǎng)絡(luò)和雙模態(tài)網(wǎng)絡(luò)。單模態(tài)網(wǎng)絡(luò)大多利用可見光(RGB)單模態(tài)信息,同時使用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行分割。Long等[4]提出了一種將傳統(tǒng)的全連接層替換為全卷積層的網(wǎng)絡(luò)(FCN),并采用不同深度特征提取層的跳級連接,確保了分割的精確性。Yu等[5]提出了由平滑網(wǎng)絡(luò)和邊界網(wǎng)絡(luò)組成的判別特征網(wǎng)絡(luò)(DFN),通過兩個協(xié)同的子網(wǎng)絡(luò)來加強(qiáng)類別間的分割性能。在上述單模態(tài)網(wǎng)絡(luò)中,雖然RGB圖像含有豐富的細(xì)節(jié)信息,但易受環(huán)境影響。而紅外圖像(NIR)具有不受外部光照影響、抗干擾能力強(qiáng)等特點,可與RGB圖像進(jìn)行互補(bǔ),實現(xiàn)對目標(biāo)更完整、更精確的分割。因此,Ha等[6]提出了一種雙模態(tài)特征提取器的網(wǎng)絡(luò)架構(gòu)MFNet,并實現(xiàn)了RGB和紅外特征融合。Sun等[7]提出RTFNet,采用編碼器-解碼器架構(gòu)來提取和重建雙模態(tài)特征,同時引入了Upception模塊加強(qiáng)特征提取,提高了分割精度。Zhou等[8]提出了GMNet,其利用分級特征提取策略,設(shè)計了針對淺層特征和深層特征的融合模塊,實現(xiàn)了多尺度特征融合。Deng等[9]提出的FEANet通過FEAM模塊從通道和空間視角挖掘和增強(qiáng)多級特征,并設(shè)計了邊界細(xì)化增強(qiáng)模塊,可以獲取目標(biāo)邊緣信息,提高了分割效果。但在鋼軌表面缺陷分割研究中,現(xiàn)有雙模態(tài)網(wǎng)絡(luò)存在著復(fù)雜場景下背景對比度不高、缺陷邊緣的感知度弱、精度和速度低等問題。
綜合當(dāng)前研究現(xiàn)狀,本文從基于雙模態(tài)的編解碼網(wǎng)絡(luò)構(gòu)建、自適應(yīng)特征融合、空間細(xì)節(jié)信息提取及關(guān)鍵信息增強(qiáng)等維度,設(shè)計了一種準(zhǔn)確、快速的雙模態(tài)融合的鋼軌表面缺陷分割網(wǎng)絡(luò)(DAFNet)。本文首先構(gòu)建了一個包含RGB和NIR通道的鋼軌表面缺陷分割數(shù)據(jù)集,并通過數(shù)據(jù)增強(qiáng)技術(shù)[10]進(jìn)行了數(shù)據(jù)集擴(kuò)充; 為充分利用可見光和紅外圖像特征的互補(bǔ)性,借助改進(jìn)的雙分支架構(gòu),設(shè)計了DAFNet雙模態(tài)語義分割網(wǎng)絡(luò);結(jié)合空間注意力、通道注意力和門控機(jī)制,設(shè)計了雙模態(tài)自適應(yīng)融合模塊(BAFM),實現(xiàn)了關(guān)鍵特征的自適應(yīng)融合;設(shè)計了空間細(xì)節(jié)提取模塊(SDEM)和關(guān)鍵信息增強(qiáng)模塊(KIEM),提高了分割網(wǎng)絡(luò)對缺陷邊緣的感知度,解決了復(fù)雜場景下缺陷與背景對比度不高的問題。
1 DAFNet整體架構(gòu)
本文所提DAFNet網(wǎng)絡(luò)采用編碼器-解碼器架構(gòu),具體如圖1所示。編碼器由兩個主干分支組成,一個用于提取RGB特征,另一個用于提取NIR特征。同時,為了自適應(yīng)地融合雙模態(tài)關(guān)鍵信息,增強(qiáng)邊緣特征,利用注意力機(jī)制和門控機(jī)制,設(shè)計了BAFM模塊,該模塊可以融合兩個分支提取的RGB和NIR特征信息。此外,為了防止下采樣丟失空間細(xì)節(jié)信息,并獲取豐富的缺陷邊緣信息,設(shè)計了SDEM模塊。
在解碼器部分,DAFNet采用3層解碼層,并設(shè)計了KIEM模塊,以解決缺陷與背景對比度低的問題;同時,通過引入自注意力機(jī)制,擴(kuò)大了感受野,且捕捉長距離像素之間的依賴性,進(jìn)而提高表面缺陷分割的精度。圖1中,ConvBlock為卷積模塊,Polling為上采樣。
2 編碼器設(shè)計
編碼器由兩個并行的特征提取分支所組成,其中RGB分支處理3個通道的RGB圖像信息,NIR分支處理一個通道的NIR圖像信息。兩個分支都由4個階段構(gòu)成,每個階段包含2個卷積模塊(ConvBlock)、1個激活函數(shù)(ReLU)以及1個批量歸一化層(BatchNorm),具體結(jié)構(gòu)如表1所示。
2.1 BAFM模塊設(shè)計
為了能夠有效融合RGB和NIR信息,本文提出了一種基于注意力機(jī)制和門控機(jī)制的BAFM模塊。
在BAFM模塊設(shè)計中,首先對鋼軌表面缺陷圖像的RGB特征[fRGBi]和NIR特征[fNIRi]進(jìn)行合并(Concat),并借助一個1*1卷積運(yùn)算(Conv)來減少通道數(shù)及計算量,具體如圖2所示;然后,為了能夠同時關(guān)注鋼軌表面缺陷的通道和空間特征,實現(xiàn)不同模態(tài)特征的有效融合,在通道(ChannelAttn)和空間注意力機(jī)制(SpatialAttn)改進(jìn)過程中,兩者同樣采用雙通道設(shè)計,并引入平均池化(AvgPool)和最大池化(MaxPool),使模塊可以在保留局部信息的同時,提取出區(qū)域內(nèi)顯著的紋理特征,如圖3所示。具體如下
[CA=BNfavg+fmax] (1)
[favg=Conv1×1ReLUAvgConv1×1fi] (2)
[fmax=Conv1×1ReLUMaxConv1×1fi] (3)
[SA=BNfi+ConvCatAvgfi,Maxfi] (4)
式中:CA和SA分別為通道和空間注意力機(jī)制;[fi]為輸入特征;Avg和Max分別為平均池化和最大池化運(yùn)算;Cat為Concat運(yùn)算;BN為BatchNorm運(yùn)算。
此外,BAFM模塊還引入了門控機(jī)制(Gate),通過門控權(quán)重,來控制特征信息的傳遞,凸顯鋼軌表面缺陷特征,提高不規(guī)則表面缺陷的分割精度,其結(jié)構(gòu)如圖4所示。
在門控機(jī)制中,分別對鋼軌表面缺陷的RGB和NIR特征進(jìn)行處理,合并后經(jīng)過卷積及激活運(yùn)算,最終得到門控權(quán)重(Weight)為
[wgatei=zh1+1-zh2] (5)
[z=SigmoidConv1×1Cath1,h2] (6)
[h1=ReLUBNConv1×1x1] (7)
[h2=ReLUBNConv1×1x2] (8)
式中:[wgatei]為門控權(quán)重;[x1]為RGB輸入特征;[x2]為NIR輸入特征。由此,得到的融合特征[fBAFMi]為
[fBAFMi=SigmoidCAfi+SAfi×wgatei] (9)
[fi=CatConv3×3fRGBi, fNIRi] (10)
式中:i為編碼器不同階段[i=1,2,3,4]。
2.2 SDEM模塊設(shè)計
由于在編碼器中經(jīng)過多次下采樣操作,空間細(xì)節(jié)信息會逐漸丟失,導(dǎo)致對小尺度缺陷邊緣的分割效果不佳。為進(jìn)一步提高缺陷邊緣的精度,本文采用多尺度卷積和邊緣檢測算子相結(jié)合的方式,設(shè)計了SDEM模塊,其結(jié)構(gòu)如圖5所示。
在SDEM模塊設(shè)計中:首先采用不同尺寸的卷積核(DC_3*3,DC_5*5,DC_7*7)來提取不同尺度的特征,增強(qiáng)空間細(xì)節(jié)信息的提取能力,同時為了減少參數(shù)量,保持模型性能,采用深度可分離卷積代替普通卷積核;然后,為了提取豐富的邊緣細(xì)節(jié)特征,引入Sobel算子,相較于傳統(tǒng)的Sobel算子,加入45°和135°方向檢測,能更全面地捕捉圖像中的邊緣信息;最后,最大池化層能捕捉鋼軌表面缺陷邊緣的主要特征,提高分割的精度。
SDEM模塊將BAFM模塊的結(jié)果[fBAFMi]作為輸入,經(jīng)過深度可分離卷積核,得到3種不同尺度的特征,然后與Sobel算子和最大池化層的特征進(jìn)行合并,最終通過卷積得到輸出。
3 解碼器設(shè)計
解碼器由3個相同的解碼層和1個輸出層(OutLayer)組成,前2個解碼層包含上采樣(Pooling)、卷積模塊和KIEM模塊,第3個解碼層只包含上采樣、卷積模塊。解碼器結(jié)構(gòu)如表2所示。為了擴(kuò)展感受野,捕捉長距離像素依賴關(guān)系,充分提取多類多尺度缺陷的類別特征和位置信息,提高了缺陷分割的精度,本文設(shè)計了KIEM模塊,其結(jié)構(gòu)如圖6所示。
KIEM模塊的輸入包括卷積的輸出特征[fConvi]和BFAM模塊的特征[fBAFMi],經(jīng)過Concat層合并后,再引入改進(jìn)的自注意力機(jī)制(NonLocal[11])模塊。
在NonLocal機(jī)制模塊改進(jìn)過程中,通過捕捉不同位置之間的依賴關(guān)系,計算每個像素與其他像素之間的注意力權(quán)重,提高了網(wǎng)絡(luò)對缺陷和背景區(qū)分能力,進(jìn)而提高了分割精度。期間,為了避免Query,Key,Value矩陣計算帶來的參數(shù)量劇增的問題,本文在計算前使用最大池化層進(jìn)行下采樣,同時使用了1*1的卷積核進(jìn)行降維,以降低特征的空間分辨率和計算量。同時在訓(xùn)練前,將輸出的Embeding層[foe]權(quán)重和偏置初始化為零,有助于網(wǎng)絡(luò)的訓(xùn)練穩(wěn)定性。具體計算過程為
[fnlb=BNConv1×1,stride=1foe+fCat] (11)
[foe=(fk*fq)*fv] (12)
[fk,q,v=MaxConv1×1,stride=1fCat] (13)
[fCat=CatfConvi,fBAFMi] (14)
式中:*為矩陣乘法;[fk,q,v]分別為Key、Query和Value矩陣的計算結(jié)果;[fCat]為Concat的輸出;[fnlb]為NonLocal機(jī)制模塊的輸出。
綜上所述,KIEM模塊的計算過程可表示為
[fKIEMi=fCat+ReLUBNConvfnlb] (15)
4 數(shù)據(jù)集
本文實驗使用了MER2-507-23GC和MER2-507-23GM NIR相機(jī),作為可見光和紅外圖像的采集設(shè)備。首先,采集的3個通道RGB樣本和1個通道NIR樣本經(jīng)過手動匹配校準(zhǔn)之后,合并為一張4通道圖像,如圖7所示;再將其裁剪為784×1 344大小,制作出包含545 張樣本的原始數(shù)據(jù)集;然后,采用隨機(jī)翻轉(zhuǎn)、添加噪聲和亮度變換等數(shù)據(jù)增強(qiáng)技術(shù),將數(shù)據(jù)集擴(kuò)充到2 180張,其中80%的圖像數(shù)據(jù)作為訓(xùn)練及驗證集,20%的圖像作為測試集。
5 實驗結(jié)果分析
實驗采用英特爾Core i7處理器和16 GB的NVIDIA TESLA T4 顯卡進(jìn)行網(wǎng)絡(luò)訓(xùn)練。環(huán)境配置為Python 3.8, PyTorch 1.7和CUDA 10。在訓(xùn)練過程中,網(wǎng)絡(luò)使用隨機(jī)梯度下降(SGD)優(yōu)化器,初始學(xué)習(xí)率為0.000 5,并隨訓(xùn)練過程呈指數(shù)衰減。采用交叉熵?fù)p失函數(shù)[12],經(jīng)過120個周期的迭代,損失值趨于平穩(wěn)。圖8展示了訓(xùn)練過程中損失的變化情況。
5.1 對比實驗
為了驗證本文所提出網(wǎng)絡(luò)的先進(jìn)性,與主流的語義分割網(wǎng)絡(luò)(FCN,DFN,F(xiàn)useNet[13],ACNet[14],MFNet,RTFNet,F(xiàn)EANet,GMNet,CMX[15])進(jìn)行對比,其中包括單模態(tài)網(wǎng)絡(luò)FCN,DFN。
5.1.1 不同模型的分割精度對比實驗
表3展示了不同網(wǎng)絡(luò)在mAcc和mIoU指標(biāo)上的對比實驗結(jié)果。實驗表明,面對復(fù)雜場景下的多類多尺度鋼軌表面缺陷,單模態(tài)網(wǎng)絡(luò)由于缺乏NIR圖像的支撐,綜合分割效果不如雙模態(tài)網(wǎng)絡(luò)。同時,本文所提出DAFNet網(wǎng)絡(luò)對比其他雙模態(tài)網(wǎng)絡(luò),mAcc和mIoU指標(biāo)要高出許多。
5.1.2 不同模型的可視化結(jié)果展示
為了檢測DAFNet在實際場景中的效果,本文對實驗結(jié)果進(jìn)行了可視化展示,如圖9所示。通過對比原始圖像、真實標(biāo)簽(GroundTruth)和不同網(wǎng)絡(luò)的預(yù)測結(jié)果,可以發(fā)現(xiàn),只有DAFNet能夠完整覆蓋原始圖像中表面缺陷,最接近GroundTruth,同時還能捕獲出未在真實標(biāo)簽中標(biāo)注的缺陷輪廓(灰色標(biāo)注框區(qū)域)。由此證明,本文所設(shè)計的DAFNet網(wǎng)絡(luò),能夠有效適應(yīng)實際場景的需求。
5.1.3 不同模型的分割速度對比實驗
表4展示了本文提出的DAFNet與其他雙模態(tài)網(wǎng)絡(luò)對比結(jié)果。可以發(fā)現(xiàn),DAFNet網(wǎng)絡(luò)的各項指標(biāo)都遠(yuǎn)遠(yuǎn)優(yōu)于大部分雙模態(tài)網(wǎng)絡(luò)。但MFNet在參數(shù)量和模型大小方面略小于DAFNet,這是由于BAFM模塊和KIEM模塊的引入,增加了計算量,但DAFNet的mAcc和mIoU指標(biāo)比MFNet網(wǎng)絡(luò)分別高出6.39個百分點和4.92個百分點。
5.1.4 DAFNet模型魯棒性對比實驗
為了測試DAFNet的泛化能力,使用5種干擾方式(矩形遮擋、模糊遮擋、噪聲遮擋、高斯噪聲和高斯模糊)來評估模型的性能。表5展示了實驗結(jié)果,模型在加入干擾后,平均后的mAcc為62.57%,mIoU為54.46%,分別下降了5.56個百分點和5.50個百分點。
此外,為了增強(qiáng)模型的魯棒性,本文將這些干擾方式加入到訓(xùn)練集中。經(jīng)過重新訓(xùn)練后,模型在測試集上的性能有了顯著提升,平均后的mAcc和mIoU分別僅下降了2.73個百分點和2.80個百分點。這一結(jié)果表明,通過在訓(xùn)練過程中引入干擾,可以有效提升DAFNet在復(fù)雜環(huán)境下的魯棒性,提高實際應(yīng)用中的穩(wěn)定性。
5.2 消融實驗
為了驗證不同模塊的有效性,本文設(shè)計了5組消融實驗,表6展示了不同實驗下的結(jié)果。圖表中NADK表示去除BAFM模塊、SDEM模塊和KIEM模塊的網(wǎng)絡(luò);NDK表示去除SDEM模塊和KIEM模塊的網(wǎng)絡(luò);NDA表示去除SDEM模塊和BAFM模塊的網(wǎng)絡(luò);NAK表示去除BAFM模塊和KIEM模塊的網(wǎng)絡(luò)。
1) NDK與NADK相比,mAcc和mIoU分別提高了2.34個百分點和1.55個百分點,說明了BAFM模塊可以有效融合RGB和NIR特征,從而提升網(wǎng)絡(luò)的分割精度。
2) NDA與NADK相比,mAcc和mIoU分別提高了3.33個百分點和2.23個百分點,說明KIEM模塊有效解決了缺陷與背景對比度不高的問題,從而提高分割的準(zhǔn)確性。
3) NAK與NADK相比,mAcc和mIoU分別提高了2.35個百分點和1.27個百分點,說明了SDEM模塊能有效提取空間細(xì)節(jié)特征,提高網(wǎng)絡(luò)的分割精度。
4) DAFNet網(wǎng)絡(luò)與NADK相比,mAcc和mIoU分別提高了13.50個百分點和9.48個百分點,說明了同時引入3個模塊時,DAFNet具有最高的分割精度。
6 結(jié)論
本文提出的DAFNe分割網(wǎng)絡(luò)利用可見光和紅外圖像特征的互補(bǔ)性,提升了復(fù)雜場景下多類多尺度鋼軌表面缺陷檢測的精度與速度。主要結(jié)論如下。
1) 改進(jìn)的雙分支網(wǎng)絡(luò)架構(gòu),可以有效提高分割速度。
2) BAFM模塊能實現(xiàn)特征的自適應(yīng)融合,提高不規(guī)則表面缺陷的分割精度。
3) SDEM模塊可以提高對鋼軌表面缺陷特征的空間細(xì)節(jié)表達(dá)能力。
4) KIEM模塊能有效解決復(fù)雜場景下缺陷與背景對比度不高的問題。
參考文獻(xiàn):
[1]" "JIA Y, LIANG K, WANG P, et al. An enhancementmethod of magnetic flux leakage signals for rail track surface defect detection[J]. IET Science Measurement amp; Technology, 2020, 14(2): 711-717.
[2]" "PARK J W, LEE T G, BACK I C, et al. Rail surface defect detection and analysis using multichannel eddy current method based algorithm for defect evaluation[J]. Journal of Nondestructive Evaluation, 2021, 40(3): 1-12.
[3]" "周宇, 木東升, 韓延彬, 等. 基于X射線斷層掃描的鋼軌滾動接觸疲勞裂紋形狀建模方法[J]. 華東交通大學(xué)學(xué)報, 2019, 36(1): 41-48.
ZHOU Y, MU D S, HAN Y B, et al. A modeling method for the shape of rolling contact fatigue cracks in steel rails based on X-ray tomography[J]. Journal of East China Jiaotong University, 2019, 36(1): 41-48.
[4]" "LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4): 640-651.
[5]" "YU C, WANG J, PENG C, et al. Learning a discriminative feature network for semantic segmentation[C]//Salt Lake: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018: 1857-1866.
[6]" "HA Q, WATANABE K, KARASAWA T, et al. MFNet: towards real-time semantic segmentation for auto-nomous vehicles with multi-spectral scenes[C]//Vancouver: Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2017.
[7]" "SUN Y, ZUO W, LIU M. RTFNet: RGB-thermal fusion network for semantic segmentation of urban scenes[J]. IEEE Robotics and Automation Letters, 2019, 4(3): 2576-2583.
[8]" "ZHOU W, LIU J, LEI J, et al. GMNet: graded feaure multilabel-learning network for RGB-thermal urban scene semantic segmentation[J]. IEEE Transactions on Image Processing, 2021, 30(3): 7790-7802.
[9]" "DENG F, FENG H, LIANG M, et al. FEANet: feature enhanced attention network for RGB-thermal real-time semantic segmentation[C]//Prague: Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS), 2021.
[10] CUBUK E D, ZOPH B, MANE D, et al. Autoaugment: learning augmentation strategies from data[C]//Long Bea- ch: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), 2019: 113-123.
[11] TAO Y Z, SUN Q, DU Q, et al. Nonlocal neural net-works, nonlocal diffusion and nonlocal modeling[C]// Montréal: Proceedings of the 32nd International Conference on Neural Information Processing Systems(NIPS), 2018: 494-504.
[12] RUMELHART D E, HINTON G E, WILLIAMS R J.Learning representations by back propagating errors[J].Nature, 1986, 323: 533-536.
[13] HAZIRBAS C, MA L, DOMOKOS C, et al. FuseNet: incorporating depth into semantic segmentation via fusion-based CNN architecture[C]//Taipei: Proceedings of the Asian Conference on Computer Vision, 2016.
[14] HU X, YANG K, FEI L, et al. ACNet: attention based network to exploit complementary features for RGBD semantic segmentation[C]//Taipei: Proceedings of the IEEE International Conference on Image Processing(ICIP), 2019.
[15] LIU H, ZHANG J, YANG K, et al. CMX: cross modal fusion for RGB-X semantic segmentation with transformers[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 24(12):14679-14694.
第一作者:羅暉(1969—),男,教授,碩士生導(dǎo)師,研究方向為人工智能網(wǎng)絡(luò)、機(jī)器視覺。E-mail:lh_jxnc@163.com。
通信作者:韓岳霖(1998—),男,碩士研究生,研究方向為機(jī)器視覺。E-mail:dj274570787@163.com。