










摘 要:針對室外復雜場景下圖像分割難度較大的問題,提出一種基于HRNet的多語義圖像分割模型(HR_DfeNet)。該模型通過引入通道注意力和空間注意力模塊優化特征提取,通過改進金字塔池化模塊設計ASPP_M模塊形成高分辨率特征提取分支,并與多種注意力機制融合。在Cityscape數據集上,HR_DfeNet相較于傳統分割模型表現出不同程度的分割優化效果。
關鍵詞:室外復雜場景;圖像分割;注意力模塊;金字塔池化模塊
中圖分類號:TP391.41文獻標志碼:A文章編號:1671-5276(2024)03-0181-04
A Multi Semantic Image Segmentation Method Based on Improved High Resolution Networks
Abstract:To address the difficulty of image segmentation in complex outdoor scenes, this paper proposes a multi semantic image segmentation model based on HRNet (HR_DfeNet), which optimizes feature extraction by introducing channel attention and spatial attention modules, designs a high-resolution feature extraction branch by improving the pyramid pooling module and ASPP_M module, and integrates with multiple attention mechanisms. On the Cityscape dataset, HR_DfeNet exhibits varying degrees of segmentation optimization performance compared to traditional segmentation models.
Keywords:outdoor complex scenes; image segmentation; attention module; pyramid pooling module
0 引言
與室內環境不同的是,室外結構化或非結構化環境下的多語義圖像中的信息區分度差,類別邊緣更模糊,從而識別分割難度更大。所以室外環境下如何實現對圖像信息的精確快速區分成為當前研究的重點內容[1]。
基于深度學習的語義分割方法是現在的主流研究方向,這類研究主要基于卷積神經網絡(CNN)。包子涵等[2]提出改進余弦型高斯核函數的非局部均值濾波算法,減小了圖片預處理階段噪點的影響。LONG等[3]提出第一個深度學習語義分割模型FCN,通過將全連接層替換為反卷積層并進行上采樣以生成空間特征映射,從而產生密集的像素級特征。這一創新證明了深層網絡可用于輸入尺寸可變的語義分割模型中,進行端到端訓練來預測像素級別的標簽。此外,HRNet 在分割過程中能夠始終保持高分辨率特征,通過高低分辨率特征的并行連接和信息交換來不斷優化特征表示[4]。CHEN等[5]提出的DeepLab系列模型使用深度卷積的方式進行特征提取,在卷積層中引入空洞卷積和空洞空間金字塔池化模塊(atrous spatial pyramid pooling ,ASPP)擴大了感受野并捕獲了多尺度空間信息。張藝杰[6]設計的雙路徑網絡可分別提取空間和語義信息,并通過一個高效的特征融合模塊來融合這兩種信息。同時,近年來注意力機制也被廣泛應用于語義分割模型,注意力機制通過注意力分布計算特征加權融合,能夠有效地處理多個特征向量[7-8]。
目前深度學習的語義分割方法準確率較高,但仍存在上采樣階段特征提取不充分、分辨率限制等問題。本文針對室外復雜場景圖像分割改進,優化特征提取并設計高分辨率特征提取分支,最后通過實驗驗證改進方法的有效性。
1 模型改進
本文以高分辨率識別分割網絡(HRNet)模型為基礎,通過引進多種注意力機制和優化ASPP模塊等方法對模型進行優化設計,構建一種新型高效多語義圖像分割網絡模型。
1.1 基于ECA/SA下的模塊優化
圖像分割中,層級模塊之間傳遞的特征信息包含空間特征和通道特征信息。本節結合高分辨率網絡結構的特點,通過引入通道注意力機制(ECA)和空間注意力機制(SA),提高HRNet網絡的特征傳遞效率。
1)ECA的優化設計
通道注意力機制通過賦予不同通道的特征不同的重要性,使網絡更高效地提取與任務相關的特征。
針對HRNet的結構特點,本文設計將ECA通道模塊引入主干網絡的Concat之后,對合并的高分辨率信息進行進一步優化,具體如圖1所示。
在對多個串行分支上采樣Concat后,獲得尺寸大小為H×W×C的特征圖VConcat,其中C是VConcat的通道數。通過全局平均池化對其在空間尺度上進行壓縮,使其變為1×1×C,在歸一化空間尺度的同時,通道數保持不變。然后通過使用一個自適應大小為5×5的卷積操作,捕獲不同通道之間的信息,利用激活函數輸出特征圖的通道注意力權重信息QT。具體計算公式如式(1)所示。
式中:Cn*nov為自適應卷積操作;n為卷積核大小;APool為平均池化函數。
最后,將Q與輸入特征圖數據Vi進行乘積,即完成對Concat輸出特征圖的通道優化。
2)SA的優化設計
在HRNet中,淺層分支可能包含干擾信息,直接上采樣會導致偽影和影響語義分割結果,尤其在需要精確邊界的任務中。
因此本文對HRNet的每個高分辨率提取分支引入空間注意力更新模塊以提高圖像特征傳遞效率,具體如圖2所示。在每個分支進行上采樣Concat前,對輸出尺寸為C×H×W的數據特征F進行通道上的壓縮處理,使C=1。其中每個像素權值相同,但在整個平面中權值不同;H和W是F的高度和寬度。對壓縮后的數據進行最大池化和平均池化操作,然后將兩種池化數據進行平級拼接,最后通過卷積層和激活函數確定通道平面的注意力權值分布Q。具體公式如式(2)所示。
式中APool(Vi)和MPool(Vi)分別表示第i個分支的平均池化與最大池化結果;Cn*n表示n*n大小的卷積運算。
最后,將第i個分支的權值分布Qi與輸出特征圖Vi乘積,即完成對特征圖的空間權值優化過程,得到了具有更明顯空間語義信息的新特征圖Vi'。
1.2 基于優化ASPP下的分支優化
HRNet的高分辨率并行結構使其可以進行多次特征卷積融合,但常規融合方式對精度提升有限,且增加訓練復雜度。因此,為優化并行分支融合效果,本文進一步引入空洞空間卷積池化金字塔(ASPP)模塊。
ASPP模塊通過多個并行分支使用不同尺度的空洞卷積和池化操作,增大感受野,提取多尺度特征。其結構如圖3所示,模塊通過膨脹卷積層、全局池化層和Concat融合層構建金字塔池化,以不同膨脹率捕獲多尺度信息。適當的膨脹率選擇對感受野和信息提取至關重要,能避免網格問題并提升精度。針對膨脹率選取問題,本文設計了混合擴張卷積框架(HDC)來構建金字塔的膨脹率,以減輕 網格問題。首先對k個不同尺寸下的膨脹卷積模塊,定義其膨脹率分別為[p1,p2,…,pk],則有
Di=max(Di+1-2pi,-Di+1+2pi,pi),
(i=1,2,…,k-1)(3)
式中Di=pi定義為兩個非零點之間的最大距離。為最小化“網格問題”的影響,選擇膨脹率時,要確保一個組內卷積的變換因子不固定,即不包含大于1的公約數。因此本文選擇的空洞率分別為(2,3,7,13)這4種尺度,加上池化層和原特征圖層,共6層結構,對ASPP模塊改進設計為ASPP_M,具體如圖4所示。
在改進ASPP模塊中,首先對原特征數據不做處理直接進行下級傳遞,然后利用上述設計的4種不同膨脹率下的空洞卷積對原特征圖進行不同尺度下的特征提取;最后利用平均池化完成全局下的語義提取,同時增加了批歸一化層提高模型的訓練效率。最后進行Concat數據融合,完成ASPP_M模塊的特征增強任務。
1.3 整體模型搭建
通過上述改進,本文基于HRNet構建了雙特征提取分支下的優化模型(HR_DfeNet)。該模型一方面通過多種注意力優化模塊針對性提取模型的特征辨識度;另一方面通過優化金字塔模型加強對特征圖多尺度信息的語義提取能力,整體架構如圖5所示。
2 算法驗證與對比分析
2.1 實驗環境和參數配置
本文的語義分割方法主要針對室外一般結構化或非結構化復雜場景進行研究,并基于仿真平臺進行實驗驗證,因此可通過網上查找和自行拍攝等建立數據集。該數據集包含了各類室外場景的1 000張圖片。實驗采用傳統MIoU作為模型性能的核心評估指標,使用交叉熵損失函數和Adam優化器來訓練模型。訓練過程包括320個Epoch輪次,初始學習率設定為0.000 1,BatchSize設置為12,選取數個目前主流多語義分割算法進行綜合對比分析,包括HRNet、DeepLabV3+、U-Net、PSPNet。
2.2 消融實驗
本文針對上述多個優化模塊進行了消融實驗,以驗證每個模塊對分割效果的影響。取數據集數量15%比例的圖像進行模型訓練,為確保實驗評估的準確性,每項消融實驗均重復3次,以平均值作為數據基準,并記錄最值以評估結果的波動情況。
本文設計5種方案對模型的消融部分進行對比分析,分別為:1)原HRNet模型;2)SA優化的HRNet模型;3)SA+ECA改進(即單特征提取分支)下的HRNet模型;4)ASPP_M(單特征提取分支)下的HRNet模型;5)HR_DfeNet(雙特征特區分支融合)模型。
具體的實驗結果如表1所示,其中√代表在原HRNet模型中添加該(改進的)模塊,×代表不添加。可以觀察到,相較于原HRNet網絡,方案2—方案5所建的其余模塊均在不同程度上優化了分割效果,驗證了本文設計的多種優化方案的有效性。其中方案1—方案3的優化效果逐級明顯,說明基于注意力機制下的高分辨率特征提取分支有效地保留了特征圖的空間細節和全局信息。同時,方案4—方案5表明基于ASPP_M的高分辨率特征提取分支通過多種尺度的卷積和池化操作,顯著優化了圖像在多尺度上的語義信息處理效果。
2.3 HR_DfeNet分割效果驗證
為評估HR_DfeNet模型的分割精度,對5種算法進行了對比分析。
圖6展示了HRNet與HR_DfeNet模型在測試集上的部分分割對比效果。由于本文的主干網絡是HRNet,圖中僅展示了HRNet與HR_DfeNet的分割效果。HRNet在遠視距和類別邊緣區分不明顯的物體分割上效果較差,而HR_DfeNet模型能夠更好地提取類別之間的語義差別。盡管未能完全篩選出所有類別,但相比HRNet有明顯優化,并且HR_DfeNet算法對細小枝葉輪廓及墻體等大面積內細小物體的識別能力顯著改善。
將訓練集圖片分割為11種類標簽,各個算法模型在測試集下的分割效果如表2所示。較HRNet模型,HR_DfeNet模型在多個細小類別如指示牌、桿、柵欄等的分割精度對比原HRNet模型優化效果明顯;HR_DfeNet的平均交并比較HRNet模型提高了2.6%,較DeepLabV3+模型提升了約3.7%,比其他模型也有不同程度的優越性。
3 結語
本文通過研究室外多語義圖像分割算法,提出了一種基于HRNet的多語義圖像分割模型(HR_DfeNet)。該模型通過引入空間/通道注意力機制和ASPP_M模塊,顯著提升了模型對高分辨率特征圖的表征能力。通過在自建數據集上的實驗驗證,本文所建模型在分割精度上較多種傳統算法皆有明顯的優化和提升效果。
參考文獻:
[1] 余京蕾.淺談計算機視覺技術進展及其新興應用[J]. 北京聯合大學學報,2020,34(1):63-69.
[2] 包子涵,李龍海,劉麗麗,等.基于機器視覺的救援機器人自動避障技術研究[J]. 機械制造與自動化,2024,53(1):202-208.
[3]SHELHAMER E,LONG J,DARRELL T.Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(4):640-651.
[4] SUN K,XIAO B,LIU D,et al.Deep high-resolution representation learning for human pose estimation[C] //2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach,CA,USA:IEEE,2019:5686-5696.
[5]CHEN L C,PAPANDREOU G,KOKKINOS I,et al.Semantic image segmentation with deep convolutional nets and fully connected CRFs[EB/OL]. (2016-06-07)[2024-05-01]http://arxiv.org/abs/1412.7062.
[6] 張藝杰.基于深度學習的高分辨率遙感圖像語義分割方法研究[D]. 成都:電子科技大學,2022.
[7] LIU G P,KE J.End-to-end full-waveform echo decomposition based on self-attention classification and U-net decomposition[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2022,15:7978-7987.
[8] 田壯壯,張恒偉,王坤,等.改進CenterNet在遙感圖像目標檢測中的應用[J]. 遙感學報,2023,27(12):2706-2715.