邊界監督的大核卷積混合軸向注意力語義分割網絡

2025-06-17 00:00:00薛宇張相芬袁非牛

上海師范大學學報·自然科學版 2025年2期

中圖分類號：TP399 文獻標志碼：A 文章編號：1000-5137（2025）02-0135-06

Abstract：Itwasdificulttodistinguishbetweentargetsofdiferentsizesinroadscenesegmentation.Inordertosolvetheabove problem，inspired byPIDNet，anew typeof thre-branch network was proposed，which was constructedbyalarge kernel convolutionbranch，aTransformerbranchandaboundarysupervisionbranch.Thesegmentationefectof themodelondierent size targets was improvedbyboundarysupervisionbranches，and thereceptivefieldofthemodel was increased byintroducing thelarge kernelconvolutionmodule.Inthemodel，theenhancedaxialatentionmechanism wasintroducedtocapture thelongdistance dependenceof axialfeatures，andthefeaturesof the Transformer branchandthelarge kernelconvolution branch were selectedand integrated，andfinallytheinformationof thethreebranches wasintegrated.Comparedwith PIDNet，themean intersectionoverunion（mIoU）valueof the proposednetwork model was increased by4.8 percentage pointson the CamVid datasetandO.2percentagepointsonthe Cityscapesdatasetrespectively，andthelimage segmentationaccuracywasalso improved，which verifiedthatthehybridmodelhadadvantages inimagesegmentation task ofroadscenes. Key Words：image segmentation； large kernel convolution；axial attention；boundary supervision

0 引言

圖像分割作為圖像處理中一項常見的任務，廣泛應用于醫學圖像處理[1]、遙感圖像處理[2]和道路場景處理等.近年來，隨著深度學習的不斷普及和發展，卷積神經網絡（CNN）廣泛運用于計算機視覺中.諸如UNet[1]， SegNet^[3] 和Pyramid SceneParsingNetwork（PSPNet）[4]等網絡都采用編碼器-解碼器結構，其對輸入圖像進行特征提取.CNN模型在獲取圖像的細節特征上有很好的效果，而且使用小卷積核降低了其計算復雜度.Vision Transformer[5]（ViT）架構將Transformer模型引入計算機視覺領域中，其自注意力機制能更好地捕獲長距離依賴.但由于Transformer模型的計算復雜度呈二次方增長，在處理高分辨率圖像時會耗費大量的計算資源.對此，Pyramid Vision Transformer（PVT）[6]，Segformer[7]和Efficientformer8優化了原本的自注意力模塊.

在CNN模型和ViT架構的發展下，語義分割的深度學習方法已經愈發成熟，現有的模型在精度和效率上都有很好的表現，但由于硬件設備條件的限制，無法解決推理過程中參數過多的問題.為此，研究人員將CNN模型和Transformer模型相結合，提出了混合結構模型，如SeaFormer9]和TEC-Net[10]等.混合模型結合了CNN和Transformer的優點，能更好地處理圖像的細節和全局信息.道路場景中，各目標之間的邊界較為模糊，使得圖像分割的效果大打折扣.對此，本文設計了一個三支路的邊界監督的大核卷積混合軸向注意力網絡模型，通過結構重參數化方法\"]，簡化大核卷積的計算復雜度;增強壓縮軸向注意力，提取圖像的軸向注意力；用邊界監督支路模型識別目標間的邊界.

1提出的模型

1.1 整體網絡結構

本文提出的網絡采用三分支結構：大核卷積支路、Transformer支路和邊界監督支路.大核卷積支路由大核卷積（LKConv）和小卷積殘差模塊組成.大核卷積由幾個小卷積通過重參數化方法重構而成，小卷積殘差模塊用來提取大核卷積內的細節信息，增強特征的表達.在Transformer支路的下采樣過程中，增強壓縮軸向注意力來提取軸向的全局信息，捕獲軸向的長距離依賴.與傳統圖像處理中使用Cany算子[12提取邊界信息的方式不同，邊界監督支路使用卷積提取邊界信息，并加人邊界損失，用以學習邊界特征，具體結構如圖1所示.

1.2大核卷積模塊和壓縮增強軸向注意力

為了解決CNN模型感受野受限的問題，有學者提出使用大核卷積來增加模型的感受野.相較于小卷積，大核卷積可以提供更多的空間特征，獲得更大的感受野.輸人的特征圖被大核卷積處理之后，再用小卷積來提取細致的空間特征.隨后，經過由2個 1×1 卷積和GeLU激活函數構成前饋神經網絡（FFN），如圖2所示，其中，BN為批歸一化層，最終得到大核卷積支路的輸出結果.

對圖像在 x 軸和 y 軸方向上分別求自注意力，以此來降低總體計算量.在此基礎上，采用壓縮軸向注意力機制對軸向的信息進行壓縮，進一步減小計算量.壓縮之后的信息存放于水平和垂直兩個方向的序列中，此時，只需計算壓縮后的查詢（Q）、鍵（K）、值（V）向量的自注意力.最后，通過廣播機制（通過復制一個一維序列中的值，將其擴充到二維，不需要額外計算數值，經過一維卷積恢復通道數），將壓縮的信息恢復至原始的維度，如圖3所示，其中， H 表示圖像高度；W表示圖像寬度； C 表示特征圖通道數：下標 q，k，v，h，w 分別表示查詢、鍵、值、高度方向和寬度方向；下標Out表示輸出.

在壓縮軸向注意力支路添加一條增強空間信息的旁支，用以增強壓縮軸向注意力的空間表達.該旁支由普通卷積構成，輸入為由向量 Q，K，V 拼接而成的矩陣，通過一次卷積提取空間信息.

1.3通道選擇融合模塊

通道選擇融合模塊（CSFModule）具有兩個輸入和一個輸出，通過增強壓縮軸向的自注意力機制，特征圖建立了軸向的長距離依賴.此時，對低分辨率的特征圖進行上采樣，在空間維度上將特征圖恢復到高分辨率.同時，使用一維卷積將通道數從2C縮減為C/2，以減少計算量.對于高分辨率支路，同樣通過一維卷積將通道數 C 縮減為C/2.拼接低分辨率支路與高分辨率支路的特征圖，得到 H×W×C 的特征圖，其中， H 和W分別是特征圖的高度和寬度.經過最大池化層，提取每個通道中的重要信息，最終與高分辨率支路的特征圖的元素逐一相乘，融合兩條支路間的通道信息，如圖4所示.由此，通道選擇融合模塊增強了大核卷積支路對于軸向信息和長距離依賴的獲取能力.

1.4空間選擇融合模塊

由于三分支結構輸出的信息過于復雜，需要對最后的特征圖進行信息篩選，以免造成信息冗余，導致模型精度下降.對此，設計了空間選擇模塊（SSFModule），其結構如圖5所示.

空間選擇模塊的輸人是經過三條支路處理之后的特征圖，采用Sigmoid

激活函數分別對Transformer分支和邊界監督分支的特征圖進行激活處理，將激活后的邊界特征與大核卷積特征及Transformer特征的元素逐一相乘，在此過程中，設置一個可學習的參數 σ ，以篩選更有用的上下文信息.最后將所有元素逐一對應相加，得到三分支的融合特征圖.

1.5 損失函數

損失函數由輔助交叉熵損失函數 l₀ 、邊界損失函數 l₁"邊界感知的交叉熵損失函數 l₂ ，以及語義交叉熵損失函數 l₃ 構成.邊界監督的大核卷積混合軸向注意力分割網絡的總損失函數為

L_oss=λ₀l₀+λ₁l₁+λ₂l₂+λ₃l₃

式中： λ₀，λ₁，λ₂ 和 λ₃ 分別為各損失函數對應的參數值，本研究中，設定 λ_?0=0.4，λ_?1=20，λ_?2=1，λ_?3=1

2 實驗結果與分析

2.1 數據集準備

實驗分別在 CamVid^[13] 和Cityscapes[6]數據集上進行. CamVid 數據集分辨率為 960pixel×720pix? 1，通過手動方式，逐像素點標注了701張圖像，其中367張圖像用于訓練，101張圖像用于驗證，233張圖像用于測試.Cityscapes數據集有5000張高分辨率城市駕駛場景圖像，將2975張高分辨率圖像用于訓練，500張用于驗證，1525張圖用于測試，圖像的分辨率為2048pixel×1024pixel.

2.2 實驗平臺及參數

本實驗采用的模型訓練在單個GPU服務器上進行，實驗環境配置如表1所示.

將Cityscapes數據集的圖像分辨率裁剪為1024pixel×1024pixel;CamVid數據集圖像保持原始分辨率960pixe pixel，并且采用0.5＼～2.0的倍率對圖像進行隨機縮放.使用隨機梯度下降（SGD）優化器，采用Ploy學習策略調整學習率，設定初始學習率為0.01，動量為0.9，學習率衰減權重0.0005.

2.3 評估指標

在圖像分割指標中，平均交并比（mIoU）m_IoU 是每個類別中交并比的平均值，

式中： T_p 為預測正確的正樣本； F_p 為預測錯誤的假正樣本; F_v 為預測錯誤的假負樣本； k 為總類別個數，

2.4 對比實驗

采用BiSeNet[14]，DDRNet[15]，PIDNet[16]，RTFormer[15]，SeaFormer[9]和本文所提出的模型，在Cityscapes數據集上進行實驗，結果如表2所示.可以看出，相較于其他模型，本模型的 mIoU 值有所提升，比除本模型之外表現最佳的PIDNet模型的提升了0.2個百分點.

在CamVid數據集上的實驗結果如表3所示，可以看出，本模型仍然表現最佳，比SeaFormer-S模型的mIoU值提高了5.2個百分點.

2.5 剝離實驗

對本模型中各模塊（LKConv，Sea-Attention，SSF和CSF）在 CamVid 數據集上進行剝離實驗，訓練120個周期進行測試，實驗結果如表4所示.

可以看出：加入LKConv模塊后，模型的mIoU值提升了4.8個百分點;再加入Sea-Atention模塊后，mIoU值提升了0.8個百分點;又加入SSF模塊，mIoU值提升了0.9個百分點;最后加入CSF模塊，mIoU值提升了0.9個百分點.因此，LKConv模塊對于分割效果提升最大.

2.6 實時性實驗

在 CamVid 數據集上進行實時性實驗，結果如表5所示.相較于PIDNet模型，所提出的模型在mIoU值上提升了5.5個百分點，處理速度較慢，但仍可以達到30幀/s的實時性要求.

3結語

本文提出一種新型的混合三分支模型，引入了大核卷積模塊，提升了網絡的分割性能，并增加了網絡層的感受野;將增強軸向注意力加入網絡模型，利用Transformer的全局信息捕獲能力來獲取軸向的長距離依賴;設計了通道融合模塊用來融合卷積支路和Transformer支路的特征信息，采用空間融合模塊融合3條支路的信息，提高了模型的性能.實驗結果表明：所提出的模型在CamVid和Cityscapes數據集上，都可以取得較好的效果，而且可以滿足實時性要求;所提出的模型在分割性能上有所提升，但是浮點數計算量和實時性還有待進一步提高.

參考文獻：

[1]RONNEBERGERO，FISCHERP，BROXT.U-Net：convolutionalnetworks forbiomedical imagesegmentation[C18th International Conferenceon Medical Image ComputingandComputer-Asisted Intervention-MICCAI2O15.Munich：Springer， 2015：234-241.

[2]BAZI Y，BASHMAL L，RAHHAL M M A，et al. Vision transformers for remote sensing image clasification[J]. Remote Sensing，2021，13（3）：516.

[3] BADRINARAYANAN V，KENDALL A，CIPOLLA R.SegNet：a deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Transactions onPattrn Analysis and MachineIntelligence，2017，39（12）：2481-2495.

[4] OUALIY，HUDELOTC，TAMI M.Semi-supervised semantic segmentation with cros-consistency training[C]//Proceedings of the 2020 IEEE/CVFConference on Computer Visionand Pattern Recognition.Seatle： IEEE，2020：12671-12681.

[5] DOSOVITSKIY A，BEYER L，KOLESNIKOV A，et al.Animage isworth 16×16 words：transformers for image recognition at scale[C]/ International Conference on Learning Representations.Vienna： ICLR，2O21：1-21.

[6] WANGWH，XIEEZ，LIX，etal.Pyramid vision transformer：aversatile backbone for dense prediction without convolutions[C]//Proceedings of 2021 IEEE/CVF International Conferenceon Computer Vision.Montreal： IEEE， 2021：548-558.

[7] XIEEZ，WANG W H，YU Z D，et al.SegFormer：simple and efficient design for semantic segmentation with transformers [J/OL].ArXiv，2021[2024-10-13]. https：//arxiv.org/abs/2105.15203.

[8] 黃馳涵，趙高鵬.基于改進EfficientFormer的自動駕駛目標檢測算法[J].人工智能，2023（6）：59-66. HUANGCH，ZHAOGP.Autonomous drivingobjectdetectionbasedonimprovedEffcientFormer[J].AI-View，2023（6）： 59-66.

[9] WAN Q，HUANG Z L，LU JC，et al. SeaFormer： squeeze-enhanced axial transformer for mobile semantic segmentation[J/OL]// ArXiv，2023[2024-10-13]. https： //arxiv.org/abs/2301.13156v1.

[10]XUGA，LIJC，GAOG W，etal.Lightweightreal-time semanticsegmentationnetwork witheficient transformerand CNN[J]. IEEE Transactions on Intelligent Transportation Systems，2023，24（12）：15897-15906.

[11] DING XH，ZHANG XY，MANN，et al.RepVGG：making VGG-style ConvNets great again[C]//2021 IEEE/CVF Conference on Computer Vision and Patern Recognition.Nashville：IEEE，2021：13728-13737.

[12]CANNY J.Acomputational approach toedge detection[J].IEEETransactions on Patern AnalysisandMachine Intelligence，1986，PAMI-8（6）：679-698.

[13] BROSTOW G J，SHOTTON J，FAUQUEUR J，et al. Segmentation and recognition using structure from motion point clouds[C]// Proceedings of the 10th European Conference on Computer Vision.Marseille： Springer，2008：44-57.

[14] YUCQ，WANGJB，PENG C，etal.BiSeNet： bilateral segmentation network forreal-time semantic segmentation[C]/ Proceedings of the 15th European Conference on Computer Vision-ECCV 2018.Munich： Springer，2018：34-349.

[15] PAN H H，HONG YD，SUN W C，et al.Deep dual-resolution networks for real-time andaccurate semantic segmentationoftrafic scenes［J].IEEETransactions on IntellgentTransportationSystems，2O23，24（3）：3448-3460.

[16] XUJC，XIONG Z X，BHATTACHARYYA S P.PIDNet： a real-time semantic segmentation network inspired by PID controllers [C]/ 2023 IEEE/CVF Conference on Computer Vision and Patern Recognition. Vancouver： IEEE，2023： 19529-19539.

（責任編輯：包震宇，顧浩然）