999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

邊界監督的大核卷積混合軸向注意力語義分割網絡

2025-06-17 00:00:00薛宇張相芬袁非牛
關鍵詞:特征實驗模型

中圖分類號:TP399 文獻標志碼:A 文章編號:1000-5137(2025)02-0135-06

Abstract:Itwasdificulttodistinguishbetweentargetsofdiferentsizesinroadscenesegmentation.Inordertosolvetheabove problem,inspired byPIDNet,anew typeof thre-branch network was proposed,which was constructedbyalarge kernel convolutionbranch,aTransformerbranchandaboundarysupervisionbranch.Thesegmentationefectof themodelondierent size targets was improvedbyboundarysupervisionbranches,and thereceptivefieldofthemodel was increased byintroducing thelarge kernelconvolutionmodule.Inthemodel,theenhancedaxialatentionmechanism wasintroducedtocapture thelongdistance dependenceof axialfeatures,andthefeaturesof the Transformer branchandthelarge kernelconvolution branch were selectedand integrated,andfinallytheinformationof thethreebranches wasintegrated.Comparedwith PIDNet,themean intersectionoverunion(mIoU)valueof the proposednetwork model was increased by4.8 percentage pointson the CamVid datasetandO.2percentagepointsonthe Cityscapesdatasetrespectively,andthelimage segmentationaccuracywasalso improved,which verifiedthatthehybridmodelhadadvantages inimagesegmentation task ofroadscenes. Key Words:image segmentation; large kernel convolution;axial attention;boundary supervision

0 引言

圖像分割作為圖像處理中一項常見的任務,廣泛應用于醫學圖像處理[1]、遙感圖像處理[2]和道路場景處理等.近年來,隨著深度學習的不斷普及和發展,卷積神經網絡(CNN)廣泛運用于計算機視覺中.諸如UNet[1], SegNet[3] 和Pyramid SceneParsingNetwork(PSPNet)[4]等網絡都采用編碼器-解碼器結構,其對輸入圖像進行特征提取.CNN模型在獲取圖像的細節特征上有很好的效果,而且使用小卷積核降低了其計算復雜度.Vision Transformer[5](ViT)架構將Transformer模型引入計算機視覺領域中,其自注意力機制能更好地捕獲長距離依賴.但由于Transformer模型的計算復雜度呈二次方增長,在處理高分辨率圖像時會耗費大量的計算資源.對此,Pyramid Vision Transformer(PVT)[6],Segformer[7]和Efficientformer8優化了原本的自注意力模塊.

在CNN模型和ViT架構的發展下,語義分割的深度學習方法已經愈發成熟,現有的模型在精度和效率上都有很好的表現,但由于硬件設備條件的限制,無法解決推理過程中參數過多的問題.為此,研究人員將CNN模型和Transformer模型相結合,提出了混合結構模型,如SeaFormer9]和TEC-Net[10]等.混合模型結合了CNN和Transformer的優點,能更好地處理圖像的細節和全局信息.道路場景中,各目標之間的邊界較為模糊,使得圖像分割的效果大打折扣.對此,本文設計了一個三支路的邊界監督的大核卷積混合軸向注意力網絡模型,通過結構重參數化方法\"],簡化大核卷積的計算復雜度;增強壓縮軸向注意力,提取圖像的軸向注意力;用邊界監督支路模型識別目標間的邊界.

1提出的模型

1.1 整體網絡結構

本文提出的網絡采用三分支結構:大核卷積支路、Transformer支路和邊界監督支路.大核卷積支路由大核卷積(LKConv)和小卷積殘差模塊組成.大核卷積由幾個小卷積通過重參數化方法重構而成,小卷積殘差模塊用來提取大核卷積內的細節信息,增強特征的表達.在Transformer支路的下采樣過程中,增強壓縮軸向注意力來提取軸向的全局信息,捕獲軸向的長距離依賴.與傳統圖像處理中使用Cany算子[12提取邊界信息的方式不同,邊界監督支路使用卷積提取邊界信息,并加人邊界損失,用以學習邊界特征,具體結構如圖1所示.

圖1本文提出的模型結構

1.2大核卷積模塊和壓縮增強軸向注意力

為了解決CNN模型感受野受限的問題,有學者提出使用大核卷積來增加模型的感受野.相較于小卷積,大核卷積可以提供更多的空間特征,獲得更大的感受野.輸人的特征圖被大核卷積處理之后,再用小卷積來提取細致的空間特征.隨后,經過由2個 1×1 卷積和GeLU激活函數構成前饋神經網絡(FFN),如圖2所示,其中,BN為批歸一化層,最終得到大核卷積支路的輸出結果.

對圖像在 x 軸和 y 軸方向上分別求自注意力,以此來降低總體計算量.在此基礎上,采用壓縮軸向注意力機制對軸向的信息進行壓縮,進一步減小計算量.壓縮之后的信息存放于水平和垂直兩個方向的序列中,此時,只需計算壓縮后的查詢 (Q) 、鍵 (K) 、值 (V) 向量的自注意力.最后,通過廣播機制(通過復制一個一維序列中的值,將其擴充到二維,不需要額外計算數值,經過一維卷積恢復通道數),將壓縮的信息恢復至原始的維度,如圖3所示,其中, H 表示圖像高度;W表示圖像寬度; C 表示特征圖通道數:下標 q,k,v,h,w 分別表示查詢、鍵、值、高度方向和寬度方向;下標Out表示輸出.

圖2大核卷積模塊
圖3壓縮軸向注意力計算過程

在壓縮軸向注意力支路添加一條增強空間信息的旁支,用以增強壓縮軸向注意力的空間表達.該旁支由普通卷積構成,輸入為由向量 Q,K,V 拼接而成的矩陣,通過一次卷積提取空間信息.

1.3通道選擇融合模塊

通道選擇融合模塊(CSFModule)具有兩個輸入和一個輸出,通過增強壓縮軸向的自注意力機制,特征圖建立了軸向的長距離依賴.此時,對低分辨率的特征圖進行上采樣,在空間維度上將特征圖恢復到高分辨率.同時,使用一維卷積將通道數從2C縮減為C/2,以減少計算量.對于高分辨率支路,同樣通過一維卷積將通道數 C 縮減為C/2.拼接低分辨率支路與高分辨率支路的特征圖,得到 H×W×C 的特征圖,其中, H 和W分別是特征圖的高度和寬度.經過最大池化層,提取每個通道中的重要信息,最終與高分辨率支路的特征圖的元素逐一相乘,融合兩條支路間的通道信息,如圖4所示.由此,通道選擇融合模塊增強了大核卷積支路對于軸向信息和長距離依賴的獲取能力.

圖4通道選擇融合模塊

1.4空間選擇融合模塊

由于三分支結構輸出的信息過于復雜,需要對最后的特征圖進行信息篩選,以免造成信息冗余,導致模型精度下降.對此,設計了空間選擇模塊(SSFModule),其結構如圖5所示.

空間選擇模塊的輸人是經過三條支路處理之后的特征圖,采用Sigmoid

圖5空間選擇融合模塊

激活函數分別對Transformer分支和邊界監督分支的特征圖進行激活處理,將激活后的邊界特征與大核卷積特征及Transformer特征的元素逐一相乘,在此過程中,設置一個可學習的參數 σ ,以篩選更有用的上下文信息.最后將所有元素逐一對應相加,得到三分支的融合特征圖.

1.5 損失函數

損失函數由輔助交叉熵損失函數 l0 、邊界損失函數 l1"邊界感知的交叉熵損失函數 l2 ,以及語義交叉熵損失函數 l3 構成.邊界監督的大核卷積混合軸向注意力分割網絡的總損失函數為

Loss0l01l12l23l3

式中: λ0,λ1,λ2 和 λ3 分別為各損失函數對應的參數值,本研究中,設定 λ?0=0.4,λ?1=20,λ?2=1,λ?3=1

2 實驗結果與分析

2.1 數據集準備

實驗分別在 CamVid[13] 和Cityscapes[6]數據集上進行. CamVid 數據集分辨率為 960pixel×720pix? 1,通過手動方式,逐像素點標注了701張圖像,其中367張圖像用于訓練,101張圖像用于驗證,233張圖像用于測試.Cityscapes數據集有5000張高分辨率城市駕駛場景圖像,將2975張高分辨率圖像用于訓練,500張用于驗證,1525張圖用于測試,圖像的分辨率為2048pixel×1024pixel.

2.2 實驗平臺及參數

本實驗采用的模型訓練在單個GPU服務器上進行,實驗環境配置如表1所示.

將Cityscapes數據集的圖像分辨率裁剪為1024pixel×1024pixel;CamVid數據集圖像保持原始分辨率960pixe pixel,并且采用0.5\~2.0的倍率對圖像進行隨機縮放.使用隨機梯度下降(SGD)優化器,采用Ploy學習策略調整學習率,設定初始學習率為0.01,動量為0.9,學習率衰減權重0.0005.

表1實驗環境

2.3 評估指標

在圖像分割指標中,平均交并比 (mIoU)mIoU 是每個類別中交并比的平均值,

式中: Tp 為預測正確的正樣本; Fp 為預測錯誤的假正樣本; Fv 為預測錯誤的假負樣本; k 為總類別個數,

2.4 對比實驗

采用BiSeNet[14],DDRNet[15],PIDNet[16],RTFormer[15],SeaFormer[9]和本文所提出的模型,在Cityscapes數據集上進行實驗,結果如表2所示.可以看出,相較于其他模型,本模型的 mIoU 值有所提升,比除本模型之外表現最佳的PIDNet模型的提升了0.2個百分點.

表2本文模型與其他模型在Cityscapes數據集上的結果對比
注:*代表該模型已經過ImagNet數據集的預訓練,下同.

在CamVid數據集上的實驗結果如表3所示,可以看出,本模型仍然表現最佳,比SeaFormer-S模型的mIoU值提高了5.2個百分點.

表3本文模型與其他模型在 CamVid 數據集上的結果對比

2.5 剝離實驗

對本模型中各模塊(LKConv,Sea-Attention,SSF和CSF)在 CamVid 數據集上進行剝離實驗,訓練120個周期進行測試,實驗結果如表4所示.

表4剝離實驗結果

可以看出:加入LKConv模塊后,模型的mIoU值提升了4.8個百分點;再加入Sea-Atention模塊后,mIoU值提升了0.8個百分點;又加入SSF模塊,mIoU值提升了0.9個百分點;最后加入CSF模塊,mIoU值提升了0.9個百分點.因此,LKConv模塊對于分割效果提升最大.

2.6 實時性實驗

在 CamVid 數據集上進行實時性實驗,結果如表5所示.相較于PIDNet模型,所提出的模型在mIoU值上提升了5.5個百分點,處理速度較慢,但仍可以達到30幀/s的實時性要求.

表5實時性實驗

3結語

本文提出一種新型的混合三分支模型,引入了大核卷積模塊,提升了網絡的分割性能,并增加了網絡層的感受野;將增強軸向注意力加入網絡模型,利用Transformer的全局信息捕獲能力來獲取軸向的長距離依賴;設計了通道融合模塊用來融合卷積支路和Transformer支路的特征信息,采用空間融合模塊融合3條支路的信息,提高了模型的性能.實驗結果表明:所提出的模型在CamVid和Cityscapes數據集上,都可以取得較好的效果,而且可以滿足實時性要求;所提出的模型在分割性能上有所提升,但是浮點數計算量和實時性還有待進一步提高.

參考文獻:

[1]RONNEBERGERO,FISCHERP,BROXT.U-Net:convolutionalnetworks forbiomedical imagesegmentation[C18th International Conferenceon Medical Image ComputingandComputer-Asisted Intervention-MICCAI2O15.Munich:Springer, 2015:234-241.

[2]BAZI Y,BASHMAL L,RAHHAL M M A,et al. Vision transformers for remote sensing image clasification[J]. Remote Sensing,2021,13(3):516.

[3] BADRINARAYANAN V,KENDALL A,CIPOLLA R.SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Transactions onPattrn Analysis and MachineIntelligence,2017,39(12):2481-2495.

[4] OUALIY,HUDELOTC,TAMI M.Semi-supervised semantic segmentation with cros-consistency training[C]//Proceedings of the 2020 IEEE/CVFConference on Computer Visionand Pattern Recognition.Seatle: IEEE,2020:12671-12681.

[5] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al.Animage isworth 16×16 words:transformers for image recognition at scale[C]/ International Conference on Learning Representations.Vienna: ICLR,2O21:1-21.

[6] WANGWH,XIEEZ,LIX,etal.Pyramid vision transformer:aversatile backbone for dense prediction without convolutions[C]//Proceedings of 2021 IEEE/CVF International Conferenceon Computer Vision.Montreal: IEEE, 2021:548-558.

[7] XIEEZ,WANG W H,YU Z D,et al.SegFormer:simple and efficient design for semantic segmentation with transformers [J/OL].ArXiv,2021[2024-10-13]. https://arxiv.org/abs/2105.15203.

[8] 黃馳涵,趙高鵬.基于改進EfficientFormer的自動駕駛目標檢測算法[J].人工智能,2023(6):59-66. HUANGCH,ZHAOGP.Autonomous drivingobjectdetectionbasedonimprovedEffcientFormer[J].AI-View,2023(6): 59-66.

[9] WAN Q,HUANG Z L,LU JC,et al. SeaFormer: squeeze-enhanced axial transformer for mobile semantic segmentation[J/OL]// ArXiv,2023[2024-10-13]. https: //arxiv.org/abs/2301.13156v1.

[10]XUGA,LIJC,GAOG W,etal.Lightweightreal-time semanticsegmentationnetwork witheficient transformerand CNN[J]. IEEE Transactions on Intelligent Transportation Systems,2023,24(12):15897-15906.

[11] DING XH,ZHANG XY,MANN,et al.RepVGG:making VGG-style ConvNets great again[C]//2021 IEEE/CVF Conference on Computer Vision and Patern Recognition.Nashville:IEEE,2021:13728-13737.

[12]CANNY J.Acomputational approach toedge detection[J].IEEETransactions on Patern AnalysisandMachine Intelligence,1986,PAMI-8(6):679-698.

[13] BROSTOW G J,SHOTTON J,FAUQUEUR J,et al. Segmentation and recognition using structure from motion point clouds[C]// Proceedings of the 10th European Conference on Computer Vision.Marseille: Springer,2008:44-57.

[14] YUCQ,WANGJB,PENG C,etal.BiSeNet: bilateral segmentation network forreal-time semantic segmentation[C]/ Proceedings of the 15th European Conference on Computer Vision-ECCV 2018.Munich: Springer,2018:34-349.

[15] PAN H H,HONG YD,SUN W C,et al.Deep dual-resolution networks for real-time andaccurate semantic segmentationoftrafic scenes[J].IEEETransactions on IntellgentTransportationSystems,2O23,24(3):3448-3460.

[16] XUJC,XIONG Z X,BHATTACHARYYA S P.PIDNet: a real-time semantic segmentation network inspired by PID controllers [C]/ 2023 IEEE/CVF Conference on Computer Vision and Patern Recognition. Vancouver: IEEE,2023: 19529-19539.

(責任編輯:包震宇,顧浩然)

猜你喜歡
特征實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 先锋资源久久| 久久伊人久久亚洲综合| 久久精品91麻豆| 国产无码制服丝袜| 亚洲va视频| 2020久久国产综合精品swag| 9cao视频精品| 日韩精品无码免费一区二区三区| 美女无遮挡被啪啪到高潮免费| 亚洲日本中文字幕乱码中文| 国产女同自拍视频| 亚洲人成网线在线播放va| 亚洲福利网址| 久久精品只有这里有| 久久亚洲精少妇毛片午夜无码 | 浮力影院国产第一页| 91在线精品麻豆欧美在线| 国产欧美日韩专区发布| 波多野结衣亚洲一区| 国产成人亚洲精品无码电影| 中文精品久久久久国产网址 | 婷婷五月在线| 伊人色综合久久天天| 四虎成人精品在永久免费| 亚洲伊人久久精品影院| 沈阳少妇高潮在线| 国产黄色免费看| 国产在线观看精品| 欧美精品一区在线看| 99久久精品免费看国产免费软件| 无码 在线 在线| 日韩A∨精品日韩精品无码| 91福利在线看| 99视频在线免费观看| 亚洲国产亚洲综合在线尤物| 亚洲乱码在线播放| 亚洲欧美在线看片AI| 国产精品黄色片| 亚洲国产综合第一精品小说| 色婷婷综合激情视频免费看| 99久久免费精品特色大片| 亚洲乱伦视频| 国产AV无码专区亚洲A∨毛片| 91蜜芽尤物福利在线观看| 日韩高清无码免费| 99激情网| 青青操视频免费观看| AV片亚洲国产男人的天堂| 在线国产91| 婷婷中文在线| 国产资源免费观看| 国产精品永久免费嫩草研究院| 亚洲欧洲日韩久久狠狠爱| 亚洲成人网在线观看| 久久国产成人精品国产成人亚洲| 无码人中文字幕| av尤物免费在线观看| 全部无卡免费的毛片在线看| 亚洲黄网视频| 丰满人妻一区二区三区视频| 黄色免费在线网址| a级毛片视频免费观看| 在线免费看片a| 嫩草国产在线| 国产欧美在线观看一区| 狠狠色噜噜狠狠狠狠奇米777 | 在线欧美a| аⅴ资源中文在线天堂| 91丝袜在线观看| 国产第八页| 午夜视频www| 就去色综合| 久久婷婷色综合老司机| 久草热视频在线| 伊人大杳蕉中文无码| 久久一本日韩精品中文字幕屁孩| 亚洲三级成人| 国产美女91视频| 国产又粗又爽视频| 久久成人18免费| 动漫精品中文字幕无码| 国产精品lululu在线观看|