





摘 "要: 為減少噪聲對分割結果的影響,降低單一尺度特征對分割結果的敏感性,提升分割算法的魯棒性與穩定性,并增強分割邊界清晰度,提高分割精度,文中提出一種多尺度特征融合下三維視覺圖像場景分割算法。雙路徑多信息域注意力模塊通過結合頻域通道與空間注意力機制,提取三維視覺圖像的多尺度特征,降低單一尺度特征對分割結果的敏感性;在多尺度特征融合模塊內添加空洞卷積層,增大多尺度特征的感受野,并融合增大感受野的多尺度特征,捕捉圖像的細節信息和全局信息,減少噪聲對分割結果的影響,提升分割算法的魯棒性與穩定性;利用Softmax分類器處理融合特征,得到三維視覺圖像場景分割結果;通過全連接條件隨機場、后處理分割結果,優化分割邊界清晰度,提高分割精度。實驗結果證明:該算法可有效提取三維視覺圖像的多尺度特征,有效完成三維視覺圖像場景分割,且場景分割的邊界非常清晰。為三維視覺圖像的處理與分析提供了新的思路和方法。
關鍵詞: 多尺度; 特征融合; 三維視覺; 圖像場景分割; 注意力機制; 空洞卷積; Softmax分類器; 條件隨機場
中圖分類號: TN911.73?34; TP391.41 " " " " " " " 文獻標識碼: A " " " " " " " " " 文章編號: 1004?373X(2024)21?0046?05
3D visual image scene segmentation algorithm based on multi?scale feature fusion
YAN Jingfu, WANG Pengfei
(China University of Petroleum (Beijing) at Karamay, Karamay 834000, China)
Abstract: A 3D visual image scene segmentation algorithm based on multi?scale feature fusion is proposed to reduce the impact of noise on the segmentation results, reduce the sensitivity of single scale features to the segmentation results, improve the robustness and stability of the segmentation algorithm, enhance the segmentation boundary sharpness and improve the segmentation accuracy. Dual?path multi?information domain attention module is responsible for extracting multi?scale features of 3D visual images by combining frequency domain channel and spatial attention mechanism, so as to reduce the sensitivity of single scale features to segmentation results. A hollow convolution layer is added in the multi?scale feature fusion module to increase the receptive field of multi?scale features, and the multi?scale features of the enlarged receptive field are fused to capture the detailed information and global information of the image, reduce the impact of noise on the segmentation results, and improve the robustness and stability of the segmentation algorithm. The Softmax classifier is used to process the fused features to obtain the scene segmentation results of 3D visual images. By fully?connected conditional random fields (CRFs), the segmentation results are post?processed to optimize the segmentation boundary sharpness and improve the segmentation accuracy. Experimental results show that the proposed algorithm can effectively extract multi?scale features of 3D visual images and segment the scene of 3D visual images, and the boundary of scene segmentation is very clear. It is a new idea for the processing and analysis of 3D visual images.
Keywords: multi?scale; feature fusion; 3D vision; image scene segmentation; attention mechanism; dilated convolution; Softmax classifier; CRF
0 "引 "言
三維視覺圖像處理與分析技術不僅推動無人駕駛、智慧城市、虛擬現實、增強現實等新興技術的快速發展[1],還拓寬了計算機視覺技術在工業檢測、醫療影像、安防監控等各個領域的應用范圍[2]。三維視覺圖像場景分割作為計算機視覺領域中的一項關鍵技術,旨在將三維場景圖像劃分為多個具有相似性質的區域或對象,實現對場景內容的精細理解和分析[3]。
深入研究三維場景分割算法,有助于揭示三維數據內在的結構與規律,推動計算機視覺理論向更高層次發展。例如,文獻[4]首先運用顯著區域檢測技術自動辨識圖像中的關鍵目標區域,降低后續處理的復雜度和計算需求。文獻[5]通過預處理輸入圖像,提取能夠表征圖像區域特性的描述符;利用相似性度量方法計算不同描述符之間的相似度,確定相似區域與不相似區域。文獻[6]通過引入動態權衡因子,調整圖像處理過程中的各項參數,抑制噪聲的負面影響,同時保留圖像的細微特征。文獻[7]在ResNet網絡架構上引入金字塔池化模塊,將輸入圖像劃分為數個尺寸不一的網格,并全局平均池化處理各網格圖像,池化后的特征圖被上采樣到原始尺寸,并與原始特征圖進行拼接,實現全局上下文信息與局部細節信息的有效融合,使用Softmax分類器得到圖像分割結果。
三維視覺圖像中,不同物體和場景的特征往往具有不同的尺度。導致上述方法在多尺度下存在一定的問題,通過多尺度特征融合可以捕捉到從局部細節到全局結構的多層次信息,從而更準確地分割出圖像中的不同部分。同時,多尺度特征融合能夠減少噪聲對分割結果的影響。不同尺度的特征可以相互補充,降低單一尺度特征對分割結果的敏感性,提高算法的魯棒性和穩定性。為此,本文研究多尺度特征融合下三維視覺圖像場景分割算法,為三維視覺圖像的處理與分析提供新的思路和方法。
1 "三維視覺圖像場景分割算法
為提升三維視覺圖像場景分割精度,設計一種多尺度特征融合與雙重注意力機制的網絡(MD?AUNet),通過雙路徑多信息域注意力模塊提取三維視覺圖像的多尺度特征[8]。利用多尺度特征融合模塊融合不同尺度的特征,減少噪聲對分割結果的影響,提升分割算法的魯棒性與穩定性[9];利用softmax分類器處理融合后的特征,得到三維視覺圖像場景分割結果;通過全連接條件隨機場、后處理分割結果,考慮像素之間的空間關系,優化分割邊界的清晰度,提高分割精度。
1.1 "三維視覺圖像多尺度特征提取
三維視覺圖像通常包含豐富的空間信息和復雜的結構特征,不同尺度的特征對于理解整個場景至關重要。在MD?AUNet中,雙路徑多信息域注意力模塊的雙路徑設計允許網絡并行處理不同尺度的信息,更全面地捕捉圖像中的多層次特征。三維視覺圖像不同尺度的特征之間可能存在冗余或相互干擾。通過結合頻域通道注意力機制和空間注意力機制,該模塊能夠自動學習并強調對場景分割任務更為關鍵的特征,同時抑制不重要的或冗余的特征,減少特征間的干擾,提高分割的準確性。
該模塊提取三維視覺圖像多尺度特征的具體步驟如下。
步驟1:將輸入的三維視覺圖像A劃分成[N]組。
步驟2:對各組進行卷積處理,提取三維視覺圖像的多尺度特征,公式如下:
[Xi=Convki×ki, MiAi, " "i=0,1,2,…,N-1] (1)
式中:[Conv]是卷積操作;[Mi]是分組大小;[ki]是卷積核大小,用于在不同感受野下提取三維視覺圖像特征,較大的卷積核能夠捕獲更全局的信息,較小的卷積核則更專注于局部細節,通過尺寸不一的卷積核便可實現多尺度特征提取。
步驟3:以拼接方式處理[Xi],得到最終的多尺度特征提取結果。
[X=ConcatX0,X1,X2,…,XN-1] (2)
1.1.1 "頻域通道注意力機制的多尺度特征加權處理
頻域通道注意力機制能夠增強網絡對三維視覺圖像特征圖中不同通道重要性的識別能力。在三維視覺圖像中,不同通道可能包含不同的語義信息,通過頻域通道注意力機制,網絡能夠自動學習并強調對分割任務更為關鍵的通道特征[10],抑制不重要的通道特征,提高分割精度。
在頻域通道注意力機制中,離散余弦變換(DCT)可以提取通道間的特征相關性。通過對特征圖進行DCT變換,可以捕捉到不同通道間的能量分布和相關性信息[11],為后續的注意力權重分配提供依據。DCT的計算公式如下:
[g=i=0H-1j=0W-1xi,jHW] (3)
式中:[xi,j]是三維視覺圖像的多尺度特征圖;[H]、[W]是[xi,j]的高度與寬度。
依據[g]計算頻域通道注意力的權值[ω],公式如下:
[ω=sigmoidfgX] (4)
式中[f]是激活函數。
加權后的三維視覺圖像多尺度特征為:
[X=ωlXl] (5)
式中[l]是通道編號。
二維DCT能夠將通道注意力擴展至頻域通道注意力內,二維DCT的計算公式如下:
[g2h,w=gxHW] (6)
通過二維DCT可獲取三維視覺圖像多尺度特征的多頻譜向量,公式如下:
[Zl=2g2h,wXl] (7)
采用多頻譜向量可獲取更多的三維視覺圖像多尺度特征信息[12],分組卷積時,原始通道數是分組后通道數的[η]倍。通過拼接方式處理[Zl],得到最終的多頻譜向量,公式如下:
[Z=ConcatZ0,Z1,Z2,…,Zη-1] (8)
利用sigmoid激活函數處理,得到頻域通道注意力加權后的三維視覺圖像多尺度特征,公式如下:
[X=sigmoidfZ] (9)
1.1.2 "空間注意力機制的多尺度特征加權處理
空間注意力機制關注于三維視覺圖像多尺度特征圖中每個空間位置的重要性。在三維視覺圖像中,由于光照變化、遮擋、噪聲等因素,不同空間位置的特征質量可能存在差異[13]。通過空間注意力機制,網絡能夠聚焦于對分割結果影響較大的關鍵區域,忽略或減弱噪聲等不利因素的影響,提高分割結果的魯棒性和穩定性。
對第[l]、[l+1]個通道的三維視覺圖像多尺度特征圖展開1×1的卷積處理,確保二者的通道和尺寸一致,公式如下:
[Xl,1=φConv1×1Xl] (10)
[Xl+1,1=φConv1×1Xl+1] (11)
式中[φ]是組標準化操作。
對[Xl,1]與[Xl+1,1]展開進行ReLU激活處理,公式如下:
[Xl,l+1=ReLUXl,1⊕Xl+1,1] (12)
式中[Xl,l+1]是融合兩個通道后的三維視覺圖像多尺度特征。
空間注意力權值為:
[?l,l+1=11+e-Conv1×1Xl,l+1] (13)
空間注意力加權后的三維視覺圖像多尺度特征為:
[X=Resample?l,l+1?Xl] (14)
雙路徑多信息域注意力模塊輸出的最終三維視覺圖像多尺度特征為:
[X=softmaxX⊕X] (15)
1.2 "三維視覺圖像多尺度特征融合
在多尺度特征融合模塊內添加空洞卷積層,擴展三維視覺圖像多尺度特征的感受野,更全面地考慮上下文信息,降低單一尺度特征對分割結果的敏感性,并對空洞卷積層處理后的不同尺度特征進行融合,捕捉三維視覺圖像的細節信息和全局信息,減少噪聲對分割結果的影響,提升分割算法的魯棒性與穩定性。
空洞卷積操作的公式如下:
[vτ=kXτ+λkαk] (16)
式中:[τ]是三維視覺圖像多尺度特征圖的像素點編號;[α]是卷積核;[λ]是輸入多尺度特征圖的采樣間隔。以調整[λ]的方式,便可獲取不同感受野的三維視覺圖像多尺度特征圖,進而進一步提取不同感受野下的三維視覺圖像特征,即不同尺度的三維視覺圖像特征。
多尺度特征融合模塊中,利用二層空洞卷積層進一步提取不同尺度下的三維視覺圖像特征,并以加權融合的方式,融合二層空洞卷積層處理后的三維視覺圖像特征,得到多尺度特征融合結果[V]。
1.3 "三維視覺圖像場景分割的實現
利用softmax分類器處理1.2節得到的多尺度特征融合結果[V],從而得到三維視覺圖像場景分割概率,公式如下:
[qyj=eψjVieψiV] (17)
式中:[qyj]是預測結果為第[j]個三維視覺圖像特征屬于類別[yj]的概率;[ψjV]、[ψiV]是第[j]、[i]個激活輸出。
利用全連接條件隨機場,考慮像素之間的空間關系,優化三維視覺圖像場景分割邊界的清晰度,提升分割精度。
能量函數的計算公式如下:
[Oy=τ, μγyτ+γyτ,yμ] (18)
式中:[γyτ]、[γyτ,yμ]是一元、二元勢能函數;[τ]、[μ]是三維視覺圖像特征圖的像素編號。
以迭代方式,令[Oy]降至最低,細化分割邊緣,此時獲取的分割結果即最終的三維視覺圖像場景分割結果。
2 "實驗分析
以某三維視覺圖像數據集為實驗對象,該三維視覺圖像數據集的相關參數如表1所示。
在該三維視覺圖像數據集內,隨機選擇一幅三維視覺圖像,如圖1所示。
根據圖1可知,該幅三維視覺圖像中包含小汽車和道路兩部分場景。
在10×10、5×5、2×2三個感受野下,利用本文算法提取該三維視覺圖像的多尺度特征,部分多尺度特征提取結果如圖2所示。
根據圖2可知,本文算法可有效在10×10、5×5、2×2三個感受野下分別提取三維視覺圖像特征,進而獲取三維視覺圖像多尺度特征。其中:大感受野(10×10)能夠捕捉全局結構信息,對于理解整個場景布局和物體間的空間關系至關重要;小感受野(2×2)則專注于局部細節,有助于識別物體邊緣、紋理等細微特征;中等感受野(5×5)則介于兩者之間,提供更為平衡的全局與局部信息,可為后續三維視覺圖像場景分割提供全面的數據支持。
利用本文算法對該幅三維視覺圖像的多尺度特征進行融合,并預測三維視覺圖像場景分割結果,場景分割預測結果如圖3所示。
根據圖3可知,本文算法可有效依據多尺度特征融合結果,得到三維視覺圖像場景分割預測結果,但預測的場景分割結果邊界較為模糊,需要對其展開進一步處理,優化場景分割邊界的清晰度,如圖4所示。
根據圖4可知,本文算法可有效利用全連接條件隨機場,優化預測的三維視覺圖像場景分割結果,使得優化過程能夠考慮全局信息,不僅僅是局部鄰域。這種全局視野有助于在邊界區域產生更加平滑和一致的分割結果,經過優化后場景分割的邊界非常清晰。
3 "結 "語
在三維視覺圖像場景中,從宏觀到微觀的不同尺度上都有豐富的細節,如天空、云層、樹木、建筑物等。通過融合這些不同尺度的特征,可以更全面地描述圖像中的對象,提高分割的精確度。為此,本文提出一種多尺度特征融合下三維視覺圖像場景分割算法,通過整合不同尺度的特征信息,實現對復雜場景的高效分割。
參考文獻
[1] 王雪琦,何澤浩,朱巧芬,等.面向頭戴式三維顯示的圖像質量測評方法和系統[J].應用光學,2024,45(3):598?607.
[2] 孫紅,楊晨,莫光萍,等.基于雙分支特征提取的輕量級圖像分割算法[J].包裝工程,2023,44(11):299?308.
[3] 應俊杰,樓陸飛,辛宇.基于深度學習的無監督領域自適應語義分割算法綜述[J].電子技術應用,2024,50(1):1?9.
[4] 何亞茹,葛洪偉.視覺顯著區域和主動輪廓結合的圖像分割算法[J].計算機科學與探索,2022,16(5):1155?1168.
[5] BIRANE A, HAMAMI L. A fast level set image segmentation driven by a new region descriptor [J]. IET image processing, 2021, 15(3): 615?623.
[6] 劉以,邱軍海,張嘉星,等.基于權衡因子和多維空間度量的高魯棒性圖像分割算法[J].圖學學報,2024,45(3):482?494.
[7] 王嘉,張楠,孟凡云,等.基于金字塔場景分析網絡改進的語義分割算法[J].計算機工程與應用,2021,57(19):220?227.
[8] 孫克強,繆君,江瑞祥,等.基于空洞卷積與多尺度特征融合的室內場景單圖像分段平面三維重建[J].傳感技術學報,2021,34(3):370?378.
[9] 易清明,張文婷,石敏,等.多尺度特征融合的道路場景語義分割[J].激光與光電子學進展,2023,60(12):92?100.
[10] 艾青林,張俊瑞,吳飛青.基于小目標類別注意力機制與特征融合的AF?ICNet非結構化場景語義分割方法[J].光子學報,2023,52(1):189?202.
[11] 李鈺,袁晴龍,徐少銘,等.基于感知注意力和輕量金字塔融合網絡模型的室內場景語義分割方法[J].華東理工大學學報(自然科學版),2023,49(1):116?127.
[12] 余娜,劉彥,魏雄炬,等.基于注意力機制和金字塔融合的RGB?D室內場景語義分割[J].計算機應用,2022,42(3):844?853.
[13] 郭昕剛,王佳,屈諾希,等.基于梯度方向的Canny SLIC圖像分割算法[J].計算機仿真,2021,38(9):465?469.
作者簡介:閆景富(1978—),男,山西晉中人,博士研究生,副教授,研究方向為信號檢測與智能信息處理、嵌入式系統與智能儀器。
王鵬飛(1998—),男,新疆昌吉人,碩士研究生,研究方向為計算機視覺。