999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自注意力機制的IW方法與3D-BoNet的實例分割網絡

2024-01-01 00:00:00昝國寬宗成婕高鵬翔
青島大學學報(自然科學版) 2024年3期
關鍵詞:特征提取特征方法

摘要:

針對實例分割算法中點云特征提取困難和魯棒性低的問題,提出一種基于自注意力機制與3D-BoNet算法的實例分割網絡(IW-BoNet)。在特征提取階段,提出基于自注意力機制的Instance Wise(IW)方法,采用自注意力模塊學習特征權重,捕捉實例上下文信息;將3D-BoNet模型中的歐式距離損失函數替換為Smooth L1損失函數。在STPLS3D數據集上的性能測試結果表明,與3D-BoNet模型相比,IW-BoNet模型平均均值精度提升6.2%,魯棒性得到提升,能夠更加高效地提取實例信息。

關鍵詞:

實例分割;深度學習;神經網絡;點云;自注意力

中圖分類號:TP399

""""""文獻標志碼:A

文章編號:10061037(2024)03005505

doi:10.3969/j.issn.10061037.2024.03.09

收稿日期:2024-03-02

基金項目:

山東省自然科學基金(批準號:ZR2019PEE018)資助。

通信作者:

高鵬翔,男,教授,主要研究方向為計算機視覺。E-mail: gaopengxiang@qdu.edu.cn

三維場景實例分割在現代工業應用中具有提升生產效率、促進智能化生產等優勢,目前廣泛應用在無人駕駛,智能機器人等領域。在三維點云實例分割任務中,算法把每個點歸類為一個實例,分割結果更加準確、細致,對于物體識別等領域十分重要。三維點云數據能保存物體顏色、位置等信息,很好地保留空間幾何特征,在自動駕駛、機器人等三維場景中作為數據輸入被廣泛應用[1]。但在三維場景實例分割算法處理中,三維點云數據本身具有的稀疏性和不規范性等特點導致點云特征提取困難,限制了模型的處理性能。目前,針對三維點云特征提取方法分為基于點的方法[2-5],基于區域的方法[6-10]和基于全局的方法[11-14]。其中,基于點的方法是利用點的特性,提取點的位置、顏色等信息,這種方式比較簡單,能夠保留相關特性,但難以用于復雜空間物體識別任務;基于點的方法中,一些方法選擇共享的逐點MLP直接訓練點云,對數據形狀具有適應性[2-3]。基于區域的方法是利用點云數據的空間結構信息,關注點的鄰近區域,通過與鄰近點數據聚合,挖掘深層語義信息,可以采用最遠點采樣進行下采樣獲取中心點,在中心點用K近鄰算法獲取鄰近點[8-10],可有效利用上下文捕獲中心點語義特征,但缺乏對全局信息的捕獲,容易丟失一些空間結構信息。基于全局的方法中,全局特征提取時考慮整個點云數據的結構和屬性,能夠提供對點云整體內容的理解。對點云數據中的旋轉、縮放具有較強的魯棒性,但同時存在對局部細節捕捉不足的缺點。受到Transformer方法從整體提取全局特征的啟發,利用Transformer提出的自注意力機制提取點云特征[7-9],能夠充分提取全局三維特征空間信息[15-16]。自注意力方法能夠去除冗余信息,對學習到的重要特征分配特征權重,可應用于局部和全局特征的提取。基于自注意力機制提出的Transformer模型,最初應用于自然語言處理任務,能夠捕捉上下文依賴關系,易遷移到其他領域模型,是當前應用研究的重點。為了解決點云特征提取困難的問題,本文提出多層感知機與自注意力機制相結合的實例級語義特征提取方法,利用Transformer模型中自注意力機制提升特征提取能力,將IW方法與3D-BoNet實例分割模型相結合,構成實例分割網絡Instance Wise-BoNet(IW-BoNet)。

1" 三維實例分割模型

1.1" 實例分割網絡Instance Wise-BoNet

3D-BoNet[14]模型是一個端到端的實例分割網絡,由主干網絡和實例預測兩部分組成,主干網絡利用PointNet++提取點云特征。實例預測通過主干網絡輸出特征,由邊界框預測分支和點掩碼預測分支構成,邊界框預測分支是根據輸入的全局點云特征預測目標邊界框,點掩碼分支則根據目標邊界框和點云特征預測實例。但3D-BoNet的主干網絡在提取特征性能方面缺少實例特征的提取能力,同時邊界框預測損失函數魯棒性低。本文基于自注意力機制與3D-BoNet模型設計了IW-BoNet實例分割網絡,在IW-BoNet模型中提出(Instance Wise,IW)方法用于提升主干網絡提取實例特征的能力,采用Smooth L1損失函數提升模型訓練魯棒性。如圖1所示,IW-BoNet模型主干網絡使用Unet結構,通過在訓練過程中調優IW方法權重參數,提升實例級語義特征的表達能力。

IW-BoNet主干網絡由四層IW方法和三層上采樣特征傳播層(Features Propagation,FP)構成,IW方法通過下采樣提取用于邊界框預測的全局點云特征。全局特征被特征傳播層上采樣后生成的局部特征作為點掩碼預測分支輸入,與目標邊界框生成實例掩碼。給定點云數據P,維度為(n,9),n表示數據條數,9為特征維度,其中9個特征維度由三維坐標X、Y、Z、顏色RGB和歸一化的坐標組成。點云數據P作為主干網絡的輸入,經過下采樣,生成全局特征,然后通過全局特征上采樣特征傳播生成點云局部特征。

1.2" IW方法

Transformer具有強大的特征處理能力,核心自注意力機制本質上具有置換不變性,本文設計了基于自注意力機制的IW方法提取點云特征。如圖2所示,首先對點云特征進行最遠點下采樣(Farthest Point Sampling,FPS),得到數量為1/4的下采樣的中心點,然后通過K近鄰算法(K Nearest Neighbor,KNN)和多層感知機(Multi Layer Perceptron,MLP)獲取每一個點的局部特征,最后對每點的局部特征進行自注意力機制操作,以提取實例級別語義特征。

在自注意力機制中,將點云特征X作為輸入,通過MLP操作分別投影到鍵(key,K),查詢(query,Q)。同時為了更好的實現信息傳遞和權重共享,將值(value,V)等于K,來提高模型的泛化能力

Q=Linear(X);K=V=Linear(X)(1)

對矩陣Q與矩陣K的轉置執行矩陣點乘生成特征矩陣,再對特征矩陣做歸一化,然后使用Softmax生成注意力權重。注意力權重與V特征矩陣相乘得到實例級語義特征向量f

f=softmax(Q⊙KT/D)⊙V(2)

點云特征經過四層IW方法生成具有實例語義信息的全局特征,并作為邊界框預測分支輸入,生成目標邊界框。

2" 損失函數

3D-BoNet中為了計算預測邊界框和真實框之間的相似性,使用頂點之間歐式距離損失函數進行評估。頂點之間距離差異過大,會導致損失值異常,影響模型訓練穩定性。因為使用Smooth L1損失函數能夠降低預測邊界框與真實框造成的梯度異常,所以采用Smooth L1損失函數替代3D-BoNet模型中的歐式距離,以提升模型魯棒性。邊界框采用min-max表示法

{[xmin,ymin,zmin], [xmax,ymax,zmax]}(3)

其中,xmin,ymin和zmin表示邊界框坐標最小值,xmax,ymax和zmax表示最大值。

預測邊界框與真實框坐標作為Smooth L1 loss輸入,計算預測邊界框和真實框相似性

SmoothL1(B--B)=0.5x2|x|lt;1|x|-0.5otherwise(4)

其中,B-為預測邊界框,B為真定框。

3" 實驗結果與討論

在STPLS3D數據集上評估IW-BoNet模型性能,STPLS3D是模擬航空攝影測量點云數據生成過程的室外合成數據集,包含25個城市景觀,有14個類別。分析實驗結果時,采用均值精度(Average Precision,AP)評估每一類型的精度,使用平均均值精度(Mean Average Precision,mAP)評估模型的整體性能,設置交并比閾值為0.5。

在NVIDIA 2080ti單卡設備上運行IW-BoNet模型,初始學習率為0.001,epoch設定100輪,batchsize設定為4,IW-BoNet模型與經典的點云實例分割算法比較結果見表1(mean代表mAP)。ASIS[17]是一種學習語義感知的逐點實例嵌入模型,PointGroup[6]是將點云特征進行分組提取實例的分割模型。IW方法與Smooth L1損失函數的改進使3D-BoNet模型在mAP指標上提升6.2%,與ASIS點云分割模型相比提升

11.9%,相比于PointGroup模型提升3%,在mAP指標上達到41.5%的精確度。在每一類型評估中,相比其他模型,IW-BoNet模型的14類中有4類AP結果顯示最優,與原模型3D-BoNet相比有9類獲得提升,說明了IW-BoNet的有效性。

為驗證Smooth L1損失函數對模型魯棒性的改進效果,在3D-BoNet算法的基礎上單獨添加Smooth L1損失函數。如圖3所示,通過實驗獲得Loss變化曲線圖,隨著epoch的增加,添加Smooth L1損失函數的模型Loss梯度下降比原模型3D-BoNet更快,驗證了使用Smooth L1作為損失函數增強模型訓練魯棒性的有效性。

為驗證IW方法提升模型精確度的有效性,在Smooth L1改進基礎之上添加了IW方法。在下采樣過程應用IW方法,利用中心點局部特征和注意力權重結合的方式獲取實例級別點云特征,通過實驗驗證該方法在提升模型精確度方面的有效性。將實驗結果與經典分割算法相對比,mAP相比于經典分割算法更優,并且在14個類別中有4個類別獲得最優結果,證實了IW方法的有效性。圖4為標注數據、3D-BoNet模型和IW-BoNet模型的實例分割對比效果圖,在3D-BoNet模型分割結果中,存在明顯的錯分割問題,屬于同一實例點云被識別為多個實例,而從IW-BoNet模型分割結果來看實例物體的外形輪廓更準確,減少了一些錯分割的狀況,可知,IW-BoNet模型對實例的捕捉效果更優。

對比IW-BoNet模型與3D-BoNet模型的推理速度,在NVIDIA 2080ti GPU硬件設備上對于同樣的輸入,3D-BoNet模型推理耗時為153 ms,而由于采用自注意力機制,導致IW-BoNet模型推理速度稍微受到影響,推理速度為160 ms。與增加微小的推理速度相比,IW-BoNet模型的精確度得到了大幅提高。

4" 結論

本文基于自注意力機制與3D-BoNet模型提出實例分割模型IW-BoNet,通過提出的IW方法提升了模型的實例特征提取能力,并使用Smooth L1 loss損失函數提升模型魯棒性。與經典模型的對比實驗結果表明,IW-BoNet模型在平均均值精度mAP評估指標上與3D-BoNet原模型相比提升6.2%,同時平衡了推理速度,具有較強的魯棒性。未來將考慮引入剪枝的方法,進一步壓縮模型規模,方便在現實場景中的應用。

參考文獻

[1]GUO Y L, WANG H Y, HU Q Y, et al. Deep learning for 3D point clouds: A survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021,43(12): 4338-4364.

[2]QI C R, SU H, MO K C, et al. PointNet: Deep learning on point sets for 3D classification and segmentation[C]// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, 2017: 77-85

[3]QI C R, YI L, SU H, et al. PointNet++: Deep hierarchical feature learning on point sets in a metric space[C]// International Conference on Neural Information Processing Systems. Long Beach, 2017: 5105-5114.

[4]KLASING K, WOLLHERR D, BUSS M. A clustering method for efficient segmentation of 3D laser data[C]// IEEE International Conference on Robotics and Automation. Pasadena, 2008: 4043-4048.

[5]QIAN G C, LI Y C, PENG H W, et al.PointNeXt: Revisiting pointnet++ with improved training and scaling strategies[DB/OL]. [2023-12-21]. https://arxiv.org/abs/2206.04670.

[6]JIANG L, ZHAO H S, SHI S S, et al. PointGroup: Dual-set point grouping for 3D segmentation[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, 2020: 4866-4875.

[7]高金金, 李潞洋. 一種改進的點云Transformer深度學習模型[J]. 中北大學學報(自然科學版), 2021, 42(6): 515-523.

[8]劉文婷, 盧新明. 基于計算機視覺的Transformer研究進展[J]. 計算機工程與應用, 2022, 58(6): 1-16.

[9]付苗苗, 鄧淼磊, 張德賢. 基于深度學習和Transformer的目標檢測算法[J]. 計算機工程與應用, 2023, 59(1): 37-48.

[10] THOMAS H, QI C R, DESCHAUD J E, et al. KPConv: Flexible and deformable convolution for point clouds[C]// IEEE/CVF International Conference on Computer Vision. Seoul, 2019: 6410-6419.

[11] 韓磊, 高永彬, 史志才. 基于稀疏Transformer的雷達點云三維目標檢測[J]. 計算機工程, 2022, 48(11): 104-110+144.

[12] WANG Y, SUN Y B, LIU Z W, et al. Dynamic graph CNN for learning on point clouds[J]. ACM Transactions on Graphics, 2019, 38(5): 1-12.

[13] ZHAO H S, JIANG L, FU C W, et al. PointWeb: Enhancing local neighborhood features for point cloud processing[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, 2019: 5565-5573.

[14] YANG B, WANG J N, CLARK R, et al. Learning object bounding boxes for 3D instance segmentation on point clouds[C]// International Conference on Neural Information Processing Systems. Vancouver, 2019: 6740-6749.

[15] ZHAO H S, JIANG L, JIA J Y, et al. Point transformer[C]// IEEE/CVF International Conference on Computer Vision. Montreal, 2021: 16259-16268.

[16] LAI X, LIU J H, JIANG L, et al. Stratified transformer for 3D point cloud segmentation[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, 2022: 8490-8499.

[17] WANG X L, LIU S, SHEN X Y, et al. Associatively segmenting instances and semantics in point clouds[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, 2019: 4091-4100.

Instance Segmentation Network Based on IW Method of Self-attention Mechanism and 3D-BoNet Algorithm

ZAN Guo-kuan1, ZONG Cheng-jie2, GAO Peng-xiang1

(1. College of Computer Science amp; Technology, Qingdao University, Qingdao 266071, China;

2. Hengxing University, Qingdao 266041, China)

Abstract:

Aiming at the difficulty of point cloud feature extraction and low robustness in instance segmentation algorithms, an instance segmentation network (IW-BoNet) based on self-attention mechanism and 3D-BoNet algorithm was proposed. In the stage of feature extraction, a novel approach leveraging the self-attention mechanism, named of Instance Wise (IW), was proposed. The utilization of a self-attention module enabled effective learning of feature weights and facilitates capturing comprehensive contextual information pertaining to each instance. The Euclidean distance loss function in the 3D-BoNet model was replaced with the Smooth L1 loss function. The performance test on the STPLS3D dataset shows that compared with the original 3D-BoNet model, the average mean accuracy of IW-BoNet model is improved by 6.2%, and the robustness is improved, which can extract the instance information more efficiently.

Keywords:

instance segmentation; deep learning; neural networks; point cloud; self-attention

猜你喜歡
特征提取特征方法
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
基于MED和循環域解調的多故障特征提取
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 日韩欧美高清视频| 99久久婷婷国产综合精| 亚洲有无码中文网| 亚洲成人免费在线| 欧美综合中文字幕久久| 在线播放精品一区二区啪视频 | 亚洲高清无在码在线无弹窗| 亚洲婷婷六月| 欧美综合成人| 中文字幕66页| 久久99国产乱子伦精品免| 国产成人禁片在线观看| 日韩欧美一区在线观看| 亚洲精品视频网| 日韩成人免费网站| 亚洲第一区在线| 日韩精品亚洲精品第一页| 免费国产在线精品一区| 久久国产精品无码hdav| 成人国产小视频| av一区二区无码在线| 国产尤物jk自慰制服喷水| 亚洲无码高清免费视频亚洲| 91精品国产自产在线老师啪l| 成人午夜视频在线| 少妇精品久久久一区二区三区| 亚洲大学生视频在线播放| 女人天堂av免费| 日韩精品成人网页视频在线| 亚洲精品无码久久久久苍井空| 国产精品欧美激情| 国产免费羞羞视频| 国产乱子伦手机在线| 麻豆精品国产自产在线| 久久情精品国产品免费| 亚洲av日韩综合一区尤物| 久久综合婷婷| 日韩黄色精品| 婷婷亚洲视频| 亚洲天堂网站在线| 91精品国产一区自在线拍| 日韩美女福利视频| 国产第一页亚洲| 国产丰满成熟女性性满足视频| 性69交片免费看| 亚洲成a人片在线观看88| 亚洲免费福利视频| 毛片三级在线观看| 在线播放国产一区| 免费视频在线2021入口| 乱系列中文字幕在线视频 | 91欧美亚洲国产五月天| 97青草最新免费精品视频| 免费a在线观看播放| 国产凹凸视频在线观看| 精品久久蜜桃| 亚洲精品无码av中文字幕| 露脸一二三区国语对白| 少妇精品久久久一区二区三区| 无码AV日韩一二三区| 国产高清精品在线91| 午夜精品影院| 国产精品久久久久久久久久98| 亚洲无码在线午夜电影| 日本影院一区| 日韩在线播放中文字幕| 99r在线精品视频在线播放| 热这里只有精品国产热门精品| 一级爱做片免费观看久久| 五月婷婷综合在线视频| 久久无码免费束人妻| 色综合狠狠操| 色首页AV在线| 欧美日韩国产成人高清视频| 欧美黑人欧美精品刺激| 五月婷婷综合色| 青青热久免费精品视频6| 亚洲国产中文综合专区在| 国产成人精品视频一区二区电影| 精品人妻无码中字系列| 久久黄色一级片| 久久中文电影|