基于自注意力機制的IW方法與3D-BoNet的實例分割網絡

2024-01-01 00:00:00昝國寬宗成婕高鵬翔

青島大學學報(自然科學版) 2024年3期

摘要：

針對實例分割算法中點云特征提取困難和魯棒性低的問題，提出一種基于自注意力機制與3D-BoNet算法的實例分割網絡（IW-BoNet）。在特征提取階段，提出基于自注意力機制的Instance Wise（IW）方法，采用自注意力模塊學習特征權重，捕捉實例上下文信息；將3D-BoNet模型中的歐式距離損失函數替換為Smooth L1損失函數。在STPLS3D數據集上的性能測試結果表明，與3D-BoNet模型相比，IW-BoNet模型平均均值精度提升6.2%，魯棒性得到提升，能夠更加高效地提取實例信息。

關鍵詞：

實例分割；深度學習；神經網絡；點云；自注意力

中圖分類號：TP399

""""""文獻標志碼：A

文章編號：10061037（2024）03005505

doi：10.3969/j.issn.10061037.2024.03.09

收稿日期：2024-03-02

基金項目：

山東省自然科學基金（批準號：ZR2019PEE018）資助。

通信作者：

高鵬翔，男，教授，主要研究方向為計算機視覺。E-mail： gaopengxiang@qdu.edu.cn

三維場景實例分割在現代工業應用中具有提升生產效率、促進智能化生產等優勢，目前廣泛應用在無人駕駛，智能機器人等領域。在三維點云實例分割任務中，算法把每個點歸類為一個實例，分割結果更加準確、細致，對于物體識別等領域十分重要。三維點云數據能保存物體顏色、位置等信息，很好地保留空間幾何特征，在自動駕駛、機器人等三維場景中作為數據輸入被廣泛應用［1］。但在三維場景實例分割算法處理中，三維點云數據本身具有的稀疏性和不規范性等特點導致點云特征提取困難，限制了模型的處理性能。目前，針對三維點云特征提取方法分為基于點的方法［2-5］，基于區域的方法［6-10］和基于全局的方法［11-14］。其中，基于點的方法是利用點的特性，提取點的位置、顏色等信息，這種方式比較簡單，能夠保留相關特性，但難以用于復雜空間物體識別任務；基于點的方法中，一些方法選擇共享的逐點MLP直接訓練點云，對數據形狀具有適應性［2-3］。基于區域的方法是利用點云數據的空間結構信息，關注點的鄰近區域，通過與鄰近點數據聚合，挖掘深層語義信息，可以采用最遠點采樣進行下采樣獲取中心點，在中心點用K近鄰算法獲取鄰近點［8-10］，可有效利用上下文捕獲中心點語義特征，但缺乏對全局信息的捕獲，容易丟失一些空間結構信息。基于全局的方法中，全局特征提取時考慮整個點云數據的結構和屬性，能夠提供對點云整體內容的理解。對點云數據中的旋轉、縮放具有較強的魯棒性，但同時存在對局部細節捕捉不足的缺點。受到Transformer方法從整體提取全局特征的啟發，利用Transformer提出的自注意力機制提取點云特征［7-9］，能夠充分提取全局三維特征空間信息［15-16］。自注意力方法能夠去除冗余信息，對學習到的重要特征分配特征權重，可應用于局部和全局特征的提取。基于自注意力機制提出的Transformer模型，最初應用于自然語言處理任務，能夠捕捉上下文依賴關系，易遷移到其他領域模型，是當前應用研究的重點。為了解決點云特征提取困難的問題，本文提出多層感知機與自注意力機制相結合的實例級語義特征提取方法，利用Transformer模型中自注意力機制提升特征提取能力，將IW方法與3D-BoNet實例分割模型相結合，構成實例分割網絡Instance Wise-BoNet（IW-BoNet）。

1" 三維實例分割模型

1.1" 實例分割網絡Instance Wise-BoNet

3D-BoNet［14］模型是一個端到端的實例分割網絡，由主干網絡和實例預測兩部分組成，主干網絡利用PointNet++提取點云特征。實例預測通過主干網絡輸出特征，由邊界框預測分支和點掩碼預測分支構成，邊界框預測分支是根據輸入的全局點云特征預測目標邊界框，點掩碼分支則根據目標邊界框和點云特征預測實例。但3D-BoNet的主干網絡在提取特征性能方面缺少實例特征的提取能力，同時邊界框預測損失函數魯棒性低。本文基于自注意力機制與3D-BoNet模型設計了IW-BoNet實例分割網絡，在IW-BoNet模型中提出（Instance Wise，IW）方法用于提升主干網絡提取實例特征的能力，采用Smooth L1損失函數提升模型訓練魯棒性。如圖1所示，IW-BoNet模型主干網絡使用Unet結構，通過在訓練過程中調優IW方法權重參數，提升實例級語義特征的表達能力。

IW-BoNet主干網絡由四層IW方法和三層上采樣特征傳播層（Features Propagation，FP）構成，IW方法通過下采樣提取用于邊界框預測的全局點云特征。全局特征被特征傳播層上采樣后生成的局部特征作為點掩碼預測分支輸入，與目標邊界框生成實例掩碼。給定點云數據P，維度為（n，9），n表示數據條數，9為特征維度，其中9個特征維度由三維坐標X、Y、Z、顏色RGB和歸一化的坐標組成。點云數據P作為主干網絡的輸入，經過下采樣，生成全局特征，然后通過全局特征上采樣特征傳播生成點云局部特征。

1.2" IW方法

Transformer具有強大的特征處理能力，核心自注意力機制本質上具有置換不變性，本文設計了基于自注意力機制的IW方法提取點云特征。如圖2所示，首先對點云特征進行最遠點下采樣（Farthest Point Sampling，FPS），得到數量為1/4的下采樣的中心點，然后通過K近鄰算法（K Nearest Neighbor，KNN）和多層感知機（Multi Layer Perceptron，MLP）獲取每一個點的局部特征，最后對每點的局部特征進行自注意力機制操作，以提取實例級別語義特征。

在自注意力機制中，將點云特征X作為輸入，通過MLP操作分別投影到鍵（key，K），查詢（query，Q）。同時為了更好的實現信息傳遞和權重共享，將值（value，V）等于K，來提高模型的泛化能力

Q=Linear（X）;K=V=Linear（X）（1）

對矩陣Q與矩陣K的轉置執行矩陣點乘生成特征矩陣，再對特征矩陣做歸一化，然后使用Softmax生成注意力權重。注意力權重與V特征矩陣相乘得到實例級語義特征向量f

f=softmax（Q⊙KT/D）⊙V（2）

點云特征經過四層IW方法生成具有實例語義信息的全局特征，并作為邊界框預測分支輸入，生成目標邊界框。

2" 損失函數

3D-BoNet中為了計算預測邊界框和真實框之間的相似性，使用頂點之間歐式距離損失函數進行評估。頂點之間距離差異過大，會導致損失值異常，影響模型訓練穩定性。因為使用Smooth L1損失函數能夠降低預測邊界框與真實框造成的梯度異常，所以采用Smooth L1損失函數替代3D-BoNet模型中的歐式距離，以提升模型魯棒性。邊界框采用min-max表示法

{［xmin，ymin，zmin］，［xmax，ymax，zmax］}（3）

其中，xmin，ymin和zmin表示邊界框坐標最小值，xmax，ymax和zmax表示最大值。

預測邊界框與真實框坐標作為Smooth L1 loss輸入，計算預測邊界框和真實框相似性

SmoothL1（B-－B）=0.5x2|x|lt;1|x|－0.5otherwise（4）

其中，B-為預測邊界框，B為真定框。

3" 實驗結果與討論

在STPLS3D數據集上評估IW-BoNet模型性能，STPLS3D是模擬航空攝影測量點云數據生成過程的室外合成數據集，包含25個城市景觀，有14個類別。分析實驗結果時，采用均值精度（Average Precision，AP）評估每一類型的精度，使用平均均值精度（Mean Average Precision，mAP）評估模型的整體性能，設置交并比閾值為0.5。

在NVIDIA 2080ti單卡設備上運行IW-BoNet模型，初始學習率為0.001，epoch設定100輪，batchsize設定為4，IW-BoNet模型與經典的點云實例分割算法比較結果見表1（mean代表mAP）。ASIS［17］是一種學習語義感知的逐點實例嵌入模型，PointGroup［6］是將點云特征進行分組提取實例的分割模型。IW方法與Smooth L1損失函數的改進使3D-BoNet模型在mAP指標上提升6.2%，與ASIS點云分割模型相比提升

11.9%，相比于PointGroup模型提升3%，在mAP指標上達到41.5%的精確度。在每一類型評估中，相比其他模型，IW-BoNet模型的14類中有4類AP結果顯示最優，與原模型3D-BoNet相比有9類獲得提升，說明了IW-BoNet的有效性。

為驗證Smooth L1損失函數對模型魯棒性的改進效果，在3D-BoNet算法的基礎上單獨添加Smooth L1損失函數。如圖3所示，通過實驗獲得Loss變化曲線圖，隨著epoch的增加，添加Smooth L1損失函數的模型Loss梯度下降比原模型3D-BoNet更快，驗證了使用Smooth L1作為損失函數增強模型訓練魯棒性的有效性。

為驗證IW方法提升模型精確度的有效性，在Smooth L1改進基礎之上添加了IW方法。在下采樣過程應用IW方法，利用中心點局部特征和注意力權重結合的方式獲取實例級別點云特征，通過實驗驗證該方法在提升模型精確度方面的有效性。將實驗結果與經典分割算法相對比，mAP相比于經典分割算法更優，并且在14個類別中有4個類別獲得最優結果，證實了IW方法的有效性。圖4為標注數據、3D-BoNet模型和IW-BoNet模型的實例分割對比效果圖，在3D-BoNet模型分割結果中，存在明顯的錯分割問題，屬于同一實例點云被識別為多個實例，而從IW-BoNet模型分割結果來看實例物體的外形輪廓更準確，減少了一些錯分割的狀況，可知，IW-BoNet模型對實例的捕捉效果更優。

對比IW-BoNet模型與3D-BoNet模型的推理速度，在NVIDIA 2080ti GPU硬件設備上對于同樣的輸入，3D-BoNet模型推理耗時為153 ms，而由于采用自注意力機制，導致IW-BoNet模型推理速度稍微受到影響，推理速度為160 ms。與增加微小的推理速度相比，IW-BoNet模型的精確度得到了大幅提高。

4" 結論

本文基于自注意力機制與3D-BoNet模型提出實例分割模型IW-BoNet，通過提出的IW方法提升了模型的實例特征提取能力，并使用Smooth L1 loss損失函數提升模型魯棒性。與經典模型的對比實驗結果表明，IW-BoNet模型在平均均值精度mAP評估指標上與3D-BoNet原模型相比提升6.2%，同時平衡了推理速度，具有較強的魯棒性。未來將考慮引入剪枝的方法，進一步壓縮模型規模，方便在現實場景中的應用。

參考文獻

［1］GUO Y L， WANG H Y， HU Q Y， et al. Deep learning for 3D point clouds： A survey［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2021，43（12）： 4338-4364.

［2］QI C R， SU H， MO K C， et al. PointNet： Deep learning on point sets for 3D classification and segmentation［C］// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu， 2017： 77-85

［3］QI C R， YI L， SU H， et al. PointNet++： Deep hierarchical feature learning on point sets in a metric space［C］// International Conference on Neural Information Processing Systems. Long Beach， 2017： 5105-5114.

［4］KLASING K， WOLLHERR D， BUSS M. A clustering method for efficient segmentation of 3D laser data［C］// IEEE International Conference on Robotics and Automation. Pasadena， 2008： 4043-4048.

［5］QIAN G C， LI Y C， PENG H W， et al.PointNeXt： Revisiting pointnet++ with improved training and scaling strategies［DB/OL］. ［2023-12-21］. https：//arxiv.org/abs/2206.04670.

［6］JIANG L， ZHAO H S， SHI S S， et al. PointGroup： Dual-set point grouping for 3D segmentation［C］// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle， 2020： 4866-4875.

［7］高金金，李潞洋. 一種改進的點云Transformer深度學習模型［J］. 中北大學學報（自然科學版）， 2021， 42（6）： 515-523.

［8］劉文婷，盧新明. 基于計算機視覺的Transformer研究進展［J］. 計算機工程與應用， 2022， 58（6）： 1-16.

［9］付苗苗，鄧淼磊，張德賢. 基于深度學習和Transformer的目標檢測算法［J］. 計算機工程與應用， 2023， 59（1）： 37-48.

［10］ THOMAS H， QI C R， DESCHAUD J E， et al. KPConv： Flexible and deformable convolution for point clouds［C］// IEEE/CVF International Conference on Computer Vision. Seoul， 2019： 6410-6419.

［11］韓磊，高永彬，史志才. 基于稀疏Transformer的雷達點云三維目標檢測［J］. 計算機工程， 2022， 48（11）： 104-110+144.

［12］ WANG Y， SUN Y B， LIU Z W， et al. Dynamic graph CNN for learning on point clouds［J］. ACM Transactions on Graphics， 2019， 38（5）： 1-12.

［13］ ZHAO H S， JIANG L， FU C W， et al. PointWeb： Enhancing local neighborhood features for point cloud processing［C］// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach， 2019： 5565-5573.

［14］ YANG B， WANG J N， CLARK R， et al. Learning object bounding boxes for 3D instance segmentation on point clouds［C］// International Conference on Neural Information Processing Systems. Vancouver， 2019： 6740-6749.

［15］ ZHAO H S， JIANG L， JIA J Y， et al. Point transformer［C］// IEEE/CVF International Conference on Computer Vision. Montreal， 2021： 16259-16268.

［16］ LAI X， LIU J H， JIANG L， et al. Stratified transformer for 3D point cloud segmentation［C］// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans， 2022： 8490-8499.

［17］ WANG X L， LIU S， SHEN X Y， et al. Associatively segmenting instances and semantics in point clouds［C］// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach， 2019： 4091-4100.

Instance Segmentation Network Based on IW Method of Self-attention Mechanism and 3D-BoNet Algorithm

ZAN Guo-kuan1， ZONG Cheng-jie2， GAO Peng-xiang1

（1. College of Computer Science amp; Technology， Qingdao University， Qingdao 266071， China;

2. Hengxing University， Qingdao 266041， China）

Abstract：

Aiming at the difficulty of point cloud feature extraction and low robustness in instance segmentation algorithms， an instance segmentation network （IW-BoNet） based on self-attention mechanism and 3D-BoNet algorithm was proposed. In the stage of feature extraction， a novel approach leveraging the self-attention mechanism， named of Instance Wise （IW）， was proposed. The utilization of a self-attention module enabled effective learning of feature weights and facilitates capturing comprehensive contextual information pertaining to each instance. The Euclidean distance loss function in the 3D-BoNet model was replaced with the Smooth L1 loss function. The performance test on the STPLS3D dataset shows that compared with the original 3D-BoNet model， the average mean accuracy of IW-BoNet model is improved by 6.2%， and the robustness is improved， which can extract the instance information more efficiently.

Keywords：

instance segmentation; deep learning; neural networks; point cloud; self-attention