
中圖分類號:TP399 文獻(xiàn)標(biāo)志碼:A
3D Object Detection Network Based on Self-attention Mechanism for Regional Proposal Optimization
ZHANG Xin1 ,BI Bo-xue2,ZAN Guo-kuan3,ZHAO Jun-li1,WAN Zhi-bo1 (1. College of Computer Science 8. Technology,Qingdao University,Qingdao 266071,China; 2. Jimo District People's Hospital,Qingdao 266299,China; 3. Network Information Department, Chengyang District People's Hospital, Qingdao 266109,China)
Abstract: In the proposal refinement stage of the object detection algorithms there were two key problems including insufficient capture of contextual information and inadequate modeling of feature correlations. The improvement of detection accuracy was restricted by these problems. To address these challengs,a 3D object detection network for region proposal optimization, namely Proposal Refinement Optimization-RCNN (PRO-RCNN), based on the self-attention mechanism was proposed. On the basis of the PV-RCNN is model,the Transformer model was utilized to dynamically learn feature weights,capture rich contextual information,and model the correlations between objects,thereby optimizing the proposal generation results. The experimental results on the KITTI dataset show that the accuracy of PRO-RCNN is improved in all test diffculty categories, the average precision of pedestrian category detection is increased by 2% to 3% :
Keywords: object detection; deep learning; point cloud; self-attention; neural network
激光雷達(dá)點云在計算機視覺中至關(guān)重要,廣泛應(yīng)用于自動駕駛、增強現(xiàn)實和機器人等領(lǐng)域[1-]。為了處理傳感器(如單目攝像機、深度攝像機、激光雷達(dá)和雷達(dá))捕獲的數(shù)據(jù),研究者提出了多種方法。2D目標(biāo)檢測側(cè)重于在RGB圖像和視頻中識別目標(biāo),而3D目標(biāo)檢測則依賴點云表示,點云數(shù)據(jù)通常來源于激光雷達(dá)或其他傳感器,精度高于RGB圖像和視頻數(shù)據(jù)[8],在自動駕駛和增強現(xiàn)實等領(lǐng)域得到廣泛應(yīng)用。3D目標(biāo)檢測能夠提供精確的空間信息,顯著提升機器對物理世界的理解和交互能力,推動了智能系統(tǒng)的發(fā)展與應(yīng)用。然而,復(fù)雜場景下目標(biāo)檢測算法的執(zhí)行仍面臨挑戰(zhàn),特別是在處理復(fù)雜幾何形狀時。目前,目標(biāo)檢測的細(xì)化區(qū)域提案方法主要分為基于點云特征的細(xì)化方法、基于體素特征的細(xì)化方法和基于上下文信息的細(xì)化方法[9-11]。基于點云特征的細(xì)化方法回歸原始空間點云結(jié)構(gòu),利用最基本的點云信息進(jìn)行細(xì)化,能夠有效保留相關(guān)特性,但在復(fù)雜場景中應(yīng)用受限。基于體素特征的細(xì)化方法首先將點云轉(zhuǎn)換為體素表示并提取特征[12-13],然后在解碼階段將特征還原到原始空間進(jìn)行細(xì)化。然而,這種方法往往缺乏對全局信息的捕獲,可能導(dǎo)致點云結(jié)構(gòu)信息的丟失。基于上下文信息的細(xì)化方法通過分析目標(biāo)物體與周圍環(huán)境的關(guān)系,推測目標(biāo)物體的位置、大小和姿態(tài)等信息,從而調(diào)整提案區(qū)域,通常結(jié)合全局特征提取器,并與提案區(qū)域的特征進(jìn)行融合。Transformer[14]架構(gòu)因其在捕獲全局依賴關(guān)系方面的優(yōu)勢,已廣泛應(yīng)用于 2D和3D目標(biāo)檢測領(lǐng)域。利用 Transformer 提出的自注意力機制提取點云特征[15-16],能夠充分捕捉全局3D特征信息[17]。DETR[18]通過端到端訓(xùn)練簡化了傳統(tǒng)目標(biāo)檢測的復(fù)雜步驟,使基于Transformer的2D目標(biāo)檢測方法逐漸成為主流。在 3D目標(biāo)檢測中,像3DETR[1-20]等方法將 Transformer 應(yīng)用于稀疏點云數(shù)據(jù)處理,顯著提升了性能。盡管這些方法在目標(biāo)檢測精度和模型魯棒性方面取得了顯著進(jìn)展,但在捕獲點云的全局上下文信息和特征關(guān)聯(lián)性方面能力不足,導(dǎo)致提案細(xì)化不夠準(zhǔn)確,從而影響最終的檢測性能。近年來,基于點云的3D目標(biāo)檢測技術(shù)在多模態(tài)交互、數(shù)據(jù)質(zhì)量優(yōu)化與計算效率提升方向取得顯著進(jìn)展,如CP-DETR[21]通過引人概念提示機制,穩(wěn)定地減少下游任務(wù)中的對齊偏差;針對雷達(dá)點云固有的稀疏性與噪聲干擾缺陷,HGSFusion[22」提出混合生成—同步模塊聯(lián)合優(yōu)化幾何結(jié)構(gòu)重建與語義信息稠密化,RCTrans[23]基于Transformer 架構(gòu)設(shè)計自適應(yīng)注意力雷達(dá)編碼器,增強低質(zhì)量雷達(dá)數(shù)據(jù)的特征表達(dá)能力;面向跨數(shù)據(jù)集泛化需求,Lidar Distillation[24]基于點云數(shù)據(jù)的跨域知識蒸餾框架,通過隱式特征遷移緩解域間分布差異。在輕量化架構(gòu)設(shè)計領(lǐng)域,Voxel-NeXt[25] 利用全稀疏體素網(wǎng)絡(luò)架構(gòu),顯著降低計算資源消耗;SparseBEV[26]引入動態(tài)稀疏卷積策略,實現(xiàn)資源分配效率與檢測精度的協(xié)同優(yōu)化。本文提出了一種基于自注意力機制的3D區(qū)域提案優(yōu)化方法(ProposalRefinement Optimization,PRO),并以此為核心改進(jìn)經(jīng)典的 PV-RCNN[11]模型,構(gòu)建了一個新的 3D 目標(biāo)檢測網(wǎng)絡(luò)(PRO-RCNN),通過引人自注意力機制對候選框進(jìn)行精細(xì)化調(diào)整,顯著提升了PV-RCNN在復(fù)雜場景下的檢測性能。
1 3D目標(biāo)檢測網(wǎng)絡(luò)
1.1 目標(biāo)檢測網(wǎng)絡(luò)PRO-RCNN
PV-RCNN模型是經(jīng)典的兩階段3D目標(biāo)檢測模型,包含3D提案生成和提案細(xì)化。模型首先對原始點云進(jìn)行體素化處理,并將其輸入基于3D稀疏卷積的編碼器中,以學(xué)習(xí)多尺度語義特征并生成3D目標(biāo)提案。通過體素集抽象(Voxel Set Abstraction,VSA)模塊,將多個體素特征聚合為一組關(guān)鍵點,關(guān)鍵點特征被映射到RoI(Region of Interest)網(wǎng)格點,學(xué)習(xí)提案特定的特征,從而實現(xiàn)細(xì)粒度的提案細(xì)化和置信度預(yù)測。然而,PV-RCNN在提案細(xì)化階段未能有效捕捉關(guān)鍵特征的全局依賴關(guān)系與上下文信息,PRO-RCNN主要優(yōu)化PV-RCNN的提案生成部分,利用PRO方法來替代原模型的RoI網(wǎng)格池化模塊,引人Transformer 模型動態(tài)學(xué)習(xí)特征權(quán)重,捕捉豐富的上下文信息與目標(biāo)間的關(guān)聯(lián)性,進(jìn)而提高提案細(xì)化的精度與魯棒性。
PRO-RCNN的整體架構(gòu)如圖1所示,主干網(wǎng)絡(luò)采用了3D稀疏卷積網(wǎng)絡(luò),用于對體素化后的點云數(shù)據(jù)進(jìn)行多尺度語義特征學(xué)習(xí)。將稀疏點云轉(zhuǎn)換為鳥瞰視圖(Bird's-Eye View,BEV),并在BEV視圖中使用RPN(Region ProposalNetwork)生成候選區(qū)域,以提升語義特征的表達(dá)能力。通過最遠(yuǎn)點采樣算法(Far-thest Point Sampling,F(xiàn)PS)選取關(guān)鍵點云,利用VSA 模塊將整個場景的多尺度體素特征編碼為一小部分關(guān)鍵點特征,PRO方法通過自注意力機制提取關(guān)鍵點云的上下文特征,然后優(yōu)化和細(xì)化RPN生成的提案。
圖1PRO-RCNN整體網(wǎng)絡(luò)架構(gòu)

1.2 PRO方法
PRO方法是基于Transformer架構(gòu)實現(xiàn)的,具有強大的特征處理能力,核心自注意力機制本質(zhì)上具有置換不變性。如圖2所示,PRO方法首先對點云特征進(jìn)行池化(Pool),以降低數(shù)據(jù)維度并保留關(guān)鍵特征信息,編碼器(Encoder)對這些特征編碼,提取更加豐富和抽象的特征表示,并傳遞給注意力模塊(AttentionModule)進(jìn)行特征聚合,捕捉全局依賴關(guān)系并增強特征的表達(dá)能力。
在注意力模塊中,點云特征作為輸入數(shù)據(jù),通過3個不同的線性變換將特征映射到查詢(Query,
)、鍵( Key,K) 和值(Value, ∣V? 的向量空間,且向量空間維度都是 1×(C/H) ,其中 c 表示點云特征的通道數(shù)量, H 代表調(diào)整特征維度相關(guān)的縮放因子: Q=Linear(X);K=Linear(X) :V=Linear(X) 。通過Attention操作,計算
與 κ 的轉(zhuǎn)置矩陣的點積,以得到注意力分?jǐn)?shù),并對其進(jìn)行縮放:
為鍵向量的維度。
圖2PRO結(jié)構(gòu)

使用Softmax對得到的注意力分?jǐn)?shù)進(jìn)行歸一化,得到注意力權(quán)重,并與 u 特征相乘,求和,得到注意力加權(quán)后的特征向量: ?:F=Attention(Q,K,V)=Softmax(Score(Q,K))V, ,將所有
拼接起來,并通過另一個線性變換進(jìn)行特征聚合,細(xì)化生成的提案區(qū)域,同時預(yù)測置信度。
2損失函數(shù)
損失函數(shù)包括區(qū)域提議網(wǎng)絡(luò)損失(RPN)、關(guān)鍵點分割損失和提案細(xì)化優(yōu)化(PRO)模塊損失,這些組件相互作用,共同構(gòu)建網(wǎng)絡(luò)的訓(xùn)練目標(biāo),在訓(xùn)練過程中實現(xiàn)有效的學(xué)習(xí)與優(yōu)化,其中關(guān)鍵點分割損失 Lseg 采用焦點損失計算。
RPN 模塊損失:
r∈(xy,.)Lsmoot-L1((r,r),其中,錨分類損失Ls通過具有默認(rèn)超參數(shù)的焦點損失計算得到,而
損失用于具有預(yù)測殘差
和回歸目標(biāo) r 的錨框回歸。
PRO模塊損失:LPRo=N。
,其中,
分別表示分?jǐn)?shù)預(yù)測、分?jǐn)?shù)目標(biāo)和殘差預(yù)測、殘差目標(biāo),只有在 I(IoUigt;t )時才會出現(xiàn)回歸損失。
3 實驗結(jié)果與討論
在 KITTI[2]數(shù)據(jù)集上評估PRO-RCNN網(wǎng)絡(luò)的性能。KITTI3D目標(biāo)檢測基準(zhǔn)是自動駕駛領(lǐng)域廣泛使用的數(shù)據(jù)集,包含7481個訓(xùn)練樣本和7518個測試樣本,其中3712個用于訓(xùn)練,3769個用于驗證。性能評估采用平均精度(AP)指標(biāo),并按照目標(biāo)大小、遮擋程度和截斷水平分為“容易”“中等\"和“困難\"3個難度級別。車輛、行人和騎自行車者的IoU閾值分別設(shè)定為0.7、O.5和0.5,所有實驗基于OpenPCDet框架,確保了結(jié)果的公平性。
在 NVIDIA3090 單卡設(shè)備上訓(xùn)練PRO-RCNN網(wǎng)絡(luò),初始學(xué)習(xí)率設(shè)為0.001,訓(xùn)練輪數(shù)為50,batch size為4,權(quán)重衰減參數(shù)固定為0.01。該網(wǎng)絡(luò)訓(xùn)練顯存大約占用 15G ,相比于原模型PV-RCNN節(jié)省3G顯存空間,訓(xùn)練時間為 13h ,相比于原模型PV-RCNN訓(xùn)練時間縮短 2h 。PRO-RCNN網(wǎng)絡(luò)與經(jīng)典的點云目標(biāo)檢測算法在40個召回位置上對比了平均精度(AP),結(jié)果見表1,PRO-RCNN檢測精度加粗顯示,并對最佳檢測精度使用下劃線標(biāo)出。相較于 IA-SSD[28] 算法,汽車類別的平均精度提高了 1%~2% ;與Part A2[10] 算法相比,行人類別的平均精度提高了 10% ;與PV-RCNN算法相比,行人類別提高了 3% ,騎自行車者類別也提升了 1% 。相比其他模型,PRO-RCNN在9個類別中有7個類別的AP結(jié)果最佳,與原模型PV-RCNN相比,有8個類別獲得了提升,證明了PRO-RCNN的有效性。
表1不同檢測算法在40個召回位置的平均精度比較

PRO-RCNN 網(wǎng)絡(luò)與經(jīng)典點云目標(biāo)檢測算法在KITTI測試數(shù)據(jù)集上的平均精度(AP)比較結(jié)果見表2。與DBQ- SSD[29] 算法相比,汽車類別在中等難度下的平均精度提高了 5% ;與IA-SSD 算法相比,行人類別的平均精度提高了 6% 。相較于其他模型,PRO-RCNN在9個類別中有6個類別的AP結(jié)果最優(yōu),與原模型PV-RCNN相比,7個類別取得了提升,證明了PRO-RCNN在提高目標(biāo)檢測準(zhǔn)確性方面的有效性。
表2不同檢測算法的平均精度比較

針對 PRO方法中的注意力模塊數(shù)量,PRO-RCNN 網(wǎng)絡(luò)進(jìn)行了消融實驗,旨在評估不同數(shù)量的注意力模塊對目標(biāo)檢測性能的影響,結(jié)果見表3。對比在困難場景下不同類別(AP)的檢測結(jié)果,采用單一注意力模塊時,PRO-RCNN網(wǎng)絡(luò)在所有測試場景下的檢測效果最佳,驗證了單一注意力模塊在提升特征學(xué)習(xí)和網(wǎng)絡(luò)性能中的有效性和可行性。
如圖3所示,為了評估PRO-RCNN與原模型PV-RCNN在3D目標(biāo)檢測中的性能差異,對比分析兩者在不同IoU閾值和檢測階段下的召回率。實驗均在相同的環(huán)境條件下進(jìn)行,以確保公平性,分別設(shè)置IoU閾值為0.3、0.5和0.7。分別在ROI階段和RCNN階段計算召回率,全面評估了兩種模型在不同階段的表現(xiàn)。實驗結(jié)果表明,PRO-RCNN在所有IoU閾值和檢測階段下均展現(xiàn)出比PV-RCNN更優(yōu)的魯棒性,尤其在較高的IoU 閾值下,PRO-RCNN的召回率顯著高于PV-RCNN,表明其更有效地處理高難度目標(biāo),減少漏檢現(xiàn)象。然而,PRO-RCNN在某些低難度場景下的優(yōu)勢并不明顯,可能與訓(xùn)練數(shù)據(jù)的偏差和注意力機制的處理方式有關(guān)。
表3PRO方法不同注意力模塊數(shù)量影響

如圖4所示,比較了PV-RCNN與PRO-RCNN在訓(xùn)練過程中損失函數(shù)的變化。實驗中,橫坐標(biāo)表示訓(xùn)練輪次(從10到50),縱坐標(biāo)表示損失值。可以看出,PRO-RCNN在每個訓(xùn)練階段的損失值下降幅度較大且更加平穩(wěn),特別是在前期階段,損失函數(shù)下降的速度明顯快于PV-RCNN模型。說明 PRO-RCNN能夠在優(yōu)化過程中實現(xiàn)更快速的收斂,且具有較高的精度,即PRO-RCNN在初期階段通過更好的提案細(xì)化機制顯著提高了模型的精度。PRO-RCNN在訓(xùn)練過程中相較于PV-RCNN展現(xiàn)出更優(yōu)的性能。
圖3PV-RCNN模型與PRO-RCNN在不同IoU、不同階段的召回率比較

圖4訓(xùn)練期間損失函數(shù)變化對比

如圖5所示,將 PRO-RCNN網(wǎng)絡(luò)應(yīng)用于KITTI數(shù)據(jù)集進(jìn)行測試,得到了一些在不同的復(fù)雜場景下的可視化示例結(jié)果。可以明顯看出,PRO-RCNN網(wǎng)絡(luò)不僅能夠精確探測各種類別目標(biāo),還能生成準(zhǔn)確的3D邊界框。具體地,汽車由綠色框表示,行人由藍(lán)色框表示,騎自行車的人由黃色框表示,每個檢測框還顯示了其周圍的置信度值,充分證明了網(wǎng)絡(luò)在目標(biāo)檢測任務(wù)中的高效性和可靠性。通過置信度評估檢測結(jié)果的可信度,從而優(yōu)化后續(xù)決策過程。例如,在自動駕駛場景中,車輛可以優(yōu)先對高置信度的目標(biāo)采取行動,而對低置信度的目標(biāo)進(jìn)行傳感器融合或補充檢測,以減少漏檢和誤檢的風(fēng)險,不僅增強了該網(wǎng)絡(luò)在復(fù)雜場景中的適應(yīng)性,還為自動駕駛系統(tǒng)的感知模塊提供了更加精準(zhǔn)的輸入數(shù)據(jù)。從可視化示例中可以看出,PRO-RCNN在處理目標(biāo)間距較近、遮擋較嚴(yán)重以及點云稀疏區(qū)域時,依然能夠準(zhǔn)確地捕獲目標(biāo)邊界,并對目標(biāo)進(jìn)行分類。
圖5KITTI測試集上不同場景的定性結(jié)果

4結(jié)論
本文提出了一種基于自注意力機制和PV-RCNN框架改進(jìn)的新型3D目標(biāo)檢測網(wǎng)絡(luò)(PRO-RCNN),將基于自注意力機制構(gòu)建的PRO模塊嵌人到PV-RCNN 的提案細(xì)化階段,使網(wǎng)絡(luò)能夠動態(tài)捕捉長距離上下文特征依賴,從而提升對遮擋目標(biāo)和復(fù)雜場景的檢測魯棒性。與PV-RCNN的對比實驗結(jié)果表明,PRO-RCNN在KITTI3D目標(biāo)檢測任務(wù)中,各個難度類別的精度均有所提升。未來的研究可以進(jìn)一步優(yōu)化網(wǎng)絡(luò)在不同場景下的表現(xiàn),提升其在不同難度目標(biāo)檢測中的一致性。同時,深入優(yōu)化網(wǎng)絡(luò)性能,減少計算成本,以提高在實際應(yīng)用中的效率和適配性。
參考文獻(xiàn)
[1]CHENX Z,MAHM,WANJ,etal.Multi-view3DobjectdetectionnetworkforautonomousdrivingC]//30thIEEE/CVFConference on Computer Vision and Pattern Recognition.Honolulu,20l7:6526-6534.
[2]SOG ZYUL,JAFY,etal.Robustnes-aware3dobectdetectioinutoomousdriving:ArevieandoutlookJIEEra actions on Intelligent Transportation Systems,2024,25(11):15407-15436.
[3],趙益,張志梅.基于YOLOv3的車輛檢測算法[J].青島大學(xué)學(xué)報(自然科學(xué)版),2020,33(3):57-64.
[4]劉澤平,劉明興,麻方達(dá),等.基于移動目標(biāo)檢測和目標(biāo)追蹤的全局視覺 AGV的定位算法[J].青島大學(xué)學(xué)報(自然科學(xué)版),2022,35 (1):85-92.
[5]QICR,SUH,MOKC,etal.PintNet:Deplearnngonpointsetsfor3DclasificationandsegmentationC/3othIEEE/CVFCon ference on Computer Vision and Pattern Recognition. Honolulu,2ol7:75-85.
[6]QI CR,YIL,SUH,et al.PointNet ++ : Deep hierarchical feature learning on point sets in a metric space[C]// 3lst Annual Conference on Neural Information Processing Systems. Long Beach,2ol7:1745976.
[7]于蘭蘭,張志梅,劉堃,等.候選框算法在車輛檢測中的應(yīng)用分析[J].青島大學(xué)學(xué)報(自然科學(xué)版),2018,31(2):67-74.
[8]SONG SR,XIAOJX.Deepliding shapes fora modal 3Dobjectdetection inRGB-Dimages[C]/IEEEConferenceonComputer Vision and Pattern Recognition. Columbus,20l6:808-816.
[9]SHISS,WANGXG,LIHS.PointRCNN:3DjectproposalgenerationanddetectionfrompointoudC]/3ndIEEE/CVFCofer ence on ComputerVision and Pattern Recognition. Long Beach,2o19:770-779.
[10]SHISS,WANGZ,SHJP,etalFrompoints toparts:3dbectdetectionfrompointcloudwithpart-awareandpart-aggregatioet work[J]. IEEE Transactions on Pattern Analysis and Machine Inteligence,202o,43(8):2647-2664.
[1]SHISS,GUOCX,JANGLetal.Pvrn:PointvoxelfeaturesetabstractionfodbjectdeteioC]//IEEE/CVFCofereceo ComputerVision and Pattern Recognition.Electr Network,2020:10529-10538.
[12]YAN Y,MAOY X,LI B.Second:Sparsely embedded convolutional detection[J]. Sensors,2018,18(10):337.
[13]LANGA HVORAS,CAESAR H,etalPintPilas:Fastencodersfrojectdetetonfrompointcouds[C]/IEE/CVCoference on Computer Vision and Pattern Recognition.Long Beach,2o19:12689-12697.
[14]VASWANIA,SHAZEER N,PARMAR N,et al.Atention is allyou neeDB/OL].[2024-12-18].https:/arxivorg/abs/1706. 03762?undefined.
[15]GUO M H,CAIJX,LIUZ N,et al. Pct: Point cloud transformer[J]. Computational Visual Media,2021,7:187-199.
[16]ZHAOHS,JANGL,JIAJY,etal.PointtransformerC]/IEEE/CVFInternationalConferenceon Computer VisionMontrea, 2021:16239-16248.
[17]韓磊,高永彬,史志才.基于稀疏 Transformer的雷達(dá)點云三維目標(biāo)檢測[J]。.計算機工程,2022,48(11):104-110十144.
[18]CARIONNMASSAF,YAEVEG,etal.End-toendbectdetectionwithtransformersC]//EuroeanConferenceonputer Vision.Munich,2020:213-229.
[19]MISRA I,GDHARR,JOUINA.Anendtoendtransformermodelfor3djectdetectionC/IEE/CVFInternationalCoerence on Computer Vision. Electr Network,2021:2886-2897.
[20]ZHUXZ,SUWJ,LULW,etal.Deformabledetr:Deformabletransformersforend-to-endbjectdetectioDB/OL].22-18]. https://arxiv.org/pdf/2o10.04159.
[21]CHENQB,JINWZ,GEJY,etal.CP-DETR:Concept prompt guide DETR toward strongeruniversalobject detection[DB/OL]. [2024-12-18]. https://arxiv. org/pdf/2412.09799.
[22]GUZJ,MAJW,HUANGY,etal.HGSFusion;Radar-camerafusion withhybrid generationandsynchronzationfor3dobectete tion[DB/OL]. [2024-12-18]. https://arxiv.org/pdf/2412.11489.
[23]LIYH,YANGY,EIZ.RCTrans:Radar-cameratransformerviardardensifierandsequentialdecoderfor3dbjectdetectioDB/ OL].[2024-12-18]. https://arxiv.org/pdf/2412.12799.
[24]WEIY,WEZB,AOY,talLidardisilloridgingtebeam-iucedomaindbectdetetoCuroano ference on Computer Vision.Electr Network,2022:179-195.
[25]CHENYK,LUJH,ZHANGX Y,etal.Voxelnext:Fulysparsevoxelnetfor3dbjectdetectionandtrackingC]/IEE/CVFConference on Computer Vision and Pattern Recognition. Vancouver,2O23:2l674-21683.
[26]LIUHS,ENGY,LUT,etal.Sparsebev:HighperformancesparsedbjectdetectiofrommulticameravideosC/IEE/CVFInternational Conference on ComputerVision. Paris,2023:18580-18590.
[27]GEIGER A,LENZ P,URTASUNR.Are wereadyforautonomous driving?The KITTvisionbenchmarksuiteC]//IEEEConference on Computer Vision and Pattern Recognition. Providence,20l2:3354-3361.
[28]ZHANGYF,HUQY,XUGQ,etal.Notallpointsareequal:Learninghighlyeficientpoint-baseddetectorsfor3dlidarpointclouds [DB/OL]. [2024-12-18]. https:/arxiv.org/pdf/2203.11139.
[29]YANGJR,SONGL,IUST,etalDb-sdDyamicballqueryforefient3dobectdetectionDB/OL].224-12-18tps/ arxiv.org/pdf/2207.10909.