





中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)志碼:A
Abstract:Animproved method called CS-Voxel-RCNN is proposed to address the issue of insufficient detection accuracy of Voxel-RCNN algorithm in detecting small distant targetsand occuded targets.Firstly,by introducing three data augmentation methods:random order,random dropout,and random noise,the diversity of training samples is enriched,thereby enhancing the robustnessof the model.Secondly,by integrating CBAM inthe 2D backbone network andutilizing channel attntion mechanism and spatial attention mechanism,multi-scale features are processd in more detail,optimizing the feature fusion effect.Finally,byaddinga DIoU loss branch, theoriginal lossfunction is improved,emphasizing the distance information between the target bounding boxes, thereby improving the accuracy of the target bounding box regression task.Comparative experiments with some classic 3D object detection algorithms on the KITTIdataset are conducted.The results show that the newly proposed algorithm has significantly improved performance,comparedwith theoriginal Voxel RCNN algorithm,with improvements of 2.91 percentage and O.87 percentage for pedestrians and cyclists,respectively.The efectivenessof each improvement module isverified through ablation experiments.Thisseries of improvement methodsachieve positive results in improving the practicality and accuracy of 3D object detection in real scenes.
Key Words:3D object detection; LiDAR point cloud;data augmentation;attention module; feature fusion
近年來,目標(biāo)檢測(cè)在自動(dòng)駕駛環(huán)境感知領(lǐng)域扮演著越來越重要的角色,直接關(guān)系到車輛在復(fù)雜環(huán)境中的安全性1.雖然二維的計(jì)算機(jī)視覺任務(wù)已取得了顯著成就,但在實(shí)際場(chǎng)景中光照變化、天氣條件和深度缺失等因素限制了僅僅依靠二維視覺感知的效果.由于激光雷達(dá)獲取的三維數(shù)據(jù)不受自然光等條件限制,因而彌補(bǔ)了二維視覺領(lǐng)域存在的一些不足.因此,三維目標(biāo)檢測(cè)在自動(dòng)駕駛領(lǐng)域具有極其重要的價(jià)值,是實(shí)現(xiàn)自動(dòng)駕駛路徑規(guī)劃和安全避障的核心研究?jī)?nèi)容.
點(diǎn)云數(shù)據(jù)難以直接應(yīng)用于3D目標(biāo)檢測(cè),主要因?yàn)槠浞墙Y(jié)構(gòu)化、非固定大小、稀疏性、無序性、不規(guī)則形狀和深度信息缺失等特點(diǎn).這使得傳統(tǒng)的計(jì)算機(jī)視覺方法難以有效處理點(diǎn)云數(shù)據(jù),為應(yīng)對(duì)這些挑戰(zhàn),研究者提出了基于深度學(xué)習(xí)的3D目標(biāo)檢測(cè)算法.根據(jù)在3D目標(biāo)檢測(cè)中處理點(diǎn)云數(shù)據(jù)時(shí)采用的不同表達(dá)方式,3D目標(biāo)檢測(cè)算法可分為基于點(diǎn)和基于體素兩種主要的方法[3.基于點(diǎn)的3D目標(biāo)檢測(cè)方法通過直接處理激光雷達(dá)采集的點(diǎn)云數(shù)據(jù),以點(diǎn)為基本單元進(jìn)行目標(biāo)檢測(cè).PointNet4首次根據(jù)點(diǎn)云的無序性采用了端到端的學(xué)習(xí),實(shí)現(xiàn)了對(duì)點(diǎn)云數(shù)據(jù)的直接處理,然而其全局特征建模受限,難以捕捉目標(biāo)的局部結(jié)構(gòu).為了改進(jìn)這一問題, PointNet++[5] 進(jìn)一步考慮點(diǎn)云中的關(guān)鍵點(diǎn)均勻分布,提出了層次化的架構(gòu),從而更好地捕捉點(diǎn)云的多尺度特征.PointCNN[6采用卷積操作處理點(diǎn)云數(shù)據(jù),通過局部結(jié)構(gòu)表示和局部旋轉(zhuǎn)不變性提高了對(duì)點(diǎn)云的特征學(xué)習(xí)能力.Poin-tRCNN[7專注于三維目標(biāo)檢測(cè),將二維目標(biāo)檢測(cè)框架成功應(yīng)用于點(diǎn)云數(shù)據(jù).3DSSD8以單次前向傳播為特點(diǎn),通過多尺度錨框設(shè)計(jì)和3D卷積實(shí)現(xiàn)了高效的目標(biāo)檢測(cè).PolarNet9將點(diǎn)云鳥瞰圖放入極坐標(biāo)進(jìn)行表示,以平衡每個(gè)網(wǎng)格中的點(diǎn)數(shù),重新分配網(wǎng)絡(luò)的注意力,使其關(guān)注極坐標(biāo)系中徑向軸上的長(zhǎng)尾點(diǎn)分布.KPConv[\"提出了一種空間可變形點(diǎn)卷積,相比固定網(wǎng)格卷積具有更大的靈活性.KVGCN[設(shè)計(jì)了一種新的圖卷積網(wǎng)絡(luò)架構(gòu),該架構(gòu)在構(gòu)建的圖的邊緣上執(zhí)行卷積以提取代表性的局部特征,然后使用局部特征描述符聚合成全局向量的技術(shù)來聚集局部和全局上下文特征.GACNet[設(shè)計(jì)了一種圖注意力卷積網(wǎng)絡(luò),根據(jù)不同幾何相鄰點(diǎn)的特征屬性為其分配適當(dāng)?shù)淖⒁饬?quán)重,并由此確定特定的卷積核形狀,從而更好地捕捉點(diǎn)云的結(jié)構(gòu)特征,進(jìn)行細(xì)粒度分割.
基于點(diǎn)的3D目標(biāo)識(shí)別算法直接利用了原始點(diǎn)云數(shù)據(jù),算法能夠更好地捕捉目標(biāo)的全局形狀和結(jié)構(gòu)信息.然而,直接處理上萬個(gè)點(diǎn)的數(shù)據(jù)使得網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,計(jì)算量龐大,對(duì)硬件要求較高,目前仍處于初步研究階段,準(zhǔn)確率相對(duì)基于體素的方法略有不足.
基于體素的方法將激光雷達(dá)感知空間劃分為有序的固定尺寸的三維小網(wǎng)格,使用三維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取.該方法在解決點(diǎn)云稀疏性和規(guī)則化帶來的信息丟失問題上取得了顯著的進(jìn)展.在基于體素的方法中,VoxelNet[13]將點(diǎn)云劃分為等間距的規(guī)則體素,并使用VFE(voxelfeatureencoder,體素特征編碼)層將體素內(nèi)點(diǎn)的特征量化統(tǒng)一.SECOND[14]網(wǎng)絡(luò)采用3D稀疏卷積提取特征,相比VoxelNet加快了點(diǎn)云特征的提取速度,并降低內(nèi)存消耗.PointPillars[15]網(wǎng)絡(luò)將點(diǎn)云立柱化后轉(zhuǎn)化為偽圖像,通過二維卷積提取高維特征,大幅提高了算法的運(yùn)行速度.在此基礎(chǔ)上, PillarNeXt[16] 從分配計(jì)算資源的角度重新審視了局部點(diǎn)聚合器,采用柱狀網(wǎng)格編碼器,并對(duì)2Dbackbone網(wǎng)絡(luò)進(jìn)行改進(jìn),利用ASPP、BiFPN等neck模塊從主干中聚集特征,以擴(kuò)大感受野和融合多尺度環(huán)境.PointPillars ΩN[17] 在原PointPil-lars框架的主干網(wǎng)絡(luò)中加入?yún)f(xié)調(diào)注意力(CA)機(jī)制,能讓網(wǎng)絡(luò)模型專注圖像中有效特征信息 .STD[18] 模型通過將稀疏的點(diǎn)云映射到密集的表示來提高檢測(cè)性能,有效地捕捉目標(biāo)的細(xì)節(jié)信息.MVF-Net[19]專注于多視角信息的融合,利用體素表示,通過融合多個(gè)視角的體素表示,提高了對(duì)點(diǎn)云數(shù)據(jù)的建模能力.Voxel-FPN2提出了基于體素的特征金字塔結(jié)構(gòu),編碼器以自下而上的方式提取并融合多尺度體素信息,而解碼器則以自上而下的方式通過特征金字塔網(wǎng)絡(luò)融合來自各種尺度的多個(gè)特征圖,從而得到來自多尺度的特征信息.3DShapeNets21采用了降低分辨率細(xì)粒度的方法來減少內(nèi)存使用,使用了一種層次式的體素化方法,將三維空間表示為多個(gè)分辨率的體素網(wǎng)格,并使用多個(gè)卷積神經(jīng)網(wǎng)絡(luò)對(duì)不同分辨率的體素網(wǎng)格進(jìn)行處理,但是這反而導(dǎo)致了點(diǎn)云信息的損失.VPFNet[22]是一種創(chuàng)新的3D對(duì)象檢測(cè)架構(gòu),通過引入虛擬點(diǎn)來解決激光雷達(dá)點(diǎn)云與立體圖像之間的分辨率不匹配問題,實(shí)現(xiàn)了更高效的數(shù)據(jù)融合和更高的檢測(cè)精度,同時(shí)在計(jì)算效率上也有顯著表現(xiàn),能夠在單個(gè)GPU上達(dá)到15幀/s的處理速度.MonoLiG[23]框架通過結(jié)合半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)技術(shù),利用LiDAR指導(dǎo)的跨模態(tài)教師-學(xué)生模型來訓(xùn)練單目3D對(duì)象檢測(cè)器,并通過提出基于數(shù)據(jù)噪聲的加權(quán)機(jī)制和傳感器一致性選擇策略,有效地提高了模型性能,同時(shí)大幅減少了所需的標(biāo)注工作量.
Voxel-RCNN24基于此問題引人了創(chuàng)新性的VoxelRoIPooling模塊,作為一種高效的區(qū)域池化方法.該模塊采用體素聚合(voxelquery)方法,允許網(wǎng)絡(luò)更有效地檢索感興趣區(qū)域(regionof interest,RoI)周圍的體素信息.同時(shí),算法結(jié)合了加速的Point-Net++ 網(wǎng)絡(luò),旨在提升目標(biāo)識(shí)別優(yōu)化階段中的局部體素特征提取效率.這種雙重的優(yōu)化策略不僅有效地提高了局部特征的表達(dá)能力,同時(shí)也顯著縮短了整體網(wǎng)絡(luò)的運(yùn)行時(shí)間,因此Voxel-RCNN在車輛識(shí)別任務(wù)中表現(xiàn)出色.然而,由于其缺乏對(duì)不完整點(diǎn)云信息的處理方法,因此在檢測(cè)遠(yuǎn)處目標(biāo)以及受到遮擋的目標(biāo)時(shí)算法性能有待提升.為解決這一問題,本文從原模型的數(shù)據(jù)增強(qiáng)模塊、2D骨干網(wǎng)絡(luò)以及損失函數(shù)這三個(gè)方面進(jìn)行了系統(tǒng)性的改進(jìn),以期在更廣泛的場(chǎng)景中提高檢測(cè)性能.在改進(jìn)的過程中,充分考慮了點(diǎn)云數(shù)據(jù)的特殊性,力求優(yōu)化模型對(duì)不同目標(biāo)的魯棒性和泛化能力,從而使得新模型能夠更好地適應(yīng)復(fù)雜環(huán)境下的目標(biāo)檢測(cè)任務(wù).
1Voxel-RCNN目標(biāo)檢測(cè)模型
1.1算法概述
Voxel-RCNN認(rèn)為:對(duì)于高性能的3D目標(biāo)檢測(cè),對(duì)原始點(diǎn)進(jìn)行精確定位并非是不可或缺的,粗體素粒度同樣能夠達(dá)到卓越的檢測(cè)精度.基于這一觀點(diǎn),構(gòu)建了一個(gè)簡(jiǎn)單而高效的基于體素的目標(biāo)檢測(cè)網(wǎng)絡(luò),即Voxel-RCNN.通過在兩階段方法中充分利用體素特征的優(yōu)勢(shì),Voxel-RCNN最終實(shí)現(xiàn)了與當(dāng)時(shí)最先進(jìn)的基于點(diǎn)的模型(如PV-RCNN[25])相媲美的檢測(cè)精度,同時(shí)計(jì)算開銷大幅減少.
如圖1所示,Voxel-RCNN由三部分組成,分別是3D骨干網(wǎng)絡(luò)、2D骨干網(wǎng)絡(luò) + RPN以及VoxelRoIPooling(體素感興趣區(qū)域池化) + 檢測(cè)頭.其特別設(shè)計(jì)了一個(gè)名為voxelRoIpooling的模塊,該模塊能夠直接從體素特征中提取RoI特征,以便進(jìn)行進(jìn)一步處理.實(shí)驗(yàn)結(jié)果表明,在KITTI數(shù)據(jù)集和Waymo數(shù)據(jù)集上,Voxel-RCNN相較于現(xiàn)有的基于體素的方法,不僅能保持實(shí)時(shí)幀處理速率(即在NVIDIARTX2080TiGPU上達(dá)到25FPS的速率),而且提供了更高的檢測(cè)精度.這一研究成果為基于體素的目標(biāo)檢測(cè)方法的發(fā)展提供了有力的支持,具有顯著的實(shí)際應(yīng)用潛力.
1.23D骨干網(wǎng)絡(luò)設(shè)計(jì)
Voxel-RCNN在構(gòu)建其3D骨干網(wǎng)絡(luò)時(shí)采用了由SECOND網(wǎng)絡(luò)提出的創(chuàng)新性3D稀疏卷積方法.這一設(shè)計(jì)旨在應(yīng)對(duì)直接進(jìn)行3D卷積所帶來的巨大計(jì)算量,通過充分利用點(diǎn)云特征的稀疏性,SECOND提出了一種高效的3D稀疏卷積方法,從而顯著提升了3D卷積操作的執(zhí)行速度.Voxel-RCNN利用SECOND網(wǎng)絡(luò)提出的3D稀疏卷積作為其3D骨干網(wǎng)絡(luò).
對(duì)于3D點(diǎn)云數(shù)據(jù),其通常以稀疏張量的形式進(jìn)行存儲(chǔ),其中只有一小部分位置上存在非零值.具體而言,普通的卷積操作會(huì)對(duì)所有輸入點(diǎn)進(jìn)行響應(yīng),而稀疏卷積則僅考慮稀疏數(shù)據(jù)中的非零值.在進(jìn)行卷積操作時(shí),需要計(jì)算輸人和輸出位置的索引.如圖2所示,稀疏卷積操作將輸入數(shù)據(jù)轉(zhuǎn)換為輸入哈希表,該哈希表明確存儲(chǔ)了輸入點(diǎn)云中非零值的坐標(biāo).通過構(gòu)建規(guī)則表和輸出哈希表,能夠?qū)⒕矸e計(jì)算前后的數(shù)據(jù)相互匹配.通過計(jì)算得到的索引,執(zhí)行卷積計(jì)算,其中包括在輸入和卷積核的非零位置上進(jìn)行乘法運(yùn)算,并將結(jié)果累加到輸出的相應(yīng)位置.由于涉及的位置相對(duì)較少,這種高效的方式相對(duì)于普通卷積更加迅速.
圖23D稀疏卷積過程
Fig.23D sparse convolution process

這一創(chuàng)新性的3D稀疏卷積方法為Voxel-RCNN的性能提升提供了有效的技術(shù)手段.通過引入并行計(jì)算策略,Voxel-RCNN在3D目標(biāo)檢測(cè)任務(wù)中取得了令人矚目的成果,在保持實(shí)時(shí)幀處理速率的同時(shí),極大地提高了檢測(cè)精度.
1.32D骨干網(wǎng)絡(luò)和RPN設(shè)計(jì)
網(wǎng)絡(luò)將經(jīng)過稀疏卷積后的3D特征圖在 z 軸上進(jìn)行壓縮,得到BEV(bird’seyeview)特征圖作為2D骨干網(wǎng)絡(luò)的輸入,在如圖3所示的卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,CNN)中進(jìn)行進(jìn)一步的特征提取.
具體來說,CNN分為兩個(gè)分支進(jìn)行下采樣來得到兩個(gè)不同尺度的特征圖,從而提取輸入數(shù)據(jù)在空間層面的不同細(xì)粒度信息.較低尺度的特征圖具有較大的感受野,能夠捕獲全局信息,但對(duì)于局部細(xì)節(jié)的表示較差.相反,較高尺度的特征圖的感受野較小,其更注重捕獲局部細(xì)節(jié),有助于提高對(duì)細(xì)微特征的敏感性.因此,在下采樣之后通過反卷積操作將得到的特征圖統(tǒng)一到相同維度,最后在通道方向進(jìn)行拼接,得到全局特征圖,從而實(shí)現(xiàn)多尺度的特征圖的聚合.這樣的多尺度特征圖聚合策略在目標(biāo)檢測(cè)任務(wù)中綜合考慮了全局和局部信息,以提高模型對(duì)不同尺度和結(jié)構(gòu)目標(biāo)的識(shí)別性能.具體的卷積操作見表1.
表12D骨干網(wǎng)絡(luò)的卷積操作
Tab.1 Convolution operations in 2D backbone networks

隨后的區(qū)域生成網(wǎng)絡(luò)使用了FasterRCNN26首先提出的區(qū)域生成網(wǎng)絡(luò)(regionproposalnetwork,RPN).RPN網(wǎng)絡(luò)通過在卷積特征圖上進(jìn)行滑動(dòng),生成多個(gè)候選區(qū)域,可能包含目標(biāo)物體.每個(gè)候選區(qū)域都經(jīng)過RPN評(píng)分計(jì)算,選擇高置信度的候選框.滑動(dòng)窗口生成一系列預(yù)定義的錨框,這些錨框具有多樣的尺度和長(zhǎng)寬比,以確保覆蓋各種自標(biāo)的形狀和大小,從而提高RPN的通用性.這些錨框的固定位置和比例是通過在訓(xùn)練數(shù)據(jù)集上的分析和統(tǒng)計(jì)得到的.一個(gè)圖像中的每個(gè)點(diǎn)通常對(duì)應(yīng)多個(gè)錨框,這使得RPN能夠有效地檢測(cè)不同大小的目標(biāo),為后續(xù)目標(biāo)檢測(cè)提供了多樣性的候選框.
RPN由小型卷積網(wǎng)絡(luò)組成,包括卷積層和兩個(gè)并行的全連接層,用于錨框分類和邊界框回歸.卷積層提取卷積特征圖中的特征,全連接層生成每個(gè)錨框的得分和回歸參數(shù).
在每個(gè)滑動(dòng)窗口位置,RPN對(duì)每個(gè)預(yù)定義的錨框執(zhí)行二分類和回歸操作,即目標(biāo)存在的概率(ob-jectnessscore)和修正AnchorBox的邊界框偏移(boundingboxregression).每個(gè)錨框生成兩個(gè)分?jǐn)?shù),表示該錨框包含目標(biāo)和不包含目標(biāo)的概率,同時(shí)生成用于調(diào)整邊界框位置的回歸參數(shù).RPN通過這一系列操作為后續(xù)目標(biāo)檢測(cè)提供了候選框的精選.生成的所有候選框(包括正樣本和部分負(fù)樣本)通過非極大值抑制(non-maximum suppression,NMS)進(jìn)行篩選.NMS排除高度重疊的候選框,保留具有較高目標(biāo)存在概率的框.
最終,RPN輸出的是一系列生成的候選區(qū)域,每個(gè)區(qū)域都有一個(gè)與之關(guān)聯(lián)的目標(biāo)存在概率和邊界框回歸的信息.這些候選區(qū)域會(huì)被送入后繼的RoI池化層,以便進(jìn)一步進(jìn)行自標(biāo)分類和邊界框回歸.
1.4VoxelRoIPooling+檢測(cè)頭設(shè)計(jì)
VoxelRoIPooling是算法的第二階段,旨在對(duì)第一階段提出的候選區(qū)域進(jìn)行進(jìn)一步的優(yōu)化.一般的優(yōu)化手段是采用RoIPooling等技術(shù),將所有候選區(qū)域分割成固定維度,以方便后續(xù)的并行計(jì)算.接著,
3D體素特征被映射到候選區(qū)域內(nèi),過濾掉非候選區(qū)域的特征,重新生成新的候選區(qū)域3D體素.每個(gè)候選區(qū)域被看作一個(gè)獨(dú)立的體素空間,進(jìn)行特征提取,最終微調(diào)第一階段的初步候選區(qū)域.
Voxel-RCNN算法提出了VoxelRoIPooling方法,其運(yùn)用了voxelquery方法和加速的PointNe ++ 方法,以提高體素特征映射和優(yōu)化的效率.其具體流程如下:
1)將初步候選區(qū)域劃分為固定大小的小網(wǎng)格,計(jì)算每個(gè)網(wǎng)格的中心位置以作為特征采樣點(diǎn).
2)以特征采樣點(diǎn)和非空體素的中心位置為基礎(chǔ)計(jì)算它們之間的曼哈頓距離,選取至每個(gè)特征采樣點(diǎn)曼哈頓距離最小的 K 個(gè)體素,如圖4所示,使用voxelquery方法進(jìn)行體素選取,計(jì)算規(guī)定范圍內(nèi)的體素坐標(biāo)并在非空體素坐標(biāo)中進(jìn)行索引.此方法相較于傳統(tǒng)的球查詢(ballquery)方法,提高了體素查詢的效率.
3)在體素特征的聚合過程中,采用了一種加速的 PointNet++ 方法,以便快速地聚集從采樣點(diǎn)鄰域中選取的所有非空體素特征,對(duì)每個(gè)候選區(qū)域的所有網(wǎng)格均使用以上方法進(jìn)行特征映射,有效提升了操作的效率.
4)完成特征映射后,針對(duì)候選區(qū)域網(wǎng)格的特征,利用兩個(gè)全連接層進(jìn)行進(jìn)一步的二次特征提取.接著,采用兩個(gè)由全連接層組成的分支,分別生成目標(biāo)類別的置信度和優(yōu)化回歸的邊界框的優(yōu)化結(jié)果.這一多階段的特征提取和優(yōu)化過程有助于在保持高效性的同時(shí),獲取更準(zhǔn)確的目標(biāo)檢測(cè)結(jié)果.
圖4體素RoI池化和檢測(cè)頭設(shè)計(jì)
Fig.4 The design of voxel RoI pooling and detect head

2基于改進(jìn)Voxel-RCNN算法的道路目標(biāo)檢測(cè)方法
2.1數(shù)據(jù)增強(qiáng)方法
在對(duì)點(diǎn)云數(shù)據(jù)的增強(qiáng)策略方面,本文在原有的方法基礎(chǔ)上引入了三項(xiàng)新的策略,分別是隨機(jī)順序、隨機(jī)丟棄和隨機(jī)噪聲,以進(jìn)一步豐富數(shù)據(jù)樣本的多樣性,提供更全面的信息采樣和更廣泛的變異性,為模型提供更具挑戰(zhàn)性和真實(shí)性的訓(xùn)練樣本,從而在處理小目標(biāo)和受到遮擋目標(biāo)的檢測(cè)問題上取得更好的改進(jìn)效果.
2.1.1 隨機(jī)順序
隨機(jī)順序在點(diǎn)云數(shù)據(jù)處理中的作用是通過隨機(jī)打亂點(diǎn)云或者點(diǎn)云中的點(diǎn)的順序,以增加訓(xùn)練樣本的多樣性,從而提高模型的魯棒性和泛化能力.該操作涵蓋兩個(gè)主要方面:
首先,通過整體打亂點(diǎn)云批次及其對(duì)應(yīng)標(biāo)簽的順序,采用生成索引數(shù)組,并對(duì)其進(jìn)行隨機(jī)打亂的策略.接著,利用打亂后的索引,對(duì)原始數(shù)據(jù)和標(biāo)簽進(jìn)行重新排列,從而實(shí)現(xiàn)整個(gè)批次的隨機(jī)順序.
其次,通過在單個(gè)點(diǎn)云中隨機(jī)打亂點(diǎn)的順序,同樣采用生成點(diǎn)的索引數(shù)組并對(duì)其進(jìn)行隨機(jī)打亂的策略.然后,根據(jù)打亂后的索引,重新排列原始點(diǎn)云數(shù)據(jù),達(dá)到在點(diǎn)云內(nèi)部引入隨機(jī)順序的目的.這一過程旨在在訓(xùn)練中引入更多的數(shù)據(jù)變化,以使模型更好地適應(yīng)不同的數(shù)據(jù)分布,提升其性能表現(xiàn).
2.1.2隨機(jī)丟棄
隨機(jī)丟棄是通過在點(diǎn)云中隨機(jī)去除部分點(diǎn),模擬點(diǎn)云數(shù)據(jù)的不完整性.首先,針對(duì)每個(gè)點(diǎn)云批次,隨機(jī)生成一個(gè)丟棄概率,用于確定是否進(jìn)行丟棄.其次,通過比較隨機(jī)生成的值與設(shè)定的最大丟棄比例,確定需要丟棄的點(diǎn)的索引.如果存在需要丟棄的點(diǎn),將這些點(diǎn)的數(shù)值設(shè)置為該點(diǎn)云中第一個(gè)點(diǎn)的數(shù)值,實(shí)現(xiàn)偽丟棄.最后返回具有隨機(jī)丟棄效果的點(diǎn)云批次.
2.1.3隨機(jī)噪聲
隨機(jī)噪聲是通過對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行小范圍擾動(dòng),以模擬真實(shí)場(chǎng)景中的噪聲.該操作的主要作用是對(duì)每個(gè)點(diǎn)進(jìn)行隨機(jī)偏移,引入小范圍內(nèi)的隨機(jī)擾動(dòng).該操作采用正態(tài)分布生成隨機(jī)噪聲,并將其應(yīng)用于每個(gè)點(diǎn),隨后通過限制噪聲值在預(yù)定的上下限范圍內(nèi),將噪聲添加到原始點(diǎn)云數(shù)據(jù)中.這樣的處理有助于使模型更好地適應(yīng)真實(shí)世界中的各種噪聲情況,提升模型對(duì)不同噪聲環(huán)境的處理能力.
通過引入上述三種數(shù)據(jù)增強(qiáng)方式,模型在解決小目標(biāo)檢測(cè)和被遮擋目標(biāo)檢測(cè)方面取得了顯著改進(jìn)效果.隨機(jī)順序的引入有助于模型更好地處理點(diǎn)云中小目標(biāo)的信息.點(diǎn)云順序被隨機(jī)打亂,樣本多樣性得到提高,進(jìn)而提高模型的泛化能力.隨機(jī)丟棄策略通過模擬真實(shí)場(chǎng)景中的不完整點(diǎn)云,讓模型能夠更好地處理受遮擋目標(biāo)的情況,提高了被遮擋目標(biāo)檢測(cè)的效果.而引人隨機(jī)噪聲則通過模擬真實(shí)噪聲環(huán)境,增強(qiáng)了模型對(duì)噪聲的魯棒性,使其更適應(yīng)復(fù)雜場(chǎng)景,進(jìn)一步提升了小目標(biāo)和被遮擋目標(biāo)檢測(cè)的性能.這三種方法的綜合應(yīng)用為解決小目標(biāo)檢測(cè)和被遮擋目標(biāo)檢測(cè)問題提供了有力的解決途徑,為模型在復(fù)雜場(chǎng)景下的實(shí)際應(yīng)用提供了可靠的支持.
2.2CBAM模塊
在CNN中,卷積運(yùn)算將跨通道信息和空間信息相混合來提取特征,因此過程中有可能損失這兩個(gè)維度的某些特征信息.CBAM(convolutionalblockat-tentionmodule,卷積層注意力模塊)是一種注意力機(jī)制,旨在通過自適應(yīng)地學(xué)習(xí)通道和空間注意力來提升卷積神經(jīng)網(wǎng)絡(luò)的性能.CBAM主要由兩個(gè)模塊組成:通道注意力模塊(channelattentionmodule,CAM)和空間注意力模塊(spatialattentionmodule,SAM).通道注意力模塊通過學(xué)習(xí)各個(gè)通道之間的關(guān)聯(lián)性,以提升有價(jià)值的通道特征;而空間注意力模塊則旨在優(yōu)化不同空間位置之間的關(guān)系,以提升空間特征的辨識(shí)度.這一綜合的結(jié)構(gòu)使得CBAM能通過自適應(yīng)地調(diào)整通道和空間的關(guān)注度,進(jìn)而使網(wǎng)絡(luò)更加聚焦于關(guān)鍵特征,從而顯著提升了卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別、目標(biāo)檢測(cè)等領(lǐng)域的性能.
CBAM依次對(duì)輸人特征圖應(yīng)用CAM和SAM模塊,假設(shè)輸入特征向量為: F∈Rc×H×W ;經(jīng)過CAM模塊后,得到一維通道強(qiáng)化向量: Mc∈Rc×1×1 ,該過程用公式表示為
F′=Mc(F)?F
經(jīng)過SAM模塊后,得到二維空間強(qiáng)化向量:Ms∈R1×H×W ,過程表示為:
F′′=Ms(F′)?F′
2.2.1通道注意力模塊
通道注意力模塊旨在通過深人學(xué)習(xí)各個(gè)通道之間的內(nèi)在關(guān)聯(lián)性,從而提升具有價(jià)值的通道特征的辨識(shí)和表達(dá).如圖5所示,通道注意力模塊首先對(duì)輸人進(jìn)行全局平均池化,以捕捉整體特征趨勢(shì).接下來,通過一系列全連接層運(yùn)算,生成通道注意力權(quán)重,這些權(quán)重對(duì)各通道的重要性進(jìn)行了準(zhǔn)確而智能的評(píng)估.最終根據(jù)計(jì)算的權(quán)重,通道注意力模塊對(duì)輸入通道進(jìn)行加權(quán)操作,以凸顯對(duì)任務(wù)至關(guān)重要的通道特征.全過程可用公式表示為
Mc(F)=σ(MLP(AvgPool(F))+
MLP(MaxPool(F)))
式中: σ 為Sigmoid函數(shù).這種關(guān)注度機(jī)制使得網(wǎng)絡(luò)更加聚焦于重要的通道信息,提升了對(duì)關(guān)鍵特征的感知和利用能力.
圖5通道注意力模塊設(shè)計(jì)
Fig.5 Thedesign of channel attention module

2.2.2空間注意力模塊
空間注意力模塊的目標(biāo)在于提取學(xué)習(xí)不同空間位置之間的內(nèi)在關(guān)系,從而提升空間特征的辨識(shí)和表達(dá)水平.如圖6所示,首先利用兩個(gè)分支的卷積操作,精準(zhǔn)捕捉了數(shù)據(jù)在水平和垂直方向上的關(guān)聯(lián)性,使模型能夠更深刻地理解空間結(jié)構(gòu).在卷積操作的基礎(chǔ)上,利用Sigmoid函數(shù)生成空間注意力權(quán)重.這些權(quán)重充分體現(xiàn)了各個(gè)空間位置的相對(duì)重要性,使得網(wǎng)絡(luò)能夠更智能地關(guān)注對(duì)任務(wù)至關(guān)重要的局部空間區(qū)域.最終,空間注意力模塊通過將這些計(jì)算得到的權(quán)重應(yīng)用到輸入特征上,實(shí)現(xiàn)對(duì)空間特征的細(xì)致加權(quán)調(diào)整.全過程可用公式表示為
Ms(F)=σ(f(AvgPool(F);MaxPool(F)))
式中: σ 為Sigmoid函數(shù);f為卷積計(jì)算操作.這一過程不僅提升了對(duì)空間信息的關(guān)注度,同時(shí)也為網(wǎng)絡(luò)提供了更好地捕捉和利用數(shù)據(jù)中的關(guān)鍵空間特征的手段.
圖6空間注意力模塊設(shè)計(jì)

綜上所述,CBAM通過通道注意力模塊和空間注意力模塊的融合,在通道和空間兩個(gè)維度上深入挖掘關(guān)聯(lián)性,使得網(wǎng)絡(luò)能夠更全面、更敏銳地理解和利用輸人數(shù)據(jù).CBAM的引入為卷積神經(jīng)網(wǎng)絡(luò)注入了靈活性,使其能夠智能地感知和適應(yīng)關(guān)鍵特征,從而顯著提升了神經(jīng)網(wǎng)絡(luò)的表征能力,進(jìn)一步推動(dòng)了深度學(xué)習(xí)在圖像處理、計(jì)算機(jī)視覺等領(lǐng)域的性能提升.
2.3CBAM模塊與Voxel-RCNN算法的結(jié)合
在Voxel-RCNN算法的2D骨干網(wǎng)絡(luò)中,經(jīng)過兩個(gè)尺度的卷積操作后,采用上采樣到相同尺度后直接拼接的操作,然而,這種策略存在一些潛在的弊端.首先,直接拼接可能引起信息的冗余,因?yàn)椴煌叨鹊奶卣鲌D可能攜帶相似的信息,缺乏有效的篩選和融合機(jī)制.其次,這種簡(jiǎn)單的拼接操作或許難以充分挖掘不同尺度特征之間的復(fù)雜關(guān)系,進(jìn)而限制了網(wǎng)絡(luò)對(duì)目標(biāo)的高級(jí)表達(dá)能力.再次,對(duì)于大型和小型物體同時(shí)存在的場(chǎng)景,不同層次的特征可能存在沖突,從而制約了特征的有效融合.這些弊端可能導(dǎo)致網(wǎng)絡(luò)在處理多尺度特征時(shí)存在局限性,影響了對(duì)場(chǎng)景復(fù)雜性的全面理解.
為解決這些問題,本文提出通過CBAM模塊對(duì)輸出的特征圖進(jìn)行進(jìn)一步操作.如圖7所示,輸人特征首先采用通道注意力模塊,通過全局平均池化層獲得每個(gè)通道的平均響應(yīng)值,然后通過兩個(gè)全連接層生成通道注意力權(quán)重.這些權(quán)重通過對(duì)原始特征圖進(jìn)行逐通道加權(quán)求和,從而使網(wǎng)絡(luò)更集中地關(guān)注對(duì)任務(wù)更關(guān)鍵的通道,提高對(duì)不同通道之間關(guān)聯(lián)性的感知能力,進(jìn)而使得網(wǎng)絡(luò)更加集中地關(guān)注重要的通道,以提高對(duì)不同通道間關(guān)聯(lián)性的感知能力,隨后再將通道強(qiáng)化后的特征輸人空間注意力模塊,通過對(duì)特征圖進(jìn)行全局最大池化和全局平均池化,獲得每個(gè)通道的最大值和平均值.將其輸入全連接層以生成空間注意力權(quán)重,然后將這些權(quán)重應(yīng)用于原始特征圖,使網(wǎng)絡(luò)能夠更好地捕捉不同空間位置的關(guān)鍵信息.通過這種方式,CBAM模塊能夠提升對(duì)目標(biāo)的通道關(guān)聯(lián)性和空間分布的感知,從而增強(qiáng)整體特征表達(dá)的能力.
圖7CBAM模塊的總體結(jié)構(gòu)Fig.7 The overview structure of CBAM

CBAM模塊的引人使得Voxel-RCNN算法在特征聚合階段更為精細(xì)地處理了多尺度特征,有效優(yōu)化了多尺度特征的融合效果.通過引入通道注意力機(jī)制和空間注意力機(jī)制,CBAM模塊能夠更有針對(duì)性地提升對(duì)不同尺度特征的感知能力,使得網(wǎng)絡(luò)更全面、準(zhǔn)確地理解目標(biāo)的結(jié)構(gòu)和多尺度信息.這一優(yōu)化在提升目標(biāo)檢測(cè)性能方面具有顯著的作用,使Voxel-RCNN在處理復(fù)雜場(chǎng)景和多尺度目標(biāo)時(shí)表現(xiàn)更為出色.
2.4損失函數(shù)設(shè)計(jì)
2.4.1原算法損失函數(shù)
Voxel-RCNN在定義損失函數(shù)時(shí)分為分類層損失(classificationlayerloss)邊界框回歸損失(boxre-gressionlayerloss)和角度分類損失(directionclassifi-cationloss),分別用 Lcls?Lreg 和 Ldir 來表示.
分類損失 Lcls 采用了焦點(diǎn)損失(focalloss,F(xiàn)L)函數(shù),F(xiàn)ocalloss函數(shù)是一種用于解決類別不平衡問題的損失函數(shù).在3D目標(biāo)檢測(cè)任務(wù)中,負(fù)樣本通常遠(yuǎn)多于正樣本,導(dǎo)致模型更容易過度偏向負(fù)樣本,而無法有效學(xué)習(xí)正樣本的特征.Focalloss函數(shù)通過降低易分類的負(fù)樣本的權(quán)重,將關(guān)注點(diǎn)更集中在難以分類的樣本上,從而提高對(duì)難樣本的敏感性.其公式為
FL(pt)=-(1-pt)γ?logpt
式中: pt 是模型對(duì)樣本的預(yù)測(cè)概率; γ 是調(diào)節(jié)因子,用于調(diào)整難易樣本的權(quán)重.當(dāng)樣本被錯(cuò)誤分類時(shí),(1-pt)γ 的值增大,使得損失更關(guān)注于難以分類的樣本.這種損失函數(shù)在訓(xùn)練中能夠有效緩解類別不平衡問題,提高模型對(duì)困難樣本的識(shí)別能力,從而改善目標(biāo)檢測(cè)的性能.
邊界框回歸損失 Lreg 只針對(duì)前景的錨框進(jìn)行損失計(jì)算,此處采用Huberloss函數(shù),又名平滑L1損失(SmoothL1Loss)函數(shù),其主要特點(diǎn)在于對(duì)小誤差具有魯棒性,通過在接近零的區(qū)域采用二次函數(shù),減緩損失函數(shù)的梯度.在面對(duì)大誤差時(shí),損失函數(shù)呈線性增長(zhǎng),相比其他損失函數(shù)更具抗干擾能力.其公式為

式中: x 為模型預(yù)測(cè)值和真實(shí)值之間的差異.
角度分類損失 Ldir 用于優(yōu)化模型物體在3D空間中的朝向進(jìn)行分類,增強(qiáng)對(duì)目標(biāo)在三維空間中的姿態(tài)理解.采用了交叉熵?fù)p失(cross-entropyloss)函數(shù),其用于測(cè)量模型輸出的概率分布與真實(shí)標(biāo)簽之間的差異,幫助優(yōu)化模型以提高分類性能,公式為

式中: xi 表示真實(shí)標(biāo)簽的第 i 個(gè)元素; yi 表示模型預(yù)測(cè) x 屬于第 i 個(gè)類別的概率.
2.4.2損失函數(shù)改進(jìn)
為了提高算法對(duì)于小目標(biāo)和受阻擋目標(biāo)的檢測(cè)效果,本文在原基礎(chǔ)上引入了一個(gè)新分支,對(duì)預(yù)測(cè)邊界框的位置回歸進(jìn)行進(jìn)一步細(xì)化.采用了DIoU(dis-tanceintersectionoverunion,距離交并比)損失,該損失函數(shù)考慮了邊界框之間的距離信息,通過提高3D預(yù)測(cè)邊界框和真實(shí)邊界框的交并比來提高回歸任務(wù)的效果.
交并比(intersectionoverunion,IoU)是目標(biāo)檢測(cè)中常用的一種性能評(píng)價(jià)指標(biāo).它衡量了預(yù)測(cè)邊界框(boundingbox,bbox)與真實(shí)邊界框(groundtruthbox,gtbox )之間的重疊程度,通常用于衡量檢測(cè)算法的準(zhǔn)確性.公式如下:

式中: A∩B 表示預(yù)測(cè)邊界框和真實(shí)邊界框的交集;A∪B 表示它們的并集.IoU的取值范圍在0~1之間,其中0表示沒有重疊,1表示完全重疊.
然而,傳統(tǒng)的IoU并沒有考慮到邊界框之間的空間位置關(guān)系,因此在處理較大的空間錯(cuò)位、較小目標(biāo)或遮擋等情況下,IoU的表現(xiàn)可能受到影響.文獻(xiàn)[28]提出了DIoU損失函數(shù),旨在解決IoU難以處理邊界框間距離信息的問題,特別是當(dāng)存在較大的空間錯(cuò)位或較小目標(biāo)時(shí).DIoU損失函數(shù)被定義為

其各參數(shù)在3D目標(biāo)檢測(cè)時(shí)的含義如圖8所示,紅色框、黑色框和虛線框分別為真實(shí)邊界框、預(yù)測(cè)邊界框和覆蓋預(yù)測(cè)框與目標(biāo)框的最小封閉框 ??b,bgt 分別代表了預(yù)測(cè)邊界框和真實(shí)邊界框的中心點(diǎn) .c 代表的是兩個(gè)中心點(diǎn)間的歐式距離 ??ρ 代表的是能夠同時(shí)包含預(yù)測(cè)邊界框和真實(shí)邊界框的最小外接矩形的對(duì)角線長(zhǎng)度.
DIoU損失函數(shù)的定義為:

DIoU通過考慮邊界框中心點(diǎn)距離和對(duì)角線長(zhǎng)度,直接優(yōu)化預(yù)測(cè)邊界框和真實(shí)邊界框之間的歐式距離,此過程可以為預(yù)測(cè)邊界框提供移動(dòng)方向,使得回歸更加穩(wěn)定,收斂更加快速.在處理小目標(biāo)和缺失點(diǎn)云信息的目標(biāo)檢測(cè)場(chǎng)景中,DIoU損失函數(shù)更全面地考慮了空間位置信息.由于小目標(biāo)容易受到定位誤差的影響,DIoU的引入使得模型能夠更準(zhǔn)確地衡量目標(biāo)邊界框之間的位置關(guān)系,有助于提高目標(biāo)檢測(cè)算法在邊界框回歸方面的性能.在這些挑戰(zhàn)性的情況下,DIoU的綜合性能優(yōu)勢(shì)能夠幫助算法更好地適應(yīng)各種目標(biāo)形狀和尺寸變化,進(jìn)而提升檢測(cè)精度.
圖83DDIoU示意圖
Fig.83DDIoUschematicdiagram

3實(shí)驗(yàn)與結(jié)果分析
3.1測(cè)試數(shù)據(jù)集
本實(shí)驗(yàn)數(shù)據(jù)集使用由德國卡爾斯魯厄理工學(xué)院和豐田美國技術(shù)與創(chuàng)新研究院合作創(chuàng)建的 KITII[29] 公開數(shù)據(jù)集,該數(shù)據(jù)集包含了豐富多樣的城市駕駛場(chǎng)景,其中包括高分辨率的圖像、激光雷達(dá)點(diǎn)云、相機(jī)標(biāo)定參數(shù)和車輛運(yùn)動(dòng)軌跡等信息.KITTI數(shù)據(jù)集主要用于評(píng)估和推動(dòng)各種計(jì)算機(jī)視覺任務(wù),如目標(biāo)檢測(cè)、語義分割、立體匹配以及道路線追蹤等,尤其在自動(dòng)駕駛領(lǐng)域發(fā)揮著重要作用.由于其真實(shí)的城市駕駛場(chǎng)景和詳細(xì)的標(biāo)注,KITTI數(shù)據(jù)集成為許多研究和算法驗(yàn)證的標(biāo)準(zhǔn)基準(zhǔn),共有7481個(gè)訓(xùn)練樣本和7518個(gè)測(cè)試樣本,通常訓(xùn)練樣本會(huì)被進(jìn)一步分為含3712個(gè)樣本的訓(xùn)練集和含3769個(gè)樣本的驗(yàn)證集.KITTI數(shù)據(jù)集包含車輛、行人和騎車者三類目標(biāo)類別,且根據(jù)檢測(cè)目標(biāo)尺寸、被遮擋情況、截?cái)喑潭取⒕嚯x遠(yuǎn)近等指標(biāo)分為簡(jiǎn)單、中等、困難三種級(jí)別.
3.2實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)算法基于OpenPCDet目標(biāo)檢測(cè)框架實(shí)現(xiàn),主板為InspurYZMB-00882-10F,中央處理器(CPU)為Intel(R)Xeon(R)Silver4210R,顯卡使用了Ge-forceRTX4090.操作系統(tǒng)為Ubuntu22.04,CUDA版本為11.7,深度學(xué)習(xí)框架為Pytorch1.10.0.訓(xùn)練超參數(shù)和優(yōu)化相關(guān)的配置如下:epoch設(shè)置為80,batch-size設(shè)置為16,學(xué)習(xí)率設(shè)置為0.01,權(quán)重衰減為0.01,動(dòng)量為0.9.
實(shí)驗(yàn)采用交并比(IoU)指標(biāo)來評(píng)估目標(biāo)是否被有效檢測(cè),IoU的取值范圍在0~1之間,其中1表示完美匹配,0表示未匹配.其中車輛類別的IoU閾值設(shè)定為0.7,行人類別和自行車類別的IoU閥值均設(shè)定為0.5.
在體素劃分的過程中,由于KITTI數(shù)據(jù)集只提供在相機(jī)觀察到的場(chǎng)景范圍中的目標(biāo)的注釋信息,故先對(duì)點(diǎn)云范圍進(jìn)行裁剪.具體來說, x 軸的范圍為[0,70.4] m y 軸的范圍為 [-40,40]m, z軸的范圍為[-3,1]m 輸入體素的大小設(shè)置為 (0.05m,0.05m ,0.1m ,從而將原始點(diǎn)云輸入規(guī)范化.
3.3評(píng)價(jià)指標(biāo)
為了更好地與原始算法進(jìn)行對(duì)比,改進(jìn)后的Voxel-RCNN算法選擇了與原算法相同的評(píng)價(jià)策略和評(píng)價(jià)指標(biāo).這種一致性的選擇有助于在性能評(píng)估過程中保持公平性和可比性,從而更準(zhǔn)確地評(píng)估改進(jìn)的算法在不同任務(wù)中的性能提升.
在目標(biāo)檢測(cè)的二分類問題中,通常使用真正例(truepositive,TP)真負(fù)例(truenegative,TN)、假正例(1positive,F(xiàn)P)和假負(fù)例(1negative,F(xiàn)N)
這些術(shù)語來描述模型的預(yù)測(cè)表現(xiàn).TP表示模型正確地預(yù)測(cè)了正例,TN表示模型正確地預(yù)測(cè)了負(fù)例,F(xiàn)P表示模型錯(cuò)誤地將負(fù)例預(yù)測(cè)為正例,而FN表示模型錯(cuò)誤地將正例預(yù)測(cè)為負(fù)例.預(yù)測(cè)結(jié)果分類如表2所示.
在目標(biāo)檢測(cè)中,精度(precision, P )和召回率(re-call,R)是兩個(gè)關(guān)鍵的性能指標(biāo) .P 表示模型預(yù)測(cè)為正例中有多少是真正例,而 R 則表示所有真正例中有多少被模型成功預(yù)測(cè)為正例.計(jì)算公式分別為


實(shí)驗(yàn)采用平均精度(meanaverageprecision,mAP)來衡量模型效果.mAP是目標(biāo)檢測(cè)任務(wù)中常用的性能評(píng)估指標(biāo)之一,綜合考慮了模型在不同類別上的精度,并通過計(jì)算各類別的平均值來提供對(duì)整體性能的度量.通過在不同閾值下計(jì)算 P 和 R ,并繪制 P-R 曲線,可以得到每個(gè)類別的精度信息.mAP就是對(duì)這個(gè)曲線下面積的平均值,即平均精度.計(jì)算公式為

在驗(yàn)證集上的測(cè)試實(shí)驗(yàn)中,使用了11點(diǎn)插值法對(duì)模型在單個(gè)分類上的目標(biāo)識(shí)別AP進(jìn)行估算;而在測(cè)試集上的評(píng)測(cè)實(shí)驗(yàn)中,采用了40點(diǎn)插值法來估算模型在單個(gè)分類上的目標(biāo)識(shí)別AP.為了全面評(píng)估模型在多類別物體識(shí)別任務(wù)中的性能,使用各個(gè)類別上的平均預(yù)測(cè)精度mAP作為衡量標(biāo)準(zhǔn).
3.4不同算法對(duì)比實(shí)驗(yàn)
3.4.1驗(yàn)證集結(jié)果
由于早期在驗(yàn)證集上的測(cè)試實(shí)驗(yàn)往往采用提出的11點(diǎn)插值法對(duì)模型進(jìn)行評(píng)估,故為保證與其他算法形成公平的對(duì)照,使用了11點(diǎn)插值下3D視角的平均精度進(jìn)行計(jì)算.
如表3所示,改進(jìn)算法在騎車者(cyclist)類的簡(jiǎn) 單和困難級(jí)別上相較原算法分別提升了2.91個(gè)百分 點(diǎn)和0.87個(gè)百分點(diǎn).
3.4.2測(cè)試集結(jié)果
在測(cè)試集上的實(shí)驗(yàn),采用了40點(diǎn)插值法進(jìn)行評(píng)估,結(jié)果如表4所示.
圖9展示了算法改進(jìn)前后邊界框可視化結(jié)果,可直觀地看出改進(jìn)后(右圖)相比原算法(左圖)更準(zhǔn)確地檢測(cè)到了點(diǎn)云信息缺失的車輛目標(biāo)和兩個(gè)行人目標(biāo).
圖93D可視化結(jié)果對(duì)比
Fig.9Comparison of 3D visualization results

3.5消融實(shí)驗(yàn)
在原Voxel-RCNN算法的基準(zhǔn)上,通過結(jié)合本文提出的不同的改進(jìn)模塊,在KITTI驗(yàn)證集上測(cè)試各模塊的有效性.表5展示了各模塊對(duì)檢測(cè)效果的影響,使用了在三個(gè)目標(biāo)類別上的平均精度 mAP 來進(jìn)行評(píng)價(jià).
Tab.4Comparisonof detection accuracy results of different algorithms ontheKITTI test set
表5不同模塊的測(cè)試結(jié)果表
Tab.5 Testresultsfordifferentmodules

4結(jié)論
本文通過對(duì)Voxel-RCNN算法進(jìn)行深人改進(jìn),專注于解決其在小目標(biāo)檢測(cè)方面存在的不足之處.引入了隨機(jī)順序、隨機(jī)丟棄和隨機(jī)噪聲三項(xiàng)數(shù)據(jù)增強(qiáng)方法,這些方法豐富了訓(xùn)練樣本的多樣性,提供了更全面的信息采樣,增強(qiáng)了模型的魯棒性.在2D骨干網(wǎng)絡(luò)中嵌入CBAM模塊,以更精細(xì)地處理多尺度特征.通過通道注意力機(jī)制和空間注意力機(jī)制,分別關(guān)注重要的通道和不同空間位置的關(guān)鍵信息,從而優(yōu)化了特征融合的效果.特別是對(duì)于多尺度特征的處理,CBAM模塊使得Voxel-RCNN算法在特征聚合階段更為精細(xì)地處理多尺度特征,增強(qiáng)了對(duì)目標(biāo)結(jié)構(gòu)和多尺度信息的理解,從而提升了目標(biāo)檢測(cè)性能.同時(shí),通過新增DIoU損失分支,對(duì)原損失函數(shù)進(jìn)行改進(jìn),強(qiáng)調(diào)了目標(biāo)邊界框之間的距離信息,有助于提高模型在自標(biāo)邊界框回歸任務(wù)中的準(zhǔn)確性.
實(shí)驗(yàn)在KITTI數(shù)據(jù)集上進(jìn)行評(píng)估,并與多個(gè)經(jīng)典方法進(jìn)行對(duì)比.結(jié)果表明,改進(jìn)后的Voxel-RCNN算法在小目標(biāo)檢測(cè)方面表現(xiàn)優(yōu)越,超過了一系列經(jīng)典方法.消融實(shí)驗(yàn)也驗(yàn)證了引入的三種數(shù)據(jù)增強(qiáng)方法和DIoU損失分支的有效性.這一系列改進(jìn)的算法和方法對(duì)于提高三維目標(biāo)檢測(cè)在現(xiàn)實(shí)場(chǎng)景中的實(shí)用性和準(zhǔn)確性具有積極的推動(dòng)作用,為相關(guān)領(lǐng)域的研究和應(yīng)用貢獻(xiàn)了有價(jià)值的成果.
參考文獻(xiàn)
[1] 王亞東,田永林,李國強(qiáng),等.基于卷積神經(jīng)網(wǎng)絡(luò)的三維目標(biāo) 檢測(cè)研究綜述[J].模式識(shí)別與人工智能,2021,34(12): 1103-1119. WANGYD,TIANYL,LIGQ,etal.3Dobject detectionbased onconvolutional neural networks:a survey [J].Pattern Recognition and Artificial Intelligence,2021,34(12):1103- 1119.(in Chinese)
[2] 解則曉,李美慧.機(jī)器學(xué)習(xí)在基于點(diǎn)云的三維物體識(shí)別領(lǐng)域 的研究綜述[J].中國海洋大學(xué)學(xué)報(bào)(自然科學(xué)版),2021, 51(6):125-130. XIEZX,LI MH. A survey on machine learning in recognition of 3D object based onpoint cloud[J].Periodical of Ocean University ofChina,2021,51(6):125-130.(inChinese)
[3] FERNANDESD,SILVAA,NEVOAR,etal. Point-cloud based 3D object detection and classification methods for self-driving applications:a survey and taxonomy[J].Information Fusion, 2021,68: 161-191.
[4]CHARLES R Q,HAO S,MO K C,et al. PointNet:deep learning on point sets for 3D classification and segmentation[C]/2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA.IEEE,2017:77-85.
[5]QICR,YIL,SUH,et al.PointNet++[C]/Proceedings of the 3lst International Conference on Neural Information Processing Systems.Long Beach,California,USA.ACM,2017:5105- 5114.
[6]LIYY,BUR,SUNMC,etal.PointCNN:Convolution on xtransformed points [C]//NIPS’18:Proceedings of the 32nd International Conference onNeural Information Processing Systems.Montreal, Canada.2018.
[7]VORA S,LANG A H,HELOU B,et al. PointPainting:sequential fusion for 3D object detection[C]/O20 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle,WA, USA.IEEE,2020:4604-4612.
[8]YANG Z T,SUN Y N,LIU S,et al.3DSSD: point-based 3D single stage object detector[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seatle, WA, USA.IEEE,2020:11040-11048.
[9]ZHANG Y,ZHOU Z X,DAVID P,et al. PolarNet: an improved grid representation for online LiDAR point clouds semantic segmentation [C]/2020 IEEE/CVF Conferenceon Computer Vision and Pattern Recognition(CVPR). Seattle,WA,USA. IEEE,2020:9598-9607.
[10]THOMAS H,QI C R,DESCHAUD JE,et al.KPConv:flexible and deformable convolution for point clouds[C]//2O19 IEEE/CVF International Conference on Computer Vision (ICCV).Seoul, Korea(South). IEEE,2019: 6411-6420.
[11] LUO N,YU HQ,HUO Z F,et al. KVGCN:a KNN searching and VLAD combined graph convolutional network for point cloud segmentation[J].Remote Sensing,2021,13(5):1003.
[12]WANG L,HUANG Y C,HOU Y L,et al.Graph attention convolutionforpoint cloud semanticsegmentation [C]//2019 IEEE/CVFConferenceon Computer Visionand Pattern Recognition(CVPR).Long Beach,CA,USA.IEEE,2019: 10288-10297.
[13] ZHOU Y,TUZEL O.VoxelNet:end-to-end learning for point cloud based 3D object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City, UT,USA.IEEE,2018:4490-4499.
[14]YAN Y,MAO Y X,LI B.SECOND:sparsely embedded convolutional detection[J]. Sensors,2018,18(10):3337.
[15]LANG A H,VORA S,CAESAR H, et al.PointPillars:fast encoders for object detection from point clouds[C]/2019 IEEE/ CVF Conference on Computer Visionand Pattern Recognition (CVPR).Long Beach,CA,USA.IEEE,2019:12689-12697.
[16]LI JY,LUO C X, YANG X D. PillarNeXt: rethinking network designs for 3D object detection in LiDAR point clouds[C]//2023 IEEE/CVF Conference on ComputerVisionand Pattern Recognition(CVPR).Vancouver,BC,Canada.IEEE,2023: 17567-17576.
[17]SSINGH A R. PointPillars++:An encoder for 3-D object detection and classification from point clouds[D].North Carolina State University,2021.
[18]YANG ZT,SUNYN,LIU S,et al.STD:sparse-to-dense 3D objectdetector forpoint cloud[C]//2O19IEEE/CVF International Conference on Computer Vision(ICCV).Seoul,Korea(South). IEEE,2019:1951-1960.
[19]WUFZ,BAOLC,CHENYJ,etal.MVF-Net:multi-view3D face morphable model regression[C]//2O19 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Long Beach,CA,USA.IEEE,2019:959-968.
[20]KUANG HW,WANGB,ANJP,et al.Voxel-FPN:multi-scale voxel feature aggregation for3D object detection from LIDAR point clouds[J].Sensors,2020,20(3):704.
[21]WU Z R,SONG SR,KHOSLA A,et al.3D ShapeNets:a deep representation for volumetric shapes[C]//2O15 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston, MA,USA.IEEE,2015:1912-1920.
[22]ZHU HQ,DENGJJ,ZHANGY,et al. VPFNet: improving 3D objectdetectionwithvirtual pointbasedLiDARand stereo data fusion[J].IEEETransactionsonMultimedia,2022,25:5291- 5304.
[23]HEKIMOGLU A,SCHMIDT M,MARCOS-RAMIRO A. Monocular 3D object detectionwith LiDAR guidedsemi supervisedactivelearning[C]//2O24IEEE/CVFWinter Conference on Applications of Computer Vision (WACV). Waikoloa,HI,USA.IEEE,2024:2335-2344.
[24]DENGJJ,SHISS,LIPW,et al.Voxel R-CNN:towardshigh performance voxel-based 3D object detection[J].Proceedings of the AAAI Conference on Artificial Intelligence,2O21,35(2): 1201-1209.
[25]SHI S S,GUO C X,JIANGL,et al.PV-RCNN: point-voxel feature set abstraction for 3D object detection[C]//2O2O IEEE/ CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle,WA,USA.IEEE,2020:10529-10538.
[26]REN SQ,HEK M,GIRSHICK R,et al.FasterR-CNN: towards real-time object detection with region proposal networks [J].IEEE Transactions on Patern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[27]WOO S,PARKJ,LEE JY,et al.CBAM:convolutional block attention module[C]// Computer Vision-ECCV2018.Cham: SpringerInternational Publishing,2O18:3-19.
[28]REZATOFIGHI H,TSOI N,GWAK J,et al.Generalized intersection over union:a metric and a loss for bounding box regression[C]//2O19 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Long Beach,CA,USA.IEEE, 2019:658-666.
[29]GEIGER A,LENZ P,URTASUN R. Are we readyfor autonomous driving? The KITTI vision benchmark suite[C]// 2012IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI,USA.IEEE,2012:3354-3361.
湖南大學(xué)學(xué)報(bào)·自然科學(xué)版2025年8期