999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

AF-Center:基于自適應體素繪畫融合和高斯中心樣本分配的多模態三維目標檢測

2023-01-01 00:00:00秦建偉王傳旭付小珊
計算機應用研究 2023年2期

摘 要:相機圖像和激光雷達點云可以為3D目標檢測提供互補信息,但如何進行有效的融合仍是一個挑戰。針對傳統方法中無區分性融合帶來的對齊偏差問題,提出一個自適應融合網絡。首先構建點云體素與對應的多個圖像像素之間的注意力親和矩陣,然后依據親和矩陣實現多像素到單體素的重要性區分融合。除此之外,針對傳統anchor-based檢測方法難以枚舉所有方向的問題,將目標表示為關鍵點,首先進行中心點定位,然后回歸到3D尺寸與方向等其他屬性。同時,針對關鍵點檢測時中心點樣本量過少的問題,使用橢圓高斯熱圖進行了中心點樣本的再分配。該算法在Waymo數據集上,較基線PointPillar、CenterPoint與3D-MAN分別提升了2.3%、5.9%與4.0% level2 mAPH。

關鍵詞:三維目標檢測;自適應融合;關鍵點檢測;中心定位;高斯樣本分配

中圖分類號:TP183 文獻標志碼:A 文章編號:1001-3695(2023)02-054-0634-07

doi: 10.19734/j.issn.1001-3695.2022.05.0271

AF-Center: multi-modal 3D object detection method with adaptive

voxel-painting fusion and Gaussian center sample assignment

Qin Jianwei, Wang Chuanxu, Fu Xiaoshan

(School of Information Science amp; Technology, Qingdao University of Science amp; Technology, Qingdao Shandong 266000, China)

Abstract:Camera images and LiDAR point clouds can provide complementary information for 3D object detection, but how to perform effective fusion remains a challenge. To address the alignment bias problem caused by the undifferentiated fusion in traditional methods, this paper proposed an adaptive fusion network. Firstly, it constructed the attention affinity matrix between the point cloud voxels and the corresponding multiple image pixels, and then achieved the importance differentiation fusion from multiple pixels to single voxels based on the affinity matrix. In addition, for the problem that it was difficult to enumerate all directions in the traditional anchor-based detection method, this paper represented the target as key points and first performs center localization, and then regressioned to other attributes such as 3D size and orientation. At the same time, to address the problem that the sample size of the center was too small for key point detection, this paper used an elliptical Gaussian heat map for the redistribution of center samples. This algorithm improves 2.3%, 5.9%, and 4.0% level2 mAPH over the baseline PointPillar, CenterPoint, and 3D-MAN, respectively, on the Waymo dataset.

Key words:3D object detection; adaptive fusion; key point detection; central localization; Gaussian sample assignment

0 引言

隨著智能交通的發展,三維目標檢測技術得到了廣泛研究,在此基礎上,基于雷達點云的三維目標檢測得到了長足發展。但無論是基于點的方法[1~4],還是基于體素的方法[5~8],都不能很好地捕獲目標的顏色及紋理信息。與之相反,相機圖像擁有高分辨率的紋理及顏色特征,但成像的過程中丟失了深度信息。兩者的有效融合可以在很大程度上提高檢測的精度。

近些年來,出現了許多優秀的多模態融合算法,如MVF[9]采用動態體素化,利用透視圖和點云信息進行端到端多視圖融合;PointPainting[10]利用2D語義分割網絡對圖像信息提取語義信息,然后通過pixel-to-point檢索將分割特征映射給點云。但從整體來看,多模態融合算法仍落后于基于點云的算法,這就使得其擁有很大的研究空間。在當前研究現狀下,考慮到直接提取點云特征的巨大計算量問題,本文提出了一種新的激光雷達與相機圖像的深度融合策略。首先提取體素級別的點云特征與像素級別的圖像特征,然后將兩者進行自適應融合,最后在融合特征的基礎上進行目標檢測。

在目標檢測時,直接輸出三維框的方式往往不能很好地與全局坐標框架對齊。同時,不同類別尺寸的差異性以及不同目標偏轉角的非一致性也增加了回歸的難度。R3Det[11]與SCRDet[12]為不同方向與尺寸的目標分配不同的模板,來解決上述問題,但嚴重增大了計算量。為此,本文考慮將目標表示為點,使用關鍵點檢測器[13]對目標中心進行定位,并通過中心位置的特征回歸到目標的三維尺寸與方向等其他屬性。同時,針對傳統基于關鍵點的方法中使用0-1圖或者僅僅將高斯峰值點作為正樣本點,所帶來的正負樣本失衡問題,本文提出了一種特殊的橢圓高斯樣本分配策略。通過其余位置與高斯峰值點的相關度對高斯峰值范圍進行擴充,以增大正向監督。

當前研究中,單階段檢測算法的精度會低于同等狀態下經過二次細化的算法,AFDetV2[14]也證明了單階段的分類與定位分支可能存在不對齊的問題,這就不可避免地引入了第二階段的細化。不同于Point R-CNN[1]結合局部與全局信息,以及Voxel R-CNN[15]利用體素RoI pooling抽取特定區域的體素特征用于細化的方式,考慮到計算效率以及關鍵點策略的樣本量過少問題,本文分別利用俯視圖中側邊中心點以及角點進行二次細化。綜上所述,本文的貢獻如下:

a)提出了一個即插即用的自適應體素繪畫融合模塊。分別使用3D與2D骨干網絡提取三維體素特征與圖像特征,利用注意力機制計算多個像素點與對應的單個體素的關聯度,將關聯度作為權重實現單個三維體素特征與多個像素特征的自適應融合。

b)提出了一種基于橢圓高斯熱圖的樣本分配策略。將增強的正向候選區域表示為高斯分布,把整個區域作為正位置,并利用高斯密度函數給不同位置賦予不同的權重,以解決僅將高斯峰值點作為正樣本所帶來的正負樣本失衡問題。

c)在Waymo open dataset上驗證了本模型的優越性與本文提出模塊的有效性,同時對比了基于側邊中心點與基于角點的兩種細化策略。

1 相關工作

a)前融合方法。前融合是一種利用原始數據級的空間排列和投影,直接融合多種模態數據的方式,它以三維點云的數據級與二維圖像的數據級或特征級為融合數據進行融合。PointPainting[10]利用二維語義分割網絡提取圖像語義信息,并將分割特征映射給點云,顯著提高了檢測性能。在此基礎上,PI-RCNN[16]使用基于點的關注性連續卷積進行多傳感器融合。PointAugmenting[17]針對語義分數的局限性,利用從二維目標檢測網絡中提取出的深度特征對激光雷達信息進行增強。除此之外,Wen等人[18]在數據級別上將體素張量與原始像素進行融合;Wang等人[19]則是利用圖像生成偽點云,并將其與原始點云融合,以完成目標檢測。

b)后融合方法。這是一種將多種模態的檢測結果進行融合,以利用多模態信息對最終提案進行優化的集成方法。Melotti等人[20]將圖像與點云分支對同一目標的建議得分加和,作為最終的置信度得分。MVD[21]則是將兩個分支的提案與置信度等多種特征結合,預測最終的聯合得分。3D-CVF[22]利用3D稀疏卷積獲取點云體素特征,同時利用預訓練的ResNet-18[23]提取對應的圖像特征,并提出跨視點空間特征融合策略來解決兩者的視角匹配問題。CLOCs[24]利用統計學知識,自動學習訓練數據的概率依賴性來進行融合,并利用二維和三維檢測的語義一致性,對提案得分進行精煉。

c)深度融合方法。深度融合是一種將激光雷達的特征級數據與圖像的數據級或特征級數據進行融合的策略。AVOD[25]分別提取點云俯視特征與圖像特征進行融合,這種策略同時利用了空間分布和顏色信息,但忽略了投影時的信息損失。F-PointNet[26]直接從原始點云提取空間信息,并利用成熟的2D檢測器生成候選區域來指導3D邊界框的回歸,避免了信息損失。PointFusion[27]結合了兩者的優點,提出一種點融合策略。預測相對于輸入三維點的多個三維假設,并將其作為空間錨點,利用圖像信息自動學習選擇最佳假設。與之相對應,MVX-Net[28]提出一種體素融合策略,將感興趣區域的圖像特征附加到體素化后的點云數據。Maff-Net[29]提出一種基于通道注意力的多分支偽圖像融合方法,利用圖像信息來減少3D檢測的誤報。EPNet[30]用圖像語義特征來增強點云特征,用一致性強制損失來探索定位和分類置信度的一致性,并將兩者進行集成。

d)三維目標檢測算法。無論是對于單模態特征還是融合特征,同二維目標檢測算法一樣,當前三維目標檢測算法大致分為anchor-based與anchor-free兩種。anchor-based方法首先通過顯式或者隱式產生一系列密集錨框,然后對錨框中的內容進行分類與回歸。這種方法在錨框的大小、數量以及IoU閾值等超參數的選取上,極其依賴于先驗知識。除此之外,大量的錨框與真實邊界框的IoU計算也帶來了極大的計算壓力。盡管StarNet[31]通過去除地面點,使得模型在不增加額外計算的情況下加入場景先驗信息,降低了對算力的要求,但其在沒有整體環境的情況下處理每個提議區域的方式完全丟棄了全局信息,這不利于提案的細化。PPBA[32]利用先前迭代中的最優參數來學習優化增強策略,這不會帶來額外的推理成本,但對先前迭代中的參數的準確性要求極高。Anchor-free方法往往通過直接預測各個點(或體素)屬于待檢測物體的概率來生成邊界框,如以Point R-CNN[1]與3DSSD[2]為代表的point-based方法和以POD[33]為代表的pillar-based方法;或者直接進行中心點定位,并對目標的大小及偏轉角進行回歸,如以CenterPoint[34]為代表的center-based方法。由于3D包圍盒有多個不同的大小與方向,anchor-based方法很難擬合一個軸對齊的2D box到三維目標。除此之外,在訓練階段,anchor-based方法在進行目標匹配時非常依賴于2D IoU,這給不同類別之間正負樣本的界定帶來不必要的困難。而center-based方法由于以下優點成為本模型的首要選擇:a)中心點沒有方向性,很大程度上減小了搜索范圍;b)對于目標的定位效率優于基于固定形狀包圍盒的方法;c)不需要NMS,可以大大降低運算量。

2 AF-Center

圖1為AF-Center算法的整體流程。首先將圖像與點云數據作為輸入,分別通過兩個特征提取管道獲取2D圖像特征與3D體素特征;然后通過自適應融合模塊將兩者進行融合,并投影到俯視圖;在俯視圖上檢測物體的中心點,并回歸到物體的尺寸和偏轉角,在進一步細化后得到最終的檢測結果。

r

2.1 自適應體素繪畫融合

為了獲取2D信息,本文將多視角圖像作為輸入,利用DeepLabv3+[35]來生成像素級標簽S∈Euclid ExtraaBpW×H×C作為二維圖像特征。值得注意的是,其他先進的語義分割網絡也可以用到本模型中,如MobelNetV3[36]、BiSeNet[37]等。對于3D信息,考慮到之后融合的計算壓力問題,本文考慮提取其體素形式的特征。首先使用VoxelNet[5]或者PointPillars[7],從原始點云中提取體素級特征F∈Euclid ExtraaBpW×H×C,即尺寸W×H,通道數為C的三維特征圖。

在兩種數據的融合方式上,若將分割后的圖像語義特征融合到初始點云,再用體素網絡進行處理,則需要將相機特征與原始點云同步體素化。由于體素化的處理方式并不適合直接用來處理二維圖像信息,所以會造成提取到特征的次優性。一個簡單的優化策略是將兩種數據在特征層級融合,直接將每個體素對應的多個像素平均化。這默認了每個體素對應的多個像素同等重要,但實際上不同像素并不具有同等的重要性,這也會造成一定的檢測誤差。

為解決上述問題,本文構建了一個如圖2所示的自適應體素繪畫融合模塊,分別使用三個不同的全連接層,將單個體素特征轉換為Ql(query),并將對應的N個像素特征轉換為Kc(key)與Vc(value)。將Ql與Kc相乘,并用softmax進行歸一化,得到每個三維體素特征與其對應的多個像素特征之間的權重親和矩陣,用其來引導相機特征值Vc的聚合。聚合后的相機特征通過全連接層拼接到未處理的激光雷達特征,作為下一階段的輸入。需要注意的是,親和矩陣計算的是單個體素對應的多個像素在其內部的重要性,自適應融合也是聚合的單個體素對應的像素塊,而最后的全連接層則是將所有聚合后的像素塊特征拼接至對應體素。

2.2 基于中心點的初步預測

2.2.1 動態橢圓高斯樣本分配與中心定位

熱圖頭要做的是將融合特征放入全卷積網絡中進行中心點定位,即在檢測到的所有目標的中心位置生成一個熱圖峰值。在訓練階段,該分支將帶有標注信息的三維邊界框中心投影到俯視圖,以生成二維高斯曲線,其訓練過程由focal loss[38]進行監督。由于在俯視圖中目標數目較少,若直接使用Center-Net[13]的訓練標準,只選取高斯分布的峰值點為正樣本點,會導致嚴重的正負樣本失衡問題,使得網絡前期難以收斂。CenterPoint[34]使用高斯分布的方式將信息分散到中心點附近,將高斯半徑設定為σ=max(f(wl),τ),通過每個真實目標中心的高斯峰值來增加對熱圖的正向監督。

本文參考了CenterPoint增大正向監督的思想,但Center-Point設置了固定的高斯半徑,這對于長和寬不相近的物體極不友好。而在自動駕駛場景下,大多數目標的長和寬均有一定的差距。為了優化上述問題,本文設計了一種橢圓高斯樣本分配策略,將正向候選區域表示為二維橢圓高斯分布,將整個高斯區域的位置作為正位置,并以歸一化后的高斯密度函數值為指導,賦予不同位置不同的權值,通過擴大ground-truth物體中心的高斯峰值范圍來增加對目標熱圖的正向監督。

具體來說,如圖3(a)所示,任意旋轉矩形均可以表示為一個二維高斯分布,因此對象的高斯密度函數(probability density function,PDF)可表示為

其中:X=[x,y]T~N(μ,Σ)表示關于兩個方向的二維隨機變量;μ=[μ1,μ2]T代表均值向量;Σ代表兩個變量的協方差矩陣,可被正交對角化并分解為Σ=AAT=RΛRT=(RΛ1/2)(R從幾何變換的角度來看,μ可作為控制空間進行平移的參數,R可視做控制旋轉的參數,且若偏轉角為α∈[0,π],可將其表述為

而對角矩陣Λ可代表長軸和短軸的縮放比例,可表述為

其中:λ1和λ2分別代表長軸距離的平方S21和短軸距離的平方S22。圖3(b)展示了標準的高斯PDF轉換為橢圓高斯分布的細節,此時便可以用二維高斯分布對目標進行表征,且生成的橢圓高斯熱圖可以根據方向和尺寸進行動態調整。

在將目標表征為二維高斯分布之后,即可利用其進行樣本分配。本文將F的(x,y)位置處元素定義為Fx,y,并將由式(2)計算得到的高斯值通過歸一化表示為f(x,y)∈[0,1]。若f(x,y)=0,則令Fx,y=0,將其對應位置定義為負樣本;若f(x,y)gt;0,則令Fx,y=f(x,y),將對應位置選擇為正樣本,并用其值代表對應位置(x,y) 在所屬高斯區域的權重,將其權重比例的特征作為中心點的訓練特征,并采用modified focal loss[38]進行監督訓練。簡單來說,即利用高斯概率密度函數構造一個圍繞物體中心的次中心區域,從這個區域中提取密集訓練樣本,并將高斯概率作為回歸樣本的權重來對次中心區域的樣本進行有區分的強調。

2.3 預測結果二次細化

第一階段的檢測提供了粗略的目標框,但由于目標的中心并不足以提供保證目標準確性的完備信息,所以需要第二階段的細化。除目標中心點以外,各個側面中心點特征的集合與各個角點特征的集合更利于整體目標的優化。因此,如圖4所示,本文分別使用基于側邊中心點與角點的細化,并在實驗部分對兩者進行了對比。

初步得到的檢測框在對應的三維空間中是擁有6個面的長方體,需要考慮6個對應的側面中心點,但對應到俯視圖中時,Z值被壓縮了,上下兩面中心點重疊于目標中心點,因此只需考慮四側中心點(即俯視圖中的四邊中心)即可。本文使用雙線性插值,從融合特征中提取四個點對應特征進行拼接,然后輸入到MLP中進行預測,得到每個box的置信度分數與對應優化參數,以優化第一階段的檢測結果。

對于置信度分數的預測,本文參考PV-RCNN[39],使用一個由box與ground-truth的IoU引導的得分目標I:

其中:IoUk為第k個預測框與ground-truth box的IoU。訓練時由交叉熵損失進行監督,若假設二階段預測的置信度分數為I^k,則損失為

在推斷時,直接利用第一階段的類別預測,并將最終置信度計算為兩個階段得分的幾何平均,若將第一階段的得分表示為Y^k,則最終得分Q^k=Y^k×I^k。對于box的細化,則在第一階段候選框的基礎上繼續使用L1損失進行監督訓練。基于角點的細化方式與基于側邊中心點的細化原理相同,只不過將側邊中心點替換為box的角點,且考慮到計算時間以及兩對角點的代表性,只使用左上與右下角點即可。

3 實驗

3.1 數據集及實驗細節

a)數據集。本實驗使用Waymo open dataset[40]對AF-Center進行評估,這是一個主要用于三維目標檢測的大規模室外自動駕駛數據集,共包含798個訓練序列、202個驗證序列和150個測試序列。每個序列大約包含200幀,帶有激光雷達點、相機圖像和標記的三維邊界框。在難度上設置了level1(L1)與level2(L2)兩個等級。對于評測,本文使用Waymo挑戰賽的官方評價指標,即平均精度(mAP)與按方位加權的平均精度(mAPH)兩種評測指標對與車輛與行人的IoU閾值分別為0.7與0.5。

b)實驗細節。在數據增強方面,本文參考PPBA[32],使用了隨機旋轉→世界縮放→全局平移噪聲→隨機翻轉→丟棄像素信息→丟棄雷達點的增強策略。但與之不同的是,本文保留了其用于數據增強的所有參數,并在融合階段將其進行反向應用于3D關鍵點(關鍵點是激光雷達點或體素中心),以提高對齊的準確性。

本文使用包含256個濾波器的全連接層對相機特征與激光雷達特征進行融合,并在訓練時隨機隱藏親和矩陣30%的參數以進行正則化。之后將一個包含192個濾波器的全連接層作為MLP,并將拼接后的特征送入另一個全連接層進行通道壓縮。對于體素尺寸的劃分,本文分別使用了voxel與pillar兩種形式,在使用voxel形式時大小劃分為(0.1 m,0.1 m,0.1 m),在使用pillar形式時大小劃分為(0.32 m,0.32 m)。對于自適應融合模塊性能,本文不僅從本模型整體性能上進行了驗證,還將其遷移到PointPillars[7]、3D-MAN[41]和CenterPoint等3D目標檢測方法中。對于偽圖像,本文使用三層隱藏尺寸為256的MLP與SILU[42]激活函數進行構造。

3.2 Waymo上的先進性

本文在Waymo測試集上驗證了本模型的性能,并與已發布的先進方法進行對比。表1數據證明了本模型的有效性,無論是對于車輛與行人兩個類別,還是level1與level2兩個級別,其mAP與mAPH均有一定的提升。為了更清晰地展示本模型與其他算法的對比效果,對其進行了可視化,并分別對檢測錯誤及漏檢情況進行了標記,圖5展示了單模態CenterPoint算法與本模型的對比效果。其中(a)列為初始點云數據,(b)列為單模態的檢測結果,(c)列為本模型的檢測結果,紅色和黃色虛線圈分別代表檢測錯誤與漏檢的目標。可以看出,本模型雖然仍存在一定的錯誤率,但檢測誤差以及漏檢率遠低于單模態算法。

為了更清晰地展示本模型的提升效果,本文分別按照旋轉角度與大小進行分組,在驗證集上對提升之處進行了分析說明。圖6(a)(b)分別為不同方法中vehicle與pedestrian類別在不同偏轉角下的性能,0~15、15~30、30~45為偏轉角范圍;圖6(c)(d) 為不同尺寸下,本模型與anchor-based方法以及單模態的center-based方法對比,small、medium、large為不同的尺寸劃分。如圖6(a)(b)所示,對于vehicle類別,在旋轉角度較大的情況下,本模型的提升較大;而對于pedestrian類別,在所有情況下的精度均高于anchor-based方法。Anchor-based方法的精度會隨旋轉角的增大而降低;center-based方法只對中心進行定位,且中心點不特定于一個旋轉角度,這使其能很好地泛化到各種情況。

除此之外,點云與圖像兩種模態的結合為檢測增加了更多有用信息,也有效提升了檢測精度。圖6(c)(d)展示了在目標不同大小的情況下,AF-Center對于vehicle與pedestrian類別的提升效果。不同于使用錨框的方法,AF-Center沒有特定的對于物體形狀的先驗信息,而是定位到目標中心點后直接預測物體的整體形狀。在物體真正的形狀與先驗信息相對符合的情況下(如vehicle類別的medium級別),基于錨框的方法會優于未結合多模態信息的基于中心點的方法。而在物體真實形狀比先驗信息偏小(vehicle-small)或偏大(vehicle-large)的情況下,本文基于中心點的預測會更為精準。對于pedestrian類別,得益于旋轉處理與二維圖像信息的補充,在所有規格下,AF-Center均優于anchor-based與單模態的center-based方法。

3.3 3D特征編碼網絡及細化方式的消融選擇

對于三維特征提取網絡的選擇,本文在實驗時選取了兩種最為經典的算法,即VoxelNet與PointPillars,前者是標準的體素化,后者相當于不考慮Z軸信息的特殊形式體素化。在相同的網絡中,pillars形式擁有更快的處理速度,但會損失更多的有效信息,在精度上會略微遜色。除此之外,有無細化階段與細化方式的不同,也會影響檢測的精度。為此,本文在Waymo驗證集上,以level 2的mAPH、建議時間和細化時間為評價指標,對比了不同3D編碼網絡與不同細化方式對檢測的影響。為了確保驗證本模型性能時,自適應融合模塊與橢圓高斯中心定位的有效性能夠得到無歧義的認定,本文對于3D編碼網絡與細化方式的對比是預先進行的,即在未融合圖像信息的點云數據上進行。

表2中的S-1與S-2分別表示第一與第二階段,B表示box的中心點,S與C分別表示基于側邊中心點與基于角點的細化方式。vehicle與pedestrian代表level 2中兩個類別的mAPH,Tp與Tr分別表示第一階段建議生成時間與二次細化時間。實驗結果證明了voxel形式相比于pillar形式擁有更高的檢測精度,但也需要更長的預測時間。在細化方式上,基于側邊中心點的細化性能略優,但整體并無很大差距。出于綜合考慮,本文中其他未具體說明的實驗均使用VoxelNet特征編碼網絡以及基于側面中心的細化方式。

3.4 自適應體素繪畫融合性能驗證

a)AF的優越性。對于AF-Center中自適應融合方法優越性的驗證,本文在同樣實驗配置與同樣骨干網絡的前提下,將其與單模態(single-model)先進方法以及前融合(early-fusion)與后融合(late-fusion)策略進行比較。如表3所示,本模型的融合方法在精度上優于其他融合策略,在速度上也不遜色于同樣狀態下的其他融合策略。

單模態方法選取3D-MAN,前融合策略選取了Point Pain-ting,后融合選取PointAugmenting策略,而本模型的自適應融合則是深度融合的代表。在比較時,所有策略均在Waymo驗證集上選取最優結果。

為了展示自適應融合的作用,本文選取了Waymo中一組較為典型的數據,以熱圖的方式構建了目標整體中心點以及四側中心點的親和矩陣(圖7)。從整體來看,每個體素與其對應多個像素之間的關聯度符合本文構想,在目標中心位置自中心點向周圍逐漸減弱,而在四周中心位置則由靠近整體目標中心的一側向另外幾側依次遞減。將關聯度作為權重,可以很好地將相機圖像信息融合到對應的體素。此處需要解釋一點,本文之所以將多個像素信息融合到對應位置體素,而非直接在每個點上附加圖像信息,目的是為了減小計算上的時間消耗及內存壓力。

b)AF的通用性驗證。為了檢驗自適應融合模塊的通用性,本文將其添加到3.1節提到的先進三維目標檢測算法,并在Waymo數據集中進行了對應比較。實驗結果如表4所示,自適應融合模塊在每個檢測基線上均有一定的提升,這證明了AF模塊擁有很好的泛化性能,可以應用到其他三維目標檢測框架中。

3.5 橢圓高斯樣本分配(EGSA)策略性能驗證

為了驗證EGSA的性能,本文在Waymo驗證集中,以level2下車輛與行人類別的mAP與mAPH為評價指標,對比了單中心點(single center point,SCP)、圓形高斯區域(round center area,RCA)以及EGSA策略的帶權橢圓中心區域作為訓練正樣本的情況。具體結果如表5所示,由于車輛類別的長與寬的比值較大,EGSA策略能很好地適應這種類別,所以車輛類別的檢測精度提升明顯。相比之下,對于行人類別檢測精度的提升效果較差,這種情況主要由兩種原因導致:a)在點云數據中,代表行人的點通常極為稀疏,無論使用怎樣的策略,其樣本擴充程度都是有限的;b)在投影到俯視圖后,行人的長和相差較小,在這種情況下,圓形高斯分布與橢圓高斯分布在效果上區別不明顯。除此之外,由于RCA與EGSA策略通過高斯峰值范圍化的方式增大了對熱圖的正向監督,這增大了正樣本的數量,也從一定程度上加快了收斂速度。

3.6 模型魯棒性驗證

在室外場景下,揚塵、強光以及大霧等極端情況會影響激光雷達點云與相機圖像的生成,繼而給目標檢測帶來一定的干擾,因此,算法的魯棒性尤為重要。為了驗證模型的魯棒性,本文分別對激光雷達點云與相機圖像隨機添加雷達噪聲與像素噪聲。實驗結果如表6所示,對于單模態模型,激光噪聲的添加大幅降低了檢測的精度。而對于本文多模態模型,無論是添加圖像噪聲還是激光噪聲,對于檢測精度的影響都是極小的。即使是同時對兩種模態信息分別添加激光噪聲與像素噪聲,對最終結果也并無太大影響。這是由于噪聲添加是隨機的,兩種模態數據上存在噪聲的區域大概率不同,此時多模態的結合使得信息可以充分互補,極大程度上增加了模型的魯棒性。

4 結束語

本文對多模態融合方式進行了研究,提出了一種自適應體素繪畫融合策略,將點云體素特征與對應的多個像素特征依據關聯度進行融合,有效改善了兩種數據的對齊方式。同時,提出了一種基于高斯概率密度函數的橢圓高斯樣本分配策略,增大了對中心樣本的正向監督。基于以上兩點,本文構建了AF-Center三維目標檢測網絡,將激光雷達點云與相機圖像特征融合后投影到俯視圖,并將目標檢測為中心點,通過中心點回歸到目標的其他屬性。同時,為了提高檢測精度,結合側邊中心點以及角點進行進一步細化。本算法在Waymo open dataset上實現了優越的性能。本文存在同其他體素化方法類似的信息損失問題,因此,如何在保證速度的情況下減小信息損失來實現高效的檢測是下一步的研究方向。

參考文獻:

[1]Shi Shaoshuai,Wang Xiaogang,Li Hongsheng. Point R-CNN: 3D object proposal generation and detection from point cloud [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 770-779.

[2]Yang Zetong,Sun Yanan,Liu Shu,et al. 3DSSD: point-based 3D single stage object detector [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 11040-11048.

[3]Shi Weijing,Raj R. Point-GNN: graph neural network for 3D object detection in a point cloud [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 1711-1719.

[4]張冬冬,郭杰,陳陽. 基于原始點云的三維目標檢測算法 [J/OL]. 計算機工程與應用. [2022-06-28]. http://kns.cnki.net/kcms/detail/11.2127.TP.20220125.1706.016.html. (Zhang Dongdong,Guo Jie,Chen Yang. 3D target detection algorithm based on original point cloud [J/OL]. Computer Engineering and Applications. [2022-06-28]. http://kns.cnki.net/kcms/detail/11.2127.TP.20220125.1706.016.html.)

[5]Zhou Yin,Tuzel O.VoxelNet: end-to-end learning for point cloud based 3D object detection [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018: 4490-4499.

[6]Yan Yan,Mao Yuxing,Li Bo.SECOND: sparsely embedded convolutional detection [J]. Sensors,2018,18(10): 3337.

[7]Lang A H,Vora S,Caesar H,et al. PointPillars: fast encoders for object detection from point clouds [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 12697-12705.

[8]趙毅強,艾西丁·艾克白爾,陳瑞,等. 基于體素化圖卷積網絡的三維點云目標檢測方法 [J]. 紅外與激光工程,2021,50(10): 281-289.(Zhao Yiqiang,Asidin·Ekber,Chen Rui,et al. A 3D point cloud target detection method based on voxelized graph convolutional network [J]. Infrared and Laser Engineering,2021,50(10): 281-289.)

[9]Zhou Yin,Sun Pei,Zhang Yu,et al. End-to-end multi-view fusion for 3D object detection in lidar point clouds [C]//Proc of Conference on Robot Learning. 2020: 923-932.

[10]Vora S,Lang A H,Helou B,et al. PointPainting: sequential fusion for 3D object detection [C]// Proc of IEEE/CVF Conference on Com-puter Vision and Pattern Recognition. 2020: 4604-4612.

[11]Yang Xue,Yan Junchi,Feng Ziming,et al. R3Det: refined single-stage detector with feature refinement for rotating object [EB/OL].(2019). https://arxiv.org/1908. 05612.

[12]Yang Xue,Yang Jirui,Yan Junchi,et al. SCRDet: towards more robust detection for small,cluttered and rotated objects [C]// Proc of IEEE/CVF International Conference on Computer Vision. 2019: 8232-8241.

[13]Zhou Xingyi,Wang Dequan,Krhenbühl P. Objects as points [EB/OL].(2019). https://arxiv.org/ 1904. 07850.

[14]Hu Yihan,Ding Zhuangzhuang,Ge Runzhou,et al. AFDetV2: rethinking the necessity of the second stage for object detection from point clouds [EB/OL].(2021). https://arxiv.org/2112. 09205.

[15]Deng Jiajun,Shi Shaoshuai,Li Peiwei,et al. Voxel R-CNN: towards high performance voxel-based 3D object detection [EB/OL].(2020). https://arxiv.org/ 2012. 15712.

[16]Xie Liang,Xiang Chao,Yu Zhengxu,et al. PI-RCNN: an efficient multi-sensor 3D object detector with point-based attentive cont-conv fusion module [C]// Proc of AAAI Conference on Artificial Intelligence. 2020: 12460-12467.

[17]Wang Chunwei,Ma Chao,Zhu Ming,et al. PointAugmenting: cross-modal augmentation for 3D object detection [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 11794-11803.

[18]Wen Lihua,Jo K H. Fast and accurate 3D object detection for LiDAR-camera-based autonomous vehicles using one shared voxel-based backbone [J]. IEEE Access,2021,9: 22080-22089.

[19]Wang Guojun,Tian Bin,Zhang Yachen,et al. Multi-view adaptive fusion network for 3D object detection [EB/OL].(2020).https://arxiv.org/2011. 00652.

[20]Melotti G,Premebida C,Gonalves N M M S,et al. Multimodal CNN pedestrian classification: a study on combining LiDAR and camera data [C]//Proc of the 21st International Conference on Intelligent Transportation Systems. Piscataway,NJ:IEEE Press,2018: 3138-3143.

[21]Asvadi A,Garrote L,Premebida C,et al. Multimodal vehicle detection: fusing 3D-LiDAR and color camera data [J]. Pattern Recognition Letters,2018,115: 20-29.

[22]Yoo J H,Kim Y,Kim J,et al. 3D-CVF: generating joint camera and lidar features using cross-view spatial feature fusion for 3D object detection [C]// Proc of European Conference on Computer Vision. Cham: Springer,2020: 720-736.

[23]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2016: 770-778.

[24]Su Pang,Morris D,Radha H. CLOCs: camera-LiDAR object candidates fusion for 3D object detection [C]// Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway,NJ:IEEE Press,2020: 10386-10393.

[25]Ku J,Mozifian M,Lee J,et al. Joint 3D proposal generation and object detection from view aggregation [C]// Proc of IEEE/RSJ Internatio-nal Conference on Intelligent Robots and Systems. Piscataway,NJ:IEEE Press,2018: 1-8.

[26]Cao Pei,Chen Hao,Zhang Ye,et al. Multi-view frustum PointNet for object detection in autonomous driving [C]// Proc of IEEE International Conference on Image Processing. Piscataway,NJ:IEEE Press,2019: 3896-3899.

[27]Danfei Xu,Anguelov D,Jain A. PointFusion: deep sensor fusion for 3D bounding box estimation [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2018: 244-253.

[28]Sindagi V A,Zhou Yin,Tuzel O. MVX-Net: multimodal VoxelNet for 3S object detection [C]// Proc of International Conference on Robo-tics and Automation. Piscataway,NJ:IEEE Press,2019: 7276-7282.

[29]Zhang Zehan,Zhang Ming,Liang Zhidong,et al. Maff-Net: filter 1 positive for 3D vehicle detection with multi-modal adaptive feature fusion [EB/OL].(2020).https://arxiv.org/2009. 10945.

[30]Huang Tengteng,Liu Zhe,Chen Xiwu,et al. EPNet: enhancing point features with image semantics for 3D object detection [C]// Proc of European Conference on Computer Vision. Cham: Springer,2020: 35-52.

[31]Ngiam J,Caine B,Han Wei,et al. StarNet: targeted computation for object detection in point clouds [EB/OL].(2019). https://arxiv.org/1908.11069.

[32]Cheng Shuyang,Leng Zhaoqi,Cubuk E D,et al. Improving 3D object detection through progressive population based augmentation [C]//Proc of European Conference on Computer Vision. Cham:Springer,2020: 279-294.

[33]Wang Yue,Fathi A,Kundu A,et al. Pillar-based object detection for autonomous driving [C]// Proc of European Conference on Computer Vision. Cham: Springer,2020: 18-34.

[34]Yin Tianwei,Zhou Xingyi,Krahenbuhl P. Center-based 3D object detection and tracking [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 11784-11793.

[35]Chen L C,Zhu Yukun,Papandreou G,et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]// Proc of European Conference on Computer Vision. 2018: 801-818.

[36]Howard A,Sandler M,Chu G,et al. Searching for MobileNetv3 [C]// Proc of IEEE/CVF International Conference on Computer Vision. 2019: 1314-1324.

[37]Yu Changqian,Wang Jingbo,Peng Chao,et al. BiSeNet: bilateral segmentation network for real-time semantic segmentation [C]// Proc of European Conference on Computer Vision. 2018: 325-341.

[38]Lin T Y,Goyal P,Girshick R,et al. Focal loss for dense object detection [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2017: 2980-2988.

[39]Shi Shaoshuai,Guo Chaoxu,Jiang Li,et al. PV-RCNN: point-voxel feature set abstraction for 3D object detection [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 10529-10538.

[40]Sun Pei,Kretzschmar H,Dotiwalla X,et al. Scalability in perception for autonomous driving: Waymo open dataset [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 2446-2454.

[41]Yang Zetong,Zhou Yin,Chen Zhifeng,et al. 3D-MAN: 3D multi-frame attention network for object detection [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 1863-1872.

[42]Elfwing S,Uchibe E,Doya K. Sigmoid-weighted linear units for neural network function approximation in reinforcement learning [J]. Neural Networks,2017,107: 3-11.

收稿日期:2022-05-10;修回日期:2022-06-30 基金項目:國家自然科學基金資助項目(61672305)

作者簡介:秦建偉(1996-),男,山東濰坊人,碩士研究生,主要研究方向為三維目標檢測;王傳旭(1968-),男(通信作者),山東濟寧人,教授,碩導,博士,主要研究方向為群組行為識別(qust_wcx@163.com);付小珊(1998-),女,山西運城人,碩士研究生,主要研究方向為目標跟蹤.

主站蜘蛛池模板: 欧美综合激情| 不卡午夜视频| 国产免费自拍视频| 亚洲无码高清一区二区| a色毛片免费视频| 亚洲区第一页| 第一区免费在线观看| 99国产精品国产高清一区二区| 国产亚洲精品97在线观看| 欧美日本激情| 午夜精品福利影院| 免费一级成人毛片| 国产人人射| 91精品国产一区自在线拍| 在线色国产| 一区二区欧美日韩高清免费| 91av成人日本不卡三区| 久久久久亚洲精品无码网站| 精品一区二区三区四区五区| 色综合中文| 日日摸夜夜爽无码| 亚洲天堂伊人| 成人av专区精品无码国产| 草草影院国产第一页| 国产一区二区三区在线无码| 99视频在线精品免费观看6| 99精品免费在线| 欧美一区二区福利视频| 二级特黄绝大片免费视频大片| 国产91成人| 精品夜恋影院亚洲欧洲| 亚洲国产清纯| 亚洲国产精品人久久电影| 中文字幕欧美日韩| 91亚洲影院| 日韩在线1| 亚洲黄网在线| 亚洲女同欧美在线| www.精品视频| 无码不卡的中文字幕视频| 五月天久久综合| 亚洲中文在线视频| AV老司机AV天堂| 97国产成人无码精品久久久| 亚洲伊人久久精品影院| 免费人成视网站在线不卡| 亚洲国产无码有码| 国产精品大尺度尺度视频| 亚洲日韩高清在线亚洲专区| 亚洲综合色吧| 国产青青草视频| 欧美中文字幕在线二区| 特级毛片免费视频| 精品超清无码视频在线观看| 天堂成人在线| 中文天堂在线视频| 免费A级毛片无码免费视频| 亚洲精品国产综合99久久夜夜嗨| 国产无码在线调教| 666精品国产精品亚洲| 一级高清毛片免费a级高清毛片| 曰韩人妻一区二区三区| 三区在线视频| AV片亚洲国产男人的天堂| 亚洲成a人片| 精品人妻AV区| 一级毛片不卡片免费观看| 成人午夜网址| 伊人国产无码高清视频| 在线观看国产精品第一区免费| 在线观看免费AV网| 97人妻精品专区久久久久| 国产免费黄| 黄色成年视频| 亚洲第一成人在线| 精品国产三级在线观看| 国产欧美日韩资源在线观看| 狠狠色丁婷婷综合久久| Jizz国产色系免费| 97国产精品视频人人做人人爱| 亚洲中文在线看视频一区| 国产成人综合久久精品下载|