



關鍵詞:3D目標檢測;多模態(tài)融合;可變形注意力機制
中圖分類號:TP391 文獻標志碼:A
0 引言(Introduction)
3D目標檢測是自動駕駛等領域的核心技術(shù),旨在準確地輸出三維空間中物體的位置坐標和類別信息,為車輛感知環(huán)境和規(guī)劃路徑提供了基礎[1]。
現(xiàn)有的3D目標檢測算法根據(jù)輸入數(shù)據(jù)的不同來源,可以分為3類:基于圖像的算法[2]、基于激光點云的算法[3]以及融合了激光點云和圖像的方法[4]。相機圖像具有豐富的色彩和紋理信息,但是無法提供準確的距離信息,同時在惡劣天氣、夜晚環(huán)境中其性能可能會受到較大的影響。激光點云具有精確的位置信息,但語義信息不豐富。近年來,基于融合的方法展現(xiàn)出了獨特的優(yōu)越性,可以集合兩種模態(tài)數(shù)據(jù)的優(yōu)點,從而獲得準確性更高、魯棒性更強的檢測結(jié)果。
因此,本文選擇基于融合的3D目標檢測方法作為研究對象,旨在進一步挖掘并提升其在目標檢測精度和魯棒性方面的潛力。
1 融合點云和圖像的3D目標檢測算法(3D objectdetection algorithm fusing point cloud and image)
基于點云和圖像融合的方法可以分為3類:前融合(earlyfusion)、特征融合(feature fusion)及決策融合(decisionfusion)。前融合在數(shù)據(jù)預處理階段進行融合,Point Painting[4]將點云投影到語義分割后的圖像上,為點云添加類別信息。特征融合分別提取不同模態(tài)的特征,在特征層面進行融合。MV3D(多視點三維網(wǎng)絡)[5]從鳥瞰圖生成3D目標候選框,通過ROI(感興趣區(qū)域)池化將鳥瞰圖、前視圖和圖像的特征融合。TransFusion[6]使用Object Query從點云BEV(鳥瞰圖)特征生成初始3D邊界框,然后利用Tansformer解碼層與圖像特征進行融合。BEVFusion[7]將點云特征和圖像特征都轉(zhuǎn)換到BEV空間下進行融合,在BEV特征上輸出最終結(jié)果。決策融合在結(jié)果層面進行融合,如CLOCs(具有局部感知上下文的跨層融合)[8]通過現(xiàn)有的2D和3D檢測網(wǎng)絡獲得候選對象,然后對這些候選對象進行處理,生成融合的檢測結(jié)果。
前融合在低級語義層面融合數(shù)據(jù),但這種方法容易產(chǎn)生較大的對齊噪聲,并且未能充分利用圖像的語義信息;決策融合的性能會在不同傳感器的結(jié)果存在較大差異時顯著下降。因此,目前主流融合點云和圖像的3D目標算法主要采用特征融合的方式。然而,特征融合也存在一些問題,如相機標定不準時,會出現(xiàn)特征對齊誤差。近年來,針對特征融合中存在的問題,許多學者進行了改進。AutoAlign系列算法[9-10]、DeepFusion[11]等使用交叉注意力機制對每個圖像特征和體素特征進行交互,能在一定范圍內(nèi)自動對齊特征;DeepInteraction[12]同時保持兩種模態(tài)的特征,在特征學習和解碼器中進行交互,最大化不同特征的互補效果;CMT[13]在圖像和點云特征上加入由坐標生成的位置編碼,自主學習不同模態(tài)數(shù)據(jù)位置的對應關系。
為了解決上述問題,本文提出了并行融合模塊,旨在改善對齊誤差,并通過可學習權(quán)重比例生成融合特征。同時,考慮到點云數(shù)據(jù)的稀疏性,本文還提出了掩碼特征增強模塊,以提高受遮擋物體及小目標的檢測準確率。
2 算法描述(Algorithm description)
近年來,基于注意力機制的目標檢測算法逐漸流行,這類算法利用其全局感知的能力,有效地提高了檢測準確度。然而,傳統(tǒng)注意力機制需要與全局所有特征進行交互,導致計算量大、收斂時間慢。為解決這一問題,ZHU 等[14]提出了可變形注意力模塊,不同于普通注意力機制進行全局特征交互,可變形注意力機制在參考點周圍自適應地選擇K 個關鍵點的計算結(jié)果,提高了運算效率,顯著縮短了訓練時間。同時,由于計算復雜度降低,所以可以使用多尺度特征進行注意力計算。可變形注意機制的計算公式為
本文提出的算法使用可變形注意力機制提取融合特征,總體網(wǎng)絡結(jié)構(gòu)如圖1所示。首先使用兩個獨立的骨干網(wǎng)絡提取多視角圖像和點云的特征,其次輸入連續(xù)6個編碼層。每個編碼層中包含并行融合模塊和掩碼特征增強模塊,以BEV Query的形式與兩種模態(tài)的特征進行交互,將特征聚合到統(tǒng)一的鳥瞰圖視角下,通過無錨框的檢測頭輸出預測的3D邊界框信息。
輸入數(shù)據(jù)為雙目彩色相機和激光雷達點云數(shù)據(jù)。點云數(shù)據(jù)(x,y,z)坐標范圍是[0,70.4] m×[-40,40] m×[-3,1] m,使用SECOND[17]網(wǎng)絡提取特征,以0.05 m×0.05 m×4 m的大小進行體素化,然后進行稀疏卷積,輸出激光點云BEV特征圖大小為200×176。彩色相機分辨率為1 224×370,經(jīng)過ResNet+FPN 提取特征,輸出多尺度特征圖,大小分別為(H/4)×(W/4),(H/8)×(W/8),(H/16)×(W/16),(H/32)×(W/32)。學習率為1e-2,訓練80個周期。
3.3 結(jié)果與分析
為了驗證提出的并行特征融合模塊和掩碼特征增強模塊的有效性,在KITTI數(shù)據(jù)集上進行了實驗,選擇車輛目標與基線網(wǎng)絡CenterPoint[19]進行比較,結(jié)果如表1所示。在KITTI數(shù)據(jù)集上,本文方法與近年來一些具有影響力的模型進行了性能比較,比較結(jié)果如表2所示。本文方法的檢測效果如圖4所示。
首先,單獨添加了并行融合模塊,相對于基準網(wǎng)絡引入了額外的圖像特征信息。并行融合的模式更充分地保留了點云和圖像兩種模態(tài)的特征,其中點云提供了準確的位置信息,而圖像則提供了顏色、紋理等視覺信息。同時,使用可變形注意力機制使得兩種模態(tài)的特征圖可以在一定范圍內(nèi)自適應融合,減少了對齊誤差。在車輛目標上,研究人員觀察到在表1中只加入PFF模塊與基準網(wǎng)絡相比,對于Easy、Mod、Hard的AP3D0.7分別提升了5.95百分點、6.57百分點、7.09百分點,APBEV0.7分別提升了2.69百分點、2.09百分點、2.84百分點,表現(xiàn)出較為明顯的改進效果。
其次,研究人員進一步加入了掩碼特征增強模塊。該模塊根據(jù)前景分割圖對BEV特征圖進行多尺度融合,并使得稀疏的特征圖變得更為密集。這樣做不僅對受遮擋物體缺失的特征有一定程度的彌補,而且對Mod和Hard難度的車輛目標檢測結(jié)果有了一定程度的提升。在表1中,研究人員觀察到,同時加入PFF模塊和MFA模塊與只加入PFF模塊相比,在3種難度下,AP3D0.7分別提高了0.49百分點、0.70百分點、0.54百分點,APBEV0.7分別提升了1.24百分點、1.44百分點、1.53百分點。
4 結(jié)論(Conclusion)
本文提出了一種融合激光點云和圖像融合3D目標檢測算法。通過并行融合模塊對不同模態(tài)特征進行交互,同時保留兩種特征信息,能夠自適應地學習不同特征的融合范圍及分布比例,減小了特征對齊誤差。通過掩碼特征增強模塊突出前景區(qū)域信息,增強了BEV特征圖中受遮擋部分的特征強度,提升了多尺度檢測能力。在KITTI數(shù)據(jù)集上的對比實驗結(jié)果表明,相較于基線網(wǎng)絡,本文算法在檢測精度上有了顯著的提高,證明了改進方法的有效性。
作者簡介:
韓邦彥(1999-),男,碩士生。研究領域:計算機視覺與目標檢測。
田 青(1984-),男,博士,教授。研究領域:人工智能與圖像處理。