黃 俊,劉家森
(重慶郵電大學 通信與信息工程學院,重慶 400065)
隨著自動駕駛技術的不斷發展和普及,3D目標檢測作為自動駕駛中關鍵的環境感知模塊,正日益成為引領自動駕駛技術發展的重要領域[1]。3D目標檢測是感知模塊的核心,可為自動駕駛的路徑規劃、運動預測、決策控制等提供精確、豐富的空間信息[2]。
現有的3D目標檢測可以分為3種,分別是基于圖像、點云和多傳感器融合的方法[3]。在基于圖像的方法中,文獻[4]首先使用卷積神經網絡預測出初步的3D預測框,再將其投影到2D圖像上提取目標的可視表面,利用可視表面的特征對初步的3D預測框進行調整得到最終結果。文獻[5]使用被測車輛一些特征點的位置信息來表示整個車輛的3D預測框信息。根據車輛本身具有的形狀,從自建數據集中進行車輛模型匹配,得到最終3D預測框信息。上述基于圖像的3D目標檢測算法雖然步驟簡單,但是圖片缺少目標深度信息,不能準確還原目標3D信息。
在基于點云的方法中,文獻[6]將空間劃分為逐個的體素,體素中對雷達點云進行抽樣,然后對每個體素進行編碼,得到輸入特征集合,然后進行3D卷積,得到結果。文獻[7]將雷達點云數據自身進行柱狀擴張,再將其轉換為虛擬特征圖像,然后從3D卷積換為2D卷積來得到結果。上述基于點云目標檢測方法中,都缺少目標的紋理特征信息,并且由于大部分點云是3D卷積,運算量過大、實時性很差。
在基于融合的方法中,文獻[8]將圖像信息做語義分割,分割出需要檢測的目標;然后將生成的語義信息和點云相融合后傳入檢測網絡;最后得到檢測結果。這樣的缺點在于融合方式過于簡單,容易把干擾雷達的信息融合從而導致準確率下降。文獻[9]提出了一種多攝像頭鳥瞰視角下的三維物體檢測算法。該算法使用卷積神經網絡將不同攝像頭收集的車輛圖像映射到一個共同的鳥瞰圖平面上,然后進行物體檢測和分類。但是,該算法對于不同車型和不同尺寸的車輛在檢測方面可能存在一定的局限性。其次,該算法在計算鳥瞰圖時需要對圖像進行投影變換,會引入一定的誤差。文獻[10]對RGB圖像先提取出準確的2D邊框信息以及初步預測的3D邊框信息,再對毫米波雷達點云進行柱狀擴張,然后通過視錐關聯網絡的方式選取一個雷達點云作為特征信息補充,并且把2D信息和補充的雷達點云進行信息融合后再通過特征網絡得到最終預測的3D信息,最終解碼器通過初步預測的3D信息和最終預測的3D信息得到準確的3D邊框信息。
綜上所述,本文針對自動駕駛中相機信息特征不充分而導致目標漏檢的問題,設計了多通道特征數據輸入方式,通過雷達特征彌補相機特征以增強目標檢測網絡在遠距離情況下的魯棒性來解決漏檢問題,并改進了損失函數來提高目標檢測網絡的準確率。此外,為了得到更加準確的3D目標檢測結果,設計了改進注意力機制對毫米波雷達和視覺信息進行特征融合,解決復雜環境下的目標誤檢問題。本文在大型公開數據集Nuscenes上進行算法驗證,實驗結果表明,本文所提出的改進Centerfsuion模型在遠距離以及復雜環境下,相較于傳統Centerfusion模型具有更好的準確率。
攝像頭和雷達特征進行融合時,很難將雷達和視覺特征相關聯,Centerfusion是一種利用視錐來關聯攝像頭和雷達特征的檢測網絡,其網絡架構如圖1所示。

圖1 Centerfusion網絡架構Fig.1 Centerfusion network architecture
該網絡結構分為3個主要部分,分別為目標檢測網絡、視錐關聯網絡和二級回歸特征融合網絡。目標檢測網絡的輸入為單一的RGB圖像,采用Centernet[11]作為目標檢測網絡結構,并將深度層聚合(Deep Layer Aggregation, DLA)作為檢測網絡的骨干網絡。其輸出結果為準確的2D邊框信息和初步預測的3D邊框信息。
視錐關聯網絡通過對毫米波雷達點云進行柱狀擴充,并根據準確的2D邊框的4個頂點進行投影,形成視錐。視錐關聯網絡將初步預測的3D邊框與投影曲線相切,從而確定視錐的形狀。對于落在3D邊框內部的雷達點云柱體,視錐關聯網絡認為其與視錐相關聯。
二級回歸特征融合網絡在視錐關聯模塊中選擇與目標檢測網絡輸出的中心點最近的雷達點云,并將其作為補充的雷達特征信息。該雷達點云與目標檢測網絡中的特征信息按通道拼接構成新的輸入特征,用于預測目標準確的3D邊框信息。通過3D邊框解碼器將目標檢測網絡輸出的初步3D邊框信息與二級回歸特征融合網絡得到的3D邊框信息相結合,得到更準確的3D邊框結果。
在Centerfusion的初步檢測階段,僅使用相機信息作為輸入特征。然而,在遠距離和復雜環境下,由于目標像素特征占比過低,僅依靠相機信息進行初步檢測可能導致魯棒性不足的問題。與相機相比,雷達在極端環境條件下能夠提供更多豐富而有用的目標信息。因此,為了解決這一問題,在Centerfusion的初步檢測階段,可以同時利用相機和毫米波雷達的特征進行初步檢測。這種融合相機和毫米波雷達特征的方法能夠充分利用二者之間的信息互補能力。
基于文獻[12],本文加入了多通道特征輸入,其中包括毫米波雷達的深度d、速度v、反射截面r和相機信息。首先,將毫米波雷達點云投影到垂直平面,并將投影在平面方向上進行拉伸以彌補高度信息。為了解決雷達數據稀疏問題,參考了文獻[12]中的將13個毫米波雷達掃描幀進行聚合。垂直投影線的高度為參考的3 m,像素寬度為1。垂直投影線從3D空間中的地面開始,雷達點云離攝像機原點越近,線的高度越大。圖2顯示了點云投影到圖像上拉伸的效果。

圖2 雷達點云高度拉伸圖Fig.2 Stretching diagram of radar point cloud height
將雷達回波特征作為像素值存儲在特征圖像中。對于沒有雷達回波的圖像像素位置,將對應的雷達投影通道值設置為0。這些雷達通道特征與RGB輸入圖像連接,共同構成多通道特征輸入,作為Centerfusion目標檢測網絡的輸入特征。圖3展示了多通道特征輸入的信息示意,其中包括攝像機圖像通道特征和額外的雷達特征通道信息。

圖3 多通道特征輸入Fig.3 Multi-channel feature input
在視錐關聯模塊中選擇距離中心點最近的雷達點云作為融合的雷達特征信息,視錐關聯模塊如圖4所示。

圖4 視錐關聯模塊Fig.4 Visual cone correlation module
圖4(左)為鳥瞰圖視角下的視錐關聯圖,其中紅色矩形為真實框,綠色點為毫米波雷達點云,d為訓練階段的真實深度值,δ為調節視錐大小的參數。圖4(右)為基于3D邊框生成視錐感興趣區域,綠色形成的框架為初步預測的3D框,中間棕色的3D框為判斷雷達是否關聯的矩形區域,如果雷達存在該區域則視為關聯,否則視為不關聯。
通過視錐關聯模塊得到的補充雷達特征信息為包含深度d和2個方向速度vx、vy的3通道特征信息。該特征信息作為融合網絡的一部分輸入。
同時,目標檢測網絡通過輸入多通道特征獲得的特征熱圖也作為融合網絡的另一部分輸入,特征熱圖如圖5所示。

圖5 目標檢測網絡特征熱圖Fig.5 Feature heatmap of target detection network
為了更好地將2種特征熱圖信息進行融合。并考慮到CBAM[13]中為了避免特征維度縮減和增加通道間信息交互,在降低復雜度的同時保持性能。本文在文獻[14]的基礎上,設計了改進的高效卷積注意力模塊(Efficient Convolutional Block AttentionModule,ECBAM)來促進2種特征信息更好地融合。把該補充雷達特征熱圖和目標檢測網絡得到的特征熱圖先分別經過改進的ECBAM,然后按通道拼接融合構成新的融合特征 。
改進的ECBAM構架如圖6所示。在注意力通道模塊中,輸入特征F先經過去全局平均池化(Global Average Pooling,GAP)后得到F1,然后通過一個自適應卷積核大小為K的1D卷積且通過Sigmoid激活層得到的F2,F2和輸入特征F相乘得到輸出結果M1。M1同時作為空間注意力模塊的輸入特征信息,在通道方向上進行最大池化和平均池化,并將二者按通道堆疊得到M2,然后M2再通過一個7×7 大小卷積核的卷積層得到M3,M3通過 Sigmoid 激活層得到M4,最后將輸入特征M1與該權重參數M4進行相乘,得到最終輸出特征M。

圖6 ECBAM架構Fig.6 ECBAM architecture
自適應卷積核尺寸K的計算如式(1)所示,其中,C表示輸入層的通道數或特征圖的通道數,γ=2,b=1,odd表示K只能能取奇數。
(1)
綜上所述,在加入了多通道特征輸入以及ECBAM融合方式之后,最終本文模型的整體網絡架構如圖7所示。

圖7 整體網絡架構Fig.7 Overall network architecture
Centerfusion目標檢測網絡采用Centernet,Centernet的損失函數計算如式(2)所示,由熱力圖損失Lk,目標大小損失Lsize和中心偏移量損失Loff組成。
Ldet=LkλsizeLsize+λoffLoff,
(2)
式中:調節因子λsize=0.1,λoff=1。
(3)

(4)

(5)

為了解決邊界框不重合以及邊界框寬高比導致的回歸精度不高的問題,本文對損失函數進行改進,計算如式(6)所示:
(6)
式中:IoU[15]表示預測框和真實框的交并比,p表示為預測框和真實框中心點的距離,c表示預測框和真實框的最小box的對角線長,α表示權重系數,v表示衡量2個矩形框相對比例的一致性,其原理如圖8所示。

圖8 CIoU原理Fig.8 CIoU schematic
IoU計算如下:
(7)
式中:A表示真實框,B表示預測框。
α和v計算如下:
式中:wgt和hgt表示真實框的寬和高,w和h表示預測框的寬和高。
因此改進后的總損失函數如下:
Lloss=LK+LCIoU。
(10)
改進后的損失函數可以緩解Centernet預測時只有一個中心點而導致的準確度不高的問題,提升了目標檢測網絡的檢測精度。
本文使用的實驗平臺為 Ubuntu 20.04,開發語言為Python 3.7,深度學習框架為PyTorch 1.7,CUDA 版本為 11.1,CPU為至強Platinum 8350, 主頻 2.60 GHz,內存43 GB,硬盤600 GB,顯卡為RTX3090,24 GB顯存。
目前3D目標檢測主流數據集包括Nuscenes[16]、Kitti[17]和Waymo[18]。本文采用Nuscenes數據集進行算法驗證。它是目前主流的3D目標檢測數據集之一,擁有6個攝像頭、5個毫米波雷達、1個激光雷達進行數據采集。該數據集包括1 000個不同城市場景,每個場景時長20 s,包含40個關鍵幀。擁有140萬張圖片、130萬個毫米波雷達掃描幀、39萬個激光雷達掃描幀、140萬個對象邊界框、23個類別注釋。在本文中舍棄了激光雷達數據,且數據分為10種類別:Car、Truck、Bus、Trailer、Const、Pedest、Motor、Bicycle、Traff、Barrier。
Nuscenes數據集的檢測任務評價主要指標包括:平均精度均值(mean Average Precision, mAP),Nuscenes檢測分數(Nucenes Detection Scores,NDS)。其中計算mAP需要計算精確度P和召回率R,其計算公式如下:
式中:TP為真實樣本而預測為真實樣本,FP為錯誤樣本而預測為真實樣本,FN為真實樣本而預測為錯誤樣本。某一種類別的平均精度(AP)計算如下:
(13)
mAP是所有類別的AP之和,計算如下:
(14)
式中:n為10種類別。
NDS根據mAP以及平均度量mTP[19]計算得到,其中mTP指標包括5小類,分別是:平均平移誤差(Average Translation Error,ATE)、平均尺度誤差(Average Scale Error,ASE)、平均角度誤差(Average Orientation Error,AOE)、平均速度誤差(Average Velocity Error,AVE)和平均屬性誤差(Average Attribute Error,AAE)。NDS計算如下:
本文對遠距離小目標以及復雜背景環境下2組情況進行測試,檢測結果如圖9所示。

圖9 對比檢測結果Fig.9 Comparison test results
在圖9中,從左至右分別為原圖、基于Centerfusion的基模型檢測結果以及本文模型的檢測結果。其中,從最上方的3張圖片可以看出,對于遠距離小目標情況,公路上2個白色小車之間的黑車,以及公路右側遠處的一個行人沒有被基模型Centerfusion檢測出來,而本文模型能夠在較遠距離下正確地將目標識別出來。
第二組實驗針對復雜背景下存在許多背景物體的情況進行了測試。從圖9可以看出,基模型未能檢測出遠處草叢中的人和右方黑暗門口中的另一個人。此外,盡管基模型檢測到了大樹下的白色汽車,但是可以看出其3D邊框存在較大的偏移誤差,相比之下,本文模型因為引入了雷達特征信息,所以在相機模糊區域依然可以有效識別目標。此外,本文模型還采用了基于改進注意力機制的融合網絡,使得大樹下的白色汽車3D信息更加準確,因此相較于基模型,本文模型取得了更好的檢測效果。
為了進一步驗證本文所提出模型的有效性,在相同環境情況下,分別先后測試了Centernet、Centerfusion。算法性能對比如表1所示。

表1 算法性能對比Tab.1 Comparison of algorithm performance
從表1可以看出,本文模型相比于基模型Centerfusion在NDS指標上提升了1.2%,同時也在mAP指標上提升了 1.3%。此外,在mTP的各項誤差指標中也獲得了顯著下降。綜合各項指標來看,本文模型在目標檢測性能上優于其他2種模型。此外,本文模型和其他2種模型各類檢測目標的精度對比如表2所示。

表2 算法精度對比Tab.2 Comparison of algorithm accuracy
從表2可以看出,本文模型在各個目標類別的檢測精度上都有顯著提升,特別是針對小目標如Pedest、Motor和Bicycle等,相較于基模型Centerfusion分別提升了7.4%、9.3%和5.9%。而針對較大目標類別如Car、Truck、Bus和Trailer分別提高了1.8%、1.6%、2.6%和1.7%。這是因為本文模型針對小目標在相機信息中像素特征占比不足的問題進行了改進,引入了多通道特征進行補充,從而增強了目標檢測的魯棒性。此外,通過引入基于改進注意力機制的特征融合方案,結合毫米波雷達和相機特征,進一步提高了目標檢測的準確性。
為進一步驗證本文各個模塊的有效性,分別對多通道特征、融合方式以及損失函數進行消融實驗,結果如表3所示。

表3 融合實驗對比Tab.3 Comparison of fusion experiment
從表3第2組實驗結果可以看出,僅僅加入了多通道特征之后,模型的mAP得到了顯著提升,這是因為多通道特征可以解決相機特征不足的問題,改善了漏檢現象。但是,在mATE上有所增加,這是因為多通道特征雖然可以補充額外信息,但也可能引入了一些錯誤信息,導致中心點定位不準確。
為了緩解該誤差并更加準確地確定目標的中心點位置,第3組實驗加入了改進的損失函數,從而提高了中心點的準確性,進而改善了mATE。
第4組實驗相較于第1組實驗,加入了基于改進注意力機制的融合方式,在NDS、mAP指標上相對于基模型和第1組實驗都得到了提高,此外,在mASE、mAOE、mAVE和mAAE方面的改善較為明顯,這是因為新的融合方式能夠更好地匹配相機信息和雷達信息,從而更準確地還原物體的3D信息。
在第5組實驗中,相較于第4組實驗,引入了改進的損失函數,模型各方面參數均得到提升和改善。綜合來看,通過這5組實驗結果可以得出結論,本文模型在改進的方向上具有有效性,通過引入多通道特征、改進的損失函數和基于注意力機制的融合方式,顯著提升了目標檢測的性能。這些結果表明本文模型在多模態目標檢測任務中的潛力和優越性。
針對當前3D目標檢測中遠距離小目標漏檢以及復雜環境下對目標3D信息誤檢的問題,本文提出了一種基于毫米波雷達和視覺信息融合的3D目標檢測方法,并在Nuscenes數據集上進行了模型驗證與對比實驗。實驗結果表明,本文提出的多通道特征輸入方式和新的融合方式相較于傳統的單一相機通道特征以及簡單融合方式具有更好的抗干擾能力和檢測精度。由于條件限制,本文算法在速度上仍然存在缺陷,且沒有在實車上進行測試。因此,未來將針對時效性和實用性進行驗證并改善。