摘 要:對于自動駕駛領域而言,確保在各種天氣和光照條件下精確檢測其他車輛目標是至關重要的。針對單個傳感器獲取信息的局限性,提出一種基于cross-attention注意力機制的融合方法(AF),用于在特征層面上融合毫米波雷達和相機信息。首先,將毫米波雷達和相機進行空間對齊,并將對齊后的點云信息投影成點云圖像。然后,將點云圖像在高度和寬度方向上進行擴展,以提高相機圖像和點云圖像之間的匹配度。最后,將點云圖像和相機圖像送入包含AF結構的CenterNet目標檢測網絡中進行訓練,并生成一個空間注意力權重,以增強相機中的關鍵特征。實驗結果表明,AF結構可以提高原網絡檢測各種大小目標的性能,特別是對小目標的檢測提升更為明顯,且對系統的實時性影響不大,是提高車輛在多種場景下檢測精度的理想選擇。
關鍵詞: 自動駕駛;目標檢測;毫米波雷達;交叉注意力融合
中圖分類號: TP391文獻標志碼:A 文章編號: 1001-3695(2024)04-044-1258-06
doi: 10.19734/j.issn.1001-3695.2023.07.0343
AF-CenterNet: object detection with fusion of millimeter-wave radar and camera using cross-attention mechanism
Che Li Lyu Lianhui Jiang Liubinga,b
Abstract:For the field of autonomous driving, it is crucial to ensure accurate detection of other vehicle targets under various weather and lighting conditions. To address the limitations of the information acquired by a single sensor, this paper proposed a fusion method (AF) based on the cross-attention mechanism for fusing millimeter-wave radar and camera information at the feature level. It first spatially aligned the millimeter-wave radar and camer projecting the aligned point cloud information into a point cloud image. Then, it expanded the point cloud image in the height and width directions to improve the match between the camera image and the point cloud image. Finally, it sent the point cloud image and the camera image into a CenterNet target detection network containing the AF structure for training and generated a spatial attention weight to enhance key features in the camera. The experimental results show that the AF structure can improve the performance of the original network in detecting targets of various sizes, especially for small targets, and has little impact on the real-time performance of the system, which makes it an ideal choice for improving the detection accuracy of vehicles in a variety of scenarios. Key words:autonomous driving; object detection; millimeter-wave radar; cross-attention fusion
0 引言
隨著各類傳感器技術和計算機視覺技術的發展,自動駕駛的實現成為了可能。單一傳感器獲取到的信息難以滿足自動駕駛的需要。因此, 多傳感器融合技術是實現自動駕駛的核心技術,通過多傳感器融合技術,可以協同多個同類或異類傳感器,共同采集車輛周圍環境的數據信息,經過多傳感器融合結構或算法的處理分析,使車輛能全面地感知周圍環境,幫助車輛完成自動駕駛等智能決策[1]。
根據傳感器融合信息所在的層次,將傳感器融合技術分為數據層融合、特征層融合和決策層融合。特征層融合在融合前對信息進行了一定的特征提取處理,在保持目標重要特征的基礎上,對提取的特征進行融合。其相較于數據層融合提高了系統的實時性,同時比決策層融合保留了更多的細節信息[2]。在自動駕駛領域中,常使用到的傳感器有毫米波雷達、激光雷達和相機。相機能夠在光照條件良好的場景下獲取豐富的環境信息如物體的色彩、紋理和形狀等, 而毫米波雷達能夠探測目標的距離、速度信息,且不受光照條件的影響,同時在雨天、雪天和多霧的天氣條件下也具備一定的抗干擾性,但不能直接反映目標形狀、色彩等信息。激光雷達雖然比毫米波雷達的探測精度更高,但激光雷達在雨雪霧等天氣環境下會受到較大的影響。考慮到自動駕駛需要在全天候場景下保持穩定、精確的探測性能,只有各個傳感器互相配合使用,形成優勢互補,再加上信息融合算法的優化處理,才能更好地采集處理車輛周圍的數據,并給出更加準確、魯棒的決策[3]。因此,本文使用毫米波雷達和相機進行傳感器融合來實現優勢互補。因為毫米波雷達點云數據的稀疏性,使其不能像激光雷達一樣生成密集的點云數據與相機圖像進行密切的匹配,所以雷達與相機的融合研究相較于激光雷達和相機融合的發展較為緩慢。在毫米波雷達與相機融合的初期,融合層次一般停留在決策層融合[4~6],總的來說,首先使用雷達來提取出相機圖像中的感興趣區域,再對雷達提取到的感興趣區域單獨進行相機圖像的目標檢測。雖然,感興趣區域的設計加快了目標檢測網絡對圖像的處理速度,但最后檢測的精度還是基于相機圖像的檢測結果,并沒有很好地結合毫米波雷達信息和相機信息的優勢。對于特征層融合,文獻[7]使用毫米波雷達點云中的距離和速度信息生成點云圖像,再在ResNet18主干特征提取網絡中加入點云圖像特征提取分支,將提取到的相機和點云的特征圖堆疊進行特征融合,最后使用SSD網絡作為目標檢測框架進行目標識別。同樣地,RVNet[8]也是將點云信息中的速度和距離信息轉換為點云圖像送入到卷積神經網絡中進行特征提取和特征堆疊,不同的是設計了不同的輸出分支用于不同大小的目標檢測。之后,毫米波雷達和相機的特征層融合網絡的研究也向著多方面展開。Nobis等人[9]在2019年提出CRF-Net融合框架,CRF-Net也是在特征層中融合相機數據和投影稀疏雷達數據。CRF-Net為了降低因為毫米波雷達不能提供物體的高度信息所帶來的融合難度,將毫米波雷達點云擴展為具有高度信息的線狀圖。為了綜合不同深度網絡中的雷達和相機的特征,CRF-Net將這不同層次的雷達和相機特征圖按通道維堆疊起來,送入到網絡中讓網絡自行學習不同層次的權重來達到最好的效果。近年來,注意力機制[10,11]的發現使得神經網絡的性能得到進一步的提高。Chang等人[12]指出目前傳感器融合的網絡結構設計沒有很好地考慮到毫米波雷達對周圍環境的狀態感知信息。于是提出了SAF-FCOS網絡融合結構,對同一層次的雷達特征層進行不同卷積核大小的卷積操作,來得到不同感受野大小的空間注意力矩陣,通過空間注意力機制來實現融合雷達與相機信息。Danapal等人[13]提出一個基于Tiny YOLOv4[14]的主干特征提取網絡和帶有通道注意力模塊的融合網絡架構在特征級上實現相機和毫米波雷達的融合。MS-YOLO[15]網絡使用YOLOv5作為主干特征提取網絡,然后使用 FPN[16]和PAN[17]結構接收主干網絡提取的不同感受野大小的相機和雷達點云特征圖,通過通道堆疊的方式將相機和雷達點云特征圖進行全方位的融合。但是,上述特征層融合的研究對點云信息的利用并不充分或者點云圖像的表現形式較為單一,且在融合毫米波雷達和相機特征的方法上較為簡單。雖然SAF-FCOS和Danapal等人改進的Tiny YOLOv4融合網絡和在融合機制上使用了注意力機制,但只是使用了雷達特征來獲得不同感受野大小的空間注意力權重或相機和毫米波雷達點云通道注意力權重,并沒有充分利用相機特征和相機與毫米波雷達特征間的聯系。為了提高雷達信息和相機信息間的關聯性,本文提出了一種點云擴展方法和cross-attention注意力機制[18]來融合毫米波雷達和相機模態內和模態間的特征,實現毫米波雷達和相機的優勢互補,提高對全尺寸目標的檢測精度。
1 雷達數據處理
1.1 雷達相機空間對齊
本文使用nuScenes數據集[19]來制作訓練集和驗證集。nuScenes數據集是在自動駕駛領域中使用非常廣泛的數據集,它使用了毫米波雷達、激光雷達和彩色相機等常見的傳感器采集了約15個小時在真實街道上的駕駛數據。數據采集的場景包含城市和郊區等各個不同路況和光照條件下的場景。nuScenes數據集中所使用的傳感器的安裝示意圖如圖1所示。
因為毫米波雷達和相機是不同類傳感器,相機采集到的是RGB格式的圖片文件,而毫米波雷達采集到的是包含目標的速度、距離和雷達散射截面積等信息的點云文件。為了使卷積神經網絡能夠提取雷達點云的特征信息,需要將毫米波雷達的點云信息轉換成圖片中的像素信息。在采集過程中,毫米波雷達和相機的采樣頻率不一致,使用線程同步方法來同步采集相機圖像和毫米波雷達點云數據,從而實現時間對齊。從圖1中可以看到,相機和毫米波雷達所處的空間位置不同,所以需要對毫米波雷達和相機的坐標系進行轉換,使得兩者處于同一坐標系下來實現空間對齊。一般來說,毫米波雷達和相機的空間對齊所涉及到的坐標系有雷達坐標系、世界坐標系、相機坐標系、成像平面坐標系和像素坐標系。通過坐標系間的轉換關系,可以得到像素坐標系到世界坐標系的轉換公式:
其中:(xu,yu)是目標在像素坐標系下的坐標;(XW,YW,ZW)是目標在世界坐標系下的坐標; fx=f/dx, fy=f/dy,f是相機的焦距dx和dy表示在像素坐標系下單位像素在x軸和y軸方向下的物理尺寸;(uAO,vAO)表示成像平面中心點在像素坐標系下的坐標; R W和 T W是世界坐標系到相機坐標系的旋轉和平移矩陣。通過相機的標定可以得到相機的內參矩陣fx/0/uAO/00/fy/vAO/00/0/1/0和外參矩陣 R W/ T WOT/ 再由式(1)可以將一個目標在世界坐標系下的坐標轉換到對應像素坐標下的坐標。
為了將毫米波雷達坐標系投影到和相機同一的像素坐標系,還需要將毫米波雷達坐標系投影到世界坐標系,再使用式(1)投影到像素坐標系。雷達坐標系是以雷達為坐標原點Or,以汽車中軸線,行駛方向為正方向建立Z軸,Y軸則垂直汽車向上,X軸垂直于YOZ平面,如圖2所示。雷達和相機的空間對齊所涉及到的坐標系轉換如圖3所示。
假設目標被雷達探測到的目標點P的位置信息為(r,θ),那么該目標在世界坐標系中對應坐標如式(2)所示。
世界坐標系的位置可以自由設置,通過測量雷達與世界坐標系的偏差,可以得到偏移向量 e =[ex,ey,ez],則目標在世界坐標系中的坐標(xW,yW,zW)為
通過上面的坐標變換,毫米波雷達和相機采集到的數據就可以轉換到同一像素坐標系下,毫米波雷達點云投影到圖像上的效果如圖4所示。圖4中毫米波雷達點云的顏色深淺代表目標到雷達的距離近遠。
1.2 雷達點云圖像處理為了更好地使用雷達采集到的信息,本文將雷達采集到的距離、速度和雷達散射截面積信息分別轉換為點云圖像中RGB三通道中的像素值。同時為了降低由于毫米波雷達點云的稀疏性給相機圖像和點云圖像融合帶來的困難,本文使用距離和雷達散射截面積信息來對點云的長寬進行擴展。這使得卷積神經網絡更容易將點云圖像和相機圖像的特征聯系起來。
1.2.1 投影雷達點云圖像
在將毫米波雷達點云信息投影生成點云圖像之前需要根據實際條件和傳感器性能的差異對點云進行過濾。nuScenes數據集中所使用毫米波雷達的最大探測距離depth為250 m,而道路中車輛行駛的速度v一般不超過33 m/s,車輛的雷達散射截面積rcs一般在3~30 dBsm,在投影點云圖像前需要將超出這三個限制范圍的點云數據濾除。又因為毫米波雷達和相機的探測角度不同,為了方便后續卷積神經網絡的處理,需要保持相機圖像和點云圖像的尺寸一致,將點云圖像的尺寸也限制到和相機圖像一樣的1600×900大小。
根據上面的分析設計式(4),將符合要求的點云信息轉換為RGB三通道中的像素值。
其中:depth、v和rcs 分別代表點云中的距離、速度和雷達散射截面積信息。通過式(4),可以將點云信息轉換得到的像素值限定在0~255像素,其中為了使轉換得到的點云圖像的顏色較為明顯,將RGB三通道中的像素值限定在顏色較為明亮的128像素值以上。
1.2.2 雷達點云圖像柱狀擴展
考慮到毫米波雷達的點云沒有反映物體的高度信息,這給融合本就稀疏的雷達點云更增加了難度。為了讓雷達點云能夠在一定程度上反映檢測目標的高度信息,以此來提高相機和點云圖像的匹配度。本文根據雷達點云中包含的距離和雷達散射截面積信息來擴展點云的高度和寬度;同時考慮到“遠大近小”效應,使得距離遠的點云的高度小,距離近的點云高度大。經過多次實驗,通過式(5),將點云的高度和寬度擴展到一個較為合理的尺度。
點云圖像的轉換流程如圖5所示。
2 特征融合網絡架構
本章將會詳細介紹使用注意力機制在單階段目標檢測網絡CenterNet[20]中實現毫米波雷達和相機特征級融合的AF-CenterNet網絡結構,并在后續做了大量的實驗驗證所提出的融合結構對于提升小目標物體檢測精度的有效性。整個網絡的結構如圖6所示。整個網絡框架大致可以分為雷達和相機特征提取結構和cross-attention特征融合結構。
2.1 雷達和相機特征提取結構本文使用ResNet50作為主干特征提取網絡,ResNet50包含5層結構,網絡結構逐層加深,而實現特征融合首先需要考慮在哪一層進行融合。雖然深層次的卷積神經網絡中提取到一些更抽象和更語義化的特征信息,使網絡能夠更好地擬合特征,但由于獲得的是對圖像的整體性信息,會損失較多的細節信息,這對小目標的物體檢測是不利的。而在自動駕駛領域中,對目標檢測系統的實時性要求較高,深層次的網絡結構的特征融合,意味著需要在主干特征提取網絡中加入一個能夠提取到同樣深層次特征信息的雷達分支網絡,這無疑會大大增加網絡的參數量,導致網絡運行速度減慢。因此,本文選擇在ResNet第一層后實現特征融合,即圖6中ImgP0層后加入特征融合結構。
雷達點云圖像和相機圖像的初始尺寸都是512×512×3。對于相機特征提取分支,相機圖像在經過ResNet網絡第一層的卷積、標準化、激活函數和最大池化操作后,得到大小為128×128,通道數擴張為64的相機特征層。對于雷達特征提取分支,因為雷達點云在一定程度上反映了周圍環境的物理狀態,所以在相機特征提取分支的基礎上加入了3×3和5×5兩個不同卷積核大小的深度可分離卷積[2 22],來提取點云圖像中不同感受野大小的特征信息,同時深度可分離卷積的使用有利于降低點云圖像特征提取網絡的參數量,以提高網絡的檢測速度,然后將得到的兩個特征層按通道維進行堆疊,得到128×128大小,通道數128的特征層,如圖6中藍色框中區域所示(參見電子版)。
2.2 相機和雷達點云特征融合結構
注意力機制的本質是由網絡根據輸入數據對輸出數據影響自動調整輸入數據中不同元素的權重,實現對輸入數據加權分配的過程。在特征融合結構的設計中,本文使用cross-attention來融合相機和點云的特征信息。融合結構的示意圖如圖6中黃色框中區域所示(參見電子版)。首先,為了減少融合過程中網絡的參數量,通過兩個1×1的卷積,將相機和雷達點云的特征層的通道維調整為 大小不變。再通過對調整后的相機和雷達點云的特征層作線性變換,得到相機的 Q I、 K I、 V I特征向量和雷達點云的 Q R與 K R特征向量。如圖6中的紅色和綠色框圖所示。
其中:d是縮放因子,表示輸入信息的維度;maxpool操作是對 K I、K R和 V I特征向量進行卷積核大小為2×2,步長為4的最大池化處理,返回每個卷積核內的最大值,該操作可以將原始特征圖的尺寸縮小到1/4,并保留主要特征,從而降低網絡計算量和內存消耗,提高網絡的性能和泛化能力。
如果不考慮softmax函數和縮放因子,cross_attention( Q IR, K IR, V II)可以表示為 Q IR K TIR V II, Q IR K TIR V II不僅能得到雷達點云特征和相機特征各自的依賴關系,還能得到雷達點云特征和相機間的依賴關系。推導過程如式(8)。
從式(8)可以看出,cross-attention的輸出中融合了雷達點云和相機模態內與模態間的特征,再使用卷積核為3×3,分組大小為2的分組卷積[24]和sigmoid函數來分別提取輸出特征層中兩個通道的空間注意力分數矩陣,然后使用最大池化來保留兩個通道中最大的空間注意力分數。為了解決訓練退化的問題,在原始相機特征層imgP0和融合后的特征層之間使用殘差網絡中的short-cut機制,并定義一個可學習的參數gamma來縮放融合特征。最后的融合特征output可以表示為
其中:max操作表示提取經過特征融合后兩個通道特征層中最大的空間注意力分數。原始相機特征層imgP0和融合后的特征層output的部分通道的可視化結果如圖7所示。
3 實驗分析
本章使用nuScenes數據集中的雷達和相機數據來驗證基于cross-attention注意力機制進行雷達和相機特征融合的優越性。實驗數據包括了作為訓練集的6 000對雷達點云和相機圖像和作為驗證集的400對點云圖像和相機圖像,選取的訓練集和驗證集包含了晴天、雨天、白天和夜晚等不同天氣條件和場景下的圖片。網絡模型的性能指標采用了標準的MS COCO評價指標。
3.1 實驗細節
本文在PyTorch深度學習平臺上搭建了CenterNet目標檢測框架,使用8 GB顯存的NVIDIA RTX 3070 GPU訓練模型,包含6 000和400張相機和毫米波雷達點云圖像對,分別作為訓練集和驗證集。輸入到網絡中的圖像會被調整到512×512大小,使用Adam優化器訓練CenterNet,初始學習率為1.25×10-4,batch_size 設置為4,訓練總輪次為200epoch。
3.2 cross-attention消融實驗
為了驗證融合點云和相機特征的cross-attention結構對提升網絡性能的有效性,將加入cross-attention融合結構的CenterNet(下面簡稱AF-CenterNet)與僅使用相機圖像訓練的CenterNet進行對比,在實驗前設置相同超參數進行訓練。定性評價結果如圖8所示。實驗結果表明,AF-CenterNet在多種環境下對小目標的檢測效果要優于CenterNet。
再使用MS COCO數據集的評定標準對實驗結果進行定量評定,實驗結果準確率(AP)和召回率(AR)如表1和2所示。表中AP表示網絡預測框和真實框的交并比IoU從0.5到0.95的平均準確率,如AP0.5和AP0.75表示IoU在0.5和0.75時的準確率。AR(1)、AR(10)和AR(100)表示每張圖片在檢測1、10和100個目標時得到的召回率。APs、APm和APl表示檢測小、中和大目標時的準確率,召回率AR中也是如此表示,具體的定義如表3所示。
通過表1和2的消融實驗結果,驗證了本文方法與只使用相機圖像進行目標檢測的網絡相比,在檢測全尺寸目標的準確率和召回率上都得到了提升,尤其對小目標物體檢測的提升明顯:在準確率上提升了34.93%,在召回率上提升了26.53%。
3.3 cross-attention特征融合對比實驗
目前常見的特征融合方法有特征相乘(mul)、特征相加(add)、特征堆疊(concat)和較新的SAF(spatial attention fusion)[9]。SAF融合方法使用空間注意力機制來提取不同感受野大小毫米波雷達點云空間注意力矩陣,來實現毫米波雷達和相機信息的特征級融合。為了驗證cross-attention特征融合方法與其他特征融合方法相對在提升目標檢測準確率和召回率上更具有優越性,進行表4和5的實驗。
如表4和5所示,本文方法相較于其他特征融合方法在檢測各類目標時都具有更好的性能。
3.4 AF-CenterNet實時性分析實驗
在自動駕駛領域中,對于目標檢測網絡的實時性要求較高,而AF-CenterNet中使用的主干目標檢測網絡是CenterNet,下面將通過比較AF-CenterNet和CenterNet模型在預測同一幀場景下所有車輛目標所需的總時間(Tot)、數據加載時間(Load)、數據預處理時間(Pre)、模型前向推理時間(Net)、模型后處理時間(Dec)和處理模型輸出時間(Post),來分析融合了毫米波雷達信息的AF-CenterNet在預測目標時與原網絡相比,在實時性上的變化。從表6可以得到在同一幀場景下, 僅使用相機圖片作為輸入數據的原CenterNet完成對目標預測所需要的總時間為0.1 s, 而使用毫米波雷達點云圖像和相機圖像作為輸入數據的AF-CenterNet所需的總時間為0.135 s。可以看到,增加的0.035 s時間中對額外的毫米波雷達點云數據的加載和數據預處理占到了0.017 s,而網絡的前向推理和后續處理僅占到0.018 s。這說明AF-CenterNet中提出的融合方法和毫米波雷達點云圖像特征提取的分支網絡對于網絡模型預測目標的實時性影響較小。
為了進一步研究加入cross-attention融合結構的AF-CenterNet在模型參數量上與原CenterNet的變化,將通道數為3,寬高為512×512的圖片和毫米波雷達點云數據分別輸入到僅使用相機圖片數據的原CenterNet和使用相機圖片和點云圖像的AF-CenterNet中,比較模型的總參數量和最后訓練完成的模型大小。最后的結果如表7所示。
如表7所示,最后訓練完成的AF-CenterNet模型相較于原CenterNet模型在模型的總參數量和模型大小上變化不大,這表明AF-CenterNet模型在預測速度上與原網絡相差不大。綜合表6和7的實驗結果,表明了本文方法所產生的額外參數量較小,對于網絡預測過程中實時性的影響也較小。
3.5 點云擴展的消融實驗為了驗證本文方法對融合效果的影響,將未經過點云擴展處理的點云圖像,制作成數據集送入到網絡中進行訓練,通過最后的實驗結果對比來驗證點云擴展處理的有效性。圖9是點云擴展前(左)和點云擴展后(右)的點云圖像。在訓練過程中發現,使用未擴展的點云圖像相較于擴展后的點云圖像,容易出現梯度爆炸和訓練損失下降慢的問題。推測是未擴展點云圖像的稀疏性使得網絡難以將相機特征和點云特征聯系起來,導致訓練更新緩慢。
從表8和9可以得出,使用毫米波雷達點云信息中距離和雷達散射截面積信息來擴展點云的長度和寬度得到的點云圖像,與未擴展的點云圖像相比,其在提升融合效果上更具有優勢,驗證了本文方法對于提升融合效果的有效性。
4 結束語本文提出一種基于cross-attention注意力機制的特征融合方法,實現了相機圖像和毫米波雷達點云圖像的特征層融合。因為是將毫米波雷達的點云信息轉換為卷積神經網絡可以處理的圖像形式,且沒有改變原來的網絡結構,所以本文提出的cross-attention特征融合結構是一種在卷積神經網絡中通用的特征融合結構,可以在一些為移動端設計的輕量化網絡如MobileNet[22]等網絡中表現出更好的實時性。在實驗驗證環節,通過消融實驗驗證了cross-attention特征融合結構對于提升網絡檢測性能的有效性,大量的對比實驗也驗證了cross-attention特征融合結構的優越性。同時,在對點云圖像的處理中,提出使用毫米波雷達點云信息中目標的距離和雷達散射截面積信息來擴展點云圖像的方法,使點云圖像能夠更好地匹配相機圖像,有利于雷達特征和相機特征的融合,也通過后續的消融實驗驗證了該方法的有效性。證明了毫米波雷達作為一種全天候的傳感器受天氣和光照條件的影響較低,在一定程度上能夠彌補相機受光照條件和天氣因素影響大的缺點,對檢測遠處和光照條件不好場景下的小目標效果提升明顯。
參考文獻:
[1]施曉東,楊世坤.多傳感器信息融合研究綜述[J].通信與信息技術,2022(6):34-41.(Shi Xiaodong, Yang Shikun. A review of multi-sensor information fusion research[J].Communications and Information Technology , 2022 (6): 34-41.)
[2]李洋,趙鳴,徐夢瑤,等. 多源信息融合技術研究綜述[J]. 智能計算機與應用,2019(5):186-189.(Li Yang,Zhao Ming,Xu Mengyao,et al. A review of multi-source information fusion technology research[J].Intelligent Computer and Applications ,2019(5):186-189.)
[3]周文鵬,路林,王建明. 多傳感器信息融合在無人駕駛中的研究綜述[J]. 汽車文摘,2022(1): 45-51.(Zhou Wenpeng,Lu Lin,Wang Jianming.A review of multi-sensor information fusion in autono- mous driving[J].Automotive Abstracts ,2022(1): 45-51.)
[4]Ji Zhengping,Prokhorov D. Radar-vision fusion for object classification[C]//Proc of the 11th International Conference on Information Fusion. Piscataway,NJ:IEEE Press,2008: 1-7.
[5]Koci c'J,Jovi i c'N,Drndarevi c'V. Sensors and sensor fusion in auto-nomous vehicles[C]//Proc of the 26th Telecommunications Forum. Piscataway,NJ:IEEE Press,2018: 420-425.
[6]Han Siyang,Wang Xiao,Xu Linhai,et al. Frontal object perception for intelligent vehicles based on radar and camera fusion[C]//Proc of the 35th Chinese Control Conference. Piscataway,NJ:IEEE Press,2016: 4003-4008.
[7]Chadwick S,Maddern W,Newman P. Distant vehicle detection using radar and vision [C]//Proc of International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press,2019: 8311-8317.
[8]John V,Mita S. RVNet: Deep sensor fusion of monocular camera and radar for image-based obstacle detection in challenging environments [C]//Proc of the 9th Pacific-Rim Symposium on Image and Video Technology. Berlin:Springer International Publishing,2019: 351-364.
[9]Nobis F,Geisslinger M,Weber M,et al. A deep learning-based radar and camera sensor fusion architecture for object detection[C]//Proc of Sensor Data Fusion: Trends,Solutions,Applications. Piscataway,NJ:IEEE Press,2019: 1-7.
[10]Xu K,Ba J,Kiros R,et al. Show,attend and tell: neural image caption generation with visual attention [C]//Proc of International Conference on Machine Learning. 2015: 2048-2057.
[11]Woo S,Park J,Lee J Y,et al. CBAM: convolutional block attention module [C]//Proc of European Conference on Computer Vision. 2018: 3-19.
[12]Chang Shuo,Zhang Yifan,Zhang Fan,et al. Spatial attention fusion for obstacle detection using mmWave radar and vision sensor[J].Sensors ,2020, 20 (4): 956.
[13]Danapal G,Mayr C,Kariminezhad A,et al. Attention empowered feature-level radar-camera fusion for object detection[C]//Proc of Sensor Data Fusion: Trends,Solutions,Applications. Piscataway,NJ:IEEE Press,2022: 1-6.
[14]Bochkovskiy A,Wang C Y,Liao H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. (2020). https://arxiv.org/abs/2004.10934.
[15]Song Yunyun,Xie Zhengyu,Wang Xinwei,et al. MS-YOLO: object detection based on YOLOv5 optimized fusion millimeter-wave radar and machine vision[J].IEEE Sensors Journal ,2022, 22 (15): 15435-15447.
[16]Lin T Y,Dollár P,Girshick R,et al. Feature pyramid networks for object detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2017: 2117-2125.
[17]Liu Shu,Qi Lu,Qin Haifang,et al. Path aggregation network for instance segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2018: 8759-8768.
[18]Chen C F R,Fan Quanfu,Panda R. CrossViT: cross-attention multi-scale vision Transformer for image classification[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2021: 357-366.
[19]Caesar H,Bankiti V,Lang A H,et al. nuScenes: a multimodal dataset for autonomous driving[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2020: 11621-11631.
[20]Zhou Xingyi,Wang Dequan,Krhenbühl P. Objects as points[EB/OL]. (2019).https://arxiv.org/abs/1904.07850.
[21]Chollet F. Xception: deep learning with depthwise separable convolutions[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2017: 1251-1258.
[22]Howard A G,Zhu Menglong,Chen Bo,et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. (2017).https://arxiv.org/abs/1704.04861.
[23]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need[C]// Advances in Neural Information Processing Systems. 2017.
[24]Ioannou Y,Robertson D,Cipolla R,et al. Deep roots: improving CNN efficiency with hierarchical filter groups[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2017: 1231-1240.
收稿日期:2023-07-12;修回日期:2023-09-07 基金項目:國家自然科學基金資助項目(61561010);廣西創新驅動發展專項資助項目(桂科AA21077008);廣西無線寬帶通信與信號處理重點實驗室2022年主任基金資助項目(GXKL06220102,GXKL06220108);八桂學者專項經費資助項目(2019A51);桂林電子科技大學研究生教育創新計劃資助項目(2022YXW07,2022YCXS080);2022年廣西高等教育本科教學改革工程項目(2022JGB196);桂林電子科技大學學位與研究生教改項目(2022YXW07,2023YXW02);廣西研究生教育創新計劃資助項目(YCSW2022271)
作者簡介:車俐(1977—),女,廣東茂名人,高級實驗師,碩導,碩士,主要研究方向為雷達信號處理;呂連輝(1999—),男,安徽滁州人,碩士研究生,主要研究方向為傳感器融合(3232043967@qq.com);蔣留兵(1973—),男,江蘇泰興人,研究員,博導,碩士,主要研究方向為寬帶信號與信息處理.