












摘 要:目標檢測是自動駕駛感知系統的基礎。由于單一傳感器的感知存在時空盲區問題,本文提出一種基于相機與激光雷達的后融合目標檢測算法。該算法采用改進后的YOLOv5s視覺目標檢測算法來檢測目標類別,其平均精度均值提高了2.75%。激光雷達感知采用分段聚類半徑的歐幾里得聚類算法對預處理后的點云信息進行聚類,并檢測出檢測區域內物體的目標距離。通過標定的參數,將點云投影到圖像上,以融合感知結果來確定檢測對象的類別和距離。本文在相關工況環境下對算法進行了驗證和測試,結果表明:本文提出的目標檢測算法的檢出率為88.9%,比單一相機感知的檢出率提高了7.8%。
關鍵詞:YOLOv5s;激光雷達;多傳感器融合;目標檢測
中圖分類號:TN96;TN957.5 DOI:10.16375/j.cnki.cn45-1395/t.2024.01.012
0 引言
近年來自動駕駛技術飛速發展,其目的是提高駕駛的安全性和舒適性。目標感知系統是自動駕駛技術的重要組成部分[1]。為了避免單一類型傳感器探測范圍有限、安全冗余不足等缺陷,傳感器融合技術利用具有互補特性的多種傳感器來增強感知,已成為新興的研究主題[2]。
在圖像目標檢測領域中基于深度學習的目標檢測算法由于精度高、檢測速度快,已成為研究的主流方向[3]。圖像深度學習檢測網絡主要分為兩大類:一種是基于候選區選取的兩階段目標檢測算法,在對圖像生成候選框的基礎上再通過神經網絡提取特征和分類。該類算法的模型檢測準確率和定位精度更高,但檢測速度較慢,其主要代表有R-CNN[4-6]系列模型。另一種是基于回歸問題的單階段的目標檢測算法,該算法直接將目標邊界框的定位問題轉化為回歸問題,以此得到目標在圖像中的位置信息和類別信息,使得整個模型的檢測速度更快,在應用中的實時性表現更好,其主要代表有 YOLO[7-10]系列模型和SSD[11]系列模型。YOLOv5作為目前主流的單階段視覺目標檢測算法應用廣泛,在檢測速度及檢測精度上皆性能良好。
在點云目標檢測上分為深度學習方法與非深度學習方法。PointNet[12]是處理點云數據的首個神經網絡結構,其將所有獨立的點特征聚合到一個全局點云特征中,無法提取空間點幾何結構。針對這一問題,PointNet++[13]以層級下采樣的方式從小區域中提取局部特征,進而獲得整個點云的幾何特征。RandLA-Net[14]進一步優化了計算效率,但仍存在內存占用率過高等問題,不利于車載實時部署。在點云目標檢測傳統領域中,范晶晶等[15]針對點云的行人識別問題,結合人的幾何特征,設計了基于KDTree和歐式聚類的行人識別算法,具有良好的識別率。Qiao等[16]提出一種基于Elias方法優化的歐幾里得聚類算法,可以提高聚類算法在GPU中運行的計算效率。
多傳感器融合目標檢測是指在一個統一的坐標系下,通過融合算法將不同傳感器探測到的目標進行檢測,以獲取更精確的目標信息。根據對傳感器數據處理方式的不同,融合算法可以分為前融合和后融合2種類型。
①前融合指的是把所有傳感器觀測數據進行統一的融合處理,實現感知功能,最后輸出一個結果層的檢測目標。如AVOD[17]算法是將點云在BEV視圖下的投影與RGB圖像共同送入算法網絡中,利用FPN網絡得到二者全分辨率的特征圖,提取2個特征圖對應的區域后再進行融合3D物體檢測。前融合算法對系統的算力要求高,目標檢測實時性的實現需要較高的硬件水平。
②后融合指的是在對每個傳感器輸出的數據信息進行獨立的算法處理后得到各傳感器探測的目標信息,融合系統對所有感知結果進行融合處理得到后融合識別目標。后融合在提高系統感知的準確度和增加系統感知維度的同時,算力需求較低,適合部署。薛培林等[18]提出一種基于視覺YOLOv3-tiny和激光雷達DBSCASN聚類的后融合目標檢測算法,提高了目標檢測的檢測率和魯棒性,但是該算法僅對車輛目標進行實驗評估,沒有對行人等小目標進行實驗。
綜上所述,目前的一些融合方案存在目標檢測率低、實時性差的問題,因此,本文提出一種基于相機與激光雷達后融合的目標檢測算法,并對車輛和行人都進行了實車實驗。主要工作如下:①在YOLOv5s網絡結構基礎上添加GAM注意力機制,提高檢測精度;②對激光雷達的點云信息進行預處理后,通過歐幾里得聚類得出目標三維信息;③根據聯合標定參數對設計的相機和激光雷達的融合檢測算法進行三維檢測框和二維檢測框匹配,得到高可靠度的融合結果,包含目標的類別信息和距離信息。
1 系統概述
1.1 硬件系統
為了驗證所設計的融合算法,以北汽新能源2016款EV160改造的車輛為實驗平臺。經改造后的車輛集成了Leopard前視攝像頭和鐳神16線激光雷達等多種傳感器,計算平臺為一臺研華MIC-7700工控機。實驗車平臺傳感器布置方案如圖1所示,車載傳感器主要性能參數如表1所示。
1.2 軟件系統
基于機器人操作系統(robot operation system,ROS)節點通信機制編寫實驗程序,ROS系統架構精簡,集成了較多專業功能包。本文算法通過車載研華MIC-7700工控機進行實車驗證,用于實現包括基于視覺目標檢測的目標類別信息獲取、基于激光雷達的目標三維空間信息獲取、以及最后融合感知算法輸出等多種功能。該系統的軟件架構如圖2所示。
2 基于視覺的目標檢測
2.1 YOLOv5s網絡結構
2020年Ultralytics在YOLOv4的基礎上進行改進并發布YOLOv5[19],YOLOv5更加輕量化并提供了更高的檢測精度,適合在移動平臺部署。YOLOv5根據網絡的深度與寬度可分為4個不同的版本,分別為YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x,4個版本的檢測精度與模型大小依次提升。
本文針對道路前方出現的人員與車輛進行目標檢測。為了滿足實時性要求,選用4個模型中最快最小的模型YOLOv5s作為基礎模型。YOLOv5s網絡結構由4部分組成,如圖3所示,其中YOLOv5相對于YOLOv4的改進包括以下4個方面:①數據輸入部分加入了Mosaic數據增強、自適應錨框計算、自適應圖像縮放來對輸入圖像進行處理;②骨干網絡采用Focus結構和CSP結構,用于提取圖像的特征信息;③特征融合網絡采用FPN+PAN結構;④檢測頭采用GIOU_Loss損失函數,預測出目標檢測框和標簽類別。
2.2 添加GAM注意力機制改進YOLOv5s算法
GAM注意力機制[20]是一個由通道注意力模塊和空間注意力模塊依次組成的全局注意力機制,可以從通道和空間2個維度關注重要特征。GAM結構如圖4所示,[Mc]表示通道注意力模塊中的通道注意力;[Ms]表示空間注意力模塊中的空間注意力;對于輸入的特征圖F1,其中間狀態 F2和輸出特征圖F3,如式(1)、式(2)所示,[?]表示向量的乘法運算。
[F2=Mc(F1)?F1], (1)
[F3=Ms(F2)?F2]. (2)
為了提高目標檢測效果,本文在特征融合網絡的后端加入GAM注意力機制,使得模型可以更好地結合不同尺度下的小目標特征,改進后的YOLOv5s算法網絡結構如圖5所示。
2.3 算法訓練結果與識別效果
為了對比添加GAM注意力機制前后YOLOv5s算法的性能,將5 200張已標注的人、車輛及其他交通工具的圖片按照4∶1的比例劃分為訓練集和驗證集,設置送入網絡訓練和測試的圖片大小為640×640,batch size設置為16,權重衰減系數為0.000 5,在不使用預訓練模型的情況下進行300輪訓練。訓練使用的硬件配置:CPU為Intel Core i9-9600KF;GPU為NVIDIA GeForce RTX 3080,顯存10 GB;內存為32 GB。
采用4項指標評估訓練后算法的性能:精度(Precision, P)、召回率(Recall, R)、平均精度均值(mean average precision, mAP)、運行幀率(FPS)。精度表示算法找出目標的正確率,用于衡量誤檢程度;召回率表示算法找出的正確目標占所有目標的比例,用于衡量漏檢程度;平均精度均值綜合考慮了精度和召回率。精度、召回率和平均精度均值的計算分別如式(3)—式(6)所示,
[P=NTPNTP+NFP], (3)
[R=NTPNTP+NFN], (4)
[AAP,i=01P(R)dR], (5)
[AmAP=1ni=1nAAP,i ], (6)
式中:以車輛目標檢測為例,NTP(真正例)是指被正確識別為正樣本的目標數量,即被正確識別的車輛目標數量;NFN(假負例)是指未能被正確識別為正樣本的目標數量,即漏檢的車輛目標數量;NFP(假正例)是指將非正樣本數據錯誤地識別為正樣本目標的數量,即誤檢的車輛目標數量;AAP,i表示第i類檢測準確率;AmAP為平均精度均值;n為類別數量。對改進前后的YOLOv5s算法進行300輪訓練,其性能參數如表2所示。
由表2可知,在為YOLOv5s算法添加GAM注意力機制后,精度、召回率和平均精度均值分別提高1.64%、3.58%、2.75%,但運行幀率略有降低。在實驗車工控機平臺上部署改進后的算法,并在校園環境中進行行人識別測試,如圖6所示。實驗結果表明:改進后的YOLOv5s視覺目標識別算法能夠以相機采樣頻率30 Hz穩定運行,滿足實時性要求,并能夠達到較好的目標檢測效果。
3 基于激光雷達的目標檢測
3.1 點云降采樣
激光雷達性能優秀,具有極高的角度、距離分辨率,其測距精度可達厘米級。本文使用的16線激光雷達在單回波工作模式下每秒可發射32萬個點。為了提高基于激光雷達感知算法的實時性,本文采用體素化濾波對點云進行降采樣。體素化濾波先根據輸入的原始點云創建一個三維體素柵格,在每個L×L×L的體素內,用體素中所有點的重心來近似顯示體素中的所有點。在保持點云三維信息特征的同時降低了點云數據量,為后續點云聚類操作提高計算效率[21]。經多次實驗采用邊長為0.1 m的體素柵格進行濾波,能夠保留點云的形狀特征。點云降采樣實驗過程如圖7所示,每幀點云數從35 328下降到8 850,降低74.9%。
3.2 地面點云濾除
地面點云濾除是激光雷達感知過程中重要的預處理步驟。地面點云不僅增加了系統計算量,而且容易對目標點云的聚類產生影響。因此,在點云降采樣后,需要對其進行地面點云分割,以濾除地面點云并保留非地面點云。
本文使用的鐳神16線激光雷達在使用10 Hz模式工作時水平分辨率為0.18°,即每一線束在360°的范圍內有2 000條射線,可將三維點云劃分為360/0.18=2 000個扇形區域。根據式(7)可將每個點歸納到其所屬的扇形子區域,式中xi與yi分別為該點的橫、縱坐標值,其中,激光雷達坐標系的x軸、y軸、z軸的正方向分別為車頭的正前方、車左側、車頂垂直地面向上。對于某扇形子區域每個點的坐標可轉換為柱坐標系(ri,[α],zi),ri為該點射線到激光雷達的水平距離,[α]為該點相對于x軸的夾角。ri、[α]的計算如式(8)、式(9)所示。
[Im=arctan(yi/xi)△ρ×180π], (7)
[ri=x2i+y2i], (8)
[α=arctanyx·180π]. (9)
地面點云分割算法原理:計算扇形子區域內前后2點的相對高度差和該點距離激光雷達坐標系原點的絕對高度差,分別與局部坡度閾值[hlocal]和全局坡度值[Hglobal]作數值比較,從而判斷出地面點云和非地面點云。
對于扇形子區域內某點pi的局部坡度閾值[hlocal]和該點的全局坡度閾值[Hglobal]的計算式如式(10)、式(11)所示,
[hlocal=△rtanθlocal], (10)
[Hglobal=ritanθglobal], (11)
式中:[△r]為點pi與點p[i-1]水平距離。
為更好容納上坡時地面點云加入,設定前后2點坡度閾值[θlocal]為8°,整個地面的坡度閾值[θglobal]為5°。算法執行步驟如下:
Step 1 當[zi-zi-1≤hlocal]時,即相鄰2點的高度差在局部閾值內,若前一點為地面點,則當前點也為地面點;若前一點為非地面點,則需要進一步判斷當前點與全局坡度閾值的關系。若滿足[zi+s≤Hglobal],即該點與車底水平面的高度差在全局坡度閾值內,判斷當前點為地面點,否則為非地面點云。其中s為激光雷達安裝高度。
Step 2 當[zi-zi-1gt;hlocal]時,即相鄰2點的高度差大于局部閾值,直接判斷該點與全局坡度閾值關系,若滿足[zi+s≤Hglobal],則為地面點云,否則為非地面點云。對每一個扇形子區域的點都進行上述算法處理即可完成對地面點云的分割。
完成地面點云分割后對其進行濾除。包含點云降采樣和地面點云濾除的點云預處理過程如圖8所示。
3.3 點云聚類擬合感知
點云聚類感知是激光雷達環境感知的最終步驟,將檢測目標按照點的分布進行聚類,可以降低后續的計算量。本實驗采用基于Kd-Tree最近鄰搜索的自適應歐幾里得聚類算法對非地面點進行聚類,對不同距離范圍的點采用不同的聚類半徑閾值。空間中2點間歐氏距離公式為
[d=(x1-x2)2+(y1-y2)2+(z1-z2)2] .(12)
聚類算法流程如下:
Step 1 對于空間中某點pi,對其進行Kd-Tree鄰域搜索,找到離它最近的n個點并計算這些點到點pi的歐式距離,將距離小于設定的聚類半徑閾值r的點放入集合Q。
Step 2 對于Q中除點pi以外的點進行Kd-Tree搜索,將小于聚類半徑閾值r的點再次放入集合Q;迭代算法,直至集合Q中的點數量不再變化。
Step 3 在對集合中每個點進行以上操作后,對于任意的pi?Q,聚類成一個點云簇。聚類完成后還需要對聚類的尺寸進行限制,只保留在最小與最大聚類點數閾值之間的障礙物。聚類流程圖如圖9所示。
本實驗針對不同距離(d,單位m)范圍內的目標采用不同的聚類半徑閾值:當0lt;d≤5時,聚類半徑閾值為0.3;當5lt;d≤10時,聚類半徑閾值為0.5;當10lt;d≤20時,聚類半徑閾值為1.0。聚類完成后,使用L-shape最小矩形框聚類擬合[22],將障礙物從三維點云中框選出來。激光雷達對車輛的聚類及三維邊界框感知結果如圖10所示。
4 相機與激光雷達的信息融合
相機感知采集信息豐富,應用成本低,但易受到光照變化的影響;而激光雷達不受光照條件影響,且探測距離遠、精度高。因此,相機和激光雷達的數據融合可以提高檢測效果,但要實現二者的信息融合,必須在時間和空間上進行同步。
4.1 相機與激光雷達的空間同步
相機與激光雷達的空間融合是在得到激光雷達點云坐標系與圖像像素坐標系的變換關系后,通過標定參數將各自獨立的坐標系統一到一個坐標系中,完成激光雷達點云到相機像素平面的正確投影。
4.1.1 激光雷達坐標系到相機坐標系
設空間中的點p在激光雷達坐標系中的坐標為(XL,YL,ZL)T,在相機坐標系中的坐標為(XC,YC,ZC)T,坐標系變換為
[XCYCZC=RXLYLZL+T], (13)
式中:R為旋轉矩陣;T為平移向量。
4.1.2 相機坐標系到圖像坐標系
相機成像的簡化模型是小孔成像模型,(xp,yp)T為點p的成像點在二維圖像平面坐標系中的坐標,相機坐標系到圖像坐標系變換關系為
[ZCxpyp1=f000f0001XCYCZC], (14)
式中:f為相機焦距。
4.1.3 圖像坐標系到像素坐標系
圖像平面坐標(xp,yp)T到圖像像素坐標(u,v)T的變換是在xp軸縮放α倍,在yp軸縮放β倍,同時原點平移(u0,v0)T,圖像坐標系到像素坐標系的變換關系如式(15)所示,
[uv1=α0u00βv0001xpyp1]. (15)
4.1.4 激光雷達坐標系到像素坐標
聯合以上公式,空間中點p在激光雷達坐標系(XL,YL,ZL)T到像素坐標系(u,v)T的投影關系如式(16)所示,其中K為相機內參矩陣。
[ZCuv1=KRXLYLZL+T=m11m12m13m14m21m22m23m24m31m32m33m34XLYLZL1] . (16)
本文通過張正友標定法[23]獲取相機內參矩陣K,通過Epnp法[24]獲得相機與激光雷達的旋轉矩陣R和平移矩陣T,完成標定后根據標定參數激光雷達點云投影到圖像,如圖11所示。
4.2 相機與激光雷達的時間同步
相機與激光雷達的工作頻率不同,實驗車工業相機工作頻率為30 Hz,鐳神激光雷達工作頻率為10 Hz。時間同步是根據2種傳感器數據的時間戳信息以相同頻率采集數據,2種傳感器信息在ROS系統中運行時都帶有時間戳信息。由于激光雷達采集頻率低于相機,因此選擇激光雷達點云的工作頻率10 Hz來采集2種傳感器數據。
4.3 相機與激光雷達的融合
相機圖像在通過改進型YOLOv5s算法后得到2D檢測框,顯示目標的類別信息。激光雷達點云信息經過預處理后,通過自適應歐幾里得聚類算法得到目標的三維信息和距離信息。根據聯合標定的結果,通過3D框對角線上方和下方的點將其轉換為圖像平面上的2D框點云聚類結果,之后通過將相機檢測到的二維檢測框和激光雷達檢測的2D投影框進行IoU計算,當激光雷達投影的二維檢測框與相機檢測目標的二維檢測重合度超過設定閾值0.5時,認為感知到的是同一個目標,最終輸出融合感知目標的類別信息和距離。融合感知過程如圖12所示,信息融合策略如表3所示。
5 實車實驗驗證
為驗證融合算法效果,在城市、校園道路內進行實驗測試。統計20 m以內的目標檢測的結果,共出現了126個目標,其中車輛目標34個,行人目標92個。
5.1 晴天環境下對車輛及行人目標識別實驗
如圖13和圖14所示,在光照良好狀況下對20 m內目標進行測試時,圖像識別算法準確識別出視野內行人、車輛的類別信息,點云處理算法分割出了行人、車輛的點云簇,并對目標的點云簇外接三維包圍框,得到目標距離信息。在融合方面,行人和障礙物的三維包圍框被準確投影至圖像對應位置上,融合識別車輛與行人成功率較高,得到目標類別和距離信息,符合現實情況。
5.2 暗光環境下對行人目標識別實驗
如圖15所示,在暗光條件下視覺算法識別遠處黑衣行人出現漏檢,激光雷達工作條件不受光照條件影響,對遠處行人進行點云聚類感知并得到目標距離。點云與視覺數據進行信息融合的識別彌補了單一傳感器感知能力不足的缺點。
為橫向對比算法的性能指標,采用準確率和檢出率來評估性能。正確率代表融合識別系統,同時給出目標類別信息和位置信息;檢出率代表模型更能夠識別出前方障礙物位置信息。此外,在城市自動駕駛任務中,一旦路上出現訓練集中未出現過的物體,基于深度學習的目標檢測算法則會直接漏檢,對于自動駕駛來說非常危險,而較高的檢出率是目標檢測系統安全的保證。視覺正確率(Pvision)、融合正確率(Pfusion)、視覺檢出率(Rvision)、融合檢出率(Rfusion)計算如式(17)—式(20)所示,
[Pvision=NTVNTV+NFV], (17)
[Pfusion=NTFNTF+NFF], (18)
[Rvision=NTPNtarget], (19)
[Rfusion=NTF+NTLNtarget], (20)
式中:NTV是視覺算法正確檢測目標數;NFV是視覺算法錯誤檢測目標數;NTF是融合算法正確檢測目標數;NFF是融合算法錯誤檢測目標數;NTL是激光雷達算法正確聚類目標數;Ntarget是區域內目標數。
融合感知實驗統計的算法性能指標如表4所示。
由表4可知,融合算法的正確率為77.7%,與YOLOv5s改進型算法相比,其檢測正確率降低1.15%,這是由于融合算法的正確識別需要視覺和激光雷達檢測算法同時正確識別出對象目標并融合成功,而在某些情況下視覺算法并未能識別到目標。目標檢出率為88.9%,與YOLOv5s改進型視覺算法相比,其檢測檢出率提高7.8%,這是由于在實際測試中,暗光環境下視覺檢測效果受到影響。融合算法包含激光雷達感知,增加了目標檢出率,即使在目標信息不明確的前提下,也可為車輛控制決策系統提供依據,進一步保障車輛駕駛安全。
6 結論
本文針對城市道路環境下的人員和車輛識別需求,對YOLOv5s算法進行改進以提高識別精度,并搭建了相機與激光雷達融合的目標檢測系統。在多傳感器實驗車平臺上進行試驗驗證,得出以下結論:
1)YOLOv5s算法在添加GAM注意力機制改進后,精度、召回率和平均精度均值分別提高了1.64%、3.58%和2.75%,并且滿足在嵌入式平臺下的運行實時性要求。
2)相機與激光雷達融合算法實現了在空間和時間尺度上的融合,能夠同時獲取目標的準確的類別信息和距離信息,融合效果和檢測率達到了設計要求。
本文僅研究了相機與激光雷達的融合,后續可進行毫米波雷達與相機和激光雷達的融合研究,以及多相機與激光雷達的融合研究,并根據不同的環境選擇不同的融合識別策略來提高識別準確率。同時,試驗工況也可以擴展到高速路段,以進一步驗證算法的檢驗效果。
參考文獻
[1] 黃遠憲,李必軍,黃琦,等.融合相機與激光雷達的目標檢測、跟蹤與預測[J/OL].武漢大學學報(信息科學版):1-8(2022-07-12)[2022-12-31].http://kns.cnki.net/kns8/defaultresult/index.
[2] CUI Y D,CHEN R,CHU W B,et al.Deep learning for image and point cloud fusion in autonomous driving:a review[J].IEEE Transactions on Intelligent Transportation Systems,2022,23(2):722-739.
[3] 林川,曹以雋.基于深度學習的輪廓檢測算法:綜述[J].廣西科技大學學報,2019,30(2):1-12.
[4] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. New York:ACM,2014:580-587.
[5] GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision(ICCV). Santiago,Chile. IEEE,2015:1440-1448.
[6] CAI Z W,VASCONCELOS N. Cascade R-CNN:high quality object detection and instance segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,43(5):1483-1498.
[7] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Las Vegas,USA,2016:779-788.
[8] REDMON J,FARHADI A.YOLO9000:better,faster,stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Honolulu,USA,2017:7263-7271.
[9] REDMON J,FARHADI A.YOLOv3:an incremental improvement[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Salt Lake City,USA,2018:1981-1990.
[10] BOCHKOVSKIY A,WANG C Y,LIAO H Y M.YOLOv4:optimal speed and accuracy of object detection[EB/OL].2020,arXiv:2004.10934. https://arxiv. org/abs/2004.10934.pdf.
[11] LIU W,ANGUELOV D,ERHAN D,et al. SSD:single shot MultiBox detector[C]//Proceedings of European Conference on Computer Vision(ECCV). Amsterdam,the Netherlands,2016:21-37.
[12] QI C R,SU H,MO K C,et al. PointNet:deep learning on point sets for 3D classification and segmentation[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Havaii,USA,2017:77-85.
[13] QI C R,YI L,SU H,et al.PointNet++:deep hierarchical feature learning on point sets in a metric space[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. California,USA. New York:ACM,2017:5105-5114.
[14] HU Q Y,YANG B,XIE L H,et al. RandLA-net:efficient semantic segmentation of large-scale point clouds[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Seattle,USA. IEEE,2020:11108-11117.
[15] 范晶晶,王力,褚文博,等.基于KDTree樹和歐式聚類的越野環境下行人識別的研究[J].汽車工程,2019,41(12): 1410-1415.
[16] QIAO W B,CRéPUT J C.Component-based 2-/3-dimensional nearest neighbor search based on Elias method to GPU parallel 2D/3D euclidean minimum spanning tree problem[J].Applied Soft Computing,2021,100(1):106928.
[17] KU J,MOZIFIAN M,LEE J,et al.Joint 3D proposal generation and object detection from view aggregation[C]//2018 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS). New York:ACM,2018:1-8.
[18] 薛培林,吳愿,殷國棟,等.基于信息融合的城市自主車輛實時目標識別[J].機械工程學報,2020,56(12):165-173.
[19] 王琳毅,白靜,李文靜,等.YOLO系列目標檢測算法研究進展[J].計算機工程與應用,2023,59(14):15-29.
[20] LIU Y C,SHAO Z R,HOFFMANN N.Global attention mechanism:retain information to enhance channel-spatial interactions[EB/OL].2021:arXiv:2112.05561. https://arxiv. org/abs/2112.05561.pdf.
[21] 楊曉云,梁鑫,梁郁.基于空間體元的LiDAR點云數據組織形式[J].廣西科技大學學報,2014,25(1):7-11.
[22] ZHANG X,XU W D,DONG C Y,et al.Efficient L-shape fitting for vehicle detection using laser scanners[C]//28th IEEE Intelligent Vehicles Symposium. Los Angeles,CA,USA. IEEE,2017:54-59.
[23] ZHANG Z Y. A flexible new technique for camera calibration[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(11):1330-1334.
[24] LEPETIT V,MORENO-NOGUER F,FUA P. EPnP:an accurate O(n) solution to the PnP problem[J].International Journal of Computer Vision,2009,81(2):155-166.
Research on road target detection based on fusion of camera and lidar
ZHAO Zhedong, ZHANG Chengtao*, LI Xikan, YANG Hang, QIN Liren
(School of Mechanical and Automotive Engineering, Guangxi University of Science and Technology,
Liuzhou 545616, China)
Abstract: Target detection is the core foundation of autonomous driving perception systems. Due to the problem of spatiotemporal blind zone in the perception of a single sensor, a post-fusion target detection algorithm based on camera and lidar is proposed. The improved YOLOv5s visual object detection algorithm is used to detect target classes, and the average accuracy is improved by 2.75%. Lidar sensing uses the Euclidean clustering algorithm with segmented clustering radius to cluster the preprocessed point cloud information and detect the target distance of objects in the detection area. Then, through the calibrated parameters, the point cloud is projected onto the image to determine the category and distance of the detected object by fusing the perception results. The results show that the detection rate of the proposed target detection algorithm is 88.9%, which is 7.8% higher than that of a single camera.
Keywords: YOLOv5s; lidar; multi-sensor fusion; target detection
(責任編輯:黎 婭)