趙東宇,趙樹恩
(重慶交通大學機電與車輛工程學院,重慶 400074)
自動駕駛周圍場景的精準感知是自動駕駛系統決策規劃的基礎。三維目標檢測主要是通過圖像、點云及多維數據融合等方式獲取自動駕駛周圍場景靜動態目標的位置、幾何信息和類別信息,以實現自動駕駛車輛對行駛環境的準確認知,進而做出最優的決策規劃和運動控制。
三維目標檢測可以有效解決檢測過程中目標遮擋、深度信息缺乏等問題,且能表征目標之間的空間關系。目前三維目標檢測常用方法主要有圖像、點云及多維數據融合等方法。Li 等[1]提出高效三維檢測框架GS3D,通過單目相機獲取的圖像進行三維物體檢測,基于Faster R-CNN[2]增加了方向預測分支,預測目標框和觀測方向。Li 等[3]提出Stereo RCNN,采用權重共享網絡提取左右圖像的特征,對二維RoI 和三維模板進行相似性匹配,通過Mask RCNN[4]預測語義關鍵點,最后根據二維檢測框和三維角點投影關系的約束來預測三維邊界框。但該類方法僅以圖像為輸入,獲取圖像的顏色屬性、紋理信息,依賴先驗信息來設計模型,導致單目、立體視覺三維檢測的精度不高,缺乏深度信息。
基于點云的目標檢測通常是將點云轉化為二維視圖、體素或直接運用原始點云進行特征信息提取。Bewley 等[5]根據目標距離遠近,運用范圍條件膨脹層RCD 來連續調整卷積核膨脹率從而處理尺度變化,再采用3D R-CNN 優化3D 候選框來緩解遮擋問題。這類方法在生成二維視圖時可能會忽略壓縮軸上的大量信息。
李悄等[6]以SECOND[7]網絡為基礎,提出一種采用稀疏3D 卷積的三維目標檢測方法Reinforced SECOND,將堆疊三重注意力機制引入體素特征編碼網絡,并設計了殘差稀疏卷積中間網絡,提升了模型檢測速度。Hu 等[8]針對點云密度的變化,提出了一種端到端三維檢測體系,通過體素質心定位三維稀疏卷積主干的體素特征,利用核密度估計和點密度位置編碼器對體素特征進行聚合。張名芳等[9]運用體素占用編碼點云,通過構建金字塔主網絡結構傳遞語義信息和位置信息,利用ROI Align 層對齊不同尺度特征圖,實現鳥瞰圖(bird’s eye view,BEV)車輛目標檢測。該類方法會受到體素比例劃分的影響,在全局點云離散化過程中的信息丟失降低了細粒定位精度,掩蓋了原始數據的自然不變性。
Shi 等[10]提出一種基于PointNet++[11-12]的PointRCNN 算法,運用PointNet++將場景的點云分割為前景點和背景點,自上而下生成三維候選框,結合建議框中規范化的點集坐標與全局語義特征,進行三維框回歸和置信度預測。Yang 等[13]提出3D-SSD算法去除了 PointNet++中較為耗時的FP 模塊和優化模塊,采用一種融合歐式距離和特征距離的最遠點采樣法,通過結合語義信息排除大量背景點。此類方法直接處理原始點云,造成大量信息冗余,目標點云的采樣策略導致了關鍵點周圍存在較多背景點,犧牲了實時性。
基于多維數據融合的三維檢測方法充分利用了圖像與點云的數據優勢。謝德勝等[14]提出了PointRGBNet,利用點云投影到圖像生成的六維RGB 點云作為輸入,讓網絡直接學習六維 RGB 點云特征,輸出目標的三維檢測結果。Wu等[15]提出了一種多模態框架SFD(sparse fuse density,SFD),利用深度圖補全生成偽點云,并設計了一種高效的偽點云特征提取器,運用3D-GAF(3D grid-wise attention fusion)策略充分融合了不同類型點云的信息。徐晨等[16]提出一種基于F-PointNet[17]融合稀疏點云補全的目標檢測算法,運用編碼器-解碼器機制構建點云補全網絡,將稀疏點云補全為能夠傳遞幾何信息的密集點云,進行點云檢測。張旭豪[18]設計了多尺度上下文信息聚合的深度補全算法,結合注意力機制與全局平均池化構建了編碼器,基于卷積神經網絡構建了解碼器,實現圖像邊緣區域深度補全,再結合原始點云進行目標檢測。該類方法所依賴的特征提取網絡、二維檢測算法的精度不高,對于被遮擋程度較大的目標易出現漏檢。
綜上,盡管有許多學者已對車輛和行人等目標進行了三維檢測研究,并取得了較豐碩的成果,但仍存在以下問題:(1)在強遮擋環境下,基于圖像的檢測易受物體間聚集的影響,并缺乏深度信息。(2)基于原始點云的方法完整地保留了點云的原始分布信息,但在大規模點云中提取目標關鍵點的過程缺乏指導性,搜索范圍過大,影響自動駕駛車輛對周圍目標檢測的實時性。
因此,為有效解決目標檢測深度信息的缺乏,且在保留原始點云信息的同時減少點云全局分割的計算復雜度,進而提升對強遮擋目標的三維檢測精度與實時性,本文以截體點網F-PointNet 映射策略為基礎,提出一種級聯YOLOv7[19]的三維目標檢測模型,通過將二維檢測區域縱向擴展至三維點云空間,實現對復雜環境中周圍車輛和行人等交通目標的實時準確檢測、定位與理解。圖1所示為級聯YOLOv7的三維目標檢測框架。

圖1 級聯YOLOv7的三維目標檢測框架
首先運用YOLOv7 快速檢測目標的二維感興趣區域RoI和類別,進而構建YOLOv7截體估計模型以提取二維RoI 對應的目標點云。然后運用基于PointNet++的點云分割網絡對截體中的目標點云進行分割,剔除背景點云。最后通過非模態三維邊界估計網絡,在自動駕駛場景下輸出周圍目標的長寬高、長寬高殘差、航向角和航向角殘差等信息,同時利用輕量級回歸點網(light-weight regression PointNet,T-Net)修正算法,估計并修正目標的真實質心坐標,不斷精確目標的三維參數。
本文的主要貢獻:
(1)在復雜交通環境下,運用YOLOv7 二維檢測算法對車輛、行人、騎車人進行快速檢測,并在縱向上拓展YOLOv7 的檢測深度,解釋了二維圖像中各目標之間的自然分離狀態,并回歸了更豐富的尺寸和航向信息。
(2)構建了一種級聯YOLOv7 的三維點云目標檢測模型,降低了三維檢測算法PointNet++的點云搜索范圍,提升了傳統F-PointNet 框架的檢測速度與精度。
YOLOv7 主要運用了高效聚合網絡ELAN、重參數化卷積、基于級聯的模型縮放等策略提取目標特征,進而在二維圖像上精確提取目標感興趣區域RoI,由Backbone 主干網絡和Head 層RoI 提取網絡組成。輸入層將交通場景圖像統一為640×640×3 大小。圖2 為基于YOLOv7 的二維目標RoI 提取流程。

圖2 基于YOLOv7的二維RoI提取流程
如圖2 所示,Backbone 網絡由CBS、MPC-B、ELAN、SPPCSPC 等模塊連接構成。CBS 由1 個Conv層、1 個BN 層、1 個Silu 激活函數構成,提取不同尺度的圖像特征。MPC-B 與MPC-H 在CBS 基礎上增加最大池化分支,上分支通過最大池化進行下采樣,再經過1×1 的CBS 減半圖像通道數,下分支經過1×1 CBS 減半圖像通道數,再連接3×3 步長為2 的CBS下采樣,連接兩分支得到擴展下采樣結果,提高網絡的目標特征提取能力。
ELAN與ELAN-H將特征圖劃分為兩個部分,然后基于跨階段局部網絡(cross stage partial networks,CSPNet)將其合并,結合分割梯度流來使梯度流通到不同網絡路徑進行傳播。通過切換級聯和轉換的步驟,將傳播的梯度信息差異化,解決因梯度信息重復而造成的計算負荷大的問題,使主干網絡能學習到被遮擋目標更多的特征。ELAN 有兩條分支,上分支是1×1 CBS 做通道數變化,下分支連接了1 個1×1的CBS、4個3×3 CBS做特征提取,最后把4個特征整合得到最終的特征提取結果,ELAN-H 則是把每個CBS提取的特征都整合起來。SPPCSPC 模塊中,SPP通過3 個不同尺度的最大池化增大感受野以處理復雜行駛環境中尺寸不同的目標,CSP 將特征分為兩部分,一部分連接1×1 CBS,另一部分進行SPP 結構的處理,將計算量減半,最后運用Cat 操作將各分支各尺度的特征進行融合。
最終在Head 提取層中將所有特征輸入到由BN層和Conv 層組成的RepConv 層進行特征整合,準確提取車輛、行人、騎車人等目標在圖像中的RoI。
為準確提取YOLOv7 所確定的目標RoI 在三維空間對應的點云,將RoI 左上、右下點坐標形成的近平面與激光雷達傳感器的遠平面相連接,成像為一個包含目標點云在內的截體,構建YOLOv7 截體估計模型。由于估計模型以不同傳感器的信息作為輸入,目標的位置存在多樣性,導致截體有多種朝向。因此,通過圖3(a)→圖3(c)坐標轉換對截體方向進行標準化,增加截體的旋轉與平移不變性以加強模型對多目標檢測的適應性。

圖3 截體估計模型坐標轉換
圖3(a)→圖3(b)將相機坐標系繞YC軸旋轉至2.1 節中輸出的目標點云質心方向;圖3(b)→圖3(c)將坐標中心沿ZC軸平移至目標點云的質心,相機坐標系與掩膜點云坐標系轉換關系為
式中:XC、YC、ZC為相機坐標系下目標的位置;XM、YM、ZM為掩膜點云坐標系下的點云坐標;圖3(a)→圖3(b)旋轉矩陣Rf為
式中:α、β、γ分別為繞XC、YC、ZC軸旋轉角度,β為點云質心O與圖像平面法線的夾角;根據KITTI 標定矩陣,取α=0,γ=0;圖3(b)→圖3(c)平移矩陣為
各目標相機坐標與圖像坐標關系為
坐標系轉換后,根據圖像坐標與像素坐標換算關系,最終求得在掩膜點云坐標系下每個截體中目標點云坐標為
式中:(u,v)表示像素坐標系中通過YOLOv7 檢測出的目標像素的行列值;(u0,v0)為像素坐標系中點坐標;dx、dy表示像素的物理尺寸;D*是點云深度值;fc表示相機焦距。
截體估計模型將相機坐標系與激光雷達坐標系進行了轉換,統一計算了截體方向,根據二維RoI 映射的三維截體,提取像素級目標在三維空間中的點云坐標,目標點云提取結果如圖4所示。

圖4 目標點云提取結果
圖4(a)為YOLOv7 所確定的RoI,通過該區域估計出對應的截體,圖4(b)為各個截體內所有的點云,包含目標點云與背景點云。結果表明,截體估計模型能有效拓展二維RoI 維度,在大規模點云中提取目標點云,并排除目標周圍大量非相關原始點云。為增加對截體中目標類別的識別精度,將二維RoI中目標的類別進行one-hot編碼,使后續目標點云分割網絡可以在一個特定的目標類別下進行實例分割。
F-PointNet 結構主要以二維RoI 劃定三維點云區域,然后運用點云分割網絡進一步實現三維目標檢測。在此基礎上,級聯YOLOv7 的三維目標檢測算法架構如圖5所示。

圖5 級聯YOLOv7的三維目標檢測算法架構
圖5 中級聯模型的主體由目標點云提取、目標點云分割、目標三維邊框檢測3 部分構成。M=[(x1,y1,z1),(x2,y2,z2),…,(xM,yM,zM)]為截體中的點云集合,包含前景目標點云與其他背景點云等多種點云信息;N為經過點云分割后的目標點云集合N?M;D=(x,y,z,s)為每個點的特征維度,s為反射強度;k為YOLOv7 目標檢測網絡輸出的目標類別數量。
目標點云分割模塊用于分割截體內部的目標點云與背景點云。以車輛、行人、騎車人的點云三維模型為數據集,通過深度學習的方式訓練PointNet++網絡。首先通過構建分層點集特征提取結構,運用最遠點采樣算法(furthest point sampling algorithm,FPS)在截體內部點云M中均勻采樣M-t個中心坐標,t≠0。然后以中心點為球心,取半徑為R的球形域,將整個截體點云劃分為不同的局部點云,每個局部點云包括K個點,輸出一組大小為(M-t)×K×(d+C')的點集,表示(M-t)×K個具有d維坐標和C'維特征的點云。最后提取各局部點云中目標的淺層特征,沿著層次結構逐步抽象出更大范圍的區域,直到提取到點集的全局多尺度特征,使得PointNet++分割網絡能夠更精確地分割出目標點云。針對大量點云密度分布不均勻情況,通過多尺度分組(multi scale grouping,MSG)和多分辨率分組(multi resolution grouping,MRG)增加對于密集和稀疏點云特征提取的魯棒性。
目標點云分割網絡能在排除背景點云同時,輸出掩膜點云坐標系下各個目標點云的坐標、目標點云質心坐標O和目標概率分數Pm,為邊框檢測和類型識別提供依據。目標點云分割過程如圖6所示。

圖6 目標點云分割結果
圖6 表明,PoingtNet++在較小的截體內可有效提取以采樣點為中心的局域特征,并正確分割出完整的目標點云。較小的截體意味著無須再進行全局點云搜索,具有較好的計算效率,充分運用原始點云的特征也可使提取的局部特征較為有效,分割出的目標點云更精確。
由于車載激光雷達獲得的點云均來自于目標的表面反射,目標點云質心僅根據目標表面點云所計算,因此為消除目標點云質心位置與目標內部質心之間的坐標偏差,運用T-Net 計算目標的真實質心,將掩膜點云坐標系轉換為三維目標坐標系,使邊框檢測模塊可通過目標內部質心更準確地計算目標的物理信息。T-Net結構如圖7所示。

圖7 輕量級回歸點網T-Net
圖中k為one-hot 編碼的目標類別信息,將N個目標點云坐標和目標點云質心坐標O=(xM,yM,zM)作為T-Net 輸入,其中O∈N。通過隱藏層神經元數量為(128,256,512)的多層感知機(multi layer perceptron,MLP)監督學習,輸出目標點云質心坐標距離真實質心坐標的殘差μ=(r1,r2,r3),通過α-μ,修正得到在三維目標坐標系下各點云的坐標以及真實的質心坐標,如圖8所示。

圖8 T-Net坐標修正
將各點反射強度s和真實質心O*坐標共同輸入基于PointNet++的非模態三維邊界估計網絡,如圖9所示。

圖9 非模態三維邊界估計網絡
針對已分割出的目標點云,圖9 邊界估計網絡首先對點云集合進行單尺度分組(single scale grouping,SSG),然后通過集合抽樣層(set abstraction,SA)提取不同鄰域球中的點集特征,使得網絡能夠在遠距離點云稀疏的情況下正確回歸目標的三維幾何邊界。最終邊界估計網絡通過全連接層輸出三維參數總量F:
式中:3為T-Net回歸之后對于質心坐標O*的殘差回歸數;NS是不同尺寸的三維錨框個數,每個錨框有置信度P*以及邊界框L、W、H的殘差回歸4 個維度;NH代表不同朝向的錨框,有置信度P**和航向角θ兩個維度。邊界預測過程中,邊界估計網絡預測的質心殘差O3Dbox、上層T-Net 回歸的質心殘差μ和目標點云質心O通過O*=O3Dbox+Δμ+ΔO不斷修正,更新目標真實質心O*。
級聯網絡的目的是獲取目標的類別以及三維邊界框的位置、大小和航向角。綜合損失函數LD定義如下:
式中:Lm-seg為PointNet++對截體點云進行語義分割的損失;Lc1-reg為T-Net 的質心平移損失;Lc2-reg為非模態邊界估計網絡的質心回歸損失;Lh-cls和Lh-seg為預測航向角的分類損失和分割損失;Ls-cls和Ls-seg為三維邊界框尺寸的分類損失和分割損失;Lh-cls、Ls-cls使用Softmax 交叉熵損失,回歸使用L1 范數損失;φ=1 和ω=10。為對三維邊界框回歸的參數精度進行優化,引入Lcorner角度損失,定義8 個預測角和真實角的距離損失:
實驗環境配置如下:級聯模型程序采用python 3.6 編寫,Tensorflow1.4 環境下完成訓練。硬件條件:CPU 為銳龍7 5800X 8C16T,內存 為Kingston 16GB,GPU為NVIDIA Quadro RTX4000 8G。
級聯模型采用COCO 預訓練權重在KITTI 數據集上進行遷移學習。KITTI包含3 712幀訓練集以及帶有真實值的3 769幀驗證集,類別包含車輛、行人、騎車人。驗證模型時按照KITTI 中標注的目標截斷和遮擋程度參數,將目標劃分為簡單、中等、困難3個級別。
訓練時運用Adam 優化器;初始學習率0.001,運用指數衰減法降低學習率,每20 000 次迭代衰減50%,對于每一個樣本從點云截體中抽取2 048 個點用于訓練。設置batch size=24,epoch=200,邊界交并比閾值為0.7。
為驗證級聯模型對于目標的檢測性能,選擇驗證集中不同遮擋程度的場景進行實驗。級聯模型在多個復雜行駛場景中的檢測過程如圖10所示。

圖10 級聯YOLOv7三維檢測模型輸出過程
圖10(a)是YOLOv7 目標RoI 提取結果。圖10(b)是PointNet++目標點云的檢測結果,下方白線為目標航向。圖10(c)是級聯模型融合圖像與點云后最終的三維檢測結果,后端輸出包含航向、目標長寬高。結果表明:級聯YOLOv7 后,模型檢測結果非常接近真實邊界。級聯融合策略使檢測網絡具有更高的魯棒性,對于尺度較小且被遮擋的目標,能有效檢測并補充其完整幾何信息,彌補了基于圖像的目標檢測在部分遮擋和嚴重遮擋工況下對目標的殘缺檢測劣勢。
為驗證級聯模型相較于其他三維目標檢測算法,對在復雜交通環境下被強遮擋的目標是否能進行更加實時且有效的檢測并補全其信息,設定交并比(intersection over union,IoU)為級聯模型優劣的評估標準,進一步計算查準率Pr-查全率Re曲線(precision-recall curve,P-R)下的包圍面積可得到平均精度(average precision,AP)。
式中:NTP、NFP分別是針對當前目標真實框,IoU大于、小于閾值的數量;NFN為未檢測出的目標數量。mAP則為類別AP 值的和與所檢測類別個數之比。為探究模型在足夠高準確率下的召回率,設置車輛IoU=0.7,行人和騎車人IoU=0.5。不同難易程度下,級聯模型對于不同目標的檢測結果P-R曲線如圖11所示。

圖11 級聯模型檢測結果P-R曲線
圖11 中,2D 為YOLOv7 的二維RoI 提取結果。結果表明,在3 個級別中,車輛檢測準確率AP 分別為97.27%、96.19%、89.97%;行 人AP 分別為87.52%、83.60%、76.53%;騎車人AP 分別為88.99%、72.87%、70.89%;簡單級別中所有類別平均檢測精度mAP=91.26%;中等級別mAP=84.22%;困難級別mAP=79.13%。且在設定閾值的約束下,對于驗證集1242×375 尺寸的圖像平均推理速度僅為0.02 s/幀(GPU),即FPS=50。
3D 為級聯模型的三維檢測結果,為驗證級聯模型的精度優勢,表1 對比了多種基于不同數據類型的三維檢測算法在同一數據集下的檢測結果。

表1 不同算法在KITTI驗證集中的三維檢測精度
表1 結果表明,相較Point-GNN、Voxelnet、文獻[9]模型等僅以點云為網絡輸入的算法網絡,級聯模型在不同復雜度的交通場景下平均檢測精度提升明顯;相較融合圖像與點云的算法網絡,級聯模型精度與速度均存在優勢,說明級聯融合策略能夠有效提高網絡檢測性能。相較基準網絡F-PointNet v2耗時縮短了40 ms/幀,說明運用YOLOv7對周圍目標進行快速檢測的策略在三維檢測精度足夠高的情況下有效提升了算法的實時性,對于在中等、困難級別的車輛和騎車人,基準網絡mAP分別為63.24%、56.87%,級聯模型mAP分別為72.01%、66.68%,分別提升了8.77%,9.81%,表明模型對遮擋較嚴重的目標檢測精度提升較好,并能準確檢測其幾何信息,源于YOLOv7 提升了特征提取策略,更好地提取了小尺度特征,使得PointNet++分層點集結構可以更完整提取出更多訓練特征,但由于單階段二維RoI 提取網絡不存在目標錨框建議階段,級聯模型將遠距離未遮擋且模糊的騎車人類別標簽誤識別為行人,使得NFN增大0.88%而Re降低0.47%。相較MV3D 將點云轉化為鳥瞰圖的算法,級聯策略最大程度地保留了原始點云特征,在提升了22.42%精度的同時,實時性也優于該算法。這是因為YOLOv7截體估計模型劃分的局部點云區域能夠彌補處理全局點云造成的計算量龐大的劣勢,GPU處理有更高的運算效率。
為確定級聯模型以PointNet++為點云分割網絡的有效性,表2 將不同算法作為級聯模型的點云分割網絡進行消融對比。

表2 級聯模型在KITTI驗證集中的消融對比
由表2可見,使用PointNet++作為分割網絡的級聯模型檢測精度比使用PointNet 高,但耗時多出了45 ms/幀。這是因為PointNet++的分層點集特征提取結構使得級聯模型提取到更豐富的層次特征但同時也加大了網絡結構,耗時較長卻獲得了更多的精度收益,更有利于級聯模型進行目標檢測。
級聯模型引入T-Net 結構學習目標坐標偏差以增加對目標位置的識別精度。為驗證該結構的有效性,通過對級聯模型三維檢測網絡中的T-Net 坐標修正模塊進行消融實驗以研究該結構對檢測網絡的影響。實驗結果如表3所示。

表3 T-Net結構對模型的精度影響
由表3 可知,在所有遮擋程度下,與不引入TNet 的對照網絡相比,級聯模型在車輛類別的檢測mAP 上增加了2.32%,行人mAP 增加了2.15%,騎車人mAP 增加了2.42%。消融結果證明,在級聯模型的非模態邊界估計網絡中引入T-Net 結構以修正目標點云質心,能有效提高模型的三維識別精度。
為探究采用YOLOv7 作為級聯模型二維RoI 提取方法的優勢,通過級聯不同類型的二維RoI 提取算法進行消融實驗,實驗結果如表4所示。

表4 二維RoI提取方法消融實驗
表4 中三維分割精度指經二維RoI 提取后三維分割模型的分割精度,其中級聯YOLOv7 模型相較于同類單階段算法YOLOv5 的分割mAP 增加了2.53%,所有類別檢測mAP 上升了1.8%;相較于DETR 與ConvNeXts 的分割mAP 增加了6.7%、0.83%,所有類別檢測mAP 分別高出6.58%、0.71%。消融實驗結果表明,級聯YOLOv7 能在保持后續三維分割精度的同時降低分割耗時。
表5記錄了各模型在點云鳥瞰圖BEV 上的檢測精度AP 以及平均航向相似度(average orientation similarity,AOS)。

表5 不同算法在KITTI驗證集中的BEVAOS檢測精度
由表5 可知,級聯模型在中等、困難級別下,所有類別的平均檢測精度mAP 較于基線網絡FPointNet v2,分別獲得了5.86%、6.59%的增益,可以看出,通過級聯高效聚合網絡ELAN,差異化二維圖像之間傳播的梯度信息,使級聯網絡能夠學習到尺度更小、殘缺較多的特征。
平均航向相似度AOS 通過計算預測航向角與真實航向角之間差值得出,體現模型對于目標航向的估計能力,mAOS 為AOS 值的和與所檢測類別個數之比。所有遮擋程度下,對于所有類別,級聯模型相較3DOP 模型,mAOS 提高了0.2%。級聯模型對于行人mAOS 距Mono3D 為2.58%,這是由于級聯模型不存在目標航向建議階段,直接通過三維邊界估計網絡的結果計算目標航向。綜合以上結果,級聯YOLOv7 的三維檢測模型能夠在保持實時性的同時,準確檢測強遮擋環境中的目標,并回歸有效的目標長寬高和航向。
結合圖像與點云數據的優勢,提出了一種級聯YOLOv7 的三維目標檢測算法,以解決目標遮擋以及原始點云搜索量過大對三維檢測造成的信息殘缺和實時性差的問題。通過KITTI 數據集測試結果表明,級聯YOLOv7 模型充分利用了相機圖像的高分辨率特性和激光雷達點云的深度信息,實現強遮擋目標幾何信息和航向信息的準確檢測,并降低了處理點云的運算耗時,與其它方法相比,在保證了較高準確率的同時提升了目標檢測的實時性。
現實中可應用自動駕駛的場景較多,所提出的模型無法完全覆蓋各場景下的靜動態目標。為此,在實際應用中,應針對不同場景下的其他目標對級聯模型進行訓練,豐富模型可識別類型。為在保證實時性的同時盡量降低模型漏檢率,下一步將在網絡結構上對二維RoI 提取算法或三維分割方法進行深入挖掘,提升級聯算法適配度,對于行人的航向角損失函數的選擇可進一步改進。