摘 要: 為了提高自動(dòng)駕駛汽車(chē)環(huán)境感知的性能,增強(qiáng)單目相機(jī)對(duì)障礙物三維和邊界信息的感知能力,提出了一種基于地面先驗(yàn)的3D目標(biāo)檢測(cè)算法。基于優(yōu)化的中心網(wǎng)絡(luò)(CenterNet)模型,以DLA(deep layer aggregation)為主干網(wǎng)絡(luò),增加目標(biāo)3D邊沿框中心點(diǎn)冗余信息預(yù)測(cè)。根據(jù)自動(dòng)駕駛場(chǎng)景的地面先驗(yàn)信息,結(jié)合針孔相機(jī)模型,獲取目標(biāo)3D中心深度信息,以?xún)?yōu)化深度網(wǎng)絡(luò)學(xué)習(xí)效果。使用KITTI 3D數(shù)據(jù)集評(píng)測(cè)算法性能,結(jié)果表明:在保證2D目標(biāo)檢測(cè)準(zhǔn)確性的基礎(chǔ)上,該算法運(yùn)行幀率約20 fps,滿(mǎn)足自動(dòng)駕駛感知實(shí)時(shí)性要求;同時(shí)相比于CenterNet模型,在平均方位角得分(average orientation score)和鳥(niǎo)視圖平均準(zhǔn)確率(bird eye view AP)上分別有4.4和4.4%的性能提升。因而,該算法可以提高自動(dòng)駕駛汽車(chē)對(duì)障礙物三維和邊界信息的感知能力。
關(guān)鍵詞: 地面先驗(yàn); 3D目標(biāo)檢測(cè); 自動(dòng)駕駛; 中心網(wǎng)絡(luò); 冗余信息預(yù)測(cè)
中圖分類(lèi)號(hào): TP391"" 文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1001-3695(2022)01-049-0275-05
doi:10.19734/j.issn.1001-3695.2021.05.0205
Ground-aware 3D object detection algorithm
Zhao Xiaonan, Shen Danhong
(School of Economics amp; Management, North University of China, Taiyuan 030051, China)
Abstract: To improve the performance of environment perception of autonomous vehicles and enhance the ability of monocular cameras to perceive obstacle 3D and boundary information,this paper proposed a ground-aware 3D object detection algorithm.Based on an optimized CenterNet model,it used DLA as the backbone network to increase the redundant information prediction of 3D bounding box center.
According to the ground-aware information of the autonomous driving scenario and combined with the pinhole camera model,it obtained the object 3D center depth information to optimize the deep network learning effect.This paper evaluated the algorithm performance using the KITTI 3D dataset.The results show that the algorithm runs at 20 fps on the basis of ensuring the accuracy of 2D object detection,which meets the real-time requirements of autonomous driving perception.At the same time,compared with the CenterNet model,there are performance improvements of 4.4 and 4.4% in the average orientation score and the bird eye view AP,respectively.Thus,the algorithm can improve the ability of autonomous vehicles to perceive obstacle 3D and boundary information.
Key words: ground-aware; 3D object detection; autonomous driving; CenterNet; redundant information prediction
0 引言
環(huán)境感知是自動(dòng)駕駛?cè)蝿?wù)重要的組成部分,隨著技術(shù)的不斷迭代優(yōu)化,系統(tǒng)對(duì)環(huán)境感知的穩(wěn)定性和準(zhǔn)確性的要求越來(lái)越高,障礙物的立體信息、邊界信息也成為了環(huán)境感知的關(guān)鍵任務(wù)。環(huán)境感知任務(wù)中通常會(huì)用到激光雷達(dá)(LiDAR)、毫米波雷達(dá)(radar)、雙目和單目相機(jī)這幾種傳感器。其中,基于激光雷達(dá)和雙目相機(jī)的3D目標(biāo)檢測(cè)已經(jīng)取得了不錯(cuò)的效果。文獻(xiàn)[1]將焦點(diǎn)損失(focal loss)擴(kuò)展到3D目標(biāo)檢測(cè)中,用于解決單階段檢測(cè)器巨大的前后景不平衡問(wèn)題,并在兩種不同檢測(cè)器上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果平均準(zhǔn)確率取得了最大11.2倍的提升。文獻(xiàn)[2]提出了一種新穎的數(shù)據(jù)關(guān)聯(lián)模塊,輸入連續(xù)兩幀原始點(diǎn)云數(shù)據(jù)并將兩幀數(shù)據(jù)特征進(jìn)行融合,實(shí)現(xiàn)了一種新的端到端的點(diǎn)云3D目標(biāo)檢測(cè)跟蹤網(wǎng)絡(luò)。文獻(xiàn)[3]提出了一個(gè)高效的自動(dòng)標(biāo)簽和分割框架,并精確地標(biāo)注了三維點(diǎn)云數(shù)據(jù)。文獻(xiàn)[4]提出了一種立體R-CNN檢測(cè)算法,使用一種密集的基于區(qū)域的測(cè)光對(duì)齊方法確保三維物體的定位準(zhǔn)確性,實(shí)現(xiàn)立體相機(jī)的目標(biāo)檢測(cè)和關(guān)聯(lián)。單目相機(jī)相比于激光雷達(dá)擁有更大的成本優(yōu)勢(shì)和更豐富的語(yǔ)義信息,相比于雙目相機(jī)也擁有較低的制造成本和裝配精度,但是單目相機(jī)天然地會(huì)損失深度信息,這也使得單目相機(jī)3D目標(biāo)檢測(cè)更加具有挑戰(zhàn)性。
近年來(lái),隨著自動(dòng)駕駛的熱潮持續(xù)高漲,單目3D目標(biāo)檢測(cè)也取得了非常大的進(jìn)步。根據(jù)研究方向的不同,現(xiàn)階段單目3D目標(biāo)檢測(cè)主要分為四類(lèi)方法:
a)基于學(xué)習(xí)的方法[5~8]。這類(lèi)方法直接將原始圖像映射到距離空間,得到深度信息后再進(jìn)行3D檢測(cè)。其中,文獻(xiàn)[5]設(shè)計(jì)了一種新穎的3D目標(biāo)檢測(cè)算法,通過(guò)捕捉物體與物體之間成對(duì)空間關(guān)系結(jié)合不確定感知預(yù)測(cè)模型,極大地改善了遮擋物體的3D目標(biāo)檢測(cè)效果。
b)偽激光雷達(dá)(pseudo-LiDAR)的方法[9~13]。這類(lèi)方法先通過(guò)RGB-D、RGB相機(jī)或者激光雷達(dá)給出輸入圖像的深度圖并在深度圖上預(yù)測(cè)目標(biāo)的距離,然后將目標(biāo)投影到三維坐標(biāo)系中使用激光雷達(dá)的3D檢測(cè)算法實(shí)現(xiàn)單目3D目標(biāo)檢測(cè)。其中,文獻(xiàn)[9]通過(guò)將2D圖像轉(zhuǎn)換為3D點(diǎn)云提出了一種新的單目3D目標(biāo)檢測(cè)框架,基于特征融合的策略充分開(kāi)發(fā)了RGB和點(diǎn)云的細(xì)節(jié)信息,實(shí)現(xiàn)檢測(cè)性能的極大提升。文獻(xiàn)[13]對(duì)RGB-D視頻流進(jìn)行預(yù)處理得到連續(xù)幀彩色圖及其對(duì)應(yīng)的掃描點(diǎn)云信息,利用哈希算法從連續(xù)幀彩色圖中提取內(nèi)容敏感的視頻關(guān)鍵幀來(lái)構(gòu)建目標(biāo)語(yǔ)義關(guān)系,之后通過(guò)神經(jīng)網(wǎng)絡(luò)VoteNet進(jìn)行3D目標(biāo)檢測(cè)。
c)基于3D-anchor的方法[14~16]。這類(lèi)方法不直接預(yù)測(cè)目標(biāo)的深度信息,而是使用類(lèi)似2D檢測(cè)中anchor的方式實(shí)現(xiàn)3D目標(biāo)檢測(cè)。其中,文獻(xiàn)[14]基于分享的2D、3D檢測(cè)空間,利用先驗(yàn)統(tǒng)計(jì)信息初始化3D參數(shù),提出了一種單目3D提議網(wǎng)絡(luò)(RPN)。同時(shí)引入深度感知卷積(depth-aware convolution),提高了空間感知等高級(jí)特征的學(xué)習(xí)能力。
d)最小化重投影誤差的方法[17~19]。這類(lèi)方法首先通過(guò)最小化3D邊界框和2D邊界框或者2D關(guān)鍵點(diǎn)重投影誤差的方式得到目標(biāo)深度信息,再結(jié)合目標(biāo)方位角和3D尺寸實(shí)現(xiàn)3D目標(biāo)檢測(cè)。其中,文獻(xiàn)[18]提出了一種新的單階段多任務(wù)關(guān)鍵點(diǎn)檢測(cè)算法,結(jié)合整體能量方程聯(lián)合優(yōu)化先驗(yàn)和三維物體信息,并通過(guò)反投影的方式實(shí)現(xiàn)單目3D目標(biāo)檢測(cè)。
3 數(shù)據(jù)集
本文采用KITTI數(shù)據(jù)集,該數(shù)據(jù)集由德國(guó)卡爾斯魯厄理工學(xué)院和豐田美國(guó)技術(shù)研究院聯(lián)合創(chuàng)辦,是目前較全面的自動(dòng)駕駛場(chǎng)景下的計(jì)算機(jī)視覺(jué)算法評(píng)測(cè)數(shù)據(jù)集。KITTI數(shù)據(jù)集包含大量城市道路采集的真實(shí)圖像數(shù)據(jù),場(chǎng)景全面且豐富,包含了市區(qū)、鄉(xiāng)村和高速公路等主要路況。數(shù)據(jù)集包括7 481張訓(xùn)練數(shù)據(jù)集和7 518張測(cè)試數(shù)據(jù)集,每張圖像中最多達(dá)15輛車(chē)和30個(gè)行人,還有各種程度的遮擋與截?cái)啵^適合評(píng)測(cè)自動(dòng)駕駛感知算法。
數(shù)據(jù)采集車(chē)輛如圖5所示,其中包含一個(gè)Velodyne 64線(xiàn)激光雷達(dá)、兩個(gè)彩色相機(jī)(FL2-14S3C-C)、兩個(gè)灰度相機(jī)(FL2-14S3M-C)和一個(gè)慣性導(dǎo)航系統(tǒng)。車(chē)身傳感器布置位置如圖6所示,本文數(shù)據(jù)主要采用Cam2采集的圖像,3D檢測(cè)數(shù)據(jù)標(biāo)注主要包含目標(biāo)類(lèi)別、是否截?cái)唷⑹欠裾趽酢⒛繕?biāo)觀察角度、2D邊界框、3D目標(biāo)尺寸、3D目標(biāo)全局方位角和目標(biāo)置信度。
4 實(shí)驗(yàn)
4.1 實(shí)現(xiàn)細(xì)節(jié)
本文在KITTI 3D檢測(cè)基準(zhǔn)上進(jìn)行實(shí)驗(yàn),參考文獻(xiàn)[19]中的訓(xùn)練設(shè)置,本文將數(shù)據(jù)集分成三部分(train1,val1;train2,val2;train,test)對(duì)模型進(jìn)行訓(xùn)練和評(píng)估。算法在服務(wù)器上進(jìn)行訓(xùn)練,服務(wù)器硬件配置為四塊Tesla V100顯卡,環(huán)境配置為PyTorch 1.4,CUDA 10.2,CUDNN 8.0。訓(xùn)練時(shí),本文算法輸入圖像分辨率為512×512,網(wǎng)絡(luò)輸出分辨率為128×128。考慮到裁剪和縮放等數(shù)據(jù)增強(qiáng)方法會(huì)改變圖像3D測(cè)量值,本文算法不對(duì)數(shù)據(jù)進(jìn)行增強(qiáng)處理。針對(duì)主干網(wǎng)絡(luò)DLA-34,本文算法使用Adam優(yōu)化器對(duì)損失進(jìn)行優(yōu)化,訓(xùn)練200個(gè)迭代,batchsize設(shè)置為8,初始學(xué)習(xí)率為0.000 1,分別在90和120個(gè)迭代時(shí)進(jìn)行10倍衰減。推理時(shí),本文通過(guò)0.4閾值篩選有效2D檢測(cè)圖像塊中心點(diǎn),并以此為基準(zhǔn)從輸出中篩選剩下的參數(shù)。
4.2 實(shí)驗(yàn)結(jié)果
參考文獻(xiàn)[8,19]中的評(píng)測(cè)方式,本文先采用2D邊界框平均準(zhǔn)確率(2D bounding box AP)、平均方位角得分(average orientation score)和鳥(niǎo)視圖平均準(zhǔn)確率(bird eye view AP)三個(gè)指標(biāo)評(píng)測(cè)本文算法,并與Mono3D、CenterNet網(wǎng)絡(luò)輸出結(jié)果進(jìn)行對(duì)比。
實(shí)驗(yàn)1 不改變方位角計(jì)算方式,使用2D檢測(cè)圖像塊中心作為目標(biāo)3D中心,修改網(wǎng)絡(luò)模型增加目標(biāo)3D中心回歸,結(jié)合地面先驗(yàn)信息進(jìn)行監(jiān)督學(xué)習(xí),對(duì)比地面先驗(yàn)信息對(duì)網(wǎng)絡(luò)模型性能提升效果。結(jié)果如表1所示。
結(jié)果與CenterNet進(jìn)行對(duì)比,在保證2D邊界框平均準(zhǔn)確率的前提下,本文算法采用地面先驗(yàn)信息在回歸深度信息時(shí)更易于網(wǎng)絡(luò)學(xué)習(xí),且在平均方位角得分和鳥(niǎo)視圖平均準(zhǔn)確率上都有相應(yīng)提升。
實(shí)驗(yàn)2 在實(shí)驗(yàn)1的基礎(chǔ)上更改模型方位角的計(jì)算方式,使用目標(biāo)3D中心點(diǎn)代替圖像塊中心優(yōu)化目標(biāo)方位角估計(jì),對(duì)比方位角優(yōu)化對(duì)網(wǎng)絡(luò)模型性能提升效果。結(jié)果如表2所示。
對(duì)比實(shí)驗(yàn)1、2的結(jié)果,優(yōu)化方位角估計(jì)后,模型平均方位角得分提升較明顯。綜上所述,相比于CenterNet網(wǎng)絡(luò),本文算法在3D檢測(cè)指標(biāo)AOS和BEV AP上的性能有所提升,在簡(jiǎn)單、中等、困難三種評(píng)測(cè)標(biāo)準(zhǔn)下最高提升值為4.4。相比于Mono3D網(wǎng)絡(luò)4.2 s檢測(cè)時(shí)間,本文算法檢測(cè)時(shí)間約為0.05 s,在檢測(cè)精度提升的同時(shí)檢測(cè)速度約快84倍。同時(shí),算法在2D檢測(cè)精度這項(xiàng)指標(biāo)中提升不明顯,考慮到本文算法增加了冗余信息預(yù)測(cè),網(wǎng)絡(luò)學(xué)習(xí)負(fù)擔(dān)增加,訓(xùn)練難度增大。
本文算法在AP、AOS、BEV AP三個(gè)指標(biāo)上依舊有提升空間。在訓(xùn)練過(guò)程中網(wǎng)絡(luò)收斂相對(duì)于CenterNet更加困難,不僅是網(wǎng)絡(luò)復(fù)雜程度增加所致,也考慮由于車(chē)輛行駛中出現(xiàn)較大顛簸,相機(jī)模型約束條件削弱。在接來(lái)的研究中,可以從兩個(gè)方面來(lái)優(yōu)化本文算法:a)考慮到車(chē)輛高度也是3D檢測(cè)場(chǎng)景中的先驗(yàn)信息,可以對(duì)數(shù)據(jù)集中車(chē)輛高度進(jìn)行統(tǒng)計(jì)分析,通過(guò)相機(jī)成像原理融合車(chē)輛高度信息來(lái)提高模型魯棒性;b)車(chē)輛顛簸過(guò)程中的誤差主要源于相機(jī)俯仰角發(fā)生的變化,可以通過(guò)網(wǎng)絡(luò)對(duì)相機(jī)俯仰信息進(jìn)行學(xué)習(xí),增強(qiáng)相機(jī)模型約束條件。同時(shí),本文將算法預(yù)測(cè)的3D目標(biāo)信息通過(guò)相機(jī)變換投影到原圖中進(jìn)行可視化顯示,并與CenterNet網(wǎng)絡(luò)輸出進(jìn)行對(duì)比,結(jié)果如圖7~9所示。圖7~9(a)為CenterNet網(wǎng)絡(luò)輸出結(jié)果,圖7~9(b)為本文算法輸出結(jié)果。本文針對(duì)KITTI數(shù)據(jù)集中市區(qū)、鄉(xiāng)村和高速公路三種場(chǎng)景進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果分別如圖7~9所示。圖中藍(lán)色和黃色3D邊沿框?yàn)橥队暗皆瓐D中的結(jié)果,藍(lán)色圓點(diǎn)為網(wǎng)絡(luò)預(yù)測(cè)的目標(biāo)3D中心點(diǎn)(見(jiàn)電子版)。對(duì)比三種路況下輸出結(jié)果,本文算法輸出的3D邊界框相比于CenterNet上的結(jié)果更加準(zhǔn)確,更加貼近物體。同時(shí),物體在視野邊沿且出現(xiàn)截?cái)嗟那闆r下,本文方法能夠較準(zhǔn)確地估計(jì)目標(biāo)3D中心點(diǎn)并實(shí)現(xiàn)準(zhǔn)確的3D目標(biāo)檢測(cè),相比于CenterNet具有明顯優(yōu)勢(shì)。CenterNet采用2D圖像塊中心作為目標(biāo)3D中心,在這種情況下誤差相對(duì)較大,本文采用3D中心點(diǎn)預(yù)測(cè)的方法更具有優(yōu)勢(shì)。
5 結(jié)束語(yǔ)
本文基于自動(dòng)駕駛場(chǎng)景中地面平坦的假設(shè)下,提出了基于地面先驗(yàn)的3D目標(biāo)檢測(cè)算法,解決了城市、鄉(xiāng)村、高速等各種復(fù)雜場(chǎng)景下的3D目標(biāo)檢測(cè)問(wèn)題。結(jié)果顯示:a)本文算法在分辨率為1 382×512的圖像上的檢測(cè)平均時(shí)間為50 ms,滿(mǎn)足自動(dòng)駕駛場(chǎng)景實(shí)時(shí)性要求,同時(shí),相較于CenterNet網(wǎng)絡(luò),本算法在保證2D檢測(cè)準(zhǔn)確率的前提下,具有更高的平均方位角得分和鳥(niǎo)視圖平均準(zhǔn)確率;b)本文算法在保留2D邊沿框預(yù)測(cè)的前提下,增加車(chē)輛3D邊沿框中心點(diǎn)的預(yù)測(cè),使用3D中心點(diǎn)進(jìn)行車(chē)輛方位角估計(jì),更符合真實(shí)道路中場(chǎng)景,且能解決車(chē)輛位于圖像邊沿處截?cái)嗲闆r下的檢測(cè)問(wèn)題;c)本文算法充分利用傳感器配置信息和地面先驗(yàn)知識(shí),根據(jù)針孔相機(jī)模型還原車(chē)輛3D邊沿框中心深度信息,更利于網(wǎng)絡(luò)學(xué)習(xí),網(wǎng)絡(luò)收斂效果更快更好。
最后,結(jié)合實(shí)驗(yàn)中遇到的問(wèn)題和行業(yè)發(fā)展的趨勢(shì),提出未來(lái)兩個(gè)研究方向:a)自動(dòng)駕駛系統(tǒng)需要在任何條件下對(duì)障礙物實(shí)現(xiàn)準(zhǔn)確感知,本文算法在目標(biāo)出現(xiàn)遮擋、截?cái)嗪蜆O端光照情況下效果不穩(wěn)定,無(wú)法提供持續(xù)準(zhǔn)確的輸出,今后將深入研究特殊場(chǎng)景下的3D目標(biāo)檢測(cè),為自動(dòng)駕駛研究提供更普適的環(huán)境感知算法;b)自動(dòng)駕駛系統(tǒng)龐大且復(fù)雜,包含感知預(yù)測(cè)、定位建圖、決策控制等重要環(huán)節(jié),每一種算法都需要巨大算力,如何在有限的算力資源下實(shí)現(xiàn)可靠的感知輸出也是自動(dòng)駕駛研究的重點(diǎn)。今后將在保持算法性能精度的基礎(chǔ)上,深入嘗試輕量化的網(wǎng)絡(luò)模型,減少算法資源消耗實(shí)現(xiàn)算法嵌入式部署。
參考文獻(xiàn):
[1]Yun Peng,Tai Lei,Wang Yuan,et al.Focal loss in 3D object detection[J].IEEE Robotics and Automation Letters,2019,4(2):1263-1270.
[2]Wang Sukai,Sun Yuxiang,Liu Chengju,et al.PointTrackNet:an end-to-end network for 3D object detection and tracking from point clouds[J].IEEE Robotics and Automation Letters,2020,5(2):3206-3212.
[3]Chen Zhengyong,Liao Qinghai,Wang Zhe,et al.Image detector based automatic 3D data labeling and training for vehicle detection on point cloud[C]//Proc of IEEE Intelligent Vehicles Symposium.Piscataway,NJ:IEEE Press,2019:1408-1413.
[4]Li Peiliang,Chen Xiaozhi,Shen Shaojie.Stereo R-CNN based 3D object detection for autonomous driving[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:7636-7644.
[5]Chen Yongjian,Tai Lei,Sun Kai,et al.Monopair:monocular 3D object detection using pairwise spatial relationships[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:12090-12099.
[6]Simonelli A,Bulò S R,Porzi L,et al.Disentangling monocular 3D object detection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:1991-1999.
[7]Andrea S,Rota B S,Lorenzo P,et al.Towards generalization across depth for monocular 3D object detection[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2020:767-782.
[8]Zhou Xingyi,Wang Dequan,Krhenbühl P.Objects as points[EB/OL].(2019-04-126).https://arxiv.org/abs/1904.07850.
[9]Ma Xinzhu,Wang Zhihui,Li Haojie,et al.Accurate monocular 3D object detection via color-embedded 3D reconstruction for autonomous driving[C]//Proc of IEEE/CVF International Conference on Compu-ter Vision.Piscataway,NJ:IEEE Press,2019:6850-6859.
[10]Wang Yan,Chao W L,Garg D,et al.Pseudo-lidar from visual depth estimation:bridging the gap in 3D object detection for autonomous driving[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:8437-8445.
[11]Ye Xiaoqing,Du Liang,Shi Yifeng,et al.Monocular 3D object detection via feature domain adaptation[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2020:17-34.
[12]江澤宇,趙蕓.基于邊緣卷積的三維目標(biāo)識(shí)別算法[J].浙江科技學(xué)院學(xué)報(bào),2021,33(3):214-219. (Jiang Zeyu,Zhao Yun.3D target recognition algorithm based on edge convolution[J].Journal of Zhejiang University of Science and Technology,2021,33(3):214-219.)
[13]繆永偉,陳佳慧,張新杰,等.基于RGB-D視頻流的室內(nèi)環(huán)境3D目標(biāo)高效檢測(cè)[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2021,33(7):1015-1025. (Miu Yongwei,Chen Jiahui,Zhang Xinjie,et al.Efficient 3D object detection of indoor scenes based on RGB-D video stream[J].Journal of Computer-Aided Design and Computer Graphics,2021,33(7):1015-1025.)
[14]Brazil G,Liu Xiaoming.M3D-RPN:monocular 3D region proposal network for object detection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:9286-9295.
[15]Garrick B,Gerard P M,Xiaoming L,et al.Kinematic 3D object detection in monocular video[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2020:135-152.
[16]Ding Mingyu,Huo Yuqi,Yi Hongwei,et al.Learning depth-guided convolutions for monocular 3D object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2020:11669-11678.
[17]Jrgensen E,Zach C,Kahl F.Monocular 3D object detection and box fitting trained end-to-end using intersection-over-union loss[EB/OL].(2019-06-20).https://arxiv.org/abs/1906.08070.
[18]Li Peixuan,Zhao Huaici,Liu Pengfei,et al.RTM3D:real-time mono-cular 3D detection from object keypoints for autonomous driving[EB/OL].(2020-01-10).https://arxiv.org/abs/2001.03343.
[19]Mousavian A,Anguelov D,F(xiàn)lynn J,et al.3D bounding box estimation using deep learning and geometry[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:5632-5640.
[20]Hei L,Deng Jia.CornerNet:detecting objects as paired keypoints[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:765-781.
[21]Lin T Y,Goyal P,Girshick R,et al.Focal loss for dense object detection[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2020,42(2):318-327.
[22]Redmon J,Divvala S,Girshick R,et al.You only look once:unified,real-time object detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:779-788.
[23]Liu Wei,Dragomir A,Dumitru E,et al.SSD:single shot multibox detector[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2016:21-37.