彭玉旭, 董勝超
(長(zhǎng)沙理工大學(xué) 計(jì)算機(jī)與通信工程學(xué)院, 長(zhǎng)沙 410114)
從點(diǎn)云數(shù)據(jù)中進(jìn)行3D目標(biāo)檢測(cè)是自動(dòng)駕駛系統(tǒng)重要組成部分, 例如自主導(dǎo)航、車(chē)輛檢測(cè)和路障檢測(cè).與基于圖像的檢測(cè)相比, 激光雷達(dá)所采集的點(diǎn)云數(shù)據(jù)提供了可靠的深度信息, 在空間目標(biāo)位置判定以及方向和姿態(tài)估計(jì)上更具優(yōu)勢(shì). 與僅從圖像中估計(jì)2D邊界框的普通2D檢測(cè)不同, 自動(dòng)駕駛系統(tǒng)需要從現(xiàn)實(shí)世界中估計(jì)更加具有信息量的3D邊界框, 以完成諸如避免障礙物和路徑規(guī)劃之類(lèi)的高級(jí)任務(wù). 這一嚴(yán)峻的挑戰(zhàn)以及自動(dòng)駕駛市場(chǎng)日益增長(zhǎng)的需求激發(fā)了3D車(chē)輛目標(biāo)檢測(cè)算法的研究, 新近出現(xiàn)的檢測(cè)算法主要采用卷積神經(jīng)網(wǎng)絡(luò)處理來(lái)自激光雷達(dá)傳感器所采集的深度點(diǎn)云數(shù)據(jù).
基于點(diǎn)云的3D車(chē)輛目標(biāo)檢測(cè)算法可分為單階段檢測(cè)算法和兩階段檢測(cè)算法. 單階段檢測(cè)算法[1-3]將稀疏的3D點(diǎn)云轉(zhuǎn)換為規(guī)則的表現(xiàn)形式, 例如體素化網(wǎng)格或者鳥(niǎo)瞰圖像, 并采用CNN以完全卷積的方式直接預(yù)測(cè)邊界框. 這使得單階段檢測(cè)方法簡(jiǎn)單快速且有效. 但是直接將卷積網(wǎng)絡(luò)生成的點(diǎn)云特征轉(zhuǎn)化為鳥(niǎo)瞰圖后,不可避免的會(huì)導(dǎo)致空間特征的丟失, 使得單階段檢測(cè)器處理稀疏點(diǎn)云數(shù)據(jù)的準(zhǔn)確性降低. 與單階段檢測(cè)算法相比, 兩階段檢測(cè)算法[4-8]可以在第二階段利用更精確的空間信息, 這些信息僅專(zhuān)注于第一階段預(yù)測(cè)的感興趣的區(qū)域, 因此使得邊界框的預(yù)測(cè)更加準(zhǔn)確. 但第二階段的檢測(cè)是在第一階段檢測(cè)的結(jié)果上進(jìn)行, 這就大大增加了計(jì)算成本, 使得實(shí)時(shí)的檢測(cè)速度不理想.
為了解決兩階段檢測(cè)器檢測(cè)速度慢以及單階段檢測(cè)器會(huì)導(dǎo)致空間特征丟失的問(wèn)題. 本文提出了利用注意力機(jī)制對(duì)數(shù)據(jù)特征的表征能力進(jìn)行增強(qiáng), 并采用單階段檢測(cè)方法, 以提高算法定位精度并同時(shí)保持單階段檢測(cè)方法的高效性. 在KITTI 3D目標(biāo)檢測(cè)基準(zhǔn)[9]上評(píng)估了本文提出的算法, 并與現(xiàn)有的方法進(jìn)行比較, 在確保高效的實(shí)時(shí)檢測(cè)速度的情況下, 本文提出的檢測(cè)器較現(xiàn)有方法具有更好的方向預(yù)估性以及更高的檢測(cè)精度.
單階段檢測(cè)方法通常會(huì)把稀疏的點(diǎn)云場(chǎng)景空間轉(zhuǎn)換為更加規(guī)則的表現(xiàn)形式, 然后用卷積神經(jīng)網(wǎng)絡(luò)來(lái)處理點(diǎn)云數(shù)據(jù)以提高計(jì)算效率. 這種方法要么使用3D CNN處理基于手工的網(wǎng)格[10,11], 要么使用2D CNN從鳥(niǎo)瞰圖和前視圖全景圖[12]中提取特征. 文獻(xiàn)[4]提出多層體素特征編碼結(jié)構(gòu)以提取體素中每個(gè)點(diǎn)的特征.文獻(xiàn)[3]將點(diǎn)云數(shù)據(jù)沿高度軸堆疊的體素改為支柱進(jìn)行特征提取, 然后用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)的定位. 文獻(xiàn)[1]利用子流形稀疏卷積研究出一種稀疏三維卷積, 可優(yōu)化三維卷積中的GPU使用, 并提升網(wǎng)絡(luò)的檢測(cè)速度和效率. 文獻(xiàn)[13]提出一種輔助網(wǎng)絡(luò), 用點(diǎn)級(jí)監(jiān)督的方式來(lái)增強(qiáng)稀疏卷積特征表示能力. 本文提出的方法就建立在通用的單階段體系結(jié)構(gòu)的基礎(chǔ)上.
兩階段檢測(cè)方法是使用第二階段的網(wǎng)絡(luò)結(jié)構(gòu)從第一階段生成的區(qū)域提案中進(jìn)行更精確的檢測(cè). 文獻(xiàn)[6]提出的檢測(cè)器在第一階段將整個(gè)場(chǎng)景的點(diǎn)云分割為前景點(diǎn)和背景點(diǎn), 以自下而上的方式直接從點(diǎn)云中生成少量精確3D提案. 文獻(xiàn)[5]在輸入的RGB-D圖像上使用Mask RCNN網(wǎng)絡(luò)找到一組感興趣的區(qū)域, 結(jié)合該區(qū)域的深度信息后得到平截頭體狀點(diǎn)云提案, 然后使用PointNet[14]對(duì)該提案進(jìn)行三維實(shí)例分割以得到更加精確的3D提案空間. 文獻(xiàn)[7]第1階段通過(guò)為每個(gè)點(diǎn)生成一個(gè)新的球形錨來(lái)產(chǎn)生準(zhǔn)確的提案, 利用PointsPool生成提案特征, 第2階段在盒內(nèi)預(yù)測(cè)中設(shè)計(jì)一個(gè)3D loU 預(yù)測(cè)分支以提高定位精度. 兩階段檢測(cè)方法通可以得到更加優(yōu)秀的提案, 從而得到更加精確的檢測(cè)結(jié)果,相對(duì)于單階段檢測(cè)方法來(lái)說(shuō)具有先天的優(yōu)勢(shì), 但兩階段檢測(cè)方法所花的時(shí)間成本不容忽視. 最近的單階段檢測(cè)方法已經(jīng)達(dá)到了與最新的兩階段檢測(cè)方法相當(dāng)?shù)男阅?高效的單階段檢測(cè)方法在實(shí)時(shí)應(yīng)用中具有巨大的潛力.
注意力模型最近幾年在語(yǔ)音識(shí)別、圖像處理和自然語(yǔ)言處理等深度學(xué)習(xí)領(lǐng)域中應(yīng)用廣泛. 注意力模型借鑒了人類(lèi)視覺(jué)的注意力機(jī)制. 人類(lèi)視覺(jué)通過(guò)快速掃描周?chē)h(huán)境場(chǎng)景. 獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域, 然后對(duì)該區(qū)域集中投入注意力資源, 以獲取所需要關(guān)注目標(biāo)更多的細(xì)節(jié)信息, 對(duì)其它信息忽略不予關(guān)注. 注意力機(jī)制從本質(zhì)上來(lái)說(shuō)和人類(lèi)的視覺(jué)注意力機(jī)制類(lèi)似, 其核心思想也是從眾多信息中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息. 例如F∈RC×H×W為某一中間特征圖的輸入, 注意力模型可分為:

式(1)為1D通道注意力圖, 式(2)為2D空間注意力圖. 整個(gè)注意力模型的關(guān)注過(guò)程可以概括為:

式中, ?表示逐元素相乘;F′為特征圖F經(jīng)過(guò)通道注意力處理過(guò)后生成的數(shù)據(jù);F′′為F′經(jīng)過(guò)空間注意力處理過(guò)后生成的數(shù)據(jù).
單階段3D車(chē)輛檢測(cè)模型如圖1所示, 其中包括4個(gè)部分: (1) 點(diǎn)云體素化, 規(guī)范三維點(diǎn)云空間的表現(xiàn)形式, 便于后續(xù)網(wǎng)絡(luò)處理; (2) Backbone模塊, 使用三維稀疏卷積網(wǎng)絡(luò)(SPConvNet)結(jié)合輔助網(wǎng)絡(luò)(Auxiliary Network)高效提取體素中內(nèi)部點(diǎn)云特征; (3)注意力模塊, 對(duì)壓縮后鳥(niǎo)瞰圖的特征數(shù)據(jù)進(jìn)一步處理, 重點(diǎn)關(guān)注有效特征; (4)檢測(cè)模塊, 用卷積神經(jīng)網(wǎng)絡(luò)和PSWarp變換機(jī)制對(duì)車(chē)輛目標(biāo)的識(shí)別以及邊界框的生成與回歸.

圖1 基于注意力機(jī)制的單階段3D車(chē)輛目標(biāo)檢測(cè)模型
首先對(duì)輸入的點(diǎn)云進(jìn)行分塊, 本文使用深度、高度和寬度(D,H,W)與輸入點(diǎn)云相同尺寸的大立方體表示整個(gè)輸入點(diǎn)云空間, 用相同尺寸的小立方體對(duì)其進(jìn)行劃分, 每個(gè)小立方體稱(chēng)為體素, 每個(gè)體素的深度、高度和寬度分別為(uD,uH,uW), 則整個(gè)點(diǎn)云空間在坐標(biāo)上生成網(wǎng)格(voxel grid)個(gè)數(shù)為:

為了更高效的使用體素, 本文預(yù)設(shè)體素的最大數(shù)量限制(max_voxels)為20 000, 根據(jù)體素的數(shù)量限制預(yù)先分配緩沖區(qū), 接著遍歷所有的點(diǎn)云, 將點(diǎn)分配給與它們相關(guān)聯(lián)的體素, 并保存每個(gè)體素的點(diǎn)數(shù)和每個(gè)體素坐標(biāo)的位置. 整個(gè)迭代過(guò)程是使用哈希表來(lái)檢查體素是否存在的, 如果與點(diǎn)相關(guān)聯(lián)的體素存在, 就將體素的數(shù)量增加一, 否則就在哈希表中設(shè)置相應(yīng)的值. 一旦體素?cái)?shù)量累加到預(yù)設(shè)的限制數(shù)值, 迭代過(guò)程將停止, 最后將所獲得的每個(gè)體素的坐標(biāo)和點(diǎn)的數(shù)量作為實(shí)際的體素?cái)?shù).
為了更好的檢測(cè)車(chē)輛目標(biāo), 本文僅考慮沿著Z, Y,X軸在[-3, 1]×[-40, 40]×[0, 70.4]米范圍內(nèi)的點(diǎn)云. 用于車(chē)輛目標(biāo)檢測(cè)的每個(gè)體素的最大點(diǎn)數(shù)設(shè)置為T(mén)= 5,這是根據(jù)KITTI數(shù)據(jù)集中每個(gè)體素的點(diǎn)數(shù)分布決定的. 對(duì)于車(chē)輛目標(biāo)檢測(cè)任務(wù), 本文使用的體素大小為
如圖1所示, 本文使用三維稀疏卷積[1]網(wǎng)絡(luò)和輔助網(wǎng)絡(luò)[13]作為檢測(cè)器的骨干網(wǎng)絡(luò)提取特征. 三維稀疏卷積網(wǎng)絡(luò)包含4個(gè)卷積塊, 其中每個(gè)卷積塊是由內(nèi)核尺寸為3的子流形卷積構(gòu)成的, 連接在模塊最后的3個(gè)卷積塊中附加有步幅長(zhǎng)度為2的稀疏卷積, 每個(gè)卷積網(wǎng)絡(luò)后面均接有層ReLU層和RatchNorm層, 最后會(huì)生成不同空間分辨率的多階段的特征圖. 通常, 從點(diǎn)云中提取的降采樣多分辨率卷積特征將不可避免地丟失結(jié)構(gòu)信息, 但細(xì)致的結(jié)構(gòu)信息對(duì)于生成精確的目標(biāo)定位至關(guān)重要.
本文采用一種具有逐點(diǎn)監(jiān)督的可分離輔助網(wǎng)絡(luò),輔助網(wǎng)絡(luò)如圖1所示. 它首先將稀疏卷積網(wǎng)絡(luò)每階段生成特征的非零索引轉(zhuǎn)換為三維空間中點(diǎn)云坐標(biāo), 以逐點(diǎn)形式表示每個(gè)階段的特征, 然后將這些點(diǎn)狀特征連接起來(lái), 并使用淺層預(yù)測(cè)變量來(lái)生成特定于任務(wù)的輸出. 預(yù)測(cè)器是由大小為(64, 64, 64)神經(jīng)元的共享多層感知器實(shí)現(xiàn), 通過(guò)單位點(diǎn)卷積生成兩個(gè)任務(wù)特定的輸出. 最后通過(guò)點(diǎn)對(duì)前景的分割任務(wù)使得主干網(wǎng)絡(luò)對(duì)目標(biāo)車(chē)輛邊界框的檢測(cè)更加準(zhǔn)確. 具體來(lái)說(shuō), 用表示分割分支的函數(shù), 以預(yù)測(cè)每個(gè)點(diǎn)的前/后概率. 令si為指示點(diǎn)是否落入地面真相邊界框內(nèi)的二分類(lèi)標(biāo)簽.使用focal loss[15]損失優(yōu)化前景分割任務(wù), 即:

式中,α和γ是超參數(shù), 本文分別設(shè)為0.25和2,為:

但是, 由于稀疏卷積產(chǎn)生的特征圖非常稀疏, 即便是邊界點(diǎn)被精確檢測(cè)到, 在確定邊界框的比例和形狀時(shí)仍然存在著不確定性. 為了消除這一不確定性, 采用中心點(diǎn)估計(jì)的方法學(xué)習(xí)每個(gè)點(diǎn)到目標(biāo)中心的相對(duì)位置.假設(shè) Δ∈RN×3是 中心估計(jì)分支的輸出, Δp為點(diǎn)到相應(yīng)中心的目標(biāo)偏移量. 使用Smooth-l1[16]損失來(lái)優(yōu)化中心估計(jì)任務(wù):

式中,N是前景點(diǎn)數(shù),I是指標(biāo)函數(shù). 將前景分割和中心估計(jì)任務(wù)結(jié)合起來(lái), 幫助主干網(wǎng)絡(luò)了解更加精細(xì)的3D點(diǎn)云數(shù)據(jù)的結(jié)構(gòu)信息, 此外本文只是在訓(xùn)練階段采用輔助網(wǎng)絡(luò), 不會(huì)增加額外的計(jì)算成本.
(1) 通道注意力.通道注意力聚焦于輸入數(shù)據(jù)中“有意義”的部分. 為了有效的量化通道注意力, 需要對(duì)輸入特征數(shù)據(jù)的空間維度進(jìn)行壓縮處理, 目前, 大多采用平均池化提取有效的空間信息, 但經(jīng)過(guò)研究發(fā)現(xiàn)最大池化也能收集到物體的一些獨(dú)有特征, 因此讓平均池化和最大池化兩者相聚合就能提取出更加精細(xì)的空間信息.
如圖2所示, 模型首先使用平均池化層和最大池化層聚合空間信息, 生成的平均池化特征和最大池化特征分別為Fcavg和Fcmax. 然后將這兩個(gè)特征分別轉(zhuǎn)發(fā)到共享網(wǎng)絡(luò)中, 用來(lái)生成通道關(guān)注圖Mc∈RC×1×1, 其中共享網(wǎng)絡(luò)由一個(gè)僅包含一個(gè)隱藏層的多層感知器(MLP)組成. 為了減少參數(shù)量運(yùn)算開(kāi)銷(xiāo), 將隱藏層的激活大小設(shè)置為R(C/r)×1×1, 其中r是縮小率. 將共享網(wǎng)絡(luò)應(yīng)用于每個(gè)特征后, 使用逐元素求和運(yùn)算輸出合并后特征向量.

圖2 通道注意力模型
通道注意力[17]的計(jì)算公式為:

式中, σ表示Sigmoid函數(shù);W0∈R(C/r)×C,W1∈RC×(C/r),且兩個(gè)輸入均共享MLP權(quán)重參數(shù)W0和W1.
(2) 空間注意力. 與通道注意力不同, 空間注意力著重關(guān)注輸入數(shù)據(jù)“在哪”的位置信息部分,這是對(duì)通道注意力的補(bǔ)充. 如圖3所示, 模型同樣使用兩個(gè)池化層操作來(lái)聚合通道信息, 生成兩個(gè)2D特征分別為: 平均池化特征和最大池化特征然后將這兩個(gè)特征連接起來(lái), 通過(guò)標(biāo)準(zhǔn)卷積生成2D空間注意力圖.

圖3 空間注意力模型
空間注意力[17]的計(jì)算公式為:

式中,f7×7表示卷積計(jì)算, 其中7×7為卷積核大小.
本文提出的注意力模塊整體結(jié)構(gòu)如圖3所示. 棕黃色立方塊表示為通道注意力模型與空間注意力模型的串聯(lián)結(jié)構(gòu), 其中通道注意力模型在前, 空間注意力模型在后. 棕黃色立方塊分布在整個(gè)注意力模塊的首、中、尾部分, 其它部分嵌套著普通的二維卷積網(wǎng)絡(luò)(藍(lán)色立方塊). 實(shí)驗(yàn)結(jié)果表明, 這種“立體式”的布局結(jié)構(gòu)使得整個(gè)模型對(duì)空間結(jié)構(gòu)的感知能力大大加強(qiáng), 同時(shí)對(duì)最終檢測(cè)結(jié)果的提升也產(chǎn)生了重要的影響.
檢測(cè)模塊采用普通卷積網(wǎng)絡(luò)和PSWarp[13]變換機(jī)制對(duì)車(chē)輛目標(biāo)進(jìn)行檢測(cè). 為了解決最終車(chē)輛目標(biāo)預(yù)測(cè)的邊界框和對(duì)應(yīng)的置信度之間不匹配的問(wèn)題, 本文采用了一種變形操作, 即PSWarp變換機(jī)制. PSWarp可以看成比PSRoIAlign更加有效的變體, 它通過(guò)將特征圖進(jìn)行空間變換使得預(yù)測(cè)的邊界框與分類(lèi)置信度相匹配. PSWarp是由一個(gè)特征圖采樣器組成, 它輸入分類(lèi)圖和采樣網(wǎng)格, 生成從網(wǎng)格點(diǎn)采樣的輸出圖, 最后, 通過(guò)取K個(gè)采樣分類(lèi)圖中的平均值來(lái)計(jì)算分類(lèi)置信度C. 假定p為一個(gè)車(chē)輛目標(biāo)預(yù)測(cè)檢測(cè)出的邊界框, 則{(uk,vk)=Skp:k=1,2,···,k}為相對(duì)應(yīng)的采樣點(diǎn), 則該預(yù)測(cè)邊界框最終置信度計(jì)算公式為:

式中,b為雙線性采樣, 計(jì)算公式為:

PSWarp與PSRoIAlign以及其它RoI的方法相比,有效地減輕了使用NMS從密集的特征圖中生成RoI的需求, 達(dá)到節(jié)約時(shí)間成本提高效率的目的.
本文參考文獻(xiàn)[1-3]設(shè)置損失函數(shù)來(lái)優(yōu)化主干網(wǎng)絡(luò), 在回歸分支和分類(lèi)分支上分別使用Lloc和Lcls損失,其中Lloc使 用的是Smooth-l1[16]范數(shù),Lcls是Focalloss[17]損失函數(shù).
為了最小化(12)式中損失的加權(quán)和, 通過(guò)使用梯度下降方法聯(lián)合優(yōu)化檢測(cè)和輔助任務(wù):

式中,w設(shè)置為2; μ 和λ 是使輔助任務(wù)與檢測(cè)任務(wù)平衡的超參數(shù)分別為0.9和2.
KITTI數(shù)據(jù)集是目前國(guó)際上最大的自動(dòng)駕駛場(chǎng)景下的計(jì)算機(jī)視覺(jué)算法評(píng)測(cè)數(shù)據(jù)集, 它包含7481個(gè)訓(xùn)練樣本和7518個(gè)測(cè)試樣本, 在訓(xùn)練過(guò)程中又將訓(xùn)練集分為3712個(gè)訓(xùn)練樣本和3769個(gè)驗(yàn)證樣本, 本文主要是對(duì)應(yīng)用最廣的車(chē)輛類(lèi)別進(jìn)行實(shí)驗(yàn), 并使用平均精度(AP)和(IoU)閾值0.7作為評(píng)估指標(biāo). 基準(zhǔn)測(cè)試會(huì)根據(jù)目標(biāo)的大小、遮擋情況以及截?cái)喑潭葏^(qū)分出3個(gè)檢測(cè)難度級(jí)別: 容易(easy), 中等(moderate)和困難(hard).
實(shí)驗(yàn)環(huán)境為Ubuntu 16.04 操作系統(tǒng), Python 3.6,PyTorch 1.15. CPU型號(hào)為Inter Xeon Silver 4214, 顯卡是GeForce RTX 2080 Ti. 在訓(xùn)練中, 正錨和負(fù)錨使用的匹配閾值分別為0.6和0.45; 用于檢測(cè)車(chē)輛的錨點(diǎn)的尺寸為1.6 m (寬), 3.9 m (長(zhǎng))和1.56 m (高), 所有不包含點(diǎn)的錨都忽略; 使用SGD優(yōu)化器對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行了90個(gè)周期的訓(xùn)練. 批次大小, 學(xué)習(xí)率和權(quán)重衰減分別為2、0.01和0.003; 在推理階段, 使用0.3閾值過(guò)濾掉低置信度邊界框, NMS的IoU閾值為0.1.
數(shù)據(jù)增強(qiáng)通過(guò)增加訓(xùn)練數(shù)據(jù)量以及增加一些干擾噪聲數(shù)據(jù)來(lái)提高模型的泛化能力和魯棒性. 具體來(lái)說(shuō),首先收集所有真實(shí)目標(biāo)的三維邊界框以及邊界框內(nèi)的點(diǎn)云作為樣本池, 對(duì)于每個(gè)樣本, 采取隨機(jī)抽取的方法,從樣本池中隨機(jī)抽取不超過(guò)10個(gè)樣本, 并將它們放入到當(dāng)前點(diǎn)云數(shù)據(jù)中參與訓(xùn)練, 在每個(gè)樣本放入數(shù)據(jù)后,還需要對(duì)其進(jìn)行碰撞測(cè)試, 避免違反物理規(guī)律. 接著對(duì)真實(shí)目標(biāo)邊界框的數(shù)量進(jìn)行擴(kuò)充, 新增的每個(gè)真值框都進(jìn)行隨機(jī)旋轉(zhuǎn)和平移. 旋轉(zhuǎn)從[-π/15, π/15]開(kāi)始, 均勻的增加旋轉(zhuǎn)噪聲. 真值框的X, Y, Z坐標(biāo)按N(0, 0,0.25)的正態(tài)分布進(jìn)行平移, 增加平移噪聲. 除此之外,還將對(duì)整個(gè)點(diǎn)云進(jìn)行隨機(jī)翻轉(zhuǎn)、全局旋轉(zhuǎn)和全局縮放.全局旋轉(zhuǎn)從[-π/15, π/15]開(kāi)始, 均勻的增加全局旋轉(zhuǎn)噪聲. 縮放因子則從[0.95, 1.05]開(kāi)始改變.
為了驗(yàn)證基于注意力機(jī)制的三維點(diǎn)云車(chē)輛目標(biāo)檢測(cè)算法的有效性, 本文在KITTI 3D目標(biāo)檢測(cè)基準(zhǔn)上對(duì)本文所提出的單階段3D車(chē)輛檢測(cè)模型進(jìn)行評(píng)估. 實(shí)驗(yàn)通過(guò)將相關(guān)數(shù)據(jù)提交給KITTI線上測(cè)試服務(wù)器, 生成的實(shí)驗(yàn)檢測(cè)結(jié)果與新近主流的3D車(chē)輛檢測(cè)算法相比較(KITTI數(shù)據(jù)集默認(rèn)按中等難度的檢測(cè)精度進(jìn)行排名):
從表1可以看出, 本文所提出的單階段車(chē)輛檢測(cè)算法甚至比新近一些主流的兩階段車(chē)輛檢測(cè)算法(如F-PointNet, TANet, 3D IoU-Net)表現(xiàn)更好, 并且它在3個(gè)檢測(cè)難度級(jí)別中均取得較好的結(jié)果. 其中在中等和困難檢測(cè)級(jí)別中取得最優(yōu)成績(jī), 在簡(jiǎn)單檢測(cè)級(jí)別中取得的檢測(cè)結(jié)果也與第一名相差不大. 以上可證明本文所提算法的有效性.
值得關(guān)注的是, 當(dāng)引入注意力機(jī)制后, 模型整體的方向性預(yù)估變得更加優(yōu)秀. 與表1中簡(jiǎn)單檢測(cè)級(jí)別中檢測(cè)精度最高的模型EBM3DOD相比, 本文提出的算法模型在3個(gè)檢測(cè)難度級(jí)別中方向性預(yù)估性能均表現(xiàn)的更好. 其中與當(dāng)前主流的單階段車(chē)輛檢測(cè)算法SASSD相比, 性能提升尤為明顯. 檢測(cè)結(jié)果如表2、圖4、圖5和圖6所示:

圖5 EBM3DOD車(chē)輛方向估計(jì)檢測(cè)結(jié)果

圖6 本文車(chē)輛方向估計(jì)檢測(cè)結(jié)果

表1 3D車(chē)輛目檢測(cè)精度對(duì)比

表2 3D車(chē)輛目標(biāo)方向性預(yù)估對(duì)比

圖4 SA-SSD車(chē)輛方向估計(jì)檢測(cè)結(jié)果
提出了一種基于注意力機(jī)制的單階段檢測(cè)模型,用來(lái)檢測(cè)真實(shí)生活場(chǎng)景下的車(chē)輛目標(biāo). 通過(guò)引入注意力機(jī)制, 使得模型對(duì)空間的感知能力更強(qiáng), 從而使得車(chē)輛目標(biāo)方向性預(yù)估更準(zhǔn)確. 再將實(shí)驗(yàn)檢測(cè)結(jié)果與新近一些優(yōu)秀模型的檢測(cè)結(jié)果相比較可以發(fā)現(xiàn), 基于注意力機(jī)制的檢測(cè)模型在綜合預(yù)測(cè)結(jié)果方面也具有較大優(yōu)勢(shì).但對(duì)于自動(dòng)駕駛領(lǐng)域的3D目標(biāo)檢測(cè)研究, 無(wú)論是檢測(cè)速度還是檢測(cè)精度都還有進(jìn)一步提升空間. 后續(xù)的研究將不僅限于對(duì)車(chē)輛目標(biāo)的檢測(cè), 可考慮在基于注意力機(jī)制的檢測(cè)模型上對(duì)行人、騎行者等小目標(biāo)進(jìn)行檢測(cè), 通過(guò)進(jìn)一步在模型結(jié)構(gòu)設(shè)計(jì)及目標(biāo)檢測(cè)過(guò)程的機(jī)理上深入挖掘, 以達(dá)到更好的效果.