雷嘉銘,俞 輝,夏 羽,郭杰龍,魏 憲
(1.福州大學 先進制造學院,福建 泉州 362000;2.中國科學院海西研究院 泉州裝備制造研究中心,福建 泉州 362000;3.中國科學院福建物質結構研究所,福州 350108;4.上海宇航系統工程研究所,上海 200000)
三維目標檢測作為環境感知的重要手段,在自動駕駛系統中具有重要意義[1-3]。激光雷達由于具有精度高、分辨率高、抗干擾能力強以及測距范圍廣等特點[4-5],因此在目前大部分的室外三維目標檢測方法中作為主要傳感器使用[6]。在自動駕駛應用中,為了滿足實時性的要求,大部分方法首先將點云劃分為 規則的網格,如體素(voxel)[7-8]或點云 柱(pillar)[9],這一過程不僅對龐大的點云數據進行了降采樣,而且還將不規則的數據轉變成規則的數據,從而節省了更多的內存和時間[10]。文獻[11-12]提出了PointNet 方法,通過神經網絡直接處理點云,增強了對點云的特征表示能力,為將離散稀疏點云轉換為規則張量形式奠定了基礎。
VoxelNet[7]首先將點云劃分為固定大小的體素,并通過體素特征編碼(Voxel Feature Encoding,VFE)將多個點的信息聚合成一個體素的特征,從而將數據從不規則的形式轉變成規則的張量形式,最后利用三維卷積進行特征提取。SECOND[8]同樣將點云變成體素,針對點云體素化后的稀疏問題提出了稀疏卷積,有效改善了三維卷積代價高昂的問題,并在KITTI 數據集[13-14]上取得了良好的實時性。不同于上述工作,PointPillars[9]選擇將點云表示成點云柱,并通過映射將點云柱轉變為偽圖像(pseudo image),回避了耗時的三維卷積而采用速度更快的二維卷積進行特征提取,極大地縮短了網絡檢測時間?;谏鲜鰞煞N體素化方法,有很多學者提出了改進方案來提升檢測性能。如文獻[15]提出了CenterPoint,與以往基于框的檢測器不同,CenterPoint 中設計了一個基于中心點的檢測器,同時使用基于點特征的細化模塊作為網絡的第二階段,在nuScenes[16]和Waymo[17]數據集上取得了良好的結果。為了探索點云的形狀信息,文獻[18]提出了一種新穎的形狀簽名(shape signature)用于顯式捕捉點云的三維形狀信息,并基于此構建了SSN(Shape Signature Network)。
在真實復雜的駕駛場景中,目標的朝向復雜多樣。例如,將nuScenes 數據集的標注目標按朝向角θ?[-π,π]均勻分成10 個小區間進行數量統計,每個區間均有大量的目標,而且現有的三維目標檢測方法在位置估計及朝向預測上的表現仍有不足。為了提升智能駕駛系統的可靠性和安全性,作為系統環境感知的重要方式,三維目標檢測方法不僅需要準確識別目標位置,還需要具有良好的朝向預測能力。
為了提高目標位置識別和朝向預測的準確率,較常用的方法是數據增強,即在訓練時對場景點云進行隨機縮放、旋轉等,從而豐富樣本,在一定程度上增強了檢測網絡的泛化性并提高了其檢測準確率。然而,數據增強的本質是增加訓練樣本的豐富度以增強網絡的泛化性能[19],并沒有真正提高檢測網絡的特征表達能力及對潛在目標的檢測能力。
針對現有三維目標檢測方法目標位置識別精度不足、朝向預測偏差較大的問題,本文提出一種基于多方向特征融合的三維目標檢測方法。在網絡初期,該方法建模了點與點之間的距離、夾角等信息,為后續特征提取與回歸預測提供豐富的信息。其次,利用新穎的多方向特征融合骨干網絡進行多方向特征提取,融合潛在目標多個方向上的特征。最后,在KITTI 和nuScenes 數據集上進行實驗以驗證本文所提方法的有效性。
本文所提三維目標檢測方法整體框架如圖1 所示。該方法以多幀聚合后的激光雷達點云作為輸入,最終輸出若干個三維預測框[20],包含物體的位置、尺寸、朝向、速度、類別等信息。其主要結構包括:點間距離、夾角建模的點云數據編碼;多方向特征融合骨干網絡,用于對編碼后的點云偽圖像進行多方向特征提取;檢測器,基于提取到的特征進行回歸與預測,輸出預測框。

圖1 三維目標檢測方法整體框架Fig.1 Overall framework of 3D object detection method
本文方法的第一部分是對大規模場景點云進行點間距離及夾角建模的點云數據編碼,如圖2所示。

圖2 點間距離、夾角建模的點云數據編碼Fig.2 Point cloud data encoding for modeling distance and angle between points
該數據編碼基于PointPillars 所提的點云柱編碼[9]進行修改,并考慮對點與點之間的距離以及夾角信息進行建模。激光雷達能夠提供較精確的全局位置信息(xj,yj,zj),但是缺乏點云規則化后點間的局部關系。為了隱式表示點云物體的幾何形狀,對點間距離進行建模,將點與點集中心的距離作為補充特征,即,其中表示點云柱內點集的平均坐標。此外,為了提高網絡對目標朝向的表征能力,對點間夾角進行建模,如式(1)所示:
經過距離及夾角建模后,mini-PointNet 接收的每個點的輸入如式(2)所示:
其中:[xi,yi,zi,I]為點pi的原始坐標和反射強度;[xpi,ypi]為點pi到點云柱中心的距離的含義如上所述。經過mini-PointNet,輸入由[N,M,10]變成[N,64],其中,N表示點云柱的最大數量,M表示每個點云柱內點的最大數量。最后經過坐標映射得到偽圖像D=[C,H,W],其中,[H,W]表示偽圖像的長寬,與輸入點云范圍以及點云柱的預設尺寸有關。
在數據編碼后,稀疏不規則的點云數據轉變成規則的偽圖像?,F有方法大部分利用卷積神經網絡(Convolutional Neural Network,CNN)對偽圖像進行特征提取。然而普通的CNN 在特征提取過程中卷積核保持不變,只能提取到一個方向上的特征,這在面對復雜的駕駛場景時難以提取豐富的特征信息。因此,為了增強網絡的特征提取能力,改善三維目標檢測方法目標位置識別精度不足、朝向預測偏差較大的問題,本文提出一種多方向特征融合的骨干網絡,該網絡主要包括2 個結構,分別是空間提升層以及多方向卷積層。
1)空間提升層。
空間提升層作為多方向特征融合骨干網絡的第一部分,對輸入進行維度擴展,將偽圖像D?X轉換到高維空間Y中。定義卷積核Ψ?X,空間提升卷積Ψ?D定義為:
其中:D(p)表示偽圖像D中的某一個像素點p的值;(t,r)表示P4群的元素,即對點p?Z2先進行r?C4的旋轉然后進行t平移。空間提升層如圖3 所示,該層只有一組卷積核,但是在卷積過程中會對卷積核進行4 次90°的旋轉,從而得到4 組特征圖。連接在該層后面的是修改的歸一化層以及ReLU 層,對輸出進行歸一化[21]以及ReLU 操作。4 組特征圖構成了額外的維度,即偽圖像輸入,經過空間提升層后所得輸出為

圖3 空間提升層Fig.3 Space lifting layer

圖4 多方向卷積層Fig.4 Multi-direction convolution layer
為了簡潔表示,令g=(t,r)?C4,可以證明空間提升層滿足旋轉等變性[22-23],如式(4)所示:
其中:R 表示旋轉變換。
2)多方向卷積層。
經過空間提升層后,特征圖y處于高維空間Y中。在空間Y中,P4群中的自然操作滿足式(5):
其中:(p,s)為P4群的元素索引;s={0,1,2,3}表示逆時針旋轉s次90°;(t,r)表示對特征圖的平移t和旋轉r操作。根據群理論并結合上述方程構建空間Y上的多方向卷積,如式(6)所示:
相比于普通卷積,多方向卷積層的卷積核權值能夠在4 個群元素之間共享,提取4 個方向上的特征信息,并且在最后進行拼接融合。相比于傳統的卷積操作,其具備更強的特征捕獲和表達能力。同時,其輸入與輸出維度一致,因此,可以疊加該層獲得深度網絡,以更好地提取特征。
空間提升層和多方向卷積層與普通卷積層的對比如表1 所示。

表1 空間提升層和多方向卷積層與普通卷積層的對比Table 1 Comparison of spatial enhancement layer and multi-direction convolutional layer with ordinary convolutional layer
基于上述2 個結構,構建一個多方向特征融合骨干網絡,結構如圖5 所示(彩色效果見《計算機工程》官網HTML 版)。該骨干網絡首先通過空間提升層將輸入特征圖變換到空間Y中,然后通過疊加多方向卷積層(或多方向反卷積層)進行多方向特征提取與融合。

圖5 多方向特征融合骨干網絡Fig.5 Backbone network for multi-direction features fusion
為了更好地檢測多尺度目標,本文的骨干網絡采用了特征金字塔網絡(Feature Pyramid Network,FPN)[24]的結構,接收x?RC×H×W的偽圖像輸入,經過空間提升模塊擴展維度x'?R4×C×H×W,然后經過連續多方向卷積模塊分別得到維度(4,C/4,H/2,W/2)、(4,C/2,H/4,W/4)和(4,C,H/8,W/8),各自經過上(或下)采樣得到3 個維度為(4,C/2,H/4,W/4)的特征,最終拼接融合得到(6C,H/4,W/4)的特征。
后續實驗結果證明了該骨干網絡能夠明顯提高檢測網絡對目標朝向的預測準確率,同時改善位置預測精度不足的問題。
由于三維場景中目標的朝向多種多樣,而且存在較多目標朝向與坐標軸不是對齊平行的情況,因此,為了更好地表示場景中的目標以及配合本文設計的點云數據編碼和多方向特征融合骨干網絡,更準確地預測目標的朝向,本文算法采用Center-based的檢測頭,即以關鍵點來表示物體的中心,并預測朝向、尺寸、速度等屬性。
本文在KITTI 和nuScenes 這2 個公開數據集上對所提方法進行實驗。
1)KITTI數據集包括7 481 個訓練樣本和7 518 個測試樣本。本文主要關注各方法在KITTI 3D 和俯瞰視角(Bird-Eye’s View,BEV)檢測基準上的平均精度均值(mean Average Precision,mAP)以及平均朝向相似度(Average Orientation Similarity,AOS)。在KITTI 數據集中,待檢測的目標一共分為汽車、行人和騎行者這3 個類別。
2)nuScenes 數據集相比于KITTI 數據集在數據量以及樣本多樣性上都具有更大的提升,該數據集在波士頓和新加坡一共采集了40 000 個關鍵幀,包含28 130 個訓練樣本和6 019 個測試樣本,標注的目標共有23 類,包括汽車、行人、騎行者、公交車等。在三維目標檢測任務中需要檢測的目標為10 類。
對于三維目標檢測任務,最常用的評價指標是mAP,該指標主要考察在BEV 下預測框與真實框的中心距離。除了評估準確率外,nuScenes 還會評估檢測網絡的一系列真陽性指標(Ture Positive metrics,TP metrics),包括平均偏移誤差(mATE)、平均尺度誤差(mASE)、平均朝向誤差(mAOE)、平均速度誤差(mAVE)和平均屬性誤差(mAAE),分別評估預測目標與真實目標的距離偏差、尺寸偏差、朝向偏差、速度偏差以及分類偏差。上述的TP 指標都是在距離閾值d=2 m 下計算得到的。此外,為了綜合考慮平均精度均值和真陽性指標,nuScenes 提出了NDS(nuScenes Detection Score)指標,綜合考量網絡的性能,其計算公式如式(7)所示:
本文在KITTI 和nuScenes 這2 個數據集上訓練本文所提檢測方法,實驗配置如表2 所示。

表2 實驗配置Table 2 Experimental configuration
2.3.1 位置準確率分析
對比現有先進方法與本文方法在KITTI 和nuScenes 數據集中三維目標檢測任務的性能表現。
首先,表3 和表4 分別顯示了3D 視角和BEV 下在KITTI 測試集中對比方法的檢測精度,包括3 類目標在中等難度下的AP 以及mAP,最優結果加粗標注。從中可以看出,本文方法在3D 視角和俯瞰視角下均取得了最好的精度表現,方法整體mAP 分別為64.28%和70.05%。在3D 視角下,Car 類 的mAP 為81.35%,比次優的Point-GNN 高出1.25 個百分點。更進一步,表5 顯示了各方法在KITTI 驗證集中3D視角和BEV 下的Car 類檢測結果。從中可以看出,本文方法在3DR11和BEVR11下分別取得了81.40%和88.55%的mAP。在困難難度下,本文方法精度均稍低于Point-GNN,這是因為在困難難度下,目標的遮擋和截斷水平較高,Point-GNN 能夠通過Graph 更好地蘊含物體的幾何形狀從而彌補缺失部分形狀,而本文方法依賴于CNN,缺乏一定的幾何特征捕獲能力。而在簡單和中等難度下,由于目標相對完整,利用多方向特征融合骨干網絡能夠更好地提取目標位置特征,因此本文方法能夠獲得最好的AP。

表3 KITTI 測試集3D 視角下各方法的AP 對比Table 3 Comparison of AP for various methods from the 3D perspective in the KITTI test set %

表4 KITTI 測試集BEV 下各方法的AP 對比Table 4 Comparison of AP for various methods from the BEV in the KITTI test set %

表5 KITTI 驗證集3D 視角和BEV 下各方法對Car 類的AP(IoU 為0.70)Table 5 The AP of each method on the Car class under the 3D perspective and BEVin the KITTI validation set(IoU is 0.70)%
其次,在nuScenes 數據集上進行實驗,在表6 中對mAP 和NDS 這2 個衡量方法性能的重要指標進行分析。表6 共對比了10 類目標的AP,依次為汽車、行人、柵欄、交通錐、卡車、公交車、拖車、工程車、摩托車以及騎行者。通過與現有5 種較先進的三維目標檢測方法對比可以發現,本文所提方法在汽車、行人等8 個類別中均取得了最好的AP 表現,這得益于多方向特征融合骨干網絡能夠提取并融合4 個方向上的特征,比以往的骨干網絡更具有特征捕獲和表達能力,從而提高了對潛在目標的識別精度。此外,本文方法取得了50.2%的mAP 以及60.3 的NDS,均比現有方法更高。結果充分表明了本文方法的有效性,該方法不僅能更精確地預測目標位置,而且在各項TP 指標中都有明顯提升。

表6 nuScenes 驗證集中各類別的AP 以及各方法的mAP 和NDSTable 6 The AP of each category and mAP and NDS of each method in the nuScenes validation set
2.3.2 朝向準確率分析
為了驗證本文所提方法在目標朝向預測方面的性能,同樣在KITTI驗證集和nuScenes驗證集上進行實驗。
KITTI 驗證集上3 類目標的平均朝向相似度(AOS)如表7 所示。從表7 可以看出,本文方法在Car和Pedestrian 類中取得了最好的結果,其中Pedestrian類的平均AOS 比SECOND 高出3.05 個百分點。良好的AOS 結果得益于本文方法中的數據編碼以及多方向特征融合骨干網絡,點間距離、夾角建模的數據編碼能夠提取局部區域點云的幾何信息,為朝向預測提供有效信息,而多方向特征融合骨干網絡利用多方向卷積能夠充分提取相對大區域的綜合特征。

表7 KITTI 驗證集中各類別的AOSTable 7 AOS of each category in the KITTI validation set %
表8 進一步在nuScenes驗證集中對比具有朝向屬性的9 個類別目標的AOE 以及整體指標mAOE。由表8 可知,與現有方法相比,在大部分類別目標中本文方法都取得了最好的AOE結果,其中汽車、卡車及工程車類中下降較為明顯,由于這些類別目標的尺寸較大,本文方法通過多方向特征融合骨干網絡能夠從4 個方向上對潛在目標的特征進行提取,豐富位置、朝向等信息,從而獲得更低的朝向誤差。此外,本文方法的mAOE 指標相比次優的CenterPoint 降低了7%,該結果表明本文方法在目標朝向預測方面具有明顯優勢,多方向特征融合骨干網絡能夠充分捕獲目標朝向信息,增強網絡對朝向的預測性能,進而提升方法的應用表現。

表8 nuScenes 驗證集中各類別的AOE 以及各方法的mAOETable 8 The AOE of each category and mAOE of each method in the nuScenes validation set
2.3.3 消融實驗
為了探究點間距離、夾角建模的數據編碼(DAM-Encoding)與多方向特征融合骨干網絡(MFF-Backbone)對本文所提檢測方法性能的影響,在nuScenes 驗證集上進行相關的消融實驗,結果如表9 所示。

表9 DAM-Encoding 和MFF-Backbone 對本文方法的性能影響Table 9 The performance impact of DAM-Encoding and MFF-Backbone on the method proposed in this paper
由表9 可以看出,不論是距離、夾角建模的數據編碼還是多方向特征融合骨干網絡,對于NDS、mAP 以及mAOE 指標均有幫助。對比實驗組2 和3可以看出,相比于DAM-Encoding,MFF-Backbone能更明顯地降低平均朝向誤差(mAOE 由0.403 3 下降到0.369 5),這證明了多方向卷積在預測物體朝向上的有效性。此外,由實驗組4 的結果可以看到,基于DAM-Encoding 和MFF-Backbone 的本文方法取得了最好的性能表現,原因主要有:DAMEncoding 不僅建模了點間的距離信息,而且提供了角度信息,為潛在目標的位置和朝向預測提供了豐富信息;MFF-Backbone 能夠提取并融合多方向特征信息,更加豐富了潛在目標的信息。這2 個模塊都不同程度地增強了網絡的特征表達能力,從而提升了整體性能。
2.3.4 泛化性分析
為了探究DAM-Encoding 和MFF-Backbone 這2 個模塊的泛化性,在nuScenes 驗證集上進一步進行泛化性對比實驗。實驗基于目前比較常見的三維目標檢測方法,在保持骨干網絡輸入和輸出尺寸、通道數一致的條件下,比較原方法與替換DAM-Encoding和MFF-Backbone 后的方法的性能,對比NDS、mAP以及mAOE 指標,實驗結果如表10 所示。泛化性實驗對比 了PointPillars、SSN、Free-anchor3d 以 及CenterPoint 這4 種方法。由表10 可以看出,替換DAM-Encoding 和MFF-Backbone 后各方法的3 項 指標均得到了明顯優化,這充分表明了所提模塊的泛化性,能夠提升檢測方法的性能。

表10 泛化性實驗結果Table 10 The results of generality experiment

表11 檢測方法的推理速度和參數量對比Table 11 Comparison of inference speed and parameter quantity of detection methods
2.3.5 實時性和參數量分析
如 表 11 所 示,在 nuScenes 驗證集上對PointPillars、SSN、Free-anchor3d 和CenterPoint 方 法替換MFF-Backbone 前后的推理速度和參數量進行對比分析(保持骨干網絡的輸入和輸出尺寸、通道數相同)。可以看到,替換后推理速度均有稍微下降(平均降低0.9 sample/s),但是參數量明顯降低,平均減少64%。結合表10 可知,盡管網絡的參數量大幅降低,但是其性能卻得到了提升。
2.3.6 可視化分析
對本文所提方法以及對比方法的檢測結果在nuScenes 數據集上進行俯視視角的可視化分析,可視化限定x軸和y軸范圍均為[-40 m,40 m],可視化結果如圖6 所示,每個場景中左邊是本文方法結果,右邊為對比方法結果,圖中藍色框表示真實框(待檢測目標),綠色框則為方法的預測輸出框,框內的直線表示目標的前進方向(彩色效果見《計算機工程》官網HTML 版)。從圖6(a)和圖6(b)可以看出,本文所提方法的預測框更加接近真實框,不僅位置偏差更小,而且朝向也更準確,這得益于點云數據編碼所彌補的距離、角度信息,以及多方向特征融合骨干網絡在特征提取方面強大的能力,能夠為回歸預測提供豐富的信息。同時,從圖6 也可以看出,本文方法能夠有效改善漏檢和誤檢的情況。

圖6 可視化結果Fig.6 Visualization results
在自動駕駛的環境感知系統中,三維目標檢測方法需要準確估計潛在目標的位置和朝向,這對于其在真實駕駛場景中的應用十分重要。但是,現有方法通常存在對目標位置估計精度不足、朝向預測偏差較大的問題。為此,本文提出一種基于多方向特征融合的三維目標檢測方法,該方法的核心包含點間距離、夾角建模的點云數據編碼和多方向特征融合骨干網絡。點間距離、夾角建??梢詮浹a位置、朝向等信息。多方向特征融合骨干網絡基于多方向卷積,能夠在4 個方向上進行特征提取,具備更強的特征表達能力。實驗結果表明,相較對比方法,該方法在KITTI 和nuScenes 數據集上不僅取得了最好的mAP,而且在朝向預測方面也獲得了最好的AOS 以及mAOE 結果,充分驗證了這2 個核心模塊的有效性,不僅可以提升位置識別精度,而且可以提高朝向預測準確度。
本文所提多方向特征融合骨干網絡滿足旋轉等變性,能夠提取豐富特征,但是數據編碼部分不滿足旋轉等變性。因此,下一步將基于網絡等變性設計數據編碼模塊,結合多方向特征融合骨干網絡,設計一種針對室外三維點云目標檢測的雙等變網絡,進一步提高定位精度和方法的應用性能。