基于通道注意力和圖卷積的激光三維目標檢測

2023-10-12 01:10:26馬慶祿黃筱瀟孔國英

計算機工程與設計 2023年9期

馬慶祿，黃筱瀟，孔國英

(1.重慶交通大學交通運輸學院，重慶 400074；2.重慶奉建高速公路有限公司工程管理部，重慶 401120)

0 引言

現有的三維目標檢測算法[1]分為兩類：基于原始數據的方法和基于分區的方法。基于原始數據的方法是利用神經網絡直接處理原始點云[2]，目前基于此類方法的主要有PointNet[3]、PointNet++[4]、PointRCNN[5]等，此類算法推斷通常需要很長的時間，不具備實時性[6]。基于分區的方法則是應用預定義的規則對三維空間進行分區構造，并通過使用CNN的變體來處理分區數據[7]。目前此類算法主要有VoxelNet[8]、Second[9]、PointPillars[10]等，此類算法能夠減少大量的推斷時間，在分區過程中生成單元特征應用于深度學習體系結構。如果通過網絡學習單元特征，即使它們不會引起量化誤差，基于分區的方法也會丟失一些信息。因此基于分區的方法不可避免地會丟失一些詳細信息，稱這種現象為分區效應。分區操作的缺點是固有的，為減少分區效應，提出了通道注意力圖卷積(channel attention-graph convolutional network，CAT-GCN)框架，能夠在分區操作后與基準網絡級聯形成一個額外的層，稱之為特征增強(feature enhancement，FE)層，以增加極淺層的網絡能力，捕獲幾何細節信息，減少分區效應。

1 基準網絡的目標檢測

為驗證CAT-GCN的有效性，選取在各排行榜排名較高的PointPillars作為基準模型進行嵌入。在三維目標檢測中，PointPillars接受點云作為輸入，并為汽車、行人和自行車提供3D包圍框。PointPillars主要利用柱特征網絡(pillar feature net)將三維點云特征有效地轉換為二維偽圖像表示。柱特征網絡首先將原始點云分解成柱狀；然后，將柱子上的點存儲在同一個陣列中，并記錄這些點在原始空間點云中的位置。接下來，柱特征網絡利用PointNet學習點柱中所有點的特征，通過MAX函數選取最突出的點，用所選點的特征替換整個點列中的特征，去掉Y軸信息。最后，利用記錄點列的位置回歸張量的位置，得到二維偽像。偽像是一個(C，M)大小的張量，其中C為卷積后的通道數，M為點的個數。柱特征網絡層來學習局部點云特征。經過多層特征提取與融合，得到了具有豐富空間結構信息的單級目標檢測網絡，這是PointPillars網絡中的重要的部分[11]。

實現目標檢測的過程中主要包括3個階段：①將點云轉換為稀疏偽圖像的特征編碼器網絡，即為將點云柱化；②二維卷積主干，用于將點云通過柱化后的偽圖像進行多特征提取處理為高級表示；③檢測頭，其對目標進行檢測，生成并回歸3D框。

1.1 點云編碼器

通過使用PointNet提取體素級特征，然后通過執行3D卷積執行對象檢測，這非常耗時。PointPillars則首先通過將整個空間劃分為支柱將點云轉換為偽圖像。二維卷積可以用于從偽圖像中提取特征映射。將點云映射到偽圖像要應用二維卷積結構，首先將點云轉換為偽圖像[12]。用坐標x，y，z和放射率r表示點云中的一個點。作為第一步，將點云離散到x-y平面上的等距柵格中，如圖1所示。

圖1 Pillar特征提取層結構

圖1中將落在一個柵格的點云數據被視為處于一個柱中。然后用每個柱的點增加xc，yc，zc，xp和yp，其中c下標表示到支柱中所有點的算術平均值的距離，p下標表示到支柱x，y中心的偏移量。由于點云的稀疏性，支柱大部分是空的，而非空支柱中通常只有很少的點。通過對每個樣本的稀疏度(D)、非空柱數(F)和每個柱的點數(N)施加限制，可以利用這種稀疏性來創建大小為 (D，F，N) 的稠密張量。如果樣本或支柱中包含的數據太多，無法擬合此張量，則會隨機采樣數據。相反，如果樣本或支柱的數據太少，無法填充張量，則會應用零填充。接下來，使用PointNet中的特征提取模塊，對于每個點應用線性層，然后是BatchNorm和ReLU，以生成 (C，F，N) 大小的張量。然后在通道上執行max操作，以創建大小為 (C，F) 的輸出張量。最后創建大小為(C，H，W) 的偽圖像，其中H，W表示圖的高度和寬度。

1.2 偽圖像卷積與檢測頭

使用與VoxelNet類似的主干，主干網有兩個子網：一個自上而下的網絡以越來越小的空間分辨率生成特征，另一個網絡執行自上而下特征的上采樣和串聯。自頂向下主干可以由一系列塊Block(S，L，F) 來表示。每個塊的步幅為S(相對于原始輸入偽圖像測量)。每個塊具有L層3×3的卷積層，具有F個輸出通道數，每個通道后跟BatchNorm和ReLU。層內的第一個卷積步幅為S/Sin，以確保塊在接收到步幅為Sin的輸入后能在步幅上S運行。塊中的所有后續卷積的步幅都為1。每個自上向下的塊的最終特征通過上采樣連接到網絡Up(Sin，Sout，Fe)，Sin為初始步幅，Sout為最后步幅，并得到最終特征Fe。接下來，BatchNorm和ReLU應用于上采樣特征。最終輸出特征是源自不同步幅的所有特征的串聯。

在網絡中使用單次激發檢測器(SSD)設置來執行三維對象檢測。每個添加的特征層可以使用一組卷積濾波器產生固定的預測集。重疊度(IoU)將先驗框與地面真值進行匹配。邊界框的高度不用于匹配，給定的2D匹配高度則會成為額外的回歸目標。

2 CTA-GCN框架的特征增強

PointPillars在俯視圖中對數據進行分區，并利用簡化的PointNet塊生成支柱特征。然后，將這些支柱特征投影到鳥瞰圖上以生成偽圖像。偽圖像中的每個像素對應于原始數據空間中的一個小單元。不可避免地，有些實例被切成小塊。這種現象類似于基于體素的方法的量化。由于這些特征是從分區單元中學習的，因此稱這種現象為分區效應。對于大型對象，分割效應可能不會對3D對象檢測任務造成嚴重影響，但是小目標在偽圖像中容易丟失了幾何形狀，卷積運算不能有效地捕捉小目標的特征，同樣基于體素的方法也存在同樣的問題。因此，對于所有基于分區的方法，分區效應是提高小目標檢測精度的主要障礙。

克服分區效應缺點的最直接方法是減小單元大小。這將增加空間和計算成本。因此，提出了一種在不改變單元大小的情況下提高每個單元的特征捕獲能力的方法。通過在單元特征提取之后添加一個額外的特征提取層，以捕獲更多的幾何信息。這個額外的網絡取代了CNN在淺層中的角色，后者捕獲圖像的紋理信息。稱這種方法為特征增強，額外的層稱為特征增強層(FE)。為了獲得更多的幾何紋理信息，特征增強(FE)層需要具備一些特性。①局部激活：應用FE層以提高對詳細信息的檢測能力。因此，FE層的神經元應僅通過局部場中的數據激活。②空間敏感：點云的信息存儲在局部幾何結構中。因此，神經元應該對幾何形狀敏感。因此基于以上條件，提出對于一種新的結構并嵌入PointPillars形成特征增強層，如圖2所示。

圖2 三維點云目標檢測網絡框架

圖2中Conv表示卷積，Deconv表示反卷積，Pool表示為池化，MLP為多層感知機。CAT-GCN通過與PointPillars級聯形成FE層，其主要優化有：①在分區操作后添加額外的FE層。該額外層用于減輕3D對象檢測中分割效應的負面影響。②為GCN添加了一種通道注意機制，該機制通過細化通道與通道之間的依賴性，學習不同通道的權重獲取更多有有用信息的點云特征。③以通道注意圖卷積(CAT-GCN)的新結構來形成FE層。CAT-GCN利用圖卷積和通道注意機制有效地提取目標的詳細幾何信息。

2.1 特征優化處理

在卷積過程中出現了許多無效信息，導致網絡性能降低。因此為了減少無效信息，在提取特征后加入通道注意力機制以增強網絡處理能力，此處引入通道注意力機制[13]，其能夠通過網絡自學習獲取每個特征通道并根據其重要程度改進提取有用特征。在特征提取過程中有3個操作：Fsq為壓縮操作，Fex為激發操作，Fscale為權重更改操作。

在提取特征到主干的輸入過程中有輸入特征圖Ua∈H×W×C，Ua有C個通道，Uc表示特征圖通道，每個通道空間大小為H×W，對每個通道進行全局平均池化對輸入進行縮小，則通道權重Z的計算公式

(1)

式中：Z為通過壓縮通道得到的權重，大小為H×W的特征圖其橫縱坐標用i和j表示，然后使用激活函數對各通道權重進行相關程度建模。得到1×1×C的輸出如式(2)

SC=Fex(Z，W)=Sigmoid(W2×ReLu(W1，Z))

(2)

(3)

最終表現為特征圖通道UC與通道注意力權重SC之間的通道元素互乘。在嵌入注意力機制后能夠減少后續大量計算[14]。

2.2 卷積層網絡改進

圖3 相鄰點的內積關系

通過余弦相似性計算出內積后，將獲得相鄰點云間最大的sim輸出，再求和得到最終卷積輸出，sim函數的定義為

(4)

根據上述定義，可以得到在3D-GCN中的3D圖卷積運算計算如式(5)

(5)

其中，式(5)在內核ks中使用方向向量dm，n，而不是全局坐標，這為3D-GCN模型引入了移位不變的性質。此外，相似性函數只計算dm，n和ks之間的余弦相似性，而不考慮它們的長度。因此，3D-GCN可以聯合觀察到尺度不變特性。

2.3 損失函數設計

參考基準網絡設置損失函數。真實目標的邊界框由 (x，y，z，w，l，h，θ) 表示，其中：x，y，z為邊界框中心坐標；w，l，h分別為邊界框的寬度、長度和高度；θ為邊界框繞，z軸的偏航旋轉角度。目標和錨點之間的線性回歸殘差定義為

(6)

(7)

式中：SmothL1為L1的平滑函數，Δb∈(Δx，Δy，Δz，Δw，Δl，Δh，Δθ)。而角度定位損失無法區分翻轉的定位框，因此在離散方向上的損失使用softmax函數，對于分類損失使用focal loss函數

Lcls=-α(1-Ga)γlogGa

(8)

式中：Ga為錨點的概率，根據RetinaNe網絡設定α=0.25，γ=2作為原始張量，總損失為

(9)

式中：Ldir=-logsj為離散方向損失，其中sj為輸出向量的第j個值；Npos為正概率錨數；根據Second網絡對常量權重進行設置βloc=2；βcls=1；βdir=0.2。其中使用Adam優化器來優化200個時期的總損失函數。

3 實驗設計

3.1 實驗過程及分析

3.1.1 數據集準備與模型訓練

實驗中采用的激光點云數據和圖像數據都來至KITTI公開數據集。該數據集在多種環境下采集，在訓練過程中只使用KITTI中的點云數據，數據集中包含有7481個訓練數據和7519個測試數據，訓練過程中還需將訓練數據分為3712個訓練樣本和3769個驗證樣本。其中激光點云數據使用的是線列機械轉式激光雷達Velodyne HDL-64E，以10 Hz的頻率進行采集得到。

實驗環境為Ubuntu18.04操作系統，Python3.7，Pytorch1.5，處理器為Intel i5 CPU，顯卡為Nvidia 2080Ti GPU。遵循KITTI提出的簡單、中等、困難的分類，使用3D和鳥瞰圖的AP評估檢測結果。實驗設置在KITTI上驗證CAT-GCN的有效性。將柱邊長設置為0.16 m，每個住的最大點數為100，最大柱數為P=12000：將所有編碼器中線性層的輸出通道設置為64，使用adam優化器優化函數，最大學習率為3×10-3，權重衰減為0.01，動量為0.85～0.95，訓練批量選為16。

在實驗選取基于分區的檢測網絡VoxelNet、Second和PointPillar作為對比網絡以驗證CAT-GCN網絡的優越性。

3.1.2 實驗結果對比分析

為驗證加入CAT-GCN框架后的模型在檢測小目標方面能夠得到提升，因此選取場景與基準模型PointPillars進行對照實驗，得到的小目標檢測效果如圖4所示。

圖4 CAT-GCN與基準模型對比

圖4中圈內為PiontPillars漏檢目標，而CAT-GCN檢測能夠檢測到的目標。可以看出在行人與自行車目標較為密集或離檢測點太遠時，出現了漏檢情況，而CAT-GCN框架能夠有效在卷積時減少重要信息損失，提高目標檢測精度。

在訓練結束后，通過對測試集的檢驗，評價指標選取為通過精準率與召回率計算得到的平均精度(AP)，AP用于評估模型在單檢測類上的精度，而AP值越高則證明目標檢驗精度越高，而平均精度(mAP)則能夠表示整體檢測精度，mAP越大則越能證明算法和模型的優越性。在將測試集通過模型檢測后得出結果數據，實驗最終以三維檢測結果精度與鳥瞰圖(bird’s eye view，BEV)檢測精度展示。結果見表1、表2，其中APcar為汽車檢測精度，APped為行人檢測精度，APcyc為自行車檢測精度。將VoxelNet、Second、PointPillar和CAT-GCN進行結果對比。

表1 3D檢測結果精度對比/%

表2 BEV檢驗結果精度對比/%

從表1可以看出：GAT-GCN在所有類檢測結果中均取得良好的結果，相對于PointPillars算法，三維模式下，mAP從59.20%增加到62.92%，并且在所有類的對比中GAT-GCN的檢測精度多為最高的，驗證了GAT-GCN模型的有效性。

從表1、表2可以看出CAT-GCN與其它模型的對比中，多種目標的檢測精度都是最高的。CAT-GCN與其它模型的對比中在各種類別的目標檢測中都展示了其優越性。CAT-GCN網絡與其它網絡模型AP的對比如圖5所示。

圖5 檢測精度對比

圖5中X軸為類別檢測難度，Y軸為不同的檢測算法，Z軸為檢測精度。可以看出在所有算法中CAT-GCN的三維與鳥瞰圖所有類的AP大多是最高的，由此可看出在所有算法中CAT-GCN檢測精度結果最為優異。在小目標的檢測中改進網絡CAT-GCN與基準網絡對比如表3所示。

表3 小目標檢測mAP對比/%

結合表1、表2、表3可以看出在CAT-GCN目標的檢測中取得了良好的結果，并相對于基準模型，在3D模式檢測中將mAP由59.2%提高到62.92%，行人的mAP由45.70%提高到50.59%，自行車的mAP由62.59%提高到65.48%。鳥瞰圖模式下mAP由66.19%提高到69.07%，行人的mAP由52.78%提高到56.06%，自行車的mAP由65.79%提高到68.66%。驗證FE層的有效性。網絡與基準網絡PointPillars相比將行人級檢測性能提升4.25%，將自行車級檢測性能提升2.88%。由此看出CAT-GCN能夠提升檢測精度，尤其是在小目標檢測上提升明顯。

表3實驗結果，加入特征增強層后的基準模型，檢測精度得到提升，尤其是小目標檢測，因為特征增強層可以提高網絡捕捉細節特征的能力。

3.2 模型可視化

在KITTI驗證集和測試集的上進行3D目標檢測和BEV目標檢測。其中數據集分為：簡易、中等和困難3個等級。檢測目標分別為：車輛、行人和騎行者。在點云數據中，由于激光雷達本身檢測的局限性，目標在空間離散分布且近密遠疏，導致掃描到的目標點云有所缺失。點云圖中含有太多無效信息，需要有效處理點云拓撲和特征提取，因此加入CAT-GCN的網絡能夠有效處理點云拓撲和有效特征提取。通過級聯形成的FE層，并且FE層能夠所提取的點云特征如圖6所示。

圖6 點云特征

從圖6中可以看出FE層在卷積后能夠減少無用信息，使得網絡對于檢測目標的敏感性增強，能夠提升點云的卷積效率。將測試集中的點云數據放在訓練好的模型中進行檢驗，能夠有較高精度的檢驗結果如圖7所示，有RGB映射的點云鳥瞰圖以及邊框預測結果如圖7所示。

圖7 實驗結果

從圖7中可以看出：檢驗結果中具有精準且定向的三維邊框，對于汽車、行人、自行車的預測結果也比較準確，也沒有明顯的誤檢、錯檢等現象。由于點云數據本身的特性，在模型對行人、自行車進行檢驗時，檢測精度無法與汽車相比。在CAT-GCN嵌入PointPillars后能夠有效且準確地檢驗結果。能夠在點云數據中快速獲取目標的類別、位置。并通過檢驗頭為目標提供3D包圍框，實現對于目標的檢測。

4 結束語

提出的通道圖卷積(CAT-GCN)通過與基準網絡級聯來形成特征增強層，該層負責提取淺層中的詳細幾何信息。該方法利用圖卷積和通道注意機制來保證局部激活，這對于克服分割效應具有重要意義。在KITTI數據集上的實驗結果表明了該方法在三維目標檢測中的優越性。并通過對比各類目標的檢測精度，發現CAT-GCN能夠有效提高檢測精度，將行人級檢測性能提升4.25%，將自行車級檢測性能提升2.88%。但由于圖卷積的一些局限性無法對汽車的檢驗精度實現大幅度提升，也是后續需要改進的地方。