單目3D目標(biāo)檢測中注意圖特征提取網(wǎng)絡(luò)

2022-11-17 03:44:42楊大偉

大連民族大學(xué)學(xué)報 2022年5期

臧倩，楊大偉，毛琳

(大連民族大學(xué) 機(jī)電工程學(xué)院，遼寧大連 116605)

單目3D目標(biāo)檢測技術(shù)多應(yīng)用于自動駕駛、機(jī)器人等領(lǐng)域，可識別目標(biāo)的物體類別，輸出其在三維空間中長寬高和旋轉(zhuǎn)角等參數(shù)[1]。相較于激光雷達(dá)[2-4]檢測技術(shù)，單目3D目標(biāo)檢測領(lǐng)域的目標(biāo)深度特征表達(dá)能力有待提升[5]。單目3D目標(biāo)檢測大多通過3D深度預(yù)測分支實(shí)現(xiàn)對深度特征的提取，如M3D-RPN[6]在進(jìn)行深度估計時，提出3D區(qū)域建議網(wǎng)絡(luò)，通過深度感知卷積[7]感知3D參數(shù)估計，使網(wǎng)絡(luò)學(xué)習(xí)更多的空間級高階特征[8]，網(wǎng)絡(luò)中2D分支和3D分支共享錨點(diǎn)[9]和分類目標(biāo)，使3D分支能夠有效地獲取2D空間中目標(biāo)的位置信息，提高深度預(yù)測準(zhǔn)確性。

為準(zhǔn)確提取目標(biāo)特征，捕獲全局信息，Wang等[10]提出非局部神經(jīng)網(wǎng)絡(luò)(Non-local Neural Networks，NLN)，用于捕獲圖像全局的上下文信息，建立圖像中兩個目標(biāo)之間的像素聯(lián)系，使用非局部計算獲取長時記憶，提高神經(jīng)網(wǎng)絡(luò)的性能。在此基礎(chǔ)上，Zhu等[11]將非局部神經(jīng)網(wǎng)絡(luò)應(yīng)用于語義分割，提出非對稱非局部神經(jīng)網(wǎng)絡(luò)(Asymmetric non-local neural networks，ANN)，此網(wǎng)絡(luò)由兩部分組成，基于長距離依賴關(guān)系，通過融合不同層次的特征，構(gòu)成非對稱融合非局部模塊(Asymmetric Fusion Non-local Block，AFNB)，AFNB將不同層級的特征圖分別作為輸入，融合高頻特征圖和低頻特征圖以獲取豐富的語義信息，較大程度提高了網(wǎng)絡(luò)的性能。將金字塔采樣結(jié)構(gòu)嵌入非局部神經(jīng)模塊，組成非對稱非局部金字塔結(jié)構(gòu)(Asymmetric Pyramid Non-local Block，APNB)，使用金字塔平均池化可以減少計算量提高網(wǎng)絡(luò)的性能，但在對特征進(jìn)行池化操作時，低頻特征被高頻特征覆蓋，造成細(xì)節(jié)特征丟失，不利于下游任務(wù)中對目標(biāo)深度特征的提取。Cao等[12]在特征金字塔中添加注意力機(jī)制，構(gòu)成上下文特征金字塔網(wǎng)絡(luò)(Attention-guided context feature pyramid network，AC-FPN)。網(wǎng)絡(luò)由兩個模塊構(gòu)成：背景提取模塊(Context Extraction Module，CEM)通過提取多路感受野特征獲取背景信息；注意力引導(dǎo)模塊(Attention-guided Module，AM)利用注意力機(jī)制自適應(yīng)地提取顯著目標(biāo)周圍的關(guān)鍵特征。金字塔中多層感受野特征圖采用自上而下的路徑合并，多層特征之間沒有語義聯(lián)系，不利于語義特征的表達(dá)。Luo等[13]提出單目3D單級目標(biāo)檢測網(wǎng)絡(luò)(Monocular 3D Single Stage Object Detector，M3DSSD)，使用非對稱非局部注意塊(Asymmetric Non-local Attention Block，ANAB)提取多尺度特征增強(qiáng)特征學(xué)習(xí)。對于不同分辨率的特征圖，采用多種尺寸感受野提取目標(biāo)特征[14]，利用注意力機(jī)制提取每個分辨率特征圖的關(guān)鍵信息。M3DSSD實(shí)現(xiàn)了對多層特征中顯著信息的利用，使網(wǎng)絡(luò)獲取更精準(zhǔn)的3D空間目標(biāo)位置信息，但由于對多層特征使用注意力機(jī)制，網(wǎng)絡(luò)也存在計算復(fù)雜度偏高的問題。

本文在M3DSSD算法及注意力機(jī)制[15]的啟發(fā)下，針對歷史特征提取不準(zhǔn)確的問題，提出注意圖特征提取網(wǎng)絡(luò)(Attention map feature extraction network，AFENet)。AFENet使用語義卷積得到目標(biāo)特征的注意圖，獲取歷史特征中的全局信息。注意力機(jī)制從更加準(zhǔn)確的注意圖中增強(qiáng)當(dāng)前和歷史中顯著的目標(biāo)特征，提高深度特征提取的準(zhǔn)確性和完整性。

1 AFENet算法

1.1 問題分析

以往解決目標(biāo)深度預(yù)測不準(zhǔn)確問題時，可在特征提取階段采用注意力機(jī)制獲取深度特征。注意圖中的特征不準(zhǔn)確會影響網(wǎng)絡(luò)對3D空間中目標(biāo)位置信息的預(yù)測。在注意圖特征提取網(wǎng)絡(luò)中忽略對歷史特征中的上下文信息捕捉。本文提出采用卷積單元加強(qiáng)網(wǎng)絡(luò)對歷史特征的提取能力，將特征通過注意圖網(wǎng)絡(luò)，提取全局特征信息，捕獲長時記憶關(guān)系。AFENet網(wǎng)絡(luò)邏輯結(jié)構(gòu)圖如圖1。

圖1 AFENet網(wǎng)絡(luò)邏輯結(jié)構(gòu)圖

主干模塊通過卷積和上采樣全連接等操作對輸入圖像進(jìn)行處理；圖像配準(zhǔn)模塊根據(jù)特征圖的尺寸調(diào)整感受野的大小；坐標(biāo)配準(zhǔn)模塊通過將卷積采樣中心集中到目標(biāo)的坐標(biāo)中心，獲得更精準(zhǔn)的3D空間位置信息；注意圖特征提取模塊提取深度特征，生成包含準(zhǔn)確信息的注意圖，完成對目標(biāo)的深度預(yù)測。

定義1：經(jīng)過坐標(biāo)配準(zhǔn)處理的特征輸入注意圖特征提取網(wǎng)絡(luò)，經(jīng)過查詢(query)矩陣和歷史(key)矩陣處理，建立查詢矩陣和歷史矩陣關(guān)聯(lián)，得到二者之間的相似矩陣。相似矩陣計算過程：

(1)

HK∈RL×C；

(2)

HQ∈RN×C。

(3)

式中：HS表示相似矩陣；HQ表示查詢矩陣；HK表示歷史矩陣。通過計算相似矩陣得到查詢特征和歷史特征之間的相似度。

定義2：相似矩陣的輸出維度通過Softmax函數(shù)進(jìn)行歸一化，并將其與值(value)矩陣相乘。歸一化計算過程：

HF=Softmax(HS)×HV；

(4)

HV∈RL×C。

(5)

式中：HV表示值(value)矩陣；HF表示注意圖特征提取網(wǎng)絡(luò)的輸出矩陣。

定義3：HK為歷史矩陣，通過歷史語義矩陣和歷史特征矩陣相乘得到，計算過程：

Hk=HC×HJ；

(6)

HC∈RC×1×1；

(7)

HJ∈RC×1×1。

(8)

式中：HC為語義矩陣；HJ表示特征矩陣。1×1表示卷積核的尺寸，通過HC矩陣提取語義特征，通過HJ提取額外的歷史全局信息。

注意圖特征提取網(wǎng)絡(luò)通過采用歷史矩陣計算豐富的歷史特征，提高歷史特征和查詢特征的相似度。加強(qiáng)查詢特征和歷史特征之間的聯(lián)系，解決深度特征提取不充分的問題，增強(qiáng)網(wǎng)絡(luò)長時記憶能力。

1.2 注意圖特征提取網(wǎng)絡(luò)

在對原始特征進(jìn)行處理時，在保持原特征完整性的基礎(chǔ)上，通過殘差結(jié)構(gòu)加強(qiáng)網(wǎng)絡(luò)對深度特征的提取。采用查詢矩陣和歷史矩陣生成特征注意圖，使用歷史矩陣增強(qiáng)對歷史特征的提取能力，生成的注意圖包含精確的查詢特征和歷史特征。

注意圖特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2。

圖2 注意圖特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖

1.3 AFENet算法

AFENet算法的基本思想是通過主干網(wǎng)絡(luò)DLA-102[16]處理輸入圖像，連接層中采用的卷積均為可變形卷積(Deformable Conv，DCN)[17]，通過變化感受野尺寸，增強(qiáng)特征的表達(dá)能力。采用注意力特征提取網(wǎng)絡(luò)加強(qiáng)對深度信息的預(yù)測。

定義4：輸入圖像到目標(biāo)檢測主干網(wǎng)絡(luò)的特征：

Y=G(X)。

(9)

式中：X表示輸入特征量；G表示DLA-102主干網(wǎng)絡(luò)中可變形卷積和下采樣操作；Y表示主干網(wǎng)絡(luò)輸出的特征圖。通過可變形卷積操作，可以自適應(yīng)改變感受野的大小，增強(qiáng)特征學(xué)習(xí)能力。AFENet網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3。

圖3 AFENet網(wǎng)絡(luò)結(jié)構(gòu)圖

主干DLA-102網(wǎng)絡(luò)對輸入圖像處理；圖像配準(zhǔn)模塊調(diào)整特征圖和感受野的尺寸，實(shí)現(xiàn)特征尺寸對齊；P Conv卷積塊由2D卷積構(gòu)成，計算坐標(biāo)配準(zhǔn)后的特征R2，輸出目標(biāo)在三維空間中的坐標(biāo)信息Xd和Yd；注意力特征提取網(wǎng)絡(luò)從輸入R1特征中提取深度特征，通過卷積單元獲取歷史全局信息；PA2特征金字塔結(jié)構(gòu)[13]包括不同分辨率的多層特征，使用平均池化操作收集多層特征中的關(guān)鍵信息；Sigmoid函數(shù)調(diào)整權(quán)重，對與目標(biāo)相關(guān)的關(guān)鍵特征信息分配更大權(quán)重。

在注意圖特征提取網(wǎng)絡(luò)中，加強(qiáng)歷史特征的額外提取能力，實(shí)現(xiàn)全局信息并建立長時記憶關(guān)系。解決深度特征提取不準(zhǔn)確的問題，提高網(wǎng)絡(luò)在3D空間中對目標(biāo)的定位能力。

2 實(shí)驗(yàn)結(jié)果分析

2.1 實(shí)驗(yàn)設(shè)計

實(shí)驗(yàn)運(yùn)行環(huán)境硬件配置為NVIDIA-GeForce 1080Ti顯卡，Ubuntu16.04軟件系統(tǒng)，使用Pytorch0.4.1作為深度學(xué)習(xí)框架。訓(xùn)練使用KITTI數(shù)據(jù)集[18]，其中包括7 481張帶有標(biāo)簽的訓(xùn)練圖像和7 518張測試圖像，包含汽車、行人和騎行者等目標(biāo)類別。

AFENet算法使用交并比(Intersection over Union，IoU)和平均精確度(3D mean Average Precision，3D mAP)作為評估目標(biāo)檢測精度的指標(biāo)。實(shí)驗(yàn)將汽車類別的IoU閾值設(shè)為0.7，行人和騎行者的IoU閾值設(shè)為0.5，AP丨R11表示召回率設(shè)置為11，與KITTI官方標(biāo)準(zhǔn)設(shè)置相同。mAP越大，表示像素預(yù)測值和真實(shí)值的交集越大，目標(biāo)檢測越精準(zhǔn)。根據(jù)圖像被遮擋的程度以及目標(biāo)尺寸的大小，劃分簡單、中等和困難三個指標(biāo)下的目標(biāo)檢測精度。

在KITTI數(shù)據(jù)集下，將批尺寸設(shè)置為4，初始學(xué)習(xí)率為0.004，使用余弦退火(Cosine annealing)函數(shù)將學(xué)習(xí)率降為4×10-8。訓(xùn)練周期為70，和M3DSSD算法相比，設(shè)置相同的超參數(shù)[13]進(jìn)行訓(xùn)練。訓(xùn)練階段，將圖像的尺寸調(diào)整到384×1 280，使用隨機(jī)平移、水平鏡像翻轉(zhuǎn)和隨機(jī)縮放的常規(guī)圖像處理操作防止過擬合現(xiàn)象的產(chǎn)生。KITTI數(shù)據(jù)集汽車類別測試結(jié)果對比見表1。

表1 KITTI數(shù)據(jù)集汽車類別測試結(jié)果對比 %

在KITTI數(shù)據(jù)集上的結(jié)果表明，AFENet算法在檢測難度為中等和困難情況下，檢測指標(biāo)3D mAP分別高于M3DSSD算法0.8%和0.4%。AFENet算法能夠有效提高檢測精度，尤其在車輛類別檢測效果有提高，可以應(yīng)用于無人駕駛、智能機(jī)器人以及視頻監(jiān)控等領(lǐng)域。KITTI數(shù)據(jù)集行人和騎行者類別測試結(jié)果對比見表2。

表2 KITTI數(shù)據(jù)集行人和騎行者類別測試結(jié)果對比 %

與汽車相比，行人和騎行者在檢測難度上更有挑戰(zhàn)性，因?yàn)轵T行者和行人等目標(biāo)尺寸較小，形狀變化較大。AFENet算法在KITTI數(shù)據(jù)集上對行人和騎行者類別的檢測，相較于M3DSSD算法能夠輸出精確度更高的目標(biāo)檢測。

2.2 實(shí)驗(yàn)結(jié)果分析

為證明歷史語義卷積在特征提取上的有效性，探究語義卷積連接方式是否影響提取歷史全局信息的準(zhǔn)確度問題，測試不同卷積結(jié)構(gòu)對目標(biāo)檢測精度的影響。實(shí)驗(yàn)分為三組，使用不同卷積結(jié)構(gòu)，消融實(shí)驗(yàn)的邏輯結(jié)構(gòu)圖如圖4。

a)網(wǎng)絡(luò)深度影響 b)查詢特征相關(guān)性 c)網(wǎng)絡(luò)寬度影響圖4 消融實(shí)驗(yàn)結(jié)構(gòu)圖

圖4a為探究通過卷積復(fù)用加深網(wǎng)絡(luò)對特征提取性能影響進(jìn)行消融實(shí)驗(yàn)。查詢(query)矩陣和歷史(key)矩陣、鍵(value)矩陣使用相同的卷積連接結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明對查詢特征使用兩層卷積處理的方式，導(dǎo)致查詢特征在計算過程中細(xì)節(jié)信息丟失，不能保持原特征的完整性，進(jìn)而導(dǎo)致查詢特征和歷史特征的相似度下降，網(wǎng)絡(luò)記憶能力下降。圖4b為探究語義卷積對查詢特征和歷史特征在原始性保持上的影響。值語義卷積為歷史特征進(jìn)行加權(quán)，兩者之間存在關(guān)聯(lián)性。因此只為查詢特征減少卷積層數(shù)量，探究語義卷積是否造成部分查詢特征丟失。圖4c為探究在網(wǎng)絡(luò)深度適宜的基礎(chǔ)上，增加網(wǎng)絡(luò)寬度對歷史特征提取是否有效。實(shí)驗(yàn)增加同一卷積層中卷積核的個數(shù)，提取額外歷史全局特征，實(shí)現(xiàn)較好的特征提取效果，對目標(biāo)的分類定位更加有效。

注意圖特征提取網(wǎng)絡(luò)中卷積核的大小不局限于1×1，可擴(kuò)展應(yīng)用不同大小的卷積，該原理依然有效。使用三組不同的卷積連接方式進(jìn)行消融實(shí)驗(yàn)，發(fā)現(xiàn)網(wǎng)絡(luò)的深度和寬度影響深度特征的提取能力，進(jìn)而影響3D空間中目標(biāo)檢測能力。三組消融實(shí)驗(yàn)在KITTI數(shù)據(jù)集上汽車類別下的3D mAP指標(biāo)見表3。

表3 不同卷積連接方式在KITTI數(shù)據(jù)集汽車類別仿真結(jié)果 %

表3中數(shù)據(jù)證明了AFENet網(wǎng)絡(luò)中使用歷史卷積對提取歷史全局信息的有效性。通過使用不同卷積結(jié)構(gòu)處理當(dāng)前特征和歷史特征，有效提高了AFENet算法對歷史特征提取的準(zhǔn)確性，增強(qiáng)查詢特征和歷史特征之間的相似性，網(wǎng)絡(luò)記憶能力提升。

M3DSSD算法和AFENet算法在KITTI數(shù)據(jù)集上的可視化結(jié)果如圖5。在街道實(shí)景中，存在多位行人，目標(biāo)密集、重疊度較高。AFENet算法能夠準(zhǔn)確檢測行人，在目標(biāo)尺寸較小的情況下檢測依然有效，并且對車輛在3D空間中的長寬高位置定位相較于M3DSSD算法更加精準(zhǔn)。

a)M3DSSD檢測結(jié)果 b)AFENet檢測結(jié)果圖5 KITTI數(shù)據(jù)集檢測可視化結(jié)果

AFENet算法在KITTI數(shù)據(jù)集低光照度場景下的目標(biāo)檢測結(jié)果如圖6。在前景目標(biāo)和背景區(qū)域較為模糊的情況下，依然能對車輛中心位置和尺寸方向檢測定位。AFENet算法增強(qiáng)對深度特征中歷史信息的捕獲，提高特征提取的準(zhǔn)確性，對目標(biāo)在3D空間中的坐標(biāo)定位更加精準(zhǔn)，實(shí)現(xiàn)了較好的3D目標(biāo)檢測效果。

圖6 AFENet算法低光照場景檢測結(jié)果

3 結(jié) 語

本文針對M3DSSD目標(biāo)檢測算法深度估計過程中存在的深度特征提取不充分問題，提出注意圖特征提取網(wǎng)絡(luò)，提取更加準(zhǔn)確的深度特征注意圖，加強(qiáng)對歷史全局特征中上下文信息的關(guān)注。與M3DSSD算法相比，AFENet算法改善了深度特征提取不充分的問題，實(shí)現(xiàn)較好的目標(biāo)檢測效果，對3D空間目標(biāo)的檢測分類能力有較大提升，適應(yīng)于無人駕駛以及智能機(jī)器人等應(yīng)用場景。后續(xù)工作中，將進(jìn)一步提高小目標(biāo)和目標(biāo)遮擋等復(fù)雜場景下的目標(biāo)檢測能力。