基于多級特征融合的體素三維目標檢測網絡

2022-08-23 07:53:10張吳冉胡春燕陳澤來李菲菲

包裝工程 2022年15期

張吳冉，胡春燕，陳澤來，李菲菲

基于多級特征融合的體素三維目標檢測網絡

張吳冉a，胡春燕a，陳澤來a，李菲菲b

（上海理工大學 a.光電信息與計算機工程學院 b.醫療器械與食品學院，上海 200093）

為精確分析點云場景中待測目標的位置和類別信息，提出一種基于多級特征融合的體素三維目標檢測網絡。以2階段檢測算法Voxel?RCNN作為基線模型，在檢測一階段，增加稀疏特征殘差密集融合模塊，由淺入深地對逐級特征進行傳播和復用，實現三維特征充分的交互融合。在二維主干模塊中增加殘差輕量化高效通道注意力機制，顯式增強通道特征。提出多級特征及多尺度核自適應融合模塊，自適應地提取各級特征的關系權重，以加權方式實現特征的強融合。在檢測二階段，設計三重特征融合策略，基于曼哈頓距離搜索算法聚合鄰域特征，并嵌入深度融合模塊和CTFFM融合模塊提升格點特征質量。實驗于自動駕駛數據集KITTI中進行模擬測試，相較于基線網絡，在3種難度等級下，一階段檢測模型的行人3D平均精度提升了3.97%，二階段檢測模型的騎行者3D平均精度提升了3.37%。結果證明文中方法能夠顯著提升目標檢測性能，且各模塊具有較好的移植性，可靈活嵌入到體素類三維檢測模型中，帶來相應的效果提升。

三維目標檢測；殘差融合；自適應融合；特征增強；三重特征融合

隨著無人駕駛、室內移動機器人等技術的發展，大量研究人員開始關注三維目標檢測領域?；谌S目標檢測可獲取目標物體類別、位置、三維尺寸及姿態等更加詳細的信息，借助檢測結果可實現對周圍環境的精確感知，保證設備安全運行。

目前，三維目標檢測算法主要分為2類：基于點云表示[1-4]的方法和基于點云和圖像多模態融合[5-7]的方法。其中基于點云表示的方法又可分為體素[8-11]方式（Voxel-Based）和原始點[12-14]方式（Point-Based）。其中體素網絡以較快的推理速度廣受歡迎。此類算法在點云采樣階段采用網格化處理，將離散的點云均勻分割成立體體素。但此種方法在采樣過程中會導致信息丟失，影響目標檢測效果。原始點的方式直接從初始點云數據中提取特征，相較于網格化的方式保留更多目標細粒度信息，但是逐點特征提取帶來高昂的計算代價。基于多模態融合的方法則通過增加圖像數據處理分支，對點云分支進行信息補充，緩解小目標物體漏檢問題，但異構數據融合困難，計算復雜度較高，網絡推理速度較低。文中為平衡網絡精度和實時化性能，選取體素檢測算法Voxel–RCNN[15]作為基線網絡，并在此網絡上進行分析和改進，實現對中小目標檢測效果的提升。Voxel–RCNN網絡第1階段和SECOND[16]結構雷同，主要由3個部分組成：體素特征編碼模塊、三維稀疏特征提取模塊、二維主干網絡。其中，體素特征編碼模塊對輸入點云進行均勻采樣和特征處理，得到體素級特征表示。三維稀疏特征提取模塊對輸入的體素特征進行稀疏化及卷積運算等相關操作，實現對淺層特征的深層抽象。二維主干網絡于二維鳥瞰圖上進行最終檢測，生成三維檢測框。然而，SECOND網絡在稀疏卷積特征提取模塊僅使用簡單的卷積塔結構對特征進行下采樣抽象，忽略了多層特征之間的信息補充。二維主干網絡由下采樣層、上采樣層組成，雖然在上采樣層進行特征堆疊實現特征粗略的融合，但是忽略了多級特征之間的相關性。Voxel–RCNN第2階段的精化模塊僅對最高級的體素稀疏特征進行小范圍特征搜索，忽視了低級特征和多范圍鄰域特征的重要性。為了解決以上不足之處，文中對Voxel–RCNN網絡進行改進，設計基于多級特征融合的體素三維目標檢測網絡。

1 網絡設計

提出的基于多級特征融合的體素三維目標檢測網絡結構見圖1，主要包含4個部分：稀疏特征殘差密集融合模塊、殘差輕量化高效通道注意力機制、多級特征及多尺度核自適應融合模塊和三重特征融合策略。文中主要改進點如下。

1）在三維稀疏特征提取部分設計稀疏特征殘差密集融合模塊（Sparse Feature Residual Dense Fusion Module，SFRDFM）。為了高效地處理三維特征，使用三維稀疏卷積[17]和子流形卷積[18]算法，設計稀疏特征殘差半密集融合層，混合疊加此卷積層形成主干，緩解特征冗余的同時加強逐層特征之間的信息交流補充。

2）在二維主干網絡模塊中，通過降低特征通道數量以降低計算量，同時增加殘差輕量化高效通道注意力機制（Residual Light-Weight Efficient Channel Attention Mechanism，RL-ECA）對損失的通道信息進行補充增強，減少計算量的同時提升了檢測器性能。

3）在二維主干網絡上采樣階段增加了多級特征及多尺度核自適應融合模塊（Module of Multi-Level Feature And Multi-Scale Kernel Adaptive Fusion，MFMKAF），通過編碼多級特征依賴關系，自適應地融合低層空間特征，中層復合特征和高層語義特征，實現多級特征之間的交流融合，進一步提升特征表達能力。

4）在第二階段精化模塊部分，設計三重特征融合策略（Triple Feature Fusion Strategy，TFFS），包含多級特征融合、多范圍分組聚合和多尺度格點采樣策略，組合以上3種策略用于二次搜索聚合體素稀疏特征。并設計2種不同的格點特征融合模塊：深度融合模塊（Deep Fusion Module，DFM）對輸入特征進行多重提取壓縮融合；由細粒度到粗粒度的融合模塊（Coarse to Fine Fusion Module，CTFFM）自適應地融合輸入特征，生成更具區分性的格點特征，進一步精化三維建議框。

圖1 文中提出的三維目標檢測網絡框架圖

圖2 稀疏特征殘差密集融合模塊

接下來使用卷積算法對特征進行深層處理。

1.1 稀疏特征殘差密集融合模塊

在點云體素化過程中有超過90%體素為空值體素，傳統三維稠密[19]卷積會遍歷所有區域，加大計算代價和內存負擔的同時，還會導致稠密數據失真。為了進一步的提升體素特征提取算法的實時性，Graham等[17]提出稀疏卷積（SC）和子流形卷積算法[18]（SSC）替換稠密卷積，保證稀疏算法僅在稀疏化數據上運行，核心思想是通過輸入數據的稀疏性限制輸出數據的稀疏性，降低三維卷積操作的計算量和內存占用。為緩解稀疏卷積（SC）隨著網絡深度的擴展出現稀疏性弱化的問題，增加子流形卷積（SSC）算法處理數據，此算法僅對輸入的非空值區域進行相應運算，且只對非空值區域賦值，最大程度保持數據稀疏性。對于深層特征提取網絡而言，多層特征圖包含多尺度詳細信息，這些信息對于場景中目標的檢測是非常有用的。Voxel-RCNN的三維骨架是經典的由淺入深式稀疏卷積下采樣結構，考慮到此結構忽視了各層特征之間的信息交流，損失大量的細粒度信息。為緩解以上問題，文中在此基礎上設計了稀疏特征殘差密集融合模塊（Sparse Feature Residual Dense Fusion Module，SFRDFM），模塊結構見圖2。由于子流形卷積（SSC）對有值位置作強制限制導致一定程度的信息丟失，稀疏卷積（SC）帶來位置信息失真的缺點，文中采用稀疏卷積和子流形卷積混用的結構平衡兩種算法帶來的問題。首先疊加5層子流形卷積對輸入的稀疏體素數據進行特征處理，再疊加一層稀疏卷積（SC）和4層子流形卷積（SSC）繼續提取特征。密集融合前3層和后3層稀疏特征，這里稱為稀疏特征殘差半密集融塊（Sparse feature Residual Semi-Dense fusion Block，SRSDFB），以半數融合5層特征方式，防止過多特征疊加冗余，影響檢測效果。區別于文獻[20]通道堆疊（Concatenation）方式，模塊使用逐元素相加進行融合，達到穩定網絡訓練、降低計算代價、復用淺層特征的作用。通過使用步長為2的稀疏卷積和ReLU激活函數進行特征下采樣，得到3組不同尺度的稀疏特征，起到特征由低到高的抽象、增大感受野和降低特征維度的作用。理論上可以對SRSDFB疊加更多子流形卷積層設計更深的特征提取模塊，但考慮到推理時間的消耗和參數復雜度提升，僅使用5層疊加形式。

1.2 二維特征自適應融合模塊

如果在三維特征圖上生成錨框（Anchor）將出現數量過多的空三維框，導致計算資源的負擔和正負錨框不平衡的問題。而在自動駕駛場景中，目標物體基本處于地面上，目標空間位置相對固定，位于軸的高度信息變化較小，為了進一步降低計算復雜度，將三維特征圖沿著軸方向向下投影得到二維鳥瞰特征圖表示，再基于鳥瞰圖進行三維框的估計。文中二維主干網絡模塊見圖3，此模塊在基線網絡的基礎上進行改進，在初始的2層卷積塔結構上增加第3層卷積塊，并增加殘差輕量化高效通道注意力機制和多級特征及多尺度核自適應融合模塊。

1.2.1 二維卷積塔模塊

本模塊由常規的特征下采樣和上采樣結構組成，模塊架構圖如圖3中左框圖所示。文中在基線網絡Voxel-RCNN的第1階段卷積下采樣模塊增加一組卷積塊得到3層卷積塔結構，加深網絡特征提取能力和尺度變化，此3組卷積塊均是常規的5層二維卷積堆疊組成，用作提取鳥瞰圖的語義信息。文中將自上而下的3組卷積塊命名為卷積塊_0，卷積塊_1，卷積塊_2。將卷積塊_0的步長設置為1，輸出通道數為64，卷積塊_1和卷積塊_2的步長設置為2，輸出通道遞增為128和256，此操作對特征進行提取抽象的同時起到縮減特征尺度和增大感受野的功能。

其中卷積塊_0可以保留更細節的目標位置信息，卷積塊_1可提取到相對細節的位置信息和語義信息，卷積塊_2提取得到更加抽象的語義信息。上采樣結構則使用轉置卷積操作對下采樣模塊中輸出的不同尺度的特征圖進行尺度恢復，并且固定3組特征通道數為128，相比于原網絡，此操作加深卷積層的同時降低了通道數量，雖然損失了一些有效信息，但是增加了小尺度的特征計算，能夠提升大目標的檢測性能，而且通過壓縮特征通道數量去降低計算代價，維持計算量的平衡。

1.2.2 殘差輕量化高效通道注意力機制

由于在上采樣階段減少了特征通道數量，雖然降低了計算復雜度，但是會損失一些有效信息導致特征質量降低，為緩解此問題，在該模塊中增加殘差輕量化高效通道注意力機制（Residual Light-weight Efficient Channel Attention Mechanism，RL-ECA）對以上3組特征的通道信息進行特征增強。該模塊的網絡架構見圖4。沿用文獻[21]的網絡框架，此文獻中注意力模塊首重輕量化及高效性，通過使用一維卷積實現跨通道的信息交互來降低計算復雜度。區別于其他注意力模塊在特征提取階段的維度壓縮操作，此模塊通過保持通道數量恒定的方式，保留更多通道信息。文中在此基礎上進行簡單修改，移除自適應卷積核提取函數，固定一維卷積提取核的尺寸為3，增加殘差融合操作對輸出特征進行有效補償，詳細過程見式（2）。

圖3 多級特征及多尺度核自適應融合模塊

式中：為輸入特征；為全局平均池化；為sigmoid函數。

1.2.3 多級特征及多尺度核自適應融合模塊

在卷積塔結構中獲取了3種不同級別的特征，分別是低層空間特征、中層復合特征和高層語義特征?；€網絡中作者僅對多級特征進行簡單的堆疊融合（這里稱為弱融合操作），沒有充分利用不同級別特征的依賴關系。考慮到多級特征對于目標精確定位和分類的重要性[22-23]，文中設計了多級特征及多尺度核自適應融合模塊（Module of Multi-Level Feature And Multi-Scale Kernel Adaptive Fusion，MFMKAF）對3種級別的特征進行深層的融合。此模塊的網絡框架如圖3右半部分a、b、c 3個框圖所示。首先使用多尺度的卷積核將3組特征圖壓縮成1維通道，對其空間信息進行自適應的特征提取。如模塊a所示，使用1×1尺寸卷積核對多級特征分別處理，然后在通道維度上對3組1維的權重圖進行堆疊拼接（Concatenation），并使用Softmax函數歸一化建立三組特征之間的關聯性得到空間權重，詳細過程見式（3）。

式中：表示堆疊融合（Concatenation）；表示Softmax函數；表示卷積算子。

將3組權重和相應的輸入特征逐元素相乘后逐通道堆疊融合（Concatenation），再增加殘差融合塊（Residual Fusion Block，RFB）將輸入特征以加和的方式融合到新特征上，從而實現多級特征自適應的強融合，詳細過程見式（4）。

模塊b整體流程似模塊a，詳細過程見式（5）。

二者區別在于不同尺度的核操作，模塊a采用1×1核，能夠提取更詳細的小目標位置信息，模塊b采用3×3核，能夠提取較大目標位置信息，交替使用模塊a、b能夠讓網絡擬合不同的任務要求。模塊c則是將模塊a、b輸出的特征進一步的相加融合，從而得到更具表達能力的新特征，詳細過程見式（6）。

1.3 三重特征融合策略

體素化三維檢測網絡分為單階段和兩階段三維檢測器[24]，兩者主要區別在于兩階段算法增加了區域建議模塊（RPN）和精化模塊。其中，精化模塊的主要作用是對區域建議模塊得到的三維建議框進一步的細化處理，一定程度上增加了計算量，但對精度提升較大。

一階段檢測器將特征處理成二維鳥瞰特征表達，降低了計算代價，但忽略了三維空間結構信息。Voxel–RCNN通過增加二階段精化模塊，對具有完整三維結構的體素稀疏特征進行相關操作，恢復特征的三維結構上下文信息。首先基于RPN網絡對鳥瞰特征進行處理，生成大量三維建議框（3D Region Proposals）。然后將三維框進行網格分割，將分割格點作為關鍵點保存并映射回稀疏體素特征空間，基于關鍵點對鄰域內的體素特征進行二次采集，獲取的格點特征用于進一步精化三維框。

1.3.1 多級特征融合

對于稀疏的點云場景而言，低級特征具備更多的細粒度信息，為進一步獲取信息量豐富的格點特征，Voxel–RCNN采用多級特征融合策略。具體結構見圖5中的模塊a。通過對各個級別的稀疏體素特征進行曼哈頓距離搜索，將采集的L2、L3和L4級體素特征進行堆疊（Concatenate）融合，然后進行三維候選框的進一步精化。

1.3.2 多范圍分組聚合

對于場景檢測任務而言，目標局部鄰域的范圍大小選取尤為重要，搜索范圍越小，能采集到的有效信息越少，相反，搜索范圍越大，能采集的信息越多，但過大范圍會引入更多的背景噪聲，影響檢測性能。文中對曼哈頓距離搜索算法設置2種大小不同的度量距離，分別為和2，同時作用于特征空間進行信息采集，獲取基于格點的多范圍鄰域特征，最后將兩種范圍內的鄰域特征進行堆疊（Concatenate）融合。詳細結構見圖5中的模塊b。

1.3.3 多尺度格點采樣

圖5 三重特征融合策略

圖6 格點特征融合模塊

1.4 損失函數

為優化網絡，文中使用和文獻[4]相同的錨框設置和損失函數，對于每個錨框（Anchors），使用7維向量表示框的位置，1維向量表示類別信息。本網絡需要預測汽車、行人、騎行者三種類別，不同類別需要匹配不同的IOU閾值來篩選正負錨框，分別計算出3種類別的錨框和真實框的交并比。對于汽車而言，如果交并比大于0.6則被認為是正錨框，小于0.45則被認為是負錨框，其他錨框不做訓練使用，行人和騎行者的設定閾值為[0.35, 0.5]。

文中損失函數設置主要分為2個部分。

第1部分為RPN損失函數，詳細見式（7）。

第2部分為檢測頭損失，詳細見式（8）。

2 實驗結果與分析

2.1 實驗配置

文中網絡使用的服務器硬件配置為：Linux64位操作系統：Ubuntu 18.04，英偉達RTX 3080 10 GB顯卡。

環境配置為：Pytorch1.8.0、python3.7.2、CUDA11.3、CUDNN11.3。

網絡參數設置：將點云數據進行范圍切割，范圍為[0, 70.4]，[?40, 40]，[?3, 1]（單位：米），對切割好的點云數據進行體素化，其中單個體素的分辨率為[0.05, 0.05, 0.1]。設置3種類別的錨框（Anchors）尺寸：汽車為[1.9, 3.6, 1.56]、行人為[0.6, 0.8, 1.73]、騎行者為[0.6, 1.76, 1.73]，計算錨框和真實框的交并比（IOU）并根據設定閾值篩選正負錨框。在訓練時使用初始學習率為0.003的Adam[29]優化器，優化動量參數為0.9，該實驗在單個GPU上訓練，batch_size設置為2，一共訓練80個epochs。

2.2 數據集和數據評估

實驗使用KITTI[30]數據集，使用不同的傳感器對市區、鄉村、高速公路等主要場景進行數據采集，其中三維點云數據由64線激光雷達掃描獲得，根據數據場景中目標遮擋程度，目標尺寸，截斷程度等因素，將目標難易度劃分為3個等級：簡單、中等、困難。根據訓練和測試要求劃分，獲取7 481個樣本的訓練集和7518個樣本的測試集，再將訓練集被進一步的劃分為3 712個訓練樣本和3 769個驗證樣本。參考文獻[11,16]的測試和驗證標準，文中對目標中汽車（Car）、行人（Pedestrians）、騎行者（Cyclist）3種主要類別進行評估。

為驗證文中算法性能，實驗結果將和當前的主流網絡進行對比。使用平均精度（Average Precision）作為評估指標，設置汽車（Car）交并比的閾值為0.7，行人（Pedestrians）和騎行者（Cyclist）閾值為0.5，并對簡單、中等、困難等級的目標分別進行驗證。

2.3 主流網絡對比實驗

該小結將網絡驗證結果和當前的主流三維目標檢測網絡結果進行比較，表1、表2分別展示了汽車（Car）、騎行者（Cyclist）、行人（Pedestrian）在3D和鳥瞰圖指標下的檢測精度。并且對簡單（Easy）、中等（Moderate）、困難（Hard）3個等級的目標分別進行評估。

實驗結果如上圖表1和表2所示，其中*表示基線網絡（baseline），由表1和表2結果可知，增加了SFRDFM、RL–ECA和MKMKAF的一階段網絡和SECOND網絡比較，在3D指標下行人類別的3種難度等級檢測精度分別提升了6.37%、3.26%和2.28%，在鳥瞰圖指標下分別提升了5.02%、2.84%和2.22%，并且在汽車和騎行者兩種中大型目標類別均有小幅提升。

在一階段結構基礎上增加TFFS和CTFFM的二階段網絡和Voxel-RCNN比較，在3D指標下騎行者類別的3種難度等級檢測精度分別提升了3.2%、3.92%和3%，在鳥瞰圖指標下提升了1.81%、3.07%和2.99%，并且在汽車和騎行者均有不同程度的提升和下降。由此可證明提出的方法能夠有效提升檢測器性能。

表1 KITTI數據集中不同類別在3D指標下和主流網絡結果對比

Tab.1 Comparison of the results of pedestrians, cars and cyclists in the KITTI data set with the mainstream network under 3D indicators

注：L+C表示激光雷達和相機多模態融合方法；*表示基線網絡；加粗數字表示最優效果。

表2 KITTI數據集中不同類別在鳥瞰圖指標下和主流網絡結果對比

Tab.2 Comparison of the results of pedestrian, car and cyclist in KITTI data set with the mainstream network under aerial view indicators

注：L+C表示激光雷達和相機多模態融合方法；*表示基線網絡；加粗數字表示最優效果。

2.4 消融實驗

此章節對上文一階段的三組模塊和二階段的2組模塊分別進行組合實驗。

一階段：表3中，組合1、2和3可知，SFRDFM模塊、RL–ECA模塊和MFMKAF單模塊均提升了3種類別目標的檢測效果，證明了3種模塊的有效性。組合4使用2種模塊，中等難度下，行人類別目標檢測精度有較高上升，其他類別有所下降。組合5、6和7是3種模塊的組合實驗，從組合7的實驗結果來看，小尺度核的模塊a能夠顯著提升行人類的小目標效果，由組合6的實驗結果可知，中尺度核的模塊b能夠提升騎行者此類中型目標檢測效果，組合5實驗結果可知融合模塊c能夠提升目標檢測綜合性能，但單一類別檢測性能方面有所降低。綜合以上實驗證明改進網絡能夠更好地學習小目標的特征信息，并且靈活的模塊搭配能夠應對更多的任務要求。

二階段：表4中，組合1和組合2表示三重融合策略中第3個多尺度格點采樣策略的分解實驗，格點尺度分別為3和6的二階段網絡檢測結果，尺度為3時，行人效果較好，尺度為6時，汽車和騎行者效果提升顯著。組合3是融合2種尺度格點特征的檢測結果，相較組合1和組合2，3種目標類別精度均有提升。組合4表示在三重融合策略基礎上增加了深度融合模塊（DFM），結果表明此模塊能較高提升騎行者指標。組合5在三重特征融合策略基礎上增加了CTFFM模塊，相較于深度融合模塊，此模塊能夠進一步提升騎行者指標，且在汽車類別也有小幅提升。

表3 SFRDFM、RL–ECA和MFMKAF 3組模塊組合對比實驗（一階段）

Tab.3 Comparison experiment of three sets of module combination of SFRDFM, RL-ECA and MFMKAF (the first stage)

表4 TFFS和GFFM 2組模塊組合對比實驗（二階段）

Tab.4 Comparison experiment of two sets of module combination of TFFS and GFFM (the second stage)

2.5 點云結果可視化

對改進網絡的檢測結果進行可視化，一共處理了6組場景，每組場景分別由原始圖像、基線網絡和文中網絡（一階段）和（二階段）可視化結果4張圖像組成。

可視化圖見圖7。從圖7a的點云可視化實例分析可知，文中檢測網絡均可很好的學習到汽車類別信息，并有效提升了汽車精度。圖7b—e場景中，基線網絡出現大量的誤檢結果，如圖7中矩形框所示，將雜物識別成汽車行人等類別，而文中檢測網絡誤檢結果逐漸變少。圖7f場景下，文中網絡能夠很好的檢測行人目標，且遮擋問題情況下，依然能夠正確分類汽車目標，而基線網絡錯把汽車識別成行人。以上可視化結果可直觀表明文中算法的有效性。

3 結語

文中以體素兩階段網絡為基礎，于一階段框架中增加稀疏特征密集融合模塊，對稀疏特征逐層進行半密集融合，加強淺層小目標特征復用的同時減少特征冗余。使用輕量化殘差高效通道注意力機制穩定計算量的同時對通道特征進行增強。提出多級特征及多尺度核自適應融合模塊，以不同尺度的卷積核自適應編碼多級特征之間的依賴關系，設置3種不同的融合模塊以適應不同的任務要求。在2階段，設計了三重特征融合策略，對三維體素稀疏特征空間進行密集的鄰域信息搜索聚合，并提出深度融合模塊（DFM），使用3組雙層卷積塊對格點特征進行多層次的深度特征抽象融合。另外，還設計CTFFM模塊分析2組格點特征的依賴關系，有區分性地融合2組特征以提升特征表達能力，從而進一步提升了檢測框的輸出質量。

[1] MEYER G P, LADDHA A, KEE E, et al. LaserNet: An Efficient Probabilistic 3d Object Detector for Autonomous Driving[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 12677-12686.

[2] QI C R, SU H, MO K, et al. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 652-660.

[3] QI C R, YI L, SU H, et al. PointNet++: Deep Hierarchical Feature Learning on Point Sets in A Metric Space[J]. Advances in neural information processing systems, 2017: 30-39.

[4] BELTRáN J, GUINDEL C, MORENO F M, et al. BirdNet: A 3d Object Detection Framework from Lidar Information[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 3517-3523.

[5] Ku J, Mozifian M, Lee J, et al. Joint 3D Proposal Generation and Object Detection from View Aggregation[C]// Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2018: 1-8.

[6] Liang M, Yang B, Chen Y, et al. Multi-task and Multi-sensor Fusion for 3D Object Detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 7345-7353.

[7] Paigwar A, Erkent O, Wolf C, et al. Attentional PointNet for 3D Object Detection in Point Clouds[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2019: 1357-1369.

[8] Yan Y, Mao Y, Li B. SECOND: Sparsely Embedded Convolutional Detection[J]. Sensors, 2018, 1: 3337-3344.

[9] Shi W, Rajkumar R. Point-GNN: Graph Neural Network for 3D Object Detection in A Point Cloud[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 1711-1719.

[10] Zhou Y, Tuzel O. Voxelnet: End-to-end Learning for Point Cloud Based 3D Object Detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4490-4499.

[11] Lang A H, Vora S, Caesar H, et al. PointPillars: Fast Encoders for Object Detection from Point Clouds[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 12697-12705.

[12] Liu Z, Zhao X, Huang T, et al. TANet: Robust 3D Object Detection from Point Clouds with Triple Attention[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 11677-11684.

[13] Deng J, Shi S, Li P, et al. Voxel-RCNN: Towards High Performance Voxel-Based 3D Object Detection[C]// Proceedings of the AAAI Conference on Artificial Intelligence, 2021: 1201-1209.

[14] Shi S, Wang X, Li H. PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 770-779.

[15] 李文舉, 儲王慧, 崔柳,等. 結合圖采樣和圖注意力的3D目標檢測方法[J/OL]. 計算機工程與應用, 2022: 1-9. http://kns.cnki.net/kcms/detail/11.2127.TP.20220422. 1214.006.html

LI Wen-ju, CHU Wang-hui, CUI Liu, et al. 3D Object Detection Method Combining on Graph Sampling and Graph Attention[J/OL]. Computer Engineering and Applications, 2022: 1-9. http://kns.cnki.net/ kcms/detail/11. 2127.TP.20220422.1214.006.html.

[16] Ding Z, Han X, Niethammer M. Votenet: A Deep Learning Label Fusion Method for Multi-Atlas Segmentation[C]// Proceedings of the International Conference on Medical Image Computing and Computer-Assisted Intervention, 2019: 202-210.

[17] Graham B. Sparse 3D Convolutional Neural Networks[C]// Proceedings of the British Machine Vision Conference, 2015: 356-368.

[18] Graham B, Engelcke M, Van Der Maaten L. 3D Semantic Segmentation with Submanifold Sparse Convolutional Networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 9224-9232.

[19] Yan C, Salman E. Mono3D: Open Source Cell Library For Monolithic 3D Integrated Circuits[J]. IEEE Transactions on Circuits and Systems I, 2017, 65(3): 1075-1085.

[20] Huang G, Liu Z, Van Der Maaten L, et al. Densely Connected Convolutional Networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 4700-4708.

[21] Wang Q, Wu B, Zhu P, et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 11534-11542.

[22] Yoo J H, Kim Y, Kim J, et al. 3D-CVF: Generating Joint Camera and Lidar Features Using Cross-View Spatial Feature Fusion for 3D Object Detection[C]// Proceedings of 16th European Conference on Computer Vision (ECCV), 2020: 720-736.

[23] Zheng W, Tang W, Chen S, et al. CIA-SSD: Confident IoU-aware Single-Stage Object Detector from Point Cloud [C]//Proceedings of the AAAI conference on artificial intelligence. 2021, 35(4): 3555-3562.

[24] Shi S, Guo C, Jiang L, et al. PV-RCNN: Point-voxel Feature Set Abstraction for 3D Object Detection[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 10529-10538.

[25] Chen X, Ma H, Wan J, et al. Multi-View 3D Object Detection Network for Autonomous Driving[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 1907-1915.

[26] Qi C R, Liu W, Wu C, et al. Frustum Pointnets for 3D Object Detection from RGB-D Data[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 918-927.

[27] Liang M, Yang B, Wang S, et al. Deep Continuous Fusion for Multi-sensor 3D Object Detection[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 641-656.

[28] Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]// Proceedings of the IEEE International Conference on Computer Vision, 2017: 2980-2988.

[29] Kingma D P, Ba J. Adam: A Method for Stochastic Optimization[J]. International Conference for Learning Representations, 2014, 21(12): 6980-6995.

[30] Geiger A, Lenz P, Stiller C, et al. Vision Meets Robotics: The KITTI Dataset[J]. The International Journal of Robotics Research, 2013, 32(11): 1231-1237.

Voxel-based 3D Object Detection Network Based on Multi-level Feature Fusion

ZHANG Wu-rana, HU Chun-yana,CHEN Ze-laia,LI Fei-feib

(a. School of Optical-electrical and Computer Engineering b. School of Medical Instrument and Food Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China)

The work aims to accurately analyze the location and classification information of the object to be tested in the point cloud scene, and propose a voxel-based 3D object detection network based on multi-level feature fusion. The two-stage Voxel-RCNN was used as the baseline network. In the first stage, the Sparse Feature Residual Dense Fusion Module (SFRDFM) was added to propagate and reuse the level-by-level features from shallow to deep, to achieve full interactive fusion of 3D features. The Residual Light-weight and Efficient Channel Attention (RL-ECA) mechanism was added to the 2D backbone network to explicitly enhance channel feature representation. A multi-level feature and multi-scale kernel adaptive fusion module was proposed to adaptively extract the weight information of the multi-level features, to achieve a strong fusion with a weighted manner. In the second stage, a Triple Feature Fusion Strategy (TFFS) was designed to aggregate neighborhood features based on the Manhattan distance search algorithm, and a Deep Fusion Module (DFM) and a Coarse to Fine Fusion Module (CTFFM) were embedded to improve the quality of grid features. The algorithm in this paper was tested in the autonomous driving data set KITTI. Compared with the baseline network at three difficulty levels, the average 3D accuracy of pedestrians in the first stage detection model was improved by 3.97%, and the average 3D accuracy of cyclists in the second stage detection model was improved by 3.37%. The experimental results prove that the proposed method can effectively improve the performance of object detection, each module has superior portability, and can be flexibly embedded into the voxel-based 3D detection model to bring corresponding improvements.

3D object detection; residual fusion; adaptive fusion; feature enhancement; triple feature fusion

TP311

1001-3563(2022)15-0042-12

10.19554/j.cnki.1001-3563.2022.15.005

2022–05–16

上海市高校特聘教授（東方學者）崗位計劃（ES2015XX）

張吳冉（1995—），男，上海理工大學碩士生，主攻計算機視覺與目標檢測。

胡春燕（1976—），女，碩士，上海理工大學講師，主要研究方向為圖像處理與模式識別、計算機視覺等。

責任編輯：曾鈺嬋