迭代偽點云生成的3D目標檢測

2025-08-03 00:00:00孫立輝王楚遙

計算機應用研究 2025年6期

3D object detection based on iterative pseudo point cloud generation

Sun Lihui?，Wang Chuyao （SchoolofManagementScienceamp;IforationEnginering，HebeiUniersityfconomicsamp;Businss，ijzangO5OChina）

Abstract：3Dobject detection iscrucial forautonomous driving.However，incomplex scenarios，LiDAR oftenstruggles to capture complete point-clouddatadue todistance andocclusion，afectingdetection accuracy.To addressthis，the paperpro poseda3Dobject detectionmethodbasedoniterativepseudo-point-cloudgeneration（IG-RCNN）.Firstly，itintroduceda channel sparsepartialconvolution（CSPConv）module inthe3Dvoxel backbone toreduce channel redundancyand fuse semanticinformationfrom diferentreceptivefields，enhancing feature fusion.Secondly，iterativerefinementgeneratedhighqualitypseudo-pointclouds，providing efectiveguidanceforthesuggestionboxandimprovingdetectionacuracy.Experiments on the KITTI dataset show that the algorithm outperforms PV-RCNN，with a 3.89% and 2. 73% accuracy improvement for pedestrians andcyclists，respectively，under harddificulty.Thisdemonstrates thealgorithm’ssuperiorityinprocesingsparse point clouddata，especiallyindetectingsmallojects likepedestrians and cyists，shows strongerrobustnessandaccuracy

Key words：autonomous driving；driver asistance system；3D object detection；pseudo-point cloud generation

0 引言

近年來隨著自動駕駛技術的快速發展，人們對車輛感知和理解周圍環境的要求不斷提高，3D目標檢測技術受到了極大的關注。

使用激光雷達點云進行3D目標檢測的算法按照對輸入點云處理方式的不同，通常分為基于點的算法和基于體素網格的算法。基于點的算法直接將原始3D點云作為神經網絡的輸入，通過一系列的處理后為場景中的前景物體生成邊界框預測[1＼～4]。這類算法能夠直接利用點云的原始幾何信息，但是計算成本高、效率較低。基于體素網格的算法首先對輸人點云進行預處理，將點云量化為3D網格結構，然后采用與2D目標檢測類似的操作來生成邊界框預測[5-7]。這類算法速度快，但是由于點云的體素化會導致大量信息的丟失，普遍精度較低。

此外，根據算法框架的不同，3D目標檢測算法還可以進一步分為單階段和兩階段方法。單階段方法直接從輸入點云預測邊界框，這種方法效率高但是精度較低。兩階段方法首先使用區域建議網絡生成候選框，然后對這些候選框進行分類和回歸，以處理不同尺度的物體。這種方法通常能夠實現較高的檢測精度。為了進一步提高檢測精度，研究人員已經探索了多種方法來提取感興趣區域（RoI）的特征，以便對候選框進行更可靠的細化來提高檢測精度[8.9]。

最近，一些基于體素的兩階段檢測器開始嘗試在細化階段重新利用感興趣區域內點的原始特征來提高檢測精度[10＼～-12]這些方案使用點云和體素相結合的方法，在區域建議框的生成階段使用體素表示來提高效率，在建議框的細化階段轉換回基于點的處理方式，使用原始點云的幾何細節，提高精度。這類混合方案顯著地提高了檢測精度。

然而，由于激光雷達點云固有的稀疏性和極易被遮擋的特點，某些建議框內的原始點云數量可能較為稀少或者出現截斷，這些建議框內的原始點云無法提取出有效的特征來為后續的細化階段提供有效的參考。為了解決這個問題，研究人員提出了不同的方法來豐富點云特征，包括使用多幀點云[13.14]、引入多模態數據[15.16]等。但是這些方法需要進行數據的時序對齊或者多傳感器之間的視圖對齊，應用難度較大。最近，研究者開始嘗試通過點云補全的方法來豐富感興趣區域中點云信息，輔助建議框的細化。這些方法包括預訓練一個點云補全網絡來增加點云數量[17.18]，在網絡中集成一個點生成模塊來豐富點云信息[19等。然而這些方法較難保證生成點云的質量，生成的點云信息可能難以為后續建議框的細化提供有效的指導。

在生成式模型領域的研究表明，采用多次迭代生成的方式，每次只保留高可信度的數據，屏蔽低可信度的數據，并在下一次迭代中重新預測，直到通過多次迭代細化完成所有數據的生成，這種方法可以有效提升生成數據的質量[20.21]。受此啟發，提出基于迭代偽點云生成的3D目標檢測網絡（IG-RCNN），一種端到端的兩階段3D目標檢測方法。

本文還發現，傳統的3D卷積神經網絡架構往往通過在特征提取階段大量增加通道數的方式來提高網絡的擬合能力。但是最近研究表明，這種運算方式極易造成通道的冗余，增加了大量的計算量，提升效果卻非常有限[22]。基于此，在區域建議階段，本文優化了傳統的3D區域提議網絡主干，設計了一個CSPConv模塊，以此來構建新的3D骨干網絡，并且在網絡中大量應用殘差連接機制。新設計的骨干網絡擁有更強的特征抽取能力，能夠提高整體的3D目標檢測準確度。在候選框細化階段，本文利用多尺度特征圖，通過多次迭代生成具有高可信度的偽點云信息，為候選框的細化提供有效的指導，提高3D目標檢測的精度。

本文的貢獻可以總結如下：a）提出了一種新的3D目標檢測方法，利用多尺度特征圖，多次迭代生成偽點云信息，并且引入動態損失權重機制，確保生成的偽點云信息的質量隨著迭代的進行逐步提高，使其能夠有效指導候選框的細化，提高3D目標檢測的精度。b）在3D體素主干網絡中采用了一種新的卷積模塊CSPConv。該模塊在減少通道冗余的同時，能夠融合不同感受野的語義信息，增強模型的特征抽取能力。c）通過實驗論證了所提方法的有效性，KITTI數據集上的實驗結果表明，本文方法對比其他只使用點云的方法取得了較大改進，特別是對那些小目標、遠距離目標和遮擋嚴重的目標，能夠取得良好的檢測效果。

1方法

在基于點云的兩階段3D目標檢測方法中，現有研究對建議框細化的改進主要集中在優化3D體素骨干網絡中卷積層提取的多尺度特征。然而，當目標距離較遠或存在遮擋時，傳統算法雖然能夠從多尺度特征中獲取到目標的部分幾何信息，卻難以捕捉到精確的幾何細節。因此，這類目標的建議框細化效果往往不佳，特別是在行人和騎行者的檢測任務中，這一問題尤為顯著，導致當前算法在這些目標檢測任務中的精度普遍偏低。

針對這一問題，本文提出了一種基于迭代偽點云生成的3D目標檢測方法，其核心在于設計一個專注于偽點云生成的模塊，通過多輪迭代生成高質量的偽點云，增加目標區域內的點云密度，彌補因稀疏或截斷導致的點云信息缺失，提高建議框的細化精度。此外，本文還設計了CSPConv模塊來減少3D骨干網絡中的通道冗余，進一步提升特征提取效率。

圖1展示了生成的偽點云和原始點云的對比，可以看到，本文方法可以為點云稀疏的目標和點云被截斷的目標生成高質量的偽點云特征。

圖1原始點云與生成的密集偽點云對比 Fig.1Comparison betweenthe original point cloud and the generated dense pseudo point cloud

本文的整體網絡設計如圖2所示，與大多數兩階段3D目標檢測網絡架構一樣，分為區域提議和建議框細化兩個階段。在區域提議階段，將原始點云輸人轉換為固定大小的體素單元，隨后使用體素網絡主干提取特征，并生成初步的區域提議。在建議框細化階段，回歸到點云，使用3D主干網絡的多尺度特征生成偽點云，并通過多次迭代的方式更精確地捕捉目標的幾何和語義信息，提高偽點云的質量。最后，將這些高質量的偽點云輸入檢測頭得到細化后的最終檢測結果。

1.1 區域提議網絡

本文使用帶有CSPConv的網絡主干作為區域提議網絡來產生建議框和多尺度特征圖，其架構如圖3所示。

首先，將輸入的原始點云數據劃分為均勻分布的體素單元，然后將這些體素單元通過一系列具有CSPConv模塊的3D主干網絡進行處理，獲得多尺度的特征圖。CSPConv模塊架構如圖4所示。對于輸人大小為 H×W×C 的原始特征圖，沿通道維度將其拆分成大小為 H×W×C/2 的兩個子特征圖，分別使用3×3 和 5×5 的卷積核對兩個子特征圖進行特征提取，獲取不同感受野的信息。然后，將這兩份子特征圖沿通道維度拼接后進行 1×1 卷積操作，并與輸入進行殘差連接。與傳統卷積相比，CSPConv能夠從通道維度提取和融合高階特征圖和低階征圖的不同語義信息，在減少通道冗余的同時提高模型的特征提取能力。

在得到3D主干網絡輸出的多尺度特征圖后，將其沿著 z 軸投影轉換成鳥瞰圖（BEV）。在建議階段，利用分類預測分支和回歸預測分支對BEV特征圖進行密集預測，為后續的細化階段生成初步的檢測結果。

1.2偽點云生成及檢測

在第二階段，根據區域提議網絡產生的建議框，從多尺度特征圖中匯聚信息進行高質量的偽點云生成，并將生成的偽點云輸入檢測頭產生邊界框預測。

首先，根據區域提議階段產生的建議框從鳥瞰圖中切取相應的多尺度特征圖，并以建議框為單位將其中的多尺度特征均勻劃分為體積更小的亞體素。然后，把每個亞體素的中心點作為該體素單元的代表點，將每個代表點所在體素單元的特征信息匯聚到該代表點上。最后，使用 PointNet++ 網絡匯聚該點鄰域內距離最近 N 個點的特征形成新的合成特征。

F_Cj=PointNet++（C_j，{f_Ck∣C_k∈neighborhood（C_j，N）}）

其中： C_j?C_k 表示亞體素的中心點 σ;f_ck 表示以 K 為中心點的亞體素特征; F_Cj 表示使用 PointNet++ 網絡匯聚后 C_j 點的合成特征。此時的合成特征已經具有了其一定鄰域范圍的局部信息，還需要進一步融合其所在建議框全局信息以增強合成特征的全局表達能力。多種研究證明，Transformer網絡架構具有極強的捕捉全局信息的能力。因此，對每個建議框中的合成特征，采用Transformer編碼器進行建議框全局信息的融合。

在經過Transformer進行建議框級別的融合后，合成特征已經具有足夠的信息進行偽點云生成。具體來說，對于每一個建議框，利用該建議框內的每一體素單元的合成特征生成一個偽點云信息，該點云信息包含了其相對于所在體素單元中心點的偏移以及一些高維度特征。

其中： p_k 表示以 C_k 為中心的亞體素單元生成的偽點云； d_k 表示生成偽點云相對于亞體素單元 C_k 的坐標偏移 Ω₃f_pk 表示生成偽點云的高維度特征。點云生成模塊產生的所有偽點云信息構成了一個生成點云集合。此時的生成點云集合中包含了可靠點云信息以及不可靠點云信息，其中的不可靠點云信息會對后續的建議框細化產生負面影響，因此需要對生成結果進行多次迭代，以產生高質量的點云信息。

為了從生成點云集合中篩選出不可靠點云信息，在點云生成模塊之后，使用評分模塊對所有生成點云信息進行可信度評分，根據評分結果將評分低于閾值的點云信息進行掩蓋。點云的生成和掩蓋操作過程難免會丟失大量特征的信息，需要對丟失的特征信息進行補充。因此，在每次進行迭代生成前，將每個體素單元經過Transformer融合后的合成特征與生成的點云信息進行融合，然后重新通過點云生成模塊產生新的偽點云，一共進行 K 輪迭代，并在迭代過程中逐步下調可信度閾值。點云的掩蓋遵循以下規則：

τ_m=τ₀-m?Δτ

其中： τ_m"是第 ?_m"輪的評分閾值； τ₀"是初始評分閾值； Δτ 是每輪迭代閾值的遞減量;sm是第m輪生成偽點云Pm的得分;Pmask是第 m 輪經過掩蓋后的偽點云集合。對于最后一輪迭代生成的偽點云信息，本文不進行掩蓋，直接將最后生成的點云結果以及該輪結果的評分一起輸入 PointNet++ 檢測頭，得到最終細化后的輸出。

為了更加清晰地描述本模塊的具體實現方式，算法1以偽代碼的形式展示了迭代偽點云生成的流程。

算法1偽點云迭代生成輸入：來自Transformer的融合特征 F 。

輸出：經過迭代生成的偽點云及其評分PseudoPointList，scoreList}。a）PseudoPointList，scoreList =[] ，［］//初始化結果列表b）GenerateFeatures Ψ=Ψ_F .for m inrange do Ω/μ 為總迭代次數PseudoPoint Σ=Σ PGM（GenerateFeatures）;//生成偽點云PseudoPointList.apped（PseudoPoint）;score=MLP （PseudoPoint）;//對生成的偽點云進行評分scoreList.apped（score）;confidence =t-m*d;/*t 為初始置信度閾值，，d 為每次迭代的置信度遞減量 * /PseudoPoint[score 返回每次迭代生成的偽點云及其分數，用于損失計算 /

2損失函數

本文的損失函數由點生成損失 L_POINT 、建議框損失 L_RPN 和檢測損失 L_DET 三部分組成。

L=L_POINT+L_RPN+L_DET

本文采用3D目標檢測領域常見的做法來計算建議框損失。首先，根據區域建議網絡輸出的候選框與地面真實值之間的交并比（IoU）為候選框分配目標邊界框。在完成前景目標的分配后，采用焦點損失（FocalLoss）來計算區域建議網絡分類預測分支的置信度損失，使用平滑 L₁ 損失（smooth ?L₁ loss）來計算回歸預測分支的回歸損失。總體公式如下：

L_RPN=L_cls+L_reg

L_cls=-（1-p_t）^γlog（p_t）

對于檢測損失，采用交叉熵損失（cross-entropyloss）來計算其置信度損失，其余的做法與建議框損失一致。

本文參考 PG-RCNN 和 BtcDet^[23] 的思想來構建點生成損

失 L_PoINT ，其公式如下：

其中： K 為迭代輪次，隨著迭代輪次的增加，生成的點云信息應該具有更高的準確度。因此，引人了一個動態損失權重機制，為每一輪迭代中的點生成損失分配了一個遞增的權重，確保隨著迭代的進行，生成點云信息的質量能夠逐步提升。

L_scoREⁱ 為第 i 輪生成偽點云的評分損失。為了鼓勵模型生成位于真實邊界框內的前景點云，本文按照是否存在于真實邊界框中為每一個生成的點云信息分配標簽，然后對其應用焦點損失，其公式如下：

其中： _;N 為點云總數； s_j 為當前輪次第 j 個點的評分。

L_0FFSETⁱ 為生成點云的形狀監督損失。為了使生成點云的形狀盡可能與原始物體的形狀相似，需要原始對象的完整點云來監督點云的生成。然而，對于遠距離的物體以及被遮擋的物體，其點云數目稀少、點云形狀殘缺，無法從KITTI數據集獲取這類對象實例的完整點云信息用于形狀監督。

為了解決這個問題，本文首先從KITTI中搜索點云密集的對象實例，按照旋轉角度和類別進行分組，構建一個對象數據庫。在訓練時，從對象數據庫中隨機抽取兩個與當前實例最為相似的對象點集與當前實例的原始點集相結合，借此生成稠密的點云集合。對于汽車和騎行者這兩種類別，還沿著軸對稱方向鏡像點云來豐富點云信息。

本文用產生的稠密點云來進行生成點云形狀損失的計算，對所有前景候選框中生成的點云采用Chamfer距離來計算L_0FFSETⁱ ，其公式如下：

其中：N_fp 是前景候選框中的生成點云數目； P_r 是生成點云點集； P_r^* 是構建出的稠密點云點集。

3 實驗結果與分析

3.1數據集

為了確認算法的有效性，采用3D自標檢測中常用的大型公開數據集KITTI對算法進行驗證。KITTI數據集共包含7481幀具有注釋的訓練數據樣本和7518幀測試數據樣本。在進行網絡訓練時，將原始的訓練數據樣本劃分為3712個樣本的訓練集和包含3769個樣本的驗證集進行訓練和驗證。

本文對數據集中的汽車、行人以及騎行者三個類別進行檢測。根據目標截斷和遮擋程度的不同，每個類別均包含簡單、中等、困難三個級別。

3.2 實驗設置

實驗基于PyTorch深度學習框架和OpenPCDet目標檢測工具箱，采用的硬件環境為雙路 Intel^BXeon^B Silver 4210R處理器，RTX2080TiGPU，軟件環境為Ubuntu22.04LTS、Python3.9，CUDA11.8，PyTorch2.0.1。

本實驗采用Adma作為優化器更新模型參數，初始學習率為0.01，動量為0.9，學習率衰減為0.1，最大迭代次數為 80 對于KITTI數據集，只檢測 x 軸在 [0，70.4]m，y 軸在[-40，40]m，z軸在[-3，1] m 的目標，對于輸入的原始點云，沿各軸按（0.05，0.05，0.1） m 將其劃分為初始體素。

對于區域建議網絡給出的每一個初始建議框，將其均勻劃分為216個相同大小的亞體素單元。在IoU設置方面，為汽車設置0.7的IoU閾值，為行人和騎行者均設置0.5的IoU值，評估結果分為簡單、中等、困難三個難度級別。

在數據增強方面，采用基于點云的3D目標檢測算法中常用的數據增強策略，包括沿 x 軸進行隨機翻轉、采用隨機的縮放因子進行全局縮放、圍繞 z 軸進行全局的隨機旋轉等。在進行偽點云信息的迭代生成時，設置初始可信度閾值為0.58，進行8輪迭代，在迭代中逐步下調可信度閾值至0.32。

3.3算法性能

模型的訓練在訓練集上進行，并根據驗證集的結果調整超參數。為了驗證算法的有效性，在3D視角下與先進算法在驗證集上的評估結果進行對比，采用AP11作為評價標準，為所有算法采用相同的IoU閾值。表1展示了本文算法與其他多個網絡模型在汽車、行人、騎行三種類別，在簡單、中等、困難三種難度下的對比結果，最優結果使用加粗表示。

從表1可以看到：本文算法整體檢測效果優于其他算法，尤其在行人和騎行者這兩個類別上取得了較大的優勢。相較于基線算法PV-RCNN，在簡單難度下，行人類別和騎行者類別的檢測精度提升幅度達 2.60% 和 6.27% ；中等難度下行人類別的檢測精度提升幅度達 5.43% ；困難難度下，行人類別和騎行者類別的檢測精度提升幅度達 3.89% 和 2.73% 。本文算法對汽車類別的檢測精度低于RoIFusion，這是由于該算法融合了激光雷達點云和攝像頭信息，攝像頭信息能夠為汽車這類大目標物體提供豐富的特征，一定程度上補足了原始點云特征的缺失。但是，在行人和騎行者這類攝像頭信息不足以補全點云特征的小目標上，本文算法檢測精度明顯優于RoIFusion，這進一步驗證了算法的有效性。

表1KITTI測試集上與先進算法的檢測精度對比Tab.1 Comparison ofdetection accuracyontheKITTI test datasetwithadvanced algorithms

圖5為本文算法在KITTI數據集上目標檢測結果的可視化展示。圖中是激光雷達視角下的點云示意圖，藍色代表檢測框的地面真相，綠色為預測出的檢測框結果（見電子版）。圖中結果表明，相較于其他算法，本文算法對于行人和騎行者目標體現出較好的檢測效果，預測結果的幾何位置以及方向角較為精準，對于距離較遠、遮擋較為嚴重的目標也能體現出較為良好的檢測效果，有效降低了漏檢概率。

本文算法不僅有出色的檢測精度，還有較快的檢測速度，在進行8輪迭代的情況下，它可以在單個NVIDIARTX2080Ti上以18.9frame/s進行推理，超越了大多數的兩階段算法。此外，在進行偽點云生成時，每輪迭代使用的是同一個點云生成模塊，在減少網絡參數的同時完成了對訓練和推理的分離。一旦完成了對模型的訓練，可以在推理中隨意改變迭代的步數。

圖5可視化檢測結果對比 Fig.5 Comparison of visual detection results

如圖6所示，在推理過程中使用更多的偽點云迭代細化步驟可以獲得更好的精度，但是會增加推理所需要的時間。在實際應用中，本文可以在終端設備動態調整迭代次數，在速度與精度之間取得平衡。當自動駕駛汽車行駛在高速公路這類路況簡單、但是車速較快的場景時，可以減少迭代次數來提高推理速度，作出快速決策；而在市區道路這類路況復雜、但是車速較慢的場景時，可以增加迭代次數來作出精準決策。這一切的實施都不需要重新設計網絡，也不需要重新訓練網絡參數。

3.4消融實驗

為驗證本文算法的有效性，在KITTI驗證集上進行了廣泛的消融實驗，實驗結果如表2所示。實驗結果表明，偽點云迭代生成模塊、可信度閾值過濾模塊、CSPConv模塊均對結果的改進起到了作用。

一共進行了三組消融實驗。在第一組實驗中，去除了偽點云迭代生成模塊，對于區域建議網絡的輸出，只對其進行一次偽點云生成就將其輸入檢測頭進行預測；在第二組實驗中，使用傳統的SECOND體素網絡主干替換掉了具有CSPConv的體素網絡主干；在第三組實驗中，去除掉了偽點云的迭代生成時低可信度信息的閾值過濾步驟，直接使用上一輪的輸出進行偽點云的迭代生成。

表2KITTI驗證集上的消融實驗結果Tab.2Ablation studyresults on the KITTI validation dataset

通過實驗結果可以得知：對生成的偽點云進行迭代優化，能夠提高偽點云信息的質量，有助于提高檢測頭的檢測精度，在中等難度下將騎行者的精度提高 5.54% ，行人的精度提高8.20% ；具有CSPConv的體素網絡主干相較于傳統的SECOND體素網絡主干能夠在提高網絡速度的同時更有效地聚合不同特征圖的語義信息，在中等難度下將汽車的精度提高 1.43% ，行人的精度提高 3.34% ；在進行偽點云的迭代生成時屏蔽掉低可信度的信息，可以提高生成的偽點云信息的質量，在中等難度下將騎行者的精度提高 1.39% ，行人的精度提高 1.43% 。

圖6中等難度下行人的精度、檢測速度與迭代輪次變化 Fig.6Relationshipbetweenaccuracy，detectionspeed，and iteration rounds of pedestriansunder medium difficulty

4結束語

為了解決復雜場景下由點云的稀疏和截斷導致的檢測精度低下，本文提出基于迭代偽點云生成的三維目標檢測方法。

首先，提出了CSPConv模塊并將其應用在3D骨干網絡之中，在減少通道冗雜的同時，提高了模型的特征融合能力。其次，利用三維體素骨干網絡的多尺度特征圖，多次迭代細化生成高質量的偽點云信息，完成對初始建議框的有效細化。但是對于汽車這類大目標，單純利用點云信息難以獲得有效的精度提升，如今的汽車大多都配備了一個及以上的攝像頭。基于此，后期研究將進一步考慮優化算法，探索圖像與點云的相互關系，結合使用圖像信息進一步提高目標檢測能力。

參考文獻：

[1]CharlesRQ，Hao Su，MoKaichun，etal.PointNet：deep learning on point setsfor 3D classification and segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway，NJ：IEEE Press，2017：77-85.

[2]QiCR，YiLi，Su Hao，et al.PointNet++：deep hierarchical feature learningon point sets ina metric space[EB/OL].（2017-06-07）. https：//arxiv.org/abs/1706.02413.

[3]Pan Xuran，Xia Zhuofan，SongShiji，et al.3Dobject detection with pointformer[C]// Proc of IEEE/CVF Conference on Computer Visionand Pattern Recognition.Piscataway，NJ：IEEEPress，2021： 7459-7468.

[4]：ShiWeijing，RajkumarR.Point-GNN：graph neural network for 3D objectdetectionina pointcloud[C]//Proc ofIEEE/CVFConferenceon ComputerVision andPatternRecognition.Piscataway，NJ： IEEEPress，2020：1708-1716.

[5]Mao Jiageng，Xue Yujing，Niu Minzhe，et al.Voxel Transformer for 3Dobjectdetection[C]//Proc ofIEEE/CVFInternational Conference on Computer Vision.Piscataway，NJ：IEEE Press，2021： 3144-3153.

[6]YanYan，Mao Yuxing，Li Bo.SECOND：sparsely embedded convolutionaldetection[J].Sensors，2018，18（10）：3337.

[7]Zhou Yin，Tuzel O. VoxelNet：end-to-end learning for point cloud based3Dobjectdetection[C]//Proc of IEEE/CVFConferenceon Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2018：4490-4499.

[8]Deng Jiajun，Shi Shaoshuai，Li Peiwei，et al.Voxel R-CNN： towards highperformance voxel-based 3D object detection [C]/1 Procof AAAIConferenceon Artificial Intelligence.Palo Alto，CA：AAAI Press，2021：1201-1209.

[9]Shenga Hualian，Cai Sijia，Liu Yuan，etal. Improving 3Dobject detectionwithchannel-wise Transformer[C]//Proc of IEEE/CVFInternational Conference on Computer Vision.Piscataway，NJ：IEEE Press，2021：2723-2732.

[10]Shi Shaoshuai，Guo Chaoxu，Jiang Li，et al.PV-RCNN：point-voxel feature setabstraction for3Dobjectdetection[C]//Proc of IEEE/ CVFConference onComputerVisionand PatternRecognition.Piscataway，NJ：IEEE Press，2020：10526-10535.

[11]Shi Shaoshuai，JiangLi，DengJiajun，etal.PV-RCNN ⁺⁺ ：pointvoxel feature set abstraction with local vector representation for 3Dobject detection[J]. International Journal of Computer Vision， 2023，131（2）：531-551.

[12]HuJSK，Kuai Tianshu，Waslander SL.Point density-awarevoxels forLiDAR3Dobjectdetection[C]//Proc ofIEEE/CVFConference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2022：8459-8468.

[13] Chen Xuesong，Shi Shaoshuai， Zhu Benjin，et al. MPPNet：multiframe feature intertwining with proxy points for 3D temporal object detection [C]//Proc of European Conference on Computer Vision. Cham：Springer，2022：680-697.

[14］王理嘉，于歡，劉守印．動態環境中多幀點云融合算法及三維目標檢測算法研究[J]．計算機應用研究，2023，40（3）：909-913. （WangLijia，Yu Huan，Liu Shouyin.Research onmulti-frame point cloudfusionalgorithmand 3Dobject detectionalgorithmindynamic environment[J].ApplicationResearchofComputers，2023，40 （3）：909-913.）

[15] Chen Can，Fragonara L Z，Tsourdos A.RolFusion：3D object detection from LiDAR and vision[J]. IEEE Access，2021，9：51710-51721.

[16]RongYao，Wei Xiangyu，Lin Tianwei，etal.DynStatF：an efficient featurefusionstrategyforLiDAR3Dobjectdetection[C]//Procof IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway，NJ：IEEE Press，2023：3238-3247.

[17]Li Ziyu，Yao Yuncong，Quan Zhibin，et al. Spatial information enhancement network for 3D object detection frompoint cloud[J]. Pattern Recognition，2022，128：108684.

[18]Zhang Yanan，Huang Di，Wang Yunhong.PC-RGNN： point cloud completion and graph neural network for 3D object detection [C]// ProcofAAAIConferenceon Artificial Intelligence.Palo Alto，CA： AAAIPress，2021：3430-3437.

[19]Koo I，LeeI，Kim SH，et al.PG-RCNN：semantic surface point generation for 3D object detection [C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway，NJ：IEEE Press， 2023：18096-18105.

[20]Chang Huiwen，Zhang Han，Jiang Lu，et al.MaskGIT：masked generative image Transformer[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2022：11305-11315.

[21]Chang Huiwen，Zhang Han，Barber J，et al．Muse：text-to-image generation via masked generative Transformers[EB/OL]. （2023-01- 02）.https：//arxiv.org/abs/2301.00704.

[22]ChenJierun，Kao SH，He Hao，et al.Run，don’t walk：chasing higher FLOPS for faster neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattrn Recognition. Piscataway， NJ：IEEEPress，2023：12021-12031.

[23]Xu Qiangeng，Zhong Yiqi，Neumann U.Behind the curtain：learning occluded shapes for 3Dobject detection[C]//Proc of AAAI Conference on Artificial Inteligence.Palo Alto，CA：AAAI Press，2022： 2893-2901.

[24]LangAH，VoraS，Caesar _H，et al.PointPillars：fast encoders for object detection frompoint clouds[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ： IEEE Press，2019：12689-12697.

[25]Shi Shaoshuai，Wang Zhe，Shi Jianping，et al.From points to parts ： 3D object detection from point cloud with part-aware and part-aggregationnetwork[J]. IEEETransonPatternAnalysisandMachine Intelligence，2021，43（8）：2647-2664.

[26] Zhang Yifan，Hu Qingyong，Xu Guoquan，et al．Not all points are equal：learning highly efficient point-based detectors for 3D LiDAR point clouds[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2022： 18931-18940.