基于潛在有價值樣本挖掘的半監督三維目標檢測

2025-02-28 00:00:00孫立輝李佳霖劉夏

計算機應用研究 2025年2期

摘要：為了解決當前半監督三維目標檢測算法中，傳統的固定閾值方法在過濾偽標簽時不夠靈活，舍棄了大量有價值的偽標簽，沒有充分利用潛在有價值樣本的問題，提出了一種基于潛在有價值樣本挖掘的半監督三維目標檢測方法。首先，不再使用固定閾值過濾偽標簽，采用基于得分聚類的自適應閾值生成方法，分別為不同的類別生成過濾偽標簽時需要的閾值，保留更多有價值的偽標簽；其次，由于標簽由類別和邊界框信息組成，提出了一種聯合置信度過濾偽標簽的方法，使用對象置信度、分類置信度和IoU置信度的乘積來過濾偽標簽，改善偽標簽的質量；最后，對樣本數量較少的類別生成稠密偽標簽，篩選未通過聯合置信度過濾的部分數據，以軟偽標簽的形式保留偽標簽，更充分地利用潛在有價值的樣本。在KITTI數據集上，與PV-RCNN方法相比，所提方法在僅1%標記數據的情況下，汽車類提高了6.5百分點，行人類提高了9百分點，自行車類提高了25百分點，實驗結果證明了所提方法的有效性。

關鍵詞：目標檢測；半監督；稠密偽標簽；閾值；軟偽標簽

中圖分類號：TP391.4 文獻標志碼：A 文章編號：1001-3695（2025）02-040-0612-06

doi：10.19734/j.issn.1001-3695.2024.04.0169

Semi-supervised 3D object detection based on mining valuable potential samples

Sun Lihui，Li Jialin，Liu Xia

（School of Management Sciences amp; Information Engineering，Hebei University of Economics amp; Business，Shijiazhuang 050000，China）

Abstract：This paper proposed a semi-supervised 3D object detection method based on mining potentially valuable samples to address the issue in current algorithms where traditional fixed threshold methods are inflexible in filtering pseudo-labels，discarding numerous valuable pseudo-labels，and failing to fully utilize potentially valuable samples.Firstly，instead of using a fixed threshold to filter pseudo-labels，it adopted an adaptive threshold generation method based on score clustering，generating thresholds for different categories to retain more valuable pseudo-labels.Secondly，since labels consist of category and bounding box information，it proposed a joint confidence filtering method.This method used the product of object confidence，classification confidence，and IoU confidence to filter pseudo-labels，improving the quality of pseudo-labels.Finally，it generated dense pseudo-labels for categories with fewer samples，screened the data that did not pass the joint confidence filtering，and retained pseudo-labels in the form of soft pseudo-labels，making better use of potentially valuable samples.On the KITTI dataset，compared with the PV-RCNN method，the proposed method improved the car category by 6.5 percentage point，the pedestrian category by 9 percentage point，and the bicycle category by 25 percentage point with only 1% labeled data.Experimental results demonstrate the effectiveness of the proposed method.

Key words：object detection；semi-supervised；dense pseudo-labels；threshold；soft pseudo-labels

0 引言

近幾年，越來越多的車企致力于自動駕駛技術的研究，其中三維目標檢測方案受到了廣泛重視。全監督的三維目標檢測方法取得了較好的效果，但是全監督三維目標檢測的缺點是需要依賴大量的標記數據來進行訓練，然而數據標記成本較高，并且耗費時間較長，在一定程度上影響了三維目標檢測的研究^［1^］。為了減少對標記數據的依賴，使用少量標記數據和大量未標記數據進行研究的半監督學習成為了一個可行的選擇。

半監督學習在二維目標檢測中已經得到了廣泛的研究，有的研究方法有一部分已經被應用于三維目標檢測領域，并取得了不錯的效果。現有的較為常用半監督目標檢測方法主要包括基于偽標簽^［2～4^］和基于一致性^［^5～7^］的方法兩類。在基于偽標簽的半監督目標檢測方法中，通過閾值過濾教師模型的預測，篩選出偽標簽是較為常用的方法，并且這一策略對于提升模型在有限標注數據情況下的性能至關重要。

半監督三維目標檢測中傳統基于固定閾值過濾偽標簽的方法存在的問題是很難準確地選擇閾值來過濾預測生成的偽標簽^［8^，9^］。使用固定的閾值來過濾偽標簽，如果過濾偽標簽的閾值過高，將導致大量潛在的有價值的偽標簽被過濾，如果過濾偽標簽的閾值過低，則會生成大量質量差的偽標簽，這兩種情況都不利于模型的訓練。如何在不同階段選擇不同的偽標簽過濾閾值是影響模型性能的一個關鍵問題^［¹⁰^］。為此本文提出了基于得分聚類的自適應閾值生成方法，根據不同階段模型的性能，在不同階段為不同的類別生成不同的閾值。

在目標檢測任務中，單一的置信度過濾策略可能導致潛在有價值的樣本得不到充分的利用，這些樣本可能包含重要的特征，但由于置信度不足而被錯誤地排除在外。標簽由類別信息和邊界框信息組成，偽標簽質量會影響數據的分類和邊界框的定位準確性，使用單一的置信度過濾策略在篩選偽標簽時可能會導致生成的偽標簽質量不佳^［11^］。為此本文提出了聯合置信度策略過濾偽標簽，改善偽標簽的質量，盡可能地充分挖掘潛在有價值的樣本。半監督三維目標檢測面臨的一個挑戰是，大量潛在有價值的偽標簽沒能得到充分利用，尤其是低置信度樣本，其潛在價值經常被忽略^［12～14^］。這一問題使得模型難以充分地學習到樣本的特征信息，尤其是樣本數量較少的類別。為此本文提出了一種策略，對樣本數量較少的類別生成稠密偽標簽，并對低置信度樣本進一步篩選，生成軟偽標簽，充分利用潛在有價值的樣本。這樣，不僅提高了樣本的利用率，也為模型學習提供了更豐富的信息。

綜上所述，本文主要貢獻包括：a）針對使用固定閾值過濾偽標簽的問題，提出了基于得分聚類的閾值生成方法，為不同類別在不同階段生成不同的過濾閾值，更準確地篩選出高質量的偽標簽。b）提出了基于聯合置信度的偽標簽過濾策略，聯合樣本的對象置信度、分類置信度和IoU置信度過濾偽標簽，改善偽標簽質量。c）提出了稠密偽標簽和軟偽標簽策略，保留更多有價值的標簽信息，更充分地利用潛在有價值的樣本。d）在KITTI數據集上進行了廣泛的實驗，本文方法相比于基線PV-RCNN性能有很大的提高。在僅有1%標記數據的情況下，汽車類提高了6.5百分點，行人類提高了9百分點，自行車類提高了25百分點。

這些方法幫助模型更充分地利用潛在有價值的樣本，保留更多有價值的偽標簽，并在模型訓練過程中改善了偽標簽的質量和數據的利用效率，提高了模型的檢測性能。

1 相關工作

1.1 三維目標檢測

三維目標檢測在最近幾年發展迅速，已經產生了多種三維目標檢測方法，并取得了不錯的成績。其中基于點云的三維目標檢測算法主要分為基于原始點^［15^，16^］、基于體素^［^17～19^］和基于BEV的方法^［20^，21^］三類。使用BEV方法將點云投影到二維圖像中會導致點云幾何信息的丟失。利用體素化技術將點云數據轉換為三維體素網格，并通過對該網格進行處理來實現目標檢測，也存在信息丟失問題。基于原始點的方法直接使用不規則點云來提取特征，避免了幾何信息丟失，但是處理大規模點云時，不如利用體素的方法那樣高效^［22^］。有一部分人考慮將點云和體素結合起來，以達到一個更好的效果。PV-RCNN^［23^］通過融合點云和體素表示的特征，融合兩者的優勢來提高目標檢測的性能，這種方法使得模型能夠同時捕獲點云數據的幾何信息和體素網格的全局上下文信息，從而更好地理解和識別物體，實現了高效的三維目標檢測。

1.2 無監督學習

無監督學習一直以來是人們研究的一個重要方向，它不依賴于標記數據，主要利用大量的無標記數據來訓練網絡模型。在無監督學習中，對于偽標簽的利用方法也有很多，2022年，王帆等人^［24^］提出了一種基于偽標簽不確定性估計的源域無關魯棒域自適應方法，該方法通過源域模型的預測結果，結合信息熵和能量函數，生成目標域數據的偽標簽。2023年，林磊等人^［25^］提出了一種基于自糾錯偽標簽的無監督域自適應方法，該方法對源域標注數據進行數據降維和子空間變換，并將這些變換應用于目標域的未標注數據，以此來生成相應的偽標簽。2023年，苗壯等人^［26^］提出了一種等量約束聚類的無監督蒸餾哈希圖像檢索方法，該方法使用改進K-means的等量約束聚類方法生成偽標簽。

1.3 半監督學習

不同于無監督學習中基于偽標簽的方法，通過聚類、挖掘圖像對相似性等手段為圖像生成偽標簽，半監督學習中基于偽標簽的方法主要通過閾值過濾偽標簽，僅使用少量標記數據進行訓練，便可以取得不錯的性能。2021年，文獻［9］提出的3DIoUMatch是首個應用于室外場景的半監督三維目標檢測算法網絡。該算法使用教師網絡的預測為未標記數據生成偽標簽，同時使用固定的高閾值0.9來過濾所有類別的偽標簽，并直接舍棄了過濾后剩余的偽標簽。2022年，DetMatch方法^［27^］利用分類置信度，并使用固定閾值來過濾偽標簽，同時該算法結合了二維和三維檢測結果，以生成更精確的偽標簽。2023年Li等人^［10^］提出的DDS3D方法使用動態閾值過濾偽標簽，隨著迭代次數的增加，逐漸降低閾值，有效提高了網絡的檢測性能。在無監督和半監督學習中使用基于偽標簽的方法，其主要思想都是通過一些方法為無標注數據生成高質量的偽標簽，用于目標域模型的訓練。其不同之處主要為半監督學習中有少量的標記數據，可以對無標記數據起到一定的監督作用，并且標記數據的信息可以傳播到無標記數據中，提高模型學習效果。

在半監督學習中，本文基于偽標簽的方法與現有方法有相似之處，都是利用預訓練好的教師網絡采用閾值的方法過濾偽標簽，并將生成的偽標簽用于學生網絡模型的訓練。然而，不同之處主要是，本文方法依據模型的性能，在不同的階段分別為不同的類別生成了不同的偽標簽過濾閾值。此外，本文方法更充分地利用了潛在有價值的樣本，生成了稠密偽標簽和軟偽標簽，用來更好地訓練網絡模型。

2 本文算法

2.1 算法框架

本文框架來自基本的教師-學生框架，使用了基于偽標簽的方法訓練模型。這種方法的關鍵是確保教師模型的預測足夠可靠，并盡可能地保留高質量的偽標簽，這樣才能給學生模型帶來正向的影響。在預訓練階段，使用現有的標記數據集X以全監督的方式訓練PV-RCNN，然后，使用相同的預訓練權重對教師網絡和學生網絡進行初始化。

圖1是本文半監督方法的框架。半監督學習階段，在每輪開始訓練之前將標記數據集X={x^l，y^l}輸入到教師網絡進行預測，并保存最終預測得分。接著，將保存的預測得分利用基于得分聚類的閾值生成方法為各個類別生成不同的閾值，并將其保存。然后，開始訓練網絡，從數據集中隨機抽取未標記數據{x^u}輸入到教師網絡模型當中，并將網絡輸入進行弱數據增強，生成弱增強數據。將教師網絡生成的預測通過聯合置信度來過濾，保存通過篩選的偽標簽，并為數量較少的類別生成稠密偽標簽。最后，為了充分利用潛在有價值的樣本，將未通過聯合置信度過濾，但是各類置信度得分大于t的部分樣本以軟偽標簽的形式保存。對于學生網絡的訓練，將網絡輸入進行強數據增強，生成強增強數據，以加強學生網絡對樣本的訓練，對于標記樣本，學生網絡由真實標簽{y^l}直接監督，對于未標記的樣本，學生網絡由來自教師網絡的偽標簽{y^u}進行監督。

在初始階段，本文的教師網絡和學生網絡使用了相同配置的室外三維檢測器PV-RCNN，在訓練過程中，本文采用了指數移動平均（exponential moving average，EMA）策略更新教師模型的參數，使得網絡模型可以更好地平滑數據，減少噪聲影響，適應數據變化^［7^］。

θ_t=λθ_t+（1-λ）θ_s（1）

其中：λ為EMA衰減率；θ_t和θ_s分別為教師和學生模型參數。

2.2 自適應閾值

教師網絡對輸入數據進行處理，在篩選出合適偽標簽的過程中，偽標簽過濾閾值的選擇是此階段工作的關鍵部分。以往研究大多使用固定的較高閾值來過濾教師網絡中不滿足條件的偽標簽，這種方法生成的偽標簽對模型的訓練效果不好^［9^，28^］。針對此問題，本文提出了一種自適應閾值生成方法，在模型中加入了基于得分聚類的偽標簽過濾閾值生成模塊，在不同階段生成不同的過濾閾值。圖2給出了自適應閾值生成方法的實現過程。該方法的輸入是現有的標記數據集X={x^l，y^l}，輸出為各個類別的過濾閾值T_obj、T_cls、T_IoU。使用教師網絡模型作為檢測器，用于數據的預測。具體實現過程如下所示。

輸入：標記數據集X={x^l，y^l}；聚類數k。

輸出：偽標簽過濾閾值T_obj、T_cls、T_IoU。

initialization：

選擇當前的教師網絡模型用于數據的預測。

選取K-means++方法用于得分聚類。

for （x，y） in X：

將數據輸入到教師網絡模型中進行預測。

將教師網絡模型對輸入數據的預測得分保存到三個集合中。

對保存的得分進行聚類，使用基于K-means++^［29^］的聚類方法劃分得分。

選擇最終的質心作為過濾閾值，并將閾值保存下來。

output：

保存各個類別的閾值T_obj、T_cls、T_IoU，用于偽標簽的過濾。

為每個類別都生成特定的過濾閾值，不僅可以更充分地利用潛在有價值的樣本來優化模型的性能，還可以更好地適應不同類別數據的分布特性。這種操作能夠使模型在處理多類別的數據時更加靈活、更加準確，從而提升模型的整體性能。

2.3 聯合置信度過濾偽標簽策略

在過去的半監督目標檢測中，常見的偽標簽過濾方法主要包括基于IoU置信度和基于分類置信度的方法^［2^］。這些方法在過濾偽標簽時僅使用了預測框的分類得分或IoU得分，不能獲得綜合質量很好的偽標簽。使用基于分類置信度的方法過濾偽標簽時，生成的偽標簽可能會有比較高的類別得分，但其定位信息可能不準確，將生成的偽標簽加入到模型的訓練中以后，可能會由于定位不準確而導致模型的錯誤訓練。

在圖3中，黃色框代表偽標簽，紅色框代表真實標簽，綠色框代表模型的預測框（參見電子版），左側預測框的IoU（intersection over union）值為0.56，右側預測框的IoU值為0.36。由于偽標簽與真實標簽并不完全匹配，并且偽標簽的質量不夠高，本應該是背景的綠色預測框被錯誤地判斷為前景。所以，篩選偽標簽時需要考慮偽標簽的綜合質量。

另外，在三維目標檢測中，不同類別的檢測效果可能存在差異，這種差異可能源自多種因素，包括物體的形狀、大小、遮擋程度、數據集的分布以及數據數量等^［30^，31^］。由于這些因素的存在，不同類別的檢測效果可能表現出不同的特點，有些類別在分類準確性上表現較好，有些類別在定位準確性上表現較好。為了達到較好的模型訓練效果，本文提出了使用聯合置信度來過濾偽標簽的方法。具體如下：

a）將無標簽數據{x^u}輸入教師網絡進行預測。

b）生成教師網絡預測對象的對象置信度得分f_obj、分類置信度得分f_cls、IoU置信度得分f_IoU。

c）利用式（2）對教師網絡的預測進行篩選。

d）保留通過篩選的預測。

通過綜合考慮生成的對象性置信度閾值、分類置信度閾值和IoU置信度閾值的乘積篩選教師網絡的預測，有助于更充分地利用有價值的樣本，提高模型的泛化能力和魯棒性。

篩選教師網絡預測的公式如下：

f_obj×f_cls×f_IoUgt;T_obj×T_cls×T_IoU（2）

其中：f_obj、f_cls、f_IoU分別為對象置信度得分、分類置信度得分和IoU置信度得分；T_obj、T_cls、T_IoU為過濾閾值。

2.4 數據增強

數據增強在半監督目標檢測中是一種增加樣本數量的有效方法，并且對于模型性能的提升也有一定的效果^［32^］。本文算法中，教師網絡和學生網絡都使用PV-RCNN作為基礎模型。由于這兩個網絡極其相似，在訓練過程中如果沒有對網絡的輸入進行擾動，很有可能會造成過擬合的情況。本文對學生網絡和教師網絡的輸入進行了不同的擾動。對于教師網絡，進行了弱數據增強處理，將輸入進行簡單旋轉等。為了使學生網絡學習到更復雜、獨特的信息，對學生網絡的輸入進行了強數據增強，使用了一組聯合擾動方案，F={X，Y，Z，S，M}。其中，擾動X意味著沿著x軸翻轉；Y意味著沿著y軸翻轉；Z意味著旋轉點云，旋轉范圍從［-b，b］中隨機選擇；S意味著點的比例；M意味著單圖像混合^［³³^］。其中b的值為π/4，X翻轉擾動條件如式（3）所示，意味著網絡的輸入有一半的概率進行翻轉，δ為從［0，1］隨機選取的數。

X=1if δgt;0.5

0otherwise（3）

2.5 偽標簽生成策略

2.5.1 稠密偽標簽

在半監督訓練過程中，由于部分類別的樣本數量較少，標記標簽也較少，使得這些類別的特征學習起來較為困難。在網絡模型不斷訓練、偽標簽不斷生成的過程中，由于樣本數量較少的類別檢測效果不穩定，標簽不準確，導致生成的高質量偽標簽數量不是很多。另外，在隨機抽取樣本進行訓練時，通過非極大值抑制等一系列操作，有很多生成的偽標簽被舍棄，這可能會導致一些對于學習該類特征有幫助的潛在有價值的偽標簽未被充分利用^［9^］。針對上述問題，本文提出了一種使用稠密偽標簽的方法，以增加樣本數量較少類別的偽標簽，并加強模型對這些類別的學習。具體如下：a）選取通過篩選的預測；b）對預測進行非極大值抑制（NMS）操作，去除重疊的候選邊界框；c）檢測邊界框類別；d）如果為行人類和騎自行車類，保存偽標簽{y^u}；e）如果為汽車類別，檢測是否已有偽標簽，如果沒有則保存偽標簽{y^u}，否則舍棄。

本文為了獲得更多的偽標簽，更充分地利用潛在有價值的樣本，將通過聯合置信度閾值篩選的樣本數量較少類別的高質量偽標簽都保存了下來。在這一操作之后，模型對于類別較少的樣本將能學習到更多潛在的特征。如圖4所示，圖中紅色框為真實標簽框（參見電子版），綠色框為偽標簽框，相比于圖（a）中的稀疏偽標簽，圖（b）中的稠密偽標簽使模型能夠更好地學習。這種增加偽標簽數量的方法能夠提升模型在這些類別的預測性能。

2.5.2 軟偽標簽

為了充分利用潛在有價值的樣本，保留更多潛在有價值的偽標簽信息，訓練過程中對未通過聯合置信度過濾的低置信度樣本進行了進一步的挖掘。為了確保挖掘的低置信度樣本相對有價值，本文綜合考慮了對象置信度、分類置信度和IoU置信度來篩選樣本，生成軟偽標簽。為了更好地處理不同類別的樣本，本文對不同的類別生成了不同的篩選條件。

具體如下：a）選取未生成偽標簽的樣本；b）選取未通過聯合置信度過濾的預測；c）依據式（4）得出用于生成軟偽標簽的閾值；d）繼續篩選教師網絡的預測；e）通過非極大值抑制減少候選框的數量；f）生成軟偽標簽。

考慮到閾值過低可能會生成許多置信度較低的軟偽標簽，這些軟偽標簽對模型的訓練并不會產生很好的幫助，不能使模型的性能有進一步的提高，因此本文選擇控制閾值的最低值。軟偽標簽過濾閾值t的生成方法如式（4）所示。

t=max（C，T-β）（4）

由于不同類別樣本在基于聯合置信度過濾部分的閾值T不同，所以在生成軟偽標簽時采用的閾值也是不同的，這有利于模型對不同類別樣本的訓練。經過實驗分析，將C值設置為0.4。考慮到需要盡可能有效地生成軟偽標簽，因此本文將β的值設置為0.4，僅選取比基于聯合置信度過濾部分閾值低0.4范圍以內的樣本生成軟偽標簽。

2.6 損失函數

對于學生網絡的訓練，將網絡輸入進行強數據增強，生成強增強數據，以加強學生網絡對樣本的訓練，對于帶標簽的樣本，學生網絡由真實標簽{y^l}直接監督，對于未標記的樣本，學生網絡由來自教師網絡的偽標簽{y^u}進行監督。

本文半監督框架的損失函數由標記場景和未標記場景的監督損失組成，損失由分類損失和回歸損失組成。

定義如下：

L_l=L_cls（x^l，y^l）+L_reg（x^l，y^l）（5）

L_u=L_cls（x^u，y^u）+L_reg（x^u，y^u）（6）

總的訓練損失定義如下：

L=L_l+αL_u（7）

其中：α為未標記場景的監督損失的平衡權重。

3 實驗

3.1 數據集和評價指標

本文使用現有算法中最常用的KITTI室外數據集對所提方法進行實驗，該數據集包括7 481個用于訓練的戶外場景和7 518個用于測試的戶外場景。本文將訓練樣本進一步劃分，生成一個包含3 712個樣本的訓練數據集和一個包含3 769個樣本的驗證數據集。為了更好地測試本文的半監督學習方法，本文從訓練數據集當中分別選擇了1%和2%的標記樣本作為初始的標記數據集，并將其用于網絡模型的訓練。

本文使用40個召回位置的平均精度均值mAP作為評估指標，為了公平比較，將汽車類的IoU閾值設置為0.7，行人類的IoU閾值設置為0.5，騎自行車的類的IoU閾值設置為0.5。

3.2 實現環境

本文實驗過程中使用的硬件設備和軟件環境如表1所示。實驗部分基于聯想智能超算平臺中的4塊RTX A40 GPU加速訓練。本文使用PV-RCNN作為基礎模型，并使用預訓練好的網絡權重對教師網絡和學生網絡進行初始化。在半監督訓練階段，每個批次隨機抽取40個有標簽的樣本{x^l}和無標簽的樣本{x^u}，這些樣本進行相同的數據增強。學生網絡訓練總共訓練90輪，使用初始學習率為0.01的ADAM優化器。對于學習率的調整策略，本文使用與全監督PV-RCNN網絡模型相同的學習率。

3.3 實驗對比

為了驗證本文MVPS的有效性，在數據集標記數據為總數據量1%、2%的情況下，進行了對比實驗。為了更好地對比實驗結果，本文選擇了同類型的基于偽標簽的半監督學習方法，3DIoUMatch、DetMatch、DDS3D進行對比實驗。這些半監督三維目標檢測方法使用相同設置的基礎模型PV-RCNN。在表2中，本文MVPS在1%標記數據的情況下，汽車類相比于PV-RCNN提高了6.5百分點，行人類相比于PV-RCNN提高了9百分點，自行車類提高了25百分點。相比于3DIoUMatch^［9^］半監督方法，本文MVPS的結果在這三個類別上分別提高了4百分點、6百分點、17百分點。相比于DetMatch，本文方法在行人類別降低了19.6百分點，主要因為該方法結合了二維圖像信息，但是數據處理更加復雜。本文方法在汽車類和騎自行車類提高了2.5百分點、11.1百分點。

對于2%的標記數據，本文方法也在一定程度上有所提升，但是對于行人類別，效果并不理想，可能是由于行人類樣本數量較少，尺寸較小，學習效果不好造成的。對于汽車類別，本文方法結果明顯高于其他兩個類別，這主要是由汽車類的樣本數量較多，尺寸較大造成的。本文針對樣本數量較少的類別，給出了相應提高性能的方法，對于騎自行車的類別性能提升較為明顯。整體結果顯示，本文方法取得了較好的效果。

3.4 全監督實驗對比

為了展現本文所提半監督方法MVPS的高效性，將其與SECOND^［34^］、PointRCNN^［35^］、Part-A2^［36^］、PointPillars^［37^］和PV-RCNN^［23^］這五個全監督方法進行了實驗對比，這五個方法均在100%標記數據集的情況下進行訓練。本文MVPS在僅有6%標記數據量的情況下，進行了實驗，并將實驗結果與近幾年較為經典的五個全監督方法進行了對比。表3展示了全監督算法和本文方法的mAP值。實驗結果顯示本文方法在僅6%標記數據量的情況下，實驗結果優于其中四個全監督方法，并且相比于實驗結果最好的方法也取得了較為接近的性能，證明了本文方法的有效性。

3.5 消融實驗

本文使用標記數據量為原始數據2%的一組KITTI數據集對本文MVPS進行了消融實驗，證明本文方法各模塊的有效性，如表4所示。其中：LH代表聯合置信度；ZSY代表自適應閾值生成；SJZQ代表數據增強模塊；WBQ代表偽標簽生成策略模塊。表5展示了過濾偽標簽時，使用固定閾值和本文使用基于得分聚類的偽標簽過濾閾值生成模塊生成的閾值的對比。

由表5可以得出，如果使用固定閾值，那么閾值為0.8時效果最好，閾值較低時，生成的偽標簽質量相對較差。而閾值較高時，car類可以取得更好的效果，但是由于pedestrian類和cyclist類樣本數量相對較少，閾值過高時生成高質量偽標簽較少，不能很好地進行監督訓練，以至于mAP值降低。本文使用的基于得分聚類的自適應閾值生成模塊，在不同階段為各類樣本生成合適的閾值，不僅有利于高質量偽標簽的生成，而且對后續軟偽標簽的生成也有一定的影響，使得模型可以更充分地利用潛在有價值的樣本，實驗結果也證實了該模塊的有效性。

本文將軟偽標簽模塊部分生成的不同質量的軟偽標簽對于模型的影響進行了對比實驗，體現該部分對于性能提升的作用，并且經過實驗后，將軟偽標簽閾值的最低值C確定為0.4。實驗對比如表6所示。

3.6 定性結果與分析

為了更顯著地對比訓練效果，在標記數據量為2%的情況下使用PV-RCNN進行監督訓練，使用本文MVPS進行訓練，使用訓練之后的模型對同一樣本進行預測，并可視化預測對比結果。樣本原始圖片如圖5所示，三維標記框如圖6所示。樣本真實標簽如圖7（a）所示，對比結果如圖7所示。

從圖7的預測結果可以看出，PV-RCNN預測的結果當中存在部分漏檢，部分藍色框行人和紅色框（參見電子版）汽車沒有被成功檢出。3DIoUMatch成功檢測出了汽車和行人，但是存在兩處誤檢，檢測汽車的性能不如本文方法。MVPS不僅成功地檢測出了行人，而且基本檢出了真實標簽中的汽車，對于真實標簽中沒有標記的較遠的汽車也檢測出了一部分。

4 結束語

本文提出了一種半監督三維目標檢測方法，該方法使用了基于得分聚類的自適應閾值生成模塊，在不同階段生成不同的過濾閾值，緩解了固定閾值存在的問題。為了篩選出更合適的偽標簽，本文提出了基于聯合置信度的偽標簽過濾策略。此外，通過生成稠密偽標簽來增強模型對部分樣本特征的學習，在一定程度上緩解了標記數據較少的問題。最后，為了充分地利用未標記數據，算法篩選出了潛在的有價值的樣本，并保存了樣本的軟偽標簽，用于學生網絡的訓練。實驗結果表明了本文方法的有效性。但是本文方法也存在檢測錯誤的情況，將不屬于汽車類的卡車樣本檢測為了汽車，并且預測方向也存在偏差。未來將考慮解決汽車類樣本錯檢、方向預測不準確的問題。

參考文獻：

［1］Gao H A，Tian Beiwen，Li Pengfei，et al.DQS3D：densely-matched quantization-aware semi-supervised 3D detection［C］// Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2023：21848-21858.

［2］Sohn K，Zhang Zizhao，Li C A，et al.A simple semi-supervised lear-ning framework for object detection［EB/OL］.（2020-12-03）.https：//arxiv.org/abs/2005.04757.

［3］Berthelot D，Carlini N，Goodfellow I，et al.MixMatch：a holistic approach to semi-supervised learning［EB/OL］.（2019-10-23）.https：//arxiv.org/abs/1905.02249.

［4］Graham B，Engelcke M，Maaten L V D.3D semantic segmentation with submanifold sparse convolutional networks［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2018：9224-9232.

［5］Jeong J，Verma V，Hyun M，et al.Interpolation-based semi-supervised learning for object detection ［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2021：11597-11606.

［6］Rasmus A，Berglund M，Honkala M，et al.Semi-supervised learning with ladder networks［C］// Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge，MA：MIT Press，2015：3546-3554.

［7］Tarvainen A，Valpola H.Mean teachers are better role models：weight-averaged consistency targets improve semi-supervised deep learning results［C］//Proc of the 31st Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2017：1195-1204.

［8］Zhao Na，Chua T S，Lee G H.SESS：self-ensembling semi-supervised 3D object detection［C］// Proc of IEEE/CVF Conference on Compu-ter Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020：11076-11084.

［9］Wang He，Cong Yezhen，Litany O，et al.3DIoUMatch：leveraging IoU prediction for semi-supervised 3D object detection［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2021：14610-14619.

［10］Li Jingyu，Liu Zhe，Hou Jinghua，et al.DDS3D：dense pseudo-labels with dynamic threshold for semi-supervised 3D object detection［C］//Proc of IEEE International Conference on Robotics and Automation.Piscataway，NJ：IEEE Press，2023：9245-9252.

［11］Li Gang，Li Xiang，Wang Yujie，et al. PseCo：pseudo labeling and consistency training for semi-supervised object detection［C］//Proc of European Conference on Computer Vision.Cham：Springer，2022：457-472.

［12］Xu Hongyi，Liu Fengqi，Zhou Qianyu，et al.Semi-supervised 3D object detection via adaptive pseudo-labeling［C］//Proc of IEEE International Conference on Image Processing.Piscataway，NJ：IEEE Press，2021：3183-3187.

［13］Wang Jianren，Gang Haiming，Ancha S，et al.Semi-supervised 3D object detection via temporal graph neural networks［C］//Proc of International Conference on 3D Vision.Piscataway，NJ：IEEE Press，2021：413-422.

［14］Yin Junbo，Fang Jin，Zhou Dingfu，et al.Semi-supervised 3D object detection with proficient teachers［C］//Proc of European Conference on Computer Vision.Cham：Springer，2022：727-743.

［15］Qi C R，Litany O，He Kaiming，et al.Deep Hough voting for 3D object detection in point clouds［C］//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2019：9276-9285.

［16］Xie Qian，Lai Yukun，Wu Jing，et al. MLCVNet：multi-level context VoteNet for 3D object detection［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020：10444-10453.

［17］Yang Zetong，Sun Yanan，Liu Shu，et al.3DSSD：point based 3D single stage object detector［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020：11037-11045.

［18］Zhou Yin，Tuzel O.VoxelNet：end-to-end learning for point cloud based 3D object detection［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2018：4490-4499.

［19］Ye Maosheng，Xu Shuangjie，Cao Tongyi.HVNet：hybrid voxel network for lidar based 3D object detection［C］//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020：1628-1637.

［20］Yang Bin，Liang Ming，Urtasun R.HDNET：exploiting HD maps for 3D object detection［C］//Proc of the 2nd Annual Conference on Robot Learning.［S.l.］：Proceedings of Machine Learning Research，2018：146-155.

［21］Jorge B，Guindel C，Moreno F M，et al. BirdNet：a 3D object detection framework from lidar information［C］//Proc of the 21st International Conference on Intelligent Transportation Systems.Piscataway，NJ：IEEE Press，2018：3517-3523.

［22］楊德東，葛浩然，安韻男.基于置信域偽標簽策略的半監督三維目標檢測［J］.計算機應用研究，2023，40（6）：1888-1893，1899.（Yang Dedong，Ge Haoran，An Yunnan.Semi-supervised 3D object detection based on confidence domain pseudo-labeling strategy［J］.Application Research of Computers，2023，40（6）：1888-1893，1899.）

［23］Shi Shaoshuai，Guo Chaoxu，Jiang Li，et al.PV-RCNN：point-voxel feature set abstraction for 3D object detection［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway，NJ：IEEE Press，2020：10526-10535.

［24］王帆，韓忠義，尹義龍.偽標簽不確定性估計的源域無關魯棒域自適應［J］.軟件學報，2022，33（4）：1183-1199.（Wang Fan，Han Zhongyi，Yin Yilong.Source domain-independent robust domain adaptation with pseudo-label uncertainty estimation［J］.Journal of Software，2022，33（4）：1183-1199.）

［25］林磊，孫涵.基于自糾錯偽標簽的無監督域自適應［J］.計算機技術與發展，2023，33（1）：193-199.（Lin Lei，Sun Han.Unsupervised domain adaptation based on self-correcting pseudo-labels［J］.Computer Technology and Development，2023，33（1）：193-199.）

［26］苗壯，王亞鵬，李陽，等.一種等量約束聚類的無監督蒸餾哈希圖像檢索方法［J］.計算機應用研究，2023，40（2）：601-606，627.（Miao Zhuang，Wang Yapeng，Li Yang，et al. An equal-size constrained clustering-based unsupervised distillation hashing image retrieval method［J］.Application Research of Computers，2023，40（2）：601-606，627.）

［27］Park J，Xu Chenfeng，Zhou Yiyang，et al.DetMatch：two teachers are better than one for joint 2D and 3D semi-supervised object detection［C］//Proc of the 17th European Conference on Computer Vision.Berlin：Springer-Verlag，2022：370-389.

［28］Sohn K，Berthelot D，Li Chunliang，et al.FixMatch：simplifying semi-supervised learning with consistency and confidence［C］//Proc of the 34th International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2020：596-608.

［29］Arthur D，Vassilvitskii S.K-means++：the advantages of careful seeding［C］// Proc of the 18th Annual ACM-SIAM Symposium on Discrete Algorithms.［S.l.］：Society for Industrial and Applied Mathematics，2007：1027-1035.

［30］Qian Rui，Lai Xin，Li Xirong.3D object detection for autonomous dri-ving：a survey［J］.Pattern Recognition，2022，130：108796.

［31］Li Yanjing，Xu Sheng，Lin Mingbao，et al.Representation disparity-aware distillation for 3D object detection［C］// Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2023：6692-6701.

［32］Sajjadi M，Sch?lkopf B，Hirsch M.EnhanceNet：single image super-resolution through automated texture synthesis［C］//Proc of IEEE International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2017：4501-4510.

［33］Liu Songtao，Dong Hanze，Li Lanqing，et al.Local augmentation for graph neural networks［C］//Proc of the 39th International Conference on Machine Learning.［S.l.］：Proceedings of Machine Learning Research，2022：14054-14072.

［34］Yan Yan，Mao Yuxing，Li Bo.SECOND：sparsely embedded convolutional detection［J］.Sensors，2018，18（10）：3337.

［35］Shi Shaoshuai，Wang Xiaogang，Li Hongsheng.PointRCNN：3D object proposal generation and detection from point cloud［C］//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2019：770-779.

［36］Shi Shaoshuai，Wang Zhe，Shi Jianping，et al.From points to parts：3D object detection from point cloud with part-aware and part-aggregation network［J］.IEEE Trans on Pattern Analysis and Machine Intelligence，2021，43（8）：2647-2664.

［37］Lang A H，Vora S，Caesar H，et al.PointPillars：fast encoders for object detection from point clouds［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2019：12697-12705.

計算機應用研究2025年2期

計算機應用研究的其它文章: 下期要目; 融合音頻內容、風格和情感特征的人臉動畫生成方法; 基于多層次圖拓撲對比細化的動作識別; 基于擴散模型微調的局部定制圖像編輯算法; 基于偏移過濾與未知特征強化的開放世界目標檢測; 基于神經隱式場的模糊多視圖三維重建