
中圖分類號:TP391.41 文獻(xiàn)標(biāo)志碼:A 文章編號:1007-2683(2025)02-0042-11
Abstract:Inthe3Dtargetdetection technologybasedonpointcloud,there areproblems likehighcostof pointcloudcalculation andlargegap betwee targetscales,whichleadtolowtargetdetectioneficiency.Inresponse,thispaperproposesa3Dbject detectionalgorithmbasedonfusionsamplingandgraphetworks.Firstly,thepointcloudfusionsamplingtechnologyisintroducedto sampletheoriginalpointcloudtoeducethecomputatioalcomplexitySecondlytheK-NNalgorithisusedtoconstructtheapof thesampledpointcloud,andsub-imagesamplingisintroducedtosolvetheproblemofover-smothgraphconvolution.Finally,the featuresofgraphnodesareupdatedthroughfeatureinteraction toimprovethefeatureextractionabilityofthenetwork,thereby improvingthetargetdetectionefect.ThisstudyconductedexperimentsontheKIT3Ddataset.Comparedwith thebenchmarkmodel Point-GNN,the detection accuracy of the car target was improved by 3.89 % . In the simple scene and the medium difficulty scene,the detection accuracy of the cyclist target is increased by 6,60% and 4.36% ,respectively.
Keywords:point cloud; 3D object detection;graph neural network;fusion sampling;feature fusion
0 引言
在自動駕駛系統(tǒng)中,激光雷達(dá)作為環(huán)境感知設(shè)備被廣泛應(yīng)用。利用激光雷達(dá)采集到的點(diǎn)云數(shù)據(jù)對三維目標(biāo)檢測起到關(guān)鍵作用,點(diǎn)云數(shù)據(jù)中每個點(diǎn)包含三維坐標(biāo)、顏色、反射強(qiáng)度和偏角等屬性。然而,點(diǎn)云數(shù)據(jù)的無序性和不均勻性給目標(biāo)檢測帶來了挑戰(zhàn)。因此,設(shè)計高效的點(diǎn)云三維目標(biāo)檢測算法具有重要意義。
目前常用的三種點(diǎn)云處理方法:基于點(diǎn)的方法、基于體素的點(diǎn)云處理方法以及基于點(diǎn)和體素融合的方法。在基于點(diǎn)的方法中,直接從不規(guī)則域提取特征或使用對稱函數(shù)處理無序點(diǎn)云,如文[1-2]中,PointNet和Point-Net ++ 在自動駕駛物體檢測中獲得了令人滿意的結(jié)果,但連續(xù)運(yùn)行二維和三維檢測模型需要大量的計算時間,難以實(shí)現(xiàn)實(shí)時檢測。文[3]中,Point-RCNN直接從整個點(diǎn)云生成3D建議,文[4]中其后續(xù)工作STD則逐步細(xì)化點(diǎn)云的稀疏性來提升檢測精度。盡管基于對稱函數(shù)的方法在不斷優(yōu)化,但仍存在一定的性能提升空間。在基于體素的方法中,將檢測空間使用固定大小的體素進(jìn)行劃分,然后提取體素內(nèi)點(diǎn)的特征,并將其轉(zhuǎn)換為適用于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)或變壓器骨干網(wǎng)處理的偽圖像。Shi等[5]利用基于體素的網(wǎng)絡(luò),學(xué)習(xí)內(nèi)部對象之間額外空間關(guān)系,這種方法具有較快檢測速度和較少遮擋的優(yōu)勢,但鳥瞰圖會丟失高度信息,因此精度較低。除了基于點(diǎn)的方法和基于體素的點(diǎn)云處理方法,還存在一種融合了兩者的方法,即基于點(diǎn)和體素融合的點(diǎn)云處理方法。在文[6-7]中,PVConv、PV-RC-NN將粗粒度體素特征和細(xì)粒度點(diǎn)特征相結(jié)合,體現(xiàn)協(xié)同作用的有效性。文[8]中, PV-RCNN+Σ+Σ 使用體素之間的集合抽象操作替代原始點(diǎn)云,在保持計算效率的同時,能夠更好地捕捉點(diǎn)云中的顆粒度信息。文[9]提出的SA-SSD在點(diǎn)級幾何屬性的監(jiān)督下引入輔助網(wǎng)絡(luò),以增強(qiáng)三維特征體的相關(guān)性。Deng等[10]提出了體素RoI池,用于從粗體素中提取RoI特征?;邳c(diǎn)和體素融合的方法可以獲得較好的檢測精度,但推理時間較長。
與此同時,圖網(wǎng)絡(luò)在各種應(yīng)用場景中也取得了不錯的效果,比如圖結(jié)構(gòu)數(shù)據(jù)處理[11],圖池化[2]知識圖譜[13]等。文[14]中對圖網(wǎng)絡(luò)在特征提取方面的能力做了探討。通過結(jié)合不同的聚合操作和拓?fù)浣Y(jié)構(gòu),構(gòu)建出不同的圖網(wǎng)絡(luò)模型,比如,從鄰域中聚合信息的圖網(wǎng)絡(luò)模型有GAT[15],圖歸納表示學(xué)習(xí)[16]等。此外,拓?fù)浣Y(jié)構(gòu)的設(shè)計對模型容量的提高也很重要,比如圖結(jié)構(gòu)的跳躍連接[17],圖搜索[18]等。但是隨著網(wǎng)絡(luò)的加深,節(jié)點(diǎn)噪聲問題和網(wǎng)絡(luò)過度平滑的問題不容忽視。在自動駕駛的三維目標(biāo)檢測方面,如Point-GNN 和PointRGCN 等[19-20],雖然它們在KITTI基準(zhǔn)上取得了很高的精度,但在大規(guī)模點(diǎn)云上進(jìn)行構(gòu)圖的過程非常耗時。在實(shí)際自動駕駛場景中,由于目標(biāo)尺度差異大,導(dǎo)致小目標(biāo)的檢測精度仍然存在較大的提升空間。
為了充分發(fā)揮圖網(wǎng)絡(luò)在三維目標(biāo)檢測方面的優(yōu)勢并解決上述問題,本文提出了一種基于融合采樣和圖網(wǎng)絡(luò)的三維目標(biāo)檢測算法。首先,引入融合采樣技術(shù)對原始點(diǎn)云進(jìn)行采樣;其次,對采樣后的點(diǎn)云利用K-NN算法進(jìn)行圖構(gòu)造;最后,通過對構(gòu)造的圖采用特征交互機(jī)制,提高網(wǎng)絡(luò)特征提取的能力,以達(dá)到提高目標(biāo)檢測效果的目的。
本文的主要創(chuàng)新點(diǎn)如下:
1)針對原始點(diǎn)云數(shù)量龐大的問題,提出了點(diǎn)云的融合采樣機(jī)制,重新構(gòu)造采樣層,從而減少點(diǎn)云數(shù)據(jù)量,保留點(diǎn)云的重要特征,提高計算效率。
2)引入特征交互機(jī)制,使得嵌入圖模型進(jìn)行特征提取的過程中,圖網(wǎng)絡(luò)中的節(jié)點(diǎn)能夠更好地融合鄰居節(jié)點(diǎn)的狀態(tài)信息,解決了目標(biāo)尺度過大和目標(biāo)檢測精度不高的問題
3)采用Focalloss損失函數(shù)來代替普通交叉熵?fù)p失函數(shù),能夠降低背景點(diǎn)在訓(xùn)練中所占的比重,提高圖模型在訓(xùn)練中對前景點(diǎn)的關(guān)注,從而進(jìn)一步提升檢測效果
1融合采樣和特征交互模塊的設(shè)計
基于融合采樣和圖網(wǎng)絡(luò)的三維目標(biāo)檢測算法由3個主要模塊組成:點(diǎn)云圖構(gòu)造模塊、特征交互模塊和目標(biāo)檢測框生成模塊。首先,用特征最遠(yuǎn)點(diǎn)采樣和距離最遠(yuǎn)點(diǎn)采樣融合的采樣方式對原始點(diǎn)云進(jìn)行采樣,獲得更加具有表征能力的點(diǎn)集。然后,采用K近鄰(K-NN)算法構(gòu)建每個點(diǎn)的局部鄰域,將每個點(diǎn)的屬性作為圖中節(jié)點(diǎn)屬性,這樣構(gòu)建的圖結(jié)構(gòu)可以更好地捕捉點(diǎn)云中點(diǎn)與點(diǎn)之間的上下文關(guān)系。接下來,通過特征交互機(jī)制實(shí)現(xiàn)了圖模型中節(jié)點(diǎn)的特征信息交互,從而進(jìn)一步增強(qiáng)了特征的表達(dá)能力;最后是目標(biāo)檢測框的生成。綜合考慮上下文信息和特征交互,提高了三維目標(biāo)檢測的準(zhǔn)確性和魯棒性。算法流程圖如圖1所示。

1.1點(diǎn)云的圖構(gòu)造模塊
為了減少點(diǎn)云建圖過程中時間開銷的問題,研究設(shè)計了一個融合距離最遠(yuǎn)點(diǎn)采樣和特征最遠(yuǎn)點(diǎn)采樣的融合采樣器。該采樣器包括使用特征最遠(yuǎn)點(diǎn)采樣方法對原始點(diǎn)云進(jìn)行采樣,保留具有豐富信息和多樣性的點(diǎn),同時使用距離最遠(yuǎn)點(diǎn)采樣方法對點(diǎn)云進(jìn)行采樣,保證采樣后的點(diǎn)集具有較大的空間分布和全局上下文信息。將距離最遠(yuǎn)點(diǎn)采樣和特征最遠(yuǎn)點(diǎn)采樣的點(diǎn)集合并,綜合考慮空間分布和點(diǎn)云特征多樣性。接著,使用K-NN算法選擇每個點(diǎn)的K個最近鄰點(diǎn),并用邊將它們連接起來構(gòu)建點(diǎn)云語義圖。點(diǎn)云構(gòu)圖模塊的設(shè)計綜合考慮點(diǎn)之間的空間分布和點(diǎn)特征多樣性,以獲得更具表征能力的采樣點(diǎn)集,平衡空間信息和語義信息。
1. 1.1 點(diǎn)云融合采樣
本研究使用的KITT3D數(shù)據(jù)集,單幀點(diǎn)云文件中包含大約12萬個點(diǎn),直接對原始點(diǎn)云進(jìn)行構(gòu)圖的時間開銷非常大。文[21]中提出特征最遠(yuǎn)點(diǎn)采樣(Feature-FPS,F(xiàn)-FPS)思想,將空間距離和語義信息加權(quán)融合作為特征最遠(yuǎn)點(diǎn)的采樣準(zhǔn)則 C ,見式(1)。其中: λ 為平衡因子; Ld(A,B) 為A點(diǎn)和B點(diǎn)之間的歐幾里得距離; Lf 則為兩點(diǎn)的特征距離。但是如果僅使用特征最遠(yuǎn)點(diǎn)采樣的方法會導(dǎo)致負(fù)樣本被過多地丟棄。
C(A,B)=λLd(A,B)+Lf(A,B)
另一方面,由于距離最遠(yuǎn)點(diǎn)采樣(Distance-FPS,D-FPS)主要依據(jù)點(diǎn)之間的相對位置進(jìn)行采樣,而忽略了點(diǎn)的語義信息。為了解決此問題,本研究設(shè)計了一個融合距離最遠(yuǎn)點(diǎn)采樣方法和特征最遠(yuǎn)點(diǎn)采樣方法的融合采樣器,采樣器如圖2所示。該采樣器的目標(biāo)是在點(diǎn)云建圖過程中綜合考慮點(diǎn)之間的空間分布和點(diǎn)特征的多樣性,以獲取更具表征能力的采樣點(diǎn)集。

首先,使用特征最遠(yuǎn)點(diǎn)采樣方式根據(jù)點(diǎn)的特征相似性對原始點(diǎn)云進(jìn)行采樣,以保留正樣本點(diǎn)和具有豐富信息的點(diǎn),提高了特征的多樣性。同時,使用距離最遠(yuǎn)點(diǎn)采樣方式,根據(jù)點(diǎn)與其他點(diǎn)的距離進(jìn)行采樣,以確保采樣后的點(diǎn)集具有較大的空間分布。通過上述采樣方式,在保留多的正樣本點(diǎn)的同時保留了全局的上下文信息[22]。此后,將距離最遠(yuǎn)點(diǎn)采樣獲得的點(diǎn)集和特征最遠(yuǎn)點(diǎn)采樣獲得的點(diǎn)集進(jìn)行合并。融合兩種點(diǎn)云采樣方式,綜合考慮點(diǎn)之間的空間分布和點(diǎn)特征多樣性,確保采樣后的點(diǎn)集更好地平衡空間信息和語義信息,從而更好地捕捉自標(biāo)物體的形狀、結(jié)構(gòu),獲得具有更強(qiáng)表征能力的采樣后點(diǎn)云集合。
1. 1. 2 圖構(gòu)造
基于1.1.1中采樣后的點(diǎn)云,進(jìn)行點(diǎn)云語義圖的構(gòu)造。為了構(gòu)建點(diǎn)云的語義圖,本研究將融合采樣后的點(diǎn)集表示為一個包含 N 個點(diǎn)的集合 P ,定義為 P={p1,…,pv}∈R3 ,其中 pi=(xi,si) 是一個具有三維坐標(biāo) xi 和狀態(tài)值 si 的點(diǎn)。對于給定的點(diǎn)云P ,本研究使用K-NN算法來選擇每個點(diǎn)的 K 個最近鄰點(diǎn),構(gòu)建點(diǎn)云的K-NN圖。
具體而言,對于每個 pi∈P ,通過計算其與其他點(diǎn)之間的歐幾里得距離,選擇距離最近的 K 個點(diǎn)作為其鄰居,這樣就能得到每個點(diǎn)的鄰居集合 K(pi) ,其中 K(pi) 表示距離 pi 最近的 K 個點(diǎn)。
E={(pi,pj)∣pj∈K(pi)}
構(gòu)建圖 G=(P,E) ,其中 P 是點(diǎn)集, E 是邊的集合。對點(diǎn)集使用K-NN算法進(jìn)行構(gòu)圖能夠更好地捕捉點(diǎn)云的幾何結(jié)構(gòu)和拓?fù)潢P(guān)系,對點(diǎn)云進(jìn)行結(jié)構(gòu)化表示能夠使每個點(diǎn)在局部環(huán)境中的上下文被更好的理解,提高算法的性能和魯棒性。點(diǎn)云的圖構(gòu)造如圖3所示。

本實(shí)驗(yàn)采用基于圖采樣的方法[23],利用隨機(jī)節(jié)點(diǎn)采樣和隨機(jī)邊采樣來解決圖卷積層數(shù)目過多導(dǎo)致的過平滑問題,以及圖數(shù)據(jù)處理過程中內(nèi)存消耗過大的問題。節(jié)點(diǎn)的采樣概率分布 p(v) 見式(3),其中 A 表示兩節(jié)點(diǎn)歸一化的鄰接矩陣。隨機(jī)邊采樣器根據(jù)大圖中邊的分布概率進(jìn)行采樣得到子圖,采樣概率分布 p(e) 見式(4),其中
表示節(jié)點(diǎn)的度。


1.2 特征交互模塊
在基準(zhǔn)模型中,圖卷積僅計算點(diǎn)云的空間特征,忽略了點(diǎn)云的狀態(tài)屬性,尤其是目標(biāo)節(jié)點(diǎn)的狀態(tài)。為了解決這個問題,引入了目標(biāo)節(jié)點(diǎn)的狀態(tài) Si 和相鄰節(jié)點(diǎn)的狀態(tài) Sj ,除了考慮點(diǎn)云的坐標(biāo)外,還考慮了目標(biāo)節(jié)點(diǎn)的屬性。通過添加目標(biāo)節(jié)點(diǎn)自身的屬性,彌補(bǔ)點(diǎn)云中信息的不足,并進(jìn)一步增強(qiáng)節(jié)點(diǎn)的特征。
特征交互模塊分為三個部分:首先,通過連接的邊傳遞節(jié)點(diǎn)的特征信息,獲得邊和點(diǎn)的特征。其次,為了減少節(jié)點(diǎn)噪聲問題,借鑒文[24]中Fi-GNN的思想,使用門控循環(huán)單元和殘差連接更新節(jié)點(diǎn)特征狀態(tài)。最后,設(shè)計了圖注意力機(jī)制,通過加權(quán)節(jié)點(diǎn)間的交互,突出重要節(jié)點(diǎn)之間的關(guān)系。
1. 2.1 特征聚合
如圖4所示,在特征聚合的過程中,首先需要提取節(jié)點(diǎn)之間的邊特征。對于每個節(jié)點(diǎn) i ,圖網(wǎng)絡(luò)考慮了它與鄰居節(jié)點(diǎn)之間的連接關(guān)系。首先,計算節(jié)點(diǎn)i和鄰居節(jié)點(diǎn) j 之間的相對坐標(biāo)差值以及節(jié)點(diǎn) j 的狀態(tài)特征 Sjt 作為輸入。其次,通過函數(shù)計算得到邊的特征。這個邊的特征反映了節(jié)點(diǎn) i 和鄰居節(jié)點(diǎn) j 之間的關(guān)系信息。最后,對邊的特征進(jìn)行聚合。對于節(jié)點(diǎn) i ,將與其相連的所有鄰居節(jié)點(diǎn)的邊特征用最大值函數(shù)進(jìn)行聚合,得到節(jié)點(diǎn) i 的鄰居信息。這樣可以將鄰居節(jié)點(diǎn)的關(guān)系信息整合到節(jié)點(diǎn) i 的特征中,豐富了節(jié)點(diǎn)的表示。

1. 2.2 特征更新
圖卷積操作對每個輸入的節(jié)點(diǎn)特征進(jìn)行聚合,生成新的特征表示。針對點(diǎn)云的狀態(tài)屬性,尤其是目標(biāo)節(jié)點(diǎn)的狀態(tài)很容易被忽略的問題,本研究引入了目標(biāo)節(jié)點(diǎn)的狀態(tài)和鄰居節(jié)點(diǎn)的狀態(tài)。為了減少聚合過程中節(jié)點(diǎn)噪聲問題,本研究使用門控循環(huán)單元和殘差連接的方式在深度特征圖上進(jìn)行圖節(jié)點(diǎn)的狀態(tài)更新。
節(jié)點(diǎn)狀態(tài)更新的計算過程如式(5)所示,其中: Φt 為迭代過程中的計數(shù); s 為每個狀態(tài)節(jié)點(diǎn)的特征; i 為節(jié)點(diǎn)的索引 ?j 為 i 的鄰居節(jié)點(diǎn)索引; N(i) 為節(jié)點(diǎn) i 的鄰居節(jié)點(diǎn)的集合; F 函數(shù)為消息傳遞的可微函數(shù);ρ 函數(shù)為鄰居節(jié)點(diǎn)特征的聚合函數(shù); ut 函數(shù)為節(jié)點(diǎn)狀態(tài)的更新方法。每個節(jié)點(diǎn) n 都與一個隱藏狀態(tài)特征向量 hi′ 相關(guān)聯(lián)點(diǎn)云構(gòu)圖的每個初始節(jié)點(diǎn)狀態(tài) H1 ,通過圖中的門控循環(huán)單元(GateRecurrentUnit,GRU)模塊對節(jié)點(diǎn)狀態(tài)進(jìn)行更新和信息融合,如圖5所示。在每個時間步中,GRU模塊接收當(dāng)前節(jié)點(diǎn)的特征表示和前一時間步的節(jié)點(diǎn)狀態(tài)作為輸入,并輸出當(dāng)前時間步的節(jié)點(diǎn)狀態(tài)。通過GRU模塊的更新過程,節(jié)點(diǎn)狀態(tài)能夠根據(jù)當(dāng)前節(jié)點(diǎn)的特征和前一時間步的狀態(tài)來適應(yīng)不同的上下文和信息變化,這樣可以更好地綜合利用節(jié)點(diǎn)特征和歷史狀態(tài)信息,使節(jié)點(diǎn)狀態(tài)具有記憶性和動態(tài)適應(yīng)性。通過節(jié)點(diǎn)狀態(tài)的更新和信息融合,提高了節(jié)點(diǎn)的表示能力和模型的表達(dá)能力,使得點(diǎn)云構(gòu)圖模型能夠更好地捕捉節(jié)點(diǎn)之間的關(guān)系和局部上下文信息,提高了模型在點(diǎn)云任務(wù)處理中的性能和準(zhǔn)確性。

節(jié)點(diǎn)與鄰居節(jié)點(diǎn)的狀態(tài)信息進(jìn)行聚合,可以捕捉節(jié)點(diǎn)之間的關(guān)系。這個聚合過程如式(7)所示:
hit=fGRU(hit-1,ait)
其中 h 表示節(jié)點(diǎn)的特征向量。此后,更新后的節(jié)點(diǎn)信息通過循環(huán)模塊和殘差連接進(jìn)行融合,從而更新節(jié)點(diǎn)的狀態(tài)。在節(jié)點(diǎn)的特征交互過程中,每個節(jié)點(diǎn)會聚合來自鄰居節(jié)點(diǎn)的狀態(tài)信息。

式(8)中,節(jié)點(diǎn) ni 是特征聚合的信息,是其鄰居轉(zhuǎn)換后的狀態(tài)信息的總和。這個特征聚合過程通過變換函數(shù)W和鄰接矩陣 L 來進(jìn)行,其中W函數(shù)用于對節(jié)點(diǎn)的狀態(tài)信息進(jìn)行轉(zhuǎn)換,而 L 函數(shù)是包含邊權(quán)值的鄰接矩陣。 L[nj,ni] 是節(jié)點(diǎn) nj 到 ni 的邊的權(quán)值,可以反映它們之間相互影響的參數(shù)權(quán)重。變換函數(shù)W和鄰接矩陣 L 決定了圖中每個節(jié)點(diǎn)的相互作用,由于圖中每個節(jié)點(diǎn)之間的相互作用不同,因此,在實(shí)現(xiàn)邊的相互作用時,需要為每一條邊確定唯一的權(quán)值和轉(zhuǎn)換函數(shù)。
在深度特征圖上進(jìn)行節(jié)點(diǎn)特征聚合后,對目標(biāo)節(jié)點(diǎn)周圍的鄰居節(jié)點(diǎn)進(jìn)行兩次迭代操作,以獲得更廣泛的鄰居信息。提取目標(biāo)節(jié)點(diǎn)的二階鄰域特征之后,將重構(gòu)的語義圖輸人到圖卷積模塊中來減弱節(jié)點(diǎn)噪聲的影響。通過注意力機(jī)制,計算邊的權(quán)值,對節(jié)點(diǎn)特征進(jìn)行更新和賦值。最后進(jìn)行全局池化操作,將圖結(jié)構(gòu)的特征進(jìn)行匯總和壓縮,得到一個全局的特征表示。
1. 2.3 圖注意力模塊
在特征交互模塊中,本研究設(shè)計了一種圖注意力機(jī)制,用于學(xué)習(xí)節(jié)點(diǎn)之間交互的重要性。該機(jī)制通過加權(quán)每個節(jié)點(diǎn)之間的交互,以突出強(qiáng)調(diào)重要節(jié)點(diǎn)之間的交互關(guān)系,如式(9)所示,其中 W 為權(quán)重矩陣。

為了使注意力權(quán)重系數(shù)適應(yīng)不同節(jié)點(diǎn)和不同空間尺度上的鄰居,實(shí)驗(yàn)采用softmax函數(shù)對其進(jìn)行歸一化處理。如式(10)所示,通過應(yīng)用softmax函數(shù),本研究可以將注意力權(quán)重系數(shù)轉(zhuǎn)化為概率分布,使得權(quán)重系數(shù)能夠合理地反映不同鄰居節(jié)點(diǎn)之間的相對重要性,從而更好地捕捉節(jié)點(diǎn)之間的交互關(guān)系,并為進(jìn)一步的特征計算提供可靠的權(quán)重,從而有效地適應(yīng)不同節(jié)點(diǎn)和不同空間尺度上的鄰居關(guān)系,提高模型的性能和泛化能力。

通過圖注意力模塊的設(shè)計,圖網(wǎng)絡(luò)能夠自適應(yīng)學(xué)習(xí)節(jié)點(diǎn)之間的交互權(quán)重,從而更好地捕捉圖節(jié)點(diǎn)之間交互的重要性。圖網(wǎng)絡(luò)根據(jù)數(shù)據(jù)的特征和上下文來動態(tài)調(diào)整注意力權(quán)重,使得重要的節(jié)點(diǎn)之間的交互得到更高的關(guān)注和權(quán)重,而對于不重要的節(jié)點(diǎn),則可以降低其影響力。通過這種自適應(yīng)學(xué)習(xí)的機(jī)制,圖網(wǎng)絡(luò)可以更有效地利用節(jié)點(diǎn)之間的關(guān)系,并提高其性能和表達(dá)能力。
1.3 目標(biāo)檢測框的生成模塊
在本研究中,使用的KITTI數(shù)據(jù)集包含三維目標(biāo)檢測邊界框 B=(x,y,z,l,w,h,θ) 。其中: (x,y z )為檢測框的中心點(diǎn)坐標(biāo); (l,w,h) 為檢測框中心點(diǎn)測量出來的長、寬、高; θ 為以 z 軸進(jìn)行旋轉(zhuǎn),測量所得的偏角如下式:



本研究采用了與文[19]相同的方式,通過考慮整個重疊邊界框集合來計算合并邊界框。對于給定的一組重疊的邊界框集合,計算遮擋因子 Oi ,其中,Vil,Viw,Vih 為其方向上的單位向量,計算公式如下:
對于每個邊界框 bi ,將其分類乘以比因子和遮擋因子進(jìn)行加權(quán),邊界框置信度得分如下:

其中: ci 為邊界框的置信度得分; Cs 為分類得分; Ri 為交并比因子,用于衡量邊界框與其他邊界框的重疊程度; Oi 為遮擋因子,表示物體的遮擋程度。
首先,根據(jù)邊界框的置信度得分進(jìn)行排序,選擇置信度得分最高的邊界框作為起始邊界框。其次,對于起始邊界框逐個考慮與其重疊的其他邊界框。根據(jù)重疊邊界框的位置和大小,計算集合中中位數(shù)的位置和大小,并將其作為合并后的邊界框位置和大小。最后,將起始邊界框和合并之后的邊界框從重疊邊界集合中移除,繼續(xù)重復(fù)以上步驟,直到?jīng)]有更多的重疊邊界框可合并。
利用整個重疊框群來計算合并框的方式,可以顯著提高目標(biāo)檢測的準(zhǔn)確性,并更全面地考慮目標(biāo)的位置、大小和遮擋等因素,從而提升了目標(biāo)檢測的性能?;谌诤喜蓸雍蛨D網(wǎng)絡(luò)的三維目標(biāo)檢測的網(wǎng)絡(luò)架構(gòu)圖如圖6所示。

2 實(shí)驗(yàn)
2.1 數(shù)據(jù)集
本文采用了KITTI3D數(shù)據(jù)集作為公開的數(shù)據(jù)來源。該數(shù)據(jù)集由7481個訓(xùn)練圖像樣本和7528個測試圖像樣本組成,同時還包含相應(yīng)的點(diǎn)云數(shù)據(jù)。整個數(shù)據(jù)集共標(biāo)記了80256個對象,每個樣本都包含了點(diǎn)云數(shù)據(jù)和相應(yīng)的RGB圖像。在進(jìn)行三維目標(biāo)檢測的過程中,本研究使用點(diǎn)云數(shù)據(jù)進(jìn)行計算,RGB圖像用于結(jié)果的可視化展示。KITTI3D數(shù)據(jù)集字段說明如表1所示。

對于表1中的字段,KITTI3D數(shù)據(jù)集的標(biāo)簽包括汽車,行人和騎行者等9個類別,本實(shí)驗(yàn)主要針對前3個類別進(jìn)行展開。數(shù)據(jù)集依據(jù)最小邊界框的高度,像素以及遮擋級別3個因素,將檢測場景的困難程度定義為簡單,中等和難3個級別。在實(shí)驗(yàn)中使用LiDAR點(diǎn)云作為輸入,共有7481個訓(xùn)練樣本,其中3712個樣本用于訓(xùn)練,剩下的3769個樣本用于驗(yàn)證。訓(xùn)練數(shù)據(jù)的樣本如表2所示。

2.2 實(shí)驗(yàn)環(huán)境
考慮到數(shù)據(jù)集中不同目標(biāo)的尺度差異,在實(shí)驗(yàn)中采用2個不同的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。首先,訓(xùn)練1個針對較大目標(biāo)的網(wǎng)絡(luò)模型,主要用于汽車等大型目標(biāo)的檢測。其次,針對行人和騎行者訓(xùn)練了另一個網(wǎng)絡(luò)模型,以更好地適應(yīng)這些較小目標(biāo)的尺度特征。通過這種方式,提高目標(biāo)檢測的準(zhǔn)確性和魯棒性,更好地適應(yīng)不同目標(biāo)的尺度特征。
在實(shí)驗(yàn)過程中,為了確保系統(tǒng)和各種框架之間的兼容性,本次實(shí)驗(yàn)使用的環(huán)境配置如表3所示。

本實(shí)驗(yàn)參數(shù)采用試湊法確定,比較不同取值在驗(yàn)證集上的準(zhǔn)確率來評估它們的表現(xiàn),最終將準(zhǔn)確率最高的值作為參數(shù)值。在針對汽車目標(biāo)的訓(xùn)練網(wǎng)絡(luò)中,epoch設(shè)置為250,初始學(xué)習(xí)率設(shè)置為0.125,同時每10個epoch的衰減指數(shù)為0.1。而在行人和騎行者的檢測網(wǎng)絡(luò)中,epoch設(shè)置為200,初始學(xué)習(xí)率設(shè)置為0.32,同時每10個epoch的衰減指數(shù)為0.25。這樣的參數(shù)設(shè)置能夠更好地適應(yīng)行人和騎行者這些較小目標(biāo)的特點(diǎn)。使用SGD優(yōu)化器優(yōu)化模型,動量系數(shù)設(shè)置為0.9,初始學(xué)習(xí)率設(shè)置為0.1,并使用余弦退火衰減策略來動態(tài)調(diào)整學(xué)習(xí)率。訓(xùn)練參數(shù)見表4。

2.3 損失函數(shù)
在實(shí)際場景中,點(diǎn)云數(shù)據(jù)的目標(biāo)前景點(diǎn)和背景點(diǎn)的數(shù)量差距較大。為了提高對前景點(diǎn)的挖掘能力,本研究采用Focalloss[25]損失函數(shù)來代替?zhèn)鹘y(tǒng)的交叉熵?fù)p失函數(shù)。在實(shí)驗(yàn)過程中,該損失函數(shù)通過增加類別權(quán)重和修改交叉熵函數(shù)的方法,使得圖網(wǎng)絡(luò)模型在訓(xùn)練時更加關(guān)注前景點(diǎn),從而有效降低了大量背景點(diǎn)在訓(xùn)練中所占的權(quán)重。

其中: p 為有標(biāo)簽的估計概率, p=sigmoid(x);pt 為后驗(yàn)概率。式(15)中, CE 為交叉熵?fù)p失函數(shù),用于衡量預(yù)測和真實(shí)之間的差異。Focalloss損失函數(shù)公式定義見式(16)。
CE(p,y)=CE(pt)=-log(pt)
εFL(pt)=-(1-pt)γlog(pt)

其中 γ 為權(quán)重調(diào)節(jié)系數(shù),通過調(diào)整權(quán)重,減少分類樣本的權(quán)重,使模型更專注于難例樣本,見式(17)。

Focalloss損失函數(shù)通過放大難以分類的樣本的損失值,使得模型更加專注于學(xué)習(xí)和區(qū)分困難樣本,提高整體分類性能,幫助模型更好地處理具有挑戰(zhàn)性的樣本,提高模型的魯棒性和準(zhǔn)確性。
2.4 評價指標(biāo)
對于本研究進(jìn)行的3D目標(biāo)檢測任務(wù),實(shí)驗(yàn)選取精度(Precision),召回率(Recall)和平均精度作為本次模型的評價指標(biāo)來驗(yàn)證,見式(18)。在本實(shí)驗(yàn)的汽車的檢測網(wǎng)絡(luò)中,TP是IoU閾值大于0.7的樣本,在實(shí)驗(yàn)的行人和騎行者檢測網(wǎng)絡(luò)中,TP為IoU閾值大于0.5的樣本。

其中:TP為被模型預(yù)測為正類的正樣本;TN為被模型預(yù)測為負(fù)類的負(fù)樣本;FP為被模型預(yù)測為正類的負(fù)樣本;FN為被模型預(yù)測為負(fù)類的正樣本; SAP 是某一類的 P-R 曲線下的面積。
2.5 實(shí)驗(yàn)結(jié)果和分析
表5給出了模型運(yùn)行時間,根據(jù)表5的實(shí)驗(yàn)數(shù)據(jù)分析,改進(jìn)后的模型在圖像生成、圖卷積和總運(yùn)行時間方面表現(xiàn)出較快的速度,約為0.45秒。實(shí)驗(yàn)中將K-NN算法的K值設(shè)置為50來構(gòu)建圖,在引入融合采樣機(jī)制和K-NN算法后,圖卷積的運(yùn)行時間約為0.2秒,提高了模型的效率。然而,由于點(diǎn)云數(shù)據(jù)集中目標(biāo)的尺度差異,圖網(wǎng)絡(luò)模型在測試不同類別時的時間性能存在較大差距,因此,模型在處理不同類別的目標(biāo)時,所需的時間也會有所不同??傮w而言,改進(jìn)后的模型在時間性能方面表現(xiàn)良好,但在處理不同目標(biāo)類別時有一定的時間差異。

在實(shí)驗(yàn)中使用了LiDAR點(diǎn)云作為輸人,共有7481個訓(xùn)練樣本。其中3712個樣本用于訓(xùn)練,剩下的3769個樣本用于驗(yàn)證。為了增強(qiáng)數(shù)據(jù)并防止過擬合,采用了3種常見的數(shù)據(jù)增強(qiáng)方式。首先,從其他場景中隨機(jī)采樣地面真值對象,將其添加到當(dāng)前場景中,以豐富數(shù)據(jù)。其次,對單個真實(shí)的物點(diǎn)進(jìn)行局部增強(qiáng),如隨機(jī)旋轉(zhuǎn)和平移,以引入多樣性并增加模型的魯棒性。最后,對整個場景進(jìn)行全局增強(qiáng),包括隨機(jī)旋轉(zhuǎn)、平移和翻轉(zhuǎn),以進(jìn)一步擴(kuò)展訓(xùn)練數(shù)據(jù)集。
在設(shè)計圖網(wǎng)絡(luò)結(jié)構(gòu)時,本研究遵循文「19]的方式,圖卷積的層數(shù)設(shè)置為3,每個頂點(diǎn)最大輸人的邊數(shù)為256。對于汽車類目標(biāo),設(shè)置4個類別,包括側(cè)視車輛、前視車輛、背景類以及其他類,對于騎行者和行人在汽車類的目標(biāo)檢測任務(wù)中,設(shè)置6個類別,包括騎行者和行人的前視和側(cè)視類別、背景類以及其他類。對于位置估計的MLP層有64個特征維度,64個隱藏層維度以及7個參數(shù),包括目標(biāo)的位置坐標(biāo),以及長、寬、高和旋轉(zhuǎn)信息。
表6將本文與在三維目標(biāo)任務(wù)上近幾年來其他經(jīng)典算法對比,表中,下方有橫線的數(shù)值為各個類別最佳的檢測精度。這些算法模型包括兩階段的目標(biāo)檢測模型和單階段的目標(biāo)檢測模型,以及利用不同類型傳感器數(shù)據(jù)的模型。從中可以看出,本文提出的方法在對汽車類別的目標(biāo)檢測任務(wù)和對騎行者的目標(biāo)檢測任務(wù)中表現(xiàn)優(yōu)異。相較于文[19]中的基準(zhǔn)網(wǎng)絡(luò),檢測精度在各個類別中均全面提升。


由表6的實(shí)驗(yàn)結(jié)果可以得出,本實(shí)驗(yàn)在對KITTI3D數(shù)據(jù)集中的汽車類別進(jìn)行檢測時,對簡單目標(biāo)的平均精度提升效果不明顯,但是對中等檢測難度的目標(biāo)精度提升效果顯著。相比于文[19]的基準(zhǔn)模型,本實(shí)驗(yàn)的中等難度場景平均精度提升了3.89% ,難例目標(biāo)平均精度提升了 2.85% 。在行人類別的實(shí)驗(yàn)中,檢測結(jié)果雖沒達(dá)到最優(yōu),但是在簡單場景、中等難度場景和復(fù)雜場景中都全面超過了基準(zhǔn)模型。其中,在復(fù)雜場景的實(shí)驗(yàn)結(jié)果相較于基準(zhǔn)模型提升了 8.02% 。在騎行者類別中,較于文[19]也有很大的提升。在騎行者類別的簡單場景中平均精度提升了 6.60% ,在中等難度場景中平均精度提升了 4.36% ,在復(fù)雜場景中平均精度提升了 3.38% 。
圖7展示了本研究在點(diǎn)云上進(jìn)行目標(biāo)檢測的實(shí)驗(yàn)結(jié)果的可視化圖。本研究的實(shí)驗(yàn)結(jié)果與文[19]的汽車類目標(biāo)檢測結(jié)果相比,對在小目標(biāo)檢測方面的效果提升尤為明顯。針對基準(zhǔn)模型在檢測場景中對象較多和對于距離較遠(yuǎn)處的目標(biāo)出現(xiàn)漏檢的情況,本研究改進(jìn)的模型通過引入點(diǎn)云的融合采樣機(jī)制,重新構(gòu)造了采樣層;引人特征交互機(jī)制使得圖模型中的節(jié)點(diǎn)能夠更好地融合鄰居節(jié)點(diǎn)的狀態(tài)信息;采用Focalloss損失函數(shù)代替?zhèn)鹘y(tǒng)的交叉熵?fù)p失函數(shù),提高了對目標(biāo)內(nèi)點(diǎn)的關(guān)注度。雖然改進(jìn)的模型尚未完全檢測出所有目標(biāo),但相對于基準(zhǔn)模型有了很大的提升。

在KITTI3D數(shù)據(jù)集中,對汽車類別進(jìn)行融合采樣和特征交互模塊的消融實(shí)驗(yàn),具體數(shù)據(jù)對比結(jié)果如表7所示。

由上述實(shí)驗(yàn)不難看出,僅使用融合采樣模塊,汽車類別在簡單,中等和復(fù)雜情況下的平均精度分別為 86.45% , 81.31% , 73.11% ;僅使用特征交互模塊,汽車類別在簡單,中等和復(fù)雜情況下的平均精度分別為 87.52% , 82.50% , 74.63% ;同時使用融合采樣和特征交互模塊時,在三種不同復(fù)雜難度的場景下的平均精度分別為 88.37% , 82.56% ,74.35% 。因此,通過使用融合采樣和特征交互模塊的組合,可以顯著提高三維目標(biāo)的檢測性能。
3結(jié)語
本文研究了基于圖模型的三維點(diǎn)云目標(biāo)檢測的應(yīng)用,提出了一種基于融合采樣和圖網(wǎng)絡(luò)的三維目標(biāo)檢測算法。針對原始點(diǎn)云數(shù)量龐大的問題,引入點(diǎn)云的融合采樣技術(shù),重構(gòu)采樣層,這種融合采樣的方式綜合了特征最遠(yuǎn)點(diǎn)采樣和距離最遠(yuǎn)點(diǎn)采樣的優(yōu)點(diǎn),減少點(diǎn)云數(shù)據(jù)量大小的同時保留了點(diǎn)云的重要特征,從而提高了計算效率。針對目標(biāo)尺度差距過大和三維場景下小目標(biāo)檢測精度不高的問題,引入特征交互機(jī)制,通過嵌入圖模型進(jìn)行特征提取的過程,使得圖網(wǎng)絡(luò)中的節(jié)點(diǎn)能夠更好地融合鄰居節(jié)點(diǎn)的狀態(tài)信息。為了進(jìn)一步提升檢測效果,采用Focalloss損失函數(shù)代替普通的交叉熵?fù)p失函數(shù),F(xiàn)ocalloss損失函數(shù)能夠降低背景點(diǎn)在訓(xùn)練中的比重,提高圖模型對前景點(diǎn)的關(guān)注度,通過這種方式,使得本實(shí)驗(yàn)在訓(xùn)練過程中更加關(guān)注小目標(biāo),進(jìn)一步提升了檢測效果。結(jié)果表明,對于小目標(biāo)檢測效果不佳的問題,基于融合采樣和圖網(wǎng)絡(luò)的三維目標(biāo)檢測算法,通過融合采樣方法、特征交互機(jī)制和Focalloss損失函數(shù),成功提升了小目標(biāo)的檢測效果。該算法在實(shí)際場景中的三維目標(biāo)檢測任務(wù)中具有廣泛的應(yīng)用潛力。
參考文獻(xiàn):
[1]QI C R, SU H,MO K,et al. Pointnet:Deep Learning on Point Sets for 3d Classification and Segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017 : 652.
[2]QI C R,YIL,SUH,et al.Pointnet + + :Deep Hierarchical Feature Learning on Point Sets in a Metric Space [J].Advances in Neural Information Processing Systems,2017,30.
[3]SHI S,WANG X,LI H. Pointrcnn: 3d Object Proposal Generation and Detection from Point Cloud [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 770.
[4]YANG Z, SUN Y, LIU S,et al. Std: Sparse-to-dense 3d Object Detector for Point Cloud[ C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019:1951.
[5]SHI S, WANG Z,SHI J,et al. From Points to Parts: 3d Object Detection from Point Cloud with Part-aware and Part-aggregation Network[J]. IEEE Transactions on Pattern Analysisand Machine Intelligence,2O20,43 (8):2647.
[6]LIU Z,TANG H,LIN Y,et al. Point-voxelcnn for Efficient 3d Deep Learning[J]. Advances in Neural Information Processing Systems , 2019: 32.
[7]SHI S,GUO C,JIANG L, et al. Pv-rcnn: Point-voxel Feature Set Abstraction for 3d Object Detection[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2020: 10529.
[8] SHI S,JIANG L,DENG J,et al.PV-RCNN + +: Point-voxel Feature Set Abstraction with Local Vector Representation for 3D Object Detection[J]. International Journal of Computer Vision,2023,131(2): 531.
[9]HE C, ZENG H,HUANG J,et al. Structure Aware Single-stage 3d Object Detection from Point Cloud[ C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020:11873.
[10]DENG J,SHI S,LI P,et al.Voxel R-cnn:Towards High Performance Voxel-based 3d Object Detection [C]//Proceedings of the AAAI Conference on Artificial Intelligence,2021,35(2):1201.
[11] PEI H,WEI B,CHANG K CC, et al. Geom-gcn: Geometric Graph Convolutional Networks[J]. arXiv Preprint arXiv:2002.05287,2020.
[12]WEI L,ZHAO H,YAO Q,et al. Pooling Architecture Search for Graph Classification[C]//Proceedings of the 30th ACM International Conference on Information amp; Knowledge Management, 2021: 2091.
[13] ZHANG Y, YAO Q,DAI W, et al. AutoSF: Searching Scoring Functions for Knowledge Graph Embedding [C]//2020 IEEE 36th International Conference on Data Engineering(ICDE),IEEE,2020:433.
[14]XU K,HU W,LESKOVEC J,et al. How Powerful Are Graph Neuralnetworks?[J]. arXiv Preprint arXiv:1810. 00826,2018.
[15] VELICKOVI C P, CUCURULL G, CASANOVA A, et al. Graph Attention Networks[J]. arxiv Preprint arxiv:1710. 10903,2017.
[16]HAMILTON W, YING Z, LESKOVEC J. Inductive Representation Learning on Large Graphs[J]. Advances in Neural Information Processing Systems, 2017, 30.
[17]XU K,LI C, TIAN Y,et al. Representation Learning on Graphs with Jumping Knowledge Networks[C]//International Conference on Machine Learning,2018: 5453.
[18]GAO Y,YANG H, ZHANG P,et al. Graph Neural Architecture Search[C]//International Joint Conference on Artificial Intelligence. International Joint Conference on Artificial Intelligence,2021.
[19]SHI W,RAJKUMAR R. Point-gnn: Graph Neural Network for 3d Object Detection in a Point Cloud[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 1711.
[20] ZARZAR J,GIANCOLA S,GHANEM B. Point RGCN: Graph Convolution Networks for 3D Vehicles Detection Refinement[J].arXivPreprintarXiv:1911. 12236,2019.
[21] YANG Z,SUN Y, LIU S,et al. 3dssd: Point-based 3d Single Stage Object Detector[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2020:11040.
[22]張培培,呂震宇.基于全局信息的目標(biāo)檢測標(biāo)簽分配 方法[J].哈爾濱理工大學(xué)學(xué)報,2022,27(4):32. ZHANG Peipei,LU Zhenyu. Target Detection Label Assignment Method Based on Global Information[J]. Journal of Harbin University of Science and Technology,2022,27 (4) :32.
[23]李文舉,儲王慧,崔柳,等.結(jié)合圖采樣和圖注意力的 3D 目標(biāo)檢測方法[J].計算機(jī)工程與應(yīng)用,2023,59 (9) : 237. LI Wenju,CHU Wanghui,CUI Liu,et al. 3D Object Detection Method Combining on Graph Sampling and Graph Attention[ J/OL]. Computer Engineering and Applications,2023,59(9): 237.
[24]LI Z,CUI Z,WU S,et al. Fi-gnn: Modeling Feature Interactions Via Graph Neural Networks for Ctr Prediction [C]//Proceedings of the 28th ACM International Conference on Information and KnowledgeManagement, 2019: 539.
[25]YUNP, TAI L,WANG Y,et al. Focal Loss in 3d Object Detection[J]. IEEE Robotics and Automation Letters,2019,4(2) : 1263.
[26] SHI S,WANG Z, SHI J,et al. From Points to Parts: 3d Object Detection from Point Cloud with Part-aware and Part-aggregation Network[J]. IEEE Transactions on Pattern Analysisand Machine Intelligence,2020,43 (8) : 2647.
[27] YANG Z, SUN Y, LIU S,et al. Std: Sparse-to-dense 3d Object Detector for Point Cloud[ C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 1951.
[28] QI C R,LIU W,WU C,et al. Frustumpointnets for 3d Object Detection from Rgb-d Data[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2018: 918.
[29]KU J,MOZIFIAN M,LEE J,et al. Joint 3d Proposal Generation and Object Detection from View Aggregation [C]//2O18 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2018: 1.
[30] WANG Z, JIA K. Frustum Convnet: Sliding Frustums to Aggregate Local Point-wise Features Foramodal 3d Object Detection[C]//2O19 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE,2019: 1742.
[31]YAN Y,MAO Y,LI B. Second:Sparsely Embedded ConvolutionalDetection[J].Sensors,2018,18 (10) : 3337.
[32] ZHOU Y,TUZEL O. Voxelnet:End-to-end Learning for Point Cloud Based 3d Object Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018 : 4490.
[33] LANG A H, VORA S, CAESAR H, et al. Pointpillars: Fast Encoders for Object Detection from Point Clouds [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 12697.
(編輯:溫澤宇)