融合注意力門控機制的大場景點云語義分割

2023-12-12 12:00:18朱芬芬李金萍

激光與紅外 2023年11期

王蕾,朱芬芬,李金萍,劉華

(1.東華理工大學信息工程學院,江西南昌 330013;2.江西省放射性地學大數(shù)據(jù)技術(shù)工程實驗室,東華理工大學,江西南昌 330013;3.東華理工大學測繪工程學院,江西南昌 330013)

1 引言

隨著激光雷達、RGB-D相機等3D傳感器技術(shù)的迅速發(fā)展,激光點云數(shù)據(jù)作為基礎(chǔ)的3D數(shù)據(jù)表達,包含真實世界豐富的信息,受到越來越多的關(guān)注。面向激光點云語義的高效分割可以更好地自動理解場景,已成為解決3D場景理解、環(huán)境感知的關(guān)鍵性技術(shù),并在智能駕駛,機器人視覺等領(lǐng)域中發(fā)揮著關(guān)鍵的作用。

隨著深度學習技術(shù)的興起,利用數(shù)據(jù)驅(qū)動的方式對點云處理取得較好成果,通常可分為三類:基于投影的方法,基于體素的方法和基于點的方法。CHEN[1]和MILIOTO[2]把點云投影成多視角的二維圖像,使用二維卷積神經(jīng)網(wǎng)絡(luò)對圖像進行處理,圖像分割結(jié)果被反投影回三維點云上,實現(xiàn)對三維激光點云的間接處理。MENG[3]和 RIEGLER[4]將三維點云體素化到稠密的三維網(wǎng)格,由體素網(wǎng)格上二進制變量的概率分布表示,然后使用三維卷積等規(guī)則化數(shù)據(jù)處理方法。以上方法解決了點云數(shù)據(jù)非結(jié)構(gòu)化的問題,但在投影或體素化的過程中容易損失原始點云的幾何信息。PointNet[5]為代表的直接處理點云數(shù)據(jù)方法,通過輸入原始點云的幾何坐標和RGB特征,用共享的多層感知機(MLP)獨立地學習每個點的特征,然而這種方法使得點與點之間的局部關(guān)系表達不夠。劉[6]提出在利用點云三維坐標信息的基礎(chǔ)上,增加了點云RGB信息和歸一化坐標信息,進一步提高了模型的分割精度。AC-Net[7]提出圖注意力卷積自適應(yīng)地學習局部區(qū)域特征,能夠有效捕獲目標形狀和幾何模式,但不能直接處理大場景點云(覆蓋200 m×200 m的場景,包含百萬甚至上億個點)。

近年來,研究者們提出了許多面向室外大場景點云的深度學習算法。MVP-Net[8]提出一種新穎的點排序方法和多次旋轉(zhuǎn)輸入點云,實現(xiàn)多視角點云局部特征聚合和感受野擴張。RandLA-Net[9]是直接處理點云的先進標準模型,采用基于注意力的點云局部特征聚合模塊和隨機降采樣方法。MSAA-Net[10]基于RandLA-Net,在編碼與解碼層的特征跳層連接處中增加了注意力機制,并從編碼層和解碼層中捕獲點云的全局特征。然而上述方法在小尺度目標上的分割精度較低。

本文提出改進的大場景點云語義分割算法gRandLA-Net,主干網(wǎng)絡(luò)基于RandLA-Net[9],首先,設(shè)計注意力門控單元,利用自注意力機制自適應(yīng)地學習點云局部幾何特征,同時利用多尺度局部特征融合將不同尺度鄰域的點云特征相加,增強模塊的幾何特征表達能力,有利于網(wǎng)絡(luò)學習細粒度的點云特征;其次,受pointMixer[11]的啟發(fā),設(shè)計平均池化單元,僅利用共享多層感知機(MLP)學習局部點云特征,計算簡單,使得網(wǎng)絡(luò)更容易收斂。本文方法在保證高效架構(gòu)的同時,訓練速度提高近一倍,分割更加準確,尤其是對小尺度目標的分割精度有明顯提高。

2 本文方法

面對稀疏的室外大場景點云,本文方法gRandLA-Net采用隨機降采樣(Random Sampling,RS)策略逐層減小點云,以提高計算效率,設(shè)計平均池化單元和注意力門控單元為局部特征聚合模塊(Local Feature Aggregation,LFA),融合多尺度領(lǐng)域點云局部特征,并逐層擴大每個點的感受野,以增強網(wǎng)絡(luò)對復雜點云模式的感知能力,如圖1所示。

圖1 局部特征聚合與隨機下采樣模塊示意圖

2.1 平均池化單元(Average Pooling Unit)

圖2 平均池化單元

2.1.1 局部空間編碼(Local spatial encoding,LocSE)

編碼空間位置關(guān)系:

W)#(AUTONUM*Arabic)

增強語義特征:

2.1.2 均值池化模塊(Average Pooling)

2.2 注意力門控單元(Attentive Gating Unit)

圖3 注意力門控單元

2.2.1 局部空間編碼模塊(Local spatial encoding,LocSE)

該模塊的計算步驟同3.1.1,輸入中心點坐標和特征pi∈3,fi∈din,利用KNN等算法輸出增強的鄰域特征包含了豐富的空間幾何信息和語義信息。

2.2.2 注意力池化模塊(Attentive Pooling)

2.2.3 多尺度特征融合

輸入特征和局部聚合特征通過殘差連接(Skipping Connection)相融合。用共享多層感知機調(diào)整輸入特征fi通道數(shù),由din變?yōu)閐out,并與局部聚合特征相加,得到多尺度局部特征:

2.3 擴張殘差模塊(Dilated Residual Block)

該模塊將平均池化單元和注意力門控單元堆疊,更高效地學習點云局部特征,如圖4所示。該模塊擴大每個點的特征感受野至K×K,并將最初的輸入特征與第二層的輸出特征相連接,融合低級、豐富的原始空間信息和高級的語義信息,得到更細粒度的局部特征,能更精準地表達相似點云模式之間的差異性。

圖4 擴張殘差模塊

2.4 網(wǎng)絡(luò)結(jié)構(gòu)

本文方法的網(wǎng)絡(luò)結(jié)構(gòu)主要采用基于殘差連接的編碼-解碼結(jié)構(gòu),如圖5所示。網(wǎng)絡(luò)首先利用共享MLP學習每個點的特征,其次用四個編碼層和四個解碼層學習每個點的特征,最后利用三個全連接層和一個Dropout層用來預(yù)測每個點的語義類別。

圖5 本文網(wǎng)絡(luò)結(jié)構(gòu)圖

網(wǎng)絡(luò)輸入:輸入點云形式為(N×din),N是輸入點數(shù)量,din是輸入點特征,在SemanticKITTI[12]中是三維坐標x-y-z。

解碼層:在每一個解碼層,應(yīng)用最近鄰插值法從小點云中得到大點云的語義特征:在編碼層中降采樣后,原始點暫存起來,降采樣得到的每個中心點都用KNN算法查找距離其最近的前一層中的點,將最近點的特征復制給中心點。隨后將上采樣的特征圖與解碼層中對應(yīng)大小的特征圖連接,得到多級融合的特征,增強網(wǎng)絡(luò)的特征提取能力。

語義預(yù)測:最后三個全連接層和Dropout層推理得到每個點的語義預(yù)測。三個共享全連接層的輸出特征張量形式為(N×64)→(N×32)→(N×nclass),Dropout參數(shù)為0.5。

網(wǎng)絡(luò)輸出:網(wǎng)絡(luò)輸出所有點的語義預(yù)測結(jié)果,張量形式為(N×nclass),其中nclass是類別數(shù)。

3 實驗與分析

本文提出的方法在室外自動駕駛場景數(shù)據(jù)集SemanticKITTI[12]上進行實驗,并將實驗結(jié)果與其他方法進行對比分析,驗證gRandLA-Net的有效性。

3.1 實現(xiàn)

本文方法實驗配置如表1所示。

表1 實驗環(huán)境

其他設(shè)置:本文方法使用Adam優(yōu)化函數(shù)及其默認參數(shù),初始化學習率設(shè)置為0.01,每輪學習率衰減5 %,采用反密度加權(quán)的交叉熵損失函數(shù)應(yīng)對類別不平衡問題,用KNN算法查找領(lǐng)域點,鄰域點數(shù)量K為16,網(wǎng)絡(luò)訓練100輪。測試期間,所有的原始點云直接輸入訓練好的網(wǎng)絡(luò)進行推理,不需要切塊或體素化等預(yù)處理步驟,也不需要任何后處理步驟。

3.2 評估指標

本實驗以均交并比(mIoU)為評估指標,均交并比首先計算每個類別的交并比,再計算所有類別交并比平均值,能較好地評估模型整體分割性能:

#(AUTONUM*Arabic)

其中,k表示類別數(shù);i表示真實值;j表示預(yù)測值;pii是正確預(yù)測的正例;pij是將i誤分為j的集合;pji是將j誤分為i的集合。

3.3 量化分析和分割效果可視化

實驗于室外大場景數(shù)據(jù)集SemanticKITTI[12]上進行。SemanticKITTI[12]由21個序列共43552幀標注的雷達點云組成,每幀包含8×104～1.2×105個點,覆蓋160 m×160 m×20 m的三維空間,規(guī)定序列00～07和09～10作為訓練集(19130幀),08(4071幀)作為驗證集,序列11～21(20351幀)用于線上測試,原始三維點云只有三維坐標沒有顏色信息。網(wǎng)絡(luò)在08序列上推理時間為189 s(4017幀),約22 fps。

3.3.1 本文方法與其他先進方法的量化分析

本文將實驗計算精度結(jié)果與一些先進的網(wǎng)絡(luò)結(jié)果進行了比較,如表2所示。第一類是基于點的方法,第二類是基于規(guī)則化數(shù)據(jù)的方法。本文的方法較大幅度地超過了PointNet[13],SPG[14],SPLATNet[15],pointnet++[16],TangentConv[17],RandLA-Net[9],FG-Net[18]等基于點的方法;并且超過了SqueezeSegV2[19],RangeNet53++[5],PolarNet[20],LatticeNet[21]等先進的基于結(jié)構(gòu)化數(shù)據(jù)的方法。

表2 多種方法在SemanticKITTI[13]上的量化比較

3.3.2 本文方法的分割效果

gRandLA-Net的分割效果展示如圖6所示,(a)中將人造地帶terrain誤分為植被vegetation;(b)中將卡車truck誤分為汽車car;(c)中將其他地物other-ground誤分為人person。

圖6 gRandLA-Net的分割結(jié)果圖

3.3.3 改進前后模型在各類目標上的性能分析

改進前后方法在各類目標上的性能分析,如圖7所示。縱軸是改進前后方法在各類別上的IoU分數(shù),橫軸是19個類別由左向右按樣本數(shù)量從小到大排列。前5個小目標類上IoU均有較大提升,如motorcyclist 的IoU由7.2 %至11.4 %,提升了4.2 %,bicyclist的IoU由48.2 %至51.2 %,提升了2 %,bicycle的IoU由26 %至28 %,提升了2 %,motorcycle的IoU由25.8 %至31.2 %,提升了5.4 %,person的IoU由49.2 %至50 %,提升了0.8 %。

圖7 改進前后網(wǎng)絡(luò)在各類別上的IoU分數(shù)對比

改進后網(wǎng)絡(luò)對小目標分割性能有明顯提升,同時,網(wǎng)絡(luò)平均性能mIoU提升0.6 %。

3.4 消融實驗

為了驗證分析gRandLA-Net模型的可行性和必要性,本文設(shè)置了消融實驗。該部分通過對比多種算法來測試gRandLA-Net的效果,并進一步驗證了平均池化單元、注意力門控單元在模型性能中發(fā)揮的具體作用。

消融實驗均基于SemanticKITTI[12]數(shù)據(jù)集,評估指標為網(wǎng)絡(luò)收斂速度(epoch),均交并比,為了保證本文方法可行、可信,本文取五次實驗結(jié)果的平均數(shù)作為穩(wěn)定的模型表現(xiàn)。

3.4.1 驗證gRandLA-Net和各個模塊的性能

網(wǎng)絡(luò)各個模塊消融實驗結(jié)果如表3所示。

表3 不同消融網(wǎng)絡(luò)的均交并比和收斂速度

RandLA-Net[10]收斂需要58輪,而基于Average Pooling Unit的RandLA-Net收斂需37輪;gRandLA-Net使用了Average Pooling Unit后收斂輪數(shù)由50降至30,因此平均池化單元使得網(wǎng)絡(luò)收斂速度提高超過40 %。

對比第一組和第三組網(wǎng)絡(luò)性能,注意力門控單元使mIoU提高了0.6 %;對比第二組和第四組網(wǎng)絡(luò)性能,注意力門控單元使mIoU提高0.9 %,因此注意力門控單元能有效提升網(wǎng)絡(luò)性能。

3.4.2 進一步驗證注意力門控單元的有效性和作用

為進一步驗證注意力門控單元的有效性和作用,本文做了兩組對比實驗,量化結(jié)果如表4所示。RandLA-Net[10]加上注意力門控單元后,mIoU提升0.6 %,motorcyclist的IoU提升了2 %,且在其他小目標(如motorcycle,bicycle,bicyclist,person,等)上IoU均有小幅提升。gRandLA-Net加上注意力門控單元后,mIoU提升0.9 %,在motorcyclist的IoU由6.2 %到11.4 %,提升了5.2 %,且在其他小目標(如bicycle,bicyclist,person,traffic-sign等)上IoU均有大幅提升。

表4 針對注意力門控單元的消融網(wǎng)絡(luò)上部分小目標的交并比和所有19類目標的平均交并比的量化結(jié)果

因此證得,注意力門控單元利用幾何上下文增強語義上下文,并融合多尺度感受野的局部聚合點特征,使得網(wǎng)絡(luò)在稀疏的室外大場景點云中,對目標的幾何模式感知能力更強,能夠更加有效地感知相似模式的小目標點云之間的差異,對小目標的分割更加準確。

3.4.3 改進前后分割效果可視化對比

改進前后,模型在SemanticKITTI[13]序列08上的分割效果如圖8所示。RandLA-Net[10]在(a)場景中未能正確分割出person,在(b)中未能正確分割bicyclist,而本文方法gRandLA-Net分割更加準確。

圖8 改進前后模型在SemanticKITTI[13]驗證集上的分割效果圖

4 結(jié) 語

面對室外大場景點云中小目標點云難以識別的問題,本文提出注意力機制和多尺度上下文融合的方法,將點云不同局部感受野的幾何模式結(jié)合起來,充分利用點云的局部幾何信息,顯著地提高了小目標的精度,同時還優(yōu)化了網(wǎng)絡(luò)訓練速度。本文證明了融合多尺度的注意力上下文信息能夠使得網(wǎng)絡(luò)更加有效地感知具有相似模式的小目標點云之間的差異,在針對被大目標包圍的小目標識別研究中具有明顯的效用。

該方法雖然實現(xiàn)了更準確地分割,但是容易模糊各類目標點云的邊界點,對邊界點容易產(chǎn)生歧義。因此,下一步我們將研究增強網(wǎng)絡(luò)對不同目標邊界點的特征提取能力,以進一步優(yōu)化對小目標的分割效果。