999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合注意力門控機制的大場景點云語義分割

2023-12-12 12:00:18朱芬芬李金萍
激光與紅外 2023年11期
關(guān)鍵詞:語義特征方法

王 蕾,朱芬芬,李金萍,劉 華

(1.東華理工大學 信息工程學院,江西 南昌 330013;2.江西省放射性地學大數(shù)據(jù)技術(shù)工程實驗室,東華理工大學,江西 南昌 330013;3.東華理工大學測繪工程學院,江西 南昌 330013)

1 引 言

隨著激光雷達、RGB-D相機等3D傳感器技術(shù)的迅速發(fā)展,激光點云數(shù)據(jù)作為基礎(chǔ)的3D數(shù)據(jù)表達,包含真實世界豐富的信息,受到越來越多的關(guān)注。面向激光點云語義的高效分割可以更好地自動理解場景,已成為解決3D場景理解、環(huán)境感知的關(guān)鍵性技術(shù),并在智能駕駛,機器人視覺等領(lǐng)域中發(fā)揮著關(guān)鍵的作用。

隨著深度學習技術(shù)的興起,利用數(shù)據(jù)驅(qū)動的方式對點云處理取得較好成果,通常可分為三類:基于投影的方法,基于體素的方法和基于點的方法。CHEN[1]和MILIOTO[2]把點云投影成多視角的二維圖像,使用二維卷積神經(jīng)網(wǎng)絡(luò)對圖像進行處理,圖像分割結(jié)果被反投影回三維點云上,實現(xiàn)對三維激光點云的間接處理。MENG[3]和 RIEGLER[4]將三維點云體素化到稠密的三維網(wǎng)格,由體素網(wǎng)格上二進制變量的概率分布表示,然后使用三維卷積等規(guī)則化數(shù)據(jù)處理方法。以上方法解決了點云數(shù)據(jù)非結(jié)構(gòu)化的問題,但在投影或體素化的過程中容易損失原始點云的幾何信息。PointNet[5]為代表的直接處理點云數(shù)據(jù)方法,通過輸入原始點云的幾何坐標和RGB特征,用共享的多層感知機(MLP)獨立地學習每個點的特征,然而這種方法使得點與點之間的局部關(guān)系表達不夠。劉[6]提出在利用點云三維坐標信息的基礎(chǔ)上,增加了點云RGB信息和歸一化坐標信息,進一步提高了模型的分割精度。AC-Net[7]提出圖注意力卷積自適應(yīng)地學習局部區(qū)域特征,能夠有效捕獲目標形狀和幾何模式,但不能直接處理大場景點云(覆蓋200 m×200 m的場景,包含百萬甚至上億個點)。

近年來,研究者們提出了許多面向室外大場景點云的深度學習算法。MVP-Net[8]提出一種新穎的點排序方法和多次旋轉(zhuǎn)輸入點云,實現(xiàn)多視角點云局部特征聚合和感受野擴張。RandLA-Net[9]是直接處理點云的先進標準模型,采用基于注意力的點云局部特征聚合模塊和隨機降采樣方法。MSAA-Net[10]基于RandLA-Net,在編碼與解碼層的特征跳層連接處中增加了注意力機制,并從編碼層和解碼層中捕獲點云的全局特征。然而上述方法在小尺度目標上的分割精度較低。

本文提出改進的大場景點云語義分割算法gRandLA-Net,主干網(wǎng)絡(luò)基于RandLA-Net[9],首先,設(shè)計注意力門控單元,利用自注意力機制自適應(yīng)地學習點云局部幾何特征,同時利用多尺度局部特征融合將不同尺度鄰域的點云特征相加,增強模塊的幾何特征表達能力,有利于網(wǎng)絡(luò)學習細粒度的點云特征;其次,受pointMixer[11]的啟發(fā),設(shè)計平均池化單元,僅利用共享多層感知機(MLP)學習局部點云特征,計算簡單,使得網(wǎng)絡(luò)更容易收斂。本文方法在保證高效架構(gòu)的同時,訓練速度提高近一倍,分割更加準確,尤其是對小尺度目標的分割精度有明顯提高。

2 本文方法

面對稀疏的室外大場景點云,本文方法gRandLA-Net采用隨機降采樣(Random Sampling,RS)策略逐層減小點云,以提高計算效率,設(shè)計平均池化單元和注意力門控單元為局部特征聚合模塊(Local Feature Aggregation,LFA),融合多尺度領(lǐng)域點云局部特征,并逐層擴大每個點的感受野,以增強網(wǎng)絡(luò)對復雜點云模式的感知能力,如圖1所示。

圖1 局部特征聚合與隨機下采樣模塊示意圖

2.1 平均池化單元(Average Pooling Unit)

圖2 平均池化單元

2.1.1 局部空間編碼(Local spatial encoding,LocSE)

編碼空間位置關(guān)系:

W)#(AUTONUM*Arabic)

增強語義特征:

2.1.2 均值池化模塊(Average Pooling)

2.2 注意力門控單元(Attentive Gating Unit)

圖3 注意力門控單元

2.2.1 局部空間編碼模塊(Local spatial encoding,LocSE)

該模塊的計算步驟同3.1.1,輸入中心點坐標和特征pi∈3,fi∈din,利用KNN等算法輸出增強的鄰域特征包含了豐富的空間幾何信息和語義信息。

2.2.2 注意力池化模塊(Attentive Pooling)

2.2.3 多尺度特征融合

輸入特征和局部聚合特征通過殘差連接(Skipping Connection)相融合。用共享多層感知機調(diào)整輸入特征fi通道數(shù),由din變?yōu)閐out,并與局部聚合特征相加,得到多尺度局部特征:

2.3 擴張殘差模塊(Dilated Residual Block)

該模塊將平均池化單元和注意力門控單元堆疊,更高效地學習點云局部特征,如圖4所示。該模塊擴大每個點的特征感受野至K×K,并將最初的輸入特征與第二層的輸出特征相連接,融合低級、豐富的原始空間信息和高級的語義信息,得到更細粒度的局部特征,能更精準地表達相似點云模式之間的差異性。

圖4 擴張殘差模塊

2.4 網(wǎng)絡(luò)結(jié)構(gòu)

本文方法的網(wǎng)絡(luò)結(jié)構(gòu)主要采用基于殘差連接的編碼-解碼結(jié)構(gòu),如圖5所示。網(wǎng)絡(luò)首先利用共享MLP學習每個點的特征,其次用四個編碼層和四個解碼層學習每個點的特征,最后利用三個全連接層和一個Dropout層用來預(yù)測每個點的語義類別。

圖5 本文網(wǎng)絡(luò)結(jié)構(gòu)圖

網(wǎng)絡(luò)輸入:輸入點云形式為(N×din),N是輸入點數(shù)量,din是輸入點特征,在SemanticKITTI[12]中是三維坐標x-y-z。

解碼層:在每一個解碼層,應(yīng)用最近鄰插值法從小點云中得到大點云的語義特征:在編碼層中降采樣后,原始點暫存起來,降采樣得到的每個中心點都用KNN算法查找距離其最近的前一層中的點,將最近點的特征復制給中心點。隨后將上采樣的特征圖與解碼層中對應(yīng)大小的特征圖連接,得到多級融合的特征,增強網(wǎng)絡(luò)的特征提取能力。

語義預(yù)測:最后三個全連接層和Dropout層推理得到每個點的語義預(yù)測。三個共享全連接層的輸出特征張量形式為(N×64)→(N×32)→(N×nclass),Dropout參數(shù)為0.5。

網(wǎng)絡(luò)輸出:網(wǎng)絡(luò)輸出所有點的語義預(yù)測結(jié)果,張量形式為(N×nclass),其中nclass是類別數(shù)。

3 實驗與分析

本文提出的方法在室外自動駕駛場景數(shù)據(jù)集SemanticKITTI[12]上進行實驗,并將實驗結(jié)果與其他方法進行對比分析,驗證gRandLA-Net的有效性。

3.1 實 現(xiàn)

本文方法實驗配置如表1所示。

表1 實驗環(huán)境

其他設(shè)置:本文方法使用Adam優(yōu)化函數(shù)及其默認參數(shù),初始化學習率設(shè)置為0.01,每輪學習率衰減5 %,采用反密度加權(quán)的交叉熵損失函數(shù)應(yīng)對類別不平衡問題,用KNN算法查找領(lǐng)域點,鄰域點數(shù)量K為16,網(wǎng)絡(luò)訓練100輪。測試期間,所有的原始點云直接輸入訓練好的網(wǎng)絡(luò)進行推理,不需要切塊或體素化等預(yù)處理步驟,也不需要任何后處理步驟。

3.2 評估指標

本實驗以均交并比(mIoU)為評估指標,均交并比首先計算每個類別的交并比,再計算所有類別交并比平均值,能較好地評估模型整體分割性能:

#(AUTONUM*Arabic)

其中,k表示類別數(shù);i表示真實值;j表示預(yù)測值;pii是正確預(yù)測的正例;pij是將i誤分為j的集合;pji是將j誤分為i的集合。

3.3 量化分析和分割效果可視化

實驗于室外大場景數(shù)據(jù)集SemanticKITTI[12]上進行。SemanticKITTI[12]由21個序列共43552幀標注的雷達點云組成,每幀包含8×104~1.2×105個點,覆蓋160 m×160 m×20 m的三維空間,規(guī)定序列00~07和09~10作為訓練集(19130幀),08(4071幀)作為驗證集,序列11~21(20351幀)用于線上測試,原始三維點云只有三維坐標沒有顏色信息。網(wǎng)絡(luò)在08序列上推理時間為189 s(4017幀),約22 fps。

3.3.1 本文方法與其他先進方法的量化分析

本文將實驗計算精度結(jié)果與一些先進的網(wǎng)絡(luò)結(jié)果進行了比較,如表2所示。第一類是基于點的方法,第二類是基于規(guī)則化數(shù)據(jù)的方法。本文的方法較大幅度地超過了PointNet[13],SPG[14],SPLATNet[15],pointnet++[16],TangentConv[17],RandLA-Net[9],FG-Net[18]等基于點的方法;并且超過了SqueezeSegV2[19],RangeNet53++[5],PolarNet[20],LatticeNet[21]等先進的基于結(jié)構(gòu)化數(shù)據(jù)的方法。

表2 多種方法在SemanticKITTI[13]上的量化比較

3.3.2 本文方法的分割效果

gRandLA-Net的分割效果展示如圖6所示,(a)中將人造地帶terrain誤分為植被vegetation;(b)中將卡車truck誤分為汽車car;(c)中將其他地物other-ground誤分為人person。

圖6 gRandLA-Net的分割結(jié)果圖

3.3.3 改進前后模型在各類目標上的性能分析

改進前后方法在各類目標上的性能分析,如圖7所示。縱軸是改進前后方法在各類別上的IoU分數(shù),橫軸是19個類別由左向右按樣本數(shù)量從小到大排列。前5個小目標類上IoU均有較大提升,如motorcyclist 的IoU由7.2 %至11.4 %,提升了4.2 %,bicyclist的IoU由48.2 %至51.2 %,提升了2 %,bicycle的IoU由26 %至28 %,提升了2 %,motorcycle的IoU由25.8 %至31.2 %,提升了5.4 %,person的IoU由49.2 %至50 %,提升了0.8 %。

圖7 改進前后網(wǎng)絡(luò)在各類別上的IoU分數(shù)對比

改進后網(wǎng)絡(luò)對小目標分割性能有明顯提升,同時,網(wǎng)絡(luò)平均性能mIoU提升0.6 %。

3.4 消融實驗

為了驗證分析gRandLA-Net模型的可行性和必要性,本文設(shè)置了消融實驗。該部分通過對比多種算法來測試gRandLA-Net的效果,并進一步驗證了平均池化單元、注意力門控單元在模型性能中發(fā)揮的具體作用。

消融實驗均基于SemanticKITTI[12]數(shù)據(jù)集,評估指標為網(wǎng)絡(luò)收斂速度(epoch),均交并比,為了保證本文方法可行、可信,本文取五次實驗結(jié)果的平均數(shù)作為穩(wěn)定的模型表現(xiàn)。

3.4.1 驗證gRandLA-Net和各個模塊的性能

網(wǎng)絡(luò)各個模塊消融實驗結(jié)果如表3所示。

表3 不同消融網(wǎng)絡(luò)的均交并比和收斂速度

RandLA-Net[10]收斂需要58輪,而基于Average Pooling Unit的RandLA-Net收斂需37輪;gRandLA-Net使用了Average Pooling Unit后收斂輪數(shù)由50降至30,因此平均池化單元使得網(wǎng)絡(luò)收斂速度提高超過40 %。

對比第一組和第三組網(wǎng)絡(luò)性能,注意力門控單元使mIoU提高了0.6 %;對比第二組和第四組網(wǎng)絡(luò)性能,注意力門控單元使mIoU提高0.9 %,因此注意力門控單元能有效提升網(wǎng)絡(luò)性能。

3.4.2 進一步驗證注意力門控單元的有效性和作用

為進一步驗證注意力門控單元的有效性和作用,本文做了兩組對比實驗,量化結(jié)果如表4所示。RandLA-Net[10]加上注意力門控單元后,mIoU提升0.6 %,motorcyclist的IoU提升了2 %,且在其他小目標(如motorcycle,bicycle,bicyclist,person,等)上IoU均有小幅提升。gRandLA-Net加上注意力門控單元后,mIoU提升0.9 %,在motorcyclist的IoU由6.2 %到11.4 %,提升了5.2 %,且在其他小目標(如bicycle,bicyclist,person,traffic-sign等)上IoU均有大幅提升。

表4 針對注意力門控單元的消融網(wǎng)絡(luò)上部分小目標的交并比和所有19類目標的平均交并比的量化結(jié)果

因此證得,注意力門控單元利用幾何上下文增強語義上下文,并融合多尺度感受野的局部聚合點特征,使得網(wǎng)絡(luò)在稀疏的室外大場景點云中,對目標的幾何模式感知能力更強,能夠更加有效地感知相似模式的小目標點云之間的差異,對小目標的分割更加準確。

3.4.3 改進前后分割效果可視化對比

改進前后,模型在SemanticKITTI[13]序列08上的分割效果如圖8所示。RandLA-Net[10]在(a)場景中未能正確分割出person,在(b)中未能正確分割bicyclist,而本文方法gRandLA-Net分割更加準確。

圖8 改進前后模型在SemanticKITTI[13]驗證集上的分割效果圖

4 結(jié) 語

面對室外大場景點云中小目標點云難以識別的問題,本文提出注意力機制和多尺度上下文融合的方法,將點云不同局部感受野的幾何模式結(jié)合起來,充分利用點云的局部幾何信息,顯著地提高了小目標的精度,同時還優(yōu)化了網(wǎng)絡(luò)訓練速度。本文證明了融合多尺度的注意力上下文信息能夠使得網(wǎng)絡(luò)更加有效地感知具有相似模式的小目標點云之間的差異,在針對被大目標包圍的小目標識別研究中具有明顯的效用。

該方法雖然實現(xiàn)了更準確地分割,但是容易模糊各類目標點云的邊界點,對邊界點容易產(chǎn)生歧義。因此,下一步我們將研究增強網(wǎng)絡(luò)對不同目標邊界點的特征提取能力,以進一步優(yōu)化對小目標的分割效果。

猜你喜歡
語義特征方法
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产成人夜色91| 久久青草免费91线频观看不卡| 国产一线在线| 中文字幕首页系列人妻| 国产欧美一区二区三区视频在线观看| a毛片免费看| 国产精品入口麻豆| 欧美亚洲日韩不卡在线在线观看| 日韩精品免费一线在线观看| 亚洲精品欧美日本中文字幕| 亚洲另类国产欧美一区二区| 在线国产三级| 亚洲一级无毛片无码在线免费视频 | a在线观看免费| 91麻豆精品国产91久久久久| 欧美日韩在线观看一区二区三区| 亚洲女同一区二区| 久久综合色88| 欧美成人看片一区二区三区| 欧美色视频网站| 亚洲综合在线网| 欧美日韩国产成人在线观看| 69视频国产| 三上悠亚在线精品二区| 一区二区午夜| 国产成人高清精品免费| 亚洲欧洲自拍拍偷午夜色| 日韩黄色在线| 欧美在线网| 91精品国产无线乱码在线| 成年人免费国产视频| 波多野结衣久久精品| 国产精品色婷婷在线观看| 992tv国产人成在线观看| a毛片在线免费观看| 秘书高跟黑色丝袜国产91在线| 亚洲国产日韩一区| 国产成人精品男人的天堂下载| 国产一区在线视频观看| 精品久久久无码专区中文字幕| 国产在线观看高清不卡| 日韩区欧美国产区在线观看| 激情网址在线观看| 国产精品第三页在线看| 精品国产免费观看| 国产成人精品一区二区免费看京| 国产自无码视频在线观看| 国产一级二级三级毛片| 欧美精品三级在线| 精品久久香蕉国产线看观看gif| 亚洲中文字幕在线观看| 最新国产成人剧情在线播放| 精品无码专区亚洲| 黄色成年视频| 2021最新国产精品网站| 国产一区二区人大臿蕉香蕉| 极品国产在线| 极品尤物av美乳在线观看| 色成人亚洲| 热re99久久精品国99热| 国产精品三区四区| 热re99久久精品国99热| 日韩高清成人| 色成人综合| 免费视频在线2021入口| 国产成人综合网| 国产精品亚洲综合久久小说| 久久精品66| 素人激情视频福利| 亚洲爱婷婷色69堂| 鲁鲁鲁爽爽爽在线视频观看| 久99久热只有精品国产15| 中文无码伦av中文字幕| 国产一级毛片高清完整视频版| 狠狠色噜噜狠狠狠狠色综合久| 国产香蕉在线| 一级毛片高清| 亚洲精品国产乱码不卡| 狠狠色丁香婷婷综合| 狼友视频国产精品首页| 欧美区一区| 国产一区二区影院|