劉李漫,譚龍雨,彭 源,劉 佳
(中南民族大學(xué)生物醫(yī)學(xué)工程學(xué)院,湖北 武漢 430074)
點(diǎn)云是一種基本的三維數(shù)據(jù)結(jié)構(gòu),由三維物體表面的點(diǎn)構(gòu)成,表征物體的形狀及其它特征(如顏色、法向量等)。近年來,由于機(jī)器人導(dǎo)航和無人駕駛[1]研究的興起,點(diǎn)云數(shù)據(jù)因其易得性受到了科研人員越來越多的關(guān)注。同時(shí),點(diǎn)云在遙感測繪[2]、增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)[3]等領(lǐng)域也有重要應(yīng)用,具有較高的科研和應(yīng)用價(jià)值。三維點(diǎn)云語義分割任務(wù),就是對點(diǎn)云中的每個(gè)點(diǎn)進(jìn)行標(biāo)簽預(yù)測,使得同類物體具有相同標(biāo)簽,不同類物體具有不同標(biāo)簽。
點(diǎn)云分割的傳統(tǒng)方法主要有3種:基于區(qū)域增長的方法[4]、基于模型擬合的方法[5 -7]和基于聚類的方法[8]。傳統(tǒng)方法雖然可以用于三維點(diǎn)云語義分割任務(wù),但是效果并不理想。

Figure 1 AFN network model 圖1 AFN網(wǎng)絡(luò)模型
文獻(xiàn)[9]首次提出直接將三維點(diǎn)云數(shù)據(jù)作為深度學(xué)習(xí)網(wǎng)絡(luò)的輸入,實(shí)現(xiàn)端到端的學(xué)習(xí)。PointNet直接輸入原始三維點(diǎn)云數(shù)據(jù),通過逐點(diǎn)共享多層感知機(jī)的方式提取點(diǎn)云的特征。這種方法雖然避免了數(shù)據(jù)處理所產(chǎn)生的損耗問題,但是由于PointNet網(wǎng)絡(luò)中每個(gè)點(diǎn)的特征提取是互不關(guān)聯(lián)的,網(wǎng)絡(luò)無法捕捉到點(diǎn)與點(diǎn)之間的關(guān)系,導(dǎo)致網(wǎng)絡(luò)缺乏對目標(biāo)局部細(xì)節(jié)的理解,從而無法準(zhǔn)確預(yù)測每個(gè)點(diǎn)的語義信息。文獻(xiàn)[10]提出了PointNet++網(wǎng)絡(luò),使用采樣分組的策略,解決了PointNet無法捕捉局部特征的問題,但對局部細(xì)粒度特征的提取能力仍舊有限。文獻(xiàn)[11]提出的三維點(diǎn)云卷積模型PointConv,通過逆密度加權(quán)卷積操作建立每個(gè)點(diǎn)與周圍點(diǎn)之間的聯(lián)系,極大增強(qiáng)了網(wǎng)絡(luò)對目標(biāo)局部特征的學(xué)習(xí)能力,在室內(nèi)場景的語義分割上取得了很好的結(jié)果,但可視化結(jié)果顯示,網(wǎng)絡(luò)對目標(biāo)輪廓的預(yù)測結(jié)果較差。
網(wǎng)絡(luò)對目標(biāo)細(xì)粒度特征提取能力的強(qiáng)弱,是影響語義分割性能的決定性因素。細(xì)粒度特征提取能力差會導(dǎo)致小尺度目標(biāo)分割精度偏低。受二維圖像目標(biāo)識別[12]啟發(fā),本文提出全融合網(wǎng)絡(luò)AFN(All Fusion Network),將多尺度特征融合擴(kuò)展到三維點(diǎn)云特征提取網(wǎng)絡(luò)。通過逐級的多尺度特征提取融合,加強(qiáng)網(wǎng)絡(luò)的特征表達(dá)能力。同時(shí),將提出的全融合網(wǎng)絡(luò)用于三維點(diǎn)云的語義分割任務(wù)。本文在ScanNet數(shù)據(jù)集[13]和S3DIS數(shù)據(jù)集[14]上進(jìn)行了實(shí)驗(yàn)與測試,并在相同實(shí)驗(yàn)條件下與同類三維點(diǎn)云語義分割網(wǎng)絡(luò)進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,全融合網(wǎng)絡(luò)(AFN)大幅提升了三維點(diǎn)云小尺度目標(biāo)的分割精度,在室內(nèi)場景語義分割中取得了較好的結(jié)果。
全融合網(wǎng)絡(luò)AFN主要包括5個(gè)模塊:多尺度特征編碼模塊、漸進(jìn)式特征解碼模塊、多尺度特征解碼模塊、特征融合模塊和語義分割頭部。如圖1所示,多尺度特征編碼模塊通過逐級下采樣不斷擴(kuò)大網(wǎng)絡(luò)的感受野,得到點(diǎn)云不同尺度的特征。漸進(jìn)式特征解碼模塊通過殘差連接對高層語義特征進(jìn)行漸進(jìn)式逐層解碼。多尺度特征解碼模塊對特征編碼模塊提取的多尺度特征分別進(jìn)行特征解碼,得到多層次解碼特征圖。特征融合模塊將漸進(jìn)式解碼特征圖與多層次解碼特征圖進(jìn)行特征全融合。語義分割頭部利用融合特征,對每個(gè)點(diǎn)進(jìn)行語義類別預(yù)測,實(shí)現(xiàn)語義分割。
多尺度特征編碼模塊采用PointConv網(wǎng)絡(luò)的特征編碼器,利用鄰域點(diǎn)的相對坐標(biāo)學(xué)習(xí)權(quán)重并對點(diǎn)特征加權(quán),同時(shí)將局部區(qū)域點(diǎn)的特征與密度倒數(shù)相乘,降低點(diǎn)云不同部位稀疏程度的不同對網(wǎng)絡(luò)的影響。多尺度特征編碼器輸入點(diǎn)云坐標(biāo)及其特征,經(jīng)過特征編碼,輸出加權(quán)后的點(diǎn)云特征,即網(wǎng)絡(luò)提取的特征。本文將5層編碼器堆疊,構(gòu)成一個(gè)多尺度特征編碼模塊。
本文使用采樣分組策略[10]采樣點(diǎn)云,在將點(diǎn)云輸入每一層編碼器之前,首先使用最遠(yuǎn)點(diǎn)采樣FPS(Farthest Point Sampling)選取一定數(shù)量的質(zhì)心點(diǎn),再以質(zhì)心點(diǎn)為中心構(gòu)建點(diǎn)云鄰域空間,將輸入點(diǎn)云分成若干個(gè)局部區(qū)域。對每個(gè)局部區(qū)域使用共享的編碼器提取特征,最終完成對整個(gè)點(diǎn)云的特征提取。
每一層編碼器的輸入為上一層編碼器的輸出,點(diǎn)云每經(jīng)過一層編碼器數(shù)量都會減少,網(wǎng)絡(luò)的感受野增大,最終通過5層特征編碼器,得到了L0、L1、L2、L3和L45個(gè)語義特征,不同層的感受野不同,能夠提取到點(diǎn)云不同尺度的特征。底層尺度擁有更多空間結(jié)構(gòu)信息,有利于對物體的定位;高層尺度擁有更多的語義特征,有利于對物體整體的分類。顯然,將不同層的特征進(jìn)行融合,能夠更好地實(shí)現(xiàn)語義分割的效果。
漸進(jìn)式特征解碼模塊由PointConv反卷積層構(gòu)成,通過反距離插值法和跨層跳躍逐層上采樣,最終將點(diǎn)云數(shù)量恢復(fù)到原始點(diǎn)云的數(shù)量,獲得每個(gè)點(diǎn)的語義判別特征。
首先將多尺度特征編碼模塊生成的語義特征L4使用反距離加權(quán)插值法進(jìn)行數(shù)據(jù)擴(kuò)充,再使用跨層跳躍連接將特征L3層與插值特征拼接,進(jìn)行特征融合,將融合后的點(diǎn)云輸入到特征解碼層提取特征,得到解碼特征D3,這樣就完成了一次反卷積操作。本文將4個(gè)這樣的反卷積層堆疊,進(jìn)行漸進(jìn)式特征解碼,依次得到解碼特征D3、D2、D1和D0。
對L4的漸進(jìn)式特征解碼雖然連接了L3→L0每一層的特征,但解碼過程中不可避免地會有部分信息丟失。為了彌補(bǔ)這一損失,本文設(shè)計(jì)了多尺度特征解碼模塊,直接對特征編碼模塊得到的每一個(gè)尺度特征進(jìn)行特征解碼,即使用每一個(gè)尺度的特征單獨(dú)進(jìn)行語義類別預(yù)測。
多尺度特征解碼首先將逆密度加權(quán)模塊下采樣得到的多尺度特征L1~L4分別進(jìn)行反距離加權(quán)插值,直接將點(diǎn)云數(shù)量恢復(fù)到原始點(diǎn)云數(shù)量,插值特征與輸入層語義特征L0使用跨層跳躍連接,經(jīng)過特征編碼層,最終得到4層特征UpL1、UpL2、UpL3和UpL4,融合4層特征即為多尺度解碼特征圖。
多尺度特征解碼特征圖直接從各編碼特征層解碼后與輸入層跳躍聯(lián)結(jié)而來,這樣的做法很大程度上避免了點(diǎn)云細(xì)節(jié)特征的丟失。各層分別對某些物體有著最好的特征表達(dá)效果,對這些物體來說,多層次特征解碼使得各類物體最終的語義分割精度有了很大的保障。
為了解決漸進(jìn)式特征解碼過程中局部細(xì)節(jié)信息的丟失,以及多尺度特征解碼特征尺度單一、缺少全局特征的問題,本文設(shè)計(jì)了多尺度特征融合模塊,即將漸進(jìn)式解碼特征與多尺度解碼特征拼接在一起,利用多尺度解碼特征對每個(gè)尺度的細(xì)節(jié)特征編碼,以彌補(bǔ)漸進(jìn)式解碼特征細(xì)粒度特征不足的缺陷,充分發(fā)揮各自的優(yōu)勢,實(shí)現(xiàn)缺陷互補(bǔ)。
由于最終融合的特征既包含有跨越全局特征的漸進(jìn)式解碼特征圖,又極大程度地保留了點(diǎn)云細(xì)節(jié)特征的多尺度解碼特征圖,最終形成具有判別性的融合特征,使網(wǎng)絡(luò)在小尺度目標(biāo)的分割精度上有了很大的提升。
為了實(shí)現(xiàn)點(diǎn)云的語義分割,本文將融合后的點(diǎn)云多尺度特征輸入到全融合網(wǎng)絡(luò)的語義分割頭部,為點(diǎn)云中的每個(gè)點(diǎn)分配標(biāo)簽。語義分割頭部由權(quán)值共享的多層感知機(jī)組成,輸入每個(gè)點(diǎn)的融合特征,輸出網(wǎng)絡(luò)預(yù)測的每個(gè)點(diǎn)屬于各個(gè)類別的概率。
點(diǎn)云在特征編碼模塊中進(jìn)行特征提取時(shí),每經(jīng)過一次下采樣,網(wǎng)絡(luò)感受野就會變大,聚合的鄰域特征范圍隨之增大,點(diǎn)云逐漸學(xué)習(xí)到接近全局區(qū)域的特征。然而,隨著每個(gè)點(diǎn)承載的信息越來越多,邊界輪廓類與小物體的信息可能會逐漸丟失。本文提出的特征全融合網(wǎng)絡(luò)的構(gòu)想,融合多個(gè)尺度特征與全局特征,以得到更好的分割效果。
接下來,本文將詳述全融合網(wǎng)絡(luò)實(shí)現(xiàn)的細(xì)節(jié)。
首先,輸入點(diǎn)云通過特征編碼模塊實(shí)現(xiàn)特征的多尺度提取,多尺度特征編碼模塊由多個(gè)編碼層堆疊而成,每個(gè)編碼層編碼一個(gè)尺度的特征。編碼層的核心是逆密度加權(quán)卷積,卷積過程如下所示:
(1)采樣分組:輸入點(diǎn)云通過最遠(yuǎn)點(diǎn)采樣法尋找局部區(qū)域質(zhì)心點(diǎn)p,然后使用K近鄰算法以質(zhì)心點(diǎn)p構(gòu)建點(diǎn)云鄰域。每個(gè)點(diǎn)云鄰域中包含K個(gè)鄰域點(diǎn),為減少空間變換對鄰域特征的影響,將這K個(gè)點(diǎn)的坐標(biāo)與局部區(qū)域質(zhì)心p的坐標(biāo)相減,得到三維點(diǎn)云的局部區(qū)域相對坐標(biāo),記為Plocal。
(2)逆密度評估:使用核密度估計(jì)算法[15]估計(jì)局部區(qū)域中每個(gè)點(diǎn)的密度,將局部區(qū)域點(diǎn)的密度輸入到多層感知器中進(jìn)行一維非線性變換,得到逆密度向量s=(s1,…,sK|sl∈R1,l∈{1,2,…,K})。為了實(shí)現(xiàn)對特征的逆密度加權(quán),首先要進(jìn)行維度對齊,將s復(fù)制擴(kuò)展得到逆密度張量S=(S1,…,SK|Sl∈RCin),Cin為點(diǎn)云輸入特征的維度。
(3)逆密度加權(quán):用逆密度張量S加權(quán)局部區(qū)域特征Fin,F(xiàn)in∈RK×Cin,如式(1)所示:
(1)
(4)卷積權(quán)重計(jì)算:將局部點(diǎn)云的相對坐標(biāo)Plocal輸入多層感知機(jī)中,多層感知機(jī)的最后一層為線性層,多層感知機(jī)中線性層輸入為M∈RK×Cmid,線性層的權(quán)重為H∈RCmid×(Cin×Cout),其中Cin、Cmid和Cout分別是點(diǎn)云鄰域在輸入層、中間層和輸出層的特征維度,cin,cmid和cout分別是輸入層、中間層和輸出層特征維度的索引。Conv則是卷積核為1×1的卷積神經(jīng)網(wǎng)絡(luò),用于計(jì)算權(quán)重,從而權(quán)重的計(jì)算公式如式(2)所示:
W(k,cin)=Conv(H,M)=
(2)

(3)
對所有以質(zhì)心點(diǎn)為中心構(gòu)建的點(diǎn)云鄰域使用一個(gè)共享的特征編碼器進(jìn)行編碼,編碼器將學(xué)習(xí)到每個(gè)鄰域空間的全局特征(整個(gè)點(diǎn)云的局部特征),所有鄰域空間特征即構(gòu)建一個(gè)完整點(diǎn)云的特征。經(jīng)過共5次逐級下采樣后,可獲得5個(gè)包含不同尺度的點(diǎn)云特征L0~L4。由于L0基本不包含高級的語義特征,本文只對后4個(gè)特征進(jìn)行多尺度特征解碼。
為了將特征信息逐層傳遞回原始點(diǎn)云數(shù)據(jù),全融合網(wǎng)絡(luò)采用基于逆密度加權(quán)卷積的漸進(jìn)式特征解碼模塊,逐層地將高層的語義特征傳遞到原始點(diǎn)云中的每個(gè)點(diǎn)。
漸進(jìn)式特征解碼模塊首先由反距離加權(quán)插值法進(jìn)行點(diǎn)云數(shù)量擴(kuò)充,然后由跨層連接將特征串聯(lián)疊加,最后由逆密度加權(quán)卷積層提取特征。反距離加權(quán)插值法選取插值點(diǎn)周圍3個(gè)最近點(diǎn),用它們與插值點(diǎn)距離的倒數(shù)加權(quán)特征,求和作為插值點(diǎn)的特征,其計(jì)算公式如式(4)所示:
(4)
fi的權(quán)重wi(x)的計(jì)算公式如式(5)所示:
wi(x)=d(x,xi)-p
(5)
式(4)和式(5)中,fi是xi的特征,d為x與xi的歐氏距離,p=2。

漸進(jìn)式逐層解碼能夠通過特征插值的方法將高層的語義特征傳遞到底層,同時(shí)通過跳躍連接來融合編碼部分具有相同點(diǎn)云數(shù)量的點(diǎn)特征,以彌補(bǔ)在下采樣編碼過程中損失的結(jié)構(gòu)信息,高層特征與底層特征融合,使最終輸出的每個(gè)點(diǎn)既包含了點(diǎn)云局部特征,又蘊(yùn)含點(diǎn)云全局特征,網(wǎng)絡(luò)將會對點(diǎn)云整體的上下文信息有更深刻的學(xué)習(xí),對每個(gè)點(diǎn)的預(yù)測更加準(zhǔn)確。對物體邊界以及小物體等容易產(chǎn)生歸屬誤判的情況,這種底層細(xì)粒度信息的傳遞更是尤為重要。
為了增強(qiáng)網(wǎng)絡(luò)對不同尺度物體語義分割的魯棒性,本文在特征空間中通過多尺度特征解碼模塊將特征編碼模塊提取的多尺度特征圖分別解碼。特征編碼模塊輸出的L1、L2、L3和L4尺度特征與L0特征拼接,使用反距離插值法直接將點(diǎn)云數(shù)量恢復(fù)至原始點(diǎn)云數(shù)量,得到多尺度解碼特征UpL1、UpL2、UpL3和UpL4,每個(gè)解碼特征圖大小相同。將特征通道使用串聯(lián)方式相加,聚合不同尺度的特征信息。全融合語義分割網(wǎng)絡(luò)學(xué)習(xí)的點(diǎn)云多尺度特征和全局特征,擁有更強(qiáng)的特征表達(dá)能力,兼顧局部細(xì)節(jié)特征與全局抽象特征,能夠有效地提高點(diǎn)云語義分割效果。
為了確保實(shí)驗(yàn)結(jié)果的可對比性,本節(jié)在公開數(shù)據(jù)集ScanNetv1和斯坦福三維室內(nèi)分割數(shù)據(jù)集S3DIS(Stanford large-scale 3D Indoor Spaces)上進(jìn)行了實(shí)驗(yàn),這是三維點(diǎn)云語義分割網(wǎng)絡(luò)最為通用的三維點(diǎn)云室內(nèi)場景數(shù)據(jù)集。
ScanNetv1數(shù)據(jù)集由1 513個(gè)具有標(biāo)注的室內(nèi)場景組成,場景類型豐富,物體種類眾多。每一個(gè)室內(nèi)場景中包含桌子、門和窗戶等20類已知物體,和一個(gè)未知類別。本文把1 513個(gè)室內(nèi)場景中的1 201個(gè)用于訓(xùn)練,312個(gè)用于測試。
S3DIS數(shù)據(jù)集由3個(gè)不同建筑物中6個(gè)大型室內(nèi)區(qū)域組成,包含桌子、椅子、沙發(fā)、書柜和地板等13種物體類別。數(shù)據(jù)集中每個(gè)點(diǎn)云都標(biāo)注了坐標(biāo)XYZ及其所屬的物體類別信息。本文將數(shù)據(jù)集中的Area1~Area5作為訓(xùn)練集,Area6作為測試集。
本文實(shí)驗(yàn)環(huán)境配置如表1所示,網(wǎng)絡(luò)參數(shù)設(shè)置信息如下:在進(jìn)行數(shù)據(jù)處理時(shí)使用非均勻采樣。模型使用Adam優(yōu)化器,初始學(xué)習(xí)率learning_rate=0.001,每次輸入點(diǎn)云數(shù)num_point=4 096,訓(xùn)練批量batch_size=4。延遲率decay_rate=0.7。延遲步長decay_step=200 000,最大迭代次數(shù)max_epoch=501。實(shí)驗(yàn)結(jié)果使用以下3種指標(biāo)進(jìn)行判斷:
(1)點(diǎn)云預(yù)測準(zhǔn)確度PA(Point Accuracy)。在三維點(diǎn)云數(shù)據(jù)集中,室內(nèi)場景有K個(gè)物體種類,1個(gè)背景類別,PA的計(jì)算公式如式(6)所示:
(6)
其中,Puu表示將點(diǎn)云中的語義標(biāo)簽為u預(yù)測為u的點(diǎn)云數(shù)量;puv表示將點(diǎn)云中的語義標(biāo)簽為u預(yù)測為v的點(diǎn)云數(shù)量。
(2)平均類別準(zhǔn)確度MPA(Mean Point Accuracy)。MPA是PA的平均加權(quán)。首先計(jì)算每個(gè)類別預(yù)測準(zhǔn)確度,即每類預(yù)測正確的點(diǎn)占該類點(diǎn)總數(shù)的比值,然后再計(jì)算所有類別的預(yù)測準(zhǔn)確度的平均值,計(jì)算公式如式(7)所示:
(7)
(3)平均交并比MIoU。IoU是2個(gè)集合交集與并集的比值,在語義分割中IoU即每個(gè)類別預(yù)測結(jié)果和實(shí)際結(jié)果的交集,與每個(gè)類別預(yù)測結(jié)果和實(shí)際結(jié)果的并集,這2個(gè)集合的比值。對所有類別的IoU求均值,即為平均交并比,其計(jì)算公式如式(8)所示:
(8)
其中,TPu表示被模型預(yù)測為第u類的第u類樣本的數(shù)量,F(xiàn)Pu表示被模型預(yù)測為第u類但非第u類樣本的數(shù)量,F(xiàn)Nu表示被模型預(yù)測為非第u類的第u類樣本的數(shù)量。

Table 1 The hardware/software configuration表1 硬/軟件配置
本文首先在ScanNetv1數(shù)據(jù)集上對全融合網(wǎng)絡(luò)AFN進(jìn)行訓(xùn)練和測試,并與PointNet++和PointConv的語義分割結(jié)果進(jìn)行對比。由于AFN網(wǎng)絡(luò)參數(shù)量較大,為了保證能在NVIDIA Tesla V100-SXM2-16上正常訓(xùn)練,將輸入的初始點(diǎn)云數(shù)設(shè)置為4 096。PointNet++與PointConv輸入的原始點(diǎn)云數(shù)量為8 192,輸入的原始點(diǎn)云數(shù)量越多,目標(biāo)的細(xì)節(jié)特征就保留得越多,毫無疑問網(wǎng)絡(luò)能夠?qū)W習(xí)的特征就越多。所以,為了比較的公平性,本文在同樣的設(shè)備上以同樣的網(wǎng)絡(luò)參數(shù)配置,用同樣的數(shù)據(jù)預(yù)處理方法,重新對PointNet++與PointConv進(jìn)行訓(xùn)練與測試,訓(xùn)練結(jié)果如表2所示。表2顯示,全融合網(wǎng)絡(luò)在點(diǎn)云預(yù)測準(zhǔn)確度(PA)上,相比PointNet++網(wǎng)絡(luò)提升了3.3%,稍遜于PointConv網(wǎng)絡(luò);而在平均類別準(zhǔn)確度(MPA)對比中,全融合網(wǎng)絡(luò)則具有顯著的優(yōu)勢,比PointNet++的平均類別準(zhǔn)確度高出19.57%,比PointConv的平均類別準(zhǔn)確度也提高了6.93%。在ScanNetv1數(shù)據(jù)集中,每個(gè)點(diǎn)云場景中大尺寸目標(biāo)的數(shù)量遠(yuǎn)超小目標(biāo)的數(shù)量,小物體預(yù)測正確與否對PA的影響較小,所以PA并不能準(zhǔn)確地反映網(wǎng)絡(luò)的分割結(jié)果,不能有效體現(xiàn)網(wǎng)絡(luò)對小尺寸目標(biāo)語義分割的精度。而平均類別準(zhǔn)確度MPA通過對每一類物體的PA求平均值,每一類物體分割精度對最終結(jié)果是有相同的影響力,能更加準(zhǔn)確地反映網(wǎng)絡(luò)對整體場景的預(yù)測準(zhǔn)確度。本文的全融合網(wǎng)絡(luò)在MPA上有很大的提升,說明該網(wǎng)絡(luò)在三維點(diǎn)云語義分割過程中對小物體目標(biāo)分割具有一定的優(yōu)勢,驗(yàn)證了設(shè)計(jì)的多尺度特征全融合網(wǎng)絡(luò)的有效性。

Table 2 Comparison of semantic segmentation results on ScanNetv1 with non-uniform sampling表2 ScanNetv1數(shù)據(jù)集上非均勻采樣語義分割結(jié)果對比
表3詳細(xì)對比了AFN、PointNet++和PointConv在ScanNetv1數(shù)據(jù)集的每個(gè)類上的語義分割結(jié)果。相較于PointNet++網(wǎng)絡(luò),AFN網(wǎng)絡(luò)共有13類物體預(yù)測準(zhǔn)確度有所提高,并且在11類物體預(yù)測準(zhǔn)確度上高于PointConv。其中,AFN在“水槽”“冰箱”和“門”這3類物體的預(yù)測成功率有了極大的提高,分別至少提高了59.81%,29.02%和24.27%,這3類物體雖然在房間不同位置,但它們擁有一個(gè)共同的特點(diǎn),即它們在每個(gè)場景中的數(shù)量占比都很小,同時(shí)它們的輪廓更加容易與背景融為一體,AFN網(wǎng)絡(luò)遠(yuǎn)超其它網(wǎng)絡(luò)的表現(xiàn)表明了全融合網(wǎng)絡(luò)對細(xì)粒度特征提取的有效性,從而對小目標(biāo)分割更加準(zhǔn)確;同時(shí),AFN對“椅子”“浴簾”“櫥柜”和“圖片”這4類物體的預(yù)測準(zhǔn)確度也提高了5%~20%。
文獻(xiàn)[9]并未給出PointNet網(wǎng)絡(luò)在ScanNetv1數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,因此本文在S3DIS數(shù)據(jù)集上對PointNet和AFN網(wǎng)絡(luò)的語義分割結(jié)果進(jìn)行了對比。使用K折交叉驗(yàn)證將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,使用訓(xùn)練好的模型在數(shù)據(jù)集的Area6區(qū)域進(jìn)行實(shí)驗(yàn),結(jié)果對比如表4所示。可以看出,全融合網(wǎng)絡(luò)無論在MIoU,還是在PA上的結(jié)果都優(yōu)于PointNet網(wǎng)絡(luò),其中,MIoU提高了11.61%,PA提高了6.29%。

Table 3 Comparison of semantic segmentation accuracy of each type of target on ScanNetv1表3 ScanNetv1數(shù)據(jù)集上每類目標(biāo)語義分割準(zhǔn)確度對比

Table 4 Semantic segmentation results on S3DIS Area6 test set表4 在S3DIS Area6測試集上的語義分割結(jié)果
本文還將AFN與PointNet在S3DIS數(shù)據(jù)集上13個(gè)類別的MIoU評分進(jìn)行了對比,結(jié)果如表5所示。

Table 5 MIoU comparison of semantic segmentation accuracy of each type of target on S3DIS Area6表5 S3DIS Area6測試集每類目標(biāo)語義分割結(jié)果MIoU對比 %
從表5中可以看出,全融合網(wǎng)絡(luò)在除“地面”“窗戶”“門”和“面板”之外的所有類上語義分割能力都有提升,最高提升達(dá)60.65%,尤其對于場景中小物體及大目標(biāo)的輪廓分割能力具有明顯的提升,說明了全融合網(wǎng)絡(luò)融合多尺度特征對細(xì)粒度特征提取的有效性。
本文采用MeshLab軟件將PointNet網(wǎng)絡(luò)和全融合網(wǎng)絡(luò)在S3DIS數(shù)據(jù)集上的語義分割結(jié)果可視化,如圖2所示,不同灰度代表不同物體類別。為了更清晰地觀察室內(nèi)場景,將天花板去除。在圖像標(biāo)注的方框1中,對于梁和墻壁物體輪廓連接在一起的地方,可能由于物體不太明顯,PointNet模型直接將梁全部錯(cuò)誤分割為其他物體,而全融合網(wǎng)絡(luò)精準(zhǔn)地分割了梁。從圖像標(biāo)注的方框2中可以看出,對于沙發(fā)與椅子這些長相類似,且在場景中點(diǎn)云數(shù)量占比較少的類別,PointNet網(wǎng)絡(luò)由于缺乏點(diǎn)云局部特征的提取能力,往往會出現(xiàn)語義混淆的情況,將沙發(fā)分割為椅子,將門分割為墻等。而全融合網(wǎng)絡(luò)由于融合特征的魯棒性,對小物體擁有更加準(zhǔn)確的分割能力。

Figure 2 Visual comparison of S3DIS semantic segmentation results圖2 S3DIS數(shù)據(jù)集語義分割結(jié)果可視化對比
對ScanNetv1數(shù)據(jù)集語義分割結(jié)果的可視化結(jié)果如圖3所示,圖3b~圖3d中的黑點(diǎn)均為桌面擺放物體,由于體積小且桌面擺放物體不固定,所以標(biāo)記為其他類。

Figure 3 Visual comparison semantic segmentation results on ScanNetv1 圖3 ScanNetv1數(shù)據(jù)集語義分割結(jié)果可視化對比
從圖3可以看出,全融合模型對場景整體語義分割結(jié)果的視覺表現(xiàn)強(qiáng)于PointNet++和PointConv網(wǎng)絡(luò),可以更加精準(zhǔn)地分割場景中的小物體,目標(biāo)輪廓也更加清晰。PointNet++和PointConv網(wǎng)絡(luò)由于局部特征提取能力不如AFN,在分割時(shí)無法準(zhǔn)確分割目標(biāo)輪廓。
總結(jié)來說,面對各式各樣的室內(nèi)場景、位置不定且大小不一的各類物體,全融合網(wǎng)絡(luò)的表現(xiàn)更加優(yōu)秀。評價(jià)指標(biāo)和可視化結(jié)果都表明了AFN網(wǎng)絡(luò)融合特征對于語義分割強(qiáng)大的提升能力,這種能力主要體現(xiàn)在小物體目標(biāo)與物體輪廓邊緣的分割。實(shí)驗(yàn)結(jié)果有力地證明了全融合網(wǎng)絡(luò)對提高語義分割準(zhǔn)確率的有效性,以及針對物品、場景多樣化的通用性。
相較于良好的深度學(xué)習(xí)機(jī)制,良好實(shí)驗(yàn)效果的獲得更多是AFN網(wǎng)絡(luò)框架的設(shè)計(jì)占了更大的主導(dǎo)地位。受U-Net[16]網(wǎng)絡(luò)的啟發(fā),較多的語義分割網(wǎng)絡(luò)使用先下采樣后上采樣的策略對目標(biāo)進(jìn)行特征提取、分割。AFN網(wǎng)絡(luò)同樣如此,多尺度加權(quán)特征編碼模塊和漸進(jìn)式特征解碼模塊便可組成一個(gè)有效的U型語義分割網(wǎng)絡(luò)。但是,本文的創(chuàng)新之處在于,AFN網(wǎng)絡(luò)對各特征層進(jìn)行了更為充分的利用。多尺度特征解碼使得網(wǎng)絡(luò)有更多的機(jī)會接觸到各特征層的信息,使得網(wǎng)絡(luò)特征提取與學(xué)習(xí)的效率更高。最終的實(shí)驗(yàn)結(jié)果也表明了AFN網(wǎng)絡(luò)的優(yōu)異性。
受二維目標(biāo)檢測模型中多尺度特征融合思想的啟發(fā),本文提出了全融合網(wǎng)絡(luò)結(jié)構(gòu),將多尺度特征融合思想擴(kuò)展到三維點(diǎn)云數(shù)據(jù)處理中。全融合網(wǎng)絡(luò)通過多尺度特征的編碼、解碼,最后融合不同尺度的特征,提升了網(wǎng)絡(luò)特征提取能力的魯棒性。本文將提出的全融合網(wǎng)絡(luò)用于點(diǎn)云語義分割任務(wù),并在ScanNetv1與S3DIS數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,三維點(diǎn)云中的小尺度物體語義分割結(jié)果易受大尺度物體影響,導(dǎo)致語義類別錯(cuò)誤,或部分邊界被大尺度物體侵蝕,本文提出的全融合網(wǎng)絡(luò)能夠捕獲不同尺度物體的特征,對三維場景中的小物體和物體邊界擁有更加優(yōu)秀的分割能力。