999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的三維點(diǎn)云語義分割方法研究

2021-12-12 02:49:44王文舉
關(guān)鍵詞:語義深度特征

王 濤,王文舉,蔡 宇

上海理工大學(xué),上海 200093

三維點(diǎn)云的語義分割是指通過將原始點(diǎn)云數(shù)據(jù)劃分成若干區(qū)域,按照相關(guān)的功能定義對相同屬性和不同屬性的數(shù)據(jù)點(diǎn)進(jìn)行分割,并用標(biāo)簽標(biāo)記被分割的區(qū)域,從而得到每個三維點(diǎn)的語義類別[1]。在生產(chǎn)制造領(lǐng)域,如智能包裝,三維點(diǎn)云的語義分割技術(shù)可以使機(jī)器代替人眼對目標(biāo)進(jìn)行精準(zhǔn)的測量、判斷和控制,從而實(shí)現(xiàn)機(jī)械手臂的智能包裝裝配[2]。此外,隨著3D傳感技術(shù)的飛速發(fā)展,雷達(dá)、激光掃描儀、深度掃描儀、Kinect等硬件三維掃描、攝像設(shè)備的不斷涌現(xiàn),點(diǎn)云數(shù)據(jù)采集獲取變得日益便利、精準(zhǔn),并且點(diǎn)云具有將物體原始的幾何信息完整地保留在三維空間上的重要特性。因此,三維點(diǎn)云的語義分割技術(shù)在計(jì)算機(jī)視覺[3-5]、語音識別[6]、人臉識別[7]、全息成像[8]、生物醫(yī)學(xué)分割[9]、自動駕駛汽車[10]等領(lǐng)域上得到了廣泛的應(yīng)用。但是由于點(diǎn)云數(shù)據(jù)的物體對象形狀多樣性、密度不均勻性和采樣不規(guī)則性[11]等特點(diǎn),使得在三維空間中數(shù)據(jù)點(diǎn)的分布非常不均勻,不同物體之間可能存在著相互遮擋,匹配信息可能會出現(xiàn)錯誤,這些都將直接影響語義分割方法的準(zhǔn)確性,阻礙了智能包裝、智能自動駕駛技術(shù)等應(yīng)用場景前進(jìn)的步伐。

第一個將三維模型用被標(biāo)記數(shù)據(jù)集的方法來訓(xùn)練是由馬薩諸塞大學(xué)的Kalogerakis等人[12]采用,并提出了用于3D網(wǎng)標(biāo)記分割的監(jiān)督方法。該方法代表監(jiān)督學(xué)習(xí)方法的早期實(shí)驗(yàn),所以有些局限性,比如說該方法不能區(qū)分上/下或者左/右(如左臂/右臂),所以需要提供信息的幾何特征更多,而且該方法訓(xùn)練的時間過長,對大型數(shù)據(jù)而言,訓(xùn)練的時間甚至超過了幾十個小時。2006年,深度學(xué)習(xí)(deep learning)的概念由Hinton等人[13]在Science上提出。2015年,在英國著名雜志Nature期刊上,深度學(xué)習(xí)[14]被正式地廣泛定義。在深度學(xué)習(xí)技術(shù)推動下,點(diǎn)云語義分割方法的研究不斷地迅速地向前發(fā)展,點(diǎn)云語義分割處理相關(guān)的各種問題擁有了越來越多的解決方法[15-18]。

圖1 三維點(diǎn)云語義分割相關(guān)數(shù)據(jù)集Fig.1 Related datasets of point cloud semantic segmentation

然而,對深度學(xué)習(xí)技術(shù)下的點(diǎn)云語義分割方法系統(tǒng)性綜述文章還比較少。在文獻(xiàn)[1]中以二維圖像和三維點(diǎn)云為研究對象,且僅對基于語義分割的精確邊界恢復(fù)進(jìn)行了相關(guān)方法介紹,并沒有詳細(xì)闡述點(diǎn)云語義分割的相關(guān)進(jìn)展。為了引導(dǎo)研究者對點(diǎn)云更深層次的研究,本文對近些年基于深度學(xué)習(xí)的點(diǎn)云語義分割有關(guān)方法進(jìn)行回顧和整理,并討論了相關(guān)方法的國內(nèi)外研究現(xiàn)狀,以及探討了相關(guān)方法的未來發(fā)展方向。

1 基于深度學(xué)習(xí)的三維點(diǎn)云語義分割研究現(xiàn)狀

由于3D傳感技術(shù)的飛速發(fā)展,三維掃描、攝像設(shè)備的不斷涌現(xiàn),點(diǎn)云數(shù)據(jù)的采集獲取日益便利、精準(zhǔn),極大地促進(jìn)了三維點(diǎn)云的語義分割發(fā)展。本文認(rèn)真整理出一些典型的用于三維點(diǎn)云語義分割框架的三維數(shù)據(jù)集,其中包括ModelNet[19]、SceneNet[20]、SceneNN[21]、Shapenet[22]以及S3DIS[23]、ScanNet[24]、Semantic3D[25]等,如圖1所示。

基于深度學(xué)習(xí)技術(shù)的三維點(diǎn)云語義分割方法按數(shù)據(jù)的表現(xiàn)形式可分為間接基于點(diǎn)云的方法(包括基于投影的方法、基于體素的方法、基于多視圖的方法)和直接基于點(diǎn)云的方法見圖2。其中,間接方法是一種將不規(guī)則點(diǎn)云轉(zhuǎn)化為規(guī)則結(jié)構(gòu),然后輸入到網(wǎng)絡(luò)中進(jìn)行分割的方法。該類方法可以很好地彌補(bǔ)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)不能應(yīng)用在點(diǎn)云的缺陷,但在轉(zhuǎn)換的過程中會不可避免丟失一些重要的信息特征。而直接方法則是一種不需要轉(zhuǎn)換形式,直接將點(diǎn)云輸入到網(wǎng)絡(luò)中實(shí)現(xiàn)分割的方法。該類方法能夠充分利用點(diǎn)云數(shù)據(jù)的特性,降低網(wǎng)絡(luò)計(jì)算的復(fù)雜度,提高語義分割的精度。

圖2 基于深度學(xué)習(xí)的三維點(diǎn)云語義分割方法的可視化表示Fig.2 Visual representation of deep learning-based semantic segmentation methods for 3D point cloud

1.1 基于投影方法的研究

為了實(shí)現(xiàn)快速準(zhǔn)確的點(diǎn)云語義分割,Wu等人[26]利用輕量級的CNN提出了一種端到端的網(wǎng)絡(luò)模型框架(Squeezeseg)。該方法首先將點(diǎn)云經(jīng)過球面投影,得到前視圖,然后利用SqueezeNet[27]的CNN對輸入的圖像進(jìn)行特征提取與分割,最后對分割結(jié)果進(jìn)行優(yōu)化。隨后基于Squeezeseg研究出一種改進(jìn)模型SqueezesegV2[28],該方法使得點(diǎn)云的噪聲去除更具有魯棒性,從而提高了不同類別的精度。在此框架中,使用一個領(lǐng)域自適應(yīng)訓(xùn)練方法,顯著地減少了模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)之間的差距分布。Imad等人[29]開發(fā)了一種基于遷移學(xué)習(xí)的點(diǎn)云語義分割方法,該方法主要是將原始點(diǎn)云數(shù)據(jù)映射到特定視域內(nèi),然后將2D分類任務(wù)的知識遷移到基于2D對象的語義分割,最后再反投影到3D中。該方法通過鳥瞰場景,提高了模型的學(xué)習(xí)能力,減少了對大規(guī)模訓(xùn)練數(shù)據(jù)的需求,因此降低了訓(xùn)練所需的時間。

基于投影的方法主要是通過投影縮小點(diǎn)云的維度和計(jì)算成本,來實(shí)現(xiàn)精度和計(jì)算成本之間的權(quán)衡,但是不可避免地會出現(xiàn)一些問題,比如離散化誤差和遮擋等,使其造成空間信息的損失。

1.2 基于體素方法的研究

一些點(diǎn)云語義分割的工作處理是將不規(guī)則點(diǎn)云轉(zhuǎn)化為規(guī)則的體素格式。例如,天津科技大學(xué)的Wang等人[30]提出的基于八叉樹結(jié)構(gòu)的網(wǎng)絡(luò)模型(Octree-based Convolutional Neural Networks,O-CNN)。該模型首先對點(diǎn)云數(shù)據(jù)進(jìn)行體素化,然后構(gòu)建出八叉樹結(jié)構(gòu),利用八叉樹結(jié)構(gòu)的優(yōu)勢,將稀疏離散的法向量信息存儲在每一個八叉樹結(jié)構(gòu)的葉子結(jié)點(diǎn)上。通過卷積和池化等操作,將信息進(jìn)行向上傳遞,每次卷積和池化操作作為基礎(chǔ)的單元。接著添加超結(jié)點(diǎn)來構(gòu)建出一個大型的八叉樹結(jié)構(gòu),將多個八叉樹結(jié)構(gòu)存儲的信息一次性送入進(jìn)行運(yùn)算。該模型可以節(jié)省開銷和運(yùn)算的內(nèi)存,但是非常依賴于邊界點(diǎn)云,并未涉及到局部幾何結(jié)構(gòu),導(dǎo)致分割精度的有所損失。

為了提高語義分割的精度,Tchapmi等人[31]提出了一種三維點(diǎn)云分割的端到端框架(Segmentation of Point Clouds,SEGCloud)。該方法通過引入三線性插值法將三維全卷積神經(jīng)網(wǎng)絡(luò)的粗體素預(yù)測轉(zhuǎn)化為原始的三維點(diǎn),通過引入完全連通條件隨機(jī)場(Fully Connected Conditional Random Fields,F(xiàn)C-CRF)增強(qiáng)了全局點(diǎn)的類別標(biāo)簽的空間一致性,并提供了點(diǎn)上的細(xì)粒度語義。Dai等人[32]介紹了一種可以對不完整的掃描場景進(jìn)行補(bǔ)全,并且能夠同時進(jìn)行語義分割的網(wǎng)絡(luò)框架。該框架選擇使用全卷積網(wǎng)絡(luò)(Full Convolution Network,F(xiàn)CN[33]),可以接受任意尺寸的輸入圖像,因此,允許在訓(xùn)練測試時擁有不同大小的尺寸。此外,該框架能夠保持網(wǎng)絡(luò)的卷積核大小不變,計(jì)算高效。在訓(xùn)練時,將訓(xùn)練的場景裁剪成固定大小的塊作為輸入;而在測試時,對場景大小則沒有要求。該方法采用了分級的策略,保持了局部信息細(xì)節(jié)和大尺度的結(jié)構(gòu)信息。為了進(jìn)一步地提高精度,還采用了自回歸的策略。

體素表示點(diǎn)云本質(zhì)上是稀疏的。因此,將CNN應(yīng)用于空間稀疏的體素?cái)?shù)據(jù)時,效率往往較低,分割效果并不優(yōu)。為了解決這個問題,Le等人[34]提出了一種三維形狀理解的深層混合網(wǎng)絡(luò)框架(PointGrid)。該框架集成點(diǎn)與網(wǎng)格進(jìn)行表示,從而有效地處理點(diǎn)云。在每一個嵌入的體素單元網(wǎng)格中,都采樣恒定的數(shù)量點(diǎn),使得網(wǎng)絡(luò)框架可以使用3D卷積來提取幾何細(xì)節(jié)。通過實(shí)驗(yàn)對比,該框架展示出的分割性能較先進(jìn)。Meng等人[35]展示了一種新的點(diǎn)云分割算法,該算法首先將非規(guī)則化的點(diǎn)云轉(zhuǎn)換為規(guī)則結(jié)構(gòu)的體素網(wǎng)格,隨后使用一個插值自動編碼器來編碼每個體素內(nèi)的局部空間幾何,接著利用徑向基函數(shù)來計(jì)算每個體素內(nèi)的局部連續(xù)表示,有效地處理了點(diǎn)的分布稀疏性和不均勻性。實(shí)驗(yàn)結(jié)果顯示,該算法擁有不錯的分割精度。

基于體素的方法主要是在點(diǎn)云預(yù)處理的時候,將點(diǎn)云轉(zhuǎn)化為體素格式,這樣能夠?qū)c(diǎn)云空間的信息進(jìn)行清晰的編碼。與投影方法相比,信息丟失少,擁有著不錯的效果。但是由于點(diǎn)云分區(qū)的不同會引起體素的粒度以及邊界的模糊等嚴(yán)重限制,因此會使得分割精度損失。

1.3 基于多視圖方法的研究

該類方法中最具有代表性的是Su等人[36]提出一種將同一件三維形狀渲染成不同視角下的二維圖,然后結(jié)合CNN提取視圖特征的算法(Multi-View Convolutional Neural Network,MVCNN)。該算法能夠利用2D圖像的深度學(xué)習(xí)CNN框架的成熟度、速度等優(yōu)勢來進(jìn)行3D物體形狀識別。但是該方法并沒有將多視圖之間的特征關(guān)系有效地結(jié)合利用起來,這也會在一定程度上限制最后融合特征的可區(qū)分力,使得精度并不是很理想。

受MVCNN的啟發(fā),Jiang等人[37]開發(fā)出一種多環(huán)視圖卷積神經(jīng)網(wǎng)絡(luò)框架(Multi-Loop-View Convolutional Neural Network,MLVCNN)。該框架對每個視圖都循環(huán)生成循環(huán)級特征,并且考慮了同一循環(huán)中不同視圖的內(nèi)在關(guān)聯(lián)。Tatarchenko等人[38]介紹了一種使用深度卷積網(wǎng)絡(luò)進(jìn)行語義場景分析的方法。該方法是一種基于切線卷積的三維數(shù)據(jù)的卷積網(wǎng)絡(luò)結(jié)構(gòu),可以直接作用于曲面幾何。值得注意的是,該網(wǎng)絡(luò)適用于非結(jié)構(gòu)化的點(diǎn)云和其他噪聲的真實(shí)數(shù)據(jù),可以有效地處理計(jì)算具有數(shù)百萬個點(diǎn)的大規(guī)模點(diǎn)云。因此,能夠應(yīng)用在具有挑戰(zhàn)性的室內(nèi)外的三維環(huán)境數(shù)據(jù)集上。最終的實(shí)驗(yàn)結(jié)果表明,該方法在對大型三維場景進(jìn)行詳細(xì)語義分析時,具有較優(yōu)的性能。

為了使多視圖的特征更好地融合,Yu等人[39]研究出一種多視圖協(xié)調(diào)雙線性網(wǎng)絡(luò)框架(Multi-view Harmonized Bilinear Network,MHBN)。該框架充分利用了多項(xiàng)式核與雙線性池之間的關(guān)系,通過對雙線性池聚合進(jìn)行局部卷積特征,得出一種有效的三維物體表示方法,該方法更具有區(qū)分性。Li等人[40]利用卷積神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法,繪制出激光雷達(dá)與攝像機(jī)信息融合的三維語義圖,從而開發(fā)出一種點(diǎn)云的語義標(biāo)記框架,解決了傳統(tǒng)視圖的應(yīng)用范圍小等缺點(diǎn)。此外,采用一種高階三維全連接條件隨機(jī)場的方法對語義映射進(jìn)行優(yōu)化,進(jìn)一步提高了語義圖的分割準(zhǔn)確性。

基于多視圖的方法主要是利用多視角下的每個視圖來表示三維模型,通常表現(xiàn)為可以用較少的計(jì)算需求達(dá)到較好的分割精度需求。但目前該類算法的精度還不是很高,并且對視圖的選取非常敏感。因此,依然具有較大的提升空間。此外,用多視圖表示模型不能完整地保留3D數(shù)據(jù)的幾何和結(jié)構(gòu)屬性也是一個難以解決的問題。

1.4 直接基于點(diǎn)云方法的研究

間接基于點(diǎn)云的方法存在著一些缺點(diǎn),為了充分利用點(diǎn)云數(shù)據(jù)的屬性,降低空間的信息損失,研究者逐漸提出了直接基于點(diǎn)云的方法。最具有代表性的是斯坦福大學(xué)的Qi提出的PointNet[11]和PointNet++[41]。PointNet主要是由空間轉(zhuǎn)換網(wǎng)絡(luò)模塊、循環(huán)神經(jīng)網(wǎng)絡(luò)模塊以及對稱函數(shù)模塊三個組成??臻g轉(zhuǎn)換網(wǎng)絡(luò)模塊能夠?qū)⑺袛?shù)據(jù)處理成一種規(guī)范形式,循環(huán)神經(jīng)網(wǎng)絡(luò)模塊能夠以連續(xù)信號形式進(jìn)行訓(xùn)練,對稱函數(shù)模塊能夠匯總點(diǎn)云中所有點(diǎn)的信息。通過這三個模塊處理使得點(diǎn)云具有旋轉(zhuǎn)不變性、序列不變性,成功地解決了點(diǎn)云的無序性。但是由于PointNet中每個點(diǎn)的特征都是獨(dú)立學(xué)習(xí)的,因此無法捕獲點(diǎn)之間的局部特征來提取細(xì)粒度特征。為了解決這一問題,在PointNet的基礎(chǔ)上,PointNet++方法以層次結(jié)構(gòu)特征來學(xué)習(xí)點(diǎn)云的特征,通過加深網(wǎng)絡(luò)層,使得局部特征更加精確,但是由于自身體系結(jié)構(gòu)復(fù)雜,所以運(yùn)算復(fù)雜度過高。

為了簡化訓(xùn)練過程,Ren等人[42]構(gòu)建出一種基于區(qū)域的快速卷積網(wǎng)絡(luò)目標(biāo)檢測方法(Fast Region-based Convolutional Neural Network,F(xiàn)ast R-CNN)。該方法主要是利用一種單階段的訓(xùn)練算法,簡化了目標(biāo)檢測器訓(xùn)練的過程,并且改善了目標(biāo)的空間位置。Klokov等人[43]提出基于K-d樹結(jié)構(gòu)的深度網(wǎng)絡(luò)(KD-Net)。該模型是在ModelNet[19]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。首先利用K-d樹結(jié)構(gòu)創(chuàng)建一定的順序的點(diǎn)云,然后共享不同樹結(jié)構(gòu)的權(quán)重屬性,按照自下而上的方法,計(jì)算得到根結(jié)點(diǎn)的特征,最后再將整個點(diǎn)云送到全連接層預(yù)測分類。該方法是一種經(jīng)典深度學(xué)習(xí)面向點(diǎn)云的方法,并且實(shí)現(xiàn)了部分點(diǎn)云的分割,但是該方法也存在以下不足:對噪聲比較敏感,并且對輸入的每個點(diǎn)云來說都需要訓(xùn)練一個新模型,所以造成了計(jì)算和訓(xùn)練的一定難度。Thomas等人[44]提出了一種新的適用于點(diǎn)云的擴(kuò)張卷積網(wǎng)絡(luò)(Kernel Point Convolution,KPConv),通過使用一系列的局部3d卷積核實(shí)現(xiàn),不同于網(wǎng)格卷積,卷積核是一系列帶有權(quán)重的核點(diǎn)組成的,每個核點(diǎn)都有一個影響距離,并且核點(diǎn)的數(shù)量不是固定不變的,這樣使得KPConv比固定網(wǎng)格卷積更具有靈活性。

為了加強(qiáng)點(diǎn)云之間的特征聯(lián)系,Engelmann等人[45]在PointNet[11]的研究基礎(chǔ)上,開發(fā)出一種將點(diǎn)云塊分組處理的方法。該方法主要是通過一組點(diǎn)云塊之間的上下文信息共享,讓模型的感受野在3D場景中得以增大,從而讓模型可以處理更大尺度的看見場景。同時還設(shè)計(jì)了多尺度塊和網(wǎng)格塊,用以獲得輸入級上下文,然后將PointNet提取的塊級特征依次輸入到合并單元(Consolidation Units,CU)或周期性合并單元(Recurrent Consolidation Units,RCU)中,獲得輸出級上下文。該方法證實(shí)了融合點(diǎn)云的空間信息對于提高分割的效果非常重要。

利用圖卷積網(wǎng)絡(luò)性質(zhì)可以有效地獲取點(diǎn)云的空間幾何結(jié)構(gòu)。為此,亞琛工業(yè)大學(xué)的Engelmann等人[46]提出了一種新的三維語義分割方法(Multi-Proposal Aggregation for 3D Semantic Instance Segmentation,3DMPA)。該方法的核心思想也是混合自頂向下和自下而上的優(yōu)點(diǎn)。首先,使用一種以對象為中心的基于稀疏體主干的投票方案,用以產(chǎn)生許多提案;然后通過一個圖卷積網(wǎng)絡(luò)進(jìn)行特性交互,用以提供較低層次的點(diǎn)特征以及較高層次的特征學(xué)習(xí);其次是根據(jù)圖之間的關(guān)系結(jié)果以及方案的特征相似度來對方案進(jìn)行聚合特征,使其獲得一個最終目標(biāo)的檢測和語義實(shí)例。相比先前的,該方法在對3D物體對象的檢測和語義分割方面上都取得的較高的性能。類似地,Landrieu等人[47]設(shè)計(jì)出一種基于深度學(xué)習(xí)框架的大規(guī)模點(diǎn)云表示方式。該方法能夠利用簡單形狀的內(nèi)在聯(lián)系將圖像語義分割的超級像素進(jìn)行遷移。這種結(jié)構(gòu)可以被屬性有向圖(Super-Point Graph,SPG)捕獲。因此,具有豐富的鄰近關(guān)系的特征描述。在此基礎(chǔ)上,Landrieu和Boussaha[48]構(gòu)建出一種新的有監(jiān)督的框架。該方法用于將點(diǎn)云過度分割為純超點(diǎn),嵌入計(jì)算使用輕量級神經(jīng)網(wǎng)絡(luò)可以在點(diǎn)的局部鄰域上進(jìn)行操作。但是在廣義最小分塊問題的求解上沒有最優(yōu)方法。

此外,Reading等人[49]展示了一種完全可微的端到端聯(lián)合深度估計(jì)方法。該方法能夠準(zhǔn)確地從對象和場景等線索中推斷出對象深度,并且可以將豐富的上下文特征信息映射到三維空間中的適當(dāng)深度間隔。最終的實(shí)驗(yàn)證明了該方法中深度估計(jì)的重要性。Qiu等人[50]構(gòu)建出一種基于雙向增強(qiáng)和自適應(yīng)融合的點(diǎn)云場景語義分割框架,首先利用雙向結(jié)構(gòu)中的幾何特征和語義特征來增加局部語境,然后采用自適應(yīng)融合方法來表示特征圖,實(shí)現(xiàn)了準(zhǔn)確的語義分割,最后通過消融實(shí)驗(yàn)以及可視化圖驗(yàn)證出該框架的有效性。該框架能夠在大規(guī)模點(diǎn)云數(shù)據(jù)上進(jìn)行語義分割。

在上述直接基于點(diǎn)云方法中,代表了國外目前三維點(diǎn)云語義分割方法研究的最新方向,國內(nèi)對于點(diǎn)云語義分割方法的研究相比國外較晚,基于深度學(xué)習(xí)技術(shù)的三維點(diǎn)云語義分割方法研究仍處于起步階段。

受到文獻(xiàn)[11]和[41]設(shè)計(jì)思路的啟發(fā),2018年,遼寧工程技術(shù)大學(xué)的Jiang等人[51]提出了一種深度網(wǎng)絡(luò)模型。該模型基于尺度不變特征變換算法(Scale-Invariant Feature Transform,SIFT),用以解決點(diǎn)云語義分割任務(wù)。該網(wǎng)絡(luò)首先構(gòu)建一個定向編碼和尺度感知模塊,將八個重要方向的信息通過一個定向編碼單元進(jìn)行編碼,然后通過堆疊多個尺度下的方向編碼單元獲得尺度不變性。盡管精度提高了許多,但是效率和速度卻很低。同年,國內(nèi)山東大學(xué)學(xué)者李揚(yáng)彥等人[52]提出一種稱為X-變換的方法,并以此開發(fā)出一種簡單的通用的點(diǎn)云特征學(xué)習(xí)框架PointCNN。X-變換方法首先是從輸入點(diǎn)學(xué)習(xí)到的一組權(quán)值X,這組權(quán)值可以對各點(diǎn)相關(guān)聯(lián)的特征進(jìn)行重新加權(quán)和排列。在經(jīng)過X-變換之后的特征上進(jìn)行直接卷積能夠極大提高卷積核的利用率,從而提高卷積操作在無序數(shù)據(jù)上提取特征的能力。該方法在多個具有挑戰(zhàn)性的基準(zhǔn)數(shù)據(jù)集和任務(wù)上,獲得了與同期方法相當(dāng)或更好的性能,但框架分割的精確性仍有待提高。

為此,北京大學(xué)Sun等人[53]在2019年提出嚴(yán)格旋轉(zhuǎn)不變網(wǎng)絡(luò)(Strictly Rotation Invariant Network,SRINET)框架。該網(wǎng)絡(luò)采用點(diǎn)投影運(yùn)算得到旋轉(zhuǎn)不變的特征,然后使用PointNet[11]的骨干網(wǎng)來提取全局信息,并將圖形聚合應(yīng)用于局部形狀特征的挖掘進(jìn)行點(diǎn)云數(shù)據(jù)分類。但是該方法需要進(jìn)一步研究如何選取更穩(wěn)定的軸,以降低將三維坐標(biāo)轉(zhuǎn)換為點(diǎn)投影特征時的損失,從而提高分割精度。針對點(diǎn)與點(diǎn)之間關(guān)系的建模,Yang等人[54]提出了一種分組注意力的方法,該方法具有排列不變、容易區(qū)分的性質(zhì)。但這種方法對異常值較敏感,因此可以根據(jù)特征去選擇點(diǎn)云的不同局部子集。

此外,Hu等人[55]提出了一種基于端到端的二維和三維聯(lián)合推理的雙向網(wǎng)絡(luò)框架,該框架擁有對稱結(jié)構(gòu)的2D和3D子網(wǎng)絡(luò),通過雙向模塊可以連接互補(bǔ)的2D和3D信息,可以在多個體系結(jié)構(gòu)層次上達(dá)到相互交互的作用。并且能夠有效地結(jié)合2D和3D兩個視覺領(lǐng)域的優(yōu)勢,同時對2D和3D場景的理解識別。Chen等人[56]介紹了一種用于點(diǎn)云分析的等變網(wǎng)絡(luò),通過引入注意力機(jī)制來有效地利用等變特征的表示能力。當(dāng)與網(wǎng)絡(luò)聯(lián)合訓(xùn)練時,注意力機(jī)制層可以導(dǎo)出特征空間中的內(nèi)在局部組織,并生成可集成到不同對齊任務(wù)中的注意向量。實(shí)驗(yàn)表明,在形狀對齊的任務(wù)中,該方法明顯優(yōu)于非等變網(wǎng)絡(luò)。

直接基于點(diǎn)云的方法是對點(diǎn)云直接處理,使得空間信息損失最小化。但是由于點(diǎn)云密度的不均勻性,造成目前還不能夠完美地解決適應(yīng)非均勻點(diǎn)采樣密度的三維點(diǎn)云分割問題,因此該類方法分割精度有待提高。此外,該類方法無法確定離散對象定位詳盡的性質(zhì)也是一個很大的瓶頸問題。

基于1.1節(jié)至1.4節(jié)的內(nèi)容,總結(jié)出各類點(diǎn)云語義分割方法的優(yōu)點(diǎn)、缺點(diǎn)、適用范圍和應(yīng)用場景,目的是為了更直觀地對基于投影、體素、多視圖的間接方法以及直接基于點(diǎn)云的方法進(jìn)行比較,具體比較內(nèi)容如表1所示。

表1 各類點(diǎn)云語義分割方法的比較Table 1 Comparison of semantic segmentation methods for point clouds

2 研究展望

2.1 基于投影方法的展望

投影技術(shù)是一種數(shù)據(jù)的處理形式,利用投影技術(shù)可以將原始的三維點(diǎn)云數(shù)據(jù)處理成一種具有特定功能的二維形式。投影的數(shù)據(jù)可以將原始的數(shù)據(jù)信息的某些關(guān)鍵屬性進(jìn)行封裝,雖然增加了深度信息用來輔助實(shí)現(xiàn)語義切分,但也存在一些影響切分準(zhǔn)確性的問題,比如離散化誤差和遮擋等,使其造成空間信息的損失。在未來的研究方向上,可以直接在投影之后的點(diǎn)云中進(jìn)行搜索,這樣能夠使離散化錯誤和推斷模糊這類問題得以解決。例如Milioto等人[57]提出一種基于投影的二維CNN處理輸入點(diǎn)云,并利用每個激光掃描的距離圖像表示來進(jìn)行語義推理的方法。該方法是一種快速的、支持GPU的、k近鄰(k-Nearest Neighbors,kNN)的方法,它可以直接在投影之后的點(diǎn)云中進(jìn)行搜索,可以使離散化錯誤和推斷模糊這類問題得以解決。

2.2 基于體素方法的展望

一些工作在三維點(diǎn)云預(yù)處理的時候,將點(diǎn)云轉(zhuǎn)化為體素表示。體素格式的本質(zhì)是稀疏的,并且是規(guī)范化數(shù)據(jù)形式,具有較好的可伸縮性,不但可以對三維點(diǎn)云的鄰域架構(gòu)進(jìn)行保留,而且能夠在標(biāo)準(zhǔn)的三維卷積中適應(yīng)操作。然而由于點(diǎn)云分區(qū)的不同會引起體素的粒度以及邊界的模糊等嚴(yán)重限制,這使得分割精度會有所損失。未來可以在實(shí)踐中找出合適的點(diǎn)云分區(qū),從而進(jìn)行選擇。例如Graham等人[58]介紹的一種子流形稀疏卷積網(wǎng)絡(luò)框架(Submanifold Sparse Convolutional Networks,SSCN)。該框架能夠更有效地處理空間的稀疏數(shù)據(jù),并用其來構(gòu)造空間稀疏的卷積神經(jīng)網(wǎng)絡(luò)。通過使用池化操作或者使用跨步卷積操作的卷積網(wǎng)絡(luò),成功地解決了網(wǎng)絡(luò)中隱藏層可能無法接收到它們對輸入數(shù)據(jù)進(jìn)行分類所需的所有信息。

2.3 基于多視圖方法的展望

近年來,基于二維圖像的語義分割取得了很大進(jìn)展。在二維圖像語義分割成熟技術(shù)的推動下,將三維點(diǎn)云數(shù)據(jù)轉(zhuǎn)換成二維視圖,使得三維點(diǎn)云數(shù)據(jù)處理的快速發(fā)展。如圖3所示的多視圖的卷積神經(jīng)網(wǎng)絡(luò)框架圖[36],該方法成功地將CNN應(yīng)用在非結(jié)構(gòu)化的點(diǎn)云數(shù)據(jù)中,有效地解決了點(diǎn)云的分割任務(wù)。但是該方法忽略了對象與對象中間的空間關(guān)系,因此只適合單個對象的語義分割。由于二維圖像的語義分割技術(shù)已經(jīng)相當(dāng)成熟,因此在未來的發(fā)展中,可以將二維圖像與三維點(diǎn)云進(jìn)行融合來提高語義分割的效果。在未來的研究過程中,可以考慮該方法下對象與對象中間的空間關(guān)系,從而使該方法不會僅限制于單個對象,也能適合復(fù)雜場景的語義分割。例如Dai等人[59]提出的一種利用三維多視點(diǎn)聯(lián)合預(yù)測網(wǎng)絡(luò)進(jìn)行室內(nèi)RGB-D掃描的三維語義分割的網(wǎng)絡(luò)框架(3D-Multi-View,3DMV)。該框架是一種端到端的聯(lián)合網(wǎng)絡(luò)框架,該方法首先從得到的RGB圖像中提取出特征映射,然后使用可微后向投影層將這些特征映射到3D網(wǎng)絡(luò)的體素特征網(wǎng)格中,最后使用多視圖池化方法來處理數(shù)量不同的RGB輸入視圖。該方法通過聯(lián)合2D-3D網(wǎng)絡(luò)架構(gòu)學(xué)習(xí)到的RGB和幾何特征,得到的結(jié)果具有較優(yōu)的性能。

圖3 多視圖下的卷積神經(jīng)網(wǎng)絡(luò)(MVCNN)框架圖Fig.3 Framework of Multi-View Convolutional Neural Network(MVCNN)

2.4 直接基于點(diǎn)云方法的展望

間接基于點(diǎn)云方法的語義分割模型在前面的敘述中根據(jù)自身的不足之處列出了一些研究展望。為了充分利用三維點(diǎn)云數(shù)據(jù)的特點(diǎn),降低語義分割網(wǎng)絡(luò)的計(jì)算復(fù)雜度,研究者逐漸構(gòu)建出直接基于點(diǎn)云的模型框架。如圖4、圖5所示的基于深度學(xué)習(xí)的直接在非結(jié)構(gòu)化點(diǎn)云上來處理點(diǎn)云的分類與分割[11,41]。該方法對點(diǎn)云的分割效果雖然達(dá)到了很不錯的理想狀態(tài),但是由于它沒有考慮點(diǎn)與局部的鄰域信息的距離以及方向之間的關(guān)系,仍然處理比較集中的點(diǎn),因此在實(shí)際應(yīng)用中,特別是處理大規(guī)模場景下的點(diǎn)云分割時,會丟失一些關(guān)鍵的信息,所以分割效果仍然有待提升。在未來的研究過程中,希望能夠有效地學(xué)習(xí)輪廓的結(jié)構(gòu)信息,并為輪廓回歸定點(diǎn)偏移量進(jìn)行回歸。例如在2020年,浙江大學(xué)的Peng等人[60]開發(fā)的一種新的基于輪廓的深度蛇形分割方法。該方法使用基于學(xué)習(xí)的方法來實(shí)現(xiàn)蛇算法的經(jīng)典思想。與傳統(tǒng)的圖卷積相比,能夠有效地學(xué)習(xí)輪廓的結(jié)構(gòu)信息,并為輪廓回歸定點(diǎn)偏移量進(jìn)行回歸。并且該方法超越了對象邊界,因此不需要進(jìn)行后續(xù)處理(例如上采樣)。此外,在KINS[61]和SBD[62]的城市景觀數(shù)據(jù)集上都取得了良好的效果。但是由于遮擋會使一些對象被分成幾個部分,而一個輪廓只能勾勒出一個部分。因此,需要對每個部分進(jìn)行分割,然后合并分割結(jié)果,這是不靈活的,計(jì)算代價也是昂貴的。未來可以在研究中尋找出一種更靈活的方法,例如先將被遮擋的對象進(jìn)行點(diǎn)云補(bǔ)全,然后進(jìn)行分割。雖然已經(jīng)出現(xiàn)了一些有關(guān)點(diǎn)云補(bǔ)全的方法,但仍處于探索階段,而且沒有應(yīng)用到語義分割中。如何有效地利用點(diǎn)云補(bǔ)全等方法進(jìn)一步地提高分割的性能,是一個有待解決的問題。

圖4 PointNet框架中提取的點(diǎn)云分類和分割圖Fig.4 Framework of PointNet for point cloud classification and segmentation

圖5 PointNet++框架中提取的點(diǎn)云分類和分割圖Fig.5 Framework of PointNet++for point cloud classification and segmentation

3 結(jié)語

本文基于深度學(xué)習(xí)技術(shù)對三維點(diǎn)云的語義分割方法進(jìn)行了詳細(xì)的綜述。首先,介紹了一些與點(diǎn)云語義分割相關(guān)的常用的數(shù)據(jù)集;接著,按點(diǎn)云的數(shù)據(jù)表現(xiàn)形式,將點(diǎn)云語義分割方法分為基于投影、體素、多視圖的間接基于點(diǎn)云的方法和對點(diǎn)云數(shù)據(jù)直接處理的直接基于點(diǎn)云的方法,并整理出相關(guān)方法的最新進(jìn)展;然后對各類方法的優(yōu)點(diǎn)、缺點(diǎn)、適用范圍和應(yīng)用場景進(jìn)行比較;最后,討論了點(diǎn)云的語義分割相關(guān)方法的研究展望,并對未來的研究方向做出了自己的見解。通過對本文的閱讀,期望可以為學(xué)者、研究者對于三維點(diǎn)云語義分割研究方面上提供深入的了解和認(rèn)知,促進(jìn)智能制造、自動駕駛、智能機(jī)器人等行業(yè)的研究與應(yīng)用。

猜你喜歡
語義深度特征
深度理解一元一次方程
語言與語義
如何表達(dá)“特征”
不忠誠的四個特征
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 蝴蝶伊人久久中文娱乐网| 日本午夜精品一本在线观看| 日韩视频免费| 国产精品一老牛影视频| 国产成人三级| 亚洲国产精品无码久久一线| 26uuu国产精品视频| 国产青青操| 97成人在线视频| 国产激情国语对白普通话| 99精品视频九九精品| 五月婷婷亚洲综合| 91小视频在线观看| 久99久热只有精品国产15| 亚洲一区二区黄色| 日本免费精品| 亚洲国模精品一区| 在线观看亚洲国产| 国模私拍一区二区三区| 乱人伦中文视频在线观看免费| 亚洲日韩欧美在线观看| 国产网站免费看| 亚洲中字无码AV电影在线观看| 中国国产高清免费AV片| 99国产精品一区二区| 久久精品女人天堂aaa| 中文无码毛片又爽又刺激| 高清无码一本到东京热| 亚洲精品黄| 精品国产成人a在线观看| 日韩亚洲综合在线| 国内精品伊人久久久久7777人| 久久毛片基地| 免费一级毛片在线播放傲雪网 | 毛片大全免费观看| 狠狠色噜噜狠狠狠狠奇米777| 亚洲一区国色天香| 亚洲系列无码专区偷窥无码| 亚洲人成网站在线播放2019| 91视频青青草| 青青网在线国产| 国产精品污污在线观看网站| 欧美国产综合视频| 国产在线啪| 成人综合久久综合| 精品亚洲国产成人AV| 天堂av综合网| 伊人久热这里只有精品视频99| 激情无码字幕综合| 91精品国产福利| 国产日本欧美亚洲精品视| 久久人妻xunleige无码| 香蕉视频在线观看www| 亚洲天堂网在线视频| 亚洲精品视频免费| 精品免费在线视频| 看国产毛片| aa级毛片毛片免费观看久| 国产精品对白刺激| 国产一区在线观看无码| 欧美日韩在线国产| 国产夜色视频| 亚洲欧美成人在线视频| 又大又硬又爽免费视频| 51国产偷自视频区视频手机观看 | 国产综合在线观看视频| 成AV人片一区二区三区久久| 看你懂的巨臀中文字幕一区二区 | 日韩国产综合精选| 亚洲专区一区二区在线观看| 国产SUV精品一区二区6| 久久国产精品电影| 久久久精品久久久久三级| 亚洲国产AV无码综合原创| 精品成人一区二区| 欧美一区中文字幕| 欧美三级视频在线播放| 少妇高潮惨叫久久久久久| 亚洲成年人网| 久久91精品牛牛| 国产欧美日韩在线一区| 农村乱人伦一区二区|