基于深度學(xué)習(xí)的三維點(diǎn)云語義分割方法研究

2021-12-12 02:49:44王文舉

計(jì)算機(jī)工程與應(yīng)用 2021年23期

王濤，王文舉，蔡宇

上海理工大學(xué)，上海 200093

三維點(diǎn)云的語義分割是指通過將原始點(diǎn)云數(shù)據(jù)劃分成若干區(qū)域，按照相關(guān)的功能定義對相同屬性和不同屬性的數(shù)據(jù)點(diǎn)進(jìn)行分割，并用標(biāo)簽標(biāo)記被分割的區(qū)域，從而得到每個三維點(diǎn)的語義類別[1]。在生產(chǎn)制造領(lǐng)域，如智能包裝，三維點(diǎn)云的語義分割技術(shù)可以使機(jī)器代替人眼對目標(biāo)進(jìn)行精準(zhǔn)的測量、判斷和控制，從而實(shí)現(xiàn)機(jī)械手臂的智能包裝裝配[2]。此外，隨著3D傳感技術(shù)的飛速發(fā)展，雷達(dá)、激光掃描儀、深度掃描儀、Kinect等硬件三維掃描、攝像設(shè)備的不斷涌現(xiàn)，點(diǎn)云數(shù)據(jù)采集獲取變得日益便利、精準(zhǔn)，并且點(diǎn)云具有將物體原始的幾何信息完整地保留在三維空間上的重要特性。因此，三維點(diǎn)云的語義分割技術(shù)在計(jì)算機(jī)視覺[3-5]、語音識別[6]、人臉識別[7]、全息成像[8]、生物醫(yī)學(xué)分割[9]、自動駕駛汽車[10]等領(lǐng)域上得到了廣泛的應(yīng)用。但是由于點(diǎn)云數(shù)據(jù)的物體對象形狀多樣性、密度不均勻性和采樣不規(guī)則性[11]等特點(diǎn)，使得在三維空間中數(shù)據(jù)點(diǎn)的分布非常不均勻，不同物體之間可能存在著相互遮擋，匹配信息可能會出現(xiàn)錯誤，這些都將直接影響語義分割方法的準(zhǔn)確性，阻礙了智能包裝、智能自動駕駛技術(shù)等應(yīng)用場景前進(jìn)的步伐。

第一個將三維模型用被標(biāo)記數(shù)據(jù)集的方法來訓(xùn)練是由馬薩諸塞大學(xué)的Kalogerakis等人[12]采用，并提出了用于3D網(wǎng)標(biāo)記分割的監(jiān)督方法。該方法代表監(jiān)督學(xué)習(xí)方法的早期實(shí)驗(yàn)，所以有些局限性，比如說該方法不能區(qū)分上/下或者左/右（如左臂/右臂），所以需要提供信息的幾何特征更多，而且該方法訓(xùn)練的時間過長，對大型數(shù)據(jù)而言，訓(xùn)練的時間甚至超過了幾十個小時。2006年，深度學(xué)習(xí)（deep learning）的概念由Hinton等人[13]在Science上提出。2015年，在英國著名雜志Nature期刊上，深度學(xué)習(xí)[14]被正式地廣泛定義。在深度學(xué)習(xí)技術(shù)推動下，點(diǎn)云語義分割方法的研究不斷地迅速地向前發(fā)展，點(diǎn)云語義分割處理相關(guān)的各種問題擁有了越來越多的解決方法[15-18]。

圖1 三維點(diǎn)云語義分割相關(guān)數(shù)據(jù)集Fig.1 Related datasets of point cloud semantic segmentation

然而，對深度學(xué)習(xí)技術(shù)下的點(diǎn)云語義分割方法系統(tǒng)性綜述文章還比較少。在文獻(xiàn)[1]中以二維圖像和三維點(diǎn)云為研究對象，且僅對基于語義分割的精確邊界恢復(fù)進(jìn)行了相關(guān)方法介紹，并沒有詳細(xì)闡述點(diǎn)云語義分割的相關(guān)進(jìn)展。為了引導(dǎo)研究者對點(diǎn)云更深層次的研究，本文對近些年基于深度學(xué)習(xí)的點(diǎn)云語義分割有關(guān)方法進(jìn)行回顧和整理，并討論了相關(guān)方法的國內(nèi)外研究現(xiàn)狀，以及探討了相關(guān)方法的未來發(fā)展方向。

1 基于深度學(xué)習(xí)的三維點(diǎn)云語義分割研究現(xiàn)狀

由于3D傳感技術(shù)的飛速發(fā)展，三維掃描、攝像設(shè)備的不斷涌現(xiàn)，點(diǎn)云數(shù)據(jù)的采集獲取日益便利、精準(zhǔn)，極大地促進(jìn)了三維點(diǎn)云的語義分割發(fā)展。本文認(rèn)真整理出一些典型的用于三維點(diǎn)云語義分割框架的三維數(shù)據(jù)集，其中包括ModelNet[19]、SceneNet[20]、SceneNN[21]、Shapenet[22]以及S3DIS[23]、ScanNet[24]、Semantic3D[25]等，如圖1所示。

基于深度學(xué)習(xí)技術(shù)的三維點(diǎn)云語義分割方法按數(shù)據(jù)的表現(xiàn)形式可分為間接基于點(diǎn)云的方法（包括基于投影的方法、基于體素的方法、基于多視圖的方法）和直接基于點(diǎn)云的方法見圖2。其中，間接方法是一種將不規(guī)則點(diǎn)云轉(zhuǎn)化為規(guī)則結(jié)構(gòu)，然后輸入到網(wǎng)絡(luò)中進(jìn)行分割的方法。該類方法可以很好地彌補(bǔ)卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）不能應(yīng)用在點(diǎn)云的缺陷，但在轉(zhuǎn)換的過程中會不可避免丟失一些重要的信息特征。而直接方法則是一種不需要轉(zhuǎn)換形式，直接將點(diǎn)云輸入到網(wǎng)絡(luò)中實(shí)現(xiàn)分割的方法。該類方法能夠充分利用點(diǎn)云數(shù)據(jù)的特性，降低網(wǎng)絡(luò)計(jì)算的復(fù)雜度，提高語義分割的精度。

圖2 基于深度學(xué)習(xí)的三維點(diǎn)云語義分割方法的可視化表示Fig.2 Visual representation of deep learning-based semantic segmentation methods for 3D point cloud

1.1 基于投影方法的研究

為了實(shí)現(xiàn)快速準(zhǔn)確的點(diǎn)云語義分割，Wu等人[26]利用輕量級的CNN提出了一種端到端的網(wǎng)絡(luò)模型框架（Squeezeseg）。該方法首先將點(diǎn)云經(jīng)過球面投影，得到前視圖，然后利用SqueezeNet[27]的CNN對輸入的圖像進(jìn)行特征提取與分割，最后對分割結(jié)果進(jìn)行優(yōu)化。隨后基于Squeezeseg研究出一種改進(jìn)模型SqueezesegV2[28]，該方法使得點(diǎn)云的噪聲去除更具有魯棒性，從而提高了不同類別的精度。在此框架中，使用一個領(lǐng)域自適應(yīng)訓(xùn)練方法，顯著地減少了模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)之間的差距分布。Imad等人[29]開發(fā)了一種基于遷移學(xué)習(xí)的點(diǎn)云語義分割方法，該方法主要是將原始點(diǎn)云數(shù)據(jù)映射到特定視域內(nèi)，然后將2D分類任務(wù)的知識遷移到基于2D對象的語義分割，最后再反投影到3D中。該方法通過鳥瞰場景，提高了模型的學(xué)習(xí)能力，減少了對大規(guī)模訓(xùn)練數(shù)據(jù)的需求，因此降低了訓(xùn)練所需的時間。

基于投影的方法主要是通過投影縮小點(diǎn)云的維度和計(jì)算成本，來實(shí)現(xiàn)精度和計(jì)算成本之間的權(quán)衡，但是不可避免地會出現(xiàn)一些問題，比如離散化誤差和遮擋等，使其造成空間信息的損失。

1.2 基于體素方法的研究

一些點(diǎn)云語義分割的工作處理是將不規(guī)則點(diǎn)云轉(zhuǎn)化為規(guī)則的體素格式。例如，天津科技大學(xué)的Wang等人[30]提出的基于八叉樹結(jié)構(gòu)的網(wǎng)絡(luò)模型（Octree-based Convolutional Neural Networks，O-CNN）。該模型首先對點(diǎn)云數(shù)據(jù)進(jìn)行體素化，然后構(gòu)建出八叉樹結(jié)構(gòu)，利用八叉樹結(jié)構(gòu)的優(yōu)勢，將稀疏離散的法向量信息存儲在每一個八叉樹結(jié)構(gòu)的葉子結(jié)點(diǎn)上。通過卷積和池化等操作，將信息進(jìn)行向上傳遞，每次卷積和池化操作作為基礎(chǔ)的單元。接著添加超結(jié)點(diǎn)來構(gòu)建出一個大型的八叉樹結(jié)構(gòu)，將多個八叉樹結(jié)構(gòu)存儲的信息一次性送入進(jìn)行運(yùn)算。該模型可以節(jié)省開銷和運(yùn)算的內(nèi)存，但是非常依賴于邊界點(diǎn)云，并未涉及到局部幾何結(jié)構(gòu)，導(dǎo)致分割精度的有所損失。

為了提高語義分割的精度，Tchapmi等人[31]提出了一種三維點(diǎn)云分割的端到端框架（Segmentation of Point Clouds，SEGCloud）。該方法通過引入三線性插值法將三維全卷積神經(jīng)網(wǎng)絡(luò)的粗體素預(yù)測轉(zhuǎn)化為原始的三維點(diǎn)，通過引入完全連通條件隨機(jī)場（Fully Connected Conditional Random Fields，F(xiàn)C-CRF）增強(qiáng)了全局點(diǎn)的類別標(biāo)簽的空間一致性，并提供了點(diǎn)上的細(xì)粒度語義。Dai等人[32]介紹了一種可以對不完整的掃描場景進(jìn)行補(bǔ)全，并且能夠同時進(jìn)行語義分割的網(wǎng)絡(luò)框架。該框架選擇使用全卷積網(wǎng)絡(luò)（Full Convolution Network，F(xiàn)CN[33]），可以接受任意尺寸的輸入圖像，因此，允許在訓(xùn)練測試時擁有不同大小的尺寸。此外，該框架能夠保持網(wǎng)絡(luò)的卷積核大小不變，計(jì)算高效。在訓(xùn)練時，將訓(xùn)練的場景裁剪成固定大小的塊作為輸入；而在測試時，對場景大小則沒有要求。該方法采用了分級的策略，保持了局部信息細(xì)節(jié)和大尺度的結(jié)構(gòu)信息。為了進(jìn)一步地提高精度，還采用了自回歸的策略。

體素表示點(diǎn)云本質(zhì)上是稀疏的。因此，將CNN應(yīng)用于空間稀疏的體素?cái)?shù)據(jù)時，效率往往較低，分割效果并不優(yōu)。為了解決這個問題，Le等人[34]提出了一種三維形狀理解的深層混合網(wǎng)絡(luò)框架（PointGrid）。該框架集成點(diǎn)與網(wǎng)格進(jìn)行表示，從而有效地處理點(diǎn)云。在每一個嵌入的體素單元網(wǎng)格中，都采樣恒定的數(shù)量點(diǎn)，使得網(wǎng)絡(luò)框架可以使用3D卷積來提取幾何細(xì)節(jié)。通過實(shí)驗(yàn)對比，該框架展示出的分割性能較先進(jìn)。Meng等人[35]展示了一種新的點(diǎn)云分割算法，該算法首先將非規(guī)則化的點(diǎn)云轉(zhuǎn)換為規(guī)則結(jié)構(gòu)的體素網(wǎng)格，隨后使用一個插值自動編碼器來編碼每個體素內(nèi)的局部空間幾何，接著利用徑向基函數(shù)來計(jì)算每個體素內(nèi)的局部連續(xù)表示，有效地處理了點(diǎn)的分布稀疏性和不均勻性。實(shí)驗(yàn)結(jié)果顯示，該算法擁有不錯的分割精度。

基于體素的方法主要是在點(diǎn)云預(yù)處理的時候，將點(diǎn)云轉(zhuǎn)化為體素格式，這樣能夠?qū)c(diǎn)云空間的信息進(jìn)行清晰的編碼。與投影方法相比，信息丟失少，擁有著不錯的效果。但是由于點(diǎn)云分區(qū)的不同會引起體素的粒度以及邊界的模糊等嚴(yán)重限制，因此會使得分割精度損失。

1.3 基于多視圖方法的研究

該類方法中最具有代表性的是Su等人[36]提出一種將同一件三維形狀渲染成不同視角下的二維圖，然后結(jié)合CNN提取視圖特征的算法（Multi-View Convolutional Neural Network，MVCNN）。該算法能夠利用2D圖像的深度學(xué)習(xí)CNN框架的成熟度、速度等優(yōu)勢來進(jìn)行3D物體形狀識別。但是該方法并沒有將多視圖之間的特征關(guān)系有效地結(jié)合利用起來，這也會在一定程度上限制最后融合特征的可區(qū)分力，使得精度并不是很理想。

受MVCNN的啟發(fā)，Jiang等人[37]開發(fā)出一種多環(huán)視圖卷積神經(jīng)網(wǎng)絡(luò)框架（Multi-Loop-View Convolutional Neural Network，MLVCNN）。該框架對每個視圖都循環(huán)生成循環(huán)級特征，并且考慮了同一循環(huán)中不同視圖的內(nèi)在關(guān)聯(lián)。Tatarchenko等人[38]介紹了一種使用深度卷積網(wǎng)絡(luò)進(jìn)行語義場景分析的方法。該方法是一種基于切線卷積的三維數(shù)據(jù)的卷積網(wǎng)絡(luò)結(jié)構(gòu)，可以直接作用于曲面幾何。值得注意的是，該網(wǎng)絡(luò)適用于非結(jié)構(gòu)化的點(diǎn)云和其他噪聲的真實(shí)數(shù)據(jù)，可以有效地處理計(jì)算具有數(shù)百萬個點(diǎn)的大規(guī)模點(diǎn)云。因此，能夠應(yīng)用在具有挑戰(zhàn)性的室內(nèi)外的三維環(huán)境數(shù)據(jù)集上。最終的實(shí)驗(yàn)結(jié)果表明，該方法在對大型三維場景進(jìn)行詳細(xì)語義分析時，具有較優(yōu)的性能。

為了使多視圖的特征更好地融合，Yu等人[39]研究出一種多視圖協(xié)調(diào)雙線性網(wǎng)絡(luò)框架（Multi-view Harmonized Bilinear Network，MHBN）。該框架充分利用了多項(xiàng)式核與雙線性池之間的關(guān)系，通過對雙線性池聚合進(jìn)行局部卷積特征，得出一種有效的三維物體表示方法，該方法更具有區(qū)分性。Li等人[40]利用卷積神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法，繪制出激光雷達(dá)與攝像機(jī)信息融合的三維語義圖，從而開發(fā)出一種點(diǎn)云的語義標(biāo)記框架，解決了傳統(tǒng)視圖的應(yīng)用范圍小等缺點(diǎn)。此外，采用一種高階三維全連接條件隨機(jī)場的方法對語義映射進(jìn)行優(yōu)化，進(jìn)一步提高了語義圖的分割準(zhǔn)確性。

基于多視圖的方法主要是利用多視角下的每個視圖來表示三維模型，通常表現(xiàn)為可以用較少的計(jì)算需求達(dá)到較好的分割精度需求。但目前該類算法的精度還不是很高，并且對視圖的選取非常敏感。因此，依然具有較大的提升空間。此外，用多視圖表示模型不能完整地保留3D數(shù)據(jù)的幾何和結(jié)構(gòu)屬性也是一個難以解決的問題。

1.4 直接基于點(diǎn)云方法的研究

間接基于點(diǎn)云的方法存在著一些缺點(diǎn)，為了充分利用點(diǎn)云數(shù)據(jù)的屬性，降低空間的信息損失，研究者逐漸提出了直接基于點(diǎn)云的方法。最具有代表性的是斯坦福大學(xué)的Qi提出的PointNet[11]和PointNet++[41]。PointNet主要是由空間轉(zhuǎn)換網(wǎng)絡(luò)模塊、循環(huán)神經(jīng)網(wǎng)絡(luò)模塊以及對稱函數(shù)模塊三個組成?？臻g轉(zhuǎn)換網(wǎng)絡(luò)模塊能夠?qū)⑺袛?shù)據(jù)處理成一種規(guī)范形式，循環(huán)神經(jīng)網(wǎng)絡(luò)模塊能夠以連續(xù)信號形式進(jìn)行訓(xùn)練，對稱函數(shù)模塊能夠匯總點(diǎn)云中所有點(diǎn)的信息。通過這三個模塊處理使得點(diǎn)云具有旋轉(zhuǎn)不變性、序列不變性，成功地解決了點(diǎn)云的無序性。但是由于PointNet中每個點(diǎn)的特征都是獨(dú)立學(xué)習(xí)的，因此無法捕獲點(diǎn)之間的局部特征來提取細(xì)粒度特征。為了解決這一問題，在PointNet的基礎(chǔ)上，PointNet++方法以層次結(jié)構(gòu)特征來學(xué)習(xí)點(diǎn)云的特征，通過加深網(wǎng)絡(luò)層，使得局部特征更加精確，但是由于自身體系結(jié)構(gòu)復(fù)雜，所以運(yùn)算復(fù)雜度過高。

為了簡化訓(xùn)練過程，Ren等人[42]構(gòu)建出一種基于區(qū)域的快速卷積網(wǎng)絡(luò)目標(biāo)檢測方法（Fast Region-based Convolutional Neural Network，F(xiàn)ast R-CNN）。該方法主要是利用一種單階段的訓(xùn)練算法，簡化了目標(biāo)檢測器訓(xùn)練的過程，并且改善了目標(biāo)的空間位置。Klokov等人[43]提出基于K-d樹結(jié)構(gòu)的深度網(wǎng)絡(luò)（KD-Net）。該模型是在ModelNet[19]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。首先利用K-d樹結(jié)構(gòu)創(chuàng)建一定的順序的點(diǎn)云，然后共享不同樹結(jié)構(gòu)的權(quán)重屬性，按照自下而上的方法，計(jì)算得到根結(jié)點(diǎn)的特征，最后再將整個點(diǎn)云送到全連接層預(yù)測分類。該方法是一種經(jīng)典深度學(xué)習(xí)面向點(diǎn)云的方法，并且實(shí)現(xiàn)了部分點(diǎn)云的分割，但是該方法也存在以下不足：對噪聲比較敏感，并且對輸入的每個點(diǎn)云來說都需要訓(xùn)練一個新模型，所以造成了計(jì)算和訓(xùn)練的一定難度。Thomas等人[44]提出了一種新的適用于點(diǎn)云的擴(kuò)張卷積網(wǎng)絡(luò)（Kernel Point Convolution，KPConv），通過使用一系列的局部3d卷積核實(shí)現(xiàn)，不同于網(wǎng)格卷積，卷積核是一系列帶有權(quán)重的核點(diǎn)組成的，每個核點(diǎn)都有一個影響距離，并且核點(diǎn)的數(shù)量不是固定不變的，這樣使得KPConv比固定網(wǎng)格卷積更具有靈活性。

為了加強(qiáng)點(diǎn)云之間的特征聯(lián)系，Engelmann等人[45]在PointNet[11]的研究基礎(chǔ)上，開發(fā)出一種將點(diǎn)云塊分組處理的方法。該方法主要是通過一組點(diǎn)云塊之間的上下文信息共享，讓模型的感受野在3D場景中得以增大，從而讓模型可以處理更大尺度的看見場景。同時還設(shè)計(jì)了多尺度塊和網(wǎng)格塊，用以獲得輸入級上下文，然后將PointNet提取的塊級特征依次輸入到合并單元（Consolidation Units，CU）或周期性合并單元（Recurrent Consolidation Units，RCU）中，獲得輸出級上下文。該方法證實(shí)了融合點(diǎn)云的空間信息對于提高分割的效果非常重要。

利用圖卷積網(wǎng)絡(luò)性質(zhì)可以有效地獲取點(diǎn)云的空間幾何結(jié)構(gòu)。為此，亞琛工業(yè)大學(xué)的Engelmann等人[46]提出了一種新的三維語義分割方法（Multi-Proposal Aggregation for 3D Semantic Instance Segmentation，3DMPA）。該方法的核心思想也是混合自頂向下和自下而上的優(yōu)點(diǎn)。首先，使用一種以對象為中心的基于稀疏體主干的投票方案，用以產(chǎn)生許多提案；然后通過一個圖卷積網(wǎng)絡(luò)進(jìn)行特性交互，用以提供較低層次的點(diǎn)特征以及較高層次的特征學(xué)習(xí)；其次是根據(jù)圖之間的關(guān)系結(jié)果以及方案的特征相似度來對方案進(jìn)行聚合特征，使其獲得一個最終目標(biāo)的檢測和語義實(shí)例。相比先前的，該方法在對3D物體對象的檢測和語義分割方面上都取得的較高的性能。類似地，Landrieu等人[47]設(shè)計(jì)出一種基于深度學(xué)習(xí)框架的大規(guī)模點(diǎn)云表示方式。該方法能夠利用簡單形狀的內(nèi)在聯(lián)系將圖像語義分割的超級像素進(jìn)行遷移。這種結(jié)構(gòu)可以被屬性有向圖（Super-Point Graph，SPG）捕獲。因此，具有豐富的鄰近關(guān)系的特征描述。在此基礎(chǔ)上，Landrieu和Boussaha[48]構(gòu)建出一種新的有監(jiān)督的框架。該方法用于將點(diǎn)云過度分割為純超點(diǎn)，嵌入計(jì)算使用輕量級神經(jīng)網(wǎng)絡(luò)可以在點(diǎn)的局部鄰域上進(jìn)行操作。但是在廣義最小分塊問題的求解上沒有最優(yōu)方法。

此外，Reading等人[49]展示了一種完全可微的端到端聯(lián)合深度估計(jì)方法。該方法能夠準(zhǔn)確地從對象和場景等線索中推斷出對象深度，并且可以將豐富的上下文特征信息映射到三維空間中的適當(dāng)深度間隔。最終的實(shí)驗(yàn)證明了該方法中深度估計(jì)的重要性。Qiu等人[50]構(gòu)建出一種基于雙向增強(qiáng)和自適應(yīng)融合的點(diǎn)云場景語義分割框架，首先利用雙向結(jié)構(gòu)中的幾何特征和語義特征來增加局部語境，然后采用自適應(yīng)融合方法來表示特征圖，實(shí)現(xiàn)了準(zhǔn)確的語義分割，最后通過消融實(shí)驗(yàn)以及可視化圖驗(yàn)證出該框架的有效性。該框架能夠在大規(guī)模點(diǎn)云數(shù)據(jù)上進(jìn)行語義分割。

在上述直接基于點(diǎn)云方法中，代表了國外目前三維點(diǎn)云語義分割方法研究的最新方向，國內(nèi)對于點(diǎn)云語義分割方法的研究相比國外較晚，基于深度學(xué)習(xí)技術(shù)的三維點(diǎn)云語義分割方法研究仍處于起步階段。

受到文獻(xiàn)[11]和[41]設(shè)計(jì)思路的啟發(fā)，2018年，遼寧工程技術(shù)大學(xué)的Jiang等人[51]提出了一種深度網(wǎng)絡(luò)模型。該模型基于尺度不變特征變換算法（Scale-Invariant Feature Transform，SIFT），用以解決點(diǎn)云語義分割任務(wù)。該網(wǎng)絡(luò)首先構(gòu)建一個定向編碼和尺度感知模塊，將八個重要方向的信息通過一個定向編碼單元進(jìn)行編碼，然后通過堆疊多個尺度下的方向編碼單元獲得尺度不變性。盡管精度提高了許多，但是效率和速度卻很低。同年，國內(nèi)山東大學(xué)學(xué)者李揚(yáng)彥等人[52]提出一種稱為X-變換的方法，并以此開發(fā)出一種簡單的通用的點(diǎn)云特征學(xué)習(xí)框架PointCNN。X-變換方法首先是從輸入點(diǎn)學(xué)習(xí)到的一組權(quán)值X，這組權(quán)值可以對各點(diǎn)相關(guān)聯(lián)的特征進(jìn)行重新加權(quán)和排列。在經(jīng)過X-變換之后的特征上進(jìn)行直接卷積能夠極大提高卷積核的利用率，從而提高卷積操作在無序數(shù)據(jù)上提取特征的能力。該方法在多個具有挑戰(zhàn)性的基準(zhǔn)數(shù)據(jù)集和任務(wù)上，獲得了與同期方法相當(dāng)或更好的性能，但框架分割的精確性仍有待提高。

為此，北京大學(xué)Sun等人[53]在2019年提出嚴(yán)格旋轉(zhuǎn)不變網(wǎng)絡(luò)（Strictly Rotation Invariant Network，SRINET）框架。該網(wǎng)絡(luò)采用點(diǎn)投影運(yùn)算得到旋轉(zhuǎn)不變的特征，然后使用PointNet[11]的骨干網(wǎng)來提取全局信息，并將圖形聚合應(yīng)用于局部形狀特征的挖掘進(jìn)行點(diǎn)云數(shù)據(jù)分類。但是該方法需要進(jìn)一步研究如何選取更穩(wěn)定的軸，以降低將三維坐標(biāo)轉(zhuǎn)換為點(diǎn)投影特征時的損失，從而提高分割精度。針對點(diǎn)與點(diǎn)之間關(guān)系的建模，Yang等人[54]提出了一種分組注意力的方法，該方法具有排列不變、容易區(qū)分的性質(zhì)。但這種方法對異常值較敏感，因此可以根據(jù)特征去選擇點(diǎn)云的不同局部子集。

此外，Hu等人[55]提出了一種基于端到端的二維和三維聯(lián)合推理的雙向網(wǎng)絡(luò)框架，該框架擁有對稱結(jié)構(gòu)的2D和3D子網(wǎng)絡(luò)，通過雙向模塊可以連接互補(bǔ)的2D和3D信息，可以在多個體系結(jié)構(gòu)層次上達(dá)到相互交互的作用。并且能夠有效地結(jié)合2D和3D兩個視覺領(lǐng)域的優(yōu)勢，同時對2D和3D場景的理解識別。Chen等人[56]介紹了一種用于點(diǎn)云分析的等變網(wǎng)絡(luò)，通過引入注意力機(jī)制來有效地利用等變特征的表示能力。當(dāng)與網(wǎng)絡(luò)聯(lián)合訓(xùn)練時，注意力機(jī)制層可以導(dǎo)出特征空間中的內(nèi)在局部組織，并生成可集成到不同對齊任務(wù)中的注意向量。實(shí)驗(yàn)表明，在形狀對齊的任務(wù)中，該方法明顯優(yōu)于非等變網(wǎng)絡(luò)。

直接基于點(diǎn)云的方法是對點(diǎn)云直接處理，使得空間信息損失最小化。但是由于點(diǎn)云密度的不均勻性，造成目前還不能夠完美地解決適應(yīng)非均勻點(diǎn)采樣密度的三維點(diǎn)云分割問題，因此該類方法分割精度有待提高。此外，該類方法無法確定離散對象定位詳盡的性質(zhì)也是一個很大的瓶頸問題。

基于1.1節(jié)至1.4節(jié)的內(nèi)容，總結(jié)出各類點(diǎn)云語義分割方法的優(yōu)點(diǎn)、缺點(diǎn)、適用范圍和應(yīng)用場景，目的是為了更直觀地對基于投影、體素、多視圖的間接方法以及直接基于點(diǎn)云的方法進(jìn)行比較，具體比較內(nèi)容如表1所示。

表1 各類點(diǎn)云語義分割方法的比較Table 1 Comparison of semantic segmentation methods for point clouds

2 研究展望

2.1 基于投影方法的展望

投影技術(shù)是一種數(shù)據(jù)的處理形式，利用投影技術(shù)可以將原始的三維點(diǎn)云數(shù)據(jù)處理成一種具有特定功能的二維形式。投影的數(shù)據(jù)可以將原始的數(shù)據(jù)信息的某些關(guān)鍵屬性進(jìn)行封裝，雖然增加了深度信息用來輔助實(shí)現(xiàn)語義切分，但也存在一些影響切分準(zhǔn)確性的問題，比如離散化誤差和遮擋等，使其造成空間信息的損失。在未來的研究方向上，可以直接在投影之后的點(diǎn)云中進(jìn)行搜索，這樣能夠使離散化錯誤和推斷模糊這類問題得以解決。例如Milioto等人[57]提出一種基于投影的二維CNN處理輸入點(diǎn)云，并利用每個激光掃描的距離圖像表示來進(jìn)行語義推理的方法。該方法是一種快速的、支持GPU的、k近鄰（k-Nearest Neighbors，kNN）的方法，它可以直接在投影之后的點(diǎn)云中進(jìn)行搜索，可以使離散化錯誤和推斷模糊這類問題得以解決。

2.2 基于體素方法的展望

一些工作在三維點(diǎn)云預(yù)處理的時候，將點(diǎn)云轉(zhuǎn)化為體素表示。體素格式的本質(zhì)是稀疏的，并且是規(guī)范化數(shù)據(jù)形式，具有較好的可伸縮性，不但可以對三維點(diǎn)云的鄰域架構(gòu)進(jìn)行保留，而且能夠在標(biāo)準(zhǔn)的三維卷積中適應(yīng)操作。然而由于點(diǎn)云分區(qū)的不同會引起體素的粒度以及邊界的模糊等嚴(yán)重限制，這使得分割精度會有所損失。未來可以在實(shí)踐中找出合適的點(diǎn)云分區(qū)，從而進(jìn)行選擇。例如Graham等人[58]介紹的一種子流形稀疏卷積網(wǎng)絡(luò)框架（Submanifold Sparse Convolutional Networks，SSCN）。該框架能夠更有效地處理空間的稀疏數(shù)據(jù)，并用其來構(gòu)造空間稀疏的卷積神經(jīng)網(wǎng)絡(luò)。通過使用池化操作或者使用跨步卷積操作的卷積網(wǎng)絡(luò)，成功地解決了網(wǎng)絡(luò)中隱藏層可能無法接收到它們對輸入數(shù)據(jù)進(jìn)行分類所需的所有信息。

2.3 基于多視圖方法的展望

近年來，基于二維圖像的語義分割取得了很大進(jìn)展。在二維圖像語義分割成熟技術(shù)的推動下，將三維點(diǎn)云數(shù)據(jù)轉(zhuǎn)換成二維視圖，使得三維點(diǎn)云數(shù)據(jù)處理的快速發(fā)展。如圖3所示的多視圖的卷積神經(jīng)網(wǎng)絡(luò)框架圖[36]，該方法成功地將CNN應(yīng)用在非結(jié)構(gòu)化的點(diǎn)云數(shù)據(jù)中，有效地解決了點(diǎn)云的分割任務(wù)。但是該方法忽略了對象與對象中間的空間關(guān)系，因此只適合單個對象的語義分割。由于二維圖像的語義分割技術(shù)已經(jīng)相當(dāng)成熟，因此在未來的發(fā)展中，可以將二維圖像與三維點(diǎn)云進(jìn)行融合來提高語義分割的效果。在未來的研究過程中，可以考慮該方法下對象與對象中間的空間關(guān)系，從而使該方法不會僅限制于單個對象，也能適合復(fù)雜場景的語義分割。例如Dai等人[59]提出的一種利用三維多視點(diǎn)聯(lián)合預(yù)測網(wǎng)絡(luò)進(jìn)行室內(nèi)RGB-D掃描的三維語義分割的網(wǎng)絡(luò)框架（3D-Multi-View，3DMV）。該框架是一種端到端的聯(lián)合網(wǎng)絡(luò)框架，該方法首先從得到的RGB圖像中提取出特征映射，然后使用可微后向投影層將這些特征映射到3D網(wǎng)絡(luò)的體素特征網(wǎng)格中，最后使用多視圖池化方法來處理數(shù)量不同的RGB輸入視圖。該方法通過聯(lián)合2D-3D網(wǎng)絡(luò)架構(gòu)學(xué)習(xí)到的RGB和幾何特征，得到的結(jié)果具有較優(yōu)的性能。

圖3 多視圖下的卷積神經(jīng)網(wǎng)絡(luò)（MVCNN）框架圖Fig.3 Framework of Multi-View Convolutional Neural Network（MVCNN）

2.4 直接基于點(diǎn)云方法的展望

間接基于點(diǎn)云方法的語義分割模型在前面的敘述中根據(jù)自身的不足之處列出了一些研究展望。為了充分利用三維點(diǎn)云數(shù)據(jù)的特點(diǎn)，降低語義分割網(wǎng)絡(luò)的計(jì)算復(fù)雜度，研究者逐漸構(gòu)建出直接基于點(diǎn)云的模型框架。如圖4、圖5所示的基于深度學(xué)習(xí)的直接在非結(jié)構(gòu)化點(diǎn)云上來處理點(diǎn)云的分類與分割[11，41]。該方法對點(diǎn)云的分割效果雖然達(dá)到了很不錯的理想狀態(tài)，但是由于它沒有考慮點(diǎn)與局部的鄰域信息的距離以及方向之間的關(guān)系，仍然處理比較集中的點(diǎn)，因此在實(shí)際應(yīng)用中，特別是處理大規(guī)模場景下的點(diǎn)云分割時，會丟失一些關(guān)鍵的信息，所以分割效果仍然有待提升。在未來的研究過程中，希望能夠有效地學(xué)習(xí)輪廓的結(jié)構(gòu)信息，并為輪廓回歸定點(diǎn)偏移量進(jìn)行回歸。例如在2020年，浙江大學(xué)的Peng等人[60]開發(fā)的一種新的基于輪廓的深度蛇形分割方法。該方法使用基于學(xué)習(xí)的方法來實(shí)現(xiàn)蛇算法的經(jīng)典思想。與傳統(tǒng)的圖卷積相比，能夠有效地學(xué)習(xí)輪廓的結(jié)構(gòu)信息，并為輪廓回歸定點(diǎn)偏移量進(jìn)行回歸。并且該方法超越了對象邊界，因此不需要進(jìn)行后續(xù)處理（例如上采樣）。此外，在KINS[61]和SBD[62]的城市景觀數(shù)據(jù)集上都取得了良好的效果。但是由于遮擋會使一些對象被分成幾個部分，而一個輪廓只能勾勒出一個部分。因此，需要對每個部分進(jìn)行分割，然后合并分割結(jié)果，這是不靈活的，計(jì)算代價也是昂貴的。未來可以在研究中尋找出一種更靈活的方法，例如先將被遮擋的對象進(jìn)行點(diǎn)云補(bǔ)全，然后進(jìn)行分割。雖然已經(jīng)出現(xiàn)了一些有關(guān)點(diǎn)云補(bǔ)全的方法，但仍處于探索階段，而且沒有應(yīng)用到語義分割中。如何有效地利用點(diǎn)云補(bǔ)全等方法進(jìn)一步地提高分割的性能，是一個有待解決的問題。

圖4 PointNet框架中提取的點(diǎn)云分類和分割圖Fig.4 Framework of PointNet for point cloud classification and segmentation

圖5 PointNet++框架中提取的點(diǎn)云分類和分割圖Fig.5 Framework of PointNet++for point cloud classification and segmentation

3 結(jié)語

本文基于深度學(xué)習(xí)技術(shù)對三維點(diǎn)云的語義分割方法進(jìn)行了詳細(xì)的綜述。首先，介紹了一些與點(diǎn)云語義分割相關(guān)的常用的數(shù)據(jù)集；接著，按點(diǎn)云的數(shù)據(jù)表現(xiàn)形式，將點(diǎn)云語義分割方法分為基于投影、體素、多視圖的間接基于點(diǎn)云的方法和對點(diǎn)云數(shù)據(jù)直接處理的直接基于點(diǎn)云的方法，并整理出相關(guān)方法的最新進(jìn)展；然后對各類方法的優(yōu)點(diǎn)、缺點(diǎn)、適用范圍和應(yīng)用場景進(jìn)行比較；最后，討論了點(diǎn)云的語義分割相關(guān)方法的研究展望，并對未來的研究方向做出了自己的見解。通過對本文的閱讀，期望可以為學(xué)者、研究者對于三維點(diǎn)云語義分割研究方面上提供深入的了解和認(rèn)知，促進(jìn)智能制造、自動駕駛、智能機(jī)器人等行業(yè)的研究與應(yīng)用。