999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度學習在點云分類中的研究綜述

2022-01-22 07:47:34王文曦李樂林
計算機工程與應(yīng)用 2022年1期
關(guān)鍵詞:分類特征信息

王文曦,李樂林,2

1.湖南科技大學資源環(huán)境與安全工程學院,湖南 湘潭 411201

2.湖南科技大學測繪遙感信息工程湖南省重點實驗室,湖南 湘潭 411201

三維掃描技術(shù)的快速發(fā)展使點云數(shù)據(jù)具備采集成本低、獲取速度快與數(shù)據(jù)精度高等優(yōu)勢,這為三維點云的研究提供發(fā)展前提。點云數(shù)據(jù)在森林監(jiān)測[1]、自動駕駛[2]、文物保護[3]、道路標示線提取[4]等領(lǐng)域都具有廣泛的應(yīng)用。點云分類能夠有效提取語義信息,但由于其海量多樣、非結(jié)構(gòu)性等特點使得高效利用點云特征進行分類成為攝影測量與遙感領(lǐng)域的研究的熱點。

點云分類指將相同或相似屬性的點劃分到同一點集合的過程[5]。一般而言,點云分類任務(wù)的基本步驟是提取局部和全局代表性的點特征,并使用學習到的特征表示將每個點分類為預(yù)定義的語義類別。傳統(tǒng)的分類方法基于局部鄰域點的幾何結(jié)構(gòu),如密度、曲率、粗糙度,開發(fā)了各種手工制作的點描述符,選擇合適分類器預(yù)測點云的語義標簽。例如:支持向量機(support vector machines,SVM)[6-7]、隨機森林(random forest,RF)[8-10]、JointBoost[11]等。但由于該類方法沒有充分考慮相鄰點云的聯(lián)系導致噪聲對分類結(jié)果的影響很大。而后提出的聯(lián)系上下文信息的方法,例如:條件隨機場(conditional random field,CRF)[12]、馬爾科夫隨機場(Markov random field,MRF)[13-14],雖然早期研究在一定程度上能完成點云的分類任務(wù),但是仍然存在一些問題:手工設(shè)計規(guī)則主要依靠操作人員的專業(yè)能力,主觀性較強;不同的應(yīng)用場景的約束條件各不相同,導致泛化能力和準確度不理想[15];以及選擇與組合最優(yōu)分類器的過程復雜度高,淺層模型推廣到大型復雜的真實場景中存在難度。

近來計算機運算能力的迭代更新以及大型三維場景數(shù)據(jù)的出現(xiàn)推動了深度學習技術(shù)快速發(fā)展,基于人工特征和常見分類器的分類方法已成為經(jīng)典。如今基于深度學習的方法研究三維點云稱為主流趨勢,其優(yōu)勢在于可以從大量的輸入數(shù)據(jù)中自動提取高層特征。起初研究者們提出將原始點云投影到2D圖像中[16-29],再將其提供至更深層的網(wǎng)絡(luò)。但有些方法仍需要手工構(gòu)造特征來增強2D 特征圖像的表示,并且由于3D 到2D 轉(zhuǎn)換過程中的信息丟失,使得分類性能受到限制。為此學者們從三維數(shù)據(jù)的源頭入手來解決上述方法帶來的弊端,Qi等人[30]于2017年首次提出可以直接作用于原始點云的PointNet 網(wǎng)絡(luò),在點云分類、語義分割及目標檢測方面得到推廣與應(yīng)用。至此直接處理原始輸入點云的研究內(nèi)容成為熱門。近年來,該類方法的研究方法不斷更新,本文主要從優(yōu)化改進多層感知機(multi-layer perceptron,MLP)[31-37]、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[38-47]、圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolution network,GCN)[48-55]以及注意力機制[56-60]四個方向進行討論。

隨著深度學習方法在遙感領(lǐng)域的普及,許多技術(shù)在場景分類、目標檢測、變化等方面取得顯著效果。深度學習的優(yōu)勢在于能夠?qū)崿F(xiàn)自動化提取點云特征信息,可以有效規(guī)避傳統(tǒng)算法提取特征時由于操作人員的主觀因素帶來的影響。此外,深度學習的分類模型泛化能力強,分類精度高,可以推廣應(yīng)用于大型復雜三維場景中。

目前,已有學者對基于深度學習的點云分類與分割的算法研究進行探討與總結(jié)[61-63],本文豐富和完善了前人的工作。根據(jù)特征提取方法的不同,梳理總結(jié)了點云分類的具有代表性與性能出色方法的工作原理與關(guān)鍵技術(shù),歸納最新提出的基于深度學習的分類方法。最后展望了點云分類技術(shù)未來的研究方向。

1 點云數(shù)據(jù)背景介紹

點云(point cloud)是指在相同參考坐標系下表示目標物體表面特征及空間分布的點。點云數(shù)據(jù)的獲取主要有以下三種方式:一是通過三維激光掃描儀直接獲取點云數(shù)據(jù);二是利用攝影測量的方法對多張具有一定重疊度的影像進行立體匹配獲得三維點云;三是使用RGB-D相機同時獲取多幀彩色影像和深度圖并利用相機內(nèi)參間接生成點云數(shù)據(jù)。獲取的點云數(shù)據(jù)包含了豐富的屬性信息(如三維坐標、顏色、強度值和入射方向等),且點之間沒有明顯的關(guān)聯(lián)。

1.1 點云特征

(1)點云的無序性

不同于像素規(guī)則排列的二維圖像,點云數(shù)據(jù)則是無序點的集合。使用不同的設(shè)備和位置獲取采集目標,會得到排列順序千差萬別的點云數(shù)據(jù)。當采用不同順序讀入n個點云時,其組合方式就有n!種。點云的無序性使其與2D 圖片卷積存在差異。2D 圖像中各點具有固定位置,而點云的位置順序則存在很多種可能。對不同位置點云進行卷積算,結(jié)果會受點云的輸入順序的影響。文獻[30,41,49]方法通過對稱函數(shù)、構(gòu)造卷積算子或利用圖與樹的結(jié)構(gòu)為解決點云的無序性做出貢獻。

(2)點云的稀疏性

真實三維場景中包含多種不同類別的物體,因此其對應(yīng)的點云數(shù)據(jù)的空間屬性也各不相同。通過不同方式獲取到物體的點云數(shù)據(jù)在密度、點數(shù)以及點間距離都具有一定的差別。三維點云的不規(guī)則結(jié)構(gòu)會導致某些區(qū)域的過采樣和欠采樣,這在網(wǎng)絡(luò)中更新內(nèi)核時會給過采樣的區(qū)域增加增加過多的權(quán)重,反之亦然。因此不同密度的點云的處理是研究點云分類策略的重點之一。在網(wǎng)絡(luò)中嵌入密度模塊[31,47,60]的方法可以在一定程度上解決點云密度不均的問題。

(3)點云的非結(jié)構(gòu)化

常規(guī)的卷積神經(jīng)網(wǎng)絡(luò)可以有效地處理結(jié)構(gòu)化的二維圖像數(shù)據(jù),但將無結(jié)構(gòu)的點云數(shù)據(jù)直接輸入到神經(jīng)卷積網(wǎng)絡(luò)模型中往往比較困難。早期學者會將點云數(shù)據(jù)轉(zhuǎn)化為體素格網(wǎng)或者多視圖。雖然該類方法在分類方面取得一定的成效,但僅僅進行簡單的轉(zhuǎn)換會增加不必要的計算,導致結(jié)果數(shù)據(jù)占用量大甚至丟失重要信息。從近年的研究來看,許多學者借助圖卷積神經(jīng)網(wǎng)絡(luò)處理非結(jié)構(gòu)化數(shù)據(jù)的能力,對其加以改進來還原點云數(shù)據(jù)的拓撲信息。

(4)點云數(shù)據(jù)多樣性與信息有限性

現(xiàn)實物體的形狀千差萬別導致采集到的點云數(shù)據(jù)尺度差距大,因此如何構(gòu)建能夠處理不同尺度的點云模型成為亟待解決的問題。在三維空間中點云數(shù)據(jù)是點坐標的集合,是對物體的低分辨率采樣,這就導致點云數(shù)據(jù)的信息有限,只包含片面的幾何信息。例如Point-Net 僅提取單個點云特征,沒有考慮局部特征信息。為避免模型訓練時遇到類似問題,優(yōu)化網(wǎng)絡(luò)[31]在通過多層次結(jié)構(gòu)獲取到點集的全局特征。文獻[55]方法基于Reeb圖卷積神經(jīng)網(wǎng)絡(luò)提取點云的上下文信息聚合點云特征,并取得良好的分類效果。

點云數(shù)據(jù)自身獨有的特性令點云分類研究充滿挑戰(zhàn)。當前點云研究的核心任務(wù)之一就是高效處理點云的特性并應(yīng)用到相關(guān)場景。

1.2 公共數(shù)據(jù)集

合理利用有效的數(shù)據(jù)集是充分發(fā)揮算法性能的重要環(huán)節(jié)。目前,許多研究機構(gòu)為學者們提供公共可靠的、開源的三維數(shù)據(jù)集。對于點云分類研究來說,數(shù)據(jù)集分為兩類:合成數(shù)據(jù)集和真實場景數(shù)據(jù)集。本節(jié)基于全文涉及的分類策略以及數(shù)據(jù)集應(yīng)用的廣泛程度,簡單描述常用的數(shù)據(jù)集。

(1)ModelNet[17]:該項目是合成數(shù)據(jù)集的代表,旨在為計算機視覺、計算機圖形學、機器人和認知科學的研究者們提供全面且清晰物體的3D CAD 模型。該系列數(shù)據(jù)集共含有127 915 個CAD 模型,662 種目標分類以及10 個標記朝向的數(shù)據(jù)。ModelNet 包括3 個子數(shù)據(jù)集:ModelNet10、ModelNet40 和Aligned40,其中Model-Net10/40是分類研究中最常見的數(shù)據(jù)集。

(2)ScanNet[64]:該數(shù)據(jù)集是RGB-D視頻室內(nèi)場景數(shù)據(jù)集,通過對1 513 個室內(nèi)場景進行掃描獲得250 萬個視圖,分為21個類別。ScanNet包含多種大小不同的空間,例如:桌椅,雜物間,教室和圖書館等,數(shù)據(jù)具有三維坐標信息和語義標簽信息,主要應(yīng)用于三維點云分類,語義體素標注和CAD模型檢索等研究中。

(3)ISPRS 公共數(shù)據(jù)集[65]:該項目在2015 年由國際攝影測量和遙感學會(international society for photogrammetry and remote sensing,ISPRS)開發(fā)的基準測試數(shù)據(jù)集,目的是鼓勵研究學者根據(jù)基礎(chǔ)測試數(shù)據(jù)對城市目標檢測和三維建筑物重建進行評估。ISPRS 數(shù)據(jù)集總共包括9個子類別,在三維場景的理解任務(wù)上有很大貢獻。

(4)2019年數(shù)據(jù)融合比賽數(shù)據(jù)集(2019 data fusion contest dataset)[66]:數(shù)據(jù)集旨在利用深度學習完成城市場景的語義類3D重建和預(yù)測點云語義標簽等研究。數(shù)據(jù)集中包括兩所城市的多視圖、多波段衛(wèi)星圖像和語義標簽。其中,語義類包括地面、高植被、建筑、水、高架道路和橋梁等。

1.3 評價指標

標準評價指標可以充分且直觀的評估點云分類模型的有效性。在精度、空間復雜度、執(zhí)行時間等幾種度量指標中,精度指標最為關(guān)鍵。本文選取平均精度(mean accuracy,MA)和總體精度(overall accuracy,OA)兩個最主要的分類評價指標分析對比不同的分類方法,為學者的后續(xù)研究提供參考。

2 基于深度學習的分類方法

相比于傳統(tǒng)算法,深度學習的優(yōu)勢在于無需人工參與設(shè)計,能夠?qū)崿F(xiàn)自動學習大數(shù)據(jù)的特征[67]。本章根據(jù)點聚合的方式將基于深度學習的點云分類算法劃分為基于投影的點云分類方法和基于原始點云的分類方法兩個大類,并選取具有代表性、性能優(yōu)越的網(wǎng)絡(luò)結(jié)構(gòu)進行展示。如圖1為基于深度學習的點云分類流程圖;如圖2為深度學習在點云分類研究中的發(fā)展時間軸,不同顏色代表不同分類類別。

圖1 基于深度學習的點云分類流程圖Fig.1 Flow chart of point cloud classification based on deep learning

圖2 基于深度學習的點云分類方法發(fā)展時間軸Fig.2 Development timeline of point cloud classification based on deep learning

2.1 基于投影的方法

典型的卷積神經(jīng)網(wǎng)絡(luò)是在規(guī)則、有序以及結(jié)構(gòu)化的二維圖像上執(zhí)行的運算。對于不規(guī)則,非結(jié)構(gòu)化的點云數(shù)據(jù),將其投影到特定的預(yù)先設(shè)置的模式后進行點云特征的提取。本節(jié)通過對文獻的整理與總結(jié),將該類別下的方法進一步細分為兩類:基于體素網(wǎng)格的方法和基于多視圖的方法。

(1)體素網(wǎng)格

借鑒卷積神經(jīng)網(wǎng)絡(luò)在二維圖像語義標注的先驗知識,以及體素與圖像數(shù)據(jù)的組織結(jié)構(gòu)的相似性,學者們對于將體素化的非結(jié)構(gòu)性點云數(shù)據(jù)應(yīng)用于三維卷積神經(jīng)網(wǎng)絡(luò)的模型展開研究。

點云的體素化即利用占用網(wǎng)格(volumetric occupancy grid)將環(huán)境狀態(tài)表示為三維網(wǎng)格。最早的模型是Maturana 等[16]為充分利用點云信息和有效處理大量點云數(shù)據(jù)提出的VoxNet 模型,該模型集成了體積占用網(wǎng)格與3D 卷積神經(jīng)網(wǎng)絡(luò)。VoxNet 網(wǎng)絡(luò)參數(shù)少,形式簡潔,可以通過多層疊加生成全局標簽對點云分類。受深度置信網(wǎng)絡(luò)(deep belief network,DBN)啟發(fā),Wu 等[17]基于卷積深度置信網(wǎng)絡(luò)(convolutional deep belief network,CDBN)提出了3D Shapenets 模型。將點云幾何特征表示為體素格網(wǎng)上的二進制概率分布,使用卷積共享權(quán)值緩解參數(shù)過剩的問題,使模型得到有效訓練。spherical CNN[18]將3D 網(wǎng)格投影到封閉球體上,每個點向球的中心點發(fā)出射線,收集到射線與物體模型的交點處距離與曲面角度信息,由此來捕獲投影。提出了球相關(guān)(spherical correlation)與廣義傅里葉快速變換來提取旋轉(zhuǎn)不變的全局特征。spherical CNN證實了球面卷積應(yīng)用于點云分類的有效性。Prin 將該方法擴展到使用球面體素卷積的離散3D點[19]。雖然以上方法展現(xiàn)出解決點云數(shù)據(jù)無序性和非結(jié)構(gòu)性問題的潛力,但是仍存在計算時占用內(nèi)存過大的問題

為解決點云的稀疏性與龐大的計算開銷,學者們嘗試用靈活的八叉樹結(jié)構(gòu)代替分辨率固定的體素網(wǎng)格,例如OctNet[20]和OCNN[21]網(wǎng)絡(luò)等。OctNet 采用混合網(wǎng)格-八叉樹結(jié)構(gòu)對空間分層劃分,各個節(jié)葉點對應(yīng)存儲池化要素。該方法不僅避免了冗余的計算和不必要的內(nèi)存消耗,而且在保障分辨率的同時能達到更深層次的網(wǎng)絡(luò)。Wang 等人[21]受到OctNet 的啟發(fā)提出了OCNN,在3D CNN中提取八叉樹中包含的特征,一定程度上減輕計算負擔,提高計算效率。索引結(jié)構(gòu)與八叉樹類似的KD樹結(jié)構(gòu)也被應(yīng)用到分類模型中,經(jīng)典方法KD-Net[22]利用KD 樹結(jié)構(gòu)以從粗到精的方式對點進行分組。由于網(wǎng)絡(luò)不依賴卷積結(jié)構(gòu),因此可有效避免不良的縮放行為。但點云存在旋轉(zhuǎn)時會間接影響網(wǎng)絡(luò)效果,且將原始點云數(shù)據(jù)轉(zhuǎn)換成KD樹的形式,增加了計算負擔。采用靈活合適的索引結(jié)構(gòu)雖然能夠減少計算時產(chǎn)生的內(nèi)存消耗,但是訓練過程不能充分利用局部幾何結(jié)構(gòu)并且體素的邊界會影響計算結(jié)果。Hanocka等人[23]基于網(wǎng)格與傳統(tǒng)CNN 提出MeshCNN,以邊為單位定義卷積,采用折疊特征值小的邊的方式優(yōu)化池化部分,自動簡化了分類任務(wù)。該方法能夠捕捉重要的特征的同時丟棄冗余特征。

上述方法從不同角度為體素化點云在處理過程中遇到的困難提供解決方案。體素化算法雖然取得了一定的成果,但是存在丟失重要信息,存儲和計算開銷大,適用性不高等弊端[68]。相信伴隨科學技術(shù)的發(fā)展,存儲和計算方法的升級,該類算法也會進一步被優(yōu)化。

(2)多視角

早期學者從多個視角對點云投影,使用卷積神經(jīng)網(wǎng)絡(luò)對投影后的2D 影像進行后續(xù)加工。多視圖CNN(multi-view CNN,MVCNN)方法的實質(zhì)是將點云或者3D 形狀渲染成視圖,利用傳統(tǒng)的圖像卷積進行特征學習。Su等[24]首先根據(jù)不同情況提出兩種相機設(shè)置方式,在不同視角下完成渲染圖,將多個視圖的特征信息通過卷積層和池化層整合成一個單一的、緊湊的3D 形狀描述符,將聚合后的特征輸入完全連接層得到分類結(jié)果,具體流程見圖3。Qi 等[25]在MVCNN 的基礎(chǔ)上通過方位角和仰角的變化增強訓練數(shù)據(jù),以及引入多分辨率的三維濾波捕捉多尺度的信息的手段提升分類模型的性能。文獻[26]方法將多視圖框架復雜化,通過條件隨機場解決標簽一致性的問題,該過程不需要任何的人工調(diào)整的特征。

圖3 用于3D形狀識別的多視圖CNN(使用1stcamera設(shè)置演示)Fig.3 Multi-view CNN for 3D shape recognition(demo using 1stcamera settings)

基于多視圖的處理方法中,差異大的渲染圖對形狀識別更加有利。為獲得更具判別性的信息,F(xiàn)eng等人[27]在MVCNN 的基礎(chǔ)上進一步提出GVCNN 模型。該方法主要是從“視覺圖-組-形狀”的框架形成描述符:首先對不同視圖下提取的視覺描述符分組,然后學習視圖間的信息特征并生成組級別描述符,最后通過加權(quán)生成形狀級別描述符用于分類任務(wù)。此外,文獻[28-29]方法在基于多視圖的研究方向也有類似貢獻。

盡管多視圖卷積神經(jīng)網(wǎng)絡(luò)能夠在多視角下獲得三維物體的描述,但在相機設(shè)置位置與角度時容易出現(xiàn)遮擋情況,視圖不能得到有效處理將直接影響訓練結(jié)果。

基于投影的方法本質(zhì)上是將非結(jié)構(gòu)化的點云轉(zhuǎn)換為規(guī)則的二維表示的過程,其弊端在于需要計算額外的局部幾何特征,例如平面度、粗糙度以及球度等。另外,無論是對點云規(guī)則化還是從多視角的角度進行處理,在實現(xiàn)3D到2D的轉(zhuǎn)換過程中會造成點云信息的丟失。

2.2 基于原始點云的方法

上節(jié)中介紹到基于投影的點云分類策略存在計算復雜度較高,不能對三維點云數(shù)據(jù)的特性加以利用等缺點,為此,學者們嘗試直接從原始點云中學習特征信息。本節(jié)將從以下四個方面對該類方法分析:多層感知機;卷積神經(jīng)網(wǎng)絡(luò);圖卷積神經(jīng)網(wǎng)絡(luò);注意力機制。

(1)多層感知機(MLP)

Qi 等[30]開創(chuàng)性地提出將深度學習模型直接應(yīng)用于原始點云的算法—PointNet。它為解決點云的無序性、旋轉(zhuǎn)不變性以及置換不變性提供了新思路:通過MLP學習單個點的特征并用對稱函數(shù)編碼全局信息解決點云的無序性問題;采用三維的空間變換網(wǎng)絡(luò)(spatial transformer network,STN)解決點云旋轉(zhuǎn)不變性的的問題;在分類時對輸入點云進行幾何變換和特征變換,采用最大池聚合點特征解決點云置換不變性的問題(圖4)。模型的缺陷在于提取點云特征時只捕捉到單個點和全局點的信息,無法獲取完整的局部特征信息,且不能充分考慮鄰近點的交互關(guān)系。這導致PointNet對細粒度模型的分類能力較差,在復雜場景中適用性有限。

圖4 PointNet點云分類網(wǎng)絡(luò)框架Fig.4 PointNet point cloud classification network framework

由于無法解決局部性的結(jié)構(gòu)問題[30],Qi等[31]繼而提出優(yōu)化網(wǎng)絡(luò)PointNet++,框架如圖5 所示。該模型在文獻[30]方法的基礎(chǔ)上引入由一系列抽象層組成的多層次結(jié)構(gòu),每一層都分為采樣層、分組層和特征提取層三部分。PointNet++提高了特征提取的精度,能夠有效解決劃分局部點云和提取點云的局部特征兩個問題,并且可以為大場景提供更高級別的特征。但點間的聯(lián)系依舊沒有充分的學習,為此研究者們基于PointNet++的訓練框架提出了更多的分類網(wǎng)絡(luò),如:Momenet[32]、So-Net[33]、結(jié)構(gòu)關(guān)系網(wǎng)絡(luò)(structural relation network,SRN)[34]和PointWeb[35]。

圖5 PointNet++點云分類網(wǎng)絡(luò)框架Fig.5 PointNet++ point cloud classification network framework

文獻[32]通過對點云坐標添加多項式函數(shù)來提高網(wǎng)絡(luò)訓練的能力,網(wǎng)絡(luò)能夠以高時效、低消耗的優(yōu)勢獲得高精度的分類結(jié)果。So-Net[33]利用自組織特征映射(self-organizing feature mapping,SOFM)分析點云的分布情況,以此實現(xiàn)點云分類的置換不變性網(wǎng)絡(luò)。So-Net結(jié)構(gòu)簡單,有良好的并行性,訓練速度快,在分類任務(wù)中效果良好。Duan等人[34]提出了SRN來學習點間的交互關(guān)系。Zhao等人[35]從上下文信息機制中受到啟發(fā),提出了PointWeb 網(wǎng)絡(luò)。通過局部的上下文信息,使用自適應(yīng)特征調(diào)整模塊(adaptive feature adjustment,AFA)學習點之間的局部特征。

為了有效解決使用3D傳感器或者重建算法處理原始點云后存在的異常值和噪聲,文獻[36]提出PointASNL。網(wǎng)絡(luò)由自適應(yīng)采樣模塊(adaptive sampling,AS)及局部-非局部模塊(local-nonlocal,L-NL)兩部分組成。AS模塊能減弱噪聲和異常值,有利于點云的特征學習。L-NL模塊為點云的分類和分割處理提供準確且穩(wěn)定的特征信息。其中,利用L模塊學習局部特征,利用NL模塊融合全部采樣點的局部特征從而獲得全局特征。

針對點云無序性的特征,Prokudin 等[37]提出基本點集的概念(basis point sets,BPS)。具體是將輸入點歸一化為合適單元球,對一組點進行隨機采樣構(gòu)成基本點集。計算給定點云到一組固定點的最小距離后,將其傳遞到PointNet最后兩個完全連接層。

(2)卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)作為最基本的深度學習模型之一,在目標檢測、語義分割、邊緣檢測等大型圖像處理研究方面表現(xiàn)出色。CNN的結(jié)構(gòu)優(yōu)勢為提取三維數(shù)據(jù)從低到高維特征提供靈感。點云處理中分類與分割的任務(wù)可通過優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)完成。Yousefhussien 等[38]提出的一維完全卷積分類網(wǎng)絡(luò)直接使用點云數(shù)據(jù)的三維坐標以及相應(yīng)光譜特征。Wang等人[39]提出帶有空間池化的深度神經(jīng)網(wǎng)絡(luò)DNNSP中采用最大池層將基于點的特征聚合成基于簇的特征后通過MLP完成分類。Komarichev 等[40]認為PointNet++處理點云時局部區(qū)域的重疊導致信息冗余,故將環(huán)形卷積嵌入分層網(wǎng)絡(luò),提出了A-CNN。通過環(huán)卷積提取周圍點的局部鄰域特征,在后續(xù)的點云處理中聚合全局特征與局部特征完成分類任務(wù)。網(wǎng)絡(luò)中的環(huán)結(jié)構(gòu)在不會對鄰域點重復查詢,因此A-CNN 在大型場景的應(yīng)用中性能穩(wěn)定。如圖6 是A-CNN中環(huán)形卷積的框架圖。

圖6 A-CNN中環(huán)形卷積的框架圖Fig.6 Frame diagram of circular convolution in A-CNN

點云的無序性使其與2D 圖像卷積存在差異。2D圖像中各點具有固定位置,而點云的位置順序則存在很多種可能(如圖7所示)。對不同位置點云進行卷積算,結(jié)果會受點云的輸入順序的影響,從而影響卷積的結(jié)果。PointCNN[41]避免了點云的輸入順序?qū)矸e操作的阻礙,網(wǎng)絡(luò)中定義的χ-變換卷積算子能將具有特定輸入順序的數(shù)據(jù)轉(zhuǎn)換為與順序無關(guān)的特征。網(wǎng)絡(luò)使用χ算子轉(zhuǎn)化輸入點云坐標,通過MLP 學習特征信息后使用χ變換矩陣進行特征處理。在分類網(wǎng)絡(luò)中采用膨脹卷積思想保持網(wǎng)絡(luò)深度以及接受場的增長率。PointCNN證實了局部結(jié)構(gòu)的開發(fā)對點云分類網(wǎng)絡(luò)的重要性。但實際上χ-變換矩陣和預(yù)設(shè)結(jié)果相差仍有差距,網(wǎng)絡(luò)需要進一步改進。

圖7 點云的不同位置Fig.7 Different locations of point clouds

與2D 圖像去掉RGB 信息后無法被識別的情況不同,點云僅保留位置信息也可以被有效識別,即點云中相鄰點的空間幾何信息可以表達隱含的形狀信息。據(jù)此,Liu 等人[42]提出了對點的幾何關(guān)系編碼的卷積算子RS-Conv,設(shè)計基于幾何關(guān)系來學習3D 形狀關(guān)系的卷積神經(jīng)網(wǎng)絡(luò)RS-CNN。利用RS-Conv(如圖8)對點云子集進行卷積計算后,將低維信息代入神經(jīng)網(wǎng)絡(luò)中映射成高維信息,推理點云的空間信息特征,實現(xiàn)形狀上下文的感知,最后通過全連接層得到全局特征后進行分類處理。結(jié)果證明,RS-CNN具有良好的目標識別功能。

圖8 RS-Conv示意圖Fig.8 Schematic diagram of RS-Conv

模型[31,33,41]均以PointNet中MLP的一維卷積的思想來進行改進,PointConv[43]是在點云上建構(gòu)深層卷積網(wǎng)絡(luò),用MLP 學習近似3D 的卷積核,對點云特征密度加權(quán)。該網(wǎng)絡(luò)便于操作,提高了訓練時效與精度的同時減輕了計算機存儲壓力。類似地,核點卷積(kernel points convolutional,KPConv)[44]也是將卷積自然推廣到點云數(shù)據(jù)中,不同之處在于卷積計算和核轉(zhuǎn)換矩陣的方式。KPConv 提供了可變形卷積算子,通過線性差值得到核轉(zhuǎn)換矩陣,卷積的權(quán)重決定了到核點的歐氏距離。Boulch[45]提出將卷積核分為空間和特征部分的ConvPoint,選擇卷積核空間部分的任意位置,通過多層感知機訓練加權(quán)函數(shù)。

Wen等人[46]提出方向約束全卷積網(wǎng)絡(luò)(D-FCN),將原始點云三維坐標和強度值作為模型的輸入。利用方向約束點卷積(D-Conv)模塊從投影的二維感受野中提取三維點集的局部特征。基于D-Conv模塊進一步設(shè)計了具有下采樣和上采樣模塊的多尺度全卷積神經(jīng)網(wǎng)絡(luò),以實現(xiàn)多尺度點特征學習。D-FCN 不僅可以處理任意大小的輸入點云,而且可以通過端到端的方式直接預(yù)測所有輸入點的語義標簽。但模型中采用具有規(guī)則感受場的標準卷積核,不能建立點之間的結(jié)構(gòu)聯(lián)系,也不能考慮點密度的變化。

為解決三維點云密度分布不均勻,不能有效識別細粒度的局部結(jié)構(gòu)問題。DANCE-NET[47]引入了一種密度感知卷積模塊,使用逐點密度重新加權(quán)卷積核的可學習權(quán)重,為逼近非均勻分布的三維點集上的連續(xù)卷積提供可能。

(3)圖卷積神經(jīng)網(wǎng)絡(luò)

現(xiàn)階段基于點的分類方法都是將整體點云作為輸入,雖然它們都在標準基準上實現(xiàn)了理想的檢索精度,但卻忽略海量點云的冗余信息。圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)的概念最早由Gori 等[69]提出,Scarselli 等人[70]對其完善。Bruna 等人[71]首次提出基于譜圖論開發(fā)的非歐式域的卷積神經(jīng)網(wǎng)絡(luò)。Kipf 等人[72]在前人的基礎(chǔ)上正式提出圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolution network,GCN)。GCN 實際屬于CNN 的優(yōu)化,通過提取圖數(shù)據(jù)的特征,在半監(jiān)督分類任務(wù)中效果良好。Simonovsky等[48]受到邊緣標簽應(yīng)用的啟發(fā),提出了可以應(yīng)用于任意圖結(jié)構(gòu)的邊緣卷積網(wǎng)絡(luò)(ECC)。在進行加權(quán)平均的卷積操作時,ECC的權(quán)重取決于節(jié)點間的邊權(quán)。ECC將點云數(shù)據(jù)的點視作圖結(jié)構(gòu)的頂點,使用最大采樣法聚合頂點信息。但將點云改變?yōu)閳D結(jié)構(gòu)的過程中需要大量計算,導致分類結(jié)果并不理想。KCNet[49]通過圖卷積沿邊緣聚合點云局部特征,利用圖或者樹的結(jié)構(gòu),將局部區(qū)域中無序的點云變得有序化。由于點云屬于非線性結(jié)構(gòu),使KCNet 構(gòu)建圖或樹的邊緣更加繁瑣。

DGCNN[50]為解決文獻[30-31]獲取局部特征能力差的問題提供了邊緣卷積模塊,通過模塊的疊加或循環(huán)得到全局特征。網(wǎng)絡(luò)可以在保持置換不變性的基礎(chǔ)上捕捉局部幾何信息,但由于忽略了點之間的向量方向?qū)е聛G失了部分信息。并且DGCNN 中的空間轉(zhuǎn)換模塊處理點云時需要大量參數(shù),提高了模型的復雜度。Zhang等人[51]進一步優(yōu)化DGCNN,提出鏈接動態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)(LDGCNN)。首先取消需要過多參數(shù)的空間變換網(wǎng)絡(luò),通過添加跳躍鏈接聚合不同層的動態(tài)圖的層次特征,學習特征中有效的邊緣矢量特征。該網(wǎng)絡(luò)能夠有效避免梯度消失的問題。

Point GNN[52]每一層網(wǎng)絡(luò)都在循環(huán)使用圖的邊,因此可以避免不必要的點云分組與采樣。Gird-GCN[53]創(chuàng)新性提出能夠降低理論時間復雜度和提高空間覆蓋率的模塊:覆蓋感知的網(wǎng)格查詢模塊(coverage-aware grid query,CAGQ)與網(wǎng)格內(nèi)容聚合模塊(grid context aggregation,GCA)。

Li等人[54]采用點卷積(Pconv)和點池化(Ppool)方法學習點云的高層特征,結(jié)合圖結(jié)構(gòu)提出點云特征學習網(wǎng)絡(luò)PointVGG,并將其應(yīng)用于目標分類和局部分割。如圖9為PointVGG網(wǎng)絡(luò)架構(gòu),通過Pconv層逐步放大感受野獲取局部幾何信息,利用Ppool層解決點云的無序性問題。與直接將局部幾何信息聚合成向量的對稱函數(shù)不同,Ppool通過逐步聚集點獲得更詳細的局部幾何表示。Wang 等人[55]從點云中提取信息緊湊豐富的Reeb圖,分別用Reeb圖和KNN圖捕捉輸入點云的上下文信息。網(wǎng)絡(luò)使用深度圖卷積進行點云過濾,可以取得良好的分類效果。

圖9 PointVGG網(wǎng)絡(luò)架構(gòu)Fig.9 PointVGG network architecture

(4)注意力機制

注意力機制[73]的工作原理是使系統(tǒng)關(guān)注主要信息,忽略次要信息。受到引入注意力網(wǎng)絡(luò)對二維圖像的分類方法[74-75]的啟發(fā),且該機制具有固定排列和不依賴于點間聯(lián)系的特性,能符合點云處理的要求,因此許多學者將注意力機制引入點云處理的算法研究。Yang 等人[56]提出基于點云推理的點注意力變壓器(PAT),采用組混洗注意力機制(group shuffle attention,GSA)代替并行注意力機制建模點之間的關(guān)系。此外,網(wǎng)絡(luò)中還包括GSA 和Gumbel 子集采樣(gumbel subset sampling,GSS)兩部分:GSA 模塊可以更好地挖掘點之間的特征關(guān)系,利用GSS完成代表性點子集的選擇。

受圖卷積知識的啟發(fā),有學者將圖卷積技術(shù)與注意力機制結(jié)合提出了新的分類策略。Chen 等人[57]基于自注意力機制(self-attention)提出了GAPNet,通過在堆疊的MLP層中嵌入圖注意力機制來學習原始輸入點云的局部語義信息,使用并行機制(multi-head attention)聚合生成來自不同GAPLayer 層的注意力特征。網(wǎng)絡(luò)中的GAPLayer 和注意力層可以集成嵌入到現(xiàn)有的訓練模型中,以有效提取無序點云的局部幾何特征,提高模型性能。Wang 等人[58]通過引入圖注意力卷積構(gòu)建GACNet,網(wǎng)絡(luò)中的卷積核的形狀可以自適應(yīng)不同對象的結(jié)構(gòu)。GACNet 在關(guān)注局部的同時也考慮到密度分布和全局上下文關(guān)系。清華學者將Transform概念引入點云處理,提出了一種參數(shù)少、精度高的PCT網(wǎng)絡(luò)[59],如圖10所示。網(wǎng)絡(luò)首先將輸入點云的特征語義編碼至更高維的特征空間中,然后連接經(jīng)歷過四層注意力層(包括自注意力模塊和偏置注意力模塊)的局部幾何信息,獲取不同尺度下的語義相似度,最后聚合點云的局部和全局特征完成分類與分割的任務(wù)。

圖10 PCT網(wǎng)絡(luò)架構(gòu)Fig.10 PCT network architecture

基于全局-局部圖注意力機制的卷積神經(jīng)網(wǎng)絡(luò)(GACNN)[60]中的全局注意模塊用來學習點云的空間分布狀態(tài),以獲取全局上下文信息特征。網(wǎng)絡(luò)中的局部注意模塊包括邊緣關(guān)注和密度關(guān)注兩部分:邊緣關(guān)注模塊通過學習鄰近點的局部空間布局,動態(tài)調(diào)整核權(quán)值,以適應(yīng)點云的結(jié)構(gòu);密度注意模塊能夠解決非均勻采樣點的密度不均問題。GACNN 可以捕捉多尺度的點云特征,提高機載點云的分類精度。

直接處理原始點云保留了點云信息的完整性,算法性能良好,應(yīng)用場景多樣,許多算法在多個數(shù)據(jù)集上有良好表現(xiàn),但仍存在不足之處,例如由于MLP 的接受范圍有限,可能會導致形狀信息不可忽略的損失。基于原始點云的算法現(xiàn)如今是基于深度學習的點云處理的主要研究趨勢,在優(yōu)化算法時學者應(yīng)考慮如何高效提取點云全局特征的同時降低模型的復雜度與計算時間。

3 現(xiàn)有方法結(jié)果對比與分析

本章匯總了圖2 涉及到的基于深度學習的點云分類方法的提出年份、主要原理、優(yōu)缺點、應(yīng)用場景以及在主要數(shù)據(jù)集上表現(xiàn)的性能,見表1。同時,分別展示在不同數(shù)據(jù)集中表現(xiàn)出色的點云分類結(jié)果圖(圖11和圖12)。

表1 多種點云分類方法在不同數(shù)據(jù)集上的比較Table 1 Comparison of several point clouds classification methods on different datasets

表1(續(xù))

表1(續(xù))

表1(續(xù))

通過表1可以發(fā)現(xiàn),在常見的三維數(shù)據(jù)集中Model-Net10/40 的應(yīng)用最多。本文中提及到的算法在該數(shù)據(jù)集下性能都較為優(yōu)越,基本在85%以上,說明現(xiàn)有的算法對細粒度的物體有較好的識別能力。選擇Model-Net10數(shù)據(jù)集的算法中,平均精度與總體精度除3DshapeNets 其余算法都高于90%。表現(xiàn)出色的網(wǎng)絡(luò)是Gird-GCN(MA 為97.4%,OA 為97.5%)和A-CNN(MA 為95.3%,OA 為95.5%)。采用雙線性池聚合局部特征卷積的MHBN網(wǎng)絡(luò)在ModelNet40數(shù)據(jù)集中總體精度達到94.91%,在所有方法中精度最高。基于原始點云的分類方法中總體精度大多超過90%,該類別下優(yōu)化CNN的方法表現(xiàn)穩(wěn)定,其中RS-CNN性能最優(yōu),總體精度在93.6%。

PointNet++、PointCNN、D-FCN、Dance-Net、DGCNN、GACNET 和GACNN 等方法均選用了ISPRS 開發(fā)的基準數(shù)據(jù)集,總體精度全部超過80%,物體的分類結(jié)果接近于真實場景物體。其中Dance-Net使用逐點密度重新加權(quán)卷積核的可學習權(quán)重,達到逼近非均勻分布的三維點集上連續(xù)卷積的效果,訓練結(jié)果最優(yōu),總體精度為83.9%,分類結(jié)果見圖11。在2019 年,Kpconv、D-FCN、DGCNN、GACNET以及GACNN表現(xiàn)都很出色,圖12展示了以上算法的分類結(jié)果。最新提出的GACNN 網(wǎng)絡(luò)性能優(yōu)越,利用全局上下文信息以及局部注意模塊學習點云的多尺度信息特征。在電力線、不透水面兩種類別表現(xiàn)最出色。由于ScanNet數(shù)據(jù)集類別較多,PointNet++與PointCNN 分類效果不理想,平均精度與總體精度普遍偏低。

圖11 Dance-Net在ISPRS數(shù)據(jù)集上的分類結(jié)果Fig.11 Classification results of Dance-Net on ISPRS dataset

圖12 各方法在2019年數(shù)據(jù)融合比賽數(shù)據(jù)集上的分類結(jié)果Fig.12 Classification results of each methods on 2019 data fusion contest datasets

從點云分類的精確度角度分析,不同方法各有優(yōu)缺點。總體上看,基于點的特征提取結(jié)果優(yōu)于基于投影的特征提取。原因主要在于點云數(shù)據(jù)本質(zhì)上是物體表面點的集合,單單進行投影轉(zhuǎn)換會造成不必要的計算。點云的體素化雖然可以將無序的點云結(jié)構(gòu)化,但是將體素網(wǎng)格作為輸入時,低分辨率的體素會導致信息的丟失,高分辨率的體素會導致計算機超負荷計算。多視圖的方法盡管在性能方面已經(jīng)優(yōu)于傳統(tǒng)機器學習的方法,但是分類精度與視點的位置與角度有關(guān),一定程度上仍依賴于人工設(shè)置。直接輸入原始點云數(shù)據(jù)可以保留信息的完整性,算法性能良好,可應(yīng)用于多種場景,該類方法成為現(xiàn)在熱門研究方向。其中,基于優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)與圖卷積的算法雖然需要較大的計算和存儲開銷,但是網(wǎng)絡(luò)性能優(yōu)于同時期的方法。

4 結(jié)束語

深度學習的3D點云研究作為一個較新的研究領(lǐng)域正在快速的發(fā)展。本文從不同角度的點云特征提取方法論述三維點云分類的發(fā)展過程,重點介紹基于深度學習的點云分類的研究現(xiàn)狀。回顧深度學習技術(shù)在點云分類任務(wù)中的應(yīng)用情況可以發(fā)現(xiàn),該類模型是借鑒了圖像領(lǐng)域的深度學習模型,針對點云的無序性、稀疏性、非結(jié)構(gòu)化和信息有限性等特點進行改進優(yōu)化。本文將此類方法分為基于投影的分類方法和基于原始點云的分類方法,不同類別下的方法各有優(yōu)劣。基于投影的方法在簡單場景中具有較強的實用性,但是轉(zhuǎn)換點云的過程中損失了大量有效的深度信息。直接處理原始點云雖然在卷積過程需要較高的計算成本,但是通過評估與分析現(xiàn)有的分類策略,證明了直接處理點云數(shù)據(jù)在分類任務(wù)中更具優(yōu)勢,能夠有效提升點云分類的精度。盡管深度學習技術(shù)可以自動化提取點云特征,且在點云研究中取得不錯的成績。但不論是基于投影的算法還是基于原始點云的算法都存在值得進一步探討的問題,例如:如何使網(wǎng)絡(luò)模型兼顧高精度與高效率;如何更加充分地、靈活地運用點與點之間的聯(lián)系等。深度學習應(yīng)用于點云方面的研究正在不斷被推進,在此期待更多的創(chuàng)新方法的提出。

猜你喜歡
分類特征信息
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产欧美日韩在线在线不卡视频| 一级香蕉视频在线观看| 极品私人尤物在线精品首页| 91亚洲影院| 少妇极品熟妇人妻专区视频| 九九视频免费在线观看| 亚洲精品国产精品乱码不卞| 亚洲女同欧美在线| 国产高清国内精品福利| 99re66精品视频在线观看| 国产黄网永久免费| 精品伊人久久久香线蕉| 亚洲国产中文精品va在线播放| 国产原创自拍不卡第一页| 中文字幕色站| 狠狠色香婷婷久久亚洲精品| 狠狠操夜夜爽| 偷拍久久网| 精品国产99久久| 亚洲国产看片基地久久1024| 国产丝袜无码精品| 日本人妻一区二区三区不卡影院 | 国产精品女在线观看| 噜噜噜综合亚洲| 欧美中文一区| 2020国产免费久久精品99| h网址在线观看| 永久免费无码日韩视频| 精品撒尿视频一区二区三区| 亚洲色图狠狠干| 欧美自慰一级看片免费| 亚洲精品成人片在线观看| 激情国产精品一区| 视频二区欧美| 亚洲欧美日本国产综合在线 | 亚洲区一区| 丝袜高跟美脚国产1区| 99国产精品一区二区| 好久久免费视频高清| 欧美成人一级| 人人爱天天做夜夜爽| 日韩av电影一区二区三区四区 | 高清免费毛片| 日本欧美中文字幕精品亚洲| 亚洲精品在线影院| 欧美区一区| 无码中文AⅤ在线观看| 青青青亚洲精品国产| h视频在线播放| 午夜视频日本| 中文字幕在线视频免费| 99性视频| 狠狠色噜噜狠狠狠狠奇米777| 人妻一本久道久久综合久久鬼色| 欧美一区二区人人喊爽| 亚洲精品欧美重口| 欧美午夜小视频| 手机精品视频在线观看免费| 人人妻人人澡人人爽欧美一区| 久久无码av三级| 国产亚洲美日韩AV中文字幕无码成人 | 欧美精品成人一区二区视频一| 色综合成人| 伊人大杳蕉中文无码| 91精品网站| 亚洲人成网站色7777| 潮喷在线无码白浆| 一本大道香蕉中文日本不卡高清二区| 亚洲伊人天堂| 亚洲男人的天堂在线观看| 午夜国产精品视频| 久久国产精品嫖妓| 91麻豆精品视频| 国产精品福利导航| 欧洲欧美人成免费全部视频| 综合网天天| 亚洲黄色片免费看| 无码国产伊人| 日韩黄色精品| 亚洲人成电影在线播放| 亚洲最猛黑人xxxx黑人猛交 | 亚洲视频黄|