南京國圖信息產業有限公司 江蘇 南京 210036
點云的語義分割旨在為每個點分配一個類別標簽,這是許多工業應用[1]的基礎,從土地覆蓋圖、數字城市、城市場景重建到自動駕駛等。本文專門針對使用移動激光掃描(mobile laser scanning,MLS)數據在大規模市區中進行語義分割的基礎和理論問題。
在過去的幾十年中,已經展開了許多MLS點云的自動語義分割的研究,這些研究從不同方面提高了準確性。在現有方法中,從局部鄰域[1]中提取低層次特征引起了廣泛關注。由于這些方法主要是各種類型的手工特征,并利用它們來訓練傳統的機器學習算法,而不考慮鄰域中的相關信息,因此語義分割結果中可能存在明顯的標簽不一致之處。為了克服這些缺點,許多研究采用概率圖形模型[2]來集成更多的上下文信息。但這些模型在復雜的場景中會忽略遠程上下文信息,并且即使進一步提高了分割精度,也通常存在魯棒性的不足。
近年來,隨著計算能力和可用標記數據的增長,深度學習在點云處理方面取得了空前的成功。為了使用于點云的深度神經網絡更直觀和易于實施,一些研究人員將3D點云轉換為體素[3]或2D圖像[4],但不可避免丟失信息。因此,更多的注意力已經投入到直接在不規則點云上工作的點卷積網絡。為了滿足MLS數據的特征,已經提出了一些新穎的卷積網絡[5]。盡管已證明該操作在進一步提高分類性能方面非常有效,但是上述卷積忽略了屬于同一物體的點之間的結構連接,并導致不良的物體描繪。為了解決這個問題,有幾種方法求助于圖卷積神經網絡[6],以更好地了解高維空間中的局部幾何關系。對于復雜的城市環境,動態保留邊界并適應無序點云中的對象結構仍然是挑戰。
本文沒有直接使用現有的基于CNN// GCN的模型進行分類,而是通過點云分割和分類過程的協作,采用了改進的GCN網絡進行語義標記。
本節將詳細介紹提出的3D點云語義分割框架。整個工作流程可以分為四個階段,如圖1所示。首先使用拉普拉斯平滑法用于去除離群值并降低測量噪聲,之后使用單個網絡預測點的分組建議,從中可以直接提取全局結構特征。在第三階段,引入圖注意力網絡,以充分利用局部結構特征,并表示點之間的關系,以增強點云的細粒度語義分割。最后,通過完全連接的條件隨機場算法在對象之間使用上下文約束來進一步優化初始分類。
本文基于SGPN[7],將3D去噪點作為輸入和特征提取。提取特征后,通過將單個SGPN層傳遞到兩個分支(分別是相似度矩陣和置信度圖)來獲得維特征矩陣。具體而言,維相似度矩陣S的每一行都可以表示一個組提議,小于設置為指示這些點在嵌入空間中屬于同一組的閾值。為了使結果更好一點,在特征空間中相似的點應該靠近在一起,在實驗中使用雙鉸鏈損失法。同一語義類別中不同對象的點的邊距大于,而不同語義類別中的點的邊距大于。如果點i和j是同一對象,則將定義的損耗項最小化。

圖1 本文方法的流程
假設給定的I維點云,考慮一個簡單的局部有向圖G=(V,E),由一組頂點為和根據k最近鄰(k-nearest neighbor,kNN)規則構造邊,以確定特征轉移的方向。為了更加關注鄰域中最相關的部分,以便卷積核可以動態地適應對象結構。從關注機制在NLP和圖像分類中的成功經驗啟發,根據空間鄰居構造圖后,通過計算節點之間特征空間中的關聯度,引入圖注意模塊進行特征學習。允許所有鄰居節點的特征都參與中心節點的特征計算,從而最大限度地解決了特征信息丟失的問題,并且聚合了點云識別任務最有用的結構特征。
所有節點的狀態都隨著時間的發展而變化,本文提出了一種新穎的節點狀態更新功能,以更新圖中每個節點的特征表示。連接聚集的特征和狀態向量以及非線性映射操作后,它將捕獲其附近的結構信息。本文的圖注意力卷積網絡是在具有不同空間尺度的點云圖金字塔上實現的,它是通過交替應用圖構造和粗化技術而構建的。注意模塊應用于點云圖金字塔各個尺度的局部特征學習。點云通過圖池操作來學習局部特征,同時還降低了每個功能通道中的分辨率,并將頂點的整個鄰域信息匯總到一個精度中。最后,將學習到的特征逐層插值回到最佳比例,并以最佳比例應用其他GAC層以進行特征細化,以避免損失特征保真度。
標簽預測結果中存在不同類別的相似性引起的局部誤差。因此,考慮到中低級細節(例如RGB顏色矢量和反射率值)以及更多上下文,使用CRF算法進行分類細化。此類信息對于確保逐點標簽預測的一致性至關重要,通常,使用以下公式將能量函數應用于CRF模型。

兩個具有不同的城市場景數據集被用來檢驗了所提出框架的性能。數據集A是Paris-Lille-3D基準數據集,具有1.431百萬個3D點,該數據集是使用安裝在卡車后部的Velodyne HDL-32E LiDAR采集的,其旋轉軸與水平方向成30°,全長約1.94公里。數據集B是使用安裝在車輛上的SICK LMS511激光掃描儀從中國湖北省黃石市捕獲的,覆蓋全長約33.5km,大小為11.7GB。
本文的GCN模型性能是根據三個指標,即精確度、召回率和總體準確性(OA)進行評估的,這三個指標通常用于評估3D語義分割。精確度和召回率分別定義為正確分割的對象數相對于分割結果和真值中的對象總數,OA反映了測試集的總體性能。
通過使用兩個數據集進行測試的實驗結果,證明了本文模型在大規模城市環境中對點云語義分割的有前途的功能。表1中列出了相應的每類準確性混淆矩陣。如表1中這兩個數據集的準確性和語義分段的回憶所示,該方法在識別城市物體方面具有良好的性能,總體準確性為95.5%,這兩個數據集分別為94.6%。根據表1,本文方法可以正確分類大多數城市物體。

表1 本文方法在兩個數據集語義分割的性能
為了進一步驗證本文方法的有效性,基于相同的測試協議,我們與現有工作進行了比較。如表2所示,要注意的是,本文方法在OA方面獲得了最佳結果,可用于標記點云。本文方法的主要優點是更有效地保留對象邊界。

表2 本文方法與其他方法之間的性能(OA)比較
總之,該模型可以在雜亂而復雜的城市環境中實現最新的點云語義分割性能。同時,比較研究啟發我們通過增強模塊嵌入的能力來優化GCN模型,這使本文網絡模型具有較高的代表性和出色的魯棒性。
本文提出了一種改進的層次圖卷積神經網絡,該方法通過將實例分割網絡與細粒度分類網絡相結合來進行3D點云語義標記,從而提高了對城市物體的識別精度。通過估計兩個真實的城市現場LiDAR數據集的準確性,對所提出的網絡進行了實驗評估,驗證了所提出的方法提高了整體準確性。總體而言,本文語義標記框架可以在大規模點云場景下更準確,更可靠地實現支配性能。