999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向三維點云的場景識別方法綜述

2022-09-17 02:32:26張雯靜肖照林金海燕
光學精密工程 2022年16期
關鍵詞:特征方法模型

郝 雯,張雯靜,梁 瑋,肖照林,金海燕

(1.西安理工大學 計算機科學與工程學院,陜西 西安 710048;2.陜西省網絡計算與安全技術重點實驗室,陜西 西安 710048)

1 引 言

由于自動駕駛、室內導航、以及智能機器人代替人到復雜危險的環境中執行探測、巡防等大量現實應用的需要,關于場景的認知與識別研究引起了人們極大的關注[1]。對于具有強大識別能力的人類,可以快速地獲取場景中物體的類別以及物體間的拓撲關系,對是否到過該場景做出準確的判斷或者從場景地圖中對要識別的地點進行定位。但對于計算機來說,自動地從復雜場景中識別物體并且分析出它們之間的拓撲關系,完成場景的分析與識別,仍具有很大的困難。這主要是由于場景中物體類別繁雜,排列無規律,加之物體類內的差異性和類間的相似性,都增加了計算機對場景識別的難度。因此,針對場景的識別仍然是一個富有挑戰的課題。

由于場景圖像獲取的便利性與快捷性,目前已有很多學者提出針對圖像的場景識別方法[2-3]。文獻[3-5]通過設計不同的卷積神經網絡(Con?volutional Neural Network,CNN)模型提取圖像場景中的目標特征、場景特征,并將兩者結合起來獲得獨特的場景特征表示。但是,由于采集圖像時無法避免的光照條件、尺度變化以及時間特征的差異,會使同一個場景的圖像具有較大的差異 性。圖1為Oxford RobotCar數 據 集[6]中 同 一個場景在不同時間獲取的圖像數據。圖1(a)為場景在夜晚獲取的圖片,圖1(b)和1(c)為白天不同天氣下獲取的圖片。可以看出,雖然捕獲的為同一個場景的圖片,但是由于采集圖像的時間不同,光照條件不同,場景圖像間有很大的差異,這加大了場景的識別難度。另外,由于二維成像中三維信息的丟失,基于圖像的空間關系局限于二維空間,包括上、下、左、右以及其兩兩組合的位置關系,對于空間物體間的位置關系表示有一定的局限性[7]。利用視覺系統(單目攝像頭或多目攝像頭)也能夠快捷便利獲取場景的圖像信息,但是需要大量的數據處理才能測量深度,計算復雜度較高,并且對場景的紋理豐富程度要求較高,在低紋理場景中幾乎無法工作。多目立體視覺可以通過多視角圖像以及恢復的相機參數作為輸入來對場景進行稠密重建,但其比較適合室內規模較小場景數據的獲取。基于結構光設備的深度測量也是另外一種常見的場景數據獲取方式,其測量范圍普遍較近,難以適用于室外遠距離環境。

圖1 Oxford RobotCar數據集中同一場景不同時間、不同光照條件下獲取的圖像[6]Fig.1 Images of the same scene at different times and illumination in the dataset Oxford RobotCar[6]

隨著三維掃描技術的快速發展,已經有很多單位利用毫米波雷達傳感器、激光雷達傳感器獲取場景的點云數據。毫米波雷達穿透霧、煙、灰塵的能力強,具有全天候全天時的特點,但其探測距離受到頻段損耗的直接制約。激光雷達傳感器探測范圍更廣,探測精度更高。利用兩種傳感器采集得到的點云場景數據,可規避掃描時間、光照、天氣、紋理等多種因素的影響。同時,采集得到的三維點云數據具有尺度不變性,能夠較好地表達場景中復雜物體的幾何形狀,并且能夠較好地表達物體間的位置關系,規避了二維圖像遇到的光照、姿態等問題,所以基于點云的場景識別是一種有效的途徑。

2 場景識別方法總結

已有的面向三維點云的場景識別方法多是通過提取分割點云簇或者點的幾何特征,構造特征描述符,然后通過特征匹配從建立的局部地圖中找出相同的場景,完成場景的定位與識別。目前,已有的三維點云場景識別方法可以分為三類:基于點云分割的場景識別方法、基于特征描述符的場景識別方法以及基于學習獲得特征的場景識別方法,如圖2所示。

圖2 面向點云的場景識別方法分類Fig.2 Classification of scene recognition algorithms for point clouds

2.1 基于點云分割的場景識別方法

基于點云分割的場景識別方法往往需要先將點云場景中的地面移除,利用區域增長、歐幾里得聚類算法對場景進行分割,然后利用人工設計或者卷積神經網絡模型提取分割點云簇的特征,最后通過特征比對完成場景的識別。

2.1.1基于人工設計的特征提取方法

基于人工設計的特征的提取方法往往在點云場景分割的基礎上,人工設計提取各個點云簇的幾何特征或構造圖結構用于場景識別。

圖3 SegMatch算法流程圖Fig.3 Flowchart of SegMatch algorithm

Dubé等[8]去除場景中的地面點云數據后,利用歐幾里得聚類算法將地面上的點分割成不同物體。然后利用形狀函數直方圖對分割后的點云簇進行描述,并利用隨機森林來匹配相似點云簇。最后使用隨機抽樣一致性算法將候選點云簇送至幾何驗證模塊,如果特征匹配,則返回場景的定位信息。圖3為SegMatch[8]的流程圖。該方法需要實時里程計,并需要建立局部稠密地圖。Gollub等[27]在SegMatch[8]基礎上作了改進,首先將兩組點云場景分割成多個點云簇。然后基于分割點云簇構建一個不帶權無向圖G,最后以檢測G中是否含有足夠大的團來判定兩組點云場景是否有較高的相似度。廖等[28]移除地面后采用區域增長算法將點云場景分割為若干個點云簇,然后以點云簇為頂點,以點云簇質心間距離為邊權值,分別構建帶權值的完全圖,將場景的識別轉化為判定所得的兩個完全圖是否含有足夠大的公共子圖。在該方法中,分割效果的優劣會影響該方法場景識別的準確度。Fernández-Moral等[9]針對室內深度圖像 構建一種基于平面的地圖(Plane-based Map,PbMap),在提取場景平面的基礎上,利用法向量方向、面積、中心位置等幾何信息描述平面屬性。將平面作為節點,平面質心間的連線即為邊,構造場景圖。最后利用解釋樹來匹配子圖,從而完成室內場景的識別。隨后,他們又對該工作進行了擴展[29],在圖匹配的過程中,使用平面參數的協方差代替要匹配的平面所包含的點數。該類方法適用于包含較多由平面組成物體的小型室內環境。Fan等[10]提出基于分割的自我中心描述符(Seg?mentation-based Egocentric 3D Point Cloud De?scriptor,Seed),圖4為Seed算法流程圖。該方法在分割的基礎上,對分割簇間的拓撲關系進行編碼形成二維圖像,最后通過比較圖像之間的距離度量場景間的相似性。該方法缺乏對分割點云簇的特征描述,識別效果依賴分割的精細程度。

圖4 Seed算法流程圖Fig.4 Flowchart of Seed algorithm

物體間的位置關系對點云場景的識別也是至關重要的,而基于人工設計的特征提取方法并未考慮物體之間的拓撲關系對場景識別的影響。

2.1.2基于深度學習的特征提取方法

基于深度學習的特征提取方法在點云場景分割的基礎上,設計各種卷積神經網絡用于提取點云簇的特征用于場景識別。

同SegMatch[8]所 用 的 分 割 方 法 一 致,Dubé等[11]在場景分割的基礎上,提出SegMap-CNN網絡提取分割點云簇的特征,用于定位以及地圖重建。隨 后,Vidanapathirana等[30]利 用SegMap-CNN網絡[11]提取分割點云簇的特征。同時,提取鄰近分割點云簇的空間結構特征以及時間特征。最后,利用二次池化將不同層次的特征聚合在一起,獲得固定長度的全局描述符。Rozenber?szki等[31]通過融合針對Lidar數據的里程 計算法和SegMap算法完成場景定位。該方法基于RANSAC算法減少在線點云與離線地圖的錯誤匹配,利用迭代最近點(Iterative Closest Point,ICP)方法提高場景定位的準確性。Tomono等[12]在探測點云場景中的平面、球、線等幾何形狀的基礎上,使用點云配準算法來檢測循環約束。去除配準中的孤立點,結合基于特征和基于姿態的方法檢測閉環。該類方法關注分割點云簇特征的提取與匹配,并未考慮分割簇之間的空間關系。

基于深度學習的特征提取方法往往依賴于場景分割效果,由于點云場景中物體的多樣性以及鄰近性,傳統的分割方法往往導致過分割或者欠分割,分割結果的準確性會影響到場景識別的準確性。

2.2 基于特征描述符的場景識別方法

基于特征描述符的場景識別方法多是基于人工設計提取點或者分割點云簇的幾何特征,并對特征進行統計分析,形成獨特的描述符,然后通過相似性度量等手段完成場景識別或閉環檢測。

早期的工作中,旋轉圖像法[32](Spin Image,SI)、直方圖簽名方法[33](Signature of Histograms of Orientation,SHOT)、唯一形狀上下文方法[34](Unique Shape Context,USC)、快速點特征直方圖[35](Fast Point Feature Histograms,FPFH)以及聚類視點特征直方圖(Clustered View Feature Histogram,CVFH)描述符[36]都是常用的特征描述符。這些描述符多用于物體識別,然而場景識別不僅僅局限于物體的識別,隨著點云數據的廣泛應用,越來越多的學者設計用于點云場景識別的描述符。

Bosse等[13]隨 機 從 點 云 場 景 中 選 擇10%的點作為關鍵點,通過特征值計算,一些具有平面特性的關鍵點被移除。然后利用三維Gestalt描述子對關鍵點進行描述,構建投票矩陣計算每個關鍵點經其鄰近點投票所得權值,通過計算每個bin內關鍵點高度均值和方差,最后根據關鍵點匹配完成場景的識別。該方法中關鍵點的選取具有一定的隨機性,其選取策略對最終識別結果影響較大。受Gestalt啟發,Cieslewski等[14]提出局部描述符二值鄰域密度標記(Neighbor-Binary Landmark Density,NBLD),通過統計每個bin下點的密度構建每個關鍵點的描述符。

He等[15]提出名為M2DP的三維點云全局描述符用于場景識別。作者通過將點云向多個平面進行投影,計算點云在投影面的空間密度分布特征。然后通過奇異值分解,將左右奇異向量作為三維場景的描述符,該描述符具有一定的觀測位置和視角不變性。該方法只關注點云的整體分布,當部分點丟失時,點云特征變化劇烈,性能退化嚴重。受其它描述符通過加入顏色信息提升性能的啟發[37-39],Perdomo等[40]結合點云的顏色和形狀信息,對M2DP描述符進行擴展,構造名為c-M2DP的描述符用于場景識別。該方法將點云進行二維投影后,計算點的形狀特征以及顏色分布,利用SVD獲得最終的特征描述符。

R?hling等[41]首先將場景中的點按高度值分成若干層,然后為每層計算出一維的直方圖,最后將這些直方圖組合起來構成全局描述子。通過計算兩組點云場景的全局描述子的Wasser?stein距 離 來 衡 量 它 們 的 相 似 度。Rizzini等[42]提出名為GLAROT的描述符,該描述符將關鍵點對的相對幾何位置編碼為直方圖,為保證旋轉不變性,它通過計算相應旋轉直方圖之間的距離度量兩個點的相似度。該描述符易受點云數據密度的影響。隨后,Rizzini等[43]提出幾何關系分布簽名方法,將點之間的關系編碼為連續概率密度函數。Kim等[44]提出名為掃描上下文(Scan con?text)的全局描述符。該方法將點云按照方位角和徑向方向分為若干個bin,并計算每個bin中點的最大高度,通過對點云的幾何形狀進行編碼,生成一個二維圖像,通過比較兩個圖像之間的距離度量場景間的相似性。該方法為了實現旋轉不變性,需要計算所有可能的圖像列移位的度量距離,以找到最小距離,這需要較長的搜索時間。隨后,Kim等[45]利用卷積神經網絡替代方法[44]中逐列暴力匹配計算圖像之間的距離,提高場景識別的效率。Wang等[46]在方法[44]的基礎上加入掃描數據的強度信息,提出名為強度掃描上下文(Intensity Scan Context,ISC)方法,通過快速幾何檢索和強度結構匹配兩個步驟完成場景的識別。Li等[47]在方法[44]的基礎上對點云場景進行語義分割,利用語義信息將場景中的代表物體投影到x-y平面。然后提出語義ICP算法,獲取點云的三維姿態。最后,使用三維姿態對齊原始點云生成全局描述符語義掃描上下文全局描述符(Semantic Scan Context,SSC)。通過匹配SSC獲取場景的相似度得分。基于掃描上下文的方法[44-47]不能捕捉場景中物體間的拓撲關系。Siva等[48]將點云場景體素化后,提出基于體素化的表示學習(Voxel-based Representation Learn?ing,VBRL)方法,利用結構化稀疏引導規范提取每個體素內多模態特征。該方法認為離Lidar傳感器近的體素包含物體更多的細節,將位置識別和特征學習集成到一個統一的正則化優化公式中,從每個柵格內提取多模特征用于場景識別。Guo等[49]提出名為方向強度簽名直方圖(Intensi?ty Signature of Histograms of OrienTations,ISHOT)的描述符,提出一種新的概率關鍵點投票方法對場景進行識別。通過提取三維點云數據的ISHOT描述符,與全局地圖進行匹配,利用基于投票的方法找出相似的候選場景。然后通過三維特征匹配確定最終相同的場景。

基于特征描述符的場景識別方法通過人工設計構建局部特征描述符,不僅過程繁復耗時,易受到環境干擾,且局限于特定的模型與特定的應用,很難推廣到大規模的點云場景識別中。

2.3 基于學習獲得特征的場景識別方法

深度學習模型具有強大的表征和建模能力,能夠逐層自動學習目標的特征表示,避免了手工設計特征的繁瑣低效。基于學習獲得特征的場景識別方法往往通過設計不同的卷積神經網絡模型提取點云場景中每點的特征,然后將提取的特征編碼為特定維度的全局描述符,最后通過特征比對,從點云場景數據庫中檢索得到要識別的場景。

卷積神經網絡已經成功地應用于三維點云目標探測[50-51]、形狀檢索[52]、場景分割[53-54]、場景分 類[55]等 任 務 中。2017年4月,斯 坦 福 大 學Charles等人提出PointNet[56],該結構開創性地以原始點云作為深度神經網絡的輸入,引入轉換網絡對點云數據進行空間對齊,使用多層感知機學習點特征,然后使用最大池化函數提取全局特征,為模型分類、部件分割和場景語義分割提供了統一的體系結構。該模型對局部信息的提取能力不足,而其擴展版本PointNet++[57]提出了一種分層網絡結構,利用最遠點采樣法對輸入點云進行采樣和區域劃分,然后在局部區域應用PointNet進行特征學習與提取。鑒于深度學習的成功應用,很多學者將卷積神經網絡應用在場景識別領域。圖5為2018年以來,基于深度學習的點云場景識別方法時間軸,不同的顏色代表不同的場景識別方法類別。本文將基于學習獲得特征的場景識別方法分為四類:基于注意力機制的場景識別方法、基于圖卷積的場景識別方法、基于體素化的場景識別方法、基于Transformer框架的場景識別方法。這些方法在圖5中分別利用紫色、綠色、橙色以及藍色箭頭表示。

圖5 點云場景識別方法時間軸Fig.5 Chronological overview of scene recognition for point clouds

PointNetVLAD[58]是第一個用于大規模三維點云場景識別的卷積神經網絡。圖6為Point?NetVLAD的網絡結構圖。Angelina等將Point?Net[56]與NetVLAD[68]網絡結合,利用PointNet提取點的全局特征,通過NetVLAD網絡對特征進行聚合。它提出懶惰三元組和四元組損失函數,構造全局描述子,將點云場景識別轉化為場景檢索問題。由于PointNet對點云局部特征的提取能力不足,這對生成的全局描述符的獨特性有一定的影響。同時,該網絡并未考慮局部特征的空間分布關系。

圖6 PointNetVLAD網絡結構圖[58]Fig.6 Network architecture of PointNetVLAD[58]

2.3.1基于注意力機制的場景識別方法

基于注意力機制的場景識別方法在網絡中引入注意力機制,提取點間的上下文信息。

為彌補PointNetVLAD網絡的不足,Zhang等[16]在PointNetVLAD網 絡 的 基 礎 上 提 出 一 個點上下文注意網絡(Point Contextual Attention Network,PCAN),在NetVLAD網絡中引入注意力機制,將多尺度全局特征加權融合形成全局描述符。該網絡沒有考慮點的局部結構信息,忽略了局部特征的空間分布特征。Sun等[59]結合雙重注意力機制和圖卷積提取點云的局部特征以及上下文信息,使用殘差圖卷積網絡模塊來聚合每個點及相鄰點的局部特征。該網絡并未考慮局部特征之間的空間關系。Xia等[17]提出一種基于自注意以及方向編碼的神經網絡SOE-Net(Selfattention and Orientation Encoding Network)用于場景識別。該網絡定義了一種新的損失函數HPHN(Hard Positive Hard Negative quadruplet loss),提出點方向編碼(PointOE)模塊對各種方向的鄰域信息進行編碼,并定義一個自注意單元提取點間的上下文依賴,對局部區域的空間關系進行加權編碼。該網絡需要提前設置HPHN四元 組 損 失 中 的margin值。Barros等[18]提 出 名 為AttDLNet(Attention-based DL Network)的 網 絡結構,它將點云轉換為球面范圍表示,通過編碼器網絡從中提取特征,并利用注意力機制選擇性地關注上下文和特征間的關系,最后將特征圖轉化為描述符。Fan等[62]提出注意力旋轉不變卷積(Attentive Rotation Invariant Convolution),該網絡采用三種旋轉不變的局部特征和一個注意力模塊,以保證學習到的特征的旋轉不變性。

基于注意力機制的場景識別方法沒有考慮局部幾何特征、點云鄰域關系以及特征空間分布等特征的提取,這些都可以提高大場景點云全局描述子的有效性和魯棒性。

2.3.2基于圖卷積的場景識別方法

基于圖卷積的場景識別方法利用靜態/動態圖卷積神經網絡提取點的局部幾何特征,用于場景識別。

Liu等[19]提出一個大型地點描述網絡(Largescale Place Description Network,LPD-Net),該網絡包括自適應鄰域局部特征提取模塊和動態圖網絡聚合模塊。該網絡首先通過自適應選取最優近鄰,計算每點的曲率、高度差、點密度等十個幾何特征,并構建特征轉換模塊將計算得到的局部特征映射到高維特征空間。然后,利用圖卷積神經網絡[53]提取點間的空間分布信息。最后,通過NetVLAD網絡對各種特征進行聚合生成場景的全局描述符,其網絡結構如圖7所示。隨后,Liu等[20]在LPD-Net基礎上,采用由粗到 細的序列匹配策略,提出序列場景描述網絡SeqLPD用于閉環檢測。與方法[19]相同,SeqLPD在特征空間和笛卡爾空間中提取特征,并使用NetV?LAD生成場景的全局描述符。Yin等[21-22]首先將點云投影至三維球面,設計了SphereVLAD網絡,利用球面卷積,從原始點云的球形表示中提取視點不變的位置描述符,并提出了一個從粗到精的序列匹配位置識別方法。Fan等[60]利用靜態圖卷積神經網絡提取點的局部幾何特征,提出密集語義融合策略,通過重用淺層特征層來補償信息丟失。最后利用NetVLAD網絡將提取到的局部幾何特征聚合為全局描述符。Kong等[61]提出一種基于語義圖的大規模場景識別方法,其網絡結構圖如圖8所示。首先對點云場景進行語義分割、實例分割以獲取場景物體的語義類別,并進一步收集語義和拓撲信息形成的節點語義圖。然后,原始點云場景被轉換成拓撲語義圖,對場景的識別轉化為圖匹配問題。最后,通過將圖對輸入到由節點編碼、圖編碼和圖相似性度量組成的圖相似度網絡中,獲得場景相似度評分。該方法需要事先對場景中包含物體的語義類別進行定義,并且它不能區分相同語義類別中的不同物體。Hui等[63]提出一種輕量級的邊卷積模塊ProxyConv,它利用空間相鄰矩陣和代理點簡化了原始邊緣卷積,從而減少內存消耗。通過ProxyConv模塊,構造代理點卷積神經網絡(Proxy Point Convolutional Neural Network,PPCNN)聚合多尺度局部幾何特征,完成場景的識別。Gong等[65]通過分析分割點云簇間的空間關系,提出了基于空間關系圖的位置識別方法。該方法在去除地面的基礎上,利用歐氏距離的聚類方法對非地面點進行分割,將點云簇作為結點,它們之間的空間關系作為邊,對分割點云簇以及點云簇間的空間關系進行描述,構造空間關系圖(Spatial Relation Graph,SRG)。最后利用空間關系圖匹配模型完成場景的識別。其中,空間關系圖匹配模型包括上層搜索模型(U-LSM)和下層匹配模型(L-LMM),在U-LSM模型中,通過增量詞袋模型搜索候選語義關系圖中空間關系描述符的分布。在L-LMM模型中,通過改進的光譜方法來計算候選語義關系圖中的相似度。

圖7 LPD-Net[19]網絡結構圖Fig.7 Network architecture of LPD-Net[19]

圖8 Semantic Graph[61]網絡結構圖Fig.8 Network architecture of Semantic Graph[61]

基于圖卷積的識別方法比較關注點間的關系,但對具有抽象語義信息的高級全局結構特征提取不足。

2.3.3基于體素化的場景識別方法

基于體素化的場景識別方法在對點云場景體素化的基礎上,提取每個柵格的單尺度/多尺度局部特征用于場景識別。

Chang等[23]在對室內點云場景體素化的基礎上,提出SpoxelNet網絡,從體素中提取不同尺度的結構信息,并利用NetVLAD網絡聚合為全局特征描述符。該網絡可以識別點云體素之間的結構相似性,減少物體移動或時間變化的影響。Komorowski等[24]提出名為MinkLoc3D的點云描述符,該方法首先將輸入點云體素化,然后采用特征金字塔網絡提取局部特征,利用廣義均值池化層(Generalized-mean pooling layer)將局部特征聚合為全局點云描述符。Du等[64]使用Flex卷積提取點的局部幾何特征,利用擠壓和激勵模塊(Squeeze-and-Excitation,SE)融合多層次空間上下文信息,并將多通道特征關聯到局部描述符中,最后使用NetVLAD網絡將加權局部特征聚合到全局點云描述符中。該全局描述符不具有旋轉不變性。

基于體素化的場景識別方法在對點云柵格化的基礎上提取特征,其提取特征粒度的細致程度易受柵格大小的影響。

2.3.4基于Transformer框架的場景識別方法

Transformer[69]最初是為自然語言處理(Nat?ural Language Processing,NLP)任務而提出的。自我注意機制是Transformer的核心,因為它具有遠距離捕捉上下文信息的能力。隨著Trans?former在NLP領域的成功應用,很多學者逐漸考慮將自注意機制運用到計算機視覺領域。

NDT-Transformer[66]是第一個用于場景識別和檢索,基于標準Transformer的深度學習架構。Zhou等利用三維正態分布變換(3D Normal Dis?tribution Transform,NDT)表示原始點云幾何形狀的概率分布。該模型從三維NDT中學習得到具有幾何和上下文信息的全局描述符,并選擇NetVLAD獲 得 全 局 描 述 符。Xu等[25]基 于Transformer提出名為TransLoc3D的網絡結構,TransLoc3D由一個3D稀疏卷積模塊、自適應感受 野 模 塊(Adaptive Receptive Field Module,ARFM)以及NetVLAD層組成。ARFM模塊能夠自適應調整輸入點云的感受野大小,用于捕捉物體不同尺度的幾何結構,基于自適應感受野模塊的TransLoc3D比之前基于Transformer的方法[66]提升近1%。Fan等[26]提出的SVT-Net網絡模型包括基于原子的稀疏體素變換器(Atombased Sparse Voxel Transformer,ASVT)和基于聚類的稀疏體素變換器(Cluster-based Sparse Voxel Transformer,CSVT),該網絡模型在點云柵格的基礎上,提取每個柵格的局部特征以及語義特征,用于場景識別。Hui等[67]提出一個金字塔點轉換器模塊,利用分組自注意機制自適應地學習不同尺度下,不同鄰近區域之間的空間關系,構造金字塔VLAD模塊將點云的多尺度特征映射到全局描述符中。

Transformer模型缺乏歸納偏置能力,并不具備卷積的平移不變性和局部敏感性,因此在數據不足時,不能很好地泛化任務。

表1列舉了部分基于學習獲得特征的網絡模型的提出時間、網絡主干結構以及關鍵技術。

表1 基于學習獲得特征的網絡模型Tab.1 Network models based on learning to obtain features

3 面向三維點云場景識別的公共數據集

為了驗證相關算法對場景識別的效果,有效的數據集必不可少。隨著深度學習在點云處理方面的快速發展,許多研究機構提供了很多開源的三維數據集,下面分別介紹適用于基于Lidar的地點識別的基準數據集,以訓練和評估網絡:

(1)Oxford RobotCar[6]數據集被廣泛地應用于自動駕駛與深度學習領域,它是由牛津大學使用RobotCar汽車平臺在英國牛津市內駕駛,采集了各種時間段內的駕駛環境信息得到的,平均每周在牛津市中心運行10公里路線產生數據,總計約1010公里。該數據集覆蓋了商業區Business District(B.D.),住宅區域Residual Area(R.A.)以及大學區域University Sector(U.S.)。該數據包含超過2 000萬張車載相機拍攝的圖片、激光雷達數據、GPS和慣性導航收集的地貌資料以及處理后的里程計信息。主要呈現英國牛津同一條路線在一年內的變化,包含不同天氣、光照和季節的情況。

(2)KITTI odometry[70-71]數 據 集 是Geiger等人于德國卡爾魯斯市采集的公開室外汽車駕駛數據集,該數據集用于評測立體圖像,光流,視覺測距,3D物體檢測和3D跟蹤等計算機視覺技術在車載環境下的性能。采集該數據集的平臺包括兩個灰度攝像機、兩個彩色攝像機、一個激光雷達,一個慣性測量模塊以及GPS導航系統。其中平臺上采集激光點云數據的激光雷達是Velo?dyne HDL-64E,它以10 Hz的頻率運行,具有360°水平視場,26.8°的垂直視場,測量范圍120 m。采集區域覆蓋了市中心、住宅區、高速公路以及德國卡爾斯魯厄周圍的鄉村道路等多個室外場景,共包含22個序列數據(00-21)。該序列被分割為訓練集(序列00到10)和測試集(序列11到21)。其中,序 列00到10包 含有由GPS等設備標定的位姿真值的數據,序列11到21沒有提供真實位姿。

(3)North Campus Long Term(NCLT)[72]數據集是利用移動機器人在密歇根大學北校區收集的一個大規模數據集。該數據集大約每兩周掃描一次,為期15個月,6月獲得850個掃描數據,12月獲得850個掃描數據,覆蓋了不同光照、植被和天氣的27個不同的路線的數據。該數據包括圖像、3D激光雷達點云數據以及GPS信息。利用安裝在移動機器人上的Velodyne HDL-32E激光雷達傳感器收集環境的三維點云。

(4)MulRan[73]數 據 集 是 利 用 一 個Navtech毫米波雷達傳感器OS1-64,以及Ouster OS1-64激光傳感器掃描得到。包含會議中心、大學校園、高速公路以及河邊道路四個場景,每個場景包含三個不同的時間段。該數據集主要用于毫米波雷達的地點重識別任務,相對于激光雷達數據,毫米波雷達穿透性更強,探測距離更長。

(5)Ford校園數據集[74]是密歇根大學和福特汽車公司合作采集的市中心城市環境的數據集。該數據集使用福特F250皮卡,裝配激光雷達Velodyne HDL-64E lidar、Riegl LMS-Q120 li?dar以及Point Grey Ladybug3全方位攝像頭掃描得到。

(6)SEU-FX數據集[75]是東南大學空間信息與定位導航研究中心Future X實驗室采集的可用于研究長時間跨度的場景識別和重定位任務的數據集。該數據集采集了不同天氣、時間、光照條件下的城市道路、校園場景同一路徑的重復數據。共包含約10個小時的采集時長,城市道路數據時長約2個小時,其中晴天天氣約1小時20分,雨天、雪天各約20分;校園道路數據時長約9小時,其中晴天天氣和陰天天氣各約3小時,雨天和雪天天氣各約1小時30分。

表2為面向點云的場景識別常見數據集,列舉了多個用于場景識別的公共數據集以及一個課題組自行采集的數據集,分別列出了采集數據時用到的移動平臺、搭建的主要硬件設備(傳感器類型、相機)以及掃描數據時涉及到的時間、光照、數據總量等。

表2 面向點云的場景識別常見數據集Tab.2 Dataset for scene recognition of point cloud

4 實驗結果分析

為了公正地評估場景識別算法的性能,本節采用標準的評價指標對經典的場景識別模型進行分析與討論。首先,以模型規模大小、運行時間和召回率為評價指標衡量現有的場景識別模型的性能,然后收集上述度量指標在代表性的數據集(Oxford RobotCar、KITTI)上的識別結果,最后,對這些結果進行總結并得出結論。

4.1 模型規模與運行時間

表3總結了部分點云場景識別模型的參數量以及運行時間。該實驗結果是利用論文作者發布在GitHub上的源代碼,在NVidia GeForce GTX GPU 2080Ti,64 GB RAM環境下運行的結果。其中,參數量表示網絡執行時訓練參數數量,運行時間是由TensorFlow進行運行跟蹤獲取的運行時間線。在各個模型的運行時間中,Lpd-Net模型的運行時間不包括十個人工特征的計算時間。可以看出,網絡Minkloc3D相比與其它三個網絡而言,參數量最少,PointNetVLAD、PCAN與Lpd-Net參數量基本相同。對于運行時間而言,PCAN相較于其它模型而言,運行時間較長。

表3 網絡模型的網絡參數數量與運行時間Tab.3 Network parameter quantity and runtime of differ?ent scene recognition models

表4總結了部分基于特征描述符的場景識別方法中特征描述符的維度。可以看出,相比其它描述符,FPFH描述符維度最少。

表4 三維局部描述符維度Tab.4 3D local descriptor dimension

4.2 召回率

為了評估場景識別算法的性能,使用不同網絡模型對Oxford RobotCar公共數據集進行測試,得到識別精度。位置識別的結果通常被看作一個排序問題,在排序問題中通常沒有一個確定的閾值把結果直接判定為正樣本或者負樣本,因此,在面向點云的場景識別任務中通常采用Top-N(排名前N)返回結果的召回率(Recall)來衡量排序模型的性能,即認為模型返回的Top-N的結果就是模型判斷的正樣本,然后計算前N個位置上的召回率,用Recall@N表示。已有的工作通常使用Recall@N%評價指標。表5分別列出不同的網絡模型對該數據集的AR(Average Re?call,平均召回率),AR最高的加黑顯示。可以看出,目前已有的基于深度學習的場景識別方法平均召回率在80%以上,TransLoc3D在Oxford RobotCar數據集評估中Average Recall@1%指標達到98.5%。SVT-Net在數據集U.S.,R.A.,B.D.中的Average Recall@1%指標分別達到96.5%,92.7%,90.7%。綜 合 來 看,基 于Transformer框架的SVT-Net網絡模型效果較好。這主要是由于SVT-Net中的基于原子的稀疏體素變換器和基于聚類的稀疏體素變換器能較好地提取點云的語義屬性。

表5 基于深度學習的場景識別方法結果Tab.5 Scene recognition results based on deep learning

KITTI數據集也是用于場景識別的代表性數據集,它具有較為豐富的序列,能夠較好評價場景識別算法在室外場景下的性能。基于特征描述符的場景識別方法多是利用KITTI數據集評估算法的有效性,因此,表6列舉了傳統方法M2DP、Scan Context在KITTI數據集上的F1最高分數。同時,列舉了點云場景識別的開創性網絡PointNetVLAD,基于深度學習的網絡Sem?Graph以及基于點云分割的場景識別方法Locus在KITTI數據集上的F1最高分數。對于KITTI數據集02序列,SemGraph方法取得較好的效果,對于KITTI數 據集06序 列,ScanContext取 得 較好的效果,對于其它序列,Locus方法優于其它幾個方法。

表6 KITTI數據集上的F1最高分數Tab.6 F1 max scores on the KITTI dataset

5 總結與展望

5.1 面臨的挑戰

三維點云場景識別是一個具有重要意義和富有挑戰的問題,近年來吸引了越來越多研究人員的關注。本文重點介紹了近些年來面向三維點云的場景識別方法的發展,并對各類方法進行了分析與比較,可以發現,對三維點云場景的分析與識別正逐漸成為當前的研究熱點,但仍舊面臨著許多挑戰。

5.1.1場景穩定特征的提取與表述問題

室外點云場景規避了光照條件的影響,但對于同一室外場景,往往受到動態遮擋(行人、不同車輛停放)、人為改造帶來的場景結構變化的影響,同一場景得到的掃描數據有較大差異性。三維激光雷達傳感器具有良好的測距精度和掃描分辨率,它對物體的外形表達具有獨特的優勢,對場景中相對固定的物體如:建筑、植被等景物有良好的表述能力。因此,如何充分利用激光點云數據的優勢,提取場景中相對穩定的環境特征來實現場景的表述與識別,是保障場景識別準確率的關鍵。

5.1.2三維空間關系的表達問題

對于真實世界中的三維點云物體,其拓撲關系復雜多變,現有的工作針對物體間的拓撲關系往往關注物體間的距離、空間位置關系等幾何屬性,較少考慮物體之間的語義關系。針對三維空間關系表達的局限性,利用圖結構等豐富的知識表達工具,應用推理模型,通過對物體與物體間、三維模型本身的結構差異進行挖掘與分析,獲取場景的語義結構圖,在分析物體自身的幾何屬性以及物理屬性(顏色、材質、形狀等信息)基礎上,充分挖掘分析場景中物體間的位置關系、結構關系、連接關系等空間分布規律,有效提取物體間的上下文語義信息,為場景的準確識別奠定基礎。

5.1.3面向大規模數據的計算能力問題

用于場景識別的數據集的規模往往比較大,針對室外大范圍環境構建的地圖模型具有大范圍、大尺度和海量性的特性。同時,從大量的點云場景數據中計算每個點的高維特征向量,并基于此構造獨特的全局特征描述符用于場景識別,這對存儲空間以及計算時間帶來巨大的挑戰,嚴重影響場景識別應用的實時性。針對數據量大導致的計算量大問題,可以考慮選擇合適的地圖類型以及構造有效的場景全局特征描述符,實現對大范圍室外場景簡潔高效表達,以降低計算量,提高三維點云場景的識別效率。

5.1.4相似場景間的區分問題

由于場景中物體的多樣性以及復雜性,對于具有相同物體的場景,物體自身的表面材料組成對場景的識別有很大影響。不同材料的同類物體往往會出現在不同的場景中,特別是室內場景,例如:椅子是臥室和教室中的常見物體,但是臥室中的椅子多是布質的,而教室中的椅子多是木質的,單純地依靠物體類別識別場景,會導致識別準確率低的問題。針對物體表面材料對場景識別的影響,可以在識別物體類別的基礎上,對物體的組成結構分析,以區分同類物體間的差異。

5.2 研究方向展望

5.2.1多模態數據融合的場景識別方法研究

三維點云數據可規避掃描時間、光照、紋理等多種因素對場景識別的影響,但是仍然無法規避動態遮擋(行人、不同車輛停放)、人為改造帶來的場景結構變化的影響,可以考慮加入其它多模態數據減少遮擋對場景識別準確率的影響。如何選擇和選擇哪些單模態數據進行融合,以及在融合過程中如何設置其權重都需要進一步的討論研究。

5.2.2基于點云邊緣計算的點云場景識別方法研究

由于點云場景包含有豐富的對象,具有大范圍、大尺度和海量性等特性,實時完成點云場景的識別比較困難。隨著5G技術的快速發展,可以在場景識別方法中引入5G時代的點云邊緣計算。5G具備超高帶寬、低時延、高可靠、廣覆蓋等特點,與邊緣計算結合可以使得點云大數據的實時傳輸和在線處理變為現實[76],保證場景識別的實時性,為自動駕駛、移動機器人的快速發展奠定基礎。

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 99精品福利视频| 中文成人在线| 欧美一区二区啪啪| 日本AⅤ精品一区二区三区日| 无码精油按摩潮喷在线播放| 国产成人av一区二区三区| 波多野结衣中文字幕一区二区| 亚洲第一成人在线| 亚洲首页国产精品丝袜| 亚洲精选无码久久久| 高清精品美女在线播放| 久久狠狠色噜噜狠狠狠狠97视色 | 久久国语对白| 大学生久久香蕉国产线观看| 国产乱人免费视频| 日韩欧美视频第一区在线观看| 免费观看欧美性一级| 国产一区二区三区视频| 高清欧美性猛交XXXX黑人猛交| 国产aaaaa一级毛片| 成人免费网站久久久| 国产成人精品高清不卡在线| 亚州AV秘 一区二区三区| 99精品免费欧美成人小视频| 亚洲嫩模喷白浆| 国产成人av大片在线播放| 欧美一区二区丝袜高跟鞋| 在线免费亚洲无码视频| 亚洲精品中文字幕无乱码| 在线观看无码a∨| 欧美综合区自拍亚洲综合绿色| 国内熟女少妇一线天| 国产一区免费在线观看| A级毛片高清免费视频就| 2022国产无码在线| 波多野结衣爽到高潮漏水大喷| 女人一级毛片| 日韩欧美中文字幕在线韩免费| 国产日本欧美亚洲精品视| 日韩欧美国产三级| 欧美黄网站免费观看| 久久精品丝袜高跟鞋| 九九免费观看全部免费视频| www亚洲精品| 98精品全国免费观看视频| 久久久国产精品无码专区| 国产成人AV综合久久| 亚洲欧美日韩综合二区三区| 一级毛片在线播放| 亚洲精品男人天堂| 日本精品视频一区二区| 国产精品免费p区| 日韩麻豆小视频| 欧美www在线观看| 日本精品中文字幕在线不卡| 欧美天堂久久| 91成人在线观看视频| 国产精品久久久久久影院| 四虎永久在线| 91外围女在线观看| 特级精品毛片免费观看| 99热这里只有精品在线观看| 2021国产在线视频| AV不卡国产在线观看| 97视频免费看| 中文无码精品A∨在线观看不卡 | 日韩第九页| 亚洲国产精品日韩av专区| 四虎成人免费毛片| 亚洲一区精品视频在线| 四虎影院国产| 欧美精品啪啪一区二区三区| 五月天久久综合| 欧美日韩中文字幕在线| 成人夜夜嗨| 国产精品免费露脸视频| 99久久精品国产麻豆婷婷| 亚亚洲乱码一二三四区| 美女潮喷出白浆在线观看视频| 99视频在线免费观看| 青青操视频在线| 91欧洲国产日韩在线人成|