999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的點云三維目標檢測方法綜述

2023-01-01 00:00:00郭毅鋒吳帝浩魏青民
計算機應用研究 2023年1期

摘要:點云作為一種三維環境數據因其具有較高的精度一直被廣泛關注并應用于多種場景任務之中。近年來,深度學習進入點云領域,讓點云數據處理得到快速發展。針對基于深度學習的點云三維目標檢測任務,首先分析了點云數據的特性并列舉了日常任務中常用的點云數據集;隨后通過單模態的三維目標檢測與多模態的三維目標檢測兩個方向進行分類闡述,并通過單模態與多模態方法在數據集上的表現作比對;最后對當前點云三維目標檢測研究的發展趨勢進行展望與總結。

關鍵詞:點云;三維目標檢測;單模態;多模態

中圖分類號:TP391文獻標志碼:A

文章編號:1001-3695(2023)01-003-0020-08

doi:10.19734/j.issn.10013695.2022.05.0251

Overview of singlesensor and multisensor point cloud 3D target detection methods

Guo Yifeng1,2,Wu Dihao1,Wei Qingmin1

(1.School of Automation,Guangxi University of Science amp; Technology,Liuzhou Guangxi 545026,China;2.College of Mechanical Engineering,Chengdu University,Chengdu 610106,China)

Abstract:As a kind of 3D environment data,point cloud has gotten a great deal of attention and has been applied to many scenarios because of its high accuracy.In recent years,deep learning has entered the field of point cloud,enabling the rapid development of point cloud data processing.Based on the deep learning point cloud threedimensional target detection task,this paper firstly analyzed the characteristics of point cloud data and listed the point cloud data sets which was commonly used in daily tasks.Then this paper classified the process of single mode 3D object detection and multimode 3D object detection and did the comparison of the data sets performance between singlemode and multimode states.Finally,this paper summarized and prospected the development trend of current point cloud 3D target detection research.

Key words:point cloud;3D target detection;singlesensor;multisensor

0引言

三維目標檢測[1~3]是根據二維或三維的傳感器信息,基于幾何分析和數學統計方法對目標的空間信息進行解析,獲取目標的位置、邊界、類別、方向等信息。隨著感知技術的不斷發展,人們對識別的準確性、實時性的要求越來越高。傳統的二維信息已經難以滿足目標檢測的需求,三維目標檢測技術受到了研究工作者的廣泛關注。三維激光雷達產生的點云因其擁有極高還原目標三維幾何、表面和尺度信息的能力,在獲取場景語義信息與空間信息中發揮著重要作用。近年來,深度學習與三維激光點云的結合不斷受到研究人員的重視,基于點云的三維信息獲取任務因此得到飛速發展,在自動駕駛[4,5]、三維重建[6]、文物保護[7,8]、電力線路巡檢[9]等領域具有廣泛應用前景。

點云的目標檢測把點云劃分出若干個特定且具有一定相同或相似屬性的區域“點塊”,并識別出每個點塊的信息。一般來說,點云的識別分類任務需要提取出局部范圍和全局范圍內最具有代表性的點特征,將每個提取出來的特征輸入到預先定義好的模型中,通過模型得出相應的分類結果。傳統的點云分類方法中,提取的特征大多是基于點云的三維幾何屬性,如曲率、密度、法向量和空間分布等。為此開發出各種手工特征描述符和分類器,隨后基于深度學習方法預測出每個點的語義標簽,如隨機森林(random forest,RF)[10~14]、支持向量機(support vector machines,SVM)[15~18]、AddBoost[19]、高斯混合模型[20]等。這些手工提取點云特征的方法主要依靠設計者大量實驗得到的先驗知識,同時缺少了對鄰域中點與點之間關系的考慮,因此點云中存在的噪聲對分類結果產生較大的影響,魯棒性并不高。而后續為了加強鄰域之間的關系,一些研究提出了馬爾可夫隨機場(Markov random field,MRF)[21]與條件隨機場(conditional random field,CRF)[22]等,雖然提升了分類效果,但模型過度依賴研究人員手工設計的規則,只能對特定的場景表現出較好的適用性,而遇到其他場景則難以表現出較好的性能。

近年來,隨著大型與超大型三維場景數據集不斷開發,推動了深度學習在三維點云中運用的發展。深度學習模型的優勢在于可以通過大量數據驅動的方式進行特征提取,通過多層非線性單元提取輸入數據的多層特征進行學習。深度學習方法中,研究人員常用的點云前處理方法有投影為二維深度圖和輸入原始點云等。投影的方法[23~29]是將三維點云投影到二維深度圖中,運用比較成熟的二維圖像處理網絡處理深度圖數據,最后將結果重新映射回三維環境中。這種方法雖然能夠將成熟的二維圖像網絡運用到三維點云數據中,但是從三維點云投影到二維數據的時候容易出現大量的信息丟失,讓算法性能受到了限制。而直接使用點云作為深度學習輸入的方法由Qi等人[30]2017年首次提出,并且在三維點云的場景解析、分類與分割任務上取得較好的表現。由此直接處理點云的方法越來越受到研究人員的青睞,并逐漸發展到主導地位。

目前,已有一些綜述性文章對基于深度學習的點云數據應用進行了總結與探討[31~33]。本文在前人工作的基礎上對點云的深度學習三維目標檢測任務做進一步的豐富和完善。

1基礎知識

1.1三維點云數據特征

點云(point cloud)是通過大量數據點集表達物體表面特征信息以及空間分布信息。常用的點云數據形式主要有激光點云與RGBD深度相機獲取的點云信息。相對于只有二維信息的圖像而言,點云能更好地還原較為真實的三維環境信息,修飾目標的三維特征,而且受到光照、姿態變化的影響更小。因此,如何更高效利用點云數據是近年研究從業者關注的重點。

1)無序性點云數據是一組無序的向量集合,其輸入的順序會因設備采集方式、讀入數據方式的不同而千差萬別。這對使用深度學習進行點云三維目標檢測來說有很大的影響,因此需要解決點云的無序性對模型的影響。

Qi等人[30]提出的PointNet通過具有對稱性的max pooling(最大池化)解決無序性問題。其通過卷積層提取特征,隨后經過最大池化選出影響最大的特征作為點云的全局特征,輸入到后續的網絡進行分類任務以及分割任務。Huang等人[34]將無序向X、Y、Z三個方向進行切片,通過池化層得到全局特征,輸出有序的特征向量序列。Li等人[35]構造卷積算子用于解決點云無序性問題。Jiang等人[36]定義了Orientationencoding模塊來描述點云空間的八個方向,同時對不同尺度的對象具有了適應性。Liang等人[37]通過圖形卷積用于處理無序的點云數據,具有很強的局部點云特征的提取能力。

2)非結構化與二維圖像數據不同,三維點云沒有固定的存儲結構。解決點云非結構化的方法主要有多視圖和體素化兩種。多視圖的方法通過投影的原理,將三維數據向二維數據投影壓縮,通過這種方式把非結構化的三維點云通過類似于二維圖像的結構聯系起來,再使用成熟的二維數據處理技術處理數據。2015年,Su等人[38]首次提出MVCNN(multiview convolutional neural network)方法,通過獲取三維點云目標的不同視角圖像,將三維信息投影為多個二維圖像信息,使用卷積等技術處理數據。后續Feng等人[39]在此基礎上提出了GVCNN(groupview convolutional neural network)框架,加入了分組機制,加強了多視圖方法特征之間的聯系性。文獻[40~47]基于多視圖方法在三維點云運用中作出了許多貢獻。體素化(voxelization)是將空間分為一個個連續的占用網格,通過點云數據聯系先驗知識估計方法計算出體素的占用狀態。體素類似于一個從二維像素點擴展到三維立方體單元的圖像,解決了點云的無序性和非機構化的問題。雖然點云經過體素化后能通過三維CNN模型進行處理,并取得了很好的效果[48~50],但大型三維點云的稀疏性導致體素化效率低、占用內存嚴重,限制了體素模型的分辨率。小分辨率體素網格容易造成點云三維特征丟失的情況,因此需要權衡性能與精度之間的關系。

3)稀疏性現實場景、物體表面形狀等方面的差異讓點云數據所具有的空間屬性不盡相同。在不同物體相對傳感器的空間距離、位姿角度下,獲取的物體表面的密度、點數和空間關系存在一定差異。三維點云不規則、稀疏程度不一的特性對采樣提出了挑戰。如果采樣過程中出現過采樣或欠采樣的情況,容易導致模型難以學習物體的結構特征,進而在網絡訓練的過程中出現更新網絡參數分配權重不合理的情況。因此,處理不同密度的物體點云信息是三維點云研究的重點之一。Qi等人[51]提出的PointNet++在采樣過程中使用FPS采樣方法,對點云進行均勻采樣,配合密度自適應模塊輸入網絡學習不同密度尺度的特征。文獻[52,53]分別采用不同的密度模塊,在一定程度上降低了點云稀疏性對網絡產生的影響。

1.2數據集

無論是基于深度學習的目標監測算法還是傳統目標監測算法都離不開大量實驗數據的驗證,為了促進三維點云目標檢測、分割、分類等任務的發展,許多科研機構提供了一些可靠的開放數據集,常用數據集對比如表1所示。本節按照室外數據集和室內數據集兩種類別介紹常用的三維目標檢測數據集。

1.2.1室外數據集

1)KITTI數據集[54]它是目前國際上具有巨大影響的自動駕駛場景數據集之一。該數據集主要分為評測立體圖像(stereo)、光流(optical flow)、視覺測距(visual odometry)、3D物體檢測(object detection)和3D跟蹤(tracking)等部分,包含市區、鄉村和高速公路等真實采樣場景。數據集提供行人、汽車、自行車等目標的標注,同時含有目標的遮擋程度和截斷程度等數據,將檢測目標分成容易、中等、困難三個級別,讓使用者對自己的網絡進行詳細分析。

2)Waymo數據集[55]數據集有五個高分辨率Waymo激光雷達和五個前置和側面攝像頭的數據。標注集包含車輛、行人、自行車、標志牌等,一共捕獲了1 200萬個3D標簽和120萬個2D標簽,完整標注了360°目標幫助研究人員在二維和三維感知方面取得進展。

3)ApolloScape數據集[56]由百度公司開源,是Apollo系統項目的一部分。其包含具有像素級別語義注釋、語義分割的測量級密集3D點、深度地圖靜態背景、立體視頻和全景圖像。支持用戶定義策略的模擬工具的開放訪問,為高級自動駕駛研究提供了一套工具和數據集,是2D / 3D場景最全面的分析之一。數據集包含國內十余個城市的實車駕駛數據,并定期增添新駕駛場景和新功能,是一個不斷發展的項目。同時每年舉辦各種研討會和挑戰賽,推動自主駕駛的研究。

4)Semantic3D[57]數據集數據集大約有40億個點數據,每個點都有高質量的手動標簽,具有良好的評估,并不斷更新子版本。數據集中的訓練集和測試集各15個,為了防止過擬合的出現,研究人員選擇在各種不同自然環境與人工場景構建數據集,包含城市和農村場景,如教堂、街道、鐵軌、農場、市政廳、運動場、城堡和市場廣場等。使用測量級激光掃描大型場景,由攝像機圖像生成的高分辨率cubemap對圖像進行著色,生成的數據非常精細。主要用于大型場景的點云分割任務。

5)KAIST數據集[58]該數據集引入了KAIST的多光譜數據集,數據集場景涵蓋了城市大量可駕駛區域,提供了粗糙時間段與精細時間段兩種不同時間場景模式,粗糙時間段分為白天和晚上,而精細時間段分為日出、早晨、下午、日落、夜晚和黎明用于全天候感知。數據集包含RGB攝像頭、熱成像相機、RGB立體視覺、激光雷達和GPS組合慣導傳感器。數據集主要用于感知、目標監測、可行駛區域檢測、SLAM、定位和深度估計等多項任務。

6)nuScenes數據集[59]該數據集包含了radar、camera和lidar數據。數據集由1 000個場景組成,除了自動駕駛任務中會遇到的普通駕駛場景外,還有復雜的道路以及天氣條件等。數據集中含有40萬個人工標注的三維物體邊界框以bounding box的形式標注了23個類以及大小、范圍、類別、可見程度等八個屬性,適用于正常與復雜場景下自動駕駛算法的驗證與實現。

1.2.2室內數據集

1)SUN RGBD數據集[60]通過四種不同的傳感器捕獲了10 335張RGBD圖像。整個數據集的注釋包括146 617個二維多邊形包圍框和64 595個具有精確對象方向的三維包圍盒,還對場景的布局與類別進行了說明。該數據集支持三維目標監測、場景分類、語義分割、場景估計等任務。

2)ShapeNet Part[61]數據集通過3DCAD模型表示,標注集超過93 000個形狀零件,跨16個類別模型。常用于小型目標分割。

3)Multisensorial indoor mapping and positioning dataset[62]數據集由內置激光掃描儀、攝像頭、UMU、WiFi等多個傳感器采集獲得。模型多為建筑的原始結構組成,如天花板、地板、墻壁、窗戶和門等,精度約為5 cm。數據集多用于室內制圖和定位。

4)NYUDepth數據集[63]包含1 449對密集標注的RGB圖像和深度圖像組成,數據集內有26個類別的464個場景,稠密標注了40個室內目標類別,每個目標都標有類別與實例號。適用于輔助機器人導航以及三維目標檢測任務。

5)ScanNet[64]數據集內部不僅包含了小型空間場景,還存在大型場景,共有21個類別的1 513個室內場景、250萬個視圖,如雜物間,教室和圖書館等,使用3D攝像機姿態、表面重建和實例級語義分割進行注釋。數據集可應用于三維點云目標分類、語義分割和CAD建模等任務。

6)SUN3D[65]數據集它是大型的RGBD室內場景數據庫,包含攝像機姿態及圖像、目標標注和點云數據。數據集內部捕獲了415個RGBD序列,八種標注序列。

1.3評價指標

為了對三維點云的目標檢測算法進行定量的性能分析,研究人員提出了多種評價指標,包括計算復雜度、空間復雜度等。在眾多的評判標準中,數據集通常會使用以下兩個指標表示算法的性能,即precision(精確率)和recall(召回率)。計算公式:

precision=TPTP+FP,recall=TPTP+FN(1)

其中:TP為正確識別的正樣本;FP為錯誤識別的正樣本;FN為正確識別的負樣本。目前研究工作者常用的評價指標還有IoU(交并比)、AP(平均精度)、mAP(所有類別的平均精度)等。

2點云三維目標檢測方法

根據目標檢測過程中使用的傳感器數量,可將點云三維目標檢測方法分為單模態數據的目標檢測和多模態數據融合的目標檢測。單模態數據目標檢測使用單一點云數據實現目標檢測任務,而多模態數據融合又稱為多源信息融合或多傳感器融合,通過多種傳感器數據彌補單一傳感器數據的不足。本章將以單模態與多模態兩個方向對三維點云目標檢測算法進行總結梳理,并分析方法的網絡架構及其獨特性。

2.1單模態數據目標檢測方法

2.1.1基于體素化的三維目標檢測

點云的體素化(voxelization)即通過占用網格的方式將點云轉換為接近該物體外形的方格表現形式,類似于將二維的柵格地圖擴展到三維。使用體素的形式表示數據結構可以保留和表達空間分布,而且能夠描述物體的內部屬性。目前基于體素化的深度學習方法已經在場景語義分割、物體分類等多個領域得到廣泛的應用[66,67]。

Maturana等人[68]提出的VoxNet模型是早期的將體素化方法運用于三維點云處理的算法之一,如圖1所示。整個系統可以分為volumetric occupancy grid(三維占用網絡)與三維卷積算子兩部分。其首先通過volumetric occupancy grid將三維點云體素化,并將每個體素進行歸一化處理;然后輸入三維卷積網絡進行卷積操作后得到點云的特征圖;最后對部分體素塊進行最大池化處理。為基于體素化的三維點云目標檢測作出一定的貢獻。Zhou等人[2]提出了一種端對端結構VoxelNet,可以直接在稀疏的點云數據上進行檢測任務。網絡主要有feature learning network、convolutional middle layers、region proposal network三部分。feature learning network中,作者提出了一個針對體素的分層特征編碼技術VFE,能夠有效結合體素內單個點的特征與全局特征,整合到點云的全局特征后輸入convolutional middle layers逐漸擴大特征的感受野,聚合更多體素間特征,聯系整個點云體素的上下文信息,最后在region proposal network中通過拼接不同階段3D卷積結果的方式構成多尺度特征,再對目標位置進行預測和回歸生成目標的邊界框。

Yan等人[69]基于VoxelNet[2]網絡進行了改進,用稀疏三維卷積替代原有網絡中的三維卷積層,提高了網絡的檢測速度,降低了內存的占用。Lang等人[70]提出了PointPillars,使用新的編碼器進行編碼。該編碼器只根據點云的(X,Y)坐標劃分,通過PointNet[33]學習點云垂直方向的特征,生成的特征圖通過二維卷積神經網絡(CNN)進行卷積,預測目標的三維定向框。相對于之前的網絡,PointPillars[70]在檢測速度與精確度上有一定提升。文獻[71,72]在PointPillars[70]的基礎上加入了注意力機制,提高了模型提取關鍵信息的能力,進而提升了目標檢測的性能。Luo等人[73]提出一種能同時完成三維目標檢測、目標跟蹤和運動預測三個任務的深度神經網絡,將三維點云數據轉換為鳥瞰圖后對空間和時間進行三維卷積,對存在遮擋和稀疏的數據具有較好的魯棒性,同時具有較快的處理速度。

Beltrn等人[74]提出BirdNet,通過Faster RCNN處理點云的鳥瞰圖,得到目標在鳥瞰圖中的位置、類別等信息后,進行三維定向檢測計算目標高度信息完成三維信息提取。后續提出的BirdNet+[75]針對鳥瞰圖投影產生的信息丟失與BirdNet[74]高度計算不夠準確,通過使用兩階段目標檢測器和特別回歸分支,完成對目標包圍框全部信息的提取,消除了后續處理高度信息的需要。

Shi等人[76]提出PointGNN,如圖2所示,通過圖的方式表示點云,以點云中的點作為圖的頂點,將頂點固定范圍內的點畫出邊界,并以這種方式編碼點云,提取區域內沿邊聚合特征以細化定點特征,輸入MLP進行分類回歸,引入自動注冊機制能夠一次檢測多個烏特而且可以根據特征自動對齊坐標。

上述方法以不同的方式緩解了體素化處理數據過程中遇到的問題,但還不能完美解決體素化帶來的信息丟失、內存和計算開銷大等問題。隨著技術的不斷發展,體素化的方法還需要進一步被優化。

2.1.2基于原始點云的三維目標檢測

為了避免體素化帶來的信息丟失以及較大的內存損耗,研究人員開始嘗試從原始點云中學習目標特征信息。文獻[33]開創性地提出了將原始點云直接用于點云特征學習的網絡PointNet,提出空間變換網絡進行仿射變換解決點云旋轉不變性問題以及通過最大池化層解決點云的無序性問題。由于PointNet存在難以捕捉目標局部結構特征的缺陷,限制了網絡對復雜場景的泛化能力。后續,Qi等人[51]進一步提出了PointNet++,通過分層特征提取的方式,先提取出小范圍的局部特征,隨后基于局部特征整合提取出更高層次特征,一定程度上緩解了非均勻采樣和局部特征學習率不高的問題。

Qi等人[77]提出一種端到盒網絡P2B,如圖3所示,通過PointNet++[51]從模板和搜索區域提取種子點,隨后增強種子點特征并通過Hough投票回歸種子區域潛在的目標質心,最后聯合三維目標proposal。后續Zheng等人[78]基于上述方法提出BoxCloud用于描述點與三維包圍框之間的關系,豐富了點特征的表示形式。

Yang等人[79]提出輕量化模型3DSSD,在數據采樣過程中結合歐氏距離與特征距離,優化了FPS采樣算法在采樣過程中出現包含背景點的問題,設計基于點的三維單級物體檢測器。為了滿足對預測精度和速度的要求,網絡通過候選生成層、無錨框檢測頭和三維中心分配策略的包圍框預測網絡,保證精度的情況下運算速度有較大提升。

Wang等人[80]針對卡爾曼濾波和粒子濾波在預測目標位置時容易受到不良影響提出了PointTrackNet,通過端到端的三維目標檢測和跟蹤網絡輸出逐點跟蹤關聯位移,其中數據關聯模塊能夠融合兩幀之間的點特征并將同一物體的特征進行關聯,提升目標檢測與跟蹤任務的性能。

Shi等人[81]提出PointRCNN,如圖4所示,將點云通過語義分割出前景,對前景目標生成預測包圍框并去除冗余信息,隨后對包圍框通過旋轉平移轉換坐標系并提取特征,結合預測包圍框特征優化預測結果獲得最后的檢測結果。

2.1.3基于體素與原始點云混合的點云三維目標檢測

基于原始點云的方法可以獲得豐富的環境語義信息,基于體素化的方法根據分辨率的不同可以具備較高的運算效率,因此許多研究團隊為了結合兩種方法的優勢提出結合兩種方法優勢的模型。Chen等人[82]提出了一種結合體素表示和原始表示兩種方案的兩階段三維目標檢測方案Fast Point RCNN,如圖5所示,將點云體素化后放入VoxelRPN中生成初步目標預測區域,隨后結合原始點云與預測區域的特征信息優化預測結果。特征提取部分利用二維和三維卷積共同提取特征,并將卷積特征和坐標特征結合優化目標三維包圍框結果。

針對基于體素或基于原始點云的神經網絡模型處理三維點云數據效率不高的問題,Liu等人[83]提出PVCNN,在稀疏且不規則的原始點云數據提取特征,在規則的體素中進行卷積,結合了基于原始點云方法和體素化方法的優點,緩解了內存占用和不規則訪問內存的問題。基于原始點云的特征可以更好保存目標的精確位置,但由于存儲的無序性導致了較高的計算開銷,基于體素的結構適合于特征提取,但準確性不高。Deng等人[84]提出Voxel RCNN,如圖6所示,對于高性能的三維目標檢測來說,精確的原始點云并不是必要的,體素也能夠滿足目標檢測的精度要求。Voxel RCNN通過三維卷積對體素采樣后轉換為二維鳥瞰圖,并生成密集區域預測,使用體素RoI池化從三維點云特征中提取RoI特征用于優化預測結果生成目標檢測結果。Yang等人[85]提出STD,一階段提出一種不需要預測角度的球形錨框生成候選區域以減少預測量,利用pointspool壓縮候選區域減少推理時間,二階段基于點的語義分割去除冗余數據獲得更準確的檢測結果。

Shi等人[86]提出PVRCNN,以一種新的編碼方式voxeltokeypoint編碼,將多尺度體素特征編碼與關鍵點相結合,兼顧了關鍵點準確的位置信息與全局信息,在proposal中使用多尺度的RoI提取特征,通過多個感受野提取豐富的上下文信息。

2.2多模態數據融合

由于原始傳感器數據噪聲較大、信息利用率不高、不同種類傳感器各有優缺點,基于單一傳感器數據的目標檢測算法很難達到令人滿意的性能。研究工作者為了彌補單一傳感器的不足,開始把目光投向了多模態數據融合方法。三維目標檢測算法中,激光雷達往往與攝像頭數據進行融合,也是研究工作的主流方向。根據融合模型中融合層級的不同可以分為前期融合、中期融合和晚期融合。早期融合主要對原始數據或只經過初步預處理的數據進行融合,可以充分保留原始數據的信息;中期融合主要融合不同模態數據的特征,讓網絡學習不同模態數據的特征;晚期融合能結合多模態數據網絡中不同網絡結構的決策信息,具有較高的靈活性。多模態數據融合的三維目標檢測算法除了需要設計每種模態數據的處理網絡外,還需要找到一個合適的融合層級讓信息得到充分的利用。Chen等人[87]提出MV3D模型,如圖7所示,將點云的鳥瞰圖、前視圖和RGB圖像生成的三維候選區域經過深度融合網絡進行RoI池化操作把區域特征結合,隨后預測目標類別并回歸得到目標的包圍框,是早期將多模態數據融合用于點云三維目標檢測的方法之一。針對MV3D對特征采樣過程中出現信息丟失的問題,Ku等人[88]提出了AVOD模型,使用包含encoder和decoder的FPN,生成特征圖的過程中不僅保存了輸入信息,還結合了底層細節信息和高層語義信息,使物體檢測能力顯著提高。

除了能夠直接從圖像中提取目標信息外,還能使用圖像信息輔助點云生成三維候選框。這種融合策略的主題是依靠點云提取目標特征,而圖像信息提供目標的位置和輪廓信息,讓點云數據更快、更準確地完成回歸任務。Qi等人[89]提出FPointNet,采用二維檢測器生成二維的候選框等信息,將二維候選框結合深度信息生成三維的視椎體furstum,隨后利用PointNet[33]相關組件對椎體內點云實例分割,最后通過3D邊界框估計模塊預測目標三維檢測結果。由于FPointNet需要先基于圖像生成的檢測結果進行后續檢測處理,故檢測的準確性受前期圖像檢測模塊的性能影響。Wang等人[90]提出FConvNet,如圖8所示,改進了椎體的生成過程,對二維圖像每個region proposal都生成一個視椎體,再沿視錐體軸以相同步長滑動生成一組視錐體,提取視椎體內點的特征,利用檢測頭進行三維包圍框的估計。

Xie等人[91]提出PIRCNN,從圖像分割中提取語義信息,通過PACF模塊直接在3D點上進行逐點連續卷積生成并優化目標三維proposal,并將RGB圖像的語義特征與LiDAR點的特征結合,最后通過檢測頭完成三維目標檢測。Chen等人[92]提出RoIFusion網絡,分別對點云與圖像提取出感興趣區域,再將感興趣區域進行聚合,降低了網絡的計算成本,同時避免了多模態傳感器信息融合時出現的視點偏差問題。

2.3對比與分析

本節匯總了單模態三維目標檢測方法與多模態三維目標檢測方法中部分方法在KITTI數據集上對車、行人以及自行車的檢測的表現,如表2所示。

單模態方法中,基于原始點云的檢測方法準確率比基于體素的檢測方法要高,因為點云經過體素化的下采樣之后不可避免地丟失了點云的特征,而原始點云能保留更多目標的邊界信息,所以能更準確地預測三維包圍框信息。相對而言,基于點云與體素的混合目標檢測方法結合了體素化方法具有較高運算效率和原始點云方法中豐富語義信息的優點,擁有不錯的運算效率以及單模態方法中最高的準確率。

圖像加點云的多模態數據融合方法在三維目標檢測任務中的表現暫時不如基于點云的單模態方法,其中有多方面的原因,如沒能合理利用信息、特征融合困難、網絡設計難度大等。但隨著技術的不斷發展,多模態的目標檢測算法因為擁有比單模態方法更全面的信息而成為重要的發展方向。

3展望

點云數據處理還處于快速發展階段,每年都有大量基于點云的三維目標檢測算法出現在人們的視野,并不斷在各大數據集中刷新著三維目標檢測任務的準確率。然而,由于數據集與識別對象的獨特性,以及識別準確率的不足,現有的方法仍然難以滿足日常場景的使用。本章基于前面章節對三維目標檢測問題的評述,對點云三維目標檢測的未來部分研究方向進行展望。

a)多模態數據融合。由于點云的信息有限,單一的點云信息已經難以滿足三維目標檢測任務需求,目前有許多學者提出了多種圖像和點云融合的方法,通過不同模態的數據優勢相互彌補單一傳感器的不足之處,對三維目標檢測具有較大的意義。但是由于該類型方法還處于發展階段,精度還難以令人滿意。大部分融合算法中,為了將不同模態的數據結合并輸入融合網絡不得不對點云進行預處理,不可避免地出現信息丟失的情況,因此難以充分利用多模態信息,而且不同模態信息的分辨率和數據質量的不同使得進一步增大難度。如何盡可能利用圖像與點云的信息,并且通過合理的網絡設計以平衡不同質量的多模態數據,值得研究人員繼續為此努力。

b)充分利用點云。解決點云的無序性與非結構化等特性一直是點云三維目標檢測的一項關鍵任務。許多研究者為了解決這個問題提出了自己的想法。文獻[93]提出場探測濾波器作為特征提取器的模型,該網絡模型優化了探測點的權值與探測點的位置,從而使探測濾波器的形狀發生形變并自適應地分布,但會降低分割網絡輸出的分辨率。文獻[94]借鑒了點云的均勻量化以解決點云過多的空間浪費的情況,讓體素網格能夠在恒定數量點上進行自適應縮放,具有更好的表現。文獻[95]參考二維圖片的稀疏卷操作,提出了用于三維空間的子流形稀疏卷積網絡(SSCN),將稀疏卷積融入點云處理中。圖標也是一種能較好適應點云不規則特性的表現形式,文獻[96]通過轉換為鳥瞰圖的形式處理遮擋嚴重的問題,但處理為鳥瞰圖也不可避免帶來了高度信息丟失的問題。而面對點云根據距離導致密度不同的問題,文獻[97]以動態卷積的方式適應不同密度的特征變化。

c)自監督學習。現在多數的三維目標檢測方法的準確率都需要基于數據集中耗時耗力的人工標注數據,而單一的數據集又難以滿足網絡訓練需求。為此,自監督學習和無監督學習的點云三維目標檢測方法走入了研究者的視野。文獻[98~100]從驗證方法可行性、測試方法性能等方面給研究工作者提供了思路,推動了自監督學習與無監督學習方法在三維目標檢測任務中的發展。

4結束語

三維目標檢測是點云數據應用中非常重要的研究領域之一,具有巨大的研究價值以及發展前景。近年來,由于深度學習融入點云的研究,讓基于點云的三維目標檢測算法一直處于快速發展階段。本文首先介紹了點云的數據特點以及常用于研究的數據集;隨后從基于單模態與多模態兩個方向闡述了點云融合深度學習在三維目標檢測任務中的運用;最后對未來點云在三維目標檢測方向的發展研究提出展望。

參考文獻:

[1]Li Buyu,Ouyang Wanli,Sheng Lu,et al.Gs3D:an efficient 3D object detection framework for autonomous driving[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:10191028.

[2]Zhou Yin,Tuzel O.VoxelNet:endtoend learning for point cloud based 3D object detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:44904499.

[3]Ku J,Mozifian M,Lee J,et al.Joint 3D proposal generation and object detection from view aggregation[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2018:1-8.

[4]Kim K,Kim C,Jang C,et al.Deep learningbased dynamic object classification using LiDAR point cloud augmented by layerbased accumulation for intelligent vehicles[J].Expert Systems with Applications,2021,167:113861.

[5]Zermas D,Izzat I,Papanikolopoulos N.Fast segmentation of 3D point clouds:a paradigm on LiDAR data for autonomous vehicle applications[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2017:5067-5073.

[6]Yang Bisheng,Huang Ronggang,Li Jianping,et al.Automated reconstruction of building LoDs from airborne LiDAR point clouds using an improved morphological scale space[J].Remote Sensing,2016,9(1):14.

[7]Pan Yue,Dong Yiqing,Wang Dalei,et al.Threedimensional reconstruction of structural surface model of heritage bridges using UAVbased photogrammetric point clouds[J].Remote Sensing,2019,11(10):1204.

[8]張瑞菊,周欣,趙江洪,等 .一種古建筑點云數據的語義 分割算法[J].武漢大學學報:信息科學版,2020,45(5): 753759.(Zhang Ruiju,Zhou Xin,Zhao Jianghong,et al.A semantic segmentation algorithm for point cloud data of ancient buildings[J].Geomatics and Information Science of Wuhan University,2020,45(5) :753759.)

[9]Ene L T,Nsset E,Gobakken T,et al.Largescale estimation of change in aboveground biomass in miombo woodlands using airborne laser scanning and national forest inventory data[J].Remote Sensing of Environment,2017,188:106117.

[10]Gan Zheng,Zhong Liang,Li Yunfan,et al.A random forest based method for urban object classification using LiDAR data and aerial imagery[C]//Proc of the 23rd International Conference on Geoinformatics.Piscataway,NJ:IEEE Press,2015:1-4.

[11]Wang Chisheng,Shu Qiqi,Wang Xinyu,et al.A random forest classifier based on pixel comparison features for urban LiDAR data[J].ISPRS Journal of Photogrammetry and Remote Sensing,2019,148(2):75-86.

[12]Han Kai,Wang Yunhe,Chen Hanting,et al.A survey on visual transformer[EB/OL].(20201223).https://arxiv.org/abs/ 2012.12556.

[13]Ni Huan,Lin Xianggou,Zhang Jixian.Classification of ALS point cloud with improved point cloud segmentation and random forests[J].Remote Sensing,2017,9(3):288.

[14]Weinmann M,Jutzi B,Hinz S,et al.Semantic point cloud interpretation based on optimal neighborhoods,relevant features and efficient classifiers[J].ISPRS Journal of Photogrammetry and Remote Sensing,2015,105(7):286-304.

[15]Chen Chen,Li Xiaomin,Belkacem A N,et al.The mixed kernel function SVMbased point cloud classification[J].International Journal of Precision Engineering and Manufacturing,2019,20(5):737747.

[16]Zhang Jixian,Lin Xianggou,Ning Xiaogang .SVMbased classification of segmented airborne LiDAR point clouds in urban areas[J].Remote Sensing,2013,5(8):3749-3775.

[17]Gao Zhihong,Liu Xingwan.Support vector machine and objectoriented classification for urban impervious surface extraction from satellite imagery[C]//Proc of the 3rd International Conference on AgroGeoinformatics.Piscataway,NJ:IEEE Press,2014:1-5.

[18]Matthew C,Claire B,Féret J B,et al.Mapping savanna tree species at ecosystem scales using support vector machine classification and BRDF correction on airborne hyperspectral and LiDAR data[J].Remote Sensing,2012,4(11):3462-3480.

[19]Chan C W,Paelinckx D .Evaluation of random forest and AdaBoost treebased ensemble classification and spectral band selection for ecotope mapping using airborne hyperspectral imagery[J].Remote Sensing of Environment,2008,112(6):2999-3011.

[20]Lalonde J F,Unnikrishnan R,Vandapel N,et al.Scale selection for classification of pointsampled 3D surfaces[C]//Proc of the 5th International Conference on 3D Digital Imaging and Modeling.Piscataway,NJ:IEEE Press,2005:285-292.

[21]Munoz D,Bagnell J A,Vandapel N,et al.Contextual classification with functional maxmargin Markov networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2009:975-982.

[22]Niemeyer J,Rottensteiner F,Soergel U .Contextual classification of LiDAR data and building object detection in urban areas[J].ISPRS Journal of Photogrammetry amp; Remote Sensing,2014,87(1):152165.

[23]Yu Tan,Meng Jingjing,Yuan Junsong.Multiview harmonized bilinear network for 3D object recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:186194.

[24]Wu Zhirong,Song Shuran,Khosla A,et al.3D shapenets:a deep representation for volumetric shapes[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:19121920.

[25]Kalogerakis E,Averkiou M,Maji S,et al.3D shape segmentation with projective convolutional networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:3779-3788.

[26]Riegler G,Osman U A,Geiger A.Octnet:learning deep 3D representations at high resolutions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:3577-3586.

[27]Klokov R,Lempitsky V.Escape from cells:deep kdnetworks for the recognition of 3D point cloud models[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:863-872.

[28]Su Hang,Maji S,Kalogerakis E,et al.Multiview convolutional neural networks for 3D shape recognition[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:945-953.

[29]Ma Chao,Guo Yulan,Yang Jungang,et al.Learning multiview representation with LSTM for 3D shape recognition and retrieval[J].IEEE Trans on Multimedia,2018,21(5): 11691182.

[30]Qi C R,Su Hao,Mo Kaichun,et al.PointNet:deep learning on point sets for 3D classification and segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:652-660.

[31]王亞東,田永林,李國強,等.基于卷積神經網絡的三維目標檢測研究綜述[J].模式識別與人工智能,2021,34(12):11031119.(Wang Yadong,Tian Yonglin,Li Guoqiang,et al.A review of 3D object detection based on convolutional neural network[J].Pattern Recognition and Artificial Intelligence,201,34(12):11031119.)

[32]王文曦,李樂林.深度學習在點云分類中的研究綜述[J].計算機工程與應用,2022,58(1):26-40.(Wang Wenxi,Li Lelin.A review of deep learning in point cloud classification[J].Computer Engineering and Applications,2022,58(1):26-40.)

[33]魏天琪,鄭雄勝.基于深度學習的三維點云分類方法研究[J].計算機應用研究,2022,39(5):12891296.(Wei Tianqi,Zheng Xiongsheng.Research on 3D point cloud classification based on deep learning[J].Application Research of Computers,2022,39(5):12891296.)

[34]Huang Qianggui,Wang Weiyue,Neumann U.Recurrent slice networks for 3D segmentation of point clouds[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:2626-2635.

[35]Li Yangyan,Bu Rui,Sun Mingchao,et al.PointCNN:convolution on xtransformed points[J].Advances in Neural Information Processing Systems,2018,31:820-830.

[36]Jiang Mingyan,Wu Yiran,Zhao T,et al.Pointsift:a siftlike network module for 3D point cloud semantic segmentation[EB/OL].(2018).https://arxiv.org/abs/1807.00652.

[37]Liang Zhidibg,Yang Ming,Deng Liuyuan,et al.Hierarchical depthwise graph convolutional neural network for 3D semantic segmentation of point clouds[C]//Proc of International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2019:8152-8158.

[38]Su Hang,Maji S,Kalogerakis E,et al.Multiview convolutional neural networks for 3D shape recognition[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2015:945-953.

[39]Feng Yifan,Zhang Zhizhao,Zhao Xibin,et al.GVCNN:group view convolutional neural networks for 3D shape recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2018:264-272.

[40]Zeng A,Yu Kuanting,Song Shuran,et al.Multi view selfsupervised deep learning for 6D pose estimation in the Amazon picking challenge[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2017:13861383.

[41]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]//Proc of the 26th Annual Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2012:1106 1114.

[42]Simonyan K,Zisserman A.Very deep convolutional networks for large scale image recognition[EB/OL].(20140904).https://arxiv.org/abs/1409.1556v4.

[43]Ma L N,Stückler J,Kerl C,et al.Multiview deep learning for consistent semantic mapping with RGBD cameras[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2017:598-605.

[44]Boulch A,Guerry J,Le S B,et al.SnapNet:3D point cloud semantic labeling with 2D deep segmentation networks[J].Computers amp; Graphics,2018,71:189198.

[45]Guerry J,Boulch A,Le S B,et al.SnapNetR:consistent 3D multi view semantic labeling for robotics[C]//Proc of IEEE International Conference on Computer Vision Workshops.Washington DC:IEEE Computer Society,2017:669-678.

[46]Wu Bichen,Wan A,Yue Xiangyu,et al.SqueezeSeg:convolutional neural nets with recurrent CRF for real time roadobject segmentation from 3D LiDAR point cloud[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2018:18871893.

[47]Wu Bichen Zhou Xuanyu,Zhao Sicheng,et al.SqueezeSegv2:improved model structure and unsupervised domain adaptation for road object segmentation from a LiDAR point cloud[C]//Proc of International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2019:4376-4382.

[48]Xu Yusheng,Hoegner L,Tuttas S,et al.Voxel and graphbased point cloud segmentation of 3D scenes using perceptual grouping laws[J].ISPRS Annals of the Photogrammetry,Remote Sensing and Spatial Information Sciences,2017,5:43-50.

[49]Zeng Wei,Gevers T.3DContextNet:kd tree guided hierarchical learning of point clouds using local and global contextual cues[C]//Proc of ECCV Workshops on Computer Vision.Berlin:Springer,2018:314-330.

[50]Meng H,Gao Lin,Lai Yukun,et al.VVNet:voxel VAE net with group convolutions for point cloud segmentation[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:8499-8507.

[51]Qi C R,Yi Li,Su Hao,et al.PointNet++:deep hierarchical feature learning on point sets in a metric space[EB/OL].(2017-06-08).https://arxiv.org/abs/1706.02413.

[52]Li Xiang,Wang Lingjing,Wang Mingyang,et al.DANCENET:densityaware convolution networks with context encoding for airborne LiDAR point cloud classification[J].ISPRS Journal of Photogrammetry and Remote Sensing,2020,166:128139.

[53]Wen Congcong,Li Xiang,Yao Xiaojing,et al.Airborne LiDAR point cloud classification with globallocal graph attention convolution neural network[J].ISPRS Journal of Photogrammetry and Remote Sensing,2021,173:181194.

[54]Geiger A,Lenz P,Urtasun R.Are we ready for autonomous driving?The KITTI vision benchmark suite[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2012:3354-3361.

[55]Sun Pei,Kretzschmar H,Dotiwalla X,et al.Scalability in perception for autonomous driving:Waymo open dataset[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:2446-2454.

[56]Huang Xinyu,Wang Peng,Cheng Xinjing,et al.The apolloscape open dataset for autonomous driving and its application[EB/OL].(2018).https://arxiv.org/abs/ 1803.06184.

[57]Hackel T,Savinov N,Ladicky L,et al.Semantic3D net:a new largescale point cloud classification benchmark[C]//Proc of ISPRS Annals of Photogrammetry,Remote Sensing and Spatial Information Sciences.2017:91-98.

[58]Choi Y,Kim N,Hwang S,et al.KAIST multispectral day/night data set for autonomous and assisted driving[J].IEEE Trans on Intelligent Transportation Systems,2018,19(3):934-948.

[59]Caesar H,Bankiti V,Lang A H,et al.Nuscenes:a multimodal dataset for autonomous driving[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:1162111631.

[60]Song Shuran,Lichtenberg S P,Xiao Jianxiong.SUN RGBD:a RGBD scene understanding benchmark suite[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:567-576.

[61]Yi Li,Kim V G,Ceylan D,et al.A scalable active framework for region annotation in 3D shape collections[J].ACM Trans on Graphics,2016,35(6):112.

[62]Wang Cheng,Hou Shiwei,Wen Chenglu,et al.Semantic line frameworkbased indoor building modeling using backpacked laser scanning point cloud[J].ISPRS Journal of Photogrammetry and Remote Sensing,2018,143:150166.

[63]Silberman N,Hoiem D,Kohli P,et al.Indoor segmentation and support inference from RGBD images[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2012:746760.

[64]Dai A,Chang A X,Savva M,et al.ScanNet:richlyannotated 3D reconstructions of indoor scenes[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:2432-2443.

[65]Xiao Jianxiong,Owens A,Torralba A.Sun3D:a database of big spaces reconstructed using SFM and object labels[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2013:16251632.

[66]Wu Zhirong,Song Shuran,Khosla A,et al.3DshapeNets:a deep representation for volumetric shapes[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2015:19121920.

[67]iek ,Abdulkadir A,Lienkamp S S,et al.3D UNet:learning dense volumetric segmentation from sparse annotation[C]//Proc of International Conference on Medical Image Computing and ComputerAssisted Intervention.Cham:Springer,2016:424-432.

[68]Maturana D,Scherer S.VoxNet:a 3D convolutional neural network for realtime object recognition[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.2015:922-928.

[69]Yan Yan,Mao Yuxing,Li Bo.Second:sparsely embedded convolutional detection[J].Sensors,2018,18(10):3337.

[70]Lang A H,Vora S,Caesar H,et al.PointPillars:fast encoders for object detection from point clouds[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:1269712705.

[71]Liu Zhe,Zhao Xin,Huang Tengteng,et al.Tanet:robust 3D object detection from point clouds with triple attention[C]//Proc of AAAI Conference on Artificial Intelligence.2020:1167711684.

[72]Yang Zetong,Zhou Yin,Chen Zhifeng,et al.3DMAN:3D multiframe attention network for object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:18631872.

[73]Luo Wenjie,Yang Bin,Urtasun R.Fast and furious:real time endtoend 3D detection,tracking and motion forecasting with a single convolutional net[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:3569-3577.

[74]Beltrán J,Guindel C,Moreno F M,et al.BirdNet:a 3D object detection framework from LiDAR information[C]//Proc of the 21st International Conference on Intelligent Transportation Systems.Piscataway,NJ:IEEE Press,2018:3517-3523.

[75]Barrera A,Guindel C,Beltrán J,et al.BirdNet+:endtoend 3D object detection in lidar bird’s eye view[C]//Proc of the 23rd IEEE International Conference on Intelligent Transportation Systems.Piscataway,NJ:IEEE Press,2020:1-6.

[76]Shi Weijing,Rajkumar R.PointGNN:graph neural network for 3D object detection in a point cloud[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:17111719.

[77]Qi Haozhe,Feng Chen,Cao Zhiguo,et al.P2b:pointtobox network for 3D object tracking in point clouds[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:6329-6338.

[78]Zheng Chaoda,Yan Xu,Gao Jiantao,et al.Boxaware feature enhancement for single object tracking on point clouds[C]//Proc of IEEE/CVF International Conference on Computer Vision.2021:1319913208.

[79]Yang Zetong,Sun Yanan,Liu Shu,et al.3D SSD:pointbased 3D single stage object detector[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:1104011048.

[80]Wang Sukai,Sun Yuxiao,Liu Chengju, et al.PointTrackNet:an endtoend network for 3D object detection and tracking from point clouds[J].IEEE Robotics and Automation Letters,2020,5(2):3206-3212.

[81]Shi Shaoshuai,Wang Xiaogang,Li Hongsheng.PointRCNN:3D object proposal generation and detection from point cloud[C]//Proc of the 32nd IEEE/CVF Conf on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:770779

[82]Chen Yilun,Liu Shu,Shen Xiaoyong,et al.Fast Point RCNN[C]//Proc of IEEE/CVF International Conference on Computer Vision.2019:9775-9784.

[83]Liu Zhijian,Tang Haotian,Lin Yujun,et al.Pointvoxel CNN for efficient 3D deep learning[EB/OL].(2019-07-09).https://arxiv.org/abs/1907.03739.

[84]Deng Jiajun,Shi Shaoshuai,Li Peiwei,et al.Voxel RCNN:towards high performance voxelbased 3D object detection[EB/OL].(2020).https://arxiv.org/abs/2012.15712.

[85]Yang Zetong,Sun Yanan,Liu Shu,et al.STD:sparsetodense 3D object detector for point cloud[C]//Proc of IEEE/CVF International Conference on Computer Vision.2019:19511960.

[86]Shi Shaoshuai,Guo Chaoxu,Jiang Li,et al.PVRCNN:pointvoxel feature set abstraction for 3D object detection[C]//Proc of the 33rd IEEE/CVF Conf on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:1052610535.

[87]Chen Xiaozi,Ma Huimin,Wan Ji,et al.Multiview 3D object detection network for autonomous driving[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:19071915.

[88]Ku J,Mozifian M,Lee J,et al.Joint 3D proposal generation and object detection from view aggregation[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2018:1-8.

[89]Qi C R,Liu Wei,Wu Chenxia,et al.Frustum pointnets for 3D object detection from RGBD data[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:918-927.

[90]Wang Zhixin,Jia Kui.Frustum convnet:sliding frustums to aggregate local pointwise features for amodal 3D object detection[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2019:17421749.

[91]Xie Liang,Xiang Chao,Yu Zhengxu,et al.PIRCNN:an efficient multisensor 3D object detector with pointbased attentive contconv fusion module[C]//Proc of AAAI Conference on Artificial Intelligence.2020:1246012467.

[92]Chen Can,Fragonara L Z,Tsourdos A.Roifusion:3D object detection from LiDAR and vision[J].IEEE Access,2021,9:51710-51721.

[93]Li Yangyan,Pirk S,Su Hao,et al.FPNN:field probing neural networks for 3D data[C]//Proc of Annual Conference on Neural Information Processing Systems.Red Hook,NK:Curran Associates Inc.,2016:307-315.

[94]Le T,Duan Ye.Pointgrid:a deep network for 3D shape understanding[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:9204-9214.

[95]Graham B,Engelcke M,Maaten L V D.3D semantic segmentation with submanifold sparse convolutional networks[C]//Proc of the 31st IEEE/CVF Conf on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:9224-9232.

[96]Liang Zhidong,Zhang Ming,Zhang Zehan, et al.RangeRCNN:towards fast and accurate 3D object detection with range image representation[EB/OL].(2020).https://arxiv.org/abs/2009.00206.

[97]Tian Yonglin,Huang Lichao,Yu Hui,et al.Contextaware dynamic feature extraction for 3D object detection in point clouds[J].IEEE Trans on Intelligent Transportation Systems,2021,23(8):1077310785.

[98]Meng Qinghao,Wang Wwenguan,Zhou Tianfei,et al.Weakly supervised 3D object detection from LiDAR point cloud[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:515-531.

[99]Zhang Zaiwei,Girdhar R,Joulin A,et al.Selfsupervised pretraining of 3D features on any pointcloud[C]//Proc of IEEE/CVF International Conference on Computer Vision.2021:1025210263.

[100]Luo Zhipeng,Cai Zhonggang,Zhou Changqing,et al.Unsupervised domain adaptive 3D detection with multilevel consistency[C]//Proc of IEEE/CVF International Conference on Computer Vision.2021:8866-8875.

收稿日期:2022-05-09;修回日期:2022-07-15基金項目:廣西創新驅動發展專項科技重大專項項目(桂科AA17204062);成都市技術創新研發項目(2022YF05-01393SN)

作者簡介:郭毅鋒(1979-),男(通信作者),四川成都人,教授,碩導,博士,主要研究方向為智能控制等(guobujia2000@163.com);吳帝浩(1998-),男,廣東湛江人,碩士研究生,主要研究方向為三維目標檢測;魏青民(1998-),男,河南南陽人,碩士研究生,主要研究方向為環境感知.

主站蜘蛛池模板: 国产亚洲欧美日本一二三本道| 免费人欧美成又黄又爽的视频| 真实国产乱子伦高清| 久久黄色一级片| 97精品久久久大香线焦| 色悠久久久| 欧美日韩另类国产| 色婷婷狠狠干| 亚洲精品无码高潮喷水A| 欧美精品色视频| 综合色天天| 亚洲精品卡2卡3卡4卡5卡区| 91美女视频在线| 四虎成人在线视频| 大陆精大陆国产国语精品1024| 久久精品无码国产一区二区三区| 都市激情亚洲综合久久| 毛片基地视频| 伊人AV天堂| 亚洲国产午夜精华无码福利| 亚洲精品无码抽插日韩| 亚洲女同欧美在线| 超碰色了色| 久久久久久久蜜桃| 熟女成人国产精品视频| 久久综合九九亚洲一区| av性天堂网| 高清不卡毛片| 国产成人精品午夜视频'| 亚洲日韩精品欧美中文字幕| 欧美成a人片在线观看| 欧美成人第一页| 国产精品成人一区二区| 午夜精品一区二区蜜桃| 欧美精品啪啪一区二区三区| 国产午夜一级淫片| 日韩毛片免费视频| 国产a在视频线精品视频下载| 97在线碰| 亚洲香蕉久久| 国国产a国产片免费麻豆| 国模沟沟一区二区三区| 欧洲精品视频在线观看| 香蕉网久久| 中文毛片无遮挡播放免费| 中文字幕无码制服中字| 无码电影在线观看| 国产香蕉在线视频| 狠狠干综合| 在线观看无码av免费不卡网站| 毛片视频网| 99久久免费精品特色大片| 国产精品13页| 97国产一区二区精品久久呦| 乱人伦中文视频在线观看免费| 国产精品天干天干在线观看| 97国产在线视频| 国产精品久久久久久久久久98| 国产免费a级片| 国产日韩欧美黄色片免费观看| 亚洲中文字幕精品| 国产91精品调教在线播放| 亚洲美女视频一区| 国产精品3p视频| 亚洲综合18p| 亚洲日韩精品无码专区97| 99激情网| 国产亚洲欧美在线中文bt天堂| 国产午夜福利片在线观看| 小蝌蚪亚洲精品国产| 亚洲一本大道在线| 又大又硬又爽免费视频| 国产大全韩国亚洲一区二区三区| 熟妇无码人妻| 亚洲天堂免费观看| 国产又粗又猛又爽视频| 亚洲精品麻豆| 1769国产精品视频免费观看| 亚洲成人黄色在线| 亚洲香蕉在线| 午夜国产不卡在线观看视频| 久久人搡人人玩人妻精品一|