999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

集成RGB-D語義分割網絡的室內語義地圖構建

2022-12-31 00:00:00宋鑫張榮芬劉宇紅
計算機應用研究 2022年11期

摘 要:針對傳統視覺SLAM準確度低、實時性差、缺乏語義的問題,提出一種全新的RGB-D語義分割網絡,利用室內場景中受光照等條件影響較小的深度信息來提高分割的準確性,并且設計了輕量級多尺度殘差模塊(MRAM)和空間金字塔池化模塊(ASPP)來輕量化分割網絡、提高分割的精度。首先輸入的圖像序列進入ORB-SLAM2網絡進行關鍵幀篩選,之后關鍵幀送入語義分割網絡得到二維語義標簽,再將二維語義信息映射到三維點云空間,最后使用貝葉斯算法更新三維地圖得到全局一致的三維點云語義地圖。實驗采用NYUv2數據集驗證語義分割網絡性能,采用TUM數據集構建點云語義地圖,結果表明,提出的語義分割網絡性能和速度優于現有的模型,且此語義分割網絡與視覺SLAM相結合可以滿足高精度、實時的稠密三維語義點云地圖構建要求。

關鍵詞:RGB-D語義分割;ORB-SLAM2;VSLAM;語義地圖構建

中圖分類號:TP391 文獻標志碼:A

文章編號:1001-3695(2022)11-046-3481-06

doi:10.19734/j.issn.1001-3695.2022.04.0178

Indoor semantic map construction integrated with RGB-D semantic segmentation network

Song Xin,Zhang Rongfen,Liu Yuhong

(College of Big Data amp; Information Engineering,Guizhou University,Guiyang 550025,China)

Abstract:In order to solve the problems that traditional visual SLAM networks have low accuracy and poor speed and lack semantic information,this paper proposed a novel RGB-D semantic segmentation network.The network used the depth information which less affected by the light in indoor scenes to improve the accuracy of segmentation,and meanwhile designed the lightweight multi-scale residual module(MRAM) and atrous spatial pyramid pooling(ASPP) module to lightweight the segmentation network and improve the segmentation accuracy.Firstly,the input image sequences entered the ORB-SLAM2 network to obtain keyframes.Then,the keyframes went into the proposed semantic segmentation network to get the 2D semantic label,and then it mapped the 2D semantic information to 3D pointcloud space.Finally,the method used the Bayesian algorithm to update the 3D map to obtain the globally consistent 3D pointcloud semantic map.The experiments adopted NYUv2 dataset to verify the performance of semantic segmentation network,and adopted TUM dataset construct pointcloud semantic map.The results show that the performance and speed of the semantic segmentation network in this paper are better than the existing models,and the combination of semantic segmentation network with visual SLAM can meet the requirements of constructing 3D dense semantic pointcloud map accurately and quickly.

Key words:RGB-D semantic segmentation;ORB-SLAM2;VSLAM;semantic map construction

基金項目:貴州省科學技術基金資助項目(黔科合基礎-ZK[2021]重點001)

作者簡介:宋鑫(1996-),女(苗族),貴州黔南州人,碩士研究生,主要研究方向為深度學習、目標檢測、視覺SLAM;張榮芬(1977-),女(回族)(通信作者),貴州貴陽人,教授,博士,主要研究方向為機器視覺及智能算法、語義視覺SLAM及3D場景理解(rfzhang@gzu.edu.cn);劉宇紅(1963-),男,貴州貴陽人,教授,碩士,主要研究方向為計算機視覺、人工智能及其應用、大數據與智能物聯.

0 引言

視覺SLAM[1(visual simultaneous localization and mapping,VSLAM)指的是運動設備,如移動機器人,通過搭建在自身的視覺傳感器在陌生環境中估計自身運動路徑,并且實現對周圍場景地圖的構建的過程。其中蘊涵豐富多尺度信息的三維語義地圖是VSLAM領域主要的研究方向之一,可以輔助自主機器人完成定位、尋物以及導航避障等任務。

傳統的視覺SLAM側重于使用低級的幾何特征,如點、線、面,這些特征無法為地圖構建提供語義信息。語義分割可以給環境圖像的每一個像素賦予不同的類別標簽,提供周圍環境的語義信息,幫助移動機器人在內容和幾何層面上理解場景,完成語義分割任務是生成語義地圖的基礎。近年來,基于深度學習的圖像語義分割方法得到了飛速的發展,其在速度和準確率上都得到了很大的提升,為與VSLAM的結合奠定了有力基礎。目前大部分語義分割網絡都是encoder-decoder結構,如FCN[2、SegNet[3、U-Net[4、DeepLab系列[5~7等。encoder通過池化等下采樣操作壓縮圖像并提取網絡特征,之后經過decoder還原原始圖像的分辨率,encoder會導致分辨率下降,從而丟失局部信息,過程中如果通過金字塔結構融合多尺度信息,可以提高分割精度,比如DeepLabV3+[7就是將encoder-decoder與金字塔結構融合起來,取得了很好的分割效果。

對于室內場景語義分割,之前的深度學習方法都是通過處理場景的RGB圖像來實現端到端的語義分割。但是由于場景復雜、光照不均勻、顏色和紋理高度重復等原因,基于RGB圖像的室內場景語義分割存在邊緣誤分類、魯棒性低和準確率低等問題。為此,人們想到了利用室內場景中受光照等條件影響較小的深度信息來提高分割效果。同時,深度信息還可以表示物體之間的幾何關系,它與RGB彩色圖像是互補的,對語義分割有一定的輔助作用,例如,Couprie等人[8發現,添加深度信息可以提高相似對象的分割精度。一些早期的方法直接將深度圖像與RGB通道結合[9~11,并在輸入的RGB-D四通道數據上進行訓練,但直接使用深度信息作為彩色圖像的第四通道無法很好地利用RGB圖像和深度圖像之間的互補性。后來的研究用兩個流進行訓練網絡,一個流用于訓練RGB彩色圖像,一個流用于訓練深度圖像,并在中間層將兩者融合,取得了不錯的效果。例如Hazirbas等人[12提出了FuseNet,利用兩個分支同時從RGB和深度圖像中提取特征,隨著網絡的深入將深度特征融合到RGB特征圖中。Hu等人[13提出ACNet,將從RGB和深度圖像中提取的特征融合在第三個編碼器碼流上,并增加了注意力模塊。Chen等人[14提出了空間信息引導卷積(S-conv),它有效地將RGB特征與3D空間信息集成在一起。但是上述研究都伴隨著特征信息的丟失,且計算量大,無法在準確性和輕量化上取得均衡。

將高層次的語義信息與SLAM融合構建SLAM語義地圖,比較早的研究是2015年提出的將深度學習與VSLAM相結合的方法[15,但是網絡使用最簡單的全卷積網絡(fully convolutional neural network,FCN)來完成場景語義的分割,因此語義地圖構建的效果并不理想。隨后Runz等人[16提出的MaskFusion網絡可以檢測、跟蹤動態物體,并利用實例級語義分割網絡創建語義掩碼,將語義標簽與地圖相融合構建語義地圖。Bescos等人[17提出了DynaSLAM網絡,該網絡基于ORB-SLAM2系統,結合Mask-RCNN[18語義分割網絡實現了動態物體的檢測剔除和背景修補。Yu等人[19提出了DS-SLAM網絡,DS-SLAM將SegNet放在ORB-SLAM2系統的一個獨立線程中,剔除動態物體對結果的影響,并構建了稠密的語義八叉樹地圖,但是該網絡語義分割部分參數冗余,實時性較差。

針對現有視覺SLAM系統存在的問題,即視覺里程計篩選出來的關鍵幀不包含多尺度語義信息,導致地圖信息單一,以及地圖構建的時候精度較低、實時性較差的問題,本文提出了一個融合RGB信息和深度信息的語義分割模型,然后將現有的經典VSLAM系統ORB-SLAM2與RGB-D語義分割網絡相結合,構建精確的三維語義地圖。其創新點是設計了一個RGB-D語義分割網絡,在語義分割網絡中設計了輕量級多尺度殘差注意力模塊MRAM(multi-scale residual attention module),可以減少參數量、提高分割準確率,同時空間金字塔池化模塊ASPP(atrous spatial pyramid pooling)使用可分離卷積進一步減少參數量。在語義信息和視覺SLAM結合方面,在ORB-SLAM2的基礎上結合RGB-D網絡語義分割的結果,擴展提出了一個二維語義標簽信息和三維點云數據融合的系統,可以構建密集的3D語義點云地圖。

1 語義SLAM系統框架

1.1 系統總框架

ORB-SLAM2由跟蹤、局部地圖構建、回環檢測三個線程構成,當移動機器人搭載視覺傳感器于陌生環境中運動,同時估計自身位姿、創建帶有語義信息的點云地圖時,跟蹤線程完成對輸入視頻流的ORB特征提取匹配及關鍵幀的篩選;局部建圖線程把關鍵幀深度圖的點轉到三維坐標中,構建三維局部地圖;回環檢測線程可以校正移動機器人的漂移誤差,當檢測到閉環時,系統會開辟第四線程進行全局優化。

系統的總框架ORB_SLAM2_SMAPPING如圖1所示。該框架在ORB-SLAM2的基礎上加入了兩個線程,分別是圖像語義分割線程和稠密點云建圖線程,利用以上線程完成對周圍環境稠密點云地圖的構建。首先由深度攝像頭采集周圍環境的視頻流,將視頻流送入跟蹤模塊進行提取特征點、初始化姿態估計、姿態優化、篩選關鍵幀操作。之后將篩選出來的關鍵幀送進語義分割模塊,利用自己設計的語義分割網絡提取圖像中的多層次語義信息,得到語義分割標簽掩膜圖像,將關鍵幀與語義分割掩膜圖像結合,在關鍵幀中標記出語義信息。最后,在稠密點云建圖模塊,將關鍵幀的深度圖、位姿信息生成的三維點云坐標和語義分割模塊生成的二維語義信息進行融合,提取出關鍵幀的點云,再將每一幀關鍵幀生成的點云進行拼接,得到最終帶有語義信息的3D稠密點云地圖。

1.2 篩選關鍵幀和位姿估計

跟蹤模塊主要完成關鍵幀的篩選和幀間位姿估計,篩選關鍵幀是為了輕量化系統,可以降低計算資源、減少信息冗余。

如圖2所示,模塊對輸入圖像序列的RGB圖像和對應的深度圖提取ORB特征點和計算描述子,根據上一幀圖像進行特征點匹配,之后使用RANSAC(random sample consensus)算法剔除誤匹配特征點選取準確的匹配,避免在后續幀間位姿估計時誤匹配特征點對其造成的影響,之后進行粗略的幀間位姿估計,根據當前幀的位姿判斷是否篩選為關鍵幀,若當前幀和上一關鍵幀之間相對運動距離大于閾值則舍棄該幀。若當前幀和上一關鍵幀匹配的特征點數小于閾值則舍棄該幀,通過這些條件最后篩選出關鍵幀。

1.3 二維語義信息與三維點云融合

通過關鍵幀的深度圖和對應的幀間位姿可以求解出該關鍵幀中每個像素對應的世界坐標,即獲得三維點云空間坐標。之后將關鍵幀送入自己設計的語義分割網絡,在這種像素級的深度學習網絡中,可以為每一個像素生成對應的語義標簽,得到語義分割標簽掩膜圖,結合該關鍵幀與語義分割掩膜圖,可以在關鍵幀中標記出語義信息,得到關鍵幀的二維語義標簽圖像。

隨著移動機器人搭載的深度相機的運動,SLAM系統不斷地采集周圍環境的信息,同時進行語義分割、構建周圍環境的三維點云語義地圖。三維點云數據中的每個點包含了坐標信息(X軸、Y軸、Z軸)和顏色信息,顏色信息由RGB圖像投影得到,坐標信息由圖像深度得到。方法是將關鍵幀語義分割得到的不同顏色的語義標簽融合到三維點云地圖中,通過與空間坐標對齊進行單幀點云提取,實現二維語義標簽圖像到三維點云空間的映射,此時點云點便匹配到了對應的語義標簽信息,即構建了三維點云語義地圖。

1.4 三維點云地圖優化

在移動機器人搭載相機運動構建周圍環境的三維點云語義地圖這個過程中,地圖中包含前面關鍵幀已經分割存在的物體以及當前關鍵幀新分割的物體,也就是說世界坐標系下的一個三維點可能出現在不同幀的語義分割標簽中,這使得二維語義信息與三維點云融合時會不一致,導致構建的語義點云地圖不準確。

針對上述問題,本文使用貝葉斯算法,通過前端提供的全局一致性三維點云地圖可以獲取多個幀之間同一個世界坐標點的對應關系,之后融合多個關鍵幀的二維語義標簽,并將其與三維點云融合,可以得到全局一致性的三維語義點云地圖。

設n+1個關鍵幀{X0,X1,…,Xn}可以觀測到同一世界坐標系下的三維點云,lk表示第k個語義分割類別標簽,運用貝葉斯算法關聯多個幀的語義標簽,得到一個三維點云所屬語義標簽的概率分布為

其中:zn=P(Xn|Xn-10)。由馬爾可夫假設有

其中:P(lk)表示第k個語義分割類別標簽的概率,它是時不變的,所以三維點云語義標簽的更新公式為

系統通過將同一世界坐標點與觀測到該點的多個關鍵幀對應的語義標簽進行融合,并將融合結果轉移到三維點云中形成局部語義地圖,之后拼接多個局部語義地圖,得到全局一致性三維語義點云地圖。

2 語義分割

2.1 語義分割模型

對比當前主流的語義分割模型對小物體分割精度不高、實時性較差的特點,該算法采用經典的編碼器—解碼器結構搭建了一種高效的室內場景RGB-D語義分割網絡模型RGBD_Net,該網絡結合圖像的RGB和深度信息并設計了多尺度殘差注意力模塊MRAM,同時改進了金字塔池化模塊ASPP,通過輕量化的MRAM和ASPP可以在加強特征提取的同時保留不同尺度的特征信息。

圖3所示是提出的RGBD_Net結構。將骨干網絡ResNet-34作為語義分割網絡的編碼器,并移除了該網絡的全連接層,用于提取圖像特征得到深層提煉的語義信息。編碼器網絡中有兩個流分別借助四個MRAM模塊從原始圖像中提取RGB和深度特征信息,在編碼器網絡之后加入改進的ASPP金字塔池化模塊,可以利用不同空洞率對深層語義特征圖進行多尺度采樣,之后將不同尺度特征進行融合;最后通過解碼器網絡的每個模塊對ASPP輸出的融合特征進行兩倍上采樣,并與前半層的淺層特征通過跳層連接進行特征融合,使其充分地利用各個階段的特征,進行目標位置和邊緣細節的補充,最終通過上采樣逐步恢復為原始分辨率的圖像并帶有語義標簽,實現場景圖像語義分割。

2.2 改進的多尺度殘差注意力機制

注意力機制通常應用在圖像領域,一般分為通道注意力[20和空間注意力21。通道注意力的不同通道會根據不同的特征語義計算獲取權重,而對其進行加強或壓制,而空間注意力一般通過平均池化或最大池化操作聚焦于網絡中最重要的部分,生成有效的特征圖。但是由于池化操作會造成參數的大量損失,導致不能充分地反映圖像特征信息。受此啟發,該算法選擇結合多尺度特征和殘差結構,提出了一種多尺度殘差注意力機制(multi-scale residual attention module,MRAM),自適應地將淺層特征和深層特征相結合,淺層特征可以得到邊緣信息和位置信息,深層特征用于過濾背景信息,提高語義分割的效果。多尺度殘差注意力模塊如圖4所示。

2.3 改進的金字塔池化模塊

空間金字塔池化模塊以并聯的方式將不同擴張率的卷積核組合在一起,通過改變擴張率可以獲得大小不一的感受野,從而得到不同尺度的特征信息。空洞卷積算法如式(4)所示。

其中:x、y分別表示輸入、輸出特征圖;w為卷積核;k為卷積核大小;r代表擴張率,擴張率越大感受野也就越大,越有利于分割大尺寸物體。

在室內語義建圖的過程中,需要充分考慮到不同尺度的物體,通過在編碼器與解碼器網絡的中間加入金字塔池化模塊可以將深層的語義信息與淺層的邊緣位置信息相結合,從而得到不同尺度的特征信息。

與原始的金字塔池化模塊相比,該模塊替換了三個不同比例的空洞卷積,加入了最大池化模塊以及將3×3的常規卷積分解為1×3和3×1的卷積,這種非對稱的卷積可減少33%的參數,最后將得到的多尺度特征進行拼接融合。改進的金字塔池化模塊如圖5所示。

3 實驗與結果分析

該框架實驗環境處理器為12th Gen Intel Core i7-12700KF,內存32 GB,顯卡為NVIDIA GeForce RTX 3090 ,實驗所用操作系統是Ubuntu16.04,配置了CUDA11.1,cuDNN8.0.5,PCL1.8,OpenCV3.4.5,Eigen3.3。

3.1 圖像語義分割實驗

語義分割模型基于PyTorch深度學習框架、采用梯度下降法進行訓練,初始學習率設置為0.001,優化器選擇Adam并動態調整學習率,損失函數采用交叉熵函數。

為驗證RGBD_Net語義分割模型的精確度,選擇像素精度(PA)、平均像素精度(MPA)、平均交并比(MIoU)作為評價指標。PA是圖像中正確分類的像素點與所有像素點的比,表達為

其中:k表示類別數量;k+1表示包含背景的總類別;pii表示預測為i類實際也為i類的像素數量;pij表示預測為j類但是實際為i類的像素數量。

MPA是正確分類的像素點和每一類中所有像素點之間的比的平均值,表達式為

MIoU是真實值和預測值的交集和并集之比的平均值,MIoU的值越大,則語義分割的精確度越高。MIoU表達式為

實驗1 消融實驗

為了驗證深度線程、注意力模塊、改進的金字塔池化模塊對分割結果的影響,建立了A、B、C、D四個模型在NYUv2數據集上進行消融實驗。結果如表1所示。

如表1所示,在模型A中只使用ResNet-34作為骨干網絡,模型B在模型A的基礎上添加了深度信息線程,模型C在模型B的基礎上添加了改進的注意力模塊MRAM,模型D在模型B的基礎上添加了改進的金字塔池化模塊。從模型B的結果來看,在編碼器加入深度信息線程可以顯著地提高語義分割的精度;從模型C和模型D可以看出,加入MRAM和ASPP模塊可以有效提高網絡的各項指標。這是由于深度信息受光照等條件影響較小,加入后有助于輔助提高分割精度,且注意力模塊和金字塔池化模塊將淺層特征和深層特征相結合,可以保留不同尺度的信息,加強分割的效果。

實驗2 橫向對比實驗

進一步將RGBD_Net語義分割模型分別在SUNRGBD和NYUv2數據集上與現有的幾個主流算法進行了比較,得到各模型性能對比結果如表2所示,同時給出了在NYUv2數據集上的參數量對比結果如表3所示,以及在NYUv2數據集上的分割結果對比如圖6所示。

表2、3結果表明,由于RGBD_Net模型結合大尺度和小尺度特征,且融合了圖像RGB信息和深度信息,保留了更多的細節特征,并且RGBD_Net模型只需要少量的額外計算,所以在分割精確度和輕量化方面的綜合性能優于現有的模型。

由圖6可知,RGBD_Net語義分割模型在大致輪廓上與原始圖像標簽相同,且在細節的處理上要比ESANet模型表現得更好。對比ESANet模型可以看出,RGBD_Net模型在第一行中的衣架、第二行中的電視機、第三行中的地板面積和床腳,保留了大尺度物體的輪廓細節信息,同時也保留了小尺度物體的語義信息。

兩組實驗結果表明,RGBD_Net語義分割模型新增的深度線程、注意力模塊、改進的金字塔模塊可以顯著提高分割的精度,且此模型在不同的場景下有更好的魯棒性,對不同尺度物體分割的效果也更好,在輕量化方面也能取得不錯的效果。

3.2 室內環境下三維稠密點云建圖結果分析

為評估系統綜合能力,采用TUM RGB-D數據集構建三維稠密語義地圖對系統進行驗證。TUM RGB-D數據集采用Microsoft Kinect深度攝像頭在室內不同場景下拍攝,提供了39個序列,圖像分辨率為640×480。ORB_SLAM2_ SMAPPING系統框架使用fr2_xyz、fr3_long_office_household兩個序列進行三維點云語義地圖構建,fr2_xyz屬于室內小場景數據集,是相機在室內辦公桌前沿著x、y、z軸緩慢運動拍攝得到,運動范圍小;fr3_long_office_household屬于室內大場景數據集,是相機以辦公桌為中心繞其一圈運動,場景復雜且運動范圍大。

實驗采用ORB_SLAM2_SMAPPING系統框架,利用RGBD_Net語義分割網絡結合ORB-SLAM2系統在TUM數據集上訓練,實現3D點云語義建圖,在fr2_xyz數據集上的結果如圖7所示,在fr3_long_office_household數據集上的結果如圖8所示。其中,圖(a)為TUM數據集序列圖像,圖(b)為數據集場景的關鍵幀軌跡和稀疏點云地圖,圖(c)為場景的稠密點云地圖,圖(d)為帶有語義信息的稠密點云地圖。

由圖可知,在fr2_xyz和fr3_long_office_household數據集構建的點云語義地圖上分割出了電腦、鍵盤、鼠標和水杯。其中圖7(d)和圖8(c)左圖桌面上的小尺度物體鼠標和大尺度物體電腦、鍵盤均被準確打上語義標簽,電腦打上了綠色的語義標簽、鍵盤打上了黃色的語義標簽、鼠標打上粉色的語義標簽、水杯打上藍色的語義標簽(見電子版)。圖8(d)右圖桌面上右前方的小尺度物體水杯也被準確地打上了語義標簽,說明ORB_SLAM2_SMAPPING系統框架構建室內三維點云語義地圖的方法在大尺度目標和小尺度目標的準確率上均取得了不錯的效果。

進一步將ORB_SLAM2_SMAPPING框架構建點云語義地圖方法與兩個文獻的方法進行對比,文獻[24]使用改進的DeepLab算法作為語義分割模塊,關鍵幀的深度圖作為門控單元控制空洞卷積核的選擇,之后將深度圖和彩色圖反投影到三維空間,獲取全局一致性地圖利用的是相鄰三維點顏色和距離得分的相似性。文獻[25]使用改進的DeepLab V3+算法,精簡化網絡模型,采用貝葉斯更新方法將語義分割模塊獲得的二維語義標簽增量融合進三維點云地圖,實現二維語義到三維空間映射,得到點云語義地圖。ORB_SLAM2_ SMAPPING框架將彩色圖和深度圖作為兩個線程輸入語義分割模型,利用關鍵幀語義分割的結果、對應關鍵幀的深度圖和幀間位姿將二維語義標簽圖像投影到三維點云空間。由于語義分割網絡沒有考慮幀間關系,不同幀的語義分割標簽可能會混疊,于是使用貝葉斯算法優化更新地圖,得到全局一致性的三維語義點云地圖,結果如表4所示。由結果可知,由于文獻[24,25]的語義分割算法沒有考慮深度信息,所以ORB_SLAM2_SMAPPING的方法在語義分割網絡的精度上有所提升;在稠密點云語義地圖構建部分,由于RGBD_Net語義分割網絡參數量較少,關鍵幀篩選方案也舍棄了部分的冗余幀,所以提出的方法在實時性上也表現得更好。

該框架獲取的點云語義地圖在家用機器人尋物導航、戶外自動駕駛規劃行車路線等方面應用廣泛。VSLAM語義點云地圖的構建可以分辨出室內的電腦、水杯、手機等物品,也可以分辨出戶外馬路上的車道、汽車、樹木等對象。在室內盲人尋物過程中,移動機器人得到尋物指令時可以自主規劃路線,對盲人進行導航。自動駕駛過程中,語義信息則幫助車輛在行車過程中對路面交通情況、行車規則進行理解。在典型的點云地圖中,無人車不能識別分散的點云是什么,而點云語義地圖則能很好地表示出無人車看到的物體、到達的地點,幫助規劃行車路線、導航避障。

4 結束語

為了提高視覺SLAM構建語義地圖的準確性,首先提出了一種基于多尺度殘差注意力模塊和改進金字塔池化模塊的RGB-D室內場景圖像語義分割網絡RGBD_Net,使用骨干網絡ResNet-34作為RGB圖像和深度圖像的編碼器,并在其中設計了多尺度殘差注意力模塊,在編碼器網絡之后加入改進的金字塔池化模塊,通過注意力模塊和金字塔池化模塊在加強特征提取的同時保留不同尺度的特征信息,并在一定程度上減少網絡的參數量,實現網絡的輕量化。解碼器網絡的每個模塊與前半層的淺層特征通過跳層連接進一步優化網絡分割結果,以獲得更準確的特征信息。之后將RGBD_Net語義分割網絡和稠密點云建圖作為兩個線程與ORB-SLAM2網絡結合起來得到ORB_SLAM2_SMAPPING語義建圖總框架,該框架通過自主設計的關鍵幀篩選方法篩選出關鍵幀,將其送至語義分割網絡中得到二維語義分割標簽,再將二維語義信息映射到三維點云空間,實現二維語義與三維點云的融合,生成稠密點云語義地圖。其間為了防止不同幀語義分割標簽重疊導致語義地圖不一致,使用貝葉斯算法得到全局一致的三維語義點云地圖。實驗結果表明,提出的RGBD_Net語義分割網絡在SUNRGBD和NYUv2數據集上的性能和速度優于現有的模型,且其應用于VSLAM可以滿足高精度、實時的三維稠密語義點云地圖構建要求。

本文采用攝像頭作為傳感器,在室內環境下對場景三維語義點云地圖構建進行了研究。下一步的工作是優化語義地圖構建系統,增強移動機器人對周圍環境的感知能力,實現在嵌入式設備上的技術落地,使搭載著視覺傳感器的移動機器人在不同應用場景下完成指定的任務,比如尋物避障、導航、路徑規劃等。

參考文獻:

[1]張晨陽,黃騰,吳壯壯.基于K-means聚類與深度學習的RGB-D SLAM算法[J].計算機工程,2022,48(1):236-244.(Zhang Chen-yang,Huang Teng,Wu Zhuangzhuang.RGB-D SLAM algorithm based on K-means clustering and deep learning[J].Computer Enginee-ring,2022,48(1):236-244.)

[2]Long J,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2015,39(4):640-651.

[3]Badrinarayanan V,Kendall A,Cipolla R.SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495.

[4]Ronneberger O,Fischer P,Brox T.U-Net:convolutional networks for biomedical image segmentation[C]//Proc of International Conference on Medical Image Computing and Computer-Assisted Intervention.Cham:Springer,2015:234-241.

[5]Chen L C,Papandreou G,Kokkinos I,et al.Semantic image segmentation with deep convolutional nets and fully connected CRFs[J].Computer Science,2014(4):357-361.

[6]Chen L C,Papandreou G,Kokkinos I,et al.DeepLab:semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,40(4):834-848.

[7]Chen L C,Zhu Yukun,Papandreou G,et al.Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:833-851.

[8]Couprie C,Farabet C,Najman L,et al.Indoor semantic segmentation using depth information[EB/OL].(2013)[2013-03-14].https://arxiv.org/pdf/1301.3572.pdf.

[9]He Yang,Chiu W C,Keuper M,et al.STD2P:RGBD semantic segmentation using spatio-temporal data-driven pooling[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:7158-7167.

[10]Eigen D,Fergus R.Predicting depth,surface normals and semantic labels with a common multi-scale convolutional architecture[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:2650-2658.

[11]Jiang Jindong,Zheng Lunan,Luo Fei,et al.RedNet:residual encoder-decoder network for indoor RGB-D semantic segmentation[EB/OL].(2018)[2018-08-06].https://arxiv.org/pdf/1806.01054.pdf.

[12]Hazirbas C,Ma L,Domokos C,et al.FuseNet:incorporating depth into semantic segmentation via fusion-based CNN architecture[C]//Proc of Asian Conference on Computer Vision.Cham:Springer,2016:213-228.

[13]Hu Xinxin,Yang Kailun,Fei Lei,et al.ACNet:attention based network to exploit complementary features for RGBD semantic segmentation[C]//Proc of IEEE International Conference on Image Proces-sing.Piscataway,NJ:IEEE Press,2019:1440-1444.

[14]Chen L Z,Lin Zheng,Wang Ziqin,et al.Spatial information guided convolution for real-time RGBD semantic segmentation[J].IEEE Trans on Image Processing,2021,30(2):2313-2324.

[15]Vineet V,Miksik O,Lidegaard M,et al.Incremental dense semantic stereo fusion for large-scale semantic scene reconstruction[C]//Proc of IEEE International Conference on Robotics and Automation.Pisca-taway,NJ:IEEE Press,2015:75-82.

[16]Runz M,Buffier M,Agapito L.MaskFusion:real-time recognition,tracking and reconstruction of multiple moving objects[C]//Proc of IEEE International Symposium on Mixed and Augmented Reality.Piscataway,NJ:IEEE Press,2018:10-20.

[17]Bescos B,Facil J M,Civera J,et al.DynaSLAM:tracking,mapping,and inpainting in dynamic scenes[J].IEEE Robotics and Automation Letters,2018,3(4):4076-4083.

[18]Johnson J W.Adapting Mask-RCNN for automatic nucleus segmentation[EB/OL].(2018)[2018-05-01].https://arxiv.org/pdf/1805.00500.pdf.

[19]Yu Chao,Liu Zuxin,Liu Xinjun,et al.DS-SLAM:a semantic visual SLAM towards Dynamic Environments[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2018:1168-1174.

[20]Hu Jie,Shen Li,Sun Gang.Squeeze-and-excitation networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2018:7132-7141.

[21]Zhu Xizhou,Cheng Dazhi,Zhang Zheng,et al.An empirical study of spatial attention mechanisms in deep networks[EB/OL].(2019)[2019-04-11].https://arxiv.org/pdf/1904.05873.pdf.

[22]Zhou Wujie,Yuan Jianzhong,Lei Jingsheng,et al.TSNet:three-stream self-attention network for RGB-D indoor semantic segmentation[J].IEEE Intelligent Systems,2021,36(2):73-78.

[23]Seichter D,Khler M,Lewandowski B,et al.Efficient RGB-D semantic segmentation for indoor scene analysis[EB/OL].(2011)[2021-04-07].https://arxiv.org/pdf/2011.06961.pdf.

[24]胡美玉,張云洲,秦操,等.基于深度卷積神經網絡的語義地圖構建[J].機器人,2019,41(4):452-463.(Hu Meiyu,Zhang Yunzhou,Qin Cao,et al.Semantic map construction based on deep convolutional neural network[J].Robot,2019,41(4):452-463.)

[25]屈航,嵇啟春,段中興.改進DeepLab V3+網絡在視覺SLAM三維地圖構建應用[J/OL].小型微型計算機系統,2022,43(10):2174-2178.(Qu Hang,Ji Qichun,Duan Zhongxing.Improved DeepLab V3+network application for visual SLAM 3D map construction[J/OL].Journal of Chinese Computer Systems,2022,43(10):2174-2178.)

主站蜘蛛池模板: jizz在线观看| 91九色国产在线| 精品无码一区二区三区在线视频| 特级毛片免费视频| 国产一区二区色淫影院| 国产精品99r8在线观看| 免费观看国产小粉嫩喷水| 国产精品视频a| 欧美激情二区三区| 免费国产高清精品一区在线| 亚洲手机在线| 找国产毛片看| 国产aaaaa一级毛片| 国产成人精品男人的天堂| 国产一在线| 蜜臀AV在线播放| 国产一区成人| 三上悠亚在线精品二区| 伊人五月丁香综合AⅤ| 亚洲成年人片| 国产丰满大乳无码免费播放| 亚洲精品中文字幕无乱码| 国产一级毛片yw| 国产爽妇精品| 99在线观看视频免费| 国产综合色在线视频播放线视| 丁香五月激情图片| 亚洲av片在线免费观看| 欧美日韩国产精品综合| 亚洲va视频| 久草性视频| 成人午夜久久| 首页亚洲国产丝袜长腿综合| 97超碰精品成人国产| 日韩免费成人| 韩国福利一区| 欧美一级特黄aaaaaa在线看片| 99热6这里只有精品| 国产精品思思热在线| 亚洲中文在线看视频一区| 欧美精品高清| 亚洲成人高清无码| 欧美日本在线观看| 国产原创演绎剧情有字幕的| 999国产精品永久免费视频精品久久 | 国产美女91呻吟求| 毛片基地视频| 日韩二区三区无| 欧美人与性动交a欧美精品| 日韩精品成人网页视频在线| 在线视频亚洲欧美| 亚洲精品第1页| 一级一毛片a级毛片| 中国一级特黄大片在线观看| 最新日韩AV网址在线观看| 色视频久久| 国产精品网拍在线| 精品自窥自偷在线看| 亚洲最猛黑人xxxx黑人猛交| 成年A级毛片| 伊人色综合久久天天| 欧美另类视频一区二区三区| 欧美日韩一区二区三区在线视频| 国产人人射| 亚洲最大情网站在线观看| 精品99在线观看| 中文字幕不卡免费高清视频| 美女无遮挡拍拍拍免费视频| 亚洲an第二区国产精品| 波多野结衣一二三| 青草精品视频| 久久免费成人| 欧美一区二区三区不卡免费| 日韩午夜片| 亚洲欧美自拍中文| 午夜性刺激在线观看免费| 国产香蕉97碰碰视频VA碰碰看 | 国产精品无码制服丝袜| 国产免费好大好硬视频| 日韩区欧美国产区在线观看| 免费又爽又刺激高潮网址| 国产真实自在自线免费精品|