999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的語義地圖構建

2023-08-21 10:51:07劉修頎徐宏宇
現代信息科技 2023年12期

劉修頎 徐宏宇

摘? 要:同步定位與建圖(SLAM)是移動機器人在復雜環境下進行環境感知的重要手段。針對傳統的SLAM算法缺乏語義信息的問題,文章使用基于深度學習的語義分割算法,利用輕量化的DeepLabV3+模型在動態環境下進行實時語義分割,得到二維語義標簽。通過VINS-Mono算法推測相機位姿,同時結合深度數據、語義信息生成三維語義點云,并將點云轉化成八叉樹地圖進行表示。實驗結果表明,文章提出的算法可以滿足實時情況下構建語義地圖的要求。

關鍵詞:SLAM;VINS-Mono;語義分割;語義地圖

中圖分類號:TP242? 文獻標識碼:A? 文章編號:2096-4706(2023)12-0085-05

Semantic Map Construction Based on Deep Learning

LIU Xiuqi, XU Hongyu

(School of Electronic Information Engineering, Shenyang Aerospace University, Shenyang? 110136, China)

Abstract: Simultaneous Localization and Mapping (SLAM) is an important means for mobile robots to perceive the environment in complex environments. Aiming at the problem that traditional SLAM algorithm lacks semantic information, this paper uses a semantic segmentation algorithm based on deep learning, and uses a lightweight DeepLabV3+ model to perform real-time semantic segmentation in a dynamic environment to obtain two-dimensional semantic tags. The camera pose is inferred through the VINS-Mono algorithm, and the 3D semantic point cloud is generated by combining the depth data and semantic information. The point cloud is converted into an octree map for representation. The experimental results show that the algorithm proposed in this paper can meet the requirements of building semantic maps in real time.

Keywords: SLAM; VINS-Mono; semantic segmentation; semantic map

0? 引? 言

在現代移動機器人研究中,SLAM(Simultaneous Localization And Mapping)指移動機器人通過搭載多種傳感器(如攝像頭、慣性測量單元IMU、激光雷達等)在環境中進行自身定位并對周邊環境進行建圖的技術。視覺SLAM框架以相機(單目、雙目、RGBD等)為主要外部傳感器,同時搭配其他傳感器,如IMU等進行信息融合,以達到較好的效果。伴隨移動機器人技術的不斷發展,對機器人感知環境能力的要求也不斷提高,但傳統SLAM算法只包括點、線等幾何信息,在機器人完成復雜任務時,無法提供對周邊環境更高層次的理解。因此在SLAM中為機器人增加語義理解能力是提高機器人智能化水平的重要步驟。

隨著機器學習的不斷發展,人們開始使用機器學習來解決語義信息的問題。語義分割是指把圖像中各個像素所屬類別標注在圖像上。在早期的研究中,人們通過全卷積神經網絡(Fully Convolutional Networks, FCN)[1]實現了語義分割任務,但FCN缺少對像素與像素之間關系的考慮,效果和實時性較差;隨后人們又提出了編碼器-解碼器結構(encoder-decoder),其中encoder主要負責特征提取,decoder負責將圖像還原回原始分辨率。其中經典的語義分割模型U-Net[2]利用編解碼結構實現了對醫學細胞的分割。在SLAM算法中引入語義分割時,由于SLAM經常部署在移動端,并且在實時性上也有一定的要求,所以對使用的語義分割模型要保證計算速度并且限制模型的大小。所以本文使用MobileNetV2對DeepLabV3+模型進行輕量化,限制了模型的大小,又保證了語義分割的精度。

近年來,SLAM領域涌現出了許多優秀的算法,有許多研究將語義信息融入到了傳統SLAM算法中。2015年有學者將全卷積網絡(FCN)與ORB-SLAM2結合起來[3],實現語義建圖。隨后Yu等人提出了DS-SLAM算法進行語義地圖構建[4],在語義分割部分采用了SegNet,減少了動態物體對位姿的影響,提升了動態環境中的魯棒性,但由于SegNet部分參數的冗余,導致實時性不足。

本文在經典SLAM算法VINS-Mono的基礎上,結合語義分割算法DeepLabV3+,并使用輕量級網絡MobileNetV2作為DeepLabV3+的主干特征提取網絡,提升了語義分割的實時性。最終將語義信息和位姿信息進行融合,實現了語義地圖的構建。

1? 語義SLAM框架

語義SLAM框架如圖1所示,其中傳感器負責采集彩色RGB圖、深度圖以及IMU數據;然后將RGB圖、IMU數據送入到視覺-慣性SLAM模塊中,得到不斷更新的相機位姿;同時將RGB圖輸入到語義分割模型中,得到二維語義標簽,并從該圖像對應的深度圖獲取深度數據,生成語義點云。結合相機位姿,將點云地圖轉換成表達方式更加靈活、便于實時更新的八叉樹地圖,利于后期導航和避障的使用。

1.1? 視覺-慣性SLAM算法

現代的視覺SLAM算法主要包括傳感器信息獲取、視覺里程計、后端優化、回環檢測、建圖五個部分。視覺里程計接收傳感器數據,要完成的任務包括特征提取,初始化,特征跟蹤,幀間運動估計,確定位姿信息,構建局部地圖等,又被稱為前端。后端接收前端視覺里程計的位姿信息,并且綜合回環檢測的結果,進行軌跡優化,得到全局一致的軌跡和地圖。回環檢測主要依靠圖像間的相似性來判斷是否出現回環,從而減少累計誤差。最后描繪出運動軌跡并按照任務要求進行建圖[5]。視覺-慣性SLAM算法則是在視覺SLAM算法的基礎上將IMU數據和相機數據進行融合,相較于單一的VO(視覺里程計)系統,提高了系統的魯棒性,一方面通過視覺算法減少IMU的積分漂移,另一方面解決了視覺SLAM在特征少、運動快的環境下定位困難的問題,并有效解決了單目相機的尺度不可觀測問題。

VINS-Mono算法[6]是一種利用圖優化的緊耦合VIO(視覺慣性里程計)算法,VINS算法框架如圖2所示。

由圖2可見,VINS-Mono一共分為四個部分:1)在預處理部分使用FAST算法采集Harris角點作為特征,采用金字塔光流法對特征點進行跟蹤,同時采用去除畸變和均勻化等操作,得到合適的特征點;又因為IMU的測量頻率高于圖像頻率,所以對IMU數據進行中值預積分,避免每次更新姿態進行重復積分,最終得到兩個關鍵幀之間的相對位姿,同時根據誤差狀態傳播方程計算預積分殘差的協方差矩陣,以及預積分結果對各自的變量雅各比矩陣[7]。2)在初始化部分,利用SFM(structure from motion)求解出不具有尺度信息的相機位姿以及特征點的三維坐標。然后再通過視覺慣性聯合初始化,計算出陀螺儀的偏置和絕對尺度,其中由于重力加速度遠大于其加速度的偏置,而且在初始化階段很難計算加速度計的偏置,所以在初始化階段忽略了加速度計的偏置。3)使用緊耦合結構的非線性優化模型,利用滑動窗口,對窗口內的關鍵幀以及預積分值進行聯合優化。4)在回環檢測與重定位部分,采用DBoW2回環檢測算法,當相似度超過一定閾值時,將該候選幀視為正確的循環檢測并執行緊耦合重定位。

1.2? 語義分割模型

語義分割部分的主要工作是對給定的圖像進行像素級的分割處理,將圖像的高級語義信息分配給每一個像素,作為類別標簽。目前,高精度的語義分割網絡大多采用Encoder-Decoder架構,其中Encoder用于編碼有用的信息,Decoder再進行解碼。為了確保語義分割的精度,Encoder就需要有較好的特征提取效果,所以大多數網絡在編碼器部分會將網絡設計的較深。當網絡層數升高,參數量增大時,會導致計算量增加,從而減慢了對一張圖片的處理速度。所以在語義建圖的算法中,如何均衡語義分割模型的準確度與模型的大小就成了重中之重。

DeepLabV3+網絡在語義分割任務中取得了很好的效果[8]。DeepLabV3+為了解決DeepLabV3存在的邊界細節缺失問題,在原有的DeepLabV3的基礎上引入了簡單的解碼模塊,形成了一種新的Encoder-Decoder結構,增強了邊緣分割的效果。在Encoder部分,使用DeepLabV3的結構進行特征提取,將主干特征提取網絡得到的初步特征,通過空洞空間卷積池化金字塔模塊(ASPP)對輸入進行不同采樣率的空洞卷積并行采樣,提取多尺度的語義信息,擴大了模型的感受野。在Decoder部分,將低層次特征圖與上采樣后高層次的特征圖進行特征融合,使得網絡同時具備細節特征和語義特征。本文所采用的DeepLabV3+是將原本的主干特征提取網絡替換成輕量級網絡MobileNetV2,有效地減少了模型的參數,具體流程如圖3所示。

本文選用的主干特征提取網絡是MobileNetV2[9],其主要采用深度可分離卷積,線性瓶頸(Linear Bottlenecks)以及倒殘差(Inverted Residuals)結構。深度可分離卷積將標準的卷積操作分成了深度卷積和逐點卷積,減少了模型參數,降低了運算量。倒殘差結構與Resnet的殘差結構正好相反,倒殘差先使用1×1的卷積進行升維,然后進行特征提取,再使用1×1的卷積進行降維,使得網絡能在高維度空間中提取更多的信息。瓶頸結構是指將高維空間映射到低維空間,縮減通道數。而線性瓶頸就是將倒殘差結構中的降維操作采用線性激活的方式,而不使用ReLU激活,避免了ReLU函數對低維空間的信息進行破壞。

1.3? 八叉樹地圖

根據語義圖像相對應的深度圖,結合相應的位姿,求解出圖片中每個像素對應的世界坐標,構建出三維語義點云,其中三維點云數據中的每個點都包含了坐標信息(x、y、z)以及顏色信息,其中的顏色信息來自于語義圖的投影。但語義點云占據的存儲空間較大,并且不適合后期進行導航或避障等操作,所以一般會將點云轉化成八叉樹地圖Octomap[10],易于地圖的更新和后續的處理。

在八叉樹中用概率形式表達某個節點是否被占據。我們假設節點為n,觀測數據為z,用概率對數的形式去表達t時刻某個節點的概率,如式(1)所示:

其中, 代表從開始到t時刻某節點的概率對數值, 代表從開始到t-1時刻某節點的概率對數值, 代表t時刻節點n的概率對數值。采用概率的對數值進行計算的原因在于,假如x代表某個節點是否被占據的概率,如果讓x不斷地增加或者減少,x就會超過[0,1]區間,就不再滿足概率的要求,所以對x采用logit變換,將其轉化成概率對數值,當概率對數值在-∞到+∞變化時,其概率值x仍在[0,1]之間。

2? 實驗與分析

本次實驗使用標定過的RGBD相機IntelRealsenseD435i進行實驗,圖像分辨率為640×480,實驗的硬件配置采用IntelCore i7-11700K CPU、內存為32 GB、RTX 3060 Ti顯卡,同時結合ROS開發環境,在真實環境下進行測試。

2.1? 語義分割網絡測試

使用開源數據集VOC2012對基于MobileNetV2的DeepLabV3+進行訓練和測試,其中的類別包括人,顯示屏,椅子等總計20個類別。第一個評估標準采用語義分割普遍通用的區域交并比IoU[11]。IoU的計算主要是利用真實值的區域和預測值區域的交集比上真實值的區域和預測值區域的并集。在語義分割中,為了得到全局評價,一般將所有類的IoU相加取平均得到平均交并比MIoU,計算如式(2)所示:

其中k代表分割類別,i代表真實值,j代表預測值,pij代表將i預測為j,pji將j預測為i,pii代表將i預測為i。第二個評估標準采用模型參數量,模型參數量可以代表模型的空間復雜度。第三個評估標準采用每秒傳輸幀數(fps)用于衡量實時性。

由表1可見,使用MobileNetV2輕量化的DeepLabV3+模型在效果上相較于原版DeepLabV3+略微下降,但參數量只相當于原版的10%,二者的分割效果如圖4所示。

左圖是對室內環境視頻中一幀的截取,中間圖是使用MobileNetV2輕量化后的DeepLabV3+語義分割結果,右圖是原版DeepLabV3+的語義分割結果。綜合實驗可以看出,輕量化后的DeepLabV3+的語義分割速度較快,同時在分割效果上兩者并沒有太大區別,原圖像中椅子所占大小與語義分割后的大小相近,可見MobileNetV2輕量化后的DeepLabV3+在分割效果相似的情況下,實時性更好。

2.2? 語義點云測試

本實驗將語義分割后的語義圖結合對應的深度圖,根據點的空間位置和像素坐標之間的關系,如式(3)所示:

其中s代表深度數據與實際距離的比例,u,v代表像素坐標系下的像素坐標,x,y,z代表世界坐標系下的空間坐標,C代表相機的內參矩陣,R代表旋轉矩陣,t代表位移矢量。根據上述公式,進行三維投影生成語義點云,如圖5所示。

其中,左邊的三幅圖從上到下分別為相機輸入的原始圖像,語義分割圖像,深度相機采集的深度圖像。右邊的圖像是根據語義圖像和對應的深度圖像進行三維投影生成的點云圖。

2.3? Octomap建圖

在ROS環境下,使用Octomap模塊將語義點云圖和位姿信息結合,將點云動態轉化為語義八叉樹地圖,在Rviz中進行顯示,結果如圖6所示。

3? 結? 論

針對傳統SLAM算法構建地圖時缺乏語義信息的問題,本文在VIO算法VINS-Mono的基礎上,結合了效果較好的語義分割網絡DeepLabV3+構建語義地圖,但由于模型對SLAM算法的實時性產生了較大影響,所以采用MobileNetV2作為DeepLabV3+的主干特征提取網絡,完成模型輕量化,減少參數量,加快語義分割速度,實現在移動環境下,構建語義八叉樹地圖。實驗表明,輕量化后的DeepLabV3+結合VINS-Mono算法,可以進行實時三維語義地圖的構建。

參考文獻:

[1] EVAN S,JONATHAN L,TREVOR D. Fully convolutional networks for semantic segmentation [J].IEEE Trans Pattern Anal Mach Intell,2017,39(4):640-651.

[2] RONNAEBERGER O,FISCHER P,BROX T. U-Net:Convolutional Networks for Biomedical Image Segmentation [C]//Lecture Notes in Computer Science. Cham:Springer International Publishing,2015:234-241.

[3] VINEET B,MIKSIK O,LIDEGAARD M,et al. Incremental dense semantic stereo fusion for large-scale semantic scene reconstruction [C]//2015 IEEE International Conference on Robotics and Automation (ICRA).Seattle:IEEE,2015:75-82.

[4] YU C,LIU Z,LIU X,et al. DS-SLAM:A Semantic Visual SLAM towards Dynamic Environments [C]//2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).Madrid:IEEE,2018:1168-1174.

[5] 李小倩,何偉,朱世強,等.基于環境語義信息的同步定位與地圖構建方法綜述 [J].工程科學學報,2021,43(6):754-767.

[6] QIN T,LI P,SHEN S.Vins-mono:a robust and versatile monocular visual-inertial state estimator [J].IEEE Transactions on Robotics,2018,34(4):1004-1020.

[7] 曾超,鄭茜穎,程樹英.基于VINS-Mono的室內機器人定位系統 [J].傳感器與微系統,2022,41(11):85-88.

[8] CHEN L C,ZHU Y,PAPANDREOU G,et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]//Proceedings of the European conference on computer vision (ECCV). Springer,2018:801-818.

[9] 丁萬坤,周作建,李紅巖,等.基于MobileNetV2優化的DeeplabV3+目像分割方法研究 [J].中醫藥信息,2022,39(1):1-5.

[10] 席志紅,韓雙全,王洪旭.基于語義分割的室內動態場景同步定位與語義建圖 [J].計算機應用,2019,39(10):2847-2851.

[11] 宋鑫,張榮芬,劉宇紅.集成RGB-D語義分割網絡的室內語義地圖構建 [J].計算機應用研究,2022,39(11):3481-3486.

作者簡介:劉修頎(1997—),男,漢族,黑龍江大慶人,碩士研究生在讀,研究方向:信息獲取與處理;徐宏宇(1965—),男,漢族,遼寧沈陽人,副教授,本科,研究方向:信息獲取與處理。

主站蜘蛛池模板: 99re免费视频| 精品人妻无码中字系列| 亚洲天堂日韩在线| 国产av一码二码三码无码| 亚洲日本一本dvd高清| 亚洲精品第五页| 国产又色又爽又黄| 爆乳熟妇一区二区三区| 人妻一区二区三区无码精品一区| 日本道中文字幕久久一区| 91色在线视频| 色综合综合网| 国产精品免费入口视频| 国产成+人+综合+亚洲欧美| 欧美精品1区| 日本成人在线不卡视频| 国产微拍一区二区三区四区| 亚洲欧美成人在线视频| 欧美精品影院| 97人人做人人爽香蕉精品| 午夜高清国产拍精品| 国产精品女熟高潮视频| 啪啪永久免费av| 一级毛片在线播放免费观看| 亚洲中文字幕国产av| 日韩精品一区二区三区视频免费看| 亚洲中文字幕国产av| 亚洲精品在线91| 国产精品一线天| 亚洲精品在线观看91| 久久香蕉国产线看观看精品蕉| 国产香蕉国产精品偷在线观看| 亚洲va视频| 色综合五月婷婷| 美女内射视频WWW网站午夜| 人人91人人澡人人妻人人爽 | 亚洲av无码人妻| 午夜无码一区二区三区在线app| 国产高颜值露脸在线观看| 欧美精品导航| 亚洲精品卡2卡3卡4卡5卡区| 福利一区在线| 国产特级毛片| 日本三区视频| 五月天综合网亚洲综合天堂网| 欧美天天干| 欧美午夜在线视频| 欧美特级AAAAAA视频免费观看| 在线观看国产一区二区三区99| 国产女人18水真多毛片18精品| 激情综合网激情综合| 日韩国产精品无码一区二区三区| 四虎成人免费毛片| 久久成人国产精品免费软件 | 亚洲成人免费看| 小说 亚洲 无码 精品| 亚洲欧美综合另类图片小说区| 亚洲69视频| 免费人欧美成又黄又爽的视频| 欧美在线网| 男女男精品视频| 色综合中文| 操美女免费网站| 国内自拍久第一页| 亚洲日本中文字幕乱码中文| 亚洲成人播放| 国产美女91视频| 欧美日本在线观看| 欧美a级在线| 制服丝袜一区| 国产一区二区三区视频| AV熟女乱| 久久精品娱乐亚洲领先| 中文字幕久久亚洲一区| 国产最新无码专区在线| 一级成人a做片免费| 亚洲欧美日韩动漫| 国产日韩欧美视频| 国产午夜精品一区二区三区软件| 国产三级成人| 在线观看精品自拍视频| 亚洲天堂.com|