





摘要:可行域檢測對于自主移動攀爬機(jī)器人理解周圍環(huán)境,保障其高效、安全地移動具有重要意義。針對傳統(tǒng)語義分割模型參數(shù)量大、計(jì)算速度慢等問題,提出一種改進(jìn)的DeepLabv3+模型。該模型的主干網(wǎng)絡(luò)采用輕量級的MobileNetv2替代Xception,有效減少了模型的參數(shù)量并提升了計(jì)算效率;在空洞空間金字塔池化單元中增加了卷積支路并優(yōu)化了空洞率,增強(qiáng)了模型對不同尺寸物體的分割能力;在解碼階段引入全局注意力機(jī)制,增強(qiáng)模型對上下文信息的聚合能力,進(jìn)一步提高模型的分割精度。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的DeepLabv3+模型相較于U-Net模型、DeepLabv3+模型,在攀爬機(jī)器人的可行域檢測任務(wù)上取得了較好的分割效果。
關(guān)鍵詞:攀爬機(jī)器人;可行域檢測;三維鋼結(jié)構(gòu);MobileNetv2;全局注意力機(jī)制
中圖分類號:TP242.2""""""""""文獻(xiàn)標(biāo)志碼:A """""""""文章編號:1674-2605(2024)06-0005-06
DOI:10.3969/j.issn.1674-2605.2024.06.005""""""""""""""""""""開放獲取
Feasible Region Detection Model for Climbing Robots in
3D Steel Structure Environment
CHEN Dongqing DENG"Yongtao
(1.Guangzhou Inspection, Testing and Certification Group Co.,"Ltd.,"Guangzhou"511447, China
2.School of Mechanical and Electrical Engineering, Guangdong University of Technology,
Guangzhou 510006, China)
Abstract:"Feasible region detection is of great significance for autonomous mobile climbing robots to understand the surrounding environment and ensure their efficient and safe movement. An improved DeepLabv3+model is proposed to address the issues of large parameter count and slow computation speed in traditional semantic segmentation models. The backbone network of this model uses lightweight MobileNetv2 instead of Xception, effectively reducing the number of parameters and improving the computational efficiency of the model; We added convolutional branches and optimized the hole rate in the pyramid pooling unit of the hollow space, enhancing the model's segmentation ability for objects of different sizes; Introducing a global attention mechanism in the decoding stage enhances the model's ability to aggregate contextual information and further improves the segmentation accuracy of the model. The experimental results show that the improved DeepLabv3+model achieves better segmentation performance in the feasible domain detection task of climbing robots compared to the U-Net model and DeepLabv3+model.
Keywords: climbing robots; feasible region detection; 3D steel structure; MobileNetv2; global attention mechanism
0 引言
隨著海上航運(yùn)業(yè)的快速發(fā)展,港口大型起重機(jī)搬運(yùn)集裝箱的需求日益增加,工作強(qiáng)度越來越大,對起
重機(jī)的檢測也越來越重要[1]。目前,起重機(jī)的定期檢測主要依賴人工模式,存在安全風(fēng)險高、效率低等問題。而攀爬機(jī)器人可以攜帶傳感器和檢測設(shè)備,到達(dá)人力難以觸及的高空區(qū)域,對起重機(jī)的可行域進(jìn)行檢測。
近年來,神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域取得較大的
進(jìn)展,尤其在圖像分類[2]、語義分割[3]等圖像處理方面表現(xiàn)較好。攀爬機(jī)器人在起重機(jī)這類三維鋼結(jié)構(gòu)上的可行域檢測是一項(xiàng)典型的語義分割任務(wù),其核心在于先辨識圖像中每個像素點(diǎn)的類別特征,再區(qū)分任務(wù)所需的區(qū)域與其他區(qū)域[4]。相較于卷積神經(jīng)網(wǎng)絡(luò)的其他應(yīng)用,語義分割既要提取圖像的具體特征,又要捕捉圖像整體的高層語義信息,使任務(wù)更加復(fù)雜。直到SHELHAMER[5]等提出了全卷積網(wǎng)絡(luò)(fully convo-lutional networks,"FCN),才解決了圖像尺寸限制的問題,并利用逐步連接融合了不同層級的語義信息;盡管反卷積上采樣有助于恢復(fù)圖像分辨率,但圖像細(xì)節(jié)分割仍有不足。文獻(xiàn)[6]提出U-Net結(jié)構(gòu),利用編碼器捕獲深層特征和高級語義信息,并在解碼器中通過逐步連接的方式整合不同尺度的特征,獲得更精確的分割結(jié)果;但因同時引入了大量參數(shù),降低了模型的效率。文獻(xiàn)[7]提出SegNet結(jié)構(gòu),其與U-Net結(jié)構(gòu)相似,且在最大池化過程中保存了像素的位置信息,在上采樣時能精確還原圖像細(xì)節(jié);該網(wǎng)絡(luò)在車道分割任務(wù)中表現(xiàn)出色,但在跨領(lǐng)域場景中泛化能力不足。文獻(xiàn)[8]提出RefinetNet,通過長距離殘差連接和下采樣特征圖的融合,提升了分割精度;但對計(jì)算和存儲的要求較高。Google提出了一系列的DeepLab模型[9-12],但這些模型在處理速度和模型容量方面不具優(yōu)勢。
針對上述問題,本文基于DeepLabv3+模型,構(gòu)建一種輕量化的語義分割模型(改進(jìn)的DeepLabv3+模型)。該模型的主干網(wǎng)絡(luò)采用輕量級的MobileNetv2替代Xception,以減少模型的參數(shù)量及提升計(jì)算效率;在解碼階段引入全局注意力機(jī)制(global attention mechanism, GAM),增強(qiáng)模型對上下文信息的聚合能力,以提高模型的分割精度。攀爬機(jī)器人通過實(shí)時的語義分割來更新可行域,可有效避免機(jī)器人誤入危險區(qū)域而造成跌落事故。
1 相關(guān)研究
1.1 MobileNetv2
MobileNetv2是一個高效、輕量級的深度學(xué)習(xí)模型[13-15],它引入了一種倒置殘差結(jié)構(gòu),先進(jìn)行深度線性處理,再進(jìn)行逐點(diǎn)卷積,有效地減輕了模型的計(jì)算負(fù)擔(dān)。該模型采用深度可分離卷積,進(jìn)一步降低了模型的復(fù)雜性,并通過引入寬度乘數(shù),允許模型根據(jù)需求調(diào)整大小和計(jì)算量,同時能夠保證模型性能。此外,MobileNetv2通過ReLU激活函數(shù)來增強(qiáng)模型的表達(dá)能力,并利用全局平均池化層替換傳統(tǒng)的全連接層,進(jìn)一步減少了模型的參數(shù)量。MobileNetv2的總體架構(gòu)如表1所示。其中,t為輸入通道的乘法系數(shù)(即擴(kuò)展倍數(shù)),c為輸出通道的數(shù)量,n為模塊的重復(fù)次數(shù),s為卷積步幅,k為寬度縮放因子。
1.2 GAM
GAM是一種提升深度學(xué)習(xí)模型特征表達(dá)能力的機(jī)制[16],適用于需要捕獲全局依賴性的任務(wù)。GAM通過對圖像或序列數(shù)據(jù)進(jìn)行全面分析,強(qiáng)化模型對整體上下文信息的關(guān)注;通過動態(tài)權(quán)重分配和上下文信息聚合,突出全局上下文信息的重要性。GAM融合了通道注意力機(jī)制和空間注意力機(jī)制,結(jié)構(gòu)如圖1所示。
GAM處理特征圖的流程可通過公式(1)來描述:
首先,對輸入特征圖進(jìn)行維度變換;然后,將維度變換后的輸入送入多層感知機(jī)(multilayer percep-tron, MLP),以增強(qiáng)不同維度之間的通道和空間依賴性(MLP包括2個線性層和1個ReLU激活函數(shù):第一個線性層將特征圖按壓縮比例r進(jìn)行通道壓縮,并利用ReLU激活函數(shù)減緩梯度消失和爆炸現(xiàn)象;第二個線性層將特征通道維度還原);最后,利用Sigmoid函數(shù)對輸入特征圖進(jìn)行非線性歸一化處理。
空間注意力模塊結(jié)構(gòu)如圖3所示。
首先,接收通道注意力模塊輸出的特征圖;然后,通過2個7×7的卷積層進(jìn)行特征融合(第一個卷積層精簡特征圖的通道數(shù)量,去除不必要的信息,減少后續(xù)處理的計(jì)算負(fù)擔(dān);第二個卷積層保持特征圖的通道數(shù)量不變,維持信息的完整性,進(jìn)一步細(xì)化特征表達(dá));最后,通過Sigmoid函數(shù)生成空間權(quán)重,并將其應(yīng)用于原始輸入特征圖,以增強(qiáng)空間感知能力。
1.3 改進(jìn)的DeepLabv3+模型
DeepLabv3+模型以采樣距離為2的標(biāo)準(zhǔn)卷積對輸入特征圖進(jìn)行下采樣,并通過降低輸入特征圖的尺寸來減少模型計(jì)算量。該模型的編碼器部分融合了Xception架構(gòu)和空洞空間金字塔池化(atrous spatial pyramid pooling, ASPP)單元的優(yōu)勢。Xception架構(gòu)用于深入提取圖像的深層語義信息;ASPP單元通過多分辨率特征采樣,保持?jǐn)?shù)據(jù)的豐富度。然而,這種融合方式會犧牲圖像的某些細(xì)節(jié)特征,尤其是需要精確捕捉的道路分界線。
為了提高模型的分割精度,并解決DeepLabv3+模型因高復(fù)雜度而導(dǎo)致的訓(xùn)練效率低、缺乏上下文信息聚合的問題,本文對DeepLabv3+模型進(jìn)行以下改進(jìn):
1) 考慮到后期需要將模型部署到嵌入式設(shè)備端,受邊緣設(shè)備資源的限制,在主干網(wǎng)絡(luò)部分,用輕量級的MobileNetV2代替Xception,減少了模型的參數(shù)量和計(jì)算需求;
2) 原始ASPP單元包含空洞率分別為6、12和18的3個空洞卷積層,對于大目標(biāo)分割,高空洞率分割效果更好;而對于小目標(biāo)分割,低空洞率更有效;隨著主干網(wǎng)絡(luò)提取的特征圖分辨率逐漸降低,需要低空洞率卷積來提取較低分辨率特征圖的信息;為此,在ASPP單元中新增一條卷積支路,且空洞率變?yōu)?、8、12和16,提升了模型對多尺寸目標(biāo)的分割能力;
3) 在解碼階段引入GAM,進(jìn)一步提高模型的分割精度;GAM使模型捕捉到長距離的依賴關(guān)系,增強(qiáng)對全局上下文信息的聚合能力;通過GAM對特征圖不同區(qū)域分配不同的權(quán)重,促進(jìn)不同尺度特征圖之間的信息交流,實(shí)現(xiàn)多尺度特征的融合;特別是在處理具有復(fù)雜背景的圖像時,GAM能準(zhǔn)確地理解圖像內(nèi)容。改進(jìn)的DeepLabv3+模型結(jié)構(gòu)如圖4所示。
2 實(shí)驗(yàn)準(zhǔn)備與評價指標(biāo)
2.1 實(shí)驗(yàn)準(zhǔn)備
本實(shí)驗(yàn)采用自制的數(shù)據(jù)集驗(yàn)證改進(jìn)的Deep-Labv3+模型的有效性。數(shù)據(jù)集構(gòu)建過程如下:
1) 攀爬機(jī)器人搭載攝像頭,在多個不同外形與結(jié)構(gòu)的戶外起重機(jī)上錄制其攀爬過程的視頻;
2) 利用Python對每個視頻以固定的幀率截圖保存,并將保存的圖像作為原始數(shù)據(jù)集;
3) 采用旋轉(zhuǎn)、裁剪、灰度化、濾波等處理方式對原始數(shù)據(jù)集進(jìn)行增強(qiáng),增強(qiáng)后的數(shù)據(jù)集共有1"814幅圖像;
4) 通過Labelme軟件對增強(qiáng)后的數(shù)據(jù)集進(jìn)行手工標(biāo)注,可行域被標(biāo)注為Safe,背景區(qū)域被標(biāo)注為Back-ground;
5) 將標(biāo)注后的數(shù)據(jù)集按照9∶1的比例,隨機(jī)劃分為訓(xùn)練集和測試集。
實(shí)驗(yàn)的硬件環(huán)境為:CPU為E5-2650v4@"""2.20 GHz,內(nèi)存為16"GB,顯卡為NVIDIA Corporation TU102 [TITAN RTX];軟件環(huán)境為:Ubuntu20.04,PyTorch1.8.0,Python3.8.5,CUDA的版本為11.6。初始學(xué)習(xí)率為2×10-4,訓(xùn)練批次為16個,迭代輪次epoch為200次,網(wǎng)絡(luò)優(yōu)化器采用Adam。
2.2 評價指標(biāo)
本文采用平均交并比(MIoU)、平均精確率(Mpa)和召回率(recall)3個性能指標(biāo)來評價攀爬機(jī)器人可行域的檢測性能。其中,MIoU為預(yù)測結(jié)果與實(shí)際結(jié)果交集與并集的比例關(guān)系;Mpa為各類別像素識別準(zhǔn)確度的平均值;recall為正確預(yù)測為可行域占全部實(shí)際可行域的比例,計(jì)算公式分別為
3 實(shí)驗(yàn)與分析
為評估本文提出的改進(jìn)的DeepLabv3+模型的檢測性能,將其與U-Net模型、DeepLabv3+模型進(jìn)行對比實(shí)驗(yàn)。在相同的數(shù)據(jù)集和軟硬件環(huán)境下運(yùn)行上述3種模型,實(shí)驗(yàn)結(jié)果如表2所示。
由表2可知,本文模型比U-Net模型的Mpa和Rrecall分別提高了8.57%和3.71%;比DeepLabv3+模型的MIoU和Mpa分別提高了1.22%和1.15%。
為更直觀地展示本文模型(改進(jìn)的DeepLabv3+模型)與原始DeepLabv3+模型的性能差異,將分割結(jié)果進(jìn)行可視化處理,如圖5所示。
由圖5可以看出:在示例圖1中,針對螺釘?shù)母蓴_,DeepLabv3+模型的分割結(jié)果不夠準(zhǔn)確;在示例圖2中,DeepLabv3+模型雖然基本正確地分割了邊界板,但在右側(cè)兩塊鋼板連接處的分割不夠完整;本文模型能更準(zhǔn)確地捕捉到輪廓,分割結(jié)果更清晰,說明本文模型不僅準(zhǔn)確地劃分了可行域,還聚合了上下文信息,使整個可行域的分割更為完整。
綜合實(shí)驗(yàn)結(jié)果與分割結(jié)果圖,本文模型與U-Net模型、DeepLabv3+模型相比,在可行域分割性能上具有較好的效果。
4 結(jié)論
本文面向自主移動攀爬機(jī)器人在起重機(jī)高空作業(yè)的場景,利用攝像頭采集實(shí)時環(huán)境信息,采用改進(jìn)的DeepLabv3+模型進(jìn)行可行域分割,協(xié)助攀爬機(jī)器人自主移動。實(shí)驗(yàn)結(jié)果表明,本文模型相較于U-Net模型、DeepLabv3+模型,具有更好的分割效果。盡管本文提出的改進(jìn)的DeepLabv3+模型提高了可行域分割效果,但其泛化能力仍有待提升。在未來的工作中,考慮提升模型的泛化性能,并將模型部署至嵌入式端,通過TensorRT推理框架使模型在機(jī)載平臺上實(shí)時分割可行域,實(shí)現(xiàn)攀爬機(jī)器人的高效自主移動。
?The author(s) 2024. This is an open access article under the CC BY-NC-ND 4.0 License (https://creativecommons.org/licenses/ by-nc-nd/4.0/)
參考文獻(xiàn)
[1] 李林.特種設(shè)備檢測中無損檢測技術(shù)的運(yùn)用分析[J].裝備制造技術(shù),2024(7):139-141.
[2] CHEN L, LI S, BAI Q, et al. Review of image classification algorithms based on convolutional neural networks[J]. Remote Sensing, 2021,13(22):4712.
[3] MINAEE S, BOYKOV Y, PORIKLI F, et al. Image segmenta-tion using deep learning: A survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021,44(7):3523-3542.
[4] 楊潔潔,楊頂.基于深度學(xué)習(xí)的語義分割綜述[J].長江信息通信,2022,35(2):69-72.
[5] ARBCLáEZ P, HARIHARAN B, GU C, et al. Semantic segmentation using regionsand parts[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition, 2012:3378-3385.
[6] OLAF R, PHILIPP F, THOMAS B. U-Net: Convolutional Networks for Biomedical Image Segmentation[J]. CoRR, 2015, abs/1505. 04597.
[7] BADRINARAYANAN V, KENDALL A, CIPOLLA R. Seg-Net: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017,39(12): 2481-2495.
[8] LIN G, LIU F, MILAN A, et al. RefineNet: Multi-Path refine-ment networks for dense prediction[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019,42(5):1.
[9] LU Z, FU Z, XIANG T,"et al. Learning from weak and noisy labels for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016,39(3):486-500.
[10] CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C] //Proceedings of the European conference on Computer Vision (ECCV), 2018:801-818.
[11] LIN G, MILAN A, SHEN C, et al. Refinenet: Multi-path refinement networks for high-resolution semantic segmenta-tion[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017:1925-1934.
[12] RIGAMONTI R, SIRONI A, LEPETIT V, et al. Learning separable filters [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2013:2754-2761.
[13] SANDLER M, HOWARD A, ZHU M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recog-nition. 2018:4510-4520.
[14] 孔繁星,何騰飛,孫皓章.輕量化CNN與時間序列融合識別刀具磨損方法[J].機(jī)床與液壓,2024,52(17):235-239.
[15] 朱云云,朱黎,肖天龍,等.基于YOLOv5-GM的霧天環(huán)境下輸電線路異物檢測[J].機(jī)電工程技術(shù),2024,53(4):100-105.
[16] LIU Y, SHAO Z, HOFFMANN N. Global attention mechan-ism: Retain information to enhance channel-spatial interac-tions[J]. arxiv preprint arxiv:2112.05561, 2021.
作者簡介:
陳冬青,男,1983年生,碩士研究生,高級工程師,主要研究方向:特種設(shè)備安全管理、評價及機(jī)器人技術(shù)開發(fā)和應(yīng)用。E-mail:"13580505705@163.com
鄧泳濤(通信作者),男,2001年生,在讀碩士研究生,主要研究方向:機(jī)器人規(guī)劃與控制。E-mail: 2287796003@qq.com