橋式起重機部件多任務(wù)學(xué)習(xí)Mask R-CNN分割與關(guān)鍵點識別方法*

2021-04-23 08:07:04楊帆梁敏健楊寧祥彭曉軍

自動化與信息工程 2021年2期

關(guān)鍵詞：關(guān)鍵點語義檢測

楊帆梁敏健楊寧祥彭曉軍

學(xué)術(shù)研究

橋式起重機部件多任務(wù)學(xué)習(xí)Mask R-CNN分割與關(guān)鍵點識別方法*

楊帆1梁敏健2楊寧祥2彭曉軍2

（1.華南理工大學(xué)機械與汽車工程學(xué)院，廣東廣州 510640 2.廣東省特種設(shè)備檢測研究院珠海檢測院，廣東珠海 519002）

起重機運行狀態(tài)實時檢測是工業(yè)安全生產(chǎn)的重要保障之一。針對起重機部件提出基于多任務(wù)學(xué)習(xí)Mask R-CNN的分割與關(guān)鍵點網(wǎng)絡(luò)結(jié)構(gòu)，該結(jié)構(gòu)由Mask R-CNN定位框與區(qū)域語義分割網(wǎng)絡(luò)、DeepLabCut關(guān)鍵點檢測網(wǎng)絡(luò)構(gòu)成；在吊鉤橋式起重機中采集數(shù)據(jù)進行測試，利用貪婪線性搜索算法與貝葉斯優(yōu)化算法，搜索得到此模型的最優(yōu)超參數(shù)組合為：學(xué)習(xí)率0.005，批數(shù)2，學(xué)習(xí)率策略為余弦衰減。該模型測試誤差為2.46個像素點，測試AP可達95%，像素點誤差反映到實際誤差在5 cm以內(nèi)，滿足實際檢測需求，可拓展應(yīng)用于無人化、自動化起重機運行狀態(tài)監(jiān)測。

橋式起重機；關(guān)鍵點識別；深度學(xué)習(xí)；卷積神經(jīng)網(wǎng)絡(luò)；多任務(wù)學(xué)習(xí)；語義分割

0 引言

起重機是現(xiàn)代工業(yè)生產(chǎn)不可或缺的設(shè)備，其作業(yè)范圍廣、作業(yè)環(huán)境復(fù)雜、吊運對象多樣，需要多機構(gòu)同時操作、多工種協(xié)同作業(yè)。起重機在作業(yè)過程中危險因素較多，需實時監(jiān)測其關(guān)鍵部件的運行狀態(tài)，及時發(fā)現(xiàn)故障并發(fā)出預(yù)警信息。起重機關(guān)鍵部件監(jiān)測方法主要有基于多物理傳感器直接測量[1-3]、基于機器視覺傳感[4-6]兩大類，前者裝置拆裝不便，適應(yīng)性較差；后者拆裝方便，以高魯棒性圖像算法為基礎(chǔ)，在滿足精度誤差范圍內(nèi)具備不同場景測量的高適應(yīng)性?；跈C器視覺傳感的監(jiān)測方法是基于圖像傳感器及圖像處理算法，識別圖像中起重機關(guān)鍵部件位置，并結(jié)合圖像深度信息進行定量測量。文獻[4]采用歸一化互相關(guān)圖匹配算法對起重機吊繩圖像進行目標(biāo)對象定位框識別，并作為Mean Shift跟蹤的目標(biāo)區(qū)域進行跟蹤。文獻[5]利用灰度化、二值化、邊緣檢測、霍夫變換等圖像處理算法識別吊繩邊緣，再根據(jù)相機小孔成像原理預(yù)測吊繩角度。上述研究均利用經(jīng)典圖像處理算法進行起重機部件識別，無法抽取高層圖片信息，對場景變化及環(huán)境變化適應(yīng)性差。相比于經(jīng)典圖像處理算法，深度學(xué)習(xí)模型具有圖像高級語義特征理解力，對不同場景適應(yīng)能力更強。為此，文獻[6]利用深度學(xué)習(xí)檢測算法YOLO[7]實現(xiàn)不同角度起重機圖片吊鉤定位，適應(yīng)性較好，但算法僅適用于圖像定位框識別任務(wù)，沒有對起重機運行部件的關(guān)鍵點坐標(biāo)信息及部件區(qū)域分割信息進行預(yù)測。

為此，本文應(yīng)用Mask R-CNN結(jié)合多任務(wù)學(xué)習(xí)[8-9]，接入多預(yù)測分支，構(gòu)建多任務(wù)識別深度學(xué)習(xí)網(wǎng)絡(luò)，實現(xiàn)橋式起重機關(guān)鍵部件定位框、區(qū)域語義分割與關(guān)鍵點的同時識別。

1 網(wǎng)絡(luò)設(shè)計

橋式起重機關(guān)鍵部件定位與關(guān)鍵點識別方法框架包括Mask R-CNN定位框與區(qū)域語義分割網(wǎng)絡(luò)、DeepLabCut關(guān)鍵點檢測網(wǎng)絡(luò)，如圖1所示。

1.1 Mask R-CNN定位框與區(qū)域語義分割網(wǎng)絡(luò)

Mask R-CNN架構(gòu)圖如圖2所示。輸入圖像經(jīng)過預(yù)訓(xùn)練的ResNet50-FPN結(jié)構(gòu)，融合ResNet50各層不同尺度的特征張量，輸出特征圖為不同分辨率的融合特征圖(=1,…,4)，即圖像語義特征。

圖1 橋式起重機關(guān)鍵部件定位與關(guān)鍵點檢測方法框架圖

圖2 Mask R-CNN整體架構(gòu)圖

特征圖輸入感興趣目標(biāo)區(qū)域候選框生成網(wǎng)絡(luò)（region proposal network, RPN）后，獲得語義特征張量對應(yīng)候選框區(qū)域的局部特征張量(=1,…,)。設(shè)輸入圖像的寬和高分別為，，若RPN輸出某一RoI的寬與高分別為w，h，左上頂點的圖像像素坐標(biāo)為(x,y)，且該RoI為特征張量通過RPN生成，則此圖像上的RoI對應(yīng)的局部特征張量為

每個局部特征張量輸入感興趣目標(biāo)區(qū)域?qū)R層，即RoIAlign層，首先，該層均勻地將分割成7×7 = 49個子區(qū)域；然后，利用雙線性插值法獲得每個區(qū)域中心位置的插值，得到插值后張量；接著，對插值后張量進行最大值池化操作；最后，得到RoIAlign層的輸出，區(qū)域?qū)R后的張量(= 1,…,)。

張量分別輸入部件分割模塊、部件定位模塊和分類模塊，以完成每個已分類的部件定位區(qū)域內(nèi)的分割任務(wù)。

各預(yù)測模塊的內(nèi)部結(jié)構(gòu)如圖3所示。首先，部件定位模塊與分類模塊共用多個全連接（fully connected, FC）層以提取張量的語義信息矢量；然后，部件定位分支將語義信息矢量輸入到4個神經(jīng)元的FC層，獲得第二次精煉的部件定位框回歸預(yù)測值,,,；分類分支將矢量輸入到3個神經(jīng)元的FC層；接著，輸入Softmax層獲得小車、大車與吊具的預(yù)測概率p，p和p；最后，部件分割分支利用3×3×256卷積層與1×1×3卷積層對提取語義張量信息，再輸入Sigmoid層，得到14×14×3掩碼張量，張量的每一維度代表一個類別掩碼區(qū)域的預(yù)測，張量的任意元素值表示該位置屬于目標(biāo)區(qū)域概率。

圖3 預(yù)測模塊內(nèi)部結(jié)構(gòu)圖

分類分支、部件分割分支的輸出分別輸入交叉熵損失函數(shù)得到分類損失cls與部件分割損失函數(shù)mask；部件定位分支輸出輸入最小二乘回歸損失函數(shù)得到定位框損失box，各損失之和即為Mask R-CNN總損失函數(shù)

1.2 DeepLabCut關(guān)鍵點檢測網(wǎng)絡(luò)

DeepLabCut關(guān)鍵點檢測網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。設(shè)圖像中起重機關(guān)鍵點個數(shù)為，起重機圖像輸入ResNet網(wǎng)絡(luò)獲得特征圖后，分別輸入關(guān)鍵點空間概率分布預(yù)測分支、偏移量預(yù)測分支。

圖4 DeepLabCut關(guān)鍵點檢測網(wǎng)絡(luò)結(jié)構(gòu)

1）輸入關(guān)鍵點空間概率分布預(yù)測分支，ResNet輸出經(jīng)尺度為3×3×的反卷積層，再通過Sigmoid層獲得特征圖×W×k，特征圖中第維第(,)個元素的值表示原圖第行，第列對應(yīng)區(qū)域出現(xiàn)第個關(guān)鍵點的概率。故由特征圖可初步得到每個關(guān)鍵點大致出現(xiàn)的區(qū)域：

2）語義特征張量輸入偏移量預(yù)測分支，ResNet輸出經(jīng)3×3×2的反卷積層，輸出偏移量回歸張量×W×2k，則第個關(guān)鍵點(x,y)的預(yù)測輸出為

DeepLabCut的損失函數(shù)kpt為交叉熵損失函數(shù)，設(shè)out_n表示關(guān)鍵點分支通過Softmax層后的輸出；p表示標(biāo)簽真值；ap指一個批次的所有樣本量，則kpt表示為

1.3 多任務(wù)深度網(wǎng)絡(luò)損失函數(shù)設(shè)計

邊框預(yù)測、語義分割預(yù)測與關(guān)鍵點預(yù)測3類子任務(wù)應(yīng)用于起重機實例對象的預(yù)測、識別。子任務(wù)之間具有同質(zhì)性，可提高特征提取器的泛化性，最終提升各子任務(wù)預(yù)測準(zhǔn)確性，并且通過公用骨干網(wǎng)絡(luò)，減少算法時間復(fù)雜度與空間復(fù)雜度。

Mask R-CNN總損失函數(shù)添加DeepLab關(guān)鍵點分支損失函數(shù)項kpt得到多任務(wù)深度網(wǎng)絡(luò)損失函數(shù)f=+kpt。最后利用Adam算法[11]，最小化總損失函數(shù)f，訓(xùn)練獲得最優(yōu)網(wǎng)絡(luò)參數(shù)。

2 實驗與結(jié)果分析

本實驗對象為廣東省珠海市某廠房的通用式吊鉤橋式起重機，選用MV-CA060-10GC、4 K分辨率工業(yè)相機為圖像采集傳感器；深度學(xué)習(xí)硬件設(shè)備為Nvidia 1080ti顯卡，CPU為i7 8700, 32 GB內(nèi)存。

采集全天候起重機運行視頻，并抽幀500張圖像作為訓(xùn)練集，利用貪婪線性搜索算法，獲得近似超參數(shù)最優(yōu)組合?；境瑓?shù)組合為：學(xué)習(xí)率0.00003，批數(shù)1，學(xué)習(xí)率策略為多步衰減。在此基本超參數(shù)組合上，依次改變單個超參數(shù)的取值，不同組合下的誤差結(jié)果如表1所示。

將單步搜索最優(yōu)值對應(yīng)超參數(shù)取值進行組合，得到近似最優(yōu)組合：學(xué)習(xí)率為0.00003，批數(shù)為3，學(xué)習(xí)率策略為多步衰減，對應(yīng)訓(xùn)練誤差為2.33，測試誤差為2.46。

表1 超參數(shù)優(yōu)化效果

利用樹狀結(jié)構(gòu)Parzen估計方法[14]獲取超參數(shù)最優(yōu)組合，這是一種貝葉斯優(yōu)化算法，與貪婪線性搜索算法不同，它依據(jù)歷史搜索結(jié)果，得出此次實驗的超參數(shù)組合，從而提升搜索效率。搜索結(jié)果表明：最優(yōu)組中的最優(yōu)超參數(shù)組合為：學(xué)習(xí)率0.005，批數(shù)2，學(xué)習(xí)率策略為余弦衰減，對應(yīng)的測試誤差與訓(xùn)練誤差分別為2.29與2.10。綜合2種優(yōu)化算法，最終得到最優(yōu)超參數(shù)組合為：學(xué)習(xí)率0.005，批數(shù)2，學(xué)習(xí)率策略為余弦衰減，測試誤差2.46個像素點，測試AP可達95%。最優(yōu)訓(xùn)練效果下多任務(wù)深度網(wǎng)絡(luò)語義分割與關(guān)鍵點識別效果如圖5所示。實際測試結(jié)果表明基于多任務(wù)學(xué)習(xí)Mask R-CNN分割與關(guān)鍵點識別網(wǎng)絡(luò)特征點檢測實際誤差在5 cm以內(nèi)，滿足實際檢測需求。

圖5 多任務(wù)深度網(wǎng)絡(luò)語義分割與關(guān)鍵點識別效果

3 結(jié)語

1）依據(jù)起重機日常運行狀態(tài)檢測信息，提出面向起重機部件的多任務(wù)學(xué)習(xí)Mask R-CNN分割與關(guān)鍵點識別網(wǎng)絡(luò)，包括Mask R-CNN關(guān)鍵部件定位框與區(qū)域語義分割網(wǎng)絡(luò)結(jié)構(gòu)、DeepLabCut關(guān)鍵點檢測網(wǎng)絡(luò)結(jié)構(gòu)；

2）利用貪婪線性搜索算法與貝葉斯優(yōu)化算法，搜索此模型的最優(yōu)超參數(shù)組合，訓(xùn)練收斂后，得到用于起重機大車、小車與吊具的定位框識別、區(qū)域?qū)嵗指钆c關(guān)鍵點識別最佳深度學(xué)習(xí)檢測模型，測試誤差2.46個像素點，測試AP可達95%，特征點實際檢測誤差在5 cm以內(nèi)。

下一步可依據(jù)邊緣計算理論，將加速算法模型部署在橋式起重機現(xiàn)場邊緣端設(shè)備，構(gòu)成云邊端檢測系統(tǒng)，實現(xiàn)起重機運行狀態(tài)量實時測量。

[1] 張昊.基于物聯(lián)網(wǎng)的門式起重機結(jié)構(gòu)健康監(jiān)測管理系統(tǒng)[D].南京:南京理工大學(xué),2018

[2] 姜長城.門式起重機遠程監(jiān)測及診斷分析系統(tǒng)研發(fā)[D].南京:東南大學(xué),2018.

[3] 羅偉.門式起重機管理中安全監(jiān)控管理系統(tǒng)的應(yīng)用[J].中國設(shè)備工程,2018(19):32-33.

[4] 陳洪志. 大型起重機臂架旁彎圖像測量算法研究[D].廣州:廣東工業(yè)大學(xué),2015.

[5] 李明聰.基于圖像的嵌入式吊繩狀態(tài)監(jiān)測系統(tǒng)設(shè)計[D].大連:大連海事大學(xué),2016.

[6] 張銳. 基于機器視覺的塔式起重機控制策略研究[D].合肥:合肥工業(yè)大學(xué),2019.

[7] Redmon Joseph, Divvala Santosh, Girshick Ross, et al. You only look once: unified, real-time object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas, America: Computer Vision Foundation, 2016. 779-788.

[8] He Kaiming, Gkioxari Georgia, Dollar Piotr, et al. Mask R-CNN[C]// IEEE international conference on computer vision. Venice, Italy: IEEE,2017.2961-2969.

[9] CARUANA R. Multitask Learning[J]. Machine Learning, 1997, 28(1):41-75.

[10] KINGMA D P, BA J. Adam: a method for stochastic optimization[J]. arXiv preprint arXiv:1412.6980, 2014.

[11] MOCKUS J, TIESIS V, ZILINSKAS A. The application of Bayesian methods for seeking the extremum[J]. In L.C.W. Dixon and G.P. Szego, editors, Towards Global Optimization, North Holland, New York, 1978, 2:117–129.

Multi-task Learning Mask R-CNN Segmentation and Key Point Recognition Method for Bridge Crane Components

Yang Fan1Liang Minjian2Yang Ningxiang2Peng Xiaojun2

(1.School of Mechanical and Automotive Engineering, South China University of Technology, Guangzhou 510640, China 2.Guangdong Institute of Special Equipment Inspection and Research Zhuhai Branch, Zhuhai 519002, China)

Real time detection of crane operation status is one of the important guarantees for industrial safety production. A segmentation and key point network structure based on multi task learning mask R-CNN is proposed R-CNN crane key parts positioning frame and regional semantic segmentation network, crane key point detection network based on DeepLabCut; in a hook crane to collect data for testing, using greedy linear search algorithm and Bayesian optimization algorithm, the optimal super parameter combination of this model is: learning rate 0.005, batch size 2, learning rate strategy is cosine decay . The test error of the model is 2.46 pixels, and the test AP is up to 95%. The pixel error can be reflected within 5 cm of the actual error, which can meet the actual detection needs, and can be extended to the unmanned and automatic crane operation state monitoring.

bridge crane; key point recognition; deep learning; convolutional neural networks; multi-task learning; semantic segmentation

TN911.73

1674-2605(2021)02-0003-05

10.3969/j.issn.1674-2605.2021.02.003

廣東省特種設(shè)備檢測研究院2019年度科技項目（2020JD09）

楊帆，男，1996年生，碩士研究生，主要研究方向：人工智能與精密檢測技術(shù)研究。E-mail：201820100566@mail.scut.edu.cn