張云瞻 張劍 江天樂
1.同濟大學機械與能源工程學院;2.浙江巨化聯州制冷科技有限公司
基于建立2D-3D坐標密集對應的兩階段方法是對目標物體進行6D位姿檢測的一類解決方案。本文在前人的基礎上改進,提出了ZC-Pose,一種基于分區編碼坐標的目標物體6D位姿檢測網絡框架,其僅使用RGB數據和模型信息對目標位姿進行預測。本文在Linemod數據集上測試其表現,相較于該領域的一項經典工作——CDPN中的旋轉分支部分有了可觀的提升,并且與其他相關工作進行比較,也表現出了具有競爭力的結果。
如何檢測目標物體的6D位姿是計算機視覺領域廣受關注的熱點問題之一,在機器人抓取[1]、增強現實[2,3]和自動駕駛[4-6]等方面都有著重要意義。此問題的傳統解決方案包含基于特征描述子[7-9]和模板匹配[10,11]的一些方法。有賴于深度學習技術的深入發展,近年來關于目標物體位姿估計的很多研究使用相機拍攝得到的RGB或RGB-D數據,在普通環境和帶遮擋的環境下都表現出了令人印象深刻的準確性和效率。
一般來說,基于深度學習的目標位姿估計可以分為間接法和直接法。間接法主要通過各種特征圖——例如,建立圖像像素坐標系上2D點與已知的目標模型上3D點坐標之間的對應關系,然后通過透視n點投影(PnP)算法或其衍生算法[12]得出目標物體坐標系與相機坐標系之間的轉換矩陣,而直接法則直接回歸出旋轉和平移參數等信息來進行預測[13]。
基于坐標的分離位姿網絡[14](CDPN)的結構分為旋轉和平移兩個分支,將旋轉分支輸出的坐標特征圖用PnP/RANSAC算法計算得出旋轉矩陣,而平移分支直接回歸得出平移向量,充分利用了兩種姿態估計方式的優勢,在多個常用數據集上得出了優異的結果。其主要缺陷是網絡結構較為臃腫;訓練方法也分為僅旋轉、僅平移和旋轉平移融合的三步方式來進行訓練,導致訓練消耗的時間過多。
我們旨在開發一個具有堪比CDPN的準確性,且具有更簡練結構和訓練過程的、僅使用RGB數據的網絡。我們在本文中提出了ZC-Pose,一種在CDPN之上改進的基于2D-3D密集對應和PnP/RANSAC算法的兩階段的目標位姿檢測算法。
在下文中,我們首先在第一節中回顧CDPN方法中如何通過網絡預測與像素二維坐標對應的目標物體三維坐標,討論掩膜圖(Mask)預測相較于目標的坐標特征圖對于網絡誤差的魯棒性高低;隨之在第二節中引出我們提出的分區編碼坐標的概念;在第三節中討論如何設計基于這一概念的網絡框架。
CDPN中網絡的輸出層包括64×64×3的目標物體坐標值特征圖與64×64×1的掩膜圖像。CDPN采用了大多數網絡偏好零對稱輸出的觀點,將網絡所需要預測的特征圖中的目標物體坐標值轉化到[-1,1]的區間,如式(1)所示:
其中i∈{1,2,3},分別表示x,y和z三個維度,C代表目標物體的坐標值,max為單個維度上的最大值,默認目標物體坐標系的原點位于三維包圍盒的中心,所以有Ci∈[-maxi, maxi]。而用于訓練的掩膜圖像的取值為{0,1},以1標示目標物體所在的像素點,其余為背景。


圖3 ZC-Pose網絡框架示意圖Fig.3 ZC-Pose network framework diagram
其中M*和分別表示訓練用的真實數據與網絡預測的特征圖,°表示哈達瑪積,Mcoor表示編碼坐標特征圖,Mconf表示辨別物體與背景的掩膜圖像,Mzone表示用于區分物體區塊的掩膜圖像。
(1)應用細節:我們的網絡使用Ranger優化器,在一塊RTX 3060顯卡上進行訓練,CPU配置為i5 8400H。我們使用的訓練批量大小為16,基礎學習率為1e-4,損失LZC的參數的α為1,β,γ均為0.6。
(2)數據集:我們在一個用于目標6D位姿檢測的標準數據集中進行實驗:Linemod(LM)[15]。LM數據集包含13個目標物體,每個目標物體都有大約1.2k張包含光線變化、無紋理特征和遮擋等各類復雜情況的RGB圖像及其準確姿態。我們選擇其中占總數大約15%的圖像,加上每個目標1k張用OpenGL合成出的圖像作為訓練數據,再把剩余85%的圖像用于測試[16]。
(3)評估指標:我們采用最常用的一些指標將我們的方法與CDPN和其他方法的表現進行比較。ADD(-S)[15]測量與真實值之間偏差低于物體外接球的直徑10%的變換模型點的百分比。對于對稱對象,ADD(-S)測量到最接近的模型點的偏差。此外,n°n cm用于表達旋轉誤差小于n度且平移誤差小于n cm的預測6D姿態占總數的百分比。2D投影誤差(Proj-2D)所用的是將模型點投影到圖像坐標系形成的像素度量上的誤差,以相差5個像素以內的比例作為指標。
如表1所示,我們的工作對比僅用CDPN旋轉分支的結果,在5°5cm上提升了0.05%,在ADD上提升12.71%,在Proj-2D上稍降0.38%;對比CDPN的全網絡結構,雖然性能稍有下降,但訓練時間大約減少了一半,儲存參數所需大小由432.8MB下降到了103.72MB。如表2所示,與一些經典工作相比,ZC-Pose的預測性能很有競爭力。

表1 ZC-Pose與CDPN性能的比較Tab.1 Performance comparison between ZC-Pose and CDPN

表2 ZC-Pose與其他工作的對比Tab.2 Comparison between ZC-Pose and other works
本文在CDPN網絡框架的基礎上設計出僅使用RGB圖像數據的、基于分區編碼坐標的目標物體6D位姿估計網絡,經過測試得知其相對于CDPN有切實的改進,并且相對于其他相關工作也擁有較高的性能。
引用
[1]Alvaro Collet,Manuel Martinez,Siddhartha S Srinivasa.The MOPED Framework:Object Recognition and Pose Estimation for Manipulation[J].The International Journal of Robotics Research,2011,30(10):1284-1306.
[2]AZAD P,ASFOUR T,DILLMANN R.Stereo-based 6D Object Localization for Grasping with Humanoid Robot Systems[C]//Intelligent Robots and Systems.IEEE,2007.
[3]Eric Marchand,Hideaki Uchiyama,Fabien Spindler.Pose Estimation for Augmented Reality:a Hands-on Survey[J].IEEE Transactions on Visualization and Computer Graphics(TVCG),2015,22(12):2633-2651.
[4]Tan David Joseph,Tombari Federico,Navab Nassir.Real-Time Accurate 3D Head Tracking and Pose Estimation with Consumer RGB-D Cameras[J].International Journal of Computer Vision,2018,126(2-4):158-183.
[5]Fabian Manhardt,Wadim Kehl,Adrien Gaidon.ROI10D:Monocular lifting of 2d detection to 6d pose and metric shape[C]//IEEE Conference on Computer Vision and Pattern Recognition,2019:2069-2078.
[6]CHABOT F,CHAOUCH M,RABARISOA J C.Teuliere and T.Chateau, Accurate 3D car pose estimation[C]//IEEE International Conference on Computer Vision(ICCV),2016:3807-3811.
[7]LOWE D G.Distinctive Image Features from Scale-Invariant Keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[8]BAY H,TUYTELAARS T,GOOL L V.SURF:Speeded Up Robust Features[C]//European Conference on Computer Vision.Springer-Verlag,2006:404-417.
[9]RUBLEE E,RABAUD V,KONOLIGE K,et al.ORB:An efficient alternative to SIFT or SURF[C]//International Conference on Computer Vision.IEEE,2012:2564-2571.
[10]HUTTENLOCHER D P,KLANDERMAN G A,RUCKLIDGE W J.Compaing images using the Hausdorff distance[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1993,15(9);850-863.
[11]HINTERSTOISSER S,LEPETIT V,ILIC S,et al.Dominant orientation templates for Real-Time detection of Texture-Less objects[C]//Computer Vision and Pattern Recognition,2010:2257-2264.
[12]Lepetit Vincent,Moreno-Noguer Francesc,Fua Pascal.EPnP:An Accurate O(n) Solution to the PnP Problem[J].International Journal of Computer Vision,2009,81(2):155-166.
[13]Gu Wang,Fabian Manhardt,Federico Tombari,et al.GDR-Net:Geometry-Guided Direct Regression Network for Monocular 6D Object Pose Estimation[C]//IEEE Conference on Computer Vision and Pattern Recognition,2021.
[14]LI Z G,WANG G,JI X Y.CDPN:Coordinates-Based Disentangled Pose Network for RealTime RGB-Based 6-DoF Object Pose Estimation[C]//IEEE International Conference on Computer Vision,2019:7677-7686.
[15]Tomas Hodan,Martin Sundermeyer,Bertram Drost,et al.BOP Challenge 2020 on 6D Object Localization[C]//European Conference on Computer Vision Workshops(ECCVW),2020:577-594.
[16]Eric Brachmann,Frank Michel,Alexander Krull,et al.Uncertaintydriven 6D Pose Estimation of Objects and Scenes from a Single RGB Image[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2016:3364-3372.
[17]RAD M,LEPETIT V.BB8:A Scalable,Accurate,Robust to Partial Occlusion Method for Predicting the 3D Poses of Challenging Objects without Using Depth[C]//IEEE International Conference on Computer Vision,2017:3706-4442.
[18]Bugra Tekin,Sudipta N Sinha,Pascal Fua.Real-Time Seamless Single Shot 6D Object Pose Prediction[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2018:292-301.
[19]Yu Xiang,Tanner Schmidt,Venkatraman Narayanan,et al.PoseCNN:A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes[C]//14th Conference on Robotics-Science and Systems,2018.
[20]SUNDERMEYER M,MARTON Z C,DURNER M,et al.Implicit 3D Orientation Learning for 6D Object Detection from RGB Images[C]//European conference on computer vision,2018:712-729.