基于位置依賴的密集融合的6D位姿估計方法

2020-06-24 05:09:03黃榕彬

現代信息科技 2020年22期

摘? 要：基于RGBD的6D位姿估計方法的一個關鍵問題是如何進行彩色特征信息和深度特征信息的融合。先前的工作采用密集融合的方法，主要關注的是局部特征和全連接層提取的全局特征，忽略了遠距離像素間的位置依賴關系。文章提出通過捕獲像素間的位置關系，并將其與彩色特征圖和幾何特征圖進行密集融合，最后逐像素預測物體的6D位姿。實驗結果表明，該文的方法相比其他方法在YCB-Video數據集上獲得更優的結果。

關鍵詞：6D位姿估計;弱紋理;RGB-D;密集融合

中圖分類號：TP751? ? ? ?文獻標識碼：A 文章編號：2096-4706（2020）22-0016-04

6D Pose Estimation Method Based on Position Dependent Dense Fusion

HUANG Rongbin

（Guangdong University of Technology，Guangzhou? 510006，China）

Abstract：One of the key problems of the 6D pose estimation method based on RGBD is how to fuse the color feature information and depth feature information. Previous work used dense fusion method，mainly focused on local features and global features extracted from fully connected layer，ignoring the position dependence between remote pixels. The article proposes that by capturing the positional relationship between pixels and intensively fusing it with the color feature map and geometric feature map，the 6D pose of the object is predicted pixel by pixel. Experimental results show that the proposed method achieves better results than other methods on YCB-Video dataset.

Keywords：6D pose estimation;weak texture;RGB-D;dense fusion

0? 引? 言

物體的6D姿態估計可以廣泛應用于機器人抓取、虛擬現實、自動駕駛等領域。筆者實驗室致力于研究機器人的工業應用，為將物體6D位姿估計應用到機器人抓取或者工業焊接領域，需進一步提高6D位姿估計算法的精度和魯棒性。為此，筆者提出將一種新的RGBD融合方法，以提高6D位姿估計的精度。

目前6D位姿估計的主要方法大致可以分為基于RGB的方法和基于RGBD的方法?；赗GB的方法主要有：傳統方法[1，2]、基于關鍵點的方法[3]和直接回歸[4]的方法。其中，基于關鍵點的方法主要通過獲取圖像的關鍵點，再利用PnP計算目標物體位姿。直接回歸的方法是通過CNN直接回歸得到物體的位姿，由于缺乏深度信息，導致這類方法在使用時存在較大的困難[5]。

基于RGBD的主流方法有通過RGB獲取粗略的位姿，再利用深度信息細化位姿和通過融合RGB特征和深度特征獲取位姿。第一種方法實時性較低，第二種方法的典型代表是PointFusion[6]和DenseFusion[5]。PointFusion采用全局融合RGB特征和深度特征，進而回歸得到物體的位姿。由于是基于全局特征回歸得到位姿，當物體存在遮擋時，被遮擋部分將直接影響識別精度。DenseFusion采用逐像素密集融合的方法，通過每個融合的像素特征分別回歸得到位姿，再通過投票得到置信度最高的位姿。然而DenseFusion主要關注的是局部特征和通過多全連接層獲取的全局特征，忽略了像素之間的位置關系。受Non-local[7]的啟發，本文提出逐像素融合物體像素之間的位置關系，進一步豐富每個像素特征的信息，以提高每個像素的識別精度。

1? 算法介紹

基于RGBD的6D位姿估計問題是指給定目標物體所在場景的彩色圖像和深度圖像，計算物體的旋轉矩陣R∈SO（3）和平移向量t∈3，為方便計算，通常統一為：

其中，T為齊次變換矩陣，SO（3）為特殊正交群，SE（3）為特殊歐式群。

1.1? 總體概述

受Non-local的啟發，本文介紹了一種新的RGB數據和深度數據融合方法，主要應用于物體的6D位姿估計。該方法是在DenseFusion的基礎上，通過自注意力機制獲取像素間的位置依賴，進一步融合像素之間的位置依賴，以豐富每個像素的特征信息，提高位姿估計的精度。本文提出的方法的網絡結構如圖1所示，主要包含三個步驟，語義分割、位置依賴特征提取與逐像素融合，最后通過改進的位姿細化網絡優化得到的位姿。

1.2? 語義分割

第一步，采用語義分割網絡獲取彩色圖像中目標對象的掩摸，然后利用掩摸從彩色圖像和深度數據中獲取只包含目標對象的圖像塊和目標對象的深度數據，并將深度數據轉換為點云數據。在此為了更好的與已有的工作進行對比，采用了PoseCNN[8]的語義分割結果。

1.3? 位置依賴特征提取與逐像素融合

第二步，從目標對象的圖像塊和點云數據中分別提取彩色嵌入特征、幾何嵌入特征和位置依賴特征。在此，采用了DenseFusion中的Encoder-Decoder結構的卷積神經網路從圖像塊中提取彩色嵌入特征，采用PointNet[9]從點云數據中提取幾何嵌入特征?；贜on-local網絡提取位置依賴特征。

DenseFusion采用全連接層獲取全局特征。全連接層可定義為：

其中，i為輸入的位置索引，j為輸出的索引，x為輸入信號，w為權重，f為激活函數，y為輸出信號。

全連接層的輸出僅考慮每個位置的響應對于輸出的影響，而忽略了每個位置之間的依賴關系對于輸出的影響。受Non-local的啟發，本文提出進行逐像素融合時，考慮像素間的依賴關系，將像素間的依賴關系作為位置依賴特征與彩色嵌入特征和幾何嵌入特征進行融合。位置依賴特征的定義為：

其中，g為計算i，j兩個位置間的依賴關系的函數，C為歸一化因子。若函數g采用嵌入空間下的高斯函數或者點積相似函數，那么可以采用矩陣乘法進行替代計算[7]。在此選用嵌入空間下的高斯函數[7]：

因此，將式（3）轉成矩陣相乘，轉換成了圖1中位置依賴特征的提取模塊。通過該模塊獲取位置依賴特征圖，將彩色嵌入特征圖、幾何嵌入特征圖、位置依賴特征圖進行逐像素融合。最后將融合的結果輸入位姿預測器中回歸得到每個像素的預測結果和對應的置信度，將置信度最高的位姿作為最終的預測結果。

1.4? 位姿細化改進模塊

由于采用ICP算法細化位姿的實時性較差，DenseFusion[5]提出了一個細化迭代網絡，主要思想是采用預測的初始位姿渲染模型獲取點云數據，并將其輸入PointNet[9]中獲取幾何嵌入特征，將得到的幾何嵌入特征和彩色嵌入特征圖融合獲取全局特征，并用于預測位姿殘差，生成新的位姿，再進行下一次迭代。該網絡也沒有考慮像素間的位置關系。因此，本文提出通過提取像素間位置關系，與全局特征圖進行融合，進一步豐富特征信息，以提高精度。改進后的位姿細化網絡結構圖如圖2所示。

1.5? 損失函數

損失函數采用ADD和ADD-S[8]。ADD是指計算真實位姿下的對象模型上的采樣點與預測位姿下的對象模型上的對應點的距離。給定真實的旋轉矩陣R和平移向量t以及預測的旋轉矩陣? 和平移向量? 的情況下，損失函數Lu定義為：

其中，Lu為第u個像素預測的位姿的損失值，M為從三維點云模型任意選擇的點的數量，xv為M個點中的第v個點。

ADD對于非對稱性物體表現良好，ADD-S則是針對對稱物體，具體是指計算估計位姿下的對象模型的采樣點與真實位姿下的對象模型上最近點的距離，定義為：

其中，k為真實位姿下的對象模型上點的索引。

本文采用每個像素均預測一個位姿和置信度的方法，為使得網絡學習平衡每個像素的誤差和置信度，將整體的誤差定義為[5]：

其中，N為特征圖像素特征的數量，ω為平衡超參數，cu為第u個像素預測的位姿對應的置信度。

2? 實驗結果

本文采用YCB-Video數據集[8]評估本文提出的方法，并和其他方法進行對比。評價指標采用Yu Xiang等人[8]提出的ADD和ADD-S。

表1展示了本文提出的方法與其他方法的對比，可以看出進行位姿細化的結果比其他方法更優，整體的平均AUC提升了1%，其中picher_base和wood_block兩個類別均提升了4%，extra_large_clamp更是提高了19%。當然，也存在部分物體的精度下降了，其中scissors下降了17%，目前的判斷是因為該物體較小，當使用圖像塊預測位姿時，物體所占的像素比例較小，導致像素之間的位置關系引進了更多的噪聲，進而導致識別精度較低，本文提出的方法對于體積較大的物體精度較高。但整體而言，如圖3所示，本文提出的方法在YCB-Video數據集上表現優于目前的主流方法。

3? 結? 論

本文提出了一種基于位置依賴的逐像素融合的6D位姿估計網絡。在我們的方法中，通過提取像素間的位置依賴關系獲取位置依賴特征圖，將位置依賴特征圖逐像素融合進位姿估計網絡中和位姿細化網絡中，以豐富每個像素的特征信息。在YCB-Video數據集中的實驗表明，與DenseFusion相比，我們的方法的性能得到了提升。

參考文獻：

[1] LUCA V，VINCENT L，PASCAL F. Stable real-time 3D tracking using online and offline information [J].IEEE transactions on pattern analysis and machine intelligence，2004，26（10）：1385-1391.

[2] LOWE D G. Object recognition from local scale-invariant features [C]//Proceedings of the Seventh IEEE International Conference on Computer Vision.Kerkyra：IEEE，1999：1150-1157.

[3] PENG S D，LIU Y，HUANG Q X，et al. PVNet：Pixel-wise Voting Network for 6DoF Object Pose Estimation [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition（CVPR）.Long Beach：IEEE，2019：4556-4565.

[4] KEHL W，MANHARDT F，TOMBARI F，et al. SSD-6D：Making RGB-Based 3D Detection and 6D Pose Estimation Great Again [C]//2017 IEEE International Conference on Computer Vision （ICCV）.Venice：IEEE，2017：1530-1538.

[5] WANG C，XU D F，ZHU Y K，et al. DenseFusion：6D Object Pose Estimation by Iterative Dense Fusion [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Long Beach：IEEE，2019：3338-3347.

[6] XU D F，ANGUELOV D，JAIN A. PointFusion：Deep Sensor Fusion for 3D Bounding Box Estimation [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City：IEEE，2018：244-253.

[7] WANG X L，GIRSHICK R，GUPTA A，et al. Non-local Neural Networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City：IEEE，2018：7794-7803.

[8] XIANG Y，SCHMIDT T，NARAYANAN V，et al. PoseCNN：A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes [J/OL].arXiv：1711.00199 [cs.CV].（2017-11-01）.https：//arxiv.org/abs/1711.00199.

[9] QI C R，SU H，MO K C，et al. PointNet：Deep Learning on Point Sets for 3D Classification and Segmentation [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition（CVPR）.Honolulu：IEEE，2017：77-85.

作者簡介：黃榕彬（1995—），男，漢族，廣東揭陽人，碩士研究生在讀，研究方向：6D位姿估計。