馬康哲,皮家甜,熊周兵,呂 佳
(1.重慶師范大學 計算機與信息科學學院,重慶 401331;2.重慶國家應用數(shù)學中心(重慶師范大學),重慶 401331;3.北京理工大學重慶創(chuàng)新中心,重慶 401120)
近年來,隨著機器人產(chǎn)業(yè)的不斷發(fā)展,相關(guān)的工業(yè)應用被廣泛部署。機械臂抓取作為其中較為重要的任務之一,在制造業(yè)自動化、家政服務、智慧醫(yī)療等領(lǐng)域有重要的應用場景。傳統(tǒng)的二維空間(Two-Dimensional space,2D)目標檢測只能夠提供目標對象的2D 邊界框,由于其在空間位置信息上的缺失,在實際應用場景中很難實現(xiàn)對目標物體的精準抓取。估計目標物體的6 個方向的自由度(Six Degree of freedom,6D)姿態(tài)信息可以為機器人提供豐富的二維空間與三維空間(Two-Dimensional space and Three-Dimensional space,2D-3D)交互信息。物體的6D 姿態(tài)通常是指物體坐標系與傳感器坐標系的坐標變換,由3 個自由度的平移變換和3 個自由度的旋轉(zhuǎn)變換構(gòu)成。因此,對目標物體進行6D 姿態(tài)估計,是機器人能夠準確抓取物體的重要步驟。
現(xiàn)有的算法在面對復雜背景、光照不足、遮擋等真實的自然場景時,效果仍然不佳。雖然RGBD(Red-Green-Blue-Depth)圖像的方法可以利用深度信息來消除透視投影過程中造成的對象比例歧義,在準確率上有明顯優(yōu)勢;但主流的基于RGBD 圖像的6D 姿態(tài)估計網(wǎng)絡普遍依賴于點云特征提取網(wǎng)絡PointNet[1],計算量大,推理速度慢,難以投入實際應用。
僅使用RGB(Red-Green-Blue)圖像來識別物體的6D 姿態(tài)是計算機視覺領(lǐng)域的重點及難點,其中基于關(guān)鍵點的方法在實時性和準確率上取得了很好的平衡。該方法通常使用網(wǎng)絡回歸關(guān)鍵點的坐標,通過求解透視投影PnP(Perspectiven-Point)問題得到相機坐標系到物體坐標系下的轉(zhuǎn)換矩陣。Nibali 等[2]為了克服全連接層回歸坐標泛化能力差的缺陷,使用熱圖匹配的方式來計算2D 關(guān)鍵點坐標;但該方法在關(guān)鍵點被遮擋時不能夠有效發(fā)揮作用。Peng 等[3]為圖片中每個像素回歸了指向關(guān)鍵點的矢量,通過投票的方式選取關(guān)鍵點的位置,取得了很好的效果;但是該方法不可微,不適合網(wǎng)絡的學習。Yang 等[4]在自監(jiān)督領(lǐng)域的物體6D 姿態(tài)估計中提出了一個新穎的求解關(guān)鍵點方法,通過雙尺度的關(guān)鍵點的對應關(guān)系求解姿態(tài);但是因使用了兩個大型網(wǎng)絡,很難達到實時的目的。
針對上述問題,本文首先對網(wǎng)絡學習過程中的特征進行了改進,提出將能夠聚焦空間通道注意力信息的卷積注意力模塊(Convolutional Block Attention Module,CBAM)[5]引入到物體6D 姿態(tài)估計的網(wǎng)絡中的跳躍連接(Skip connection)階段,注意力機制能夠讓網(wǎng)絡關(guān)注非凸優(yōu)化中更具影響力的特征,空間注意力信息讓網(wǎng)絡更好保留位置信息,通道注意力可以增強網(wǎng)絡的分割效果。其次,舍棄了關(guān)鍵點投票的策略,引入一種可微的方法求解關(guān)鍵點,并將其用于輕量級網(wǎng)絡中:第一步采用弱監(jiān)督方式得到與圖像尺寸大小相同的偏置注意力圖(Attention Map);第二步將其與生成的偏置圖(Offset Map)在對應目標掩碼像素下相乘;最后累加求和得到關(guān)鍵點。實驗結(jié)果證明,該策略能夠充分利用每個像素點的位置信息,同時在面對遮擋場景下的物體具有較好的魯棒性。本文的主要工作如下:
1)提出在物體姿態(tài)估計網(wǎng)絡中的Skip connection 階段引入CBAM,優(yōu)化分割效果的同時減小回歸關(guān)鍵點位置信息帶來的定位誤差。
2)針對基于隨機抽樣一致算法(RANdom SAmple Consensus,RANSAC)的關(guān)鍵點投票方法耗時長、不可微的問題,提出使用歸一化損失函數(shù)以弱監(jiān)督的方式回歸的注意圖作為對應像素位置上偏置的權(quán)重分數(shù),累加求和得到關(guān)鍵點的策略。
3)本文算法與現(xiàn)有的物體姿態(tài)估計方法相比,準確率更高,在遮擋場景下更魯棒。
基于RGB 圖像的物體6D 姿態(tài)估計算法大致可以分為3種:網(wǎng)絡直接回歸的方法、基于2D-3D 稠密對應關(guān)系的方法和基于關(guān)鍵點的方法。
網(wǎng)絡直接回歸的方法將6D 姿態(tài)估計的問題視為回歸或者分類任務,網(wǎng)絡模型直接從輸入圖片預測相關(guān)的參數(shù),如歐拉角、四元數(shù)。Xiang 等[6]首次提出了端到端的姿態(tài)估計網(wǎng) 絡PoseCNN(Convolutional Neural Network for 6D object Pose estimation in cluttered scenes),在內(nèi)部解耦了旋轉(zhuǎn)和平移,直接回歸了目標物體的質(zhì)心的平移矩陣和四元數(shù)代表的旋轉(zhuǎn)矩陣,并提出了一個能夠處理對稱物體的損失函數(shù)。Kehl 等[7]提出了SSD(Single Shot multibox Detector)-6D 網(wǎng)絡,擴展了2D 檢測器SSD 的任務;由于旋轉(zhuǎn)空間不連續(xù),該方法將姿態(tài)估計任務轉(zhuǎn)換成了離散視角點分類的問題。Sundermeyer 等[8]使用CAD(Computer Aided Design)模型渲染的合成數(shù)據(jù)來學習旋轉(zhuǎn)空間特征的隱式編碼,然后將預測的隱式特征與碼本進行匹配。梁達勇等[9]使用網(wǎng)絡對物體多角度視圖編碼得到隱式的幾何特征與紋理特征進行融合。上述方法都高度依賴姿態(tài)細化網(wǎng)絡來提高性能。
基于2D-3D 稠密對應關(guān)系的方法通過求解PnP 問題來恢復物 體姿態(tài)。Li 等[10]提出的CDPN(Coordinates-based Disentangled Pose Network)通過卷積神經(jīng)網(wǎng)絡預測了物體在3D 空間的坐標,用來建立稠密的2D-3D 對應關(guān)系。Zakharov等[11]提出的DPOD(Dense Pose Object Detector)通過UV 貼圖(UV Mapping)估計其在3D 物體表面的對應位置,通過UV 圖作為中間表征構(gòu)建起2D-3D 對應關(guān)系。Hodaň 等[12]提出的EPOS(Estimating 6D Pose of Objects with Symmetries)將目標物體用片段來表示,使用編碼解碼的結(jié)構(gòu)預測采樣像素和片段之間的對應關(guān)系。基于2D-3D 稠密對應關(guān)系的方法需要從較大空間中搜索合適的解,同時需要用到大量的RANSAC、PnP 操作來求解姿態(tài)。
相比而言,基于關(guān)鍵點的方法預測稀疏的對應關(guān)系更有希望應用在未來真實場景中。Rad 等[13]提出了BB8 方法,首先使用一個網(wǎng)絡粗略的分割目標物體,然后通過另外一個網(wǎng)絡回歸長方體邊界框的8 個頂點的2D 投影。由于2D 位置坐標在面對遮擋時會失效,Oberweger 等[14]提出使用2D 關(guān)鍵點熱圖來代替關(guān)鍵點坐標的位置,提升了模型的抗遮擋能力;但是由于熱圖尺寸固定,很難預測在圖像外面的點。Peng等[3]提出了逐像素投票網(wǎng)絡(Pixel Voting Network,PVNet),為每個像素點預測一個關(guān)鍵點矢量,通過RANSAC 算法進行投票,最后PnP 算法求解姿態(tài)。Song 等[15]將單一關(guān)鍵點關(guān)表征擴張到了混合的表征,包括關(guān)鍵點、邊緣矢量、對稱性關(guān)系;然而回歸更多的表征也限制了其性能。
Woo 等[5]提出了一種簡單而高效的卷積注意力模塊(CBAM),可以有效融合通道和空間注意力特征。李坤等[16]將坐標注意力引入到人體姿態(tài)估計網(wǎng)絡,特征圖的精確位置信息得到了加強。Stev?i? 等[17]首次將空間注意力用于迭代的物體6D 姿態(tài)估計細化網(wǎng)絡中,顯著提升了網(wǎng)絡的性能。
考慮到算法的實用性,本文采用了基于關(guān)鍵點的方法。在理想的狀態(tài)下,提出的解決方案應該能夠很好地處理弱紋理物體,并且在復雜背景、不同光照、遮擋情況下都能準確計算出關(guān)鍵點的位置,同時在實時性和準確度上都達到一定的要求。在不大幅度增加網(wǎng)絡計算量的前提下,本文對PVNet的架構(gòu)進行了改進:首先,在每個Skip connection 階段的淺層特征后增加了一個CBAM 來增強不同尺度下的特征;其次,在輕量級骨干網(wǎng)絡ResNet18 的編碼階段之后,加入一個卷積核為3 × 3 的卷積層和一個上采樣層,通過歸一化損失函數(shù)采取弱監(jiān)督的方式,回歸得到關(guān)鍵點偏置的注意力圖;最后,網(wǎng)絡在解碼階段回歸了物體掩碼和關(guān)鍵點的偏置圖。在此基礎(chǔ)上,通過掩碼圖剔除背景無關(guān)的像素,逐像素對偏置賦予注意力權(quán)重累加求和計算出關(guān)鍵點。整體架構(gòu)如圖1所示。
圖1 物體6D姿態(tài)估計網(wǎng)絡整體架構(gòu)Fig.1 Overall architecture of object 6D pose estimation network
注意力機制通過對不同重要程度的特征分配不同大小的權(quán)重,可以讓模型專注于目標任務相關(guān)的特征而不是包含無關(guān)背景的冗余特征。注意力機制通常分為兩種,即通道注意力和空間注意力。本文采用的卷積注意力模塊是一個簡單而有效的混合注意力模塊,由通道注意力和空間注意力串聯(lián)組成:通道注意力關(guān)注的是不同通道對目標任務結(jié)果的影響,空間注意力判斷哪個位置的信息對目標任務結(jié)果比較重要。
如圖2 所示,在通道注意力模塊(Channel Attention Module,CAM)中,給定一個大小為H×W×C的特征F,其中H、W、C分別為特征圖的長、寬、和通道數(shù)。特征圖首先分別經(jīng)過最大池化和平均池化后,得到大小為1 × 1 ×C的特征,將其送入共享權(quán)重的多重感知機(Muti-Layer Perceptron,MLP),其中隱藏層神經(jīng)元個數(shù)為C/r,r為縮減倍數(shù),激活函數(shù)為ReLU(Rectified Linear Unit),經(jīng)過MLP 得到兩個特征相加再經(jīng)過一個Sigmoid 激活函數(shù)得到通道注意力權(quán)重系數(shù)Mc,最后將輸入特征與Mc相乘即可得到通道注意力特征。在空間注意力模塊(Spatial Attention Module,SAM)中,將通道注意力特征作為輸入特征,經(jīng)過最大池化和平均池化后在通道進行拼接后得到大小為H×W× 2 的特征,將其輸入到卷積核為7 × 7 的卷積層中,經(jīng)過Sigmoid 激活函數(shù)得到空間注意力權(quán)重系數(shù)Ms,最后將通道注意力特征與Ms相乘得到增強后的特征F′。
圖2 CBAM結(jié)構(gòu)Fig.2 CBAM structure
基于關(guān)鍵點的方法需要首先求得關(guān)鍵點的坐標位置,使用固定尺寸熱圖來替代關(guān)鍵點坐標的方法不能解決遮擋問題,使用投票的方式求解關(guān)鍵點的坐標,其過程不可學習,屬于次優(yōu)的方案。受文獻[4]方法的啟發(fā),本文采用一種可微的方式求解關(guān)鍵點。在得到2D 平面的關(guān)鍵點的信息后,將其與3D 模型中標注的關(guān)鍵點構(gòu)成2D-3D 映射關(guān)系,求解PnP問題恢復物體姿態(tài)。為簡化模型,本文采用EPnP(Efficient PnP)算法[18]求解物體姿態(tài)。
在關(guān)鍵點選擇的過程中,為了充分利用掩碼圖中每個像素點對關(guān)鍵點的坐標位置的相互關(guān)系,如圖3 所示,本文提出的網(wǎng)絡回歸了目標物體掩碼以及每個關(guān)鍵點的偏置圖,通過對位置坐標的約束以弱監(jiān)督的方式得到了對應關(guān)鍵點的注意圖。通過注意力分數(shù)加權(quán)平均前景像素關(guān)鍵點偏置圖可以計算出關(guān)鍵點。計算公式如式(1)所示:
圖3 關(guān)鍵點計算Fig.3 Key points calculation
本文模型主要采用編碼解碼的結(jié)構(gòu),目標函數(shù)由三部分組成:第一部分語義分割損失Lseg采用交叉熵損失,第二部分偏置圖損失Loff采用smooth L1 損失,第三部分關(guān)鍵點損失Lkey采用 L1 損失。整體的損失函數(shù)L如式(2)所示:
其中:λ1、λ2、λ3分別為平衡常數(shù)。
當物體在2D 平面投影的面積越大時,其偏置圖損失函數(shù)值也越大;因此,需要首先對其進行歸一化。由于在2D 平面中目標物體尺寸缺失,而物體掩碼的像素點個數(shù)易受遮擋條件的影響,本文在關(guān)鍵點的損失函數(shù)中,將物體實例分割的外接矩形框的最長邊作為尺度歸一化因子。具體公式如式(3)所示:
本文方法采用弱監(jiān)督的方式得到注意力圖,通過在網(wǎng)絡中加入關(guān)鍵點的損失函數(shù)來約束特征圖隨機生成注意力圖。公式如式(4)所示:
LINEMOD 數(shù)據(jù)集[19]由15 783 幅圖像組成,其中包含13 個弱紋理對象,每個對象包含約1 400 幅圖像。由于目標對象缺少紋理,且圖像中混亂的場景以及光照變化使該數(shù)據(jù)集面臨挑戰(zhàn)。本文按照先前的工作[10,19]劃分訓練和測試集,并根據(jù)文獻[10]方法生成用于訓練的合成圖像。
Occlusion LINEMOD 數(shù)據(jù)集[20]是LINEMOD 數(shù)據(jù)集的重新注釋,每張圖像都包含多個部分遮擋物體。由1 435 幅圖像組成,包含8 個物體。通常的規(guī)則是在LINEMOD 數(shù)據(jù)集上訓練網(wǎng)絡,然后在Occluded LINEMOD 數(shù)據(jù)集上測試,以驗證算法面對遮擋場景的魯棒性。
為了評價模型的性能,本文使用2D 投影指標[21]和點平均距離(ADD(-S))指標[6]分別對模型進行評估。
2D 投影指標 該指標計算的是預測的姿態(tài)投影的點與真實標注姿態(tài)投影的點之間的平均距離。當平均距離小于5 個像素的時候,估計的姿態(tài)認為是正確的。
其中:M代表目標物體3D 模型中的頂點合集;m代表頂點的個數(shù);R、T分別代表真實的旋轉(zhuǎn)和平移;、分別代表預測的旋轉(zhuǎn)和平移。
ADD(-S)指標 當預測的點云與實際的點云差值小于物體直徑的10%時,該指標認為估計的轉(zhuǎn)換矩陣是正確的。
對于非對稱物體,ADD 度量計算通過預測姿態(tài)和地面真實姿態(tài)轉(zhuǎn)換的物體頂點之間的點對平均距離,對于對稱物體,本文使用最近點對距離ADD-S 度量。相關(guān)定義如下:
數(shù)據(jù)集方面,本文模型使用了兩個公開數(shù)據(jù)集LINEMOD 數(shù)據(jù)集和Occlusion LINEMOD 數(shù)據(jù)集。實驗將LINEMOD 數(shù)據(jù)集85%的樣本作為訓練樣本,剩下15%的樣本作為測試樣本;Occlusion LINEMOD 數(shù)據(jù)集僅用來測試。關(guān)鍵點的位置通過最遠點采樣算法(Farthest Point Sampling,F(xiàn)PS)計算得出,本文選取8 個關(guān)鍵點作為注釋。為了防止過擬合,本文方法對圖像進行了常規(guī)的圖像增強操作,包括隨機裁切、旋轉(zhuǎn)和色彩變化等操作。為了增加數(shù)據(jù)集樣本大小,本文使用了PVNet 中的數(shù)據(jù)集擴增方法生成了10 000 幅只包含單個物體的渲染圖像,圖像背景從SUN397 數(shù)據(jù)集[22]中隨機選擇;另外為了模擬真實的遮擋場景,生成10 000 幅包含多個物體相互遮擋的合成圖像。
在模型訓練過程中,初始學習率設置為0.001,bathsize設置為10,epoch 設置為100,σ設置為0.5,使用Adam 優(yōu)化器,前5 個epoch 使用了warmup 策略對模型進行預熱,學習率調(diào)整通過每訓練5 個epoch 衰減0.85。
3.4.1 模型實時性分析
實驗所用計算機CPU 型號為 AMD Ryzen R5 5600X 3.7 GHz,GPU 使用一張Titan XP 顯卡,batchsize 設置為10。在LINEMOD 數(shù)據(jù)集上,輸入尺寸大小為480 × 640的圖像,測試結(jié)果可以達到23 FPS。其中數(shù)據(jù)導入耗時28.1 ms,前向傳播耗時3.5 ms,EPnP耗時2.7 ms,關(guān)鍵點計算耗時11.2 ms,可以滿足機器人在現(xiàn)實環(huán)境中進行物體實時抓取的基本要求。如表1 所示,相比基于RANSAC 投票的計算方法,本文提出的關(guān)鍵點計算方法耗時減小了50.9%。
表1 計算關(guān)鍵點方法耗時對比 單位:msTab.1 Time consumption comparison of calculating key points unit:ms
3.4.2 LINEMOD 數(shù)據(jù)集實驗結(jié)果分析
為了體現(xiàn)方法的優(yōu)越性,本文將該方法使用2D 投影指標與ADD(-S)指標對物體6D 姿態(tài)估計領(lǐng)域中不同方法進行對比,包括BB8[13]、YOLO6D(YOLO(You Only Look Once)for 6D object pose estimation)[23]、PVNet[3]、DPOD[11]、CDPN[10]、HybridPose[15],實驗結(jié)果如表2、3 所示。
表2 使用2D投影指標在LINEMOD數(shù)據(jù)集上各方法對比 單位:%Tab.2 Comparison of methods on LINEMOD dataset in terms of 2D projection metric unit:%
表3 使用ADD(-S)指標在LINEMOD數(shù)據(jù)集上各方法對比 單位:%Tab.3 Comparison of methods on LINEMOD dataset in terms of ADD(-S)metric unit:%
BB8 使用3D 矩形框上的8 個點作為關(guān)鍵點,直接回歸坐標的位置,PVNet 和HybridPose 使用關(guān)鍵點投票的策略定位物體表面的關(guān)鍵點,DPOD 通過UV 圖建立稠密的2D-3D 對應關(guān)系。其中BB8、DPOD、HybridPose 通常使用細化網(wǎng)絡提高其精度。
在LINEMOD 數(shù)據(jù)集中,本文方法不使用細化網(wǎng)絡達到了最高精度,相較于基于投票策略的網(wǎng)絡PVNet,2D 投影指標和ADD(-S)指標分別提高了0.3 個百分點和5.0 個百分點,驗證了本文方法對于弱紋理物體以及復雜背景下計算關(guān)鍵點的有效性以及準確性,大幅提升了旋轉(zhuǎn)矩陣和平移矩陣的精度。尤其對于小尺寸類別ape 和duck,在ADD(-S)指標分別提升了25.0 個百分點和16.0 個百分點,驗證了本文方法在融合多尺度上下文信息有明顯優(yōu)勢。實驗結(jié)果表明本文方法在精度上可以媲美較新的一些加了細化網(wǎng)絡的方法,如HybridPose。
3.4.3 Occlusion LINEMOD 數(shù)據(jù)集實驗結(jié)果分析
遮擋條件下的物體6D 姿態(tài)估計是該領(lǐng)域的一項挑戰(zhàn),本文總結(jié)對比了Oberweger[14]、SegDriven[24]、PVNet[3]、SSPE(Single-Stage Pose Estimation)[25]、DPOD[11]、HybridPose[15]在Occlusion LINEMOD 數(shù)據(jù)集上的實驗結(jié)果,如表4、5 所示。
表4 使用2D投影指標在Occlusion LINEMOD 數(shù)據(jù)集上各方法對比 單位:%Tab.4 Comparison of methods on Occlusion LINEMOD dataset in terms of 2D Projection metric unit:%
在2D 投影指標中,在Occlusion LINEMOD 數(shù)據(jù)集上,本文方法的性能接近PVNet,但是仍然提升了0.4 個百分點。ADD(-S)將對稱物體納入考慮范圍之內(nèi),相較于2D 投影指標更嚴謹,故本文將其引入對模型進行進一步評估。
本文方法在對PVNet 進行改進之后,在Occlusion LINEMOD 數(shù)據(jù)集中,ADD(-S)指標平均值從40.8%提升到了46.3%;且在多個類別中取得了最高的分數(shù),包括ape、can、driller、duck、holepuncher。在不加任何細化網(wǎng)絡的前提下,本文方法的準確率最高,優(yōu)于DPOD 方法13.5 個百分點,驗證了本文方法在遮擋條件下具有更出色的性能。對于對稱物體glue、eggbox,性能有輕微下降,通過分析可知是由于輕量級網(wǎng)絡對于對稱信息的學習不敏感造成對注意力圖的影響。但總體而言,本文方法在遮擋場景下有較強的魯棒性。
表5 使用ADD(-S)指標在Occlusion LINEMOD 數(shù)據(jù)集上與其他方法對比 單位:%Tab.5 Comparison with other methods on Occlusion LINEMOD dataset in terms of ADD(-S)metric unit:%
3.4.4 超參數(shù)σ對模型影響分析
σ的作用是對尺度的值進行范圍調(diào)整。在實驗中,將尺度敏感因子σ設置為0.5,即每次預測誤差都被歸一化到其對象尺度的一半。根據(jù)實驗觀察,將σ設置為0.5 的誤差值始終小于將σ設置為1 的誤差值,因此處于Smooth L1 損失或L1 損失的非線性區(qū)域,能夠進行有效的反向梯度傳播。
為驗證融合注意力的增強特征對遮擋物體姿態(tài)估計的影響以及使用注意力圖求解關(guān)鍵點相較于基于RANSAC 投票求解關(guān)鍵點對實驗結(jié)果精度的影響,本文設計了消融實驗。通過消除CBAM 以及使用注意力圖求解關(guān)鍵點的方法替代投票選取關(guān)鍵點的策略與基模型PVNet 進行對比,實驗在LINEMOD 數(shù)據(jù)集和Occlusion LINEMOD 數(shù)據(jù)集上進行。
實驗結(jié)果如表6 所示。采用控制變量法對2.1 節(jié)、2.2 節(jié)中的優(yōu)化策略進行實驗表明,使用注意力圖求解關(guān)鍵點的策略,相較于基于RANSAC 投票策略,在LINEMOD 數(shù)據(jù)集中2D 投影指標和ADD(-S)指標分別提升了0.2 和4.6 個百分點;在Occlusion LINEMOD 數(shù)據(jù)集中ADD(-S)指標提升了3.4 個百分點;2D 投影指標有所下降,這是由于特征表達能力受限,注意力圖得分較高的像素點集中分布在關(guān)鍵點周圍,當物體被嚴重遮擋時,關(guān)鍵點的位置產(chǎn)生偏差。模型在跳躍連接階段加入CBAM 之后,相較于只使用投票策略的方法,在LINEMOD 數(shù)據(jù)集中2D 投影指標和ADD(-S)指標分別提升了0.3 和5.0 個百分點;在Occlusion LINEMOD 數(shù)據(jù)集中2D 投影指標和ADD(-S)指標分別提升了0.3 和5.5 個百分點,驗證了融合注意力模塊之后的基于注意力圖關(guān)鍵點求解策略大幅度提升了姿態(tài)估計方法的精度。
表6 消融實驗結(jié)果Tab.6 Ablation experiment results
在跳躍連接階段加入CBAM 后,淺層特征通過注意力模塊后可以摒棄掉特征矩陣中與背景相關(guān)的冗余信息,增強淺層特征表達能力;通過與深層特征的融合,有利于捕捉全局信息優(yōu)化分割效果,同時提升回歸偏置圖精度,讓注意圖分數(shù)不單單聚集在關(guān)鍵點周圍,有更好的分布性。如圖4 所示,加了CBAM 的模型回歸的注意力圖更能充分利用每個位置的信息,權(quán)重不單一集中在關(guān)鍵點周圍。配合注意力圖求解關(guān)鍵點方法的結(jié)果更準確;同時,該方法在關(guān)鍵點被遮擋條件下,仍然具有良好的魯棒性。
圖4 注意力圖可視化Fig.4 Visualization of attention map
本文在LINEMOD 數(shù)據(jù)集和Occlusion LINEMOD 數(shù)據(jù)集中對類別ape、cat、driller、glue 隨機選取了一些圖片進行可視化,如圖5 所示。其中圖5(a)為原圖,圖5(b)為預測物體掩碼圖及其最大的外接矩陣,圖5(c)為預測關(guān)鍵點,圖5(d)為立體矩形框,包圍矩形線條分別代表物體的預測姿態(tài)與真實姿態(tài)。第一行類別ape 和第二行類別cat 是在LINEMOD 數(shù)據(jù)集測試結(jié)果,第三行類別driller 和第四行類別glue 是在Occlusion LINEMOD 數(shù)據(jù)集上的測試結(jié)果。
從圖5 中可以看出,無論是對于小尺寸類別ape 或者是大尺寸類別driller,本文方法都能準確檢測到關(guān)鍵點的位置;此外,在Occlusion LINEMOD 數(shù)據(jù)集中的場景下,即使關(guān)鍵點被遮擋,本文方法仍然能夠準確檢測到關(guān)鍵點的位置,求解出物體姿態(tài),可以有效應用于機械臂抓取。
圖5 部分實驗結(jié)果可視化Fig.5 Visualization of some experimental results
本文在基于關(guān)鍵點的單目圖像物體6D 姿態(tài)估計方法中,對PVNet 網(wǎng)絡架構(gòu)以及關(guān)鍵點求解策略進行了改進,在幾乎不增加網(wǎng)絡負擔、滿足機械臂抓取實時性要求下,通過加入融合通道空間注意力信息的CBAM 并采用一種可微的求解關(guān)鍵點方法,提升了網(wǎng)絡的性能。實驗結(jié)果表明,本文方法在LINEMOD 數(shù)據(jù)集中ADD(-S)指標提高了5.0 個百分點,在Occlusion LINEMOD 數(shù)據(jù)集中ADD(-S)指標提高了5.5 個百分點,顯著提升了模型在遮擋場景下的單目RGB 圖像的物體6D 姿態(tài)估計的魯棒性,甚至可以媲美一些加了細化網(wǎng)絡的方法。
但是在研究過程中還存在一些問題,例如對于對稱物體,輕量級網(wǎng)絡在學習過程中和遮擋場景下的關(guān)鍵點求解過程中未能充分有效利用其對稱信息,另外該方法依賴于真實數(shù)據(jù)集標注,需要大量標簽;因此,下一步工作的重點將會針對輕量級網(wǎng)絡下對稱物體關(guān)鍵點求解策略以及在無標簽場景下采用無監(jiān)督方式對單目圖像進行物體6D 姿態(tài)估計。