洪倩倩,楊亮,曾碧
(1.廣東工業大學,廣東 廣州 510006;2.電子科技大學 中山學院,廣東 中山 528402)
近些年來,伴機器人在各個領域得到廣泛應用,例如精密醫療[1-3]、社會服務[4-5]、工業制造[6-7]、航空航天[8-9]等,抓取技術作為機器人控制核心之一也獲得了大量關注,但是在實際應用環境中,機器人對未見過的新物體實時地決定一個合適的抓取位姿仍是一個較大的挑戰。
在先前的研究工作中,許多抓取方法基于手工特征[10]進行抓取位姿推理,這些方法有工序繁重、耗時、對新物體泛化性弱等缺點。而隨著近年來深度學習技術的發展,基于深度學習的方法[11-15]在抓取領域上取得了顯著的進展,其中包括基于分類的抓取檢測方法[16-18],此類方法在抓取位姿方面上取得一定改進,但是存在計算耗時長并要求較多計算資源的劣勢;還有基于回歸的檢測方法[19-20],該方法在抓取位姿檢測上有不錯的精度表現,但是此類方法通常基于潛在可能的抓取位姿平均值預測實際的抓取位姿,有時會出現不合理的位姿推斷偏差。
為了解決上述問題,文中提出一種基于殘差注意力生成網絡的抓取位姿生成方法,通過在康奈爾公開抓取檢測數據集上進行算法對比及消融實驗,比較不同方法對位姿生成精度的影響,進而驗證文中方法的有效性。
文中提出的殘差注意力生成網絡主要由三個部分組成,分別是編碼器、聚合層、解碼器。殘差注意力生成網絡及生成結果圖如圖1 所示。

圖1 殘差注意力生成網絡及生成結果圖
相比原有抓取位姿生成研究,為了進一步增強網絡的特征提取能力,編碼器部分采用殘差卷積模塊獲取更豐富的特征表示,通過特征向量的跨層傳遞,在訓練中加速了網絡的收斂,避免出現梯度消失的問題。殘差卷積模塊采用較大的卷積核設定,進而獲得更大的感受野。
為了解決殘差注意力生成網絡面對不同目標尺寸波動時的檢測魯棒性問題,文中在聚合層引入了多尺度并行空洞卷積模塊。多尺度并行空洞卷積模塊采用瀑布結構,通過空洞卷積在保留圖像分辨率的情況下擴張圖像的感受野。文中方法針對每個分支,分別設置了不同的卷積核大小與擴張率,以有效獲取不同尺度下的上下文語義信息,強化殘差注意力生成網絡在面對不同尺寸大小目標時的檢測魯棒性。另外,有針對性地在聚合層使用多尺度并行空洞卷積模塊策略,使文中方法在少量增加網絡訓練量與模型參數的同時有效改善了網絡魯棒性與精度表現。多尺度并行空洞卷積模塊如圖2 所示。

圖2 多尺度并行空洞卷積模塊
不同于編碼器與聚合層主要關注于提升網絡的特征提取能力,解碼器部分更多聚焦于從已提取的特征中發掘更多有效信息。因此文中在解碼器部分融合了注意力模塊與對稱跳躍連接策略,其中對稱跳躍連接策略以將對應編碼器模塊特征傳遞到對應解碼器模塊中的連接方式,保留了不同層次的細粒度特征細節,而注意力模塊通過將位置信息嵌入到通道注意力中,沿兩個不同空間方向進行特征聚合,生成一對位置敏感與方向敏感的注意力參數Ch、Cw,并將這對參數互補地應用于輸入特征,進而增強對關注目標的特征表示。注意力模塊的輸入輸出關系為:
文中研究對象為給出多模態圖像數據的新物體抓取位姿,采用已有研究提出的矩形度量方法[16-17]評估網絡生成的抓取位姿生成結果。文中將多模態圖像中的新物體抓取位姿定義為:

其中,pi代表了末端夾爪抓取中心點的二維坐標(u,v),wi代表末端夾爪的張開寬度,θi代表末端夾爪旋轉角,范圍為[-2/π,2/π]。而qi代表基于像素級層面的末端抓取位姿的成功概率預測常量。圖3所示為抓取位姿示意圖。

圖3 抓取位姿示意圖
文中硬件環境使用的顯卡為Nvidia GeForce RTX 2080ti,實驗平臺與系統是Ubuntu16.04、Pytorch深度學習框架。
文中實驗基于公開的康奈爾抓取位姿檢測數據集展開,此數據集共包含240 種不同物體的885 張RGB-D 圖像與對應圖像中物體的基準夾取位置描述文件。
由于康奈爾數據集樣本量相對較小,因此在實驗中采用了隨機裁剪、隨機縮放和隨機旋轉等數據增強操作對康奈爾數據集進行數據樣本數量的擴充。在實驗的訓練與評估階段,將數據集按照9∶1的比例劃分為訓練集與驗證集。

文中提出的殘差注意力生成網絡使用Xavier 正態分布作為網絡參數的初始化方法,使用Adam 方法作為網絡優化算法,其中Adam 初始學習率設為0.000 1,文中提出的網絡結構采用Huber Loss 作為損失函數。
為了驗證文中方法的有效性,選取了與已有研究方法相同的評測標準,即當網絡生成的抓取位姿符合下述兩個條件時視為一次成功的機械波末端抓取位姿,具體評價標準為:
1)文中方法的預測末端抓取框與數據集基準抓取框的夾角小于或等于30°。
2)文中方法的預測末端抓取框與數據集基準抓取框的交并比指數大于25%。
為驗證文中提出的殘差注意力生成網絡在新目標抓取位姿生成問題上的有效性,在康奈爾抓取檢測數據集上進行了實驗驗證,并設置了消融實驗用于評估不同模塊對于網絡檢測能力的影響。
3.5.1 康奈爾抓取檢測數據集結果
將文中提出方法的殘差注意力生成網絡與已有研究從兩個維度進行比較,分別是檢測精度與檢測時間,在多模態數據下分別進行了測試,如表1 所示。從表1中結果可發現,得益于更豐富的特征信息,文中方法使用RGB-D 圖像在康奈爾數據集上獲得了96.6%的檢測精度與18 ms 的實時檢測時間,優于其他相關研究方法的實驗結果,證明了文中所提方法的有效性。

表1 康奈爾抓取檢測數據集結果
3.5.2 消融實驗
為了增強殘差注意力生成面對新物體的泛化能力,文中提出的網絡結構不僅采用殘差卷積模塊、多尺度并行空洞卷積模塊用于增強網絡的特征提取與表達,還融合了對稱跳躍連接策略、注意力機制以強化目標特征細節。因此文中基于康奈爾數據集的RGB-D 圖像數據進行了消融對比實驗,以研究殘差注意力生成網絡結構中使用不同模塊策略對檢測精度帶來的影響。實驗結果如表2 所示,其中實驗一采用了包含殘差卷積模塊與跳躍連接策略的基礎殘差注意力生成網絡結構,實驗二添加了多尺度并行空洞卷積模塊,實驗三添結構加了注意力模塊,實驗四采用綜合所有策略的殘差注意力生成網絡結構。

表2 消融實驗結果
實驗結果表明,文中所提出的融合注意力機制與對稱跳躍連接策略的基礎網絡結構得到了92.1%的精度表現,證明了文中所提基礎網絡結構的可行性。隨后,基于基礎網絡分別評估了添加多尺度并行空洞卷積模塊與注意力模塊對網絡精度表現的增益,實驗結果顯示,受益于特征信息豐富度的增加,使用這兩種策略分別令基礎網絡結構取得了2.2%與0.9%的精度提升,而最后通過融合所有策略,文中最終提出的殘差注意力生成網絡結構在康奈爾抓取檢測數據集上得到了96.6%的精度表現。
為了解決機器人面對未見過的新物體時實時有效地生成目標抓取位姿的問題,文中創新地提出了一種殘差注意力生成神經網絡結構,這種結構融合了位置注意力機制、多尺度并行空洞卷積模塊與對稱跳躍連接策略,在抓取位姿生成問題的速度與精度上取得了一個較好平衡。實驗結果表明,在康奈爾數據集上,文中提出的方法在實時生成速度下獲得了不錯的抓取位姿生成精度,驗證了文中所提出方法的有效性。在后續的工作中,將主要著力于針對難樣本的檢測精度改善。