基于SE-ResNet的實時抓取姿態估計

2025-02-23 00:00:00王震洲王剛宿景芳

物聯網技術 2025年4期

摘要：針對在非結構化抓取環境中機器人抓取成功率低和速度慢的問題，提出了一種基于SE-ResNet的生成殘差卷積神經網絡模型。首先，該模型在生成殘差卷積神經網絡（GR-ConvNet）模型的基礎上引入了擠壓和激勵模塊的殘差網絡來增強有效信息，抑制無效信息，并進行了深層次特征提取，提高了神經網絡對抓取姿態中心的敏感性；其次，引入多尺度并行空洞卷積模塊，用于提取不同尺度的特征，在不減少感受野的情況下提高了信息利用率，同時，其并行結構避免了多尺度特征之間的冗余；最后，針對單物體場景和多物體場景進行實驗。實驗結果表明，該方法可以幫助網絡為機器人抓取檢測任務學習更好的視覺特征。經驗證，該方法的抓取準確率達98.3%，處理速度較快，滿足了實時性的要求。

關鍵詞：機器人；通道注意力機制；多尺度空洞卷積；抓取檢測；殘差網絡；感受野

中圖分類號：TP242 文獻標識碼：A 文章編號：2095-1302（2025）04-0-05

0 引言

機器人對物體的抓取已經得到了廣泛的研究，但它仍然是機器人領域中一個具有挑戰性的問題。人類會識別對物體的多種抓取（感知），并計劃如何拿起（計劃）與可靠抓取（控制）[1]。因此，當前的機器人研究面臨著準確的抓取檢測、軌跡規劃和可靠執行等一系列具有挑戰性的任務。在這些任務中，快速、準確地從圖像傳感器中檢測抓取物品是機器人實現成功抓取的關鍵。

關于機器人抓取檢測的研究有很多，但針對已知的、熟悉的或新事物，抓取過程一般分為分析和數據驅動兩部分[2]。分析，即首先利用物體模型生成穩定的抓取指令，然后根據物體在場景中的姿態進行抓取。但由于難以建模，以及機械臂和物體之間的物理作用，往往不能很好地將設想實現。數據驅動方法利用數據學習適合抓取的判別特征，并在生成抓取位置方面具備出色的性能。

機器人抓取經歷了較長的探索，而深度學習以其強大的特征提取能力，展現出了極強的抓取優勢[3]。文獻[4]首次提出了基于深度學習分類器的機器人抓取檢測方法，在康奈爾數據集上，實現了高達73.9%（圖像方面）和75.6%（對象方面）的抓取檢測精度。但受滑動窗口的影響，每張圖像的計算時間較慢（每張圖像13.5 s）。在不使用滑動窗口的情況下，文獻[5]提出了一種基于卷積神經網絡的機器人抓取檢測方法，該方法具有較高的精確性和實時性，通過單階段回歸可抓取的邊界框實現抓取檢測，避免了模型參數過大的問題。文獻[6]開發了一種生成抓取卷積神經網絡（GG-CNN），該網絡以圖像為輸入，輸出抓取姿勢和相應的抓取質量分數，且檢測穩定抓取動作時的數量級更小。針對訓練數據不足、缺乏評價基準的問題，文

獻[7]提供了一個具有統一評價系統的大規模抓取姿態檢測數據集。數據集有97 280張RGB-D圖像，包含超過10億個抓取姿勢。該文提出了一個給定點云輸入的端到端抓取姿態預測網絡，其以解耦的方式學習接近方向和操作參數。最近，全卷積網絡（FCN）已被開發用于抓取檢測。然而，在標記可抓取區域時，這些方法對特征賦予了相同的權重，沒有強調抓取概率在中心點的重要性，極大地降低了當前抓取姿勢檢測方法的速度和準確性。

為了解決這個問題，本文在GR-ConvNet模型的基礎上，提出了一種基于注意力機制的實時抓取檢測算法。在GR-ConvNet模型上，引入通道注意力機制，以關注重要信息，抑制無用信息。此舉可以有效地區分可抓取區域和不可抓取區域，更準確地檢測抓取矩形，同時，為提取不同尺度的信息，引入了多尺度空洞卷積模塊，可以有效控制感受野。對此，在單對象和多對象數據集上進行評估，發現抓取模型在推理速度和準確率方面均取得了較好效果。

1 相關介紹

1.1 抓取在圖像空間中的表達式

在機器人抓取檢測中，文獻[8-9]基于五維抓取表示來生成抓取姿勢：

（1）

式中：（x， y）為中心點坐標；θ為抓取矩形的方向；w、h分別為抓取矩形的寬度和高度。五維抓取表示如圖1所示。

矩形框在物體檢測中使用較多，但不適合抓取檢測任務。由于夾持器的尺寸通常是一個已知變量，因此文獻[10]引入了一種簡化的表示方法，用于高精度、實時的機器人抓取，定義如下：

（2）

夾持器的位置和姿態可以用笛卡爾坐標系中的中心點

p=（x， y， z）和繞z軸的旋轉角度φ以及開合距離w表示。然而，五維抓取表示缺少一個尺度因子來評估抓取質量。為了解決這一問題，本文引入了一個新的尺度因子，用于衡量抓取成功的概率。新的空間抓取表示定義如下：

（3）

式中：=（u， v）表示圖像坐標中的中心點；表示相機幀內的方向；和分別表示抓手的開閉距離和抓手質量。當知道抓取系統的標定結果時，可以通過矩陣運算將抓握位姿轉換為世界坐標g：

（4）

式中：TRC和TCI分別表示相機幀到世界幀和二維圖像空間到相機幀的變換矩陣。將圖像空間中的抓取映射記為：

（5）

式中：抓取圖Φ、W、Q中的每個像素都用相應的、、值填充，以確保在后續推理過程中，通過搜索最大抓取質量的像素值來找到中心點坐標，即：。

1.2 抓取檢測流程

相機采集到含有抓取物體的圖像，將圖像信息經過數據增強、調整輸入大小等操作后輸入給抓取檢測網絡，生成抓取框圖，機械臂根據網絡輸出信息定位抓取點，完成抓取操作。抓取檢測流程如圖2所示。

1.3 注意力機制

注意力機制最早在神經科學領域提出，如今已被廣泛應用于計算機視覺領域。文獻[11]提出了判別相關濾波器（DCF）的方法，該方法可以從通道和空間兩個方面對特征進行調整。調整特征權重，注意力機制使神經網絡更加關注重要的特征，從而提高神經網絡的性能。

2 改進的GR-Convnet模型

2.1 SE-ResNet

帶有擠壓和激勵模塊的殘差網絡（SE-ResNet）如圖3所示。SE-ResNet的第一部分由三個卷積層組成，其中卷積核的大小為3×3。第二部分是擠壓和激勵（SE）塊，其中減速比r設置為16。在擠壓部分，SE塊使用全局平均池化層來擠壓特征中包含的參數；在激勵部分，SE塊包含兩個完全連接層和一個ReLU層。為了減少參數的數量并限制模型的復雜度，在第一個全連接層中設置了縮減率，在第二個全連接層中使用該縮減率將特征重新縮放到原始大小。最后，使用S形函數輸出每個通道的權重。

2.2 ASPP（多尺度空洞卷積模塊）

由于最大池化和網絡的深化，輸入數據的空間信息逐漸丟失。為了解決這個問題，引入多尺度空洞卷積模塊，通過空洞卷積操作，多尺度空洞卷積模塊可以在不減少感受野的同時減少信息丟失，并在不同尺度上對輸入特征圖進行卷積操作，從而有效捕獲多尺度的語義信息，處理不同尺度的目標，以提高模型的泛化能力和對細節的感知能力。并行結構避免了多尺度特征之間的冗余，如圖4所示。

2.3 網絡模型

本文模型在GR-ConvNet的基礎上進行了改進，引入了通道注意力機制和多尺度空洞卷積模塊，如圖5所示。該模型由卷積層、殘差層、多尺度特征模塊、轉置層組成。卷積層從輸入圖像中提取特征，其精確度隨著層數的增加而增加，但是當超過一定的層數時，會導致梯度消失和維數誤差等問題，致使精度的飽和度退化。為了提高神經網絡對抓取姿態的敏感性，本文進一步開發了帶有SE模塊的殘差塊，即SE-ResNet，采用殘差層有助于網絡更好地學習深層特征。為了提取不同尺度的特征并有效調節感受野，本文使用多尺度并行空洞卷積模塊。為了方便對卷積運算后圖像的空間特征進行解釋和保留，利用卷積轉置運算對圖像進行上采樣。這樣的設計使得設計的模型能夠更好地控制感受野，并且保持圖像的空間特征。

2.4 損失函數

本文分析了網絡中各種損失函數的性能，在運行了幾次實驗后發現平滑L損失（也稱為Huber損失）效果最佳，為了處理爆炸梯度，將損失定義如下：

（6）

（7）

3 實驗及結果分析

3.1 實驗環境

本文采用中移九天深度學習平臺，該平臺型號為NVIDIA V100，內存為16 GB，模型使用PyTorch作為深度學習算法的框架，學習率設為0.000 1。在實驗的訓練與評估階段，將數據集按照9∶1的比例劃分為訓練集與驗證集，batch-size為8。

3.2 數據準備

康奈爾數據集由244個不同物體的885張圖像組成（每個物體以不同的方向或姿勢拍攝幾張圖像），包含正向抓取5 110個，負向抓取2 909個。圖6為康奈爾數據集部分圖像。

康奈爾數據集場景由一張圖像中的一個對象組成，多對象數據集用于評估多對象或多抓取情況。

圖7所示為多對象數據集的部分圖像。該數據集由96幅圖像組成，每幅圖像中有3～5個不同的對象，遵循與康奈爾數據集相同的數據結構，以不同的方向或姿勢為每組對象拍攝幾張圖像，每幅圖像中每個對象的多個真實抓取使用相同的方法定義并注釋。

3.3 結果評價標準

為了驗證文中方法的有效性，提出了矩形度量，當抓取滿足以下兩個條件時，認為它是有效抓取，具體評價標準如下：

（1）預測抓取矩形的抓取方向與地面真實矩形的偏移小于30°。

（2）真實抓取矩形與預測抓取矩形的IoU大于25%，如式（8）所示：

（8）

式中：gpt為地面抓取矩形的面積；gp為預測抓取矩形的面積。

使用如下方式進行評估：

按圖像分割（IW）：隨機分割數據集，每個圖像都是等效的，用于測試對象處于不同姿態時模型的預測能力。

按對象拆分（OW）：隨機拆分對象實例，且測試數據集中的對象在訓練數據集中不可視，用于測試模型在遇到不同對象時的泛化能力。

3.4 實驗結果

表1顯示了一些現有算法在康奈爾數據集上的檢測性能，為驗證本文算法性能，在抓取檢測數據集上進行了實驗驗證。

由實驗分析結果可知，由于注意力機制的使用，改進的GR-ConvNet算法可以很好地將物體與背景區分開。利用殘差注意力模塊可以有效區分可抓取區域和不可抓取區域，更準確地檢測抓取矩形，并給出適當的抓取姿勢預測。通過引入多尺度空洞卷積模塊，可以進一步提取不同的感受野和尺度特征，從而更高效地提取相關特征。與原GR-ConvNet相比，改進的GR-ConvNet算法具有更高的質量分數，能夠保證其實時應用能力。實驗表明，本文方法更有效。原GR-ConvNet與本文算法檢測效果如圖8、圖9所示。

考慮到機器人在實際抓取過程中通常需要抓取多個物體，模型也在擁有多個物體的場景中進行了測試。測試效果如圖10、圖11所示。通過圖10、圖11發現：GR-ConvNet不能很好地區分物體存在與否，只能聚焦于一個或兩個物體，而改進后的GR-ConvNet算法更容易確定物體的中心范圍，意味著改進后的算法可以很好地將對象與背景區分開來。

3.5 故障案例分析

在實驗過程中發現，雖然本文算法具有較高的檢測精度，但在某些情況下仍會失效。圖12展示了一些失效實例。該模型不能很好地預測康奈爾數據集中較大物體的矩形方向，對于一些形狀較復雜的物體也缺乏較好的泛化能力。

然而，這些不足可以通過增加訓練數據的數量和多樣性來彌補。

3.6 消融實驗

為了更好地理解模型性能，進行了消融實驗，在原始GR-ConvNet模型上進行了相同的實驗，以確定哪個部分對模型的表現影響最大。消融實驗結果見表2。

所有網絡都在康奈爾數據集中進行訓練和測試，可以觀察到原模型在圖像和對象上的分割精度分別為97.7%和96.8%，為殘差模型加入注意力機制和多尺度空洞卷積模塊后，精度分別提高至98.3%和97.2%。

4 結語

為解決機器人抓取準確率低和實時生成目標抓取位姿的問題，在GR-ConvNet網絡的基礎上，整合注意力機制，可以進一步抑制無效信息，進行深層次特征提取，并通過加入多尺度并行空洞卷積模塊，融合不同尺度信息，進一步提高了網絡性能。實驗結果表明，整合注意力機制，加入多尺度并行空洞卷積模塊可以幫助神經網絡更好地學習視覺特征，并且在網絡參數與計算時間之間進行權衡。在未來的研究中，將在更大的數據集上訓練模型，助力機器人實現物品的精確抓取。

參考文獻

[1] PARK D， SEO Y， CHUN S Y. Real-time， highly accurate robotic grasp detection using fully convolutional neural network with rotation ensemble module [C]// 2020 IEEE International Conference on Robotics and Automation （ICRA）. Paris， France： IEEE， 2020： 9397-9403.

[2] PARK D， CHUN S Y. Classification based grasp detection using spatial transformer network [J]. arXiv. preprint： 1803.01356， 2018.

[3] VELA P A. Real-world multiobject， multigrasp detection [J]. IEEE robotics and automation letters， 2018， 3（4）： 3355-3362.

[4] LENZ I， LEE H， SAXENA A. Deep learning for detecting robotic grasps [J]. The international journal of robotics research， 2013， 34（4/5）.

[5] REDMON J， ANGELOVA A. Real-time grasp detection using convolutional neural networks [C]// 2015 IEEE International Conference On Robotics And Automation （ICRA）. Seattle， WA， USA： IEEE， 2015： 1316-1322.

[6] MORRISON D， CORKE P， LEITNER J. Closing the loop for robotic grasping： A real-time， generative grasp synthesis approach [J]. arXiv preprint： 1804.05172， 2018.

[7] FANG H S， WANG C， GOU M， et al. Graspnet-1billion： A large-scale benchmark for general object grasping [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle， WA， USA： IEEE， 2020： 11444-11453.

[8] CHU F， XU R， VELA P A. Deep grasp： detection and localization of grasps with deep neural networks [J]. arXiv preprint： 1802.00520.v2.

[9] GUO D， SUN F， LIU H， et al. A hybrid deep architecture for robotic grasp detection [C]// in 2017 IEEE International Conference on Robotics and Automation （ICRA）. Singapore： IEEE， 2017： 1609-1614.

[10] MORRISON D， CORKE P， LEITNER J. Learning robust， real-time， reactive robotic grasping [J]. The international journal of robotics research， 2020， 39（2）： 183-201.

[11] LUKEZIC A， VOJIR T， CEHOVIN Z L， et al. Discriminative correlation filter with channel and spatial reliability [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.Honolulu， HI， USA： IEEE， 2017： 6309-6318.

物聯網技術2025年4期

物聯網技術的其它文章: 基于ROS的家居服務機器人路徑規劃實驗設計; 基于OBE理念的物聯網通信技術課程評價方式的研究; 一種物聯網聯動的智能空氣凈化系統; 脈診用柔性傳感器及便攜檢測設備的研制; BIM技術在工業物聯網設計流程中的應用與研究; DAResNet：基于動態卷積與注意力的魚類分類算法