李佳城,陳智強(通信作者),王 碩
(1 遼寧工程技術大學測繪與地理科學學院 遼寧 阜新 123000)
(2 遼寧科技大學電子信息與工程學院 遼寧 鞍山 114051)
工業機器人在使用上面臨著感知能力不強、無法適應周圍環境的問題。通過三維視覺獲取場景三維信息,在三維信息引導下計算機器人末端運動軌跡,使得機器人在視覺引導下更好地適應周圍環境,這是機器人行業要解決的核心問題。近幾年國內對于改進機器人抓取問題的方法在不斷發展,在2011年時,張森彥等[1]采用矩形框表示物體抓取位置來替代之前的點抓取法,而采用這種矩形框表達的抓取方法是機器人抓取的新應用,可達到比較理想的效果。隨著深度神經網絡的發展,神經網絡的應用似乎無處不在,在2019年,曹雛清等[2]也設計了一種新的深度神經網絡算法,該算法完成機器人對物體的判斷和針對判斷而形成的位置。隨著不同的神經網絡方法在機器人抓取問題的嘗試,卷積神經網絡也被設計出來解決機器人物體抓取的問題,而李傳浩[3]、王斌[4]、黃家才等[5]、李秀智等[6]、李鵬飛[7]采用隨機森林方法、循環神經網絡結合并使用ICP 算法,進一步提高抓取的效果。陳盟等[8]采用層次網絡構建抓取姿態的算法,上述抓取位置的構造效果和取得的抓取效率都在逐漸進步。
本文設計了一種輕量級卷積模塊Inception-ConCat,該模塊將圖像用卷積方式構建特征信息,這個過程是信息編碼過程,該過程結束后,再采用GRU 網絡對物體進行姿態識別,從而控制機械臂運動,形成抓取動作,成功抓住物體。為了驗證效果,算法首先在康奈爾數據集上驗證,之后在實際工作環境中,使用具有視覺抓取能力的KUKA 機械臂上進行驗證,結果表明研究人員所設計的抓取網絡運算速度快,抓取準確度高(綜合抓取成功率達到96.1%),相對于之前的抓取網絡[8],取得良好改善效果。
要實現機器人對于目標檢測的目標,最重要的一點是要對機器人抓取目標的位置進行正確的標定,通常研究人員用雙指抓手來實現物體抓取,如圖1所示,圖中的機械手是研究人員自己設計制造的機械手。機器人結構中,其上端是一個三維獲取視覺,整個手眼結構為典型的“眼在手上”(Eyes On Hand)結構。

圖1 視覺引導雙指機械抓手
機器人一般是在現實空間里進行抓取的,需要為機器人提供在三維空間的信息,而三維空間信息有3 個維度的位置信息,包括:機器人機械手的三維位置坐標、抓手的三維旋轉方向和抓手兩指張開的長度。在相機像素坐標下的表示的三維抓取信息需要通過轉移矩陣轉移到機器人抓手位置的三維坐標:

其中Tci是機器人使用的相機的內部參數矩陣,包括相機的焦距和像素大小等,Trc是把相機內參矩陣轉為機器人空間坐標的矩陣。研究人員可以應用矩形框檢測的方法來實現抓取:在檢測目標上生成一個矩形框來表示抓手的抓取范圍。
如圖2所示為抓取檢測網絡生成的矩形框。

圖2 二維抓取網絡參數表達
圖中,θ表示檢測矩形框與水平位置的夾角,(x,y)表示檢測矩形框的中心,H表示檢測矩形框的高,W表示檢測矩形框的寬。
采用傳統的卷積神經網絡來表達被抓取物體,其表達要么表達能力有限,要么網絡太繁瑣,為此研究人員設計了Inception-ConCat 模塊進行堆疊,并且利用殘差機制防止網絡退化。研究人員在卷積神經網絡基礎上增加Inception 機制,并且結合殘差機制防止網絡退化,從而給研究人員的網絡命名為Inception-ConCat 網絡。在此基礎上,研究人員基于所提出的Inception-ConCat 模塊又改進新的殘差結構網絡Inception-ConCat-ResNet,結構如圖3所示:

圖3 Inception-ConCat-ResNet 模塊
結合前部分提出的自主設計的網絡模塊,最終設計了一個抓取網絡Inception-ConCat GraspNet,這個網絡主要是對被抓取物體進行編碼,在編碼后,對編碼結構設計GRU 循環網絡進行解碼,在解碼過程中不斷控制機器人各個關節運動,使之最后成功抓取被測物。
抓取網絡的工作過程一般分兩個階段進行,第一個階段是預測出所有可能的抓取位置,第二階段是對這些可能的抓取位置進行投票,得分最高者就作為最終的抓取位置。這兩個階段的實現需要對應兩種不同的神經網絡。與一般抓取網絡不同的是,Inception-ConCat-GraspNet 是一個端到端的單階段抓取網絡,網絡執行一次即可得到結果,本文設計的抓取網絡整體框架如圖4所示。
在上述結構中,網絡由2 個卷積層核心3×3 卷積層、4 個自主設計的 Inception-ConCat-ResNet 模塊、全連接層所組成,FC1 隱藏的節點數為1 024,FC2 隱藏的節點數為256,在依次通過這三種網絡模塊后,可以得到檢測目標的矩形框和其他信息。
實驗中采用了兩個步驟驗證抓取網絡的效果,首先用康奈爾數據集進行基于圖片的抓取效果,然后使用自主設計的具有三維視覺抓取功能的實際視覺機器人驗證抓取效果,最后結果證明抓取網絡實現的效果理想,總精度達到95.1%,實際應用效果理想。
在下述實驗中,研究人員始終采用Jaccard 指數作為驗證標準。為了使實驗結果能與其他抓取網絡做橫向的比較,選擇在機器人抓取領域比較公認的康奈爾數據集作為實驗對象。該數據集提供900 幅的被抓取物體的圖像,這些樣本像都帶有矩形框,共有5 000 多個用于抓取物體的矩形框和將近3 000 個不可用于抓取的矩形框。
為了驗證本文所提算法的實際應用價值,研究人員采用實驗室自主設計的基于KUKA 機械臂的三維視覺抓取機構驗證抓取網絡效果,抓取機器人結構如前圖1所示。該視覺抓取機器人,研究人員自主設計了帶有深度信息的三維環境獲取傳感器,在三維視覺傳感器下方設計了兩個手指的抓手,并且將其設計為“眼在手上”結構,經過機械臂視覺標定后,三維視覺抓取機械臂的抓取精度在3 mm以內,完全滿足實驗中抓取的需求。
康奈爾抓取數據集是驗證抓取效果的公共數據集,為了使用該數據集要擴充康奈爾數據集提供的數據信息。先在圖像的中心選取480×480 大小的像素尺寸進行裁剪,然后隨機角度旋轉,在x軸和y軸方向上隨機最多平移20個像素,將其進行裁剪獲得480×480 的圖像。通過康奈爾數據集進行抓取框選擇,最后數據集上的實驗結果如表1所示:
抓取網絡檢測的部分抓取框結果如圖5所示:

圖5 康奈爾數據集的抓取框結果
如表2所示:為了驗證本文設計的機器人抓取檢測算法的實際效果,實驗結果表明,機器人抓取未知物體平均成功率為97.3%,其中抓取圓柱的準確率稍高,抓取圓筒的準確率稍低(96.7%),這個可能與被抓取物體的摩擦效果不同有關。上述結構已經充分說明本次設計的抓取網絡Inception-ConCat-GraspNe 在實際應用中具有重要的實用價值和意義,抓取過程如下圖6所示。

圖6 實際機器人的抓取效果

表2 視覺機器臂實際抓取效果統計
本文設計了一種新穎的卷積模塊Inception-ConCat 模塊并加強為Inception-ConCat-GraspNe 模塊,在此基礎上采用編碼解碼結構設計整個深度神經網絡。為了驗證實驗效果,在康奈爾公開數據集和實際的三維視覺機器人上進行實驗,結果表明設計的抓取網絡算法,其抓取準確率達到97.3%,在實際的機器人抓取實驗中也取得了95.1%的實際精度,本次設計的機器人抓取算法有明顯的優越性,具有重要意義和推廣價值。