王利祥,郭向偉,盧明星
(1.河南護(hù)理職業(yè)學(xué)院公共學(xué)科部,河南 安陽(yáng) 455000;2.河南理工大學(xué)電氣工程與自動(dòng)化學(xué)院,河南 焦作 454000)
智能機(jī)器人不僅要能夠執(zhí)行預(yù)定義的固定任務(wù),還應(yīng)該能夠基于嵌入式傳感器感知環(huán)境并與環(huán)境交互[1],視覺(jué)機(jī)器人對(duì)于物體的夾持是智能化控制的一大重要標(biāo)志。成功的抓取主要通過(guò)視覺(jué)或觸覺(jué)傳感器進(jìn)行正確的抓取姿勢(shì)檢測(cè),并在此基礎(chǔ)上進(jìn)行精確的夾持控制[2]。為了實(shí)現(xiàn)自主抓取,國(guó)內(nèi)外研究人員對(duì)視覺(jué)機(jī)器人的控制開(kāi)展了大量研究,文獻(xiàn)[3]將深度學(xué)習(xí)方法應(yīng)用到機(jī)器人抓取中,提出了一種用于多步級(jí)聯(lián)抓取的檢測(cè)系統(tǒng),該系統(tǒng)通過(guò)神經(jīng)網(wǎng)絡(luò)提取的特征代替之前算法中手工制作的特征。文獻(xiàn)[4]提出了深度強(qiáng)化學(xué)習(xí)的視覺(jué)機(jī)器人抓取策略,該策略通過(guò)深度網(wǎng)絡(luò)框架進(jìn)行學(xué)習(xí)訓(xùn)練,有效提升了機(jī)器人抓取物體成功率。文獻(xiàn)[5]研究了RGB顏色空間下的視覺(jué)機(jī)器人識(shí)別方法,提出了視覺(jué)逼近的控制算法,該策略應(yīng)用在視覺(jué)機(jī)器人上具有一定的識(shí)別成功率和抓取成功率。文獻(xiàn)[6]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)方法,提出了機(jī)器人抓取算法,該算法在Cornell抓取數(shù)據(jù)集上得到了有效驗(yàn)證,且應(yīng)用在視覺(jué)機(jī)器人抓取動(dòng)作上。文獻(xiàn)[7]針對(duì)視覺(jué)機(jī)器人的物體抓取,在圖形融合技術(shù)的基礎(chǔ)上提出了改進(jìn)的Canny的圖形邊緣檢測(cè)算法,該控制算法在抓取物體過(guò)程中具有較好的魯棒性能。文獻(xiàn)[8]基于殘差BP神經(jīng)網(wǎng)絡(luò)研究了視覺(jué)機(jī)器人對(duì)圖像識(shí)別與機(jī)器人關(guān)節(jié)角之間的關(guān)系,神經(jīng)網(wǎng)絡(luò)模型的性能得到了有效提升,通過(guò)劃分區(qū)域?qū)?shù)據(jù)進(jìn)行了訓(xùn)練,視覺(jué)機(jī)器人的網(wǎng)絡(luò)訓(xùn)練速度得到了提升。
上述所有方法都是基于單尺度特征生成抓取,這些特征提取器具有低分辨率(較高層)或語(yǔ)義信息較少(較低層)的特征,這削弱了抓取檢測(cè)精度。基于此,使用密集連接的FPN作為特征提取器,將語(yǔ)義更強(qiáng)的高級(jí)特征圖與分辨率更高的低級(jí)特征圖融合,將兩階段檢測(cè)單元附加到每個(gè)融合層,根據(jù)融合的特征圖中生成密集的抓取預(yù)測(cè),這種模型結(jié)構(gòu)保證了對(duì)各種物體的精確抓取。并在Cornell抓取數(shù)據(jù)集和Jacquard數(shù)據(jù)集上訓(xùn)練,并證了所提算法在抓取姿勢(shì)估計(jì)的有效性。設(shè)計(jì)了兩種不同真實(shí)場(chǎng)景的物體抓取控制實(shí)驗(yàn),結(jié)果表明所提模型能有效提高機(jī)器人抓取物體的能力。
這里研究的視覺(jué)感知抓取機(jī)器人結(jié)構(gòu)示意圖,如圖1所示。將深度相機(jī)RGBD相機(jī)安裝在機(jī)器人手臂上進(jìn)行視覺(jué)感知,如圖1(a)所示。抓取構(gòu)型的邊界框,如圖1(b)所示。[x,y]表示圖像幀中的位置,[w,h]以像素表示夾持器寬度和開(kāi)口寬度,θ是圖像框中矩形相對(duì)于X軸的夾角,即通過(guò)5D向量[x,y,w,h,θ]來(lái)描述圖像幀中的抓取姿勢(shì)。

圖1 視覺(jué)感知抓取機(jī)器人結(jié)構(gòu)示意圖Fig.1 Structure Diagram of Visual Perception Grasping Robot
在檢測(cè)到圖像中的抓取姿態(tài)后,首先將圖像幀中表示的抓取姿態(tài)轉(zhuǎn)換到相機(jī)坐標(biāo)系中,其中可以利用相機(jī)固有參數(shù)和感知到的原始深度圖像計(jì)算變換矩陣。抓取估計(jì)的最終目標(biāo)是找到相對(duì)于機(jī)器人基座的邊界框的位置和角度。一旦確定攝像頭和抓取姿勢(shì)之間的齊次變換后,可以根據(jù)機(jī)器人運(yùn)動(dòng)學(xué)計(jì)算抓取姿勢(shì)與機(jī)器人底座之間的位置和方向位移:
機(jī)器人抓取姿態(tài)的估計(jì),與抓取器和物體之間的最佳接觸點(diǎn)有關(guān)。這些6D空間接觸點(diǎn)可以通過(guò)機(jī)器人手臂相對(duì)于機(jī)器人基座的6D位姿進(jìn)行構(gòu)型,即[X,Y,Z,yaw,pitch,roll]。
在不喪失普適性的情況下,可以假設(shè)機(jī)器人手臂沿著實(shí)驗(yàn)臺(tái)法線接近物體,或者對(duì)于其他情況,可以用抓取中心在物體上的表面法線作為接近方向,因此抓取姿勢(shì)的角度可以簡(jiǎn)單地通過(guò)偏航角來(lái)確定。
對(duì)于平移,圖像拍攝點(diǎn)到實(shí)驗(yàn)室工作臺(tái)之間的高度是固定的,或者可以通過(guò)原始深度圖像像素值計(jì)算。通過(guò)這些簡(jiǎn)化的程序,可以發(fā)現(xiàn)抓取檢測(cè)所需的位姿構(gòu)型由[X,Y,yaw]組成,模型應(yīng)該根據(jù)捕獲的RGB或深度圖像找到正確的構(gòu)型。此外,還有兩個(gè)特征為每一個(gè)獨(dú)特的抓取提供有用的信息,一個(gè)是夾持器的開(kāi)口寬度H,這是由檢測(cè)出的物體大小和幾何細(xì)節(jié)決定,另一個(gè)是抓取區(qū)域的寬度W。最后通過(guò)5D 向量來(lái)描述可能的抓取區(qū)域,即[X,Y,yaw,H,W]。所有這些特征都可以通過(guò)攝像機(jī)的固有特性和機(jī)器人的結(jié)構(gòu)構(gòu)型映射到圖像幀。
抓取矩形的大小隨物體及其幾何細(xì)節(jié)的變化而變化,為了適應(yīng)物體,模型應(yīng)考慮預(yù)測(cè)不同大小的抓取矩形。對(duì)于普通的CNN,卷積層和池化層的組合逐步生成層次特征圖。
隨著層的深入,特征映射的接受域變大,可以獲得分辨率降低、語(yǔ)義信息增加的層。較低層次的特征圖有更多的圖像細(xì)節(jié),并能夠預(yù)測(cè)小的抓取矩形。相比之下,高級(jí)特征圖包含更多抽象的語(yǔ)義信息,且能夠回歸大的抓取矩形。僅將抓取檢測(cè)單元附加到最高或最低(最精細(xì))層,將分別導(dǎo)致抓取區(qū)域邊界框參數(shù)回歸不準(zhǔn)確或識(shí)別失敗。
這里提出了一種密集連接的FPN,即下采樣部分,上采樣部分及其橫向連接,作為特征提取器。下采樣部分從每個(gè)ResNet階段的最后一層輸出中選取,即輸出大小相同的圖層。
然后將這些來(lái)自不同層的特征映射進(jìn)行密集融合,提取圖像的語(yǔ)義信息。這些融合的特征圖可以在精確的定位和豐富的語(yǔ)義信息之間實(shí)現(xiàn)很好的平衡,并發(fā)送給預(yù)測(cè)單元,整個(gè)模型,如圖2所示。

圖2 整體模型結(jié)構(gòu)示意圖Fig.2 Schematic Diagram of Overall Model Structure
特征提取器的下采樣部分由ResNet-50構(gòu)造[9],得到一系列標(biāo)度步長(zhǎng)為2的標(biāo)度特征圖,每個(gè)最后剩余塊的激活輸出,記為[D2,D3,D4,D5],是系統(tǒng)中的下采樣特征圖。與輸入圖像相比,這些特征圖的步幅為[4,8,16,32]像素。然后,通過(guò)對(duì)應(yīng)的對(duì)應(yīng)特征圖Di和所有之前上采樣的融合層的橫向連接生成融合層,記為[Q5,Q4,Q3,Q2]。最高層Q5是通過(guò)對(duì)特征圖D5上操作的(1×1)核獲得,融合層[Q5,Q4,Q3,Q2]計(jì)算為:
其中,Ki為從最上層(5)到最后一層(j=i+1)的所有前融合層的連接,即:
融合層Q2的形成過(guò)程示意圖,如圖3所示。Q2是之前所有上采樣層(Q3,Q4,Q5)和下采樣特征圖D2的融合,抓取姿態(tài)估計(jì)可以通過(guò)兩階段抓取檢測(cè)器從這些融合層中獲得。

圖3 融合層Q2的形成Fig.3 Formation of Fusion Layer Q2
抓取姿勢(shì)檢測(cè)單元根據(jù)融合的特征圖中生成密集的抓取預(yù)測(cè),檢測(cè)單元分為兩個(gè)階段,包括第一階段的粗抓取區(qū)域檢測(cè)和第二階段的抓取姿態(tài)細(xì)化。在第一階段中,大部分可能的抓取區(qū)域通過(guò)錨點(diǎn)策略獲得。錨點(diǎn)是一系列預(yù)定義的水平邊界框,具有不同的大小和縱橫比,位于圖像中密集平鋪的錨點(diǎn)上。錨點(diǎn)的設(shè)置應(yīng)該覆蓋大部分的抓取矩形[10],除了旋轉(zhuǎn)角度,旋轉(zhuǎn)角度會(huì)在第二階段回歸。將這些錨點(diǎn)作為參考,以預(yù)測(cè)抓取區(qū)域的可能性,并得到粗抓取框參數(shù),包括位置和尺度。抓取建議網(wǎng)絡(luò)是一個(gè)輕量級(jí)網(wǎng)絡(luò),在整個(gè)圖像上滑動(dòng),以搜索潛在的對(duì)跖抓取。
在第二階段,基于建議裁剪的融合圖,并使用感興趣區(qū)域(ROI)池化策略提取固定長(zhǎng)度特征,并將其發(fā)送到分類(lèi)頭和回歸頭進(jìn)行精細(xì)化抓取預(yù)測(cè)。由于抓取檢測(cè)任務(wù)只包含單個(gè)類(lèi)別,即抓取區(qū)域與否,第二階段分類(lèi)頭與第一階段相同,用于預(yù)測(cè)正抓取區(qū)域的可能性。
與之前固定錨點(diǎn)和建議數(shù)量的對(duì)象檢測(cè)方法不同,本研究通過(guò)保證正樣本和負(fù)樣本之間的平衡來(lái)計(jì)算損失和更新模型參數(shù)。選取300個(gè)得分最高的錨點(diǎn)作為池,隨機(jī)選取最多128個(gè)正錨點(diǎn)和128個(gè)負(fù)錨點(diǎn)。第二階段的訓(xùn)練也是類(lèi)似的過(guò)程,選擇最多32個(gè)正面建議和32個(gè)負(fù)面建議。使正樣本的數(shù)量等于每個(gè)階段的負(fù)樣本的數(shù)量,即使沒(méi)有正面建議,在第二階段也至少有16個(gè)抽樣的負(fù)面建議,以防模型訓(xùn)練過(guò)擬合到第一階段,即該模型產(chǎn)生零個(gè)正面建議以生成第二階段的零損失(Lg-cls=0,Lg-reg=0)。
抓取姿態(tài)檢測(cè)管道在每個(gè)階段都包含兩種損失。在第一階段為建議分類(lèi)損失Lp-cls和提議位置和大小回歸損失Lp-reg。對(duì)于第二階段,有夾持可能性預(yù)測(cè)損失Lg-cls和定向抓取姿態(tài)和尺寸回歸損失Lg-reg。總損失L的計(jì)算方法為:
第一階段和第二階段損失的計(jì)算過(guò)程相似,只是在第一階段使用錨點(diǎn)作為參考,計(jì)算地面實(shí)況和預(yù)測(cè)之間的回歸損失,而在第二階段使用第一階段生成的建議作為參考,在第二階段中存在角度回歸損失。在這兩個(gè)階段中,使用平滑L1損失(Ls-L1)來(lái)計(jì)算錨點(diǎn)(或建議)與地面實(shí)況的偏移量,以及錨點(diǎn)(或建議)與預(yù)測(cè)的偏移量之間的回歸損失。
其中,objn=1 表示前景,其中可能存在正抓姿,否則視為背景,不進(jìn)行下一步的回歸處理。由于只計(jì)算了第二階段抓姿預(yù)測(cè)頭中的角度回歸損失,因此對(duì)于Lp-reg的計(jì)算不包括角度,即j∈{x,y,ω,h}。第n個(gè)偏移量v=[tx,ty,tw,th,tθ],有:
其中,[x,y,w,h,θ]表示地面實(shí)況姿勢(shì),[xa,ya,wa,ha,θa]和[x',y',w',h',θ']分別代表錨盒和預(yù)測(cè)的抓取姿勢(shì)。抓取的預(yù)測(cè)損失Lp-cls和Lg-cls為交叉熵?fù)p失,λ1,λ2和λ3是這些損失的加權(quán),設(shè)置為[1.0,1.0,1.0]。
使用Cornell抓取數(shù)據(jù)集和Jacquard數(shù)據(jù)集[11]的抓取數(shù)據(jù)集來(lái)評(píng)估所提抓取姿態(tài)檢測(cè)算法的性能,首先,通過(guò)Cornell抓取數(shù)據(jù)集對(duì)抓取模型進(jìn)行評(píng)估,通常會(huì)通過(guò)圖像和對(duì)象兩種不同的策略對(duì)數(shù)據(jù)集進(jìn)行分割。與圖像分割相比,采用對(duì)象分割時(shí),訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的對(duì)象沒(méi)有重疊,更接近真實(shí)場(chǎng)景。本研究選擇了面向?qū)ο蟮姆指畈呗詠?lái)比較模型性能。然后,使用標(biāo)準(zhǔn)矩形度量來(lái)確定抓取預(yù)測(cè)是否正確。該度量同時(shí)考慮了預(yù)測(cè)邊界框的位置和角度。對(duì)于正確的預(yù)測(cè),Jaccard指數(shù)應(yīng)該大于0.25。Jaccard指數(shù)定義為地面實(shí)況和預(yù)測(cè)之間的交集與并集的比率。模型用80%的樣本訓(xùn)練,用20%的樣本測(cè)試。對(duì)于對(duì)象分割,每個(gè)對(duì)象的捕獲圖像數(shù)量不同,導(dǎo)致不同數(shù)量的測(cè)試圖像,這增加了檢測(cè)精度的隨機(jī)性。
對(duì)于Cornell抓取數(shù)據(jù)集,由于訓(xùn)練圖像的數(shù)量有限,檢測(cè)精度隨每個(gè)訓(xùn)練時(shí)期而變化。通過(guò)同時(shí)考慮角度誤差和Jaccard指數(shù),研究了Cornell 抓取數(shù)據(jù)集和Jacquard數(shù)據(jù)集上的檢測(cè)精度,如表1、表2所示。可以看出,本研究所提模型在兩個(gè)數(shù)據(jù)集上都比其他方法獲得了更高的檢測(cè)精度。RGB-d模態(tài)策略是將RGB和深度模態(tài)結(jié)合起來(lái),用對(duì)應(yīng)的深度圖像替換藍(lán)色通道。僅采用深度模態(tài)訓(xùn)練的模型準(zhǔn)確率達(dá)到91.6%,而采用RGB-d 模態(tài)和RGB模態(tài)訓(xùn)練的模型準(zhǔn)確率更高。對(duì)于Cornell 抓取數(shù)據(jù)集,真實(shí)捕獲的深度圖像是有噪聲的,尤其是在圖像邊界和物體邊緣處,因此引入相應(yīng)的RGB模態(tài)可以提高抓取檢測(cè)精度。在尺寸為(420×420)的輸入圖像下,本研究所提模型的檢測(cè)率約為35Hz,可以滿足大多數(shù)實(shí)時(shí)機(jī)器人應(yīng)用的要求。對(duì)于Jacquard數(shù)據(jù)集上的檢測(cè)精度,由于模擬的深度圖像清晰準(zhǔn)確,使用RGB模態(tài)時(shí)并沒(méi)有太大的提高。基于對(duì)象分割的檢測(cè)精度,所提模型顯示了精確抓取姿勢(shì)的能力。

表1 Cornell Grasp數(shù)據(jù)集的性能比較Tab.1 Performance Comparison of Cornell Grass Datasets

表2 Jacquard數(shù)據(jù)集上的檢測(cè)精度Tab.2 Detection Accuracy on Jacquard Data Set
從Cornell 抓取數(shù)據(jù)集中選取的全尺寸RGB圖像評(píng)估示例,如圖4所示。

圖4 這里模型在Cornell 抓取數(shù)據(jù)集上的檢測(cè)Fig.4 Detection of Our Model on Cornell Grab Dataset
從上到下,每一行分別代表輸入的RGB圖像、第一階段的抓取建議和第二階段的抓取檢測(cè)結(jié)果。粗略的抓取建議在模型的第一階段生成,抓取姿態(tài)預(yù)測(cè)則在第二階段提供。與Jacquard數(shù)據(jù)集相比,Cornell 抓取數(shù)據(jù)集中的真實(shí)捕獲圖像在背景中的噪聲更大,導(dǎo)致第一階段產(chǎn)生假陽(yáng)性建議,可通過(guò)第二階段的細(xì)化過(guò)程進(jìn)行過(guò)濾。密集連接的特征圖和兩階段的抓取檢測(cè)器確保了對(duì)多種尺寸和復(fù)雜形狀的對(duì)象成功的抓取檢測(cè)。
所提模型從Jacquard 數(shù)據(jù)集訓(xùn)練集的抓取檢測(cè),如圖5 所示。可以看出Jacquard 數(shù)據(jù)集訓(xùn)練模型的輸入、中間階段和輸出的實(shí)例,使用錨點(diǎn)作為參考有助于生成高質(zhì)量的建議。

圖5 所提模型在Jacquard數(shù)據(jù)集訓(xùn)練集的抓取檢測(cè)Fig.5 Grab Detection of the Proposed Model in Jacquard Dataset Training Set
基于上述模型,本節(jié)通過(guò)實(shí)驗(yàn)對(duì)模型的合理性進(jìn)行驗(yàn)證,設(shè)計(jì)了兩個(gè)實(shí)驗(yàn)來(lái)檢驗(yàn)?zāi)P蜋z測(cè)精度,其中模型由Cornell抓取數(shù)據(jù)集進(jìn)行訓(xùn)練。首先以不同的姿勢(shì)多次抓取單個(gè)物體,然后抓取堆疊在一起的各個(gè)物體,以驗(yàn)證抓取檢測(cè)器在現(xiàn)實(shí)世界中的有效性。在實(shí)驗(yàn)中,可以使用RGB或深度圖像生成抓取姿勢(shì)預(yù)測(cè),然后使用深度圖像計(jì)算相應(yīng)的抓取高度。與深度圖像相比,RGB圖像的噪聲更小,但容易受到光照條件的影響。因此,在實(shí)驗(yàn)中使用深度圖像作為模型輸入來(lái)消除這些誤差。
本研究開(kāi)展了兩個(gè)抓取實(shí)驗(yàn),包括一個(gè)單物體抓取實(shí)驗(yàn)和一個(gè)多物體抓取實(shí)驗(yàn)。在實(shí)驗(yàn)中使用的對(duì)象均沒(méi)有出現(xiàn)在訓(xùn)練數(shù)據(jù)中。得出實(shí)驗(yàn)結(jié)果如下:
(1)實(shí)驗(yàn)1:收集了42個(gè)物體,覆蓋了機(jī)器人在現(xiàn)實(shí)世界中可能具有的大部分抓取姿態(tài)。這些被選中的物體在形狀、顏色、大小和材質(zhì)上都有所不同,以挑戰(zhàn)抓取姿勢(shì)檢測(cè)模型。在實(shí)驗(yàn)過(guò)程中,每個(gè)物體都被以“扔”的方式隨機(jī)放在實(shí)驗(yàn)臺(tái)上三次,因此總共進(jìn)行了126次抓取試驗(yàn),實(shí)驗(yàn)1的抓取試驗(yàn),如圖6所示。

圖6 抓取機(jī)器人實(shí)驗(yàn)1示意圖Fig.6 Schematic Diagram of Grasping Robot Experiment 1
第一行中,機(jī)器人手首先移動(dòng)到預(yù)定義的初始位置,以便安裝在腕部的深度相機(jī)拍攝對(duì)象的照片。第二行中,基于捕獲的深度圖像,模型試圖找到最佳抓取區(qū)域。第三行中,將夾持邊界框轉(zhuǎn)換為相對(duì)于機(jī)器人基座的空間姿勢(shì)。第四行中,機(jī)器人手移動(dòng)到與生成的夾持姿勢(shì)對(duì)齊的位置,并閉合手指。第五行中,機(jī)器人夾持物體以提起。可以看出所提模型成功地生成了準(zhǔn)確的抓取姿勢(shì)。失敗的原因主要是高度執(zhí)行誤差造成,高度執(zhí)行誤差主要來(lái)自于深度相機(jī)的傳感噪聲,而這種誤差會(huì)導(dǎo)致夾持器無(wú)法接觸到物體。
(2)實(shí)驗(yàn)2:提出多物體抓取實(shí)驗(yàn),其中物體之間密集重疊。這個(gè)實(shí)驗(yàn)更具挑戰(zhàn)性與前兩者相比,因?yàn)楸尘安⒉桓蓛簦A(yù)測(cè)抓取應(yīng)該更準(zhǔn)確,以避免夾持器和“背景”對(duì)象之間的碰撞。此外,不僅對(duì)象沒(méi)有出現(xiàn)在訓(xùn)練數(shù)據(jù)中,而且訓(xùn)練后的模型在訓(xùn)練過(guò)程中從未遇到過(guò)雜亂的場(chǎng)景。
收集了36個(gè)形狀、大小和顏色各異的物體,并將它們隨機(jī)分成4個(gè)不同的組,每組包含9個(gè)物體。對(duì)于每組物體,都將其放入不透明的盒子中,并用力搖晃以確保其隨機(jī)性和無(wú)序性,然后再將其放入工作空間中。機(jī)器人系統(tǒng)從這些物體中檢測(cè)抓取姿勢(shì),然后選擇得分最高的一個(gè)由執(zhí)行單元去實(shí)現(xiàn)。系統(tǒng)逐個(gè)抓取物體,直到清理工作空間,如圖7所示。

圖7 抓取機(jī)器人實(shí)驗(yàn)3示意圖Fig.7 Schematic Diagram of Grasping Robot Experiment 3
抓取實(shí)驗(yàn)在不同的相機(jī)初始位置下重復(fù)三次,失敗案例的原因分類(lèi)為位置誤差(P)、尺寸誤差(S)、角度誤差(A)、高度誤差(H)和不穩(wěn)定(NS)。其中P、S和A與抓取預(yù)測(cè)有關(guān),H和NS主要是由于深度感知不確定性和夾持器閉合力不足造成。由[P,S]引起的失敗嘗試次數(shù)從(5,8)減少到(2,1),這表明所提方法在解決復(fù)雜場(chǎng)景下的抓取檢測(cè)時(shí)是有效的。
針對(duì)視覺(jué)機(jī)器人的物體抓取控制,與之前的抓取檢測(cè)相比,結(jié)合了特征金字塔網(wǎng)絡(luò)(FPN)算法實(shí)現(xiàn)機(jī)器人對(duì)物體抓取的精確控制,得出的主要結(jié)論有:
(1)使用密集連接的FPN作為特征提取器,將語(yǔ)義更強(qiáng)的高級(jí)特征圖與分辨率更高的低級(jí)特征圖融合,將兩階段檢測(cè)單元附加到每個(gè)融合層,根據(jù)融合的特征圖中生成密集的抓取預(yù)測(cè),這種模型結(jié)構(gòu)保證了對(duì)各種物體的精確抓取。
(2)FPN利用CNN固有的多尺度層次結(jié)構(gòu),為檢測(cè)頭部提供多個(gè)具有更豐富語(yǔ)義信息的特征映射。該模型在Cornell抓取數(shù)據(jù)集和Jacquard 數(shù)據(jù)集上訓(xùn)練,檢測(cè)準(zhǔn)確率分別為94.1%和89.6%。驗(yàn)證了所提模型在抓取姿勢(shì)估計(jì)的有效性。
(3)在理論分析的基礎(chǔ)上,設(shè)計(jì)了兩種不同真實(shí)場(chǎng)景的物體抓取控制實(shí)驗(yàn),結(jié)果表明視覺(jué)機(jī)器人具有抓取各種日常物體的潛力,進(jìn)一步驗(yàn)證了所提模型的合理性。