楊恒,李卓,康忠元,田兵,董青
(1.太原科技大學(xué) 機(jī)械工程學(xué)院,山西 太原 030024;2.重慶市農(nóng)業(yè)機(jī)械化學(xué)校 機(jī)械工程學(xué)院,重慶 402160)
物體6D 姿態(tài)包括三維平移及三維旋轉(zhuǎn).三維平移指從相機(jī)坐標(biāo)系原點開始沿x、y、z軸移動到被觀察物體局部坐標(biāo)系原點經(jīng)歷的變化,用向量t表示.三維旋轉(zhuǎn)指物體局部坐標(biāo)系依次繞相機(jī)坐標(biāo)軸x、y、z方向產(chǎn)生的旋轉(zhuǎn)變化,一般采用3×3矩陣R表示.利用視覺技術(shù)對物體6D 姿態(tài)進(jìn)行估計被廣泛應(yīng)用于機(jī)器人、人機(jī)交互、物流管理等任務(wù),其預(yù)測的準(zhǔn)確性主要取決于網(wǎng)絡(luò)性能.在實際應(yīng)用中物體種類、形狀以及場景等因素的影響,使得對物體6D 姿態(tài)估計的準(zhǔn)確性難以保證,因此,研究者提出基于單個靜態(tài)圖像識別對物體姿態(tài)進(jìn)行預(yù)測的單目姿態(tài)估計法,它可進(jìn)一步分為直接法和間接法.其中,直接法是通過直接回歸的方式對物體6D 姿勢進(jìn)行預(yù)測.Sundermeyer 等[1]提出通過對嵌入空間的學(xué)習(xí)來得到物體位姿,在此基礎(chǔ)上Wadim 等[2]提出通過對位姿空間進(jìn)行離散化的方式對物體姿態(tài)進(jìn)行直接預(yù)測.直接法雖然在一定程度上提高了預(yù)測精度,但與通過建立2D-3D 對應(yīng)關(guān)系估計物體6D 姿態(tài)的間接法相比,準(zhǔn)確度較低.Di 等[3]為了提高端到端6D 姿態(tài)估計的準(zhǔn)確性,提出SO-Pose 框架.該框架將單個RGB 圖像作為輸入,利用self-occlution 和 2D-3D對應(yīng)關(guān)系來為3D 空間中的每個對象建立2 層表示,再將2 個輸出進(jìn)行融合后,直接回歸六自由度位姿參數(shù).由于該框架結(jié)合了跨層一致性和對應(yīng)自遮擋6D 姿勢的性質(zhì),其在一些難度較大的數(shù)據(jù)集上的位姿估計準(zhǔn)確性以及魯棒性超越了其他方法.間接法雖然能提高估計準(zhǔn)確性,但須通過EPnP 算法對物體位姿進(jìn)行估計且無法與自監(jiān)督學(xué)習(xí)技術(shù)進(jìn)行結(jié)合.因此,Wang 等[4]將直接法與間接法相結(jié)合以提高準(zhǔn)確度,但以單一視角對物體信息進(jìn)行推測難免有失偏頗,并且對一些遮擋嚴(yán)重的場景,無法保證對其估計的準(zhǔn)確性.
與靜態(tài)圖像識別相反,人類在判斷物體位置時往往使用主動識別法,依據(jù)一定策略引導(dǎo)感官運動進(jìn)而更好地了解周圍環(huán)境,如坐在扶手椅上通過旋轉(zhuǎn)觀察身后的人或走到窗前觀察外面的雨.易于收集且?guī)?biāo)簽的大型圖像數(shù)據(jù)集的出現(xiàn),使得主動視覺技術(shù)取得了顯著進(jìn)展.例如,劉城[5]在利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)識別動態(tài)手勢之后,采用Kalman 濾波算法處理動態(tài)手勢,結(jié)果發(fā)現(xiàn)提出的方法對動態(tài)手勢的軌跡預(yù)測具有較高的精度,能達(dá)到對操作者手部主動視覺追蹤的目的.戈振鵬[6]針對夾爪在夾取物體時,夾爪遮擋以及自遮擋造成單視角估計下的誤差不確定的問題,提出基于隨機(jī)抽樣一致算法(random sample consensus,RANSAC)的單目多視位姿估計算法(SCMV-RANSAC).相對其他方法,該算法可以降低平均平移誤差68.27%.主動視覺可以通過多個視角對物體進(jìn)行識別以提高準(zhǔn)確度,但訓(xùn)練深度網(wǎng)絡(luò)對下一個視角進(jìn)行預(yù)測耗時較長.
綜上所述,基于單個靜態(tài)圖像識別的單目姿態(tài)估計法難以對形狀復(fù)雜、擺放雜亂、遮擋較多的物體的6D 姿態(tài)進(jìn)行準(zhǔn)確估計,而主動識別技術(shù)雖然精度較高,但預(yù)測下一視角耗時較長.
針對上述問題,提出雙目數(shù)據(jù)集制作方法及物體6D 位姿估計網(wǎng)絡(luò)Binocular-RNN.以YCBVideo Dataset 為例,提出利用已有數(shù)據(jù)集制作雙目數(shù)據(jù)集的方法.將YCB-Video Dataset 中已有圖像作為雙目相機(jī)左攝像頭捕獲內(nèi)容;利用Open GL 導(dǎo)入YCB-Video Dataset 中相應(yīng)三維物體模型,輸入各物體6D 位姿及相機(jī)參數(shù)進(jìn)行虛擬物體及虛擬雙目相機(jī)的擺放工作;由虛擬雙目相機(jī)右攝像頭捕獲合成圖片.另外,參考GDR-Net 姿態(tài)估計網(wǎng)絡(luò)對雙目數(shù)據(jù)集中左右攝像頭圖像進(jìn)行處理,進(jìn)而提取其中間幾何特征,再利用循環(huán)神經(jīng)網(wǎng)絡(luò)對卷積后維度降低的中間幾何特征進(jìn)行融合,最終預(yù)測物體6D 位姿.
現(xiàn)有常用6D 姿態(tài)估計數(shù)據(jù)集(如YCB-Video Dataset、LM 數(shù)據(jù)集)為RGB-D 型,適用于單目姿態(tài)估計網(wǎng)絡(luò),無法直接用于Binocular-RNN.單目深度估計是利用物體成像大小來預(yù)測距離,物體大的距離近,小的距離遠(yuǎn).相機(jī)成像實際上是一個中心投影的過程,而計算圖像中物體的距離,就是平衡物體的大小和距離的遠(yuǎn)近.物體成像有近大遠(yuǎn)小的特點,因此一個近距離的小物體和一個遠(yuǎn)距離的大物體可能會在圖像上呈現(xiàn)相同的大小,故單目深度估計會存在一定的誤差.為此,在YCB-Video Dataset 基礎(chǔ)上,提出虛擬雙目圖片數(shù)據(jù)集制作方法,流程如圖1 所示.通過這樣的方式可以在保持原有數(shù)據(jù)集精度的基礎(chǔ)上增加物體在另一視角的信息,綜合主動視覺技術(shù)獲取物體不同視角信息的優(yōu)勢來提高物體姿態(tài)估計時的精度.雙目測距的精度與物距和基線長度有關(guān),當(dāng)物距、基線和光軸的夾角一定時,隨著基線距的增大,有效視場內(nèi)的精度會提高;當(dāng)物距處于景深范圍內(nèi),有效視場內(nèi)的精度較高.由于實際條件的限制,雙目測距在保證精度的前提下一般用于近距離的高精度測量.

圖1 雙目數(shù)據(jù)集制作流程Fig.1 Production process of binocular data set
雙目相機(jī)的標(biāo)定包含單目標(biāo)定和雙目標(biāo)定2 個內(nèi)容,單目標(biāo)定是為了分別確定2 臺相機(jī)各自的內(nèi)參、外參和畸變系數(shù);雙目標(biāo)定是為了確定2 臺相機(jī)相互之間的位置.
1.1.1 相機(jī)單目標(biāo)定 相機(jī)的成像系統(tǒng)中包含世界、相機(jī)、圖像、像素4 種坐標(biāo)系.在理想條件下(單點無畸變),世界坐標(biāo)系到像素坐標(biāo)系的對應(yīng)的矩陣關(guān)系為
式中:(XW,YW,ZW)表示某點在世界坐標(biāo)系下的坐標(biāo),(u,v) 表示該點對應(yīng)在像素坐標(biāo)系下的坐標(biāo),s為縮放系數(shù),fx、fy、u0、v0為相機(jī)內(nèi)參數(shù),R3×3、T3×1為相機(jī)外參數(shù).
張正友標(biāo)定法是將世界坐標(biāo)系的XOY平面與棋盤平面重合,由于標(biāo)定板是人為規(guī)定的,每個角點的像素坐標(biāo)(u,v)及在世界坐標(biāo)系與其相對應(yīng)的坐標(biāo)(XW,YW,ZW)均為已知.根據(jù)如下公式進(jìn)行相機(jī)標(biāo)定,獲得相機(jī)的相關(guān)參數(shù):
式中:r1、r2、r3為相機(jī)坐標(biāo)的3 個坐標(biāo)軸在世界軸中的方向矢量,t為從世界坐標(biāo)的原點到光心的平移矢量,H為物體在世界坐標(biāo)和像素坐標(biāo)之間的變換矩陣.
通過H=M1(r1,r2,t)即可求得相機(jī)的內(nèi)參矩陣和外參矩陣.標(biāo)準(zhǔn)的外參矩陣為由于張正友標(biāo)定法是將三維轉(zhuǎn)化為二維計算,導(dǎo)致R3×3缺失了r3的信息.不過,旋轉(zhuǎn)矩陣為單位正交矩陣,可由r3=r1×r2和||r3||=1 求得r3.相機(jī)內(nèi)參和外參矩陣已求得,張正友標(biāo)定法只關(guān)注了徑向畸變問題,畸變公式表達(dá)式為
式中:(x,y)為無畸變圖像的坐標(biāo);k1、k2為系數(shù);(x1,y1)為有畸變圖像的坐標(biāo);r為像素點到圖像中心點的距離,即r2=x2+y2.(x1,y1)可由標(biāo)定板獲得,(x,y)可利用內(nèi)參和外參矩陣反向求得,最后再通過L-M 算法對參數(shù)進(jìn)行迭代優(yōu)化.同理,雙目相機(jī)內(nèi)參、外參和畸變系數(shù)均可由此方法求得.
1.1.2 相機(jī)雙目標(biāo)定 假設(shè)標(biāo)定板上存在某一點P,根據(jù)世界坐標(biāo)系和相機(jī)坐標(biāo)系的轉(zhuǎn)換關(guān)系可以得到
式中:PW為標(biāo)定板上的某個點在世界坐標(biāo)系下的坐標(biāo),P1、Pr為左、右相機(jī)在世界坐標(biāo)系下的坐標(biāo),Rrl、Trl為右相機(jī)相對于左相機(jī)的旋轉(zhuǎn)和平移矩陣,R1、Tl為P點相對于左相機(jī)光心的旋轉(zhuǎn)、平移矩陣,Rr、Tr為P點相對于右相機(jī)光心的旋轉(zhuǎn)、平移矩陣.化簡可以求得2 個相機(jī)的位置關(guān)系:
為了使虛擬生成的圖像和真實傳感器獲得的圖像盡可能保持一致,按以下4 個步驟制作雙目數(shù)據(jù)集.
1)在研究相機(jī)位姿時,為了可視化相機(jī)在三維世界中的信息,將相機(jī)的朝向和位置保存為.obj 格式.對YCB-Video Dataset 中物體6D 姿態(tài)參數(shù)及三維模型文件進(jìn)行處理,并將其他格式三維模型文件轉(zhuǎn)換為.obj 格式.
2)對Open GL 虛擬環(huán)境中光照、朝向、顏色等參數(shù)進(jìn)行設(shè)置.對光源在世界坐標(biāo)系中的相關(guān)參數(shù)進(jìn)行設(shè)置;設(shè)置虛擬雙目相機(jī)位置,導(dǎo)入虛擬相機(jī)參數(shù).
3)為了增加樣本的豐富性,利用如下公式改變6D 參數(shù)中的旋轉(zhuǎn)角度:
然后利用glm 庫中的translate 及rotate 函數(shù)對三維模型進(jìn)行空間位置上的變化.
4)在得到不同姿態(tài)下的三維模型后,將物體投影到成像平面上,并將成像平面上圖像的每個像素分配R、G、B 值后,形成RGB 彩色圖像.將此時所設(shè)置的6D 姿態(tài)作為這2 張圖像的標(biāo)簽,至此雙目數(shù)據(jù)集制作完成.
Binocular-RNN 以雙目數(shù)據(jù)集為訓(xùn)練樣本,并通過單目圖像視覺數(shù)據(jù)分析法分別提取中間特征,最后利用循環(huán)神經(jīng)網(wǎng)絡(luò)綜合所提取的特征估計出物體的6D 姿態(tài),如圖2 所示.方法集成了單目視覺識別和主動視覺識別的優(yōu)勢,能在保證時間的基礎(chǔ)上提高識別準(zhǔn)確度.為了估計物體相對攝像機(jī)的6D 姿態(tài)P=[R|t],須給定一組對應(yīng)的RGB 圖像和N個物體及對應(yīng)的三維CAD 模型.

圖2 Binocular-RNN 整體框架Fig.2 Binocular-RNN overall framework
為了擴(kuò)大網(wǎng)絡(luò)適用范圍,向網(wǎng)絡(luò)融入單目姿態(tài)估計直接法.單目6D 位姿直接估計法通常在旋轉(zhuǎn)矩陣R參數(shù)化方式、平移向量t參數(shù)化方式及6D 損失函數(shù)解耦方式的3 類組件選取上有所不同.
2.1.1 三維旋轉(zhuǎn)矩陣R參數(shù)化 借鑒Zhou 等[7]提出的在SO(3)空間的連續(xù)六維表示R的方法,定義六維R6D為R的前2 列:
給定六維向量R6D=[r1,r2],則旋轉(zhuǎn)矩陣R=[R·1,R·2,R·3] 表達(dá)式如下:
式中:φ(·)為向量歸一化運算.
考慮對放大后的感興趣區(qū)域(region of interest,RoI)的后續(xù)處理,使用R6D對3D 旋轉(zhuǎn)進(jìn)行參數(shù)化并用Ra6D[8]表示網(wǎng)絡(luò)預(yù)測旋轉(zhuǎn)R6d的異中心.
2.1.2 三維平移的參數(shù)化 使用SITE[9]對平移向量進(jìn)行參數(shù)化.給定尺寸s0=max (w,h),w、h分別為寬、高,檢測到包圍界面中心(cx,cy),比值r=szoom/s0,縮放大小系數(shù)為szoom,網(wǎng)絡(luò)回歸尺度不變的平移參數(shù)tSITE=[δx,δy,δz].根據(jù)如下公式求解三維平移:
式中:ox、oy為圖像物體中心x、y坐標(biāo),tz為圖像中心到相機(jī)的深度.
2.1.3 解耦6D 位姿損失 借鑒Wang 等[4]所提出的解耦方式,無論物體如何旋轉(zhuǎn)或縮放,該技術(shù)都可以準(zhǔn)確地檢測并跟蹤物體中心(δx,δy)以及距離δz,是解耦6D 位姿損失的一種新變體.
式中:^和-分別表示預(yù)測值和地面真值,LPose為位置誤差損失函數(shù),LR為旋轉(zhuǎn)損失函數(shù),Lcenter、Lz分別為2D 物體中心及距離損失函數(shù).考慮到對稱對象,當(dāng)給定(對稱下所有可能的地面真實旋轉(zhuǎn)的集合)后須對損失進(jìn)行進(jìn)一步擴(kuò)展,進(jìn)而使其能夠?qū)ΨQ物體進(jìn)行有效感知:
式中:LR,sym為對稱物體的損失函數(shù),表示矩陣R的集合.
Binocular-RNN 整體網(wǎng)絡(luò)結(jié)構(gòu)框架和流程如圖2 所示.整個網(wǎng)絡(luò)包含2 階段,第1 階段由2 個幾何引導(dǎo)的直接回歸網(wǎng)絡(luò)GDR-Net[4]組成,第2 階段為利用循環(huán)神經(jīng)網(wǎng)絡(luò)對不同視角信息進(jìn)行匯總并回歸6D 對象的姿態(tài)的BPatch-PnP 模塊.
在6D 位姿估計時,首先向BinocularRNN 喂入大小為256×256 像素的RoI 區(qū)域.然后,通過GDRNet[4]預(yù)測3 個空間大小為64×64 像素的中間幾何特征地圖,包括密集響應(yīng)圖(dense correspondences map)M2D-3D、表面區(qū)域注意力圖(surface region attention map)MSRA及可見對象掩碼圖(visible object mask)Mvis.最后,通過2D 卷積BPatch-PnP 模塊直接對不同視角幾何特征進(jìn)行匯總并回歸6D 姿態(tài).其中Mvis利用L1 損失函數(shù)進(jìn)行歸一化后可以去除M2D-3D及MSRA中的無關(guān)區(qū)域,然后通過對底層密集坐標(biāo)圖(dense coordinates maps)MXYZ進(jìn)行估計就可以得到M2D-3D.BPatch-PnP 模塊由6 個卷積層組成,內(nèi)核大小為3×3,stride=2,卷積層后為深度學(xué)習(xí)歸一化方式(group normalization)及ReLU 激活函數(shù).在處理完成后,由3 個全連接(FC)層對數(shù)據(jù)進(jìn)行扁平化處理,參考 Volodymyr 等[10]提出的Recurrent models 中的循環(huán)結(jié)構(gòu)對幾何特征進(jìn)行匯總并將數(shù)據(jù)尺寸降至256 像素后由2 個平行的FC 層輸出參數(shù)為Ra6D(見式(8))的3D 旋轉(zhuǎn)R和參數(shù)為tSITE(見式(9)) 的3D 平移t.相比CNN 網(wǎng)絡(luò),RNN 結(jié)構(gòu)具有較好的數(shù)據(jù)記憶特性,可以將不同視角得到的特征進(jìn)行融合以提高姿態(tài)預(yù)測準(zhǔn)確度.
使用L1 損失歸一化MXYZ和可見掩模Mvis,利用交叉熵?fù)p失(cross entropy loss,CE Loss) 對MSRA進(jìn)行處理:
式(13)表示element-wise 乘法,只使用可見區(qū)域來對MXYZ和MSRA進(jìn)行管理.Binocular-RNN 總損失可以概括為LBin=LPose+LGeom.所提出的Binocular-RNN 可以基于任何對象檢測器實現(xiàn),并以端到端方式對其進(jìn)行訓(xùn)練,無須采用三階段訓(xùn)練策略[11].
實驗以Intel 3.40 GHz CPU 和NVIDIA 2080Ti GPU 為實驗平臺.
所有實驗都使用PyTorch[12]實現(xiàn).使用Ranger 優(yōu)化器[13]以端到端的方式對所有網(wǎng)絡(luò)進(jìn)行訓(xùn)練,批處理規(guī)模為24,基本學(xué)習(xí)率為1×10-4,在網(wǎng)絡(luò)訓(xùn)練到了72%后通過余弦計劃(cosine schedule)[14]對其進(jìn)行退火處理.
在Synthetic Sphere、LM、LM-O 和YCB-Video這4 個數(shù)據(jù)集上展開實驗.采用模型點平均距離(ADD)、平均最近點距離(ADDS)、平移誤差和角度誤差作為6D 對象位姿評價指標(biāo).ADD 用于判別轉(zhuǎn)換后的模型點平均偏差是否小于物體直徑10% (0.1d);當(dāng)對象對稱時,可采用ADDS 對模型點的最近平均距離誤差進(jìn)行測量.并且,在將該指標(biāo)用于YCB-Video 時,可通過改變距離閾值來計算ADD 或ADDS 的曲線下面積 (area under curve,AUC).平移誤差和旋轉(zhuǎn)誤差[10]用于度量旋轉(zhuǎn)誤差是否小于n°,平移誤差是否小于ncm.此外,考慮到一些物體具有的對稱性的情況,誤差取值為物體所有可能地面真實姿態(tài)的最小誤差[15].
使用LM 數(shù)據(jù)集[12]進(jìn)行實驗,為160 個批次的所有對象訓(xùn)練一個單一的Binocular-RNN,在訓(xùn)練中不采取任何的顏色增強措施,使用Faster-RCNN 檢測圖像中目標(biāo)物體.
不同MSRA數(shù)量對預(yù)測結(jié)果準(zhǔn)確性的影響情況如圖3 所示.圖中,N為MSRA數(shù)量,Acc 為精度,Acc 表示各個指標(biāo)的綜合精度,ADD (S) 0.02 d 表示評價標(biāo)準(zhǔn)為ADD (S)=0.02 d 時對應(yīng)的精度.可以看出,在MSRA數(shù)量較少的情況下,結(jié)果準(zhǔn)確性較好,由此可以說明Binocular-RNN 的有效性和通用性.考慮到實際效果,本研究在其他所有實驗中使用MSRA的數(shù)量為65.

圖3 MSRA 數(shù)量對模型預(yù)測結(jié)果的影響Fig.3 Effect of MSRA quantity on model prediction results
在Synthetic Sphere 數(shù)據(jù)集的基礎(chǔ)上,將Binocular-RNN 網(wǎng)絡(luò)中BPatch-PnP[16]、基于RANSAC的EPnP[17]和基于學(xué)習(xí)的PnP 進(jìn)行比較.首先,利用數(shù)據(jù)集提供的姿態(tài)生成MXYZ,并將其輸入到BPatch-PnP.在訓(xùn)練中,對密集坐標(biāo)映射的每個點隨機(jī)添加高斯噪聲N(0,σ2),σ∈U[0,0.03](坐標(biāo)圖已在[0,1.00]中歸一化,選擇0.03).在測試時,對相對ADD 誤差及測試集中不同水平噪聲和離群值的直徑進(jìn)行記錄.
實驗對比結(jié)果如圖4 所示.圖中,e為誤差.基于RANSAC 的EPnP 在噪聲極小時(σ=0~0.005)較精確,但隨著噪聲水平的增加(σ>0.015),基于學(xué)習(xí)的PnP 方法更具精確性和魯棒性[18].BPatch-PnP 利用幾何對應(yīng)圖,在對噪聲和異常值的魯棒性上明顯高于其他方法.當(dāng)異常值為10%,噪聲水平為0.05 時,BPatch-PnP 誤差分別為EPnP、PnP 的6.33%、19.38%.

圖4 PnP 變體在Synthetic Sphere 數(shù)據(jù)集上的影響Fig.4 Effect of PnP variant on Synthetic Sphere dataset
選用YCB-Video Dataset 與LM-O 數(shù)據(jù)集進(jìn)行實驗,在訓(xùn)練中使用顏色增強[1]防止過擬合.由于YCB-Video Dataset 中對稱對象的數(shù)量較多,采用邏輯回歸模型.如表1 所示為Binocular-RNN 與其他方法在YCB-Video Dataset 上的對比結(jié)果.表中,Ref 表示是否對方法得出的結(jié)果進(jìn)行優(yōu)化,M表示YCB-Video Dataset 中模型的數(shù)量,ts為訓(xùn)練單個對象的消耗時間.Binocular-RNN 綜合2 個不同視角得到的信息,因此即使在各場景物體遮擋度較大的情況下,其預(yù)測性能較其他以單一視角對物體姿態(tài)進(jìn)行檢測的技術(shù)也更加優(yōu)異.具體而言,在以單一物體對網(wǎng)絡(luò)訓(xùn)練時,Binocular-RNN 的ADD 或ADDS 指標(biāo)得分是PoseCNN 得分的2.66 倍,是GDR-Net 得分的1.15 倍.循環(huán)卷積網(wǎng)絡(luò)可以自動學(xué)習(xí)提取與重新識別相關(guān)的時空特征,可以長時間保留輸入信息[21].同時,RNN 有反饋連接,允許它隨著時間重新記憶和利用信息[22].將Binocular-RNN 網(wǎng)絡(luò)拆解為RNN 網(wǎng)絡(luò)和CNN 網(wǎng)絡(luò),結(jié)果表明僅使用本網(wǎng)絡(luò)拆解下的循環(huán)網(wǎng)絡(luò)無法完成實驗.同時將Binocular-RNN 網(wǎng)絡(luò)與不使用循環(huán)網(wǎng)絡(luò)的CNN 網(wǎng)絡(luò)相比,Binocular-R N N 網(wǎng)絡(luò)A D D 或A D D S 指標(biāo)得分是其的3.08 倍,表明將循環(huán)網(wǎng)絡(luò)嵌入到網(wǎng)絡(luò)體系結(jié)構(gòu)中提高了網(wǎng)絡(luò)的性能.

表1 Binocular-RNN 與其他方法在YCB-Video Dataset 上的比較Tab.1 Comparison of Binocular-RNN with other methods on YCB-Video Dataset
如表2 所示為Binocular-RNN 與其他方法在LM-O 上的對比結(jié)果,數(shù)據(jù)選用指標(biāo)為ADD 或ADDS.當(dāng)使用“Real+syn”進(jìn)行訓(xùn)練時,Binocular-RNN 的性能與PVNet、Single-Stage、GDR-NET 等網(wǎng)絡(luò)相近.利用每個對象訓(xùn)練一個網(wǎng)絡(luò)能夠輕易超越目前的技術(shù)水平.利用“Real+PBR”訓(xùn)練的Binocular-RNN 的性能甚至超過了基于精細(xì)化的方法DeepIM.

表2 Binocular-RNN 與其他方法在LM-O 上的精確度比較Tab.2 Comparison of Binocular-RNN with other methods on LM-O %
在使用Yolov5 探測器對圖像尺寸為640×480 像素的圖像物體進(jìn)行預(yù)測時,用GDR-Net 預(yù)測單個對象需要約22 ms,同時預(yù)測8 個對象需要約35 ms[4].Binocular-RNN 在預(yù)測單個對象需要約23 ms,預(yù)測8 個對象需要約35ms.但相對于主動視覺預(yù)測時間大于等于100 ms[23]的情況而言,實時性已經(jīng)得到了大幅度提高.
對雙目視覺測量系統(tǒng)進(jìn)行精度分析,相機(jī)標(biāo)定精度、鏡頭參數(shù)和系統(tǒng)結(jié)構(gòu)參數(shù)都對雙目視覺的精度有影響.在相機(jī)標(biāo)定精度、視覺鏡頭參數(shù)不變的情況下,以物距u作為改進(jìn)算法和已有算法精確度的指標(biāo),結(jié)果如圖5 所示.

圖5 物距對精確度的影響Fig.5 Effect of distance on accuracy
提出用于6D 目標(biāo)位姿估計的雙目循環(huán)神經(jīng)網(wǎng)絡(luò)Binocular-RNN,并闡述用于6D 目標(biāo)姿態(tài)估計的雙目數(shù)據(jù)集制作技術(shù).在已有RGB-D 數(shù)據(jù)集基礎(chǔ)上,利用虛擬雙目攝像機(jī)制作雙目數(shù)據(jù)集.利用單目預(yù)測網(wǎng)絡(luò)分別對雙目數(shù)據(jù)集中左、右攝像頭圖像的中間幾何特征進(jìn)行提取并利用循環(huán)神經(jīng)網(wǎng)絡(luò)對其進(jìn)行融合以預(yù)測物體的最終6D 位姿.
實驗表明該方法較GDR-Net 及其他以單一視角對物體姿態(tài)進(jìn)行檢測的技術(shù)更加優(yōu)異.具體而言,在以單一物體對網(wǎng)絡(luò)進(jìn)行訓(xùn)練時,Binocular-RNN ADD 或ADDS 得分為PoseCNN 的2.66 倍,為GDR-Net 的1.15 倍.利用“real+PBR”[24]訓(xùn)練的Binocular-RNN 的性能甚至超過了基于精細(xì)化的方法DeepIM.實時性相對主動視覺得到了大幅度提高.
網(wǎng)絡(luò)在使用之前須耗費時間制作姿態(tài)估計數(shù)據(jù)集且只能對數(shù)據(jù)集重點物體進(jìn)行識別,導(dǎo)致該技術(shù)使用性能下降,希望后續(xù)可以借鑒人臉識別技術(shù)添加少量樣本來保證準(zhǔn)確性.同時,網(wǎng)絡(luò)總體結(jié)構(gòu)較復(fù)雜,希望后續(xù)可以通過對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行簡化,提高網(wǎng)絡(luò)預(yù)測實時性.