李博 梁颯
目前工業流水線上的工業機器人多數只能完成簡單的任務和重復性的工作。社會的進步和技術提高需要更加智能化的機器人。機器視覺的發展和三維建模技術的進步,為機器人完成更加復雜和智能的任務奠定了基礎。工業智能倉儲技術和智能倉庫急需能夠自動識別貨架上的物體的三維位姿,并能夠自動抓取的智能機器人系統。
倉庫中的貨架上往往不規則地擺放了各種各樣的物體,這些物體相互之間位姿排列并不整齊,往往相互遮擋和影響,因此三維視覺系統從一個視角拍照獲取物體的點云數據經常交叉干擾和影響,只能獲取物體的一小部分的三維點云數據,影響物體的后續處理。
針對物體的相互遮擋和干擾,本文提出了一種基于多視角的空間多位姿拍照技術,拍照位姿均勻排布在一個橢球面上,實現對貨架所有物體的拍攝。經過多次實驗,挑選了15個拍攝角度,這些拍攝角度盡最大可能降低了物體之間相互遮擋的問題,圖1所示是貨架及貨架上的物體,還有15個用三棱錐表示的不同拍攝位姿。

圖1 位姿示意圖

圖2 多特征點圖像
為了獲得更為精確的15個位置之間的相對位置關系,實驗采用SURF特征點提取算法來獲取相對位置矩陣。首先,我們在貨架上放置特征點數量較多的圖像(如圖2),然后對此場景下進行15個位置的圖像拍攝,最后,針對拍攝的圖像應用SURF算法,獲取兩個位置之間相同特征點的位置及方向變化,將此變化矩陣作為相對位置關系,如圖3為特征點的匹配。

圖3 特征點匹配圖

圖4 訓練集
實驗貨架部署6種類型的物體。基于以上實驗條件,采用神經網絡對物體和背景進行訓練和彼此分割。因此神經網絡的輸出一共是7類,包括六類物體和一類背景。采用的神經網絡模型是基于FCN-VGG結構的全卷積神經網絡,網絡模型的初始化參數采用ImageNet的權重,這個權重是基于1000個物體分類訓練后得到的參數。整個實驗采用PC機和能夠實現深度智能學習的GTX1070NOVIDA顯卡作為訓練的硬件。
詳盡、全面和大量的訓練數據集是神經網絡學習的基礎。本項目獲取實驗數據的方法是,首先對六個物體中的每一個物體都進行拍照,獲取每個物體的平面彩色圖像及其對應三維點云數據作為標簽圖像。圖4是拍攝到的一組樣例。實驗中每個物體拍照1075幅彩色圖像和1075幅對應的三維點云圖像及標簽圖像,因此共選取10230幅彩色圖像和10230幅對應的標簽圖像組成訓練集進行訓練。

圖5分割結果
訓練的時間超過168小時,迭代次數超過40萬次,具有0.997的識別正確率和低于0.001的損失率。圖5顯示了將不同物體及其背景分割出來的分割結果。
實驗采用尤傲機器人R5腕部裝配Intel ReaISense F200相機,進行15個不同角度彩色圖像和深度圖像的采集,以獲取物體的彩色信息和深度信息。
在上一步通過神經網絡學習得到物體分割的結果后,如圖5所示,為了將同一物體在15個角度拍攝得到的三維點云數據融合在一起,我們采用如下方法。

圖6 圖像歸一化
首先將16位的分割深度圖像標準化為0~1之間,如圖6所示,然后利用圖7所示的方法將所有15個角度的深度圖的像素值累加求和,并除以15求出每個像素的平均值,最后,除以總的像素個數,求出整體的像素平均值。然后利用圖8所示的辦法,求出沿著15個位姿方向拍攝的圖像的像素值變化的樣本標準差,得到像素值變化的方差。如圖9所示,利用三倍方差的原則去除掉非物體自身的像素點。該方法就是要創建一個與原圖像大小完全一樣的圖像模板。如果原圖像中的像素值在三倍方差之內,對應的模板像素值為1,否則為00然后將模板圖像與獲取的深度圖像進行乘法運算,把屬于物體真實深度值的像素值保留下來。
15幅位姿的深度圖像都進行這樣操作后,每幅圖像都只保留了有用的物體深度信息,然后根據15幅圖像之間拍攝時的位姿關系進行坐標變換,最后將所有深度圖像中的物體深度坐標統一到一個參考坐標系中,這樣同一物體的15幅不同角度的深度圖的深度信息就融合到了一個參考坐標系中,實現了點云數據的融合。圖10就是一個物體不同角度點云數據的融合結果。

圖7 像素均值獲取

圖8 樣本標準差獲取


圖10物體分割點云圖
根據上一步點云融合后的三維點云數據,首先,需要去除噪聲;其次,為了提高速度,還需要進行降采樣處理。
三維位姿配準時,ICP算法容易收斂于局部最優點,因此配準的初始物體位姿應盡量接近最優位姿,這一點尤為重要。本文中采用兩步法進行位姿獲取。首先利用PCA進行粗配準,得到物體與三維點云的初步位姿關系。物體的三維點云數據樣例如圖11所示。圖12是利用PCA方法將物體的模型與三維點云數據進行配準獲取位姿變換關系的樣例。
接著利用上一步PCA粗配準的結果,得到的物體三維位姿作為ICP精配準的初始輸入,利用ICP配準算法的迭代原理,實現精確三維物體位姿的獲取。圖13表示了從PCA粗配準到ICP精配準的樣例展示。圖14展示了最終的分割和匹配結果。物體的外方框是將配準的位姿利用彩色圖像顯示出來。

圖11 物體點云圖

圖12 物體位姿轉換

圖13 物體位姿轉換

圖14 最終分割結果
本文針對倉儲物流過程中貨架上物體的分割及其位姿的獲取提出了新的解決方案和算法。基于深度學習神經網絡,獲得了貨架上不同種類物體的分割模型,基于神經網絡分割的結果實現了貨架上各個物體各個角度拍攝的三維點云融合,最后通過PCA和ICP由粗到精的兩步模型匹配方法,得到物體的實際位姿,定位精度小于兩毫米,能夠滿足機器人抓取的要求。