李凌樂 李瑞華
(許昌學院工程技術中心,河南 許昌 461000)
基于視覺的非剛性物體跟蹤技術在計算機視覺、計算機圖形學和機器人社區中逐漸成為研究的熱點方向[1]。在諸如增強現實、醫學成像、機器人操縱等領域,可通過這項技術處理各種各樣的物體,如紙張、橡膠、黏性流體、電纜、食物等,具有潛在的廣泛應用場景[2]。近年來,機器人學術界及工程界越來越多地關注涉及食品操作任務的機器人,這有助于提高食品制作的效率、品控,同時可保障食品的衛生[3]。圖1為披薩廚師機器人的操作場景示意圖,通過對人形雙臂的操作,完成披薩的制作,需要機器人支持可形變物體的復雜動態操縱任務。

圖1 機器人制作披薩
人形披薩廚師機器人控制中的核心問題即機器人的感知,通過傳感器來指引機器人可形變物體的跟蹤,力求良好的準確性、穩定性以及實時性。處理感知系統中的形變問題需考率諸多影響因素,如對所選材料特性進行建模,以及使該模型適配視覺和距離數據[4]。此外,還需考慮實時問題,這是機器人動態操作的硬性要求[5]。中國對于可形變物體跟蹤識別技術的研究尚處于起步階段,盡管許多研究提出了用有效的實時技術來處理經歷等距或微小彈性形變的3D表面(如紙張、衣服等),但未能解決更大的彈性形變問題。對于無紋理的彈性物體的建模通常需要依賴于有限元方法(Finite Element Method, FEM),但典型的有限元方法對于待識別物體發生較大形變以及快速形變后的識別效果仍不夠理想。因此,試驗擬提出一種實時跟蹤方法,使用由RGB-D傳感器提供的視覺和距離數據,通過跟蹤大幅度形變和快速剛性運動來處理無紋理的彈性物體,在應用有限元方法的基礎上對模型進行改進,建立一種帶有輪廓加權的同向旋轉FEM模型,實現可形變物體的跟蹤識別,對提出跟蹤合成數據和實際的披薩面坯實際圖像應用模擬開放框架架構(SOFA)模擬器,驗證文中所述算法的有效性。
逐幀跟蹤系統架構如圖2所示。為達到可形變對象跟蹤的目的,對所考慮對象的視覺分割,使用基于圖像分割的方法以確保時間一致性。使用生成的分段點云,執行剛性迭代最近點(ICP)以估計從點云到網格的剛性變換。使用上一步得到的分段點云,計算從點云到網格,施加在網格頂點上的外部線性彈性力,在相反方向則參考最接近點的對應關系。應用意義在于提高了數值分辨率,自動發現目標。捕捉到清晰的目標特征,以利于實時的判斷和事后對照取證。
Grabcut算法是一種由微軟公司提出的圖像分割手段,通過在圖像中圈定一個方框,框外部分均為背景,而框內部分則可能是前景或背景[6]。該算法被廣泛應用于圖像分割中,具有高效的特征。Grabcut算法基于前景(對象)和背景的統計模型將視覺雙層分割任務轉化為能量最小化問題[7]。

圖2 可形變對象跟蹤方法


(1)
E(α)=Edata(α)+γEsmooth(α),
(2)
(3)
式中:
Edata——數據能量項,定義像素pi屬于前景或背景的觀察概率為p(pi|αi),Ui(αi)=-log[p(pi|αi)]為像素上觀察到的圖像數據,如密度、顏色、位置等;
Esmooth——平滑能量項,其目標是支持像素內的平滑度或空間相干性。
一旦通過用戶交互來分割初始圖像,則類似地處理以下幀,該操作并不是分割整個幀,而是圍繞分割區域的輪廓周線逐幀更新有效分割區域,據此提供分割過程中時間的一致性。如圖3所示,提取先前分割的前景輪廓周線,并在其上計算距離變換,從而向這些輪廓提供帶符號的距離圖d(負的外部,正的內部)。

圖3 分割的時間一致性
根據距離圖上的固定閾值dt,在輪廓周圍定義一條窄條(|di|
試驗主要處理的是可能發生大幅度彈性形變的物體,因此主要問題在于相關物理模型的定義。相較于質量彈簧系統的有限差分,FEM方法提供了一種真實的物理模型,依靠連續介質力學能更好地表達相關的特性[9]。考慮建模精度問題,采用具有四面體單元的體積線性FEM方法,其性能優于其他拓撲結構,同時兼顧了計算效率,并且便于使用拓撲結構進行網格劃分。

(4)


(5)
其中Le為一個6×12常矩陣。
為將應力與應變聯系起來,通過胡克定律的線性彈性理論可知,對于連續的各向同性材料,無窮小的應力張量σe可表示為:
σe=Ceεe,
(6)
其中Ce為6階對稱矩陣,取決于材料的兩個彈性參數——楊氏模量E和泊松比υ。
通過式(5)、(6)可得:
(7)

(8)

(9)

形變配準問題在于將RGB-D傳感器提供的點云數據與已知的四面體網格適配,基本思想是導出點云對網格施加的外力,并將外力與物理模型計算的內力整合至求解所得機械方程的數值求解中。這些外力是基于點云和網格之間的點對點對應計算的,放寬了具有紋理對象或具有粗糙表面對象的限制,可以提取和匹配其中2D或3D關鍵點。可以考慮通過離線自動重建和網格化技術構建網格,通過對自旋圖像或局部3D特征的一些學習和識別解決初始化問題。此外,假設所選材料楊氏模量和泊松比為已知的。
使用獲取的RGB圖像序列從其背景和遮擋中分割所需對象,由于不依賴于一些獨特的視覺特征,為避免模糊,深度傳感器提供的點云僅限于所考慮對象,在與背景匹配過程中或具有遮擋形狀,并能處理從輸入點云到網格的對應關系。


以非剛性方式向網格注冊分段點云,采用類似ICP程序,假設通過3.2中估計的剛性變換更新集合X、XV。

由于依賴于唯一的幾何接近度可能導致使用單點對點匹配的不一致,因此采用兩組對應關系。如圖4所示,從分段點云到網格,對應性使得能夠跟蹤,如在拉伸力下的膨脹形變,對于該拉伸力,觀察到分段點云Y將在網格XV可見表面上擴展,Y相對于XV擴展區域可與XV外部區域匹配(右側紅色箭頭)。這些對應關系還能處理遮擋和分割錯誤,對象的相應未觀察區域不會影響XV底層區域。相反,從XV到Y,對應物更適合跟蹤壓縮動作下的收縮形變,XV外部區域與被壓縮物體的觀察點云Y外部區域相互匹配(左側綠色箭頭)。未觀察到區域將影響與XV的最近區域匹配的下面區域XV。

圖4 網格和點云間的對應關系
3.3.2 計算外力 基于由NXV、NY給出的兩組網格和點云的對應關系,在XV中對每個xi施加的外部彈力fext可按式(10)計算。
(10)
(11)


kext=1 N/m,λ=0.7
3.3.3 使用輪廓的加權力 基于3D幾何形狀建立對應關系,位于網格遮擋輪廓上的頂點被吸引到點云中的擴展區域。通過加權網格可見表面頂點來增強吸引力,給定其與投影網格的遮擋輪廓距離。基于投影網格的深度圖dM計算網格遮擋輪廓距離圖,進而計算頂點xi權重wi。
(12)
式中:

σ——根據經驗設定的參數。
對wi歸一化,以便得到觀察概率,按式(13)計算力。
(13)
3.3.4 用于計算形變的數值解算器 估計網格形變包括求解基于拉格朗日動力學方程,涉及內部和外部力的常微分方程:
(14)
f=K′x+f0,
(15)
式中:
x——包含X、M中頂點位置的nX階向量;
C——nX×nX質量和阻尼矩陣;
K′——nX×nX全局剛度矩陣。
使用得到的網格頂點的估計位置x可以更新X。
為了評估所提出的方法,測試各種物體形變和條件。對于非剛性注冊階段,采用模擬開放框架架構(SOFA)模擬器,該模擬器能處理各種物理模型并實時演化模擬。
依靠SOFA框架,首先生成一個涉及圓柱形彈性物體形變序列,由FEM同向旋轉方法建模,具有E=800 Pa的楊氏模量和ν=0.3的泊松比。基于手工設計的半徑×高度為0.11 m×0.02 m的圓柱面三角網,使用3D Delaunay三角剖分,通過CGAL庫生成體積四面體網格,得到網格由1 369個元素和497個頂點組成,如圖6所示。

圖6 處理后的網格
模擬形變并生成序列,在Z方向上施加彈性拉伸力如圖7所示。對4種建模方法的效果進行對比,分別獲取第15,50,55,150幀的形變識別情況,表明試驗所提出的方法效果最好。

圖7 形變跟蹤結果
為了對真實數據進行試驗,從校準的RGB-D相機華碩Xtion,320×240 RGB和正在處理的深度圖像中獲取被調查場景的點云,使用帶有NVIDIA GTX 1060顯卡的標準筆記本電腦以及2.4 GHz Intel Core i7 CPU。分段過程涉及循環,由于需要快速的實時性能,主要依賴于CUDA實現。試驗對象涉及用硅制無紋理光滑彈性物體,網格尺寸0.12 m×0.01 m,包括574個頂點和1 675個元素。
在第一個特征序列中,物體經大幅度剛性運動、各種等長和彈性形變,設定kext=1 N/m,E=300 Pa,ν=0.3,跟蹤識別結果如圖8所示,使用帶有輪廓加權的同向旋轉FEM方法與其他模型方法進行比較。
由表1可知,試驗所提出的帶有輪廓加權的同向旋轉FEM模型在時間開銷上并沒有劣化,不會影響控制系統的實時性。
試驗通過RGB-D傳感器,采用視覺分割和有限元分析方法建立了彈性形變物體的模型,并實現了點云數據的注冊。試驗提出的帶有輪廓加權的同向旋轉FEM模型可較好地實現對無紋理形變物體的跟蹤,在保障識別第1行顯示輸入RGB圖像;第2行顯示用質量彈簧模型跟蹤對象的3D網格;第3行用標準FEM模型跟蹤;第4行用提出的方法效果的前提下,并未由于模型復雜度的提升而影響運算的時間開銷。試驗缺少對更大的彈性形變的多種目標進行研究分析來驗證算法的有效性,后續可增加試驗的多目標驗證來完善算法的正確性。

圖8 披薩面團的跟蹤效果
Figure 8 Pizza dough tracking effect

表1 4種模型算法各個階段的計算時間