摘 要: 目前,機器人技術在工業化與自動化產業中扮演著舉足輕重的角色,然而,機器人在視覺信息感知領域仍面臨感知精度不足等挑戰。為提升機器人在復雜工作場景下的視覺信息精確感知能力,該文基于三維高斯濺射(3DGaussian splatting, 3DGS)提出一種超分辨視覺場景構建算法。該算法引入真實世界增強型超分辨率生成對抗網絡(real-world enhanced super-resolution generative adversarial networks, Real-ESRGAN)作為前置預處理技術生成高分辨率視圖,并通過對生成的高分辨率視圖下采樣結果與原有的低分辨率視圖對齊得到亞像素約束,進而增加三維重建細節部分的表征精細度。在場景構建過程中,自適應密度控制保證重建的精度,高斯快速可微光柵化器保證實時渲染速率。通過在具有復雜紋理、鏡面反射等特征的多種場景實驗驗證表明,與傳統3DGS 相比:峰值信噪比(PSNR)指標平均提高7.81%,結構相似性指數(SSIM)指標平均提升4.31%,學習感知圖像塊相似度(LPIPS)指標平均降低38.35%。該算法可顯著改善傳統3DGS 在低分辨率輸入時出現的顏色渲染錯誤、針狀偽影以及紋理信息缺失等問題,為機器人視覺信息感知提供新的技術支撐。
關鍵詞: 三維重建; 機器人感知; 神經輻射場; 超分辨; 三維高斯濺射
中圖分類號: TB9 文獻標志碼: A 文章編號: 1674–5124(2024)09–0013–08
0 引 言
近年來,隨著工業化與自動化產業的迅速發展,機器人技術已成為提升生產效率、優化產能輸出的關鍵因素。視覺場景構建技術為機器人提供了精確的環境感知能力,在機器人的感知與運動控制過程中扮演著舉足輕重的角色,使其能夠更準確地理解并適應復雜的工作環境,從而更高效、更安全地執行各類任務。
傳統的結構光三維重建方法因其原理簡單、使用方便以及精度較高等優點已被廣泛運用于中小型物件的特征提取及精度測量領域[1-2],但因其效率較低,受環境光照影響大以及實時性較差等原因,難以在場景重構以及機器人視覺信息感知領域普及應用。
神經輻射場(neural radiance fields,NeRF)作為近些年興起的三維重建方案,開創性地引入了多層感知器(multilayer perceptron,MLP)[3],實現了空間坐標到顏色和體密度的直接映射,基于此可實現對于任意物體的語義分割[4-5],大大提升了機器人的環境感知與理解、路徑規劃與導航、目標識別與交互、場景重建與可視化以及智能決策與自主控制能力[6-8]。然而,神經輻射場仍存在計算資源需求大,渲染速度較慢,重建模型質量一般等問題[9]。為了解決上述問題,3DGS[10] 在避免不必要空間計算的情況下,保留了連續體積輻射場的特性,實現了場景的準確表示,同時加入了快速可感知渲染算法,支持各向異性濺射,并允許實時渲染,使機器人在感知及規劃等方面的實時性和效率大大提高[11-15]。
雖然3DGS 相較于之前的方法在渲染速度和重建精度上都有了質的飛躍,但在僅使用低分辨率輸入執行三維重建時,它的效果會急劇退化。具體來說,3DGS 的渲染需要具有顯著紋理特征的密集高斯基元,因此在低分辨率輸入的情況下,渲染結果會出現偽影和紋理信息缺失的現象[11,14]。
針對上述問題,本文提出了增強型超分辨紋理學習三維高斯濺射EST-3DGS( enhanced superresolutiontexture-learn 3D Gaussian splatting)算法。通過引入真實世界增強型超分辨率生成對抗網絡( real-world enhanced super-resolution generativeadversarial networks,Real-ESRGAN)算法[16] 對低分辨率二維圖像進行處理,使低分辨率輸入獲得更加清晰逼真的紋理信息,進而提高三維重建的精度;然后,通過對生成的高分辨率視圖進行下采樣并與原有的低分辨率視圖對齊得到亞像素約束, 使3DGS 能夠更充分地利用二維圖像中的紋理信息,從而增加三維重建細節部分的表征精細度。
1 EST-3DGS 算法
1.1 算法模型
顯著紋理特征是完成精準視覺場景構建的關鍵。本文引入的Real-ESRGAN 算法提升了輸入端的紋理信息,亞像素約束優化了紋理信息的利用率,二者均提高了視覺場景構建的準確度。
首先,通過Real-ESRGAN 算法生成高分辨率視圖,增強輸入端圖像的細節和清晰度。然后,通過將生成的高分辨率視圖下采樣與原有的低分辨率視圖對齊得到亞像素約束,從而確保紋理信息的準確性和豐富性。同時,在初始化階段生成稀疏點云,借助可微三維高斯濺射和相機位姿信息,通過高斯快速可微光柵化器實現整體圖像的快速渲染和高效排序。自適應密度控制機制動態地優化高斯覆蓋區域,確保渲染效果的均勻性和高質量。在場景致密化的過程中,亞像素約束對視覺場景的構建結果進行了優化,提高三維場景的準確率和細節豐富度。
本算法顯著改善了傳統3DGS 在低分辨率輸入時出現的顏色渲染錯誤、針狀偽影以及紋理信息缺失等問題,為機器人視覺信息感知提供了新的技術支撐。本算法整體網絡圖見圖1。