仵 宇
(中國石油大學(華東)計算機科學與技術學院 青島 266580)
場景的深度估計是計算機視覺中的經典問題,對場景理解、三維重建、自動駕駛以及光照估計等問題有重要作用[1]。普通攝像機拍攝的圖像只記錄了場景的顏色信息,沒有記錄攝像機與場景中物體之間的距離信息,即深度信息。場景深度估計任務的目的就是恢復出目標場景中每個像素點的深度信息。
基于圖像的深度估計方法根據不同的輸入圖像數量可分為多目深度估計方法和單目深度估計方法。基于多張圖像的深度估計方法包括立體幾何(MVS)算法[2]、運動中恢復結構(SFM)算法[3]以及從圖像陰影中恢復深度信息(SFS)算法[4]等。立體幾何算法通過模擬人眼成像的方式,采用兩個相機拍攝不同視角的圖像,通過代價函數計算出圖像的視差圖,其原理與人的雙眼成像過程類似,SFM是從一系列二維圖像序列中估計三維結構的代表性方法,通過圖像序列之間的特征對應和幾何約束來計算,即精確的特征匹配和高質量的圖像序列很大程度上決定了深度估計的精度,SFS 則是利用灰度圖像中陰影部分像素值的變化來恢復目標物體表面形狀。這幾種算法精度不高,同時對于輸入的要求各有不同,所以適用性不好。
基于單幅RGB 圖像的深度估計方法又稱單目深度估計方法,是計算機視覺領域近幾年的熱門研究課題。盡管從單幅RGB 圖像估計圖像的深度信息是一個病態的問題,但單目深度網絡能夠通過學習表示方法,將場景和物體的外觀與其在歐幾里德三維空間中的幾何形狀聯系起來,從而做出準確的預測[5]。……