●創新點
給定一張圖像,人類可以根據以往的視覺經驗推斷出 3D 景深,而如何讓計算機從單張圖片推斷 3D結構一直是計算機視覺領域的難點和熱點。現有的 CNN+Depth 或者CNN+SLAM 技術通常是直接利用深度圖進行監督學習,以及利用幀間轉移的 ground-truth pose 技術進行監督學習。然而,這類監督學習的方法需要的數據成本較高,難以獲取大規模訓練數據。在小數據集上訓練,往往導致這些方法在未見過的場景下不能正常工作。目前,CNN與Depth以及 SLAM 的結合都停留在實驗室階段,由于自動駕駛面臨復雜多變的道路場景,這些監督學習的方法都不太適用。美國加利福尼亞大學伯克利分校的研究人員采用了無監督的方法針對視頻數據進行訓練,從而對單張圖片的深度以及連續幀之間的車輛運動進行估計,為 CNN 在自動駕駛領域的應用帶來了新的啟發。
●方法和結果
該研究組利用視頻連續幀不同視角的幾何信息作為監督信號,訓練了一種端到端的單目圖像深度估計和車輛運動估計構架,其中包括一個用于單一視角深度估計的CNN+Depth,以及用于連續幀間運動估計的 Pose CNN。該方法通過將當前幀圖像結合預測的深度圖,并將幀間轉移投影到臨近幀上,計算像素誤差,從而對兩個網絡進行聯合訓練。在 KITTI 數據集上的評估結果顯示,該方法和之前用 ground-truth pose或者 Depth 進行監督的方法性能是相當的,并且運動估計的結果和現有的通用 SLAM 方法性能相當。
應用前景
在自動駕駛領域,這種無監督的方法使大規模的訓練成為可能,即使 pose 估計的精度不能滿足實際應用,單張圖像的深度圖對特征點的選擇也有很好的指導意義。此外,該方法可以解決 SLAM 技術中的重要問題,即如何濾除場景中的運動物體。研究者們相信這一技術可以應用到其他領域中去,在訓練數據缺乏標記的情況下讓機器學習發揮作用。
Source:Tinghui Zhou,Matthew Brown,Noah Snavely,et al.Unsupervised Learning of Depth and Ego-Motion from Video[A].Computer Vision and Pattern Recognition 2017[C],arXiv:1704.07813.