高永彬,王慧星,黃 勃
(上海工程技術大學 電子電氣工程學院,上海201620)
單目深度估計對三維場景理解任務具有重要意義,在三維重建、自動駕駛、視覺跟蹤、三維目標檢測、增強現實等領域有著廣泛的應用。隨著深度學習的迅速發展,利用有監督學習方法進行單目深度估計的研究大量涌現,這些方法通常將深度估計建模作為一個回歸問題,使用深度卷積神經網絡獲取圖像的層次信息和層次特征,并通過最小化均方誤差來訓練回歸網絡。然而,這些方法往往存在缺點:一方面,使用最小化均方誤差來訓練回歸網絡,往往會導致網絡收斂慢和局部解不理想的問題;另一方面,為了獲得高分辨率的深度圖,需要使用跳躍連接或多層反卷積網絡結構,這使網絡訓練更加復雜,計算量大大增加;最后,利用多尺度網絡對圖像進行特征提取,往往會丟失像素的特征信息和位置信息,對較小目標的深度估計效果較差。為此,Fu等人提出了用于單目深度估計的深度序數回歸網絡(Deep Ordinal Regression Network),使 用ASPP(Atrous Spatial Pyramid Pooling)獲取不同尺度的特征,并通過全圖像編碼器捕獲全局上下文信息[1]。采用離散策略對深度值進行離散,將深度估計轉化為序數回歸問題,通過一個普通回歸損失函數訓練網絡,提高網絡訓練效率。
本文主要對深度序數回歸網絡深度序數回歸算法進行研究,主要貢獻如下:
(1)提出了一種基于CBAM(convolutional block attention module)的深度序數回歸方法,通過CBAM代替深度序數回歸算法中的全圖像編碼器,獲取更完整的像素特征信息和位置信息,提高全局上下文信息的表示能力;……