張 卓 石孫鳳 徐曉龍 張學武
(河海大學物聯網工程學院 常州 213022)
在自動駕駛、三維環境重建等應用場景中,近景視場中的深度信息是控制決策、保障安全的重要數據依據。圖像測量技術以其感知信息豐富、適用性廣泛、便于利用現代信息技術分析的優勢,逐漸成為了深度信息測量的主流技術。圖像測量技術一般通過雙目圖像的左右視圖中對應像素點的立體匹配,得到視差圖,進而計算出目標對應的深度信息。在現有的雙目圖像測量技術中,傳統雙目視覺立體匹配算法按照匹配范圍限制可分為局部匹配法[1]、半全局匹配法[2]和全局匹配法[3]。但傳統雙目視覺立體匹配算法由于鏡頭畸變、光線變化和物體遮擋等諸多因素的影響,存在匹配精度差和速度慢的缺點。
針對傳統雙目視覺存在的缺點,目前國內外已有不少的研究人員將深度學習技術應用到雙目深度測量領域。JZbontar[4]在2015年將深度學習技術引入了立體匹配領域中,提出了MC-CNN 網絡,將半全局匹配算法和網絡模型進行融合,通過十字近似的方式實現代價聚合。SGM-Net[5]在半全局匹配算法SGM 中加入網絡模型,利用網絡學習左右圖像中視差的分布并作為懲罰系數加入到SGM 算法中。GC-Net[6]首先利用特征提取網絡對左右圖像進行特征提取;然后構建四維代價體,即建立視差搜索空間;利用三維卷積在視差搜索空間中進行代價傳播,最后,通過激活函數和絕對平均誤差損失回歸視差。StereoNet[7]通過粗粒度的深度估計模塊提取特征和生成匹配代價,然后選用雙線性上采樣和卷積操作替換的方式在多個層次對視差進行優化。……