抗遮擋的單目深度估計算法

2021-01-22 06:00:16馬成齊李學華張蘭杰

計算機工程與應用 2021年2期

關鍵詞：深度

馬成齊，李學華，張蘭杰，向維，2

1.北京信息科技大學信息與通信工程學院，北京100101

2.詹姆斯庫克大學工程學院，昆士蘭凱恩斯4878

近年來，隨著深度學習技術的迅速發展，產生了越來越多的智能化技術。例如與深度估計有著密切聯系的圖像編輯、VR（Virtual Reality）、AR（Augmented Reality）、3D場景解析和自動駕駛技術等。在深度學習技術問世之前，利用普通相機只能捕獲場景的二維平面信息，無法獲取到場景中的深度值。雖然通過使用多個攝像頭以及激光和雷達設備，能夠獲取到深度信息，但激光和雷達不能完美地與相機對準，會導致測量的深度值產生誤差。因此，有學者開始采用深度學習技術替代傳統的激光雷達，在獲取深度信息的同時節約了成本。

使用深度學習技術進行單目深度估計可分為監督型和自監督型。在監督型單目深度估計中，較為經典的是Eigen 和Fergus[1]設計的一個包含粗糙網絡和細化網絡的系統。該系統中的粗糙網絡用于對圖像做全局預測，細化網絡用于對全局預測的結果進行局部優化，整個網絡采用了較早的AlexNet 架構。2015 年，Eigen 和Fergus[2]改進了上述系統，在原有的兩個網絡中增加了一個采樣網絡，加深了網絡結構，同時將AlexNet架構更換為層數更深的VGG 架構，使得輸出的深度圖與使用AlexNet架構相比更為清晰。2018年，Fu等人[3]提出了編碼解碼深度估計網絡，采用洞卷積型網絡來更好地提取圖像的多尺度特征，相比以往的監督型方法，輸出的深度圖分辨率更高。以上監督型方法在訓練過程中都需要地面真實深度，即需要大量密集標注后的數據集。但在實際中，數據集的深度信息標簽普遍是稀疏的，采用監督型單目深度估計不能較好地對場景進行密集估計。

不同于監督型方法，自監督方法在網絡輸入部分使用的是左右兩個相機在同一水平位置上拍攝出的圖像[4]（即同步立體對），或者單目視頻[5]中相鄰幀組合的一組圖像。采用自監督方法進行單目深度估計，較為經典的是Zhou等人[6]設計的系統，該系統把未作任何標記的單目視頻中的每一幀圖像都作為訓練集，使用深度估計網絡和相機位姿網絡對上述訓練集進行訓練。之后采用視圖合成方法，將深度網絡估計出的深度信息與相機位姿網絡結合，恢復出與目標圖像相鄰的另一幅圖像。最后將恢復出的圖像與目標圖像做差，通過最小化損失函數使網絡收斂。Godard[4]則采用同步立體對圖像作為訓練集，利用圖像重建損失對深度網絡進行訓練，輸出視差圖，之后與目標圖像相結合，得到估計的深度圖，進一步提升了準確率。Mahjourian等人[7]提出了一種將場景中的三維損失與單目視頻中的二維損失結合的方法，同時結合掩碼將無用的信息去除，最終得到了較好的深度圖。但由于現有數據集存在物體間遮擋以及物體運動問題，采用自監督方法估計出的深度圖都會存在偽影。

為了解決以上問題，本文提出了一種抗遮擋的自監督單目深度估計方法。主要貢獻如下：（1）提出了一種新穎的網絡架構，將U-Net[8]架構與殘差網絡（Residual Network，ResNet）[9]融合，并且保證了輸入和輸出的圖像分辨率一致。（2）使用最小化光度重投影損失函數與自動掩蔽損失來處理物體被遮擋的問題，使估計出的深度圖更加清晰，減少了邊界偽影。（3）基于KITTI數據集[10]，驗證了本文方法的有效性，相比于文獻[4，11-13]中提到的四種方法，本文方法呈現了較好的估計結果。

1 自監督深度估計網絡模型

本章將從深度網絡模型的構造及損失函數的選擇來介紹本文提出的自監督單目深度估計方法。

1.1 深度網絡結構

本文的網絡架構采用了深度網絡和相機位姿網絡協同工作的架構。其中，深度網絡使用U-Net 和ResNet34 相融合的編碼、解碼架構，輸入為某時刻的單幀圖像；位姿網絡的編碼器和深度網絡相同，輸入為三幀相鄰時刻的圖像。網絡的損失函數由光度重投影和邊緣感知平滑函數兩部分構成。其中，最小化光度重投影函數結合了自動掩蔽損失，用于解決物體遮擋和運動帶來的影響。本文網絡架構如圖1所示。

1.1.1 U-Net架構

U-Net 網絡架構是一種輕量級的全卷積神經網絡，可以分為兩個部分：收縮路徑對應的是編碼器部分，而擴展路徑對應的是解碼器部分。在收縮路徑中，通過池化層將特征通道的數量加倍，同時考慮到卷積會導致邊界像素的損失，該網絡進行了適當的剪裁。相反，在擴展路徑中，通過上采樣將特征通道數量減半，最后與收縮路徑中經過剪裁后的特征圖進行連接。圖2 給出了U-Net架構示意圖。

圖2 U-Net結構圖

本文使用的KITTI數據集涉及市區、鄉村和高速公路等場景采集的真實圖像，包含內容較多。每張圖像中的車輛最多可達15輛，行人最多可達30個，且會出現不同程度的遮擋與截斷問題。如果采用普通深度網絡對KITTI 數據集進行訓練，隨著網絡層數的加深，預測的準確率將呈現先上升，后飽和再下降的趨勢。因此，為了更加準確地提取圖像中的深度信息，將ResNet34 與U-Net 網絡融合，使用ResNet34 網絡參數作為U-Net 架構中的編碼器部分，解決了隨著網絡層數的加深，出現預測準確率下降以及梯度消失和爆炸的問題。

1.1.2 ResNet34結構

ResNet34的結構圖如圖3所示，每兩個卷積塊組成一個building block，結構為：Conv（3×3）-BN-ReLUConv（3×3）-BN，其中BN（Batch Normalization）層為批量歸一化層。在整個模型中，每個卷積核卷積步長皆為2，卷積核的輸出部分統一采用了ReLU激活函數。

圖3 ResNet34結構圖

與編碼器對應，深度網絡的解碼器部分采用了步長為1，大小為3×3的卷積核，具體信息如表1所示。為了更好地減少深度圖中的偽影，本文將解碼器中采用的補零填充方式更換為了反射填充。該方法在樣本處于圖像邊界之外時，能夠返回原圖像中與邊界像素相似的值。

表1 解碼器信息

整個深度網絡的設計可以防止在對目標進行深度估計和圖像重建時，訓練目標陷入局部最小值。同時，編解碼的結構能夠保證輸入圖像和輸出圖像分辨率一致。但采用單目視頻中的幀序列進行深度估計時，無法保證拍攝每幀圖像時的相機位姿是一致的，因此本文加入了相機位姿網絡。

1.2 位姿網絡結構

Godard[4]設計的自監督方法，采用同步立體對進行訓練，會導致相機位姿估計只能進行一次離線矯正，無法考慮每個時刻相機位姿以及物體間的遮擋所帶來的影響。因此，本文在訓練網絡時采用了單目視頻中的連續幀作為輸入，在對圖像深度進行估計的同時，還需要估計單目視頻中幀與幀之間的攝像機姿態。通過姿態估計約束深度網絡，實現從幀序列中的某一幅圖像預測出與其相鄰的另一幀圖像，同時采用最小化光度重投影來處理遮擋問題，采用自動掩蔽損失處理運動帶來的偽影問題。

位姿網絡采用了與深度網絡相同的結構設計，編碼器部分仍然采用標準的ResNet34，解碼器部分的所有卷積核以及輸出部分統一采用了ReLU函數。

1.3 損失函數

本文使用的損失函數是兩個部分的加權，即結合了自動掩蔽損失的光度重投影誤差函數和邊緣感知平滑函數。其中，最小化光度重投影用來處理物體遮擋問題，而自動掩蔽損失用來處理運動帶來的偽影問題。

1.3.1 最小化光度重投影函數

自監督單目深度估計通過訓練網絡從一幅圖像的視覺角度預測目標圖像的出現，通過深度網絡和相機位姿網絡以及損失函數來執行目標圖像的合成。但在新建視圖時存在一個問題，即每個像素可能存在多個不正確的深度，會導致最終的深度圖出現模糊以及偽影。本文將這一問題轉化為訓練時光度重投影誤差的最小化。其中光度重投影誤差Lp表達式為：

式中，It為目標圖像，It′為源視圖，pe 為光度重投影誤差，由L1和SSIM組成，表達式為：

其中，損失函數L1 用于將目標圖像中的像素值與估計圖像中的像素值做差，并取絕對值。損失函數SSIM（Structural Similarity index）用于衡量目標圖像與估計圖像的相似度。Tt→t′表示每個源視圖相對于目標圖像的相機姿態。在單目訓練中，通常采用與目標圖像相鄰的兩幀圖像作為輸入，該輸入方式可能會使目標圖像的前一幀和后一幀像素之間存在遮擋和去遮擋問題。當損失函數迫使網絡去匹配這些像素時，將會包含被遮擋的像素，導致最終的深度圖出現偽影，估計效果較差。

本文采用最小化光度重投影誤差替代原有的光度重投影誤差，表達式為：

即在每個進行匹配的像素處，取光度重投影誤差的最小值作為投影誤差，而不是原有的對光度重投影誤差取平均值，有效降低了投影誤差，從而減少了深度圖中的偽影，具體實現方式如圖4所示。

1.3.2 自動掩蔽損失

自監督單目深度估計采用的KITTI 數據集是假定場景為靜態情況下，運動的攝像機拍攝的街道物體圖像。因此，如果場景中存在移動物體，或者有物體與攝像機保持了相對靜止，都會對預測的深度圖產生很大影響。該問題可以理解為對于運動的物體，自監督單目深度估計方法預測出的深度圖將存在無限深度的洞[11]。本文采用自動掩蔽損失[14]來處理該問題，函數表達式為：

圖4 外觀損失圖

自動掩蔽損失函數會過濾掉從當前某一個幀序列到下一個幀序列中不改變外觀的物體，進而使深度網絡過濾掉和攝像機具有相同速度的物體。[]為艾弗森括號，當括號內的條件滿足時，μ 的值為1，不滿足則μ 為0。由于未經過形變的源圖像It′ 的重投影誤差要低于經過形變的圖像It′→t的誤差，因此使用μ 來忽略原始的光度重投影誤差像素損失。

1.3.3 邊緣感知平滑函數

最后，結合使用邊緣感知平滑函數Ls，表達式為：

由于深度不連續的問題一般會發生在圖像的梯度上，因此對視差梯度增加了L1懲罰項，用于預測出較為平滑的視差。

最終，本文提出的深度估計網絡模型的損失函數為：

其中，λ 為常數，取值為0.001，光度重投影誤差中的?取值為0.85。其中?和λ 的取值參考了Godard[4]的設置，該取值是目前最常用的最佳參數設置，Lp為SSIM與L1的組合。

2 實驗過程及結果分析

本章采用本文的深度估計網絡模型對KITTI 數據集進行深度估計，并對結果進行分析，同時與目前四種單目深度估計模型算法在同一個場景下進行了對比。

2.1 KITTI數據集

本次實驗選用的KITTI數據集，是當前最大的自動駕駛場景下的計算機視覺算法測評數據集，包含了城市、住宅、道路、校園和行人。使用整個raw data的數據對網絡進行訓練以及測試，其中每張圖像的分辨率為1 242×375。

2.2 實驗步驟

本文在單目深度訓練中使用了相鄰三幀圖像的序列長度，以50%的幾率對輸入圖像進行了水平翻轉以及范圍統一為±0.1 的隨機亮度、對比度、飽和度和色調的抖動，相機位姿網絡也采用上述操作。在對輸入數據進行訓練時，本模型使用Adam 算法[15]替代傳統的隨機梯度下降（Stochastic Gradient Descent，SGD）算法，可以更高效地更新深度網絡中的權重。訓練周期為20 個，每個周期的批處理數量為12。由于采用了U-Net 對稱性網絡架構，輸入及輸出的圖像分辨率均為1 242×375。在訓練的前15 個周期使用了1×10-4的學習率，在后面的5 個周期中將學習率降低為1×10-5。訓練使用的服務器CPU為E5-2650 v4，GPU為NVIDIA TITAN V，系統為Ubuntu16.04.6。整個輸入輸出網絡采用Pytorch搭建，訓練時間為30個小時。

與以往單目深度估計算法類似，本文也使用Eigen[2]的數據拆分方法對KITTI數據集進行了拆分，拆分后的39 810張圖像用于訓練，4 424張圖像用于驗證，同時將相機的中心點設置為圖像的中心點，相機的焦距設置為KITTI 數據集中所有焦距的平均值。為了便于和以往方法進行對比，在測試結果中，按照標準的對比方法將深度限制在80 m范圍。

2.3 實驗結果與分析

本節重點對比了本文的單目深度估計算法與其他作者的單目深度估計算法的估計結果。為了更加清晰準確地對結果進行比較，測試時采用了相同的道路場景。

2.3.1 算法結果

圖5給出了本文結果與Godard[4]、Luo等人[11]、Ranjan等人[12]以及Yin等人[13]的方法對比效果圖。從圖5 可以看出，相比其他四種方法，本文的單目深度估計算法在場景圖a中可以清晰地顯示出行人和遠處車輛的輪廓，而其他方法所估計出的行人較為模糊，或者存在深度值不統一及顏色不一致。在場景圖b中，對于街道中被立柱遮擋的汽車，本文算法也可以顯示出其輪廓，且立柱的顯示效果好于其他四種算法。從場景圖c中可以看出，和其他四種算法相比，只有本文算法可以清晰地顯示被行人遮擋的立柱。

圖5 實驗結果對比圖

圖6給出了未加入任何優化組件、加入自動掩蔽損失單獨組件、加入最小化光度重投影誤差單獨組件，以及同時加入自動掩蔽損失和最小化光度重投影誤差兩個組件的效果圖。從圖中可以看出，當未加入最小化光度重投影和自動掩蔽損失時，估計的深度圖效果較為模糊，存在偽影，同時遠方的無限深度出現洞，而且運動物體較為模糊。例如場景圖a 中，行人在一個固定位置時，估計出的整個行人的深度圖像素值不統一，存在一定誤差，同時遠處行駛的汽車也未顯示出來。場景圖b中，正前方有大面積無限深度的洞，同時左側的立柱由于遮擋也沒有清晰顯示出來。場景圖c中，被行人遮擋的立柱顯示較為模糊，存在偽影。

圖6 組件對比實驗圖

當單獨加入自動掩蔽損失后，場景圖a中遠方運動的汽車可以估計出清晰的效果，同時右側運動的行人深度值統一，顏色一致。場景圖b 中，正前方無限深度的洞明顯減弱，畫面有了分割。場景圖c和場景圖b相似，洞的效果也明顯減弱。

當單獨加入最小化光度重投影組件后，在場景圖a中，左側的樹木枝干可以估計出清晰效果。在場景圖b中，前方被遮擋的立柱也可以估計出較為清晰的效果。在場景圖c 中，效果更加明顯，被行人遮擋的立柱也可以清晰看出估計結果。

最終將自動掩蔽損失和最小化光度重投影誤差兩個組件同時加入到網絡模型中后，估計出的效果得到了進一步提升，被遮擋的立柱以及運動的車輛及行人整體同時都呈現出較為清晰的估計結果，正前方無限深度畫面邊界分割更加細致。

為了對比本文算法在不同遮擋下的效果，圖7給出了KITTI 數據集（場景a）以及數據集之外的兩組場景（場景b和c）的效果圖。從圖中可知，對于場景a中的單一物體車輛、樹木以及低紋理區域，并且遮擋物體和被遮擋物體之間存在一定距離時，本文算法的估計效果較好。對于在場景b 中，樹木上方的枝干繁多，分布較為密集，本文方法的估計效果有所下降，但對于距離較遠的低紋理區域，如下方枝干，依然可以估計出清晰的效果圖。在場景c 中，由于房屋右側被密集的樹葉遮擋，估計效果也有所下降。因此，本文方法對于所拍攝的街道和公路中的行人、車輛等這種運動物體間造成的單一遮擋有較好效果。

圖7 遮擋對比實驗圖

2.3.2 算法性能分析

與標準差（Standard Deviation）和平均絕對誤差（Mean Absolute Error，MAE）相比，均方根誤差（Root Mean Square Error，RMSE）對深度圖中的異常值更加敏感。因此，本實驗選取了RMSE函數和平方絕對誤差（Square Relative error，Sq Rel）函數作為網絡模型算法的評估指標，表達式分別為：

其中，ypred表示估計出的深度圖，而ygt表示地面真實深度圖。RMSE 函數用來衡量觀測值同真值之間的誤差。表2和表3所示分別給出了本文單目深度估計算法和其他四種算法的RMSE 和Sq Rel 的對比結果。從表中可以看出，相比其他四種方法，使用本文方法獲得的深度圖的RMSE和Sq Rel都是最小的。

表2 RMSE指標結果對比

表3 Sq Rel指標結果對比

3 結束語

針對單目深度估計中由于物體遮擋導致的圖像估計準確度較低的問題，本文提出了一種優化方法。在網絡結構中，將U-Net 和ResNet 相結合，通過使用最小化光度重投影損失函數，來處理單目視頻中相鄰幀間的遮擋問題，同時結合了自動掩蔽損失，解決了運動物體帶來的干擾，使深度估計的結果更加清晰，減少了偽影問題。最后，使用KITTI數據集驗證了本文優化方法的可行性，相比于目前四種單目深度估計模型算法，本文方法估計出深度圖的RMSE誤差和Sq Rel誤差都是較優的。