管陽
(陜西國防工業職業技術學院藝術與設計學院,陜西西安 710300)
據統計,人類83%的信息獲取來自于視覺。近年來,隨著計算機視覺的發展,三維重建技術(3D Reconstruction)取得了長足的進步[1-4]。而室內三維重建將現實的二維圖像通過圖像提取、特征提取及立體匹配(Stereo Matching)等流程轉化為計算機可投影的立體圖像,且在室內設計領域得到廣泛的應用。該技術在人體雙目線索感知距離原理的基礎上,利用計算機獲取三維信息。在實現三維重建的過程中,需借助兩個及以上的攝像機對同一物體從不同位置成像,再基于相機間的視差計算距離深度信息,進而實現對物體的三維描繪。利用兩臺計算機對同一場景進行像素點搜尋并獲取視差的過程,稱為立體匹配。傳統的立體匹配算法主要通過圖像特征線、掃描線等計算初始視差,同時基于能量函數的迭代實現最優視差圖的搜索。但這類算法對于弱紋理、部分遮擋及深度不連續等特征的提取效率偏低,匹配精度也較差,故無法滿足三維重建的要求[5-11]。
基于上述分析,該文基于深度學習(Deep Learning,DL)網絡對傳統的立體匹配算法進行了改進,并設計了一個用于代價匹配特征提取的計算網絡,進而避免了人工構造匹配代價的繁瑣流程。同時還引入基于十字窗口的代價聚合方法(Cross-Based Cost Aggregation,CBCA),顯著提升了立體匹配算法的效果,為三維重建打下了堅實基礎。
室內三維重建技術的基本原理如圖1 所示[12]。

圖1 三維重建基本原理
圖1 中,P為待成像的物體;Cl、Cr均為攝像頭,且二者的間距為b。記AlPl的距離為la,ArPr的距離為lb,PrB的距離為a,則根據相似三角形的幾何原理可得:
式中,攝像頭的焦距f、鏡頭間距b為已知量。式中以a、d為未知量,可求得:
式中,la-lb為左右相機間的視差,其描繪了圖像點P在兩個相機間的位置差異,而立體匹配就是在左右相機圖像間尋找對應點的過程。
基于上述討論,得到三維重建的基本過程如圖2所示。

圖2 三維重建基本過程
其中,立體匹配是三維重建中最關鍵的步驟。由于三維場景在攝像機中被投影為二維圖像,故同一物體在不同視角感知下所得到的圖像也不盡相同。此外,其還會受現場光照、噪聲、畸變及攝像機特性等多重因素的干擾。因此,文中對立體匹配算法做了進一步的研究。
立體匹配算法的輸出結果是視差圖[13-14],傳統算法的步驟主要包括匹配代價的計算、代價聚合、視差計算與視差優化共四步。而傳統的誤差匹配算法面臨著物體遮擋、弱紋理區匹配誤差較大、深度不連續區視差不平滑以及物體邊緣模糊等問題。為了克服傳統方法的不足,該文采用深度學習網絡進行特征的提取與匹配代價的計算。具體的網絡結構如圖3所示。

圖3 匹配代價提取網絡
由圖可知,網絡對于數據集中的左、右圖像分別建立了結構對稱的深度學習網絡。且兩個網絡間權值共享,并主要通過卷積運算、ReLU 函數來獲得初始的匹配代價:
其中,Gw(X1)、Gw(X2)分別為卷積網絡輸入的特征向量,Ew()
X1,X2為相似度判別函數。卷積運算與ReLU 函數的計算方分別如下所示:
式中,A、B為參與卷積的矩陣,Mr、Mc為矩陣的行、列。由于視差圖的像素點并非獨立分布的,所以為了在立體匹配過程中計算像素點間的關聯性,該文在代價聚合時引入了一種十字窗口聚合法,具體如圖4 所示。

圖4 十字窗口代價聚合
對于圖4 中的十字窗口,任意像素點p的臂長約束條件為:
式中,I為像素強度,τ和L1分別為像素強度、像素間距的閾值。根據該約束條件,可得到范圍為d的十字窗口聯合支持域Ud(p)為:
式中,UL為左圖支持域,UR為右圖支持域。對該區域內所有像素點進行代價聚合C+的方式如下:
其中,CCNN()為深度學習網絡的代價函數。
為了保證算法的訓練效率,避免模型的過擬合,引入了一種基于自適應矩陣估計的適應性矩估計(Adaptive moment estimation,Adam)優化方法進行訓練迭代:
式中,mt為t時刻的一階矩陣估計,vt為二階矩陣估計,gt為損失函數的梯度,βi是矩陣估計量的衰減因子。使用衰減因子修正后的矩陣估計為:
從而得到最終的參數優化方式如下:
式中,θ為模型參數,η為訓練過程中的基礎學習率,ε為矯正因子。
該文評估算法性能時,使用了立體匹配算法常用的公開數據集Flyingthings3D[15-16]。該數據集的具體參數如表1 所示。

表1 Flyingthings3D具體參數
為評估立體匹配算法的性能,使用誤匹配率(SPBM)、平均絕對誤差(SMAE)與均方誤差(SMSE)作為評價指標。這三個指標的定義分別如下:
式中,dc為算法輸出的視差圖,dT是實際的視差圖,且視差圖的像素點均為N,δ為統計過程中使用的誤差閾值。該文所使用的網絡結構參數如表2所示。
在對網絡進行訓練時,采用Adam 優化方法,同時引入了批處理策略,且批處理大小為256,訓練的目標誤差為10-8。此外,為了避免訓練過程中出現過擬合,網絡學習率采用了上文所述的動態調整策略,各階段的基礎學習率如表3 所示。
為了提升網絡的訓練效率,并對其進行合理的評估,實驗環境如表4 所示。
圖5 給出了數據集中部分圖像在表2 網絡下的立體匹配效果,其中左側為同一組,而右側為另一組。從圖像匹配效果看,該算法輸出的視差圖與真實圖基本一致,且無明顯的視覺差異。

表2 網絡結構參數

表3 各階段基礎學習率

表4 算法仿真軟硬件環境
為了進一步測試所提算法相較于現有模型的性能差異,將其與當前主流的立體匹配算法EDP(Edge-aware Disparity Propagation)、多通道卷積神經網絡(Multi-Channel CNN,MC-CNN)等算法進行了對比。以數據集中某圖像的匹配為例,利用三種算法分別進行訓練,效果如圖6 所示。

圖5 部分圖像立體匹配效果

圖6 不同算法下的訓練結果
在圖6 的對比區域中,圖(a)的真實視差圖包含了豐富的邊緣信息;圖(b)中的邊緣模糊,細節缺失較多;圖(c)雖然展現了邊緣信息,但視差圖存在孔洞,圖層之間也出現了交疊;而圖(d)中邊緣信息保留的更為豐富,且實線框內的物體輪廓清晰,匹配效果顯著優于圖(b)和(c)。對三種算法的指標數據進行統計,結果如表5 所示。

表5 模型指標數據
從表中可看出,該算法的SPBM、SMAE與SMSE等指標較對比算法均有一定程度的改善。其中,SPBM下降至9.23,相較于兩種對比算法分別降低了39.52%、30.29%;而SMAE下降至5.51%,與對比算法相比分別下降了2.02%、5.73%;SMSE則下降至10.64%,相較EDP、MC-CNN 分別下降了4.65%、7.08%,立體匹配效果顯著提升。
該文對室內三維重建技術進行了研究,通過改進傳統立體匹配算法中的代價計算方式,從而降低了立體匹配算法的誤匹配率等指標。此外,算法還引入了一種基于十字窗口的代價聚合方法,從而能夠有效提取像素感受野內的相關性信息,提升算法對于邊緣信息的描繪能力。