999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于引導優化的立體匹配網絡

2024-08-23 00:00:00李杰昌明源向澤林都雙麗梁敏李旭偉
四川大學學報(自然科學版) 2024年4期

摘 要: 為克服細節區域精細立體匹配問題,本文提出了基于引導優化的立體匹配網絡. 首先,構建基于引導可變形卷積的引導優化模塊,不同于可變形卷積,該模塊對額外輸入的引導特征進行偏移量和調制標量學習,增強可變形卷積的變形參數學習能力. 其次,設計基于引導優化模塊的引導優化立體匹配網絡,該網絡提出了基于3D 代價聚合和2D 引導優化聚合的三級串聯代價聚合模塊,逐步優化細節區域的配準精度. 實驗結果顯示,在SceneFlow、KITTI等標準數據集中,與先進算法相比,該算法可實現細節區域的高精度配準. 其中,引導優化模塊適用性測試結果顯示,在KITTI2015 數據集中,增加引導優化模塊后GwcNet、AANet 等先進算法的D1-noc、D1-all 值均產生20% 左右的提升.

關鍵詞: 立體匹配; 引導可變形卷積; 引導聚合; 多特征提取; 邊緣保持

中圖分類號: TP391. 41 文獻標志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 043007

1 引言

立體匹配旨在對雙目相機捕獲的雙目圖像進行深度信息計算[1,2]. 它在低空遙感[3,4]、自主導航[5]、探測成像[6]等計算機視覺領域中起著至關重要的作用. 隨著MC-CNN 首次將卷積神經網絡架構用于解決立體匹配問題[7],近年來,基于學習的立體匹配方法已經取得了許多高質量的研究成果,但針對細節區域的高精度立體匹配計算仍是挑戰性問題.

為了處理該問題,現有的立體匹配網絡通常從特征提取、代價體構建、代價聚合、視差回歸及視差優化等5 個步驟進行優化[8]. 其中,代價聚合在提升算法精度上有著重要的作用. 近年來,面向立體匹配代價聚合的相關工作大致可以分為2 類:一類是2D 代價聚合;另一類是3D 代價聚合.

最初的基于學習的立體匹配架構采用2D 聚合方式,其結構簡單、快速高效,甚至在不考慮立體匹配中的幾何約束的情況下能夠回歸高精度視差[9]. 在網絡架構方面,基于2D 卷積的代價聚合一般采用大型U 形編碼器-解碼器網絡來實現[10,11],將多層特征圖通過卷積壓縮到1 層得到視差圖.另一方面,它可將對回歸視差圖有幫助的特征層進行串聯用于輔助聚合,如EdgeStereo[12]將相關代價體、左圖像特征、邊緣特征串聯進行聚合,從而實現邊緣感知的立體匹配.

為了進一步提升匹配算法的精度,3D 卷積逐漸被應用到代價聚合中. Kendall 等[13]首次提出了基于3D 卷積的立體匹配網絡GCNet,該結構根據對極幾何原理構建連結代價體,并使用3D 卷積來聚合. 此后大部分研究主要圍繞3D 卷積展開,Chang 等[14]提出了沙漏聚合網絡,提高了匹配精度;Guo 等[15]對沙漏結構進行優化,進一步改進了沙漏結構的性能. 3D 代價聚合通常在低分辨率下進行特征匹配與聚合,如PSMNet 采用原圖像1/4的寬高下進行,GANet[16]采用原圖像1/3 的寬高下進行,最終低分辨率代價體線性上采樣到全分辨率代價體從而回歸視差. 該策略對于提升算法的計算速度有出色的效果,同時也表現出優于2D 立體匹配算法的精度,但隨著分辨率的降低,使得原始圖像中細節區域的特征損失、邊緣區域特征模糊等問題逐步顯現,從而造成匹配視差圖細節、邊緣區域匹配誤差較大,如圖1 所示(a 為左輸入圖像;b 為a 的局部視圖;c 為算法ACVNet[17]對應的b視圖的視差圖;d 為本文算法對應的b 視圖的視差圖,e 為b 視圖的真實視差圖). 而基于全分辨率的3D 立體匹配算法,易產生極大的計算量和內存消耗,因此一般不會被采用.

綜上,基于低分辨率的3D 卷積立體匹配算法可以有效回歸高精度視差圖,但是損失了細節信息;基于2D 卷積的立體匹配可以補充細節信息輔助聚合,并在全分辨率上進行聚合,但是精度不如3D 聚合. 基于此,首先,本文提出了融合3D 代價聚合與2D 引導優化代價聚合的三級串聯的引導優化代價聚合網絡架構(guided refinement stereomatching network,GRNet)實現高精度、細節完整的立體匹配,通過3D 代價聚合來提高匹配精度,通過構建2D 引導優化代價聚合來恢復出細節信息. 其次,為了進一步解決細節區域匹配混亂、邊緣區域匹配誤差較大的問題,本文根據可變形卷積[18]思想提出引導可變形卷積(guided deformableconvolution,GDCN). 相對于傳統可變形卷積,GDCN 更適應于局部細節區域代價聚合. 此外,2D 引導優化代價聚合模塊可在全分辨率下引導代價體進行細化聚合,通過添加原始圖像等額外的輔助信息來引導恢復細節以及邊緣區域的代價值,且具有較低的成本開銷.

2 方法

2. 1 引導可變形卷積

可變形卷積通過對輸入特征進行偏移量和調制標量的學習,打破卷積結構固定位置采樣的局限,可以有效適應物體在尺度、姿態和局部形態等特征上的變化. 但是可變形卷積強調自適應性學習,對幾何變換的建模能力與傳統卷積相似,都依賴大量數據學習以及更深層的網絡結構. 為了進一步增強可變形卷積網絡對立體匹配任務的建模能力,本文提出具有引導先驗學習能力的可變形卷積結構——引導可變形卷積(GDCN).

不同于可變形卷積的單輸入結構,本文增加了額外引導特征輸入通道,構建雙通道輸入結構( 如圖2 中“guide feature map”和“input featuremap”). 其中,引導特征和輸入特征的分辨率相同. 與可變形卷積通過對輸入特征直接進行偏移量和調制標量學習不同,本文引導可變形卷積首先針對引導特征進行偏移量和調制標量學習;其次通過偏移量和調制標量對輸入特征進行可變形卷積引導計算. 在引導可變形卷積中,引導特征加強了可變形卷積的偏移量和調制標量的學習能力,可針對不同的學習目標設置不同的引導特征靈活處理不同的視覺任務.

對于引導可變形卷積結構,首先,對輸入的引導特征(如圖2 中“guide feature map”)進行卷積計算,學習偏移量和調制標量,其卷積計算如式(1)所示.

其中,K 為卷積核采樣點數量,x ( p ) 表示卷積前p位置的特征值,y ( p ) 表示卷積后p 位置的特征值,pk 表示第k 個卷積采樣點的設定偏移量,ωk 表示第k 個卷積采樣點的權重.

偏移量和調制標量通過式(1)對引導特征進行1 次卷積計算獲取,其輸出通道數為3N,N 為聚合采樣點的數量. 其中,前2N 通道為偏移量Δpn,其范圍為任意實數;后N 通道進一步輸入sigmoid層得到調制標量Δmn,其范圍為[0,1].

其次,將式(1)習得的偏移量和調制標量應用于輸入特征的卷積核引導可變形卷積進行卷積計算. 其中,偏移量Δpn 作用于卷積核采樣點的采樣位置,使其改變為采樣點位置不固定的卷積核,調制標量Δmn 為采樣點額外的權重. 引導可變形卷積計算公式如式(2)所示.

其中,C ( p ) 表示聚合前p 位置的代價值,C? ( p ) 表示聚合后p 位置的代價值,pn 表示第n 個聚合采樣點的設定偏移量,ωn 表示第n 個聚合采樣點的權重.

2. 2 GRNet 網絡架構

基于引導可變形卷積結構,本文提出基于引導優化的立體匹配網絡GRNet,其總體網絡架構如圖3 所示. 本文主要從多特征提取、代價體構建、代價聚合和視差回歸等4 個方面對該網絡總體結構進行闡述. 其中,代價聚合由3D 聚合和2D 引導優化聚合三級串聯構成,可以分為2 個步驟:首先,進行3D 代價聚合,提升整體精度;其次,分別進行基于顏色引導和基于誤差引導的兩級串聯2D引導優化聚合,逐步細化局部細節.

2. 2. 1 多特征提取

在特征提取步驟中,為了提高算法的效率,首先采用2 個步長為2 的卷積來減小分辨率得到原圖像1/4 的特征圖.

隨后,由于低擴張率的擴張卷積有著較小的感受野,可提取細節區域特征,較高的擴張率可提取大尺度特征. 因此,采用不同感受野的特征相結合的方式具有兼顧不同尺度區域匹配的優勢,也可以避免單一尺度特征帶來的匹配誤差問題. 基于此,本文基于不同擴張率的擴張卷積架構構建多特征提取結構,如圖4 所示. 該結構具有2 層分支:第1 層分支結構為擴張率分別為1、2、3 的三分支結構(如圖4 藍色分支層),第2 層分支結構為擴張率分別為2、4 的二分支結構( 如圖4 黃綠分支層).

2. 2. 2 代價體構建

代價體反映左右視圖像素點間的匹配關系,本文構建方法采用GwcNet[15]中組相關代價體,該方法可以避免在構建單個代價體時的信息損失. 但不同于GwcNet 中的組相關體構建,本文通過多特征提取結構(如圖4 所示)捕獲的不同感受野的多組特征構建多層組相關體,可以更好地反應左右視圖像素點的匹配關系. 同時,本文保留了GwcNet 中連結代價體,其特征是通過對多層組特征進行串聯并應用2 次卷積計算獲得.最終,本文的代價體由多層組相關代價體與連結代價體串聯組成.

其中,Vgwc 表示組相關代價體,Vconcat 表示連結代價體,Vcombine 表示最終代價體;Nc 為提取的特征層數,Ng 為劃分的組數, f gl ,f gr 為對左右匹配特征進行內積計算,f ( x,y ) 表示( x,y ) 位置的特征值,g 表示組相關的序號,d 表示視差值,f 表示提取連接特征的特征通道數.

最后,構建得到( Ng + 2f )× D/4 × H/4 ×W/4 的代價體,其中,組相關代價體維度為Ng ×D/4 × H/4 × W/4,連結代價體維度為2f ×D/4 × H/4 × W/4,D 為最大視差搜索范圍,H 和W 為提取到的特征的高和寬.2. 2. 3 代價聚合 GRNet 代價聚由3D 代價聚合和2D 引導優化代價聚合三級串聯構成(如圖3 藍色虛線方框和橙色虛線方框):首先,3D 代價聚合提升整體精度;其次,2D 引導優化代價聚合分別通過顏色引導、誤差引導兩步級聯優化逐步細化計算精度.

在3D 代價聚合部分(如圖3 藍色虛線方框).本文采用與GwcNet[15]相似的處理方法,考慮到網絡的高效性,本文采用1 個預處理結構和2 個沙漏結構,并分別在預處理結構和2 個沙漏結構后分別接1 個輸出單元,每個輸出單元得到1×D/4×H/4×W/4 的代價體. 注意:該代價體可以直接回歸視差圖作為中間監督,使網絡在淺層學習到較為準確的代價體,提高算法整體精度. 最后1 層輸出單元的代價體作為2D 代價聚合的輸入.

在2D 引導優化代價聚合部分(如圖3 橙色虛線方框). 為了恢復出細節完整的全分辨率代價體,本文基于引導可變形卷積提出引導優化聚合模塊,如圖5 所示. 該結構可以在3D 代價聚合的基礎上,根據顏色、誤差引導先驗進行卷積核學習,進而實現引導優化聚合.

2D 引導優化代價聚合模塊具體實施步驟為:首先,對低分辨率代價體進行線性插值使其還原到全分辨率代價體. 考慮到小的視差搜索范圍不僅可以回歸到精確的視差值,也可以減少計算量及內存消耗,所以不在視差維度進行線性插值,插值得到D/4×H×W 的代價體作為粗略代價體.其次,通過引導優化代價聚合模塊對粗略代價體進行兩步級聯引導代價體優化. 兩步級聯2D 引導優化代價聚合分別為:1)基于顏色引導的優化聚合(如圖3 Color-based 2D aggregation 方框),它根據原圖像信息對代價體進行細節區域細化;2)基于誤差引導的優化聚合(如圖3 Error-based 2D aggregation方框),構建誤差圖進一步對誤差區域進行優化.

對于基于顏色引導的優化聚合,根據相同顏色區域代價值相似的假設,本文將左視圖作為引導輸入特征圖. 根據引導輸入特征圖的引導先驗,引導可變形卷積對每個像素的顏色相近區域的采樣點進行聚合,從而實現平緩區域中顏色相近的區域有著相近的代價值,邊緣區域得到有效識別,細節區域不完整匹配得到恢復. 在本次引導優化模塊中,第1 層引導可變形卷積采用的擴張率為4,它可以在較大范圍內尋找到顏色相近的采樣點進行聚合;第2 層引導可變形卷積采用的擴張率為2,它可以使得每個點在附近顏色相近的區域進行聚合,進一步優化代價體.

對于基于誤差引導的優化聚合,通過誤差圖引導先驗進行殘差代價體學習. 首先,根據顏色引導聚合回歸得到的視差圖對原始右視圖進行warp計算獲得誤差圖. 隨后,將誤差圖、左視圖、第1 級引導優化視差圖進行串聯,并作為第2 級引導優化聚合模塊的引導先驗特征,通過將誤差圖作為引導輸入可以有效針對匹配誤差較大的區域進行代價體的優化聚合. 與顏色引導優化計算過程相似,該優化模塊兩次引導可變形卷積擴張率分別設置為4 和2. 該模塊通過學習殘差代價體的方式實現對匹配存在誤差的區域進行優化.

2. 2. 4 視差回歸

本文采用soft argmin 回歸視差圖. 對3D 和2D 聚合后的代價體均進行線性插值還原到全分辨率全視差搜索范圍的代價體,進而回歸視差圖. 其計算模型如式(4)所示.

其中,d?為預測視差,Dmax 為最大視差,σ ( c ) 為softmax函數,cd 為視差候選對象d 的代價值.

為了提高算法測試推理效率,本文在訓練階段訓練完整的網絡,測試推理階段則不對3D 卷積中前2 個輸出單元進行計算. 將經過兩級2D 引導優化后的代價體作為最終精確代價體進行視差圖回歸.

2. 2. 5 損失函數

GRNet 網絡中最終的損失L通過式(5)進行計算.

其中,d gt 為真實視差圖,di 為3D 代價聚合輸出的視差圖,λi 為3D 代價聚合的權重,d refi 為2D 優化聚合輸出的視差圖,ηi 為2D 代價聚合的權重.

3 實驗

3. 1 數據集與評估指標

為了詳細說明本文算法的有效性,本文在多個立體匹配標準數據集上進行測試,分別為SceneFlow[9]、KITTI2012[19]、KITTI2015[20].

Scene Flow: Scene Flow 是合成立體匹配標準數據集,提供35 454 對訓練圖像和4370 對測試圖像. 該數據集提供了密集的視差圖作為標準視差圖(Ground Truth).

KITTI 2012: KITTI 2012 包含194 對訓練圖像和195 對測試圖像. 該數據集通過激光雷達獲得稀疏標準視差圖. 本文對194 對訓練圖像進行劃分,采用隨機抽樣抽取34 對圖像對作為驗證集,剩余160 對圖像作為訓練集.

KITTI 2015: KITTI 2015 包含200 對訓練圖像和200 對測試圖像. 該數據集同樣通過激光雷達獲得稀疏標準視差圖. 本文對200 對訓練圖像對進行劃分,隨機抽取20% 對圖像作為驗證集,剩余80% 對圖像對為訓練集.

3. 2 實驗細節

本文基于Pytorch 環境,在單個NVIDIAA100 GPU 進行網絡訓練. 對于此次實驗,本文采用Adam 優化器,設置參數β1 = 0. 9,β2 = 0. 999,分別設置5 個預測視差圖的權重分別為λ0 = 0. 5,λ1 = 0. 7,λ 2 = 0. 8,η1 = 0. 8,η2 = 1. 0.

實驗在Scene Flow 數據集上進行預訓練,迭代次數為50 次,初始學習率為0. 001,并且分別在迭代次數為20、32、40、44、47 次后將學習率降低1/2. 預訓練的訓練批次為12,測試批次為8. 經過在Scene Flow 數據集上的訓練得到預訓練模型后,在KITTI 數據集上進行微調,來對真實場景進行立體匹配.

3. 3 消融實驗

3. 3. 1 多特征提取模塊

為了驗證多特征提取模塊的有效性,本文以GwcNet[15]為基準,設置多特征提取模塊替換GwcNet 中的特征提取模塊的實驗,表示為GRNet-0,并分別設置了堆疊沙漏網絡結構個數為×2 和×3 的實驗與GwcNet 進行對比,如表1 所示. 實驗結果顯示:在相同的實驗環境下,相較于GwcNet 中級聯的特征提取結構,本文多特征提取模塊在Scene Flow 數據集中EPE 誤差從0. 76 px 降低到0. 55 px;在KITTI2012、KITTI2015 驗證集中均提高20% 左右的精度;此外,采用2 層沙漏網絡的GRNet-0 在各項誤差指標中均達到超過原始GwcNet 的效果. 通過數據對比分析,可以驗證通過對初始特征圖采用分支結構的多特征提取結構優于GwcNet 中級聯特征提取結構. 驗證了通過多特征提取結構可以提取更全面的匹配信息,對立體匹配整體的精度有著明顯的提升作用.

3. 3. 2 引導優化模塊

為了驗證網絡結構中兩次級聯2D 引導優化模塊在配準精度提升方面的有效性,本文分別設置去引導優化聚合模塊的網絡GRNet-0,基于顏色的引導優化網絡GRNet-c 以及基于顏色和誤差的網絡GRNet-ce(為了減少網絡可學習參數,減少內存消耗和提高算法效率,本文GRNet 采用2 層的沙漏結構,如表1 所示). 由實驗數據可知:1)GRNet 在沒有任何優化的情況下(即GRNet-0)可以達到比GwcNet 更高的精度;2)在加入兩次級聯2D 引導優化模塊后,Scene Flow驗證集中EPE 誤差可以達到0. 48;3)KITTI2012、KITTI2015 數據集中相對于GwcNet 精度均提高30% 左右. 圖6 展示了經過兩次級聯優化后的GRNet 的可視化對比結果,GwcNet 在細小邊緣區域均存在匹配模糊、不完整等問題,而GRNet 有效緩解了該類問題,實驗證明了GRNet 中的兩次級聯引導優化聚合的有效性.

同時,本文評估了3 種不同的引導優化聚合模塊構建方式,如圖5 所示. 圖5a m1 結構為不提取引導特征,直接對引導圖像進行1 次卷積作為輸入;圖5b m2 結構為對引導圖像提取引導特征,其引導特征提取過程為添加卷積和殘塊堆疊;圖5cm3 結構為對引導圖像提取引導特征,同時采用兩級引導可變形卷積,實驗結果如表2 所示. 由實驗數據可知,采用m3 結構的引導優化聚合結構可以達到更好的效果,證明本文基于雙層引導可變形卷積的引導優化聚合模塊(m3 結構)對提升算法精度的有效性.

3. 3. 3 引導可變形卷積

為了驗證引導可變形卷積對算法精度的提升作用,實驗分別用傳統卷積結構和可變形卷積結構(DCN-v2[21])來替換GRNet 中的引導可變形卷積,分別與無優化結構的實驗進行對比,如表3 所示. 實驗結果表明,相對于無優化測試結果,基于可變形卷積結構的優化模塊僅可以產生微弱的精度提升;基于傳統卷積結構的優化模塊甚至會降低實驗精度;基于引導可變形卷積的引導優化模塊卻顯著提升了實驗精度(如EPE 誤差降低了21. 3%). 實驗驗證了引導可變形卷積在立體匹配任務中高性能的建模能力.

3. 3. 4 損失權重

對不同的輸出模塊的視差圖采用不同的損失權重對整體網絡精度有著一定影響,為了實現更高的匹配精度,本文設置了不同的權重系數在Scene Flow 數據集上進行對比試驗,如表4 所示. 實驗結果顯示:僅對最終的視差圖計算損失和對所有的視差圖采用同樣的損失權重都會網絡精度產生較大的影響,采用遞增式的損失權重會提升網絡精度. 在采用損失權重分別為0. 5、0. 7、0. 8、0. 8、1. 0 時,其EPE 誤差達到最小,誤差為0. 48 px.

3. 3. 5 引導優化模塊的適用性

本文引導優化模塊同樣可以應用到目前先進的立體匹配網絡中,本節實驗將基于顏色的引導優化聚合模塊添加到3 個先進的網絡中,即PSMNet[14]、GwcNet[15]和AANet[22]. 添加引導優化模塊后的網絡分別表示為PSMNet-GR、GwcNet-GR 和AANet-GR,將原始網絡與使用引導優化聚合模塊后的網絡性能進行比較測試,測試結果如表5 所示. 從實驗數據對比可知,相較于先進立體匹配網絡,如PSMNet、GwcNet、AANet 等,融合本文引導優化模塊后的網絡精度均得到明顯提升,其中PSMNet-GR 的EPE 誤差降低了46. 8%,GwcNet-GR 的EPE 誤差降低了34. 2%,AANet-GR 的EPE 誤差降低了20. 7%;在KITTI2015 數據測試數據集中測試指標D1-noc 及D1-all 均產生20% 左右的精度提升.此外,本文對ACVNet 及ACVNet-GR 在Scene?Flow 數據集上的進行了定量對比驗證,其ACVNet-GR 的測試結果中EPE 誤差為0. 47 px,優于ACVNet 文中實驗結果0. 48 px,驗證了本文引導優化模塊的適用性.

3. 4 GRNet 性能表現

為了驗證GRNet 的細節區域的匹配效果,本文將GRNet 圖像測試結果與目前高精度網絡ACVNet[17]、邊緣保持網絡AANet[22]的測試結果進行定性對比. 如圖7 所示,第1 行展示了測試圖像全局效果對比,第2、3、4 行展示了全局視圖中A、B、C 位置局部細節視圖中細小葉片、自行車把手、像素級細小結構等具有挑戰性的局部細節匹配效果. 實驗結果顯示:ACVNet 在邊緣區域誤差較大,難以實現細節區域的匹配;AANet 可以實現一定的邊緣保持效果,但在邊緣區域精度誤差較大,細節區域同樣難以實現匹配;GRNet 則可以在細節區域達到完整的邊緣保持效果,且細節區域清晰,實現像素級的匹配.

在定量對比上GRNet 也可以達到先進的匹配精度. 本文將GRNet 在Scene Flow 上的測試結果與近年來先進立體匹配算法進行對比,如表6 所示. 實驗數據顯示:GRNet 在Scene Flow 上的EPE 誤差可以達到0. 48,能夠取得與ACVNet 一致的精度;但由圖1 和圖7 中定性對比可知,GRNet 在細節區域、邊緣區域等具有挑戰性區域的匹配效果遠優于ACVNet 的效果. 此外,GRNet在可學習參數上比ACVNet 要少1. 54×107,證明了GRNet 高效的學習能力. 本節通過定性及定量的實驗對比分析,驗證了GRNet 可以實現高精度、高度邊緣保持、細節區域清晰的立體匹配.

3. 5 KITTI 基準測試

為了驗證GRNet 在實際場景的匹配計算性能,我們將GRNet 的測試結果提交至KITTI2012、KITTI2015 標準數據集進行評測,表7 展示了GRNet 與目前先進的立體匹配網絡的定量對比數據. 在KITTI2012 基準測試中,實驗結果顯示GRNet 達到了先進的精度,其中在誤差指標gt;4、gt;5 中均實現了比高精度立體匹配網絡ACVNet更好的結果. 在KITTI2015 基準測試中,GRNet測試結果達到了優于先進立體匹配算法Acf?Net[23]、CFNet[24]的精度,但與ACVNet 相比,GRNet 在各項數據上與之存在約0. 2% 的差距.主要原因是,受KITTI 數據集真實視差圖的稀疏性影響,本文預訓練網絡在KITTI 數據集上進行微調時會損失部分邊緣保持效果,從而對精度產生影響.

相較于其他立體匹配網絡,本文GRNet 也保持了較高的邊緣保持特性,圖8 展示了GRNet 在KITTI 測試數據集上的代表性的定性對比結果.實驗結果顯示:ACVNet 在細節區域中的細節區域匹配存在邊緣肥大的問題,AANet 則難以實現細節區域的匹配,而GRNet 實現了細節區域的匹配,最大限度的還原了細節區域的邊緣,證明了GRNet 在真實場景下的有效性.

4 討論

近年來,基于深度神經網絡的算法被大量應用于立體匹配研究,本節主要從特征提取、代價聚合及可變形卷積等方面的相關工作進行綜述.

特征提?。禾卣魈崛∈橇Ⅲw匹配過程的關鍵步驟之一. 目前,主流立體匹配算法通常采用卷積層和堆疊的殘差塊來提取特征. Chang 等[14]將金字塔池化應用到特征提取;Chabra 等[25]提出了Vortex池化,進一步提升了實驗效果. 然而該類算法都采用了單一尺度的特征提取,難以處理不同區域的具體匹配情況. 為了提高匹配精度,大量網絡架構進行了多尺度的特征提取改進,Xu 等[22]將金字塔特征應用到特征提取,提取到3 個不同尺度的特征;Tankovich 等[26]同樣提取多尺度特征,實現了由粗到細的立體匹配;Shen 等[24]提取多尺度特征處理不同領域的立體匹配. 此外,擴張卷積[27]也具備類似多尺度特征提取的特性,且具備在不降低分辨率的同時擴大感受野的優勢,已在很多視覺任務中發揮了較好的作用[28,29].

為了實現不同區域的高精度匹配計算,本文構建多特征提取結構,采用不同擴張率的擴張卷積作為分支結構進行特征提取. 該結構的優勢在于它可以保持同一尺度,提取不同感受野特征,兼顧圖像中不同尺寸區域的匹配,使得不同感受野的匹配結果進行互補,實現更全面的配準計算.

代價聚合:基于2D 卷積的代價聚合通常有著高效的特性. Mayer 等[9]將相關層等作為代價聚合的輸入,通過編碼器-解碼器網絡直接回歸視差圖;Xu 等[22]提出了跨尺度的代價聚合和尺度內代價聚合進行互補計算,實現了高效的匹配計算. 隨著3D 卷積被引入立體匹配,大量研究通過對低分辨率的4D 代價體進行聚合. Chang 等[14]提出了沙漏聚合網絡,該結構在提升立體匹配精度上有著出色的表現,并被廣泛沿用到后續基于學習的高精度立體匹配算法中;Zhang 等[16]根據傳統半全局算法提出了半全局聚合層和局部引導聚合層,該聚合層可以取代3D 卷積進行聚合實現更高精度;Chabra 等[25]將擴張卷積引入到代價聚合過程,提升了聚合速度并實現了更高的匹配精度.

為實現局部細節區域完整的配準計算,綜合3D 卷積立體匹配能夠有效回歸高精度視差圖和2D 卷積立體匹配可補充細節信息的優勢,基于交叉代價聚合算法[30]中顏色相近的區域往往有著接近代價值的假設,本文在GRNet 網絡架構中,提出了基于3D 聚合和2D 引導優化聚合模塊的三級串聯的引導優化代價聚合. 首先,通過3D 聚合模塊獲得粗略的低分辨率代價體;其次,分別采用基于顏色引導和基于誤差引導的兩級2D 引導優化聚合模塊對全分辨率的代價體進行像素級的細化,最終獲取高精度、細節完整的代價體.

可變形卷積(DCN):卷積神經網絡在大量視覺任務中取得了巨大的成就,但是受限于卷積單元在固定位置對輸入特征圖進行采樣,缺乏處理幾何變換的內部機制,對于在空間位置上編碼語義的深層卷積神經網絡來說是不可取的. 基于此,為了提高卷積對幾何變換的建模能力,適應物體在尺度、姿態、視點和局部形態等特征上的變化,可變形卷積提出在卷積的基礎上為卷積核學習偏移量,并添加調節機制[21]. 可變形卷積已在目標檢測[31]和語義分割[32]任務中取得了顯著的效果. 近年來,可變形卷積逐步被引入立體匹配研究,Xu等[22]采用可變形卷積自適應學習卷積核以實現自適應聚合;Li 等[33]將可變形卷積引用到相關性計算中.

不同于傳統可變形卷積,本文提出基于引導先驗的可變形卷積,據我們所知,到目前為止基于引導先驗的可變形卷積架構鮮有被應用于立體匹配任務. 該結構通過引導先驗學習可變形卷積核,提升邊緣、細節區域的細粒度建模能力. 同時該結構具有靈活的建模特性,根據引導層的不同可以應用于多種視覺任務.

5 小結

本文主要貢獻如下:1)本文首次將引導先驗融入立體匹配可變形卷積學習任務,提出了引導可變形卷積,以增強可變形卷積的可變形參數學習能力;2)構建了基于引導可變形卷積的引導優化聚合模塊,將額外的輔助信息添加到代價聚合中,以引導代價體進行聚合計算;3)提出了融合3D聚合全局優勢和2D 引導優化聚合局部優勢的三級串聯引導優化代價聚合立體匹配網絡,以實現細節區域高精度立體匹配. 此外,相較于現有先進算法,本文算法在KITTI2012[19]、KITTI2015[20]等標準數據集測試中都有著先進的表現.

參考文獻:

[1] Li J, Liu Y G. High precision and fast disparity estimationvia parallel phase correlation hierarchicalframework [J]. J Real-Time Image Pr, 2020,18: 463.

[2] Li J, Liu Y G, Du S L, et al. Hierarchical and adaptivephase correlation for precise disparity estimationof UAV images [J]. IEEE T Geosci Remote, 2016,54: 7092.

[3] Wu P F, Liu Y G, Li J, et al. Fast and adaptive 3Dreconstruction with extensively high completeness[ J]. IEEE T Multimedia, 2017, 19: 266.

[4] Li J, Li Y X, Wu T S, et al. Fast, low-power andhigh-precision 3D reconstruction of UAV imagesbased on FPGA [J]. Journal of Beijing University ofAeronautics and Astronautics, 2021, 47: 486.[李杰, 李一軒, 吳天生, 等. 基于FPGA 無人機影像快速低功耗高精度三維重建[J]. 北京航空航天大學學報, 2021, 47: 486.]

[5] Patil V, Sakaridis C, Liniger A, et al. P3Depth:Monocular depth estimation with a piecewise planarityprior [C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition. NewOrleans: IEEE, 2022: 1600.

[6] Xu Y, Zhu X, Shi J, et al. Depth completion fromsparse LiDAR data with depth-normal constraints[C]//Proceedings of the IEEE InternationalConference on Computer Vision. Seoul: IEEE,2019: 2811.

[7] Zbontar J, Lecun Y. Computing the stereo matchingcost with a convolutional neural network [C]//Proceedingsof the IEEE Conference on Computer Visionand Pattern Recognition. Boston: IEEE, 2015: 1592.

[8] Liang Z F, Feng Y L, Guo Y L, et al. Learning fordisparity estimation through feature constancy [C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition. Salt Lake City:IEEE, 2018: 2811.

[9] Mayer N, Ilg E, Hausser P, et al. A large dataset totrain convolutional networks for disparity, opticalflow, and scene flow estimation [C]//Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition. Las Vegas: IEEE, 2016: 4040.

[10] Pang J H, Sun W X, Ren J S, et al. Cascade residuallearning: a two-stage convolutional neural networkfor stereo matching [C] //Proceedings of theIEEE International Conference on Computer Vision.Venice: IEEE, 2017: 887.

[11] Duggal S, Wang S, Ma W C,et al. DeepPruner:Learning efficient stereo matching via differentiablepatchmatch [C]//Proceedings of the IEEE internationalconference on computer vision. Seoul: IEEE,2019: 4384.

[12] Song X, Zhao X, Hu H W, et al. EdgeStereo: Acontext integrated residual pyramid network for stereomatching [C]//Proceedings of the EuropeanConference on Computer Vision. Munich: Springer,2018: 20.

[13] Kendall A, Martirosyan H, Dasgupta S, et al. Endto-end learning of geometry and context for deep stereoregression [C]//Proceedings of the IEEE conferenceon computer vision and pattern recognition. Hawaii:IEEE, 2017: 66.

[14] Chang J R, Chen Y S. Pyramid stereo matching network[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition. Salt LakeCity: IEEE, 2018: 5410.

[15] Guo X Y, Yang K, Yang W K, et al. Group-wisecorrelation stereo network [C]//Proceedings of theIEEE conference on computer vision and pattern recognition.Long Beach: IEEE, 2019: 3273.

[16] Zhang F H, Prisacariu V, Yang R G, et al. GANet:Guided aggregation net for end-to-end stereomatching [C]//Proceedings of the IEEE conferenceon computer vision and pattern recognition. LongBeach: IEEE, 2019: 185.

[17] Xu G W, Cheng J D, Guo P, et al. Attention concatenationvolume for accurate and efficient stereomatching [C]//Proceedings of the IEEE conferenceon computer vision and pattern recognition. New Orleans:IEEE, 2022: 12981.

[18] Dai J F, Qi H Z, Xiong Y W, et al. Deformable convolutionalnetworks [C]//Proceedings of the IEEEinternational conference on computer vision. Venice:IEEE, 2017: 764.

[19] Geiger A, Lenz P, Urtasun R. Are we ready for autonomousdriving? The kitti vision benchmarksuite [C]//Proceedings of the IEEE Conference oncomputer vision and pattern recognition. Providence:IEEE, 2012: 3354.

[20] Menze M, Heipke C, Geiger A. Joint 3d estimationof vehicles and scene flow [J]. ISPRS Annals of thePhotogrammetry Remote Sensing and Spatial InformationSciences, 2015, 2: 427.

[21] Zhu X Z, Hu H, Lin S, et al. Deformable convnetsv2: more deformable, better results [C]//Proceedingsof the IEEE conference on computer vision andpattern recognition. Long Beach: IEEE, 2019:9308.

[22] Xu H F, Zhang J Y. AANet: Adaptive aggregationnetwork for efficient stereo matching [C]//Proceedingsof the IEEE conference on computer vision andpattern recognition. Seattle: IEEE, 2020: 1959.

[23] Zhang Y M, Chen Y M, Bai X, et al. Adaptive unimodalcost volume filtering for deep stereo match?ing [C]//Proceedings of the AAAI conference on artificialintelligence. New York: AAAI, 2020: 12926.

[24] Shen Z L, Dai Y C, Rao Z B. CFNet: Cascade andfused cost volume for robust stereo matching [C]//Proceedings of the IEEE conference on computer visionand pattern recognition. Nashville: IEEE,2021: 13906.

[25] Chabra R, Straub J, Sweeney C, et al. Stereo?DRNet: Dilated residual stereonet [C]//Proceedingsof the IEEE conference on computer vision andpattern recognition. Long Beach: IEEE, 2019:11786.

[26] Tankovich V, Hane C, Zhang Y D, et al. HITNet:Hierarchical iterative tile refinement network for realtimestereo matching [C]//Proceedings of the IEEEconference on computer vision and pattern recognition.Nashville: IEEE, 2021: 14362.

[27] Yu F, Koltun V. Multi-scale context aggregation bydilated convolutions[ C]//Proceedings of the internationalConference on learning representations. PuertoRico: ICLR, 2016.

[28] Yu F, Koltun V, Funkhouser T. Dilated residual networks[C] //Proceedings of the IEEE conference oncomputer vision and pattern recognition. Hawaii:IEEE, 2017: 636.

[29] Chen L C, Papandreou G. DeepLab: Semantic imagesegmentation with deep convolutional nets,atrous convolution, and fully connected crfs [J].IEEE T Pattern Anal, 2018, 40: 834.

[30] Zhang K, Lu J B, Lafruit G. Cross-based local stereomatching using orthogonal integral images [J].IEEE T Circ Syst Vid, 2017, 19: 1073.

[31] Zhou L Q, Sun P, Li D, et al. A novel object detectionmethod in city aerial image based on deformableconvolutional networks [J]. IEEE Access, 2022,10: 31455.

[32] Yu B Q, Jiao L C, Liu X, et al. Entire deformableconvnets for semantic segmentation [J]. Knowl-Based Syst, 2022, 250: 1.

[33] Li J K, Wang P S, Xiong P F, et al. Practical stereomatching via cascaded recurrent network with adaptivecorrelation [C]//Proceedings of the IEEE conferenceon computer vision and pattern recognition.New Orleans: IEEE, 2022: 16263.

(責任編輯: 白林含)

基金項目: 國家自然科學基金項目(61801279); 山西省基礎研究計劃自然科學研究項目(202203021211333); 山西省高等學校哲學社會科學研究項目(2021W058); 山西省基礎研究計劃青年科學研究項目(202103021223308); 西安碑林區應用技術研發項目(GX2244)

主站蜘蛛池模板: 亚洲一区二区三区在线视频| 国产在线精彩视频论坛| 久久久久人妻一区精品| 亚洲精品中文字幕午夜| 久久综合AV免费观看| 一本大道在线一本久道| 啪啪永久免费av| 日本少妇又色又爽又高潮| 亚洲国产91人成在线| 欧美成人a∨视频免费观看| 香蕉视频国产精品人| 天天躁夜夜躁狠狠躁图片| 亚洲欧美日韩精品专区| 亚洲人成成无码网WWW| 一级黄色网站在线免费看| 亚洲电影天堂在线国语对白| 精品乱码久久久久久久| 91欧洲国产日韩在线人成| 国产新AV天堂| 亚洲欧美精品在线| 国产福利影院在线观看| 国产乱子伦精品视频| 91精品国产91欠久久久久| AV网站中文| 中国毛片网| 在线观看亚洲国产| 欧美一区中文字幕| 波多野结衣一区二区三区四区| 欧美色伊人| 19国产精品麻豆免费观看| 亚洲AV无码不卡无码| 亚洲第一区欧美国产综合| 日韩高清欧美| 三上悠亚一区二区| 波多野结衣一区二区三区AV| 日韩人妻精品一区| 亚洲三级片在线看| 婷婷中文在线| 欧美日韩一区二区三区在线视频| 色偷偷男人的天堂亚洲av| 国产精品极品美女自在线| 欧美性猛交一区二区三区 | 亚洲AV无码乱码在线观看代蜜桃| 久久久久免费精品国产| 国产人成午夜免费看| 青青热久免费精品视频6| www.狠狠| 欧美色图第一页| 日本少妇又色又爽又高潮| 亚洲人成亚洲精品| 成人永久免费A∨一级在线播放| 日韩无码真实干出血视频| 成人中文字幕在线| 中文字幕人妻无码系列第三区| 亚洲首页在线观看| 亚洲一区二区三区香蕉| 欧美国产视频| 欧美国产日韩在线| 国产成人免费| 国内精品久久久久久久久久影视| 久久国产黑丝袜视频| 国产欧美中文字幕| 亚洲国产亚综合在线区| 国产精品主播| 毛片网站在线看| 欧美在线观看不卡| 91福利片| 国产麻豆aⅴ精品无码| 日韩免费毛片视频| 毛片久久网站小视频| 中国一级特黄大片在线观看| 日本欧美成人免费| 91国内外精品自在线播放| 99在线视频免费| 婷婷成人综合| 国产精品私拍在线爆乳| 99精品免费欧美成人小视频 | 国产精品制服| 婷婷亚洲视频| 波多野结衣中文字幕一区二区| 亚洲综合片| 好吊色妇女免费视频免费|