摘要:針對現有基于多視圖的三維重建方法未充分考慮像素點在其余視圖的可見性,從而導致重建完整度不足,且在弱紋理和遮擋區域重建困難等問題,提出了一種應用于高分辨率的三維重建網絡。首先提出了一種引入可見性感知的自適應成本聚合方法用于成本量的聚合,通過網絡獲取視圖中像素點的可見性,可以提高遮擋區域重建完整性;基于方差預測每像素視差范圍,構建空間變化的深度假設面用于分階段重建,在最后一階段提出了基于卷積空間傳播網絡的深度圖優化模塊,以獲得優化的深度圖;最后采用改進深度圖融合算法,結合所有視圖的像素點與3D點的重投影誤差進行一致性檢查,得到密集點云。在DTU數據集上與其他方法的定量定性比較結果表明,提出方法可以重建出細節上表現更好的場景。
關鍵詞:三維重建;自適應聚合;空間傳播網絡;深度圖
中圖分類號:TP301.6文獻標志碼:A
文章編號:1001-3695(2023)05-049-1595-06
0引言
三維重建技術作為計算機視覺的熱門方向之一,被廣泛應用于醫療[1]、3D打印[2]、虛擬現實技術[3]和3D地圖和導航[4]方面。它不僅可以生成直觀的三維模型,還可以通過相關軟件對生成的模型進行分析,隨著科學技術的不斷進步,三維重建技術的應用范圍越來越廣。在室內外環境中穩定地進行全局自定位,重建可用于機器人導航和避障的可視化三維密集場景地圖。利用三維重建得到一種地理位置信息準確、道路要素語義信息豐富的地圖數據。基于圖像的三維重建算法可以描述為一組對象或場景的照片,在給定材料、視點、照明的基礎上,重建觀察場景的密集幾何體的任務。多視圖稠密重建(MVS)技術輸入一組圖像及其相應的相機參數,從重疊的圖像中估計出稠密的三維信息。通過匹配二維圖像計算深度值,并離線完成整個重建。它提供了一種快速獲取精確三維內容的方法,而成本僅為其他方法的一小部分。
傳統的三維重建方法使用的相似性度量和正則化方法,如標準化互相關和半全局匹配[5]等來計算光度一致性并恢復深度信息。盡管目前的一些傳統算法[6~8]在精確度方面表現良好,但它們也有一些共同的局限性,例如在場景的低紋理、鏡面反射和反射區域的重建較為困難。
與傳統算法相比,基于學習的方法能夠學習利用場景全局語義信息,包括對象材質、鏡面反射度和環境照明等條件,以獲得更穩健的匹配和更完整的重建。近年來,卷積神經網絡在各種計算機視覺任務中的成功應用[9]促進了多視圖幾何(MVS)方法的改進。立體匹配任務非常適合應用在基于深度學習的方法,因為對圖像進行預先矯正,此問題變成了水平像素方向的視差估計,而無須考慮相機參數。在基于深度學習的三維重建方面,Ji等人[10]首先提出了SurfaceNet預先構建彩色體素立方體,將所有圖像像素顏色信息和相機信息組合到單個體素中,作為網絡的輸入。相比之下,Kar等人[11]提出的立體學習機(LSM)直接利用可微映射來實現端到端的訓練。然而,這兩種方法都利用了規則柵格的體積表示。受三維體積巨大內存消耗的限制,其網絡難以擴展:LSM僅處理低體積分辨率的對象,而SurfaceNet采用啟發式分治策略,大規模重建需要很長時間。端到端的網絡如Yao等人[12]提出的MVSNet直接從一系列圖像中估計場景的深度,利用2DCNN進行特征提取,并將多個視角下的圖像通過扭曲映射生成成本體,對成本體的正則化來預測深度圖,能夠達到更高的預測精度。隨后Chen等人[13]進一步提出了一種新的基于遞歸神經網絡的可伸縮多視點立體框架,稱為R-MVSNet。通過順序處理,算法的在線內存需求從三次型降低到二次型,能夠實現高分辨率的重建。然而這使重建的完整性和準確性受到了影響,運行速率也有所降低。UCS-Net[14]提出用自適應薄體積來劃分局部深度范圍,后續工作[15,16]將級聯式立體網絡用于多幅RGB圖像的三維重建。
本文提出了一種新的高效級聯式立體視覺網絡AD-MVSNet。其主要貢獻如下:該模型搭建了一種輕量級的特征提取模塊,提出了一種引入可見性感知的自適應成本聚合方法,在成本量生成階段采用了相似性度量的方法,通過可見性感知網絡獲取視圖中像素點是否可見;基于方差預測每像素視差范圍,將局部深度范圍劃分在學習到的小間隔內,按分辨率從低到高分階段進行深度估計,最后一階段提出了融合殘差與空間傳播網絡的深度圖優化模塊,以從粗到精的方式實現重建;采用改進深度圖融合算法,結合像素點與3D點的重投影誤差進行幾何一致性檢查,從而保持準確的深度值以在融合階段獲取準確密集的點云。
1成本體構建與聚合
1.1模型構架
本文提出了如圖1所示的網絡框架。它包括多尺度特征提取、級聯式由粗到細的迭代匹配框架、自適應成本聚合與深度圖優化模塊。其輸入為參考圖像與n-1張源圖像。
損失函數采用L1loss,將所有深度估計和具有相同分辨率的地面真實之間的損失視為總和Ltol:
1.2多尺度特征提取
以往的方法通常采用多層2DCNN下采樣或是U-Net來進行單一分辨率上的特征提取,為了實現高分辨率特征通過學習的上采樣過程以較低的分辨率適當地合并信息,本文提出了一個多尺度特征提取器,如圖1所示,先采用類似FPN[17]的八層降采樣卷積網絡,然后參考U-Net[18],在多階段深度預測中,每個階段都使用前一階段中的特征信息,從而進行合理的高頻特征提取。編碼器由一組卷積層組成,使用步長stride=2的卷積對原始圖像大小進行兩次下采樣。之前的網絡中大量采用BN層接激活層的組合,而現有的深度學習框架一定程度上在深度學習框架中的內存管理不理想。本文采用一種新的統一層INPLACE-ABN[19],它取代了常用的批量標準化(BN)和非線性激活層。在后向傳遞期間,可以通過反轉前向傳遞計算有效地從該緩沖區恢復所有所需的量,理論上在不引入明顯的計算開銷的情況下在卷積層獲得50%的內存增益,即計算時間僅增加0.8%~2%。其輸入為參考圖像與N-1張源圖像。特征提取器從解碼器提取三個比例的特征圖F1、F2、F3,用于代價體構建。本文將原始圖像的大小表示為W×H,F1、F2、F3具有W/4×H/4,W/2×H/2和W×H的分辨率。
1.3成本體構建
為了從不同的角度來估計深度圖,將多張視圖的特征圖聚合為一個成本體。在大多數已知的MVS方法中,成本體是通過將所有提取的特征映射轉換為參考圖像的特征映射來生成的。本文首先在最粗糙的尺度上構建成本體(CostVolume)作為初始深度圖的估計。本文在使用與其他方法不同的特征聚合方法的同時,對成本體的生成進行了深入研究。
本文通過類似于平面掃描算法[20],將提取的特征F1、F2、F3從源視圖扭曲映射到參考視圖,在多個尺度上構建多個成本體。其過程通過可微單應性變換(扭曲映射)實現。與MVSNet[12]的方法類似,根據參考圖像與第i張源圖像的內參矩陣{Ki}n-1i與旋轉平移矩陣{Ri|ti}n-1i,n為視圖數,計算第i張源圖像中的一個像素p在參考圖像中第l層深度假設dl的對應像素pi,l:=pi(dl)為
式(2)表示源視圖的特征映射和參考圖像之間的像素對應關系。對于多視圖立體視覺,成本體的構建必須將任意數量的源視圖中的信息集成到每個像素p和深度假設dl的單一成本中。每個成本體由多個假設平面構成。本文使用Qk,l表示在第k階段的第l假設平面(depth_samples),Qk,l(p)表示其在像素p處的值。在第k階段,通過可微雙線性插值獲得第i源視圖在第l層深度假設面扭曲映射后的特征圖Fi,k(pi,l)。使用Nk表示第k階段的平面數。在第一階段,建立了一個標準的平面掃描體,從預定義的深度間隔[dmin,dmax]中均勻采樣得到L個深度假設層{dl}Ll=1,使用式(2)扭曲映射得到平面。對于第二和三階段,其深度假設根據基于方差的視差范圍預測。
1.4自適應成本聚合
為了測量多視圖特征的相似性,MVSNet[12]采用基于方差的度量來生成原始的32通道成本體。在將成本體輸入后續的成本體正則化模塊之前,MVSNet首先將32個渠道的成本體減少為8個渠道的成本體。此外,Tulyakov等人[21]證明,將壓縮后的32通道成本體輸入正則化模塊可以達到類似的精度。對比以往的MVS網絡使用基于方差的成本聚合方法,本文采用一種平均分組相關的相似性度量來表示結構權重成本[22],這大大減輕了本文網絡的內存負擔。
在將特征通道劃分為G組后,參考圖像特征F(p)和第i源視圖在第l層深度假設面扭曲映射后的特征圖Fi(pi,l)在第G組的相似性表示為
其中:C為通道數;Si(p,l)g表示相應的組相似性。對假設和像素的聚合提供了張量Si∈EuclidMathTwoRApW×H×D×G。
MVS中的一個關鍵點是像素的可見性,即在給定的圖像中,3D點是否可見。在傳統的MVS算法中,可見性問題已經得到了很好的解決。如COLMAP[23],計算可見性信息,并基于概率框架聚合成對匹配成本;MVSNet[12]及其后續著作[13,14]將所有視圖中的多視圖功能提供給基于方差的成本度量,而不管像素的可見性如何,未解決的可見性問題可能會不可避免地惡化最終重建。
為此,本文提出了一種新的聚合操作,通過該方式可以在成本聚合期間學習到源視圖像素在參考圖像中的可見信息。本文提出的聚合結構如圖2所示。
可見性感知模塊將參考圖像特征F(p)和源圖像特征Fi(pij)的相似性Si(p,l)作為輸入,并輸出第i視圖的可見性掩碼。在所有像素上共享權重,從而獨立預測每個像素的可見性。在最后一層上應用基于元素的sigmoid函數,以將輸出限制在[0,1]。{wi(p)}n-1i=1表示源圖像i在像素p處的可見性掩碼信息,n表示視圖數。為了減少計算量,僅在第一階段中計算一次并保持不變,并在更高分辨率的階段前進行上采樣。
過濾成本體的3D卷積塊的結構類似于MVSNet[12],多尺度3D卷積網絡被應用于估計每個像素的不同深度或殘差假設的概率。
2深度預測與融合
2.1深度預測與概率分布
在每個階段,本文應用類似于文獻[12]的3DCNN處理成本體,推斷多視圖對應關系,并預測深度概率分布。在3DCNN的末尾應用深度方向的softmax來預測每像素的深度概率。在三個階段使用相同的網絡架構而不共享權重,因此每個階段學習以不同的規模處理其信息。
在k階段的預測深度概率體由L個深度概率圖Pk,l組成,與在第k階段的第l假設平面Qk,l相關。Pk,l表示像素p在Qk,l深度的概率值,用加權和計算深度圖在k階段的估計為
2.2基于方差的視差范圍預測
本文框架的關鍵是逐步細分局部空間,并以更高的分辨率和精度優化深度預測。參考UCS-Net[14],本文框架的關鍵是逐步細分局部空間,并以更高的分辨率和精度優化深度預測。其深度假設根據基于方差的視差范圍預測。像素p在k階段的概率分布的方差vk(p)計算如下:
其中:λ是一個用于確定置信區間大小的標量參數。對于每個像素p,本文從第k階段的置信區間ck(p)均勻采樣Lk+1個深度值,以獲取該像素在k+1階段的深度假設平面的深度值Qk+1,1(p),…,Qk+1,Lk+1(p)。通過這種方式可以構建Lk+1個隨像素在空間變化的深度假設曲面Qk+1,l。該方法在地面真值表面周圍有一個概率局部空間,地面真值深度位于視差范圍區間內,具有很高的置信度。由于基于方差的視差范圍估計是可微的,這使本文網絡能夠學習調整每個階段的概率預測,以實現在端到端訓練過程中實現優化的間隔和后續階段相應的深度假設平面,從而實現高效的空間劃分。
2.3深度圖優化模塊
為了進一步提高網絡性能,本文將卷積空間傳播網絡[24]應用于深度圖細化上。并且參考MSG-Net[25],為了避免對某個深度比例有偏差,將輸入深度圖預縮放到[0,1]中,并在優化后將其轉換回來。親和矩陣是用于衡量空間中兩個點相似性的矩陣,它是一個加權圖,把每個像素看做一個節點,用一個邊連接每對像素。邊上的權重反映其在不同計算機視覺任務中的成對相似性。本文以最后一階段提取的特征圖為引導,卷積空間傳播網絡產生與輸入圖像空間相關的親和矩陣;然后,采用親和矩陣來指導細化過程,以提升每像素深度值的準確性。
卷積空間傳播網絡采用一個線性模型,以循環卷積的形式傳播,在優化過程中每個像素的深度值在一個卷積上下文中同時更新。如圖3所示,上一階段產生的深度圖Dpre將最后一階段提取的特征圖D∈EuclidMathTwoRApH×W×C作為引導,在n個迭代步驟中得到細化后的深度圖。在傳播過程,將深度圖Dpre嵌入到一些隱藏層H中,在t次迭代時核大小為k的卷積變換函數如下:
2.4改進深度圖融合算法
本文在深度圖過濾和融合步驟中充分考慮了幾何一致性,并且結合計算像素點的重投影誤差和3D點的重投影誤差。對于光度一致性,遵循文獻[12]并生成三個階段不同分辨率的置信度圖,并采用第三階段生成的置信度圖,以置信度c過濾掉不可靠的像素。通過網絡獲取圖像i在像素點p處的深度值di(p)。相機參數由投影矩陣Pi=[Mi|ti]來表示。首先將圖像i上的像素點反投影到3D空間中生成3D點Tref(x,y,z):
使用ξn≤θ2過濾Tproj中不可靠的3D點。通過聚集來自所有鄰居視圖的3D點匹配一致性來獲得全局多視圖幾何一致性η(p)=∑nj=1ξn,n為視圖數。通過η(p)lt;τ過濾異常3D點。與先前的深度圖融合方法相比,它提高了三維重建點云的魯棒性、完整性和準確性。
3實驗結果與分析
3.1實驗設置
硬件環境:AMD2700X處理器,64GB內存,RTX3090Ti顯卡,訓練batch_size設置為2。軟件環境為Python3.8,PyTorch1.7,CUDA11.0。在DTU[26]數據集上訓練本文網絡。DTU數據集中包含各種各樣的場景和物體,還包括非常相似的場景,如房屋模型,這樣可以探索類內可變性。數據集分為訓練集、驗證集和測試集。與之前基于深度學習的方法一樣,采用場景{3,5,17,21,28,35,37,38,40,43,56,59,66,67,82,86,106,117}作為驗證集,場景{1,4,9,10,11,12,13,15,23,24,29,32,33,34,48,49,62,75,77,110,114,118}作為測試集,訓練集為其余78個場景。訓練輸入圖片的分辨率為640×512,每批輸入視圖數為3;使用三個估計階段的平面數,分別為N1=64,N2=32和N3=8來構造平面掃描體。在第一階段從初始深度范圍dmin=425mm,dmax=933.8mm進行均勻采樣。使用初始學習率設置為0.0016的Adam優化器。從端到端訓練完整三階網絡30個epoch。
3.2實驗結論
3.2.1在DTU數據集上的實驗結論
在DTU測試集上評估了本文方法,采用每批輸入視圖數為5,輸入圖片尺寸W=1600,H=1184,初始深度范圍dmin=425mm,dmax=933.8mm,空間傳播迭代次數n=24。本文使用文獻[24]的距離度量來比較最終重建的精度。先通過深度估計網絡估計所有視圖的深度圖,再采用改進的深度圖融合算法對深度圖進行濾波與融合,生成點云模型。以下參數是在點云模型下完成的,真值是結構光掃描得到的點云模型Comp完整性由計算結構光掃描模型的每個點到距離MVS重建的模型最近點的距離計算;Acc精度由在可視掩碼內的MVS重建的點到結構光掃描模型最近點的距離;Ovrall衡量準確性和完整性的總體表現。本文對傳統方法和基于學習的方法進行了比較,定量結果如表1所示。雖然Gipuma[27]在不精確性方面表現最佳,但本文方法在完整性方面優于其他方法,并在整體質量方面取得了有競爭力的性能。值得注意的是,在輸入相同的情況下,MVSNet和R-MVSNet預測的深度圖大小僅為W/4×H/4,本文最終的深度圖是在原始圖像尺寸上估計的,這具有高得多的分辨率,并且獲得明顯更好的完整性。
由表1可知,模型的整體精度誤差(overallerror)比CasMVSNet、CVP-MVSNet、UCSNet、AA-RMVSNet分別降低了9.58%、8.54%、6.68%。
在生成點云的質量方面,本文的3D重建結果與UCSNet、CasMVSNet與地面真值groundtruth在DTU數據集上的scan15、scan23、scan32進行定性比較,如圖4、5所示。在這些示例中實現了相當的完整性,由于能夠處理高輸入分辨率,本文方法的結果更加密集,門、橫幅和飲料瓶的弱紋理區域細節更加精細,且在圖5的遮擋區域表現良好,并且可以更容易地從3D重建結果中識別。
3.2.2在tanksandtemples數據集上的實驗結論
為了驗證模型的泛化性能,本文使用在DTU數據集上的訓練模型來對tanksandtemples[32]的中間數據集進行重建。tanksandtemples數據集是在實驗室之外獲取的真實場景,其真實數據是用工業激光掃描儀捕捉的,包括室外場景和室內環境。實驗設置輸入視圖數為5,輸入圖片尺寸W=1920,H=1056,初始深度范圍dmin=425mm,dmax=933.8mm,空間傳播迭代次數n=24。該數據集采用的評估標準為fscore,度量準確性和完整性的總體性能。模型在tanksandtemples中的實驗結果如表2所示。
通過表2可知,本文方法在其他數據集上表現良好,整體的準確性和完整性優于現有方法,與現有方法相比具有一定的優勢。為了證明模型的有效性,對tanksandtemples數據集中的場景分別進行深度圖的預測,進而轉換成點云模型作出展示,總共8個場景,如圖6所示。
3.3消融實驗分析
本節提供消融實驗和定量分析,以評估本文框架中關鍵組件,包括自適應成本聚合、深度圖優化模塊與改進深度圖融合算法的優勢和局限性。在接下來的所有研究中,實驗都是在DTU數據集上進行和評估的,并且準確性和完整性都被用來衡量重建質量。本文設置組數G=4,其他所有設置與4.1節中使用的設置相同,分別為:a)采用多尺度特征提取器+基于方差的視差范圍優化的級聯式網絡,稱為F-D;b)采用多尺度特征提取器、基于方差的視差范圍優化、自適應成本聚合,稱為F-V;c)采用多尺度特征提取器、基于方差的視差范圍優化、自適應成本聚合,并添加深度圖優化模塊后的網絡模型,稱為F-F;d)采用多尺度特征提取器、基于方差的視差范圍優化、自適應成本聚合、深度圖優化模塊、改進深度圖融合算法,稱為F-I。結果如表3所示。
通過表3對比可以看出,本文算法對于三維重建網絡有顯著提升。同時,如圖7所示,針對本文提出的深度學習算法中的各個模塊,進行了對輸出尺寸為1200×1986的深度圖可視化來說明網絡對于圖片全局及可見信息的感知。通過對比可以看出,本文網絡模型深度圖更完整,孔洞更少,邊緣更清晰,能夠達到更好的預測結果。
4結束語
針對MVS問題,本文提出了一種級聯式自適應成本聚合與深度圖優化的三維重建網絡AD-MVSNet,研究主要從多尺度特征提取、級聯式由粗到細的迭代匹配框架、自適應成本聚合與深度圖優化模塊、改進的深度圖融合算法
四個方面展開。結果表明,本文算法提升了預測結果的整體精度,生成的點云場景細節的弱紋理區域與遮擋區域處重建效果明顯。與大多數基于學習的MVS方法相比,本文方法實現了具有競爭力的性能。
雖然算法在實驗中能得到較好的重建結果,但仍有改進的空間。級聯式網絡難以從低分辨率階段預測的深度圖的錯誤中進行矯正,從而影響高分辨率預測階段的精度以及重建的結果。因此,在進一步的研究中需要探索更有效的策略來進行深度圖計算,從而提升重建的精度與泛化性能。
參考文獻:
[1]吳海濱,徐若彤,王愛麗,等.基于計算機視覺的人體內腔三維重建技術綜述[J].計算機工程,2021,47(10):1-15.(WuHaibin,XuRuotong,WangAili,etal.Overviewof3Dhumanlumenreconstructiontechnologybasedoncomputervision[J].ComputerEngineering,2021,47(10):1-15.)
[2]劉錚,龐新磊.3D打印技術在戰時車輛裝備維修中的應用[J].軍事交通學院學報,2020,22(6):34-38.(LiuZheng,PangXinlei.Applicationof3Dprintingtechnologyinwartimevehicleequipmentmaintenance[J].JournalofMilitaryTransportationCollege,2020,22(6):34-38.)
[3]李兆歆,蔣浩,劉衍青,等.絲路文化虛擬體驗中的多視角立體重建技術研究[J].計算機學報,2022,45(3):500-512.(LiZhaoxin,JiangHao,LiuYanqing,etal.Researchonmultiperspectivestereoscopicreconstructiontechnologyinvirtualexperienceofsilkroadculture[J].ChineseJournalofComputers,2022,45(3):500-512.)
[4]余曉蘭,萬云,陳靖照.基于雙目視覺的機器人定位與導航算法[J].江蘇農業科學,2022,50(6):154-161.(YuXiaolan,WanYun,ChenJingzhao.Robotpositioningandnavigationalgorithmbasedonbinocularvision[J].JiangsuAgriculturalSciences,2022,50(6):154-161.)
[5]HeikoH.Stereoprocessingbysemiglobalmatchingandmutualinformation[J].IEEETransonPatternAnalysisandMachineIntelligence,2008,30(2):328-341.
[6]FurukawaY,PonceJ.Accurate,dense,androbustmultiviewstereopsis[J].IEEETransonPatternAnalysisandMachineIntelligence,2010,32(8):1362-1376.
[7]VuHH,LabatutP,PonsJP,etal.Highaccuracyandvisibility-consistentdensemultiviewstereo[J].IEEETransonPatternAnaly-sisamp;MachineIntelligence,2011,34(5):889-901.
[8]GallianiS,LasingerK,SchindlerK.Massivelyparallelmultiviewstereopsisbysurfacenormaldiffusion[C]//ProcofIEEEInternationalConfe-renceonComputerVision.Piscataway,NJ:IEEEPress,2015:873-881.
[9]WuXiongwei,SahooD,HoiSCH.Recentadvancesindeeplearningforobjectdetection[J].Neurocomputing,2020,396:39-64.
[10]JiMengqi,GallJ,ZhengHaitian,etal.SurfaceNet:anend-to-end3Dneuralnetworkformultiviewstereopsis[C]//ProcofIEEEInternationalConferenceonComputerVision.Piscataway,NJ:IEEEPress,2017:2307-2315.
[11]KarA,HneC,MalikJ.Learningamulti-viewstereomachine[C]//Procofthe31stInternationalConferenceonNeuralInformationProcessingSystems.RedHook,NY:CurranAssociatesInc.,2017:364-375.
[12]YaoYao,LuoZixin,LiShiwei,etal.MVSNet:depthinferenceforunstructuredmulti-viewstereo[C]//ProcofEuropeanConferenceonComputerVision.Berlin:Springer,2018:767-783.
[13]ChenRui,HanSongfang,XuJing,etal.Point-basedmulti-viewstereonetwork[C]//ProcofIEEE/CVFInternationalConferenceonComputerVision.Piscataway,NJ:IEEEPress,2019:1538-1547.
[14]ChengShuo,XuZexiang,ZhuShilin,etal.Deepstereousingadaptivethinvolumerepresentationwithuncertaintyawareness[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2020:2521-2531.
[15]GuXiaodong,FanZhiwen,ZhuSiyu,etal.Cascadecostvolumeforhigh-resolutionmulti-viewstereoandstereomatching[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2020:2492-2501.
[16]YangJiayu,MaoWei,AlvarezJM,etal.Costvolumepyramidbaseddepthinferenceformulti-viewstereo[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2020:4876-4885.
[17]LinTY,DollárP,GirshickR,etal.Featurepyramidnetworksforobjectdetection[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2017:2117-2125.
[18]RonnebergerO,FischerP,BroxT.U-Net:convolutionalnetworksforbiomedicalimagesegmentation[M]//NavabN,HorneggerJ,WellsW,etal.MedicalImageComputingandComputer-AssistedIntervention.Cham:Springer,2015:234-241.
[19]BuloSR,PorziL,KontschiederP.In-placeactivatedbatchnormformemory-optimizedtrainingofDNNs[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2018:5639-5647.
[20]CollinsRT.Aspace-sweepapproachtotruemulti-imagematching[C]//ProcofCVPRIEEEComputerSocietyConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,1996:358-363.
[21]TulyakovS,IvanovA,FleuretF.Practicaldeepstereo(PDS):towardapplications-friendlydeepstereomatching[J].AdvancesinNeuralInformationProcessingSystems,2018,31:5875-5885.
[22]XuQingshan,TaoWenbing.Learninginversedepthregressionformulti-viewstereowithcorrelationcostvolume[C]//ProcofAAAIConferenceonArtificialIntelligence.2020:12508-12515.
[23]TolaE,StrechaC,FuaP.Efficientlarge-scalemulti-viewstereoforultrahigh-resolutionimagesets[J].MachineVisionandApplications,2012,23(5):903-920.
[24]ChengXinjing,WangPen,YangRuigang.Depthestimationviaaffinitylearnedwithconvolutionalspatialpropagationnetwork[EB/OL].(2018-08-01).https://arxiv.org/abs/1808.00150.
[25]HuiTW,LoyCC,TangX.Depthmapsuper-resolutionbydeepmulti-scaleguidance[C]//ProcofEuropeanConferenceonComputerVision.Cham:Springer,2016:353-369.
[26]AansH,JensenRR,VogiatzisG,etal.Large-scaledataformultiple-viewstereopsis[J].InternationalJournalofComputerVision,2016,120(2):153-168.
[27]GallianiS,LasingerK,SchindlerK.Massivelyparallelmultiviewstereopsisbysurfacenormaldiffusion[C]//ProcofIEEEInternationalConfe-renceonComputerVision.Piscataway,NJ:IEEEPress,2015:873-881.
[28]FurukawaY,PonceJ.Accurate,dense,androbustmultiviewstereopsis[J].IEEETransonPatternAnalysisandMachineIntelligence,2009,32(8):1362-1376.
[29]YaoYao,LuoZixin,LiShiwei,etal.RecurrentMVSNetforhigh-resolutionmulti-viewstereodepthinference[C]//ProcofIEEE/CVFConfe-renceonComputerVisionandPatternRecognition.2019:5525-5534.
[30]YuZehao,GaoShenghua.Fast-MVSNet:sparse-to-densemulti-viewstereowithlearnedpropagationandGauss-Newtonrefinement[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRe-cognition.2020:1949-1958.
[31]WeiZizhuang,ZhuQingtian,MinChen,etal.AA-RMVSNet:adaptiveaggregationrecurrentmulti-viewstereonetwork[C]//ProcofIEEE/CVFInternationalConferenceonComputerVision.Piscataway,NJ:IEEEPress,2021:6187-6196.
[32]KnapitschA,ParkJ,ZhouQianyi,etal.Tanksandtemples:benchmarkinglarge-scalescenereconstruction[J].ACMTransonGra-phics,2017,36(4):articleNo.78.