999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多尺度特征遞歸卷積的稠密點云重建網絡

2022-11-02 11:24:52王江安龐大為秦林珍
圖學學報 2022年5期
關鍵詞:深度方法

王江安,龐大為,黃 樂,秦林珍

基于多尺度特征遞歸卷積的稠密點云重建網絡

王江安,龐大為,黃 樂,秦林珍

(長安大學信息工程學院,陜西 西安 710064)

針對在三維重建任務中,由于弱紋理區域的光度一致性測量誤差較大,使得傳統的多視圖立體算法難以處理的問題,提出了一種多尺度特征聚合的遞歸卷積網絡(MARDC-MVSNet),用于弱紋理區域的稠密點云重建。為了使輸入圖像分辨率更高,該方法使用一個輕量級的多尺度聚合模塊自適應地提取圖像特征,以解決弱紋理甚至無紋理區域的問題。在代價體正則化方面,采用具有遞歸結構的分層處理網絡代替傳統的三維卷積神經網絡(CNN),極大程度地降低了顯存占用,同時實現高分辨率重建。在網絡的末端添加一個深度殘差網絡模塊,以原始圖像為指導對正則化網絡生成的初始深度圖進行優化,使深度圖表述更準確。實驗結果表明,在DTU數據集上取得了優異的結果,該網絡在擁有較高深度圖估計精度的同時還節約了硬件資源,且能擴展到航拍影像的實際工程之中。

深度學習;計算機視覺;遙感測繪;三維重建;多視圖立體;遞歸神經網絡

基于多視圖立體(multi-view stereo,MVS)信息的稠密點云重建是計算機視覺的經典研究課題,是虛擬現實、智能駕駛和考古研究等多個領域中的關鍵技術[1]。傳統的稠密重建方法[2-4]利用計算相似性來衡量多視圖的一致性,盡管該方法已經應用多年,近年來隨著深度學習[5-10]的不斷深入拓展了更多思路,在最近的研究中,通過引入深度神經網絡提升了特征提取和代價體正則的速度和準確性。

傳統的三維重建方法是建立在尺度不變特征的基礎上,通過提取并匹配所有圖像的特征,找到不同視圖和相機姿勢之間的成對關系[11]。根據輸出場景可將傳統的稠密重建方法分為:基于體素的方法[12-13]、基于特征點擴散的方法[14]和基于深度圖融合的方法[15]。基于體素的方法將整個三維空間離散為規則的立方體,使用光度一致性度量來確定體素是否屬于曲面。該方法需消耗大量計算資源,其精度主要取決于體素的分辨率[6],因此不能適應大規模場景。特征點擴散方法從匹配關鍵點的稀疏點集開始,使用傳播策略來加密點云。由于傳播是按順序進行的,因此該方法限制了并行數據的處理能力。基于深度圖融合的方法,也是目前主流的方法,其核心思想為先對每張圖像進行深度估計并得到深度圖,然后將所有深度圖融合到一起形成最終的點云。典型的有COLMAP[1],該算法引入迭代的捆綁調整和幾何驗證策略,通過計算特征選擇視圖、估計深度圖和表面法線,顯著提高重建完整性和準確性。

自機器學習被廣泛應用,稠密重建的研究也受到深度學習的影響。基于學習的方法能夠在重建過程中考慮全局語義信息,因此可以提高重建的準確性和完整性。學術界首先提出了基于體素的SurfaceNet[6],該方法使用多視圖圖像扭曲到3D空間構建代價體,并使用三維卷積神經網絡( convolutional neural networks,CNN)來正則化和聚合體素,但由于體積表示的常見缺點,SurfaceNet僅限于小規模重建。YAO等[16]提出了一種基于深度圖的端到端架構MVSNet。該方法將代價體用于3D CNN正則化進而深度回歸,大大提高了稠密重建的性能。

基于深度學習的稠密重建存在如下問題:如早期的MVSNet[16]方法使用具有下采樣模塊為主干網絡來提取特征,這種直連的卷積層網絡具有固定的感受野,提取特征時在處理弱紋理或無紋理表面處存在困難,這限制了三維重建的魯棒性和完整性。另代價體正則部分使用3D CNN結構,其占用的GPU內存消耗隨圖片分辨率增加呈立方體增長,因此MVSNet無法處理大分辨率的圖像。R-MVSNet[17]中不再使用消耗高額顯存的3D CNN,網絡將代價體正則部分更換為堆疊式的GRU模塊,進一步提高了對大規模場景深度估計的可能性,但重建的完整性和準確性仍有不足。

近年來發布的網絡,大多數有監督網絡舍棄了深度圖優化部分,這并不利于完整的重建。為了進一步提高估計深度圖的質量,M3VSNet中[18]深度圖優化使用基于法線深度一致性的算法,結合了世界坐標空間中的法線深度一致性,以約束從估計深度圖獲得的局部表面切線與計算出的法線正交,這種正交化可提高估計深度圖的準確性和連續性。此外,高斯-牛頓修正算法[19]簡單而快速地將粗略的高分辨率深度圖細化為密集的高分辨率深度圖。

為了解決上述問題,本文提出了一種基于深度學習的具有動態一致性檢驗的多尺度遞歸卷積多視圖立體網絡(multi-scale aggregation recursive multi view stereo net with dynamic consistency,MARDC-MVSNet),該網絡包含視圖之間的多尺度自適應聚合模塊A2MDCNN,遞歸結構的分層正則化網絡模塊和引入殘差思想的深度圖優化模塊。本文方法可以解決諸如弱紋理區域重建和大場景建模之類的問題,可實現準確和高完整度的稠密重建。

1 MARDC-MVSNet網絡原理

1.1 MARDC-MVSNet網絡結構設計

圖1為本文設計的一款新穎的分層式多尺度特征遞歸卷積網絡MARDC-MVSNet。其吸收了MVSNet中3D CNN和R-MVSNet中GRU遞歸單元的優點,充分利用了3D CNN聚合局部上下文信息能力和堆棧式遞歸網絡的效率。本文輸入圖像分為1個參考圖像和–1個源圖像,所謂的參考圖像就是需要得到深度圖的圖像,源圖像則是與參考圖像有特征聯系的相鄰圖像。通過卷積網絡得到個圖像的特征圖,再將源圖像的特征圖通過可微單應性變換扭曲到參考圖像的主光軸上聚合成代價體,然后對代價體進行正則化得到用于預測深度圖的概率體,最后對所有深度圖進行融合生成場景稠密點云。MARDC-MVSNet通過在多尺度特征提取、代價體正則化和深度圖優化上改進重建體系結構。

圖1 MARDC-MVSNet網絡架構

1.2 特征提取模塊

反射面和弱紋理或無紋理區域是造成完整性和準確性低的重要原因。這是常規的卷積處理所產生的問題,一般卷積網絡在固定規格的網格上進行運算。從某種意義上講,應同等地對待正常紋理和弱紋理區域,因此在弱紋理情況下,常規的卷積無法獲得足夠的圖像特征。對于那些缺乏紋理的區域,卷積的感受野應該更大,而對于紋理豐富的區域,卷積的感受野則應較小。為實現上述思路,本文運用可變形卷積構建一個多尺度聚合模塊A2MDCNN以實現感受野的變化。

可變形卷積定義為

其中,()為像素的特征值;wp為在普通卷積運算中定義的卷積核參數和固定偏移量;Dp和Dm是可變形卷積經過學習產生的偏移量和權重。

圖2 A2MDCNN特征聚合模塊

1.3 構造代價體

每個參考圖像對應的代價體是通過匹配對應源圖像的特征來計算的。通過平面掃描法[20]對參考圖像以其主光軸為掃面方向,以相同間距構造一個錐形體,再根據單應性變換,將每一張源圖像投影到每一層深度上構成特征體,最后利用插值法使每張投影尺寸相同。其中單應性變換定義為

其中,{,,}為內部參數,代表旋轉和平移;為參考圖像的主光軸;為深度值;為單位矩陣;為該參考圖像對應多個源圖像的索引。

假定源圖像個數為,理論上每一張參考圖像有個對應的特征體,將這些特征體基于方差的形式構建一個代價體為

使用方差計算出不同角度的各個圖像在同一深度位置特征的差異大小,差異的大小表明了特征的匹配程度,若無差異,則說明此深度位置的點為多個角度投影的交點,即深度確定。

1.4 分層式正則化網絡

代價體正則化是利用空間上下文信息將匹配的代價體轉化為深度概率分布,學術界提出了2種方案:多階段方法和遞歸處理方法。多階段方法,如CasMVSNet[21],AA-CVP[22],Vis-MVSNet[23]和Point MVSNet[9],此類使用由粗到精策略,首先預測大深度間隔的低分辨率深度圖,然后多次迭代上采樣細化具有窄深度范圍的深度圖。盡管由粗到細的體系結構成功地減少了顯存消耗,但由于在較大的深度間隔下粗階段的深度預測可能是錯誤的,同時正則化網絡大多還是用U型結構的3D CNN,因此不適合高分辨率的深度估計。另一種思路是遞歸方法,如R-MVSNet和D2HC-RMVSNet[24]。此類使用遞歸網絡沿深度方向順序的正則化代價圖,以代替內存密集型3D CNN。R-MVSNet使用堆棧式GRU卷積門控遞歸單元以順序方式處理代價體,D2HC-RMVSNet通過更強大的LSTM遞歸卷積單元LSTMConvCell[25],同時使用動態一致性檢查策略來改善深度圖融合。

本文使用遞歸思想,具體采用分層式遞歸卷積(CNN_RNN)作為代價體的正則網絡,如圖3所示,在水平方向上網絡為2D的U-Net結構,其各層均是LSTMConvCell[25],其不僅具有LSTM的時序性,還能像CNN一樣刻畫局部特征;在垂直方向上有5個平行遞歸模塊,每個模塊將前一個遞歸卷積的中間結果傳送到后一個。這個堆棧式模塊可以很好地吸收多尺度上下文信息又能高效地處理代價體。考慮到訓練存在收斂難的問題,在網絡末端添加一個殘差塊,加速網絡訓練。

圖3 U型堆棧式LSTMConv模塊

表1 正則網絡形式構成

深度圖的生成遵循贏者通吃原則,但贏者通吃原則會造成深度突變、不平滑情況,無法在亞像素級別上估計深度。借鑒argmax思想,沿著概率體的深度方向,以深度期望值作為該像素的深度估計值,使得整個深度圖中的不同部分內部更加平滑。

1.5 深度圖優化

概率體得到的初始深度圖存在一些問題,即在正則化過程中會出現深度圖邊界過平滑現象。深度圖優化的方法有多種,M3VSNet[18]考慮到法線與局部表面切線之間的正交性,引入了新的法線深度一致性來細化得到優化的深度圖。為了減少訓練時間和簡化網絡,本文借鑒圖像引導思想,由于參考圖像包含了邊界信息,因此可用參考圖像引導優化初始深度圖。受摳圖算法的啟發,在網絡末端添加一個殘差網絡。即將初始深度圖和參考圖像連接成一個4通道的張量,與MVSNet不同在于,該深度圖和參考圖像的寬高相同。將該張量送入3個32通道的卷積層和一個1通道的卷積層可得到學習的深度差值,最后加到初始深度圖以得到最終的深度圖。

1.6 損失函數

在深度圖估計時,該網絡可分為初始深度圖和深度圖優化2部分。在進行初始深度圖估計時,視其為多重分類任務,而非回歸任務。在概率體和真實深度圖的one-hot編碼體之間使用交叉熵損失函數,即

其中,valid為有效的像素集;(,)為真實深度圖在像素的第個深度處one-hot編碼生成;(,)為概率體中的像素。

深度圖優化部分將真實深度圖到優化深度圖的距離作為損失,即

其中,()為真實像素深度值;()為優化的深度值。

因此,本文訓練時的損失函數定義為

其中,決定網絡是否開啟深度圖優化模塊。

2 實驗與結果分析

2.1 實驗數據集

本文使用DTU[26]數據集訓練和測試MARDC- MVSNet網絡。DTU數據集是在實驗室條件下收集的室內MVS數據集,其具有固定的攝像機軌跡,一共包含128次掃描,分為79次訓練掃描、18次驗證掃描和22次測試掃描。其中包括124種不同場景,并在7種不同的照明條件下顯示49個或64個視圖。除此之外,該數據集提供了由精密的結構光掃描儀獲取的參考模型以及高分辨率圖像,這些數據可生成真實的深度圖。為了證明網絡的可擴展性,在Blended_MVS[27]數據集上使用DTU數據集訓練得到的模型可直接進行測試。Blended_MVS是一個新型的大規模MVS數據集,該數據集包含具有各種不同相機軌跡的113個不同場景,每個場景由20到1 000個輸入圖像組成,包括建筑、雕塑和小物體。最后,為了進一步說明本文方法適用于復雜場景,網絡在自采集的數據下進行測試。

2.2 實驗實施細節

2.2.1 網絡訓練

本文在由79個不同場景組成的DTU訓練集上進行網絡訓練。DTU數據集僅提供真實的點云模型,通過屏蔽泊松曲面重建算法和深度渲染生成粗糙的參考圖像的真實深度圖。再與相鄰的源圖像進行交叉過濾來細化真實深度圖。在訓練時圖像大小設置為160×128,輸入圖像的數量設置為=7,在深度方向上均勻采樣,將深度層假設為=192。本文使用PyTorch實現了網絡模型,并使用Adam對網絡進行端到端的訓練,初始學習率為0.001,并設定每個epoch學習率衰減0.9,共訓練12個epoch。網絡在一個NVIDIA RTX 3090顯卡上訓練,批大小batch size設置為1,整個訓練階段至少需要20 GB內存。

2.2.2 網絡測試

本文通過DTU訓練集得到模型,用于DTU數據測試、Blended_MVS數據測試及自采集數據測試。使用=7個視圖作為輸入,并將深度平面假設為=512,以獲得具有更精細細節的深度圖。為了配合網絡的設計,測試樣本輸入圖像的尺寸必須是8的倍數,因此使用800×600大小的輸入圖像進行測試。同時也在Blended_MVS數據集進行測試,其輸入的大小設置為768×576的圖像。其生成的深度圖如圖4所示,圖中清晰地顯示了MVSNet生成的深度圖在細節處理上劣于本文,如圖4(a)所示,本文能更好地描述盒子的邊緣;如圖4(d)所示,本文除了能刻畫更準確的邊緣外,還能描述一些更為細小物品的深度圖,如路燈。

圖4 DTU數據在本文MARDC-MVSNet網絡和MVSNet網絡上測試結果對比((a),(d)原圖;(b),(e) MVSNet網絡結果;(c),(f)本文網絡結果)

與之前的MVS方法類似,網絡為每個輸入多視圖圖像生成稠密的深度圖。本網絡為深度圖引入了光度和幾何約束,在融合所有估計的深度圖之前,需要過濾掉不匹配的錯誤并存儲正確可靠的深度,在實驗中丟棄了估計深度概率低于0.3的像素。遵循D2HC中提出的動態幾何一致性檢查方法交叉過濾原始深度圖,并融合以生成相應的三維稠密點云,其中參數設置為=200,=1.8。

2.3 點云重建結果

首先在DTU測試數據集上評估了本文提出的MARDC-MVSNet網絡。所有掃描設置深度范圍為[425 mm,905 mm],并使用通用評估指標[16-17]。將本文方法與傳統方法和一些基于學習的方法進行了比較,定量結果見表2,其中準確度和完整性是由官方MATLAB評估代碼計算的2個絕對距離[26],Overall是2個指標的平均值。表中Gipuma[15]在準確性方面取得了最佳,CasMVSNet在綜合數值上取得了最好效果,由于本網絡的深度推斷使用的是遞歸算法,可能會失去一些上下文信息,因此僅在完整性上取得了最優的成果。但針對三維重建,點云的完整性在實際應用上更為重要。對比Gipuma本網絡在完整性及綜合指標上已彌補了準確性略顯不足的問題。雖然CasMVSNet綜合數值較好,但該值為平均所得,在完整性上本文網絡具有優勢。綜上,本文方法在完整性和整體質量方面均優于所有競爭方法。本文方法得益于多尺度特征聚合模塊和CNN-RNN正則網絡,由于能處理弱紋理,與經典的MVSNet和R-MVSNet相比,本文可以顯著提高準確性和完整性。圖5顯示了與其他方法相比的定性結果,圖5(a)為建筑物,本文在刻畫窗戶上更具完整性,同樣在圖5(d)的人像上也有體現,圖中人物的手和肩膀在R-MVSNet網絡重建下有太多的細節丟失,造成了空洞現象,本文網絡有效地改善了這一情況;在圖5(g)的蛋糕邊緣部分本文刻畫的更清晰,字母細節的描繪更真實。這是因為本文網絡所生成的特征圖尺度較大,圖像保存的細節信息較多,這得益于高效的正則網絡實現了大尺寸特征圖的網絡重建。因此,該方法獲得了更完整、更精細的三維稠密點云,以此來證明該網絡的有效性。

表2 DTU測試數據集上的定量結果(mm)

注:加粗數據為最優值

本實驗還在BlendedMVS測試集上進行了測試。所用模型為DTU數據集訓練得出,只需要在數據集預處理上做一些改動。如圖6所示,本文方法可以很好地重建整個大型場景并能清晰地展示其細節,而經典R-MVSNet因正則模塊的缺點無法在有限的資源下重建,因此在Blended_MVS數據集上表現的效果并不好。本文在處理教堂、房屋和村莊場景時能夠準確地描繪建筑的小細節并在完整性上有更大的優勢;在處理博物館場景時,本網絡可還原完整的場景,點云模型的空洞更少。本文方法通過多尺度聚合模塊和基于LSTM的CNN_RNN模塊做到了在兼顧上下文信息的同時進行高效的稠密深度估計,并得到更健壯和完整的稠密三維點云。

圖5 本文與R-MVSNet在DTU測試數據集上定性結果比較((a),(d),(g)原圖測試集;(b),(e),(h) R-MVSNet測試效果;(c),(f),(i) 本文測試效果)

圖6 本文與R-MVSNet在Blended_MVS測試集上定性結果比較((a),(c),(e),(g)本文在教堂、房屋、博物館、村莊的測試效果;(b),(d),(f),(h) R-MVSNet在教堂、房屋、博物館、村莊的測試效果)

最后在自采集數據上進行測試并對比本文與R-MVSNet的重建效果,數據由五目相機進行拍攝,經過空三得到相機位姿作為輸入數據集,在DTU數據集訓練得出的模型下測試得到稠密重建效果。自采集數據包含2個場景工地和操場,如圖7所示。圖中對比了2個網絡在自采集數據集上的效果,可以看出本文網絡在細節和場景完整性上更有優勢,即能夠清楚地重建操場跑道的數字;也能夠更完整地重建房屋,在建筑邊緣上描述更準確;對于建筑材料和汽車能夠更精細地描述。而R-MVSNet無法完成較準確的大場景重建。

2.4 消融實驗

本節用消融實驗來分析本文體系結構關鍵組件的效果,并與不同的網絡體系結構進行比較,除自適應的深度圖聚合模塊,本次僅討論從輸入圖像到深度圖生成的過程。實驗設置以Baseline,MVSNet,R-MVSNet,AACVP-MVSNet和本文作對比,并對照討論各個網絡在測試時的顯存占用與生成稠密深度圖的準確度與完整性(Acc,Comp),實驗結果見表3。討論了多尺度特征聚合模塊和CNN_RNN正則模塊帶來的增益,各個網絡分別代表不同組件的組合見表4,本網絡的多尺度特征聚合模塊相對于單純的卷積特征提取在運行占用顯存方面額外占用1.75 G,在完整性與準確度上也有提高。本文網絡在測試時,在DTU數據集上800×600分辨率背景下僅占用顯存4.16 G,作為對照組的R-MVSNet與MVSNet其測試運行時占用的顯存分別為6.9 G和15.9 G,在準確度與完整性指標上本文也擁有優勢。AACVP-MVSNet是目前排名靠前的多階段方法,并使用由粗到細的深度推斷結合自注意機制得到深度圖,該網絡雖然在準確性與完整性指標上略高于本文,但在顯存占用上本網絡有極大的優勢,考慮到目前硬件限制是實際應用的門檻,本文網絡綜合表現良好。

圖7 本文與R-MVSNet在自采集數據集上定性結果比較((a),(c),(e),(g)本文在跑道、房屋、建筑材料、停車場的測試效果;(b),(d),(f),(h)R-MVSNet在跑道、房屋、建筑材料、停車場的測試效果)

表3 DTU測試數據集上不同網絡的指標效果和占用顯存

表4 網絡的組件構成

其次,本文網絡使用一種更節約顯存的方式正則代價體,因此能夠使用更高分辨率的圖像進行重建。在設定=7和=512情況下,將重建結果與1600×1200和800×600的圖像分辨率進行比較。由表5可知,指標越低越好,更大的分辨率會增加重建占用顯存和運行時間,但在完整性和準確度上則有利于重建。對比同分辨率輸入下的R-MVSNet和AACVP-MVSNet,本文網絡的損耗和指標比R-MVSNet皆有所提升;與AACVP-MVSNet相比,本文網絡在顯存占用上具有優勢,且擁有相近的完整性。這說明本文網絡在DTU數據集上已超越經典的MVSNet,構建的三維模型更加完整。

表5 不同分辨率下的重建結果

3 結 論

本文提出了一種新型的MARDC-MVSNet網絡。輕量級的多尺度特征聚合模塊通過使用可變形卷積自適應的提取圖像稠密特征,解決了傳統的CNN無法有效處理反射面、弱紋理和無紋理區域的問題。在深度圖生成的代價體正則過程中,不再使用3D CNN與GRU模塊,而是使用一種融合了LSTM的卷積在深度方向上分層地處理代價圖,這大大地降低了重建所需顯存。以參考圖像為引導使用深度殘差學習網絡優化初始深度圖解決邊界過平滑現象,使深度圖表述更準確。本文方法與其他先進方法相比,實現了相當或更好地重建結果,同時更加高效和節省內存消耗。實驗證明,本文方法在DTU數據集上有效地提高了重建場景的完整性,特別的,其顯存消耗只有R-MVSNet的60%,并能擴展到Blended_MVS數據集與自采樣數據集上,有很強的通用性。

本文網絡的不足之處為運行時間較長,當數據量龐大時無法實時運行。因此接下來的研究方向為結合多階段思想加速深度圖的生成。

[1] SCH?NBERGER J, ZHENG E, FRAHM J. Pixelwise view selection for unstructured multi-view stereo[C]//European Conference on Computer Vision. Cham: Springer International Publishin, 2016: 501-518.

[2] CAMPBELL N, VOGIATZIS G, HERNáNDEZ C. Using multiple hypotheses to improve depth-maps for multi-view stereo[C]//European Conference on Computer Vision. Heidelbeg: Springer, 2008: 766-779.

[3] FURUKAWA Y, PONCE J. Accurate, dense, and robust multiview stereopsis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 32(8): 1362-1376.

[4] BARNES C, SHECHTMAN E, FINKELSTEIN A, et al. PatchMatch: a randomized correspondence algorithm for structural image editing[J]. ACM Transactions on Graphics, 2009, 28(3): 24l.

[5] FLYNN J, NEULANDER I, PHILBIN J. Deepstereo: Learning to predict new views from the world's imagery[C]// The IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 5515-5524.

[6] JI M, GALL J, ZHENG H, et al. Surfacenet: an end-to-end 3d neural network for multiview stereopsis[C]//The IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 2307-2315.

[7] HUANG P, MATZEN K, KOPF J. Deepmvs: learning multi-view stereopsis[C]//The IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 2821-2830.

[8] IM S, JEON H, LIN S, et al. Dpsnet: end-to-end deep plane sweep stereo[EB/OL]. [2022-02-10]. https://arxiv.org/pdf/ 1905.00538.pdf.

[9] CHEN R, HAN S, XU J, et al. Point-based multi-view stereo network[C]//The IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 1538-1547.

[10] LUO K, GUAN T, JU L, et al. P-mvsnet: learning patch-wise matching confidence aggregation for multi-view stereo[C]//The IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 10452-10461.

[11] SCH?NBERGER J L, FRAHM J M. Structure-from-motion revisited[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 4104-4113.

[12] KUTULAKOS K, SEITZ S. A theory of shape by space carving[J]. International Journal of Computer Vision, 2000, 38(3): 199-218.

[13] SEITZ S, DYER C. Photorealistic scene reconstruction by voxel coloring[J]. International Journal of Computer Vision, 1999, 35(2): 151-173.

[14] LHUILLIER M, QUAN L. A quasi-dense approach to surface reconstruction from uncalibrated images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(3): 418-433.

[15] GALLIANI S, LASINGER K, SCHINDLER K. Massively parallel multiview stereopsis by surface normal diffusion[C]// 2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 873-881.

[16] YAO Y, LUO Z X, LI S W, et al. MVSNet: depth inference for unstructured multi-view stereo[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 785-801.

[17] YAO Y, LUO Z X, LI S W, et al. Recurrent MVSNet for high-resolution multi-view stereo depth inference[C]//The IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 5520-5529.

[18] HUANG B, YI H, HUANG C, et al. M3VSNet: Unsupervised multi-metric multi-view stereo network[C]//2021 IEEE International Conference on Image Processing. New York: IEEE Press, 2021: 3163-3167.

[19] YU Z, GAO S. Fast-mvsnet: sparse-to-dense multi-view stereo with learned propagation and Gauss-Newton refinement[C]// The IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 1949-1958.

[20] COLLINS R T. A space-sweep approach to true multi-image matching[C]//The CVPR IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 1996: 358-363.

[21] GU X, FAN Z, ZHU S, et al. Cascade cost volume for high-resolution multi-view stereo and stereo matching[C]//The IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 2495-2504.

[22] YU A Z, GUO W Y, LIU B, et al. Attention aware cost volume pyramid based multi-view stereo network for 3D reconstruction[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2021, 175: 448-460.

[23] ZHANG J, YAO Y, LI S, et al. Visibility-aware multi-view stereo network[EB/OL]. [2022-02-10]. https://arxiv.org/pdf/ 2008.07928.pdf.

[24] YAN J F, WEI Z Z, YI H W, et al. Dense hybrid recurrent multi-view stereo net with dynamic consistency checking[M]// Computer Vision - ECCV 2020. Cham: Springer International Publishing, 2020: 674-689.

[25] SHI X J, CHEN Z R, WANG H, et al. Convolutional LSTM network: a machine learning approach for precipitation nowcasting[EB/OL]. [2022-02-10]. https://arxiv.org/pdf/1506. 04214.pdf.

[26] AAN?S H, JENSEN R R, VOGIATZIS G, et al. Large-scale data for multiple-view stereopsis[J]. International Journal of Computer Vision, 2016, 120(2): 153-168.

[27] YAO Y, LUO Z X, LI S W, et al. BlendedMVS: a large-scale dataset for generalized multi-view stereo networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 1787-1796.

Dense point cloud reconstruction network using multi-scale feature recursive convolution

WANG Jiang-an, PANG Da-wei, HUANG Le, QING Lin-zhen

(School of Information Engineering, Chang’an University, Xi’an Shaanxi 710064, China)

In the task of 3D reconstruction, it is difficult to deal with the traditional multi view stereo algorithm because of the large photometric consistency measurement error in the weak texture region. To solve this problem, a recursive convolution network of multi-scale feature aggregation was proposed, named MARDC-MVSNet (multi-scale aggregation recursive multi view stereo net with dynamic consistency), which was utilized for dense point cloud reconstruction in weak texture areas. In order to boost the resolution of the input image, this method used a lightweight multi-scale aggregation module to adaptively extract image features, thereby addressing the problem of weak texture or even no texture region. In terms of cost volume regularization, a hierarchical processing network with recursive structure was used to replace the traditional 3D CNN (convolutional neural networks), greatly reducing the occupation of video memory and realizing high-resolution reconstruction at the same time. A depth residual network module was added at the end of the network to optimize the initial depth map generated by the regularized network under the guidance of the original image, so as to produce more accurate expressions of the depth map. The experimental results show that excellent results were achieved on the DTU data set. The proposed network can not only achieve high accuracy in depth map estimation, but also save hardware resources, and it can be extended to aerial images for practical engineering.

deep learning; computer vision; remote sensing mapping; 3D reconstruction; multi view stereo; recurrent neural network

TP 391

10.11996/JG.j.2095-302X.2022050875

A

2095-302X(2022)05-0875-09

2022-04-15;

2022-06-29

15 April,2022;

29 June,2022

國家自然科學基金面上項目(61771075);陜西省自然科學基金項目(2017JQ6048);廣西精密導航技術與應用重點實驗室項目(DH201711)

National Natural Science Foundation of China (61771075); Natural Science Foundation of Shaanxi Province (2017JQ6048); Guangxi Key Laboratory of Precision Navigation Technology and Application, Guilin University of Electronic Technology (DH201711)

王江安(1981-),男,副教授,博士。主要研究方向為計算機視覺與三維建模。E-mail:wangjiangan@126.com

WANG Jiang-an (1981-), associate professor, Ph.D. His main research interests cover computer vision and 3D modeling. E-mail:wangjiangan@126.com

猜你喜歡
深度方法
深度理解一元一次方程
學習方法
深度觀察
深度觀察
深度觀察
深度觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
提升深度報道量與質
新聞傳播(2015年10期)2015-07-18 11:05:40
主站蜘蛛池模板: 日韩欧美国产区| 午夜日韩久久影院| 精品无码人妻一区二区| 国产91九色在线播放| 高清大学生毛片一级| 国产一区二区免费播放| www.亚洲国产| julia中文字幕久久亚洲| 欧美www在线观看| 狠狠做深爱婷婷综合一区| 无码内射中文字幕岛国片| 欧美天堂久久| 精品伊人久久久大香线蕉欧美| 国产精品手机在线观看你懂的 | 在线播放国产99re| 色婷婷视频在线| 伊人欧美在线| 色悠久久综合| 国产精品视频久| 国产精品中文免费福利| 久久五月视频| 999精品在线视频| 麻豆a级片| 无码粉嫩虎白一线天在线观看| 国产中文一区二区苍井空| 欧美一区国产| 免费观看欧美性一级| 日韩AV手机在线观看蜜芽| 久久精品无码中文字幕| 成人小视频在线观看免费| 99激情网| 看国产毛片| 9966国产精品视频| 夜夜爽免费视频| 亚洲欧美成aⅴ人在线观看| 夜夜拍夜夜爽| 亚洲精品黄| 国产精品第| 成人福利免费在线观看| 国产精品99久久久| av在线无码浏览| 欧美国产日韩另类| 一本大道无码日韩精品影视| 又大又硬又爽免费视频| 久久久久久久久亚洲精品| 日韩精品免费一线在线观看| 午夜福利免费视频| 免费 国产 无码久久久| 欧洲精品视频在线观看| 九九久久99精品| 欧美亚洲另类在线观看| 亚洲狠狠婷婷综合久久久久| 日韩福利视频导航| 欧美亚洲国产一区| 欧美中文字幕在线二区| 中国国产A一级毛片| 久久国产乱子| 九九视频免费看| 玖玖精品在线| 97超碰精品成人国产| 四虎国产永久在线观看| 国产成人精品男人的天堂下载| 欧美在线黄| 色亚洲激情综合精品无码视频 | 青青国产成人免费精品视频| 99久久99这里只有免费的精品| 国产乱子伦精品视频| 欧美三级视频在线播放| 国产精品久久久精品三级| 亚洲一区第一页| 欧美不卡视频一区发布| 精品视频一区在线观看| 免费无码又爽又刺激高| 成人在线观看不卡| 曰韩免费无码AV一区二区| 谁有在线观看日韩亚洲最新视频| 成人久久精品一区二区三区| 中国黄色一级视频| 强乱中文字幕在线播放不卡| 91丝袜美腿高跟国产极品老师| 伊人查蕉在线观看国产精品| 在线观看国产精品第一区免费 |