999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于邊緣輔助極線Transformer的多視角場景重建

2023-11-18 08:49:56張苗苗李東方宋愛國
電子與信息學報 2023年10期
關鍵詞:深度特征方法

童 偉 張苗苗 李東方 吳 奇* 宋愛國

①(南京理工大學機械工程學院 南京 210094)

②(上海交通大學電子信息與電氣工程學院 上海 200240)

③(福州大學電氣工程與自動化學院 福州 350108)

④(東南大學儀器科學與工程學院 南京 210096)

1 引言

作為計算機視覺領域廣泛研究的核心問題之一,多視角立體幾何(Multi-View Stereo, MVS)通過具有重疊區域的多幅圖像以及預先標定的相機參數,旨在重建出稠密的3維場景。該技術正廣泛應用于機器人導航、虛擬增強現實、無人搜救、自動駕駛等領域。傳統方法[1]通過多個視圖間的投影關系恢復3D點,在理想的散射方案下取得了不錯的效果,但在鏡面反射、弱紋理等區域難以保證準確的密集匹配。

基于深度圖的MVS[2—5]利用2D卷積神經網絡(Convolutional Neural Network, CNN)提取多視圖的特征,并根據假定的深度采樣值將源圖像特征映射到參考視角上構建3D代價體,之后對代價體進行正則化從而預測出深度圖,最后通過深度圖融合重建出場景。基于CNN的方法融合了諸如鏡面反射、反射先驗之類的全局特征信息,因此其密集匹配更加可靠。特別地,Gu等人[2]采用級聯的方式構建代價體并在更高的特征分辨率上精細深度圖,其關鍵的一步是通過逐步細化深度值的采樣范圍,確保了計算資源的合理分配。主流的方法大都采用靜態或預先設定的深度采樣范圍來確定深度采樣值,然而由于每個像素深度值推斷的不確定性不同,因此靜態采樣假設并不適用于所有的像素。此外,現有的方法[2,4,6]采用方差操作聚合所有視角的代價體,然而這種方式忽略了不同視角下的像素可見性。為了應對這一問題,文獻[7]設計2D 網絡模塊生成像素可見性圖來聚合多視角,文獻[8]通過可變形卷積網絡聚合跨尺度的代價體以處理弱紋理區域。然而這些方法僅僅從2D局部相似性的角度通過引入繁重的網絡模塊來學習每個視角下像素的權重,但忽略了深度方向的3D一致性[9]。

為了緩解上述問題,本文提出基于邊緣輔助極線T ransform er的多階段深度推斷網絡。利用極線T ransform er的跨注意力機制顯式地對不同視角下構建的代價體進行3D建模,并結合輔助的邊緣檢測分支約束2D底層特征在極線方向的一致性。此外,本文將深度值回歸轉換為多個采樣深度值的分類問題進行求解,降低深度采樣率的數目與顯存占用。另一方面,本文利用概率代價體的信息熵生成不確定性圖,并以此自適應調整深度值采樣的范圍,提高深度范圍采樣在不同區域的適應能力。

本文的主要貢獻如下:

(1)提出一種多視圖深度推斷網絡,利用基于邊緣輔助的T ransform er跨注意力機制有效地學習不同視角下代價體聚合的3D關聯性;

(2)將深度回歸轉換為多深度值分類模型進行訓練,并引入基于概率代價體分布的不確定性模塊,動態調整深度采樣間隔以提高弱紋理區域的深度推斷精度;

(3)與主流方法在公開數據集DTU和Tanks&Tem ples的實驗對比表明,給定有限的內存占用與運行時間,所提出的方法可以實現密集準確的場景重建。

本文其余部分組織如下:第2節介紹MVS的相關工作;第3節詳細介紹所提出的M VS網絡;第4節開展了與主流方法的實驗對比;第5節進行總結。

2 相關工作

2.1 基于深度學習的MVS

深度學習強大的特征提取能力,推動M VS領域取得了顯著發展。基于深度學習的MVS[10,11]場景重建的完整性與準確性質量更高,逐漸取代傳統的方法。Yao等人[4]提出了MVSNet模型,利用可微的單應性映射構建成本代價體,并利用3D卷積模塊對局部信息與多尺度上下文信息進行正則化,實現端對端的深度推斷。為了緩解3D卷積顯存占用高的問題,Yao等人[5]提出了R-M VSNet,利用GRU(Gate Recurrent Unit)結構對代價體進行正則化,有效降低了顯存占用,并解決了MVSNet難以估計高分辨率場景的問題。為了提高深度推斷在不同場景與光照條件下的適應性能力,文獻[7]通過自適應聚合多視角的局部特征,生成不同視角的代價體權重圖。Zhang等人[12]設計一種概率代價體不確定性估計的像素可見性模塊,并以此聚合多視角代價體。Xi等人[13]通過沿每條相機光線直接優化深度值,模擬激光掃描儀深度范圍查找,僅使用稀疏的代價體就預測出準確的深度圖。

2.2 深度采樣范圍設定

為了開發計算效率高的網絡,一些工作提出了由粗到精的多階段MVS框架。在這些方法中,初始階段設定的深度采樣范圍覆蓋了輸入場景的整個深度值,根據當前預測的深度值縮短下一階段深度采樣的范圍。Cas-MVSNet[2]通過縮減因子手動縮小深度范圍,實現高分辨率高質量的深度圖推斷。Cheng等人[7]利用深度分布的方差逐漸縮小深度掃描范圍,在有限的顯存占用下保證了場景重建的質量。Yu等人[14]使用稀疏代價體推斷初始的低分辨率深度圖,并采用高斯-牛頓層逐階段優化稀疏的深度圖。W ang等人[15]融合了傳統的立體聲算法與多尺度深度推斷框架。

2.3 基于Transformer的特征匹配

T ransformer[16]最初應用于自然語言處理任務,其強大的遠程建模能力,受到了計算機視覺領域研究學者的青睞。在3D視覺任務中,借助Transformer捕獲全局上下文信息方面的天然優勢,Li等人[17]從序列到序列的角度建模,使用位置編碼、自注意力和跨視角注意力機制捕獲代價體的特征,實現密集的雙目估計。Sun等人[18]提出了基于Transformer的局部特征匹配方法,使用注意力機制獲得圖像的特征描述符以建立精確的匹配,并證明這種密集匹配在弱紋理區域依然有效。最近,T ransform er也應用到了MVS中。例如文獻[19]僅利用T ransform er的跨視角注意力機制,有效融合了不同視角的代價體。Ding等人[20]以及文獻[21]分別引入了一種全局上下文T ransformer,實現了密集魯棒的特征匹配。

3 實驗方法

3.1 多視角3D代價體構建

如圖1所示,為了實現高分辨率圖像語義特征的編碼,給定輸入圖像I ∈R H×W×3,本文使用金字塔特征網絡(Feature Pyram id Network, FPN)提取多尺度特征。該網絡經過多次卷積層處理與上采樣操作,輸出3個尺度的特征圖尺寸分別是輸入圖像的1/4,1/2和1。給定采樣的深度值,本文通過前向平行平面將源視角的特征映射到參考圖像的視角,建立多視角代價體。給定采樣的深度值d,跨視角可微矩陣變換表示為

其中,K i,Ri,t i分別表示第i個視角相機的內參、旋轉參數、平移參數,n1表示參考相機的主軸。特別地,3個階段假定的深度采樣數目分別是16, 8和4。

3.2 基于邊緣輔助極線Transform er的代價體聚合

3.2.1 基于Transformer的代價體聚合

直接使用基于方差的機制對映射至參考視角的代價體進行聚合,通常包含很多噪聲。為了防止噪聲導致代價體正則化模塊產生過擬合現象,本文利用T ransform er注意力機制探索跨視角代價體的極線幾何以及不同空間位置的全局相關性。以參考視角代價體作為Query特征,與源視角代價體進行特征匹配,生成注意力圖以聚合多視角的代價體。最后使用3D卷積模塊正則化聚合后的代價體,輸出概率代價體以推斷深度。

圖2 跨視角代價體聚合注意力模塊

特別地,本文采用文獻[2]的代價體編碼方式對跨視角的特征和進行編碼,得到每對跨視角代價體,其尺寸是G表示當前尺度的特征通道數。進一步,區別于先前工作使用方差機制來聚合多視角代價體,本文采用式(4)聚合跨視角的特征,得到聚合后的代價體

3.2.2 基于邊緣輔助的代價體聚合

深度推斷網絡在普通區域能夠捕獲密集的特征匹配線索,而物體邊界附近由于缺乏幾何特性與約束,難以保證深度推斷的可靠性,為此本文進一步引入邊緣特征以調整跨視角代價體的聚合。如圖1所示,邊緣檢測子網絡分支的輸入是金字塔特征提取網絡(FPN)輸出的特征圖,經過多個卷積層、上采樣層以及多尺度特征的融合,得到用于后續跨視角代價體聚合的邊緣特征。之后使用的卷積層和Softm ax激活層輸出尺度為1/2的邊緣圖,表示每個像素疑似邊緣的概率。

為了約束跨視角代價體的2D底層特征在深度方向的3D一致性,如圖2所示,對提取到的表達能力豐富的邊緣特征輔助用于跨視角代價體的聚合,從而提高在物體邊界的深度推斷可靠性。將作為源視角參考視角代價體Query特征的輔助輸入,并計算跨視角特征向量的相似性

3.3 動態深度范圍采樣

對多尺度深度推斷網絡而言,合適的深度采樣范圍對于生成高質量的深度圖至關重要。給定前一階段的概率代價體,之前的方法僅僅關注單個像素的概率體分布以調整當前階段的深度采樣范圍,然而上下文信息以及鄰域像素的特征與當前像素的深度采樣范圍具有一定的相關性。受到文獻[12]利用概率體的信息熵融合多視角代價體的啟發,本文以當前階段概率體的信息熵作為不確定性子模塊的輸入,評測深度推斷的可靠性。該模塊由5個卷積層和激活函數層組成,輸出值介于0~1之間。該輸出值越大,說明當前深度估計的不確定性高,應該擴大下一階段的采樣范圍以覆蓋真實的深度值,反之亦然。

3.4 模型訓練損失

區別于現有工作使用Smooth L1損失最小化預測值與真實值的差異,本文將深度估計轉換為多采樣深度值下的分類進行求解,交叉熵損失如式(7)所示

考慮到本文較低的深度采樣率,因此僅在初始階段根據概率代價體分布的不確定性動態調整第2階段的深度采樣范圍。為了聯合學習深度值分類及其不確定性本文對初始階段的損失添加負對數似然最小化的約束

此外,本文使用交叉熵函數約束邊緣檢測分支的輸出,真實的邊緣是通過對原始圖像使用Sobel算子提取得到的。多階段深度推斷的總損失定義為

4 實驗結果與分析

4.1 數據集

DTU數據集:作為大規模的MVS數據集,該數據集共包括124個場景,每個場景包含了49個視角,并在7種不同的照明條件下掃描得到。本文采用與Cas-MVSNet相同的訓練集、驗證集劃分方式。

Tanks&Temp lates數據集:該基準數據集包含了室內外不同分辨率的場景。本文在包含8個場景的Intermediate數據集上,使用在DTU數據集上已訓練好的模型,驗證模型的生成能力。

開幕式結束后,王顯政、付建華、梁嘉琨等領導和嘉賓認真參觀了展覽,對展會內容給予了高度評價,并對舉辦單位給予了充分肯定。本次展覽會的成功舉辦,搭建了煤炭加工利用及煤化工領域的展覽展示交流平臺,將使煤炭工業形成采礦設備、安全生產技術和煤炭加工利用三個完整的展覽展示交流體系,成為煤炭行業三個行業品牌展覽會,對推動我國煤炭工業科學發展和煤炭清潔高效利用,加強國內外交流與合作將發揮重要作用。

4.2 實驗細節

在訓練階段,迭代次數是12,初始學習率為0.001,并分別在第6、第8和第10個迭代進行權重衰減,以避免模型陷入局部最優。模型在單個NVIDIA RTX 3090顯卡上訓練,多階段的深度采樣數目分別是16, 8和4,深度范圍介于425~935 mm之間。特別地,在測試階段,DTU評估集的源圖像數量同樣設置為4,輸入圖像分辨率為864×1 152。在Tanks&Tem p lates數據集的源圖像數量是6,輸入圖像的分辨率為1 080×2 048。

4.3 DTU數據集對比結果

為了驗證所提模型的有效性,本文在DTU數據集上開展了定量與定性實驗對比。表1所示為不同方法在D TU測試集的定量對比,可以看出Gipum a[1]方法在準確性上最優,而本文重建的點云在綜合性上明顯優于其他主流的方法。此外,圖3(a)表示不同方法在DTU測試集的顯存占用對比,可以看出,本文的GPU顯存占用僅為3 311 MB,明顯低于其他主流方法。

表1 DTU測試集上不同方法的重建結果定量比較

圖3 不同方法的顯存占用與運行時間對比

圖4所示為本文方法與Cas-MVSNet關于場景重建的定性對比。盡管本文方法基于Cas-MVSNet框架,但在給定較低的深度采樣率下,本文方法在弱紋理區域的重建更加稠密準確。此外,部分區域的重建完整性優于真實點云,這可能是由于引入基于T ransform er的代價體聚合模塊,捕獲了魯棒的上下文感知特征,減少了挑戰區域中的匹配模糊和誤匹配。

圖4 所提方法與Cas-MVSNet的重建結果比較

4.4 Tanks & Temples數據集對比結果

為了驗證本文方法在不同場景下的生成能力,將DTU訓練好的模型不經過任何微調直接在Tanks數據集上測試。表2所示為不同方法的定量對比結果,相比于主流的方法,在給定非常低的深度采樣率下,本文方法重建的性能仍然具有競爭力,在8個場景的平均F-score得分僅低于AA-RMVSNet[22]。如圖5所示,本文方法可以重建出相對完整的場景,這驗證了所提模型的泛化能力。圖3(b)是不同方法在輸入分辨率為1 080×2 048的單幀深度圖預測時間對比,可以看出本文方法的實時性僅低于Cas-MVSNet與DDR-Net[23]。

表2 不同方法在Tanks & Tem ples數據集的定量比較

圖5 所提方法在Tanks&Tem plates數據集的重建結果

4.5 消融實驗對比

4.5.1 基于分類的深度圖推斷

為了驗證該模塊的有效性,本文在DTU測試集上進行了定量實驗對比,并以平均絕對誤差與固定閾值(2 mm, 4 mm, 8 mm)下的預測精度評測深度圖的質量。如表3所示,為了公平地對比,本文以深度采樣率為16, 8和4的Cas-M VSNet作為基準模型。可以看出,將深度回歸轉換為多深度值分類進行求解,模型的平均絕對誤差從8.42降低到了8.30,而在固定的距離閾值內,預測精度也進一步提高。此外,如表4所示,相比于基準模型,引入分類損失使D TU數據集上綜合性指標從0.372降低至0.357,已經接近表1中原始Cas-MVSNet(深度采樣數目為48, 32, 8)的綜合性指標0.355,進一步驗證了該模塊的有效性。

表3 DTU測試集上消融實驗定量比較

表4 DTU測試集上不同模塊的定量比較(mm)

4.5.2 動態深度值采樣

表5所示為多階段的深度范圍比較,其第5行和第6行顯示采用動態深度范圍采樣機制的差異。可以看出,利用首階段概率代價體的數值特性自適應調整次階段的深度值采樣范圍,最大采樣范圍從54.42 mm擴大到78.12 mm,而覆蓋真實深度值的比率從0.889 1提高到0.900 3。這表明在低采樣率下,一些信息熵值較大的區域的深度估計不確定性高,而通過擴大相應的采樣范圍能夠進一步覆蓋真實的深度值,有效提高了弱紋理和物體邊界的預測精度。

表5 DTU測試集上動態采樣模塊消融實驗定量比較

4.5.3 跨視角代價體聚合

為了驗證基于極線T ransformer的跨視角代價體聚合的有效性,本文對參考視角與任一源視角所構建的代價體的特征圖進行可視化。如圖6所示,以文獻[2]采用的G roup-w ise聚合參考視角-源視角代價體作為基準模型,所提出的跨視角代價體聚合機制由于約束了參考視角和源視角的2D幾何特征在深度方向上的一致性,弱紋理區域聚合后的特征細節更加清晰,因此聚合后的代價體抗噪能力更強。如表3所示,加入本文所提代價體聚合模塊,平均絕對誤差從8.30降低到了7.69,固定的距離閾值內的預測精度也相應提高。此外,如表4所示,在代價體聚合模塊中引入邊緣輔助信息,DTU數據集的綜合性指標從0.331降低至0.327,這可能是由于邊緣底層信息的約束,進一步提高了圖像邊界的深度推斷的精度。

圖6 代價體聚合的特征圖可視化對比

圖7所示為深度圖的定性對比,可以看出,相比于原始的Cas-MVSNet(深度采樣率48, 32, 8),加入分類損失模塊與動態深度采樣模塊后,圖7(d)預測的深度圖更加完整,且在弱紋理區域的深度值劇烈變化的現象較少。而本文在加入所提出的基于邊緣輔助極線T ransform er的代價體聚合模塊,圖7(e)預測的深度圖在弱紋理區域具有更好的抗噪能力,且在物體邊界處的預測更加清晰。

圖7 不同方法的深度圖定性對比

5 結束語

本文提出一種基于邊緣輔助極線T ransform er的多視圖深度推斷網絡。首先將深度回歸轉換為多深度值的分類進行求解,可以在有限的深度采樣率下保證深度推斷的準確性。其次,采用基于邊緣輔助極線T ransform er的跨視角代價體聚合模塊捕獲全局上下文特征以及3D幾何一致性特征,提高弱紋理區域的密集匹配。為了進一步提高深度推斷的精度,采用基于概率代價體的數值特性的自適應深度范圍采樣機制。相比于現有的基于CNN的MVS網絡,在DTU和Tanks & Temp les數據集的綜合實驗表明本文方法在有限的顯存和運行時間下,能夠實現稠密準確的場景重建,且模型具有良好的泛化能力。在未來的工作中,希望進一步探索基于T ransform er的密集特征匹配,替代3D CNN對代價體進行正則化處理,降低模型對于高顯存的依賴,并提高模型在移動端部署的實用性。

猜你喜歡
深度特征方法
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲欧美激情小说另类| 亚洲国产av无码综合原创国产| 台湾AV国片精品女同性| 亚洲αv毛片| 天堂av综合网| 激情综合婷婷丁香五月尤物| 91口爆吞精国产对白第三集| 狠狠v日韩v欧美v| 人妻21p大胆| 日韩国产高清无码| 日本一区二区三区精品视频| 99视频国产精品| 2020国产精品视频| 无码专区国产精品一区| 曰韩免费无码AV一区二区| 在线精品视频成人网| 一级做a爰片久久毛片毛片| 国产精品9| 看av免费毛片手机播放| 久久精品女人天堂aaa| 婷婷伊人久久| 成人年鲁鲁在线观看视频| 免费看美女毛片| 欧美另类视频一区二区三区| 国产91色| 亚洲三级电影在线播放| 免费国产黄线在线观看| av手机版在线播放| 国产精品亚洲а∨天堂免下载| 亚洲国产一区在线观看| 成人午夜在线播放| 欧美激情综合| 国产麻豆91网在线看| 国内精品一区二区在线观看| 在线播放国产一区| 最新无码专区超级碰碰碰| 天天色天天综合网| 91区国产福利在线观看午夜| 国产永久免费视频m3u8| 国产成人精品高清在线| 波多野结衣的av一区二区三区| 小说区 亚洲 自拍 另类| 精品91视频| 日韩av无码DVD| 国产高清在线丝袜精品一区| 毛片最新网址| 无码免费试看| 欧美日韩北条麻妃一区二区| 高清欧美性猛交XXXX黑人猛交| 在线看片中文字幕| 精品人妻一区无码视频| 国产精品综合色区在线观看| 四虎免费视频网站| 欧美日本在线一区二区三区| 亚洲欧美国产高清va在线播放| 九九免费观看全部免费视频| 欧美精品啪啪| 日韩在线视频网站| 露脸国产精品自产在线播| 四虎永久免费网站| 99久久亚洲精品影院| 国产一级毛片yw| 婷婷中文在线| 亚洲成人精品在线| 日本高清免费一本在线观看| 国产激情第一页| 日韩亚洲综合在线| 国产丝袜91| 全部免费特黄特色大片视频| 欧美成人午夜在线全部免费| 欧美三級片黃色三級片黃色1| 免费人成视网站在线不卡| 手机精品视频在线观看免费| 日韩精品免费一线在线观看| 操国产美女| 色综合中文| 在线观看无码av五月花| 国产综合精品一区二区| 五月婷婷丁香色| 日本一区二区不卡视频| 亚洲精品色AV无码看| 亚洲国产av无码综合原创国产|