999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多尺度聚合神經網絡的雙目視覺立體匹配方法

2022-12-31 00:00:00杜宬錫朱凌云張瑞賢
計算機應用研究 2022年8期

摘要:為了改善機器人、無人駕駛領域采用深度神經網絡實現雙目視覺立體匹配存在參數量大、GPU資源成本高的問題,提出一種多尺度聚合的立體匹配方法。首先設計了一個結合多尺度的特征提取網絡,利用空洞卷積在不改變分辨率下獲得更為豐富的特征,引入注意力機制,再將不同分辨率下特征交叉融合以完善特征信息;其次,改變代價卷獲取方式,在低尺度下聚合得到代價卷,不斷結合高尺度相似信息以迭代更新,將多個代價卷進行交叉融合以得到最終代價卷;最后,結合注意力機制的精細化模塊修正初始視差圖中的異常值與不連續區域,得到最終視差圖。實驗結果表明,該算法能夠在較低參數量,以及低成本GPU資源下運行,且獲得較好的匹配精度。

關鍵詞:立體匹配;雙目視覺;空洞卷積;多尺度;注意力機制;視差圖

中圖分類號:TP319文獻標志碼:A

文章編號:1001-3695(2022)08-055-2556-05

doi:10.19734/j.issn.1001-3695.2021.12.0663

Binocular stereo matching method based on multi-scale aggregation neural network

Du Chengxia,Zhu Lingyuna,b,Zhang Ruixianb

(a.College of Computer Science amp; Engineering,b.Liangjiang International College,Chongqing University of Technology,Chongqing 401135,China)

Abstract:In order to solve the problems of large number of parameters and high GPU resource cost in binocular vision stereo matching method based on neural network in robot and unmanned driving fields,this paper proposed a multi-scale aggregation stereo matching method.Firstly,this paper proposed a multi-scale feature extraction network to obtain richer features without changing the resolution by using dilated convolution,and introduced the attention mechanism.Then,it cross-fused features at different resolutions to improve the feature information.Secondly,the acquisition method of cost volume was changed,the cost volume was obtained by aggregation at low scale,and continuously combined the high-scale similar information to update iteratively,and cross fused multiple cost volumes to obtain the final cost volume.Finally,combined with the refinement module of attention mechanism,the outliers and discontinuous regions in the initial disparity map were corrected to obtain the final dispa-rity map.Experimental results show that the algorithm can run under low parameter number and low cost GPU resources,and obtain good matching accuracy.

Key words:stereo matching;binocular vision; dilated convolution; multi-scale; attention mechanism; disparity map

0引言

隨著人工智能的高速發展,計算機視覺在機器人、無人駕駛、智能制造等領域得到了廣泛應用,而依靠雙目立體匹配圖像對來估計深度信息則是計算機視覺中基本問題之一[1]。其主要任務是找到對應的空間像素點,然后通過相似三角形原理獲得深度,即通過立體匹配的方式計算兩幅或多幅圖像獲取稠密視差圖,從而精確定位目標,為后續行為決策提供基礎。

Scharstein等人[1]對現有的立體匹配算法進行了概括比較,將立體匹配算法大致分為匹配代價初始化、匹配代價聚合、求取視差和視差優化四個階段。全局立體匹配算法通常通過最小化包含數據項和平滑項的全局目標函數來解決優化問題,即將多個像素點視差值求解歸一化到同一個能量函數框架下,把立體匹配問題轉換為求解能量函數最小化問題[2] ,準確率高但速度慢;局部立體匹配算法是基于鄰域信息估計視差[3,4],前提是待匹配中心點與鄰域點的視差深度一致,運算速度較全局算法快。盡管傳統方法已經取得重大進展,但在無紋理區域、重復紋理區域以及弱紋理的圖像區域,匹配精度較低。

隨著深度學習的快速發展,卷積神經網絡因其強大的特征提取能力被用于實現立體匹配部分或全部步驟,其性能遠超傳統算法。Zbontar等人[5]使用卷積神經網絡計算大小為9×9圖像塊的相似度,并由此決定其匹配程度。Mayer等人[6]構建了第一個端到端可訓練的視差估計框架,用于視差與光流估計,利用相關層去度量左右圖像特征的相似度。Pang等人[7]則在此基礎上,使用兩個堆疊卷積神經網絡來生成視差圖,其中第一級網絡采用DispNet[6]與反卷積計算初始視差圖,第二級網絡用于計算其殘差圖,兩級網絡輸出的和得到最終的視差。然而這些方法忽略了視差本身代表對應像素點的位置差異這一屬性,只是簡單地將左右圖像的特征拼湊成單一的聯合特征進行處理,導致匹配精度依舊不高。GC-Net[8]通過將右視圖特征在水平方向位移至最大視差值后,與左視圖特征進行拼接,最終形成四維特征卷,而編解碼結構的三維卷積可以正則化特征卷,直接獲得視差圖。在此基礎上,Chang等人[9]提出的PSM-Net進一步改進了GC-Net,將數個三維編解碼子網絡進行堆疊,重復正則化特征卷,并采用多監督方式對其訓練,在KITTI數據集上獲得了更高的匹配精度。為減少參數量,Zhang等人[10]提出基于多階融合與循環聚合網絡,用循環的方式不斷聚合優化匹配代價,在參數降低的同時保證精度的準確。

盡管GC-Net和PSM-Net[9]使用的3D卷積能有效地從多個維度提取語義和結構信息,實現更先進的性能,但是四維聯合特征卷存在大量冗余信息,使得模型計算成本和內存消耗更大,進而導致實際部署代價非常昂貴。針對3D卷積存在的缺點,Zhang等人[11]嘗試用兩個引導聚合層去替代3D卷積,但其最終的模型仍然沒能取代成功,而是使用了15個3D卷積。

因此,如何在較少參數量、較低GPU資源的情況下獲得良好的立體匹配效果,以便于實際部署,成為深度學習雙目立體視覺的新的挑戰。不同于3D卷積的是其采用了新的相關層[12,13],目前大部分基于2D卷積的方法不再直接拼接左右特征,而是計算左右特征的相似度信息,通過聚合網絡得到視差圖。張文等人[14]改進GC-Net中相似度計算方式,利用同一個聚合網絡,計算多個位移下的聯合特征,得到多個代價卷,最后用2個3D卷積得到最終代價卷,其模型能夠在降低參數量的同時保證一定的匹配精度。Tonioni等人[12]采用輕量級的模塊化自適應網絡(MADNet),構建實時自適應立體匹配的無監督系統,模型只采用2D卷積,利用12層網絡提取特征,經過聚合網絡得到多個分辨率的視差圖,采用獎勵懲罰機制有目的地更新部分網絡,在保證一定準確率的同時,極大地提高運行速度。現有深度神經網絡會不斷采用降采樣以獲取多尺度信息,這樣會損失細節信息。空洞卷積[15]在一定程度上可緩解信息丟失的問題,雖然其本身主要應用于圖像分割領域,但很快被應用于自然語言處理,且在物體檢測也發揮了重要作用,尤其是對小物體的檢測十分重要。

基于上述分析,提出了采用三級網絡結構實現雙目立體視覺匹配。第一級利用空洞卷積以及注意力機制,修改ResNet[16]特征提取網絡,獲取更多尺度的特征信息;第二級建構尺度內與尺度間聚合網絡,用于計算匹配代價,獲取初始視差;第三級搭建結合注意力機制的視差精細化網絡,用于學習修正值,獲得最終立體匹配視差。

1雙目視覺立體匹配的網絡模型架構

本文所提出的雙目視覺立體匹配網絡模型架構如圖1所示,包含特征提取網絡、尺度內與尺度間聚合模塊、結合注意力機制的視差精細化模塊。

1.1特征提取網絡

相較于傳統的視覺立體匹配全局和局部算法,神經網絡能夠更好地提取圖像的語義信息。但為獲取輸入圖像的更高級的語義特征,通常會采用更深的網絡架構,例如GC-Net與PSM-Net則是采用較深的殘差網絡來提取特征。文獻[12,17]報道,在雙目視覺立體匹配環節,通過小型的特征提取網絡同樣可以得到較為準確的視差。

MADNet模型[12]直接采用重復步長為2和1的3×3的卷積層用于特征提取,雖可構建多尺度信息,但這種粗略的提取方式會導致細節信息損失,也未能如PSM-Net提取更高語義的特征。因此,本文引入殘差模塊,在特征提取網絡進行了改進,具體實現如圖2所示。

圖2中,從上至下四部分的特征圖維度分別為16、32、64以及96,維度越高則特征圖的分辨率越低。每一次降采樣后引入殘差模塊,當分辨率降至1/4后再額外引入三個膨脹因子分別為1、2、3的空洞卷積模塊。對于立體匹配,根據不同對象、對象與環境之間的關聯程度[18],可以推斷不適定區域和周圍區域的關系,以提高不定區域的視差準確度。但是尺度過大會忽視小目標,尺度過小則會導致在病態區域匹配效果較差,也會致使較大物體的視差預測結果不連續。空洞卷積會因膨脹因子越大,采樣間隔也越大,致使關聯信息缺失。本文未采用通過帶有不同膨脹因子的空洞卷積模塊分別獲取某一尺度特征的方法,而是將三個模塊疊加嵌入特征提取層,既保證在一個分辨率下提取多尺度特征,完善特征信息,同時保證在較小的采樣間隔下快速擴大感受野,最后將同一分辨率下的多個尺度上下文信息并聯起來。

近年來,注意力機制在計算機視覺中得到應用[19~21],可以讓神經網絡關注輸入中的部分信息,選擇特定的輸入信息。針對同一分辨率下的多尺度特征,采用通道和空間注意力機制選取不同尺度下更為合理的特征,即小尺度中選取小物體特征,大尺度選取大物體特征,這樣既保證了當前分辨率下整體信息的獲取,又注重了細節信息。最后再將各分辨率下特征交叉進行融合,用于后續聚合網絡。

1.2多尺度聚合網絡

傳統立體匹配網絡只是簡單地將左右特征圖拼接起來,或者是以點積的方式結合,形成一個單一的聯合特征,因此在一些遮擋區域以及無紋理區域性能表現較差。這是因其忽視了視差本身代表的是匹配點在水平方向的空間屬性,故未能獲取更多的信息。GC-Net將右圖特征在水平方向從0移動至最大視差的距離,然后再和左圖特征拼接起來,生成d個(d為最大視差值)聯合特征,最后將所有聯合特征串聯成一個四維的特征卷。其數學定義如下:

Fn=FL⊕f(FR,n)(1)

F=concat(F1,F2,…,Fn)(2)

其中:f(·)表示移動函數;⊕表示拼接操作;concat(·) 表示特征拼接函數。三維卷積的確能夠讓GC-Net達到非常好的效果,但其龐大的參數量和計算量既影響成本又耗費時間,同時四維特征卷含有很多冗余信息,因此必須提高網絡的學習效率。

對于某一尺度下的代價卷,其計算公式為

C(d,p)=∑k2k=1wk·C(d,p+pk)(3)

其中:C(d,p)表示像素點p在視差為d時的聚合代價;k2表示采樣點數(本文中k=3);wk代表第k個點的聚合權值;pk為基于窗口的代價聚合方法中對p點的固定偏移量。通過這種方式計算不同位移下左右特征圖相似度卷,然后將所有相似度信息合并,最終定義如下:

Fn=sub(FL·f(FR,n))(4)

其中:(·)表示右視圖特征在水平方向移動n視差距離,和左視圖特征圖相乘:sub表示沿通道維度相加,形成當前視差值所代表的相似度信息,然后將d(最大視差)個相似度卷合并,可以通過二維卷積聚合信息獲取代價卷,大幅度減少在聚合網絡的參數量,匹配性能依然能夠保持較高水平。

為此,提出了一個由2D卷積堆疊的聚合網絡來計算左右特征相似程度,其卷積核數分別為128、96、64、32、16的3×3卷積層,每一層后采用batchnormal層和leaky ReLU激活層。對于不同分辨率下的代價卷,因其最大視差隨之減小,故在不同分辨率下部署的聚合網絡有所不同,其最后卷積層的卷積核數目為當前分辨率下視差大小。通過soft-argmin函數計算得到初始視差圖。

特征圖分辨率越小,包含的信息也越少,所包含的特征主要針對大物體,因此也含有定位信息;而分辨率越大,所包含小物體的特征信息也更多,即細節信息更豐富。為更好地結合兩種特征信息,提出了采用跨尺度聚合方式。在最低分辨率下,將左右圖像特征轉發至相關層獲得相關信息,通過部署好的聚合網絡,得到當前分辨率下左右特征在不同視差下的代價卷。然后,通過3×3卷積將其維度擴大至上一分辨率下視差值大小,經過雙線性差值將相似度卷上采樣到上一級分辨率,用于和左右特征圖計算的相似度卷拼接,作為尺度內聚合的輸入。其目的在于不斷放大最低分辨下獲得代價卷的同時,通過細節信息去細化和糾正相代價卷。受傳統跨尺度代價聚合啟發,以神經網絡層逼近結合結論為目標,于聚合網絡后進行多尺度交互,使得最終相似度卷是通過不同尺度下聚合結果的自適應組合來獲得。本文采用HRNet[22]中的定義:

Tn=NULLn=m

(m-n) 3×3 conv,stride=2nlt;m

1×1 conv,upsamplengt;m(5)

其中:NULL表示不作操作;(m-n) 3×3 conv,stride=2表示通過(m-n)次下采樣,使分辨率達到一致;1×1 conv,upsample代表向通過1×1卷積對齊通道數量,然后用雙線性上采樣到相同分辨率。

1.3視差計算

相似度卷通道維度代表不同視差等級下左右圖像相似程度,采用與GC-Net一致的方法,利用可微的soft-argmin函數選取每一個像素的最優視差。其定義如下:

d=∑Dd=0d×σ(V)(6)

其中:σ表示用softmax函數將代價卷沿通道維度將值轉換為概率值,用選用的視差n,即位移值作為權重,結合概率值精修加權求和得到視差值。因為soft-argmin可微,可以用于網絡的方向傳播,較傳統的WTA方法,該方法得到的視差來自像素點在所有視差等級下的匹配代價,因此更加準確和平滑。

2損失計算

對所提出的雙目視覺立體匹配網絡模型采用端到端的訓練,以帶有真實值的視差圖作為監督。由于KITTI數據集樣本較少,且真實視差圖的高稀疏性不能有效驅動模型學習,所以使用預訓練方式,在scene_flow數據集上訓練,采用多監督方式來訓練整個網絡。損失函數分為兩部分,分別為初始視差損失和精修視差損失,總損失定義為

L=1L1/16+2L1/8+3L1/4+4Lref(7)

其中:初始視差損失包含三個分辨率下的視差圖,其目的是為了加速模型收斂,精修視差損失主要用于讓精修模塊得以訓練,修正初始視差圖中異常值和不連續區域,利用原始圖像還原真實視差。兩部分損失均采用Smooth L1損失函數。

3算法流程

輸入:左右視圖,最大視差。

輸出:初始視差圖,精修視差圖。

a)讀入圖像,利用圖像金字塔獲得多尺度特征圖:IL→FL1、FL2、FL3,IR→FR1、FR2、FR3;

b)引入注意力機制,F+CBAM→Fnew;

c)交叉融合特征,(F1、F2、F3)→F1、F2、F3;

d)通過相關層獲得相似度信息,(FL,FR)→S,與上采樣后的代價卷并聯,concat(S,V);

e)聚合網絡聚合代價卷,concat(S,V)→V;

f)V上采樣至上一級分辨率;

g)重復d)~f),最終獲得三個代價卷進行交叉融合;

h) soft-argmin計算初始視差圖;

i)利用精修網絡對1/4分辨率下視差圖進行修正,得到精修視差圖。

4測試與結果

4.1數據集與評價指標的選擇

數據集選取scene_flow、KITTI2012、KITTI2015,其中scene_flow數據集是一個合成的立體匹配數據集,包含稠密的視差圖,可以保證訓練精度,作為預訓練的數據集,可以有效避免訓練數據過少導致過擬合的問題,測試中只選用了其道路部分。KITTI2012/2015數據集是移動車輛采集的道路真實數據,通過車載LiDAR獲得尺寸為376像素×1240像素的圖像;數據集中的視差圖所含真實視差值是稀疏的,但因其來源是真實場景,結果更為準確,可以提高網絡的實用性和擬合程度;在實驗中,將數據集分為兩部分,隨機選取其中160對立體圖像作為訓練集,其余立體圖像則作為測試集。

為了評判模型性能,采用EPE(end-point-error)端點誤差以及t像素誤差率作為評價指標。EPE代表在最大視差范圍內,預測視差圖與真實視差圖之間平均歐氏距離,t像素誤差率代表EPE中大于t個像素單位的點所占百分比。

4.2實驗部署與實現

所提出的雙目視覺立體匹配網絡在PyTorch基礎上搭建,選擇Adam優化器進行訓練,其參數β1=0.9,β2=0.99。實驗的最大視差值設置為256,圖像被隨機裁剪至288(H)×576(W)大小,以增強模型魯棒性。式(7)中損失權重分別為1/3、2/3、1、1。因scene_flow整體數據集較大,選取其中道路駕駛部分數據,訓練100 epoch,前50 epoch的學習率設置為0.000 5,后50 epoch的學習率設置為0.000 1。由于KITTI2012與2015的數據集樣本較少,所以將兩個數據集合并后訓練200 epoch,前100 epoch學習率初始為0.000 1,后100 epoch的學習率設置為0.000 05。最后再在單獨的KITTI2015數據集上訓練100 epoch,其學習率設置為0.000 01。模型僅在一塊1080TI顯卡上訓練,每批次圖片數量為4。

4.3實驗結果

由于scene_flow數據集僅使用了道路部分作為預訓練數據集,所以僅用來作為對比實驗驗證模型設計的有效性。針對特征提取網絡中基于空洞卷積和注意力機制方法,聚合網絡中的迭代更新,代價卷交叉融合的設計,以及最終的注意力機制和空洞卷積結合的精修網絡設計進行過一系列對比實驗,其結果如表1所示。

上述結果來自于相同訓練策略下得到的最優指標。對模型中不同模塊進行更改,其效果如表1所示。在特征提取網絡中,空洞卷積模塊若不參與向下卷積,而是以并行方式獲取多尺度信息,其訓練結果較差,而嵌入網絡中,可以提高更深層網絡的感受野,同時也在一定程度上加深特征提取網絡層次,使獲取得到的特征更具表征能力,以使后續計算更為準確。為了使特征包含的信息更為完善,通常會采用多尺度融合,相似度信息的獲取則是讓右特征沿x軸從0移動到最大視差距離后,與左特征相乘再沿維度相加,這樣的策略會導致信息減少,與其在減少信息后進行交互,不如一開始就完善特征,讓相似度信息更為準確,由表1可知效果會更好。相較于在聚合網絡中讓代價卷迭代更新,視差圖的迭代會減少一定計算量,但是同樣也會讓傳遞到更高分辨率的信息減少,以至于使網絡不能得到較好訓練,使結果較差;由表1可知,僅僅采用最后一個空洞卷積模塊的特征會使得誤差變得更大,其原因在于單一尺度下特征信息相對較少,以至于后續聚合網絡未能得到信息豐富的輸入。減少聚合網絡中卷積層的維度,雖然額外引入一個精修網絡,其結果卻大幅度下降,精修網絡本質上是在已有較為準確的視差圖上修正,聚合網絡的刪減導致初始視差圖準確度大幅度下降,導致精修網絡需要修正的像素多,修正的值越大,故使得精修網絡學習慢,且不準確。將聚合網絡中1/8分辨率下的網絡刪減,僅在1/16和1/4下迭代,結果表明,減少迭代次數會導致誤差變大,但比減少網絡維度表現要好,雖然減少一次迭代,但是單一分辨率下網絡能夠較好地擬合出代價卷。綜合來看,空洞卷積的嵌入使得信息更為豐富,尺度內高維度卷積層的聚合有利于獲得更為準確的代價卷,多尺度迭代不斷修正代價卷,最終結果也證明所提出方法的有效性。

由表2可知,空洞卷積的使用可以讓網絡含有更為豐富的特征,對精度的提高有一定作用。但相較于多個尺度代價卷交互,其作用較小。而刪除最后三個分辨率下代價卷交互模塊,整個模型的運行變為了將代價卷不斷向上迭代更新的過程,其運行方式類似于MADNet[12],但其結果較為振蕩,不能收斂到較低的值。最終的代價交互模塊是讓整個模型不再是go deeper go better樣式,通過交互不同分辨率的代價卷,使得淺層和深層的網絡都能夠得到很好的訓練,使得最終的結果也較為準確。而刪除迭代更新以后,模型更加注重低分辨率下的視差計算。且因分辨率的降低,最大視差也成倍下降,有利于聚合網絡的學習,同時,視差精修網絡在一定程度上緩解了因缺乏迭代導致的誤差擴大。

在實驗過程中,使用裁剪后的圖像,其取值[320,960]已足夠包含正前方視野范圍內的大部分信息,其實驗結果如圖3所示。

為了體現模型的準確性,將所提出的雙目視覺立體匹配網絡模型與一些優秀的模型進行比較,以參數量、EPE端點誤差、以及D1-all為評價指標,其對比結果如表3所示。

本文模型在測試集上的結果如圖4所示。

測試指標和GC-Net和DesNet[13]對比,如表3所示。在目前算法中,在使用較低參數量時,提出的算法能夠達到較高的準確度。對比GC-Net和PSMNet,兩個模型均采用3D卷積的方式,參數量大,PSMNet因其堆疊多個編解碼器,端點誤差較GC-Net減半,但參數量增加近一倍。DesNet因其堆棧大量卷積層,又未能考慮視差本身的物理含義,其模型臃腫,參數量大,雖然運算時間較快,但是更多的卷積層未能提高匹配精度,而本文模型參數僅為DesNet的1/20。與StereoNet和MADNet對比,本文所提出的網絡模型雖然在運算時間上偏高,但準確度較好,這也證明模型結構的具有一定技術優勢與合理性。

此外,與GC-Net相比,本文提出的網絡模型參數量降低了40%,且所有的實驗僅采用一塊1080Ti顯卡,其部署成本相比GC-Net的Nvidia GTX Titan X低,計算速度大幅度提高。因此,所提出的算法采用低成本、低算力的GPU,同樣能夠達到較高的立體匹配準確度。在實際應用中,更低的部署成本顯然更具競爭優勢,也更便于機器人或者無人駕駛車輛等移動計算載體的部署和實施,同時新網絡模型的算法精度卻并沒有損失多少,綜合來看,所提出的網絡模型還是較優于GC-Net。

5結束語

針對現有雙目視覺立體匹配網絡參數量大、采用高成本GPU、實際部署困難的問題,提出一種基于多尺度聚合神經網絡的立體匹配方法,結合同一分辨率下多尺度信息,以完善整體和細節信息;在低分辨率下聚合出代價卷,結合高分辨率相似度信息不斷更新優化代價卷,通過交叉融合多個聚合結果獲得更為準確的代價卷,同時使得網絡淺層和深層都能得到較好訓練。雖然新網絡模型能夠在較低成本的GPU資源下獲得較好的立體匹配性能,但是運算時間方面還有待進一步優化。因此,后續將針對模型實時性方面進行深入研究。

參考文獻:

[1]Scharstein D,Szeliski R.A taxonomy and evaluation of dense two-frame stereo correspondence algorithms[J].International Journal of Computer Vision,2002,47(1-3):7-42.

[2]Zhang Ke,Lyu Jiangbo,Lafruit G.Cross-based local stereo matching using orthogonal integral images[J].IEEE Trans on Circuits and Systems for Video Technology,2009,19(7):1073-1079.

[3]Hosni A,Rhemann C,Bleyer M,et al.Fast cost-volume filtering for visual correspondence and beyond[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2013,35(2):504-511.

[4]Yoon K J,Kweon I S.Adaptive support-weight approach for correspondence search[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(4):650-656.

[5]Zbontar J,LeCun Y.Computing the stereo matching cost with a convolutional neural network[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2015:1592-1599.

[6]Mayer N,Ilg E,Hausser P,et al.A large dataset to train convolutional networks for disparity,optical flow,and scene flow estimation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:4040-4048.

[7]Pang Jiahao,Sun Wenxiu,Ren J S,et al.Cascade residual learning:a two-stage convolutional neural network for stereo matching[C]//Proc of IEEE International Conference on Computer Vision Workshops.Washington DC:IEEE Computer Society,2017:887-895.

[8]Kendall A,Martirosyan H,Dasgupta S,et al.End-to-end learning of geometry and context for deep stereo regression[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:66-75.

[9]Chang Jiaren,Chen Yongsheng.Pyramid stereo matching network[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Washington DC:IEEE Computer Society,2018:5410-5418.

[10]Zhang Ruifeng,Ren Guoming,Li Qiang,et al.Stereo matching network based on multi-stage fusion and recurrent aggregation[J].Journal of South China University of Technology:Natural Science Edition,2021,49(6):77-87.

[11]Zhang Feihu,Prisacariu V,Yang Ruigang,et al.GA-Net:guided aggregation net for end-to-end stereo matching[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:185-194.

[12]Tonioni A,Tosi F,Poggi M,et al.Real-time self-adaptive deep stereo[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:195-204.

[13]Liang Zhengfa,Feng Yiliu,Guo Yulan,et al.Learning for disparity estimation through feature constancy[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:2811-2820.

[14]張文,邵小桃,楊維,等.基于卷積神經網絡的高效精準立體匹配算法[J].計算機輔助設計與圖形學學報,2020,32(1):45-53.(Zhang Wen,Shao Xiaotao,Yang Wei,et al.An efficient and accurate stereo matching algorithm based on convolutional neural network[J].Journal of Computer-Aided Design amp; Computer Graphics,2020,32(1):45-53.)

[15]Yu F,Koltun V.Multi-scale context aggregation by dilated convolutions[C]//Proc of International Conference on Learning Representations.2016.

[16]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:770-778.

[17]Khamis S,Fanello S,Rhemann C,et al.StereoNet:guided hierarchical refinement for real-time edge-aware depth prediction[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:596-613.

[18]Zhao Hengshuang,Shi Jianping,Qi Xiaojuan,et al.Pyramid scene parsing network[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:6230-6239.

[19]Hu Jie,Shen Li,Albanie S,et al.Squeeze-and-excitation networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Washington DC:IEEE Computer Society,2018:7132-7141.

[20]Wang Fei,Jiang Mengqing,Qian Chen,et al.Residual attention network for image classification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Compu-ter Society,2017:6450-6458.

[21]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:3-19.

[22]Sun Ke,Xiao Bin,Liu Dong,et al.Deep high-resolution representation learning for human pose estimation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2019:5693-5703.

收稿日期:2021-12-07;修回日期:2022-01-21基金項目:重慶巴南區科技項目(2018TJ02);重慶市巴南區定點支持科技項目(2020QC430)

作者簡介:杜宬錫(1996-),男,四川南充人,碩士研究生,主要研究方向為雙目視覺、立體匹配計算機視覺與圖像處理;朱凌云(1969-),男(通信作者),重慶人,副教授,碩導,博士,主要研究方向為智能感知與計算、計算機視覺、生物醫學計算(zhulingyun@cqut.edu.cn);張瑞賢(1995-),男,安徽蚌埠人,碩士研究生,主要研究方向為計算機視覺與圖像處理.

主站蜘蛛池模板: 精品视频在线一区| 欧美中文字幕在线播放| 先锋资源久久| 成人午夜精品一级毛片| 国产欧美日韩精品综合在线| 国产一在线观看| 婷婷丁香在线观看| 亚洲欧美国产五月天综合| 欧美亚洲另类在线观看| 国产精品手机视频一区二区| 在线观看免费国产| 亚洲an第二区国产精品| 国产麻豆91网在线看| 特级毛片8级毛片免费观看| 2021国产乱人伦在线播放| 免费中文字幕在在线不卡| 一级毛片免费的| 97精品国产高清久久久久蜜芽| 免费国产高清视频| 亚洲成肉网| 日韩欧美一区在线观看| 日本午夜精品一本在线观看 | 国产综合亚洲欧洲区精品无码| 亚洲色精品国产一区二区三区| 999精品免费视频| 视频在线观看一区二区| 日韩第九页| 老色鬼欧美精品| 久久精品无码专区免费| 最新亚洲人成网站在线观看| 国产精品自拍露脸视频| 国产无遮挡裸体免费视频| 成人一级免费视频| 亚洲日韩AV无码精品| 国产菊爆视频在线观看| 韩国v欧美v亚洲v日本v| 精品视频福利| a毛片在线| 亚洲天堂色色人体| 欧美成人午夜影院| 91人妻日韩人妻无码专区精品| 97视频免费在线观看| 久久精品一品道久久精品| 这里只有精品在线| 亚洲色图在线观看| 9cao视频精品| 国产av色站网站| 国产精品偷伦视频免费观看国产| 亚洲色图欧美一区| 国产成人成人一区二区| 亚洲天堂日韩在线| 免费a级毛片18以上观看精品| 国产精品污污在线观看网站| 国产精品白浆无码流出在线看| 六月婷婷精品视频在线观看 | 亚洲人成网站日本片| 72种姿势欧美久久久久大黄蕉| 亚洲无码精彩视频在线观看| 国产亚洲高清在线精品99| 中文字幕永久在线看| 黄色国产在线| 欧美中文字幕无线码视频| 在线观看精品国产入口| 欧美高清国产| 久久青草热| yy6080理论大片一级久久| 日本高清有码人妻| 成人午夜天| 国产精品林美惠子在线播放| 国产精品欧美日本韩免费一区二区三区不卡| 中国国产高清免费AV片| 熟女日韩精品2区| 91亚瑟视频| 2020国产精品视频| 综合久久五月天| 国产菊爆视频在线观看| 在线观看国产小视频| 国产美女叼嘿视频免费看| 日韩成人高清无码| 日本色综合网| 另类专区亚洲| 98超碰在线观看|