






摘 要:針對現有的立體匹配算法在陰影、物體邊緣和光照反射等區域匹配困難且存在大量錯誤結果的問題,設計了一種可拆卸的損失自注意力網絡(loss self-attention net,LSAnet)查找圖像中的匹配困難區域。LSAnet的網絡各層相互稠密連接,應用了空洞卷積來擴大感受野,并以立體匹配算法生成的損失分布為標簽,能夠動態地進行有監督訓練,最終生成匹配困難區域掩膜輔助立體匹配網絡進行更好的優化;同時,改進了立體匹配網絡中經典的特征匹配代價卷結構,降低了后續3D卷積的計算負荷,提高了匹配效率。實驗結果表明,該算法相比于基準算法精度更高,并且可以提高算法對于匹配困難區域的魯棒性。
關鍵詞:機器視覺;立體匹配;注意力機制;雙目視覺;特征匹配代價計算
中圖分類號:TP391.41 文獻標志碼:A
文章編號:1001-3695(2022)07-051-2236-05
doi:10.19734/j.issn.1001-3695.2021.11.0603
基金項目:國家自然科學基金資助項目(E2020202042);河北省自然科學基金資助項目(51977059)
作者簡介:郭乾宇(1994-),男,河北張家口人,碩士研究生,主要研究方向為計算機視覺;武一(1964-),女(通信作者),山西晉中人,教授,博士,主要研究方向為智能控制系統研究與應用 (wuyihbgydx@163.com);劉華賓(1996-),男,河北衡水人,碩士研究生,主要研究方向為傳感器信號與信息處理;趙普(1998-),男,河南駐馬店人,碩士研究生,主要研究方向為計算機視覺.
Research on stereo matching algorithm based on loss of self-attention mechanism
Guo Qianyua,Wu Yia,b?,Liu Huabina,Zhao Pua
(a.College of Electronic Information Engineering,b.National Demonstration Center for Experimental(Electronic amp; Communication Engi-neering) Education,Hebei University of Technology,Tianjin 300401,China)
Abstract:Aiming at the problem that existing stereo matching algorithms is difficult to match in shadow,object edge and illumination reflection regions and has a large number of error results,this paper designed a detachable loss self-attention net (LSAnet) to search for the difficult matching regions in images.Each network layer of LSAnet densely connected with each other,it used atrous convolution to increase the receptive field,and carried out dynamic supervised training with the loss distribution generated by stereo matching algorithm as the label,and finally generated a mask for difficult matching areas to assist stereo matching network for better optimization.At the same time,it improved the classical feature matching cost volume structure in stereo matching network,which reduced the computational load of subsequent 3D convolution and improved the matching efficiency.Experimental results show that the proposed algorithm has higher accuracy than the benchmark algorithm,and can improve the robustness of the algorithm for matching difficult regions.
Key words:machine vision;stereo matching;attention mechanism;binocular vision;feature matching cost calculation
0 引言
立體匹配是獲得場景3D信息的核心任務,其本質是在兩幅不同視點的圖像中尋找匹配的像素點,計算像素偏移的距離,最終生成稠密的視差圖像,從而獲得三維立體感知[1]。目前立體匹配算法分為基于人工特征的立體匹配算法和基于深度學習的立體匹配算法兩種,在基于人工特征的立體匹配算法中將匹配過程分為代價計算、代價聚合、視差計算和視差求精四個步驟,代價計算和聚合的過程通常以窗口為單元進行匹配,其效果受制于窗口尺寸等手工設計的人工特征,缺乏對上下文信息的獲取,經驗參數的選擇對匹配效果影響很大,不適合在復雜環境下應用[2]。近年來隨著深度學習的不斷發展,卷積神經網絡(convolutional neural network,CNN)在圖像任務中表現出了出色的特征理解能力,許多學者提出基于CNN的立體匹配算法。
最早,文獻[3]將CNN用于提取匹配特征,再對提取到的特征進行代價聚合和后處理,仍然使用了基于人工特征的立體匹配算法的步驟。文獻[4]提出沿水平方向進行一維匹配代價計算的端到端網絡。文獻[5]通過3D卷積實現代價聚合、視差計算,為后續算法提供了思路。Chang等人[6]通過堆疊3D卷積沙漏結構來提高算法精度。劉建國等人[7]通過構建局部稠密代價卷對得到的視差作進一步優化。王玉鋒等人[8]通過加入輔助任務使網絡能夠有效學習邊緣和特征一致性信息,并采用循環迭代的方式更新視差圖。基于CNN的立體匹配算法在精度和速度上都取得明顯進步,但在弱紋理、細致物體邊緣等匹配困難的區域仍然存在大量錯誤的匹配結果,主要是因為圖像中的病態區域(如光線反射和復雜紋理區域等)會嚴重影響最終視差生成的效果,許多物體邊緣部分因為存在視差階躍,也會產生較為嚴重的錯誤結果。
針對以上問題,國內外許多學者選擇使用注意力機制來學習不同特征之間的關聯性,以提高立體匹配算法的匹配效果。注意力機制可以被納入不同的神經網絡結構中,并能在一定程度上提高神經網絡的可解釋性,當應用于視覺相關的網絡中時,注意力機制能夠讓本文忽略無關信息而關注重點信息,模仿了人類視覺的焦點學習。在計算機視覺中,注意力機制可分為兩類,第一類是通道注意力,如SE-Net[9]通過計算不同通道的重要程度,對特征通道進行調整;第二類是空間注意力,如CBAM[10]通過池化壓縮通道,計算特征圖不同位置的重要程度。注意力機制在立體匹配算法中也有廣泛的應用,張亞茹等人[11]在特征提取和3D卷積中使用全局池化的通道注意力進行信息交互,具有計算開銷小的優點。張文等人[12]在視差優化模塊中引入CBAM中的通道和空間注意力級聯機制,使網絡自主選擇視差優化區域。黃繼輝等人[13]在特征提取階段將通道和空間注意力串聯,增強特征的表達能力。通常使用空間或通道注意力機制的本意在于使用一個額外的網絡模塊去學習特征分布或是網絡貢獻本身,但最終會融合到整個網絡當中進行反向傳播優化,額外增加的分支會和網絡本身進行互相影響,并沒有完全獨立出來以有監督的方式進行自身的優化。如圖1所示,圖中的輸入經過施加注意力機制的模型結構進行特征提取,又經過注意力模塊生成特征的注意力掩膜,最后逐元素對應相乘到提取的特征中,再共同參與損失計算。
為了更好地實現注意力機制的關注效果,檢測圖像中的困難匹配區域,本文以金字塔立體匹配網絡(pyramid stereo mat-ching network,PSMnet)作為主干網絡,設計了一個輔助網絡LSAnet來關注主干網絡優化過程中的損失分布,LSAnet可以和主干網絡進行并行推斷,分別進行反向傳播,動態地檢測每張圖像中需要重視的區域,使得主干網絡能夠更好地針對這些地區進行優化。本文改進了PSMnet中的特征匹配代價卷,將左右視圖的特征逐層聚合構造匹配代價,結合了更高質量的中間監督,更好地表述了立體匹配左右對比的實質,進一步提高了上下文信息的利用率。
1 模型
1.1 PSMnet網絡結構
本文以PSMnet作為主干網絡,其網絡結構如圖2所示。左右圖像通過共享的CNN模塊以及金字塔池化(spatial pyramid pooling,SPP)模塊提取圖像特征,其中CNN模塊共使用三個3×3的2D卷積層以及四個殘差連接層,每個殘差連接層分別包含3、16、3、3數量的殘差基礎塊,而每個殘差基礎塊又由兩個3×3大小的2D卷積層、批歸一化層、非線性激活函數組成。SPP模塊由不同步長和大小的池化核組成,可以提取不同尺度的信息。CNN和SPP模塊的輸出通過2D卷積層融合,并以級聯的方式構建匹配代價卷(cost volume)。而得到的匹配代價卷由3D卷積層和三個堆疊的沙漏模塊(hourglass)進行代價聚合,每個沙漏模塊包含兩個步長為2、大小為3×3×3的3D卷積層,兩個步長為1、大小為3×3×3的3D卷積層以及兩個大小為3×3×3的3D轉置卷積,將匹配代價卷上采樣到原始圖像大小,并通過softmax函數生成各個視差級對應的概率,將概率和視差值加權得到輸出視差圖。
在損失函數計算方面,PSMnet使用SmoothL1損失進行約束,SmoothL1損失公式如式(1)所示,在損失值小于1時為均方誤差損失,損失大于1時為平均絕對誤差損失,SmoothL1損失函數兼顧了全程連續光滑,具有較穩定的解,同時也減輕了梯度爆炸的風險。
PSMnet將三層沙漏結構輸出的視差圖以0.5、0.7、1.0的權重聚合,最終以最后一層沙漏的輸出p3作為最終的預測值,如式(2)所示。其中:p1、p2、p3分別為三層沙漏結構輸出的視差圖;digt為視差真值;SL操作為計算預測值和真值的SmoothL1損失。前層沙漏的輸出結果會融合進后層沙漏的輸入,實現由粗到精的視差預測。
1.2 損失自注意力網絡結構
1.2.1 基于稠密連接原理設計的損失自注意力模型
傳統的神經網絡隨著網絡深度的不斷加深,已經擁有了強大的非線性擬合能力,但是由于輸入和梯度通過了更多層,當到達神經網絡的輸出時可能會造成梯度消失,影響網絡的學習過程;與此同時,信息流也因為通過多層的傳遞變得越來越抽象,不利于后續網絡的優化。為了解決此類問題,ResNet[14]通過恒等連接從一層繞過信號到下一層,在不影響擬合能力的情況下大幅降低了梯度消失和過擬合的風險;隨機深度方法[15]通過在訓練過程中隨機丟棄層來減少ResNet的長度,以便提供更好的信息和梯度流。
DenseNet[16]中為了確保網絡層之間最多的信息流,將所有的網絡層與其他前面的層相連,與ResNet通過求和來組合特征的方式相反,在信息傳到網絡層前,DenseNet使用拼接的方式來組合它們。這種稠密連接的組合方式不需要重復學習多余的特征圖,明確區分了網絡輸出的信息和保留的信息,在保持其余特征圖不變的情況下只向網絡層的輸出添加一小部分特征映射,盡可能地加強了特征的傳播,鼓勵了特征的重用,大幅減少了參數的數量。DenseNet的稠密連接結構具體公式為
其中:X0,X1,…,Xμ-1為第0,1,…,μ-1層網絡的特征圖;concat意為拼接操作,將這些特征拼接起來作為第μ層的特征Xμ。
由于稠密連接結構信息傳遞的次數達到了極致,導致了在運行過程中網絡保存的梯度圖和特征圖過寬,即便參數量僅為ResNet的十分之一,DenseNet仍然需要占用更大的顯存容量,這為訓練和推斷過程帶來了更大的壓力。基于DenseNet基本結構設計的LSAnet為了避免特征圖過寬的問題,縮短了DenseNet的深度,深度不足以將使得網絡整體感受野縮小。為了在不增加參數量的情況下提高LSAnet的長距離依賴能力,使其對匹配困難區域更加敏感,本文將DenseNet基本模塊中的卷積部分替換為空洞卷積,相比于普通的卷積核,空洞卷積可以在不增加參數數量的情況下提供更大的感受野,為LSAnet提供更遠距離的信息依賴能力,大幅擴大其感受野,提高對困難匹配區域的搜索能力。同時為了避免空洞卷積引起的柵格效應,本文將各層之間的空洞尺寸設置為(1,2,5)循環,其感受野如圖3所示。
在DenseNet基礎稠密連接模塊之間應用了CBAM注意力機制來增強網絡查找匹配困難區域的能力,CBAM為通道注意力和空間注意力兩個部分的級聯,其中通道注意力如式(4)所示。
其中:F為輸入通道注意力的特征;APh×w和MPh×w分別為空間域的全局平均池化和全局最大池化;MLP為兩層全連接層;σ為sigmoid函數。輸入尺寸為C×H×W的特征通過空間維度的全局平均池化和最大池化得到尺寸為C的通道信息,隨后通過全連接層映射后相加,再由sigmoid函數生成各個通道的權重,與原本的特征F對應相乘實現通道注意力機制。
空間注意力如式(5)所示。
其中:F為輸入空間注意力的特征;APc和MPc為通道域上的平均池化和最大池化;concat操作為特征拼接;conv為卷積核大小為7×7的卷積層;σ為sigmoid函數。輸入尺寸為C×H×W的特征通過通道維度的全局平均池化和最大池化得到尺寸為H×W的空間信息,拼接特征后通過卷積層進行特征映射,再由sigmoid函數生成空間中各個位置的權重,與原本的特征F對應相乘實現空間注意力機制。
本文設置的損失自注意力模型LSAnet的基本結構如圖4所示。首先使用一個7×7的卷積核進行步長為2的下采樣,然后是一個步長為2最大池化的下采樣,隨后是三個稠密連接塊,三個模塊中具有的空洞卷積層數分別為3、6和4層,模塊中各層的卷積核尺寸為3×3并且空洞步長為(1,2,5)循環,這些層分別進行稠密連接,即每一層都包含前饋所有層的輸入。另外在每一個稠密連接塊后添加了CBAM注意力模塊,再使用1×1卷積減少特征通道數。最后使用雙線性上采樣將最終輸出恢復到原本尺寸,并經過sigmoid層進行歸一化,作為生成的損失注意力掩膜。
1.2.2 LSAnet輔助網絡的優化過程
LSAnet的優化過程如圖5所示。首先輸入左右視圖到主干網絡PSMnet進行視差預測,計算一次損失并在損失圖上進行歸一化;然后輸入左視圖到LSAnet進行匹配困難區域查找,將生成的匹配困難區域查找結果作為掩膜與主干網絡的損失對應點相乘,切斷LSAnet的梯度回傳,對主干網絡運行反向傳播算法完成一次優化;最后使用主干網絡歸一化的損失分布作為LSAnet優化的標簽,切斷主干網絡的梯度回傳,對LSAnet運行一次反向傳播算法完成一次優化,至此完成了一次完整的學習過程。
在本文的網絡流程中,主干網絡和LSAnet的損失計算如式(6)所示。對于主干網絡,本文對每層沙漏預測結果的損失進行了掩膜處理,將LSAnet的輸出值pLSA逐像素乘到每個損失的對應位置,對匹配困難區域進行增幅,使網絡更加注意易預測錯誤的區域。對于LSAnet的損失計算,本文使用主干網絡歸一化后的損失分布NormLoss作為標簽,使用SmoothL1損失對其進行優化。
損失自注意力網絡LSAnet不但能夠很好地實現對匹配困難區域施加高注意力的作用,并且這個過程可以跟隨網絡的優化進程不斷自我調整,不斷適應網絡當前的優化程度。在訓練前期,主干網絡擬合能力不足,LSAnet會查找到大量匹配困難區域;隨著主干網絡的不斷優化,LSAnet查找到的困難區域也隨之減少,逐漸集中在病態區域和物體邊緣,這表明LSAnet可以跟隨主干網絡的優化進程,不斷適應性地優化自身。本文在損失自注意力網絡和主體網絡的協同訓練中保存了該模塊對困難匹配區域查找的結果,并以熱力圖形式進行可視化展示,如圖6所示。圖中展示了LSAnet的匹配困難區域查找效果,其中圖(a)為四幅圖像對的左視圖,圖(b)為上方圖像生成的匹配困難區域查找結果,其中的數值為0~1的權重,圖中值越接近1,顏色越亮,亮色意味著這部分區域容易生成錯誤的匹配結果。
圖6明確地展示出了LSAnet對于圖像中的邊緣、陰影等匹配困難的區域具有良好的識別能力,能夠使主干網絡更多地關注這部分內容生成的損失,可以有針對性地對其進行優化,提高立體匹配算法的精度,并且LSAnet是可拆卸的,不為主干網絡增加任何參數,也不影響主干網絡的推斷速度。
1.3 改進的特征匹配代價卷
PSMnet使用了特征匹配代價卷結構,這種結構是通過在傳統的立體匹配網絡中設計每個視差級別的可微層來形成深度學習模型,這種連接左右特征的方式既能夠利用深度學習強大的擬合能力,也能夠利用立體問題的幾何知識。該特征構建方式如圖7所示。在每個對應的視差級別上將左側特征圖和右側特征圖作相應的偏移,模擬構造出視差結構,再在每個視差級別上將左側特征圖與其對應的右側特征圖拼接起來,形成一個成本體積,得到一個4D特征(高度×寬度×視差×特征大小)。最后由3D卷積進行融合和特征提取,這種方法將視差維度和特征維度一起進行融合,引入了空間概念,有效地提高了立體匹配的精度。
這種方法在連接過程中采用的方式是在通道維度將左右圖像直接拼接,構造完成后再使用尺度為3×3×3、步長為1的3D卷積實現視差維度和距離維度上的代價融合,只有在最后一層3D卷積的位置才將所有通道聚合起來,而此時左右圖的特征在各自的通道上已經由不同的3D卷積進行了特征提取,并沒有很好地進行左右特征的對比,導致匹配的效率較低。
本文對特征匹配代價卷進行了改進,構造方式如圖8所示。在每個視差級別上令左視圖特征舍去左側相應數目的數列特征,右視圖特征則向右側進行相應數目的平移,并舍去右側相應數目的數列特征,這樣保證了在視差通道中特征總是以左視圖為基準對齊。后續將左右特征直接融合,融合方式如式(7)所示。
Costi=1-σ(|Fil-Fir|)(7)
其中:Costi為立體匹配代價卷中視差維數為i的特征; Fil和Fir為視差偏移級別為i的左右視圖特征;σ為sigmoid函數,取左右特征差的絕對值通過1-sigmoid函數,表示為左右特征在視差級別為i時的匹配程度,值越大匹配程度就越高。最后將構造而成的代價體積輸入后續的3D卷積進行空間和視差維度的融合。這種代價卷的構造方式增強了3D特征匹配代價卷的可解釋性,提高了特征匹配效率;由于通道的減少,也在一定程度上降低了參數量,減輕了網絡后期3D卷積的計算壓力。
2 實驗結果分析
2.1 數據集
本文中使用的數據集為Kitti2015 Stereo立體匹配數據集,該數據集包含200對真實拍攝的左右圖像對,其圖像尺寸為375×1 242,其中左右圖像已經經過了極線矯正保證其處于同一水平線,還提供了以左圖像位置為基準的真實視差圖像,視差圖中儲存的數值為其對應位置的像素在兩幅圖像間的投影偏差值×255,并且根據CAD模型對其中車輛等前景物體的稀疏視差進行了補全。針對KITTI數據集,本文使用閾值準確性指標作為評價標準,其中分別包含全景(D1all)、前景(D1fg)和背景(D1bg)三種類型,指標將與視差真值相差不超過3并且誤差不超過真值自身5%的預測視差視為預測正確,最后統計預測正確的視差點占全部視差點的比例。
2.2 實驗細節
在訓練過程中,本文使用一塊Nvidia2080S作為GPU設備,批大小設置為2,采用Adam作為優化器(B1=0.9,B2=0.99),并將圖像隨機裁剪為256×512的尺寸進行訓練。對于Kitti2015數據集,為了減少計算周期,本文使用了原PSMnet網絡的權重文件作為預訓練模型,在此基礎上本文訓練了300個周期,并在前200個周期設定學習率為0.001,隨后下降至十分之一,50個周期后再次下降十分之一。
2.3 消融實驗
針對文中所使用的方法進行了消融實驗,在消融實驗中對只使用PSMnet、使用了改進特征匹配代價卷的PSMnet、經過LSA輔助的PSMnet三種模型架構進行了消融實驗。實驗結果如表1所示。實驗表明,經LSA輔助并使用了改進特征匹配代價卷的PSMnet生成的視差精確度更高,在前背景和全景區域的誤差率均有縮小。
2.4 定量評估
在KITTI2015數據集上,本文對比了一些經典算法的立體匹配效果。如表2所示,結果表明相比于其他算法,經過LSA輔助并改進了特征匹配代價卷的PSMnet在前后景和全景區域的視差錯誤率均有明顯減少,相比于原PSMnet在推斷速度上也略有提升。
在KITTI2015測試數據集上的結果如圖9所示,其中展示了三張圖像的立體匹配結果,圖(a)為三幅樣本的左視圖圖像,圖(b)為LSAnet生成的匹配困難區域查找結果圖,圖(c)為PSMnet生成的立體匹配結果圖,圖(d)為本文算法生成的立體匹配結果圖,圖(e)為PSMnet生成的立體匹配誤差圖,圖(f)為本文算法生成的立體匹配誤差圖;每張圖像右側的小圖為重點區域放大圖(方框內的內容)。
由結果圖可以看出,LSAnet針對路牌等立體物品的邊緣以及車窗的病態反光區域都有較強的反映,實現了協助網絡進行病態區域查找和困難區域匹配的任務,使用了LSAnet輔助的主干網絡生成的視差圖中物體邊緣更加細致,對邊緣等匹配困難區域、反射光線等病態區域都有比較好的預測結果,在不增加任何計算量的情況下,使網絡具備了更好的魯棒性,提高了網絡的性能。
3 結束語
經過實驗,本文提出的損失自注意力模塊能夠更好地幫助模型進行擬合,針對困難匹配區域進行著重優化,在不改動模型參數數量和推理速度的情況下,提高了模型本身在室外復雜場景下的魯棒性,更容易應用于實際場景;經過改進的特征匹配代價卷可以更早更直接地對左右特征進行對比,不但提高了匹配效率,同時也降低了代價卷的通道數量,減輕了3D卷積對代價卷的擬合壓力,從而減少了網絡整體的訓練成本。
本文算法可以在保證高精度的情況下進行每秒約三對圖像的檢測,這仍無法滿足在真實場景下的實時檢測,為了提高立體匹配網絡的速度,還需對3D卷積結構進行進一步優化;另外,基于深度學習的雙目立體匹配算法對實驗細節較為敏感,在實時檢測中會因為相機參數、場景等因素對結果造成較大影響,還需要設計遷移學習模塊提高網絡對復雜環境條件的魯棒性,使其更易于在現實環境中使用。
參考文獻:
[1]Thomas L,Cyrille B,Jung I K,et al.Vision-based SLAM:stereo and monocular approaches[J].International Journal of Computer Vision,2007,74(3):343-364.
[2]陳炎,楊麗麗,王振鵬.雙目視覺的匹配算法綜述[J].圖學學報,2020,41(5):702-708.(Chen Yan,Yang Lili,Wang Zhenpeng.Overview of binocular vision matching algorithm[J].Journal of Graphics,2020,41(5):702-708.)
[3]Zbontar J,LeCun Y.Computing the stereo matching cost with a convolutional neural network[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1592-1599.
[4]Mayer N,Ilg E,Hausser P,et al.A large dataset to train convolutional networks for disparity,optical flow,and scene flow estimation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:4040-4048.
[5]Kendall A,Martirosyan H,Dasgupta S,et al.End-to-end learning of geometry and context for deep stereo regression[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:66-75.
[6]Chang J R,Chen Y S.Pyramid stereo matching network[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:5410-5418.
[7]劉建國,紀郭,顏伏伍,等.基于視差優化的立體匹配網絡[J].計算機工程,2022,48(3):220-228.(Liu Jianguo,Ji Guo,Yan Fuwu,et al.Stereo matching network based on disparity optimization[J].
Computer Engineering,2022,48(3):220-228.)
[8]王玉鋒,王宏偉,劉宇,等.基于多任務學習的立體匹配算法[J].激光與光電子學進展,2021,58(4):391-401.(Wang Yufeng,Wang Hongwei,Liu Yu,et al.Multi-task learning based stereo ma-tching algorithm[J].Laser amp; Optoelectronics Progress,2021,58(4):391-401.)
[9]Hu Jie,Shen Li,Albanie S,et al.Squeeze-and-excitation networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2020,42(8):2011-2023.
[10]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:3-19.
[11]張亞茹,孔雅婷,劉彬.多維注意力特征聚合立體匹配算法[J/OL].自動化學報.(2020-12-11)[2021-05-03].https://doi.org/10.16383/ j.aas.c200778.(Zhang Yaru,Kong Yating,Liu Bin.Multi dimensional attention feature aggregation stereo matching algorithm[EB/OL].Acta Automatica Sinica.(2020-12-11)[2021-05-03].https://doi.org/10.16383/j.aas.c200778.)
[12]張文,邵小桃,楊維,等.基于卷積神經網絡的高效精準立體匹配算法[J].計算機輔助設計與圖形學學報,2020,32(1):45-53.(Zhang Wen,Shao Xiaotao,Yang Wei,et al.An efficient and accurate stereo matching algorithm based on convolutional neural network[J].Journal of Computer-Aided Design and Graphics,2020,32(1):45-53.)
[13]黃繼輝,張榮芬,劉宇紅,等.一種優化的深度學習立體匹配算法[J].激光與光電子學進展,2021,58(24):548-557.(Huang Jihui,Zhang Rongfen,Liu Yuhong,et al.An optimized deep learning stereo matching algorithm research[J].Laser amp; Optoelectronics Progress,2021,58(24):548-557.)
[14]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc ofIEEE Conference on Compu-ter Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.
[15]Huang Gao,Sun Yu,Liu Zhuang,et al.Deep networks with stochastic depth[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2016:646-661.
[16]Huang Gao,Liu Zhuang,Van Der Maaten L,et al.Densely connected convolutional networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:2261-2269.
[17]Yang Guorun,Zhao Hengshuang,Shi Jianping,et al.SegStereo:exploiting semantic information for disparity estimation[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:660-676.
[18]Schuster R,Unger C,Stricker D.A deep temporal fusion framework for scene flow using a learnable motion model and occlusions[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2021:247-255.
[19]Saikia T,Marrakchi Y,Zela A,et al.AutoDispNet:improving disparity estimation with automl[C]//Proc of IEEE/CVF International Confe-rence on Computer Vision.Piscataway,NJ:IEEE Press,2019:1812-1823.
[20]Badki A,Troccoli A,Kim K,et al.Bi3D:stereo depth estimation via binary classifications[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:1597-1605.
[21]Jiang Huaizu,Sun Deqing,Jampani V,et al.SENSE:a shared encoder network for scene-flow estimation[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:3194-3203.