張曉藝,余岸竹,曹雪峰,李振琦,權(quán)雨君
(信息工程大學(xué) 地理空間信息學(xué)院,鄭州 450000)
從立體像對(duì)中估計(jì)視差是攝影測(cè)量和計(jì)算機(jī)視覺(jué)中的基本問(wèn)題之一,其關(guān)鍵任務(wù)是尋找同名特征點(diǎn)的像素對(duì)應(yīng)關(guān)系,通常稱(chēng)為立體匹配或立體密集匹配。立體匹配的原理是通過(guò)尋找立體像對(duì)之間像素級(jí)的匹配關(guān)系構(gòu)建視差圖,恢復(fù)場(chǎng)景的深度信息,在無(wú)人駕駛、三維重建、航空測(cè)繪等領(lǐng)域應(yīng)用廣泛。立體像對(duì)分為左、右視圖,通過(guò)計(jì)算左圖每個(gè)像素點(diǎn)(x,y)在右圖上對(duì)應(yīng)像素的位置(x-d,y),可以得到每個(gè)像素點(diǎn)的視差d,進(jìn)一步通過(guò)式(1)得到對(duì)應(yīng)的深度圖。
depth=baseline×focallength/d
(1)
式中:focallength是相機(jī)焦距;baseline是相機(jī)光心之間的距離(即基線長(zhǎng)度)。
在傳統(tǒng)立體匹配算法中,Scharstein等[1]將傳統(tǒng)立體匹配方法分為4步,即匹配代價(jià)計(jì)算、匹配代價(jià)聚合、視差計(jì)算和視差精化。匹配代價(jià)計(jì)算通過(guò)在左右影像上計(jì)算相似性測(cè)度確定匹配代價(jià),描述像素之間的匹配關(guān)系;匹配代價(jià)聚合對(duì)鄰接區(qū)域的匹配代價(jià)進(jìn)行聚合,提高匹配代價(jià)的魯棒性和精確性;視差計(jì)算一般采用贏者通吃(winner take all,WTA)策略,將匹配代價(jià)最小時(shí)對(duì)應(yīng)的視差值作為該像素的初始視差;視差精化則利用左右一致性檢測(cè)、亞像素插值等后處理操作對(duì)初始視差進(jìn)行優(yōu)化,旨在得到精確、完整、光滑的視差圖。然而,傳統(tǒng)匹配代價(jià)計(jì)算基于圖像亮度信息衡量圖像匹配程度,難以實(shí)現(xiàn)無(wú)紋理、弱紋理等病態(tài)區(qū)域的視差估計(jì),且存在計(jì)算效率低、誤匹配率高的缺點(diǎn)。
隨著深度學(xué)習(xí)方法的不斷發(fā)展,研究人員開(kāi)始將深度學(xué)習(xí)方法引入立體匹配問(wèn)題中,用于提升立體匹配精度、提高立體匹配效率和簡(jiǎn)化立體匹配流程。2015年后,卷積神經(jīng)網(wǎng)絡(luò)被引入立體匹配中解決匹配代價(jià)計(jì)算問(wèn)題,MC-CNN[2]、DRR[3]通過(guò)有監(jiān)督學(xué)習(xí)來(lái)計(jì)算匹配代價(jià),在雙目數(shù)據(jù)集上取得了匹配速度和精度的提升,為深度學(xué)習(xí)在立體匹配的應(yīng)用奠定了基礎(chǔ)。隨后,DispNet[4]等利用卷積神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)像素級(jí)的視差輸出,構(gòu)建端到端的立體匹配網(wǎng)絡(luò)進(jìn)行有監(jiān)督的學(xué)習(xí)訓(xùn)練。自此,端對(duì)端立體匹配網(wǎng)絡(luò)成為主流,其輸入端是經(jīng)過(guò)核線校正的立體像對(duì),輸出端是左影像對(duì)應(yīng)的視差圖。2017年,GC-Net[5]通過(guò)構(gòu)建代價(jià)體,并利用3D卷積處理代價(jià)體,獲得更多的幾何和上下文信息,創(chuàng)新性地提出了立體匹配專(zhuān)用網(wǎng)絡(luò)。目前,已經(jīng)出現(xiàn)了多種立體匹配專(zhuān)用網(wǎng)絡(luò)結(jié)構(gòu),并取得了優(yōu)異的結(jié)果。
由于深度學(xué)習(xí)方法在立體匹配中表現(xiàn)出巨大應(yīng)用潛力,基于深度學(xué)習(xí)的立體匹配算法相繼涌現(xiàn),梳理和評(píng)價(jià)立體匹配網(wǎng)絡(luò)的工作也相繼展開(kāi)。Poggi等[6]按照端對(duì)端和非端對(duì)端的分類(lèi)梳理了2016-2019年間的立體匹配算法。Laga等[7]介紹了2014-2019年主流算法的發(fā)展與優(yōu)化,對(duì)主要算法模型進(jìn)行了比較。季順平等[8]利用航空數(shù)據(jù)集對(duì)2017-2019年間典型的網(wǎng)絡(luò)模型進(jìn)行了定量的實(shí)驗(yàn)比較與分析。然而,2019年至今出現(xiàn)了新的模型設(shè)計(jì)思路,網(wǎng)絡(luò)的精度表現(xiàn)、跨域性能都有明顯提升。因此,客觀評(píng)價(jià)立體匹配網(wǎng)絡(luò)的性能對(duì)于現(xiàn)有算法優(yōu)化和新算法提出具有重要的指導(dǎo)意義。
跨域(cross-domain)是指源域和目標(biāo)域在特征空間、邊緣分布等方面存在差異[9]。雖然以上方法在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了不錯(cuò)的結(jié)果,但是在攝影測(cè)量與遙感中,受到成像平臺(tái)、成像視角、光照條件等因素的制約,遙感影像在顏色、光照、對(duì)比度和紋理方面有較大的差異,普遍存在明顯的跨域現(xiàn)象[10],嚴(yán)重影響了現(xiàn)有立體匹配網(wǎng)絡(luò)的精度和性能。基于此,本文主要研究在相同訓(xùn)練條件和誤差指標(biāo)下不同立體匹配網(wǎng)絡(luò)性能的實(shí)驗(yàn)與比較,主要工作如下。
1)梳理了2016-2022年出現(xiàn)的立體匹配網(wǎng)絡(luò)(表1),選擇了5種代表性的端對(duì)端網(wǎng)絡(luò)進(jìn)行分析。

表1 2016-2022年間立體匹配網(wǎng)絡(luò)
2)定量評(píng)估了5種代表性網(wǎng)絡(luò)模型在不同遙感數(shù)據(jù)集中的精度表現(xiàn),評(píng)價(jià)了網(wǎng)絡(luò)模型在遙感影像中的場(chǎng)景適用性和跨域泛化性。
3)綜合實(shí)驗(yàn)結(jié)果,提出了立體匹配網(wǎng)絡(luò)在無(wú)人機(jī)影像和航空航天影像的潛力和挑戰(zhàn)。
基于深度學(xué)習(xí)的端對(duì)端立體匹配專(zhuān)用網(wǎng)絡(luò)可以劃分為特征提取、代價(jià)體構(gòu)建與正則化、視差計(jì)算3個(gè)階段(圖1)。在特征提取中,大多使用共享權(quán)重的孿生卷積網(wǎng)絡(luò)提取左右圖像的特征。在代價(jià)體部分,采用計(jì)算相關(guān)層或串聯(lián)特征的方式進(jìn)行構(gòu)建,基于相關(guān)層的方式計(jì)算左右圖像的匹配相似度,基于串聯(lián)特征的方式將左右圖像特征拼接實(shí)現(xiàn)代價(jià)體構(gòu)建。在視差計(jì)算中,網(wǎng)絡(luò)通過(guò)將立體匹配轉(zhuǎn)化為回歸問(wèn)題,實(shí)現(xiàn)精細(xì)化視差輸出。

圖1 端對(duì)端立體匹配網(wǎng)絡(luò)的一般流程
當(dāng)前,特征提取階段大多使用孿生卷積網(wǎng)絡(luò)提取左右圖像的特征信息。在此基礎(chǔ)上,殘差網(wǎng)絡(luò)被用于提高網(wǎng)絡(luò)深度、加強(qiáng)特征提取能力;跳層連接被用于優(yōu)化網(wǎng)絡(luò)特征提取結(jié)果,空間金字塔池化能夠提取多級(jí)特征,增強(qiáng)圖像的全局信息。如表1所示,自2018年P(guān)SMNet以來(lái),后續(xù)的網(wǎng)絡(luò)多使用空間金字塔池化這一策略增強(qiáng)網(wǎng)絡(luò)對(duì)于全局信息的捕獲能力。目前,主要有兩種代價(jià)體的構(gòu)建方式:采用的左右特征內(nèi)積構(gòu)建3D代價(jià)體和左右特征串聯(lián)構(gòu)建4D代價(jià)體。前者利用點(diǎn)積記錄特征相似性,計(jì)算量較少但是丟失了大量圖像特征信息,后者一般在后續(xù)處理中采用3D卷積進(jìn)行歸一化,需要學(xué)習(xí)大量網(wǎng)絡(luò)參數(shù)。因此,對(duì)于3D代價(jià)體的優(yōu)化策略包括語(yǔ)義掩膜引導(dǎo)聚合、邊緣信息引導(dǎo)聚合、半全局聚合等;對(duì)于4D代價(jià)體,大多數(shù)網(wǎng)絡(luò)一般通過(guò)堆積漏斗結(jié)構(gòu)、體積金字塔池化、引導(dǎo)聚合層等策略,使代價(jià)體對(duì)更具魯棒性和全局性。2021年,RAFT-Stereo將門(mén)控循環(huán)單元(gate recurrent unit,GRU)用于視差估計(jì),STTR提出使用Transformer代替?zhèn)鹘y(tǒng)代價(jià)體的創(chuàng)建和歸一化,獲得了良好的效果,說(shuō)明了自然語(yǔ)言處理中的算法模塊經(jīng)過(guò)調(diào)整之后可以在立體匹配任務(wù)中發(fā)揮有益影響,為設(shè)計(jì)新算法提供了思路。
在基于深度學(xué)習(xí)的立體匹配算法發(fā)展過(guò)程中,PSMNet提出的空間金字塔池化、代價(jià)體構(gòu)建與正則化策略開(kāi)創(chuàng)了立體匹配專(zhuān)用網(wǎng)絡(luò)的先河,是立體匹配網(wǎng)絡(luò)的經(jīng)典算法;DSMNet和CFNet分別通過(guò)優(yōu)化算法流程中的特征提取和代價(jià)體構(gòu)建模塊使得算法更具有魯棒性、更適合跨域視差估計(jì),可以很好地反映網(wǎng)絡(luò)中模塊優(yōu)化的跨域精度提升效果;RAFT-Stereo和STTR分別將自然語(yǔ)言處理中的GRU和Transformer引入立體匹配網(wǎng)絡(luò),代替原有的視差回歸和代價(jià)體構(gòu)建模塊,從而提高視差估計(jì)效率和精確度,在立體匹配網(wǎng)絡(luò)新模塊設(shè)計(jì)中具有代表性。因此,本文選擇PSMNet、DSMNet、CFNet、RAFT-Stereo和STTR作為代表性算法進(jìn)行精度實(shí)驗(yàn)和網(wǎng)絡(luò)分析。
PSMNet是端對(duì)端立體匹配的經(jīng)典網(wǎng)絡(luò)。該網(wǎng)絡(luò)在特征提取階段使用空間金字塔池化策略擴(kuò)大卷積網(wǎng)絡(luò)的感受野,增強(qiáng)圖像對(duì)全局信息的提取能力,以聚合不同尺度和不同位置的特征。隨后,將左右圖像特征串聯(lián),構(gòu)建維度是1/4H×1/4W×1/4D×64的4D代價(jià)體,使用堆疊沙漏(stacked hourglass)3D卷積進(jìn)行代價(jià)體正則化。堆疊沙漏由3個(gè)編碼器-解碼器結(jié)構(gòu)串聯(lián)而成,結(jié)構(gòu)內(nèi)部與中間監(jiān)督相結(jié)合,有效引導(dǎo)代價(jià)體正則化。最后,網(wǎng)絡(luò)采用回歸的方式得到稠密視差輸出。
為了增強(qiáng)網(wǎng)絡(luò)模型的跨域泛化能力,DSMNet使用基于圖的非局部濾波層(non-local graph-based filter,NLF)提取圖像魯棒特征和幾何表示,同時(shí)用域歸一化(domain normalization,DN)代替批歸一化(batch normalization,BN),實(shí)現(xiàn)特征在空間維度和通道維度上分布的歸一化,保持特征的域不變性。DSMNet的代價(jià)體維度為1/3H×1/3W×1/3D×32,代價(jià)聚合通過(guò)半全局聚合層(semi-global aggregation layer,SGA)和NLF層實(shí)現(xiàn),SGA層通過(guò)在圖像4個(gè)方向上聚合匹配代價(jià),NLF層則用于實(shí)現(xiàn)匹配代價(jià)的長(zhǎng)距離傳播,增強(qiáng)網(wǎng)絡(luò)對(duì)全局信息的利用,最終回歸得到視差。
同樣是為了解決算法的域適應(yīng)性問(wèn)題,CFNet認(rèn)為數(shù)據(jù)集之間的圖像場(chǎng)景差異和視差分布不均衡限制了網(wǎng)絡(luò)模型的泛化能力,提出以級(jí)聯(lián)融合代價(jià)體(cascade and fused cost volume)增強(qiáng)立體匹配算法的跨域魯棒性。其中,融合代價(jià)體(fused cost volume)將多個(gè)低分辨率代價(jià)體進(jìn)行融合從而擴(kuò)大感受野,級(jí)聯(lián)代價(jià)體(cascade cost volume)使用基于方差的不確定性估計(jì)確定視差搜索范圍,減少視差分布對(duì)立體匹配精度的影響。在得到初始視差之后,網(wǎng)絡(luò)按照由粗到精的方式精化初始視差,通過(guò)計(jì)算像素的不確定度調(diào)整視差搜索范圍,實(shí)現(xiàn)視差圖的迭代精化。
RAFT-Stereo將自然語(yǔ)言處理中的GRU模塊引入立體匹配算法,代替3D卷積進(jìn)行代價(jià)體的正則化,減少內(nèi)存和算力消耗。該網(wǎng)絡(luò)的特征提取模塊使用圖像特征編碼器和上下文編碼器,前者用于提取左右視圖的圖像特征,后者提取左視圖的上下文信息用于GRU更新。RAFT-Stereo沒(méi)有采用特征串聯(lián)融合的方式構(gòu)造4D代價(jià)體,而是計(jì)算特征向量的點(diǎn)積構(gòu)建3D代價(jià)體,并對(duì)代價(jià)體的最后一個(gè)維度平均池化得到相關(guān)金字塔,擴(kuò)大網(wǎng)絡(luò)感受野。除此之外,網(wǎng)絡(luò)剔除相關(guān)查找算子建立視差與相關(guān)特征的聯(lián)系,實(shí)現(xiàn)查找相關(guān)特征的目的。在視差計(jì)算中使用多級(jí)卷積GRU傳播圖像的全局信息,迭代精化獲得精確視差。
STTR從序列到序列的角度重新審視了立體匹配問(wèn)題,提出利用Transformer代替以往方法中的代價(jià)體構(gòu)建。STTR使用編碼器-解碼器獲取圖像特征,將左右特征圖輸入Transformer模塊中,交替計(jì)算自注意和交叉注意,自注意計(jì)算同一圖像上沿核線像素的注意力,交叉注意計(jì)算左右圖像之間沿極線像素的注意力,注意力計(jì)算中使用相對(duì)位置編碼提供特征的空間信息。估計(jì)視差時(shí),STTR采用改進(jìn)WTA方法估計(jì)初始視差,并利用語(yǔ)義信息提供跨核線信息,精化初始視差。
為了對(duì)比研究5種立體匹配網(wǎng)絡(luò)的性能,本文在Sceneflow、KITTI Stereo 2015[26]、UAVStereo[27]和WHU[28]的立體子集等多個(gè)場(chǎng)景公開(kāi)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證。
Sceneflow數(shù)據(jù)集利用Blender合成了大規(guī)模復(fù)雜場(chǎng)景的立體匹配模擬數(shù)據(jù)。該數(shù)據(jù)集廣泛用于端對(duì)端立體匹配網(wǎng)絡(luò)的訓(xùn)練,包括FlyingThing3D、Driving和Monkaa 3個(gè)子集,對(duì)應(yīng)有不同的圖像場(chǎng)景類(lèi)型和視差分布。
KITTI數(shù)據(jù)集是一個(gè)面向自動(dòng)駕駛場(chǎng)景的室外真實(shí)數(shù)據(jù)集。其中包含了大量的道路、汽車(chē)、建筑等數(shù)據(jù),視差數(shù)據(jù)由車(chē)載激光雷達(dá)結(jié)果反算得到,有效視差像素較為稀疏,約占全部像素的1/3。
UAVStereo數(shù)據(jù)集是一個(gè)多分辨率的無(wú)人機(jī)低空?qǐng)鼍皵?shù)據(jù)集,其中包含居民地、林地和礦區(qū)共3種代表性場(chǎng)景的合成數(shù)據(jù)和真實(shí)數(shù)據(jù),可被用于驗(yàn)證網(wǎng)絡(luò)對(duì)低空獲取的地表數(shù)據(jù)的處理能力以及在合成域和真實(shí)域之間的泛化能力。由于網(wǎng)絡(luò)的計(jì)算性能和機(jī)器內(nèi)存限制和當(dāng)前網(wǎng)絡(luò)處理要求,本文主要采用其中960像素×540像素的低分辨率數(shù)據(jù)進(jìn)行測(cè)評(píng)(后文中的UAVStereo指UAVStereo的低分辨率子集)。
WHU數(shù)據(jù)集是用于大規(guī)模地表重建的航空合成數(shù)據(jù)集,包含五視影像子集和立體匹配子集(后文中的WHU指WHU的立體匹配子集)。數(shù)據(jù)集中的航空?qǐng)D像和視差真值由軟件生成的3D模型渲染得到,涵蓋建筑、工廠、山地、裸露地表等。本文實(shí)驗(yàn)采用WHU數(shù)據(jù)集中的立體匹配子集,含有8 316對(duì)訓(xùn)練數(shù)據(jù)和2 663對(duì)測(cè)試數(shù)據(jù),分辨率為768像素×384像素。
由于相機(jī)基線、焦距和場(chǎng)景深度的差異,不同數(shù)據(jù)集的視差有較大差異。4個(gè)場(chǎng)景數(shù)據(jù)集視差在0~384像素之間的視差值分布情況如圖2所示。就視差范圍來(lái)講,如圖2所示,Sceneflow、KITTI Stereo 2015和WHU數(shù)據(jù)集的視差分布在150像素之內(nèi),UAVStereo視差在50~350像素之間,這是由于無(wú)人機(jī)影像基線大,根據(jù)式(2),其視差值和范圍分布也較大。

圖2 4個(gè)場(chǎng)景數(shù)據(jù)集視差分布情況
disparity=baseline×focallength/depth
(2)
就影像內(nèi)容來(lái)講,Sceneflow包含隨機(jī)場(chǎng)景和動(dòng)畫(huà)場(chǎng)景的多種合成影像,KITTI Stereo 2015是真實(shí)街景影像,UAVStereo和WHU是對(duì)地觀測(cè)影像。
綜上,Sceneflow、KITTI Stereo 2015、UAVStereo和WHU這4個(gè)數(shù)據(jù)集的圖像場(chǎng)景信息、特征屬性和視差分布存在較大差異,為綜合評(píng)價(jià)不同的端對(duì)端立體匹配網(wǎng)絡(luò)提供了數(shù)據(jù)支撐。本文按照7∶1∶2數(shù)據(jù)集的比例將數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)、精化數(shù)據(jù)和測(cè)試數(shù)據(jù)(表2),用于測(cè)試當(dāng)前立體匹配網(wǎng)絡(luò)的性能,從而比較算法在不同場(chǎng)景的表現(xiàn)。

表2 實(shí)驗(yàn)數(shù)據(jù)集
本文設(shè)計(jì)了同域?qū)嶒?yàn)、跨域?qū)嶒?yàn)和精化實(shí)驗(yàn)3種實(shí)驗(yàn),在4個(gè)場(chǎng)景的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),綜合對(duì)比研究5種代表性網(wǎng)絡(luò)的性能。①同域?qū)嶒?yàn)采用表4中的4組訓(xùn)練數(shù)據(jù)對(duì)5種網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,在對(duì)應(yīng)的測(cè)試數(shù)據(jù)上進(jìn)行視差估計(jì)。同域?qū)嶒?yàn)結(jié)果可說(shuō)明不同網(wǎng)絡(luò)在不同場(chǎng)景數(shù)據(jù)上的精度表現(xiàn),從而推測(cè)視差估計(jì)網(wǎng)絡(luò)的場(chǎng)景適應(yīng)性。②跨域?qū)嶒?yàn)直接將Sceneflow數(shù)據(jù)集的網(wǎng)絡(luò)模型應(yīng)用于其他3個(gè)測(cè)試數(shù)據(jù)上,從而在圖像特征和視差分布均不同的數(shù)據(jù)集上實(shí)驗(yàn)和統(tǒng)計(jì)網(wǎng)絡(luò)性能。這種直接遷移的方式可以用于分析網(wǎng)絡(luò)模型的跨域泛化能力。③精化測(cè)試中,先使用Sceneflow數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,然后用3種樣本量較少的精化數(shù)據(jù)分別對(duì)模型進(jìn)行微調(diào)精化,對(duì)比微調(diào)前后各個(gè)網(wǎng)絡(luò)的視差估計(jì)誤差指標(biāo),從而評(píng)估精化策略對(duì)視差估計(jì)的影響,評(píng)價(jià)不同網(wǎng)絡(luò)的適應(yīng)能力。
本實(shí)驗(yàn)測(cè)試環(huán)境使用NVIDIA GTX 3090顯卡,顯存為24 GB,配置CUDA 11.2、Pytorch 1.8.0。由于顯存限制,實(shí)驗(yàn)訓(xùn)練階段將圖像裁剪為256像素×512像素大小輸入網(wǎng)絡(luò)(STTR訓(xùn)練過(guò)程除了左右圖像與對(duì)應(yīng)視差外,還需附加遮擋信息,因此只在Sceneflow和KITTI Stereo 2015上訓(xùn)練)。由于數(shù)據(jù)集視差范圍的差異,在Sceneflow、KITTI Stereo 2015和WHU數(shù)據(jù)集上設(shè)定網(wǎng)絡(luò)最大視差搜索范圍為192像素(STTR無(wú)需設(shè)置),由于UAVStereo數(shù)據(jù)集視差搜索范圍更大,實(shí)驗(yàn)中設(shè)置最大視差搜索范圍為384像素。訓(xùn)練和測(cè)試階段批處理大小均為4。過(guò)程中始終將學(xué)習(xí)率設(shè)置為1E-3(STTR模型的學(xué)習(xí)率過(guò)高會(huì)導(dǎo)致訓(xùn)練中斷,所以將其設(shè)置為1E-4)。實(shí)驗(yàn)中不設(shè)置訓(xùn)練循環(huán)次數(shù),在模型損失函數(shù)曲線無(wú)明顯變化時(shí)結(jié)束訓(xùn)練,使用最后一輪訓(xùn)練模型驗(yàn)證測(cè)試集上的表現(xiàn)。
立體匹配算法通常采用端點(diǎn)誤差(end point error,EPE)和3像素誤差(3-pixel error,3PE)作為評(píng)價(jià)模型精度的指標(biāo)。EPE是指估計(jì)視差與真實(shí)視差之間差值的絕對(duì)值均值,單位為像素,該指標(biāo)反映了整幅圖像全部像素的視差估計(jì)誤差信息;3PE是指當(dāng)一個(gè)像素的視差誤差大于3時(shí),將其視為錯(cuò)誤像素,統(tǒng)計(jì)錯(cuò)誤像素占有效像素的百分比作為實(shí)驗(yàn)指標(biāo),該指標(biāo)反映誤差超過(guò)閾值的像素?cái)?shù)量。
按照以上實(shí)驗(yàn)設(shè)置與數(shù)據(jù)集劃分對(duì)網(wǎng)絡(luò)進(jìn)行同域訓(xùn)練和測(cè)試,實(shí)驗(yàn)結(jié)果如表3所示。

表3 5種模型在4個(gè)數(shù)據(jù)集上的同域誤差統(tǒng)計(jì)
作為代表性算法,PSMNet的表現(xiàn)如下。①在Sceneflow、KITTI Stereo 2015和WHU數(shù)據(jù)集上精度結(jié)果并不理想,定量誤差統(tǒng)計(jì)結(jié)果顯示該網(wǎng)絡(luò)視差估計(jì)誤差和誤差像素占比都比較大,作為立體匹配的經(jīng)典網(wǎng)絡(luò),PSMNet提出了使用全局信息的策略,但其網(wǎng)絡(luò)結(jié)構(gòu)仍然較為簡(jiǎn)單,不能同時(shí)運(yùn)用細(xì)節(jié)和全局信息,導(dǎo)致精度效果不夠理想。②該網(wǎng)絡(luò)在UAVStereo數(shù)據(jù)集上結(jié)果比其他網(wǎng)絡(luò)好。由于無(wú)人機(jī)影像具有視差搜索范圍大、影像中包含的無(wú)紋理和重復(fù)紋理等病態(tài)區(qū)域較多的特點(diǎn),其立體匹配難度較大,PSMNet中的空間金字塔池化和堆疊沙漏3D卷積能夠有效捕捉全局信息進(jìn)行匹配,從而提高了無(wú)人機(jī)影像立體匹配的精度。綜合圖2中視差分布情況,本文推測(cè)PSMNet在較大視差范圍的視差估計(jì)中有優(yōu)勢(shì)。③盡管無(wú)人機(jī)場(chǎng)景中該網(wǎng)絡(luò)表現(xiàn)不錯(cuò),但精度(EPE為3.44像素,3PE為11.63%)與Sceneflow仍然有很大差距,網(wǎng)絡(luò)性能仍然有待提高。在無(wú)人機(jī)場(chǎng)景中,PSMNet比其他網(wǎng)絡(luò)的精度更高。但PSMNet在無(wú)人機(jī)數(shù)據(jù)集上的整體精度低于該網(wǎng)絡(luò)在其他數(shù)據(jù)集上的精度。
STTR網(wǎng)絡(luò)在Sceneflow數(shù)據(jù)集上取得較好精度(EPE為0.54像素,3PE為1.67%)。①這說(shuō)明通過(guò)自然語(yǔ)言處理領(lǐng)域中的Transformer模塊進(jìn)行處理后引入立體匹配中,能夠代替代價(jià)體的構(gòu)建,實(shí)現(xiàn)精準(zhǔn)的視差估計(jì)。②該網(wǎng)絡(luò)需要視差遮擋圖像作為訓(xùn)練數(shù)據(jù),對(duì)數(shù)據(jù)集有較高要求,無(wú)法在UAVStereo和WHU中使用,且無(wú)法用于實(shí)時(shí)數(shù)據(jù)的處理。關(guān)于視覺(jué)Transformer的研究表明[29],Transformer缺少一些卷積神經(jīng)網(wǎng)絡(luò)的歸納偏置,例如平移不變性和局部關(guān)系,因此在規(guī)模不足的數(shù)據(jù)集上表現(xiàn)欠佳。通過(guò)在Sceneflow和KITTI Stereo 2015數(shù)據(jù)集上對(duì)比STTR和CFNet在數(shù)據(jù)集上的表現(xiàn),可以初步驗(yàn)證該結(jié)論在立體匹配網(wǎng)絡(luò)中的正確性。
RAFT-Stereo與DSMNet、CFNet和STTR相比,其誤差結(jié)果EPE較大,但3PE較小。本文推測(cè)這是由于其網(wǎng)絡(luò)結(jié)構(gòu)中的視差更新模塊可以有效索引視差范圍,使得3PE較小,但由于其網(wǎng)絡(luò)結(jié)構(gòu)中使用的編碼器結(jié)構(gòu)簡(jiǎn)單,在特征提取時(shí)不能有效利用特征和全局信息,因此不能精準(zhǔn)估計(jì)視差。
跨域?qū)嶒?yàn)將Sceneflow的訓(xùn)練結(jié)果直接遷移至其他3個(gè)數(shù)據(jù)集,得到誤差統(tǒng)計(jì)結(jié)果如表4所示。

表4 5種模型在3個(gè)數(shù)據(jù)集上的跨域誤差統(tǒng)計(jì)
在KITTI Stereo 2015數(shù)據(jù)集上,5個(gè)網(wǎng)絡(luò)的EPE指標(biāo)都有降低,DSMNet、CFNet和STTR網(wǎng)絡(luò)的3PE指標(biāo)也有所下降,這主要是因?yàn)镾ceneflow中包含虛擬駕駛場(chǎng)景Driving子集,該子集提供了稠密的駕駛場(chǎng)景視差真值,場(chǎng)景的相似性使得誤差降低。對(duì)比KITTI Stereo 2015上同域?qū)嶒?yàn)和跨域?qū)嶒?yàn)的誤差結(jié)果,可以發(fā)現(xiàn)大多網(wǎng)絡(luò)的跨域誤差小于同域誤差,因此本文認(rèn)為視差稠密度直接影響了網(wǎng)絡(luò)的表現(xiàn),稠密的視差真值能夠有效提升網(wǎng)絡(luò)的視差推理能力。研究表明,影像包含的特征類(lèi)型會(huì)影響網(wǎng)絡(luò)特征的提取效果,視差的分布范圍會(huì)影響網(wǎng)絡(luò)中代價(jià)體構(gòu)建與正則化的效果。由于不同場(chǎng)景數(shù)據(jù)集在影像特征類(lèi)型和視差分布范圍方面存在明顯差異,當(dāng)前網(wǎng)絡(luò)泛化性能有限,不能直接進(jìn)行跨域遷移。
UAVStereo和WHU數(shù)據(jù)集上的誤差指標(biāo)上升劇烈,這顯示出網(wǎng)絡(luò)在無(wú)人機(jī)低空?qǐng)鼍昂秃教靾?chǎng)景中跨域性能有限。其中,DSMNet和CFNet分別取得UAVStereo和WHU上的最小誤差,說(shuō)明其網(wǎng)絡(luò)中的跨域泛化模塊有一定的跨域泛化能力,然而性能有限。對(duì)比UAVStereo和WHU上的誤差變化幅度,UAVStereo的誤差變化幅度遠(yuǎn)大于WHU,本文認(rèn)為雖然無(wú)人機(jī)場(chǎng)景和航空?qǐng)鼍岸际菍?duì)地觀測(cè),然而由于無(wú)人機(jī)獲取無(wú)紋理區(qū)域幾率大、視差搜索范圍大等原因,其視差估計(jì)更加困難。
在預(yù)訓(xùn)練結(jié)果上使用少量跨域樣本數(shù)據(jù)進(jìn)行精化,是提升模型跨域泛化的常用手段。因此,本實(shí)驗(yàn)在Sceneflow上預(yù)訓(xùn)練至收斂,然后用其他3個(gè)數(shù)據(jù)集的精化數(shù)據(jù)對(duì)預(yù)訓(xùn)練模型進(jìn)行精化,對(duì)比不同網(wǎng)絡(luò)模型在精化前后的誤差指標(biāo),并評(píng)價(jià)不同網(wǎng)絡(luò)模型的跨域適應(yīng)能力。5個(gè)模型在精化實(shí)驗(yàn)中的誤差統(tǒng)計(jì)結(jié)果如表5所示。

表5 5種模型在3個(gè)數(shù)據(jù)集上的精化誤差統(tǒng)計(jì)
在KITTI Stereo 2015數(shù)據(jù)集上,網(wǎng)絡(luò)整體精度不錯(cuò),精化策略之后誤差降低(3PE整體低于4%)。與同域驗(yàn)證中的誤差指標(biāo)相比,該數(shù)據(jù)集上的誤差都有大幅降低。本文推斷這種精度的升高一方面是因?yàn)橛?xùn)練數(shù)據(jù)的增多,使得網(wǎng)絡(luò)得到充分訓(xùn)練;另一方面是因?yàn)镾ceneflow中虛擬Driving場(chǎng)景為網(wǎng)絡(luò)提供了相似的影像特征和稠密的真值視差。
在UAVStereo數(shù)據(jù)集中,誤差指標(biāo)都呈增加趨勢(shì),因此少量數(shù)據(jù)的精化策略在無(wú)人機(jī)低空?qǐng)鼍皵?shù)據(jù)集上并不奏效。這是由于UAVStereo和Sceneflow的場(chǎng)景信息、影像特征和視差分布的相似性較低,所以精化策略不如同域訓(xùn)練策略的精度表現(xiàn)。5種網(wǎng)絡(luò)中,PSMNet取得最小誤差,與同域驗(yàn)證中的結(jié)果相似。因此,本文認(rèn)為在PSMNet基礎(chǔ)上進(jìn)行優(yōu)化可以提高其在無(wú)人機(jī)場(chǎng)景上的精度表現(xiàn)。DSMNet和CFNet分別在特征提取、代價(jià)體構(gòu)建的步驟中進(jìn)行了跨域泛化性能的增強(qiáng)。但以上兩種策略在無(wú)人機(jī)場(chǎng)景數(shù)據(jù)中的效果并不理想,在視差估計(jì)階段增加約束和增強(qiáng)泛化能力的研究還沒(méi)有得到足夠的關(guān)注,理論上具有深入研究的價(jià)值。
WHU數(shù)據(jù)集的指標(biāo)變化并不穩(wěn)定。與Sceneflow和KITTI Stereo 2015數(shù)據(jù)集的結(jié)果相比,當(dāng)前網(wǎng)絡(luò)在航空影像上的視差估計(jì)精度仍有待提高。WHU數(shù)據(jù)集在視差范圍上與Sceneflow和KITTI Stereo 2015數(shù)據(jù)集相差不大,但影像包含的特征類(lèi)型明顯不同。因此,本文認(rèn)為當(dāng)前網(wǎng)絡(luò)對(duì)地物特征匹配的能力還有待加強(qiáng)。精化策略對(duì)WHU數(shù)據(jù)集的影像并不穩(wěn)定,精化效果與網(wǎng)絡(luò)本身有關(guān)。
本文使用3種實(shí)驗(yàn)方法在4個(gè)數(shù)據(jù)集上對(duì)5種代表性的基于深度學(xué)習(xí)的立體匹配網(wǎng)絡(luò)進(jìn)行了綜合對(duì)比。實(shí)驗(yàn)結(jié)果表明:在運(yùn)算資源有限、場(chǎng)景類(lèi)型多樣、影像特征和視差分布迥異的情況下,網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練策略對(duì)場(chǎng)景適用性有較大差異;PSMNet在仿真數(shù)據(jù)集、駕駛數(shù)據(jù)集和航空數(shù)據(jù)集上精度不高,但在無(wú)人機(jī)低空數(shù)據(jù)集上精度表現(xiàn)良好,在同域?qū)嶒?yàn)、精化實(shí)驗(yàn)中表現(xiàn)優(yōu)于其他網(wǎng)絡(luò);DSMNet和CFNet使用不同的跨域泛化策略提升網(wǎng)絡(luò)的泛化性能,其策略對(duì)于跨域視差估計(jì)具有一定提升,但效果不明顯,誤差仍然很大;RAFT-Stereo在同域?qū)嶒?yàn)和精化實(shí)驗(yàn)中表現(xiàn)不錯(cuò),然而在跨域?qū)嶒?yàn)中精度下降驗(yàn)證,本文推測(cè)增加其網(wǎng)絡(luò)中特征提取模塊的魯棒性能夠有效提升網(wǎng)絡(luò)性能;STTR也能夠獲取精度較高的視差結(jié)果,但是算法訓(xùn)練數(shù)據(jù)需要有人工標(biāo)注的遮擋信息,在實(shí)際中應(yīng)用較為困難。
本文將深度學(xué)習(xí)方法應(yīng)用到不同類(lèi)型航空影像的立體匹配中,分析了代表性的立體匹配網(wǎng)絡(luò)在不同數(shù)據(jù)集上的精度表現(xiàn),評(píng)估了不同網(wǎng)絡(luò)的精度和泛化能力。實(shí)驗(yàn)結(jié)果表明:受視差分布、場(chǎng)景類(lèi)型等因素的影響,當(dāng)前代表性立體匹配網(wǎng)絡(luò)在航空遙感數(shù)據(jù)集UAVStereo和WHU上精度不高;使用域歸一化、多尺度代價(jià)體等增強(qiáng)跨域泛化能力的策略在航空影像上的適用性并不理想;利用自然語(yǔ)言處理Transformer模塊代替代價(jià)體的設(shè)計(jì)能夠在部分?jǐn)?shù)據(jù)集上提高精度,但由于其對(duì)訓(xùn)練數(shù)據(jù)有更高的要求,難以直接應(yīng)用于航空遙感影像。
結(jié)合本文實(shí)驗(yàn)結(jié)果分析,本文對(duì)基于深度學(xué)習(xí)的立體匹配算法展望如下。
首先,有監(jiān)督的端對(duì)端立體匹配算法對(duì)于場(chǎng)景的適用性差異較大,精度表現(xiàn)受遙感影像場(chǎng)景類(lèi)型、視差分布等因素的影響較大。隨著通用特征表示在多任務(wù)學(xué)習(xí)中取得越來(lái)越好的精度,將相關(guān)方法引入到立體匹配中有望取得更魯棒、更通用的特征表示,從而提高網(wǎng)絡(luò)的場(chǎng)景適用性。
其次,當(dāng)前立體匹配網(wǎng)絡(luò)訓(xùn)練過(guò)程對(duì)算力和內(nèi)存要求較高、算法收斂速度較慢,還不適應(yīng)機(jī)載端實(shí)時(shí)處理等智能遙感計(jì)算的需要。隨著深度學(xué)習(xí)中模型剪枝、知識(shí)蒸餾等輕量化措施的發(fā)展,將相關(guān)優(yōu)化措施引入立體匹配網(wǎng)絡(luò)將對(duì)運(yùn)行性能、遙感影像實(shí)時(shí)處理相關(guān)應(yīng)用前景有重要提升。
最后,當(dāng)前應(yīng)對(duì)遙感影像跨域問(wèn)題的方法主要采取少樣本(few-shot)數(shù)據(jù)進(jìn)行參數(shù)微調(diào)。然而,這種策略得到的精度效果并不穩(wěn)定。隨著元學(xué)習(xí)(meta-learning)方法在計(jì)算機(jī)視覺(jué)中的研究,將其中少樣本學(xué)習(xí)的方法引入立體匹配網(wǎng)絡(luò),能夠充分利用不同域之間的有效監(jiān)督信息,從而提高立體匹配網(wǎng)絡(luò)對(duì)于目標(biāo)場(chǎng)景的立體匹配精度。