周科帥,何 剛*,胡海東,徐克鵬,馬梓佳,李云松
1.西安電子科技大學(xué),西安 710071
2.北京控制工程研究所,北京 100094
目前,深空探測(cè)日益成為世界各航天大國科技探索與創(chuàng)新的戰(zhàn)略制高點(diǎn).深空探測(cè)有嚴(yán)苛環(huán)境未知、先驗(yàn)知識(shí)欠缺和資源嚴(yán)重受限等顯著特點(diǎn),對(duì)感知的自主性和智能化造成極大的困難,帶來極高的挑戰(zhàn).火星是太陽系內(nèi)與地球最相似的姊妹行星,成為深空探測(cè)領(lǐng)域中競(jìng)相角逐的熱點(diǎn).近年來中國在航空航天領(lǐng)域發(fā)展迅速,不但實(shí)施了月球探測(cè)計(jì)劃,也于2020年實(shí)施了首次火星探測(cè).現(xiàn)代火星探測(cè)發(fā)現(xiàn)火星表面與地球相似,發(fā)育著以內(nèi)營力為主形成的山脈構(gòu)造及火山等地貌,也有以外營力為主形成的隕擊坑、古水系、風(fēng)成地貌、冰川地貌和凍土地貌等.風(fēng)沙地貌過程是火星表面最廣泛和最活躍的地貌過程[1].火星地表形貌原始自然、色彩單一、紋理相似度高,針對(duì)需要定位的目標(biāo)例如稀松土壤、不規(guī)則巖石,目標(biāo)之間具有相似的紋理信息,且邊界特征不明顯,難以實(shí)現(xiàn)稠密像素級(jí)的精確定位,為語義地圖構(gòu)建及火星車導(dǎo)航行進(jìn)任務(wù)提供數(shù)據(jù)支撐.
立體匹配作為計(jì)算機(jī)視覺中的一項(xiàng)經(jīng)典任務(wù),一般來說可以歸結(jié)為4個(gè)階段,包括匹配代價(jià)計(jì)算、代價(jià)聚合、匹配代價(jià)卷正則化和視差細(xì)化.傳統(tǒng)的立體匹配算法主要有:局部算法,主要基于滑動(dòng)窗口來計(jì)算局部窗口內(nèi)的匹配代價(jià);全局算法,通過優(yōu)化包括局部數(shù)據(jù)項(xiàng)和平滑項(xiàng)的能量函數(shù)來計(jì)算立體視圖之間的相關(guān)性;半全局的立體匹配算法SGM[2],采用單像素互信息(HMI)作為匹配代價(jià),沿著多個(gè)方向進(jìn)行一維能量最小化來近似替代二維全局能量最小化.但是由于傳統(tǒng)圖像匹配方法存在光照敏感、透視失真等缺點(diǎn),在不適定區(qū)域,例如遮擋、重復(fù)紋理和弱紋理等,依舊很難找到準(zhǔn)確的匹配點(diǎn),生成精準(zhǔn)的視差圖.
僅僅利用不同視角下光照強(qiáng)度的一致性約束已經(jīng)不足以在不適定區(qū)域得到精確的匹配一致性估計(jì),并且對(duì)于弱紋理區(qū)域這個(gè)約束是完全無效的.為解決傳統(tǒng)純雙目算法的這些問題,提高立體匹配一致性,從而獲得高精度的視差估計(jì).采用了基于全卷積神經(jīng)網(wǎng)絡(luò)的立體匹配算法,利用大量的雙目圖像對(duì)與真實(shí)視差圖像進(jìn)行訓(xùn)練,在立體圖像匹配和深度估計(jì)中取得了較大的進(jìn)展.而當(dāng)前基于卷積神經(jīng)網(wǎng)絡(luò)立體匹配方法的一個(gè)主要的問題就是如何有效的利用環(huán)境信息.一些研究嘗試結(jié)合語義信息去優(yōu)化匹配代價(jià)和視差圖.如利用來自目標(biāo)結(jié)構(gòu)的三維模型信息去處理匹配中有歧義點(diǎn)的Displets方法[3].而ResMatchNet為了提高不適定區(qū)域的表現(xiàn),去學(xué)習(xí)計(jì)算視差圖的反射置信度[4].GC-Net采用編解碼結(jié)構(gòu),充分利用幾何特性建立匹配代價(jià)卷,混合多尺度上下文的特征信息來調(diào)整匹配代價(jià)[5].
立體圖像與深度數(shù)據(jù)存在互補(bǔ)性.首次將三維激光雷達(dá)和立體視差估計(jì)融合的是PARK等[6]提出的CNN Fusion;DFuseNet使用一種與以前的圖像比較網(wǎng)絡(luò)相似的雙分支編碼器設(shè)計(jì),基于空間金字塔結(jié)構(gòu)分別做稀疏深度數(shù)據(jù)和彩色圖像的編碼[7];LiStereo可以以自我監(jiān)督的方式訓(xùn)練模型,從而減少傳統(tǒng)方法中必須收集大量基準(zhǔn)真實(shí)標(biāo)簽的代價(jià)[8].
本文提出一種適用于火星局部地表近場(chǎng)景的立體匹配算法,基準(zhǔn)模型是HSMnet[9],并且將稀疏深度數(shù)據(jù)作為輔助信息輸入以增強(qiáng)HSMnet的性能.HSMnet是一種基于深度學(xué)習(xí)的立體匹配方法,該方法提出一種具有分層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,這種分層結(jié)構(gòu)運(yùn)算復(fù)雜度低,定位精度高.由于火星局部地表有形貌原始自然、色彩單一和紋理相似度高的特性,一般的雙目立體匹配算法難以找到準(zhǔn)確的匹配點(diǎn),生成精準(zhǔn)視差圖,針對(duì)這個(gè)問題將稀疏深度信息融合進(jìn)立體匹配算法,提高生成視差圖的準(zhǔn)確度.
主要內(nèi)容如下:
1)針對(duì)火星局部地表目標(biāo)定位任務(wù),本文以HSMnet為基礎(chǔ)提出了一種深度融合立體匹配方法,能夠在不損失精度的情況下降低模型計(jì)算復(fù)雜度;
2)為減少匹配搜索空間大小以及解決多義性問題,本文使用條件匹配代價(jià)卷歸一化來構(gòu)建代價(jià)正則化;
3)本文將稀疏深度與立體圖像進(jìn)行結(jié)合,并將精準(zhǔn)的稀疏深度信息與稠密的圖像語義信息進(jìn)行融合,可以獲得精準(zhǔn)稠密的深度圖;
4)提出的方法在火星模擬場(chǎng)地測(cè)試數(shù)據(jù)集上能夠以5FPS的速度完成高精度立體匹配定位.
在本文的研究中,以獲得火星局部地表目標(biāo)的三維坐標(biāo)信息為目的,為此提出了一種融合深度信息的立體匹配算法,將深度信息與雙目相機(jī)獲得的圖像信息進(jìn)行有效結(jié)合,從而能夠精準(zhǔn)的估計(jì)圖像對(duì)應(yīng)位置實(shí)際目標(biāo)的深度信息.提出的方法以HSMnet為基礎(chǔ)模型,結(jié)合CCVNorm和深度信息,從而解決火星局部地表紋理簡(jiǎn)單等特點(diǎn)造成的無法精確定位的問題.數(shù)據(jù)采集平臺(tái)的結(jié)構(gòu)示意圖如圖1所示,提出的算法的總體流程圖如圖2所示.

圖1 無人車的結(jié)構(gòu)圖Fig.1 Structure diagram of pilotless vehicle

圖2 融合深度信息的立體匹配算法流程圖Fig.2 Algorithm diagram of stereo matching with depth information fusion
由于火星地表探測(cè)平臺(tái)有限的計(jì)算資源限制,且該任務(wù)近距離目標(biāo)定位的特點(diǎn)決定了整體數(shù)據(jù)的像素視差分布在較大視差范圍,所以在HSMnet端到端的框架的基礎(chǔ)上,本文對(duì)匹配代價(jià)卷編碼器與解碼器的設(shè)計(jì)進(jìn)行相應(yīng)改進(jìn).模型的推理方式由粗到細(xì),利用空間金字塔結(jié)構(gòu)(SPP),使特征感受野增大;在提取多尺度特征的同時(shí),通過網(wǎng)絡(luò)對(duì)高分辨率圖像進(jìn)行多次下采樣,然后利用潛在的對(duì)應(yīng)關(guān)系建立分辨率逐步提高的代價(jià)金字塔,大大減小了計(jì)算復(fù)雜度;為有效處理高分辨率的匹配代價(jià)卷,在視差的維度上進(jìn)行三維卷積;對(duì)四維匹配代價(jià)卷進(jìn)行細(xì)化搜索時(shí),將視差通道進(jìn)行下采樣操作,這既降低了整體的計(jì)算復(fù)雜度,減少內(nèi)存負(fù)擔(dān),又保持了算法較高的精度;同時(shí)設(shè)計(jì)了一個(gè)多尺度的損失函數(shù),可以按需輸出不同精度的視差圖.
特征金字塔編碼器:使用一個(gè)特征金字塔編碼器來由粗到細(xì)地提取匹配特征.如圖3所示,它采用一種具有跳連接的編碼器-解碼器架構(gòu),能夠在保證粗尺度信息的同時(shí)有效地提取具有不同細(xì)節(jié)層次的特征.其特征編碼器由具有4個(gè)殘余塊的自定義ResNet主干網(wǎng)組成,然后是4個(gè)SPP層,這能夠在有限的計(jì)算資源與內(nèi)存的情況下增大感受野.為保證火星局部地表目標(biāo)定位的精度,我們適當(dāng)減少對(duì)提取圖像特征的下采樣次數(shù),在較高分辨率的特征基礎(chǔ)上構(gòu)建匹配代價(jià)卷.

圖3 分層結(jié)構(gòu)匹配代價(jià)卷編碼器Fig.3 Matching cost volume encoder with hierarchical structure
匹配代價(jià)卷:在獲取左右圖像的這些特征后,結(jié)合水平方向上成對(duì)的潛在匹配對(duì)象間的視差,構(gòu)建不同尺度的四維匹配代價(jià)卷.然后將4個(gè)匹配代價(jià)卷組成一個(gè)金字塔結(jié)構(gòu),每個(gè)匹配代價(jià)卷的空間分辨率越來越高,視差分辨率越來越高.不同于傳統(tǒng)的三維匹配代價(jià)卷,構(gòu)建的匹配代價(jià)卷不僅具有高度 H、寬度 W 和視差D,還具有表示特征通道數(shù)量C的維度,而對(duì)于編碼器中的后續(xù)層,該維度會(huì)增加.
匹配代價(jià)卷解碼器:三維卷積由輸入通道數(shù)、輸出通道數(shù)和步幅定義,而匹配代價(jià)卷由通道、視差通道、高度和寬度定義.將三維卷積“塊”定義為具有殘差連接的2個(gè)三維卷積.匹配代價(jià)卷解碼器如圖4所示,四維匹配代價(jià)卷先經(jīng)過6個(gè)三維卷積塊過濾;為了減小計(jì)算復(fù)雜度,同時(shí)保證較高的精度,我們?cè)谝徊糠纸獯a器中對(duì)匹配代價(jià)卷沿著視差通道進(jìn)行下采樣操作;接著像特征提取的情況一樣,應(yīng)用體金字塔池化(將其擴(kuò)展到四維匹配代價(jià)卷)來生成能夠?yàn)楦叻直媛瘦斎氩东@足夠的全局上下文信息的特征;對(duì)輸出進(jìn)行三線性插值上采樣,以獲得更高的空間(和視差)分辨率,從而可以將其與金字塔中的下一個(gè)四維匹配代價(jià)卷融合;為了獲得從當(dāng)前比例計(jì)算出的按需視差,使用另一個(gè)三維卷積塊對(duì)輸出進(jìn)行處理,以生成三維匹配代價(jià)卷輸出.此匹配代價(jià)卷可以在計(jì)算金字塔下游的后續(xù)匹配代價(jià)卷之前直接輸出視差.

圖4 分層結(jié)構(gòu)匹配代價(jià)卷解碼器Fig.4 Matching cost volume decoder with hierarchical structure
多尺度損失函數(shù):本文在訓(xùn)練階段設(shè)計(jì)了多尺度的損失函數(shù)以訓(xùn)練網(wǎng)絡(luò)進(jìn)行不同尺度的預(yù)測(cè),可以按需輸出不同精度的視差圖.如式(1)按比例調(diào)整損失以考慮不同尺度的空間分辨率,L1到L4分別表示從最精細(xì)水平的損失到最粗糙水平的損失.

(1)
由于火星局部地表紋理簡(jiǎn)單、相似度高等特點(diǎn),基于單一數(shù)據(jù)源的立體匹配方法難以提取有用的特征,不能獲得穩(wěn)定且精確的定位,所以利用深度信息與立體圖像互補(bǔ)的優(yōu)勢(shì),在立體匹配網(wǎng)絡(luò)的代價(jià)正則化階段用條件匹配代價(jià)卷歸一化來代替批量歸一化層,以激光雷達(dá)獲取的稀疏深度信息為條件調(diào)制匹配代價(jià)卷特征F,減少匹配的搜索空間大小并解決多義性問題.由于作為條件輸入稀疏視差圖其像素間的值不斷變化,按像素選擇不同的歸一化參數(shù)不但需要一種替代策略來解決稀疏視差圖中包含的無效信息,而且稀疏視差有效值對(duì)于匹配代價(jià)卷中不同視差級(jí)應(yīng)有不同程度的作用.

(2)
(3)
(4)




圖5 HierCCVNorm結(jié)構(gòu)圖Fig.5 Structure diagram of HierCCVNorm

(5)

(6)
由于火星局部地表紋理相似度高難以精確定位,對(duì)于獲取的稀疏深度信息,先將其重投影到左右圖像坐標(biāo)系下,再利用三角化原理轉(zhuǎn)化為對(duì)應(yīng)的視差,從而形成與立體圖像相對(duì)應(yīng)的兩個(gè)稀疏視差圖,如圖6所示,將它們分別與對(duì)應(yīng)的立體圖像連接起來,以通過聯(lián)合推理外觀和幾何信息來豐富表示.

圖6 輸入融合結(jié)構(gòu)示意圖Fig.6 Schematic diagram of input fusion structure
數(shù)據(jù)采集平臺(tái)使用雙目導(dǎo)航相機(jī)采集雙目RGB圖像,有方形視場(chǎng),為50.28°×50.28°(對(duì)角線視場(chǎng)71.1°),成像范圍大于0.5 m,圖像的有效像素?cái)?shù)為2 048 pixel×2 048 pixel,像素位為8位;激光雷達(dá)規(guī)格為40線,測(cè)距能力120 m,精度(典型值)為±2 cm,水平視場(chǎng)角為360°,垂直視場(chǎng)角為40°;ToF相機(jī)有方形視場(chǎng),水平視場(chǎng)角67°,垂直視場(chǎng)角51°,分辨率為640 pixel×480 pixel,測(cè)距能力0.5 m到5.5 m,準(zhǔn)確性(典型)為±5 mm.
本文數(shù)據(jù)集來源于火星模擬場(chǎng)地,使用雙目導(dǎo)航相機(jī)采集成對(duì)的RGB圖像,圖像的分辨率為2 048 pixel×2 048 pixel;使用激光雷達(dá)采集到的三維點(diǎn)云,轉(zhuǎn)換坐標(biāo)系到左右導(dǎo)航相機(jī)視角下,然后轉(zhuǎn)換為分辨率2 048 pixel×2 048 pixel的深度圖,得到稀疏激光雷達(dá)深度圖,作為稀疏深度輸入到模型;使用ToF相機(jī)采集稠密深度圖,轉(zhuǎn)換為三維點(diǎn)云,再轉(zhuǎn)換坐標(biāo)系到左導(dǎo)航相機(jī)下,然后轉(zhuǎn)換為分辨率2 048 pixel×2 048 pixel的深度圖,作為模型標(biāo)簽.使用Pytorch構(gòu)建提出的模型,初始學(xué)習(xí)率設(shè)置為為0.001,每隔50個(gè)Epoch將學(xué)習(xí)率乘以0.1,batchsize設(shè)置為2,總的Epoch設(shè)置為100.使用40對(duì)數(shù)據(jù)作為測(cè)試數(shù)據(jù)集,并在測(cè)試數(shù)據(jù)集上計(jì)算深度均方根誤差(depth_RMSE)、深度平均絕對(duì)誤差(depth_MRE)和三像素誤差(err_3px)評(píng)估模型性能.
在對(duì)比實(shí)驗(yàn)中,為了證明提出方法的有效性,與GCnet+CCVNorm、HSMnet進(jìn)行了對(duì)比實(shí)驗(yàn),詳細(xì)實(shí)驗(yàn)結(jié)果見表1.從表1可看出,提出的方法在評(píng)估指標(biāo)上優(yōu)于其他方法,尤其是在depth_RMSE評(píng)估指標(biāo)上,本文提出的方法能夠帶來明顯提升.如圖7所示,對(duì)于RGB圖像中與沙地紋理相似的方塊,本文的方法得到的視差圖比GCnet+CCVNorm與HSMnet得到的視差圖在邊緣部分擁有更加清晰的細(xì)節(jié),而且在紋理高度相似的沙地區(qū)域,能得到更加平滑的效果,證明了該方法的優(yōu)勢(shì).

表1 火星模擬場(chǎng)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果Tab.1 Comparison of experimental results on the Mars simulation field dataset

圖7 火星模擬場(chǎng)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比圖Fig.7 Comparison of experimental results on the Mars simulation field dataset
為了證明提出的各個(gè)模塊在火星數(shù)據(jù)集上立體匹配性能,故分步去除每一個(gè)模塊,以測(cè)試每個(gè)模塊的性能.從表2中的實(shí)驗(yàn)結(jié)果可以看出,每一個(gè)模塊都能帶來明顯提升,將輸入融合(IF)加入到HSMnet中時(shí),depth_RMSE降低了2.04 mm,depth_MAE降低了1.65 mm,說明輸入融合的方法在我們的數(shù)據(jù)集上近場(chǎng)景條件下得到了明顯提升.在加入CCVNorm之后所有評(píng)估指標(biāo)均得到改善,證明提出的融合方法的有效性.

表2 消融實(shí)驗(yàn)結(jié)果Tab.2 Results of ablation study
文章針對(duì)火星局部地表定位任務(wù),針對(duì)需要定位的目標(biāo)例如稀松土壤、不規(guī)則巖石,提出一種融合深度信息的火星局部地表圖像立體匹配方法.利用空間金字塔特征提取模塊聚合不同尺度和位置的上下文信息,利用分層立體匹配架構(gòu)構(gòu)建多尺度的匹配代價(jià)卷,用條件代價(jià)卷歸一化代替批量歸一化層,在立體匹配網(wǎng)絡(luò)的代價(jià)正則化階段以深度信息為條件調(diào)制匹配代價(jià)卷特征,實(shí)現(xiàn)稠密像素級(jí)的精確定位,為語義地圖構(gòu)建及火星車導(dǎo)航行進(jìn)任務(wù)提供數(shù)據(jù)支撐.通過在火星模擬場(chǎng)數(shù)據(jù)集上的訓(xùn)練與測(cè)試,表明所提出方法在火星局部地表下的優(yōu)勢(shì).