999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

引入輕量級(jí)Transformer 的自適應(yīng)窗口立體匹配算法

2024-02-29 04:39:58王正家胡飛飛張成娟雷卓何濤
計(jì)算機(jī)工程 2024年2期
關(guān)鍵詞:特征

王正家,胡飛飛*,張成娟,雷卓,何濤

(1.現(xiàn)代制造質(zhì)量工程湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430068;2.湖北工業(yè)大學(xué)機(jī)械工程學(xué)院,湖北 武漢 430068)

0 引言

立體匹配旨在預(yù)測(cè)立體圖像中沿極線(xiàn)像素形成的視差,是計(jì)算機(jī)視覺(jué)中經(jīng)典的研究課題,在許多領(lǐng)域發(fā)揮著重要作用,包括自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)和機(jī)器人等領(lǐng)域。基于學(xué)習(xí)的立體匹配算法能夠達(dá)到亞像素級(jí)別的匹配精度和較低的誤匹配率,但多以犧牲運(yùn)行效率為代價(jià);而以快速計(jì)算為目的的算法,在匹配精度上欠佳。

起初深度神經(jīng)網(wǎng)絡(luò)被引入立體匹配任務(wù)中僅用于匹配代價(jià)計(jì)算[1]。近年來(lái)出現(xiàn)了很多端到端的立體匹配網(wǎng)絡(luò),通過(guò)探索不同的特征描述方式和聚合方法來(lái)獲取匹配代價(jià)。這些網(wǎng)絡(luò)可以大致分類(lèi)為基于相關(guān)性和基于3D 卷積的立體匹配算法。基于相關(guān)性的立體匹配[2-3]一般采用相關(guān)層進(jìn)行匹配代價(jià)計(jì)算。LIANG 等[3]使用相關(guān)層計(jì)算每個(gè)離散視差的代價(jià),然后用特征恒量對(duì)視差進(jìn)行優(yōu)化。AANet[4]使用一種多尺度代價(jià)聚合架構(gòu),包含基于稀疏點(diǎn)的尺度內(nèi)代價(jià)聚合和尺度間代價(jià)聚合層,試圖解決不連續(xù)視差估計(jì)問(wèn)題和改善弱紋理區(qū)域的匹配。LI 等[5]提出了一種遞歸細(xì)化的分層網(wǎng)絡(luò),通過(guò)以粗到細(xì)的方式對(duì)視差進(jìn)行細(xì)化,并利用自適應(yīng)相關(guān)層來(lái)減少匹配模糊現(xiàn)象。基于3D 卷積的立體匹配算法[6-8]大多采用直接特征級(jí)聯(lián)構(gòu)造代價(jià)體。GCNet[9]用3D 卷積聚 合4D 代價(jià)體 以回歸 最終視差。PSMNet[10]用 空間池化金字塔模塊聚合不同尺度和位置的特征并構(gòu)造4D 代價(jià)體,最后利用3D 卷積進(jìn)行正則化。StereoDRNet[11]通過(guò)一 種擴(kuò)張3D 卷積來(lái) 減少計(jì) 算量,并通過(guò)融合幾何誤差和光度誤差來(lái)細(xì)化視差。在性能方面,基于3D 卷積的方法比基于相關(guān)性的方法在精度上占更大優(yōu)勢(shì),但是運(yùn)行速度很慢。還有像Gwc-Net[12]這 種混合使用 相關(guān)性 和3D 卷積的方法,但這種方法計(jì)算量依然很大。無(wú)論是基于相關(guān)性還是基于3D 卷積的匹配方法,都設(shè)置了最大視差范圍以減輕內(nèi)存和計(jì)算需求,對(duì)于超出預(yù)定范圍的視差,則無(wú)法推斷出正確的匹配,這是以犧牲精度來(lái)權(quán)衡效率的方式。

與計(jì)算機(jī)視覺(jué)并行發(fā)展的自然語(yǔ)言處理領(lǐng)域中的Transformer,在許多圖像理解任務(wù)中取得了不錯(cuò)的成果[13-15],現(xiàn)有一些工作采用Transformer 架構(gòu)來(lái)編碼匹配特征[16-18]。SuperGlue[16]通過(guò)自注意力和交叉注意力機(jī)制來(lái)學(xué)習(xí)關(guān)鍵點(diǎn)的空間依賴(lài)關(guān)系和它們的視覺(jué)外觀信息,在增強(qiáng)特征表達(dá)的同時(shí),能夠使代價(jià)學(xué)習(xí)復(fù)雜的先驗(yàn)知識(shí),然后使用一種線(xiàn)性分配策略尋找最佳稀疏匹配點(diǎn)。LoFTR[17]采用級(jí)聯(lián)結(jié)構(gòu)的Transformer,在粗匹配中學(xué)習(xí)密集排列和全局一致的匹配先驗(yàn),然后對(duì)高置信度的匹配點(diǎn)使用基于相關(guān)性的方法將其細(xì)化到亞像素級(jí)別。STTR[18]通過(guò)捕捉不同特征之間的遠(yuǎn)程依賴(lài)關(guān)系和全局上下文信息來(lái)計(jì)算像素間的相關(guān)性,從序列到序列的角度沿極線(xiàn)進(jìn)行密集像素匹配。SSD-former[19]利用滑動(dòng)窗口機(jī)制將整體代價(jià)量分解為許多小代價(jià)量,減少了Transformer的自注意力操作,可靈活適應(yīng)不同的分辨率并提高計(jì)算效率。這些基于Transformer 特征描述的匹配方法與上述兩類(lèi)方法相比,雖然能放松視差范圍,但是存在較高的延遲,因?yàn)門(mén)ransformer模型中的自注意力層中大量使用全連接算子,這使得計(jì)算的復(fù)雜度相對(duì)于序列長(zhǎng)度的時(shí)間和空間復(fù)雜度均二次增長(zhǎng),當(dāng)序列長(zhǎng)度過(guò)大時(shí)計(jì)算成本難以承受[20]。

現(xiàn)有基于學(xué)習(xí)的立體匹配算法通過(guò)設(shè)置最大視差來(lái)減少內(nèi)存和計(jì)算需求,但卻以損失精度為代價(jià);而沒(méi)有視差范圍局限的Transformer 特征描述匹配算法則存在較高的延遲。針對(duì)以上問(wèn)題,本文提出一種基于輕量級(jí)Transformer 自適應(yīng)窗口的立體匹配算法(LTAWNet)。LTAWNet 包含坐標(biāo)注意力位置編碼模塊、輕量級(jí)Transformer 特征描述模塊和自適應(yīng)窗口匹配細(xì)化模塊。坐標(biāo)注意力位置編碼模塊通過(guò)位置編碼提供空間位置依賴(lài)信息,可以增強(qiáng)相似特征之間的辨別能力,有助于提高匹配精度;輕量級(jí)Transformer 特征描述模塊用來(lái)轉(zhuǎn)換上下文相關(guān)的特征,可以增強(qiáng)特征的特異性描述,提供更加精確的匹配點(diǎn)集,為降低Transformer 的高延遲性,本文提出用可分離多頭自注意力層對(duì)Transformer 進(jìn)行輕量化改進(jìn);自適應(yīng)窗口細(xì)化模塊在高分辨率特征圖上對(duì)候選的匹配點(diǎn)進(jìn)行局部區(qū)域匹配細(xì)化,并引入可變形卷積,對(duì)不同紋理自適應(yīng)地產(chǎn)生更合適的匹配窗口,在提高匹配精度的同時(shí)提高執(zhí)行效率。

1 LTAWNet 立體匹配網(wǎng)絡(luò)

本文所提出的立體匹配算法包括特征提取、輕量級(jí)Transformer 特征描述、特征匹配、自適應(yīng)窗口的匹配細(xì)化、視差回歸等5 個(gè)階段,如圖1 所示。

圖1 LTAWNet 總體框架Fig.1 Overall framework of LTAWNet

在特征提取階段,使用兩個(gè)權(quán)重共享的特征提取網(wǎng)絡(luò)對(duì)輸入的立體圖像對(duì)進(jìn)行多尺度特征提取,生成三級(jí)特征金字塔用于計(jì)算不同尺度的匹配特征,并在最小尺度特征圖的相關(guān)性計(jì)算前加入坐標(biāo)注意力機(jī)制(CA)進(jìn)行位置編碼,以增強(qiáng)特征圖的位置依賴(lài)性;在基于輕量級(jí)Transformer 的特征描述階段,使用提出的輕量級(jí)Transformer 模塊(WT)對(duì)特征進(jìn)行特異性增強(qiáng)表達(dá),Transformer 模塊中交替使用自注意力和交叉注意力層,可以聚集特征圖內(nèi)和左右特征圖間全局上下文信息,在兩個(gè)注意力層疊加過(guò)程中,匹配點(diǎn)的數(shù)量將會(huì)收斂為更為精確的匹配點(diǎn)集;在特征匹配階段,使用可微匹配層對(duì)關(guān)注度最高的特征進(jìn)行匹配,生成一個(gè)匹配置信度矩陣,為后續(xù)的視差生成做準(zhǔn)備;在匹配細(xì)化階段,以上一級(jí)低分辨率特征圖的匹配點(diǎn)為中心,對(duì)其用相關(guān)性的方法映射到下一級(jí)高分辨率的特征圖的局部窗口中,在局部窗口內(nèi)對(duì)特征點(diǎn)進(jìn)一步細(xì)化到亞像素級(jí)別的匹配,將可變形卷積融入到相關(guān)性計(jì)算中,從而生成內(nèi)容自適應(yīng)窗口,減少匹配模糊現(xiàn)象;在視差回歸階段,圍繞匹配點(diǎn)構(gòu)建3 像素窗口,利用重歸一化操作算子計(jì)算權(quán)值,對(duì)窗口內(nèi)匹配點(diǎn)進(jìn)行視差加權(quán)以回歸最終視差。

1.1 特征提取

在特征提取階段,將立體圖像對(duì)IL和IR輸入到權(quán)重共享的特征提取網(wǎng)絡(luò),利用帶有特征金字塔網(wǎng)絡(luò)(FPN)[21]的標(biāo)準(zhǔn)卷積結(jié)構(gòu)提取IL和IR三級(jí)特征金字塔,將三級(jí)特征圖記為,1/2、1/4、1/8 尺度的特征圖通道數(shù)分別為64、128、256。為了增強(qiáng)特征的位置依賴(lài)性,提出使用坐標(biāo)注意力機(jī)制[22]對(duì)特征進(jìn)行位置編碼,并僅對(duì)特征圖使用。特征提取網(wǎng)絡(luò)和位置編碼層的詳細(xì)結(jié)構(gòu)如圖2 所示。

圖2 特征提取網(wǎng)絡(luò)結(jié)構(gòu)和位置編碼層結(jié)構(gòu)Fig.2 Feature extraction network structure and position encoding layer structure

在弱紋理和無(wú)紋理區(qū)域,像素間的相似性比較模糊,通過(guò)加入位置編碼有助于解決這一歧義問(wèn)題,該方法已在STTR 中被證明是有效的。與在STTR中使用二次計(jì)算代價(jià)的相對(duì)位置編碼不同,本文使用一種具有線(xiàn)性復(fù)雜度的坐標(biāo)注意力層來(lái)進(jìn)行位置編碼,在提高精度的同時(shí),該方法引入的計(jì)算量更小。

1.2 輕量級(jí)Transformer 的特征描述

使用Transformer 模塊來(lái)轉(zhuǎn)換具有位置依賴(lài)性和上下文相關(guān)的特征,可以在增強(qiáng)特征特異性表達(dá)的同時(shí),將特征點(diǎn)收斂為更精確的匹配點(diǎn)集。為了彌補(bǔ)標(biāo)準(zhǔn)Transformer在立體匹配任務(wù)中延時(shí)高的不足,本文提出引入可分離多頭自注意力層(MHSA)[23]對(duì)標(biāo)準(zhǔn)Transformer 進(jìn)行輕量化改進(jìn)。

本文所提的輕量級(jí)Transformer 模塊結(jié)構(gòu)如圖3所示。WT 模塊由順序連接的編碼器組成,編碼器中交替使用自注意力和交叉注意力層,匹配點(diǎn)的數(shù)量在兩種注意力層疊加的過(guò)程中逐漸收斂。其中,Qh、Kh和Vh在自注意力層中從同一特征圖中計(jì)算,在交叉注意力層中從兩個(gè)不同特征圖中計(jì)算。輸入x∈ Rk×d由k個(gè)d維token(在視覺(jué)Transformer 中指像素)嵌入組成,x被傳輸?shù)? 個(gè)分支,即查詢(xún)Qh、鍵Kh和值Vh。注意力層首先對(duì)所有h個(gè)頭同時(shí)計(jì)算Qh和Kh中線(xiàn)性層輸出之間的點(diǎn)積,然后用Softmax 操作算子σ來(lái)生成注意力矩陣(或上下文映射)a∈ Rk×k×h,再計(jì)算a和Vh中線(xiàn)性層輸出之間的另一個(gè)點(diǎn)積,加權(quán)后輸出yw∈Rk×dh×h,其中,dh=d/h是頭的維度。h個(gè)頭的輸出被連接起來(lái)生成k個(gè)d維token 的張量,然后將其輸入另一個(gè)權(quán)重為WO∈Rd×d的線(xiàn)性層,產(chǎn)生最終加權(quán)輸出y∈Rk×d。

圖3 WT 結(jié)構(gòu)及多頭自注意力層結(jié)構(gòu)Fig.3 WT structure and MHSA layer structure

標(biāo)準(zhǔn)Transformer 中的多頭自注意力層使用縮放點(diǎn)積注意力來(lái)捕獲k個(gè)token 或patch 之間的上下文關(guān)系,如圖4(a)所示。大量的tokenK使得MHSA 的時(shí)間和空間計(jì)算復(fù)雜度為O(k2)。此外,MHSA 中使用批量矩陣乘法和Softmax 函數(shù)用于計(jì)算注意力矩陣,這種計(jì)算方式會(huì)嚴(yán)重消耗內(nèi)存,因此,本文基于標(biāo)準(zhǔn)Transformer 引入具有線(xiàn)性復(fù)雜度的可分離自注意力機(jī)制。

圖4 多頭自注意力對(duì)比Fig.4 Comparison of MHSAs

引入的可分離自注意力機(jī)制原理如圖4(b)所示。對(duì)輸入x使用3 個(gè)分支進(jìn)行處理,變?yōu)檩斎隝、鍵K和值V。分支I使用權(quán)重為WI∈Rd的線(xiàn)性層將x中的每個(gè)d維token 映射到標(biāo)量,權(quán)重WI作為圖4(b)中的潛在節(jié)點(diǎn)L。這個(gè)線(xiàn)性映射是一個(gè)內(nèi)積操作,然后計(jì)算潛在tokenL和x之間的距離,得到一個(gè)k維向量,并使用Softmax 函數(shù)對(duì)所得向量歸一化以產(chǎn)生上下文分?jǐn)?shù)cs:

與計(jì)算每個(gè)token 相對(duì)于所有k個(gè)token 的注意力(或上下文)得分的Transformer 不同,可分離自注意力機(jī)制僅計(jì)算潛在tokenL的上下文得分,這將計(jì)算注意力(或上下文)得分的成本從O(k2)降低到O(k)。上下文分?jǐn)?shù)cs用于計(jì)算上下文向量cv,該向量對(duì)上下文信息進(jìn)行編碼,使用權(quán)重為WK∈Rd×d的鍵分支K將輸入x線(xiàn)性投影到d維空間,產(chǎn)生輸出xK∈Rk×d。上下文向量cv∈Rd被計(jì)算 為xK的 加權(quán)和:

上下文向量cv對(duì)輸入x中所有標(biāo)記的信息進(jìn)行編碼,cv中編碼的上下文信息與x中的所有token 共享。與此同時(shí),使用權(quán)重為WV∈Rd×d的值分支V將輸入x線(xiàn)性投影到d維空間,經(jīng)過(guò)ReLU 激活函數(shù)后輸出xV∈Rk×d。然后cv中的上下文信息通過(guò)元素傳播乘法運(yùn)算傳播到xV,將生成的結(jié)果傳遞給另一個(gè)權(quán)重為WO∈Rd×d的線(xiàn)性層,產(chǎn)生最終輸出y∈Rk×d。

可分離自注意力機(jī)制可以用數(shù)學(xué)公式定義為:

其中:*和∑分別是元素傳播乘法與求和操作。

可分離自注意力機(jī)制的特點(diǎn)是它使用元素級(jí)操作(如求和與乘法),這是實(shí)現(xiàn)高效計(jì)算的關(guān)鍵。之所以說(shuō)這種方法是可分離的,是因?yàn)樗试S通過(guò)用兩個(gè)單獨(dú)的線(xiàn)性計(jì)算取代二次MHSA 來(lái)編碼全局信息。本文將可分離MHSA 替換標(biāo)準(zhǔn)Transformer 中的MHSA 得到輕量級(jí)的改進(jìn)Transformer,與基于標(biāo)準(zhǔn)Transformer 的立體匹配算法STTR 相比延時(shí)更少。

1.3 特征匹配

傳統(tǒng)的匹配算法會(huì)對(duì)匹配點(diǎn)施加唯一性約束,即每個(gè)像素點(diǎn)只能有唯一的匹配點(diǎn)與之相對(duì)應(yīng),然而這種方法無(wú)法進(jìn)行梯度傳播,不適合基于學(xué)習(xí)的立體匹配算法。Dual-Softmax[17]操作算子是一種可微的匹配策略,其對(duì)匹配點(diǎn)進(jìn)行軟約束。本文使用Dual-Softmax 算子進(jìn)行匹配概率矩陣計(jì)算。將1/8尺度的特征圖經(jīng)過(guò)WT 模塊轉(zhuǎn)換后記為

首先,使用式(5)計(jì)算得分矩陣S:

然后,在S的水平和垂直方向都應(yīng)用Softmax 函數(shù)去獲取軟約束互最近鄰(MNN)[24]匹配的概率。獲取的匹配概率矩陣Pc用式(6)表達(dá)為:

最后,再次使用互最近鄰準(zhǔn)則對(duì)置信度低于θc的匹配點(diǎn)進(jìn)行過(guò)濾,剔除可能異常的粗匹配,得到新匹配概率矩陣Mc為:

相比基于3D 卷積的立體匹配算法PSMNet,本文使用的相關(guān)性匹配方法匹配冗余信息更少、計(jì)算消耗更小。

1.4 自適應(yīng)窗口的匹配細(xì)化

經(jīng)上述處理過(guò)程得到粗級(jí)匹配概率矩陣后,在1/4 和1/2 尺度的特征圖上執(zhí)行匹配細(xì)化。為了減少匹配搜索空間和避免非理性矯正帶來(lái)的匹配失效,提出使用沿極線(xiàn)的自適應(yīng)窗口對(duì)特征點(diǎn)進(jìn)行匹配細(xì)化。基于自適應(yīng)窗口的匹配細(xì)化過(guò)程如圖5所示。

圖5 匹配細(xì)化過(guò)程及自適應(yīng)搜索窗口的形成Fig.5 Matching refinement process and formation of adaptive search window

局部窗口在搜索匹配點(diǎn)進(jìn)行相關(guān)性概率計(jì)算時(shí),使用內(nèi)容自適應(yīng)窗口,通過(guò)可變形卷積[25]學(xué)習(xí)附加偏置dx和dy來(lái)尋找新的相關(guān)對(duì),新的匹配概率矩陣可以被計(jì)算為:

其中:i(x,y)和j(x,y)分別為左右特征圖上的點(diǎn);xi和xj表示點(diǎn)i、j的水平方向坐標(biāo);yi和yj表示對(duì)應(yīng)的垂直方向坐 標(biāo);i′和j′為加入位置 偏移量后點(diǎn)i(x,y)和 點(diǎn)j(x,y)的新表達(dá);c表示輸入特征圖的通道數(shù);f(d)和g(d)表示當(dāng)前像素在水平和垂直方向上的固定偏移量,在本文中設(shè)置f(d)∈[-4,4],圖5 顯示了偏移量如何改變固定形狀搜索窗口的形成。本文使用的自適應(yīng)窗口匹配細(xì)化方法,僅計(jì)算局部的相關(guān)性,比STTR 的逐像素全對(duì)匹配方法具有更高的執(zhí)行效率。

1.5 視差回歸

利用最終的細(xì)化匹配矩陣Mf′回歸最終視差。對(duì) 于匹配矩陣上的匹配點(diǎn)對(duì)圍 繞′點(diǎn)構(gòu)建一個(gè)3×3 像素的窗口N3(k),對(duì)窗口中的匹配概率進(jìn)行重歸一化處理得到對(duì)應(yīng)像素視差的權(quán)重,對(duì)窗口中的候選視差加權(quán)就是回歸的視差。假設(shè)處的匹配概率為t,t∈N3(k),用公式表達(dá)為:

1.6 損失函數(shù)

訓(xùn)練過(guò)程的損失函數(shù)由第1 級(jí)的粗級(jí)損失、第2、3 級(jí)的細(xì)化損失和最后計(jì)算的視差損失組成。粗級(jí)損失是計(jì)算置信矩陣Pc上的負(fù)對(duì)數(shù)似然函數(shù),使用互最近鄰準(zhǔn)則來(lái)計(jì)算置信矩陣的真實(shí)標(biāo)簽,通過(guò)在Mgtc網(wǎng)格上最小化負(fù)對(duì)數(shù)似然損失進(jìn)行反向梯度傳播:

給定視差真值,計(jì)算最后一層輸出的視差損失為:

2 實(shí)驗(yàn)

為了驗(yàn)證所提LTAWNet 立體匹配算法的性能,在3 個(gè)流行的公共數(shù)據(jù)基準(zhǔn)上進(jìn)行訓(xùn)練,對(duì)算法的各個(gè)組成模塊進(jìn)行消融研究,以驗(yàn)證各模塊對(duì)算法整體性能的影響,并將LTAWNet 與其他立體匹配模型進(jìn)行性能對(duì)比實(shí)驗(yàn),以驗(yàn)證LTAWNet算法的優(yōu)勢(shì)。

2.1 數(shù)據(jù)集

實(shí)驗(yàn)使用的數(shù)據(jù)集如下:

1)SceneFlow[2]:是一個(gè)大型合成數(shù)據(jù)集,包含超過(guò)3.9×104個(gè)960×540 像素分辨率的立體圖像訓(xùn)練對(duì)。該數(shù)據(jù)集提供了詳細(xì)和稠密的視差圖真值,使用像素平均視差誤差(EPE)作為評(píng)價(jià)指標(biāo),在實(shí)驗(yàn)中選取80%的數(shù)據(jù)作為訓(xùn)練集,剩下的部分作為測(cè)試集。

2)KITTI2015[26]和KITTI2012[27]:由 動(dòng)態(tài)街景 的廣角立體圖像對(duì)和LiDAR 采樣的稀疏視差真值組成。KITTI2015 的訓(xùn)練集和測(cè)試集分別包含200 個(gè)立體圖像對(duì),以視差預(yù)測(cè)異常值D1 的百分比(D1-all)作為衡量指標(biāo);KITTI2012 的訓(xùn)練集和測(cè)試集分別提供了194 和195 對(duì)立體圖像對(duì),將錯(cuò)誤像素百分比作為評(píng)價(jià)指標(biāo)。

2.2 訓(xùn)練

本文利用PyTorch[28]框架完成網(wǎng)絡(luò)模型構(gòu)建,該模型在8 個(gè)NVIDIA GTX2080Ti GPU 上加速訓(xùn)練,批處理大小為16,整個(gè)訓(xùn)練過(guò)程執(zhí)行300 000 次迭代,并使用標(biāo)準(zhǔn)學(xué)習(xí)率為0.000 4 的Adam[29]優(yōu)化器。在網(wǎng)絡(luò)訓(xùn)練熱身階段,先執(zhí)行6 000 個(gè)訓(xùn)練周期,使學(xué)習(xí)率從5%線(xiàn)性增加到標(biāo)準(zhǔn)值100%,保持0.000 8 的學(xué)習(xí)率訓(xùn)練180 000 個(gè)周期之后,學(xué)習(xí)率逐漸降低到標(biāo)準(zhǔn)值的5%。模型的輸入尺寸為384×512 像素,對(duì)訓(xùn)練的數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)來(lái)提高模型的魯棒性和泛化能力,包括使用裁剪操作、非對(duì)稱(chēng)色度增強(qiáng)(亮度、對(duì)比度和伽馬變化)和使用隨機(jī)大小的掩碼遮擋。

2.3 消融實(shí)驗(yàn)

在不同的實(shí)驗(yàn)變量設(shè)置下,對(duì)本文算法性能進(jìn)行消融研究,并對(duì)坐標(biāo)注意力機(jī)制(CA)、輕量級(jí)Transformer 模塊(WT)、自適應(yīng)細(xì)化匹配窗口(AMW)及級(jí)聯(lián)的層數(shù)N給出定量的評(píng)估結(jié)果,如表1 所示。其中,√表示使用該模塊,all 是指對(duì)所有像素進(jìn)行評(píng)價(jià),Noc是指只對(duì)非遮擋區(qū)域的像素進(jìn)行測(cè)試。

表1 消融實(shí)驗(yàn)結(jié)果Table 1 Results of ablation experiments

對(duì)提出的輕量級(jí)Transformer 模塊進(jìn)行消融研究時(shí),與使用標(biāo)準(zhǔn)Transformer 模塊進(jìn)行對(duì)比,對(duì)比結(jié)果如表1 的第1、2 行顯示,可見(jiàn),使用輕量級(jí)Transformer 在運(yùn)行時(shí)間上有較大的提升,運(yùn)行時(shí)間比使用標(biāo)準(zhǔn)Transformer 快了約3 倍。對(duì)進(jìn)行特征編碼的坐標(biāo)注意力層進(jìn)行消融研究,結(jié)果如表1 的第2、3 行顯示,可見(jiàn),添加CA 后網(wǎng)絡(luò)的整體誤匹配率明顯降低,在SceneFlow 數(shù)據(jù)集上像素平均視差誤差從0.82 下降到0.56,下降了約30%。對(duì)自適應(yīng)細(xì)化匹配窗口進(jìn)行消融研究,與使用固定形狀窗口的匹配細(xì)化做對(duì)比實(shí)驗(yàn),結(jié)果如表1 的第3、4 行顯示,可見(jiàn),使用自適應(yīng)窗口匹配細(xì)化在3 個(gè)數(shù)據(jù)集的誤匹配率指標(biāo)上均有所下降,在KITTI2015 數(shù)據(jù)集上,所有區(qū)域的D1-all 從1.72% 降低到1.61%。此外,對(duì)于級(jí)聯(lián)的層數(shù)N,測(cè)試了使用2~4 層的級(jí)聯(lián)結(jié)構(gòu),結(jié)果如表1 的最后3 行顯示,可見(jiàn),隨著級(jí)聯(lián)層數(shù)的加深,誤匹配率有下降的趨勢(shì),3 層級(jí)聯(lián)和4 層級(jí)聯(lián)結(jié)構(gòu)有著接近的匹配精度,為了更好地權(quán)衡本網(wǎng)絡(luò)模型的匹配精度和運(yùn)行效率,本文采用3 層的級(jí)聯(lián)結(jié)構(gòu)。

2.4 性能對(duì)比實(shí)驗(yàn)

為了進(jìn)一步評(píng)估所提出的算法,把實(shí)驗(yàn)中訓(xùn)練的最佳算法在KITTI2015、KITTI2012 和SceneFlow數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),包括基于3D 卷積的立體匹配算法:PSMNet[10]和GCNet[9],基于相關(guān)性的立體匹配算法:AA-Net[4],基于相關(guān)性與3D 卷積 的混合方法:Gwc-Net[12],基于Transformer 架構(gòu)的匹配算法:STTR[18]和SSD-former[19]。在KITTI2015 數(shù)據(jù)集中,使用所有區(qū)域(All)和非遮擋區(qū)域(Noc)的視差預(yù)測(cè)異常值D1 百分比為評(píng)價(jià)指標(biāo),其中3 像素誤差在兩個(gè)區(qū)域中包含所有像素(D1-all)、背景像素(D1-bg)和前景像素(D1-fg),并測(cè)評(píng)不同算法的推理時(shí)間。在KITTI2012 數(shù)據(jù)集上,評(píng)估所有區(qū)域和非遮擋區(qū)域的錯(cuò)誤像素百分比(>2px,>3px,>4px,>5px)。在SceneFlow 數(shù)據(jù)集上,測(cè)試本文算法和對(duì)比算法的綜合性能,測(cè)試的性能包括參數(shù)量、顯存消耗、浮點(diǎn)數(shù)計(jì)算量、運(yùn)行時(shí)間和誤匹配率。所有的測(cè)評(píng)數(shù)據(jù)均在單個(gè)NVIDIA GTX2080Ti GPU 上測(cè)試所得。

2.4.1 KITTI2015 對(duì)比實(shí)驗(yàn)

在KITTI2015 數(shù)據(jù)集上的測(cè)評(píng)結(jié)果如表2 所示,其中加粗?jǐn)?shù)據(jù)表示最優(yōu)值。在參考的評(píng)價(jià)指標(biāo)中,所提的立體匹配算法除了在D1-fg 指標(biāo)上性能略顯遜色,其他指標(biāo)都取得了領(lǐng)先的結(jié)果。在考慮所有像素情況下的視差預(yù)測(cè)異常值D1-all為1.71%,與使用3D 卷積的PSMNet[10]相比,視差精度提高了26%,運(yùn)行時(shí)間快了5 倍。與基于相關(guān)性的立體匹配算法AANet[4]相比,誤匹配率明顯降低,速度上也比較接近,單對(duì)圖像的推斷時(shí)間為0.08 s,這主要得益于這兩種方法都避開(kāi)了內(nèi)存消耗較大的3D 卷積。此外,與基于標(biāo)準(zhǔn)Transformer 的STTR[18]算法相比,本 文算法在速度和精度上都有了較大的提升,這主要因?yàn)楸疚奶岢龅氖腔诟倪M(jìn)的輕量化Transformer 架構(gòu),并且本文算法是一種局部的立體匹配算法,只在局部窗口上執(zhí)行Transformer 運(yùn)算,但是有一點(diǎn)不容忽視,本文算法沒(méi)有考慮對(duì)遮擋的視差估計(jì)處理,所以在D1-fg指標(biāo)上性能略次。

表2 在KITTI2015 數(shù)據(jù)集上的性能對(duì)比結(jié)果 Table 2 Performance comparison results on KITTI2015 dataset

為了定性評(píng)價(jià)本文算法的效果,從對(duì)比的實(shí)驗(yàn)?zāi)P椭羞x取基于3D 卷積的立體匹配算法PSMNet[10]和基于Transformer 的立體 匹配算 法STTR[18]進(jìn)行可 視化分 析,可視化 結(jié)果由KITTI2015 基準(zhǔn)測(cè)評(píng)官網(wǎng)得到。圖6(a)為輸入圖像,圖6(b)~圖6(d)分別為PSMNet、STTR 和本文算法的視差圖和對(duì)應(yīng)的誤差圖,通過(guò)對(duì)比視差圖上矩形框中的物體可以看出,本文算法可以在物體邊界上獲得更加平滑和細(xì)致的預(yù)測(cè),對(duì)物體邊界的視差恢復(fù)較為完整。

圖6 在KITTI2015 數(shù)據(jù)集上的定性對(duì)比結(jié)果Fig.6 Qualitative comparison results on KITTI2015 dataset

2.4.2 KITTI2012 對(duì)比實(shí)驗(yàn)

在KITTI2012 數(shù)據(jù)集上的定量和定性實(shí)驗(yàn)結(jié)果分別如表3 和圖7 所示,可見(jiàn),與對(duì)比算法相比,本文算法在5 像素誤差上達(dá)到了最先進(jìn)的水平,并且運(yùn)行時(shí)間僅次于基于相關(guān)性方法的AA-Net,單對(duì)圖像的推理時(shí)間為0.09 s。本文的立體匹配算法與基于Transformer 算法的SSD-former 相比,整體匹配精度較為接近但運(yùn)行速度要快3 倍多;與STTR 算法相比,非遮擋區(qū)域的3 像素誤差下降了0.09,運(yùn)行速度提高了近4 倍;與基于3D 卷積的PSMNet 算法相比,整體精度有較大的提升,非遮擋區(qū)域的3 像素誤差下降了0.34,運(yùn)行時(shí)間快了4 倍多。圖7(a)為輸入圖像,圖7(b)~圖7(d)分別為PSMNet、STTR 和所提方法的視差圖和對(duì)應(yīng)的誤差圖,觀察白色矩形框中的車(chē)輛可以看出,本文算法可以較清晰地恢復(fù)車(chē)輛邊界的視差,視差估計(jì)的質(zhì)量更細(xì)致。

表3 在KITTI2012 測(cè)試數(shù)據(jù)集上的性能對(duì)比結(jié)果 Table 3 Performance comparison results on KITTI2012 test dataset

圖7 在KITTI2012 數(shù)據(jù)集上的定性對(duì)比結(jié)果Fig.7 Qualitative comparison results on KITTI2012 dataset

2.4.3 SceneFlow 對(duì)比實(shí)驗(yàn)

在SceneFlow 數(shù)據(jù)集上,為了保證對(duì)比結(jié)果的有效性,統(tǒng)一使用576×960 像素的輸入圖像,定量和定性的評(píng)估結(jié)果分別如表4 和圖8 所示。

表4 綜合性能對(duì)比 Table 4 Comparison of comprehensive performance

圖8 在SceneFlow 數(shù)據(jù)集上的定性對(duì)比結(jié)果Fig.8 Qualitative comparison results on SceneFlow dataset

由表4 可知:本文立體匹配算法的參數(shù)量為2.28×106,在所對(duì)比的5 種算法中具有最小的參數(shù)量;浮點(diǎn)數(shù)計(jì)算量為216.52×109,顯存消耗為1.28×109,運(yùn)行時(shí)間為0.09 s,這3 項(xiàng)指標(biāo)均僅次于基于相關(guān)性模型的AANet,但優(yōu)于其他的對(duì)比算法;在匹配精度方面,EPE 指標(biāo)和3 像素誤差低于6 種對(duì)比的算法,擁有最高的匹配精度;與基于3D 卷積模型的PSMNet相比,本文算法在參數(shù)量上減少了56.32%,浮點(diǎn)數(shù)的計(jì)算量降低96.72%,顯存消耗也降低了近一半多;與基于Transformer 的匹配模型STTR 相比,運(yùn)行時(shí)間快5 倍多,浮點(diǎn)數(shù)的計(jì)算量減少了1 倍多,匹配精度在3 像素誤差上降低了0.16,在EPE 上降低了30%左右。綜上,在所對(duì)比的模型中,本文模型能較好地平衡匹配精度和運(yùn)行效率。

圖8(a)為原始左視圖示例,圖8(b)~圖8(d)分別為PSMNet、STTR 和本文算法的測(cè)得的視差圖,觀察第1 列視差圖中的輪轂可以看出,本文算法可以細(xì)致地恢復(fù)輪轂的結(jié)構(gòu)特征;觀察圖8(b)的Monkaa 視差估計(jì)結(jié)果可以看出,本文算法對(duì)物體的視差估計(jì)較為完整,不存在視差估計(jì)不連續(xù)問(wèn)題;由圖8(c)可見(jiàn),對(duì)車(chē)體的視差估計(jì)中,本文算法能夠高保真的還原其輪廓信息,在邊緣出的視差估計(jì)更平滑。

3 結(jié)束語(yǔ)

針對(duì)現(xiàn)有立體匹配算法存在的顯存消耗大、運(yùn)行時(shí)間長(zhǎng)、視差范圍有限等問(wèn)題,本文提出一種基于輕量化Transformer 的自適應(yīng)窗口立體匹配算法。該算法在低分辨率特征圖上進(jìn)行位置編碼和特征粗匹配,在高分辨率特征圖上進(jìn)行匹配細(xì)化。算法中輕量級(jí)Transformer 特征描述模塊和自適應(yīng)窗口匹配細(xì)化模塊,在增強(qiáng)特征表達(dá)和提高匹配精度的同時(shí),可有效減少計(jì)算消耗,并且能生成無(wú)視差范圍的視差圖。實(shí)驗(yàn)結(jié)果表明,相比基于3D 卷積和基于Transformer 的匹配算法,所提立體匹配算法無(wú)論是在匹配精度還是在運(yùn)行時(shí)間上,都有較大的性能提升,能夠較好地平衡匹配精度和運(yùn)行效率。后續(xù)將把遮擋視差處理融入到算法中,對(duì)算法做進(jìn)一步改進(jìn)。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機(jī)變量的分布列與數(shù)字特征
具有兩個(gè)P’維非線(xiàn)性不可約特征標(biāo)的非可解群
月震特征及與地震的對(duì)比
如何表達(dá)“特征”
被k(2≤k≤16)整除的正整數(shù)的特征
不忠誠(chéng)的四個(gè)特征
詈語(yǔ)的文化蘊(yùn)含與現(xiàn)代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 99久久亚洲精品影院| 扒开粉嫩的小缝隙喷白浆视频| 国产精选自拍| 又粗又大又爽又紧免费视频| 精品一区二区三区四区五区| 久久国产精品77777| 超清人妻系列无码专区| 波多野结衣AV无码久久一区| 呦视频在线一区二区三区| 亚洲黄色成人| 亚洲va在线∨a天堂va欧美va| 国产在线视频福利资源站| 亚洲爱婷婷色69堂| 91口爆吞精国产对白第三集| 97国产在线播放| 99一级毛片| 不卡视频国产| 91福利片| 免费观看男人免费桶女人视频| 国产鲁鲁视频在线观看| 成人在线亚洲| 伊人激情久久综合中文字幕| 日韩在线播放中文字幕| 国产91麻豆免费观看| 四虎影院国产| 午夜国产大片免费观看| 韩国自拍偷自拍亚洲精品| 香蕉在线视频网站| 国产人在线成免费视频| 久久天天躁狠狠躁夜夜2020一| 特级毛片8级毛片免费观看| 88国产经典欧美一区二区三区| 91蝌蚪视频在线观看| 凹凸精品免费精品视频| 国产成人在线小视频| 国内嫩模私拍精品视频| 大学生久久香蕉国产线观看| 91亚洲精品国产自在现线| 午夜福利网址| 男女精品视频| 亚洲第一色视频| 久久频这里精品99香蕉久网址| 国产精品福利在线观看无码卡| 久久久波多野结衣av一区二区| 91福利片| 国产麻豆aⅴ精品无码| 青青操国产视频| 国产区在线看| 亚洲欧美自拍视频| 亚洲无码视频一区二区三区| 欧美人在线一区二区三区| 曰AV在线无码| 中文字幕在线一区二区在线| 欧美v在线| 亚洲综合欧美在线一区在线播放| 亚洲综合精品香蕉久久网| 91精品国产综合久久不国产大片| 国产亚洲精久久久久久无码AV| 91麻豆久久久| 午夜激情婷婷| v天堂中文在线| 欧美精品亚洲二区| 超级碰免费视频91| 亚洲国产成人自拍| www亚洲天堂| 日本a级免费| 亚洲国产高清精品线久久| 国产精品大尺度尺度视频| 成人午夜免费观看| 97超碰精品成人国产| 青青久久91| 国产成人高清精品免费软件| 欧美精品不卡| 一级看片免费视频| 国产美女丝袜高潮| 国产日韩欧美一区二区三区在线| 国产精品网址你懂的| 中文字幕一区二区视频| 亚洲熟女偷拍| 中文字幕资源站| 爆乳熟妇一区二区三区| 欧美日韩高清在线|