999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CBAM的深度序數(shù)回歸方法

2021-10-05 12:44:22高永彬王慧星
智能計算機與應(yīng)用 2021年5期
關(guān)鍵詞:深度特征信息

高永彬,王慧星,黃 勃

(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海201620)

0 引 言

單目深度估計對三維場景理解任務(wù)具有重要意義,在三維重建、自動駕駛、視覺跟蹤、三維目標(biāo)檢測、增強現(xiàn)實等領(lǐng)域有著廣泛的應(yīng)用。隨著深度學(xué)習(xí)的迅速發(fā)展,利用有監(jiān)督學(xué)習(xí)方法進行單目深度估計的研究大量涌現(xiàn),這些方法通常將深度估計建模作為一個回歸問題,使用深度卷積神經(jīng)網(wǎng)絡(luò)獲取圖像的層次信息和層次特征,并通過最小化均方誤差來訓(xùn)練回歸網(wǎng)絡(luò)。然而,這些方法往往存在缺點:一方面,使用最小化均方誤差來訓(xùn)練回歸網(wǎng)絡(luò),往往會導(dǎo)致網(wǎng)絡(luò)收斂慢和局部解不理想的問題;另一方面,為了獲得高分辨率的深度圖,需要使用跳躍連接或多層反卷積網(wǎng)絡(luò)結(jié)構(gòu),這使網(wǎng)絡(luò)訓(xùn)練更加復(fù)雜,計算量大大增加;最后,利用多尺度網(wǎng)絡(luò)對圖像進行特征提取,往往會丟失像素的特征信息和位置信息,對較小目標(biāo)的深度估計效果較差。為此,F(xiàn)u等人提出了用于單目深度估計的深度序數(shù)回歸網(wǎng)絡(luò)(Deep Ordinal Regression Network),使 用ASPP(Atrous Spatial Pyramid Pooling)獲取不同尺度的特征,并通過全圖像編碼器捕獲全局上下文信息[1]。采用離散策略對深度值進行離散,將深度估計轉(zhuǎn)化為序數(shù)回歸問題,通過一個普通回歸損失函數(shù)訓(xùn)練網(wǎng)絡(luò),提高網(wǎng)絡(luò)訓(xùn)練效率。

本文主要對深度序數(shù)回歸網(wǎng)絡(luò)深度序數(shù)回歸算法進行研究,主要貢獻如下:

(1)提出了一種基于CBAM(convolutional block attention module)的深度序數(shù)回歸方法,通過CBAM代替深度序數(shù)回歸算法中的全圖像編碼器,獲取更完整的像素特征信息和位置信息,提高全局上下文信息的表示能力;

(2)將CBAM中的通道注意力機制和空間注意力機制以不同的順序融入到網(wǎng)絡(luò)中,以發(fā)現(xiàn)注意力機制的順序與網(wǎng)絡(luò)結(jié)構(gòu)的相適應(yīng)性,探索出最佳的網(wǎng)絡(luò)模型;

(3)實驗結(jié)果證明,本文提出的網(wǎng)絡(luò)模型可以有效地提高深度估計的精度,在KITTI數(shù)據(jù)集上進行測試,效果比當(dāng)前最佳方法提高1%左右。

1 單目深度估計研究現(xiàn)狀

近年來,深度學(xué)習(xí)被廣泛應(yīng)用于計算機視覺領(lǐng)域,并在單目深度估計方面取得了顯著的成就。Eigen等首次將深度學(xué)習(xí)應(yīng)用于單目深度估計研究中,提出了一種多尺度神經(jīng)網(wǎng)絡(luò)用于深度估計的思想,首先使用粗尺度網(wǎng)絡(luò)預(yù)測圖像的全局深度,然后使用細尺度網(wǎng)絡(luò)優(yōu)化局部細節(jié),最終獲得像素級別的深度信息[2];在此方法的基礎(chǔ)之上,他們又提出了一種用于多任務(wù)的多尺度網(wǎng)絡(luò)框架,使用了更深層次的網(wǎng)絡(luò)結(jié)構(gòu),利用3個細尺度的網(wǎng)絡(luò)進一步增添細節(jié)信息,使用不同的損失函數(shù)和數(shù)據(jù)集分別對深度預(yù)測、表面法向量估計和語義分割任務(wù)進行訓(xùn)練,最終獲得了良好的效果[3];由于多尺度網(wǎng)絡(luò)只是使用幾個串聯(lián)的淺層網(wǎng)絡(luò)對圖像進行分層細化,因此最終得到的深度圖分辨率是偏低的,為了提高深度圖的分辨率,Li等在多尺度網(wǎng)絡(luò)之間加入跳躍連接,在第一個網(wǎng)絡(luò)中使用跳躍連接,對池化后的特征圖進行上采樣,進而與第二個網(wǎng)絡(luò)中的特征圖進行拼接,同樣地,第二個網(wǎng)絡(luò)中的特征圖與第三個網(wǎng)絡(luò)中的特征圖進行拼接,使網(wǎng)絡(luò)同時將較深層的低空間分辨率深度圖與較低層的高空間分辨率深度圖融合,提高了深度圖的分辨率[4];Laina等提出了一種殘差學(xué)習(xí)的全卷積網(wǎng)絡(luò),用于單幅圖像的深度估計,網(wǎng)絡(luò)結(jié)構(gòu)更深,提高輸出分辨率的同時又優(yōu)化了效率[5];Liu等提出了將條件隨機場(conditional random field,CRF)與CNN相結(jié)合來估計單幅圖像深度的方法,使用CRF的一階項和二階項綜合訓(xùn)練2個CNN,然后將這兩個網(wǎng)絡(luò)通過CRF能量函數(shù)統(tǒng)一于一個訓(xùn)練框架中,這種方式可以提供更多的約束[6];同樣使用CRF方法,Xu等提出了一種結(jié)構(gòu)化注意力模型,它可以自動調(diào)節(jié)不同尺度下對應(yīng)特征之間傳遞的信息量,并且可以無縫集成到CRF中,允許對整個架構(gòu)進行端到端訓(xùn)練[7];Cao等把深度估計問題看作像素分類問題,首先將深度值進行離散,然后使用殘差網(wǎng)絡(luò)來預(yù)測每個像素對應(yīng)的類別,最終使用CRF模型進行優(yōu)化[8];Chang等提出了使用金字塔池化模塊來捕捉更多的全局信息,使單幅圖像的深度估計精度得到提高[9]。

以上方法雖然都利用了有監(jiān)督學(xué)習(xí)的方法對單幅圖像進行深度估計,但使用多尺度網(wǎng)絡(luò)結(jié)構(gòu)往往會丟失像素的特征信息和位置信息,對深度估計精度造成影響。通過最小化均方誤差訓(xùn)練網(wǎng)絡(luò),存在收斂慢和局部解不理想的缺點。加入跳躍連接等結(jié)構(gòu),使網(wǎng)絡(luò)訓(xùn)練復(fù)雜,計算量增加。

目前還有一些使用無監(jiān)督學(xué)習(xí)進行深度估計的方法,Chen等提出了一種場景網(wǎng)絡(luò)來對物體的幾何結(jié)構(gòu)進行建模,通過增強立體圖像對之間的語義一致性來執(zhí)行區(qū)域感知深度估計[10];Lee等提出了一種利用相對深度圖進行單目深度估計的方法,使用CNN在不同的尺度上估計區(qū)域?qū)χg的相對深度和普通深度,進而將普通深度圖和相對深度圖分解,并對分解之后的深度圖進行優(yōu)化重組,以重建最終的深度圖[11]。雖然無監(jiān)督學(xué)習(xí)方法在一定程度上克服了數(shù)據(jù)標(biāo)注工作量大的問題,但是始終達不到有監(jiān)督學(xué)習(xí)的方法的精度。

針對以上問題,本文對有監(jiān)督學(xué)習(xí)的單目深度估計模型深度序數(shù)回歸算法進行了研究,發(fā)現(xiàn)深度序數(shù)回歸算法中使用的全圖像編碼器存在易丟失較大特征值像素特征信息和位置信息的缺點。本文引入CBAM,提出了一種CBAM的深度序數(shù)回歸方法。使用全局最大池化和全局平均池化替代局部平均池化,解決較大特征值像素特征信息易丟失的問題。使用空間注意力機制生成的注意力特征圖與原始特征圖相乘替代簡單的復(fù)制操作,解決像素位置信息易丟失的問題。

2 網(wǎng)絡(luò)框架

本文方法的整體網(wǎng)絡(luò)框架如圖1所示。主要由3部分組成,特征提取網(wǎng)絡(luò)、場景理解模塊和序數(shù)回歸模塊。

圖1 整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Overall network structure

首先將單幅圖像輸入到特征提取網(wǎng)絡(luò)中進行初步的特征提取,特征提取網(wǎng)絡(luò)采用ResNet-101,通過在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的模型對其進行初始化。由于前幾層的特征只包含一般的低級信息,在初始化后固定ResNet-101前2個卷積層的參數(shù),且在訓(xùn)練過程中為BN(Batch Normalization)層直接進行初始化;然后將得到的特征送入場景理解模塊,場景理解模塊包括全圖像編碼器、空洞空間卷積池化金字塔模塊ASPP和跨通道信息學(xué)習(xí)器。全圖像編碼器主要作用是捕獲全局特征的上下文信息,在這里使用CBAM取代全圖像編碼器結(jié)構(gòu),依次使用通道注意力機制和空間注意力機制捕獲像素更好的特征信息和位置信息;ASPP模塊主要使用采樣率分別為6、12和18的空洞卷積對輸入的特征圖進行并行采樣,進而得到多尺度融合特征,來表征不同大小區(qū)域的圖像特征;跨通道信息學(xué)習(xí)器主要使用1×1的卷積對各個通道之間的相互作用進行學(xué)習(xí)。進一步地將全圖像編碼器、ASPP模塊和跨通道信息學(xué)習(xí)器輸出的特征圖分別經(jīng)過一個1×1的卷積,進而將3個模塊的所有輸出進行合并,再經(jīng)過一個1×1的卷積,輸入到序數(shù)回歸模塊。最后根據(jù)深度值的序數(shù)相關(guān)性,使用間隔遞增離散化策略(spacing-increasing discretization,SID)在對數(shù)空間中對深度值進行離散,以降低深度值較大區(qū)域的訓(xùn)練損失。使用普通的序數(shù)回歸損失來學(xué)習(xí)網(wǎng)絡(luò)參數(shù),獲得更高的精度。

2.1 全圖像編碼器

深度序數(shù)回歸算法中的全圖像編碼器結(jié)構(gòu)如圖2所示。為了從尺寸為C×h×w的F中獲得相同尺寸的全局特征F'',首先要通過局部平均池化對原始特征進行降維,將降維之后的特征通過全連接層得到一個C維的特征向量;將特征向量視為空間維數(shù)為1×1特征圖的C通道,并添加一個核尺寸為1×1的卷積層作為特征向量跨通道參數(shù)池化結(jié)構(gòu);最后,將特征向量復(fù)制到F'',使F''的每個位置對整個圖像有相同的理解。通過研究發(fā)現(xiàn)全圖像編碼器存在以下缺點:

圖2 全圖像編碼器Fig.2 Full image encoder

(1)只使用平均池化存在2個弊端:一方面,由于圖像中感興趣的對象往往會產(chǎn)生較大的像素值,因此只使用平均池化會丟失較大特征值像素的特征信息;另一方面,局部的平均池化只是使用小尺寸的卷積核在圖像中進行局部卷積,難以很好地整合圖像的全局信息;

(2)針對圖像每個位置的信息,只將特征圖簡單地復(fù)制到整個圖像,會丟失重要像素的位置信息。基于以上全圖像編碼器的缺點,本文使用CBAM替代全圖像編碼器,通過全局最大池化和全局平均池化更好地捕獲較大特征值像素的特征信息。通過空間注意力機制生成的注意力圖與原始特征圖相乘替代簡單的復(fù)制操作,保留完整的位置信息。

2.2 CBAM(Convolutional Block Attention Module)

如圖1中的綠色部分所示,CBAM依次通過通道注意力機制和空間注意力機制,下面分別對通道注意力機制和空間注意力機制進行詳細介紹。

通道注意力機制如圖3所示。首先在空間維度上使用全局最大池化和全局平均池化操作對輸入特征F∈RC×H×W進行壓縮,生成2個不同的特征描述符;將2個描述符分別送入一個由多層感知機(multi-layer perceptron,MLP)構(gòu)成的共享網(wǎng)絡(luò)進行計算,進一步將共享網(wǎng)絡(luò)輸出的最大池化特征向量和平均池化特征向量以元素求和的方式進行合并;最終使用sigmoid函數(shù)將合并之后的特征向量映射到[0,1],進而得到通道注意力圖。通道注意力圖Mc∈RC×1×1的計算過程如式(1):

其中,σ代表sigmoid函數(shù)。

空間注意力機制如圖4所示。首先在通道維度上對經(jīng)過通道注意圖提煉之后的特征F'∈RC×H×W使用全局最大池化和全局平均池化操作,得到2個不同的特征描述符;使用卷積層對它們進行連接合并;最終使用sigmoid函數(shù)將合并之后的特征向量映射到[0,1],進而得到空間注意力圖。空間注意力圖Ms∈RH×W的計算過程如式(2):

圖4 空間注意力機制Fig.4 Spatial attention module

其中,f7×7代表卷積核尺寸為7×7的卷積運算。

得到通道注意力圖和空間注意力圖后,將通道注意力圖與輸入特征相乘得到F',然后計算F'的空間注意力圖,并將二者相乘得到最終的特征F''。 該過程可表示為式(3)和式(4):

其中,?代表逐元素相乘。

將原始特征依次經(jīng)過通道注意力圖和空間注意力圖的調(diào)整,使最終特征圖中的較大特征值像素特征信息和位置信息更加完整。

2.3 損失函數(shù)和離散策略

總的序數(shù)損失被表示為每個像素的序數(shù)損失的平均值。每個像素的序數(shù)損失函數(shù)為式(5)和式(6):

其中,l(w,h)∈{0,1,…,K-1}代表在空間位置(w,h)通過使用SID離散策略得到的離散標(biāo)簽;代表預(yù)測的離散深度值;通過softmax函數(shù)計算。

總的序數(shù)損失函數(shù)為式(7):

其中,N=W×H。

由于隨著深度值的增大,用于深度估計的信息會逐漸減少,進而導(dǎo)致較大深度值的估計誤差通常較大。因此使用SID策略進行離散化,該策略在對數(shù)空間中統(tǒng)一離散給定深度區(qū)間,以降低大深度值區(qū)域的訓(xùn)練損失,合理估計大深度值。假設(shè)深度區(qū)間[α,β]需要離散為M個子段,SID策略可表示為式(8):

其中,si∈{s0,s1,…,sM}代表離散閾值。

最終預(yù)測的深度值為式(9):

其中,ε為偏移值,α+ε=1。

3 實驗過程及結(jié)果

3.1 實驗設(shè)置

KITTI數(shù)據(jù)集主要包含室外場景,數(shù)據(jù)由裝載在行駛汽車上的相機和深度傳感器捕獲,圖像大小為375×1241像素[12]。本文算法在KITTI數(shù)據(jù)集上進行訓(xùn)練和測試,數(shù)據(jù)切分方式從29個場景中切分出697幅圖像進行測試,其余的32個場景中的23 488幅圖像用于訓(xùn)練和交叉驗證,其中22 600幅用于訓(xùn)練,剩余的圖像用于驗證。實驗中,網(wǎng)絡(luò)結(jié)構(gòu)使用Pytorch框架實現(xiàn),訓(xùn)練時將輸入圖像大小調(diào)整為385×513。網(wǎng)絡(luò)使用SGD優(yōu)化器進行優(yōu)化,動量縮減參數(shù)設(shè)置為0.9,權(quán)重縮減參數(shù)設(shè)置為0.0005,初始學(xué)習(xí)率設(shè)置為0.000 1,mini-batch尺寸設(shè)置為4。

將訓(xùn)練模型的實驗結(jié)果與其它相關(guān)方法進行對比,采用常用的評價指標(biāo)來評估結(jié)果,其中di表示真實深度;表示預(yù)測深度;N表示圖像的像素總數(shù)。指標(biāo)表達式為:

·絕 對 相 對 誤 差(absolute relative error,AbsRel),式(10):

·平方相對誤差(squared relative error,SqRel),式(11):

·均 方 根 誤 差(root mean squared error,RMSE),式(12):

·準(zhǔn)確率:滿足如下條件的像素占總像素的百分比,式(13):

其中,thr=1.25,1.252,1.253。

3.2 實驗結(jié)果與分析

本文方法與幾個先進的單目深度估計方法的對比結(jié)果見表1,這些方法中包括了有基于監(jiān)督學(xué)習(xí)的 方 法(Eigen et al.[2]、Liu et al.[13]和Gan et al.[14])、半監(jiān)督學(xué)習(xí)的方法(Kuznietsov et al.[15])和無監(jiān)督學(xué)習(xí)的方法(Garg et al.[16]和Yin et al.[17])。從實驗結(jié)果可以看出,本文算法的深度估計效果明顯優(yōu)于無監(jiān)督學(xué)習(xí)方法的效果,同時也達到甚至超過了有監(jiān)督學(xué)習(xí)方法的效果,這主要得益于在訓(xùn)練過程中,通過使用通道注意力機制和空間注意力機制提高了全局信息的表示能力。為了證明算法改進部分的有效性,在表1中還提供了在KITTI數(shù)據(jù)集上的消融實驗結(jié)果,各項指標(biāo)的結(jié)果證明了改進部分的有效性。

表1 KITTI數(shù)據(jù)集上的實驗結(jié)果對比Tab.1 Comparison of experimental results on the KITTI dataset

3.3 消融實驗

消融實驗的結(jié)果見表2。主要對網(wǎng)絡(luò)中CBAM中通道注意力和空間注意力機制的使用順序進行了分析。在只使用通道注意力機制、先空間注意力機制后通道注意力機制和先通道注意力機制后空間注意力機制3個方面進行實驗。通過分析表2可知,先通道注意力機制后空間注意力機制的精度比只使用通道注意力機制和先使用空間注意力機制后使用通道注意力機制的效果都高,說明先通道注意力機制后空間注意力機制的順序結(jié)構(gòu)可以捕獲像素更完整的特征信息和位置信息。

表2 消融實驗結(jié)果Tab.2 Results of ablation experiment

KITTI數(shù)據(jù)集上的深度估計的效果圖如圖5所示。與其它方法相比,該模型在細節(jié)處理方面具有更強大的能力,主要表現(xiàn)在小物體、行人以及樹木等區(qū)域保留了更為豐富的紋理信息,細節(jié)處理更加平滑,且前景和背景分離效果更好。

圖5 各模型深度預(yù)測結(jié)果Fig.5 Depth prediction results of each model

為了評估本文方法的泛化能力,本文還在Cityscapes數(shù)據(jù)集做了測試實驗,效果如圖6所示。該方法只使用KITTI數(shù)據(jù)集進行訓(xùn)練和評估,而沒有使用Cityscapes數(shù)據(jù)集。雖然兩個數(shù)據(jù)集的場景類型存在一定差異,但是該方法仍然可以輸出效果很好的深度圖像。

圖6 在Cityscapes數(shù)據(jù)集上的測試效果圖Fig.6 Test effect diagram on Cityscapes dataset

4 結(jié)束語

針對有監(jiān)督學(xué)習(xí)的單目深度估計模型深度序數(shù)回歸算法中全圖像編碼器易丟失較大像素特征信息和位置信息的問題,本文提出一種基于CBAM的深度序數(shù)回歸方法。通過一系列的對比試驗和消融實驗,展示出了該方法的優(yōu)異性和合理性。對比基礎(chǔ)網(wǎng)絡(luò),該方法的網(wǎng)絡(luò)模型捕獲了更多目標(biāo)的特征信息和位置信息,更加完整地保留了圖像中較小目標(biāo)或其他細節(jié)的特征。通過利用KITTI數(shù)據(jù)集和Cityscapes數(shù)據(jù)集對該方法進行驗證,表明其高于現(xiàn)有的大部分深度估計方法。

猜你喜歡
深度特征信息
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 免费a级毛片18以上观看精品| 九九线精品视频在线观看| 四虎精品黑人视频| 亚洲精品福利视频| 三级视频中文字幕| 久久久久亚洲AV成人网站软件| 日韩欧美综合在线制服| 欧美伦理一区| 久久中文无码精品| 亚洲一区第一页| 久久国产精品影院| 日本亚洲成高清一区二区三区| 日本午夜在线视频| 2020国产在线视精品在| 久久国产热| 久久久久亚洲av成人网人人软件| 色偷偷综合网| a毛片在线| 国产精选自拍| 精品伊人久久久香线蕉 | 97在线观看视频免费| 国产欧美综合在线观看第七页| 香蕉网久久| 成人国产一区二区三区| 日本91视频| 亚欧美国产综合| a国产精品| 中美日韩在线网免费毛片视频| 999精品色在线观看| 欧美激情二区三区| 国产午夜看片| 91在线视频福利| 91精品国产自产在线老师啪l| 青青青视频免费一区二区| 67194亚洲无码| 国产精品熟女亚洲AV麻豆| 欧洲在线免费视频| 最新日韩AV网址在线观看| 97超级碰碰碰碰精品| 爆操波多野结衣| 国产极品嫩模在线观看91| 欧洲成人免费视频| 国产一二三区视频| 狠狠亚洲五月天| 污网站免费在线观看| 亚洲国产看片基地久久1024 | 少妇露出福利视频| 精品一区二区三区视频免费观看| 再看日本中文字幕在线观看| 91成人免费观看在线观看| 99成人在线观看| 国模粉嫩小泬视频在线观看| 国产亚洲视频中文字幕视频 | 有专无码视频| 亚洲爱婷婷色69堂| 另类综合视频| 亚洲精品无码AⅤ片青青在线观看| 亚洲动漫h| 久久男人资源站| 欧美一区日韩一区中文字幕页| 国产成熟女人性满足视频| 亚洲第一成年免费网站| 不卡无码h在线观看| www.国产福利| 国产成年女人特黄特色毛片免| 国产伦精品一区二区三区视频优播| 亚洲国产精品日韩av专区| h视频在线播放| 无码一区18禁| 亚洲一区二区视频在线观看| 在线亚洲小视频| 又爽又大又黄a级毛片在线视频 | 特级精品毛片免费观看| 99伊人精品| 色视频国产| 伊人久久久久久久久久| 国产三级视频网站| 免费人成视频在线观看网站| 99精品在线视频观看| 亚洲无码高清免费视频亚洲| 国产精品无码影视久久久久久久| 久久精品娱乐亚洲领先|