999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于條件對抗網絡的單幅霾圖像深度估計模型

2022-09-25 08:43:00張文濤王園宇李賽澤
計算機應用 2022年9期
關鍵詞:深度特征結構

張文濤,王園宇,李賽澤

(太原理工大學信息與計算機學院,山西晉中 030600)

0 引言

近年來,深度估計一直是計算機視覺的熱點研究課題,作為場景感知的一部分,旨在從場景的特定視點產生像素級深度圖。在沒有光流、立體圖像、點云等額外線索的情況下,從二維圖像中提取出的深度信息對于場景的三維結構解析具有重要的意義,可以顯著提高其他計算機視覺任務的決策能力,例如同步定位與建圖(Simultaneous Localization And Mapping,SLAM)[1]、姿態識別[2]、室內定位[3]、三維重建[4]等。單目深度估計是從單張二維圖像估計出圖像中物體與攝像機距離的研究方法;但由于單幅RGB(Red,Green,Blue)圖像不對應于唯一深度圖,因此單目深度估計是不適定問題。使用物理設備和傳統圖像算法,如雷達掃描[5]和立體匹配算法[6]進行深度估計存在采集密度低、速度慢、易受環境干擾等缺點。而得益于神經網絡強大的參數學習能力,數據驅動的基于深度學習的單目深度估計可以使用相對較少的資源和時間,在保證精度的前提下得到場景的深度圖。

文獻[7]最早利用卷積神經網絡(Convolutional Neural Network,CNN)進行深度估計,提出的多尺度網絡由全局粗尺度網絡和局部細尺度網絡組成;但該模型只能生成1/4 分辨率的深度圖。文獻[8]中提出了全卷積殘差神經網絡,該網絡去除全連接層并加入了殘差上采樣模塊,減少了模型參數,提高了預測結果的分辨率。深度圖的像素值具有連續性,而條件隨機場(Conditional Random Field,CRF)可以借助相鄰像素之間的連續性進行深度估計,于是文獻[9]中提出了分級CRF 細化方法,首先對圖像進行超像素分割,然后使用CNN 提取超像素的深度信息,最后使用分級CRF 將超像素細化到像素級;但其預測結果的邊緣粗糙。文獻[10]中將深度值離散化并將深度估計看作有序回歸問題,提出了空間增量離散化,減小對較大深度值的懲罰,有著更快的收斂速度。文獻[11]中使用級聯條件生成對抗網絡(Conditional Generative Adversarial Network,CGAN),將RGB 幀和一級生成網絡輸出的深度圖連接起來作為二級生成網絡的輸入,映射到更精細的深度圖。文獻[12]中提出了深度卷積神經場模型,將CNN 與連續CRF 結合,同時引入了超像素池化,保證了物體邊緣的清晰度,縮減了訓練時間。

上述模型在清晰條件下可以取得良好的預測深度圖,這是因為場景中物體與物體之間的結構關聯可以反映出場景的全局層次結構,而這種全局層次的結構關聯特征又有利于深度估計模型對場景中深度信息的提??;但考慮到大氣光照、天氣、環境的影響,尤其是近年來頻繁出現的惡劣霾天氣,圖像采集設備受到空氣中大量懸浮顆粒的干擾,渾濁的介質會造成大氣光線的散射和吸收,這些都會使圖像產生較為嚴重的降質現象;同時由于圖像中的結構特征被霾遮擋,霾干擾下的圖像往往存在對象丟失、偽像、邊緣信息丟失和紋理區域不準確等結構丟失問題。對于基于神經網絡的深度估計模型,使用嚴重降質的圖像會對模型的性能產生較大的干擾,網絡無法從模糊的霾圖中提取關鍵特征,于是上述模型無法在霾環境中解析出霾圖像的深度信息,也就無法得出效果較好的深度圖;對霾環境下的單幅霾圖深度估計缺乏適用性。

本文發現霾圖像的直接傳輸率圖中包含著場景的深度信息和結構信息,同時條件生成對抗網絡在高維數據分布建模和不同數據域擴展等領域有著良好的效果[13],故可以利用CGAN 從霾圖的直接傳輸率圖中提取深度信息。針對從低質量的霾干擾圖像估計出高質量的深度圖這一任務,本文包含以下工作:1)根據霾圖像的直接傳輸率圖包含的場景深度信息和結構信息,將直接傳輸率圖作為CGAN 的約束條件,通過對抗學習,獲取保持良好場景結構和邊緣輪廓的預測深度圖;2)提出融合雙注意力模塊的DenseUnet,作為生成器的網絡結構,在保留場景結構特征的同時,提取直接傳輸率圖中的深度信息,提高了霾干擾下預測深度圖的精度;3)提出新的結構保持損失函數,將像素級的L1損失、對抗損失、梯度損失、感知損失作為復合損失函數,利用圖像梯度信息和圖像高級語義特征指導生成器生成清晰邊緣輪廓的深度圖,提高了霾環境下深度估計的質量。

1 模型框架

針對霾天氣下圖像的成像原理,文獻[14]中提出了大氣散射模型,如式(1)所示:

其中:J(x)為無霾圖像;t(x)為直接傳輸率圖;A為全局大氣光值;I(x)為有霾圖像。該模型表明,霾條件下成像系統捕獲的圖像由目標物體的反射光和整體場景的全局大氣光構成。直接傳輸率圖t(x)是未被散射的光線穿過霧霾后到達成像設備的比率,如式(2)所示:

其中:d(x)為場景深度;β(β>0)為大氣散射系數。由式(2)可知,直接傳輸率圖包含場景的深度信息,離攝像頭越遠的物體受霧霾影響更大,當深度值趨于無窮時,t(x)趨于零;當β為常數時,直接傳輸率圖與場景深度呈指數關系。

綜上所述,本文將霾條件下的深度估計作為圖像到圖像的轉化任務,提出了基于條件對抗網絡的單幅霾圖像深度估計模型。模型結構如圖1,在生成器和鑒別器中不引入隨機噪聲,僅將直接傳輸率圖作為CGAN 生成器和鑒別器的約束條件,利用生成器完成直接傳輸率圖域到深度圖域的映射,再使用鑒別器判斷預測深度圖和真實深度圖的分布一致性,通過生成器和鑒別器的交替迭代訓練,完成單幅霾圖像的深度估計。

圖1 條件生成對抗網絡結構Fig.1 Structure of CGAN

2 模型設計

2.1 生成器

2.1.1 融合雙注意力模塊的DenseUnet

文獻[15]表明,結構信息對泛化深度估計起著重要的作用,所以從直接傳輸率圖中提取的結構信息可以提高霾環境下深度估計的效果。生成器的作用是將霾圖的直接傳輸率圖映射為預測深度圖,直接傳輸率圖和深度圖共享深度信息和結構信息,二者具有類似的底層結構。深層的神經網絡可以提取出直接傳輸率圖中的高級特征(深度信息),但是隨著網絡層數的增加,梯度消失問題不利于網絡收斂,網絡的深層信息無法回傳,會使預測深度圖的質量降低,邊緣和形狀等底層結構信息也會在反向傳播過程中丟失。為了充分利用直接傳輸率圖中的結構信息來輔助深度信息的獲取,對于生成器的網絡結構,本文提出了融合雙注意力模塊的DenseUnet,如圖2 所示。

為了解決網絡層數加深帶來的梯度消失和淺層特征丟失問題,本文將密集連接網絡(Densely Connected Convolutional Network)[16]和U-net[17]結合為DenseUnet。利用密集連接網絡提取直接傳輸率圖的深度特征,并使用跳躍連接加強底層結構信息的流動。DenseUnet 將密集塊(Dense Block)作為U-net 編碼和解碼過程中的基本模塊,如圖2 所示。通過這樣的方式,可以將反向傳播過程中的梯度信息和原始的輸入信息送入每一層網絡。DenseUnet 不僅增加了網絡的層數,同時也緩解了梯度消失帶來的模型退化問題。在密集塊內,采用密集連接的方式,將每一層的特征與前面所有層的特征在通道維度進行拼接,使得深層的網絡也可以獲取到底層的特征,實現了底層特征復用,加強了深層信息的流動。在密集塊之間,跳躍連接將編碼器的信息傳入解碼器,保留了編碼過程中不同分辨率的像素級信息,實現了編解碼過程中淺層特征和深層特征的融合,解決了淺層特征無法在解碼過程中被有效利用的問題??傊?,DenseUnet 在提取直接傳輸率圖深度信息的同時有效地利用了結構特征,有利于生成精細局部細節和邊緣輪廓清晰的深度圖。

圖2 生成器的網絡結構Fig.2 Network structure of generator

對于DenseUnet 的網絡結構,下采樣過程包括4 個密集塊,密集塊之間由過渡層連接。密集塊之內,使用3×3 卷積對相同尺寸的特征圖進行特征提取,卷積之前采用批歸一化(Batch Normlization,BN)和修正線性單元ReLU(Rectified Linear Unit)函數提高模型的訓練速度,同時使用1×1 卷積的瓶頸層實現降維。密集塊之內,后一層(BN+ReLU+Conv)的輸入為前面所有層的輸出;密集塊之間,過渡層使用2×2 平均池化將特征圖下采樣到原特征圖的1/2 大小,并使用瓶頸層將密集塊的輸出通道維度降到輸入通道維度的1/2。在上采樣過程中,相同尺寸的密集塊與上采樣塊在維度上拼接。本文的上采樣塊與密集塊使用相同的密集連接結構。最后使用最鄰近插值(Nearest Interpolation)逐漸將特征圖上采樣到256×256 大小。

DenseUnet 雖然整合了直接傳輸率圖的不同層次特征,但仍缺乏對不同尺度全局特征的提取。為了充分提取直接傳輸率圖的全局信息,使用金字塔池化(Pyramid Pooling)[18]進行不同比例的池化操作,獲取圖像不同尺度的全局特征。本文分別采用1/4、1/8、1/16、1/32 四種金字塔尺度,對DenseUnet 解碼后的輸出特征圖進行平均池化,然后將不同尺度的特征上采樣到原始大小,再與原始特征圖拼接。經過不同尺度的特征融合,提高了網絡對直接傳輸率圖全局信息的獲取能力,可以更好地指導生成器學習深度特征。

2.1.2 雙注意力模塊

在霾干擾導致的圖像降質情況下,圖像中局部特征的依賴關系對預測結果中的深度值連續性尤為重要。雖然跳躍連接和金字塔池化分別實現了不同層次和不同尺度的特征融合,但3×3 的卷積核大小依然限制了網絡對局部特征依賴關系的獲取能力,導致生成圖像中的局部特征發生偏移[19],預測深度圖會出現偽影和深度值不連續問題。為此,本文使用注意力機制來獲取場景中物體與物體之間的連續深度特征。

本文提出的雙注意力模塊結構如圖3 所示,與文獻[20]類似,本文模型采用空間注意力和通道注意力的并聯結構。空間注意力模塊和通道注意力模塊分別對DenseUnet 中經過金字塔池化后生成的特征圖在空間和通道維度進行建模,學習出像素之間和通道之間的注意力權重。通過匯集局部特征的上下文信息,雙注意力模塊使得網絡可以自適應地調整深度特征的全局依賴關系,在保證深度值連續的前提下,提高霾圖深度估計的準確性。

1)通道注意力模塊(Channel Attention Module)。

在DenseUnet 中,雖然卷積核的堆疊在一定程度上增大了感受野,但具體到特定的卷積層,卷積操作的感受野依然是有限的,這一問題限制了網絡對全局特征依賴的提取。而全局信息的依賴關系對于直接傳輸率圖到深度圖的映射具有重要作用。本文在通道注意力中引入了非局部思想[21],如圖3(a)所示,通過計算通道特征的加權平均來得到通道注意力權重B,建立起通道之間的長距離依賴關系,從而匯聚了更多的通道依賴信息。

首先對原特征圖F∈RC×H×W在空間維度上進行壓縮,得到通道特征A∈RC×N,然后將A與其轉置AT相乘并經過Softmax 函數計算得出通道注意力權重B∈RC×C,計算過程如式(3)所示:

其中:Ai和Aj代表壓縮后的特征圖;Bij為通道注意力權重B的元素,表示通道i與通道j之間的依賴關系,反映了通道之間的相關性。

然后將通道注意力權重與原特征圖相乘,并乘以學習率α,作為殘差與原特征圖相加得到新的特征圖F″ ∈RC×H×W,如式(4)所示:

其中:Fi為特征圖F的元素;α從0 開始學習。通過通道注意力模塊,生成器整合了所有通道之間的依賴關系,使網絡更加關注全局信息,實現了通道特征優化。

2)空間注意力模塊(Spatial Attention Module)。

空間注意力作為通道注意力的補充,需要在全局范圍捕獲空間特征的依賴關系。如圖3(b)所示,為了使生成器自適應學習到關鍵的空間特征。對金字塔池化之后的特征圖F∈RC×H×W在通道維度上分別進行全局平均池化(Global Average Pooling,GAP)和全局最大池化(Global Max Pooling,GMP),GAP 和GMP 可在空間維度獲取上下文信息的同時保留空間結構信息。之后將二者在通道維度拼接為新的特征圖,并經過卷積和Sigmoid 函數壓縮,得到空間注意力權重f∈R1×H×W。最后將原始特征圖與空間注意力權重經過元素級相乘來完成注意力加權,得到最終的特征圖F'∈RC×H×W。由于F'中每個位置的元素都來自其他位置元素的加權,因此獲取了更廣泛的全局上下文信息,實現了空間特征優化。

圖3 雙注意力模塊Fig.3 Dual attention module

2.2 鑒別器

傳統的鑒別器為二分類器,經過卷積和最后的全連接層將整幅圖片映射為0~1 的概率值,通過此概率值來表示預測圖像是否來源于真實分布(1 代表真,0 代表假)。生成器和鑒別器在對抗學習中達到穩定,直至鑒別器無法判斷預測圖片的真實性,網絡停止訓練。對于深度估計來說,傳統鑒別器的缺點是直接對整幅圖片進行判斷,無法對局部細節進行評判,不利于生成高精度、高保真的深度圖。

本文的鑒別器采用PatchGAN[13]結構,如圖4,其中n 為通道數,k 為卷積核大小,s 為步長。相較于傳統鑒別器,PatchGAN 不直接對整幅圖片打分,而是對圖片的不同局部區域進行判斷,從而實現了圖像局部特征的提取,保留了高頻細節,有利于生成高分辨率的深度圖。同時,由于PatchGAN 去除了全連接層,網絡的參數量減少,使得運算速度提高。PatchGAN 采用全卷積網絡,經過五層卷積運算,最后通過Sigmoid 函數得到32×32 的特征圖,其中每一個元素的分值,代表原圖70×70 局部區域的真假概率。

圖4 鑒別器的網絡結構Fig.4 Network structure of discriminator

2.3 結構保持損失函數

不同的損失函數會對網絡的訓練速度和深度估計性能產生顯著影響。在生成對抗網絡中,對抗損失和傳統損失的結合可以使網絡朝著更有利的結果進行[22]。為了指導生成器生成豐富細節信息的深度圖,提高霾環境下深度估計的質量,本文提出了新的結構保持損失函數:將L1損失、感知損失、對抗損失和梯度損失融合為生成器的損失函數,如式(5):

其中:LS為總的結構保持損失為L1損失;LA為對抗損失;LP為感知損失;LG為梯度損失。、λA、λP、λG分別為L1損失、對抗損失、感知損失和梯度損失的權重。

2.3.1 像素損失

對于圖像轉化任務,輸入和輸出之間共享底層信息[13]。本文使用L1損失度量像素空間中預測深度圖和真實深度圖的差異,以此來重建低頻信息,如式(6)所示:

其中:d代表真實深度圖,G(t)代表生成深度圖,E 代表數學期望。

2.3.2 感知損失

使用像素級損失,通過最小化深度值差異來重建深度圖的同時會產生模糊問題,這是因為像素損失的解是像素空間中所有分布的平均值,故使用最小絕對值(L1)損失作為網絡的唯一優化目標會導致圖像在全局結構上出現細節丟失和物體邊緣不清晰的問題。為了解決此問題,引入了感知損失[23]。感知損失將CNN 隱含層作為特征提取器,本文使用預訓練的VGG-19 網絡提取真實深度圖和生成深度圖的高級特征,通過最小化高級特征之間的歐氏距離來約束生成器,進而提升深度圖的視覺質量,如式(7)所示:其中:V代表VGG-19 模型;C代表特征圖的維度;W、H分別代表特征圖的寬和高。

2.3.3 梯度損失

CGAN 在生成豐富高頻細節的同時,也存在物體形狀結構畸變的問題。梯度信息已被證明在深度估計和超分辨率圖像復原中取得了較好的效果[24-25]。直接傳輸率圖的梯度圖如圖5(c)所示,可以看出,圖像的一階微分(梯度)對應著灰度強烈變化的區域,梯度圖很好地反映出了場景中物體的邊緣輪廓結構。

圖5 梯度可視化Fig.5 Gradient visualization

文獻[15]表明,空間結構在解析場景深度方面起著基礎性的作用,而直接傳輸率圖包含著場景的大量結構信息,這對于霾圖像的深度估計具有重要的作用。為了讓模型提取到直接傳輸率圖的結構信息,本文使用直接傳輸率圖的梯度信息為生成器提供監督,通過最小化生成深度圖和真實深度圖在水平、垂直兩個方向的梯度特征差異,使模型從梯度空間中學習深度值變化明顯的邊緣區域,從而改善預測深度圖中物體的結構細節,提高物體邊緣輪廓的清晰度。本文定義的梯度損失如式(8)所示:

其中:?h和?v分別代表水平和垂直方向的梯度運算;p代表像素索引。

2.3.4 對抗損失

對于對抗損失,本文不引入隨機噪聲,僅將直接傳輸率圖作為條件送入生成器和鑒別器。生成器和鑒別器交替迭代,二者極大極小博弈的目標函數如式(9)所示:

其中:G為生成器,D為鑒別器。

3 實驗結果及分析

3.1 數據集及預處理

為了驗證本文模型的泛化能力,分別使用室內和室外兩種環境下的數據集對模型進行訓練和測試。對于室內環境,本文使用紐約大學創建的NYU v2(NYU Depth v2)數據集[4],官方提供了帶有密集標注的1 449 對RGB 圖像和真實深度圖,圖像尺寸為640×480。對于室外環境,使用了DIODE 數據集[26]的18 206 對圖像,分辨率為1 024×768。在預處理過程中,首先將NYU v2 和DIODE 數據集的原始圖像大小調整為286 像素×286 像素,按照官方的劃分策略對數據集進行訓練和測試,并使用隨機裁切的方式擴充數據集,每次讀取圖片的某部分。為了模擬真實的霾環境,本文利用大氣散射模型并結合文獻[27]的暗通道先驗方法對數據集中的清晰圖像反向加霾(假設大氣光值為常數),大氣光值通過隨機采樣獲取。使用文獻[28]的基于圖像飽和度的去霾算法獲取霾圖直接傳輸率圖。

3.2 實驗環境和網絡設置

本文模型基于Pytorch 框架實現,編程語言為Python3.6,使用顯存為20 GB 的NVIDIA 2080Ti 顯卡訓練。在訓練過程中,生成器和鑒別器保持相同的參數設置,均采用自適應動量估計優化算法(Adam),動量參數β1=0.5,β2=0.999。使用隨機裁剪來增強數據,將圖片大小調整為256×256,總共訓練300 個epoch。訓練時,前150 個epoch 保持初始學習率,后150 個epoch 的學習率線性衰減至0;設置初始學習率為2 × 10-4;batchsize 設置為16;生成器和鑒別器交替迭代訓練。對于損失函數的權重,通過實驗獲取最佳參數設定:λL1為100;λP為10;λG為20。模型在NYU 數據集上的訓練時間為24 h,在DIODE 數據集上的訓練時間為28 h。

3.3 評價指標

對于定量評估,本文使用兩個方面(誤差、精確度)的指標來評估預測深度圖和真實深度圖之間的差異:

平均相對誤差(Mean Relative Error,MRE):

均方根誤差(Root Mean Square Error,RMSE):

對數均方根誤差(Root Mean Square logarithmic Error,RMSElog):

對數平均誤差(Logarithmic Mean Error,LME):

精確度:

其中:N為測試圖像的像素數量總和為像素i的預測值;di為像素i的真實值。對于誤差指標,結果越小越好;對于精確度指標(δ<1.25i,i=1,2,3),結果越大越好。

3.4 NYU Depth v2數據集實驗對比

對于本文提出的結構保持損失函數,圖6 顯示了各分量在訓練過程中的收斂情況,L1損失、梯度損失和感知損失在模型訓練開始時就逐漸趨于收斂,L1損失和感知損失在約前50 個訓練批次(epoch)的收斂速度最快,并在300 個epoch 時趨于穩定,表明結構保持損失函數對生成器的訓練起到了監督作用。

圖6 NYU v2 數據集上損失函數的收斂情況Fig.6 Convergence of loss function on NYU v2 dataset

為了證明結構保持損失函數的有效性,在保持相同實驗環境和模型參數設置的情況下,本文對損失函數進行了如下消融實驗:1)對抗損失(LA)和L1損失;2)對抗損失(LA)、L1損失和感知損失(LP);3)對抗損失(LA)、L1損失和梯度損失(LG);4)對抗損失(LA)、L1損失、感知損失(LP)和梯度損失(LG),其中,對抗損失LA和L1損失作為消融實驗的基準,不單獨對二者進行消融實驗。結果如圖7 所示。通過對比發現,圖7(c)中,僅使用像素損失(L1損失)和對抗的損失生成的預測深度圖效果最差,邊緣模糊的問題較嚴重,例如椅子、臺燈和投影儀等邊緣細節不能被有效地識別;圖7(d)中,加入感知損失后,預測深度圖場景的整體內容更加豐富,更貼近于真實深度圖,但出現了嚴重的偽影(天花板和靠椅處);圖7(e)中,桌子、臺燈和沙發的邊緣都較為清晰,這是因為梯度損失可以指導網絡利用直接傳輸率圖的結構信息生成預測深度圖,但依然存在噪聲(相框、墻壁處);圖7(f)中,相比以上消融實驗,使用邊緣保持損失(有雙注意力模塊)生成的預測深度圖更好地展現了圖像的結構信息(椅子靠背、臺燈、投影儀)和場景的細節,局部結構也更精細,在定性消融實驗結果中取得了最好的效果。

圖7 NYU v2數據集上損失函數的對比結果Fig.7 Comparison results of loss functions on NYU v2 dataset

對于雙注意力模塊,在相同實驗條件下進行了消融實驗,實驗結果如圖8 所示。在沒有加入注意力模塊的圖8(c)中,沙發和椅子處的深度值發生了偏移,表明深度值的連續性遭到了破壞,且存在偽影問題;加入注意力模塊的圖8(d)中,物體的輪廓更清晰,場景中物體的深度值更平滑,說明注意力模塊利用了特征之間的長距離依賴,使得每個位置都能充分利用上下文信息,從而確保了預測深度圖中深度值的連續性和準確性。

圖8 NYU v2數據集上有無雙注意力模塊結果對比Fig.8 Comparison of results with and without dual attention modules on NYU v2 dataset

為了進一步驗證本文方法的有效性,將本文方法與文獻[7]方法、文獻[8]方法、文獻[9]方法進行對比實驗,所有實驗在相同的設置下進行。NYU v2 數據集上的實驗結果如圖9 所示,定性分析結果表明,本文的預測深度圖保留了物體的清晰輪廓和場景結構,如例圖A 中的臺燈、例圖B 中柜子和例圖D 中的冰箱,這些區域的局部細節和結構更完整,深度值更準確。在例圖C 中的沙發區域,本文方法也保留了更精細的幾何結構和物體邊界,而其他方法均有不同程度的失真問題。以上分析進一步表明了本文方法可以有效提取直接傳輸率圖中的結構信息和深度信息,生成高質量的預測深度圖。

圖9 NYU v2數據集上的實驗結果對比Fig.9 Comparison of experimental results on NYU v2 dataset

對于NYU Depth v2 數據集的定量分析結果如表1,其中最優數據加粗表示。與文獻[8]方法相比,LME降低了7%,RMSE降低了10%,精確度(δ<1.25)提高了4%。而就MRE而言,文獻[8]方法具有更低的誤差,這是由于其使用了預訓練的殘差網絡(ResNet)和Berhu 損失函數,更關注像素級的精度。但是從定性分析結果中可以看出,本文方法的結果仍具有更精細的場景結構。對此現象的解釋是,預測圖中場景細節的提升不能完全體現在MRE這類像素級誤差上。在損失函數的定量消融實驗中,僅使用L1損失和對抗損失LA的結果最差,各項指標均低于其他組合。這是因為在生成對抗網絡中,L1損失在重建低頻信息時也會產生大量的偽影,同時對抗損失也會使得結構發生畸變,且對場景結構和細節的重建能力較弱。在分別加入感知損失和梯度損失后,各項指標有了不同程度的提升,而使用結構保持損失取得的結果均優于其他對比方法。

表1 NYU v2數據集上的評價指標對比Tab.1 Comparison of evaluation metrics on NYU v2 dataset

3.5 DIODE數據集實驗對比

對于室外數據集,結構保持損失各項分量的收斂情況如圖10 所示。對于L1損失,在前150 個epoch 訓練后基本達到收斂;對于梯度損失LG在訓練過程中,從第25 個epoch 到225 個epoch 過程中出現波動,這是因為相較于室內場景,室外場景具有更復雜的空間結構和更多樣的場景布局,但在150 個epoch 之后,隨著學習率的下降,梯度損失最終趨于穩定;感知損失LP在前50 個epoch 的訓練中收斂速度最快,之后趨于穩定??傊?,L1損失、梯度損失LG和感知損失LP在訓練到300 個epoch 時都趨于收斂,證明了結構保持損失函數對生成器起到了監督作用。

圖10 DIODE數據集上損失函數的收斂情況Fig.10 Convergence of loss function on DIODE dataset

對于損失函數在DIODE 數據集上的消融實驗,采用與NYU Depth v2 數據集相同的實驗參數設置和消融實驗設置,結果如圖11 所示。需要注意的是,由于室外環境較為復雜,為了清晰地看出深度估計的效果,對室外結果進行了偽彩色處理。圖11(c)中,樓房、天空和地面出現了大面積的模糊問題和深度值預測不準確問題,說明僅靠L1損失和對抗損失,本文模型無法生成準確的深度圖。圖11(d)和(e)分別為加入了感知損失和梯度損失后的實驗結果,可以看出遠處大樓、天空和地面的大面積模糊問題得到了改善,場景的細節和物體的輪廓(灌木叢和臺階)也更加清晰,但是在一些物體的細節處(天空和樹木處)依然存在較為嚴重的偽影。最后,圖11(f)為使用結構保持損失函數(有雙注意力模塊)訓練和測試的預測結果??梢钥闯?,無論是樓房的輪廓還是灌木的細節,在使用結構保持損失后,均取得了更好的結果,偽影問題也得到了有效的解決;物體的細節更加清晰;輪廓結構更加完整。表明了結構保持損失中的感知損失可以指導網絡利用與真實深度更貼近的高級語義特征,同時梯度損失也使網絡有效地捕獲場景的局部細節結構。

圖11 DIODE數據集上損失函數的對比結果Fig.11 Comparison results of loss functions on DIODE dataset

雙注意力模塊的消融實驗如圖12 所示。

圖12 DIODE數據集上有無雙注意力模塊結果的對比Fig.12 Comparison of results with and without dual attention modules on DIODE dataset

從圖中可以看出,在未加入雙注意力模塊時,如圖12(c)所示,第一張結果圖中的汽車結構出現了明顯的退化,還有部分深度信息缺失現象(車門處)。第二張圖的樓梯區域出現了明顯的深度值偏移現象,天空中也出現了嚴重的偽影。加入了雙注意力模塊后,如圖12(d)所示,上述區域的結構更加完整,預測精度更高,證明雙注意力模塊可以更好地捕獲全局深度信息。

在相同實驗環境和設置下,本文將文獻[10]方法、文獻[11]方法和文獻[12]方法在DIODE 數據集上進行了對比實驗,如圖13 所示。定性結果表明:本文方法相較于其他方法取得了更好的結果,本文方法可以恢復清晰的對象邊界,如汽車、樹木甚至微小樹枝的結構,這表明跳躍鏈接在提取深度信息的同時能有效地利用底層結構信息;而對比其他方法,如例圖A 中的汽車和例圖C 中的樹冠均存在不同程度的結構退化問題。對于平面區域,如例圖B 中的地面、例圖C中的樓房和例圖D 中的房檐,本文方法在這些區域的預測深度圖更平整,角落和邊緣細節更完整;而文獻[11]方法和文獻[12]方法則存在預測不準確和偽影問題。進一步分析例圖B 中,文獻[10]方法和文獻[11]方法在左側的房屋處均出現了不同程度的深度值偏移現象;文獻[12]方法在天空處出現了偽影。通過對比表明本文方法能夠捕捉到直接傳輸率圖中的結構特征,從而在霾干擾下生成細節較為清晰的預測深度圖。

圖13 DIODE數據集上的實驗結果對比Fig.13 Experimental results comparison on DIODE dataset

對于定量分析,損失函數消融實驗、雙注意力模塊消融實驗、其他文獻方法對比實驗,在DIODE 數據集上的結果如表2 所示。本文方法(有雙注意力模塊)相較于文獻[10]方法,MRE誤差指標降低了1%,精確度(3 個閾值)分別提高了8%、2%和1%。對于損失函數消融實驗,結構保持損失在各項指標上均優于其他對比實驗,L1+LA的結果最差,加入感知損失和梯度損失后,各指標數據有不同程度的改善。最后,在加入雙注意模塊后,誤差指標降低,精確度有所提高。

表2 DIODE數據集上的評價指標對比Tab.2 Evaluation metrics comparison on DIODE dataset

3.6 真實霾圖的實驗對比

通過定性和定量的結果分析對比,在模擬霾環境中,使用合成霾圖進行實驗,本文在室內環境(NYU Depth v2 數據集)和室外環境(DIODE 數據集)中已取得了較好的深度估計效果,表明了本文方法的優越性;但是為了進一步驗證本文方法在真實霾環境中的有效性和泛化能力,使用真實霾環境中的霾圖對本文方法進行了進一步的評估,并將文獻[10]方法、文獻[11]方法、文獻[12]方法與本文方法的實驗結果進行了對比分析,所有實驗保持相同實驗設置。

由于在真實環境中,霾天氣大多出現在室外,所以僅使用室外真實霾環境中的霾圖進行測試和分析。定性分析結果如圖14 所示,可以看出,由于受到霾的干擾,對比方法在例圖A 中的樹枝、例圖B 中遠處的房屋和例圖C 的柵欄處這些局部細節出現了不同程度的深度值丟失問題,無論是文獻[10]方法的增量離散化模型、文獻[11]方法的級聯條件生成對抗網絡還是文獻[12]方法的深度卷積神經場模型均出現了不同程度的退化。此外,例圖A 中,本文方法在灌木處的預測結果具有更完整的局部結構和更精細的邊緣輪廓,這是因為結構保持損失可以指導生成器從梯度空間中學習深度值變化明顯的邊緣區域;例圖B 中,其他對比文獻方法的結果在地面處均出現了深度值不連續現象,這是因為模型受霾干擾,導致網絡無法捕獲局部特征依賴;例圖C 中,其他文獻方法在左下角的地面處出現了深度值偏移問題和大面積的偽影問題。本文方法的預測結果如圖14(e),可以看出,無論是深度值的準確性還是場景的細節結構,本文的預測結果都有明顯的改進,也有效地緩解了深度值不連續問題。需要注意的是,由于真實霾環境中的霾圖沒有對應的真實深度圖,所以無法通過MRE、RMSE、RMSElog和精確度進行定量分析。通過以上分析得出,本文方法能夠在真實霾環境中取得良好的深度估計結果,這是因為DenseUnet 在加深網絡深度的同時可以有效利用霾圖直接傳輸率圖的底層特征,而其他對比方法的模型受到霾干擾時,模型無法從降質的圖像提取有效的特征。本文的雙注意力模塊可以捕獲局部特征的長距離依賴,解決了深度不連續問題;此外,也證明了本文提出的結構保持損失函數可以對生成器提取場景結構信息提供有效的監督。

圖14 真實霾圖的實驗結果對比Fig.14 Comparison of experimental results of real haze images

4 結語

本文針對霾環境下傳統深度估計模型無法準確獲取場景深度的問題,提出了一種基于條件生成對抗網絡的霾圖像深度估計方法,使用霾圖像的直接傳輸率圖作為網絡的約束條件,通過對抗學習進行霾條件下的深度估計。對于生成器,為了應對卷積和池化造成的低級視覺特征丟失問題,本文將DenseNet 和U-net 結合,密集連接和跳躍連接使解碼器可以利用低級結構特征更好地生成預測深度圖;此外,加入了雙注意力模塊,分別在空間和通道維度自適應地捕獲局部特征依賴,提高了預測深度圖的質量;并提出結構保持損失函數,使得預測深度圖具有更清晰的物體邊界和更精細的局部細節。在室內數據集、室外數據集和真實霾圖上的實驗結果表明,本文方法無論在定量分析還是定性評價方面,均取得了較好的效果,證明了本文方法對恢復深度圖清晰邊界和精細局部細節的能力,也表明了本文方法的泛化能力。最后,提升直接傳輸率圖的質量是提高本文模型深度估計質量的關鍵問題之一,在后續工作中,將考慮將直接傳輸率圖的估計納入到生成器中,設計單獨的網絡模型更準確地估計直接傳輸率圖。

猜你喜歡
深度特征結構
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
深度理解一元一次方程
如何表達“特征”
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
論《日出》的結構
主站蜘蛛池模板: 精品中文字幕一区在线| 真实国产精品vr专区| 亚洲色图欧美激情| 3D动漫精品啪啪一区二区下载| 国产主播一区二区三区| 午夜视频www| 91在线一9|永久视频在线| 亚洲婷婷丁香| 在线精品视频成人网| 天堂va亚洲va欧美va国产| 成人午夜亚洲影视在线观看| 九九热在线视频| 国产成人精品男人的天堂| 亚洲午夜片| 亚洲不卡影院| 亚洲欧美在线精品一区二区| 日韩在线视频网站| 色噜噜狠狠色综合网图区| 国产高清免费午夜在线视频| 在线视频亚洲色图| 一级毛片中文字幕| 视频一本大道香蕉久在线播放| 一区二区自拍| 91麻豆国产视频| …亚洲 欧洲 另类 春色| 欧美国产日产一区二区| 国产在线无码一区二区三区| 国产v欧美v日韩v综合精品| 天堂岛国av无码免费无禁网站| 亚洲成a人片在线观看88| 欧美日韩资源| 黄色福利在线| 亚洲精品无码人妻无码| 色成人综合| 人妻一区二区三区无码精品一区| 91福利一区二区三区| a级毛片免费看| 免费人成在线观看成人片| 欧美三级视频在线播放| 女人18毛片一级毛片在线 | 中国一级毛片免费观看| 伊人久久综在合线亚洲2019| 国产性生大片免费观看性欧美| 2021天堂在线亚洲精品专区| 91年精品国产福利线观看久久| 美女被操91视频| 777午夜精品电影免费看| 一本一本大道香蕉久在线播放| 波多野结衣爽到高潮漏水大喷| 国产成人综合网| 国产视频大全| 亚洲av无码人妻| 精品国产香蕉伊思人在线| 国产乱人免费视频| 无码内射在线| 国产精品亚洲五月天高清| 亚洲第一色视频| 成年人国产视频| 亚洲综合激情另类专区| 中文字幕永久视频| 欧美日本在线一区二区三区| 国产成人精品在线1区| 国产极品美女在线观看| 欧美成人综合在线| 在线播放真实国产乱子伦| 亚洲国产日韩视频观看| 国产精品女熟高潮视频| 精品三级网站| 国产视频你懂得| 国产99视频免费精品是看6| 国产黄色片在线看| 国产va在线观看| 国产精品一区二区在线播放| 国模极品一区二区三区| 亚洲一区国色天香| 亚洲av片在线免费观看| 最新国产高清在线| 精品福利视频网| 茄子视频毛片免费观看| 在线观看91香蕉国产免费| 天天操精品| 欧美黄网在线|