李民謠,王 鑫,2,,顏靖柯,覃 琴
(1.桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004;2.電子科技大學(xué) 信息與軟件工程學(xué)院, 成都 610000; 3.桂林電子科技大學(xué) 海洋工程學(xué)院,廣西 北海 536000)
隨著智能科學(xué)技術(shù)的不斷創(chuàng)新以及軟硬件技術(shù)的快速發(fā)展,人們慢慢步入智慧信息化的新時(shí)代,生活生產(chǎn)中的設(shè)備逐漸智能化,計(jì)算機(jī)視覺應(yīng)用日趨廣泛,例如車牌識(shí)別自動(dòng)抬桿系統(tǒng)、視頻監(jiān)控系統(tǒng)、智能自動(dòng)駕駛系統(tǒng),然而,其中大部分視覺系統(tǒng)是在室外環(huán)境下進(jìn)行圖像數(shù)據(jù)的采集,因此將不可避免地受到諸如雨、霧、雪等惡劣天氣的影響。雨天作為較常見的一種自然天氣情況,會(huì)極大地影響戶外視覺系統(tǒng)的成像質(zhì)量,并制約后續(xù)高級(jí)計(jì)算機(jī)視覺任務(wù)的性能表現(xiàn),因此,從有雨圖像中去除雨噪聲并恢復(fù)清晰的背景是一個(gè)重要的研究方向,對(duì)圖像除雨問題的研究在生活、生產(chǎn)中的應(yīng)用具有重要價(jià)值。
在單幅圖像除雨問題中,通常把有雨圖像看作是由雨條紋層和背景層疊加而成,從有雨圖像中分離雨條紋層和背景層是一個(gè)逆問題。傳統(tǒng)方法主要分為基于先驗(yàn)的方法[1-3]和基于濾波器[4-7]的方法,其中基于先驗(yàn)的方法利用先驗(yàn)信息約束逆問題的解空間,通過設(shè)計(jì)優(yōu)化算法對(duì)模型求解得到無雨圖像。基于濾波器的方法將有雨圖像分解為高頻部分和低頻部分,利用雨條紋的物理特性設(shè)計(jì)濾波器對(duì)有雨圖像進(jìn)行濾波操作得到無雨圖像。由于人工設(shè)計(jì)的局限性,傳統(tǒng)方法只能提取較為簡(jiǎn)單的特征,而真實(shí)有雨圖像中存在不同方向和密度的雨條紋,其特征分布更為復(fù)雜。
最近,基于深度學(xué)習(xí)的方法在單幅圖像除雨領(lǐng)域中被大量應(yīng)用,證明了深度學(xué)習(xí)的方法在從有雨圖像中恢復(fù)干凈的背景圖像方面的優(yōu)勢(shì)。例如Yang[8]等提出一個(gè)新的雨模型,將全球大氣光和大氣透射率考慮其中,同時(shí)根據(jù)輸入的雨圖生成二進(jìn)制雨條紋特征圖用于雨噪聲的檢測(cè),構(gòu)建了一個(gè)循環(huán)雨水檢測(cè)和清除的網(wǎng)絡(luò),該方法也可以循環(huán)逐步地消除雨水條紋和雨條紋累積,即使在大雨的情況下也表現(xiàn)優(yōu)良。為了解決大雨累積產(chǎn)生的薄霧現(xiàn)象,作者進(jìn)一步提出了增強(qiáng)版本JORDER_E,其中包括額外的雨霧去除和細(xì)節(jié)保留的步驟[9]。為了充分的學(xué)習(xí)隨機(jī)分布的雨條紋特征, Li等[10]提出了一種基于壓縮和激勵(lì)(SE)模塊的上下文信息融合網(wǎng)絡(luò)(RESCAN),通過SE模塊為每個(gè)通道分配不同大小的權(quán)重alpha值來學(xué)習(xí)不同分布的雨水特征。由于現(xiàn)有的基于深度學(xué)習(xí)的除雨方法依賴大量有雨/無雨圖像對(duì)數(shù)據(jù)集來學(xué)習(xí)雨水特征,然而現(xiàn)有的數(shù)據(jù)集大部分的合成的數(shù)據(jù)集,這些數(shù)據(jù)集不能充分的表征真實(shí)世界的降雨分布特征。為了解決這個(gè)問題,Wang等[11]半自動(dòng)地構(gòu)建一個(gè)涵蓋大范圍自然降雨場(chǎng)景的大范圍有雨/無雨圖像對(duì)數(shù)據(jù)集,并提出了一種空間注意力網(wǎng)絡(luò)(SPANet)去除雨條紋。由于基于深度學(xué)習(xí)的除雨網(wǎng)絡(luò)越來越復(fù)雜,缺乏足夠的可解釋性,并且沒有與雨條紋內(nèi)在的物理結(jié)構(gòu)相結(jié)合。針對(duì)這個(gè)問題,Wang等[12]基于卷積字典學(xué)習(xí),利用近端梯度下降技術(shù)設(shè)計(jì)了一種雨卷積字典網(wǎng)絡(luò)(RCDNet),該方法雖然達(dá)到了很好的除雨效果,但經(jīng)過實(shí)驗(yàn)證明,該方法的處理速度較慢。現(xiàn)有的除雨網(wǎng)絡(luò)通常基于單一的網(wǎng)絡(luò)結(jié)構(gòu)來訓(xùn)練而沒有考慮跨尺度信息的關(guān)聯(lián),這可能會(huì)導(dǎo)致信息的丟失,因此,Wang等[13]提出了一種跨尺度的多子網(wǎng)絡(luò)結(jié)構(gòu)(DCSFN)來解決這個(gè)問題,子網(wǎng)絡(luò)通過門控循環(huán)單元和內(nèi)部尺度連接塊來融合多尺度特征,從而提高對(duì)雨條紋的表示能力。最近,Zamir等[14]提出了一個(gè)可適用于圖像除雨、去模糊和去噪的綜合性多階段圖像復(fù)原網(wǎng)絡(luò)(MPRNet),該方法首先使用編碼器-解碼器架構(gòu)學(xué)習(xí)上下文特征,然后將它們與保留了局部信息的高分辨率分支相結(jié)合。在每個(gè)階段,作者引入了一種新穎的逐像素自適應(yīng)設(shè)計(jì),利用原位監(jiān)督注意力來重新加權(quán)局部特征,實(shí)現(xiàn)了不同階段之間的信息交換。上述基于深度學(xué)習(xí)的除雨方法[8-9]大多將單幅圖像除雨問題看成是一個(gè)多階段的任務(wù),并使用遞歸結(jié)構(gòu)進(jìn)行雨條紋特征提取和清除,這導(dǎo)致網(wǎng)絡(luò)層次的加深和參數(shù)量的劇增,帶來巨大的計(jì)算開銷。另外,現(xiàn)有基于卷積神經(jīng)網(wǎng)絡(luò)的除雨算法以有限的感受野對(duì)有雨圖像以逐塊的方式進(jìn)行操作,因此,在較大區(qū)域中缺少空間上下文信息的依賴,事實(shí)上,這些上下文信息對(duì)于圖像除雨問題有積極的作用[15]。
為了解決上述局限性,本文設(shè)計(jì)了一種新穎的單階段高效除雨網(wǎng)絡(luò),網(wǎng)絡(luò)整體為編碼-解碼結(jié)構(gòu),其中,在編碼過程中引入卷積自注意力機(jī)制,提供跨尺度信息交互,豐富網(wǎng)絡(luò)的全局特征建模能力,然后將高效的卷積操作和自注意力機(jī)制進(jìn)行合理地組合,使除雨模型兼具局部和全局的特征提取能力和推理速度,以期能夠快速應(yīng)對(duì)不同場(chǎng)景下的降雨情況;另外,通過嵌入多尺度空間特征融合模塊,以不同的感受野提取圖像的特征信息,增強(qiáng)了網(wǎng)絡(luò)模型對(duì)不同尺度特征的感知能力;最后,設(shè)計(jì)了一種全面的混合損失函數(shù)作為目標(biāo)優(yōu)化函數(shù),該損失函數(shù)不僅考慮了圖片的亮度、顏色、結(jié)構(gòu)等基本物理特性,同時(shí)還考慮了不同分辨率下圖像之間的差異,使得模型能夠取得良好除雨效果的同時(shí),保留更多的背景細(xì)節(jié),達(dá)到更好的視覺效果。
當(dāng)前基于深度學(xué)習(xí)的除雨方法大多將除雨問題分為兩個(gè)階段:雨條紋檢測(cè)階段和去除階段,而這樣會(huì)直接導(dǎo)致兩個(gè)局限,其一是由于多階段而帶來的網(wǎng)絡(luò)深度加深,導(dǎo)致參數(shù)量增多、網(wǎng)絡(luò)不易收斂等問題;其二是此類網(wǎng)絡(luò)通常包含遞歸結(jié)構(gòu),導(dǎo)致較高的計(jì)算開銷,訓(xùn)練速度慢等問題。
基于上述局限,本文提出一種高效的多尺度自注意力單階段除雨網(wǎng)絡(luò),網(wǎng)絡(luò)模型的整體框架如圖1所示。整體網(wǎng)絡(luò)是一個(gè)編碼器-解碼器結(jié)構(gòu),由多個(gè)高效卷積塊及其變體(融合自注意力)和多尺度特征融合模塊組成的串行網(wǎng)絡(luò)。

圖1 網(wǎng)絡(luò)結(jié)構(gòu)
在下文中,將對(duì)網(wǎng)絡(luò)模型的各個(gè)模塊進(jìn)行詳細(xì)的描述。

(1)
從公式(1)中可看出,原始自注意力機(jī)制的空間復(fù)雜度為O(N2),時(shí)間復(fù)雜度為O(N2C),在處理高分辨率圖像使計(jì)算量太大。因此,受自注意力線性化的啟發(fā),Xu等[21]對(duì)此進(jìn)行了改進(jìn),使用兩個(gè)函數(shù)φ(·),ψ(·):RN×C→RN×C′將其分解得到:
FactorAtt(x)=φ(Q)(ψ(K)TV)
(2)

(3)
雖然該分解注意力機(jī)制減少了原始自注意力的所帶來的計(jì)算負(fù)擔(dān),但是原始Transformer僅由線性層和自注意力模塊組成,缺乏捕捉局部特征的能力,當(dāng)特征圖中存在相似的局部特征時(shí),無法計(jì)算它們之間的差異。例如,在圖像除雨問題中,在有雨圖像的背景層中可能存在與雨條紋結(jié)構(gòu)相似的特征,當(dāng)使用原始Transformer進(jìn)行特征提取時(shí),自注意力機(jī)制會(huì)把雨條紋和類似雨條紋的背景結(jié)構(gòu)都視為雨條紋,這樣在除雨的過程中就會(huì)導(dǎo)致在把雨條紋去除的同時(shí),背景圖案也遭到了破壞。因此,位置編碼在Transfor-mer中顯得極為重要。
為了解決上述問題,通過一個(gè)窗口大小為M的編碼窗口,整合一個(gè)相對(duì)位置編碼為P= {pi,i=(M-1)/2,…,(M-1)/2},得到相對(duì)注意力圖EV∈RC×C,此時(shí)視輸入向量序列為一維的,有:
FactorAtt(x)=
(4)
在圖像任務(wù)中,編碼矩陣E∈RN×N,設(shè)通道數(shù)為c,對(duì)于每一個(gè)通道,有:
(5)


(6)
其中:°表示對(duì)應(yīng)矩陣位置的元素直接相乘。
因此,加入相對(duì)位置編碼的分解注意力機(jī)制計(jì)算公式為:
(7)
加入位置編碼后的分解注意力機(jī)制將不僅擁有對(duì)全局特征的建模能力,而且還對(duì)局部相似特征敏感,有利于雨噪聲的清除與背景細(xì)節(jié)紋理的保留。
目前,在基于深度學(xué)習(xí)的除雨方法中,大多數(shù)方法都采用純卷積神經(jīng)網(wǎng)絡(luò)的形式,這些方法的局限性在于,雖然卷積神經(jīng)網(wǎng)絡(luò)在局部特征建模上有良好的性能,但在圖像全局區(qū)域上,無法對(duì)相似特征進(jìn)行關(guān)聯(lián)。雖然有些研究人員通過空洞卷積的方式來擴(kuò)大卷積神經(jīng)網(wǎng)絡(luò)的感受野,以獲得更完整的特征表示,但這也僅僅限于有限的區(qū)域。感受野是卷積和自注意力的最關(guān)鍵的區(qū)別之一,更大的感受野提供了很多的上下文信息,全局感受野是自注意力引入計(jì)算機(jī)視覺領(lǐng)域的關(guān)鍵因素,但原始自注意力的空間復(fù)雜度和時(shí)間復(fù)雜度大,尤其是對(duì)于網(wǎng)絡(luò)的輸入為高分辨圖像時(shí),計(jì)算成本是無法接受的,而本文引入的CoaT自注意力機(jī)制經(jīng)過優(yōu)化后,其空間復(fù)雜度和時(shí)間復(fù)雜度低于原始Transformer自注意力機(jī)制。因此,本文接下來通過探索高效卷積和CoaT自注意力機(jī)制合理的結(jié)合方式,以得到一個(gè)相對(duì)良好的圖像除雨方法,在速度和精度上達(dá)到平衡。
對(duì)于如何將卷積與自注意力有效結(jié)合這一問題上,Dai等[23]也對(duì)此進(jìn)行了研究,他們的研究表明:隨著數(shù)據(jù)集增大,模型的卷積階段(C)越多,模型之間的泛化能力的差距越小,但是,也并非簡(jiǎn)單地使用更多的CoaT(T),就能擁有更好的視覺處理能力。
受上述研究啟發(fā),本文設(shè)計(jì)了組合A:Conv-Conv-Transformer-Transformer-Transformer(C-C-T-T-T)和組合B: Conv-Conv-Transformer-Transformer-Conv(C-C-T-T-C)兩種組合方案(如圖2所示),來探究跨尺度卷積自注意力模塊與普通卷積相結(jié)合的數(shù)量對(duì)所提網(wǎng)絡(luò)模型性能的影響,以及該模塊在不同分辨圖像中對(duì)特征提取的有效性,然后在數(shù)據(jù)集Rain100H上訓(xùn)練了這兩種不同的組合方案,并比較了這兩種方案在Rain100H數(shù)據(jù)集上的評(píng)估指標(biāo)SSIM、PSNR、參數(shù)量和計(jì)算量。如表1所示,使用組合A與組合B這兩種方案在Rain100H數(shù)據(jù)集上訓(xùn)練后得到的評(píng)估指標(biāo)數(shù)值相當(dāng),組合A稍微領(lǐng)先,即除雨效果差距不大,但是組合A中包含更少的卷積塊,這意味著更少的參數(shù)量和計(jì)算消耗。因此,本文采用組合A的方案將卷積塊與CoaT結(jié)合。

圖2 組合A和組合B

表1 不同算法在合成數(shù)據(jù)集上的評(píng)估指標(biāo)對(duì)比
利用膨脹卷積來實(shí)現(xiàn)多尺度特征提取的方法在圖像處理[24]領(lǐng)域中十分常見。在圖像除雨算法中,通常會(huì)對(duì)圖像進(jìn)行若干次下采樣操作,以丟棄圖像中的冗余信息,但同時(shí)也會(huì)導(dǎo)致部分有效信息丟失,使得無法準(zhǔn)確定位雨條紋的位置,會(huì)出現(xiàn)雨條紋清除不徹底、圖像背景結(jié)構(gòu)不完整等問題。為了緩解編碼階段中下采樣過程會(huì)出現(xiàn)圖像部分特征丟失的問題,本文設(shè)計(jì)了一個(gè)多尺度空間特征融合塊嵌入在編碼階段的最后一個(gè)階段,從多個(gè)尺度聚合上下文信息,以充分學(xué)習(xí)不同尺寸的雨條紋特征,使得模型能夠應(yīng)對(duì)真實(shí)環(huán)境下各種復(fù)雜的降雨情形。其具體結(jié)構(gòu)如圖3所示。

圖3 多尺度特征融合模塊
在該模塊中采用5個(gè)并行的卷積操作對(duì)輸入特征進(jìn)行處理。首先使用一個(gè)1×1卷積對(duì)輸入的特征圖進(jìn)行降維,然后對(duì)3個(gè)3×3卷積分別設(shè)置不同的膨脹因子2、4、8,以3種不同的感受野對(duì)圖像進(jìn)行特征提取,提高模型對(duì)不同尺寸雨條紋的感知能力,其次使用一個(gè)自適應(yīng)平均池化操作降低信息冗余,最后,使用一個(gè)1×1卷積降低通道數(shù),將5個(gè)不同尺度的特征圖融合在一起,圖像中的有效信息將得到充分的學(xué)習(xí)。另外,使用跳躍連接(如圖1中的長(zhǎng)箭頭所示)將編碼階段相同尺度的特征圖進(jìn)行融合來指導(dǎo)上采樣過程,以捕獲多尺度下的細(xì)粒度語(yǔ)義和粗粒度語(yǔ)義,這樣有利于保留更多的細(xì)節(jié)紋理。
在神經(jīng)網(wǎng)絡(luò)中,損失函數(shù)的作用是在神經(jīng)網(wǎng)絡(luò)的前向傳播過程中計(jì)算每次迭代的預(yù)測(cè)值與真實(shí)值之間的差距,通過反向傳播指導(dǎo)網(wǎng)絡(luò)更新各層參數(shù),從而使得網(wǎng)絡(luò)朝著預(yù)期方向進(jìn)行訓(xùn)練。由此可見,一個(gè)合適的損失函數(shù)在神經(jīng)網(wǎng)絡(luò)中有著至關(guān)重要的作用。目前,大多數(shù)基于深度學(xué)習(xí)的單幅圖像除雨方法均使用單一的函數(shù)作為損失函數(shù),比如均方誤差 (MSE, mean squared error)、平均絕對(duì)誤差(MAE,mean absolute error)、多尺度結(jié)構(gòu)相似(MS-SSIM, mutil-scale structural similarity)和總變差 (TV,total variation)損失函數(shù)等,表達(dá)式分別如下:
(8)
(9)
(10)
LTV(P)=∑i,j((pi,j+1-pi,j)2+(pi+1,j-pi,j)2)β/2
(11)

然而,MSE和MAE這兩個(gè)損失函數(shù)都是基于逐像素進(jìn)行差異比較,并沒有考慮人類視覺系統(tǒng)(HVS)對(duì)視覺場(chǎng)景的感知特點(diǎn),因此基于逐像素的差異比較損失函數(shù)并不能準(zhǔn)確的衡量某些失真類型區(qū)域;MS-SSIM損失函數(shù)對(duì)一致性偏差不是特別敏感,容易導(dǎo)致圖像亮度的變化和顏色的偏差;而TV損失函數(shù)通過計(jì)算相鄰像素之間的差異來約束圖像的平滑度,可用于解決除雨后圖像中雨條紋殘留帶來的偽影問題,但是不適合單獨(dú)使用。因此,本文設(shè)計(jì)了一個(gè)如公式(13)所示的混合型損失函數(shù),利用各損失函數(shù)的優(yōu)勢(shì)來彌補(bǔ)單一損失函數(shù)表現(xiàn)出來的缺陷,增強(qiáng)了網(wǎng)絡(luò)對(duì)圖像細(xì)節(jié)恢復(fù)的能力。
首先,考慮到MS-SSIM損失函數(shù)能夠根據(jù)HVS的敏感性在不同的尺度上計(jì)算SSIM的權(quán)重,即從多個(gè)尺度來感知圖像質(zhì)量的差異,這對(duì)于除雨任務(wù)是有利的,但是對(duì)于圖像的亮度和顏色處理欠佳,而MAE損失函數(shù)不會(huì)過度懲罰較大的誤差,即能夠保留顏色和亮度,這兩個(gè)損失函數(shù)的優(yōu)缺點(diǎn)正好互補(bǔ)。因此,將MAE損失函數(shù)與MS-SSIM損失函數(shù)按照一定的權(quán)重混合,公式(12)如下:
(12)
其中:根據(jù)zhao等[25]經(jīng)驗(yàn),將α設(shè)置為0.84。
在有雨圖像中,大多數(shù)雨條紋和背景細(xì)節(jié)紋理存在高頻區(qū)域,而MAE損失函數(shù)對(duì)于圖像的高頻部分會(huì)給予較大的權(quán)重,這將導(dǎo)致在保留細(xì)節(jié)的同時(shí)也會(huì)使得雨條紋部分殘留,因此將MSE損失函數(shù)和TV損失函數(shù)按一定權(quán)重混合來去除雨條紋偽影。最終的混合損失函數(shù)如下:
LMix=LMS-SSIM-MAE+μ·LMSE+λ·LTV
(13)
其中:μ和λ為懲罰因子,根據(jù)實(shí)驗(yàn)逐步調(diào)整,得到的值分別為0.3和2×10-8。
實(shí)驗(yàn)環(huán)境為Intel Core i7-9700K處理器,Ubuntu 18.04操作系統(tǒng),使用英偉達(dá)RTX3070、顯存為8 G的GPU并行加速網(wǎng)絡(luò)訓(xùn)練,所使用的編程語(yǔ)言為Python,并采用Facebook人工智能研究院推出的PyTorch深度學(xué)習(xí)框架來搭建網(wǎng)絡(luò)。所有實(shí)驗(yàn)均在此環(huán)境上進(jìn)行。
本文網(wǎng)絡(luò)中所有融合模塊的卷積核大小均為1×1,其余卷積核大小為3×3,采用多尺度特征融合模塊,其中包含3個(gè)膨脹卷積塊,膨脹因子分別為2、4、8,采用ReLU函數(shù)作為非線性激活單元,使用Adam優(yōu)化器對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,學(xué)習(xí)率初始化為0.000 2,每50個(gè)epochs更新一次學(xué)習(xí)率,學(xué)習(xí)率衰減策略為衰減率與迭代次數(shù)呈反比的固定步長(zhǎng)衰減策略。
為了驗(yàn)證本文的方法在除雨效果方面的提升,將其在兩個(gè)比較流行的公開合成數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,數(shù)據(jù)集分別為Yang等[8]提供的Rain100L和Rain100H數(shù)據(jù)集。其中,Rain100L數(shù)據(jù)集包含200張有雨圖像,其中包含的有雨圖像的類型單一,因此是相對(duì)容易的數(shù)據(jù)集;Rain100H是一個(gè)包含1 800張有雨圖像的綜合數(shù)據(jù)集,其中包含多種方向和密集程度不一的雨條紋,是一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集,保證了實(shí)驗(yàn)的說服力。同時(shí)為了全面的驗(yàn)證本文所提方法的性能,將其與目前比較先進(jìn)的幾種基于深度學(xué)習(xí)的除雨方法進(jìn)行了比較,具體為:MPRNet(2021)、RCDNet(2020)、JORDER-E(2020)、DCSFN(2020)、SPANet(2019)、RESCAN(2018)。為了體現(xiàn)對(duì)比的公平性,所參與對(duì)比的算法均使用對(duì)應(yīng)論文中提供的源代碼和最優(yōu)參數(shù),并在本文使用的數(shù)據(jù)集上重新訓(xùn)練。
圖4展示了不同算法在合成數(shù)據(jù)集Rain100H上的主觀實(shí)驗(yàn)結(jié)果,從圖中可以看出,本文算法可以有效地去除不同方向和密集程度不同的雨條紋,并且生成了接近真實(shí)的無雨圖像,同時(shí)保留了大部分的細(xì)節(jié)。相比之下,其他方法生成的圖像較平滑,甚至?xí)茐谋尘皟?nèi)容,圖4(a)女孩頭發(fā)紋理幾乎消失,圖4(b)十字架建筑模糊不清,在所對(duì)比的3種方法中,只有MPRNet算法保留了部分細(xì)節(jié)。DCSFN算法使用SSIM損失作為損失函數(shù),使得物體結(jié)構(gòu)的邊界明顯,導(dǎo)致雨條紋的殘留,如圖4(b)中DCSFN輸出圖像的天空可以明顯看到雨條紋的偽影;RCDNet算法使用MSE損失函數(shù),導(dǎo)致算法對(duì)圖像中的平滑區(qū)域懲罰力度較大,使圖像變得模糊。本文算法輸出的圖像不僅將雨條紋去除,而且女性臉部自然、女孩頭發(fā)紋理清晰、十字架完整,充分保留了背景細(xì)節(jié),這表明將卷積的局部特征建模能力和自注意力的全局特征建模能力進(jìn)行合理地結(jié)合對(duì)除雨任務(wù)有益,同時(shí)也驗(yàn)證了所提混合損失函數(shù)的有效性。

圖4 不同算法在合成數(shù)據(jù)集Rain100H上的主觀實(shí)驗(yàn)結(jié)果
除了對(duì)比各算法的主觀效果外,為了在數(shù)據(jù)上體現(xiàn)本文所提算法帶來的性能提升,本文采用結(jié)構(gòu)相似性SSIM和峰值信噪比PSNR兩種圖像質(zhì)量評(píng)估指標(biāo)來對(duì)各算法進(jìn)行客觀評(píng)價(jià)。其中SSIM值越接近1,表明兩幅圖像的相似度越高;PSNR值越大,表明圖像的失真越少。表2給出了各算法在不同數(shù)據(jù)集上的SSIM值和PSNR值。由表2可知,本文算法與目前一些先進(jìn)的算法對(duì)比具有優(yōu)勢(shì)。單從圖像質(zhì)量評(píng)估指標(biāo)來看,雖然在Rain100L數(shù)據(jù)集上,本文方法在PSNR指標(biāo)上略遜色于RCDNet,SSIM指標(biāo)略低于JORDER-E,但在Rain100H數(shù)據(jù)集上,我們的方法占據(jù)了領(lǐng)先地位,與最新的MPRNet算法對(duì)比,SSIM指標(biāo)提升了0.015 3,PSNR指標(biāo)提高了0.95 dB,可能的原因是Transformer中較弱的歸納偏置依賴更大的訓(xùn)練集,因此本文方法在較大的Rain100H數(shù)據(jù)集上具有更好的表現(xiàn)。

表2 組合A和組合B在Rain100H數(shù)據(jù)集上的評(píng)估指標(biāo)對(duì)比
另外,為了體現(xiàn)本文所提算法的除雨效率,還對(duì)比了在數(shù)據(jù)集Rain100H上不同算法平均處理一張有雨圖像的運(yùn)行時(shí)間及評(píng)估指標(biāo)PSNR和SSIM。對(duì)比結(jié)果如圖5所示,由圖可知,本文算法在PSNR指標(biāo)上與RCDNet接近,但是處理速度快50倍左右;與最新算法MPRNet相比,不僅取得了更好的除雨效果,而且除雨速度顯著提升。

圖5 不同算法Rain100H上的平均運(yùn)行時(shí)間及評(píng)估
為了驗(yàn)證本文所提算法的泛化能力,將其與最新算法MPRNet(2021)在接近真實(shí)的有雨數(shù)據(jù)集SPA上進(jìn)行了比較,其對(duì)比結(jié)果如圖6所示,兩種算法對(duì)接近真實(shí)的有雨圖像的除雨效果相當(dāng),但是本文方法保留了更多的細(xì)節(jié),如圖6(a)中,MPRNet算法把原圖背景中的白色長(zhǎng)條物去除了一個(gè),造成圖像信息的丟失,而在經(jīng)過本文算法得到的除雨圖像中,其得到完整的保留。實(shí)驗(yàn)證明:本文算法的泛化能力較強(qiáng),不僅能夠有效去除合成有雨圖像上不同分布的雨條紋,并且對(duì)于接近真實(shí)的降雨分布圖像也有很好的清除效果。

圖6 不同算法在仿真數(shù)據(jù)集SPA上的主觀實(shí)驗(yàn)結(jié)果
為了更加全面地評(píng)估所提算法的性能,我們收集了一些真實(shí)世界中由手機(jī)拍攝的有雨圖像數(shù)據(jù)集,包括大雨和小雨。然后,使用在合成數(shù)據(jù)集上訓(xùn)練的模型用于測(cè)試,并與最新算法 MPRNet (2021)對(duì)比。如圖7所示,本文算法去除了大部分的雨痕,并且除雨效果優(yōu)于MPRNet。具體地,在圖7(a),人物和雨傘上的雨水被完全去除,而MPRNet處理的圖像中還殘留很多雨滴。在圖7(b)中,本文算法去除了圖中明顯的雨條紋,而MPRNet僅去除了部分輕微的雨痕,而粗雨痕沒有被去除。在真實(shí)世界數(shù)據(jù)集上的實(shí)驗(yàn)證明,本文算法的泛化能力較強(qiáng)并且可以很好地應(yīng)用于自然環(huán)境中的有雨圖像。

圖7 不同算法在真實(shí)數(shù)據(jù)集上的主觀實(shí)驗(yàn)結(jié)果
為了驗(yàn)證CoaT自注意力模塊與普通卷積的結(jié)合對(duì)除雨任務(wù)的有效性,以及結(jié)合方式對(duì)所提網(wǎng)絡(luò)模型性能的影響,設(shè)計(jì)了兩種結(jié)合方案如圖2所示,其中組合A:C-C-T-T-T表示在編碼階段的第3、4、5個(gè)卷積塊中嵌入CoaT,組合B:C-C-T-T-C表示在編碼階段的第3、4個(gè)卷積塊中嵌入CoaT,然后在數(shù)據(jù)集Rain100H上進(jìn)行消融實(shí)驗(yàn),結(jié)果如表2所示,組合A在SSIM和PSNR指標(biāo)上略微領(lǐng)先組合B,說明嵌入更多的CoaT自注意力機(jī)制,增強(qiáng)模型的全局特征建模能力,能夠帶來更好的除雨效果;其次,組合A的參數(shù)量和計(jì)算量比組合B更少,證明使用CoaT代替標(biāo)準(zhǔn)卷積可以減少模型的參數(shù)量,降低計(jì)算消耗,使模型的除雨效率更高。
針對(duì)單幅圖像除雨問題,本文設(shè)計(jì)了一種單階段的高效多尺度特征融合除雨方法。首先,該方法通過將高效卷積和跨尺度自注意力進(jìn)行合理的結(jié)合,提高了網(wǎng)絡(luò)的全局特征建模能力,從而獲取更加有效的特征表示;其次,通過構(gòu)造多尺度空間特征融合模塊,有效增加網(wǎng)絡(luò)的感受野,增強(qiáng)網(wǎng)絡(luò)對(duì)不同分布的雨條紋特征的感知能力;然后,為了保留更多的背景細(xì)節(jié),使得去除雨水后的圖像更加接近真實(shí)無雨圖像,設(shè)計(jì)了一種混合損失函數(shù),利用各損失函數(shù)的優(yōu)勢(shì)來彌補(bǔ)單一損失函數(shù)表現(xiàn)出來的缺陷,解決了輸出的無雨圖像過于平滑、模糊、偽影殘留和背景內(nèi)容被破壞等問題。實(shí)驗(yàn)結(jié)果證明,所提算法輸出的無雨圖像不僅在主觀上達(dá)到了良好的視覺效果,而且在客觀評(píng)估指標(biāo)上對(duì)比最新除雨算法也有所提升,另外,在除雨速度上也有顯著的優(yōu)勢(shì),具有一定的實(shí)際應(yīng)用價(jià)值。盡管所提方法能夠在去除圖像中的雨條紋的同時(shí)充分保留背景細(xì)節(jié),但是由于引入了自注意力機(jī)制,需依賴更大的訓(xùn)練集,這增加了網(wǎng)絡(luò)的訓(xùn)練時(shí)間。在未來,將進(jìn)一步研究模型在較小數(shù)據(jù)集上的擬合問題,并針對(duì)特定任務(wù)設(shè)計(jì)一種輕量化網(wǎng)絡(luò),使得算法模型投入實(shí)際應(yīng)用成為可能。