999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Transformer的多分支單圖像去雨方法

2022-12-31 00:00:00譚富祥錢育蓉孔鈺婷張昊周大新范迎迎陳龍
計算機應用研究 2022年8期

摘要:雨紋會嚴重降低拍攝圖像的質量,影響后續計算機視覺任務。為了提高雨天圖像的質量,提出了一種基于Transformer的單圖像去雨算法。首先,該算法通過具有窗口機制的Transformer獲得大范圍的感受野,進而獲取雨紋特征的上下文信息,提高模型提取雨紋特征的能力;其次,該算法通過多分支模塊提取和融合不同種類、不同層次的特征,提高模型對復雜雨紋信息的表征能力;最后,通過殘差連接融合淺層特征和深層特征,補全深層特征中缺失的細節信息,增強網絡表達能力。在公開數據集Rain100L、Rain100H和私有數據集Rain3000上的實驗結果表明,該方法相較于現有算法,能更有效地去除雨紋,同時更好地恢復圖像中丟失的背景紋理信息。峰值信噪比和結構相似度(PSNR/SSIM)分別達到38.33/0.985 5、28.42/0.900 0、34.51/0.964 3。

關鍵詞:單圖像去雨; 多分支; Transformer; 特征融合

中圖分類號:TP181文獻標志碼:A

文章編號:1001-3695(2022)08-045-2500-06

doi:10.19734/j.issn.1001-3695.2021.12.0695

Multi-branch single image deraining network based on Transformer

Tan Fuxiang1a,1b,2, Qian Yurong1a,1b,2, Kong Yuting1a,1b,2, Zhang Hao1a,1b,2, Zhou Daxin1a,1b,2, Fan Yingying1a,1b,2, Chen Long1a,1b,2

(1.a.College of Software, b.Key Laboratory of Software Engineering, Xinjiang University, Urumqi 830046, China; 2.Key Laboratory of Signal Detection amp; Processing in Xinjiang Uygur Autonomous Region, Urumqi 830046, China)

Abstract:Rain streaks can seriously degrade the quality of captured images and affect subsequent computer vision tasks. In order to improve the quality of rainy images, this paper proposed a single-image deraining algorithm based on Transformer. Firstly, the algorithm obtained a wide range of receptive fields through the Transformer with window mechanism, and then obtained the contextual information of rain streak features to improve the ability of the model to extract rain streak features. Secondly, the algorithm extracted and fused different kinds and levels of features through multi-branch modules to improve the model’s ability to characterize complex rain streaks information. Finally, this paper fused the shallow features and deep features through residual connections to complete the missing details in the deep features, which enhanced the expression ability of the network. The experimental results on the public datasets Rain100L, Rain100H and the private dataset Rain3000 show that the method is more effective in removing rain streaks compared to existing algorithms while better recovering the lost background texture information in the images. PSNR and SSIM have respectively reached 38.33/0.985 5, 28.42/0.900 0 and 34.51/0.964 3.

Key words:single image deraining; multi-branching; Transformer; feature fusion

0引言

雨天作為一種常見天氣,會降低所拍攝圖像或視頻的質量,限制圖像分類、目標檢測、圖像分割等計算機視覺任務的應用場景。相比于視頻,單圖像缺少時序信息,因此研究單圖像去雨更具有挑戰性。單圖像去雨任務主要是依據雨紋及其周圍的像素信息恢復損失背景信息,其方法大致分為傳統方法和深度學習的方法[1,2]。傳統方法是依據雨紋的先驗知識設計模型。Chen等人[3]根據雨紋的幾何尺寸具有相似性,構建低秩表示的方法去除雨紋。Li等人[4]從雨紋特征的稀疏性入手,使用稀疏判別字典去雨。Li等人[5]提出高斯混合模型用于相似塊補全圖像的方法,實現單圖像去雨。Kang等人[6]首先將圖像分解成高低頻,其次采用稀疏編碼處理高頻信息的方法去除雨紋。雖然這些方法取得一定的效果,但在雨紋密集、復雜和背景難識別的地方,存在去雨不足或過度去雨的問題。

深度學習中基于卷積神經網絡(convolutional neural network,CNN)的方法具有強大的特征表示能力,能有效地學習從有雨圖像到無雨圖像的非線性映射。Fu等人[7]提出的DerainNet模型首次將CNN方法應用到單圖像去雨領域,該模型先將輸入圖像分為高頻細節層和低頻基礎層,高頻層用于訓練去雨網絡,低頻層用于圖像增強。Du等人[8]認為雨紋在不同的空間位置和通道是有差異的,因此提出自適應雨紋密度的條件變分單圖像去雨網絡。Zhang等人[9]同樣從密度的角度考慮,構建多流密度估計器實現自適應圖像去雨。Lei等人[10]聯合考慮雨紋密度和雨滴尺寸,提出多尺度雨紋密度估計模塊指導網絡去雨。Jiang等人[11]進一步研究了多尺度模型對去雨任務的有效性,提出多尺度漸進融合模型。Wang等人[12]同樣注意到多尺度信息對去雨任務的重要性,提出通過尺度聚合模塊和自注意模塊學習不同尺度的特征。

目前基于CNN的方法取得一定的效果,但CNN通過卷積層實現局部像素間接相關的方式,造成感受野有限。現有的去雨模型大多通過堆疊卷積核擴大感受野,這種方式獲得感受野仍然有限,并且會減弱特征長期依賴,造成去雨不足或過度去雨。

近期流行的Transformer[13]具有的全局計算特性,能有效獲得全局注意力圖和特征長距離依賴,已被用于圖像分類[14]、圖像分割[15,16]等領域。但是Transformer不加限制的計算方式并不適合單圖像去雨任務,因此,受Swin Transformer[17]的啟發,本文結合Transformer、窗口機制以及去雨任務的特性設計了一種多分支窗口Transformer去雨網絡(multi-branch window transformer network for single image deraining,MBWTNet)。該模型的特征提取模塊具有感受野大、雨紋特征表達能力強的優點,多分支模塊能自適應地學習不同種類、不同層次的雨紋特征,豐富特征表達。實驗結果表明,本文方法既能有效地去除復雜雨紋,又能較好地恢復被雨紋遮擋的背景紋理,與目前主流的單圖像去雨模型相比,獲得了最佳的去雨效果。

1Transformer介紹

1.1Transformer模型介紹

Transformer是Vaswani等人[13]提出用于解決自然語言處理(natural language processing,NLP)中循環神經網絡不能并行處理的問題,其標準模型如圖1所示,由左部的encode和右部的decode組成。在encode階段,首先將句子中的單詞轉換成詞向量;然后通過自注意力模塊、殘差連接和層歸一化得到全局自注意力特征圖;最后通過前饋網絡,殘差連接和層歸一化獲得encode的輸出。與encode相比,decode只多了一個注意力模塊和歸一化層用于接收encode輸出。decode的輸入除了encode的輸出還包括上一個decode的輸出。decode輸出的是對應位置的概率分布。由于并行輸入缺少單詞的位置關系,Transformer使用位置編碼的方式保留位置關系。

Dosovitskiy等人[14]提出的VIT模型是首次直接使用Transformer的encode部分用于圖像分類,為后續視覺Transformer奠定了基礎。為了適應Transformer的輸入,VIT首先將圖像分割成不重疊的圖像塊,再將圖像塊拉伸并嵌入位置編碼,得到一維的向量。后續視覺Transformer的研究大多使用這種方式輸入圖像或特征圖。對于輸出,VIT通過分類器處理encode的輸出特征,得到預測結果。VIT和MBWTnet都采用了相對位置編碼,但不同的是MBWTNet在自注意力中添加位置編碼。

1.2多頭自注意力機制介紹

多頭自注意力是Transformer的重要組成部分,其結構如圖2所示。

首先,encode的輸入矩陣通過三個不同權重的變換矩陣得到查詢矩陣Q、鍵矩陣K和值矩陣V。然后通過點積注意力,如式(1),計算自注意力特征圖;多頭自注意力是通過多組變換矩陣和式(1)得到多個相互獨立的注意力特征圖。最后通過拼接和全連接融合不同的注意力特征圖得到多頭注意力圖。

attention(Q,K,V)=softmax QKTdkV(1)

其中:Q,K,V是向量組成的二維矩陣,Q與K轉置的點乘得到的相關性矩陣記錄了所有向量之間的相關性,而Q和K來自同一個矩陣的變換,因此,相關性矩陣描述的是輸入向量之間的相關性。為了避免softmax( · )造成梯度消失,使用一個系數等效縮放相關性矩陣。經過激活的相關性矩陣與V點乘得到全局自注意力圖。多頭自注意力是Transformer的全局感受野和特征長距離依賴的主要來源。

2多分支窗口Transformer去雨網絡

Transformer的全局計算方式使模型具有全局感受野和特征長期依賴,但會造成一定的特征冗余,不適合直接用于單圖像去雨。本文提出一種多分支窗口Transformer去雨網絡MBWTNet,該網絡模型通過窗口限制計算獲得較大的感受野,充分利用Transformer與多分支結合的優勢以及殘差連接提取不同層次的特征。如圖3所示,MBWTNet由基于Transformer的特征提取模塊(Transformer-based feature extraction block,TFEB)、多分支特征融合模塊(multi-branch fusion module,MBFM)和殘差連接構成。在CNN中,殘差連接是為了解決較深網絡中梯度消失的問題,本文中殘差連接更關注淺層特征的作用,即補全深度特征中缺失的紋理信息。MBWTNet采用三個順序排列的MBFM模塊提取和融合不同層次的特征,其中,前兩個MBFM的輸出通過殘差方式傳遞到網絡深層,實現淺層特征與深層特征的充分融合;第三個MBFM的輸出被輸入到三個并列的TFEB,通過增加網絡的深度和寬度,同時提取不同種類的特征。網絡的計算過程如式(2)所示。

xt=FtMBFM(xt-1)t=1,2,3

x4=TFEB4(x2+TFEB1(x3)+TFEB2(x3)+TFEB3(x3))

xpre=TFEB5(x1+x4)(2)

其中:FtMBFM(·)是多分支特征融合模塊;TFEBi(·)是特征提取模塊,xi是中間變量,擁有相同的尺寸和通道,其中x0為輸入的有雨圖像,xpre為預測圖像。

2.1特征提取模塊TFEB

由于卷積操作無法充分獲得像素之間的特征聯系,造成一些基于CNN的方法去除長條狀雨紋的效果不理想,即模型存在去雨不足或過度去雨。Transformer的全局計算方式能充分獲得像素之間的聯系,但會造成特征冗余。針對該問題,本文在Swin Transformer[17]的基礎上構建了一個特征提取模塊。該模塊采用Swin Transformer的窗口滑動機制限制計算量和實現窗口間信息的交流。Swin Tansformer會造成一定空間信息的損失,針對該問題,本文提出一個圖像塊拼接模塊(patch splicing)避免空間信息損失。特征提取模塊如圖3中TFEB部分所示,特征圖依次通過分割模塊(patch partition)、維度調整模塊(linear embedding)、基于滑動窗口的Transformer模塊(swin-Transformer block,SWT)和圖像塊拼接模塊(patch splicing)完成特征的提取。patch partition先將輸入尺寸為H×W×C的特征圖分割成不重疊的patch塊,如式(3)所示,其中H和W是輸入圖像尺寸,Wp和Hp為patch塊的尺寸。

(P1,P2,P3,…,Pn)=Fsplit(xin),n=wwp×HHp(3)

P^t=Freshapea(Pt)t=1,2,3,…,n(4)

由于Transformer只接受一維向量,patch partition再通過Freshapea(·)將patch塊P∈Euclid Math TwoRApwp×Hp×c按通道方向轉換成1D的向量P^∈Euclid Math TwoRApwp×Hp×c,該向量可以視為一個token。patch塊的尺寸與位置編碼緊密相關,patch塊的尺寸越大,位置編碼的尺寸越小。圖像分類等其他計算機視覺任務中更多關注的是語義信息,例如圖像分類模型VIT[14]和圖像分割[16]的patch塊都設為16×16,位置編碼的尺寸為H16×W16,而在圖像去雨任務中更多關注的是像素信息和位置信息。因此,本文中patch塊的尺寸為3×3,即wp=3,Hp=3。經過patch partition分割后的向量維度為3×3×C,考慮到高維具有更高的特征表達能力,有利于自注意力模塊學習雨紋特征,本文在維度調整模塊linear embedding中通過全連接Flineara(·)將向量的維度映射到3×3×C×2,即式(5)中Z∈Euclid Math TwoRAp(3×3×C×2)。

Z=Flineara(P^)(5)

標準的Transformer具有全局關注、特征遠距離依賴的優點,但存在計算量大、模型部署難的問題。受文獻[17]啟發,本文采用滑動窗口的方式限制計算,模型結構如圖4(a)所示,每個子模塊由兩個LayerNorm(LN)層,一個基于7×7窗口的多頭自注意力模塊(W-MSA)和一個MLP構成,其中多頭注意力的頭數為3。patch塊包含3×3個像素,因此7×7窗口的感受野為21×21。相比于卷積層,基于窗口的Transformer能獲得較大的感受野,進而更充分地提取窗口內不同尺寸的特征。由于窗口邊界缺少足夠的紋理信息用于特征提取,受Swin Transformer的啟發,該模塊的第二個子模塊采用滑動的多頭自注意模塊(SW-MSA),即窗口位置與第一個不同,如圖4(b)所示。滑動窗口機制使邊界像素信息在同一個窗口內,完成邊界雨紋特征的學習和窗口間信息交流。基于滑動窗口的Transformer模型計算過程如式(6)所示。

Z^l=W-MSA(LN(Zl-1))+Zl-1

Zl=MLP(LN(Z^l))+Z^l

Z^l+1=SW-MSA(LN(Zl))+Zl

Zl+1=MLP(LN(Z^l+1))+Z^l+1(6)

其中:Z^l∈Euclid Math TwoRApH3×W3×(3×3×2×C)表示多頭注意力的輸出;Zl∈Euclid Math TwoRApH3×W3×(3×3×2×C)表示全連接的輸出。與標準的Transformer中多頭注意力模塊不同,W-MSA使用的注意力模塊如式(7)所示。

attention(Q,K,V)=softmax(QKT/d+B)V(7)

其中:Q,K,V∈Euclid Math TwoRApM2×d,Q代表查詢(query),K代表關鍵字(key),V代表值(veal),M2是參與計算的patch塊數量(7×7),d=32是query、key或veal的維度,B∈Euclid Math TwoRApM2×M2是位置編碼。W-MSA通過限制單次參與self-attention計算的patch塊數量減少計算量,同時避免計算冗余特征。

輸出尺寸與輸入尺寸一致是特征提取模塊可直接用于模塊的堆疊的必要條件,也有利于融合不同層次的特征。圖像塊拼接模塊patch splicing首先通過全連接Flinearb(·)將經過Transformer計算的高維向量fin的維度壓縮至3×3×C。這不僅考慮了patch splicing模塊的輸入是高維向量,不符合構建patch塊的要求,也考慮了全連接能自適應地保留重要特征,抑制次要特征。然后通過Freshapeb( · )按通道方向將向量轉換成patch塊,即sr∈Euclid Math TwoRAp3×3×C。最后將這些patch塊拼接成特征圖fout∈Euclid Math TwoRApW×H×C 。上述計算過程如式(8)所示,其中sl∈Euclid Math TwoRAp(3×3×C)。

sl=Flinearb(fin)

sr=Freshapeb(sl)

fout=Fsplic(sr)

(8)

2.2多分支特征融合模塊

雨紋圖像包含雨紋尺寸、形狀等不同種類特征,背景圖包含不同層次的特征。多頭自注意力利用網絡不同初始值學習提取和融合不同種類的特征,但該方法無法學習提取和融合不同層次的特征。為了更好地滿足去雨任務中特征多樣性的需求,本文通過研究融合多個TFEB模塊,提升模型去雨的性能。因此本文設計和討論了三種多分支結構,如圖5所示。

圖5(a)是同構多分支結構。由于各分支網絡初始值不同,且相互獨立,訓練時向著不同的特征子空間學習,所以分支數越多,提取的特征越豐富,去雨性能越好。但是分支數量越多,并不意味著網絡越好,2.4節的多分支實驗證明了這個觀點。圖5(b)擁有和圖5(a)同等的參數量,每個分支采用相同的結構,但圖5(b)的分支數只有圖5(a)的一半。圖5(c)與圖5(b)擁有相同的分支數和相同的參數量,但圖5(c)的每個分支采用不同的結構,該結構計算過程如式(9)所示。

fMBFM=TFEB0(TFEB11(x)+TFEB21(TFEB22(x))+

TFEB31(TFEB32(TFEB33(x))))(9)

其中:TFEBi(·)表示特征提取模塊;x表示多分支模塊MBFM的輸入;fMBFM是輸出。由于每個分支具有不同的初始值和結構,導致模塊能自適應地學習不同種類、不同層次的特征,豐富輸出的特征。通過特征相加的方式并不能充分融合不同分支的特征,本文通過添加一個特征提取模塊,實現特征充分融合。

2.3損失函數

現有圖像去雨模型的損失函數大多數使用的是已被Ren等人[18]證明有效的結構相似度(SSIM structural similarity),該損失函數雖然能獲得較好的結構相似度,但生成圖像的顏色存在一定程度的失真,造成峰值信噪比(PSNR)較低。在這項工作中,本文使用的損失函數的數學表達式如式(10)所示。

LossL1=L1(SDnet(O),B)

LossSSIM=1-SSIM(SDnet(O),B)

Losside=L1(SDnet(B),B)

Lossall=α×LossL1+β×LossSSIM+λ×LossIde(10)

其中:α=0.2,β=4,λ=1;O是有雨圖像;B是對應的背景圖。絕對偏差和(sum of absolute difference,SAD)是基于兩張圖像的像素差計算的。結構相似度(structural similarity,SSIM)是評價兩張圖像內容的結構相似性的指標,其負數常被用做損失函數,表達式如式(10)中LossSSIM所示。身份損失(identity loss,ide)是源于CycleGAN [19]中用于約束生成圖像的顏色損失,本文將其用于約束去雨后圖像的顏色差異,表達式如式(10)中Losside所示,將背景圖作為模型的輸入,生成的結果與標簽通過L1計算身份損失。本文通過最小化三種損失值的和,使模型保持圖像結構信息的同時減小顏色差異,提高模型去雨性能。

3實驗

3.1數據集

現有的公開數據集Rain100L和Rain100H[20]是由1 800對訓練集和200對測試集組成的數據集,它們是在相同的背景圖像上添加不同方向的雨紋。Rain100L是去雨相對簡單的數據集,每張圖片包含有1種方向的雨紋。Rain100H是去雨相對困難的數據集,每張圖片包含5種方向的雨紋。Rain100L和Rain100H提供兩種難度的數據集用于評估網絡的性能。但這兩個數據集都存在訓練集和測試集背景相似的問題[18],這會降低模型的可信度。針對這個問題,文獻[18]通過剔除546張相似的背景,以此提高數據集的質量,但這會降低樣本量,不利于模型的泛化。本文使用完全的Rain100H和Rain100L訓練和測試模型,公平地對比現有的主流模型。此外提出一個全新的數據集用于提高模型的可信度。該數據集首先從內容豐富的ImageNet中隨機選取10萬張圖片;然后從具有825張雨紋圖的EfficientDerain[21]中隨機選取1~4種雨紋添加到選取的圖片中,最后從10萬對數據集中選取前3 400對合成的圖像作為數據集,其中訓練集3 000對,測試集400對。本文將該數據集命名為Rain3000,如圖6所示。Rain3000既包含簡單的雨紋,也包含相對復雜的雨紋,這有利于擬合真實雨圖的特征分布。數據集的參數如表1所示。

為了驗證所提數據集訓練網絡的有效性,本文首先通過在數據集Rain3000、Rain100L、Rain100H分別訓練DCSFN[22]、MPRnet[23]和PREnet[24];然后在真實雨圖上測試,結果如圖7所示。通過Rain3000進行訓練,DCSFN模型能很好地去除不同形狀、大小的雨紋,保留背景信息;MPRNet和PRENet能去除較小、更接近自然的雨紋,這說明數據集Rain3000能更好地擬合自然界雨紋特征的分布。

3.2實驗設置

本文實驗環境為GPU顯卡Tesla V100 16 GB,內存32 GB,使用PyTorch深度學習框架,版本號PyTorch 1.7.0,batch size設置為5,總共訓練500個epoch。學習率的初始值為5×10-4,分別在總迭代次數的3/5和4/5時衰減為5×10-5和5×10-6。本文在據集Rain100L、Rain100H和Rain3000上對比主流算法,在數據集Rain3000上進行消融實驗。

本文使用已被廣泛用于評估去雨性能的結構相似性和峰值信噪比。SSIM是度量兩張圖像內容,紋理的相似性指標。SSIM最大值是1,越接近于1,表示兩張圖片的越相似。PSNR是基于兩張圖片之間的像素誤差計算的,誤差越小,值越大,圖片越相似,去雨的效果越好,反之圖像去雨的效果越差。

3.3對比實驗

為了驗證MBWTNet的優越性,本文在數據集Rian100L、Rain100H和Rain3000上對比了如下六種先進的去雨方法:

a)RESCAN[25]:使用遞歸結構分多個階段去雨,每個階段使用多個具有SE(squeeze-and-excitation)模塊和膨脹卷積的上下文聚合網絡;此外,該網絡還設計了一個記憶單元用于增強不同階段之間的聯系。

b)GCANet[26]:提出一種使用平滑擴張卷積的上下文聚合網絡用于去霧,解決了因膨脹卷積引起的柵格化。該方法同樣適用圖像去雨。

c)NLEDN[27]:該方法提出非局部增強自編碼網絡使用區域級非局部增強,提高捕獲空間上下文遠程依賴關系的能力;此外使用串連不同尺度區域的方式增強區域間交流。

d)PREnet[24]:提出一個多階段去雨的基線模型,每個階段的輸入是原始雨圖和上個階段輸出的拼接;此外,還使用一個LSTM挖掘不同階段之間的深層特征。

e)DCSFN[22]:提出一種跨尺度融合方法來學習不同尺度之間的內部特征聯系;此外,使用密集連接增強遠程空間依賴性。

f)MPRnet[23]:提出一種多階段漸進修復模型用于平衡修復圖像時空間細節和上下文信息,每個階段都使用標簽進行監督;此外,其夸階段聚合多尺度特征的策略實現不同階段間信息交換。

表2中評價指標最優值用加粗表示,次優值用下畫線表示。分析結果可知,本文的算法在數據集Rain3000、Rain100L和Rain100H上均獲得最好的性能。在去雨難度相對簡單的Rain100L數據集上,PSNR能達到38.33 dB;在去雨任務困難的Rain100H數據集上,PSNR能達到28.42 dB;在雨紋特征復雜的Rain3000上,PSNR達到34.51 dB。本文算法在數據集Rain100H上的優勢最明顯,相比于2018年的RESCAN網絡,評價指標PSNR和SSIM分別提升4.44 dB、0.1388,相比于最新的MPRnet模型,PSNR和SSIM分別提升1.87 dB、0.051 6,相比于次優的DCSFN,PSNR和SSIM在分別提升0.66 dB,0.014。這表明,相比于RESCAN和GCAN使用膨脹卷積獲得的感受野,MBWTNet擁有更廣闊的感受野和更強的特征表示能力;相比于PREnet,DCSFN和MPREnet增強特征依賴的方式,MBWTNet擁有更強的特征長距離依賴,更豐富的特征表達;相比于NLEDN使用多尺度實現增強區域間信息交流,MBWTNet的滑動窗口方式具有更充分、更直接的優點。

圖8展示了各個算法去雨的視覺效果。可以看出, RESCAN去雨后的圖像存在偽影,NLEDN、CGAN、DCSFN、MPRNet雖然取得了較好的去雨效果,但仍然有一些長條狀的雨紋未去除。PREnet雖然能去除雨紋,但也去除了背景中一些紋理細節。這六種模型在恢復效果上都存在一定的不足,而MBWTNet既能很好地去除雨紋,又能較為滿意地恢復紋理細節,這進一步證明了所提方法的優越性。

模型參數量和預測時間是模型實用性的重要指標,圖9展示了各個模型的參數量和實時性,從圖中可以看出,雖然所提模型的參數量較大,但卻獲得了最快的推理速度。這是因為基于滑動窗口的Transformer和全連接采用了矩陣運算的方式,這比逐步卷積的方式更高效。圖9也進一步說明所提算法的實用性。

3.4消融實驗

3.4.1分支數量及結構對去雨性能的影響

為了證明分支的數量和結構對模型去雨性能的影響,本文在數據集Rain3000上做了兩組對照實驗。第一組對照實驗是驗證分支結構相同,分支數量對模型性能的影響,模型的其他部分不改變,只將多分支融合模塊MBFM替換成如圖5(a)所示的結構,更改分支的數量為1、2、3、4、5、6進行實驗,實驗結果如圖10所示。從結果可以看出,隨著分支數增多,模型去雨的性能越好,但分支數超過4之后,模型性能提升有限。這是因為相同結構的分支數量越多,分支提取的特征越相似,限制了特征多樣性的進一步表達。本文為了平衡模型的規模和性能,采用三分支結構。

第二組對照實驗是驗證參數量相同時,相同結構的分支與不同結構的分支對網絡性能的影響,模型的其他部分不改變,只改變多分支融合模塊MBFM的結構為圖3(a)~(c),實驗結果如表3所示,表中MBFM-a對應圖(a),其他的依此類推。

分析表3,在分支數和參數量相同時,分支結構不相同的模塊具有更豐富的特征表達能力。結合圖10和表3可知,相同分支數量的增加雖然能提升模型去雨的效果,但這種提升效果有限,不同結構的分支能極大程度地自適應捕獲不同種類、不同層次特征之間的相關性。因此,避免分支結構相同,更有利于學習從有雨圖像到無雨圖像的映射。

3.4.2損失函數的性能

為了驗證不同損失函數對模型去雨性能的影響,分別對本文所涉及的損失函數進行了實驗。模型采用相同結構的三分支,評價指標采用SSIM和PSNR。表4展示了使用不同的損失函數訓練網絡得到的性能。通過分析可得,將Losssim作為損失函數時, 網絡能獲得最好的SSIM指標。將Lossssim和Losside作為損失函數時能獲得與Lossssim作為損失函數時相同的SSIM指標,并使PSNR提升了0.03 dB。而添加Losside會降低LossL1的性能,因為這兩個損失函數都是基于像素差值計算的,Losside抑制了LossL1的性能。另外LossL1也會限制僅有Lossssim時的性能,只有在三種損失函數都包含時,網絡才能獲得最佳性能,相比于僅有Lossssim,PSNR提升了0.07 dB。因為Lossssim是基于圖像內容結構計算的損失值,缺少像素紋理等信息,而LossL1和Losside能有效地從不同的角度補充像素信息,也說明用于約束圖像風格轉換任務中,顏色差異的身份損失同樣能約束圖像去雨任務中顏色的差異。

4結束語

針對圖像去雨,本文提出一種多分支窗口Transformer去雨網絡(MBWTNet),該網絡首先結合Transformer和窗口機制構建一種局部像素直接相關,大范圍感受野和無空間信息損失的特征提取模塊;然后基于該模塊構建了一種多分支模塊用于提取和融合不同種類、不同層次的特征;最后實用前饋網絡和跳躍連接構建端到端的去雨網絡。此外本文提出一個基于ImageNet制作的去雨數據集Rain3000,該數據集由3 000對訓練集和400對測試集組成,具有背景紋理豐富、雨紋、種類多樣的優點。本文模型在公開數據集Rain100L、Rain100H和私有數據集Rain3000上對比了幾種深度學習方法,在視覺觀感和定量指標上都取得了最好的結果,但存在一定局限性。例如,算法中缺少對通道相關性的描述,進一步研究將考慮結合全局通道注意力和窗口通道注意力,提升模型捕獲通道相關性的能力。

參考文獻:

[1]張育龍,王強,陳明康,等.圖像去雨算法在云物聯網應用中的研究綜述[J].計算機科學,2021,48(12):231-242.(Zhang Yulong, Wang Qiang, Chen Mingkang, et al. Survey of intelligent rain removal algorithms for cloud-IoT systems[J].Computer Science,2021,48(12):231-242.)

[2]陳舒曼,陳瑋,尹鐘.單幅圖像去雨算法研究現狀及展望[J].計算機應用研究,2022,39(1):9-17.(Chen Shuman, Chen Wei, Yin Zhong. Research status and prospect of single image rain removal algorithm[J].Application Research of Computers,2022,39(1):9-17.)

[3]Chen Yilei, Hsu Chiouting. A generalized low-rank appearance model for spatio-temporally correlated rain streaks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2013:1968-1975.

[4]Li Yu, Tan R T, Guo Xiaojie, et al. Rain streak removal using layer priors[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2736-2744.

[5]Li Siyuan, Ren Wenqi, Zhang Jiawan, et al. Single image rain removal via a deep decomposition-composition network[J].Computer Vision and Image Understanding,2019,186:48-57.

[6]Kang Liwei, Lin Chiawen, Fu Yuhsiang. Automatic single-image-based rain streaks removal via image decomposition[J].IEEE Trans on Image Processing,2011,21(4):1742-1755.

[7]Fu Xueyang, Huang Jiabin, Ding Xinghao, et al. Clearing the skies: a deep network architecture for single-image rain removal[J].IEEE Trans on Image Processing,2017,26(6):2944-2956.

[8]Du Yingjun, Xu Jun, Zhen Xiantong, et al. Conditional variational image deraining[J].IEEE Trans on Image Processing,2020,29:6288-6301.

[9]Zhang He, Patel V M. Density-aware single image de-raining using a multi-stream dense network[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:695-704.

[10]Lei Yu, Wang Bishan, He Jingwei, et al. Single image deraining with continuous rain density estimation[J/OL].IEEE Trans on Multimedia.(2021-11-12).https://doi.org/10.1109/TMM.2021.3127360.

[11]Jiang Kui, Wang Zhongyuan, Yi Peng, et al. Multi-scale progressive fusion network for single image deraining[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:8346-8355.

[12]Wang Hong, Xie Qi, Zhao Qian, et al. A model-driven deep neural network for single image rain removal[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:3103-3112.

[13]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems.2017:5998-6008.

[14]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[EB/OL].(2021-06-03).https://arxiv.org/abs/2010.11929.

[15]Chen Jieneng, Lu Yongyi, Yu Qihang, et al. TransUNet: Transfor-mers make strong encoders for medical image segmentation[EB/OL].(2021-02-08).https://arxiv.org/abs/2102.04306.

[16]Ranftl R, Bochkovskiy A, Koltun V. Vision Transformers for dense prediction[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:12179-12188.

[17]Liu Ze, Lin Yutong, Cao Yue, et al. Swin Transformer: hierarchical vision Transformer using shifted windows[EB/OL].(2021-08-17).https://arxiv.org/abs/2103.14030.

[18]Ren Dongwei, Zuo Wangmeng, Hu Qinghua, et al. Progressive image deraining networks: a better and simpler baseline[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3937-3946.

[19]Zhu Junyan,Taesung P,Phillip I,et al.Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2223-2232.

[20]Yang Wenhan,Tan R T,Feng Jiashi,et al.Deep joint rain detection and removal from a single image[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:1357-1366.

[21]Guo Qing,Sun Jingyang,Juefei-Xu F,et al.EfficientDerain: learning pixel-wise dilation filtering for high-efficiency single-image deraining[EB/OL].(2020-09-19).https://arxiv.org/abs/2009.09238.

[22]Wang Cong,Xing Xiaoying,Su Zhixun,et al.DCSFN: deep cross-scale fusion network for single image rain removal[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:1643-1651.

[23]Zamir S W,Arora A,Khan S,et al.Multi-stage progressive image restoration[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:14821-14831.

[24]Ren Dongwei,Zuo Wangmeng,Hu Qinghua,et al.Progressive image deraining networks:a better and simpler baseline[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3937-3946.

[25]Li Xia,Wu Jianlong,Lin Zhouchen,et al.Recurrent squeeze-and-excitation context aggregation net for single image deraining[C]//Proc of European Conference on Computer Vision.Piscataway,NJ:IEEE Press,2018:254-269.

[26]Chen Dongdong,He Mingming,Fan Qingnan,et al.Gated context aggregation network for image dehazing and deraining[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.Pisca-taway,NJ:IEEE Press,2019:1375-1383.

[27]Li Guanbin,He Xiang,Zhang Wei,et al.Non-locally enhanced encoder-decoder network for single image de-raining[C]//Proc of the 26th ACM International Conference on Multimedia.New York:ACM Press,2018:1056-1064.

收稿日期:2021-12-13;

修回日期:2022-02-11

基金項目:國家自然科學基金資助項目(61966035);國家自然科學基金聯合基金資助項目(U1803261);自治區科技廳國際合作項目(2020E01023);智能多模態信息處理團隊項目(XJEDU2017T002)

作者簡介:譚富祥(1994-),男,新疆烏魯木齊人,碩士,主要研究方向為單圖像去雨;錢育蓉(1980-),女(滿族)(通信作者),新疆烏魯木齊人,教授,博導,博士,主要研究方向為網絡計算、遙感圖像處理(qyr@xju.edu.cn.);孔鈺婷(1997-),女,湖北武穴人,碩士,主要研究方向為數據挖掘;張昊(1996-),男,山西太原人,碩士,主要研究方向為小目標檢測;周大新(1996-),男,新疆烏魯木齊人,碩士,主要研究方向為低照度圖像增強;范迎迎(1991-),女,新疆烏魯木齊人,博士,主要研究方向為遙感圖像分類;陳龍(1995-),男,山東濟南人,碩士,主要研究方向為超分辨率重建.

主站蜘蛛池模板: 久久综合丝袜长腿丝袜| AV熟女乱| 国产精品永久久久久| 午夜少妇精品视频小电影| 亚洲精品视频免费| 久久精品电影| 国产毛片一区| 欧美一区二区三区国产精品| 日韩激情成人| 午夜啪啪网| 丁香六月综合网| 韩国v欧美v亚洲v日本v| 国产欧美日韩精品第二区| 在线观看国产精品一区| 91无码人妻精品一区| 久久久久无码国产精品不卡| 亚洲三级电影在线播放| Jizz国产色系免费| 无码中字出轨中文人妻中文中| 毛片在线看网站| 成年看免费观看视频拍拍| 91丝袜乱伦| 亚洲欧洲AV一区二区三区| 成人精品在线观看| 亚洲第一成年网| 成人国产一区二区三区| 欧美日韩亚洲国产主播第一区| 亚洲一区二区三区国产精品 | 欧美激情二区三区| 强奷白丝美女在线观看| 国产99免费视频| 欧美h在线观看| 黄色三级毛片网站| 欧美区国产区| 国产综合另类小说色区色噜噜 | 91精品国产一区自在线拍| 久久精品国产亚洲AV忘忧草18| 久无码久无码av无码| 成人久久18免费网站| 青草91视频免费观看| 国产美女人喷水在线观看| 欧美激情,国产精品| 欧美国产在线看| 丁香婷婷久久| 黄网站欧美内射| 精品亚洲国产成人AV| 三上悠亚精品二区在线观看| 久久久成年黄色视频| 免费啪啪网址| 国产无码在线调教| 日韩性网站| 日韩av在线直播| 丝袜美女被出水视频一区| 天堂va亚洲va欧美va国产| 国产精品福利尤物youwu | 一区二区日韩国产精久久| 国产乱子精品一区二区在线观看| 久久免费看片| 99er这里只有精品| 国产精品内射视频| 欧美日韩国产一级| 日韩天堂视频| 国产精女同一区二区三区久| 国产午夜无码片在线观看网站 | 首页亚洲国产丝袜长腿综合| 国产av剧情无码精品色午夜| 国产精品视频系列专区| 午夜视频在线观看免费网站| 久久中文电影| 国产亚洲精品97AA片在线播放| 国产精品嫩草影院视频| 国产精品自在在线午夜区app| 91外围女在线观看| 欧美69视频在线| 国产熟睡乱子伦视频网站| 91精品啪在线观看国产| 国内精品自在自线视频香蕉| 欧美特级AAAAAA视频免费观看| 黄色不卡视频| 九色视频线上播放| 老熟妇喷水一区二区三区| 国产精品第三页在线看|