姜鑫, 聶海濤, 朱明
(中國科學(xué)院 長春光學(xué)精密機械與物理研究所,吉林 長春 130033)
近些年,隨著工業(yè)社會的快速發(fā)展,社會經(jīng)濟不斷增長的同時對自然環(huán)境的破壞也日趨嚴(yán)重,導(dǎo)致霧霾天氣出現(xiàn)的越來越頻繁,嚴(yán)重地影響了人們?nèi)粘5纳a(chǎn)與生活[1]。霧霾是大氣中的粒子吸收散射光而產(chǎn)生的一種自然現(xiàn)象,受其影響,光學(xué)設(shè)備無法獲取有效的場景信息,所采集的圖像質(zhì)量較差,易出現(xiàn)顏色失真、飽和度降低、圖像模糊等退化現(xiàn)象。霧霾天氣下圖像質(zhì)量的下降不僅降低了圖像的視覺觀賞性,而且嚴(yán)重地干擾了視頻監(jiān)控、自動駕駛、無人機跟蹤等各類視覺處理任務(wù)的有效運行[2]。針對上述現(xiàn)象,如何在不丟失圖像細(xì)節(jié)的前提下,在霧霾場景中有效地去除圖像中的霧霾,最大程度上復(fù)原出圖像的色彩信息,提高圖像質(zhì)量,具有重要的研究意義和應(yīng)用價值。
圖像去霧是一個極具挑戰(zhàn)性的問題,近些年來引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。目前有關(guān)圖像去霧的研究主要分為兩大類:一類是基于先驗信息的去霧方法研究,另一類是基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的去霧方法研究。基于先驗信息的去霧方法主要利用大氣散射模型和手工設(shè)計的先驗知識對霧天圖像進行去霧處理;基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的去霧方法主要利用神經(jīng)網(wǎng)絡(luò)的特征提取能力和包含大量霧天圖像的數(shù)據(jù)集來實現(xiàn)高效去霧。
基于大氣散射模型,Tan等[3]通過提高圖像局部對比度的方式實現(xiàn)了圖像去霧,但該方法容易出現(xiàn)復(fù)原后圖像色差較大的問題。He等[4]提出了基于暗通道先驗的去霧方法并取得了很好的去霧效果,但易受到天空等高亮區(qū)域的影響,并且存在時間和空間復(fù)雜度高的問題。Ancuti等[5]基于原始圖像及其半逆圖像之間的色差,提出了一種可以快速檢測并去除圖像霧霾的去霧方法。Zhu等[6]在對大量圖像分析的基礎(chǔ)上建立了景物深度和景物亮度與飽和度差的線性模型,通過景物透射圖有效地去除了圖像中的霧霾。盡管上述算法在某些場景中實現(xiàn)了一定的去霧效果,但受限于理想條件下的大氣散射模型和各種先驗假設(shè),其在復(fù)雜霧氣圖像中的應(yīng)用仍存在著較大的局限性。
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,大量卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在了圖像去霧領(lǐng)域中。Cai等[7]第一次將卷積神經(jīng)網(wǎng)絡(luò)引入到圖像去霧任務(wù)中,提出了一種端到端的可訓(xùn)練去霧網(wǎng)絡(luò),利用多尺度卷積操作提取霧霾特征,大幅提升了圖像去霧性能。Li等[8]提出了一個輕量級去霧網(wǎng)絡(luò)AODNet,該網(wǎng)絡(luò)將大氣散射模型中的多個中間變量集成為一個可訓(xùn)練參數(shù),有效地降低了復(fù)原公式的重建誤差,提高了去霧圖像的質(zhì)量。Chen等[9]提出了一種結(jié)合殘差學(xué)習(xí)和導(dǎo)向濾波的去霧算法,采用多尺度卷積提取霧霾特征,利用導(dǎo)向濾波保持圖像邊緣特性,解決了復(fù)原圖像對比度和清晰度下降的問題。Feng等[10]提出了一個雙視覺注意網(wǎng)絡(luò)的聯(lián)合圖像去霧和透射率估計算法,充分利用了透射率估計和去霧過程中捕獲信息的相關(guān)性,實現(xiàn)了圖像中霧氣濃度信息的預(yù)測。Yang等[11]提出了一種分離特征和協(xié)同網(wǎng)絡(luò)下的去霧模型,利用神經(jīng)網(wǎng)絡(luò)提取不同深度的空間信息及細(xì)節(jié)特征,使得復(fù)原圖像顏色自然,細(xì)節(jié)保持良好。大部分基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的去霧方法均利用了卷積操作來提取圖像特征,但是,具有參數(shù)共享特性的卷積操作在應(yīng)用時有兩點弊端:一是卷積操作更加關(guān)注于局部特征信息的提取,不能對超出感受野范圍的特征進行建模,因此無法很好地感知圖像全局特征信息;二是卷積核與圖像之間的交互并不能根據(jù)圖像內(nèi)容而自適應(yīng)地調(diào)整,使用相同的卷積核來復(fù)原不同區(qū)域的圖像可能并不是最好的選擇。
最近,隨著Transformer[12]的出現(xiàn),基于自注意力機制的網(wǎng)絡(luò)框架在很多機器視覺處理任務(wù)上取得了與卷積神經(jīng)網(wǎng)絡(luò)相當(dāng)甚至更好的性能和效果[13-15]。Transformer最初是用來解決自然語言處理任務(wù)的,通過使用自注意力機制使得模型可以并行化訓(xùn)練。與卷積神經(jīng)網(wǎng)絡(luò)相比,Transformer最大的優(yōu)勢在于每個特征學(xué)習(xí)層中的單元都具有全局的感受野,其更擅長于建立遠(yuǎn)距離依賴關(guān)系的模型,可以實現(xiàn)全局特征信息的有效聚合。
基于此,為了克服現(xiàn)有方法表達(dá)的不足,提升網(wǎng)絡(luò)的特征表達(dá)能力,提出了全局和局部特征融合去霧網(wǎng)絡(luò)。網(wǎng)絡(luò)分別利用Transformer和卷積操作提取圖像全局和局部特征信息,并將兩者融合后輸出,充分發(fā)揮了Transformer建模長距離依賴關(guān)系和卷積操作局部感知特性的優(yōu)勢,實現(xiàn)了特征的高效表達(dá)。實驗結(jié)果表明,所提出的去霧網(wǎng)絡(luò)圖像復(fù)原效果更加真實,細(xì)節(jié)還原度高,去霧性能優(yōu)異。
條件式生成對抗網(wǎng)絡(luò)[16]在圖像復(fù)原領(lǐng)域展現(xiàn)出了良好的性能和復(fù)原效果,已廣泛應(yīng)用于圖像去噪[17-18]、圖像去雨[19-20]、圖像去霧[21-22]等各類圖像復(fù)原任務(wù)中。鑒于此,本文基于此框架設(shè)計了全局和局部特征融合去霧網(wǎng)絡(luò)。圖1為條件式生成對抗去霧網(wǎng)絡(luò)整體架構(gòu)圖[23],它主要由一個生成器G和一個判別器D組成。其中,“x”表示輸入的原始有霧圖像,“G(x)”表示經(jīng)過生成器復(fù)原后的無霧圖像,“y”表示與之對應(yīng)的真實清晰無霧圖像。

圖1 條件式生成對抗網(wǎng)絡(luò)架構(gòu)圖Fig.1 Diagram of conditional generative adversarial network
生成器G的目標(biāo)是根據(jù)輸入的有霧圖像復(fù)原出清晰無霧圖像;判別器D的目標(biāo)是準(zhǔn)確分辨出生成器復(fù)原出的無霧圖像和真實的無霧圖像。生成器和判別器在樣本訓(xùn)練的過程中進行博弈并不斷提升各自性能,判別器D的目的是盡可能地將真實樣本和生成樣本區(qū)分開來,即判斷生成樣本為假,真實樣本為真;生成器G的目的是逐步學(xué)習(xí)真實清晰無霧圖像的數(shù)據(jù)分布,并盡可能地生成與無霧圖像類似的樣本數(shù)據(jù)來欺騙判別器D,使得判別器無法對其生成的樣本做出準(zhǔn)確判別。最終,在較為理想的情況下,生成器準(zhǔn)確學(xué)習(xí)到了真實清晰圖像的數(shù)據(jù)分布,能夠生成“以假亂真”的無霧圖像;同時,判別器無法準(zhǔn)確分辨出生成樣本和真實樣本,從而達(dá)到納什均衡的狀態(tài)[16]。在傳統(tǒng)的生成式對抗網(wǎng)絡(luò)框架中,生成器往往通過輸入的隨機噪聲來復(fù)原出目標(biāo)圖像;而在條件式生成對抗網(wǎng)絡(luò)框架中,生成器和判別器均可讀取輸入的原始有霧圖像,有助于網(wǎng)絡(luò)實現(xiàn)更好的復(fù)原效果[23]。網(wǎng)絡(luò)訓(xùn)練后,利用生成器G,即可根據(jù)有霧圖像生成與之對應(yīng)的無霧圖像,實現(xiàn)圖像去霧效果,有關(guān)生成器G和判別器D的網(wǎng)絡(luò)架構(gòu)設(shè)計詳見下文。
生成器采用U-Net型[24]網(wǎng)絡(luò)架構(gòu),如圖2所示,其中“Conv”表示卷積操作,“BN”表示批標(biāo)準(zhǔn)化操作,“GELU”表示高斯誤差線性單元激活函數(shù),“MaxPool”表示最大池化操作,“GLFFM”表示全局和局部特征融合模塊,“Enhancer”表示增強模塊,“Tanh”表示雙曲正切激活函數(shù),“skip connection”表示跳躍連接操作。

圖2 生成器示意圖Fig.2 Framework of the generator
生成器主要由四部分組成:編碼器、全局和局部特征融合模塊、解碼器和增強模塊。編碼器主要由多個Conv-BN-GELU序列和最大池化操作組成,在逐步降低特征圖分辨率的同時,不斷地提取圖像特征,并擴展特征圖維度。在此基礎(chǔ)上,全局和局部特征融合模塊分別提取圖像全局和局部特征信息,并將兩者融合后輸出,該模塊的詳細(xì)操作參見2.3節(jié)。接著,解碼器采用多個pixel shuffle層[25]對特征圖進行上采樣操作,在減少圖像偽影的同時將特征圖分辨率逐步向原始圖像分辨率靠近。同時,為了實現(xiàn)高效的網(wǎng)絡(luò)特征信息共享,編碼器端每一級特征層都通過跳躍連接的方式與解碼器端特征層進行直連,這有助于將編碼器端淺層網(wǎng)絡(luò)中提取到的邊緣、紋理、輪廓等特征信息傳遞到解碼器端的深層網(wǎng)絡(luò)中,進而在解碼的同時充分保留原始圖像的細(xì)節(jié)、紋理等信息。之后,通過增強模塊進一步融合圖像全局特征信息,增強網(wǎng)絡(luò)的特征表示能力,從而精細(xì)化復(fù)原結(jié)果,該模塊的詳細(xì)操作參見2.4節(jié)。最后,通過Conv-Tanh序列降低特征圖維度并輸出最終復(fù)原出的清晰無霧圖像。生成器的詳細(xì)參數(shù)信息如表1所示。
針對卷積操作特征表達(dá)的局限性,為了更好地提升去霧網(wǎng)絡(luò)的整體特征表達(dá)能力,設(shè)計了一個全局和局部特征融合模塊,分別利用Transformer和卷積操作提取圖像全局和局部特征信息,發(fā)揮Transformer建模長距離依賴關(guān)系和卷積操作局部感知特性的優(yōu)勢,并將兩者獲取的特征信息進行融合后輸出,進而實現(xiàn)特征的高效表達(dá)。全局和局部特征融合模塊的架構(gòu)示意圖如圖3所示,其中“PE”表示圖像塊壓縮操作,“PEG”表示位置編碼生成器[26],“LN”表示層標(biāo)準(zhǔn)化操作,“MSA”表示多頭自注意力機制,“MLP”表示多層感知機。

圖3 全局和局部特征融合模塊示意圖Fig.3 Diagram of global and local feature fusion module
如圖3所示,全局和局部特征融合模塊主要包含局部特征提取分支、全局特征提取分支、特征融合單元和長距離跳躍連接。局部特征提取分支由Conv-BN-GELU-Conv-BN序列組成,通過卷積操作提取圖像局部特征信息,此模塊中所有的卷積核尺寸均為3×3。全局特征提取分支由圖像塊壓縮單元、位置編碼生成器和多個Transformer編碼器組成。由于Transformer需要的是類似于單詞序列的一維輸入信號,而圖像本身為二維信號,因此需要先將整幅圖像拆分為多個圖像塊,并將圖像塊展平壓縮后拉伸成一維序列,再輸入到Transformer編碼器中。但是,這種方法并不能完美地建模圖像,因為其缺少了二維圖像中所包含的重要信息,即像素點間的位置信息。考慮到圖像復(fù)原任務(wù)對位置信息是高度敏感的,因此在圖像塊序列輸入到Transformer編碼器前,設(shè)計了位置編碼生成器,以實現(xiàn)對不同位置圖像塊的有效編碼,進而保留像素點間的二維空間位置關(guān)系。位置編碼生成器的有關(guān)設(shè)計詳見2.5小節(jié)。在去霧網(wǎng)絡(luò)整體架構(gòu)中,生成器中的編碼器提取出了分辨率大小為32×32的特征圖,輸入到全局和局部特征融合模塊。在全局特征提取分支中,Transformer將此特征圖拆分為1 024個圖像塊,每個圖像塊的分辨率大小為1×1。Transformer編碼器的結(jié)構(gòu)與原始Transformer編碼器[12]保持一致,經(jīng)其特征提取后,將輸出的一維序列信號恢復(fù)成二維圖像。之后,將局部特征信息和全局特征信息通過由Conv-BNGELU序列構(gòu)建的特征融合單元進行融合,在保證整個模塊輸出特征圖通道數(shù)目與輸入特征圖通道數(shù)目一致的同時,進一步增強網(wǎng)絡(luò)的特征表達(dá)能力。最后,通過長距離跳躍連接將輸入特征圖與融合特征圖疊加后輸出。長距離跳躍連接一方面可以避免反向傳播過程中的梯度消失問題,加速訓(xùn)練過程中網(wǎng)絡(luò)模型的收斂;另一方面可以使主干網(wǎng)絡(luò)更加專注于有價值特征信息的提取和學(xué)習(xí),而將價值量較低或不太重要的特征信息通過旁路向后傳遞。值得指出的是,全局和局部特征融合模塊不改變輸入特征圖的寬度、高度和通道數(shù)目,因此可以在不改變其他網(wǎng)絡(luò)主體結(jié)構(gòu)的前提下,靈活嵌入移植到其他網(wǎng)絡(luò)模型中,進而提高網(wǎng)絡(luò)的特征提取和表達(dá)能力。
為了進一步聚合圖像的全局特征信息,在最終輸出復(fù)原圖像前,設(shè)計了包含多尺度圖像塊的增強模塊,利用Transformer豐富復(fù)原圖像的細(xì)節(jié)信息。增強模塊的整體架構(gòu)如下圖4所示,其中“concat”表示特征圖連接操作。

圖4 增強模塊示意圖Fig.4 Framework of enhancer
如圖4所示,首先將輸入的特征圖依次拆分成分辨率大小為4×4,8×8和16×16的圖像塊,由于特征圖的分辨率大小為256×256,因此拆分后的圖像塊數(shù)目分別為4 096,1 024和256。多尺度圖像塊包含了多尺度圖像特征信息,有助于網(wǎng)絡(luò)在不同尺度上恢復(fù)圖像的細(xì)節(jié)、紋理等信息。接著,利用卷積操作對圖像塊進行壓縮,依次將圖像塊通道數(shù)目壓縮成16,64和256,并將圖像塊展平成一維序列后,分別輸入到Transformer中進行全局特征提取,此處的Transformer與上一小節(jié)的全局特征提取分支一致。特征提取后,將一維序列信號重新恢復(fù)成二維特征圖,特征圖的通道數(shù)目分別為16,64和256,分辨率大小分別為64×64,32×32和16×16。然后,利用pixel shuffle層[25]分別對特征圖進行4倍、8倍和16倍上采樣操作,依次得到三個通道數(shù)目為1,分辨率為256×256的特征圖。霧氣在圖像中往往是非均勻分布的,此特征圖可以有效地實現(xiàn)圖像的空間注意力機制[27],即允許網(wǎng)絡(luò)選擇性地學(xué)習(xí)價值量較大的像素區(qū)域,如濃霧區(qū)域、邊緣區(qū)域等,而減少對價值較低像素區(qū)域的學(xué)習(xí),如無霧區(qū)域、平坦區(qū)域等,進而高效地利用網(wǎng)絡(luò)資源,提高特征學(xué)習(xí)和表達(dá)能力。之后,將此特征圖自適應(yīng)學(xué)習(xí)到的權(quán)重值與輸入特征圖進行逐像素點乘,并進行特征層連接。最后,通過3×3卷積操作進行特征融合和通道數(shù)目降維,以保持輸出特征圖通道數(shù)目與輸入特征圖通道數(shù)目一致。
Transformer的自注意力機制有一個天然的缺陷,即它無法捕獲輸入圖像塊序列的位置信息。但對于圖像復(fù)原任務(wù)來說,保留圖像的二維空間位置信息對復(fù)原結(jié)果至關(guān)重要。因此,在圖像塊序列輸入到Transformer編碼器前,需要將每個圖像塊的位置信息進行編碼,并與其對應(yīng)的特征向量疊加后一起輸入到編碼器中。
傳統(tǒng)的位置編碼方式,主要包括固定位置編碼[12]、相對位置編碼[15]、可學(xué)習(xí)位置編碼[14]等。這些編碼方法往往都是事先定義好的,且編碼方式基本與圖像內(nèi)容無關(guān)。Chu等[26]提出了一種基于圖像內(nèi)容的動態(tài)位置編碼生成器,可根據(jù)圖像局部區(qū)域內(nèi)的內(nèi)容信息自適應(yīng)地生成位置編碼,如圖5(a)所示。具體實現(xiàn)過程如下:首先將一維序列恢復(fù)成二維特征圖,再利用3×3卷積操作生成局部位置編碼特征圖,接著將此特征圖拆分成一維序列與原始輸入序列進行疊加后輸入到Transformer編碼器中,其中卷積操作時采用邊緣零填充的方式,一方面保證了輸出特征圖與輸入特征圖分辨率大小一致,另一方面提供了特征圖內(nèi)每個像素點的絕對位置信息。該編碼方式同時提供了像素間的相對位置信息和絕對位置信息,并有效地結(jié)合圖像局部區(qū)域內(nèi)的內(nèi)容信息生成位置編碼,顯著地提升了Transformer在各領(lǐng)域中不同任務(wù)的性能[26]。

圖5 位置編碼生成器示意圖Fig.5 Framework of the positional encoding generator
上述位置編碼生成器采用3×3卷積操作生成位置編碼特征圖,特征圖中每個像素點的所對應(yīng)的感受野較小,且編碼方式無法對長距離像素點間的依賴關(guān)系進行建模。在實際應(yīng)用場景中,霧氣在圖像中往往是成片出現(xiàn)的,因此更大的感受野對圖像復(fù)原過程可以提供更多的參考和指導(dǎo)。基于此,提出了全局位置編碼生成器,如圖5(b)所示,其中“Linear”表示線性操作。針對局部編碼生成器生成的特征圖,先通過1×1卷積操作對特征圖進行降維,生成通道數(shù)為1的特征圖。接著,將特征圖展平成一維序列,并對其進行全連接操作,以使得特征圖中所有的像素點均具有全局的感受野。然后,將一維序列恢復(fù)成二維特征圖,并將該特征圖與局部編碼生成器生成的特征圖進行逐像素點乘后輸出。該編碼方式提供了特征圖中任意兩像素點間的相對位置關(guān)系,可自適應(yīng)地根據(jù)全局圖像內(nèi)容信息生成位置編碼,相較而言提供了更大的感受野,有助于提升圖像整體復(fù)原效果。
判別器的目標(biāo)是準(zhǔn)確分辨出生成器復(fù)原出的樣本圖像和真實樣本圖像。本文采用了全卷積神經(jīng)網(wǎng)絡(luò)PatchGAN[23],網(wǎng)絡(luò)輸出一個判別矩陣。矩陣中每個像素點代表了原始圖像中某個圖像塊是復(fù)原樣本或真實樣本的概率,因此其可以充分考慮圖像中不同區(qū)域?qū)ε袆e結(jié)果的影響,使得生成器在訓(xùn)練的過程更加專注于復(fù)原圖像的細(xì)節(jié)、紋理等信息,并且有助于減少復(fù)原圖像偽影。最終,計算矩陣中所有元素的均值進行輸出。
條件式生成對抗網(wǎng)絡(luò)的損失函數(shù)在數(shù)學(xué)上可以表示為[16]:
其中:x表示輸入有霧圖像,y表示與之對應(yīng)的清晰無霧圖像,z表示噪聲信號。生成器G的目標(biāo)是最小化該損失函數(shù),而判別器D的目標(biāo)是最大化該損失函數(shù)。在網(wǎng)絡(luò)訓(xùn)練和推理時,都以dropout的形式替代噪聲信號[23]。
相關(guān)研究表明將上述對抗損失函數(shù)與L1損失函數(shù)混合使用有助于減少復(fù)原圖像偽影及顏色失真現(xiàn)象[23]。L1損失函數(shù)可以從像素級層面保證復(fù)原圖像與真實圖像的一致性。L1損失函數(shù)在數(shù)學(xué)上可以表示為:
同時,將感知損失考慮在內(nèi),在特征空間中對復(fù)原圖像和真實圖像進行比較,與像素空間形成互補。為了度量特征空間中的感知相似度,提取出了預(yù)訓(xùn)練VGG16模型[28]中的第2特征層和第5特征層中的特征信息,并將感知損失表示為:
其中,ξ表示預(yù)訓(xùn)練VGG16模型的特征提取器。
將三者進行結(jié)合,總的損失函數(shù)可以表示為:
其中,λ1和λ2均為權(quán)衡參數(shù)。
本節(jié)中,分別在公開的合成圖像數(shù)據(jù)集和真實圖像數(shù)據(jù)集上驗證所提出全局和局部特征融合去霧網(wǎng)絡(luò)的去霧效果。將所提去霧網(wǎng)絡(luò)與下述經(jīng)典的去霧算法進行對比,包括:DCP(Dark Channel Prior)[4],CAP(Color Attenuation Prior)[6],AODNet(All-in-One Dehazing Network)[8],EPDN(Enhanced Pix2pix Dehazing Network)[29],pix2pix[23],F(xiàn)FA-Net(Feature Fusion Attention Network)[30]和LD-Net(Light-DehazeNet)[31]。同時,設(shè)計了消融實驗來驗證所提出增強模塊和位置編碼生成器的有效性。
合成圖像數(shù)據(jù)集選擇RESIDE(Realistic Single Image Dehazing)數(shù)據(jù)集[32],該數(shù)據(jù)集主要基于大氣散射模型,隨機設(shè)定大氣光參數(shù)和環(huán)境散射系數(shù),針對每張清晰無霧圖像合成多張有霧圖像。模型參數(shù)訓(xùn)練時,從OTS(Outdoor Training Set)集合中隨機選取4 000張成對的有霧與無霧圖像用于訓(xùn)練。測試時,從SOTS(Synthetic Objective Testing Set)集合中隨機選取600張成對的有霧與無霧圖像用于分析和比較。
真實圖像數(shù)據(jù)集選擇近些年CVPR NTIRE去霧挑戰(zhàn)賽[33-35]中公開的數(shù)據(jù)集O-HAZE[36],DENSE-HAZE[37]和NH-HAZE[38]。三個數(shù)據(jù)集分別包含了45對戶外有霧場景圖像、55對濃霧場景圖像和55對非均勻分布有霧場景圖像。這些圖像都是通過專業(yè)的煙霧生成器,在戶外模擬不同程度的真實有霧場景抓拍生成的。在這155對圖像中,隨機選擇140對圖像用于訓(xùn)練,剩下15對用于測試。
基于PyTorch框架,去霧網(wǎng)絡(luò)的訓(xùn)練和測試階段均在NVIDIA GEFORCE RTX 3090 TI GPU上運行。所有圖像在輸入進網(wǎng)絡(luò)前均被調(diào)整為256×256大小的分辨率,同時訓(xùn)練過程中使用了ADAM優(yōu)化器。網(wǎng)絡(luò)的整體訓(xùn)練過程共計400次迭代,其中前200次迭代時學(xué)習(xí)率固定為0.000 1,后200次迭代學(xué)習(xí)率逐漸從0.000 1線性衰減為0。參照pix2pix模型[23],權(quán)衡參數(shù)λ1和λ2分別取100和50。每張圖像在RTX 3090 TI GPU上的平均運行時間為0.096 s。
客觀評價指標(biāo)采用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結(jié)構(gòu)相似度(Structural Similarity Index Measurement,SSIM)。不同去霧算法的客觀評價結(jié)果如表2所示,視覺對比效果如圖6所示。從表2中可以看出所提出的全局和局部特征融合去霧網(wǎng)絡(luò)實現(xiàn)了最優(yōu)的PSNR和SSIM指標(biāo),相較于FFA-Net分別提升了2.063 7 dB的PSNR和0.018 7的SSIM。從圖6中可以發(fā)現(xiàn),DCP和CAP算法在天空區(qū)域處理效果不佳,易出現(xiàn)顏色畸變;AODNet網(wǎng)絡(luò)去霧效果不明顯,復(fù)原圖像中仍存在著較多霧氣區(qū)域;EPDN網(wǎng)絡(luò)生成的圖像有時與真實清晰圖像存在一定的色差;pix2pix算法復(fù)原的圖像有時存在一定的偽影現(xiàn)象;FFA-Net重建的圖像有時存在部分細(xì)節(jié)不清晰;LD-Net復(fù)原出的圖像有時會出現(xiàn)顏色失真問題。與上述算法相比,所提去霧網(wǎng)絡(luò)復(fù)原出了視覺效果更好的清晰無霧圖像,并且有效地保留了原始圖像中的色彩和紋理信息。

表2 合成圖像數(shù)據(jù)集的客觀評價結(jié)果Tab.2 Objective evaluation results on synthetic image datasets

圖6 合成圖像數(shù)據(jù)集的視覺對比效果Fig.6 Visual contrast effect on synthetic image datasets
不同去霧算法在真實圖像數(shù)據(jù)集上的客觀評價結(jié)果如表3所示,視覺對比效果如圖7所示。從中可以看出CAP和AODNet算法的去霧效果并不明顯,復(fù)原圖像中仍存在著大量霧氣;DCP取得了一定程度上的去霧效果,但復(fù)原圖像有時顏色相對較暗;EPDN有效地去除了圖像中的霧霾,但也造成了顏色失真;pix2pix和FFA-Net保留了圖像的細(xì)節(jié)和紋理等信息,但去霧效果不夠徹底;LD-Net在此類圖像上的去霧效果表現(xiàn)不佳。與上述算法相比,所提出的全局和局部特征融合去霧網(wǎng)絡(luò)展示出了較好的去霧效果,圖像色彩還原度高,紋理也更加清晰,同時也取得了最優(yōu)的PSNR和SSIM指標(biāo)。雖然部分圖像的還原細(xì)節(jié)有些模糊,但網(wǎng)絡(luò)也展現(xiàn)出了較優(yōu)的性能和較大的潛力。

表3 真實圖像數(shù)據(jù)集的客觀評價結(jié)果Tab.3 Objective evaluation results on real image datasets

圖7 真實圖像數(shù)據(jù)集的視覺對比效果Fig.7 Visual contrast effect on real image datasets
為了進一步比較不同去霧算法的視覺效果,本文將去霧網(wǎng)絡(luò)在真實戶外有霧圖像數(shù)據(jù)中進行了測試,視覺對比效果如圖8所示。從圖中可以看出,DCP和CAP在去霧的同時,會給復(fù)原圖像帶來一定的顏色失真問題。AODNet的去霧效果并不明顯,復(fù)原圖像中仍存在著較大霧氣。EPDN恢復(fù)的圖像在某些區(qū)域中較為模糊。pix2pix實現(xiàn)了一定的去霧效果,但去霧后圖像的細(xì)節(jié)和紋理不夠清晰。FFA-Net的去霧效果仍然不夠理想,LD-Net有時也無法完全去除圖像中的霧霾。相較而言,所提去霧網(wǎng)絡(luò)復(fù)原的圖像更加真實和自然,色彩失真較少,圖像細(xì)節(jié)和紋理也更加清晰。

圖8 真實戶外有霧圖像的視覺對比效果Fig.8 Visual contrast effect on real outdoor hazy images
為了驗證所提出位置編碼生成器和增強模塊的有效性,設(shè)計了兩類消融實驗進行測試。針對位置編碼方法,對比了6種不同的編碼方式,分別為:(1)全局位置編碼生成器;(2)局部位置編碼生成器[26];(3)固定位置編碼[12];(4)相對位置編碼[15];(5)可學(xué)習(xí)位置編碼[14];(6)無位置編碼。6種編碼方式在合成圖像數(shù)據(jù)集和真實圖像數(shù)據(jù)集的客觀評價結(jié)果如表4所示。從中可以看出,通過位置編碼保留圖像的二維空間位置信息,對圖像復(fù)原結(jié)果至關(guān)重要。同時,僅提供相對位置編碼信息是不夠的,只有包含了絕對位置編碼信息,才能實現(xiàn)較好的復(fù)原效果。所提出的位置編碼生成器同時提供了像素點間的相對位置信息和絕對位置信息,并有效地結(jié)合了圖像全局內(nèi)容信息生成位置編碼,實現(xiàn)了最優(yōu)的PSNR和SSIM指標(biāo)。

表4 不同位置編碼方式的客觀評價結(jié)果Tab.4 Objective evaluation results of different positional encoding methods
為了驗證增強模塊的有效性,分別對包含增強模塊和不包含增強模塊的情況進行了測試,對比結(jié)果如表5所示。從中可以看出,增強模塊利用包含多尺度圖像塊的Transformer進一步融合了圖像全局特征信息,通過較大的感受野,有效地提升了復(fù)原圖像的質(zhì)量。

表5 增強模塊的客觀評價結(jié)果Tab.5 Objective evaluation results of the enhancer
本文克服了現(xiàn)有卷積操作表達(dá)方法的不足,提出了全局和局部特征融合去霧網(wǎng)絡(luò)。分別利用Transformer和卷積操作提取圖像全局和局部特征信息,發(fā)揮各自建模長距離依賴關(guān)系和局部感知特性的優(yōu)勢,實現(xiàn)了特征的高效表達(dá)。同時,設(shè)計了包含多尺度圖像塊的增強模塊,利用Transformer進一步聚合全局特征信息,豐富復(fù)原圖像細(xì)節(jié)。最后,提出了一個全局位置編碼生成器,自適應(yīng)地根據(jù)全局圖像內(nèi)容信息生成位置編碼。實驗結(jié)果表明:所提去霧網(wǎng)絡(luò)展現(xiàn)出了較好的去霧性能,在合成圖像數(shù)據(jù)集上可達(dá)到33.190 2 dB的PSNR和0.977 0的SSIM指標(biāo),在真實圖像數(shù)據(jù)集上可達(dá)到19.315 5 dB的PSNR和0.747 8的SSIM指標(biāo),復(fù)原圖像更加真實,細(xì)節(jié)還原度高。