鄔開俊,丁元
(蘭州交通大學 電子與信息工程學院,甘肅 蘭州 730070)
工業(yè)發(fā)展給環(huán)境造成了影響,大氣中的懸浮顆粒也逐漸增加,導致霧霾天氣的發(fā)生,并且使得日常生活中得到的圖像產(chǎn)生模糊、對比度下降等問題,因此對這類圖像進行目標檢測、目標識別、跟蹤和分割等計算機視覺任務會變得更為復雜.以上情況使得計算機視覺的自動化和遠程監(jiān)控系統(tǒng)等應用無法正常發(fā)揮作用,因此如何提高均勻和非均勻霧霾圖像的清晰度、對比度以及突出場景細節(jié)等問題具有重要的研究意義.
傳統(tǒng)的圖像去霧算法包括經(jīng)典的圖像增強算法,如直方圖均衡化、Retinex 算法[1]等,這類算法主要通過增強霧霾圖像的飽和度以及對比度來提高降質(zhì)圖像的質(zhì)量,但實質(zhì)并沒有從霧霾產(chǎn)生的條件出發(fā).另一類傳統(tǒng)的圖像去霧算法基于大氣散射模型[2],包括基于暗通道去霧算法[3]、變分模型去霧算法[4]、自適應霧度衰減去霧算法[5]、顏色衰減去霧算法[6]等,這類算法通過先驗知識估算大氣散射模型參數(shù),然后通過反演得到去霧圖像,這類算法受先驗知識的約束,導致魯棒性較差.
計算機硬件包括圖形處理器(Graphics Process?ing Unit,GPU)和張量處理器(Tensor Processing Unit,TPU)的發(fā)展,加速了計算機視覺任務的處理速度,出現(xiàn)了許多圖像處理方面的新型算法.近年來,基于深度學習的圖像去霧算法對比傳統(tǒng)去霧算法,效果得到了很大的提升,但是仍然存在顏色退化、紋理消失和光暈失真等問題.在真實世界中,圖像場景的霧霾分布并非均勻,所以圖像場景中物體的退化程度也有較大差異.對于這種非均勻霧霾圖像,在去霧模型的設計中應該加入相應模塊,注重處理不同空間的不同霧霾濃度和不同景深的不同色彩退化問題.以上問題可以采用多尺度模型和注意力機制來解決,例如文獻[7]中采用多UNet 網(wǎng)絡分別輸出不同尺度特征再進行合并的方式實現(xiàn)多尺度特征提取,雖然該模型通過對圖像不同空間尺度特征的分層整合來實現(xiàn)高級和低級特征的學習,但是使用這種方法采用大量的下采樣和上采樣操作,模型規(guī)模大,訓練和運行時間較長.
綜上,本文采用了一種新的深度學習體系結構,該體系結構采用了雙層視覺特征提取及多尺度注意力特征融合.該模型采用生成對抗網(wǎng)絡(Generative Adversarial Network,GAN)[8]架構,采用UNet3+[9]和金字塔特征融合模塊構成生成器來提取復雜的霧霾特征,文獻[9]中證明在保障相同的編碼結構的前提下,UNet3+的參數(shù)量相比UNet 更少,并且UNet3+網(wǎng)絡結合了多尺度特征,采用新的跳躍連接方式,并利用多尺度的深度監(jiān)督,可以在更少的參數(shù)條件下,產(chǎn)生更有效的特征圖.融合自注意力多尺度金字塔特征融合模塊可以有效利用UNet3+網(wǎng)絡所提取的不同尺度的空間信息,并提出了一種自注意力機制(Self Attention,SA)的改進方法,降低像素內(nèi)部的高相關性在學習中的相互干擾,加大注意力特征圖對總體特征分析的影響.
本篇論文研究圖像去霧方法,單幅圖像去霧是一個不適定問題,因為測試數(shù)據(jù)不足,不能很好地學習霧霾圖像的特征,不能較好地訓練模型,而且去霧模型對于圖像噪聲十分敏感.根據(jù)大氣散射模型,霧霾圖像是由大氣光、場景中物體的反照率和霧霾介質(zhì)的透射圖來確定.去霧過程中必須預測未知的透射圖和大氣光值,在過去,已經(jīng)提出了許多方法來完成這一預測.這種方法可分為兩類,即基于先驗的方法和基于學習的方法.基于先驗的方法依賴從圖像中人工獲取先驗知識,利用額外的數(shù)學補償來構建去霧的信息;基于學習的方法則利用神經(jīng)網(wǎng)絡直接學習無霧圖像和霧霾圖像之間的映射關系,實現(xiàn)端到端的輸出.
Tan[10]在算法中加入馬爾可夫隨機場來最大化霧霾圖像的局部對比度實現(xiàn)去霧.He 等人[3]提出了利用暗通道先驗估計來預測大氣散射模型透射圖的方式實現(xiàn)去霧,之后改進暗通道的去霧技術不斷出現(xiàn),比如吳迪等人[11]提出的基于暗通道的快速圖像去霧方法研究,肖進勝等人[12]提出的基于天空約束暗通道先驗的圖像去霧以及楊紅等人[13]提出的基于暗通道的遙感圖像云檢測算法,等等.Fattal[14]基于對圖像塊在RGB 顏色通道中通常呈現(xiàn)的一維分布,提出了一種色線法.雖然傳統(tǒng)算法在去霧方面取得了不錯的效果,但還是存在局限性較大、魯棒性較差的問題.
Cai 等人[15]提出去霧模型DehazeNet,首次利用卷積神經(jīng)網(wǎng)絡實現(xiàn)圖像去霧算法.Zhang 等人[16]提出利用深層網(wǎng)絡結構估計大氣散射模型中的傳輸圖以及大氣光值,進而得到無霧圖像.Ren 等人[17]提出了采用多尺度卷積神經(jīng)網(wǎng)絡的去霧算法(MSCNN),可以通過不同尺度的特征融合,提高去霧后圖像的質(zhì)量.Yu 等人[18]提出的基于馬爾可夫判別器的圖像去霧算法,可以通過在判別器中對比有霧圖像和去霧圖像的局部一致性,提高整體一致性.Qu 等人[19]提出了增強的Pix2Pix 模型,該模型之前廣泛應用于圖像風格遷移領域,該方法采用了一個帶有增強器模塊的GAN,以獲得更有質(zhì)量的生成圖像,同時減少模型復雜度.近年來,基于學習的方法在圖像去霧領域取得了重大的發(fā)展,本文算法實現(xiàn)的是一種基于學習的端到端去霧,網(wǎng)絡模型直接生成去霧圖像而省去了預測透射圖和大氣光值的步驟,并且提高了去霧后圖像的質(zhì)量.
算法生成器結構如圖1 所示,由雙層UNet3+網(wǎng)絡模塊以及融合自注意力機制[20]多尺度金字塔特征融合模塊組成,下面介紹不同模塊細節(jié).

圖1 生成器結構Fig.1 Generator structure
2.1.1 雙層UNet3+網(wǎng)絡模塊
模塊由兩個級聯(lián)的UNet3+網(wǎng)絡單元組成,上一個網(wǎng)絡單元的輸出作為下一個網(wǎng)絡單元的輸入.兩個UNet3+網(wǎng)絡單元的輸出合并起來提供一個320 個通道的特征圖,下面的公式(1)、公式(2)描述該模塊的工作方式:
式中:I1、I2分別為第1、2 個UNet 單元的輸出;Ihaze為輸入的YCbCr 空間霧霾圖像.整個模塊的輸出為I,可描述為公式(3),其中⊕為按位求和.
模型將原始UNet3+網(wǎng)絡的5 層結構增加為7層,關于UNet3+網(wǎng)絡單元個數(shù)的選擇會在之后的消融實驗中介紹.下面討論采用串聯(lián)2 個7 層UNet3+網(wǎng)絡的需求.
在圖像特征分割的過程中,不同尺度的特征圖展現(xiàn)不同的信息,低層次特征圖捕捉豐富的空間信息,能夠突出霧霾圖像中內(nèi)容的邊界;而高級語義特征圖則體現(xiàn)了內(nèi)容所在的位置信息.在提取特征的過程中隨著下采樣和上采樣操作,圖像特征的傳遞會逐漸消減,而UNet3+網(wǎng)絡充分利用多尺度特征,引入全尺度的跳躍連接(Skip Connection,SC)[9]結合了來自全尺度特征圖的低級語義和高級語義,參數(shù)更少,并且進行深度監(jiān)督(Deep Supervisions,Sup)[9],增加神經(jīng)網(wǎng)絡的深度和表征能力的同時,避免梯度消失和梯度爆炸等現(xiàn)象.深度監(jiān)督分支還能夠起到判斷特征圖質(zhì)量好壞的作用,從全面的聚合特征圖中學習層次表示.為了實現(xiàn)深度監(jiān)督,網(wǎng)絡中每一個解碼器的輸出先送入3×3 的卷積層,然后經(jīng)過雙線性上采樣,目的是將第2、3、4、5、6、7 層得到的特征圖上采樣為全分辨率特征圖,保證與第1 層相同,實現(xiàn)全尺寸監(jiān)督,最后接一個Sigmoid 函數(shù).相比采用4~5 個UNet 網(wǎng)絡串聯(lián)操作,或是UNet++網(wǎng)絡,UNet3+網(wǎng)絡在減少網(wǎng)絡參數(shù)的同時也提高了計算和訓練速度,還可以在特征提取的過程中產(chǎn)生更加具有層次和邊界效應的特征圖.
為了使UNet3+網(wǎng)絡更加精確地提取圖像的局部和全局信息,本算法將原始UNet3+網(wǎng)絡的5 層結構增加為7 層,如圖2 所示,圖中E 代表編碼、D 代表解碼,7 層拼接融合形成224(7×32)通道的特征圖.更多的層次可以帶來更多不同尺度的特征信息.實際測試中,單獨7 層UNet3+網(wǎng)絡也可以得到不錯的去霧效果,然而對于復雜的霧霾圖像和不均勻霧霾圖像,可能無法提取復雜的特征信息并生成相應的輸出.為了解決這一問題,本算法采用的方法是增加UNet3+網(wǎng)絡的個數(shù)進行級聯(lián),以便學習更加復雜的特征信息.隨著層數(shù)的輸入,單純采用單網(wǎng)絡架構會造成大量空間信息的丟失,而采用級聯(lián)多個UNet3+網(wǎng)絡的方式則可以減小這一問題帶來的影響.每個UNet3+網(wǎng)絡編碼器下采樣得到特征,解碼器端將這些特征上采樣到相同的高寬通道,多個生成器的組合有助于學習和保留更加復雜的空間信息.

圖2 7層UNet3+網(wǎng)絡Fig.2 7-layer UNet3+network
2.1.2 融合自注意力機制多尺度金字塔特征融合模塊
由于經(jīng)過級聯(lián)UNet3+模塊的特征圖缺乏不同大小圖像Patch的結構信息,所以在UNet3+模塊之后加入多尺度金字塔特征融合模塊.早期的金字塔結構被用來提取全局結構信息[21],本文則利用金字塔結構解決不同尺度結構信息不能直接用于生成預測圖像的問題,具體原理如圖3所示.

圖3 特征融合示意圖Fig.3 Feature fusion diagram
首先采用多個不同卷積核大小的卷積層得到對應不同空間尺度的結構信息,從而生成不同的輸出映射.在模型中,不同卷積核的大小設為3、5、7、11、17、25、35、45,采用奇數(shù)卷積核可以使得輸出像素周圍的特征具有對稱性,避免圖像失真,并且采用零填充來避免邊緣特征丟失.之后將金字塔卷積得到的不同尺度的特征經(jīng)過SA 進入特征融合編碼器進行特征融合,進一步將底層的語義信息和高層的語義信息進行結合,使得網(wǎng)絡可以學習霧霾圖像更加豐富的特征信息.經(jīng)過特征編碼器的特征圖直接送入解碼器,將特征解碼為圖像,得到輸出圖像.通過這種方式,局部和全局的信息都可以用于最終的圖像重構.
使用多尺度金字塔特征融合模塊的效果如圖4所示,圖中的矩形框選中不同大小卷積核所生成的圖像部分特征,分別是3、11、25 卷積核,以展示輸出特征圖的細節(jié)特征.在下方的圖中顯示的是特征圖映射為圖像后的細節(jié)對比,通過多層金字塔卷積學習保留多尺度的空間信息.實驗部分通過消融實驗,證明該模塊的有效性.

圖4 3×3、11×11和25×25卷積層的特征映射Fig.4 Feature mapping of 3 × 3,11 × 11 and 25 × 25 convolution layers
對于單一霧霾圖像去霧,圖像內(nèi)部的信息非常重要,所以本算法采用的方法是利用SA,減少對外部信息的依賴.由于傳統(tǒng)的特征提取網(wǎng)絡的感受野依賴卷積核的大小,所以在特征提取過程中會缺乏全局信息,丟失間隔較遠像素之間的關聯(lián),而采用SA 則可以很好地解決這一問題.RGB 空間R、G、B 色之間存在高相關性,像素內(nèi)部的高相關性會在學習中相互干擾,阻礙圖像細節(jié)恢復.針對以上霧霾圖像特征提取存在的問題,使用YCbCr 空間代替RGB 空間,減少高相關性的影響,增強注意力特征圖對總體特征分析的影響,并提出改進的SA,提高對霧霾圖像特征提取的有效性,具體改進方法如下:
1)為了降低像素內(nèi)部的高相關性,增加圖像細節(jié)恢復,數(shù)據(jù)處理階段采用YCbCr 空間代替RGB 空間,YCbCr 顏色空間可以分割在RGB 顏色空間中難以分離的對象,進一步增強紋理細節(jié)恢復,具體方式為:
2)為了增強對霧霾圖像不同霧度區(qū)域的特征捕獲能力,在SA 模塊中加入softmax 結構和expend 結構,通過增加模型寬度豐富細節(jié)信息,以達到對注意力模塊的加強.
3)在經(jīng)過以上兩個操作之后,將改進的SA 模塊加入模型,在降低像素內(nèi)部的高相關性的同時,增強對霧霾圖像不同霧度區(qū)域的特征捕獲能力,具體改進后SA的結構如圖5所示.

圖5 改進自注意力機制結構圖Fig.5 Improved self-attention mechanism structure diagram
判別器采用馬爾可夫判別器,整體完全由可以學習的卷積層構成,通過對最后輸出矩陣取均值輸出.輸出矩陣的每一位代表原圖像的一個感受野,這樣對于圖像清晰化有一定的高細節(jié)保持.判別器整體采用4×4 的卷積核,每一個整體由一個Spectral?norm 層、一個4×4 的卷積層和一個LeakyReLU 激活層組成,而最后一塊加入SA,通過Sigmoid 函數(shù)得到輸出映射,具體結構如圖6所示.

圖6 判別器結構Fig.6 Discriminator structure
在損失函數(shù)的選擇上,采用可以在功能上接近人類感知的損失函數(shù),包括對抗損失函數(shù)[22]、L2 損失函數(shù)[23]、感知損失函數(shù)[24]以及結構相似損失函數(shù)[7],通過多損失函數(shù)的組合更好地對模型進行約束.生成對抗網(wǎng)絡損失可以描述為:
式中:D為判別器;G為生成器;x為輸入的霧霾圖像;y為與霧霾圖像對應的清晰圖像;E為計算所得到的數(shù)學期望.
L2損失函數(shù)體現(xiàn)了清晰圖像與預測圖像之間的差值平方和,可描述為:
式中:IGT為清晰圖像;Ipred為預測圖像.
感知損失函數(shù)設計基于VGG-19 網(wǎng)絡,將真實的清晰圖像卷積得到的特征與生成器生成的圖像卷積得到的特征進行比較,使得圖像的全局結構更加接近,生成的圖像和目標圖像通過不可訓練的VGG網(wǎng)絡傳遞,可描述如下:
式中:C、W、H分別為輸出的通道、寬度和高度;V為非線性CNN 變換,由VGG 網(wǎng)絡執(zhí)行,對于Pool-4 層的輸出,可以近似為1e-5;這一損失函數(shù)本質(zhì)就是使用F2 范數(shù)計算清晰圖像和預測圖像通過VGG 網(wǎng)絡處理后的平方加標準化.
結構相似性(SSIM)損失函數(shù)對應預測圖像與清晰圖像之間的結構差異,可描述如下:
式中:SSIM 為清晰圖像與預測圖像之間的結構相似性指數(shù).
以上損失函數(shù)中,L2 損失和感知損失具有同樣的形式,但是感知損失的計算空間轉(zhuǎn)換到了特征空間.L2 損失和結構相似損失都是對預測圖像和清晰圖像的直接比較,L2損失對結構細節(jié)并不敏感,而結構相似損失重點對比圖像的結構內(nèi)容,所以擁有互補的性質(zhì).
最后將所有的損失函數(shù)加權組合,生成器和判別器的損失分別如下所示:
式中:A、B為變量權重,其值分別設置為A1=0.7、A2=0.5、A3=1.0、A4=1.0、B1=1.0.
為了避免其他去霧文獻中只采用人工合成霧霾圖像且只存在均勻霧霾的情況,本文基于VOC 數(shù)據(jù)集,采用引導濾波生成大量的不均勻霧霾數(shù)據(jù),加入NTIRE-(2020+2021)非均勻去霧挑戰(zhàn)數(shù)據(jù)集[25-26]、NTIRE 2018 圖像去霧室外數(shù)據(jù)集(O-Haze)[27]和Dense-Haze濃厚霧霾數(shù)據(jù)集[28]進行訓練和測試.
O-Haze 數(shù)據(jù)集包含35 張圖像用于訓練,5 張圖像用于測試;NTIRE-(2020+2021)數(shù)據(jù)集包含45 張圖像用于訓練,15 張圖像用于測試;人工基于VOC數(shù)據(jù)集合成數(shù)據(jù)集,這個數(shù)據(jù)集包含2 000 張圖像,用于預訓練網(wǎng)絡權值,圖7 展示了部分合成的不均勻霧霾圖像.Dense-Haze 數(shù)據(jù)集是其中最具有挑戰(zhàn)性的,很多先進的去霧算法在這個數(shù)據(jù)集中的表現(xiàn)都欠佳,雖然本算法在該數(shù)據(jù)集上的性能相比其他數(shù)據(jù)集而言較差,但是定量比較指數(shù)優(yōu)于所對比的先進算法,從定性的比較可以看出,由于Dense-Haze數(shù)據(jù)集場景的霧霾十分稠密,所以很多方法幾乎不能有效生成清晰圖像,但本算法可以實現(xiàn)有效去霧,表現(xiàn)出場景中的細節(jié),但是仍然存在一定的色差問題,與實際清晰圖像存在一定的差異.人工合成數(shù)據(jù)集主要用于遷移學習中對網(wǎng)絡的參數(shù)進行預訓練,其他標準數(shù)據(jù)集均在訓練數(shù)據(jù)集進行訓練,在測試數(shù)據(jù)集進行測試.由于標準數(shù)據(jù)集中的圖像數(shù)量較少,因此在訓練過程中采用了隨機角度翻轉(zhuǎn)、隨機裁剪、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)等數(shù)據(jù)增強方法.

圖7 部分合成不均勻霧霾圖像Fig.7 Partially synthesized uneven hazy images
訓練使用Adam優(yōu)化器[29],初始的生成器和判別器學習率均為0.000 1.采用人工合成數(shù)據(jù)集對網(wǎng)絡進行預訓練,在對標準數(shù)據(jù)集進行訓練之前,采用遷移學習的方式將預訓練權重載入網(wǎng)絡模型.標準數(shù)據(jù)集中圖像大小為1 600×1 200×3,導致訓練出現(xiàn)GPU 顯存不足,因此采用雙三次插值算法將圖像大小調(diào)整為512×512×3.而文獻[30]提出,霧霾圖像在YCrCb 空間相較于RGB 空間對去霧過程的影響更小,特別是對于Cr、Cb 兩個色度通道,因此將圖像由RGB 空間轉(zhuǎn)換到YCbCr 空間進行訓練,提高色彩恢復效果.通過實驗測試,最終確定預訓練過程一共進行20 輪,標準數(shù)據(jù)集訓練一共進行500 輪,500 輪之后損失不再有明顯降低.其中前300 輪采用初始學習率,后200輪每100輪生成器學習率降為原來的一半,提高網(wǎng)絡收斂性.
本小節(jié)對本論文模型和引用文獻中其他算法模型的結果進行比較,將所有測試圖像的大小轉(zhuǎn)換為512×512×3,定量的評價采用峰值信噪比(PSNR)[31]和結構相似性(SSIM)[32]進行度量.測試以人工合成數(shù)據(jù)集、O-Haze 數(shù)據(jù)集、NTIRE-(2020+2021)數(shù)據(jù)集以及Dense-Haze 數(shù)據(jù)集的測試集為標準,對比算法的介紹如表1所示.

表1 對比算法詳情Tab.1 Comparison algorithm details
3.3.1 人工合成數(shù)據(jù)集測試
為了驗證提出算法模型去霧的有效性,該測試環(huán)節(jié)選用CVPR’16[4]、BPPNET[7]、CVPRW’18[21]、CGAN[33]進行對比實驗.從表2 的定量比較中可以看出模型平均PSNR 和SSIM 分別為30.31、0.958,且均優(yōu)于所對比的先進算法.對測試數(shù)據(jù)的定性比較如圖8 所示,可以看出本文模型去霧之后的結果更加符合人眼的視覺體驗,包括燈光、物品細節(jié)以及清晰度,而其他算法在去霧效果上明顯存在缺陷,無論是燈光的觀感還是細節(jié)的恢復.但由于人工合成數(shù)據(jù)集主要作用是遷移學習而預訓練網(wǎng)絡權重,因此其對比試驗不是本次實驗的重點.

表2 測試集上進行的定量分析結果Tab.2 Quantitative analysis results on test datasets

圖8 人工合成數(shù)據(jù)集上,將各種模型與本文模型進行定性比較Fig.8 Qualitative comparison of various models with this model on synthetic dataset
3.3.2 標準數(shù)據(jù)集測試
標準數(shù)據(jù)集測試主要針對O-Haze 數(shù)據(jù)集、NTIRE-(2020+2021)數(shù)據(jù)集以及Dense-Haze數(shù)據(jù)集的測試集.選用傳統(tǒng)方法DCP[3]、CVPR’16[4]、MSRCR[34]和基于深度學習的方法BPPNET[7]、CVPRW’18[21]、文獻[35]方法、Grid DN[36]網(wǎng)絡模型進行對比.
O-Haze:本文模型在測試數(shù)據(jù)集上的平均PSNR和SSIM 分別為27.83、0.916.從表2可以看出本模型的PSNR 和SSIM 指數(shù)優(yōu)于其他對比的先進算法.由于I-Haze 數(shù)據(jù)集屬于室內(nèi)霧氣圖像且難度低于O-Haze 數(shù)據(jù)集,因此本次測試沒有進行該數(shù)據(jù)集的測試.實驗在O-Haze 數(shù)據(jù)集上的定性比較如圖9所示.
NTIRE-(2020+2021):本文模型在測試數(shù)據(jù)集上的平均PSNR 和SSIM 分別為20.82、0.902,從表2可以看出本文模型在PSNR 和SSIM 指數(shù)方面優(yōu)于對比的其他先進算法.實驗在該數(shù)據(jù)集上的定性比較如圖9所示.

圖9 NTIRE-(2020+2021)數(shù)據(jù)集和O-Haze數(shù)據(jù)集上,將各種模型與本文模型進行定性比較Fig.9 Qualitative comparison of various models with this model on NTIRE-(2020+2021)dataset and O-Haze datasets
Dense-Haze:該數(shù)據(jù)是所測試數(shù)據(jù)集中最具有挑戰(zhàn)性的,與O-Haze 數(shù)據(jù)集和NTIRE-(2020+2021)數(shù)據(jù)集相比,由于不均勻稠密霧霾導致大多數(shù)先進的去霧方法在這個數(shù)據(jù)上的表現(xiàn)都不盡如人意,有的效果甚至很糟糕.本文方法在該數(shù)據(jù)集上表現(xiàn)雖然弱于O-Haze 數(shù)據(jù)集和NTIRE-(2020+2021)數(shù)據(jù)集,但是從表2 可以看出,PSNR 和SSIM 平均值仍然優(yōu)于所對比的其他先進算法.實驗在該數(shù)據(jù)集上的定性比較如圖10 所示,增強之后圖像的細節(jié)清晰度低于O-Haze 數(shù)據(jù)集和NTIRE-(2020+2021)數(shù)據(jù)集,但相比于其他算法,只有文獻[35]網(wǎng)絡的結果與本算法接近,但是從圖像中的細節(jié)表現(xiàn)可以看出,本算法在一些場景的細節(jié)以及色差控制方面要好于文獻[35]網(wǎng)絡.

圖10 Dense-Haze數(shù)據(jù)集上,將各種模型與本文模型進行定性比較Fig.10 Qualitative comparison of various models with this model on Dense-Haze dataset
為了驗證模型中不同模塊在實際去霧表現(xiàn)中的有效性,使用NTIRE 和O-Haze 數(shù)據(jù)集進行消融實驗.通過以下不同模型進行消融實驗:1)首先考慮不同UNet3+網(wǎng)絡模塊對于去霧結果的影響,模型A 表示采用一個UNet3+網(wǎng)絡,模型B 表示采用三個UNet3+網(wǎng)絡;2)考慮融合自注意力機制多尺度金字塔卷積特征融合模塊的存在對于模型結果的影響,模型C 表示去除該模塊;3)考慮預訓練數(shù)據(jù)集對于模型結果的影響,模型D 表示取消加載預訓練權重;4)考慮改進SA 對模型結果的影響,模型E 表示采用原始SA 方法;5)考慮使用YCbCr 空間進行訓練對結果的影響,模型F表示采用RGB 空間訓練網(wǎng)絡.定量比較、定性比較結果如表3和圖11所示.

圖11 消融實驗定性比較Fig.11 Qualitative comparison of ablation experiments

表3 消融實驗的定量分析結果Tab.3 Quantitative analysis results of ablation experiment
從結果對比可以很明顯看到:1)減少UNet3+模塊的數(shù)量會降低性能,而增加模塊數(shù)量并不能帶來較大的性能提升,所以2 個UNet3+模塊是最終的選擇;2)刪除金字塔卷積特征融合模塊會使性能嚴重降低,圖像產(chǎn)生模糊不清的情況,細節(jié)恢復較差;3)從定量比較中可以看出預訓練權值能有效提高網(wǎng)絡的PSNR 指數(shù)和SSIM 指數(shù),從定性比較中也可以看出不加載預訓練權重的情況下也出現(xiàn)了色差問題;4)采用原始SA 得到的結果與改進SA 在視覺效果上十分接近,但從定量比較仍然可以看出改進SA 所得到的評價參數(shù)值更高;5)采用RGB空間訓練網(wǎng)絡,在NTIRE 數(shù)據(jù)集上,SSIM 指數(shù)與采用YCrCb 空間訓練網(wǎng)絡的結果持平,但PSNR 指數(shù)相較于YCrCb空間訓練網(wǎng)絡在測試數(shù)據(jù)集上都有明顯的下降,定性比較中可以看出采用RGB空間所得到的清晰圖像色彩更為深沉,視覺效果差距不大.上述消融實驗表明,網(wǎng)絡設計過程中考慮的每個因素在網(wǎng)絡最終性能中都起著至關重要的作用.
本文所提出的基于雙層視覺及多尺度注意力融合的圖像去霧算法,可以實現(xiàn)端到端的去霧,并且通過實驗證明了算法在去霧任務中的強大能力,適用于室內(nèi)、室外、密集和不均勻霧霾圖像去霧等多種情況.算法針對霧霾圖像的特點改進了自注意力機制結構,證明了改進的有效性.實驗中采用的標準數(shù)據(jù)集規(guī)模較小,但仍取得了良好的效果,證明算法在小規(guī)模數(shù)據(jù)集上的顯著優(yōu)勢.通過測試可以看出算法在所測試的數(shù)據(jù)集中的表現(xiàn)都超過了所對比的其他先進算法,在Dense-Haze 數(shù)據(jù)集上的峰值信噪比和結構相似性指數(shù)分別達到24.82 和0.769.實驗還采用了大規(guī)模數(shù)據(jù)集來預訓練網(wǎng)絡權重,證明了預訓練網(wǎng)絡參數(shù)在圖像去霧領域的有效性.算法存在的不足主要體現(xiàn)在稠密霧霾圖像去霧后存在的色差問題,未來可以加入色彩恢復相關損失函數(shù)或者歸一化方法來提高模型對于色差的控制力度,來達到更好的效果.