米澤田 晉 潔 李圓圓 丁雪妍 梁 政 付先平②
①(大連海事大學(xué)信息科學(xué)技術(shù)學(xué)院 大連 116026)
②(鵬城實(shí)驗(yàn)室 深圳 518000)
③(安徽大學(xué)互聯(lián)網(wǎng)學(xué)院 合肥 230039)
近年來,隨著人工智能產(chǎn)業(yè)的不斷進(jìn)步,海洋技術(shù)也在向著智能化方向發(fā)展。水下機(jī)器人被廣泛應(yīng)用在深海作業(yè)、海底生物監(jiān)測(cè)、地形勘探等方面。但是復(fù)雜的水下成像環(huán)境會(huì)嚴(yán)重影響機(jī)器人的視覺感知能力,如:(1)水體對(duì)光能量的選擇性吸收和強(qiáng)散射,導(dǎo)致水下獲取的圖像和視頻通常具有低照度、顏色失真以及低對(duì)比度等特性,能見度較差;(2)大量的懸浮顆粒帶來了明顯的噪聲,進(jìn)一步降低了后續(xù)水下目標(biāo)識(shí)別任務(wù)的精度。因此,水下圖像增強(qiáng)這一課題受到研究學(xué)者的廣泛關(guān)注。
目前,水下圖像增強(qiáng)方法大致分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)方法可以分為基于非物理模型的方法和基于物理模型的方法。其中,基于非物理模型的方法不考慮水下圖像退化的本質(zhì)過程,僅通過調(diào)整圖像的局部特征來提高其視覺質(zhì)量,如:自適應(yīng)直方圖均衡化[1]、限制對(duì)比度直方圖均衡化[2]、灰度世界假設(shè)[3]、色彩恒常[4]、小波變換[5]等。上述方法沒有考慮水下圖像成像的物理過程,因此很容易產(chǎn)生失真、偽影、過度增強(qiáng)或增強(qiáng)不足等問題。基于物理模型的方法首先根據(jù)水下光學(xué)成像物理過程構(gòu)建成像模型,其次利用先驗(yàn)信息來估計(jì)成像模型中的參數(shù)[6,7]。典型方法有:紅通道先驗(yàn)[8]、最小信息先驗(yàn)[9]等。這些基于物理模型的方法雖然可以實(shí)現(xiàn)一定程度的圖像恢復(fù),但過度依賴先驗(yàn)信息,并且參數(shù)求解的準(zhǔn)確與否對(duì)結(jié)果影響較大。這對(duì)不同場(chǎng)景水下圖像的泛化能力較差,具有一定的局限性。
隨著深度學(xué)習(xí)的快速發(fā)展,許多深度學(xué)習(xí)方法也都應(yīng)用在了水下圖像增強(qiáng)方面。例如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[10]、生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[11,12]。它們通過學(xué)習(xí)水下降質(zhì)-清晰圖像對(duì)之間的映射關(guān)系,從而重構(gòu)清晰的水下圖像。Wang等人[11]提出了一種無監(jiān)督生成對(duì)抗網(wǎng)絡(luò)(UnderWater Generative Adversarial Network, UWGAN)。首先,基于改進(jìn)的水下成像模型,UWGAN利用陸地圖像和深度圖對(duì)生成逼真的水下圖像。然后,使用合成的水下數(shù)據(jù)集訓(xùn)練U-Net,可以有效解決顏色失真和能見度下降問題。隨著卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的增多,圖像特征會(huì)逐漸消減。為解決這個(gè)問題,Guo等人[13]提出了一種新的多尺度稠密生成對(duì)抗網(wǎng)絡(luò)用于水下圖像增強(qiáng),該方法在生成器中引入殘差多尺度密集塊。其中,多尺度操作、密集級(jí)聯(lián)和殘差學(xué)習(xí)分別用于提高性能、渲染更多細(xì)節(jié)和充分利用特征。判別器則采用計(jì)算光譜歸一化的方法來穩(wěn)定訓(xùn)練。同時(shí),該方法利用非飽和GAN損失、l1損失和梯度損失來生成視覺舒適的圖像。
上述方法雖然解決了特征利用不全面的問題,但是GAN訓(xùn)練起來較為困難,且生成器與判別器之間的同步問題難以很好地解決。為克服該局限性,充分利用圖像的特征信息,本文提出一個(gè)多尺度級(jí)聯(lián)網(wǎng)絡(luò)框架。在多個(gè)數(shù)據(jù)集上的定性和定量評(píng)價(jià)分析表明,所提方法相比于其他先進(jìn)的水下圖像增強(qiáng)方法,在顏色和細(xì)節(jié)方面恢復(fù)的更好。主要貢獻(xiàn)有:
(1) 級(jí)聯(lián)原始圖像和其相應(yīng)的特征圖,解決網(wǎng)絡(luò)傳播過程中特征逐漸消失的問題,提高特征的利用率。
(2) 設(shè)計(jì)了特征提取模塊(Feature Extraction Module, FEM) 和多尺度級(jí)聯(lián)模塊(Multi-scale Cascade Module, MsCM),利用多尺度網(wǎng)絡(luò)提取不同尺度的信息,得到多尺度特征圖,解決單一網(wǎng)絡(luò)層提取特征有限的問題。
(3) 引入了聯(lián)合密集網(wǎng)絡(luò)塊和遞歸塊的設(shè)計(jì),通過特征重用,避免學(xué)習(xí)冗余特征圖,有效解決多尺度網(wǎng)絡(luò)參數(shù)過多的問題。
(4) 構(gòu)建了Charbonnier和結(jié)構(gòu)相似度(the Structural SIMilarity, SSIM) 聯(lián)合損失函數(shù),有效解決單一損失恢復(fù)細(xì)節(jié)有限的問題,通過更好地處理異常值,避免生成圖像中偽影的產(chǎn)生,提高模型的魯棒性。
本文通過設(shè)計(jì)多尺度級(jí)聯(lián)網(wǎng)絡(luò),解決網(wǎng)絡(luò)傳播過程中特征消散和梯度消失的問題,對(duì)水下圖像進(jìn)行細(xì)節(jié)恢復(fù)和顏色校正,網(wǎng)絡(luò)框架結(jié)構(gòu)如圖1所示。首先輸入水下降質(zhì)圖像,經(jīng)過FEM獲得特征圖像;其次將原始圖像的多個(gè)尺度與FEM生成特征圖像的多個(gè)尺度對(duì)應(yīng)級(jí)聯(lián);再通過MsCM使不同尺度空間的圖像獲得相應(yīng)的特征權(quán)重。最后融合不同尺度的信息和特征,輸出清晰的水下圖像。其中,Conv代表卷積層,AvgPooling代表平均池化,BN(Batch-Normalization)代表批標(biāo)準(zhǔn)化,ReLU(Rectified Linear Unit)代表修正線性單元,LReLU(Leaky Rectified Linear Unit)代表帶泄露的修正線性單元。
本節(jié)將分別從FEM, MsCM以及損失函數(shù)3部分對(duì)多尺度級(jí)聯(lián)網(wǎng)絡(luò)模型的細(xì)節(jié)進(jìn)行闡述。
與陸地圖像相比,水下圖像色偏的覆蓋面更廣,不同水下圖像需要恢復(fù)的特征均不同。因此,對(duì)水下不同色偏、不同種類的圖像提取不同的特征變得非常重要。一般來說,卷積神經(jīng)網(wǎng)絡(luò)越深,效果越好,但會(huì)面臨梯度消失的問題。圖像經(jīng)過的卷積層數(shù)越多,最先提取的特征也會(huì)減弱。Dense-Net121網(wǎng)絡(luò)結(jié)構(gòu)[14]簡(jiǎn)單,并且可以用較少的網(wǎng)絡(luò)參數(shù)量,減輕梯度消失的問題,提高特征的傳播效率和利用效率。因此,受其啟發(fā),本文提出了一種優(yōu)化的FEM以有效解決在特征提取過程中產(chǎn)生的梯度消失等問題。
DenseNet121網(wǎng)絡(luò)結(jié)構(gòu)包含4個(gè)Dense Block,其中每個(gè)Dense Block中所包含的卷積塊個(gè)數(shù)分別是6, 12, 24, 16。4個(gè)Dense Block之間都由Transition Layer層相連,其中Transition Layer由1×1的Conv和2×2的AvgPooling組成。為更好地加強(qiáng)特征傳播,減少參數(shù)量,F(xiàn)EM以DenseNet121為基礎(chǔ)結(jié)構(gòu)并做出了一些改進(jìn),減少一些冗余的網(wǎng)絡(luò)參數(shù)和Dense Block,來對(duì)輸入的水下圖像進(jìn)行特征提取。改進(jìn)后的FEM網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先將輸入的水下圖像通過3×3的Conv, BN層,ReLU進(jìn)行初始化。然后,為減少網(wǎng)絡(luò)參數(shù)量,在FEM中定義2個(gè)Dense Block。為了降低特征層數(shù)的傳遞,在每一個(gè)Dense Block的后面連接BN層,ReLU,1×1的Conv。最后,特征提取之后的結(jié)果通過BN層,ReLU輸出。其中,第1個(gè)Dense Block結(jié)構(gòu)中由6組卷積塊組成,第2個(gè)Dense Block結(jié)構(gòu)中由12組卷積塊組成,每一個(gè)Dense Block結(jié)構(gòu)中的卷積塊之間相互連接。每個(gè)卷積塊的輸入都包含該層之前所有層的特征圖,同時(shí)該層的特征圖用作后續(xù)所有層的輸入,能夠有效增強(qiáng)特征復(fù)用、加強(qiáng)特征傳播。卷積塊的具體結(jié)構(gòu)如圖2所示,每一個(gè)卷積塊都是由BN層,ReLU, 1×1的Conv和BN層,ReLU, 3×3的Conv組成的。FEM在實(shí)現(xiàn)特征提取的同時(shí)能夠更準(zhǔn)確有效地進(jìn)行網(wǎng)絡(luò)訓(xùn)練。
為解決水下圖像在顏色恢復(fù)的同時(shí)細(xì)節(jié)丟失的問題,本文提出MsCM,如圖1所示。為獲取不同尺度的特征信息,利用MsCM模塊將FEM得到的特征圖像分解成不同尺度的圖像。由于層數(shù)越少,提取的細(xì)節(jié)和特征就越少,而層數(shù)越多,提取的細(xì)節(jié)信息也越多,但是會(huì)帶來一些細(xì)節(jié)信息的冗余,增加網(wǎng)絡(luò)的復(fù)雜度。因此,所提方法將FEM得到的特征圖像分解成3個(gè)尺度的圖像。同時(shí)考慮到將原始圖像經(jīng)過特征提取之后,可能存在最先提取的特征逐漸減弱的問題,因此,也將原始圖像分成3個(gè)不同尺度的圖像,并與多尺度特征圖像對(duì)應(yīng)級(jí)聯(lián)。這樣可以有效利用不同尺度的稀疏性,通過不同尺度的圖像處理不同的細(xì)節(jié)特征,在進(jìn)行顏色校正的同時(shí)保留更多圖像細(xì)節(jié)信息。
MsCM由3個(gè)多尺度子網(wǎng)絡(luò)模塊(Sub-net i, i =1, 2, 3)組成,多尺度子網(wǎng)絡(luò)如圖1所示。在MsCM中,為了盡可能多地提高特征利用率,降低單個(gè)子網(wǎng)絡(luò)的復(fù)雜度,以遞歸的方式構(gòu)建子網(wǎng)絡(luò)中間層。每一個(gè)多尺度子網(wǎng)絡(luò)都由一個(gè)3×3 的C o n v,LReLU, 3個(gè)Recursive block和一個(gè)1×1的Conv組成。其中Recursive block的組成如圖3所示。3層多尺度子網(wǎng)絡(luò)結(jié)構(gòu)相同,但是每一層的輸入特征圖像和輸出圖像尺寸不同。最后,為了充分利用不同尺度間的相關(guān)信息,該模塊級(jí)聯(lián)3個(gè)多尺度子網(wǎng)絡(luò)的輸出。相應(yīng)地,根據(jù)多尺度子網(wǎng)絡(luò)每一層的特征選擇合適的損失函數(shù)來進(jìn)行訓(xùn)練,最終輸出增強(qiáng)后的水下圖像。
假設(shè)有水下圖像數(shù)據(jù)集{xi,yi},其中xi代表輸入的水下圖像,yj代表相應(yīng)的ground-truth,N代表訓(xùn)練數(shù)據(jù)的數(shù)量。為更好地解決在水下環(huán)境中出現(xiàn)的偽影、噪聲等問題,提高水下圖像的視覺質(zhì)量,多尺度級(jí)聯(lián)網(wǎng)絡(luò)使用Charbonnier損失[15]和SSIM損失[16]結(jié)合的方法來訓(xùn)練網(wǎng)絡(luò)。
Charbonnier損失是一種改進(jìn)的l2損失。相比l2損失,Charbonnier損失增加了一項(xiàng)正則項(xiàng),能更好地處理異常值,有效避免偽影的產(chǎn)生,提高網(wǎng)絡(luò)的性能。實(shí)驗(yàn)中Charbonnier損失分別訓(xùn)練3層子網(wǎng)絡(luò)。其中e設(shè)置為1e-6。Charbonnier損失表達(dá)式為
尺度越大的圖像擁有越多的背景信息、細(xì)節(jié)信息等,若僅用Charbonnier損失對(duì)3個(gè)子網(wǎng)絡(luò)層進(jìn)行訓(xùn)練,則會(huì)出現(xiàn)細(xì)節(jié)恢復(fù)不均。SSIM損失函數(shù)基于圖像的局部特征,更多地考慮到圖像的亮度、對(duì)比度和結(jié)構(gòu)等,訓(xùn)練出來的結(jié)果更加符合人眼的感知。SSIM損失函數(shù)的表達(dá)式為
為保留更多的高頻細(xì)節(jié)信息,所提方法在第3層子網(wǎng)絡(luò)中聯(lián)合Charbonnier損失和SSIM損失進(jìn)行訓(xùn)練,聯(lián)合損失的表達(dá)式為
其中,j表示子網(wǎng)絡(luò)層數(shù),j = 1,2,3。定性和定量的分析證明了所提損失函數(shù)對(duì)圖像增強(qiáng)來說是有利的。
為了充分驗(yàn)證所提出網(wǎng)絡(luò)模型的有效性,本章首先介紹實(shí)驗(yàn)所采用的數(shù)據(jù)集。設(shè)計(jì)實(shí)驗(yàn)1,通過從網(wǎng)絡(luò)消融實(shí)驗(yàn)、MsCM多尺度子網(wǎng)絡(luò)的層數(shù)、遞歸塊的數(shù)量以及損失函數(shù)這4個(gè)方面證明所提方法的有效性。設(shè)計(jì)實(shí)驗(yàn)2,對(duì)水下圖像增強(qiáng)方法與所提方法進(jìn)行定性對(duì)比。設(shè)計(jì)實(shí)驗(yàn)3,對(duì)水下圖像增強(qiáng)方法與所提方法進(jìn)行定量對(duì)比。為了公平比較,為每種水下圖像增強(qiáng)方法設(shè)置相同參數(shù);基于網(wǎng)絡(luò)的方法使用相同的訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。
本文選取兩類公開的水下數(shù)據(jù)集(共4個(gè)水下數(shù)據(jù)集)來進(jìn)行網(wǎng)絡(luò)的訓(xùn)練和測(cè)試。這些數(shù)據(jù)集包含水下暗場(chǎng)景圖像、水下退化的圖像和來自真實(shí)水下場(chǎng)景的圖像。為提高網(wǎng)絡(luò)模型的精度和增強(qiáng)網(wǎng)絡(luò)模型的穩(wěn)定性,訓(xùn)練過程中,輸入的水下圖像進(jìn)行隨機(jī)裁剪。訓(xùn)練完成后,通過測(cè)試集測(cè)試網(wǎng)絡(luò)模型。
本文使用Python3.6和 TensorFlow 1.12.0完成網(wǎng)絡(luò)模型的搭建,并使用Adam優(yōu)化器進(jìn)行訓(xùn)練。所有實(shí)驗(yàn)(訓(xùn)練/測(cè)試)均在NVIDIA GeForce GTX 1080Ti和12 GB GPU內(nèi)存的服務(wù)器上進(jìn)行。其中,學(xué)習(xí)率為0.001,patch大小為80,批處理的數(shù)量為10,整個(gè)網(wǎng)絡(luò)的迭代次數(shù)為200000。
兩類公開的水下數(shù)據(jù)集都包含有原始水下圖像與相應(yīng)的ground-truth圖像對(duì)。這些數(shù)據(jù)集分別是Li等人[17]提出的水下圖像增強(qiáng)基準(zhǔn) (Underwater Image Enhancement Benchmark, UIEB) 數(shù)據(jù)集和Islam等人[18]提出的增強(qiáng)水下視覺感知 (Enhancement of Underwater Visual Perception, EUVP) 數(shù)據(jù)集,其中,EUVP數(shù)據(jù)集又分為3個(gè)子集:第1個(gè)子集是合成的水下暗場(chǎng)景圖像,用EUVP1表示。第2個(gè)子集是用ImageNet生成的退化水下圖像,用EUVP2表示。第3個(gè)子集是真實(shí)水下場(chǎng)景圖像,用EUVP3表示。上述數(shù)據(jù)集的詳細(xì)劃分如表1所示。

表1 4種不同水下數(shù)據(jù)集的劃分
為確保實(shí)驗(yàn)結(jié)果更具有說服力,本文分別采用有參考評(píng)價(jià)指標(biāo)和無參考評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行客觀評(píng)價(jià)。以下為兩類圖像質(zhì)量評(píng)價(jià)指標(biāo)的詳細(xì)說明。
3.3.1 有參考評(píng)價(jià)指標(biāo)
目前針對(duì)有g(shù)round-truth的水下圖像進(jìn)行客觀評(píng)價(jià)時(shí)常采用有參考質(zhì)量評(píng)價(jià)指標(biāo),經(jīng)常使用的有參考指標(biāo)有:
(1) 結(jié)構(gòu)相似性指數(shù) (SSIM)[16]:SSIM可以從圖像的亮度、對(duì)比度和結(jié)構(gòu)3個(gè)方面來衡量圖像的相似度,取值范圍為[0, 1]。SSIM值越大,圖像失真越小。當(dāng)SSIM等于1時(shí),表示兩張圖像完全相同。
(2) 峰值信噪比(Peak Signal to Noise Ratio,PSNR):PSNR是峰值信號(hào)的能量與噪聲的平均能量比。因?yàn)镻SNR是基于誤差敏感的圖像質(zhì)量評(píng)估,評(píng)估結(jié)果可能與人的主觀感受不一致。PSNR的值越大,圖像質(zhì)量越好。
(3) 基于塊的對(duì)比度質(zhì)量指數(shù)(Patch-based Contrast Quality Index, PCQI)[19]:PCQI在每個(gè)塊中計(jì)算平均強(qiáng)度、信號(hào)強(qiáng)度和信號(hào)結(jié)構(gòu),并在這3個(gè)角度對(duì)圖像的失真進(jìn)行評(píng)價(jià)。PCQI可以用來比較兩張圖像之間的對(duì)比度差異,PCQI的值越高,圖像的對(duì)比度越高。
3.3.2 無參考評(píng)價(jià)指標(biāo)
在自然場(chǎng)景下獲取水下圖像的ground-truth并不存在。對(duì)于這種類型的圖像,可以采用無參考質(zhì)量評(píng)價(jià)指標(biāo)進(jìn)行評(píng)價(jià)。其中,Blur指標(biāo)[20]主要用來描述圖像的模糊程度,其首先使用低通濾波器獲得原圖的退化圖像,其次比較二者相鄰像素值的變化情況,根據(jù)變化值比例的大小確定原圖清晰度,取值范圍為[0, 1],值越低,表示原圖像模糊程度越低,即圖像越清晰。
為了保證所提出方法的通用性,選擇了若干基于模型和基于網(wǎng)絡(luò)的水下圖像增強(qiáng)方法進(jìn)行比較。其中:
基于模型的水下圖像增強(qiáng)方法有:(1) 最大亮度先驗(yàn)(Maximum Intensity Prior, MIP)[21]。(2)利用背景光統(tǒng)計(jì)模型和透射圖優(yōu)化的水下圖像增強(qiáng)(Statistical Model of Background Light and Optimization of Transmission, SMBLOT)[22]。(3) 水下暗通道先驗(yàn)(Underwater Dark Channel Prior,UDCP)[23]。(4) 基于快速場(chǎng)景深度估計(jì)模型的水下圖像恢復(fù)(Underwater Light Attenuation Prior,ULAP)[24]。(5) 瑞利拉伸和合成雙強(qiáng)度圖像的水下圖像增強(qiáng)(Rayleigh-stretching and Dual-intensity,RD)[25]。(6) 基于圖像模糊和光吸收的水下圖像恢復(fù)(Image Blurriness and Light Absorption,IBLA)[26]。
基于網(wǎng)絡(luò)的水下圖像增強(qiáng)方法有:(1) 先驗(yàn)啟發(fā)式的水下圖像增強(qiáng)(UnderWater image enhancement Convolutional Neural Network model based on underwater scene prior, UWCNN)[10]。(2) 基于水下生成對(duì)抗網(wǎng)絡(luò)的水下圖像恢復(fù)(Underwater Generative Adversarial Network, UWGAN)[11]。(3) 使用條件對(duì)抗網(wǎng)絡(luò)的圖像轉(zhuǎn)換方法(Pix2pix)[27]。(4) 使用循環(huán)一致對(duì)抗網(wǎng)絡(luò)的非配對(duì)圖像轉(zhuǎn)換方法(Cycle-consistent Generative Adversarial Network, CycleGAN)[12]。
對(duì)于UWCNN[10]方法由于作者只提供了預(yù)訓(xùn)練模型,本文只在給定的預(yù)訓(xùn)練模型上進(jìn)行測(cè)試和評(píng)價(jià)。
3.4.1 實(shí)驗(yàn)1:多尺度級(jí)聯(lián)網(wǎng)絡(luò)有效性
為了進(jìn)一步證明所提出框架的有效性和必要性,本實(shí)驗(yàn)分別從網(wǎng)絡(luò)消融實(shí)驗(yàn)、MsCM多尺度子網(wǎng)絡(luò)的層數(shù)、遞歸塊的數(shù)量以及損失函數(shù)這4個(gè)方面進(jìn)行分析。由于空間有限,本文僅以UIEB數(shù)據(jù)集為例給出證明,表格中加粗顯示的數(shù)據(jù)為最優(yōu)值。
(1) 網(wǎng)絡(luò)消融實(shí)驗(yàn)。本實(shí)驗(yàn)把網(wǎng)絡(luò)各組成部分分為:
A: 特征提取模塊;B: 輸入圖像多尺度分解;C: 多尺度子網(wǎng)絡(luò)。
對(duì)網(wǎng)絡(luò)框架結(jié)構(gòu)的定量評(píng)價(jià)如表2所示,從中可以看出,所提方法在SSIM和Blur評(píng)價(jià)指標(biāo)中都取得了最優(yōu)值。雖然PSNR值略低,但PSNR是基于誤差敏感的圖像質(zhì)量評(píng)價(jià),數(shù)值和人眼看到的視覺質(zhì)量并不完全一致。綜合主觀與客觀評(píng)價(jià)表明,本文所提網(wǎng)絡(luò)框架可以保留更多的細(xì)節(jié)特征,具有有效性。

表2 對(duì)網(wǎng)絡(luò)框架結(jié)構(gòu)的定量評(píng)價(jià)
(2) MsCM多尺度子網(wǎng)絡(luò)層數(shù)的有效性。在MsCM的多尺度子網(wǎng)絡(luò)中,層數(shù)的選擇非常重要,層數(shù)越少,提取的細(xì)節(jié)和特征就會(huì)越少,從而導(dǎo)致無法更好地增強(qiáng)水下圖像。層數(shù)越多,雖然可以提取到更多的細(xì)節(jié)和特征,但相應(yīng)地也會(huì)帶來一些細(xì)節(jié)特征的冗余,增加網(wǎng)絡(luò)的復(fù)雜度和參數(shù)量。表3展示了多尺度子網(wǎng)絡(luò)層數(shù)與對(duì)應(yīng)的量化評(píng)價(jià)結(jié)果。從表3可以看出,當(dāng)多尺度子網(wǎng)絡(luò)選擇3層時(shí),在PSNR, SSIM評(píng)價(jià)指標(biāo)上效果最好,雖然Blur和PCQI值略顯遜色,但在主觀評(píng)價(jià)時(shí)處理效果相差甚微。為取得參數(shù)量與細(xì)節(jié)保持效果的折中,本實(shí)驗(yàn)將MsCM中多尺度子網(wǎng)絡(luò)的層數(shù)設(shè)置為3。

表3 對(duì)多尺度子網(wǎng)絡(luò)層數(shù)的定量評(píng)價(jià)
(3) 遞歸塊數(shù)量的有效性。在MsCM的多尺度子網(wǎng)絡(luò)中,為每層子網(wǎng)絡(luò)引入遞歸塊是為了加強(qiáng)特征的傳播、提高特征的利用率。如表4可見,當(dāng)每層子網(wǎng)絡(luò)的遞歸塊為3時(shí),所提網(wǎng)絡(luò)模型在SSIM和Blur中均取得最優(yōu)值,雖然PSNR和PCQI的取值不是最優(yōu),但相差較小。為了盡可能減少參數(shù)的使用,降低多尺度網(wǎng)絡(luò)模型的復(fù)雜度,本實(shí)驗(yàn)把每層子網(wǎng)絡(luò)的遞歸塊設(shè)置為3。

表4 對(duì)多尺度子網(wǎng)絡(luò)中遞歸塊的定量評(píng)價(jià)
(4) 損失函數(shù)的有效性。為證明所提損失函數(shù)的有效性,分以下幾種情況對(duì)網(wǎng)絡(luò)框架進(jìn)行訓(xùn)練:(1) 僅有l(wèi)1;(2) 僅有Charbonnier;(3) l1+SSIM;(4) Charbonnier + SSIM。
評(píng)價(jià)結(jié)果如表5所示。僅用l1損失函數(shù)或l1+SSIM損失函數(shù)訓(xùn)練出來的效果較差。Charbonnier損失函數(shù)和SSIM損失函數(shù)效果最好。

表5 對(duì)損失函數(shù)的定量評(píng)價(jià)
3.4.2 實(shí)驗(yàn)2:水下圖像增強(qiáng)方法定性分析
為了進(jìn)一步證明所提方法可以更好地增強(qiáng)各種環(huán)境下的水下圖像,本實(shí)驗(yàn)對(duì)幾種水下圖像增強(qiáng)方法和本文方法進(jìn)行定性評(píng)價(jià)并分析。
(1) UIEB數(shù)據(jù)集上的定性評(píng)價(jià)。圖4展示了UIEB數(shù)據(jù)集上本文方法與其他先進(jìn)方法處理效果的視覺對(duì)比。因?yàn)樗屡臄z的圖像包含不同類型的偏色,例如偏綠、偏黃、偏藍(lán)等,尤其在深海領(lǐng)域,拍攝的圖像會(huì)出現(xiàn)嚴(yán)重色偏的情況。即使有的方法可以去除色偏,卻不能保留更多的細(xì)節(jié)信息。為驗(yàn)證所提出網(wǎng)絡(luò)模型能夠在解決嚴(yán)重色偏的同時(shí),可以有效去除后向散射,保留更多的細(xì)節(jié)和特征信息,本實(shí)驗(yàn)選取幾組有嚴(yán)重色偏的水下圖像進(jìn)行實(shí)驗(yàn)對(duì)比。
圖4(a)—圖4(c)是水下拍攝的深綠色圖像,圖4(d)是水下拍攝的深黃色圖像,圖4(e)和圖4(f)是水下拍攝的深藍(lán)色圖像。由此可知,選取的幾種水下圖像增強(qiáng)方法均有不同程度的色偏和細(xì)節(jié)丟失。雖然RD[25]方法在顏色校正部分效果很好,但丟失大量細(xì)節(jié),且在圖4(f)的處理結(jié)果中產(chǎn)生了明顯噪聲。本文結(jié)果圖像保留了更多的細(xì)節(jié)和特征,在視覺感知方面表現(xiàn)最優(yōu)。
(2) EUVP數(shù)據(jù)集上的定性評(píng)價(jià)。圖5、圖6、圖7分別展示了在EUVP1數(shù)據(jù)集、EUVP2數(shù)據(jù)集、EUVP3數(shù)據(jù)集上的定性比較。由圖可知,雖然CycleGAN[12]方法在顏色校正方面效果較好,但是在處理后向散射和細(xì)節(jié)方面沒有本文結(jié)果好。RD[25]方法和IBLA[26]方法局部增強(qiáng)過度,導(dǎo)致部分細(xì)節(jié)丟失。因此,本文方法對(duì)于處理水下暗場(chǎng)景的圖像、退化的圖像和來自真實(shí)水下場(chǎng)景的圖像都能得到很好的結(jié)果。
(3) 其他情況的增強(qiáng)效果。本文方法在處理后向散射、細(xì)節(jié)丟失等惡劣的水下圖像方面也達(dá)到了很好效果。如圖8所示,其中圖8(a)—圖8(c)是一組具有嚴(yán)重后向散射的原始水下圖像及其增強(qiáng)后的結(jié)果圖,圖8(d)—圖8(f)是一組細(xì)節(jié)嚴(yán)重缺失的原始水下圖像及其增強(qiáng)后的結(jié)果圖。從結(jié)果中看出本文方法在去除后向散射的同時(shí)可以保留更多的細(xì)節(jié)信息。例如圖8(e)中的 “水草”和“魚的紋理”等細(xì)節(jié)都被很好地保留下來。
3.4.3 實(shí)驗(yàn)3:水下圖像增強(qiáng)方法定量分析
為證明所提方法優(yōu)于其他的水下圖像增強(qiáng)方法,本實(shí)驗(yàn)把有參考評(píng)價(jià)指標(biāo)和無參考評(píng)價(jià)指標(biāo)相結(jié)合,分別通過PSNR, SSIM, PCQI, Blur這4種評(píng)價(jià)指標(biāo)對(duì)幾種水下圖像增強(qiáng)方法和所提方法進(jìn)行定量評(píng)價(jià)并分析。
(1) PSNR定量評(píng)價(jià)。PSNR是最普遍和使用最為廣泛的一種圖像客觀評(píng)價(jià)指標(biāo),一般是用于最大值信號(hào)和背景噪聲之間。每個(gè)數(shù)據(jù)集的測(cè)試圖像的平均PSNR值在表6中。從表6中可以發(fā)現(xiàn)本文方法與大多數(shù)對(duì)比方法相比,數(shù)值是最好的。雖然Pix2pix[27]方法在幾種數(shù)據(jù)集上的平均PSNR高于所提出的方法的數(shù)值,但是由于PSNR是基于對(duì)應(yīng)像素點(diǎn)間的誤差,即基于誤差敏感的圖像質(zhì)量評(píng)價(jià)。人眼的視覺對(duì)于誤差的敏感度并不是絕對(duì)的,其感知結(jié)果會(huì)受到許多因素的影響而產(chǎn)生變化,PSNR的數(shù)值無法和人眼看到的視覺質(zhì)量完全一致。由圖4—圖7可知,Pix2pix[27]方法增強(qiáng)后的水下圖像均存在色偏問題。所以對(duì)于Pix2pix[27]方法來說,雖然PSNR較高,但是其處理所得的視覺效果卻沒有所提方法好。

表6 在4種數(shù)據(jù)集上的PSNR定量評(píng)價(jià)(dB)
(2) SSIM定量評(píng)價(jià)。從表7可以看出,本文方法在EUVP1, EUVP2數(shù)據(jù)集上的平均SSIM值取得最優(yōu)。雖然有個(gè)別方法的SSIM值高于所提出的方法,但是主觀視覺效果卻并不理想。因?yàn)镾SIM是從圖像的亮度、對(duì)比度和結(jié)構(gòu)3個(gè)方面來衡量圖像的相似度。由圖4和圖7可知,UWGAN[11]方法在UIEB數(shù)據(jù)集上和CycleGAN[12]方法在EUVP3數(shù)據(jù)集上都沒有很好地去除后向散射。綜合來看,本文方法更為理想。

表7 在4種數(shù)據(jù)集上的SSIM定量評(píng)價(jià)
(3) PCQI定量評(píng)價(jià)。PCQI用于描述兩張圖像之間對(duì)比度的差異,PCQI的值越高,圖像的對(duì)比度越高。由表8可以看出,本文在UIEB, EUVP3數(shù)據(jù)集上的平均PCQI值取得最優(yōu)。雖然在EUVP1,EUVP2數(shù)據(jù)集上,其他對(duì)比方法的值略好于所提出的方法,但是對(duì)比度越高,也會(huì)導(dǎo)致圖像出現(xiàn)失真的情況。由圖5和圖6可知,MIP[21]方法和ULAP[24]方法增強(qiáng)后的水下圖像存在色偏問題,SMBLOT[22]方法、RD[25]方法和IBLA[26]方法局部增強(qiáng)過度,導(dǎo)致部分細(xì)節(jié)信息丟失。綜合來看,本文方法有最優(yōu)的結(jié)果。

表8 在4種數(shù)據(jù)集上的PCQI定量評(píng)價(jià)
(4) Blur定量評(píng)價(jià)。從表9可以看出,所提出的方法在平均Blur值上也取得了令人較為滿意的結(jié)果。Blur評(píng)價(jià)指標(biāo)主要用于描述圖像的模糊程度。Blur的值越小,圖像越清晰。由圖5和圖6可知,MIP[21]方法、UDCP[23]方法、ULAP[24]方法和Pix2pix[27]方法增強(qiáng)后的水下圖像存在明顯色偏;SMBLOT[22]方法過度增強(qiáng),造成顏色失真;RD[25]方法和IBLA[26]方法雖然清晰度較好,但是由于局部增強(qiáng)過度,導(dǎo)致細(xì)節(jié)恢復(fù)方面不如本文方法;UWCNN[10]方法未能有效去除后向散射的問題;UWGAN[11]方法存在嚴(yán)重色偏問題,且細(xì)節(jié)大量丟失,增強(qiáng)后的效果極差。綜合來看,本文方法有最優(yōu)的結(jié)果。

表9 在4種數(shù)據(jù)集上的Blur定量評(píng)價(jià)
3.4.4 實(shí)驗(yàn)4:不同卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù)量分析
為證明本文優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu)在充分利用特征的同時(shí),可有效減少參數(shù)量,與DenseNet121網(wǎng)絡(luò)結(jié)構(gòu)及不同卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)量進(jìn)行了比較分析。其中不同卷積神經(jīng)網(wǎng)絡(luò)模型包括文中所述4種網(wǎng)絡(luò)方法以及MFFN[28],UMUEN[29]兩種多尺度網(wǎng)絡(luò)方法。根據(jù)表10可知,由于UWCNN為輕量級(jí)網(wǎng)絡(luò)模型,因此所提網(wǎng)絡(luò)模型比UWCNN參數(shù)略多,但相較DenseNet121網(wǎng)絡(luò)模型參數(shù)量為7.98M來說,所提網(wǎng)絡(luò)整體參數(shù)量?jī)H為1.41M。此外,對(duì)于其他網(wǎng)絡(luò)以及多尺度網(wǎng)絡(luò)而言,本文方法在參數(shù)量上也具有明顯優(yōu)勢(shì),競(jìng)爭(zhēng)力較強(qiáng)。

表10 不同卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù)量分析
惡劣環(huán)境下的水下圖像處理對(duì)水下活動(dòng)探索具有關(guān)鍵意義。本文提出一個(gè)新穎的通用的多尺度級(jí)聯(lián)網(wǎng)絡(luò)。通過FEM和MsCM多模塊設(shè)計(jì),多尺度級(jí)聯(lián)網(wǎng)絡(luò)有效解決了單一網(wǎng)絡(luò)層提取的特征有限的問題,并大幅降低了模型參數(shù)量。對(duì)不同尺度的特征進(jìn)行融合,可以有效保留更多的細(xì)節(jié)和特征。通過級(jí)聯(lián)原始圖像和FEM輸出的特征圖像,可以有效解決傳播過程中圖像特征減弱和消失的情況,提高特征的傳播效率和利用率。經(jīng)理論分析和充分的實(shí)驗(yàn)設(shè)計(jì)可見提出方法在不同水下場(chǎng)景中都能取得不錯(cuò)成效,具有較好的泛化能力。