張劍釗,郭繼昌,汪昱東
(天津大學 電氣自動化與信息工程學院,天津 300072)
水下可見光圖像是獲取海洋信息的重要來源之一,目前已經(jīng)廣泛應用于海洋能源開發(fā)、海洋環(huán)境保護、水下生物多樣性檢測和海洋軍事等多個領域.由于水下懸浮顆粒、活性有機物引起的散射以及光子能量隨水下傳播距離呈指數(shù)型衰減等原因,導致水下圖像顏色失真并主要呈現(xiàn)藍綠色,還伴隨著細節(jié)模糊、清晰度差、對比度低、噪聲明顯、亮度較低等問題,這嚴重降低了水下圖像質量,對后續(xù)相關的科學研究和實際應用帶來極大挑戰(zhàn),因此以提升圖像質量為目的的水下圖像增強算法有著重要的價值和意義.
水下圖像增強可以分為傳統(tǒng)的方法和基于深度學習的方法2類.傳統(tǒng)方法在一定程度上能夠提高水下圖像質量,但是魯棒性較差,不能得到穩(wěn)定可靠的結果.例如,Iqbal等[1-3]提出的方法能夠提升水下圖像的視覺質量,卻會出現(xiàn)不同程度的失真; Drews等[4]提出一種基于水下暗通道先驗的方法,該方法對不同水下場景的適應能力較差;Li等[5-6]提出一種基于最小化信息損失和直方圖先驗分布的水下圖像增強方法,該方法對于低亮度的水下圖像處理效果不佳;Akkaynak等[7]提出修正的水下光學成像模型,之后又改進該模型,引入RGB-D圖像有效地去除水下圖像的藍綠色偏差問題[8],但是RGB-D水下圖像數(shù)據(jù)集較難獲取,該方法較難遷移到其他的水下場景中.
隨著深度學習的發(fā)展,卷積神經(jīng)網(wǎng)絡能夠自適應地調整卷積核的參數(shù),學習原始水下圖像和增強圖像之間的非線性映射關系,從而更可靠地處理各種復雜的水下場景.Li等[9]通過生成對抗網(wǎng)絡將RGB-D圖像合成為水下圖像,并利用合成的水下圖像訓練神經(jīng)網(wǎng)絡;FABBRI等[10]通過循環(huán)生成對抗網(wǎng)絡生成了成對的水下圖像數(shù)據(jù)集用于訓練;Li等[11-12]提出的UWCNN模型,針對不同的水下圖像類型訓練不同的神經(jīng)網(wǎng)絡模型;Li等[13]通過融合白平衡(white balance, WB)[14]、直方圖均衡化[15](histogram equalization, HE)和伽馬校正(gamma correction,GC)3種傳統(tǒng)方法來進行水下圖像增強,WB能夠校正水下圖像的色偏,而HE和GC則提高水下圖像的對比度和亮度.Wang等[16]提出UIEC^2-Net,結合RGB、HSV空間以及注意力模塊對水下圖像進行增強;Li等[17]提出基于多顏色空間的Ucolor網(wǎng)絡,并在網(wǎng)絡中引入逆透射率(reverse medium transmission,RMT)圖像,將其作為權重信息用來引導水下RGB圖像增強.這些方法可以在一定程度上提高水下圖像的視覺質量,但是單純依靠神經(jīng)網(wǎng)絡學習參數(shù)再通過非線性映射得到增強圖像的方式,在復雜的水下成像環(huán)境中很難有效地學習到水下光學成像的特點及規(guī)律,導致結果缺乏可靠性,因此解決不同場景中水下圖像的質量退化問題仍然具有挑戰(zhàn)性.
為了有效提高水下圖像的視覺質量,本研究提出一種端到端的基于融合逆透射率圖的水下圖像增強網(wǎng)絡(underwater image enhancement network via fusing reverse medium transmission map, URMTNet).URMT-Net從跨模態(tài)跨尺度信息融合的新角度來構建網(wǎng)絡,令傳統(tǒng)水下圖像增強方法和基于深度學習的方法實現(xiàn)優(yōu)勢互補,使得卷積神經(jīng)網(wǎng)絡能夠更好地學習到水下光學成像的特點.將RGB圖像和RMT圖像作為輸入,以雙流編解碼器結構作為基礎框架,設計跨模態(tài)特征融合模塊,融合多尺度的RMT信息和RGB信息.通過特征增強模塊和殘差解碼模塊,在解碼器網(wǎng)絡中引導RGB流的解碼,減少信息損失,豐富特征的表達能力.URMT-Net由粗到細地逐級進行特征處理,最終輸出增強后的RGB圖像.實驗結果表明,URMT-Net能夠有效提升圖像的視覺質量.
目前在水下光學成像中,應用最為廣泛的模型為擴展的大氣散射模型[18]:
式中:c為RGB三通道;x為像素點對應的坐標位置;Ic(x) 為相機拍攝到的原始水下圖像;Jc(x)為清晰真實的圖像;Ac為背景光;(x)∈[0,1]為媒介透射率,表示場景輻射光未被散射到達相機的百分比.
式(1)中的媒介透射率可以使用文獻[19]的方法獲得較精確的結果:
式中:Ω (x) 為以x為中心點15×15大小的局部區(qū)域.用T(x)表示RMT圖像得
式中:T(x)∈[0,1].
RMT圖像能夠反映出水下光學成像物理規(guī)律,其像素點的數(shù)值越高,對應位置的RGB圖像退化越嚴重,也就需要更大的權重進行增強處理.以RMT圖像引導RGB圖像增強,能夠區(qū)分不同區(qū)域的重要程度,從而進行不同程度的自適應增強.
由于水下成像環(huán)境的復雜性,導致只采用一種增強方法難以有所突破,URMT-Net將傳統(tǒng)的水下圖像增強方法融入卷積神經(jīng)網(wǎng)絡中,以數(shù)據(jù)驅動的方式整合傳統(tǒng)方法和基于深度學習方法的優(yōu)勢,提升水下圖像質量,URMT-Net的結構示意圖如圖1所示.該網(wǎng)絡以雙流卷積神經(jīng)網(wǎng)絡為基礎架構,將RGB圖像和基于式(3)獲得的RMT圖像分別輸入2個獨立的編碼器中進行特征提取,取后3層的RGB特征和RMT特征通過跨模態(tài)特征融合模塊生成融合特征,并自適應的篩選標志性特征.之后在特征增強模塊中引導RGB流的解碼,增強特征對水下圖像質量退化區(qū)域的感知能力.URMT-Net由粗到細的實現(xiàn)逐級編解碼過程,在得到2倍下采樣的特征圖D2之后,逐步開始降維和壓縮特征,最后通過sigmoid激活函數(shù)輸出得到像素值為0~1.0的增強圖像,之后將像素值恢復到0~255.
在圖1中,Rn、Tn、Mn、Dn分別為經(jīng)過n倍下采樣的編碼器部分的RGB特征、RMT特征、兩者的融合特征以及解碼器部分的RGB特征.殘差解碼模塊通過殘差連接,以特征復用的方式利用Rn對Dn進行修正和補充,進一步抑制冗余特征,豐富細節(jié)信息.C為通道數(shù),未標注的地方如無特殊說明,默認為64通道,在保證精度的同時,減少計算量;使用的參數(shù)值為0.25的Leaky ReLU激活函數(shù),以減少信息損失.在D2到最后的輸出之間,為了去除冗余信息,卷積層后改用和3個模塊中一樣的ReLU激活函數(shù).

圖1 基于融合逆透射率圖的水下圖像增強網(wǎng)絡結構示意圖Fig.1 Architecture of underwater image enhancement network via fusing reverse medium transmission map
雙流卷積神經(jīng)網(wǎng)絡被廣泛應用于RGB-D顯著性檢測[20]中,通過雙分支信息流能夠有效地提取多模態(tài)特征.為了更高效地利用RGB和RMT信息,使用雙流卷積神經(jīng)網(wǎng)絡做特征提取器,如圖1所示.網(wǎng)絡的2個輸入(RGB圖像和RMT圖像)分別輸入到網(wǎng)絡的2個獨立信息流(RGB流和RMT流)之中.RGB流使用ImageNet數(shù)據(jù)集預訓練的ResNet-50[21]作為基礎網(wǎng)絡結構,去除最后一層池化層僅保留卷積層.為了減少信息損失,將其中的ReLU激活函數(shù)均換成參數(shù)值為0.25的Leaky ReLU激活函數(shù).ResNet-50共有5層卷積層,將每一層的輸出獨立取出,并分別通過5個獨立的1*1卷積,將通道數(shù)降維到64.每個卷積層均連接著批量標準化層(batch normalization layer)以及Leaky ReLU激活函數(shù),可以提取得到RGB信息的5種不同尺度的特征(R2、R4、R8、R16、R32).
雙流網(wǎng)絡通常會采取相同的網(wǎng)絡結構提取特征,但是基于式(3)得到的是精度有限的RMT圖像,存在一定的估計誤差,需要通過神經(jīng)網(wǎng)絡強大的學習能力進行校正,并且不能占用太大的計算量,因此本研究設計了一個簡單有效的針對RMT圖像的特征提取器,如圖2所示.在圖2中,前3層網(wǎng)絡使用步長為2的1*1卷積塊升維和下采樣,進行精細化調整,并將通道數(shù)從1升維至16、32、 64.第3層網(wǎng)絡在1*1卷積塊后還增加了步長為1、通道數(shù)為64的3*3卷積塊做更精細化的處理,每一層卷積層后都連接著批量標準化層和參數(shù)值為0.25的Leaky ReLU激活函數(shù),最后2層網(wǎng)絡使用步長為2、3*3大小的最大池化下采樣層去除冗余信息.

圖2 逆透射率流的特征提取器Fig.2 Feature extractor of reverse medium transmission stream
由于淺層特征含有噪聲較大,并且會導致計算量指數(shù)倍增長,因此只選擇RGB信息流的后3層特征(R8、R16、R32)以及RMT信息流的后3層特征圖(T8、T16、T32)成對地進行特征融合,得到圖1中的融合特征(M8、M16、M32),并從深層特征開始逐級輸入解碼器網(wǎng)絡,使深層特征能夠指導淺層特征,由深到淺、由粗到細地進行跨模態(tài)跨尺度的信息交互和信息融合,鼓勵特征復用以減少信息損失,抑制冗余特征,細化有效特征.
在雙流網(wǎng)絡中,跨模態(tài)融合2條分支的特征能夠豐富特征信息,提高網(wǎng)絡的性能,考慮到在水下圖像增強任務中,更加需要關注的是圖像色彩信息,尤其是圖像質量退化的區(qū)域,因此提出一種能自適應選擇有效特征的跨模態(tài)特征融合模塊,如圖3所示.

圖3 所提跨模態(tài)特征融合模塊Fig.3 Proposed cross-modality feature fusion module
該模塊使用不同感受野的卷積層分別對RGB特征、RMT特征以及兩者的混合特征進行處理:使用3*3卷積提取RGB特征;使用填充率d=2,擴張率為2的3*3空洞卷積,通過5*5的感受野大小來提取RMT特征,獲得豐富的局部區(qū)域特征;使用1*1卷積精細地處理RGB和RMT特征相加得到的混合特征,之后將這3種特征拼接在一起,再使用1*1卷積進行降維,得到粗糙的融合特征,再以該融合特征為輔助信息對混合特征進行特征調制,通過自模態(tài)和跨模態(tài)信息間的交互和融合,整合互補信息,使得網(wǎng)絡能夠自適應地選擇與圖像質量退化相關的特征,最終獲得精細的多模態(tài)融合特征,豐富全局信息.
為了進一步增強特征對圖像質量退化區(qū)域的感知能力,豐富局部信息,提出特征增強模塊.將融合特征Mn作為輔助信息,對解碼器中的RGB特征Dn進行調制,再使用殘差連接的方式強化該特征,之后經(jīng)過2次卷積的RGB特征作為輔助信息再次對其進行特征調制,最后通過殘差連接進行信息的補充和增強.該模塊通過殘差連接使RGB特征多次復用,可以有效地抑制冗余特征,減少信息損失,自適應地增強輸出特征的表達能力,同時防止梯度消失,優(yōu)化網(wǎng)絡學習過程,增強網(wǎng)絡的穩(wěn)定性,特征增強模塊如圖4所示.

圖4 所提特征增強模塊Fig.4 Proposed feature enhancement module
為了能夠有效訓練URMT-Net,選取3個損失函數(shù)分別為均方誤差損失(mean square error loss)Lm,結構相似性損失(structural similarity loss)[22]Ls以及感知損失(perceptual loss)[23]Lp.其中均方誤差損失函數(shù)能夠保持圖像內容的穩(wěn)定性,結構相似性損失能夠保持圖像整體結構的穩(wěn)定性,感知損失能夠保持圖像語義信息的穩(wěn)定性.衡量三者的重要性賦予它們不同的權重,通過加權求和的方式得到網(wǎng)絡的總損失函數(shù):
式中:Lf為網(wǎng)絡的總損失函數(shù),權重系數(shù)λ1、λ2、λ3分別取1.0、2.0、1.0.均方誤差損失函數(shù)為
式中:J? 為參考圖像,J為輸出的增強圖像,兩者均為H行W列個像素點.結構相似性為
式中:x、y分別為以p為中心像素的11×11大小的參考圖像和輸出圖像的圖像塊;α 、β為2種信息的權重,通常均取1.0;l(x,y)為參考圖像與輸出的增強圖像間的亮度相似度函數(shù),c(x,y)為對比度相似度函數(shù).
式中:μx、μy為2幅圖像的平均值,表示亮度信息;σx、σy為標準差,表示對比度信息;σxy為協(xié)方差,表示結構的相似程度;C1、C2取值分別為0.02、0.03.則結構相似性損失為
式中:K為圖像中像素點的總個數(shù).
感知損失是基于預訓練的VGG網(wǎng)絡提出:
式中:φj為VGG第j層的輸出,選擇VGG-16的conv4_3卷積層來測量參考圖像J?和輸出的增強圖像J的特征信息之間的差距.
UIEB[13]數(shù)據(jù)集包含890幅真實水下圖像,對應的參考圖像是由50名志愿者從12種增強方法中選出的視覺質量最佳的圖像.該數(shù)據(jù)集的數(shù)量還不足以訓練本研究的URMT-Net,因此除了從UIEB數(shù)據(jù)集中選擇800張真實水下圖像外,還從合成水下圖像數(shù)據(jù)集[12]中加入1250張合成的水下圖像,總共2050張圖像作為訓練數(shù)據(jù)集.合成水下圖像數(shù)據(jù)集通過不同的衰減系數(shù),將清晰的RGB-D陸地圖像合成具有不同退化程度的水下圖像,共含有10種不同類型.測試數(shù)據(jù)集選擇額外的900張合成的水下圖像,再加上UIEB數(shù)據(jù)集中剩余的90張真實水下圖像,共990張圖像.
采用隨機梯度下降法(stochastic gradient descent,SGD),以“poly”策略[24]訓練網(wǎng)絡,初始學習率設置為0.1,批量處理大小為16 ,學習衰減率、動量、權重衰減系數(shù)分別設置為0.4500、0.9000和0.0005.為了增加訓練樣本,對所有訓練圖像進行數(shù)據(jù)增廣.將訓練圖像隨機裁剪到320×320大小、并進行隨機水平翻轉和參數(shù)值為0.05的隨機顏色抖動處理,初步訓練125個回合(epoch).之后為了獲得更好的魯棒性,在不使用數(shù)據(jù)增廣的情況下,以0.02的學習率,設置批量處理大小為6并采用梯度累加的方式,再訓練50個回合,一共訓練175個回合.使用的機器配置為NVIDA 1080Ti GPU.
主觀評價是通過人的視覺系統(tǒng)對圖像的視覺質量進行評價,各算法主觀視覺對比結果如圖5所示.選取6種水下圖像增強算法,包括2種以調整全局像素值提升圖像質量的傳統(tǒng)增強方法WB、HE和4種先進的基于深度學習的水下圖像增強算法Water-Net、UGAN、UWCNN、Ucolor.
如圖5的(I)~(III)所示,從合成水下圖像中選擇3張比較有代表性的圖像進行分析.從(b)RMT圖像中,可以看到確實能夠初步反映出不同位置的圖像的退化程度,但是精度有限.傳統(tǒng)方法WB、HE雖然能夠去除大部分藍色色調的影響,但是增強后的圖像存在局部過亮或過暗的情況,失真嚴重;Water-Net能夠明顯地去除一部分圖像的藍色色調,并且恢復良好的色彩、對比度和亮度,但是仍有部分圖像存在藍色色偏的問題;UGAN并不能有效地去除藍色和綠色色偏;UWCNN有10種不同的預訓練模型,本研究選取的是type-1模型,它導致圖像出現(xiàn)了多余的色彩和偽影;使用RMT圖像的Ucolor與URMT-Net相比,對比度偏低,亮度較暗.URMT-Net的結果在所對比的算法中取得了最佳的效果,但是同參考圖像相比還是偏向于黃色色調,這可能是訓練數(shù)據(jù)集中真實水下圖像的數(shù)量有限所導致的.
如圖5的(IV)~(VIII)所示,選取5張退化程度較為嚴重并且比較具有代表性的真實水下圖像進行分析,包含水下圖像中常見的藍色色偏、綠色色偏、黃色色偏或是亮度較低等問題.在這些圖像中WB、HE、UWCNN都出現(xiàn)不太可靠的增強結果,反映出這些算法存在魯棒性較差的問題.Water-Net、UGAN不能有效地色偏,整體對比度偏低,細節(jié)模糊,顏色失真較為明顯.Ucolor同樣沒能有效地處理色偏的問題,局部對比度偏低,整體亮度偏暗并且顏色不夠自然真實.URMT-Net在各種水下場景中,能夠比較穩(wěn)定有效地去除各種色偏,調整圖像過暗和過亮的區(qū)域,提升圖像的對比度、亮度和整體質量,使得色彩更真實自然,在部分圖像的視覺效果上能夠超過參考圖像.

圖5 各算法主觀視覺對比結果Fig.5 Subjective visual comparison of each algorithm
圖像質量的客觀評價具有可描述性和嚴謹性等優(yōu)勢,選取常在水下圖像評價中使用的6種客觀評價指標,包括3種全參考方法:均方誤差(mean square error, MSE)、峰值信噪比(peak signal to noise ratio,PSNR)、結構相似性(structural similarity,SSIM),以及3種無參考方法:信息熵(entropy)、水下圖像質量評估度量指標[25](underwater color image quality evaluation,UCIQE)、水下圖像質量指標[26](underwater image quality measure,UIQM).
MSE、PSNR都是基于參考圖像的全部信息為參考,通過統(tǒng)計參考圖像和待評價圖像的全部像素點信息進行比較,從而得到評價指標的結果.PSNR數(shù)值越大,MSE越小,則表示待評價圖像和參考圖像相似程度越高.SSIM也是基于參考圖像的信息為參考,主要是為了研究待評價圖像結構的失真程度,從亮度、對比度和協(xié)方差來評價兩者結構的相似性.
信息熵可以表示圖像含有的信息量,越高的熵值說明圖像信息越豐富,細節(jié)越好.UCIQE 是從圖像的色度、飽和度和對比度3個方面對水下圖像進行綜合評價,UIQM則是從圖像的色彩、清晰度和對比度來綜合評價水下圖像,數(shù)值越高一般說明圖像視覺質量越好.雖然UCIQE和UIQM指標都聲稱考慮人類的主觀視覺,在部分場景中還是會出現(xiàn)與人眼視覺感受不同的結果,所以往往需要結合主觀評價進行分析.合成數(shù)據(jù)集和真實數(shù)據(jù)集上各算法的客觀評價指標如表1、2所示.
表1中“↑”為越大越好,“↓”為越小越好,在所有的表格中,最優(yōu)值均使用加粗表示,次優(yōu)值用下劃線標注.從表1可以看出,在合成的水下圖像數(shù)據(jù)集中,URMT-Net在MSE、SSIM、Entropy上表現(xiàn)最好,在PSNR中表現(xiàn)次優(yōu),說明URMT-Net輸出的增強圖像在質量和結構上比較接近于參考圖像,Entropy值高還說明URMT-Net信息損失最少,細節(jié)保留得最好,所含信息最為豐富.在所對比的方法中,UCIQE和UIQM中表現(xiàn)一般,分別排在第2位和第3位.結合對圖像的主觀評價分析,URMT-Net的增強圖像在色彩和對比度上表現(xiàn)一般,卻顯得更加真實自然,而在這2個指標上獲得最優(yōu)表現(xiàn)的HE、UWCNN卻存在局部對比度過高、色彩過于飽和、圖像失真等問題,由此說明2個指標確實會出現(xiàn)與人眼視覺感受不一致的情況.綜合來看,與所對比的算法相比,URMTNet在合成水下圖像數(shù)據(jù)集中表現(xiàn)最佳,在保持水下圖像細節(jié)良好的情況下提高了水下圖像的視覺質量.

表1 合成數(shù)據(jù)集上各算法的客觀評價指標Tab.1 Objective evaluation indexes of each algorithm on synthesized datasets
從表2可以看出,在真實水下圖像數(shù)據(jù)集中,URMT-Net在MSE上表現(xiàn)最優(yōu),在PSNR、SSIM、Entropy上取得次優(yōu)的效果,并且與最優(yōu)值相差較小,在UCIQE和UIQM中均排在第3位,表現(xiàn)一般.結合URMT-Net在主觀評價中的表現(xiàn)來看,URMT-Net的效果與所對比算法相比,具有優(yōu)勢.綜上所述,URMT-Net的結果在真實數(shù)據(jù)集和合成數(shù)據(jù)集中均取得了不錯的效果,充分說明了URMT-Net在所對比的算法中具有較為明顯的優(yōu)勢.

表2 真實數(shù)據(jù)集上各算法的客觀評價指標Tab.2 Objective evaluation indexes of each algorithm on real datasets
為了進一步驗證各個模塊的作用,消融實驗主觀視覺對比結果如圖6所示,合成數(shù)據(jù)集和真實數(shù)據(jù)集上消融實驗的客觀評價指標如表3、4所示.消融實驗具體設置如下:1)無跨模態(tài)特征融合模塊,用Rn和Tn特征直接相加并進行一次3*3卷積處理,替代原本的特征融合模塊.在圖6、表3、4中簡寫為無特征融合模塊;2)無特征增強模塊,用Rn和An特征直接相加并進行一次3*3卷積處理,替代原本的特征增強模塊;3)無殘差解碼模塊,去除殘差解碼器模塊中的殘差連接部分.
在圖6中,各個實驗都能很好的消除色偏,相比于完整算法,主要是在局部細節(jié)上存在顏色失真,對比度偏低的問題.通過與完整的URMTNet的結果進行對比,驗證了各個模塊的作用,跨模態(tài)特征融合模塊能夠豐富全局信息并提高全局對比度,特征增強模塊則能豐富局部信息,殘差解碼模塊則是對細節(jié)進行了修正和補充.

圖6 消融實驗的主觀視覺對比結果Fig.6 Subjective visual comparison of ablation experiment
從表3、4得出,使用完整的URMT-Net在各項指標中幾乎都達到了最優(yōu)或次優(yōu)的效果,綜合主觀和客觀評價結果,完整的URMT-Net具備更明顯的優(yōu)勢.單獨去除某一個模塊并不會使得算法性能出現(xiàn)大幅下降,說明本研究所提各個模塊具有魯棒性和有效性.

表3 合成數(shù)據(jù)集上消融實驗的客觀評價指標Tab.3 Objective evaluation indexes of ablation experiment on synthesized datasets

表4 真實數(shù)據(jù)集上消融實驗的客觀評價指標Tab.4 Objective evaluation indexes of ablation experiment on real datasets
URMT-Net將水下光學成像模型有效地融入卷積神經(jīng)網(wǎng)絡中,從而讓網(wǎng)絡對水下圖像更具有針對性,能夠更好地學習到水下光學成像特點.利用深層網(wǎng)絡強大的學習能力有效降低了RMT圖像估計誤差所帶來的影響,由粗到細地進行跨模態(tài)跨尺度的信息交互和信息融合,最終能夠在各種水下場景中有效地去除圖像存在的色偏,提升圖像質量,獲得細節(jié)清晰、顏色真實自然的水下圖像.
通過消融實驗,驗證了跨模態(tài)特征融合模塊、殘差解碼模塊和特征增強模塊的有效性.對比其他算法,通過主觀和客觀的綜合評價,URMT-Net在水下合成數(shù)據(jù)集和真實數(shù)據(jù)集中都具有較為明顯的優(yōu)勢,說明將傳統(tǒng)方法和基于深度學習的方法相結合是具有研究價值的,但是以何種方式進行結合最為高效仍需探索.